颈部单中心型Castleman病临床辅助诊疗中ChatGPT o1和Claude 3.5 Sonnet的应用比较研究

潘鑫; 郜飞; 陈亭亭; 朱一鸣; 程小凌; 梁江盟; 岳天宇; 张政; 雷齐鸣; 卫旭东

中国耳鼻咽喉颅底外科杂志 ›› 2025, Vol. 31 ›› Issue (6) : 76 -82.

潘鑫, 郜飞, 陈亭亭, 朱一鸣, 程小凌, 梁江盟, 岳天宇, 张政, 雷齐鸣, 卫旭东

作者信息 +

Author information +

文章历史 +

摘要

目的研究并对比分析ChatGPT o1与Claude 3.5 Sonnet在解答颈部单中心Castleman病相关常见问题时的差异。方法围绕颈部单中心Castleman病设计36个常见问题，收集并输入到ChatGPT o1与Claude 3.5 Sonnet搜索引擎中，由耳鼻咽喉头颈外科学教授分别对ChatGPT o1和Claude 3.5 Sonnet生成的回答进行独立评估，评估内容涵盖回答内容的可读性、准确性、质量、易理解程度以及实际可操作性。结果在可读性方面，Claude 3.5 Sonnet在所有类别中生成的回答字数更简短(189.36±69.09 vs. 381.56±153.28,P<0.05),具有更低的阅读分数(1.68±5.64 vs. 11.20±11.16,P<0.05),年级分数更高(54.93±35.81 vs. 16.70±2.03,P<0.05)。在患者教育材料评估工具(PEMAT-P)评分衡量的可理解性和可操作性方面，Claude 3.5 Sonnet表现出更高的总体可理解性(0.38±0.17 vs. 0.06±0.05,P<0.05)和可操作性(0.25±0.22 vs. 0.08±0.09,P=0.015)。然而，ChatGPT o1的总体准确度分数更高(4.88±0.28 vs. 4.58±0.37,P=0.002 2),并在修改后的基于证据的患者教育信息质量评估工具(EQIP)标准下获得了更好的质量分数(7.47±1.28 vs. 5.75±1.20,P<0.05)。结论 Claude 3.5 Sonnet在简洁性、可理解性和可操作性方面占优势，而ChatGPT o1在准确性、整体质量和可读性上更胜一筹。