基于思维链技术的语言模型Deep Seek-R1、GPT-4o与Claude-3.5 Sonnet在儿外科领域的表现评估

普健; 刘雪来; 谷庆隆

齐齐哈尔医学院学报 ›› 2025, Vol. 46 ›› Issue (19) : 1844 -1852.

普健, 刘雪来, 谷庆隆

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的本研究旨在评估采用思维链（Co T）技术的人工智能（AI）语言模型（Deep Seek-R1）与传统大语言模型（GPT-4o、Claude-3.5 Sonnet）在儿外科临床知识库应答任务中的性能差异，进而探索AI技术在医疗健康领域优化临床决策支持的可行性及潜在影响风险。方法研究团队构建标准化儿外科知识题库（n=147），涵盖先天性巨结肠、肛门闭锁及先天性胆总管囊肿三大疾病谱系，并从基础理论、临床诊断、治疗策略、并发症管理和预防措施五个维度设计问题。题库包含专业型问题（医生视角，n=79）与科普型问题（患者视角，n=68）。采用双盲法组织专业评估团队进行系统评分。此外，从既往临床病例中挑选罕见或诊断困难的病例问题，进一步评估三个模型的临床诊断能力，同时评估不同提问条件下AI临床诊断的差异。应用Kruskal-Wallis H检验进行多组独立样本间差异分析，若差异显著则进一步通过全部成对比较。采用卡方检验比较分类数据之间的表现差异。使用Cohen's kappa检验评估者之间的评分差异度。结果本研究对三个语言模型在儿外科场景的表现进行系统评估:（1）总体性能比较:Deep Seek-R1总体回答质量显著优于对照模型（H=23.42,P<0.001）,Deep Seek-R1准确率（87.07%）高于GPT-4o（63.27%）和Claude-3.5 Sonnet（67.35%）;（2）专业问题表现:三类模型在专业类问题中答案质量的差异尤为显著（H=26.50,P<0.001）;（3）科普问题表现:三类模型在患者教育类问题中均表现良好（准确率> 80%），组间差异无统计学意义（H=2.335,P=0.311），且未观察到明显错误答案;（4）病例分析能力:三种模型对于含完整辅助诊断信息的回答质量显著优于无辅助检查的病例问题[χ²（2）=1.983,P=0.371]。结论在儿外科的知识测评中，采用思维链技术的人工智能模型（Deep Seek-R1）在处理复杂问题时的表现优于GPT-4o和Claude-3.5 Sonnet，但三个模型的部分答案仍存在局限和潜在错误。此外，在使用AI处理临床问题时提供更全面的输入信息能显著提升回答准确率。