应用大语言模型回答先天性晶状体脱位患儿家长提问的效果

陈雨梦; 张越; 张武林; 杨国兴; 许衍辉; 韩爱军; 刘彩娟; 郭雨语; 陈志敏

山东大学学报(医学版) ›› 2026, Vol. 64 ›› Issue (05) : 88 -95.

陈雨梦, 张越, 张武林, 杨国兴, 许衍辉, 韩爱军, 刘彩娟, 郭雨语, 陈志敏

作者信息 +

Author information +

文章历史 +

摘要

目的评价国内开源大语言模型（large language model, LLM）回答先天性晶状体脱位（congenital ectopia-lentis, CEL）患儿家长常见诊疗问题时的准确性、完整性及情感支持性，探讨其作为CEL患儿家长健康教育智能助手的可行性。方法构建包含33个CEL诊疗问题的题库。由3位高年资白内障科医师，采用李克特量表对Kimi chat、豆包、DeepSeek-R1 3个LLM的答案进行盲法评价。基于初步评测结果，选择综合表现最优的DeepSeek-R1在完整题库上进行全面评估。结果在3个LLM中，DeepSeek-R1表现最佳。其在全部题目中的回答准确性（≥5分）、完整性（≥2分）和情感支持性（≥2分）的比例分别为78.8%、87.9%和69.7%,评估者推荐其答案的比例为75.8%（150/198）。其回答在治疗与预后、症状等方面表现优异，但在疾病诊断方面稍欠。DeepSeek-R1的回答字数多于人工回答（P<0.05）,且字数与答案完整性呈正相关（r_s≈0.608,P<0.05）。三位评分者间的一致性均高于0.700,信度良好。结论 DeepSeek-R1回答CEL相关诊疗问题具有较高的准确性、完整性和情感支持性，但其在疾病诊断方面的应用需保持谨慎。