PDF
摘要
目的:儿童白内障发生于视觉发育关键期,早期干预对避免不可逆视力损害至关重要。患儿及家长的健康素养及自我管理能力直接影响治疗依从性与预后。目前人工智能快速发展,本研究旨在评估国内开源大语言模型(large language model,LLM)回答儿童白内障患者常见诊疗问题的准确性、完整性及可重复性,探讨其作为儿童白内障患者在线健康信息资源工具的应用潜力。方法:研究团队从主流互联网医疗平台收集2016年以来患者真实提问,将其归纳为危险因素、疾病诊断、症状与分期、筛查与检查、治疗与预后5大类别。经专家审核最终确定40个高关注度问题并给出人工回答。选取4个国内开源LLM(Kimi chat、豆包、文心一言3.5、DeepSeek),每题重复提问4次,其中2次加入“患者-医师”角色提示。由3位副主任及以上职称白内障专科医师采用4级准确性、3级完整性及3级重复性量表盲法对所有回答评分。研究采用2阶段评估方案,第1阶段选择公认难度较低的6个题目对4个LLM进行初步测评;第2阶段则对第1阶段得分最高的LLM进行题库中40个题目的完整评估。结果:在第1阶段评估中,无论是否加入角色提示,在4个LLM中,Kimi chat表现最佳,其次为豆包和文心一言3.5,最后为DeepSeek。Kimi chat准确性评分为4及完整性评分、重复性评分为3的比例均优于豆包、文心一言3.5、DeepSeek。第2阶段评估中Kimi chat完成全部40题评估,其回答平均字数为531(277,1 059)字,显著高于人工的369(162,707)字(Z=-4.096,P<0.001),但字数与准确性、完整性均无显著相关性(均P>0.05)。在总体240次回答中,准确性≥3分的比例为83.8%,完整性=3分的比例为77.9%,重复性≥70%的比例为66.7%。62.1%(149/240)的评估者首选Kimi chat答案,未选原因包括答非所问、争议性建议及冗余信息。结论:测评国内开源LLM特别是Kimi chat在儿童白内障健康教育场景下表现较佳,可为家长提供准确性、完整性、可重复性良好的医学信息。LLM在医疗健康领域的应用具有巨大潜力,但存在信息安全、“幻觉”现象和偏见等问题,目前仍无法取代临床医师。未来LLM有望通过与医师协同工作,为患者提供更高效、个性化的医疗服务,推动医疗健康领域的发展。
关键词
儿童白内障
/
大语言模型
/
医学人工智能
/
健康咨询
/
疾病预后
Key words
大语言模型在儿童白内障患者健康教育中的应用[J].
中南大学学报(医学版), 2025, 50(10): 1716-1726 DOI: