大语言模型在儿童口腔预防医学领域问答的准确性比较

管伯颜; 许明鹤; 张惠淇; 马舒蕾; 张珊珊; 赵俊峰

口腔疾病防治 ›› 2025, Vol. 33 ›› Issue (04) : 313 -319.

管伯颜, 许明鹤, 张惠淇, 马舒蕾, 张珊珊, 赵俊峰

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的探讨国内大语言模型代表ChatGLM-6B与国外大语言模型代表ChatGPT3.5在儿童口腔预防医学领域问题回答的准确性差异，为国内大语言模型在口腔医学领域的研发提供思路。方法由儿童口腔预防专家从基础（n=35）、进阶（n=35）、深入（n=30）三个层次，提供了不同难度的共计100个常见儿童口腔预防医学领域问题，由2名医生分别输入到ChatGPT3.5和ChatGLM-6B中，并收集问题答案。由16名口腔医生按照预定义的3点Likert量表对ChatGLM-6B和ChatGPT3.5生成的答案进行评分，计算评分的平均分作为答案得分，答案得分高于2.8接受其为正确答案；答案得分低于1.4接受其为不正确答案；答案得分介于1.4～2.8，接受其为部分正确答案。比较2组生成答案的正确率及评分结果；对口腔医生评分进行一致性分析。结果ChatGPT3.5与ChatGLM-6B对100个儿童口腔预防医学领域问题的回答正确率相似：ChatGPT3.5回答正确率为68%，部分正确率为30%，不正确率为2%;ChatGLM-6B回答正确率为67%，部分正确率为31%，不正确率为2%，无统计学差异（P>0.05）;ChatGPT3.5与ChatGLM-6B回答不同难度（基础、进阶、深入）问题的准确性均无统计学差异（P>0.05）。ChatGPT3.5与ChatGLM-6B回答所有问题的整体平均得分均为2.65，无统计学差异（P>0.05）;ChatGPT3.5与ChatGLM-6B不同难度问题的得分：基础问题ChatGPT3.5平均得分2.66,ChatGLM-6B平均得分2.70；进阶问题ChatGPT3.5平均得分2.63,ChatGLM-6B平均得分2.64；深入问题ChatGPT3.5平均得分2.68,ChatGLM-6B平均得分2.61，均无统计学差异（P>0.05）。口腔医生评分具有一致性，评价范围为一般至中等。结论 ChatGLM-6B与ChatGPT3.5在回答儿童口腔预防医学领域问题方面均具有潜力。ChatGLM-6B在回答儿童口腔预防医学领域问题方面取得了与ChatGPT3.5相似的表现，但二者正确率均未达到预期，不能应用于临床。未来需要进一步提升大语言模型提供医疗信息的准确性和一致性，并研发适用于口腔医学领域的医疗大模型。