大语言模型在儿童口腔预防医学领域问答的准确性比较

管伯颜, 许明鹤, 张惠淇, 马舒蕾, 张珊珊, 赵俊峰

口腔疾病防治 ›› 2025, Vol. 33 ›› Issue (04) : 313 -319.

PDF
口腔疾病防治 ›› 2025, Vol. 33 ›› Issue (04) : 313 -319.

大语言模型在儿童口腔预防医学领域问答的准确性比较

    管伯颜, 许明鹤, 张惠淇, 马舒蕾, 张珊珊, 赵俊峰
作者信息 +

Author information +
文章历史 +
PDF

摘要

目的 探讨国内大语言模型代表ChatGLM-6B与国外大语言模型代表ChatGPT3.5在儿童口腔预防医学领域问题回答的准确性差异,为国内大语言模型在口腔医学领域的研发提供思路。方法 由儿童口腔预防专家从基础(n=35)、进阶(n=35)、深入(n=30)三个层次,提供了不同难度的共计100个常见儿童口腔预防医学领域问题,由2名医生分别输入到ChatGPT3.5和ChatGLM-6B中,并收集问题答案。由16名口腔医生按照预定义的3点Likert量表对ChatGLM-6B和ChatGPT3.5生成的答案进行评分,计算评分的平均分作为答案得分,答案得分高于2.8接受其为正确答案;答案得分低于1.4接受其为不正确答案;答案得分介于1.4~2.8,接受其为部分正确答案。比较2组生成答案的正确率及评分结果;对口腔医生评分进行一致性分析。结果ChatGPT3.5与ChatGLM-6B对100个儿童口腔预防医学领域问题的回答正确率相似:ChatGPT3.5回答正确率为68%,部分正确率为30%,不正确率为2%;ChatGLM-6B回答正确率为67%,部分正确率为31%,不正确率为2%,无统计学差异(P>0.05);ChatGPT3.5与ChatGLM-6B回答不同难度(基础、进阶、深入)问题的准确性均无统计学差异(P>0.05)。ChatGPT3.5与ChatGLM-6B回答所有问题的整体平均得分均为2.65,无统计学差异(P>0.05);ChatGPT3.5与ChatGLM-6B不同难度问题的得分:基础问题ChatGPT3.5平均得分2.66,ChatGLM-6B平均得分2.70;进阶问题ChatGPT3.5平均得分2.63,ChatGLM-6B平均得分2.64;深入问题ChatGPT3.5平均得分2.68,ChatGLM-6B平均得分2.61,均无统计学差异(P>0.05)。口腔医生评分具有一致性,评价范围为一般至中等。结论 ChatGLM-6B与ChatGPT3.5在回答儿童口腔预防医学领域问题方面均具有潜力。ChatGLM-6B在回答儿童口腔预防医学领域问题方面取得了与ChatGPT3.5相似的表现,但二者正确率均未达到预期,不能应用于临床。未来需要进一步提升大语言模型提供医疗信息的准确性和一致性,并研发适用于口腔医学领域的医疗大模型。

关键词

大语言模型 / 儿童口腔医学 / 口腔预防医学 / 口腔医学 / ChatGPT / 人工智能 / 聊天机器人 / 医学

Key words

引用本文

引用格式 ▾
大语言模型在儿童口腔预防医学领域问答的准确性比较[J]. 口腔疾病防治, 2025, 33(04): 313-319 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

89

访问

0

被引

详细

导航
相关文章

AI思维导图

/