大型语言模型在中医执业医师资格考试中的表现与分析
向巴卓玛 , 王珍珍 , 赵岩松 , 马勤 , 倪磊 , 马星光
中医教育 ›› 2025, Vol. 44 ›› Issue (01) : 137 -142.
大型语言模型在中医执业医师资格考试中的表现与分析
Performance and analysis of large language models in the qualification examination for traditional Chinese medicine practitioners
目的 评估不同大型语言模型在中医执业医师资格考试中的应用表现。 方法 选用中医执业医师资格考试题库中的不同学科对文心一言4.0、ChatGPT4.0、百川大模型3.0、Claude3-Sonnet、智谱清言4.0共5种大型语言模型进行答题准确率测试。 结果 文心一言4.0和百川大模型3.0在中医不同学科上的总准确率最高,而智谱清言4.0的总准确率最低。从不同中医学科目上比较,5种模型在中医内科学和中药学上准确率较高,但在方剂学和中医经典等需要理解中医古文典籍或应用能力方面的科目上,模型准确率较低,且各模型之间存在差异。 结论 不同模型的表现差异表明,模型的表现受训练数据的内容、质量及模型自身逻辑推理能力等多方面因素的影响。随着人工智能技术的不断迭代发展,将模型作为教学辅助工具,有望推动教育领域的变革。通过加强模型在特定专业领域的训练,可以进一步提升模型对相关专业术语的理解和应用能力,更好地满足教学领域的实际需求,进而提升教学质量和学习效率。
人工智能 / 大型语言模型 / 中医执业医师资格考试 / 模型评价
artificial intelligence / large language models / qualification examination for traditional Chinese medicine practitioners / model evaluation
| [1] |
刘明,吴忠明,廖剑,大语言模型的教育应用:原理、现状与挑战:从轻量级BERT到对话式ChatGPT[J].现代教育技术,2023,33(8):19-28. |
| [2] |
徐如瑶.面向垂直领域的知识增强预训练语言模型[D].上海:华东师范大学,2023. |
| [3] |
陈慧敏,刘知远,孙茂松.大语言模型时代的社会机遇与挑战[J/OL].计算机研究与发展, (2024-02-20)[2024-04-05]. |
| [4] |
|
| [5] |
阮彤,卞俣昂,余广涯,医学大语言模型研究与应用综述[J].中国卫生信息管理杂志,2023,20(6):853-861. |
| [6] |
夏琪,程妙婷,薛翔钟,从国际视野透视如何将ChatGPT有效纳入教育:基于对72篇文献的系统综述[J].现代教育技术,2023,33(6):26-33. |
| [7] |
|
| [8] |
|
| [9] |
王野.教育领域人工智能基准测试:跨学科中文大型语言模型的综合评估[J].广西职业技术学院学报,2024,17(1):61-68. |
| [10] |
|
| [11] |
周棪忠,罗俊仁,谷学强,大语言模型视角下的智能规划方法综述[J/OL].系统仿真学报,(2024-03-08)[2024-04-10]. |
| [12] |
王静仪.大型语言模型技术的影响、挑战与应对策略[J].华东科技,2023(06):96-98. |
| [13] |
|
| [14] |
张峰,陈玮.ChatGPT与高等教育:人工智能如何驱动学习变革[J].重庆理工大学学报(社会科学版),2023,37(5):26-33. |
| [15] |
罗文,王厚峰.大语言模型评测综述[J].中文信息学报,2024,38(1):1-23. |
北京中医药大学哲学社会科学培育基金项目(2024-JYB-PY-006)
北京中医药大学教育科学研究课题(XJY22048)
/
| 〈 |
|
〉 |