大语言模型在中医领域的标准化评估

曹露, 许林, 张宇洁, 张林帅, 付亚琴, 蒋涛

南京中医药大学学报 ›› 2024, Vol. 40 ›› Issue (12) : 1383 -1392.

PDF
南京中医药大学学报 ›› 2024, Vol. 40 ›› Issue (12) : 1383 -1392. DOI: 10.14148/j.issn.1672-0482.2024.1383

大语言模型在中医领域的标准化评估

    曹露, 许林, 张宇洁, 张林帅, 付亚琴, 蒋涛
作者信息 +

Author information +
文章历史 +
PDF

摘要

目的 针对目前大语言模型(LLMs)在中医学领域测评中的空缺,设计并构建一个中医学测评基准数据集,以对LLMs在中医学知识的掌握与推理表现进行全面、客观地评测,从而为LLMs在中医领域的性能优化提供科学、可靠的依据。方法 从中医标准化考试和教科书中收集数据,构建了一个涵盖13个学科共29 506道题的中医测评基准数据集。实验共选取了3个通用模型(GPT3.5、ChatGLM3、Baichuan)和5个中文医疗模型(PULSE、BenTsao、HuatuoGPT2、BianQue2、ShenNong),对它们在答案预测能力和答案推理能力进行全面评测。测评结果使用准确率、F1值、BLEU、Rouge等指标进行量化评估。结果 答案预测实验的结果显示,Baichuan在单项选题中准确率最高,为36.07%;ChatGLM3在多项选题中准确率和F1值最高,为18.96%和76.31%。答案推理实验的结果显示,Baichuan在BLEU-1分值最高,为24.71;ChatGLM3在Rouge-1分值最高,为44.64。结论 通用LLMs整体表现略优于中文医疗LLMs,同时所有模型在选择题上的准确率都未超过60%,反映出LLM在中医领域中仍面临巨大的挑战和提升空间。

关键词

大语言模型 / 中文医疗模型 / 测评基准 / ChatGPT / 中医学

Key words

引用本文

引用格式 ▾
大语言模型在中医领域的标准化评估[J]. 南京中医药大学学报, 2024, 40(12): 1383-1392 DOI:10.14148/j.issn.1672-0482.2024.1383

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/