大语言模型在中医领域的标准化评估

曹露; 许林; 张宇洁; 张林帅; 付亚琴; 蒋涛

doi:10.14148/j.issn.1672-0482.2024.1383

南京中医药大学学报 ›› 2024, Vol. 40 ›› Issue (12) : 1383 -1392. DOI: 10.14148/j.issn.1672-0482.2024.1383

大语言模型在中医领域的标准化评估

曹露, 许林, 张宇洁, 张林帅, 付亚琴, 蒋涛

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的针对目前大语言模型(LLMs)在中医学领域测评中的空缺，设计并构建一个中医学测评基准数据集，以对LLMs在中医学知识的掌握与推理表现进行全面、客观地评测，从而为LLMs在中医领域的性能优化提供科学、可靠的依据。方法从中医标准化考试和教科书中收集数据，构建了一个涵盖13个学科共29 506道题的中医测评基准数据集。实验共选取了3个通用模型(GPT3.5、ChatGLM3、Baichuan)和5个中文医疗模型(PULSE、BenTsao、HuatuoGPT2、BianQue2、ShenNong),对它们在答案预测能力和答案推理能力进行全面评测。测评结果使用准确率、F1值、BLEU、Rouge等指标进行量化评估。结果答案预测实验的结果显示，Baichuan在单项选题中准确率最高，为36.07%;ChatGLM3在多项选题中准确率和F1值最高，为18.96%和76.31%。答案推理实验的结果显示，Baichuan在BLEU-1分值最高，为24.71;ChatGLM3在Rouge-1分值最高，为44.64。结论通用LLMs整体表现略优于中文医疗LLMs,同时所有模型在选择题上的准确率都未超过60%,反映出LLM在中医领域中仍面临巨大的挑战和提升空间。