大型语言模型在中医执业医师资格考试中的表现与分析

向巴卓玛; 王珍珍; 赵岩松; 马勤; 倪磊; 马星光

doi:10.3969/j.issn.1003-305X.2025.01.263

中医教育 ›› 2025, Vol. 44 ›› Issue (01) : 137 -142. DOI: 10.3969/j.issn.1003-305X.2025.01.263

教学园地

大型语言模型在中医执业医师资格考试中的表现与分析

向巴卓玛 ¹ ,
王珍珍 ¹ ,
赵岩松 ¹ ,
马勤 ² ,
倪磊 ¹ ,
马星光 ¹

作者信息 +

Performance and analysis of large language models in the qualification examination for traditional Chinese medicine practitioners

Author information +

文章历史 +

PDF (1076K)

摘要

目的评估不同大型语言模型在中医执业医师资格考试中的应用表现。方法选用中医执业医师资格考试题库中的不同学科对文心一言4.0、ChatGPT4.0、百川大模型3.0、Claude3-Sonnet、智谱清言4.0共5种大型语言模型进行答题准确率测试。结果文心一言4.0和百川大模型3.0在中医不同学科上的总准确率最高，而智谱清言4.0的总准确率最低。从不同中医学科目上比较，5种模型在中医内科学和中药学上准确率较高，但在方剂学和中医经典等需要理解中医古文典籍或应用能力方面的科目上，模型准确率较低，且各模型之间存在差异。结论不同模型的表现差异表明，模型的表现受训练数据的内容、质量及模型自身逻辑推理能力等多方面因素的影响。随着人工智能技术的不断迭代发展，将模型作为教学辅助工具，有望推动教育领域的变革。通过加强模型在特定专业领域的训练，可以进一步提升模型对相关专业术语的理解和应用能力，更好地满足教学领域的实际需求，进而提升教学质量和学习效率。

关键词

人工智能 / 大型语言模型 / 中医执业医师资格考试 / 模型评价

Key words

artificial intelligence / large language models / qualification examination for traditional Chinese medicine practitioners / model evaluation

引用本文

引用格式 ▾

向巴卓玛,王珍珍,赵岩松,马勤,倪磊,马星光. 大型语言模型在中医执业医师资格考试中的表现与分析[J]. 中医教育, 2025, 44(01): 137-142 DOI:10.3969/j.issn.1003-305X.2025.01.263

登录浏览全文

4963

注册一个新账户忘记密码

大型语言模型（Large Language Model，LLM）是一种先进的人工智能技术，它基于深度学习的神经网络模型，旨在理解和生成人类语言。这些模型通过在大规模文本数据上进行训练，学习语言的结构、语法和语义，从而可以执行各种自然语言处理任务，如文本分类、问答、机器翻译和情感分析等^［1］。大型语言模型的训练过程通常包括预训练和微调2个阶段^［2］。在预训练阶段，模型从巨大的、多样化的数据集中学习，以掌握一般的语言模式和表征。在微调阶段，模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练，以适应任务在特定领域的实际需求^［3］。大型语言模型正在改变我们与技术交互和获取信息的方式，成为现代数字环境的关键部分。

随着人工智能技术的快速发展，LLM已在教育、医疗、法律等诸多领域展现出较强的能力^［4-5］。尽管LLM在中医教育领域的应用仍处于探索阶段，但其巨大的应用潜力对于提升中医教学质量和推动中医现代化发展具有深远的意义^［6］。相关研究表明，目前LLM在未经专门医学训练的情况下，已展现出接近甚至达到美国医疗执照考试门槛的能力^［7］，这充分证明了其在医学教育和决策支持领域的潜力。中医作为中国传统医学的瑰宝，其知识体系博大精深，涵盖了从基础理论到临床实践的多个层面。然而，如何有效地传承和评估海量的中医知识，一直是中医教育领域面临的复杂性和挑战性^［8］。

因此，本研究选取文心一言4.0、ChatGPT 4.0、百川大模型3.0、Claude3-Sonnet及智谱清言4.0共5种国内外领先的大型语言模型，在中医执业医师资格考试题库中进行答题测试。探讨这些大模型在特定中医知识领域的应用表现，并具体比较不同模型在中医各学科中处理中医专业术语的性能差异。我们期望本研究能够为中医教育领域的创新提供新的思路和方法，推动大型语言模型在中医教育中的实际应用。

1 资料与方法

1.1 研究数据和对象

本研究的数据资料取自《2023中医执业医师资格考试医学综合通关题库》，题库包含A1、A2、A3、A4、B1等多种题型，旨在从不同角度全面考察不同大型语言模型对中医学科知识的掌握情况。具体来说，A1型题为单句型最佳选择题；A2型题为病例摘要型最佳选择题；A3、A4型题为临床情景型最佳选择题；B1型题则为标准配伍题。这些丰富的题型能够深入检验模型对临床常见病、多发病的病因、病机、临床表现、诊断、鉴别诊断及治疗原则的理解程度，同时也考察了模型对基础及专业知识的掌握情况，以及运用已有知识解决实际临床问题的能力。为确保本研究数据的广泛代表性和全面覆盖性，从题库中选定7个中医学科目的990道选择题，作为本研究测试数据集。具体见表1。

1.2 研究方法

本研究选取了5种国内外领先的大型语言模型，包括ChatGPT4.0、Claude3-Sonnet、文心一言4.0、百川大模型3.0和智谱清言4.0作为研究工具。这些模型在通用语言理解和生成任务中展现出了卓越的性能，使其成为在中医教育领域中评估应用价值的理想选择。

1.3 评估指标

准确率是衡量模型预测或生成结果的正确性的指标。本研究需要计算不同模型在各学科上的答题准确率，以及每个学科的平均准确率等^［9］。对于单个模型在单个学科上的准确率，我们将使用公式①：A_{x， y} 表示模型x在中医学科目y上的准确率。N_{x， y} 是模型x在中医学科目y上正确回答的题目数量。N_y 是中医学科目y的题目总数。

A x, y = N x, y N y × 100 %

对于所有模型在单个学科上的平均准确率，我们将使用公式②：

A ¯ y

表示所有模型在学科y上的平均准确率。n是参与评估的模型数量。N_{x， y} 和N_y 的定义同上。

A ¯ y = ∑ x = 1 n N x, y n × N y × 100 %

2 实验研究

2.1 提示工程

提示工程（Prompt Engineering）是指通过自然语言文本设计、任务定义、设定输入或输出文本内容和格式等优化引导语句提示词的方式，从而生成符合任务预期和需求的输出，拥有好的提示词能帮助LLM更好地理解输入，提高模型性能^［10］。总之，利用提示工程可以帮助LLM更好地适应不同领域下的任务，从而进一步提高LLM的泛化能力。

本研究采用了零样本、角色设定和迭代优化提示词等提示策略来评估LLM在中医执业医师资格考试中的应用效果。在零样本提示下，模型未接收中医特定领域提示信息，让其直接作答，这一过程检验了模型在没有其他提示信息时的基本理解和应答能力。通过角色设定让模型扮演中医领域教授的身份进行作答，模型应用的相关中医知识库，其答题的准确性与零样本相比之下有显著提高。而迭代优化提示词的方式，则是通过精心设计的任务指令对模型进行引导，这不仅优化了模型反馈结果的呈现格式，也提高了输出质量，在一定程度上确保了模型输出答案的专业性^［11］。

2.2 不同模型的部分答题效果展示

根据预先设定的统一测试标准，对5种不同的模型进行了评估。这些模型在测试过程中会遵循给定的提示词进行作答。其不仅能够高效利用自身的知识推理能力迅速理解题目并选出正确答案，而且还能够给出清晰、逻辑严谨的答题解释。这一表现充分证明了这些模型在中医领域的应用潜力。然而，我们也注意到，当面对需要更深入的中医专业知识时，模型的表现可能会稍显不足，甚至有可能出现错误答案。因此，为了进一步提升模型的答题准确性和稳定性，必须加强模型对特定领域的知识学习。

2.3 答题准确率结果

（1）大型语言模型在准确性上呈现出不同的答题水平。在所有学科中，①文心一言4.0表现最优，总准确率高达81%。特别是在中药学和中医内科学领域，分别达到了88%和89%的准确率。尽管在方剂学上的准确率为76%，但相较于其他模型仍然保持领先。②百川大模型3.0，其总准确率为78%。在中医基础理论和中医内科学上，该模型同样表现出色，分别达到82%和84%的准确率。然而，在中医经典和中医外科学中，其准确率略有下滑，分别为64%和74%。相比之下，其他3种模型的总准确率均低于60%。③Claude3-Sonnet在中医基础理论上的表现相对较弱为63%，而在中医内科学和中医经典上的表现也不尽如人意，准确率分别为67%和49%。然而，在方剂学和中医外科学上，其表现相较于其他学科有所提升。④ChatGPT 4.0的整体表现相对均衡，没有明显的优势学科。中药学和中医内科学的准确率均为67%，但在方剂学上的表现最差，仅为36%。⑤智谱清言4.0在中医基础理论和中药学上的表现较为一般，均为60%。在中医外科学上的表现最差，仅为38%，但在中医内科学上取得了70%的准确率，相比之下展现出了一定的优势。具体见表2。

（2）雷达图直观地展现不同模型在各中医学科目上的性能差异。雷达图作为一种多变量数据分析工具，能够每个轴代表一个中医学科目，而轴线上的点则反映了该学科对应的准确率。文心一言4.0在多数学科中保持领先，尤其在中医内科学上表现出色，其在雷达图上的绿色线圈几乎完美接近理想表现，凸显了其在解析复杂医学概念方面的优异能力。相比之下，Claude3-Sonnet和ChatGPT 4.0在该领域的表现相对较弱，其准确率分别为59%和66%，显示出与最优表现的明显差距。此外，智谱清言4.0虽然在中医内科学领域表现较好，但在其他科目的表现相对落后。这种表现差异源于模型的训练数据、参数调整等因素，提示未来需要对这些模型进行更深入的分析和优化。具体见图1。

（3）大型语言模型在各中医学科目的表现不同。测评结果显示，中医内科学以74%的平均准确率高居榜首，其次是中药学，平均准确率为73%。而中医经典、方剂学和中医外科学的平均准确率较低，分别为53%、55%和57%。大型语言模型在中医内科学、中药学、中医基础理论上的表现相对较好。这是因为这些学科的知识内容具有较为明确的定义和分类，其治法和药物使用都遵循固定的原则和配方，使得模型在训练和测试过程中更容易掌握和理解。然而，在中医诊断学、中医外科学、方剂学和中医经典等学科上，模型的表现则相对较差。这主要是因为这些学科需要更多的临床经验和个案分析，知识体系更为复杂，且经常涉及个体差异的判断。特别是中医经典，如《黄帝内经》等，包含大量古文文献，其文辞古朴、意理深奥，对于模型而言，其中的概念和表达方式可能较难理解。此外，方剂学涉及众多中药的配伍和作用机制，需要精细的知识和逻辑推理。具体见图2。

（4）大型语言模型在中医学科目的不同知识单元中表现各异。调查显示，在理论性强、结构化程度高的知识点，例如“中医学理论体系”和“中药的性能”模型中展现出了较高的准确率。这得益于模型训练数据对这些领域知识点的充分覆盖及其标准化的信息表达。然而，在需要丰富实践经验和具体情境分析的知识单元，如“中医外科疾病辨证”与“中医外科疾病治法”，模型的准确率则显著降低。这反映出模型在处理涉及临床判断、案例分析和个体化推理时的局限性。此外，模型在关于具体治疗方法和疾病治疗方案的知识单元上表现不稳定。这主要是因为中医对于不同疾病的治疗规则化程度不同，有些疾病有较为固定的治疗模式，而有些则更加灵活多变，从而影响了模型的预测准确性。同时，从基础知识到进阶内容的转变也对模型表现有所影响。模型能够较好地掌握基础概念知识，但在处理如《黄帝内经》等更深入、复杂的内容时模型的表现就明显较差。值得注意的是，中医诊断学相关单元的低准确率，主要是因为中医诊断需要综合考虑理论知识和病人具体症状，这种高度情境化的分析对当前的语言模型来说仍然是一个挑战。具体见图3。

3 讨论

3.1 不同大型语言模型的性能差异

研究认为，大型语言模型的性能差异源于不同LLM所使用的训练数据不同，其数据质量和规模参差不齐。在特定的中医研究领域，训练数据的专业度和准确性会对模型答题表现起到关键作用。由于部分模型经过了相关专业的中医古籍文献及实际临床数据的训练，那么其在本研究领域的测试效果更好。如即使是ChatGPT 4.0和Claude3-Sonnet等国外较为先进的模型，由于其在英语数据下进行训练，所以在涉及中文知识，尤其是在极具专业性的中华传统文化底蕴下的中医领域，其相关数据覆盖度和准确度相对有限。因此，这种局限性直接影响了这些模型在中文语境，尤其是在中医领域的应用效果。相对而言，国内的LLM，如文心一言4.0和百川大模型3.0，更容易获取到相关中医学科目领域的中文数据，包括中医典籍或临床案例等，使得这些模型在处理中医学科目相关的测试题时表现出更高的准确性。总之，训练数据的差异，使得国内模型在中医学科目领域的应用中更具优势。此外，模型的提示词优化策略和参数调整等也是决定其答题性能的关键因素^［12］。另外，某些模型经过微调，能更好地适应中医特定知识，从而在相关测试中表现更佳。这种微调方式涉及对模型内部参数和算法的进一步优化，以此提高模型理解和处理中医知识的能力。

3.2 大型语言模型在中医学科目知识中的表现差异

本研究在一定程度上展现了当前大型语言模型在中医学科目领域的应用成效，同时也反映了中医各学科的知识特性、术语和概念的复杂性，以及学科内容的抽象程度，都影响了大型语言模型的表现。对于结构化和理论化的知识点，大型语言模型能够相对容易地处理。但是，在面对需要个性化分析、复杂知识推理和依赖临床实践经验的知识点时，模型表现明显不佳。这一现象不仅揭示了大型语言模型在应对专业知识时存在的不足，也指明了模型未来改进和提升的方向。

3.3 大型语言模型的局限性

大型语言模型在实际应用中仍面临一系列挑战，如信息偏差、知识更新滞后、内容可追溯性缺失、领域专业知识处理不足、推理能力受限及在特定场景和长文本处理上的适应性问题。以ChatGPT 4.0为例，尽管其性能卓越，但在理解和捕捉中医术语的丰富内涵和精细差异方面仍有待提高。为了提高大型语言模型在中医领域的应用效果，必须着重提升模型对中医学科目专业术语的准确识别能力，并加深对中医理论的理解。

4 小结

中医执业医师资格考试中大型语言模型（LLM）的表现凸显了其在医学教育领域的潜力和价值^［13］。首先，LLM能显著提高医学生的学习效率，作为高效的辅助工具^［14］，有助于创建一个互动性强、个性化的学习环境。其次，LLM能提高医学教育资源的可访问性和包容性，为医疗专业人员提供持续学习的支持，特别是对于地理位置偏远的学生，有望推动教育机会的公平分配。这种创新不仅丰富了医学教育的手段，也为医疗行业培养更多高素质人才提供了新的可能。

研究结果表明，目前的LLM在处理复杂或特定专业领域知识时存在不足，而且模型在小样本数据上的表现优于零样本情况^［15］。因此，为了提高LLM在中医学科目领域的应用效果，未来研究需要对模型进行针对性训练。通过丰富和完善模型训练数据，不仅需要覆盖中医理论知识，还应包含临床案例和复杂病情的实践信息。同时，要不断优化模型的算法，从而增强模型对中医专业术语和疗法的理解和应用能力。此外，在微调过程中，需要根据中医领域的特殊性进行调查研究，以此确保模型性能的最优化。另外，可以采用检索增强生成（RAG）策略，进一步提升模型在中医学科目领域的准确性和响应效率。该策略通过实时检索相关信息，不仅可以确保模型生成内容的准确性和时效性，还增强了信息来源的可追溯性。

总之，中医教育领域应与时俱进，实现人工智能技术与教育的融合发展，促进理论与实践丰富的中医复合型人才的培养。但同时也要明确，人工智能技术只能是辅助工具，不能取代教师在教育领域中的重要作用，应以教师为主导，充分发挥新技术在中医学科目领域应用中的实际价值，进而提升教育质量和教学效率，以适应不断扩大的教育规模和多元化的学习需求。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	刘明，吴忠明，廖剑，大语言模型的教育应用：原理、现状与挑战：从轻量级BERT到对话式ChatGPT［J］.现代教育技术，2023，33（8）：19-28.

[2]	徐如瑶.面向垂直领域的知识增强预训练语言模型［D］.上海：华东师范大学，2023.

[3]	陈慧敏，刘知远，孙茂松.大语言模型时代的社会机遇与挑战［J/OL］.计算机研究与发展，（2024-02-20）［2024-04-05］.

[4]	DAVE T， ATHALURI S A， SINGH S.ChatGPT in medicine：an overview of its applications，advantages，limitations，future prospects，and ethical considerations［J］.Front Artif Intell，2023，6：1169595.

[5]	阮彤，卞俣昂，余广涯，医学大语言模型研究与应用综述［J］.中国卫生信息管理杂志，2023，20（6）：853-861.

[6]	夏琪，程妙婷，薛翔钟，从国际视野透视如何将ChatGPT有效纳入教育：基于对72篇文献的系统综述［J］.现代教育技术，2023，33（6）：26-33.

[7]	GILSON A， SAFRANEK C W， HUANG T，et al.Correction：how does ChatGPT perform on the United States medical licensing examination （USMLE）？ the implications of large language models for medical education and knowledge assessment［J］.JMIR Med Educ，2024，10：e57594.

[8]	DENSEN P.Challenges and opportunities facing medical education［J］.Trans Am Clin Climatol Assoc，2011，122：48-58.

[9]	王野.教育领域人工智能基准测试：跨学科中文大型语言模型的综合评估［J］.广西职业技术学院学报，2024，17（1）：61-68.

[10]	MARVIN G， NAKAYIZA H， JJINGO D，et al.Prompt Engineering in Large Language Models［C］.Singapore：Springer Nature Singapore，2024：387-402.

[11]	周棪忠，罗俊仁，谷学强，大语言模型视角下的智能规划方法综述［J/OL］.系统仿真学报，（2024-03-08）［2024-04-10］.

[12]	王静仪.大型语言模型技术的影响、挑战与应对策略［J］.华东科技，2023（06）：96-98.

[13]	FENG S， SHEN Y.ChatGPT and the future of medical education［J］.Acad Med，2023，98（8）：867-868.

[14]	张峰，陈玮.ChatGPT与高等教育：人工智能如何驱动学习变革［J］.重庆理工大学学报（社会科学版），2023，37（5）：26-33.