中医诊断学是中医学的重要组成部分,通过“望、闻、问、切”四诊方法全面了解病情,是中医辨证论治的基础。其中,问诊在中医诊断学中占据着核心地位,是获取病史和病情信息的主要途径
[1-2]。在传统的实训教学中,问诊的教学主要通过课堂讲授、教师示范、实习见习、病案讨论、问答互动、病历书写训练及参考书学习等方式进行,实践机会较少,学生难以在真实情境中应用所学知识。为解决这一问题,部分院校引入标准化病人(Standardized Patients,SP),通过模拟真实患者症状,让学生在安全的环境中进行问诊训练,提升其临床技能和医患沟通能力
[3-4]。然而,SP的培训和维护成本较高,招募、培训和协调SP以模拟各种患者场景需要大量时间和资金,应用范围有限
[5]。近年来,人工智能(Artificial Intelligence,AI)技术的发展为医学教育提供了新的可能,部分研究探索将AI应用于SP,以解决传统SP模式的不足。人工智能标准化病人(以下简称“AISP”)可通过计算机程序模拟真实临床场景,模拟患者与医学生之间的互动,帮助学生掌握诊断、治疗和沟通技能
[6-7]。
目前,AISP技术在医学教育中已展示出巨大的潜力,特别是针对病史采集和临床沟通技能的培训
[8],通过与AISP的多次互动,学生能够在安全、可控的环境中练习,且自动生成的反馈有助于学生的技能提升。当前,针对中医教育的AISP开发研究尚属空白,中医问诊中涉及大量的传统中医术语、复杂的病症描述及患者的主观感受等,AISP需要具备处理自然语言的能力,尤其是能够理解和识别中医问诊中的特殊表达方式。因此,模型的开发尝试使用最新发布的先进深度学习模型Command-R-Plus,结合了最新的自然语言处理(Natural Language Processing,NLP)技术和深度神经网络架构,能够在对话生成、情感分析和语义理解等方面表现出色
[9],同时具备强大的上下文理解能力,可以根据用户输入生成连贯、自然的对话,满足中医问诊教学的需求。基于此,课题组设计并开发了中医AISP问诊模型,并采用单组前后测设计方法,通过与学生的互动来验证模型的准确性和有效性,以期增强学生的诊断和治疗能力,提高教学效果。
1 资料与方法
1.1 数据收集与处理
(1)数据来源:通过与天津中医药大学实训中心合作,收集大量高质量的中医教学数据。这些数据应涵盖各类SP的基本情况、现病史、刻下症、相关病史、舌脉等详细信息。
(2)数据清洗与标注:对收集到的数据进行清洗,去除噪声和冗余信息。随后,对数据进行详细标注,确保其能够用于训练和验证模型。
1.2 病例数据库建立
建立包含大量真实中医教学临床案例的数据库,用于训练和验证AI模型,确保AISP能够模拟各种病情和诊疗过程。数据库中的案例涵盖了教学中不同疾病的详细信息,包括:症状、诊断过程和治疗方案等丰富的学习资源。
1.3 模型选择与调优
(1)模型选择:分别测评GPT-4、LLaMA-3-70B、Qwen-1.5-72B和Command-R-Plus共4个模型。对不同模型的数据进行评测,测试每个模型的回答情况。
(2)模型调优:在现有模型的基础上进行调优,优化其对中医临床数据的处理能力。调优过程包括:参数调整、模型架构优化,以及针对中医问诊的逻辑特点进行训练。
1.4 模型训练
(1)对话系统模型训练:使用大量中医临床问诊对话数据进行训练,包括真实的问诊记录和模拟对话数据,确保模型能够准确理解并生成中医领域的专业对话。在模型训练过程中,注重对中医特有术语和诊疗方法的学习和优化,确保对话内容符合中医理论和实践。
(2)多轮对话训练:问诊对话模型需保持对话的上下文,记住之前的对话内容,确保对话的连贯性和一致性。例如:如果学生之前询问了患者的主要症状,模型需要在后续对话中记住并参考这些信息。问诊对话模型维护对话记忆库,存储每轮对话中的关键信息(如基本信息、症状描述等),并在需要时进行回溯和引用。
1.5 研究对象
招募天津中医药大学中医专业二年级学生共50名为研究对象。本研究采用单组前后测设计,通过与学生的互动来验证模型的有效性。验证基于Command-R-Plus模型的AISP系统在模拟真实问诊场景中的准确性和有效性,包括诊断准确性、问诊全面性和学生反馈,通过前测和后测,以评估学生在使用AISP前后的技能提升情况。
(1)前测方法:所有参与者进行一次标准化的问诊技能测试,由专业考官根据提供的评分标准进行评分。通过评估学生在试验前的问诊技能水平。
(2)训练阶段:使用AISP模型进行问诊训练。学生通过与AISP进行多轮互动,完成不同病例的问诊、诊断和治疗过程。训练过程包括语音对话和即时反馈,每天6轮对话,持续3d。
(3)后测方法:所有参与者再次进行标准化的问诊技能测试,由同一批专业考官根据相同的评分标准进行评分。评估学生在训练后的问诊技能提升情况。
1.6 考核指标
所有参与者进行一次标准化的问诊技能测试,由专业考官根据提供的评分标准进行评分。评分标准基于提供的考试评分标准,其中病史采集60分,综合表现30分,SP现场给分10分。考评结束填写调查问卷。具体见
表1。
1.7 统计学方法
采用SPSS 19.0软件进行统计分析。符合正态分布的计量资料以均值±标准差(x±s)描述。对比前测和后测中的综合得分变化,采用配对样本t检验分析得分差异。计数资料以频数和百分比[n(%)]描述,分别统计和比较病史采集和综合表现2个主要部分的评分变化。根据统计和分析学生对AISP模型的满意度评分,评估模型的易用性、互动性和学习效果。
2 结果
2.1 模型评价和对比
对GPT-4、LLaMA-3-70B、Qwen-1.5-72B和Command-R-Plus 4个模型在模型发布时提供详细的评测数据,依据4种语言模型在多个语言理解评估标准上的表现,标准的分数越高,表示模型在该评估上的表现越好。总体而言,GPT-4在所有评估标准上表现最为出色,始终处于领先地位,而Command-R-Plus紧随其后。根据AISP的特点,对每个模型的问答情况进行测试,测试结果均可满足问答要求。综合考虑模型的性能、适用性和成本,最终选择Command-R-Plus作为基础模型,并在此基础上进行调优。具体见
表2。
2.2 成绩比较
根据试验设计,对学生在使用AISP模型前后的问诊技能得分进行数据收集和分析。通过模拟的前测和后测得分及学生满意度调查结果显示,经AISP教学后,病史采集和综合表现的后测成绩明显优于前测成绩,且具有统计学意义(P<0.01)。本试验采用单组前后测设计,对样本t检验:试验结果显示,使用AISP系统训练前,病史采集和综合表现2项得分分别为(37.8±2.18)分、(17.4±1.51)分;使用后,2项得分分别为(54.0±2.13)分、(25.9±1.67)分。使用AISP模型训练后,学生的问诊技能得分显著提升,结果表明,学生在使用AISP模型后的综合得分显著提升(P<0.01),病史采集和综合表现2个主要部分的评分均显著提高,特别是在沟通能力和健康教育技巧2个方面。
2.3 满意度比较
课程结束后发放教学满意度调查问卷50份,回收率为100%。教学效果从易用性、互动性和学习效果3个方面进行评定,问卷采用5级评分制(1分表示非常不满意,5分表示非常满意),为了便于统计和展示结果,将评分等级分为3类:优(4~5分)、良(2~3分)、差(1~2分)。结果表明,学生在使用AISP模型后的综合得分显著提升,病史采集和综合表现2个主要部分的评分均显著提高,并对AISP模型的满意度评分较高,说明模型具有良好的易用性和互动性。具体见
表3。
3 讨论
3.1 AISP模型的开发与优化
在AISP模型开发中,选择合适的语言模型对于提升模型的智能化和交互性至关重要。在本研究中,课题组基于评测数据对4种模型进行比较,评测数据显示,在语音识别准确性方面,Command-R-Plus的深度学习集成使其在处理医疗领域特有的语音输入时,能够提供更加稳定的性能。与此相比,GPT-4 作为一个强大的生成预训练变换器,在语义理解和上下文推理方面表现出色,但其计算成本较高,且在医学领域的专用术语识别上有时不如 Command-R-Plus精准
[10]。LLAMA-3-70B具有良好的扩展性和性能,能处理大规模语言任务,但在中医领域的语言理解能力有所欠缺。Qwen-1.5-72B 专注于对话设计,支持多语言,能够准确生成中医问诊对话,但在理解多种复杂对话情境上可能不如其他模型强,且需要更高的计算资源。因此,Command-R-Plus在多个性能指标上优于其他模型,特别是在临床场景的适应性和语音识别的精度方面,最终选择 Command-R-Plus作为AISP模型的核心模型。
在确定Command-R-Plus模型的基础上,结合天津中医药大学医考基地的教学数据,构建了语料库,并利用这些数据为深度学习模型的训练提供了有力支持。该开发过程的核心在于将中医传统的临床问诊过程与AI技术有机结合,从而实现模型对真实患者场景的模拟,并能与学生进行实时语音互动。这种结合使得AISP模型具备了较高的教学互动性和灵活性。然而模型的优化仍有提升空间,首先是AI技术在语音识别和语义理解能力的优化,将显著提升医疗教育系统的效果
[10]。在此基础上,系统还可以结合情感分析技术,模拟医患沟通,帮助学生理解患者情绪,提高问诊的准确性
[11]。通过这些技术的优化与融合,AISP模型将不仅能够提高学生的问诊技能,还将在未来的医学教育中发挥更大的作用。
3.2 AISP模型的准确性、有效性和适用性
AISP模型的测评在大多数情况下能够有效识别学生的语音输入并进行合理的回应,根据单组前后测设计的试验结果,学生的病史采集得分显著提高(
P<0.01),表明AISP模型能有效辅助学生掌握问诊技巧。综合表现得分也有显著提升,特别是在临床沟通、健康教育等方面,体现了AISP模型在医学教育中的巨大潜力。此外,学生满意度较高,80%以上的学生认为AISP模型操作便捷、反馈及时、学习效果良好,表明该模型在中医问诊教学中具有较强的适用性,这与其他关于AI问诊模型在医学教育中的应用研究结果一致
[12]。
但是单组前后测设计有其固有的局限性,无法排除其他因素(如学生自主学习、教师指导等)对结果的影响。模型当前的反馈机制仍较为简单,主要依赖于评分,缺少个性化反馈和针对性指导。根据现有研究,个性化的学习路径和即时反馈对于医学教育有着重要的促进作用
[13]。再者,模型仍然局限于基础的临床场景,缺少对复杂病例的模拟能力
[13]。未来可以设计更为严谨的对照试验,同时扩大样本量,将AISP模型与传统教学方法进行对比,进一步验证其效果。若能结合自适应学习算法,增加更多临床场景及更加详细的个性化反馈,将进一步提升AISP模型在不同医学学科中的适用性和普遍性
[14]。
3.3 AISP未来的发展前景
AISP未来的发展可优化AISP模型,提高多轮对话能力,构建大规模中医问诊数据库,并结合多模态AI技术(语音识别、图像分析、脉象数据)提升智能化水平,并且根据技术革新,为学生提供个性化和适应性的学习内容。此外,不断提升反馈机制的智能化和细致度,能够帮助学生更好地理解和改进自己的临床技能。总体而言,这些趋势将不断丰富和提高 SP的知识库和教学手段,提升医学教育的质量和效果,为培养高素质医疗专业人才提供强有力的支持。
4 结语
本研究开发的AISP模型,基于自然语言处理和深度学习技术,能够有效提升中医学生的问诊技能。试验结果表明,该模型在病史采集、综合表现、沟通能力等方面具有显著优势,且学生满意度较高。相比传统SP模型,AISP模型具有效率高、可重复使用、标准化程度高等特点,为中医教育提供了一种创新性的智能化问诊训练方法。未来,AISP模型可以进一步结合强化学习、多模态AI等技术,扩展至更广泛的中医临床技能培训,并探索其在国际中医教育中的应用,推动人工智能技术在中医领域的深入发展。