基于大语言模型与文本嵌入计算的中医证素辨证自动化方法研究

孙肇阳; 汪洋; 马铭泽; 陈妍文; 吕镇秀; 江甜甜; 温慧玲; 陈波; 关静

北京中医药大学学报 ›› 2025, Vol. 48 ›› Issue (8) : 1176 -1184.

孙肇阳, 汪洋, 马铭泽, 陈妍文, 吕镇秀, 江甜甜, 温慧玲, 陈波, 关静

作者信息 +

Author information +

文章历史 +

摘要

目的本研究旨在开发一种自动化的中医证素辨证方法。方法首先，基于领域知识、同义术语、辨证论治及中医医案标签4种不同中医药相关任务数据集，构建并训练指令调优中医多任务文本嵌入模型(Instr-MT-TCM)。其次，组织5位具有硕士以上学历的中医诊断学专家从真实世界中医药病例数据集进行数据筛选并标注症状体征，用以评估Instr-MT-TCM与大语言模型(LLM)协同方法和人工标注结果在证素辨证任务中的F1分数。最后，为验证该方法在真实临床环境下的可行性，将其应用于48例真实世界前列腺癌病例的证素积分计算。结果 Instr-MT-TCM模型在训练初期表现出快速性能提升，其前1召回率(R@1)为0.848。专家筛选出1 793例真实世界中医药病例，涵盖临床常见的34种疾病与66种证型。在证素辨证任务中，LLM与Instr-MT-TCM协同方法的平均F1分数为0.927,明显优于人工标注的0.512。在48例前列腺癌病例的证素分析中，病性证素以火(热)和阴虚为主，病位证素以膀胱和肾为主。结论本研究创新性提出并验证了一种基于LLM与Instr-MT-TCM协同的中医证素自动化辨证新方法。该方法在真实世界数据上取得高F1分数(0.927),展现出高度准确性与强大的泛化能力，并在前列腺癌的证素分析中显示出良好的临床应用潜力，为中医智能化证素辨证提供有效的技术支持和新的研究方向。