多特征融合的中文医学命名实体识别方法

刘道华; 刘翰林; 余长鸣; 王秋岱; 孙剑

重庆邮电大学学报（自然科学版） ›› 2026, Vol. 38 ›› Issue (1) : 109 -117.

多特征融合的中文医学命名实体识别方法

刘道华, 刘翰林, 余长鸣, 王秋岱, 孙剑

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对单一特征表示难以全面捕捉中文医学文本复杂语义的问题，结合BERT和Word2Vec提出了一种基于多特征融合的中文医学命名实体识别模型。通过BERT生成包含全局语义信息的词嵌入、Word2Vec提供细粒度的字符级表示，弥补了单一嵌入方法的不足；利用双向门控循环单元提取全局上下文特征，并通过多尺度卷积（multi-scale CNN）提取局部语义信息；使用门控机制动态融合全局与局部特征，同时引入多头注意力机制进一步增强特征表达能力；利用条件随机场（conditional random field, CRF）确保输出结果的序列合理性。实验结果表明，提出的模型能够有效识别中文医学命名实体，在CMeEE、cMedQANER和CCKS2019这三个数据集上的F₁值分别为70.25%、84.33%和85.95%,优于其他基准模型。