基于SoftLexicon和对抗训练的中文医疗命名实体识别

山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (02) : 260 -268.

PDF (1451KB)
山西大学学报(自然科学版) ›› 2024, Vol. 47 ›› Issue (02) : 260 -268. DOI: 10.13451/j.sxu.ns.2023165

基于SoftLexicon和对抗训练的中文医疗命名实体识别

作者信息 +

Author information +
文章历史 +
PDF (1485K)

摘要

现有的医疗实体识别模型当中,多数模型不能充分提取和利用文本序列当中词汇信息,且模型结构复杂,使得模型在面临医疗领域的文本时存在实体边界识别不准、鲁棒性较差等问题,并且多数基于字粒度的命名实体识别(Named Entity Recognition, NER)方法对信息遗漏此类问题解决不够完善。针对此类问题,本文提出了一种基于字词融合和对抗训练的命名实体识别模型。模型使用预训练模型BERT(Bidirectional Encoder Representation from Transformers)获取文本序列的字向量;然后使用SoftLexicon引入词典信息并在字向量中添加对抗训练生成的扰动样本;最后使用BiLSTM-CRF(Bi-Long Short-Term Memory-Condition Random Field)进行特征提取并获取序列标注结果。所提出模型在数据集CCKS2019和CCKS2020上进行实验,F1值分别到达了85.07%和90.39%。实验结果表明,与基准模型相比,该模型的F1值提升了2.31%和2.88%,说明字词融合方法和对抗训练相结合能够有效识别医疗实体。

关键词

命名实体识别 / 字词融合 / 对抗训练 / PGD

Key words

引用本文

引用格式 ▾
基于SoftLexicon和对抗训练的中文医疗命名实体识别[J]. 山西大学学报(自然科学版), 2024, 47(02): 260-268 DOI:10.13451/j.sxu.ns.2023165

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (1451KB)

55

访问

0

被引

详细

导航
相关文章

AI思维导图

/