PDF
摘要
针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition, CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和双向短时记忆条件随机场(DCNN-BiLSTM-CRF)的临床文本命名实体识别方法。改进的单词嵌入模型融合词根、拼音和字符本身意义,使用了来自Transformers的双向编码器表示,使单词嵌入向量具有汉字和临床文本的特点,该方法通过在临床命名实体识别任务中引入深度卷积神经网络(Deep Convolutional Neural Networks,DCNN),解决了CNN预测时丢失部分信息无法找回的问题。通过使用DCNN,本文模型能够更有效地捕获全局信息、获取字符之间的权重关系和多层次语义特征信息,从而提高了临床命名实体识别的准确性。在数据集CCKS2017和CCKS2018上分别进行实验,实验结果表明,与基准模型相比,该模型F1值分别改善了0.48%, 0.68%, 0.6%, 0.58%, 0.04%和1.43%,2.36%, 3.31%, 1.11%, 0.17%。为了进一步验证本文的模型,进行了两种消融实验。结果表明,在两个数据集CCKS2017和CCKS2018上本文模型对比变体模型M1, F1值分别改善了0.79%和0.84%;对比变体模型M2, F1值分别改善了0.53%和0.64%。这些实验结果证明了本文所提算法的可行性。
关键词
临床命名实体识别
/
多特征融合嵌入
/
深度卷积神经网络
/
BLSTM-CRF
/
BERT
Key words
基于多特征融合嵌入与DCNN的临床命名实体识别模型研究[J].
中北大学学报(自然科学版), 2024, 45(03): 265-273 DOI: