PDF
摘要
针对电信诈骗文本中专有词汇过多导致的线索词提取准确率不高的问题,本文提出了一种具有改进嵌入层结构的基于词典增强的文本线索词提取模型TLBERT,该模型利用电信诈骗领域的专有词汇,在提高线索词的识别性能和缓解词典增强导致的知识噪声方面具有较好的改进效果.采用树形结构将词典匹配词汇和主干序列进行关联,采用可见矩阵和Mask自注意力机制限制词典树中主干序列和词典匹配词汇之间的相互可见性.根据可见矩阵的值调整注意力权重,降低不直接相关的词典匹配词汇和主干序列之间的干扰,有效缓解知识噪声对性能的影响.本文在4个公共数据集OntoNotes、MSRA、Weibo、Resume以及电信诈骗数据集上进行了实验.结果表明,所提出的方案在一般任务和诈骗文本线索词提取任务上都具有良好的性能.在诈骗文本线索词提取任务中,准确率、召回率和调和平均值分别达到了94.12%、92.75%和93.43%,优于现有模型.
关键词
电信诈骗
/
线索词提取
/
词典增强
/
知识噪声
Key words
基于词典增强的电信诈骗文本线索词提取模型[J].
东北师大学报(自然科学版), 2025, 57(03): 86-94 DOI:10.16163/j.cnki.dslkxb202306300002