结合自训练模型的命名实体识别方法

肖伟, 郑更生, 陈钰佳

山东大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (02) : 96 -102.

PDF
山东大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (02) : 96 -102.

结合自训练模型的命名实体识别方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对命名实体识别数据集中存在某些实体类别样本过少,使模型学习该类别特征能力较差,导致整体性能较低的问题,提出结合自训练模型的命名实体识别方法。利用已有的命名实体识别数据集训练一个教师模型,通过改进的文本相似度函数搜寻与原数据集最相似的无标签文本,利用教师模型对无标签文本生成伪标签,并将伪标签与有标签数据集混合重新训练一个学生模型用于下游的命名实体识别任务。试验结果表明,相较基线模型,该方法在公共数据集MSRA、CONLL03和法律实体识别数据集上取得更优的性能。

关键词

命名实体识别 / 自训练 / 文本相似度 / 自然语言处理 / 少样本

Key words

引用本文

引用格式 ▾
肖伟, 郑更生, 陈钰佳. 结合自训练模型的命名实体识别方法[J]. 山东大学学报(工学版), 2024, 54(02): 96-102 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

62

访问

0

被引

详细

导航
相关文章

AI思维导图

/