针对命名实体识别的数据增强技术

马晓琴, 郭小鹤, 薛峪峰, 杨琳, 陈远哲

华东师范大学学报(自然科学版) ›› 2021, Vol. 0 ›› Issue (05) : 14 -23.

PDF
华东师范大学学报(自然科学版) ›› 2021, Vol. 0 ›› Issue (05) : 14 -23.

针对命名实体识别的数据增强技术

    马晓琴, 郭小鹤, 薛峪峰, 杨琳, 陈远哲
作者信息 +

Author information +
文章历史 +
PDF

摘要

近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.

关键词

命名实体识别 / 数据增强 / EDA / 远程监督 / Bootstrap

Key words

引用本文

引用格式 ▾
针对命名实体识别的数据增强技术[J]. 华东师范大学学报(自然科学版), 2021, 0(05): 14-23 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/