PDF
摘要
针对维吾尔语命名实体识别任务数据匮乏的问题,提出汉维跨语言命名实体识别零样本迁移方法。采用一种简单有效的序列标记翻译方式,将源语言训练数据翻译为目标语言数据,避免词序变化和实体跨度不确定等问题,结合源语言数据和翻译后得到的数据,引入一种基于相似度计算的实体增强方法,可以有效提高文本生成质量,进一步增加样本的多样性。通过一系列广泛的试验,这些增强数据使少数民族预训练语言模型(Chinese minority pre-trained language model, CINO)能够更好地实现知识迁移目标语言的特定语言特征和多语言的语言独立特征,在多语言数据增强跨语言知识迁移模型上F1值达到86.50%,相比于基线模型提升7.42%,证明融合数据增强和知识迁移的汉维跨语言命名实体识别的可行性。
关键词
汉维跨语言
/
命名实体识别
/
数据增强
/
知识迁移
/
CINO
Key words
融合数据增强和知识迁移的汉维跨语言命名实体识别[J].
山东大学学报(工学版), 2024, 54(04): 67-75 DOI: