融合数据增强和知识迁移的汉维跨语言命名实体识别

葛一飞; 艾孜尔古丽; 陈德刚

山东大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (04) : 67 -75.

葛一飞, 艾孜尔古丽, 陈德刚

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对维吾尔语命名实体识别任务数据匮乏的问题，提出汉维跨语言命名实体识别零样本迁移方法。采用一种简单有效的序列标记翻译方式，将源语言训练数据翻译为目标语言数据，避免词序变化和实体跨度不确定等问题，结合源语言数据和翻译后得到的数据，引入一种基于相似度计算的实体增强方法，可以有效提高文本生成质量，进一步增加样本的多样性。通过一系列广泛的试验，这些增强数据使少数民族预训练语言模型（Chinese minority pre-trained language model, CINO）能够更好地实现知识迁移目标语言的特定语言特征和多语言的语言独立特征，在多语言数据增强跨语言知识迁移模型上F₁值达到86.50%,相比于基线模型提升7.42%,证明融合数据增强和知识迁移的汉维跨语言命名实体识别的可行性。