基于注意力自适应迁移的零样本跨语言文本分类方法

李文博, 高盛祥, 张勇丙

昆明理工大学学报(自然科学版) ›› 2025, Vol. 50 ›› Issue (04) : 95 -106.

PDF
昆明理工大学学报(自然科学版) ›› 2025, Vol. 50 ›› Issue (04) : 95 -106. DOI: 10.16112/j.cnki.53-1223/n.2025.04.234

基于注意力自适应迁移的零样本跨语言文本分类方法

    李文博, 高盛祥, 张勇丙
作者信息 +

Author information +
文章历史 +
PDF

摘要

零样本跨语言文本分类任务是指仅依赖源语言标注数据训练模型,并将其迁移到目标语言上,不需要目标语言的标注数据.而传统的跨语言文本分类方法通常需要一定规模的目标语言标注数据,且在跨语言迁移过程中往往忽略以类别标签相关联的关键词,导致跨语言迁移效果不佳.针对以上问题,提出了一种基于注意力自适应迁移的零样本跨语言文本分类方法,在完全不依赖目标语言标注数据的情况下,通过对种子词重要性建模和自适应迁移解决零样本跨语言文本分类的难题.首先,基于文本的词分布特征在源语言上抽取种子词,并对其进行重要性建模,生成重要性矩阵.在此基础上,利用大规模源语言标注数据训练教师模型,在训练过程中通过种子词的词概率分布进一步强调关键性信息.其次,将教师模型捕获的重要词通过跨双语词典映射关系映射到目标语言上.再次,利用教师模型为目标语言中包含种子词的无标注数据生成伪标签,这些伪标签构成了学生模型的初始训练数据,并以此训练学生.最后,学生模型进一步对目标语言的无标注数据进行预测,生成新的标注数据并扩充训练集,通过迭代优化最终得到用于目标语言分类任务的学生模型.实验表明,提出的方法在MLDoc和CLS数据集上与基线模型对比,准确率分别提高了10.5%、6.7%.

关键词

跨语言文本分类 / 零样本 / 自适应迁移学习 / 自注意力 / 自适应方法

Key words

引用本文

引用格式 ▾
基于注意力自适应迁移的零样本跨语言文本分类方法[J]. 昆明理工大学学报(自然科学版), 2025, 50(04): 95-106 DOI:10.16112/j.cnki.53-1223/n.2025.04.234

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

23

访问

0

被引

详细

导航
相关文章

AI思维导图

/