基于交替语言数据重构方法的跨语言文本相似度模型

王轶, 王坤宁, 刘铭

吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (02) : 551 -558.

PDF (1455KB)
吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (02) : 551 -558. DOI: 10.13413/j.cnki.jdxblxb.2024078

基于交替语言数据重构方法的跨语言文本相似度模型

    王轶, 王坤宁, 刘铭
作者信息 +

Author information +
文章历史 +
PDF (1489K)

摘要

针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本.

关键词

mBERT模型 / 文本相似度 / 多语言预训练模型 / 大模型微调

Key words

引用本文

引用格式 ▾
基于交替语言数据重构方法的跨语言文本相似度模型[J]. 吉林大学学报(理学版), 2025, 63(02): 551-558 DOI:10.13413/j.cnki.jdxblxb.2024078

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (1455KB)

98

访问

0

被引

详细

导航
相关文章

AI思维导图

/