基于字母级加密的源语言镜像数据增强方法

刘艺程, 依西降参, 史树敏

厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 579 -585.

PDF
厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 579 -585. DOI: CNKI:SUN:XDZK.0.2025-04-003

基于字母级加密的源语言镜像数据增强方法

    刘艺程, 依西降参, 史树敏
作者信息 +

Author information +
文章历史 +
PDF

摘要

[目的]针对传统文本替换数据增强技术所导致的扩充句对语义不对齐的问题,提出一种面向低资源神经机器翻译的源语言镜像的数据增强(data augmentation via source language mirroring, DASLM)方法.[方法] DASLM通过凯撒加密技术进行源语言语句的字母级加密,增加源语言和目标语言之间的形式多样性,同时强化源语言与目标语言之间的语言不变特征;利用多语言联合训练可增强编码器提取语言不变特征的特点,用镜像语料与原始语料联合训练翻译模型.采用CCMT2023藏汉、维汉和蒙汉数据集,在Transformer模型框架下进行性能评估,并与多种主流数据增强方法进行对比.[结果] DASLM在藏汉、维汉与蒙汉3个低资源翻译任务中的BLEU值分别为24.71%、31.78%和41.67%.该方法在提升模型准确性的同时,能够在无额外模型训练的情况下达到媲美现有复杂增强方法的性能.在CCMT2024评测中取得较好的成绩.[结论]源语言镜像数据能保持与原始语料相似的语义和句法结构,DASLM方法克服了机器翻译任务中传统数据增强方法语义不对齐和译文不自然的缺陷,显著适用于低资源机器翻译.

关键词

低资源机器翻译 / 数据增强 / 源语言镜像 / 多语言联合训练

Key words

引用本文

引用格式 ▾
基于字母级加密的源语言镜像数据增强方法[J]. 厦门大学学报(自然科学版), 2025, 64(04): 579-585 DOI:CNKI:SUN:XDZK.0.2025-04-003

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

111

访问

0

被引

详细

导航
相关文章

AI思维导图

/