采用自适应噪声插入策略的无监督神经机器翻译

张传财 ,  屈丹 ,  李真 ,  都力铭

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 431 -437.

PDF (556KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 431 -437. DOI: 10.3969/j.issn.1671-0673.2025.04.008
计算机科学与技术

采用自适应噪声插入策略的无监督神经机器翻译

作者信息 +

Unsupervised Neural Machine Translation Based on an Adaptive Noise Insertion Strategy

Author information +
文章历史 +
PDF (569K)

摘要

针对无监督神经机器翻译在处理源语言和目标语言之间存在显著语法结构和词汇差异时鲁棒性与泛化能力不足的问题,提出一种基于自适应噪声插入策略的无监督神经机器翻译方法。该方法通过对源语言和目标语言在语法结构、词汇复杂度及句法差异性的分析,能够动态调整噪声的插入位置和强度,从而更好地适应不同语言对的复杂性。在结构简单的句子中,插入较少噪声以保护核心语义,而在复杂句子中,插入较为复杂的噪声以增强模型对复杂语言的学习能力,确保模型在保留重要语义信息的同时,能够增强模型的泛化能力和鲁棒性。实验结果表明,与基线模型相比,该方法在8个基准翻译任务中,显著提升双语评估替补(BLEU)值。

Abstract

To address the issue of insufficient robustness and generalization ability in unsupervised neural machine translation when handling significant grammatical structure and lexical differences between source and target languages, an unsupervised neural machine translation method based on an adaptive noise insertion strategy is proposed. By analyzing the grammatical structure, lexical complexity and syntactic difference between the source language and the target language, the noise insertion position and intensity can be dynamically adjusted, so as to better adapt to the complexity of different language pairs. For simpler sentences, less noise is inserted to preserve core semantics, while for more complex sentences, more intricate noise is introduced to enhance the model’s ability to learn complex language structures. This ensures that the model can retain important semantic information while improving its generalization ability and robustness. Experimental results show that compared with the baseline model, the bilingual evaluation understudy (BLEU) value is significantly improved by using the proposed method in eight benchmark translation tasks.

Graphical abstract

关键词

无监督神经机器翻译 / 动态噪声插入 / 注意力机制 / 源/目标语言 / 句子复杂度

Key words

unsupervised neural machine translation / dynamic noise insertion / attention mechanism / source/target languages / sentence complexity

引用本文

引用格式 ▾
张传财,屈丹,李真,都力铭. 采用自适应噪声插入策略的无监督神经机器翻译[J]. 信息工程大学学报, 2025, 26(04): 431-437 DOI:10.3969/j.issn.1671-0673.2025.04.008

登录浏览全文

4963

注册一个新账户 忘记密码

传统的机器翻译方法主要依赖于大规模的双语平行语料库,通过监督学习来构建高质量的翻译模型[1]。然而,这种方法的局限性在于双语语料库的获取成本高昂,并且这些语料库往往只涵盖了有限的语言对和领域,难以应对全球多语言、多领域的翻译需求[2-5]。在此背景下,无监督神经机器翻译(Unsupervised Neural Machine Translation, UNMT)方法因不依赖平行语料,逐渐成为近年来机器翻译领域的研究重点[4,6-8]
无监督神经机器翻译通过利用单语语料,在源语言和目标语言之间进行翻译[2,9-11]。然而,如果源语言和目标语言在句法结构、词汇复杂度以及语义表达上存在显著差异,现有的无监督神经机器翻译模型在处理复杂语句时,常常面临泛化能力不足和翻译质量不稳定的问题。这一现象在低资源语言对中表现得尤为突出,复杂语句的语义对齐和句法结构处理成为了模型训练中的主要瓶颈[12]。为了解决这些挑战,近年来的研究引入了多种数据增强技术,如噪声注入、对抗训练和数据扰动等策略,以提升模型对噪声和数据多样性的适应性[13]。其中,噪声注入通过向训练数据中添加不同形式的噪声,如随机删除、词汇替换或词序打乱等,能够迫使模型在不确定性中学习更加鲁棒的翻译模式。然而,现有的噪声注入策略通常是静态和固定的,未能充分考虑源语言与目标语言在语法结构、词汇使用以及语言对齐上的差异[14]。这种通用的噪声注入方式在处理复杂句法结构时,可能导致模型翻译质量下降。
为此,提出一种基于自适应噪声插入策略的无监督神经机器翻译方法。通过对源语言和目标语言在语法结构、词汇复杂度及句法差异性上的分析,该方法能够动态调整噪声的插入位置和强度,从而更好地适应不同语言对的复杂性。与传统的静态噪声注入方法相比,该策略引入了动态调节机制,能够根据句子的复杂程度自适应地调整噪声类型与注入强度。具体而言,模型会根据句子的结构特点和对齐难度,动态注入多模态噪声,确保在保留重要语义信息的同时,能够增强模型的泛化能力和鲁棒性。实验结果表明,基于自适应噪声插入策略的无监督神经机器翻译模型在多个基准翻译任务中,显著提升了翻译质量。

1 无监督神经机器翻译方法

传统的无监督神经机器翻译算法在缺乏平行语料的情况下,主要通过去噪自编码[15]和反向翻译[13]的方法进行不同语言对之间的映射。然而,这种方法常常受制于语言结构差异和不同语言分布的局限性,导致模型的泛化性和鲁棒性不足。为此,提出一种基于自适应噪声插入的算法,通过在训练过程中引入与源语言和目标语言差异相关的噪声扰动,增强模型对不同语言结构的适应能力。模型整体框架如图1所示。

1.1 动态噪声插入比例的计算

动态噪声插入比例的核心思想是通过句子复杂度计算方法来衡量句子的复杂程度,并根据该复杂度决定在句子中插入噪声的比例。为此,首先需要对每个句子进行复杂度的计算。句子的复杂度可以通过多种方式衡量,包括句子的长度、词汇的罕见度以及语法结构的复杂性等。较长的句子通常包含更多的词汇和句法结构,因此其复杂度可能较高;而较短的句子则相对简单。同样,使用频率较高的常见词汇通常使句子更容易理解和翻译,而低频、罕见词汇则增加了句子的复杂度。此外,句法结构的复杂性也会显著影响句子的复杂度,例如包含多重从句、嵌套结构或长距离依赖关系的句子通常被视为复杂度更高的句子。

句子复杂度的计算,常用的方法是通过句子的困惑度(Perplexity)来衡量。句子的困惑度反映语言模型在给定上下文下预测下一个词的难度。设一个句子为S=ω1,ω2,,ωn,其中ωi表示句子中的第i个词,对于句子中的每个词ωi,可以使用语言模型Pωiω1,ω2,,ωi-1预测该词的概率,其负对数概率为

P=-log2Pωiω1,ω2,,ωi-1

复杂度CS可以通过句中所有单词的预测概率的负对数和来计算:

C(S)=-i=1nlog2PωiS

式中:Pωi|S表示在句子上下文S下预测词ωi的概率;n表示句子长度。句子复杂度越高,表明该句子包含着更多复杂的语言结构和难以预测的词汇。

得到句子复杂度CS之后,根据这个复杂度决定噪声插入的比例。定义动态噪声插入比例为αS。该比例用于调整模型在噪声插入时的强度,确保简单句子接受较多的噪声干扰,复杂句子则减少噪声干扰。为了实现这一目标,定义一个复杂度阈值T来区分简单句子和复杂句子。对于复杂度高于阈值的句子,噪声插入的比例应适当减少,以避免对原有的语义和结构造成过多的干扰,从而保持翻译任务的有效性;而对于复杂度低于阈值的句子,可以适当增加噪声比例,通过增加句子中的噪声扰动来让模型学会更好地应对多样化的句子结构。噪声插入比例可以表示为

αS=1TCS

CS接近或者低于阈值T时,说明句子较为简单,模型可以插入较多的噪声以增强泛化能力。当CS远高于T时,表示句子较为复杂,此时模型应减少噪声插入,以免破坏句子的核心语义。

最后,在确定噪声插入比例αS后,噪声插入的具体数量可根据句子的长度n和噪声比例αS动态确定。通常情况下,插入的噪声数量为句子长度乘以噪声比例,即:

CNoise=αS×n

通过这种方式,噪声插入的数量可以根据句子的复杂度动态调整,从而确保在模型训练过程中,对简单句子进行更多的噪声干扰,帮助模型增强对不同语言结构的适应能力。

1.2 注意力机制引导的动态噪声插入

通过对句子中的每一个词进行注意力得分计算,模型能够获得每个词相对于整个句子的相对重要性。高得分的词汇往往承担着重要的语义或结构功能,诸如主语、谓语、宾语等在句子中的位置,这些词对句子的整体语义贡献较大,因此在噪声插入时应予以保留。相反,得分较低的词汇,可能是一些修饰性词语、功能词或者冗余信息,它们对句子的核心意义影响不大,因此在这些位置插入噪声对模型的训练影响相对较小。

在无监督神经机器翻译任务中,注意力机制通过计算句子中每个词的注意力权重,得出词汇相对于全局句子的语义重要性。给定源语言句子,每个词ωi的重要性得分Si由注意力机制生成:

Si=Attentionhi,H

式中:hi表示词在句子中的隐状态表示;H=h1,h2,

,hn表示整个句子的隐状态集合;Attentionhi,H表示通过注意力机制计算每个词ωi相对于整个句子隐状态集合H的权重,通常采用加性注意力或点积注意力的方式;重要性得分Si表示每个词在句子中的相对重要性,得分越高的词对句子的整体语义贡献越大。

接着,在确定了每个词的重要性得分Si之后,可以基于这些得分来确定噪声插入的位置。为了避免对核心语义部分的扰动,噪声应主要插入得分较低的词上。因此,引入一个噪声插入阈值λ,对于所有注意力得分Si<λ的词,选择进行噪声插入。如果词ωi的重要性得分Si低于阈值λ时,则选择该词进行噪声插入。这样确保了得分较高的词(核心词汇)不会被噪声扰动,保留了句子的关键语义结构。此过程可以表示为

maskS=ωiSi<λ

在确定了噪声插入的位置后,还需要对噪声插入的比例进行动态调整。噪声插入的数量可以通过句子的总词数n以及插入噪声的词汇数量来计算,噪声插入比例α*S为句子中被选中的噪声词汇数量相对于句子总长度的比率:

α*S=1nmaskS

式中:maskS表示被选中的需要插入噪声的词汇数量;n表示句子的总长度。通过这种方式,噪声插入的比例可以根据注意力机制计算出的句子重要性自动调整,确保在需要较多噪声扰动的部分插入更多噪声,在需要保留语义的部分减少噪声干扰。

1.3 损失函数设计

总损失函数由不同任务的损失函数组成,包括噪声插入任务和无监督神经机器翻译任务。通过动态调整每个损失项的权重,确保模型能够在不同的训练阶段有效优化各类目标任务。自适应噪声插入策略的总损失函数由两部分组成:噪声插入任务的损失Noise和无监督神经机器翻译任务的损失UNMT。为了平衡这两个损失的贡献,定义总损失函数为

Total=αNoise+βUNMT

式中:Noise表示通过自适应噪声插入后的掩码语言模型(Masked Language Model, MLM)的损失函数,衡量模型在噪声干扰条件下恢复原句的能力;UNMT表示无监督神经机器翻译任务的损失函数,衡量模型从源语言到目标语言的翻译质量;αβ表示动态调整的权重系数,用来平衡噪声任务和翻译任务在训练中的相对重要性,确保模型能够在不同的阶段更好地优化不同任务。

噪声插入任务的损失Noise主要用于评估模型在自适应噪声插入后恢复原句的能力。在无监督神经机器翻译任务中,噪声插入后的句子需要通过掩码语言模型进行重构,模型需要根据上下文预测被掩码或插入噪声的单词,该损失可以通过交叉熵损失函数来计算:

Noise=1Ni=1NCrossEntropypθωiSmasked, ωi

式中:N表示句子的长度;Smasked表示通过自适应噪声插入策略扰动后的句子;pθωiSmasked表示模型在给定噪声扰动句子Smasked时对被掩码词ωi的预测概率;CrossEntropy·表示交叉熵损失,用来衡量模型预测词与真实词之间的差异,如式(10)所示:

CrossEntropy(x,y)=-i=1Nxilog2(yi)

式中:x表示真实分布;y表示预测分布。该损失函数能够促使模型在噪声干扰条件下学会重构句子,提升其对语言结构变化的适应性。

无监督神经机器翻译任务的损失UNMT用于衡量模型在不依赖平行语料的情况下,如何从源语言句子生成目标语言句子。为实现这一点,通常采用去噪自编码器和反向翻译的方法,无监督神经机器翻译损失也可以通过交叉熵损失来定义:

UNMT=1Mj=1MCrossEntropypθSj' Sj,Sj'

式中:M表示句子对的数量;Sj表示源语言句子;Sj'表示目标语言句子或伪平行句子;pθSj' Sj表示模型从源语言句子Sj生成目标语言句子Sj'的概率。该损失通过模拟真实的翻译任务,促使模型学会在不同语言对之间进行准确的语义对齐。

总损失函数Total的最终优化目标是通过梯度下降法对模型参数θ进行更新。模型需要在复杂的噪声干扰和翻译任务中平衡多种语言现象,最终提升其翻译质量和对不同语言对的适应性。

2 实验

2.1 实验设置

2.1.1 数据集

本实验针对英语—法语和英语—德语语言对展开,在3个不同的数据集上进行,这些数据集分别来自于开源数据集WMT(Workshop on Machine Translation)和Multi30K[16],训练数据如表1所示。

其中,WMT’14英语—法语数据集、WMT’16英语—德语数据集、Multi30K-Task1中的英语—法语数据集和英语—德语数据集作为训练数据集。对于WMT’14英语—法语数据集,验证集从单语语料库中提取3 000个英语和法语句子组成,采用newstest2014数据集作为测试集。对于WMT’16英语—德语数据集,验证集从单语语料库中提取3 000个英语和德语句子组成,采用newstest2016数据集作为测试集。对于Multi30K-Task1中的英语—法语数据集和英语—德语数据集,忽略图像部分,只考虑平行注释部分,与WMT数据集类似,将训练集和验证集拆分为单语语料库,从而在训练集中产生14 500个单语源句子和目标句子,在验证集和测试集中产生500个句子。

本实验在所有语言对数据处理过程中采用Moses[17]处理工具,在每个语言方向上,将跨语言语言模型(Cross-lingual Language Model, XLM)[5]中的字节对编码(Byte Pair Encoding, BPE)方法应用在源语言和目标语言结合的数据上,获得共享的子词单元。

2.1.2 实验设置

实验基于PyTorch框架进行,软件环境为PyTorch1.12.0、Python3.8,采用apex包加速模型训练,在两张NVIDIA A40显卡运行。采用含有6个编码层和6个解码层的Transformer网络结构,注意力头大小、注意力头个数以及前向神经网络维度分别设为256、8、1 024。采用XLM[5]和掩码序列到序列预训练模型(Masked Sequence to Sequence Pre-training, MASS)[18]对模型进行初始化,模型适用于所有语言对,相关参数设置如表2所示。训练过程中保留验证集上表现最优模型作为最终模型。

除了采用本文所提算法训练的无监督神经机器翻译系统外,还对另外4种机器翻译系统进行对比实验。

1)Transformer。即采用fairseq工具箱中的训练方法得到的Transformer神经机器翻译系统。

2)XLM[5]。即采用XLM对编码器和解码器进行初始化,并进一步采用单语语料进行无监督微调后得到的翻译系统。

3)MASS[18]。即采用MASS对编码器和解码器进行初始化,并进一步采用单语语料进行无监督微调后得到的翻译系统。

4)SUNMT[1]。即在基于反向翻译的UNMT基础上,加入在线自训练[1]得到的翻译系统。

2.1.3 评价指标

双语评估替补(Bilingual Evaluation Understudy, BLEU)[19]是一种用于评估机器翻译输出质量的字符串匹配算法。BLEU算法的关键思想是计算机器翻译系统生成的译文和标准人工翻译参考之间的相似度,基于n元组匹配的准确率来进行计算,最终数值为0~100的百分比,数值越大表示翻译准确度越高,具体计算公式如下:

RBLEU=RBPexpn=1Nwnlnpn

式中:N表示最高取的n-gram词组长度,通常取值为4;wn表示1/NRBP表示长度惩罚因子;pn表示n-gram准确率。

2.2 实验结果及分析

2.2.1 数据结果

实验结果如表3所示。实验结果表明,本文提出的算法在Multi30K和WMT数据集上均表现出色。具体而言,该方法在英语—法语、法语—英语、德语—英语等语言对上的BLEU值显著高于传统的Transformer、XLM和MASS基线模型。例如,在Multi30K数据集上,该算法在英语—法语任务中取得了34.04的BLEU值,而在德语—英语任务中也达到了32.19,远超基线模型。这表明自适应噪声插入策略在处理不同语言对时展现了极强的适应性和鲁棒性,验证所提出的自适应噪声插入策略在无监督神经机器翻译任务中的有效性。

2.2.2 消融实验

为研究超参数αβ对模型性能的影响,分别测试超参数αβ取不同数值时的BLEU值,实验结果如表4所示。从实验结果可以看出,所提算法在Multi30K和WMT数据集上表现优异,特别是在调整超参数αβ后,性能显著提升。在Multi30K数据集上,当α取0.7、β取0.3时,模型在英语—法语和法语—英语翻译任务中分别取得了34.04和33.19的BLEU值,远超基线模型的表现。此外,在德语—英语和英语—德语翻译任务中,该超参数设置也取得了32.19和32.79的优异成绩。随着α数值的降低、β数值的增加时,BLEU值呈下降的趋势,在α取0.7、β取0.3时,BLEU值达到最大。因此,在实验结果中,αβ分别取值0.7和0.3时,模型性能达到最优。这表明所提算法有效提升了模型在不同语言对下的翻译质量,尤其在复杂的多语言场景中,通过合理调整超参数,能够进一步增强模型的泛化能力和鲁棒性。

3 结束语

相比传统模型,提出的自适应噪声插入策略通过动态调整噪声的插入比例,显著提升模型在面对不同语言复杂度时的表现。该策略基于句子复杂度的不同,动态插入噪声:对于简单句子,插入较多的噪声以增加学习难度,增强模型对多样化语言现象的泛化能力;而在复杂句子中,则减少噪声的干扰,保留句子的核心语义信息,从而避免翻译质量下降。同时,引入注意力机制来引导噪声插入位置,通过计算注意力权重,使得噪声能够被更有效地插入在非核心信息处,从而确保句子的关键信息不会受到干扰。这种结合注意力机制的噪声插入策略,不仅提升模型在噪声干扰条件下的抗干扰能力,还增强模型在处理复杂语言结构时的翻译精度。实验结果充分证明了自适应噪声插入策略在无监督神经机器翻译中的有效性。

参考文献

[1]

HE Z WWANG XWANG Ret al. Bridging the data gap between training and inference for unsupervised neural machine translation[C]∥Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2022:6611-6623.

[2]

ARTETXE MLABAKA GAGIRRE Eet al. Unsupervised neural machine translation[DB/OL]. (2018-02-16)[2024-09-29].

[3]

LAMPLE GCONNEAU ADENOYER Let al. Unsupervised machine translation using monolingual corpora only[DB/OL]. (2018-02-16)[2024-09-29].

[4]

LAMPLE G, OTT M, CONNEAU Aet al. Phrase-based & neural unsupervised machine translation[C]∥Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2018:5039-5049.

[5]

LAMPLE GCONNEAU A. Cross-lingual language model pretraining[C]∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, USA: Curran Associates Inc., 2019:7059-7069.

[6]

NGUYEN X PJOTY SNGUYEN Tet al. Cross-model back-translated distillation for unsupervised machine translation[C]∥Proceedings of the 38th International Conference on Machine Learning. New York, USA: PMLR, 2021:8073-8083.

[7]

ÜSTÜN ABERARD ABESACIER Let al. Multilingual unsupervised neural machine translation with denoising adapters[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2021:6650-6662.

[8]

LIU Y HJABBAR HSCHUETZE H. Flow-adapter architecture for unsupervised machine translation[C]∥Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2022:1253-1266.

[9]

LIU Y HCHRONOPOULOU ASCHÜTZE Het al. On the copying problem of unsupervised NMT: a training schedule with a language discriminator loss[C]∥Proceedings of the 20th International Conference on Spoken Language Translation. Stroudsburg, USA: ACL, 2023:491-502.

[10]

NGUYEN X PJOTY SWU Ket al. Refining low-resource unsupervised translation by language disentanglement of multilingual translation model[J]. Advances in Neural Information Processing Systems202235:36230-36242.

[11]

HAN JBABUSCHKIN IEDWARDS Het al. Unsupervised neural machine translation with generative language models only[DB/OL]. (2021-10-11)[2024-09-29].

[12]

KOEHN PKNOWLES R. Six challenges for neural machine translation[C]∥Proceedings of the First Workshop on Neural Machine Translation. Stroudsburg, USA: ACL, 2017:28-39.

[13]

SENNRICH RHADDOW BBIRCH A. Improving neural machine translation models with monolingual data[C]∥Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2016:86-96.

[14]

ZHANG TYE WYANG Bet al. Frequency-aware contrastive learning for neural machine translation[C]∥Proceedings of the 36th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2022:11712-11720.

[15]

VINCENT PLAROCHELLE HBENGIO Yet al. Extracting and composing robust features with denoising autoencoders[C]∥Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM, 2008:1096-1103.

[16]

ELLIOTT DFRANK SSIMA’AN Ket al. Multi30K: multilingual English-German image descriptions[C]∥Proceedings of the 5th Workshop on Vision and Language. Stroudsburg, USA: ACL, 2016:70-74.

[17]

KOEHN PHOANG HBIRCH Aet al. Moses: open source toolkit for statistical machine translation[C]∥Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. Stroudsburg, USA: ACL, 2007:177-180.

[18]

SONG K TTAN XQIN Tet al. MASS: masked sequence to sequence pre-training for language generation[C]∥Proceedings of the 36th International Conference on Machine Learning. New York, USA: PMLR, 2019:5926-5936.

[19]

PAPINENI KROUKOS SWARD Tet al. BLEU: a method for automatic evaluation of machine translation[C]∥Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, USA: ACL, 2001:No.311.

[20]

陈斌,刘胜利,胡安祥,.基于神经机器翻译的二进制函数相似性检测方法[J].信息工程大学学报202122(6):675-682.

基金资助

国家自然科学基金(62171470)

中原科技创新领军人才项目(234200510019)

河南省自然科学基金面上项目(232300421240)

AI Summary AI Mindmap
PDF (556KB)

44

访问

0

被引

详细

导航
相关文章

AI思维导图

/