融合领域双语词典的泰-汉法律领域神经机器翻译方法

李畅, 高盛祥, 余正涛

厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 597 -605.

PDF
厦门大学学报(自然科学版) ›› 2025, Vol. 64 ›› Issue (04) : 597 -605. DOI: CNKI:SUN:XDZK.0.2025-04-005

融合领域双语词典的泰-汉法律领域神经机器翻译方法

    李畅, 高盛祥, 余正涛
作者信息 +

Author information +
文章历史 +
PDF

摘要

[目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用法律领域语料库挖掘领域双语词典;然后使用基于不频繁法律领域中文词覆盖的方法筛选额外伪法律领域训练数据;在模型输入端,利用源句匹配的领域双语词典目标词构建额外提示数据;在模型结构中,引入提示浅编码器对提示进行表征,在源句编码器层中加入新的交叉注意力模块强化源句的表征,将源句表征与提示表征拼接作为最终编码器表征,在解码器端对编码器表征的交叉注意力作用下指导产生目标词序列.[结果]基于本文筛选方法混合训练的Transformer模型相比于仅用领域数据训练的模型,BLEU值提高了0.54个百分点;采用该混合训练集,融入提示信息的模型相比Transformer模型BLEU值又提升了0.90个百分点,并且相比于经典“语码转换”方法训练的模型BLEU值提升了0.61个百分点.[结论]本文数据筛选方法可在解决领域专业术语稀疏问题的同时降低通用高频词对翻译结果的干扰,提升领域翻译基线模型的性能;引入提示信息的模型能够有效地与提示进行交互,实现翻译性能的提升,并使领域关键词翻译更准确.

关键词

法律领域 / 泰-汉神经机器翻译 / 领域双语词典 / 数据筛选 / 提示浅编码器 / 交叉注意力

Key words

引用本文

引用格式 ▾
融合领域双语词典的泰-汉法律领域神经机器翻译方法[J]. 厦门大学学报(自然科学版), 2025, 64(04): 597-605 DOI:CNKI:SUN:XDZK.0.2025-04-005

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

136

访问

0

被引

详细

导航
相关文章

AI思维导图

/