多语言机器翻译驱动的复述生成

阎子悦, 昝红英, 许鸿飞

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (12) : 2884 -2890.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (12) : 2884 -2890. DOI: 10.20009/j.cnki.21-1106/TP.2024-0485

多语言机器翻译驱动的复述生成

    阎子悦, 昝红英, 许鸿飞
作者信息 +

Author information +
文章历史 +
PDF

摘要

复述(Paraphrase)使用不同的词汇、句子结构或表达方式,传达相近的语义.复述可以有效地扩充训练数据,提升低资源自然语言处理(Natural Language Processing, NLP)任务的性能,现有的工作通常利用机器翻译将双语平行语料中一种语言的语句翻译到另一种语言,作为相应语句的复述.由于机器翻译模型通常在同一个平行语料库中训练,利用翻译模型生成复述库再在复述库上训练复述模型,较原始的双语数据可能会导致信息损失.本文提出在双语平行语料上训练双向的多语言神经机器翻译(Multilingual Neural Machine Translation, MNMT),通过设置语言标记,将多语言机器翻译模型直接作为复述模型使用,要求多语言机器翻译模型直接生成指定语言的复述.人工评估和自动评估结果表明,本文提出的方法生成的复述句较现有的复述库具有更高的流畅性、多样性和语义一致性.在GLUE(General Language Understanding Evaluation)任务上的实验表明利用本文基于多语言机器翻译的复述模型可以更有效地提升多个方面的自然语言理解任务性能.

关键词

复述 / 多语言机器翻译 / 数据增强

Key words

引用本文

引用格式 ▾
多语言机器翻译驱动的复述生成[J]. 小型微型计算机系统, 2025, 46(12): 2884-2890 DOI:10.20009/j.cnki.21-1106/TP.2024-0485

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

51

访问

0

被引

详细

导航
相关文章

AI思维导图

/