基于多模态联合建模的端到端语音到文本翻译

欧佳乐; 昝红英; 许鸿飞

doi:10.20009/j.cnki.21-1106/TP.2024-0430

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (10) : 2338 -2344. DOI: 10.20009/j.cnki.21-1106/TP.2024-0430

基于多模态联合建模的端到端语音到文本翻译

欧佳乐, 昝红英, 许鸿飞

作者信息 +

Author information +

文章历史 +

摘要

通过联合建模或多任务学习，可以利用大规模的语音识别和文本翻译数据来提升端到端语音到文本翻译的性能.然而，现有大多数方法通常需要对语音翻译模型进行架构调整，或者依赖多阶段的预训练和微调.此外，语音与文本之间的模态差异使得使用共享编码器同时处理二者变得具有挑战性.为了解决这些问题，本文提出了一个简单的多模态联合建模框架.该框架将语音翻译和文本翻译的联合建模视作多语言神经机器翻译建模，并在自注意层中引入模态感知的相对位置编码，使用模态感知的单一编码器来同时处理语音和文本编码，而无需复杂化模型架构.然后结合大规模语音识别数据，和提出的基于翻译损失方法筛选的文本翻译数据，进行多模态联合建模训练.在两个基准测试中的实验结果表明，与基线方法相比，使用单编码器方法对内部和外部的语音识别及文本翻译数据进行联合建模后，可以显著提高多个语音翻译任务上双向翻译(从英语和到英语)的性能.