一种基于非自回归模型的文本转语音方法

郭璐璐, 高尚

南京师大学报(自然科学版) ›› 2025, Vol. 48 ›› Issue (05) : 129 -138.

PDF
南京师大学报(自然科学版) ›› 2025, Vol. 48 ›› Issue (05) : 129 -138.

一种基于非自回归模型的文本转语音方法

    郭璐璐, 高尚
作者信息 +

Author information +
文章历史 +
PDF

摘要

文本转语音(Text-to-Speech, TTS)是一种将给定文本合成为语音的技术,具有广泛的应用前景.相比于自回归的TTS模型,非自回归的TTS模型在语音合成速度上有显著提升.然而,非自回归模型在长序列的语音合成任务中其合成速度和语音质量仍有提升空间.为此,本文提出了一种基于非自回归的EnhanceSpeech模型.首先,该模型利用可学习的外部记忆向量简化注意力机制计算方式,有效减少了计算复杂度和内存占用,并提升了模型的推理速度.其次,通过引入基于分层挤压注意力的后处理网络,利用二维卷积将梅尔频谱图生成过程视为图像处理,显著提升了梅尔频谱图的生成质量.实验结果表明,EnhanceSpeech模型与自回归模型相比生成速度提高了60倍以上.此外,与同类非自回归模型相比,本文方法的性能突出,更接近领先的自回归模型水平.

关键词

语音合成 / 自回归模型 / 非自回归模型 / 注意力机制 / 后处理网络

Key words

引用本文

引用格式 ▾
一种基于非自回归模型的文本转语音方法[J]. 南京师大学报(自然科学版), 2025, 48(05): 129-138 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

103

访问

0

被引

详细

导航
相关文章

AI思维导图

/