基于音素级韵律建模的自回归零样本语音合成

岳焕景, 王嘉玮, 杨敬钰

湖南大学学报(自然科学版) ›› 2025, Vol. 52 ›› Issue (4) : 114 -123.

PDF
湖南大学学报(自然科学版) ›› 2025, Vol. 52 ›› Issue (4) : 114 -123. DOI: 10.16339/j.cnki.hdxbzkb.2025271

基于音素级韵律建模的自回归零样本语音合成

    岳焕景, 王嘉玮, 杨敬钰
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了提升合成韵律的自然度和稳定性,提出了基于音素级韵律建模的自回归语音合成模型.该模型从词级别停顿和音素时长两方面改进韵律建模.为了提升词级别停顿的多样性和准确性,在文本前端提出了停顿预测模块.该模块基于原始文本来预测多类停顿标签,从而为语音合成提供停顿时长建模的准确参考.为了提升音素时长的自然度,提出了时长预测模块.该模块预测每个音素的混合高斯分布,并通过随机采样来获得多样化的音素时长.为了提升自回归模型中的音素时长建模的稳定性,提出了注意力判别模块.该模块应用于自回归的每个时间步中,并通过注意力和判断机制来避免对齐紊乱现象.实验结果表明,所提三种模块可有效提升韵律建模的自然度和稳定性,从而提升语音合成的效果.

关键词

语音合成 / 韵律建模 / 停顿预测

Key words

引用本文

引用格式 ▾
基于音素级韵律建模的自回归零样本语音合成[J]. 湖南大学学报(自然科学版), 2025, 52(4): 114-123 DOI:10.16339/j.cnki.hdxbzkb.2025271

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

5

访问

0

被引

详细

导航
相关文章

AI思维导图

/