面向域外说话人适应场景的多层级解耦个性化语音合成

高盛祥, 杨元樟, 王琳钦, 莫尚斌, 余正涛, 董凌

广西师范大学学报(自然科学版) ›› 2024, Vol. 42 ›› Issue (04) : 11 -21.

PDF
广西师范大学学报(自然科学版) ›› 2024, Vol. 42 ›› Issue (04) : 11 -21. DOI: 10.16088/j.issn.1001-6600.2023111303

面向域外说话人适应场景的多层级解耦个性化语音合成

    高盛祥, 杨元樟, 王琳钦, 莫尚斌, 余正涛, 董凌
作者信息 +

Author information +
文章历史 +
PDF

摘要

个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。

关键词

语音合成 / 零资源 / 说话人表征 / 域外说话人 / 特征解耦

Key words

引用本文

引用格式 ▾
面向域外说话人适应场景的多层级解耦个性化语音合成[J]. 广西师范大学学报(自然科学版), 2024, 42(04): 11-21 DOI:10.16088/j.issn.1001-6600.2023111303

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

102

访问

0

被引

详细

导航
相关文章

AI思维导图

/