面向域外说话人适应场景的多层级解耦个性化语音合成

高盛祥; 杨元樟; 王琳钦; 莫尚斌; 余正涛; 董凌

doi:10.16088/j.issn.1001-6600.2023111303

广西师范大学学报（自然科学版） ›› 2024, Vol. 42 ›› Issue (04) : 11 -21. DOI: 10.16088/j.issn.1001-6600.2023111303

面向域外说话人适应场景的多层级解耦个性化语音合成

高盛祥, 杨元樟, 王琳钦, 莫尚斌, 余正涛, 董凌

作者信息 +

Author information +

文章历史 +

摘要

个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时，与真实语音存在明显音色差异，解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法，通过不同粒度特征融合，有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征，以提高模型对域外说话人的泛化能力，实现句子粒度的说话人解耦；借助语音识别模型解耦音素粒度说话人特征，并通过注意力机制捕捉音素级音色特征，实现音素粒度的说话人解耦。实验结果表明：在公开数据集AISHELL3上，本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。

关键词

语音合成 / 零资源 / 说话人表征 / 域外说话人 / 特征解耦

Key words

引用本文

引用格式 ▾

高盛祥, 杨元樟, 王琳钦, 莫尚斌, 余正涛, 董凌. 面向域外说话人适应场景的多层级解耦个性化语音合成[J]. 广西师范大学学报（自然科学版）, 2024, 42(04): 11-21 DOI:10.16088/j.issn.1001-6600.2023111303

登录浏览全文

4963

注册一个新账户忘记密码

参考文献

原文顺序 | 出版日期 | 本文引用

基金资助

国家自然科学基金(62376111,U23A20388,61972186,U21B2027); 云南高新技术产业发展项目(201606); 云南省基础研究计划项目(202001AS070014); 云南省科技人才与平台计划项目(202105AC160018); 云南省媒体融合重点实验室开放课题(220225702); 云南省重点研发计划项目(202303AP140008,202103AA080015)

AI Summary AI Mindmap

310

访问

被引

详细

导航

摘要

关键词

Key words

引用本文

参考文献

基金资助

AI思维导图