加性频域分解的生成对抗网络语音去混响

全海燕, 王涛, 郑志清

工程科学与技术 ›› 2022, Vol. 54 ›› Issue (02) : 180 -187.

PDF
工程科学与技术 ›› 2022, Vol. 54 ›› Issue (02) : 180 -187. DOI: 10.15961/j.jsuese.202100267

加性频域分解的生成对抗网络语音去混响

作者信息 +

Author information +
文章历史 +
PDF

摘要

混响语音信号包括由路径延迟效应引起的不同频率分量,这些频率分量在频域中进行相关调制。为了降低混响语音在频谱中的高相关性,提出了一种基于加性频域分解的改进生成对抗网络(generative adversarial network,GAN)算法。首先,对混响语音的短时幅度谱进行对数运算,将调制的混响语音幅度谱转换为线性幅度谱,从而对卷积的语音分量进行分解;然后,通过sigmoid非线性函数进行归一化以平衡数据分布,再将解调后的幅度谱应用于深度全卷积网络以训练GAN模型;最后,基于生成模型和判别模型的对抗性学习机制,可以有效学习混响语音和声源语音的分布多样性,指导生成模型更精确地重构增强语音。采用Aishell中文语音数据集进行算法性能验证,分别比较了GAN、FCN和DNN模型有(或无)加性频域分解的去混响性能,并通过语谱图的差异来证明所提方法的有效性。实验结果表明,在4种不同的混响时间参数下,采用加性频域分解的GAN、FCN和DNN模型的PESQ、STOI、LSD评价分数比没有加性频域分解的提高了10%左右。因此,加性频域分解在用于语音去混响时可以有效提高GAN的性能。同时,在非同源测试集下也具有较好的泛化能力。

关键词

语音去混响 / 对数运算 / 加性频域分解 / 生成对抗网络

Key words

引用本文

引用格式 ▾
全海燕, 王涛, 郑志清. 加性频域分解的生成对抗网络语音去混响[J]. 工程科学与技术, 2022, 54(02): 180-187 DOI:10.15961/j.jsuese.202100267

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

10

访问

0

被引

详细

导航
相关文章

AI思维导图

/