基于多维度注意力机制和复数Conformer的单通道语音增强方法

高盛祥, 莫尚斌, 余正涛, 董凌, 王文君

重庆邮电大学学报(自然科学版) ›› 2024, Vol. 36 ›› Issue (02) : 393 -403.

PDF
重庆邮电大学学报(自然科学版) ›› 2024, Vol. 36 ›› Issue (02) : 393 -403.

基于多维度注意力机制和复数Conformer的单通道语音增强方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。

关键词

深度复数网络 / 声学特征 / 关联信息 / 多维度注意力机制 / 语音增强

Key words

引用本文

引用格式 ▾
高盛祥, 莫尚斌, 余正涛, 董凌, 王文君 基于多维度注意力机制和复数Conformer的单通道语音增强方法[J]. 重庆邮电大学学报(自然科学版), 2024, 36(02): 393-403 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

16

访问

0

被引

详细

导航
相关文章

AI思维导图

/