低信噪比下基于融合网络的音素识别方法

黄辉波, 邵玉斌, 龙华, 杜庆治

重庆邮电大学学报(自然科学版) ›› 2024, Vol. 36 ›› Issue (04) : 786 -796.

PDF
重庆邮电大学学报(自然科学版) ›› 2024, Vol. 36 ›› Issue (04) : 786 -796.

低信噪比下基于融合网络的音素识别方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对低信噪比下音素识别准确率低的问题,提出一种新的识别方法。提取语音的Fbank特征,输入到由多头注意力机制、ResNet、BLSTM、CTC构建的A-R-B-CTC模型中进行音素识别,利用Wave-U-Net对语音特征Fbank、MFCC、GFCC、对数频谱进行图像去噪,发现Fbank特征去噪后,可以取得更低的音素错误率。在0 dB白噪声环境下采用THCHS30数据集进行实验验证。结果表明,Fbank去噪前,所提A-R-B-CTC模型相比于BLSTM-CTC、ResNet-BLSTM-CTC、Transformer模型,平均音素错误率分别降低了4.38%、2.5%、1.96%;Fbank去噪后,4种模型的音素错误率明显下降,其中所提A-R-B-CTC模型相比于其他3种模型性能依旧出色。此外,在其他信噪比下也达到了不错的效果。

关键词

音素识别 / Wave-U-Net / 端到端 / 多头自注意力机制 / Transformer模型

Key words

引用本文

引用格式 ▾
黄辉波, 邵玉斌, 龙华, 杜庆治 低信噪比下基于融合网络的音素识别方法[J]. 重庆邮电大学学报(自然科学版), 2024, 36(04): 786-796 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

16

访问

0

被引

详细

导航
相关文章

AI思维导图

/