双通道解码的端到端连续语音识别

朱洋, 曾庆宁, 赵学军

桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (02) : 167 -173.

PDF
桂林电子科技大学学报 ›› 2024, Vol. 44 ›› Issue (02) : 167 -173. DOI: 10.16725/j.1673-808X.2023223

双通道解码的端到端连续语音识别

作者信息 +

Author information +
文章历史 +
PDF

摘要

在端到端连续语音识别系统中,完全基于自注意力机制的Transformer模型相比传统的混合模型提高了准确率。Conformer模型是在Transformer模型基础上增加一个擅长提取局部特征的卷积模块,将该模型作为整个识别系统的编码器,解码器使用注意力机制,注意力模型只适合短句子识别,并且在数据集存在噪声时会导致网络训练不稳定,添加CTC模型的序列对齐特性辅助训练来帮助模型收敛更快。针对单通道解码可在识别准确率上进一步优化的问题,提出了CTC与Attention双通道解码模型,将双通道解码与单一的CTC解码和单一的Attention解码进行对比验证,结果表明双通道解码在识别性能上提升了1%。针对在噪声环境下识别效果降低的问题,提出对端到端网络添加语言模型的方法。将N-gram语言模型加入网络中进行验证,结果表明在信噪比为10 dB的高噪声环境下,语言模型能够使字错率下降3.5%,提高了语音识别系统的鲁棒性。

关键词

语音识别 / 编码器 / 解码器 / 端到端 / 双通道 / 语言模型

Key words

引用本文

引用格式 ▾
朱洋, 曾庆宁, 赵学军 双通道解码的端到端连续语音识别[J]. 桂林电子科技大学学报, 2024, 44(02): 167-173 DOI:10.16725/j.1673-808X.2023223

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

17

访问

0

被引

详细

导航
相关文章

AI思维导图

/