基于联结主义的视听语音识别方法

车娜, 朱奕明, 赵剑, 孙磊, 史丽娟, 曾现伟

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (10) : 2984 -2993.

PDF
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (10) : 2984 -2993. DOI: 10.13229/j.cnki.jdxbgxb.20240209

基于联结主义的视听语音识别方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对视听语音识别技术存在的数据需求量大、音视频数据对齐、噪声鲁棒性等问题,深入分析了联结主义时序分类器、长短期记忆神经网络、Transformer、Conformer四类核心模型的特点与优势,归纳了各模型的适用场景,并提出了优化模型性能的思路和方法。基于主流数据集和常用评价标准,对模型性能进行了量化分析。结果表明:CTC在噪声条件下性能波动较大,LSTM能有效捕捉长时序依赖,Transformer和Conformer在跨模态任务中可显著降低识别错误率。最后,从自监督训练和噪声鲁棒性两个层面,展望了未来的研究方向。

关键词

计算机应用技术 / 视听语音识别 / 深度学习 / 联结主义

Key words

引用本文

引用格式 ▾
车娜, 朱奕明, 赵剑, 孙磊, 史丽娟, 曾现伟 基于联结主义的视听语音识别方法[J]. 吉林大学学报(工学版), 2024, 54(10): 2984-2993 DOI:10.13229/j.cnki.jdxbgxb.20240209

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

16

访问

0

被引

详细

导航
相关文章

AI思维导图

/