PDF
摘要
针对传统语音情感识别系统主要依赖于幅度谱特征而忽视相位信息的问题,提出了一种多通道CNN-BLSTM架构,结合幅度谱(mel frequency cepstral coefficient, MFCC)和相位谱(modified group dlay function, MODGD)特征进行语音情感识别。通过引入注意力机制和深度典型相关分析(deep canonical correlation analysis, DCCA)来融合幅相特征,提出了一种新颖架构,通过DCCA和带有注意力机制的多通道CNN-BLSTM网络融合幅度和相位特征进行SER,有效提高了系统性能,同时提高了人机交互中语音情感的自然性和和谐性。在IEMOCAP数据库上的实验结果显示,在结合DCCA融合幅相特征后,UA提高到71.7%,较单独使用MFCC特征提升了5.58%。所提出的方法优于现有方法,实现了更高的语音情感识别准确,为语音情感识别领域提供了一个高效、准确的解决方案,为人工智能在语言情感识别方面提供了一个有效的研究和应用基础。
关键词
Key words
王金权.
CNN-BLSTM融合幅相特征的语音情感识别[J].
自动化技术与应用, 2026, 45(05): 82-87+113 DOI:10.20033/j.1003-7241.(2026)05-0082-07