基于SAE-LS-CGAN数据增强的语音情感识别

魏佳楠; 孙颖; 张雪英

doi:10.16355/j.tyut.1007-9432.20230729

太原理工大学学报 ›› 2026, Vol. 57 ›› Issue (01) : 202 -211. DOI: 10.16355/j.tyut.1007-9432.20230729

基于SAE-LS-CGAN数据增强的语音情感识别

魏佳楠, 孙颖, 张雪英

作者信息 +

Author information +

文章历史 +

摘要

【目的】语音情感语料库普遍存在数据稀少的问题，而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段，但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种语音数据增强方法的基础上，提出了一种基于改进条件生成对抗模型（Conditional Generative Adversarial Network,CGAN）的新的数据增强模型SAE-LS-CGAN。该模型将语音特征映射为N个矩阵，鉴别器分别对每个矩阵进行评价，提升鉴别精度。与传统的生成对抗网络（Generative Adversarial Network, GAN）相比，该模型引入栈式自编码器（Stacked AutoEncoder, SAE），并将其输出作为改进CGAN的输入，同时结合类别学习器（Class Learning Block, CLB）优化生成样本的质量；进一步引入最小二乘损失函数（The Least Squares Loss Function, LS）对网络进行对抗性训练，在原始特征空间和潜在空间中生成高质量的特征向量，并将生成数据融入到训练数据中用于分类。【结果】实验结果表明，所提模型在Emo-DB和IEMOCAP数据集上的语音情感识别任务中均取得了较优的性能表现。