基于ASP-SERes2Net的说话人识别算法

令晓明, 陈鸿雁, 张小玉, 张真

北京工业大学学报 ›› 2025, Vol. 51 ›› Issue (01) : 42 -50.

PDF
北京工业大学学报 ›› 2025, Vol. 51 ›› Issue (01) : 42 -50.

基于ASP-SERes2Net的说话人识别算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation, SE)注意力模块;然后,用注意力统计池化(attention statistics pooling, ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax (additive angular margin Softmax, AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network, TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function, MinDCF)值为0.040 1,等误率(equal error rate, EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。

关键词

说话人识别 / 梅尔语谱图 / Res2Net / 压缩激活(squeeze-and-excitation, SE)注意力模块 / 注意力统计池化(attention statistics pooling, ASP) / 附加角裕度的Softmax (additive angular margin Softmax, AAM-Softmax)

Key words

引用本文

引用格式 ▾
令晓明, 陈鸿雁, 张小玉, 张真 基于ASP-SERes2Net的说话人识别算法[J]. 北京工业大学学报, 2025, 51(01): 42-50 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

11

访问

0

被引

详细

导航
相关文章

AI思维导图

/