面向语种识别的声学特征提取改进研究

周大春; 邵玉斌; 张昊阁; 杜庆治

doi:10.19907/j.0490-6756.2024.033004

四川大学学报(自然科学版) ›› 2024, Vol. 61 ›› Issue (03) : 201 -211. DOI: 10.19907/j.0490-6756.2024.033004

面向语种识别的声学特征提取改进研究

周大春, 邵玉斌, 张昊阁, 杜庆治

作者信息 +

Author information +

文章历史 +

PDF

摘要

在进行语种识别研究时，使用的声学特征矩阵维度往往很高，为了解决语种识别中声学特征维度过高的问题，本文提出一种声学特征提取过程改进方法 .对一些常用的声学特征进行统计特性分析，再结合其提取流程及部分文献论证，通过计算特征各维在帧上的均值，再对其进行向量归一化消除量纲的影响得到改进后的特征，实现了将传统特征矩阵优化为一维特征向量.最后，根据改进后特征的特性，在2个不同的数据集下，选取BP神经网络和支持向量机作为基线系统进行语种识别实验.实验结果表明，对于目前常用的5种声学特征，所提改进方法相比于传统做法，在降低了99.8%的数据量情况下，数据集1在2种模型下仍能取得95.6%的平均识别率，数据集2在2种模型下仍能取得90.2%的平均识别率.此外，由于所提方法降低了大部分的计算量，使得算法能够更适应硬件设施相对较弱的嵌入式环境，扩大了算法的使用场景.