基于改进STAM的语音端点检测算法

吴荣波, 周斌, 胡波

中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (03) : 384 -392.

PDF
中南民族大学学报(自然科学版) ›› 2025, Vol. 44 ›› Issue (03) : 384 -392. DOI: 10.20056/j.cnki.ZNMDZK.20250312

基于改进STAM的语音端点检测算法

    吴荣波, 周斌, 胡波
作者信息 +

Author information +
文章历史 +
PDF

摘要

在低信噪比的背景下,由于背景噪声干扰信号特征,存在语言端点检测误判和漏判的风险.现有的解决方法存在易受干扰、精度有限、鲁棒性差等问题.针对上述问题,对STAM进行优化,提出了一种改进的语音端点检测算法Inception-ResNet STAM(IR-STAM).该算法通过改用音频指纹(AFP)特征来取代传统的Log-Mel特征,实现了对音频信号更深层次的特征提取;对频率注意力模块的卷积方式进行改进,采用深度可分离卷积,有效降低了模型的参数量;加入Inception-ResNet模块,进一步增强了模型对不同尺度特征的捕捉和分析能力.实验结果表明:在TIMIT测试集上,IR-STAM相较于STAM,模型的参数量降低150 k,并且在不同信噪比环境下F1分数均提高了0.5以上.

关键词

低信噪比 / Inception-ResNet模块 / 音频指纹特征 / 语音端点检测

Key words

引用本文

引用格式 ▾
基于改进STAM的语音端点检测算法[J]. 中南民族大学学报(自然科学版), 2025, 44(03): 384-392 DOI:10.20056/j.cnki.ZNMDZK.20250312

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

71

访问

0

被引

详细

导航
相关文章

AI思维导图

/