基于自监督预训练模型和NWCE的口吃语音分类

殷志鹏, 徐新洲

中北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (01) : 19 -26.

PDF
中北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (01) : 19 -26.

基于自监督预训练模型和NWCE的口吃语音分类

    殷志鹏, 徐新洲
作者信息 +

Author information +
文章历史 +
PDF

摘要

口吃语音分类旨在利用语音信号对不同口吃类别进行分类识别,而现有相关研究没有充分考虑自监督预训练模型表示嵌入的时序特性,且只简单地表征了口吃语音数据的类别不平衡性。为此,本文提出一种基于自监督预训练模型和非线性加权交叉熵(NWCE)损失的口吃语音分类方法。该方法首先利用自监督预训练模型提取副语言表示嵌入,然后通过带自注意力机制的双向长短期记忆网络模型,捕捉嵌入中显著的时序特征和上下文信息,最后利用非线性加权交叉熵损失来关注样本较少的口吃语音类别。在口吃语音分类数据集上的实验结果表明,本文方法通过学习语音中自监督预训练模型多层表示嵌入的时序信息,并且通过NWCE充分描述了各口吃类别数据间的关系,取得了比现有方法更好的口吃语音分类性能。

关键词

计算副语言 / 口吃语音分类 / 自监督预训练模型 / 非线性加权交叉熵损失

Key words

引用本文

引用格式 ▾
基于自监督预训练模型和NWCE的口吃语音分类[J]. 中北大学学报(自然科学版), 2025, 46(01): 19-26 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

115

访问

0

被引

详细

导航
相关文章

AI思维导图

/