基于YOLOv5的口吃类型检测研究

程振 , 贾嘉敏 , 蒋作 , 王欣

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (01) : 84 -92.

PDF (4398KB)
云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (01) : 84 -92. DOI: 10.3969/j.issn.1672-8513.2025.01.011
信息与计算机科学

基于YOLOv5的口吃类型检测研究

作者信息 +

Research on stuttering type detection based on YOLOv5

Author information +
文章历史 +
PDF (4502K)

摘要

语言交流效率得分是量化口吃严重程度的方法,该方法需要获得口吃发生的时间,但目前相关研究仅能判断语音段中是否存在口吃,无法精确定位口吃的发生位置,不利于对口吃严重程度的判别.针对目前深度学习检测口吃类型无法可视化定位目标的问题,首先使用短时傅里叶变换将语音转化为语谱图,然后对其进行口吃类型标记,最后使用YOLOv5对口吃类型进行检测.在YOLOv5的基础框架下尝试YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 4种不同深度和宽度的模型,实现口吃类型的分类和定位,并选择在其性能最优的模型YOLOv5l中引入高效通道注意力机制和CIOU目标框损失函数对基础模型进行改进.实验结果表明,改进的YOLOv5l模型在训练损失值有明显降低,在准确率、召回率和mAP_0.5上分别提升了1.2、0.6和0.4个百分点,较原模型漏检情况有所改善.

关键词

YOLOv5 / 口吃识别 / 语谱图 / 目标检测

Key words

YOLOv5 / stuttering recognition / spectrogram / target detection

引用本文

引用格式 ▾
程振, 贾嘉敏, 蒋作, 王欣 基于YOLOv5的口吃类型检测研究[J]. 云南民族大学学报(自然科学版), 2025, 34(01): 84-92 DOI:10.3969/j.issn.1672-8513.2025.01.011

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

基金资助

国家自然科学基金(61866040)

AI Summary AI Mindmap
PDF (4398KB)

20

访问

0

被引

详细

导航
相关文章

AI思维导图

/