基于YOLOv5的口吃类型检测研究

程振 ,  贾嘉敏 ,  蒋作 ,  王欣

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (01) : 84 -92.

PDF (4398KB)
云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (01) : 84 -92. DOI: 10.3969/j.issn.1672-8513.2025.01.011
信息与计算机科学

基于YOLOv5的口吃类型检测研究

作者信息 +

Research on stuttering type detection based on YOLOv5

Author information +
文章历史 +
PDF (4502K)

摘要

语言交流效率得分是量化口吃严重程度的方法,该方法需要获得口吃发生的时间,但目前相关研究仅能判断语音段中是否存在口吃,无法精确定位口吃的发生位置,不利于对口吃严重程度的判别.针对目前深度学习检测口吃类型无法可视化定位目标的问题,首先使用短时傅里叶变换将语音转化为语谱图,然后对其进行口吃类型标记,最后使用YOLOv5对口吃类型进行检测.在YOLOv5的基础框架下尝试YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 4种不同深度和宽度的模型,实现口吃类型的分类和定位,并选择在其性能最优的模型YOLOv5l中引入高效通道注意力机制和CIOU目标框损失函数对基础模型进行改进.实验结果表明,改进的YOLOv5l模型在训练损失值有明显降低,在准确率、召回率和mAP_0.5上分别提升了1.2、0.6和0.4个百分点,较原模型漏检情况有所改善.

关键词

YOLOv5 / 口吃识别 / 语谱图 / 目标检测

Key words

YOLOv5 / stuttering recognition / spectrogram / target detection

引用本文

引用格式 ▾
程振,贾嘉敏,蒋作,王欣. 基于YOLOv5的口吃类型检测研究[J]. 云南民族大学学报(自然科学版), 2025, 34(01): 84-92 DOI:10.3969/j.issn.1672-8513.2025.01.011

登录浏览全文

4963

注册一个新账户 忘记密码

口吃是一种常见的言语障碍疾病,占世界人口的1%(7 000万人)深受口吃的困扰1.口吃类型特点表现为患者在说话时频繁地非自愿的话语重复、拖长或中断.它牵涉到遗传、神经生理发育、家庭和社会等诸多方面,是非常复杂的语言失调症.根据研究表明,在患病早期发现并使用心理和语言的干预治疗下,痊愈率超过80%2.由此可见,在患病早期发现并治疗口吃显得尤为关键.目前医学对口吃的主要工作集中于口吃的病因、矫正方法等方面,通过只能医疗工具手段辅助专家识别口吃类型的技术尚未成熟,鲜见报道.
在早期的口吃检测工作中,Howell等3通过获取12名口吃患者的语音数据,提取其自相关特征、包络参数和光谱信息,并分别输入到两个独立的人工神经网络来识别口吃中的重复和拖长类型.后来Ravikuma等4采用了15名口吃患者的语音数据,使用隐马尔可夫模型和使用梅尔频率倒序系数特征的支持向量机对口吃类型进行分类.受当时技术条件限制和算力的匮乏,隐马尔可夫模型被认定为口吃识别研究领域中最佳的方法5.
近年,随着计算机算力的提升,深度学习、自动语音识别和自然语言处理在检测口吃类型方面效果显著,逐渐成为口吃研究者所采用的主流手段.在NLP兴起之初,口吃语音识别研究者大多是将音频信号转换成文字,然后利用语言模型检测和识别口吃6.尽管这类方法取得了不错的结果,但它的计算成本很高,并且容易出错.Kourkounakis等7使用残差结构和双向长短时记忆网络构建的FluentNet从语谱图中学习口吃特征,为每一类口吃训练相应的检测模型,虽然该方法在口吃检测中表现出良好的效果,但仍存在局限性,其只能判断语音段中是否存在口吃,不能精确定位口吃的发生位置,故无法计算语言交流效率得分(speech efficiency score, SES)8,并且识别类型时需经过每一个检测模型会造成大量的计算资源的浪费.
由于语谱图可表达时序和频谱的特征信息,使用YOLOv5算法左右搜索确定频谱帧与帧之间的时序关系,上下搜索确定帧内的频域信息.将横向搜索和纵向搜索进行结合,比较不同时间段内的特征,实现对口吃类型的检测.因此本文结合口吃的类型特点,使用YOLOv5算法,利用语音的语谱图来检测口吃类型.对YOLOv5基础模型进行了改进,使用其检测语音段中的口吃部分,输出口吃的位置及类型置信度.主要工作有2方面:
(1)从英语口吃数据库UCLASS中选取25个发音人的25条语音段,将语音以2 s的取样间隔,0.5 s的滑动框对其进行切割.然后通过短时傅里叶变换把2 s的语音段转换为语谱图,共生成5 440张语谱图,并对其进行口吃类型标注.
(2)基于标注的语谱图,使用改进的YOLOv5模型检测语谱图中不同类型的口吃并获得了较好的效果.

1 YOLOv5目标检测算法

1.1 YOLOv5简介

2016年,单阶段检测算法YOLO(you only look once)由Redmond等9开发,该算法采用单一回归问题思想,将整张图片作为输入,直接在输出层对目标位置和类别回归.由于YOLO模型端对端的结构特点,该算法在生成目标预选框的同时完成了分类,大大减少了时间成本和计算资源.YOLOv5是当前YOLO系列最新的目标检测算法,根据不同的深度和宽度,YOLOv5有4个不同版本,依次为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其继承了前代优势的同时,也优化主干网络,使目标检测的精度有所提高.

YOLOv5网络结构由输入模块(Input)、主干网络模块(Backbone)、特征融合模块(Neck)和检测模块(Prediction)4部分组成,如图1所示.各个模块功能描述如下.

(1)输入模块:输入模块对输入的语谱图进行预处理,即将语谱图缩放到模型所需的尺寸,同时使用了Mosaic数据增强来提升模型的训练速度和精度.在主干网络模块中,YOLOv5增加了Focus结构对图片进行切片操作,将尺寸为640 × 640 × 3的语谱图转换为640 × 640 × 12的特征图.

(2)主干网络模块:YOLOv5的主干网络模块使用了CSP1_X结构,其中的残差结构能在提取特征时有效防止网络加深时所引起的梯度消失问题.

(3)特征融合模块:在特征融合模块中,使用了CSP2_X结构, CSP2_X是将主干网络的输出分为2个分支,卷积计算后再合并,使网络对特征的融合能力得到加强,保留了更丰富的特征信息.同时,特征融合模块还使用了特征金字塔网络(FPN)和路径聚合网络(PAN)的组合结构加强模型对位置信息的学习,从而全面的提升模型的鲁棒性.

(4)检测模块即为输出端,用来完成口吃类型检测后的结果输出.

1.2 基于YOLOv5检测算法的改进策略

YOLOv5较于YOLOv4做了较大的改进,但YOLOv5模型都是使用公开数据集来训练,针对本文所构建的口吃语谱图的特点还需要进一步的改进和优化,以便更准确的识别和检测目标.

(1) 引入高效通道注意力机制

YOLOv5的主干网络在提取特征时会将模型的所有卷积通道同等对待,即给予所有通道相同的权重,这将对算法的检测性能有一定的限制作用.由于本次研究的对象是语音的语谱图,是时序相关的傅里叶分析的显示图像,图中包含了声信号所有的频谱信息,任何细小的特征都至关重要.因此对YOLOv5的主干网络进行改进,引入高效通道注意力机制(efficient channel attention,ECA)10.注意力机制被广泛应用,并被证明在提升检测性能上有显著贡献,其中ECA最突出的特点就是无降维的局部跨通道交互策略,大幅度降低模型复杂性的同时保持高性能,ECA结构如图2所示.

其原理是ECA模块首先使用全局平均池化(global average pooling,GAP)聚合特征图 χ R ( W × H × C )中各个通道的信息,获得 χ a v g R ( 1 × 1 × C ),如式(1)所示.

χ a v g =   G A P ( χ ) ; G A P ( χ ) = 1 H × W i = 1 H j = 1 W χ i , j .

式中 W为特征图的宽, H为特征图的高, C为通道数.然后,为了保持通道数可以被完整的传递给后续网络,ECA模块使用可共享权重的一维卷积来学习特征,在学习特征的同时,完成 k个邻近通道之间的跨通道交互. k是一维卷积的卷积核, k的值与通道数 C成正比例关系,计算公式如式(2)所示.

k = φ ( C ) = l o g 2 C γ + b γ o d d.

式中 γ = 2, b = 1, * o d d表示取最近的奇数, C为通道数.

(2) 使用CIOU目标框损失函数

交并比(intersection of union,IOU)用于表示预测框与真实框的交集和并集之比,如图3所示,其中 A为目标真实框, B为预测框, I为两框的交集, U为两框的并集. IOU的损失函数定义为式(3).

I O U = A B A B = I U ; I O U L o s s = 1 - I U .

其中IOU_Loss的值越小意味着模型越好,定位的位置越准确,但当预测框与真实框不相交时,IOU将会为0,无法预测两个框之间的距离,因此在YOLOv5原模型中使用的广义重叠率损失函数(generalized IOU,GIOU)算法11,来解决IOU_Loss算法的缺陷,但当预测框出现在真实框内时,即 A B = B的情况(如图4所示),GIOU降级为IOU算法,导致GIOU失效,无法确定预测框的位置信息.

在考虑到重叠程度、预测框与真实框中心点距离以及长宽比后,将使用重叠率损失函数(compatible IOU,CIOU)12来解决当预测框和真实框重合时GIOU失效的问题,如图5所示,CIOU Loss表达式如式(4).

C I O U L o s s = 1 - I O U + ρ 2 b , b g t c 2 + α v ; v = 4 π 2 a r c t a n w g t h g t - a r c t a n w h 2 ; α = v 1 - I O U + v .

式中, ρ 2 b , b g t为预测框与真实框两框中心点之间的欧氏距离, c为真实框 A和预测框 B两框的最小外接矩阵的对角线距离, v为衡量真实框宽高与预测框宽高的相似性参数, α为平衡比例的权重参数.

2 实验与分析

为实现口吃类型的检测,本节首先对语音数据进行处理,然后对YOLOv5的4个基础模型进行对比分析,最后选取其中效果最好的模型进行优化改进,并对改进模型的性能评估.

2.1 实验环境

本实验采用16 G内存的64位Windows10操作系统,处理器为i3-4160,显卡为8 G 显存的Nvidia 1070Ti.本次研究使用PyTorch深度学习框架搭建,开发环境为torch1.7.1,cuda11.0,Python3.7.训练阶段使用Adam优化器进行训练,初始学习率为1e-2,权重衰减为5e-4,动量为0.937,以8张图像为一个批次.所有实验均采用单尺度训练,图像输入大小均被缩放为640 × 640像素.

2.2 数据处理

本文的语音数据来自英语口吃数据库UCLASS13,从中选取25个发音人,每人选取一段语音作为实验数据.为得到清晰特征,需对语音进行分段处理,否则每个词对应的特征分辨率将非常低,不便检测.据统计一个词的发声时长约为400 ms,又因口吃持续时间不定,对语音段经过0.7、1、1.5、2 s等不同时长的切割尝试,最终确定2 s的段长最为适合,在这样的时间间隔中既会包括口吃也会有正常语音,又以0.5 s为取样滑动框,这样可以避免口吃特征被截断导致的特征丢失.最后通过短时傅里叶变换将其转化为语谱图,共生成5 440张语谱图,其中带有口吃特征的有1 521张.之后将语谱图进行标记,将数据集按照8∶1∶1的比例随机生成训练集、验证集和测试集.

(1) 语谱图转换

语音信号属于短时平稳信号,一般认为在10 ~ 30 ms内语音信号特性基本不变,所以可以分帧后使用平稳信号的处理方法进行处理,本文使用25 ms帧长和10 ms帧移.将时域信号转为频域信号后,再把每一帧变换后的频域信号旋转后在时间上排列就得到了语谱图,由于语谱图可表示为灰度图和伪彩图,为了后续标记数据的便捷,本文将采用彩色语谱图,如图6所示.语谱图的横轴表示时间,纵轴表示频率,颜色深浅表示能量强弱.

(2) 标记数据

本次实验使用labelimg标记工具对语谱图进行标记.更具体的口吃分类规则14表1所示,其总结了待测口吃的类型,并给出每种类型的例子.本次实验将音节重复、字的重复和短语重复都标记为重复类(repetition,R),声音拖长标记为拖长音类(prolongation,Pr),感叹词标记为感叹词类(interjection,I).数据集中有包含类型如图7所示,从(a) ~ (e)分别是单类型的重复、单类型的拖长音、单类型的感叹词、多口吃类型和流畅语音.

2.3 评估指标

本次实验的评价指标主要采用精确率(Precision,P)、召回率(Recall,R)和平均准确度(mean average precision,mAP)来评价模型的检测效果和性能,其中精确率是针对预测结果而言,它表示预测为真的样本中有多少是真正的真样本,如式(5)所示.

P r e c i s i o n = T P T P + F P .

召回率是针对原样本而言,它表示样本中正样本有多少被预测正确的,如式(6)所示.

R e c a l l = T P T P + F N.

其中TP、FP、FN如表2所示.平均准确度是各类别AP的平均值,如式(7)所示.

A P = 0 1 P R d R ; m A P = i = 1 N A P i N .

式中, P R P R曲线中 P r e c i s i o n的值、 N为待测目标的种类数、 A P i i类目标的 A P值.

2.4 实验结果分析

2.4.1 基础模型对比分析

要解决复杂的问题,往往需要增加模型的深度或宽度,而增加模型深度比增加宽度代价更小,通常优先增加深度.在实际应用中,更深的模型意味着更好的非线性表达,更多复杂的变换,从而能拟合更加复杂的特征输入.但是模型结构并非越复杂越好,越复杂的模型意味着更多的参数,训练效率会越低,并且过于复杂的模型未必能达到最优的效果.因此,为了找出效果最好的模型,本文对YOLOv5的4个版本进行了尝试(s、m、l、x),4个模型的各项指标如表3所示.

实验对4个版本的YOLOv5模型进行了300轮次的训练,训练结果如图8所示.

模型损失值由置信度和位置损失值组成,分别如图8(a)和(b)所示,4种模型的损失值随着训练轮次的增加而不断减小并趋于稳定.其中,YOLOv5l置信度损失和位置损失均最低.4种模型在IOU设置为0.5时的mAP_0.5值如图8(c)所示,均在200次之后趋于平稳.

表4可知,随着模型的加深,更复杂的YOLOv5x并未达到最好的效果,准确率仅比YOLOv5s提高了一个百分点,而YOLOv5l在准确率、召回率和mAP_0.5值均达到了最高,因此YOLOv5l为最佳的基础模型.

2.4.2 改进模型检测性能评估

为进一步提升模型的检测性能,本文对上述效果最好的YOLOv5l模型进行优化,引入高效通道注意力机制提升检测效能,修改GIOU_Loss为CIOU_Loss损失函数,提升目标位置的精确度.改进的模型和原模型在训练时的损失值和mAP_0.5值如图9所示.

通过图9(a)(b)可知,改进的模型与原模型一样,置信度和位置损失值随训练轮次的增加而不断减小,并在200训练轮后趋于稳定.由实验结果可见不论是置信度损失还是位置损失,改进的模型都优于原模型,证明改进后的模型在定位和判断类型时有更高的精度.mAP_0.5值如图9(c)所示,改进的模型在高效通道注意力机制作用下准确度值稳步上升,并在训练220轮后超过了原模型,最终达到了95.3%.

为了更好的体现模型性能,使用训练完成的改进模型和原模型在测试集实验,2个模型的结果对比如表5所示.

表5可看出,改进的YOLOv5l较YOLOv5l原模型在准确率上提高了1.2个百分点,在召回率上提升了0.6个百分点,在mAP_0.5值上提高了0.4个百分点. 以上证明引入高效通道注意力机制能和损失函数的改进能有效提升模型的准确率.

图10为YOLOv5l原模型与改进后模型的检测结果对比图,图10有4列5行,从(a)~(d)列分别是测试样本、测试样本标记图、YOLOv5l原模型检测结果图、YOLOv5l改进模型检测结果图.(1)~(5)行,分别是单类型的重复、单类型的感叹词、单类型的拖长音、多口吃类型和流畅语音.从目标定位的角度看,原模型和改进模型在检测单类型的重复、感叹词和多类型口吃都可以准确定位,但当遇到拖长音发音过长时,原模型会存在漏检的情况;在检测流畅语音时,还会出现误报情况.而改进的模型由于使用了CIOU目标框损失函数,在定位时对原模型出现的以上问题有所改善.从置信度的角度看,原模型检测结果的置信度不论是单类型检测还是多类型的检测结果,置信度大都在0.8左右,而改进模型引入了高效通道注意力机制后,模型对特征的学习能力会得到提升,改进模型的结果在检测时的结果偶有小于0.9.综上可证明改进后的YOLOv5l模型较原模型具有更好的泛化能力和鲁棒性.

3 结语

为解决目前研究无法精确定位口吃类型发生位置问题,以UCLASS口吃数据库为研究对象,提出了一种基于改进的YOLOv5模型识别口吃的方法.改进的YOLOv5模型是在YOLOv5l的基础上进行优化和改进,首先引入了高效通道注意力机制,通过不降维的局部跨通道交互策略,降低模型复杂性的同时保持高性能.其次将GIOU替换成CIOU目标框损失函数,来解决当预测框和真实框重合时GIOU失效的问题.经过训练后,改进的模型得到的结果都优于原模型,平均准确度达到了95.3%,相比于原模型提升了0.4个百分点,可快速、准确的分类和定位口吃.虽然改进的算法在分类与定位口吃目标上有了不错的效果,但是还未完成对口吃严重程度的评级,下一步工作主要针对口吃评级进行后续研究.

参考文献

[1]

GUITAR B. Stuttering: an integrated approach to its nature and treatment [M]. Baltimore, MD: Williams& Wilkins, 1998.

[2]

SALTUKLAROGLU T KALINOWSKI J. How effective is therapy for childhood stuttering? Dissecting and reinterpreting the evidence in light of spontaneous recovery rates[J]. International Journal of Language & Communication Disorders200540(3):359-374.

[3]

HOWELL P HAMILTON A KYRIACOPOULOS A.Automatic recognition of repetitions and prolongations in stuttered speech[C]//Proceedings of the First World Congress on Fluency Disorders.Nijmegen, The Netherlands: University Press Nijmegen, 19952: 372-374.

[4]

RAVIKUMAR K M KUDVA S RAJAGOPAL R, et al. Development of a procedure for the automatic recognition of disfluencies in the speech of people who stutter[C]//International Conference on Advanced Computing Technologies, Hyderbad, India. 2008: 514-519.

[5]

CHEE L S AI O C YAACOB S. Overview of automatic stuttering recognition system[C]//Proc. International Conference on Man-Machine Systems, no. October, Batu Ferringhi, Penang Malaysia. 2009: 1-6.

[6]

ALHARBI S HASAN M SIMONS A J H, et al. A lightly supervised approach to detect stuttering in children's speech[C]//Proceedings of Interspeech 2018. ISCA, 2018: 3433-3437.

[7]

KOURKOUNAKIS T HAJAVI A ETEMAD A. Detecting multiple speech disfluencies using a deep residual network with bidirectional long short-term memory[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 6089-6093.

[8]

AMIR O SHAPIRA Y MICK L. The speech efficiency score (SES): A time-domain measure of speech fluency[J]. Journal of fluency disorders201858: 61-69.

[9]

REDMON J DIVVALA S GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.

[10]

WANG Q WU B ZHU P,et al .ECA-Net: efficient channel attention for deep convolutional neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2020: 11534-11542.

[11]

REZATOFIGHI H TSOI N GWAK J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 658-666.

[12]

ZHENG Z WANG P LIU W, et al.Distance-IoU Loss: faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence202034(7):12993-13000.

[13]

PETER H STEPHEN D,JON B.The university college London archive of stuttered speech (UCLASS).[J].Journal of speech, language, and hearing research : JSLHR200952(2):556-569.

[14]

American Speech-Language-Hearing Association. Childhood fluency disorders [EB/OL]. 2020/2021-10-19.

基金资助

国家自然科学基金(61866040)

AI Summary AI Mindmap
PDF (4398KB)

180

访问

0

被引

详细

导航
相关文章

AI思维导图

/