面向智能监控的轻量YOLOv10目标检测算法

刘春友 ,  唐志斌 ,  刘智国 ,  宋宇斐

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 444 -449.

PDF (1619KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (04) : 444 -449. DOI: 10.3969/j.issn.1671-0673.2025.04.010
计算机科学与技术

面向智能监控的轻量YOLOv10目标检测算法

作者信息 +

Lightweight YOLOv10 Object Detection Algorithm for Intelligent Surveillance

Author information +
文章历史 +
PDF (1657K)

摘要

为解决传统人工视频监控实时性不足,无法高效检测场景中短暂出现目标的问题,提出一种基于轻量化YOLOv10的智能监控检测算法。首先,利用深度可分离卷积替换标准卷积,减少网络参数,提高检测速度。其次,将主干网络中跨阶段部分双卷积融合瓶颈结构替换为高效多尺度注意力模块,提高网络对目标成像尺寸变化的感知能力。最后,使用辅助边界框优化损失,丰富监督信息,增强网络对小目标的检测性能。在交通监控数据集UA-DETRAC中的实验结果表明:该算法平均精度均值较Faster R-CNN、EfficientDet-D5、YOLOv8及YOLOv11分别高出13.5、10.9、1.7、0.4个百分点;检测速度达112 FPS,参数量仅2.2×106,为智能监控下目标检测任务提供技术支持。

Abstract

To address the limitations of traditional manual video surveillance, such as insufficient real-time performance and inefficient detection of transient targets, an intelligent surveillance detection algorithm based on lightweight YOLOv10 is proposed. Firstly, depthwise separable convolutions are employed to replace standard convolutions, reducing network parameters while accelerating detection speed. Secondly, the cross-stage partial bottleneck structure with dual convolution fusion in the backbone network is substituted with an efficient multi-scale attention module, enhancing the network’s sensitivity to target scale variations. Finally, an auxiliary bounding box optimization loss is integrated to enrich supervision signals and improve small-target detection performance. Experimental evaluations on the UA-DETRAC traffic surveillance dataset demonstrate that the proposed algorithm achieves a higher mean average precision (mAP) by 13.5, 10.9, 1.7, and 0.4 percentage points compared to these of Faster R-CNN, EfficientDet-D5, YOLOv8, and YOLOv11, respectively. With a detection speed of 112 FPS and merely 2.2×106 parameters, this algorithm provides robust technical support for object detection tasks in intelligent surveillance systems.

Graphical abstract

关键词

智能监控 / 目标检测 / 深度学习 / YOLOv10模型 / 轻量化

Key words

intelligent surveillance / object detection / deep learning / YOLOv10 / lightweight

引用本文

引用格式 ▾
刘春友,唐志斌,刘智国,宋宇斐. 面向智能监控的轻量YOLOv10目标检测算法[J]. 信息工程大学学报, 2025, 26(04): 444-449 DOI:10.3969/j.issn.1671-0673.2025.04.010

登录浏览全文

4963

注册一个新账户 忘记密码

随着社会和经济快速发展,城市安全管理与规范的重要性日益凸显,基于光学成像技术的视频图像监控设备逐步成为安全防范、城市精细化管理以及交通监控等领域不可或缺的工具[1]。这些设备通过捕捉并处理高清视频图像,增强了事故安全预警与应急响应能力,为社会和谐稳定发展提供强有力的技术支撑。但随着各领域对安全标准的不断提高,传统监控系统面临着严峻挑战,其表现为人工监测实时性不足,无法有效检测视频场景中短暂出现的目标(如快速行驶的汽车)。
基于深度学习的智能监控技术可以有效解决上述问题,做到实时监测。例如:文献[2]使用YOLOv3-tiny算法进行视频监控,该方法可对20个类别目标进行检测,达到45.8%的平均精度均值(mean Average Precision, mAP)及33.1帧/s-1的预测速度。文献[3]提出面向电网工作人员识别的轻量化网络,该网络能够识别电网作业人员佩戴安全帽情况及身份,实现高精度电网施工安全监督。文献[4]提出改进YOLOv5目标检测模型,对水利工程施工现场中的不安全行为进行检测,包括靠近危险区域、动态施工机械、安全帽未佩戴等,提升了水利工程施工安全智慧化管控水平。文献[5]提出改进YOLOv8实现无人机交通异常事件检测,模型采用MobileNetV3作为轻量主干,计算量降低30%,获得了良好的实时性能。文献[6]利用Shuffle NetV2改进YOLOv5网络,使模型大小降低了86.8%,并成功在无人机中部署,实现建筑地作业人员行为安全的实时检测。
虽然上述方法实现了智能监控系统中对特定目标或行为进行检测的能力,但采用的网络仍存在如非极大值抑制(Non-Maximum Suppression, NMS)等后处理计算过程,不利于在硬件中追求更高实时性和稳定性的要求。针对这些挑战,本文提出了一种基于轻量化YOLOv10的智能监控监测算法。

1 模型与方法

在过去几年里,由于在计算成本和检测性能之间取得了有效平衡,YOLO(You Only Look Once)系列[7]已经成为实时目标检测领域的主流方法。根据智能监控应用背景下对方法轻量性和稳定性的需求,选取YOLO系列最具实时推理性能,且无需NMS操作的YOLOv10模型进行改进。

改进后的YOLOv10网络结构如图1所示,图中的k代表卷积核尺寸、s代表卷积核步长。首先,在主干网络部分,采用高效多尺度注意力(Efficient Multi-scale Attention, EMA)模块替换跨阶段部分双卷积融合瓶颈结构(Cross Stage Partial Bottleneck with 2 Convolutions and Fusion, C2f)模块,增强模型对目标多尺度特征的感知能力。然后,在颈部网络中,利用深度可分离卷积(Depthwise Seperable Convolution, DWConv)替换C2f中的传统卷积,构建C2f深度可分离模块(C2f Depthwise Seperable, C2fDW),减少网络参数。最后,在检测头部分,利用Inner-CIoU损失替换完全交并比(Complete Intersection over Union, CIoU)损失,获取更丰富的监督信息,提高模型训练性能。YOLOv10网络中有3个检测头,能针对不同尺度目标做出检测。在推理阶段,检测头采用1对1分配机制,针对同一目标,模型只保留检测头中置信度最高的检测框。

1.1 深度可分离卷积

本文所使用的深度可分离卷积结构如图2所示,由逐通道卷积和逐点卷积构成。对于输入尺寸为W×H×C的特征图,首先按通道将特征图分离出来,再使用3×3×1的卷积进行通道特征提取,得到维度依然为W×H×C的特征图,该过程为逐通道卷积运算过程。随后根据人为设定的输出通道数N,构建N个1×1×C的卷积块,进行点卷积运算,该运算与普通二维卷积计算过程一致,但卷积核尺寸固定为1,因此称为逐点卷积。

相比传统二维卷积,深度可分离卷积将卷积操作分两阶段处理。第1阶段主要处理空间特征,只对输入通道进行大尺寸卷积核的特征提取,生成与输入通道数相同的中间特征图,在通道层面减少了运算参数量。第2阶段加强特征图不同通道之间联系,采用1×1卷积将通道间的特征进行融合,在卷积核层面减少了运算参数量。

1.2 EMA注意力模块

EMA注意力模块于2023年由文献[8]提出,其计算流程如图3所示,图中C代表通道数,H代表特征图高,W代表特征图宽。对于给定的输入特征图,将其划分为跨通道维度方向的G个子特征,用于学习不同的语义。EMA使用3个平行的路径提取分组后特征图的注意力权重,前两个路径为1×1卷积路径,其分别使用水平方向平均池化和垂直方向平均池化,以获取全局特征信息。然后,通过拼接操作将两个方向空间特征向量拼接,利用Sigmoid函数将值映射到0~1之间,再与原始特征图进行通道加权。加权后的特征图再经过组归一化、平均池化、Softmax函数激活,并与3×3分支的输出结果通过矩阵乘法方式相结合。另一个路径使用3×3卷积提取更大尺度的特征信息,然后利用平均池化和Softmax函数拟合线性变换,再与1×1分支中的特征结合。最后,EMA将经过交叉融合的两条分支特征进行相加,经过Sigmoid变换后,作用于原始输入特征图,得到最终结果。

1.3 损失函数

边界框回归损失函数是目标检测模型训练过程的重要部分,其直接决定模型对目标的定位精度。YOLOv10采用CIoU损失,其考虑中心点距离与形状损失,但其在面对小目标(目标在图像中占用的像素个数少于32×32)时性能表现较差,这导致训练时难以收敛。为更好针对监控系统中小目标图像特征之间的差异,本文采用辅助边框的思想,引入带缩小尺度因子的Inner-IoU损失[9]改进CIoU损失函数,构建Inner-CIoU,其中Inner-IoU原理如图4所示。

输入为真实框和预测框的位置信息,包括真实框中心点坐标(xcgt,ycgt)、高度与宽度(hgt,wgt)。以及预测框中心点坐标(xc,yc)、高度和宽度(h,w)。首先设置比例因子r,保持真实框与预测框中心点位置不变,将高度与宽度乘以比例因子,得到放缩后的辅助框(图4虚线框),其坐标分别用(blgt,brgt,btgt,bbgt)(bl,br,bt,bb)表示。

首先,计算完全交并比损失LCIoU,过程如下所示:

LCIoU=1-I+p2(b,bgt)c2+αv
v=4π2arctanwgthgt-arctanwh2

式中:I代表预测和真实两框之间的面积交并比;p为点距离计算;c代表最小包围框对角线长度;b为预测框中心点;wh为边界框的长和宽,带有gt标识为真实框;α为权重参数;v用于度量真实框和预测框长宽比的一致性。

然后,计算辅助边框的面积交并比IInner,该辅助边框通过比例因子r进行放缩,可提高网络对目标多尺度特征的敏感性,具体计算过程如下:

IInner=iu

式中:i为辅助锚框与辅助目标框之间重叠区域面积;u为辅助锚框与辅助目标框不重叠区域面积和,计算公式为:

i=(min(brgt,br)-max(blgt,bl))×
(min(bbgt,bb)-max(btgt,bt))
u=(wgt×hgt)×r2+(w×h)×r2-i

最后,将IInner损失融入计算中,得到最终损失LInner-CIoU,过程如下:

LInner-CIoU=LCIoU+I-IInner

2 实验平台与评价指标

本文采用UA-DETRAC智能交通监控数据集,其收集了来自城市交通环境不同场景的大量视频图像,包含了约1 400个视频剪辑。通过LabelImg工具进行标注,共获得14 863张图片,按8∶1∶1的比例划分训练集、验证集和测试集。数据集中的目标包括行人、摩托车、货车、汽车、公交车共5类目标。实验硬件配置为:CPU主频为2.50 GHz、核心数为24、运行内存32 GB、NVIDIA GeForce RTX 3060显存12 GB。操作系统为Ubuntu 18.04.6。训练参数包括:学习率为0.01,动量为0.937,权重衰减为0.000 5,批量大小为12,迭代数为100次,优化器采用Adam;图片输入为640×640像素。评价指标包括mAP、精确率(Precision)、召回率(Recall)、帧速率(Frame Per Second, FPS)、参数量及浮点运算量(Floating Point Operations, FLOPs)。

2.1 消融实验

为验证本文所提出模块的有效性,在数据集中进行消融实验,结果如表1所示。

表1可以看出,仅使用DWConv时,模型预测帧数增加29 FPS,精确率下降1.3个百分点,召回率下降0.4个百分点,mAP值下降1.8个百分点,模型通过精度折中实现轻量化。在仅使用EMA注意力模块时,召回率增加2.9个百分点,mAP值增加0.6个百分点,模型预测精度提升。在仅使用Inner-CIoU时,精确率增加0.3个百分点,召回率增加1.3个百分点,mAP值增加1个百分点,模型性能提升较为明显。将3种方法都添加到原模型之后,精确率上升0.5个百分点,召回率上升2.5个百分点,mAP值上升1.5个百分点,预测速度上升23 FPS。实验数据分析证明了本文提出的改进在智能交通检测数据集上的有效性。

2.2 对比实验

为客观地展示改进模型的优势,将改进模型与当前主流模型进行对比实验。实验中涉及的模型包括Faster R-CNN[10]、EfficientDet-D5[11]、YOLOv5[12]、YOLOv8[13]、YOLOv10-N、YOLOv10-M、YOLOv11[14]表2为各模型的实验性能指标。

对于YOLOv10,单层卷积参数量计算公式为

VParams=Cin×K2×Cout+Cout

单层FLOPs计算公式为

VFLOPs=2×H×W×Cin×Cout×K2

式中:Cin表示输入通道数;Cout表示输出通道数;HW表示特征图的高度和宽度;K表示卷积核的尺寸。

表2可知,改进后YOLOv10的mAP值达到92.2%,比YOLOv10-N和YOLOv10-M分别高1.7和2.0个百分点,比Faster R-CNN和YOLOv11分别高13.5和0.4个百分点。在轻量化方面,其参数量为2.2×106,FLOPs为6.1×109,仅比YOLOv5多0.3×106和1.6×109。同时由于无需NMS后处理,检测速度达112 FPS,比YOLOv5快41 FPS。综上,改进YOLOv10在预测速度和综合性能上均领先于其他7种方法。

2.3 Inner-CIoU损失函数效果分析

为充分验证损失函数替换后模型的性能,实验将原始YOLOv10中的CIoU替换为Inner-CIoU,并对改进后的模型损失曲线进行对比,当损失值趋近于0时,代表模型收敛性更好,对比如图5所示。

图5可知,CIoU和Inner-CIoU的损失值都随着训练轮次的增加逐渐下降,但Inner-CIoU下降速度更快,且在最后几轮训练时,损失值相比CIoU更低,证明Inner-CIoU的良好性能。

2.4 主观实验

为验证各模型的实际检测效果,选择不同交通场景下的监控图像进行检测,包括光线较弱的夜晚场景和车辆较多的交通拥堵场景。对比模型选取综合性能较好的YOLOv8和YOLOv11作为对比模型,可视化结果如图6所示。从上到下各行依次为:光反射场景、夜晚场景、拥挤场景;从左到右各列依次为:改进后的YOLOv10模型、YOLOv8、YOLOv11。图中虚线部分代表漏检区域。

图6可知,在光反射场景中,行人背光,其特征表现较少,YOLOv8和YOLOv11出现漏检,且对远处的小型车辆也未能检测出来。在夜晚场景中,YOLOv11误将摩托车误检为行人目标,且未能检测出位于图像上方的货车,YOLOv8也未能检测出位于图像正上方的人群和小汽车等。在拥挤的交通场景中,YOLOv8和YOLOv11对靠近图像边缘,以及远处小目标车辆都表现为漏检,本文方法对远处小目标虽然也有一定漏检情况,但相较于对比方法,本文方法能够将大部分目标正确检测出来,证明其性能优异。

2.5 混淆矩阵分析

为进一步评估模型对监控场景中短暂出现目标的检测性能,基于数据集中的视频帧样本构建了类别检测混淆矩阵,如图7所示。图中横坐标是真实标签,纵坐标是预测标签。选取的视频帧样本满足两个特点,一是视频中只存在运动目标(如公交车、汽车和行人等),二是这些目标在监控场景中只会短暂出现(在视频中的停留时间小于2 s)。

图7可见,本文方法误将9%的行人检测为摩托车,这是因为小目标的摩托车与行人表现出较为相似的特征。除此之外,本文方法对行人、公交车、汽车和货车的检测精确率都达到90%以上,这表明即使目标在监控场景中只表现出了瞬态特征,模型依旧能够针对目标做出有效检测,同时验证了模型具有实时性强、特征提取效率高的特点。

3 结术语

本文提出一种基于改进YOLOv10的轻量化智能交通检测模型。首先,利用深度可分离卷积替代传统卷积,缓解网络模型计算规模大的问题;其次,使用EMA注意模块,提高模型特征提取性能;最后,采用Inner-CIoU替换CIoU损失,增强模型对小目标的检测性能。实验表明,改进YOLOv10模型综合性能优异,能够为智能交通检测系统提供技术支持。

参考文献

[1]

李炜,黄倩.嵌入式机房多功能模块智能监控系统设计[J].计算机测量与控制202432(1):64-71.

[2]

王均成,贺超,赵志源,.基于YOLOv3-tiny的视频监控目标检测算法[J].电子技术应用202248(7):30-33.

[3]

胡戈飚,林志驰,郭政,.面向电网施工人员识别的轻量化检测网络[J].沈阳工业大学学报202446(3):248-254.

[4]

张社荣,梁斌杰,马重刚,.水利工程施工人员不安全行为识别方法[J].水力发电学报202342(8):98-109.

[5]

任安虎,李宇飞,陈洋.改进YOLOv8的高速公路交通异常事件检测[J].激光杂志202546(1):84-90.

[6]

李华,吴立舟,薛曦澄,.基于计算机视觉的高处临边作业安全巡检[J].中国安全科学学报202333(9):69-75.

[7]

李杰,李勇斌,郑娄,.基于YOLO-OpenMax的水声通信信号开集识别方法[J].信息工程大学学报202425(3):258-264.

[8]

OUYANG D LHE SZHANG G Zet al. Efficient multi-scale attention module with cross-spatial learning[C]∥Proceedings of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, USA: IEEE, 2023. DOI: 10.1109/ICASSP49357.2023.10096516 .

[9]

徐薪羽,沈通,吕佳.基于改进YOLOv8算法的钢材表面缺陷检测[J].自动化应用2024(15):6-10.

[10]

韩捷,郝方舟,刘晓,.基于Faster RCNN深度学习模型的穿戴式电场作业安全检测系统[J].微型电脑应用202339(2):108-110.

[11]

TAN M XPANG R MLE Q V. EfficientDet: scalable and efficient object detection[C]∥Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2020:10781-10790.

[12]

侯伟,陈雅,宋承继,.基于改进YOLOv5算法的无人机巡检图像智能识别方法[J].微型电脑应用202440(9):26-30.

[13]

梁天添,杨淞淇,钱振明.基于改进YOLOv8s的恶劣天气车辆行人检测方法[J].电子测量技术202447(9):112-119.

[14]

周秀珊,文露婷,介百飞,.改进YOLOv11的水面膨化饲料颗粒图像实时检测算法[J].智慧农业(中英文)20246(6):155-167.

基金资助

安徽省高等学校省级质量工程项目(2023JYXM1692)

安徽省教育厅2024年度重点项目(2024AH050101)

AI Summary AI Mindmap
PDF (1619KB)

76

访问

0

被引

详细

导航
相关文章

AI思维导图

/