基于目标检测的复杂城市交通环境感知技术及应用

艾散·西尔艾力; 车德福; 王夺; 喻甜

doi:10.12068/j.issn.1005-3026.2025.20230297

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (05) : 29 -36. DOI: 10.12068/j.issn.1005-3026.2025.20230297

信息与控制

基于目标检测的复杂城市交通环境感知技术及应用

作者信息 +

Perception Technology and Application of Complex Urban Traffic Environment Based on Target Detection

Author information +

文章历史 +

PDF (3018K)

摘要

基于机器视觉的环境感知技术是智慧交通领域的关键任务之一.传统深度学习算法通常只能满足单一场景下的个别目标检测任务，难以应对复杂交通环境下的智能感知需求.为提高车辆在复杂环境下的智能感知能力，提出了一种改进的YOLOv8目标检测网络模型，结合注意力机制、优化器和可变形卷积层，实现了在复杂城市交通环境下的多目标检测.采用YOLOv4，YOLOv8及改进的YOLOv8算法对复杂交通环境样本图进行目标检测对比实验.结果表明，与YOLOv4，YOLOv8相比，改进的YOLOv8算法的平均精度分别提高了40.76%和16.92%.该算法的检测准确性与实时性满足实际应用需求，可通过多传感器信息融合，实现在复杂城市交通环境下的智能感知.

Abstract

Machine vision-based environmental perception technology is one of the key tasks in the field of intelligent transportation. Traditional deep learning algorithms typically meet the detection needs of individual targets in simple scenarios. However， they are not capable of addressing the intelligent perception requirements in complex traffic environment. To improve the intelligent perception capability of vehicles in such environment， this paper proposes an improved YOLOv8 object detection network model， integrating attention mechanisms， optimizers， and deformable convolutional layers to achieve multi-target detection in complex urban traffic environment. To verify the effectiveness of the algorithm， comparative experiment were conducted using YOLOv4， YOLOv8， and the improved YOLOv8 algorithm on sample images from complex traffic environments. The results show that， compared to YOLOv4 and YOLOv8， the improved YOLOv8 algorithm increased the average accuracy by 40.76% and 16.92%， respectively. The detection accuracy and real-time performance of the improved YOLOv8 algorithm meet the practical application requirements， and through multi-sensor information fusion， it can realize intelligent perception in complex urban traffic environment.

Graphical abstract

关键词

YOLOv8 / 目标检测 / 复杂城市交通 / 环境感知 / 智慧交通

Key words

YOLOv8 / target detection / complex urban traffic / environment perception / intelligent transportation

引用本文

引用格式 ▾

艾散·西尔艾力,车德福,王夺,喻甜. 基于目标检测的复杂城市交通环境感知技术及应用[J]. 东北大学学报(自然科学版), 2025, 46(05): 29-36 DOI:10.12068/j.issn.1005-3026.2025.20230297

登录浏览全文

4963

注册一个新账户忘记密码

近年来，随着信息融合与人工智能技术的飞速发展，基于机器视觉的环境感知技术在促进智能交通发展的基础上，也加快了智慧城市的建设速度^［1-2］.由于城市交通环境下的路况千变万化，出现的目标类型多种多样、目标之间容易相互遮挡、目标运动轨迹错综复杂，车辆在行驶过程中对周围如此复杂环境信息的感知能力相当受限，这些因素给智慧交通的发展和交通安全带来了极大的挑战.此外，根据Aufrère等^［3］、Montemerlo等^［4］、Leonard等^［5］对智能汽车行驶环境感知的研究，车辆在驾驶过程中需要有效感知道路环境信息，识别周围动静态目标，如其他车辆、行人、小动物和障碍物等.此外，还需要全面获取周围交通状况以及车辆自身定位等重要信息.为此，汽车需要配备多种传感器，以获取复杂交通环境下的多源信息.最终，通过信息融合技术感知当前行驶环境，确保车辆能够应对复杂的交通状况，从而为安全驾驶和自主导航提供坚实保障^［6］.

这些研究有效解决了车辆智能感知任务中存在的一些问题，但具有一定的局限性，在复杂城市交通环境下对目标的多样性、复杂性考虑不足.为了提升车辆在复杂交通环境下的感知能力，本文利用移动设备摄像头、固定摄像头等多元传感器采集复杂交通环境下的图像数据，运用计算机视觉、机器学习等先进技术，从视频图像处理方法入手，依赖改进的YOLOv8目标检测网络模型，针对城市复杂交通环境下多目标检测、分类、动态跟踪及定位等环境感知技术中的关键问题展开深入研究.

1 YOLO模型概述

YOLO（you only look once）算法是一种基于深度学习回归方法的目标检测与分类算法.自Redmon等^［7］提出初代模型以来，YOLO算法不断更新迭代并提升其性能，广泛应用于各类计算机视觉任务.YOLOv4通过对损失函数^［8-9］、主干网络（backbone）和颈网络（neck）部分的优化，大幅提高了检测速度和精度^［10-11］.YOLOv5则通过自动化适配训练数据集，进一步提高了模型的训练速度和精度^［12］.YOLO算法现已迭代至第8代（YOLOv8），推出了更多优化和新功能，进一步提高了性能和灵活性，其结构如图1所示.

1.1 网络结构

YOLOv4采用CSPDarknet53作为骨干网络，在neck部分引入了SPP（spatial pyramid pooling）模块，并优化了检测过程中的损失函数与框筛选策略^［13］；YOLOv8的网络结构包括C2F（cross stage partial with two fusion）特征融合模块与SPPF（spatial pyramid pooling-fast）模块，进一步提升了特征提取和融合能力.Neck部分同样采用了C2F与CBS（Conv+BN+SiLU）模块来优化来自不同层的特征图的融合，检测头（head）部分则通过解耦合头分别进行分类与回归操作^［14］.

1.1.1 特征提取模块

本文改进的YOLOv8模型引入C2F模块（图2），通过多分支特征融合与深度可分离卷积优化梯度流传递，结合上采样操作提升特征分辨率，在减少参数量的同时增强多尺度特征表达能力，从而提升检测速度与精度.

1.1.2 空间特征池化模块

相较于SPP，SPPF将简单的并行Max pooling改为串行加并行的方式，在提高检测速度的同时获取了更多的细节特征信息，其结构如图3所示.

1.1.3 检测模块

模型的检测模块主要由neck和head组成.backbone和neck部分引入C2F和SPPF模块，并对不同尺度的模型调整了不同的通道数，在提升模型性能的同时，平衡了模型的推理速度.而head部分则通过Anchor-Free方式进行类别预测与目标框回归，避免了Anchor-based方法的先验限制.

1.1.4 模型改进

本文提出了一种改进的YOLOv8模型，以更适应复杂交通环境下的智能感知技术要求.主要改进如下：

1）引入全局多头自注意力机制.多头自注意力机制（multi-head self-attention，MHSA）是Transformer架构中的关键模块^［15］.该机制由n个自注意力子模块构成，每个模块的线性变换矩阵

W i Q ， W i K ， W i V

分别与输入向量

X i

相乘，以在多个空间维度上进行投影，从而提升模型的表达能力^［16］，并生成相应的

Q Q u e r y ， K K e y ， V V a l u e

；接着，所有模块的输出结果会被拼接在一起，与线性变换矩阵

W o

相乘，最终得到自注意力的输出矩阵，如式（1），（2）所示.

h e a d i = A t t e n t i o n X i W i Q, X i W i K, X i W i V,

(1)

M H S A Q, K, V = C o n c a t h e a d 1, ⋯, h e a d i W o .

(2)

其中：

Q = X W Q ， K = X W K ， V = X W V

，

Q ， K

和

V

分别表示查询、键和值；

X

是输入；

W Q, W K

和

W V

分别是

Q ， K

和

V

的权重矩阵.

本文在C2F模块后面添加了MHSA机制，使得网络能够更加关注重要的特征区域.MHSA允许模型共同关注来自不同表示子空间在不同位置的信息.然而，单个注意力头（如缩放点积注意力头）在信息聚合时易将不同子空间信息平均化，限制了对丰富语义的捕捉.因此，MHSA可以更好地理解语义信息，可并行计算，降低计算复杂度^［17-18］，更好学习远距离依赖.其结构如图4所示.

2）引入Adam优化器.优化器（optimizer）是引导神经网络更新参数的工具，深度学习在计算出损失函数之后，需要利用优化器来进行反向传播，以此完成网络参数的更新，找到最优的模型参数，使得损失函数最小化.卷积神经网络中常用的优化方法包括随机梯度下降法（stochastic gradient descent，SGD）^［19］、带有动量的随机梯度下降^［20-21］、AdaGrad（adaptive gradient）^［22］、RMSProp（root mean square propagation）和Adam（adaptive moment estimation）^［23］优化器.本实验中，采用Adam优化算法替代迭代过程中存在一定随机性和震荡而导致准确度下降的SGD优化方法.Adam是将Momentum与RMSProp融合于一身的算法，引入了Momentum的一阶动量及RMSProp的二阶动量，以累计梯度、加快收敛速度、缩小波动幅度.在此基础上增加了2个修正项，能够实现参数自动更新^［24］.Adam优化算法除了计算梯度平方

v t

的指数衰减平均值，还计算梯度

m t

的指数衰减平均值.计算公式如下：

m t = β 1 m t - 1 + 1 - β 1 g t,

(3)

v t = β 2 v t - 1 + 1 - β 2 g t 2 .

(4)

m^t = m t 1 - β 1 t,

(5)

v^t = v t 1 - β 2 t .

(6)

式中：

β 1

和

β 2

分别是两个移动平均的衰减率，通常取值

β 1

=0.9，

β 2

=0.99；g_t 为随机目标函数t时刻的梯度；

m^t

和

v^t

分别是对

m t

和

v t

的校正，以此抵消偏差，尽量获取无偏估计.其梯度更新规则如下：

θ t + 1 = θ t - m^t v^t + ε ⋅ η .

(7)

其中：

θ t

为t时刻的模型参数；

η

为学习率；

ε

为常数项.

3）采用可变形卷积.标准卷积的卷积核为固定的大小与形状，对于形状规则的物体可能会有更好的效果（图5a）.可变形卷积在标准卷积规则的网状采样位置上引入可学习的偏移量，使得卷积核能够在特征图上自由变形，从而自适应地调整采样位置，更好地捕捉物体的非规则形状、尺度变化和旋转，显著提升了在处理复杂形状或变化较大的物体时的表现.从图5b~图5d中可以清晰地观察到它在尺度、纵横比和旋转变换等方面的能力.

从图6中可以看出，标准卷积中的感受野和采样位置都固定在顶部特征图上；在可变形卷积中根据物体的尺度和形状进行自适应调整，使采样点更贴近物体的形状和尺寸，具有更强的鲁棒性^［25］.

因此，本文在模型主干网络的后3个模块中增加了可变形卷积，使其可以根据实际情况调整自身的形状，更好地提取输入特征，提升对未知变化的适应性以及泛化能力.

2 实验

2.1 实验条件

本实验环境配置：操作系统为Windows 10，处理器为Intel Core i7-12700，内存为32 GB，显卡为NVIDIA RTX 3060 Ti，编程语言为Python 3.7，计算机视觉库为Python-OpenCV 3.4.8.

2.2 实验内容

2.2.1 制作数据集与预处理

本实验选用的城市交通环境图像由部分中国交通标志数据集（Chinese traffic sign database，CTSDB）以及个人采集的东北大学周边交通环境数据集构成，共6 766张交通环境图像.其中72%（4 870张）为训练集，20%（1 354张）为测试集，8%（542张）为验证集.所有图像数据均采用Labelimg标注工具进行标注.本次实验收集到城市交通环境中的十几种目标类型，包括交通标志牌、交通信号灯、路面龟裂、路面破损、井盖、垃圾桶、路面垃圾、垃圾桶倾倒、雨水立箅、雨水立箅破损、井盖丢失、火焰、烟雾、违规摆摊.

2.2.2 数据增强

本文选用的是Mosaic数据增强方法，该方法是参考CutMix数据增强方法.CutMix方法通过移除图像的部分区域，并用训练集中其他样本数据的像素值随机替代，而非填充0像素.分类结果则按照特定比例进行分配，如图7所示.Mosaic方法则是随机选择4张图，按一定比例取其部分，先分别对4张选取部分进行旋转、缩放、平移、错切、色域变化等数据增广操作，然后按照随机排布的方式进行拼接形成新图（见图8）.图9中，4种颜色代表4张样本原图，超出指定区域的部分将被舍弃.Mosaic方法通过随机选取和组合，丰富了图像背景、增加了数据多样性；通过混合4张具有不同语义信息的图片，增强了模型鲁棒性；用4张图拼接生成1张新图，提升了小目标检测性能.

2.2.3 训练数据集

本实验训练了复杂城市交通环境下较为重要的十几种目标.训练参数设置主要包括：迭代次数（epoch）、输入图像大小（imgsize）、每组数据量（batch）、工作线程（workers）、优化器（optimizer）等.本实验对主要参数进行了设置和优化调整，参数设置见表1.

2.3 评估指标指定

在复杂交通环境下基于目标检测的智能感知系统中，目标检测处于整个系统的前端，其精度直接影响后续操作的准确性，而检测速度则决定系统的实时响应能力.因此，本文将从多个维度，包括检测精度、模型规模及推理速度等方面，对改进的YOLOv8算法进行综合评估.

在目标检测中，交并比（intersection over union，IoU）通常用来衡量预测框与真实框（ground truth box，GTB）之间的匹配程度，其定义为目标的真实边界框与预测框交集与并集的比值^［26］，取值范围在［0，1］之间.为了判断预测结果的正确性，目标检测任务中会设定一个交并比的阈值，只有高于阈值的预测结果被视为有效预测.其计算如式（8）所示.本文中IoU取值0.5，即当IoU值大于0.5时，则预测框视为有效，保留预测框；反之则视为无效，不保留预测框.

I o U = A r e a (p r e d i c t) ⋂ A r e a (l e b e l) A r e a (p r e d i c t) ⋃ A r e a (l e b e l) .

(8)

引入平均精度均值mAP（mean average precision）、每秒帧数（frames per second，FPS）和准确率-召回率（precision-recall，P-R）曲线作为模型检测精度与实时性的评价指标，计算公式如下^［27］.

P = T P (T P + F P) × 100 %,

(9)

R = T P (T P + F N) × 100 % .

(10)

式中：TP表示真正例，是正确划分为正例的样本数量；FP表示假正例，是错误划分为正例的样本数量；FN表示假负例，是错误划分为负例的样本数量.

平均精度（average precision，AP）是对P-R曲线上的precision值求均值，其值等于P-R曲线与坐标轴围成的面积，代表各类别精度的平均值，最大值为1^［27］.其计算公式如下：

A P = ∫ 01 p (r) d r .

(11)

由于精度与召回率始终介于0~1之间，因此，mAP也在0~1范围内，mAP数值越大说明检测效果越好^［26］.

3 实验结果分析

3.1 实现成果

训练工作结束后，将已划分好的验证集输入到模型中，得到目标检测与目标类型预测的结果，如表2所示.可见，本文提出的算法能够准确检测出城市交通环境中的交通标志牌、路面状况、路边违规摆摊、火焰、烟雾等关键目标，为车辆精确感知周围环境提供有效信息.

3.2 实验评估

本文在相同实验环境配置条件下，进行了YOLOv4、YOLOv8及改进YOLOv8模型之间的对比实验.以上3种目标检测网络模型的性能对比结果如表3所示.

由表3可知，本文改进模型的检测性能提升效果明显，改进模型在保持较快检测速度的同时，对复杂交通环境中目标的检测效果更出色.

YOLOv8模型改进后，路面破损、井盖、井盖丢失、垃圾桶、垃圾桶倾倒、雨水立箅、雨水立箅破损、违规摆摊等目标的检测效果有明显提升.实验中所涉及的10种目标检测精度均高于YOLOv4和YOLOv8模型.以上3个模型在同一数据集上的检测精度如表4所示.

4 结语

本文提出了一种改进的YOLOv8目标检测模型，针对复杂交通环境的智能感知需求.该模型结合MHSA机制增强对重要特征的敏感度，采用Adam优化算法加速收敛并减少波动，同时通过可变卷积提高了模型的泛化能力和特征提取效果.实验结果表明，改进后的模型在多样化目标、远距离小目标、部分遮挡及复杂路况下优于对比模型，展示了良好的智能感知性能.未来研究将聚焦于提升检测精度，并探索激光雷达与摄像头数据的融合，进一步提升目标定位和细节识别能力，尤其在低精度目标的检测上取得突破.通过多传感器融合，模型可实现全息感知，为智能车辆在复杂交通环境下的自动驾驶提供有效辅助，增强其感知与决策能力.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	高德芝，段建民，郑榜贵，等.智能车辆环境感知传感器的应用现状［J］. 现代电子技术， 2008（19）： 151-156.

[2]	Gao De-zhi， Duan Jian-min， Zheng Bang-gui， et al. Application status of intelligent vehicle environmental sensing sensor ［J］. Modern Electronic Technology， 2008（19）： 151-156.

[3]	Wang K， Gou C， Zheng N， et al. Parallel vision for perception and understanding of complex scenes： methods， framework， and perspectives［J］. Artificial Intelligence Review， 2017， 48（3）： 299-329.

[4]	Aufrère R， Gowdy J， Mertz C， et al. Perception for collision avoidance and autonomous driving ［J］. Mechatronics， 2003， 13（10）： 1149-1161.

[5]	Montemerlo M， Becker J， Bhat S， et al. Junior： the Stanford entry in the urban challenge ［J］. Journal of Field Robotics， 2008， 25（9）： 569-597.

[6]	Leonard J， How J， Teller S， et al. A perception-driven autonomous urban vehicle［J］. Journal of Field Robotics， 2008， 25（10）： 727-774.

[7]	谢志萍，雷莉萍.智能网联汽车环境感知技术的发展和研究现状［J］. 成都工业学院学报， 2016， 19（4）： 87-92.

[8]	Xie Zhi-ping， Lei Li-ping. Development and research status of intelligent networked automotive environment awareness technology［J］. Journal of Chengdu Technological University， 2016， 19（4）： 87-92.

[9]	Redmon J， Divvala S， Girshick R， et al. You only look once： unified， real-time object detection［C］// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas， 2016：779-788.

[10]	Asmaa B， Khalid Z. Optimizing CNN-BiGRU performance： mish activation and comparative analysis［J］. International Journal of Computer Networks & Communications， 2024， 16（3）： 69-87.

[11]	Wang Y F， Hua C C， Ding W L， et al. Real-time detection of flame and smoke using an improved YOLOv4 network［J］. Signal， Image and Video Processing， 2022， 16（4）： 1-8.

[12]	张凯祥，朱明.基于YOLOv5的多任务自动驾驶环境感知算法［J］. 计算机系统应用， 2022， 31（9）： 226-232.

[13]	Zhang Kai-xiang， Zhu Ming. Multi-task automatic driving environment perception algorithm based on YOLOv5 ［J］. Computer Systems & Applications， 2022， 31（9）： 226-232.

[14]	Fei X， Li T H， Xiao Y G， et al. Research on YOLOv3 model compression strategy for UAV deployment［J］. Cognitive Robotics， 2024， 4： 8-18.

[15]	Guo K Y， Cheng B H， Min Y， et al. A pavement distresses identification method optimized for YOLOv5s［J］. Scientific Reports， 2022， 12（1）： 1-15.

[16]	郭振宇，高国飞.基于YOLO v4的复杂路口下人车混行检测算法研究［J］. 信息技术与信息化， 2021（2）： 236-240.

[17]	Guo Zhen-yu， Gao Guo-fei. Research on detection algorithm of mixed traffic between people and vehicles at complex intersections based on YOLO v4 ［J］. Information Technology and Informatization， 2021（2）： 236-240.

[18]	Łysakowski M， Żywanowski K， Banaszczyk A， et al. Real-time onboard object detection for augmented reality： enhancing head-mounted display with YOLOv8［C］//IEEE International Conference on Edge Computing and Communications. Chicago， 2023：364-371.

[19]	Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［J］. Advances in Neural Information Processing Systems， 2017， 30： 6000-6010.

[20]	李鸿，邹俊颖，谭茜成，等.面向医学图像分割的多注意力融合网络［J］. 计算机应用， 2022， 42（12）： 3891-3899.

[21]	Li Hong， Zou Jun-ying， Tan Qian-cheng， et al. Multi-attention fusion network for medical image segmentation ［J］. Journal of Computer Applications， 2022， 42（12）： 3891-3899.

[22]	Wang Z Y， Zhu H， Liu F. SMSTracker： a self-calibration multi-head self-attention transformer for visual object tracking［J］. Computers， Materials & Continua， 2024， 80（1）： 605-623.

[23]	Vasanthi P， Mohan L. A reliable anchor regenerative-based transformer model for x-small and dense objects recognition［J］. Neural Networks， 2023， 165： 809-829.

[24]	Battiti R. First- and second-order methods for learning： between steepest descent and Newton's method［J］. Neural Computation， 2014， 4（2）： 141-166.

[25]	Sutskever I， Martens J， Dahl G， et al. On the importance of initialization and momentum in deep learning［C］// International Conference on Machine Learning （ICML）. Atlanta， 2013： 1139-1147.

[26]	Qian N. On the momentum term in gradient descent learning algorithms［J］. Neural Networks， 1999， 12（1）： 145-151.

[27]	Duchi J， Hazan E， Singer Y. Adaptive subgradient methods for online learning and stochastic optimization［J］. Journal of Machine Learning Research， 2011， 12： 2121-2159.

[28]	Mohamed R， Amany M S. A modified Adam algorithm for deep neural network optimization［J］. Neural Computing and Applications， 2023， 35（23）： 17095-17112.

[29]	Sarker I H. Deep learning： a comprehensive overview on techniques， taxonomy， applications and research directions［J］. SN Computer Science， 2021， 2（6）： 420-420.

[30]	Dai J F， Qi H Z， Xiong Y W， et al. Deformable convolutional networks［C］// Proceedings of the IEEE International Conference on Computer Vision （ICCV）. Venice， 2017： 764-773.

[31]	欧阳继红，王梓明，刘思光.改进多尺度特征的YOLO_v4目标检测方法［J］. 吉林大学学报（理学版）， 2022， 60（6）： 1349-1355.

[32]	Ouyang Ji-hong， Wang Zi-ming， Liu Si-guang. Improved multi-scale feature method for YOLO_v4 target detection［J］. Journal of Jilin University （Science Edition）， 2022， 60（6）： 1349-1355.

[33]	魏东飞，熊峰，孔维畅.改进YOLOv4的轻量化目标检测方法［J］. 计量与测试技术， 2022， 49（11）： 18-22.

[34]	Wei Dong-fei， Xiong Feng， Kong Wei-chang. Improved lightweight target detection method of YOLOv4 ［J］. Metrology & Measurement Technique， 2022， 49（11）： 18-22.