基于RT-DETR的露天矿区路面障碍物检测

陈良

黄金科学技术 ›› 2025, Vol. 33 ›› Issue (01) : 202 -213.

PDF (6391KB)
黄金科学技术 ›› 2025, Vol. 33 ›› Issue (01) : 202 -213. DOI: 10.11872/j.issn.1005-2518.2025.01.194
采选技术与矿山管理

基于RT-DETR的露天矿区路面障碍物检测

作者信息 +

Detection of Road Obstacles in Open-pit Mining Areas Based on RT-DETR

Author information +
文章历史 +
PDF (6544K)

摘要

露天矿无人驾驶是智慧矿山建设的重要组成部分。露天矿无人驾驶的核心在于保障车辆安全行驶,然而现阶段矿区道路上存在的落石、水坑和车辙等障碍物严重影响了矿车的行驶安全。针对现有算法检测这类密集障碍物精度受限的问题,提出了一种基于RT-DETR的露天矿区路面障碍物检测算法。RT-DETR算法通过在编码器阶段引入RepViT网络,提升了模型的特征提取效率,在解码器中通过通道压缩剪枝操作提升了模型的检测速度。此外,还提出融合注意力机制的RepAttC3模块,加强了模型的特征提取能力。通过采集不同矿区数据,构建了露天矿区路面障碍物数据集,并进行了障碍物检测试验。结果表明:本文所提出的RT-DETR算法的平均检测精度可达92.7%,综合检测精度可达96.6%,检测速度可达12.3 ms。相较于其他路面障碍物检测算法,本文算法对露天矿区多尺度与小目标障碍物具有良好的检测效果,能够为露天矿区车辆提供准确且高效的障碍物检测,保障车辆安全行驶。

Abstract

Autonomous driving technology plays a crucial role in the development of smart mines,with its primary challenge being the safe navigation of vehicles within the intricate and dynamic environments of open-pit mines.Mining roads are frequently characterized by a high density of diverse obstacles,including rockslides,water pits,and ruts,which present in various forms and are widely dispersed.These conditions pose substantial safety risks to the autonomous operation of mining vehicles.At present,although numerous road obstacle detection algorithms have been proposed,their detection accuracy is frequently constrained by the distinctive conditions present in open-pit mines,thereby hindering their ability to satisfy practical application requirements.This study presents a road obstacle detection algorithm for open-pit mines based on RT-DETR.The algorithm integrates the RepViT network within the encoder phase to augment the model’s feature extraction capabilities,thereby facilitating a more precise capture of the characteristic information of road obstacles.In the decoder section,the algorithm employs channel compression pruning techniques,which significantly decrease the model’s computational complexity and enhance detection speed.Furthermore,it incorporates the RepAttC3 module,augmented with an attention mechanism,thereby enhancing the model’s capability to detect multi-scale and small target obstacles.To evaluate the algorithm’s efficacy,a dataset comprising road obstacle images from various mines,seasons,and scenarios was assembled,specifically focusing on open-pit mine road obstacles.The experimental findings indicate that the algorithm exhibits superior performance in identifying road obstacles within open-pit mines,achieving an average detection accuracy of 92.7%,a comprehensive detection accuracy of 96.6%,and a detection speed of 12.3 milliseconds.In comparison to existing road obstacle detection algorithms,the proposed algorithm demonstrates distinct advantages in detecting multi-scale and small target obstacles,thereby offering more precise and efficient obstacle detection for vehicles operating in open-pit mining environments.It offers robust technical support for the development of autonomous driving technology in open-pit mines,further advancing the progress of smart mine construction.

Graphical abstract

关键词

露天矿 / 路面障碍物 / 目标检测 / RepViT网络 / 无人驾驶 / 智慧矿山

Key words

open-pit mine / road obstacles / target detection / RepViT network / unmanned driving / smart mine

引用本文

引用格式 ▾
陈良. 基于RT-DETR的露天矿区路面障碍物检测[J]. 黄金科学技术, 2025, 33(01): 202-213 DOI:10.11872/j.issn.1005-2518.2025.01.194

登录浏览全文

4963

注册一个新账户 忘记密码

随着我国经济的快速发展,露天矿区的开采规模不断扩大,道路网络也在不断完善。然而,露天矿区道路上的障碍物却成为一大安全隐患。道路落石、车辙和水坑等障碍物对行车安全造成严重威胁,给矿区生产和运输工作带来了极大的困扰。这些障碍物与道路高度融合,且尺寸跨度大,为检测工作带来了较大的挑战,因此亟需对露天矿区道路障碍物的高效检测方法进行研究。
露天矿区路面障碍物检测方法主要有传统图像处理方法、三维点云分析方法和机器学习方法。其中,传统图像处理方法利用RGB或热红外图像进行局部强度分析、色域变换和膨胀腐蚀等,从而实现障碍物的分割或检测(Ryu et al.,2015Gao et al.,2020),但是该方法高度依赖特征设计,其泛化性能较差,并不适用于露天矿区复杂多变环境。三维点云分析方法通过分析点云数据平面特征、局部凸性特征和局部密集特征等,完成路面障碍物分割(刘家银等,2017汪佩等,2017),但是该方法受限于点云密度,无法对路面小尺寸障碍物完成检测,且检测速度较慢。近年来,众多学者采用机器学习方法对路面障碍物进行检测,这些网络模型通过训练大量数据,能够自动学习图像中的特征信息,并准确识别出障碍物的类型。如:利用位置感知卷积神经网络,进行结构化道路坑洼检测(Chen et al.,2020),但算法精度较差。而基于YOLO目标检测网络(Wang et al.,2022何铁军等,2024),实现了结构化路面坑洼高精度检测。同时,针对露天矿区负向障碍物检测多尺度问题,利用多尺度融合的路面负障碍检测算法(阮顺领等,2021),实现了矿区路面车辙水坑的精确检测。对于矿区路面落石检测,部分学者提出了基于加权双向特征融合的矿区道路落石检测方法(顾清华等,2023),实时检测道路落石。由于落石与车辙、水坑之间的尺寸差异极大,因此,对这3类障碍物同时进行检测的方法鲜有报道。基于深度学习检测算法在露天矿区路面障碍物性能良好,依照其实现原理不同可划分为一阶段算法和两阶段算法。其中,一阶段算法如YOLO系列(Bochkovskiy et al.,2020)、SSD(Liu et al.,2016)和RetinaNet(Lin et al.,2017)等,优点在于速度快,适用于实时检测,但对于小目标或密集目标的检测效果不佳。两阶段算法如Faster-RCNN(Girshick et al.,2015)和Cascade-RCNN(Cai et al.,2018)等,具有良好的小目标检测性能,但速度较慢。虽然上述算法的检测速度和精度良好,但是算法中包含阈值筛选和非极大值抑制2个关键步骤,会导致模型的稳健性和检测速度降低(Carion et al.,2020)。同时,算法在部署阶段往往需要占用大量的后处理时间,来解析密集的检测框。然而,Carion et al.(2020)提出的DETR算法,利用 Transformer 技术将目标检测重新定义为集合预测问题,采用端到端可训练的编码器—解码器结构,替代传统基于区域提案的方法,省去了提案生成和后处理步骤。但是,DETR算法存在训练耗时过久及推理速度较慢等缺点,许多学者对DETR算法进行了注意力机制的改进(Zhu et al.,2020),仍无法达到实时检测的目的。RT-DETR算法在DETR算法基础上进行深度优化,改进了编码解码结构(Zhao et al.,2024),实现了精度与速度之间的平衡,与YOLO系列算法相比,RT-DETR算法在小目标与多尺度检测方面展现出明显的优势。
鉴于以上分析,针对露天矿区道路障碍物中遇到的小目标与多尺度检测等难点,本文基于RT-DETR目标检测算法,提出了露天矿区道路障碍物的端到端检测算法,在编码器阶段引入RepViT重参化骨干网络提升特征提取效率,在解码器中进行通道压缩剪枝,提升了算法的检测速度。同时,将重参化思想引入特征融合模块,提出了融合注意力机制的RepAttC3模块,进一步加强特征提取能力。最后,利用MPDIoU提升障碍物定位精度,实现了露天矿区道路障碍物的高精度和实时检测。

1 端到端的路面障碍物检测算法

图1(a)所示,传统的障碍物检测算法输出的每个目标会包含多个不同位置、大小和置信度的检测框,需结合非极大抑制算法对检测框进行过滤。当遇到密集障碍物时,该方法计算速度过慢,且对于被遮挡物体的检测效果不佳。

DETR(Detection Transformer)是一种基于Transformer架构(Vaswani et al.,2017)的端到端目标检测算法,将目标检测任务转化为一个序列到序列的问题,通过Transformer网络同时进行目标的检测和分类。如图1(b)所示,端到端检测算法直接输出了目标的检测框,而在传统检测算法中,一个目标会输出多个检测框,需要使用置信度过滤和非极大抑制算法,剔除多余检测框[图1(a)]。因此,端到端检测算法避免了传统目标检测方法中需要设计复杂的手工特征和后处理步骤的问题,直接输出目标的检测结果。

针对DETR算法的高计算成本问题,RT-DETR算法设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择,以提高目标查询的初始化,能够显著提升露天矿区多尺度与小目标障碍物的检测精度,对车辙、水坑和落石具有更佳的检测效果。

RT-DETR由主干网络、混合编码器和带有辅助预测头的解码器组成。主干网络使用 ResNet50网络(He et al.,2016)进行特征提取,并将最后3个阶段的输出特征作为编码器的输入。混合编码器由 AIFI模块(Zhu et al.,2020)和CCFM模块组成,AIFI 模块对最深层特征进行编码,CCFM模块通过自底向上和自顶向下2条路径的特征融合,将多尺度特征转换为一系列图像特征。解码器首先通过IoU感知查询模块,从编码器输出序列中选择固定数量的图像特征作为初始对象查询,然后通过迭代优化来生成预测框和置信度分数。但是,RT-DETR算法参数量和计算量过大,难以部署在低算力的边缘设备中,限制了其在露天矿区车辆防碰撞和无人驾驶等场景的应用。由于RT-DETR有X和L共2个版本,L版本兼顾了精度和推理速度,因此,本文基于RT-DETR-L,提出了露天矿区障碍物检测算法,其结构如图2所示。

由于矿区路面的车辙和水坑面积大,目标边缘不清晰,且与道路高度融合,目标识别难度加大。相比传统的卷积骨干网络,RepViT具有更大的全局感受野(Wang et al.,2024),并进一步增强了局部特征提取能力。因此,在特征提取阶段,使用RepViT重参化Transformer骨干网络,提升了图像的特征提取效率。由于道路中落石在整幅图像中平均像素尺寸占比小且特征不明显,利用大尺寸卷积核进行卷积,反而会导致细粒度信息丢失和特征学习效率降低。

因此,受RepViT启发,提出了RepAttC3特征提取模块,利用3×3和1×1卷积同时获取局部特征和细粒度特征,以减少特征提取中的信息丢失问题,增强对低分辨率小目标的识别效果。同时,在混合编码器中,优化了算法的宽度和深度,进一步减少参数量,提升了算法的推理速度。由于车辙与道路的融合范围大,传统的边界框回归损失函数在算法训练过程中面临着优化难题,特别是在预测框与真实框具有相同宽高比但具体尺寸不同的情况。这将导致车辙尺寸预测不准确时,算法难以收敛,因此将MPDIoU损失函数(Ma et al.,2023)引入算法,通过最小化预测框与真实框之间的关键点距离,综合考虑重叠区域、中心点距离以及宽度和高度的偏差,从而更准确地反映预测框与真实框之间的差异。

1.1 特征提取网络优化

矿区道路环境复杂,道路障碍物特征不显著,且与道路高度融合,利用高效的特征提取骨干网络,提取道路中不同障碍物的多尺度特征和局部特征,从而有效增强算法的检测效果。ResNet50通过引入残差连接来解决深层神经网络训练过程中的梯度消失问题,具有较强的特征提取能力和良好的性能。但是其计算量较大,难以部署在边缘计算设备中。RepViT从Vision Transformer的角度探讨了轻量级卷积神经网络高效设计,提高了资源受限移动设备的性能。RepViT网络结构如图3所示。

网络由Stem、不同卷积阶段和下采样模块组成,Stem 由于处理具有最高分辨率的输入特征图,因此对计算速度影响很大,采用连续堆叠的3×3卷积,以降低计算时间。在卷积阶段设计方面,使用深度卷积,使得通道混合器和令牌混合器能够被分开,1×1 扩展卷积层和1×1 投影层可实现通道之间的互动。同时利用结构重参数化在训练时为深度滤波器引入多分支拓扑,以提高性能。在推理过程中,深度卷积多分枝结构可合并为单分支结构,消除多分支带来的额外计算和内存成本。引入通道注意力模块SE(Hu et al.,2018),可以弥补卷积在缺乏数据驱动属性上的限制,能够根据输入调整权重。其实现原理如下:

给定一个输入序列X=(x1,x2, ,xn),其中n是序列的长度,自注意力机制的目标是计算每个元素xi与所有元素xj之间的关联程度,然后用这些关联程度来加权求和得到一个新的表示。表示为Y=(y1,y2, ,yn)

首先,通过对输入序列进行线性变换得到3个不同的表示,分别是查询(Query)Q、键(Key)K和值(Value)V。此处使用线性变换的目的是将输入序列映射到不同的表示空间,以便计算2个不同元素之间的关联程度。表示为

Q=XWQ K=XWKV=XWV

式中:WQWKWV为需要学习的权重矩阵,通过查询(Query)和键(Key)的点积来获得。然后,计算每个查询qi与所有键kj的关联程度,表示为

A=softmaxQKTdk

式中:A为注意力权重矩阵;dk为查询和键的维度,需要根据具体任务从设计时选择的超参数,并由线性变换的权重矩阵WQWK中的列数决定,通常与输入维度​的大小相匹配,本文设置为256。最后,使用注意力权重A对值V进行加权求和及线性变换,得到最终的输出序列。通过在RepViT网络的所有阶段中使用SE层,获得一个更加有表征力的特征信息。

下采样模块Down Sample使用深度可分离卷积和点卷积来执行空间下采样和调制通道维度,同时在下采样层之前添加了一个RepViT block以进一步加深下采样层。此外,在1×1卷积后面放置了一个FFN模块,从而记忆更多的潜在信息。

1.2 混合编码模块优化

在矿区路面障碍物检测过程中,为了加速训练收敛并提高性能,引入多尺度特征,并结合Deformable Attention机制(Zhu et al.,2020),以减少计算。然而,尽管注意力机制的改进减少了计算开销,但输入序列长度的急剧增加,仍导致编码器成为计算瓶颈。RT-DETR采用基于注意力的尺度内特征交互模块(AIFI)和基于神经网络的跨尺度特征融合模块(CCFM)组成了混合编码器模块。AIFI仅对骨干网络输出的P5特征进行处理,但是ResNet50骨干网络的P5高维特征的通道数为2 048,极大地增加了算法的计算量,而本文所使用的RepViT的P5层通道数仅为其一半,因此对AIFI模块进行剪枝处理,将其通道数裁剪为1 024,并将AIFI模块多头注意力的head数量由8个减少为6个。同时,在CCFM模块中对所有卷积层的通道数进行裁切,以适配不同维度的特征图输入。原始CCFM模块的3个特征图输入通道数分别为1 024、512和256,本文模型将其更改为512、256和128,以降低模型的参数量,从而提升模型的检测速度。

CCFM在融合路径中插入了几个由卷积层简单堆叠组成的融合块,将相邻的特征融合成一个新的特征。在YOLOv4中使用的跨阶段局部网络(CSPNet)(Bochkovskiy et al.,2020),主要用于增强 CNN 的学习能力。CSPNet 结构通过将浅层的特征图在通道维度一分为二,一部分经由特征提取模块向后传播,另一部分则经过跨阶段层次结构直接与特征提取模块的输出进行合并,实现了更加丰富的梯度组合,且在准确性不变或提高的基础上,使网络参数量减少10%~20%。因此,受CSPNet结构启发,并结合RepViT和SE注意力,提出了如图2所示的RepAttC3卷积块。

训练阶段,输入特征经过2个不同分支处理后合并,这种多分支结构丰富了特征空间,使网络提取到更多有效的语义特征。由于RepViT中使用1×1、3×3的卷积核组合提供多尺度的感受野,增强了网络的表达能力。一部分特征通过不同尺寸卷积核进行特征提取,另一部分特征通过跃层连接方式,直接与特征提取后的输出,在通道维度进行拼接。此时,由于二者特征存在紊乱,通过引入SE注意力机制,逐步提取更深层次的特征,以提升模型挖掘能力,最后添加一个1×1卷积分支,进行信息流和梯度的传播,以缓解梯度消失问题。在推理阶段,将特征提取分支中的卷积层和BN层进行融合,然后将不同卷积核的卷积均转换为具有3×3大小的卷积核的卷积,最后合并残差分支中的3×3卷积。即:将所有分支的权重W和偏置B叠加起来,从而获得一个融合之后的3×3卷积层。由于在模型推理阶段仅由3×3卷积和激活函数堆叠而来,抛弃了残差结构,且当前大多数推理引擎对于3×3卷积具有特定的加速,更易于模型推理和加速,简化了算法结构,并减少了参数量,从而加快推理速度。

1.3 障碍物定位优化

由于车辙与道路融合范围较大,传统的边界框回归损失函数在算法训练过程中面临着一些困难。当预测框和真实框在宽高比相同但具体尺寸不同时,算法很难优化这种情况。传统的边界框回归损失函数无法有效处理车辙尺寸预测的不准确性,导致算法很难收敛。因为车辙可能出现在道路上的任何位置和尺寸,算法难以找到一个合适的尺寸来匹配真实的车辙,进一步影响了算法的训练效果。原有的CIOU损失函数(Zheng et al.,2020),通过增加尺度和纵横比损失来改进边界框预测。然而,CIOU损失函数仍存在一些固有的局限性,包括纵横比描述的模糊性,并忽视了样本难易度的平衡。MPDIoU损失函数引入了尺度和纵横比损失,以改进边界框预测。MPDIoU损失函数结合最小点距离的概念,通过最小化预测框和真实框之间左上角和右下角点的距离,来提高回归效率和准确性。计算公式为

d12=(x1B-x1A)2+(y1B-y1A)2
d22=(x2B-x2A)2+(y2B-y2A)2
MPDIoU=ABAB-d12w2+h2-d22w2+h2

式中:参数AB表示2个任意的图像;wh为图像的宽度和高度;(x1A,y1A)(x2A,y2A)分别为A的左上角和右下角点坐标,(x1B,y1B)(x2B,y2B)分别为B的左上角和右下角点坐标;d12AB左上角点之间的欧几里得距离平方;d22AB右下角点之间的欧几里得距离平方。MPDIoU值为AB的交并比(IoU)减去归一化的最小点距离。

传统的边界框回归损失函数在算法训练过程中,当处理具有相似宽高比但具体尺寸不同的预测结果时,存在一定的局限性。这种局限性尤其是在预测车辙尺寸不够准确时显得尤为突出,可能会导致算法收敛困难。MPDIoU损失函数通过优化预测框与真实框之间关键点的距离,不仅考虑了二者之间的重叠区域和中心点的距离,还纳入宽度和高度的偏差因素,从而能够更加精确地刻画预测框与真实框之间的差异,提高了算法的预测精度。

2 露天矿区路面障碍物数据集构建

本文选择2020—2024年我国主要金属和非金属矿山作为研究对象,通过对道路行驶安全性进行研究,将路面障碍物划分为车辙、水坑和道路落石3类。采用分辨率为2 448 pixel×2 048 pixel的灰点Point Grey 500万像素工业相机,在露天矿区道路实地采集数据并进行清洗,共获取1 157张有效图像数据。

为了使采集到的行车红外数据集能够被深度学习算法有效地利用,对数据集进行了预处理和目标框标注。在进行目标框标注时,采用标准的矩形边界框表示每个目标物体的位置信息。每个边界框由左上角和右下角的坐标确定,这种表示方式简单直观,便于后续的算法训练和推理。标注完成后,依据训练集∶测试集=8∶2的比例对数据集进行划分,得到925张训练集和232张测试集数据。

由于本文数据集较小,难以覆盖所有真实的露天矿区道路场景,因此在模型训练过程中使用数据增强来提高算法的泛化能力和准确性,数据增强方法如表1所示。

表1所示,共采用6种数据增强方法,由于不同数据增强方法的实现原理不同,故其对应不同的参数。由于每批次数据训练时所使用的增强方法是随机的,为不同的增强方法赋予不同的概率值,能够更好地保护原始数据特征,并增强数据集泛化能力。Mosaic数据增强划分为Mosaic_4与Mosaic_9(Bochkovskiy et al.,2020),分别表示用4张或9张图像生成一张新的图像数据。鉴于本文落石样本较小,且露天矿区道路环境复杂,因此本文采用Mosaic_4作为数据增强方法,其实现原理如下:

设4张图像ABCD,其大小分别为WH。首先随机选择一个中心点坐标(xc,yc),该坐标需要满足一定的边界条件,使得拼接后的图像不会超出原始图像的范围。根据中心点坐标,将4张图像分别裁剪成4个子图像,分别为A1、B1、C1和D1。计算拼接后的图像的大小,假设拼接后的图像大小为WmosaicHmosaic,计算公式为

Wmosaic=max(xc,W-xc)+max(yc,H-yc)
Hmosaic=max(xc,W-xc)+max(yc,H-yc)

然后,创建一个新的图像,将A1、B1、C1和D1分别放置在拼接后图像的4个象限中,形成一个新的训练样本。

Mosaic数据增强的过程可用以下公式表示:

Mosaicimage=A1B1C1D1

通过联合多种数据增强方法,可以生成更加多样化的训练样本,从而提高算法的泛化能力和准确性。数据增强结果如图4所示,图中标号表示表1中所使用的数据增强方法序号。

3 试验与结果分析

3.1 试验环境配置及评价指标

本试验采用的计算机配置为Intel Core i5-13500HX 14核20线程CPU,NVIDIA RTX 4060 GPU,采用Ubuntu20.04操作系统,试验的网络算法基于Pytorch 2.10 框架搭建,采用SGD优化器,设置初始学习率为0.01,动量为0.937,权重衰减为0.00005,设置batch size为8,训练150个Epoch。在训练过程中,引入Warmup学习率预热方法,用于在训练的初始阶段逐渐增加学习率。这个过程可以帮助算法更快地收敛到较好的结果,且有助于避免训练过程中出现的梯度爆炸或梯度消失问题。通过逐渐增加学习率,算法可以在训练初期更好地探索参数空间,然后在后续阶段逐渐减小学习率,从而更精细地调整算法参数。设置Warmup为3个Epoch,动量为0.8,学习率为0.1。

试验采用精度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)和mAP,4个指标作为定量评价的标准。计算公式为

Pression=TPTP+FP,Recall=TPTP+FN
AP=1nPression×ReacllN,mAP=1nAPn

式中:TP为正确检测出的目标;FP为将背景错误检测为目标;FN为未能检测出的目标;n为目标检测的类别;N为检测到的障碍物数量。AP用于衡量算法对负障碍目标检测的准确性;mAP为所有AP的平均值,用来衡量整个算法的检测准确度。算法的综合性能评价越高,表示负障碍检测算法的稳健性越强。mAP可根据不同的IoU阈值进行计算,本文使用mAP@50和mAP@50-90。

在算法的推理速度和计算量方面,本文采用参数量(Paras)、浮点运算数(FLOPs)和计算时间(ms)作为评价指标,ParasFLOPs的计算方法(以卷积层计算为例)为

Paras=Kh×Kw×Cin×Cout+Cout
FLOPs=(Kh×Kw×Cin×Cout+Cout)×H'×W'

式中:KhKw为卷积核高度和宽度;Cin为输入通道数;Cout为输出通道数;H'W'分别为输出特征图尺寸高度和宽度。

3.2 露天矿区路面障碍物检测算法性能验证

本文所提出的露天矿区障碍物检测算法,其检测精度如表2所示。在露天矿区路面障碍物的检测任务中,本文算法取得了良好的效果。在落石检测方面,展现出较高的精度(0.951)和召回率(0.908),显示出该算法对这类小目标障碍物具有良好的识别能力和定位准确性。对于车辙的检测,该算法同样具有良好的检测效果,其精度(0.864)和召回率(0.929)均处于较高水平,体现出算法在车辙识别方面的可靠性。在水坑检测方面,相对于落石和车辙而言,其性能略有不足,但其检测精度和召回率仍接近于0.9。从总体指标分析,本文算法具有良好的检测效果,特别是在IoU阈值为0.50时mAP值高达0.966,证明了算法在复杂场景下的检测能力。同时,在更宽的IoU阈值范围内(从0.50到0.95),mAP值降低至0.703,由于在更高阈值的IoU条件下,算法对障碍物的精确定位能力稍有下降,但仍能满足露天矿区道路障碍物的精准检测要求。

图5为本文算法在露天矿区不同场景下的检测效果,包括行驶道路、装载区和卸载区等场景。如图5所示,本文算法在多种场景下均具有良好的表现,能够有效识别路面上的车辙和水坑障碍物,能够准确检测和定位落石,同时在落石密集场景仍具有良好的检测性能,当路面同时存在车辙、水坑和落石时,模型也能实现精准检测。但是,当落石距离过远或尺寸过小时存在少部分漏检,同时在车辙与路面大范围融合的极端场景下,可能存在一定程度的检测框定位不准确的问题。总体而言,本文算法能够满足露天矿区车辆行驶中的路面障碍物检测需求,具有较强的稳健性。

3.3 算法对比与试验分析

(1)不同算法对比分析

将本文算法与主流的目标检测网络进行对比,以算法实现原理划分为Anchor Base算法(YOLOv5s,YOLOv5L)、Anchor Free算法(YOLOv8s,YOLOv8L)和DETR类算法(RT-DETR-L,本文算法),如表3图6所示。

表3为不同算法在精度、召回率、mAP、参数量、FLOPs和检测速度方面的性能对比。本文算法具有最佳综合性能,算法的精度和召回率达到0.927和0.909,不仅显著超越了YOLOv5s和YOLOv8s等轻量级算法,而且相比YOLOv5L和RT-DETR-L等高性能算法,本文算法精度高于YOLOv5L,仅略低于RT-DETR-L。在mAP这一综合性评价指标上,本文算法取得了较高的分数。在IoU阈值为0.50的mAP@50指标仅次于RT-DETR-L算法,达到0.966;当IoU阈值从0.50变化至0.95时,mAP@50-95指标为0.703,达到了最好的检测精度。表明本文所使用的MPDIoU在不同IoU阈值下均能保持较高的检测精度,能够有效提升检测框定位精度,具有较强的稳健性。结合图6(a),DETR类算法具有更好的收敛性,损失函数远低于YOLO类算法;如图6(c)所示,DETR类算法在露天矿区路面障碍物检测中展示出显著优势,针对多尺度与小目标具有更好的定位精度。

在衡量模型大小的参数量和FLOPs指标方面,本文算法接近于YOLOv5s和YOLOv8s等轻量型算法,但精度却超越YOLOv5L和RT-DETR-L等高性能算法,表明算法能够更容易部署到资源受限的设备上。同时,本文算法的检测耗时仅为12.3 ms,远小于RT-DETR-L算法(24.5 ms),具有良好的实时性。综上所述,本文算法通过对RT-DETR-L算法进行轻量化,在达到相近检测精度的同时,检测速度快了一倍,模型参数量和FLOPs不足RT-DETR-L算法的1/3。相比主流的YOLOv5L和YOLOv8L检测算法,本文算法不仅具有更高的检测精度,而且检测速度更快,因此本文算法能够准确识别障碍物,保障车辆实现安全、稳定的运输。

(2)端到端算法有效性验证

传统的检测算法使用非极大抑制算法过滤重复的检测框,在障碍物密集的场景中,会增加计算量和耗时。该类算法通常设置一个较大的置信度阈值,过滤低置信度的目标,以改善耗时问题。而本文算法为端到端的检测算法,直接输出检测结果。表4为不同检测算法在不同置信度下的后处理耗时统计结果。

表4所示,本文使用落石密集场景图像,循环测试100次,计算后处理耗时平均值,选取置信度阈值为0.001、0.010和0.100进行测试。由于本文算法不包含非极大抑制算法,后处理阶段耗时仅为0.5 ms,在置信度为0.001的落石密集极端场景下,耗时也仅为0.6 ms,远小于YOLOv5L算法的耗时(5.8 ms),表明本文使用的端到端检测算法更加适合矿区这类复杂恶劣场景,同时具有更好的检测稳定性。

(3)消融试验

为验证本文所提出的改进方法对于算法性能的影响,进行了6组消融试验,以RT-DETR-L作为基础算法,依次加入优化方法进行验证,结果如表5所示。

表5可知,使用轻量型网络RepViT作为特征提取骨干网络后,算法的检测速度显著提升了,同时精度有所下降。虽然RepViT具有高效的特征提取能力,但是参数量远小于RT-DETR-L所使用的ResNet50特征提取网络,削弱了模型的特征信息。相较于YOLOv5s等轻量型算法,仅替换骨干网络,其检测速度仍然较慢。因此,针对解码器模块和混合编码器中的AIFI模块和CCFM模块进行剪枝,缩减通道数并减少部分冗余特征层,进一步降低模型参数量和计算量,使得算法的推理速度达到11.4 ms。由于裁切模型的通道数与RepViT骨干网络的输出通道数相同,减少了特征维度变换时的信息丢失,因此算法剪枝后的精度基本保持不变。本文提出的RepAttC3模块,能够有效提升算法精度。

对混合编码器中的卷积块特征进行可视化,结果如图7所示。原始卷积块在进行特征提取时丢失了大量全局特征信息,RepC3卷积块在进行特征提取时加强了局部特征信息,同时全局特征也有进一步增强,体现了一部分的水坑特征,使得模型的mAP@50增加至0.949。RepAttC3在加入注意力机制后强化了全局特征提取能力,水坑特征最为显著,由于RepAttC3应用在CCFM模块中,此模块位于模型的颈部,提取的丰富特征信息对于模型头部进行检测与分类具有重要意义。RepAttC3模块着重于提升模型的全局特征提取能力,并同步增强部分细节信息,这一特性有助于增强模型的检测能力,使得模型mAP@50精度进一步增长至0.954。最后,在算法中引入了MPDIoU,改善了检测框定位精度,使得算法的综合精度指标mAP@50-90达到最高值(0.703)。综上所述,使用RepViT和模型剪枝技术能够在保持精度降低的同时,显著提升模型的检测速度,并大幅缩减模型参数量。在RepC3模块中引入注意力机制并使用MPDIoU能够有效增强模型的精度,使得本文所提出的模型达到了基础模型RT-DETR-L的精度水平,并具有更快的检测速度。

4 结论

本文提出了一种露天矿区路面障碍物的端到端检测算法,得到以下主要结论:

(1)通过对RT-DETR目标检测网络进行特征提取网络优化、混合编码特征优化和障碍物定位优化,增强了算法对露天矿区多尺度和小目标障碍物检测能力,为露天矿区车辆提供准确且高效的障碍物检测能力,保障车辆安全行驶。

(2)实地采集不同矿区道路数据,构建了露天矿区路面障碍物数据集,试验数据表明,本文所提出的检测算法平均检测精度可达到92.7%,综合检测精度mAP@50可达到96.6%,检测速度仅为12.3 ms,相比主流检测算法具有明显的优势。

(3)结合对比试验,验证了本文所运用方法的有效性以及端到端检测方法在露天矿区的适用性。然而,由于数据集规模较小,本研究难以覆盖部分极端路况场景,改善漏检和检测框不准确的问题有待进一步研究。

参考文献

[1]

Bochkovskiy AWang C YLiao H Y2000.Yolov4:Optimal speed and accuracy of object detection[J].arXiv:

[2]

Cai Z WVasconcelos N2018.Cascade R-CNN:Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE.

[3]

Carion NMassa FSynnaeve G,et al,2020.End-to-end object detection with transformers[C]//European Conference on Computer Vision.Cham:Springer.

[4]

Chen H SYao M HGu Q L2020.Pothole detection using location-aware convolutional neural networks[J].International Journal of Machine Learning and Cybernetics11(4):899-911.

[5]

Gao M XWang XZhu S L2020.Detection and segmentation of cement concrete pavement pothole based on image processing technology[J].Mathematical Problems in Engineering,2020:1360832.

[6]

Girshick R2015.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.Santiago:IEEE.

[7]

Gu QinghuaDu YifanLi Pingfeng,et al,2023.Rockfall detection on mining area roads based on weighted bidirectional feature fusion[J].Gold Science and Technology31(6):953-963.

[8]

He K MZhang X YRen S Q,et al,2016.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE.

[9]

He TiejunLi Huaen2024.Pavement distress detection model based on improved YOLOv5[J].Journal of Civil Engineering57(2):96-106.

[10]

Hu JShen LSun G2018.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE.

[11]

Lin T YGoyal PDollár P2017.Focal loss for dense object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Venice:IEEE.

[12]

Liu JiayinTang ZhenminWang Andong,et al,2017.Obstacle detection in unstructured environments based on multi-lidar and combined features[J].Robotics39(5):638-651.

[13]

Liu WAnguleov DErhan D,et al,2016.SSD:Single Shot MultiBox Detector[C]//European Conference on Computer Vision.Netherlands:Springer.

[14]

Ma S LXu Y2023.Mpdiou:A loss for efficient and accurate bounding box regression[J].arXiv:

[15]

Ruan ShunlingLi ShaoboLu Caiwu,et al,2021.Negative obstacle detection on open-pit mining area roads based on multi-scale feature fusion[J].Journal of Coal Science and Engineering46(Supp.2):1170-1179.

[16]

Ryu S KKim TKim Y R2015.Feature-based pothole detection in two dimensional images[J].Transportation Research Record:Journal of the Transportation Research Board2528(1):9-17.

[17]

Vaswani AShazeer NParmar N,et al,2017.Attention is all you need[J].Advances in Neural Information Processing Systems,(30):955-964.

[18]

Wang AChen HLin Z J,et al,2024.RepVIT:Revisiting mobile CNN from VIT perspective[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE.

[19]

Wang D YLiu ZGu X Y,et al,2022.Automatic detection of pothole distress in asphalt pavement using improved convolutional neural networks[J].Remote Sensing14(16):3892.

[20]

Wang PeiGuo JianhuiLi Lunbo,et al,2017.Negative obstacle detection algorithm based on single-line lidar and vision fusion[J].Computer Engineering34(7):303-308.

[21]

Zhao Y A W YXu S L,et al,2024.DETR beats YOLOs on real-time object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE.

[22]

Zheng Z HWang PLiu W,et al,2020.Distance-IoU loss:Faster and better learning for bounding box regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto,California:AAI Press.

[23]

Zhu X ZSu W JLu L W,et al,2020.Deformable detr:Deformable transformers for end-to-end object detection[J].arXiv:

[24]

顾清华,杜艺凡,李萍丰,等,2023.基于加权双向特征融合的矿区道路落石检测[J].黄金科学技术31(6):953-963.

[25]

何铁军,李华恩,2024.基于改进 YOLOv5 的路面病害检测模型[J].土木工程学报57(2):96-106.

[26]

刘家银,唐振民,王安东,等,2017.基于多激光雷达与组合特征的非结构化环境负障碍物检测[J].机器人39(5):638-651.

[27]

阮顺领,李少博,卢才武,等,2021.多尺度特征融合的露天矿区道路负障碍检测[J].煤炭学报46(增2):1170-1179.

[28]

汪佩,郭剑辉,李伦波,等,2017.基于单线激光雷达与视觉融合的负障碍检测算法[J].计算机工程34(7):303-308.

AI Summary AI Mindmap
PDF (6391KB)

293

访问

0

被引

详细

导航
相关文章

AI思维导图

/