基于改进YOLOv8的煤矿皮带异物检测方法

赵小虎; 张狄; 谢礼逊; 孙维青; 张景怡; 尤星懿

doi:10.12454/j.jsuese.202400242

工程科学与技术 ›› 2026, Vol. 58 ›› Issue (02) : 23 -34. DOI: 10.12454/j.jsuese.202400242

智能交叉科学与工程

基于改进YOLOv8的煤矿皮带异物检测方法

作者信息 +

A Foreign Body Detection Method for Coal Mine Belt Based on Improved YOLOv8

Author information +

文章历史 +

PDF (3687K)

摘要

针对在煤炭输送过程中存在的大尺度煤矸石、小尺度锚杆等造成异物划伤、撕裂皮带和堵塞落煤口等安全隐患，本文提出了一种基于改进YOLOv8的煤矿皮带异物检测方法YOLOv8‒SPCD。首先，根据已有矿井图像制作煤矿皮带异物数据集；接着，利用空间到深度卷积层（SPD‒Conv）代替Backbone中的部分普通卷积层，将输入特征图的空间块重新排列进入通道维度以增加通道数，同时减小空间分辨率，在特征提取阶段保留更丰富的信息；然后，引入部分卷积（Pconv）改进原网络中的C2f模块，通过只在输入通道的一部分上应用卷积，减少关于冗余特征图的计算量，同时保证仍能提取输入图像的空间特征；之后，利用轻量级的跨尺度特征融合模块（CCFM）改进原模型（YOLOv8）的Neck部分，增强模型对于不同尺度对象的检测能力；最后，为了消除原损失函数惩罚项对收敛速度的影响并获得更快、更有效的回归结果，使模型在训练时快速收敛并准确定位皮带异物，引入改进后的Inner‒DIoU函数对网络的边界框回归损失进行优化。通过设计消融实验，分析了本文模型的相关性能：参数量和GFLOPs分别缩小为基线网络的40%和约59%，mAP@0.5提升了4.3个百分点，mAP@0.5：0.95提升了4.1个百分点，且图片检测的每秒帧数（FPS）也有少量提升，说明本文模型和原模型相比在轻量化的同时还提升了精度。与其他主流检测模型相比，本文模型的mAP@0.5最多提升了18.6个百分点，mAP@0.5：0.95最多提升了29.8个百分点，验证了本文模型在煤矿皮带异物检测方面的有效性，为矿井下的边缘端部署提供了先决条件。

Abstract

Objective On the transport belt used for normal coal flow, large coal gangue, anchor rods, and other foreign objects can be present. When large coal gangue or other foreign objects accumulate at the coal drop port, issues such as coal stacking and coal blockage occur. Anchor rods and other foreign objects can become entangled with transport belt components, causing surface scratches or even severe belt tearing, which seriously affects the normal coal flow transport. Deep learning methods previously applied demonstrate inferior baseline network performance compared to the YOLOv8 (You Only Look Once) model and fail to incorporate targeted lightweight optimization for edge deployment scenarios. Currently, computer vision-based detection methods do not achieve performance improvements over the YOLOv8 model in coal mine target detection tasks. Therefore, this study proposes a foreign object detection method for coal mine conveyor belts, YOLOv8‒SPCD, which is developed based on an improved YOLOv8 framework. Methods The YOLOv8‒SPCD model introduced several key improvements to enhance the detection performance of the original YOLOv8 model. First, the coal belt foreign body dataset was constructed based on existing mine images. The labelme tool was utilized to annotate the image data, and the images were divided into the training set (train), validation set (val), and test set (test) based on a ratio of 8:1:1. Then, SPD‒Conv was utilized to replace the convolutional component in the Backbone, and the spatial blocks of the input feature map were rearranged into the channel dimension to increase the number of channels, reduce the spatial resolution, and retain richer information during the feature extraction stage. Next, partial convolution was introduced to improve the C2f structure in the original network. The computation of redundant feature maps was reduced, while the spatial features of the input images were still effectively extracted by applying convolution only to part of the input channels. Then, a lightweight cross-scale feature fusion module (CCFM), was utilized to improve the Neck component and enhance the detection capability of the model for objects at different scales. Finally, to eliminate the adverse effect of the penalty term in the original loss function on convergence speed and to obtain faster and more effective regression results, the improved Inner‒DIoU function was introduced to optimize the bounding box regression loss of the network, enabling faster convergence and more accurate localization of belt foreign bodies during training. Results and Discussions Groups 1 to 4 experiments were independent experiments in which the improved modules were modified separately on the baseline network, allowing the impact of each individual module on the baseline network to be clearly observed. In the third group of experiments, the CF‒Neck structure was utilized to replace the original Neck component, and the mAP value remained unchanged even though the number of model parameters was reduced by 37%, indicating that CF‒Neck enhanced the detection capability of the model for objects at different scales. In the fourth group of experiments, Inner‒DIoU was utilized to replace the CIoU loss function, and the experimental indicators, such as mAP@0.5 and FPS, were improved, indicating that Inner‒DIoU effectively enhanced the fitting performance of the model. The ninth group of experiments corresponded to the YOLOv8‒SPCD model proposed in this study. The model weight was reduced to 43% of the baseline network, GFLOPs was reduced to 59% of the original value, mAP@0.5 was increased by 4.3 percentage points, mAP@0.5:0.95 was increased by 4.1 percentage points, and FPS was slightly improved. The effectiveness of the proposed method for detecting foreign objects on coal mine belts was thus verified. The training loss curves of the YOLOv8‒SPCD model with Inner‒DIoU and without Inner‒DIoU were compared in this study, and the results showed that the convergence speed of the YOLOv8‒SPCD model with Inner‒DIoU was significantly faster than that of the model without Inner‒DIoU. The Box Loss, which measured the discrepancy between the actual boundary box and the predicted boundary box of the target object, and the Classification Loss, which measured the accuracy of the model in predicting each target category, were both significantly reduced. The distribution focal loss (DFL), which was utilized to correct errors in predicting object boundary frames, remained similar to that before modification during training, indicating that the fitting performance of the proposed model on the mine image dataset was superior to that of the original model. The proposed model was also compared to mainstream target detection models such as YOLOv3-tiny, YOLOv5n, YOLOv6n, SSD, and Faster R‒CNN. The comparison results showed that the proposed model exhibited clear advantages. Conclusions The YOLOv8 model provides a feasible technical solution for detecting the presence of coal gangue, bolts, and other foreign matter during the coal conveying process on conveyor belts. The improved model integrates a series of enhancement strategies, including SPD‒Conv, PConv, the CCFM, and the Inner idea, demonstrating the broad application potential of the YOLOv8 model in coal mine target detection. This work provides a prerequisite for deployment at the mine edge. Then, the research objective is to deploy the improved model on embedded equipment at the mine edge end, realize practical algorithm application, and further optimize the model during the deployment process.

Graphical abstract

引用本文

引用格式 ▾

基于改进YOLOv8的煤矿皮带异物检测方法[J]. 工程科学与技术, 2026, 58(02): 23-34 DOI:10.12454/j.jsuese.202400242

登录浏览全文

4963

注册一个新账户忘记密码

本刊网刊

21 网络出版日期:2024 ‒ 12 ‒ 17

煤矿井下皮带机在实际生产中的应用包括煤矿的生产、转运、加工等，在井下煤矿运输中起重要作用，是煤矿运输中的关键设备^[1]。正常传输煤流的运输皮带上可能出现大块煤矸石、锚杆等异物，大块煤矸石等异物如果堆积在落煤口可能出现堆煤、堵煤等问题，锚杆等异物可能会与运输皮带的部件勾连，划伤甚至撕裂皮带，严重影响正常的煤流运输，不仅会造成不可估计的经济损失，更可能对工作系统中其他设备的运行带来安全风险。如果在运输过程中对运输皮带的监控视频进行分析，对异物进行准确识别，就可以提前预警，及时安排针对性处理，解决安全隐患，有效保证煤矿井下皮带机的安全生产。

针对煤矿井下皮带运输异物检测问题，国内外开展了广泛的研究。传统方法是使用基于传统机器学习的方法实现目标检测。Alfarzaeai等^[2]通过煤矸石的3D图像提取视觉感知值来表示物体的体积，使用支持向量机（SVM）分类器接收视觉感知值和质量进行煤矸石分类。Shukla等^[3]提出一种基于视觉显著性的多类SVM检测系统，实现了煤矿复杂环境下传送带上不同类型皮带损伤的高精度检测。随着深度学习的不断发展，目标检测技术由基于传统机器学习的方法逐渐过渡到基于深度学习的方法。传统机器学习技术主要使用特征提取和分类器来检测目标，但特征选择的过程往往需要人工参与，而且难以应对复杂和变化的目标。

基于深度学习的主流目标检测方法分为两阶段和单阶段两种。典型的两阶段网络模型有R‒CNN^[4]、SPP Net^[5]、Fast R‒CNN^[6]、Faster R‒CNN^[7]等，典型的单阶段网络模型有YOLO^[8]系列、SSD^[9]等。一般情况下，两阶段网络模型在准确度上有优势，而单阶段网络模型在速度上有优势。Wang等^[10]使用Res2Net101模型替换原Faster R‒CNN模型特征来提取模块中的VGG16结构，在水下目标检测中获得更好的性能。Wang等^[11]采用深度可分离卷积和替换损失函数等方法改进SSD算法提高了异物检测精度，但其检测速度较慢。因需要在煤矿井下中低性能边缘端部署皮带异物检测模型，故多选择使用单阶段网络模型。

YOLO系列检测模型，如YOLOv3、YOLOv4、YOLOv5s、YOLOv7等都曾被应用于煤矿皮带异物检测且取得了不错的效果：Zheng等^[12]提出了一种融入注意力机制和多特征融合的煤矿安全隐患检测算法，利用YOLOv3框架，集成Gc Net注意力模块，建立了反向特征融合路径，并构建了3尺度预测模块，增强了该方法在复杂情况下的鲁棒性；Chen等^[13]利用KinD++低照度图像增强算法，通过特征处理对采集的低质量图像进行质量提升，结合优化锚框的YOLOv4算法，实现带式输送机异物的高效检测；Li等^[14]针对传统目标检测算法模型复杂度高、训练困难、复杂条件下煤矸石识别定位效果差等问题，基于YOLOv4模型提出了一种基于轻量级混合域注意力的煤矸石识别定位方法，该算法具有较高的检测精度和效率，能够在复杂条件下正确识别和定位煤矸石，置信度高；张磊等^[15]通过在YOLOv5s的主干网络中添加压缩和激励模块，利用深度可分离卷积替换普通卷积，改善小目标煤矸石检测效果，提升了检测速度；毛清华等^[16]运用限制对比度自适应直方图均衡化方法对采集的带式输送机监控图像进行增强，提高图像中物体轮廓的清晰度，通过在YOLOv7模型主干提取网络引入轻量化无参注意力机制，提高了模型对图像复杂背景的抗干扰能力和对异物特征的提取能力。以上研究成果说明了YOLO系列检测模型在本领域应用的可行性，同时为本文提供了借鉴。

但目前基于计算机视觉的皮带异物检测方法还没有采用精度更好的YOLOv8模型，实现模型在本领域的针对性和轻量化改进。因此，本文提出了一种基于改进YOLOv8模型的煤矿皮带异物检测方法YOLOv8‒SPCD，改进工作如下：

1）为了消除CIoU Loss损失函数中惩罚项对收敛速度的影响和获得更快、更有效的回归结果，结合Inner思想和DIoU Loss损失函数，改进YOLOv8模型的边界框回归损失函数，使本文模型在训练时能够更快地收敛并提升检测精度；

2）采用空间到深度卷积层（SPD‒Conv）、部分卷积（PConv）、轻量级的跨尺度特征融合模块（module，CCFM）对原模型进行改进，在实现轻量化的同时，提高对煤炭皮带异物检测的准确率，为矿井下的边缘端部署提供了先决条件。

1 YOLOv8网络介绍

YOLOv8是Ultralytics公司发布的YOLO系列最新版本经典目标检测模型，和历史版本相比，模型检测速度更快、检测精度更高。其建立在YOLO系列历史版本的基础上，但引入了新的功能和改进点，以进一步提升性能和灵活性，已成为工业落地项目的主流选择^[17]。图1为YOLOv8网络结构。

2 YOLOv8网络改进

本文对YOLOv8模型的改进主要有以下4点：

1）利用SPD‒Conv^[18]代替Backbone中的部分普通卷积层（第2、4、6、8层），在特征提取阶段保留更丰富的信息，从而提高模型对短小锚杆和低分辨率皮带异物的识别性能。

2）引入部分卷积改进原网络中的C2f模块，改进后的C2f‒PC模块减少了对冗余特征图的计算，但仍能提取输入图像的空间特征，减少了原模型的参数和计算量。

3）利用轻量级的CCFM改进Neck部分，形成了CF‒Neck结构，增强了模型对大尺度煤矸石的适应性和对小尺度锚杆等对象的检测能力，同时减少了模型参数。

4）为了获得更快、更有效的回归结果，使模型在训练时快速收敛并准确定位皮带异物，消除损失函数惩罚项对收敛速度的影响，引入改进后的Inner‒DIoU函数对网络的边界框回归损失进行优化。

为便于描述，提取改进部分关键词英文首字母将改进后的模型命名为YOLOv8‒SPCD。图2为YOLOv8‒SPCD网络结构。图2中，k为卷积核尺寸（kernel size），s为卷积核在特征上横滑动的步长（stride），p为做卷积运算时在输入特征图四周补0的层数（padding）。

2.1 SPD‒Conv

SPD‒Conv模块由空间到深度（SPD）层和步长为1的普通卷积层组成。SPD层的作用是将输入特征图的空间块（像素块）重新排列进入深度（通道）维度，以增加通道数，同时减小空间分辨率，保留通道中的信息^[19]。普通卷积层执行步长为1的卷积操作，意味着在卷积过程中，卷积核会在输入特征图上逐像素移动，不跳过任何像素。这样可以确保在输入特征图的每个位置都能应用卷积核，最大限度地保留信息，并生成丰富的特征表示。

采用SPD‒Conv可以在不丢失信息的情况下减小空间维度，在特征提取阶段保留更丰富的信息，从而提高模型对短小锚杆和低分辨率皮带异物的识别性能。根据Sunkara等^[18]的实验结果，采用比例因子scale（记为L）为2的SPD‒Conv模型，scale为分割（Slice）操作的尺度，即特征图的行或列数能够整除的一个值。图3为SPD‒Conv对YOLOv8 Backbone的改进。将任意原始特征图

X ∈ R S × S × C 1

（S和C₁分别为其边长和深度）分割为一系列子特征图：

f 0,0 = X [0 : S : L, 0 : S : L],

f 1,0 = X [1 : S : L, 0 : S : L], ⋯,

f L - 1,0 = X [L - 1 : S : L, 0 : S : L];

f 0,1 = X [0 : S : L, 1 : S : L],

f 1,1 = ⋯,

⋮

f L - 1,1 = X [L - 1 : S : L, 1 : S : L];

⋮

f 0, L - 1 = X [0 : S : L, L - 1 : S : L],

f 1, L - 1 = ⋯,

f L - 1, L - 1 = X [L - 1 : S : L, L - 1 : S : L] 。

其中， X [·]为以指定参数执行Slice操作后的特征图。以

f 1,0 = X [1 : S : L, 0 : S : L]

为例，

f 1,0

为坐标（1,0）为起点的子特征图，1:S:L表示水平方向以特征图的横坐标1为开始、S为结束、L为步进进行下采样，0:S:L表示垂直方向以特征图的纵坐标0为开始、S为结束、L为步进进行下采样。

一般来说，给定任意 X，子特征图

f x, y

（

x

、y分别为横、纵向起始坐标）由满足条件的特征点对应的特征图

X (i, j)

组成， X (·)为以括号内坐标为起点且保持不变的特征图，

i

和

j

分别为分割前任一点子特征图的横、纵坐标，

i + x

和

j + y

都可以被L整除。因此，每个子特征图就是将 X 下采样一个比例因子得到的。图3、4均以L=2为例，得到4个大小为

S 2 × S 2 × C 1

的子特征图

f 0,0 、 f 1,0 、 f 0,1 、 f 1,1

。

沿通道维度将这些子特征图拼接起来，从而得到特征图

X'

，该特征图的空间维度变为原来的1/L，通道维度变为原来的L²倍。也就是说，SPD层将特征图

X ∈ R S × S × C 1

转化为

X' ∈ R S L × S L × L 2 C 1

。

在SPD层进行特征变换后，在

C 2 < L 2 C 1

（

C 2

为所需的输出特征图深度）的条件下增加一个非跨步卷积层（步长为1），并进一步将

X' ∈ R S L × S L × L 2 C 1

变换为

X ″ ∈ R S L × S L × C 2

。使用非跨步卷积层（non-strided Conv）是为了尽可能多地保留所有的判别特征信息。如果使用步长为3、核大小为3×3的卷积层，特征图虽然会被缩小，但每个像素只能被采样一次；而如果步长为2，将发生非对称采样，即偶数和奇数行将在不同时间被采样。可见，步长大于1的跨步卷积层会导致信息的非判别性损失，尽管形式上也可将特征图

X ∈ R S × S × C 1

转换为

X ″ ∈ R S L × S L × C 2

。

使用SPD‒Conv对图3中标号1～4处的Conv模块进行替换，图4为SPD‒Conv模块处理步骤。首先，来自上一层的输入特征图尺寸为320×320×64，经过Slice操作后得到4个尺寸为160×160×64的特征图；然后，将不同的特征图在通道维度上进行Concat操作，得到160×160×256的特征图；最后，通过一个步长为1的非跨步卷积层得到输出特征图。

2.2 C2f‒PC

在卷积神经网络的特征图中，不同通道间存在大量相似或重复的信息，称为特征图冗余^[20]。在许多情况下，特征图的某些通道可能包含与其他通道高度相似的特征，这意味着在进行网络的前向传播时，对这些特征的多次处理并没有提供额外的有用信息，反而增加了计算量和内存访问的开销。在实际应用中，这种冗余可能导致计算资源的浪费，因为神经网络会在所有通道上执行卷积运算，包括那些冗余或不会对网络性能产生显著影响的通道。为了解决这个问题，本文引入PConv^[21]，图5为PConv设计原理。

内存访问量

M A C

的计算方法如下：

r = c p c

（1）

F = h ⋅ w ⋅ k 2 ⋅ c p 2

（2）

M A C = h ⋅ w ⋅ 2 c p + k 2 ⋅ c p 2 ≈ h ⋅ w ⋅ 2 c p

（3）

式（1）～（3）中，

h

、

w

、c分别为输入特征图的长、宽、通道数，

c p

为参与卷积的通道数，r为部分卷积比例，F为每秒浮点运算次数（FLOPs）。

采用Ponv时，只有通道数

c p

参与空间特征提取，在后续特征通道信息未丢失的同时减少了计算量和内存访问量。一般典型的部分卷积比例

r = 1 / 4

，则PConv的计算量仅为常规卷积的1/16，内存访问量约为常规卷积的1/4。

在实际应用中，只在输入通道的一部分应用卷积，减少了计算上的冗余和内存访问^[22]，同时仍能有效提取输入的大尺度煤矸石和小尺度锚杆图像的空间特征。将PConv结合到原网络的C2f模块，形成C2f‒PC模块。图6为C2f‒PC模块结构。图6中，c_in和c_out分别为本模块输入特征图和设定的输出特征图通道数。

2.3 CF‒Neck

为了进一步轻量化模型大小和参数量，对YOLOv8模型的Neck部分进行改进。通过学习结构如图7所示的CCFM^[23]，设计了CF‒Neck（cross-scale feature‒fusion neck）结构，如图2中CF‒Neck部分所示。

参考图7中对F5层的处理，对YOLOv8模型中SPPF模块的输出特征图应用核大小为1×1卷积（Conv 1×1），在不改变输入尺寸的情况下，将输出特征图的通道数由原来的1 024减少为256，在降低模型参数量的同时，实现通道间信息的线性组合变化，达到跨通道信息交互的目的。

参考图7中S3、S4层输入Fusion模块中进行核大小为1×1的卷积降维处理，对YOLOv8模型主干网络中第4、6层的输出特征进行卷积降维，再与经处理后的其余尺度特征进行融合。以此实现的CF‒Neck结构在极大减少模型参数的同时，还融合了不同尺度特征图像的信息，增强了模型对大尺度煤矸石的适应性。

通过拼接层将深层特征图上采样后与浅层特征图进行拼接，这种跨层连接不仅增加了模型的感受野，还使模型能够同时利用高分辨率的细节信息和低分辨率的语义信息。这对检测小尺度目标尤其重要，因为小尺度目标在高分辨率特征图中可能更容易被识别，所以提升了模型对锚杆等小尺度对象的检测能力。

2.4 Inner‒DIoU

YOLOv8采用的边界框回归损失函数为CIoU损失函数（CIoU Loss）^[24]，记为

ℒ C I o U

，其表达式如下：

ℒ C I o U = 1 - U + ρ 2 (b p d, b g t) d 2 + α v

（4）

α = v (1 - U) + v

（5）

v = 4 π 2 (a r c t a n w g t h g t - a r c t a n w p d h p d) 2

（6）

式（4）～（6）中：U为交并比（intersection over union，IoU），表示预测框（predicted box）与真实框（ground truth box）的交集和并集面积的比值；函数

ρ (⋅)

用于计算两点间的欧氏距离；

b p d

和

b g t

分别为预测框和真实框的中心点坐标

(x c p d, y c p d)

和

(x c g t, y c g t)

；

d

为能够同时包含预测框和真实框的最小边界框对角线长度，如图8所示；

α

为权衡参数；v为衡量预测框与真实框长宽比一致性的惩罚项；

w g t

和

h g t

分别为宽度和高度；w^pd和h^pd分别为预测框的宽度和高度。

CIoU损失函数在DIoU损失函数（DIoU loss）^[24]的基础上进一步添加了惩罚项

α v

，综合考虑了目标检测模型在检测目标位置和大小方面的准确性，能更好地处理目标框间的重叠和错位，适用于复杂背景等场景。但在CIoU损失函数的定义中，衡量长宽比的

α v

惩罚项过于复杂，从两个方面减缓了收敛速度^[25]：

1）

v

仅反映了真实框与预测框纵横比的差异，而不是

w g t

与

w p d

或

h g t

与

h p d

间的实际关系，即当

w p d = K w g t

，

h p d = K h g t

（K为任意实数）时，

v = 0

，与实际需求不符。

2）

v

对

w p d

和

h p d

的偏导数分别为：

∂ ν ∂ w p d = 8 π 2 (a r c t a n w g t h g t - a r c t a n w p d h p d) × h p d (w p d) 2 + (h p d) 2

（7）

∂ ν ∂ h p d = - 8 π 2 (a r c t a n w g t h g t - a r c t a n w p d h p d) × w p d (w p d) 2 + (h p d) 2

（8）

由此可得

∂ v ∂ w p d = - h p d w p d ⋅ ∂ v ∂ h p d

，可见

∂ v ∂ w p d

与

∂ v ∂ h p d

具有相反的符号，因此在任何时候，如果

w p d

和

h p d

中一个增加，另一个将减少，这是不合理的，尤其当

w p d < w g t

且

h p d < h g t

或

w p d > w g t

且

h p d > h g t

时。所以CIoU损失函数存在一定的局限性。

为了消除惩罚项

α v

对收敛速度的影响，选择将其去除，采用DIoU损失函数。同时，为了获得更快、更有效的回归结果，结合Inner^[26]思想和DIoU损失函数，引入Inner‒DIoU作为本文模型的边界框回归损失函数。

Inner思想的实质是引入一个尺度因子

r a t i o

（记为T），其值一般在

[0.5,1.5]

区间内^[27]。指定

r a t i o

值后，根据真实框和预测框的相关参数计算出覆盖真实框与预测框的最小边框，即辅助框的参数，相关计算如下：

b l g t = x c g t - w g t × T 2, b r g t = x c g t + w g t × T 2

（9）

b t g t = y c g t - h g t × T 2, b b g t = y c g t + h g t × T 2

（10）

b l p d = x c p d - w p d × T 2, b r p d = x c p d + w p d × T 2

（11）

b t p d = y c p d - h p d × T 2, b b p d = y c p d + h p d × T 2

（12）

S i n t e r s e c t i o n = (m i n (b r g t, b r p d) - m a x (b l g t, b l p d)) × (m i n (b b g t, b b p d) - m a x (b t g t, b t p d))

（13）

S u n i o n = (w g t × h g t) × T 2 + (w p d × h p d) × T 2 - S i n t e r s e c t i o n

（14）

U I n n e r = S i n t e r s e c t i o n S u n i o n

（15）

式（9）～（15）中，

b l g t

、

b r g t

、

b t g t

、

b b g t

分别为真实框的左（left）、右（right）、上（top）、下（bottom）边界与坐标轴的交点值，

b l p d

、

b r p d

、

b t p d

、

b b p d

分别为预测框的左、右、上、下边界与坐标轴的交点值，

S i n t e r s e c t i o n

为真实框和预测框交集（intersection）的面积，

S u n i o n

为真实框和预测框并集的面积，

U I n n e r

为前二者的比值。

图9为真实框与预测框的内交集（inner-intersection）示意图。当

T ∈ [0.5,1.0)

时，使用较小尺度的辅助框计算IoU损失，能够加速高IoU样本回归，达到加速收敛的效果^[28]，如图9（a）所示；当

T = 1.0

时，改进后的Inner‒DIoU与原始的IoU相等；当

T ∈ (1.0,1.5]

时，使用较大尺度的辅助框计算IoU损失，能够加速低IoU样本回归，如图9（b）所示。

为了直接最小化预测框与真实框间的归一化距离以实现更快的收敛速度，引入惩罚项

ℛ D I o U

^[24]：

ℛ D I o U = ρ 2 (b p d, b g t) d 2

（16）

结合Inner思想，Inner‒DIoU损失函数

ℒ I n n e r - D I o U

可定义为：

ℒ I n n e r - D I o U = 1 - U I n n e r + ℛ D I o U

（17）

3 实验设计与结果分析

3.1 实验环境

实验使用的服务器配置和软件环境如下：训练模型平台硬件配置CPU为Intel^® Xeon^® Gold 6430，显卡为NVIDIA GeForce RTX 4090，显存为24 GB；软件环境为Ubuntu-22.04系统，Python 3.8.10，Pytorch 2.0.0框架，CUDA 11.8。训练参数如表1所示。

3.2 数据集获取

本文制作数据集的图像来自公开的矿井皮带图像^[29]，图像采集自矿井下皮带的运输环境，包括运输皮带上的大块煤矸石和锚杆两类图像，每类1 600张，包含训练图像1 300张和测试图像300张。其中，存在一些严重模糊和分类错误的图像，经筛选和标注后，共获得2 755张图像。图10为数据集图像示例。

本文使用labelme软件进行图像数据标注，将2 755张图像按8∶1∶1划分为训练集（train）、验证集（val）和测试集（test）。

3.3 评价指标

采用精确率（Precision，记为P）、召回率（Recall，记为R）、mAP@0.5、mAP@0.5:0.95作为模型的评价指标。mAP@0.5表示将预测框与真实边界框的交并比（IoU）设置为0.5时每个类别的平均精度（average precision，AP，记为

P A P

）的均值。mAP@0.5:0.95表示IoU从0.5取到0.95，间隔为0.05时AP的均值。P和R均在IoU阈值为0.50时统计。

精确率P表示在所有被预测为正的样本中实际为正样本的概率，计算方法如下：

P = Q T P Q T P + Q F P

（18）

式中：

Q T P

为真阳性（true positive）样本数，即预测为正样本，实际也为正样本的样本数；

Q F P

为假阳性（false positive）样本数，即预测为正样本，实际为负样本的样本数。

召回率R表示实际为正的样本中被预测为正样本的概率，计算方法如下：

R = Q T P Q T P + Q F N

（19）

式中，

Q F N

假阴性（false negative）样本数，即预测为负样本，实际为正样本的样本数。

平均精度

P A P

通过计算每个类别的P‒R曲线下的面积来获得，衡量了模型在各个阈值下的平均精度^[30]。P‒R曲线通过在不同的阈值下绘制精度和召回率间的关系得到。平均精度的计算方法如下：

P A P = ∫ 01 P (R) d R

（20）

均值平均精度（mean average precision，mAP，记为

P m A P

）是所有类别的平均精度，mAP值越高，表示模型在不同阈值下的表现越好，计算方法如下：

P m A P = 1 M ∑ i = 1 M P A P, i

（21）

式中，M为类别总数，下标i为

P A P

的类别序号。

每秒10亿次的浮点运算数（giga floating-point operations per second，GFLOPs）用于表示模型的计算量，是衡量模型计算复杂度的指标。每秒帧数（frames per second，FPS）表示每秒内可以检测的图片数量，是衡量模型检测速度的指标。设备和数据相同的情况下，FPS值越大代表检测算法运行速度越快，也意味着目标检测模型算法复杂度越低。

3.4 消融实验

从两个方向设计消融实验：方向1，在原有YOLOv8模型基础上增加改进模块验证其对基准模型的影响（消融实验中组别0～8）；方向2，在最终改进模型YOLOv8‒SPCD基础上，仅改变损失函数并验证其对最终改进模型的影响（消融实验中组别8、9）。表2为消融实验结果。

选用YOLOv8n作为基线网络，其为YOLOv8系列中最小、最轻量化（通过大幅缩减网络深度与通道数实现）、速度最快、资源占用最少的版本（Nano）。

第0组实验为基线网络（YOLOv8n）的实验结果，后续实验组皆在基线网络上改进后得到。实验中的FPS值通过使用测试集测试12次，去除极大和极小值后取均值得到。

第1～4组实验是在基线网络上单独增加改进后模块的独立实验，由表2可见单一模块对基线网络的改进情况。第3组实验使用CF‒Neck结构替换原Neck部分，在模型参数量降低约37%的情况下，仍能保持mAP@0.5和mAP@0.5:0.95值不降低，表明CF‒Neck可以增强模型对于不同尺度对象的检测能力。第4组实验使用Inner‒DIoU替换了CIoU损失函数，可以看到mAP@0.5、FPS等指标均有提升，说明Inner‒DIoU损失函数能够很好地提高模型的拟合程度。

第9组实验即为本文模型。由表2可见，其参数量缩小为基线网络的40%，GFLOPs减小为原来的约59%，mAP@0.5提升4.3个百分点，mAP@0.5:0.95提升了4.1个百分点，且FPS也有少量提升。

为了直观地对比改进前后模型的性能，选出一部分测试图像进行对比，图11为YOLOv8n模型改进前后可视化预测结果。

图12为改进前后模型训练图。设定当50轮训练后mAP@0.5未高于历史最高值或验证集的边界框损失（val/box_loss）小于历史最低值，即触发训练早停。

由图12可见，迭代轮次（epoch）未到预定的250轮便停止训练。

图13为带有和不带有Inner‒DIoU的YOLOv8‒SPCD模型训练损失。由图13可见，采用Inner‒DIoU后，YOLOv8‒SPCD模型收敛速度明显加快，衡量目标物体实际边界框与预测边界框之间差距的损失函数（box loss）的值和衡量每个目标物体类别预测准确性的损失函数（classification loss）的值明显降低，用于校正模型在预测物体边界框时误差的DFL（distribution focal loss）值在训练中也与修改前相近，表明本文模型在矿井皮带图像数据集上的拟合程度优于原模型。

3.5 主流检测模型对比实验

将本文模型与YOLOv3-tiny、YOLOv5n、YOLOv6n、SSD、Faster R‒CNN等主流目标检测模型进行实验对比^[31]。图14为本文模型与主流模型精度对比。实验中：SSD模型的主干特征提取网络为VGG，Faster R‒CNN的主干特征提取网络为Resnet50，两者都通过冻结训练50轮以加快模型的训练速度，随后解冻训练250轮，参与对比的SSD和Faster R‒CNN模型数据皆为解冻训练数据；YOLOv3-tiny、YOLOv5n、YOLOv6n模型的训练轮数设定为250轮。

由图14可见，YOLOv8‒SPCD模型的召回率、平均精确度均大于其他模型，其mAP@0.5比YOLOv3-tiny、YOLOv5n、YOLOv6n、SSD、Faster R‒CNN分别高出9.7、4.5、4.5、4.2、18.6个百分点，说明本文模型和现有其他检测模型相比具有明显优势。

图15为本文模型和主流模型训练图。实验中，YOLOv3-tiny、YOLOv6n、YOLOv8‒SPCD模型训练时，因最近50次训练后未有精度提升，故迭代轮次未到设定的250轮便停止训练。

4 结论

针对皮带在煤炭输送过程中存在大块煤矸石、锚杆等异物划伤、撕裂皮带和堵塞落煤口等安全隐患，本文提出了一种基于改进YOLOv8模型的煤矿皮带异物检测方法YOLOv8‒SPCD。本文模型参数量缩小为基线网络的40%，GFLOPs减小为原来的59%，mAP@0.5提升了4.3个百分点，mAP@0.5:0.95提升了4.1个百分点，且FPS也有少量提升，验证了本方法在煤矿皮带异物检测方面的有效性，与YOLOv3-tiny、YOLOv5n、YOLOv6n、SSD、Faster R‒CNN等主流目标检测模型相比具有一定优势，为矿井下的边缘端部署提供了先决条件。

未来的研究目标是将改进后的模型部署到矿井下的边缘端嵌入式设备中，实现算法的应用落地，并在这个过程中进一步优化模型。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Xu Peng.Study on the key technology of foreign object detection of coal mine belt based on edge computing[D].Xuzhou:China University of Mining and Technology,2021.

[2]	许鹏.基于边缘计算的煤矿井下皮带异物检测关键技术研究[D].徐州:中国矿业大学,2021.

[3]	Alfarzaeai M S, Hu Eryi, Peng Wang,et al.Coal gangue classification based on the feature extraction of the volume visual perception ExM-SVM[J].Energies,2023,16(4):2064. doi:10.3390/en16042064

[4]	Shukla R K, Tiwari A K, Jha A K.An efficient approach of face detection and prediction of drowsiness using SVM[J].Mathematical Problems in Engineering,2023,2023:2168361. doi:10.1155/2023/2168361

[5]	Girshick R, Donahue J, Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580‒587. doi:10.1109/cvpr.2014.81

[6]	He Kaiming, Zhang Xiangyu, Ren Shaoqing,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Computer Vision‒ECCV 2014.Cham:Springer,2014:346‒361. doi:10.1007/978-3-319-10578-9_23

[7]	Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE,2015:1440‒1448. doi:10.1109/iccv.2015.169

[8]	Ren Shaoqing, He Kaiming, Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137‒1149. doi:10.1109/tpami.2016.2577031

[9]	Redmon J, Divvala S, Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779‒788. doi:10.1109/cvpr.2016.91

[10]	Liu Wei, Anguelov D, Erhan D,et al.SSD:Single shot MultiBox detector[C]//Computer Vision‒ECCV 2016.Cham:Springer International Publishing,2016:21‒37. doi:10.1007/978-3-319-46448-0_2

[11]	Wang Hao, Xiao Nanfeng.Underwater object detection method based on improved faster RCNN[J].Applied Sciences,2023,13(4):2746. doi:10.3390/app13042746

[12]	Wang Yuanbin, Wang Yujing, Dang Langfei.Video detection of foreign objects on the surface of belt conveyor underground coal mine based on improved SSD[J].Journal of Ambient Intelligence and Humanized Computing,2023,14(5):5507‒5516. doi:10.1007/s12652-020-02495-w

[13]	Zheng Junhui, Wang Deyong, Geng Zexun.Real-time detection of safety hazards in coal mines utilizing an enhanced YOLOv3 algorithm[J].Traitement Du Signal,2023,40(4):1565‒1572. doi:10.18280/ts.400424

[14]	Chen Yiming, Sun Xu, Xu Liang,et al.Application of YOLOv4 algorithm for foreign object detection on a belt conveyor in a low-illumination environment[J].Sensors,2022,22(18):6851. doi:10.3390/s22186851

[15]	Li Deyong, Wang Guofa, Guo Yongcun,et al.An identification and positioning method for coal gangue based on lightweight mixed domain attention[J].International Journal of Coal Preparation and Utilization,2023,43(9):1542‒1560. doi:10.1080/19392699.2022.2119561

[16]	Zhang Lei, Wang Haosheng, Lei Weiqiang,et al.Coal gangue target detection of belt conveyor based on YOLOv5s‒SDE[J].Journal of Mine Automation,2023,49(4):106‒112.

[17]	张磊,王浩盛,雷伟强,等.基于YOLOv5s‒SDE的带式输送机煤矸目标检测[J].工矿自动化,2023,49(4):106‒112.

[18]	Mao Qinghua, Li Shikun, Hu Xin,et al.Foreign object recognition of belt conveyor in coal mine based on improved YOLOv7[J].Journal of Mine Automation,2022,48(12):26‒32. doi:10.13272/j.issn.1671-251x.2022100011

[19]	毛清华,李世坤,胡鑫,等.基于改进YOLOv7的煤矿带式输送机异物识别[J].工矿自动化,2022,48(12):26‒32. doi:10.13272/j.issn.1671-251x.2022100011

[20]	Luo Bingxin, Kou Ziming, Han Cong,et al.A "hardware-friendly" foreign object identification method for belt conveyors based on improved YOLOv8[J].Applied Sciences,2023,13(20):11464. doi:10.3390/app132011464

[21]	Sunkara R, Luo Tie.No more strided convolutions or pooling:A new CNN building block for low-resolution images and small objects[M]//Machine Learning and Knowledge Discovery in Databases.Cham:Springer Nature Switzerland,2023:443‒459. doi:10.1007/978-3-031-26409-2_27

[22]	Peng Yanfei, Ji Yue.Road crack detection algorithm based on improved YOLOv8[C]//Proceedings of the 2023 5th International Conference on Artificial Intelligence and Computer Applications(ICAICA).Dalian:IEEE,2024:28‒32. doi:10.1109/icaica58456.2023.10405428

[23]	Wang Yuanyuan, Jiang Feilong, Li Yazhou,et al.Safety helmet detection algorithm for complex scenarios based on PConv-YOLOv8[C]//Proceedings of the 2023 International Conference on the Cognitive Computing and Complex Data(ICCD).Huaian:IEEE,2024:90‒94. doi:10.1109/iccd59681.2023.10420675

[24]	Chen Jierun, Kao S H, He Hao,et al.Run,don't walk:Chasing higher FLOPS for faster neural networks[EB/OL].(2023‒03‒07)[2024‒04‒08].doi:10.1109/cvpr52729.2023.01157

[25]	Li Mao, Xiao Yangyi, Zong Wangyuan,et al.Detecting chestnuts using improved lightweight YOLOv8[J].Transactions of the Chinese Society of Agricultural Engineering,2024,40(1):201‒209.

[26]	李茂,肖洋轶,宗望远,等.基于改进YOLOv8模型的轻量化板栗果实识别方法[J].农业工程学报,2024,40(1):201‒209.

[27]	Zhao Yian, Lv Wenyu, Xu Shangliang,et al.DETRs beat YOLOs on real-time object detection[EB/OL].(2023‒04‒17)[2024‒04‒08].doi:10.1109/cvpr52733.2024.01605

[28]	Zheng Zhaohui, Wang Ping, Liu Wei,et al.Distance‒IoU loss:Faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993‒13000. doi:10.1609/aaai.v34i07.6999

[29]	Zhang Yifan, Ren Weiqiang, Zhang Zhang,et al.Focal and efficient IOU loss for accurate bounding box regression[J].Neurocomputing,2022,506:146‒157. doi:10.1016/j.neucom.2022.07.042

[30]	Zhang Hao, Xu Cong, Zhang Shuaijie.Inner-IoU:More effective intersection over union loss with auxiliary bounding box[EB/OL].(2023‒11‒06)[2024‒04‒08].

[31]	Pan Wei, Wei Chao, Qian Chunyu,et al.Improved YOLOv8s model for small object detection from perspective of drones[J].Computer Engineering and Applications,2024,60(9):142‒150. doi:10.3778/j.issn.1002-8331.2312-0043

[32]	潘玮,韦超,钱春雨,等.面向无人机视角下小目标检测的YOLOv8s改进模型[J].计算机工程与应用,2024,60(9):142‒150. doi:10.3778/j.issn.1002-8331.2312-0043

[33]	Tian Peng, Mao Li.Improved YOLOv8 object detection algorithm for traffic sign target[J].Computer Engineering and Applications,2024,60(8):202‒212. doi:10.3778/j.issn.1002-8331.2309-0415

[34]	田鹏,毛力.改进YOLOv8的道路交通标志目标检测算法[J].计算机工程与应用,2024,60(8):202‒212. doi:10.3778/j.issn.1002-8331.2309-0415

[35]	Cheng Deqiang, Xu Jinyang, Kou Qiqi,et al.Lightweight network based on residual information for foreign body classification on coal conveyor belt[J].Journal of China Coal Society,2022,47(3):1361‒1369. doi:10.13225/j.cnki.jccs.XR21.1736

[36]	程德强,徐进洋,寇旗旗,等.融合残差信息轻量级网络的运煤皮带异物分类[J].煤炭学报,2022,47(3):1361‒1369. doi:10.13225/j.cnki.jccs.XR21.1736

[37]	Wu Boyang, Mao Shengke, Lin Teyu,et al.Surface damage detection and identification method of wind turbine blades based on improved YOLOv8[J].Mechanical & Electrical Engineering Magazine,2024,41(7):1260‒1268. doi:10.3969/j.issn.1001-4551.2024.07.014

[38]	吴博阳,毛胜轲,林特宇,等.基于改进YOLOv8的风电叶片表面损伤检测与识别方法[J].机电工程,2024,41(7):1260‒1268. doi:10.3969/j.issn.1001-4551.2024.07.014

[39]	Liu Qinghua, Yang Xinyi, Hao Jie,et al.Rice grain detection based on YOLO v7 fusing of GhostNetV2[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(12):253‒260.