改进YOLOv8的建筑物毁伤效果评估算法

沈先耿 ,  王鑫 ,  刘晓阳

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (02) : 154 -160.

PDF (2937KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (02) : 154 -160. DOI: 10.3969/j.issn.1671-0673.2025.02.005
计算机科学与技术

改进YOLOv8的建筑物毁伤效果评估算法

作者信息 +

Improved YOLOv8 Algorithm for Building Damage Effect Evaluation

Author information +
文章历史 +
PDF (3006K)

摘要

针对现代战争中战场环境复杂和传统评估方法过于依赖主观经验的问题,提出一种改进YOLOv8的建筑物毁伤效果评估算法。首先,在样本输入端采用Mosaic-9进行图像预处理,提升网络模型的泛化能力。其次,在骨干网络中引入高效多尺度注意力机制(EMA),同时利用新构造的快速跨阶段局部网络融合模块(FC2f)模块,提升网络模型的特征提取能力和运行效率。最后,采用Scylla交并比损失函数(SIoU Loss)对网络损失函数进行优化,进一步提升网络模型的检测评估精度和运行效率。实验结果表明,该算法检测评估精度较高,运算速度较快,具有一定的军事应用价值。

Abstract

Aiming at the problems of complex battlefield environment and excessive reliance on subjective experience in traditional evaluation methods in modern war, an improved YOLOv8 algorithm for building damage effect evaluation is proposed. Firstly, the Mosaic-9 is used for image preprocessing at the sample input to improve the generalization ability of the network model. Secondly, the efficient multi-scale attention (EMA) mechanism is introduced into the backbone network, and the newly constructed fast cross stage partial network fusion (FC2f) is used to improve the feature extraction ability and operation efficiency of the network model. Finally, the Scylla intersection over union loss (SIoU Loss) function is used to optimize the network loss function to further improve the detection and evaluation accuracy and operation efficiency of the network model. Experimental results show that this algorithm has high detection and evaluation accuracy, fast operational speed, and certain military application value.

Graphical abstract

关键词

改进YOLOv8 / 建筑物 / 毁伤评估 / 图像预处理 / 损失函数优化

Key words

improved YOLOv8 / buildings / damage assessment / image preprocessing / loss function optimization

引用本文

引用格式 ▾
沈先耿,王鑫,刘晓阳. 改进YOLOv8的建筑物毁伤效果评估算法[J]. 信息工程大学学报, 2025, 26(02): 154-160 DOI:10.3969/j.issn.1671-0673.2025.02.005

登录浏览全文

4963

注册一个新账户 忘记密码

随着人工智能技术的不断发展,无人自主作战将成为一种新型的作战方式,此类作战方式对战场态势感知能力提出了新的更高要求[1]。当对敌方重要目标进行无人化军事打击和其他破坏行为后,如何对目标建筑物的毁伤效果进行自动化评估,是一项非常重要的工作[2]。及时、准确的建筑物毁伤评估结果能够为部队的指挥决策提供依据,帮助指挥员定下作战决心。但由于战场环境复杂程度高,不确定性因素多,传统的基于专家经验知识的建筑物毁伤评估方法过度依赖人的主观经验,存在着严重的主观性和不确定性等问题,导致评估的准确率不高且效率偏低,不能适应越来越快的局部战争节奏。
近年来,很多专家学者针对建筑物毁伤后的自动评估问题进行了深入研究,取得了一定成果。文献[3]提出一种基于遥感图像的建筑物毁伤评估方法,该方法通过提取遥感图像中的建筑物灰度和纹理特征,而后采用贝叶斯网络构建评估模型,但该方法较为简单,评估结果受专家经验影响较大;文献[4]提出一种基于模糊层次分析的建筑物毁伤评估方法,该方法采用5条模糊规则,从功能毁伤和物理毁伤两个方面进行模糊推理,但该方法层次结构建立困难,评估存在主观性问题;文献[5]提出一种基于图像变化的毁伤效果评估方法,该方法利用多尺度差异主成分分析构建评估模型,实现毁伤区域的分级评估,但该方法运算效率较低,对高清图像的评估处理速度很慢;文献[6]提出一种基于改进BP神经网络的目标建筑物毁伤评估方法,该方法通过优化BP神经网络权重,构建目标毁伤树,实现飞机系统对目标建筑物毁伤效果的快速准确评估,但该方法建筑物图像特征提取耗时较长,评估速度较慢。
为有效解决上述问题,提升建筑物毁伤效果评估工作的自动化和智能化水平,提出一种改进YOLOv8的建筑物毁伤效果评估算法,该算法通过将损毁的建筑物图像输入骨干网络中进行特征提取,采用区域建议网络生成损毁建筑物区域候选框,并利用得到的图像特征和候选区域输入分类器中进行检测评估,能够有效解决评估准确度不高和评估速度较慢的问题。

1 评估网络模型

YOLOv8算法[7]是于2023年提出的一种新型单阶段目标检测算法,其在YOLOv5的基础上进行改进,共分为输入端、骨干网络、颈部和检测头4个部分,能够实现快速、准确的目标检测,可创新性地将其应用到建筑物毁伤效果评估任务中。但由于战场环境较为复杂,拍摄的目标建筑物图像一般会存在大量的背景区域,YOLOv8无法有效提取目标建筑物特征,同时战场边缘端设备的算力不高,无法实现实时评估[8]。为有效解决此类问题,采用Mosaic-9对样本输入端进行改进,提升网络模型的泛化能力;在骨干网络中,引入高效多尺度注意力机制(Efficient Multi-scale Attention, EMA)和新构造的快速跨阶段局部网络融合模块(Fast Cross Stage Partial Network Fusion, FC2f),提升网络的特征提取能力和运算速度;此外,采用Scylla交并比损失函数(Scylla Intersection over Union Loss, SIoU Loss)[9]对网络损失函数进行优化,提升算法的收敛速度和检测评估精度。改进后的评估网络模型如图1所示。其中:虚线框为改进部分;损失函数为整体网络模型优化;Image表示输入图像;Concat表示张量拼接;Upsample表示上采样;Conv表示卷积;FC2f表示快速跨阶段局部网络融合模块;Detect表示检测头;EMA表示高效多尺度注意力机制;C2f表示跨阶段局部网络融合模块;Mosaic-9表示Mosaic-9图像增强处理;SPPF表示快速空间金字塔池化(Spatial Pyramid Pooling-Fast)。

2 数据预处理

由于实际战场环境较为复杂,部分建筑物图像可能存在背景区域面积过大、图像亮度偏低等问题,且部分建筑物之间特征相似程度较高,损毁程度之间的界限不够明显。这对数据集中的图像拟真度和算法网络模型的泛化能力提出较高的要求。因此,采用Mosaic-9图像增强方法对YOLOv8的图像输入端进行改进。在输入前,随机将9张样本图像进行裁剪、缩放等方式进行预处理,而后对其进行图像拼接,并输入网络模型中进行训练。与传统的Mosaic-4图像增强方法相比,Mosaic-9的图像拼接数量更多,包含多尺度建筑物特征和图像背景信息,能够有效提升网络模型的泛化能力,防止过拟合问题的发生,如图2所示。

3 改进骨干网络

在将拼接图像输入YOLOv8的骨干网络进行特征提取时,建筑物图像中包含大量的背景区域,会导致训练资源过多的用于非建筑物区域,影响网络模型的训练效率。因此,在进行特征学习时,需对YOLOv8的骨干网络进行改进,提升网络训练效率。

3.1 改进注意力机制

EMA是一种新型的注意力机制,其采用并行子结构的方式将网络模型中的部分通道维度变为批量维度,使得每一个特征图上都能够均匀分布空间语义特征,有效解决通道降维的问题。将其应用于YOLOv8的骨干网络,能够减少网络模型的计算开销和保留通道关键信息。同时,EMA还能够通过跨空间学习方法融合两个并行子网络的输出特征,从而建立长期和短期的相互依赖关系,在一定程度上解决了因深度卷积造成网络模型效率低下的问题[10]

模块的具体应用方法为:将EMA置于YOLOv8骨干网络中前两个C2f模块后,并将相关网络卷积通道设置为批量维度,使得EMA的输入特征与输出特征维度相同,以利于后续特征处理。EMA的具体结构如图3所示。其中:Softmax表示归一化指数函数;AvgPool表示平均池化;Matmul表示矩阵乘法函数;Group Norm表示组归一化。

图3可以看出,EMA采取全局信息编码的方式对并行子通道的权重系数进行调整,同时将输出子通道的特征进行融合,能够有效提取毁伤建筑物的图像特征。

假设前端输入图像为XRc×h×w,单次训练样本个数为n,根据通道数量EMA将图像重新划分为g个子特征,则输入图像特征划分为X=X0,X1,Xi,,

Xg-1,EMA利用1条3×3卷积分支和两条1×1的卷积分支来计算分组图像特征的权重参数。其中:3×3卷积分支直接利用3×3卷积来获取图像的多尺度特征;1×1卷积分支分别从两个空间方向利用一维卷积进行信道编码,并将其进行拼接,而后划分为两个向量,并采用Sigmoid函数进行线性拟合,实现图像特征的跨通道交互。

在得到3×3卷积分支结构和1×1卷积分支结构的特征输出后,采用二维全局平均池化对特征输出进行全局空间信息编码,使相应的特征输出转换成对应维度,即R11×c//g×R2c//g×hw。而后,利用Softmax函数对已转换特征进行线性拟合变换,并将其格式转换为R1×h×w,最后将并行处理结果进行点积相乘,得到样本空间注意力图。

3.2 改进C2f模块

跨阶段局部网络融合(Cross Stage Partial Network Fusion, C2f)模块是YOLOv8网络中的一个重要模块,能够提取样本图像的高质量特征[11]。Mosaic-9和EMA的引入导致YOLOv8网络模型的复杂度升高,计算量增大。为保证算法的计算效率,采用部分卷积(Partial Convolution, PConv)对C2f模块中瓶颈(Bottleneck)模块进行改进,构造新的卷积网络结构(Faster Bottleneck)。

Faster Bottleneck共包含1个三维部分卷积层和两个一维卷积层。在进行特征提取时,不同通道的特征图存在高度相似的问题。因此,首先由部分卷积层对样本输入特征进行部分提取,其次由两个一维卷积层进行强化特征提取,最后将样本输入特征与强化特征进行连接,提取样本深层次特征。

其中,三维部分卷积层对于特征维度大小为c×h×w的样本特征图,选取前段或者后段连续cp个(cp/c的取值一般为0.25)通道利用滤波器进行特征提取,代表整个样本特征图。将剩余未处理通道的特征与其进行拼接,得到相同通道数的样本特征图。由于部分卷积层只对部分样本输入通道使用常规卷积进行特征提取,保证在提取的样本特征数量足够的情况下,大幅提升计算速度。

该模块的具体应用方法为:将C2f模块中的Bottleneck替换为Faster Bottleneck,得到改进的C2f模块FC2f,并对YOLOv8中的最后一个C2f模块进行替换。

4 改进损失函数

YOLOv8目前采用完全交并比损失函数(Complete Intersection over Union Loss, CIoU Loss)作为整个网络结构的损失函数[12]。假设目标预测边界框与真实边界框之间存在区域重叠,则CIoU Loss函数LCIoU的计算公式可表示为:

LCIoU=LIoU+(x-xgt)2+(y-ygt)2(Wg2+Hg2)+αv
LIoU=1-WdHdwh+wgthgt-WdHd
α=vLIoU+v
v=4π2tan-1wh-tan-1wgthgt2

式中:wwgt分别表示目标预测框和真实边界框的宽度;hhgt分别表示目标预测框和真实边界框的高度;xxgt分别表示目标预测框和真实边界框中心点的横坐标;yygt分别表示目标预测框和真实边界框中心点的纵坐标;Wd表示重叠区域的宽度;Hd表示重叠区域的高度;Wg表示两框最小外接矩形区域的宽度;Hg表示两框最小外接矩形区域的高度;LIoU表示目标预测框与真实边界框的重叠度;α表示平衡参数;v表示长宽比一致性。

CIoU Loss函数未考虑到不同情况下目标预测框与真实框之间的方向问题,会导致网络模型的收敛速度和精度下降[13]。因此,通过引入SIoU Loss函数来定义新的惩罚指标,提高YOLOv8网络的训练速度和检测评估精度,SIoU Loss函数可表示为:

LSIoU=1-LCIoU+12Ω+Δ
Ω=(1-e-Ww)θ+(1-e-Wh)θ;Ww=w-wgtmax(w,wgt);Wh=h-hgtmax(h,hgt).
Δ=2-e-γρx-e-γρy;ρx=xgt-xWg2;ρy=ygt-yHg2;γ=2-cos2×arcsinHgl-π4;l=(xgt-x)2+(ygt-y)2.

式中,θ表示形状损失关注度,根据经验,取值范围为2,6

5 实验分析

为验证改进算法的有效性,分别开展消融实验和对比实验进行验证。实验的软硬件环境为:Intel Core i7 CPU、16 GB、NVIDIA GeForce RTX3060 显卡、Windows 11、Python 3.7、CUDA 11.7以及PyTorch 2.0。

5.1 测试数据集及参数配置

由于目前没有专门的毁伤建筑物数据集,实验所使用的样本数据集主要通过互联网采集获得。该数据集中包含损毁的民用建筑、商业建筑和军事建筑共3类图像数据子集,每类各包含600张样本图像,总计1 800张样本图像。每张样本图像均采用LableImg软件进行毁伤程度标记,分为完好、轻微破坏、中等破坏、严重破坏4个类别。数据集中的所有样本的大小统一设置为640×640;批量大小设置为8;依据经验,将训练轮次设置为100;网络学习率设置为0.01,在第35次循环和第70次循环时,网络模型的学习率变为当前学习率的1/10。实验中每轮次测试分别在自建的毁伤建筑物数据集中,对每类毁伤建筑物分别随机选取400张,总计1 200张样本图像,作为标签样本进行训练,剩余的600张样本图像作为测试样本进行评估测试。

5.2 评价指标

采取平均评估精度值(Mean Average Evaluation Precision, mAEP)、每秒评估图像帧数(Frames Per Second, FPS)和浮点运算量(Floating Point Operations, FLOPs)作为本实验算法的评价指标。其中:mAEP表示建筑物毁伤结果评估正确的样本数量占总样本数量的比值;FPS表示每秒能够处理的图像帧数;FLOPs表示算法所需的浮点运算量。

5.3 消融实验

为检验算法改进部分对YOLOv8算法的提升效果,以YOLOv8系列模型中速度最快且最小的YOLOv8n为基准模型,分别对Mosaic-9、EMA模块、FC2f模块和SIoU Loss函数开展6轮次消融实验。实验1~实验5均在基准模型的基础上进行改动,其中:“√”表示应用该方法;“×”表示未应用该方法。实验结果如表1所示。

表1可以看出,引入Mosaic-9图像增强方法使算法评估精度有小幅提升,但增加了算法的复杂度,浮点运算量增加了4.3×109,评估速度有所下降;EMA模块的引入使评估精度提升了1.5%,但同样增加了算法的复杂度,评估速度下降16.3%;构建的FC2f模块在评估精度方面与YOLOv8n算法基本持平,但大幅降低了浮点运算量,评估速度提升19.1%;损失函数替换为SIoU Loss使得算法的评估精度与速度均有一定提升,评估精度提升0.5%,评估速度提升4.5%;改进算法将4种方法进行深度融合,在评估精度方面达到了最优,相比YOLOv8n算法上升了2.3%,且有效减少了浮点运算量,评估速度提升14.5%,能够满足战场建筑物毁伤效果评估的需求。

5.4 对比分析

为进一步验证改进算法的性能优越性,分别对改进算法、单次多框检测器算法[14](Single Shot MultiBox Detector, SSD)、检测转换器算法[15](Detection Transformer, DETR)、YOLOv8s和Gold-YOLO-M[16]进行3轮次对比实验,具体实验结果如图4表2所示。从图4表2可以看出,改进算法的建筑物毁伤效果评估明显好于其余4种算法,主要原因如下。

1)检测评估精度方面。SSD算法在进行图像处理时,将建筑物图像进行了分割,导致建筑物图像特征割裂,当图像背景中存在与目标建筑物形状相似、颜色相近的物体时,容易出现建筑物目标检测错误的问题;DETR算法未使用多尺度特征进行检测评估,导致对高分辨率建筑物目标的处理效果不佳;YOLOv8s算法在进行目标建筑物检测评估时,因实际拍摄角度问题,可能存在目标预测框与目标真实框之间的方向问题,导致检测评估精度有所下降;Gold-YOLO-M算法虽然能够利用信息聚集分发机制实现全局特征信息融合,有效提升检测评估精度,但对建筑物等大目标的检测评估效果提升有限;改进算法通过引入Mosaic-9对输入图像进行预处理,提升了网络模型的泛化能力,采用EMA进行全局特征信息编码,并利用SIoU Loss函数定义了新的惩罚指标,提升了网络模型的检测评估精度,与其他4种算法相比,改进算法的检测评估精度最高,平均达到了93.8%。

2)浮点运算量方面。SSD算法将YOLO系列算法和快速区域卷积神经网络算法(Fast Region-based Convolutional Neural Networks, Fast R-CNN)中的核心部分进行结合,导致算法的复杂度偏高,浮点运算量明显增加;DETR算法中的注意力机制需要对建筑物图像中的全部像素进行计算,导致算法的浮点运算量最高,达到了195.3×109;Gold-YOLO-M算法在YOLO系列算法的基础上加入信息聚集分发机制,在融合不同尺度层级特征的同时,增加了算法的复杂度,导致算法的浮点运算量大幅增加;改进算法虽然在YOLOv8算法基础上引入EMA和Mosaic-9,导致整个网络模型的复杂度有所升高,但通过引入新构建的FC2f模块和SIoU Loss函数大幅降低了特征提取时的运算量,与其他4种算法相比,改进算法的浮点运算量最小,为26.2×109

3)每秒评估图像帧数方面。算法整体浮点运算量决定了算法的运行速度。从结果来看,5种算法均能够满足实时检测评估的要求,但DETR算法的整体浮点运算量最大,检测评估速度最慢,改进算法的检测评估速度最快,达到了平均每秒126帧。

6 结束语

以现代战争中的目标建筑物毁伤效果评估为应用背景,在YOLOv8算法的基础上,通过引入Mosaic-9图像增强方法、EMA模块和SIoU Loss函数,并构造FC2f模块,提升了评估网络模型的检测评估精度和运行效率,能够有效满足复杂战场环境下的建筑物毁伤效果评估需求。但实验所用的数据集为互联网采集获得,与实际战场采集图像存在一定差异,下步还需建立真实的战场目标建筑物数据集,采集补充俄乌冲突、巴以冲突等真实战场的目标建筑物图像进行相关实验测试,对算法进行进一步完善。

参考文献

[1]

武青平,李高宇.无人化智能化战争形态下的作战体系建设问题思考[J].军事文摘2021(11):31-34.

[2]

黄林江,于小红,王杰娟,解析美军马赛克战概念的内涵和战场变化的关系[J].信息工程大学学报202324(5):627-633.

[3]

杨青青,樊桂花.基于高分辨率遥感图像的建筑物毁伤效果评估[J].电子设计工程.201826(21):6-10.

[4]

魏鑫,李晓婷.基于模糊推理的综合毁伤效果评估方法[J]. 智能计算机与应用202212(7):146-150.

[5]

杨延平.基于图像变化检测的毁伤效果评估技术研究[D].成都:电子科技大学,2013:59-60.

[6]

张宗腾,张琳,谢春燕,基于改进GA-BP神经网络的目标毁伤效果评估[J].火力与指挥控制202146(11):43-48.

[7]

Ultralytics. Explore Ultralytics YOLOv8[DB/OL]. (2023-01-10)[2024-08-05].

[8]

周觐,高岚岚,刘巍.智能态势认知关键需求分析[J]. 指挥控制与仿真202446(2):8-17.

[9]

王杰,张上,张岳,改进YOLOv5的军事飞机检测算法[J].无线电工程202454(3):589-596.

[10]

曾志超,徐玥,王景玉,基于SOE-YOLO轻量化的水面目标检测算法[J].图学学报20241(3):72-80.

[11]

单慧琳,王硕洋,童俊毅,增强小目标特征的多尺度光学遥感图像目标检测[J].光学学报202444(6):382-394.

[12]

徐艺博,颜佳润,曾志文,无通信条件下基于视觉毁伤评估的弹群对地目标自主攻击决策[J].兵工学报202432(5):1-14.

[13]

李杰,李勇斌,郑娄,基于YOLO-OpenMax的水声通信信号开集识别方法[J].信息工程大学学报202425(3):258-264.

[14]

秦振,李学伟,刘宏哲.基于改进SSD的鲁棒小目标检测算法[J].东北师大学报(自然科学版)202355(4):59-66.

[15]

崔鹏,杨海峰,蔡江辉,王玉鹏.多尺度局部聚类的Kmeans-DETR目标检测方法[J].小型微型计算机系统202445(5):1136-1142.

[16]

WANG C CHE WNIE Y, et al. Gold-YOLO: efficient object detector via gather-and-distribute mechanism[C]∥Proceedings of the 37th International Conference on Neural Information Processing Systems. Red Hook, USA: Curran Associates Inc., 2024:51094-51112.

基金资助

武警部队军事理论课题(WJJY24JL0141)

AI Summary AI Mindmap
PDF (2937KB)

423

访问

0

被引

详细

导航
相关文章

AI思维导图

/