基于改进YOLOv8算法的复杂场景船舶目标检测

车晓辰 ,  马淑华 ,  郭泽旭 ,  沙晓鹏

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (12) : 38 -47.

PDF (3025KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (12) : 38 -47. DOI: 10.12068/j.issn.1005-3026.2025.20240118
信息与控制

基于改进YOLOv8算法的复杂场景船舶目标检测

作者信息 +

Ship Target Detection in Complex Scenarios Based on Improved YOLOv8 Algorithm

Author information +
文章历史 +
PDF (3097K)

摘要

为了提高复杂场景下船舶目标检测的精度和鲁棒性,基于YOLOv8算法进行模型改进.在骨干层引入CD3模块并嵌入无参注意力SimAM模块;在颈部层引入注意力尺度序列融合ASF(attention-based scale sequence fusion)模块;在头部层增加了检测头用于预测输出;采用剪枝降低模型计算量;最后使用蒸馏进一步提升模型性能.实验在阿里天池官网提供的复杂场景船舶检测数据集上进行验证,结果表明,改进后模型的AP50和AP相比于YOLOv8分别提升4.7%和2.9%,召回率和精确率分别提升3.2%和4.2%,而模型参数量减少56.1%,计算量降低30.5%.改进后的模型在减少参数量的同时,提升了总体性能.

Abstract

To improve the accuracy and robustness of ship target detection in complex scenarios, modifications were implemented based on the YOLOv8 algorithm. The CD3 module was introduced in the backbone layer with the parameter-free attention SimAM module embedded. The attention-based scale sequence fusion (ASF) module was incorporated in the neck layer, and an additional detection head was added to the head layer for prediction output. Pruning was adopted to reduce the computations of the model, followed by distillation to further improve model performance. The experiment was conducted on the complex scenario ship detection dataset from Alibaba Tianchi for verification. The results demonstrate that compared with YOLOv8, the improved model achieves increases of 4.7% in AP50 and 2.9% in AP, respectively. Recall and precision are improved by 3.2% and 4.2%, while model parameters and computations are reduced by 56.1% and 30.5%. The optimized model thus improves overall performance while reducing parameters.

Graphical abstract

关键词

YOLOv8算法 / CD3 / ASF-YOLO / SimAM / 剪枝蒸馏

Key words

YOLOv8 algorithm / CD3 / ASF-YOLO / SimAM / pruning and distillation

引用本文

引用格式 ▾
车晓辰,马淑华,郭泽旭,沙晓鹏. 基于改进YOLOv8算法的复杂场景船舶目标检测[J]. 东北大学学报(自然科学版), 2025, 46(12): 38-47 DOI:10.12068/j.issn.1005-3026.2025.20240118

登录浏览全文

4963

注册一个新账户 忘记密码

随着水路交通的发展,海上运输不断增加,导致海上船舶种类和数量不断增多,某些水域变得十分拥挤,船舶在运行过程中发生事故的概率大大增加1.随着计算机视觉的发展,基于卷积神经网络的算法在船舶检测领域得到广泛应用.周旗开等2提出一种基于改进YOLOv5s的轻量级船舶目标检测方法,构建了融合ECA(efficient channel attention)模块与BiFPN(bidirectional feature pyramid network)模块的目标检测模型.Li等3提出了一种基于改进Faster-RCNN的船舶检测算法,设计了一种连接结构实现特征放大和多尺度特征跳跃,该结构提升了船舶检测精度但降低了检测速度.Jiang等4提出了一种基于改进YOLOv7-tiny模型的轻量级目标检测方法,在主干网络中引入坐标注意力机制,将ODConv(omni-dimensional dynamic convolution)添加到网络中;另外,在模型中引入了CARFE(content-aware reassembly of features)和SIoU(smoothed-IoU)损失函数以提高网络对小目标的收敛速度和检测精度.Zhao等5提出了一种基于E2YOLOX-VFL的船舶目标检测方法,在YOLOX骨干网络中加入ECA模块,将损失函数替换为EFIoU(efficient force-IoU),以增强模型对不同尺度物体信息的提取能力,提高算法的回归性能.Lyu等6提出了一种基于YOLOv5s-lite-CBAM模型的检测系统,将YOLOv5s中的C3模块替换为ShuffleNetV2和CBAM(convolutional block attention module)注意力机制的组合模块,减轻了模型体量,提高了检测精度.Zhao等7提出了一种基于Swin-Transformer的YOLO模型,在骨干网络中嵌入Swin-Transformer网络架构和坐标注意力机制;其次,利用具有残差结构的PANet(path aggregation network)构建特征金字塔,提高全局特征提取能力.
YOLOv88是一种以实时性能和优异准确率著称的目标检测模型.然而,其在复杂海洋环境中的船舶检测效果仍然有限.为解决这一挑战,本文针对复杂场景下的船舶目标检测任务,提出了改进的YOLOv8算法,主要贡献如下:
1) 由于船舶位置和拍摄角度不同,类别众多且形状复杂,因此在全局的C2f(cross stage partial network bottleneck with 2 convolutions and a faster implementation)结构中增加了DCNv39.该模块允许卷积核动态调整输入特征图的空间采样位置,从而能够更好地捕捉目标物体在尺度、角度及形变等方面的多样性.
2) 为了捕获不同尺度的船舶信息,将颈部层使用ASF-YOLO10进行改进,这对于大小、形状各异以及可能出现遮挡的密集船舶情况下的检测尤为重要.多尺度融合对于各种尺寸的船舶具有优秀的识别能力,能同时兼顾细节与全局信息.
3) 为了解决小型船舶及因远距离拍摄导致的小目标识别困难问题,在主干网络中引入SimAM11以增强特征提取的能力.
4) 进一步减少了计算量,同时大幅降低了模型参数量.本文使用剪枝算法使计算量降低至原来的1/2,但带来了性能的略微下降;因此结合知识蒸馏技术,使模型性能进一步提升并超越剪枝前的水平,显著提高了模型的鲁棒性和检测精度.

1 YOLOv8算法简介

YOLOv8是Ultralytics公司开源的一个SOAT(state of the art)模型,它建立在先前成功版本的基础上,进一步提升了算法的性能和灵活性,设计了新的骨干网络,改进了新的Ancher-Free 结构检测头以及新的损失函数.YOLOv8算法包含输入层、骨干层(Backbone)、颈部层(Neck)和头部层(Head)4个主要部分.骨干层用于提取图像的特征信息,在使用卷积的同时还采用了独有的模块C2f来提高网络的计算速度并降低了内存消耗;颈部层进一步增强骨干层提取的特征信息,采用PANet和FPN(feature pyramid network)结构,既增强了多个尺度上的语义表达,又提升了多个尺度上的定位能力.头部层使用的是Decoupled Head,包含3个输出分支,每个输出分支又分为两部分,分别进行目标分类和边界框回归.

2 改进的YOLOv8算法

本文改进了YOLOv8算法的内部模块和结构,引入了多尺度信息提取、特征融合和注意力机制等技术,改进后的网络结构如图1所示.

首先将拼接P2层和ASF-YOLO模块用于提取多尺度特征,之后改进C2f模块和SimAM模块以增强特征融合,从而优化模型在复杂海洋环境中的船舶目标检测性能.改进后的模块增大了计算量,因此采用剪枝操作对模型进行轻量化处理,随后使用知识蒸馏技术在不改变模型参数和计算量的前提下进一步提升模型性能.通过这些改进,期望提高模型对数据集中各类船舶的识别精确率,从而更好地满足实际应用中的船舶检测需求.本文的研究目标是船舶识别,实现对不同种类和大小的船舶进行边界框回归及二分类.由于数据集中包含各种类型和尺寸的船舶,若将它们统一归为一类会导致类别不平衡问题,进而影响模型的性能和泛化能力.因此,在进行二分类时,需采取相应策略以解决该问题.

2.1 CD3模块构建

本文构建的CD3(C2f DCNv3)模块通过将DCNv3模块融入C2f模块实现.该设计将C2f模块的主干替换为DCNv3模块.由于DCNv3对输入和输出进行等量分组处理,且组间互不干扰,每组仅采用单一卷积核进行特征提取,该结构既降低了参数量,又引入了可变形卷积操作.这种操作允许网络根据目标对象的非均匀形状和空间变形自适应调整卷积核采样位置,使模型能更有效地捕捉目标细节特征,尤其在复杂场景下可显著提升目标边界建模精度.

可变形卷积的原理12是通过引入偏移量(offset)来调整卷积核在输入特征图上的采样位置.传统的卷积操作是固定的,每个卷积核在输入特征图上的采样点位置是固定的,对特征图上的每个位置P0操作如式(1)所示:

yP0=PnRωPnxP0+Pn.

其中:ωPn为第n个位置Pn的卷积核;R是卷积核的所有区域的集合;xP0+Pn )为(P0+Pn )位置特征图的值.

可变形卷积允许卷积核在每个位置上进行局部的微小偏移量Pn,以适应目标对象的非均匀形状和空间变形,如式(2)所示:

yP0=PnRωPnxP0+Pn+Pn.

其中,{Pn|n=1,,N},N=|R|,偏移量不会超过卷积核尺寸.这种偏移量是通过学习得到的,可以根据目标对象的特征来自适应地调整,从而更好地捕捉目标对象的细节特征.

为了弥补卷积与多头注意力之间的差距,在传统卷积运算中融入长距离依赖,如式(3)所示:

yP0=k=1KwkmkxP0+Pk+ΔPk.

其中:K表示采样点总数;wk表示第k个采样点对应的投影权重;mk表示第k个采样点的调制尺度,使用Sigmoid函数进行归一化.

DCNv3还在神经元之间共享了权值,将原始卷积中的wk参照可分离卷积的思想分离成深度和点两部分,深度部分由mk来调制,点的部分使用共享投影权重wk.同时引入了多组机制,将聚合空间分成G个组,每一组均配备专属的采样偏移量ΔPgk与调制尺度mgk.同一卷积层内各组提供不同的空间聚合方式,增加了多样性.使用Softmax函数对沿着样本点的元素进行归一化,使得调制标量之和限制为1.如式(4)所示:

yP0=g=1Gk=1KwgmgkxgP0+Pk+ΔPgk.

其中,wg表示第g个采样点对应的投影权重.将DCNv3融合到C2f中并应用于全局,有效解决了标准卷积在网络中处理长距离依赖关系,显著提升了数据集中小目标的检测性能.该模块继承了卷积固有的归纳偏置属性,使得模型在有限训练数据条件下能更高效地学习,降低对大规模数据的依赖,同时缩短训练周期,并减少了资源消耗.

2.2 嵌入SimAM注意力机制

SimAM是一种轻量级、无参数的注意力机制.基于图像的局部自相似性,该机制通过计算特征图中每个像素与其相邻像素之间的相似性来生成注意力权重.

信息丰富的神经元往往以独特的放电模式区别于相邻神经元,并展现出空域抑制特性,即在激活时抑制周围神经元活动.因此,对于具备显著空域抑制效应的神经元应赋予较高重要性.

SimAM定义了能量函数来度量目标神经元与相同通道内其他神经元之间的线性可分性.每层输入的参数包括特征图的输入通道数C,特征图的宽度w,高度h,对于每个通道会产生M=h×w个能量函数.通过采用二值标签并添加L2正则项,最小能量的解析解如式(5)所示:

et*=4σ^2+λt-μ^2+2σ^2+2λ.

其中:μ^=1Mi=1Mxiσ^2=1Mi=1Mxi-μ^2分别为每个通道神经元的均值与方差;t为该二维通道内空间位置为(ij)的目标神经元的值;λL2正则化系数.每个神经元t与其“周围神经元”的关系主要体现在与均值μ^的差异上,式(5)中的核心项t-μ^2直接度量了t偏离该通道所有神经元均值μ^的程度.|t-μ^|越大,t距离μ^越远,式(5)计算出的能量值et*就越小,这表明目标神经元t与该通道整体分布特性差异越显著,其重要性越高.这种设计使得SimAM能够有效捕捉在激活值空间上偏离常态的、具有区分性的信息.通过1/et*得到每个神经元的重要性之后,对特征进行增强处理,如式(6)所示:

X˜=Sigmoid1EX.

其中:E为所有通道内每个神经元et*的均值;Sigmoid是一个单调递增函数,值域为0~1,用于约束重要性1/et*的大小;表示哈达玛积;X表示特征图的值.

SimAM作为一种轻量级、无参数的注意力机制,通过利用图像的局部自相似性和空域抑制效应,保持了模型的轻量性和高效性.基于以上优点,本文在骨干网络的最后一层加入了SimAM模块,进一步强化了对信息丰富、模式独特区域的关注,为卷积神经网络带来了显著的性能提升.

2.3 改进的ASF-YOLO

ASF-YOLO是一个基于YOLO的模型,专门用于解决不同类型细胞的多尺度问题和小细胞检测与分割难题.改进后的ASF-YOLO模块由尺度序列特征融合模块 SSFF(scale sequence feature fusion module)和三重特征编码器TFE(triple feature encoder)两个主要模块组成,融合到颈部层中.该模型将初始模块中的通道和位置注意力机制替换为对应位置加和运算,并将原始的3个检测头增加到4个检测头输出,如图1所示.

SSFF旨在通过创新的融合策略和结构,更高效地融合深层特征图携带的高阶抽象信息与浅层特征图蕴含的精细化细节.在这一过程中,尽管图像经下采样后尺寸有所减小,但所保持的尺度不变特征得以保留,确保了多尺度信息的有效传递.如式(7)所示:

Fow,h=Gow,h×fw,h,Gow,h=12πσ2e-w2+h22σ2.

其中,fw,h是输入宽为w、高为h的图像数据,通过二维高斯滤波器Gow,h对图像平滑处理后,得到新的二维图像数据Fow,h.这些图像尽管具有相同的像素分辨率,但其内在的尺度特性各异.这样的差异使得各个特征图实质上构成了一个尺度谱系,其中每个特征图对应着图像的不同尺度表现.为了便于后续处理,将这些具有不同内在尺度特征但分辨率一致的特征图,通过适当的调整统一至相同分辨率,继而进行拼接操作.将不同尺度信息的特征图沿水平方向堆叠,运用三维卷积算法对这一堆叠结构进行深度学习,旨在从中提取蕴含尺度序列信息的综合特征.

TFE模块设计的主要目的在于有效融合来自不同尺度的特征图,提升对尺寸差异显著目标的识别与定位精度,从而增强网络对小目标的检测能力.

图2展示了TFE的结构,其中C为通道数,S为特征图的尺寸.以当前中尺寸特征图输入的通道数和尺寸为基准,对于大尺寸特征图,将其通道数缩减至1C(即与中尺寸输入的通道数基数相同),随后运用最大池化与平均池化相结合的混合下采样策略进行处理,该策略在降低分辨率的同时,仍保留高分辨率特征中的关键图像细节与多样性特征.对于小尺寸特征图,同样采用卷积模块对其通道数进行适应性调整(保持1C的通道数),之后使用最近邻插值方法进行上采样.最后对大、中、小3个尺寸的特征图各进行一次卷积操作,得到3幅具备不同尺度信息但尺寸和通道数操作一致的特征图.最终在通道维度上进行拼接,形成融合多尺度信息的综合性特征图.

2.4 剪 枝

神经网络剪枝技术旨在对网络架构进行精简优化,识别并剔除那些对模型性能贡献有限却占据大量计算资源的冗余元素.通过这一过程,能够在保持或近似保持模型原有预测精度的同时,显著降低其在计算、存储等方面的开销,从而使复杂模型适应更广泛的硬件环境,提升实际部署与运行的效率.

通过采用LAMP(layer-wise adaptive magnitude-based pruning)13评分策略,基于逐层自适应幅度的剪枝方法实现更为精细化与高效的资源优化.幅度为权重绝对值的大小14-15.在神经网络架构中,相邻卷积层之间的连接均附带有权重参数,该参数本质上量化了输入信号对最终输出结果的影响程度.在实施剪枝操作时,对这些权重值进行评分以决定每个连接结构是否保留.当前广泛应用的一种评判标准是直接比较权重绝对值的大小.依据这一标准,被标记为剪枝目标的往往是那些权重绝对值较小的连接,因为它们通常被视为对网络整体功能贡献甚微的冗余成分16-17.LAMP作为一种先进的全局剪枝方法,克服了传统全局剪枝策略易引发的层崩溃问题18.其设计思路可概括如下:

将二维的权重张量展平为一维数组权重集合W,设uv为该一维数组的两个索引,wu表示由索引u所对应的权重项.依据假设条件,权重项的数值大小与其索引位置呈有序关系,即当u<v时,wu<wv.在此前提下,LAMP评分如式(8)所示:

scoreu;W=wu2vuwv2.

其中:wu2表示目标连接对应权重的平方;vuwv2表示该层在索引u之后的所有权重平方之和.当wu2>wv2时,scoreu;W>scorev;W,该得分用于衡量目标权重wu)相对于其他权重的重要性.权重项的数值越大,其对应的LAMP评分值亦随之增大.评分较低的权重项被视作相对不重要,适合作为剪枝对象.此外,LAMP评分机制确保每层至少包含一个评分值为1的最优通道,从而有效规避层崩溃现象的发生,实现了全局剪枝与局部剪枝优势的有机整合.在设定期望的总体剪枝比例后,依据各连接的LAMP分数优先剪除分数最低的连接.

剪枝前后每层参数量对比如图3所示.剪枝后每层的参数量覆盖于基础模型之上.LAMP算法成功融合全局剪枝与局部剪枝的优势,通过动态、精细的评分系统指导剪枝过程,在满足资源约束条件的同时,确保模型保持优异的预测性能与结构合理性.

2.5 蒸 馏

知识蒸馏是一种迁移学习算法,主要应用于深度学习模型的压缩与优化.通过将大型、复杂且性能优异的教师模型的知识传递给小型、简洁且计算效率更高的学生模型,使学生模型在保持或接近教师模型预测能力的同时,具有更低的计算成本、更小的模型体积和更快的推断速度.根据迁移策略的不同,知识蒸馏可分为两大类:一是基于输出概率分布的蒸馏(Logits蒸馏法);二是基于中间层特征传递的蒸馏算法.本文同时采用这两种方法进行蒸馏,结构如图4所示.

在蒸馏过程中,学生模型一方面学习真实数据的硬标签,另一方面学习教师模型的软概率分布,从而获取教师模型对各类别置信度及其关系的细致知识.通过最小化学生模型与教师模型输出分布的KL(Kullback-Leibler)散度,精准复制教师模型的决策边界与类别区分能力.本文采用BCKD19方法进行最终的训练学习,损失函数为

BCKD=α*CEs,y+β*KDs,t.

其中:CEs,y为针对分类任务的交叉熵损失函数,它衡量的是学生模型输出的预测对数概率分布与真实标签之间的差距,在图4中的③处,sy分别代表学生模型的原始输出和真实框标签;KDs,t为基本知识蒸馏任务中的损失函数,在图4中的②处,t表示教师模型的原始输出;αβ为损失函数的权重.

基于中间层特征的蒸馏方法使学生模型能够深入学习教师模型内部网络结构所蕴含的中间层特征表达.该方法强制要求学生模型的部分中间层产生与教师模型相应中间层输出尽可能接近的网络响应.本实验的中间层均选自头部层,采用CWD(channel-wise distillation)20策略实现特征知识迁移,如式(10)所示:

φϕyT,ϕyS=φϕyCT,ϕyCS
ϕyC=expyC,i𝒯i=1whexpyC,i𝒯.

其中:yT是教师模型的激活映射;yS是学生模型的激活映射;yC为特征图上中心点的特征向量;yCTyCS分别代表教师模型和学生模型在特征图上中心点的特征向量;ϕ·为使用Softmax归一化将激活映射值转换成概率分布,如式(11)所示;𝒯为超参数.φ·用于衡量教师模型和学生模型在每一个通道间的概率分布差异,采用KL散度这种非对称方式进行衡量,如式(12)所示:

φyT,yS=𝒯2Cc=1Ci=1whϕyT,c,ilogϕyT,c,iϕyS,c,i .

式中:C表示通道(channel);i表示该通道中第i个像素的位置.𝒯越大,每个通道关注的区域就会越大.当ϕyT,c,i很大时,要增大ϕyS,c,i才能最小化KL散度.

当同时采用BCKD和CWD两种蒸馏方法时,学生模型不仅能掌握教师模型在高层决策逻辑上的知识,还能学习其底层的特征提取机制,实现从局部到全局、从细节到整体知识的全面迁移,从而高效且精准地压缩和继承教师模型的知识.

3 实验及结果分析

3.1 数据集准备

本文基于阿里天池提供的复杂场景下的船舶检测数据集进行实验.数据集的收集涵盖了各种复杂的海上场景,包括船只密集的渔业区域,交通繁忙的港口以及船舶与岸边交通工具混合的场景.不仅包含船舶与海洋背景的交互,还囊括了岸线建筑、浮标、渔网、波浪、光照条件及天气等自然与人工干扰因素.船舶尺度具有显著变化,从小型渔船到大型邮轮,目标尺寸及拍摄距离差异悬殊;此外,部分图像中船舶密集分布,形成复杂的遮挡关系.与传统的船舶数据集相比,该数据集中存在大量船舶出现在图片的背景中,而非作为图像的主体部分存在,这给识别增加了巨大困难;同时考虑到实际中船舶并行行驶的情况,数据集还增加了船舶部分被遮挡和完全被遮挡的比例.此外,由于将不同种类的船视为同一类别,而不同类型船舶间的像素差异较大,进一步增加了检测难度.因此,本文数据集的复杂度较高,与一般数据集相比,这种多样化的环境使得识别任务困难许多.

在实验阶段,遵循了严格的在线数据增强策略以提高模型的泛化性能与适应性.具体手段包括随机像素内容变换、随机翻转、随机裁剪、随机填充等.这些操作能够在不增加额外数据收集成本的前提下,模拟出更为多样化的视觉输入,有效防止模型过拟合.特别地,采用了多尺度训练策略,将图像尺寸调整为320像素×320像素,352像素×352像素,384像素×384像素,416像素×416像素,448像素×448像素,480像素×480像素,512像素×512像素,544像素×544像素和576像素×576像素,确保模型能够应对不同分辨率下的船舶检测任务.

在验证与推理阶段,所有图像统一调整为480像素×480像素,作为算法输入的标准尺寸,以保证评估的公平性和一致性.在对比实验中,对于其他先进的船舶检测算法,其数据增强策略均与本文所采用的方法保持一致,以确保不同方法间性能比较的公正性.

3.2 评价指标

本文实验的数据集仅包含单一类别,因此采用AP50、AP、精确率P、召回率R、参数量及计算量(FLOPs)作为模型评估指标,AP50是指交并比(IoU)阈值为0.5时计算的平均精度,该阈值通常被视为相对宽松的匹配标准,用于衡量模型在目标检测中是否达到基本定位准确度.而AP值的计算涵盖了IoU阈值从0.50到0.95的变化范围(以0.05为间隔)的多个阈值下的平均精度.AP值越高,说明模型在各种IoU阈值下的检测精度都较高,具有更强的泛化能力.召回率指模型在真实存在的正类样本中成功找出并正确分类的比例.精确率指模型预测为正类且真实标签也是正类的比例,它衡量了模型在所有被标记为正类的预测结果中是正确结果的比例.此外,还对比了计算量和模型参数量,以体现在实际部署中的可行性.

3.3 消融实验

本文在复杂场景下的船舶检测数据集中以YOLOv8为基准模型进行消融实验,并在此基础上依次添加CD3模块、改进的ASF-YOLO结构、SimAM注意力机制,随后依次进行剪枝和蒸馏处理.改进后的最终模型在测试集上计算得到的AP50和AP值相比于基准模型YOLOv8分别提升了4.7%和2.9%,召回率和精确率分别提升了3.2%和4.2%,同时模型参数量减少了56.1%,计算量降低了30.5%.表1展示了各改进阶段在测试集上的性能指标.

模型B将基准模型A中的所有C2f模块均替换为CD3模块,在减少参数量的同时降低了计算量.深度可变形卷积通过将标准卷积分解为深度卷积和逐点卷积两部分,允许卷积核在常规网格采样基础上进行灵活偏移,从而更好地适应输入特征图中的非刚性形变.相较于传统卷积操作,可变形卷积在保持对目标形状变化敏感性的同时,通过动态调整滤波器的采样位置,减少了对大量参数的依赖.该改进不仅显著降低了参数量与计算量,而且在保持甚至提升模型检测性能的基础上,增强了模型对复杂场景及非规则形状目标的适应性.这一改进有效平衡了模型效率与精度之间的关系.

模型C在模型B的基础上,将颈部层替换为ASF结构,并额外增加了一个检测头.该改进增加了计算量但减少了参数量,同时使其指标均得到提升,其中召回率和AP50性能的提升尤为显著.召回率作为衡量模型检测所有正类样本能力的指标,其提升表明模型在复杂场景下能更有效地识别和捕获目标对象,从而减少漏检现象.ASF结构通过其独特的注意力机制使模型能更精准地聚焦于目标区域的关键特征,从而使预测边界框更贴近真实标注值,即提高IoU值.新增的检测头进一步增强了模型对不同尺度和不同姿态目标的捕捉能力,特别是对小目标或遮挡严重的物体,其检测效果得到显著改善.这些改进共同推动了整体召回率的大幅提升.

模型D在模型C基础上仅增加了一个SimAM模块.由于该注意力机制不含可训练参数,且计算复杂度低,其计算开销与基准模型相比几乎保持不变,各项性能指标均获得显著提升,其中AP和分类精确率的改善尤为突出.这表明,SimAM能有效增强模型对目标位置信息的敏感性以及类别特征的判别能力,使其在不同尺度、姿态和遮挡条件下的目标检测任务中均能保持较高的精度,从而全面提升模型的平均检测性能.

模型E是在模型D基础上进行剪枝操作,计算量减少至原来的1/2,参数量变为剪枝前的59.1%.在Fineturn时不更改任何训练策略,其他各项指标仅小幅度下降,充分体现了本实验采用的剪枝方法的有效性和稳健性,能够在大幅降低模型复杂度的同时,最大限度地保留模型的核心学习能力和预测精度.未来的研究可进一步探索优化Fine-tuning策略或其他模型压缩技术,以期在保证性能的前提下,实现模型E的进一步精简与优化.

模型F是对模型E进行蒸馏得到的,教师模型仅将模型D的基准模型YOLOv8n替换为YOLOv8s,教师模型的AP50为0.626 53,AP为0.375 23,召回率为0.569 27,精确率为0.666 26,计算量达到32.7 GFLOPs,参数量为7.970 5×106,而模型F在计算量仅需5.7 GFLOPs和参数量为1.320 9×106的情况下,取得了接近教师模型的性能表现,其中精确率甚至超过教师模型.与模型E相比,模型F各项指标均获得显著提升.

图5图6分别展示了模型A与模型F的部分检测效果,图片均来自本文所用数据集的测试集.在轻微干扰情况下,模型A存在较明显的错检问题(如图5a所示),而模型F较好地克服了这一缺点(图6a).在有遮挡情况下,无论是图5b所示的非船舶轻微遮挡,还是图5d所示的同类型船舶混淆干扰且遮挡面积较大的情况,模型A均未识别出目标,而模型F表现出较优的性能.在远距离、小目标情况下,模型A存在较明显的漏检问题(如图5c所示).在背景复杂、干扰较多的情况下(如图5e、图6e所示),模型F能更好地检测出船舶位置,而模型A错检较多.在远距离且船舶密集排列的情况下(如图5f、图6f所示),模型A存在明显漏检问题,而模型F能较好地检测出船舶位置.

综上,说明改进后的模型鲁棒性更强,检测效果更佳,充分表明了改进方法的有效性.

3.4 与其他SOTA检测器对比实验

为了更严谨且全面地验证本文所提算法的优越性,将该算法与目前最先进的若干目标检测算法进行了详尽的对比分析.数据集采用阿里天池复杂场景下的船舶检测数据集,训练和推理环境均为Ubuntu20.04系统、NVIDIA GeForce RTX3060 GPU、CUDA 11.7、cuDNN 8.9.4、Python 3.8.18和PyTorch 1.13.1.实验结果如表2所示.

从对比实验中可以看出,本文改进的最终模型F的AP50,AP和精确率均明显高于其他先进模型,并且召回率也保持较高的水平,而计算量和参数量明显低于其他模型.对于AP50这一指标,YOLOv7-tiny最接近本文模型,其召回率在对比实验中最高,但计算量和参数量远高于本文模型.对于AP和精确率这2个指标,表现较好的是YOLOv6-n和gold_yolo-n,但这2个模型的召回率表现较差,且计算量和参数量较大.而在计算量和参数量这2个指标中,只有YOLOv5-n最接近本文模型,但该模型其余各项指标均表现较差,其中AP50和召回率比本文模型分别低了5.7%和6.2%.CCAT-YOLOv8n21和YOLOv8n-Bi-FPN-EMA22都是在船舶检测领域对YOLOv8n的改进算法,按照文中结构进行复现并在本文所使用的环境中进行训练.综上,在复杂船舶目标检测中,与表2中其他SOTA检测器相比,本文改进的模型计算量和参数量最低(即模型体积最小),对设备的负载最低;AP50与AP指标最高,同时精确率最高,减少了错检的发生.

4 结 论

1) 本文在YOLOv8的基础上进行改进,在主干网络中引入的DCNv3卷积能更好地适应复杂海况(如波浪遮挡、姿态变化)以及不同船型(如游艇、货轮、帆船等)带来的目标几何形变和局部视角变化.

2) 嵌入骨干层的SimAM无参数注意力机制能自主学习并强化与船舶目标强相关的空间/通道特征,有效抑制岸线/岛屿背景混淆等高噪声信息的干扰.

3) 颈部集成的ASF模块通过自适应的多尺度特征融合与注意力加权机制,显著提升了模型对部分遮挡船舶(如船身被其他船只遮挡)以及远距离小尺度目标(如海上漂浮的小型救生艇或渔船)的识别能力.

4) 结合剪枝和蒸馏的优化策略,在压缩模型规模和计算量的同时,确保模型在计算资源受限的实时检测场景中仍能维持高性能的复杂背景判别能力.

参考文献

[1]

鄢然, 王帅安, 周煜圣. 区块链技术在航运业的应用综述[J]. 交通运输工程与信息学报202220(3): 1-14.

[2]

Yan RanWang Shuai-anZhou Yu-sheng. Application of blockchain technology in the shipping industry[J]. Journal of Transportation Engineering and Information202220(3):1-14.

[3]

周旗开, 张伟, 李东锦, . 基于改进YOLOv5s的光学遥感图像舰船分类检测方法[J]. 激光与光电子学进展202259(16): 1628008.

[4]

Zhou Qi-kaiZhang WeiLi Dong-jinet al. Ship detection and classification method for optical remote sensing images based on improved YOLOv5s[J]. Laser& Optoelectronics Progress202259(16): 1628008.

[5]

Li Y DZhang S SWang W Q. A lightweight faster R-CNN for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters202219: 4006105.

[6]

Jiang Z KSu LSun Y X. YOLOv7-ship: a lightweight algorithm for ship object detection in complex marine environments[J]. Journal of Marine Science and Engineering202412(1): 179-190.

[7]

Zhao Q CWu Y QYuan Y B. Ship target detection in optical remote sensing images based on E2YOLOX-VFL[J]. Remote Sensing202416(2): 318-340.

[8]

Lyu Z LWang C YSun X Jet al. Real-time ship detection system for wave glider based on YOLOv5s-lite-CBAM model[J]. Applied Ocean Research2024144: 103833.

[9]

Zhao KLiu R TWang S Yet al. ST-YOLOA: a Swin-Transformer-based YOLO model with an attention mechanism for SAR ship detection under complex background[J]. Frontiers in Neurorobotics202317: 1170163.

[10]

Jocher GChaurasia AQiu J. Ultralytics YOLO (version 8.1.9) [EB/OL]. (2023-01-10) [2024-02-24].

[11]

Wang W HDai J FChen Zet al. InternImage: exploring large-scale vision foundation models with deformable convolutions[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 14408-14419.

[12]

Kang MTing C MTing F Fet al. ASF-YOLO: a novel YOLO model with attentional scale sequence fusion for cell instance segmentation[J]. Image and Vision Computing2024147: 105057-105096.

[13]

Yang L XZhang R YLi L Det al. SimAM: a simple, parameter-free attention module for convolutional neural networks[C]//International Conference on Machine Learning. Online: PMLR, 2021: 11863-11874.

[14]

Zhu X ZHu HLin Set al. Deformable ConvNetsv2: more deformable, better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2019: 9300-9308.

[15]

Lee JPark SMo Set al. Layer-adaptive sparsity for the magnitude-based pruning[EB/OL]. (2021-05-09)[2024-02-26].

[16]

Li HKadav ADurdanovic Iet al. Pruning filters for efficient ConvNets[EB/OL]. (2017-03-17)[2024-02-26].

[17]

Howard ASandler MChen Bet al. Searching for MobileNetV3[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 1314-1324.

[18]

Blalock DOrtiz J J GFrankle Jet al. What is the state of neural network pruning?[EB/OL]. (2020-03-06)[2024-02-26].

[19]

Molchanov PTyree SKarras Tet al. Pruning convolutional neural networks for resource efficient inference[EB/OL]. (2017-06-08)[2024-02-26].

[20]

Howard A GZhu M LChen Bet al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2024-02-26].

[21]

Wang QLiu LYu W Xet al. BCKD: block-correlation knowledge distillation[C]//2023 IEEE International Conference on Image Processing (ICIP). Kuala Lumpur: IEEE, 2023: 3225-3229.

[22]

Shu C YLiu Y FGao J Fet al. Channel-wise knowledge distillation for dense prediction[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2022: 5291-5300.

[23]

李斌, 雷钧涵, 郭毅. 基于CCA和Transformer的YOLOv8船舶目标检测算法[J]. 控制工程202431(5): 901-911.

[24]

Li BinLei Jun-hanGuo Yi. YOLOv8 ship target detection algorithm based on CCA and Transformer[J]. Control Engineering of China202431(5): 901-911.

[25]

惠卓凡, 李鹏龙, 沈烈, . 基于改进YOLOv8的渔港船舶进出港目标检测与统计方法[J]. 大连海洋大学学报202439(3): 498-505.

[26]

Hui Zhuo-fanLi Peng-longShen Lieet al. Detection and statistics method of ship entry and exit in a fishing port based on improved YOLOv8[J]. Journal of Dalian Ocean University202439(3):498-505.

基金资助

河北省自然科学基金资助项目(F2021501021)

AI Summary AI Mindmap
PDF (3025KB)

254

访问

0

被引

详细

导航
相关文章

AI思维导图

/