基于改进可变形-端到端目标检测模型的竹片缺陷检测方法

马良城 ,  徐筱茹 ,  伍希志

森林工程 ›› 2025, Vol. 41 ›› Issue (02) : 349 -359.

PDF (4582KB)
森林工程 ›› 2025, Vol. 41 ›› Issue (02) : 349 -359. DOI: 10.7525/j.issn.1006-8023.2025.02.014
森工技术与装备

基于改进可变形-端到端目标检测模型的竹片缺陷检测方法

作者信息 +

Defect Detection Method for Bamboo Slice Based on Improved Deformable-DETR

Author information +
文章历史 +
PDF (4691K)

摘要

目前,虽然已经有一些基于图像处理技术的竹片缺陷检测方案,但这些方案检测存在种类较少、实用性较差且难以部署在机器上等缺陷,为此,提出一种改进的竹片缺陷检测模型。该模型为改进的可变形-端到端目标检测(DeformableDETR)模型,首先将骨干网络替换成由DCNv3卷积为核心而堆叠设计的InternImage,该网络在保留卷积神经网络(CNN)先验特性的情况下还能捕捉到长距离依赖,使提取到的特征空间语义更丰富;然后在特征提取后新增一个采样模块,该采样模块将图像特征抽象为精细的前景特征和少量粗糙的背景特征,不仅能去除冗余的背景特征信息,还能提取高语义前景信息;最后引入一种新颖的协作混合分配训练策略,该策略通过训练由一对多标签分配监督的多个并行辅助头,提高编码器在端到端检测器中的学习能力。此外,使用数据增强来扩展数据集,并使用迁移学习,以增强竹片缺陷的检测。试验结果表明,该改进方法可以提高模型的缺陷特征提取与解析的能力,并在测试数据集上取得了85.7%mAP50(全类平均精确度),单张图片推理时间为0.28 s,检测精度优于其他主流目标检测模型,为竹片缺陷检测提供新的方法。

Abstract

Currently, although there are some bamboo slice defect detection schemes based on image processing techniques, these schemes detect fewer types of defects, are less practical, and are difficult to deploy on machines. For this reason, an improved defect detection model for bamboo slice is proposed. Therefore, we propose an improved model for bamboo slice defect detection. The model proposed in this paper is an improved Deformable-DETR model, which firstly replaces the original backbone extraction network ResNet with InternImage, which is stacked with DCNv3 convolution as the core. This network retains the a priori properties of the traditional CNN and captures the long-range dependencies, making the extracted feature spatial semantics richer. Then, after feature extraction, a new sampling module is added, which abstracts the image feature mapping into fine a fine foreground target feature vectors and a small number of coarse background context feature vectors, which can not only remove redundant backgroud feature information but also extract high-semantic foreground.Finally, a novel collaborative hybrid allocation training scheme is introduced, which supervises the training of multiple parallel auxiliary heads through one-to-many label allocation, to easily improve the encoder's learning capability in an end-to-end detector. In addition, data augmentation is used to extend the dataset and migration learning is used to enhance the detection of bamboo slice defects. The experimental results show that the method proposed in this paper improves the defective feature extraction and parsing ability of the model, achieves 85.7% of mAP50 on the test dataset, the inference time for a single image is 0.28 seconds, and the detection accuracy is better than other mainstream target detection models, which provide a new method for detecting defects in bamboo slices.

Graphical abstract

关键词

缺陷检测 / 深度学习 / 空间特征采样 / 协作混合分配训练 / 计算机视觉

Key words

Defect detection / deep learning / spatial feature sampling / collaborative mixture allocation training / computer vision

引用本文

引用格式 ▾
马良城,徐筱茹,伍希志. 基于改进可变形-端到端目标检测模型的竹片缺陷检测方法[J]. 森林工程, 2025, 41(02): 349-359 DOI:10.7525/j.issn.1006-8023.2025.02.014

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

在当前“双碳”背景下,绿色可持续的建筑材料应用越来越广泛。竹子是伐后可再生、废弃后可降解的天然生物质复合材料,由竹片作为原材料的集成材是一种有潜力替代传统建筑材料的绿色工程材料1。为了提高竹片黏结性能和产品表面美观性,需要对竹片进行缺陷检测。竹片缺陷的类型主要有5类:蛀孔片、霉片、竹青片、竹黄片、黑节片和三角条。目前,在工厂实际生产中,竹片缺陷检测主要采用人工检测,因此,亟须研究竹片缺陷智能检测方法。

在缺陷检测方面,机器视觉是使用广泛的研究方法,且最常用的是基于图像处理的检测方法,如基于最大类间方差法(OTSU)与CANNY算法的竹片缺陷图像检测方法对竹片缺陷检测2。在基于深度学习的缺陷检测领域内,常用的有如下几种方法,卷积神经网络(CNN)3、自动编码器神经网络4、深度残差神经网络5、全卷积神经网络6和递归神经网络7。近几十年来,简单CNN架构的网络在大多数常见的计算机视觉(CV)问题中表现出了显著的性能,但是这些方法提取的特征比较抽象和粗糙。LeNet卷积神经网络结构是一种非常流行的LeNet网络结构7-8,该网络通常采用下面2种架构进行缺陷检测:一种是堆叠结构复杂的CNN网络,通过不同的网络结构来提取图像特征信息,并完成端到端训练来检测图像中的缺陷9;另一种是将CNN与条件随机场(CRF)模型相结合,以CRF能量函数为约束对CNN进行训练或以CRF优化网络预测结果,以实现对图像中缺陷的识别10

随着计算机视觉技术的发展,越来越多优秀的目标检测模型应运而生。例如单阶段、双阶段的模型在缺陷检测问题上也能带来性能和效率的提升,但是以阶段划分的检测模型存在非极大值抑制(NMS)11的问题,很难部署到嵌入式设备上。牟洪波等12通过基于灰度共生矩阵和模糊反向传播(BP)神经网络对木材缺陷识别,结果表明该方法平均识别成功率达到90%。Ferguson等13提出了一种基于区域Mask R-CNN14结构的X射线图像铸造缺陷识别系统,结果表明,训练网络同时进行缺陷检测和缺陷实例分割,比单纯的缺陷检测训练具有更高的缺陷检测精度。王正等15基于改进YOLOv7算法进行木材八类缺陷检测,结果表明改进后的模型在平均精确度(mAP50)上评分有4.57%~6.79%的提升,展现出令人信服的结果。

现有的视觉模型虽然在缺陷检测中取得了一定研究进展,但存在以下问题:骨干网络不能有效提取到数据的前景特征16;提取的特征图背景信息过多而出现的冗余现象17;在一对一集合匹配的可变形-端到端目标检测(Deformable-DETR)18模型中,作为正样本分配的查询太少会导致对编码器输出的监督稀疏,从而严重影响编码器的判别特征学习。针对以上几个不足点,本研究提出一种新颖的竹片缺陷检测模型,针对图像特征图的背景信息过于丰富与空间冗余问题,引入采样模块对特征向量进行采样,从而降低背景信息进行的干扰,通过协作混合分配训练策略进行模型的训练,在显著减少模型计算的同时提高竹片缺陷检测精度。与原始模型和其他主流模型相比,该模型计算更稳定,目标定位精度更高,为机器视觉和深度学习方法在竹片缺陷检测中的应用提供理论基础。

1 竹片数据集

竹片数据集是本研究团队拍摄建立的。图1为竹片图像采集平台,试验硬件包括图像采集装置、光源系统装置和暗箱。图像采集装置使用海康威视500万像素互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)面阵工业相机MV-CAO50-12GC,相机镜头距竹片220 mm,光源系统使用是条形光源LED灯,长100 mm,采用线性光源控制器MYC-APT1024T2,可以线性控制光照强度。暗箱是由不锈钢板材料焊接而成,为防止其内部表面因光源产生反光影像拍摄,在其内部贴满黑色磨砂纸。

竹片缺陷图片如图2所示,包括蛀孔片、霉片、竹青竹黄片、黑节片4类缺陷图片,每类各200幅,所有数字图像为BMP格式,图像分辨率为2 448× 2 048。图2(a)蛀孔片为defection1,其中蛀孔一般较小,大部分边缘较为清晰,少部分边缘存在腐烂模糊的现象;图2(b)霉片为defection2,其中有霉斑的表面积和色泽都不均匀,深色的几近于黑色,浅色的几近于绿色;图2(c)竹青片与图2(d)竹黄片为竹片的表面形态缺陷,为defection3,竹青片与竹黄片是由于切削量不够,残留了部分竹青或竹黄;图2(e)黑节片为defction4,竹节部分颜色较正常竹节深,近于黑色。在得到原始数据后通过数据标注软件LabelImg以及半自动化标注软件Label Studio对图像进行标注以制作数据集。数据集中的训练集、测试集、验证集划分按照经典7∶2∶1的比例进行划分。由于拍摄的竹片缺陷样本较少,需要引入数据增强来扩充数据集。本研究使用的数据增强方式不仅有随机翻转、随机裁剪、随机比例裁剪并缩放等基础数据增强方式,还有组合增强(AutoAugment),使数据增强在模型训练中充分发挥作用。

2 研究方法

本研究基于DETR的变种模型Deformable-DETR进行改进,先对DETR进行简介,说明为何采用Deformable-DETR,然后详细阐述本研究所提出的改进方案,从特征提取网络的改进,到新增特征采样模块,再到引入协作混合分配训练方案解决编码器训练过程的监督稀疏问题。改进模型(SAS-Deformable-DETR)流程如图3所示,在协作混合分配训练策略下,先由骨干网络提取竹片缺陷图的特征,得到特征图,再由采样器(Sampler)对特征图进行采样,得到采样特征图,随后将采样特征图输入编码器(Encoder)进行特征学习,最后将解码器(Decoder)的输出接入预测头,得到预测框和分类标签。

2.1 DETR简介

在不损失一般性的情况下,DETR利用具有参数θC的主干卷积网络C来提取图像特征图 F

F = CIθC )。

式中, I 为输入图像。

F 被视为网格结构的特征向量集F

F={ fijRCi =1,2,…,Hj=1,2,…,W}。

式中:fi,j是位置i,j处的特征向量;C是特征通道的数量;HW是图像特征图的高度和宽度。网格结构的特征集F被视为具有强语义信息的高级视觉标记集,并通过用θt参数化的变换器Τ转换为检测结果

clsk,boxkk=1,2,,D=TFθt )。

式中:clsk,boxk表示一个具有类别和边界框的检测对象;D为固定检测次数。

虽然DETR提取的特征集F能均匀地跨越图像中的空间位置并包含大量背景语义信息,但存在处理能力不能动态地分配给更相关的类似区域前景,而较少关注视觉场景的类似区域背景的问题,现有的Deformable DETR借鉴了可变形卷积(DCN)的思想,提出可变形注意力机制——每个特征点不需要与全部特征点进行交互计算,只需要与部分通过采样获得的特征点进行交互计算,并且对于采样来说,采样点的位置是可学习的。这种可变形注意力机制,能够解决DETR收敛慢与特征分辨率受限的问题。

2.2 特征提取网络

在模型整体架构中,骨干网络作为特征提取器对模型整体有着至关重要的作用。传统卷积网络以CNN为核心进行深度堆积以达到提取特征的效果,由于CNN局部性导致大部分CNN神经网络不能捕捉到图像中长距离特征之间的关系,而InternImage16这一骨干网络是以可变形卷积(DCN)19为核心算子,将该核心算子与抽象块相结合来构建基本块堆叠而成,使骨干网络不仅具有检测下游任务所需的有效感受野,而且具有受输入和任务信息约束的自适应空间聚合。与改进的具有较大卷积核的卷积网络不同,InternImage的核心算子是一个卷积核大小为3×3的动态稀疏卷积,其优点主要有:①采样偏移灵活;②根据输入数据自适应调整采样偏移量和调制标量;③卷积窗口是一个常见的3×3,避免了大密集核引起的优化问题和昂贵的成本,其架构如图4所示。其中基本块的核心算子为DCNv3,通过一个可分离卷积(3×3深度卷积后进行线性投影)传递输入特征对采样的偏移量以及调节尺度进行预测;根茎网络(Stem)和下采样层是为了得到不同尺度的特征图,使用骨干网络和下采样层将得到的特征图放缩至不同尺度。由图4可知,在最开始放置根茎层,将输入特征图分辨率降低了3/4。根茎层由2个卷积核大小为3、步长为2、填充为1的卷积网络,2个层归一化(Layer Normalization,LN)层和1个GELU(Gaussian Error Linear)层组成,第一个卷积的输出通道为第二个卷积的一半。类似地,下采样层由步幅为2的卷积核大小为3和步长为1的卷积组成,后接一个LN层。其位于2个阶段之间,用于对输入特征图进行2倍下采样。

2.3 特征采样

由于对长平坦特征向量的注意力操作,当骨干网络进行特征提取后得到特征向量,就存在一部分特征是冗余的。图像通常包含除了目标对象之外的区域较大的背景,这些区域可能在提取到的图像特征中占据很大一部分,并且,如果背景向量在特征向量中占比过高可能会对检测目标对象产生干扰。为了解决这一局限,引入了一个采样模块,如图5所示。该采样模块可以将图像特征图压缩为由精细特征向量和少量粗略特征向量组成的抽象特征集17,再通过Transformer精细与粗略特征空间内的信息交互进行建模,并将特征转换为检测结果。该模块可以自适应地在特征空间上分配计算,以提高计算效率。

轮询Sampler:轮询采样器旨在获得精细特征集F。通过一个采样器使用小型元评分网络用作排序策略,其中小型元评分网络来预测每个空间特征位置i,j的信息性得分

sij=ScoringNetfij,θs

式中:sij表示信息性得分,其分数越大,特征向量fij的信息量就越大。然后将所有分数sij排序,再取前N个得分向量形成精细特征集 Ff

Ff=fl,l=1,2,,N

式中, fl 代表精细特征向量。

为了使ScoringNet能够通过反向传播进行学习,将预测的信息性得分sl 作为采样精细特征集的调节因子

Ff=LayerNormfl*sl,l=1,2,,N

理想情况下,N可能随图像内容而变化,但观察到固定量采样已经产生了良好的性能,即N=αLL为向量长度),其中α是一个恒定的分数值,将其命名为轮询比率。

池化Sampler:上述轮询采样器提取精细特征集,剩余的特征向量主要对应于背景区域。为了将其压缩成一个总结上下文信息的小特征集,通过一个池采样器,对剩余的特征向量进行加权池化,以获得固定数量的M个背景上下文特征向量。形式上,剩余的特征向量集(Fr )为

Fr = F/Ff=frr=1,2,,L-N

将投影具有可学习权重Wa RC × M 的特征向量以获得聚合权重arRM

ar=frWa

并且投影具有可学习权重Wv RC × C 的特征向量以获得投射向量

fr'=frWv

用softmax对所有剩余的未采样位置上的聚合权重(arm )进行归一化

arm=earr'=1N-Lear'

式中,r′为未采样位置。

利用归一化的聚合权重,对投影的特征向量进行聚合以获得新的特征向量( fm ),该特征向量总结了未采样位置的信息

fm=r=1L-Nfr'*arm

Zhao等20研究表明,上下文信息对于识别对象至关重要,并且信息之间可以通过不同尺度的特征金字塔进行聚合。池采样器可以通过动态生成聚合权重来得到不同尺度的信息,与来自轮询采样器的精细集Ff 一起,获得所需的抽象集F*

2.4 协作混合分配训练策略

由于Deformable-DETR模型为集合预测模型,不像传统的模型需要先提出候选框,最后再使用非极大值抑制(NMS)得到预测结果,所以不仅精度高而且能部署在硬件设施上。但是因为集合匹配需要解码器的输出准确,而模型存在编码器输出监督稀疏的问题,为了缓解这一问题本研究引入协作混合分配训练策略21,该策略采用了不同的一对多标签分配范式的多功能辅助头。不同的标签分配丰富了对编码器输出的监督,从而迫使编码器具有足够的辨别力,以支持这些头的训练收敛。图6为协作混合分配训练策略的框架图,注意辅助分支只在训练过程中使用。

具体来说,先定义编码器的潜在特征为 ,通 过多尺度适配器将潜在特征 转换为特征金字塔{ 1,…, J },其中J表示特征图下采样步长为22+J,与ViTDet(Vision Transformer,检测器)相似,特征金字塔是由单尺度编码器的单个特征图通过双线性插值与3×3卷积进行上采样得到的。对于多尺度编码器,则只对多尺度编码器特征中最丰富的特征进行下采样,以构建特征金字塔。定义的第K个协作头具有相应的标签分配方式Ak,将F1,F2,,FJ发送给第i个协作头,以获得预测结果P^i。在第i个协作头,Ai用于计算Pi中正负样本的监督目标。将G称为真实值,该过程可表述为

Pipos,Bipos,Pineg=AiP^i,G

式中:posneg表示由Ai确定的(jFj中的正坐标或负坐标)一对集合;j表示F1,F2,,FJ中的特征索引;Bipos是空间正坐标集;PiposPineg是相应坐标中的监督目标,包括类别和回归偏移。损失函数可定义为

Lienc=LiP^ipos,Pipos+LiP^ineg,Pineg

需要注意的是,负样本的回归损失会被舍弃。对K个辅助头的优化训练目标表述为

Lenc=i=1KLienc

2.5 优化器

本研究所使用的优化器为AdamW,AdamW是在Adam(Adaptive Moment Estimation,优化器)的基础上引入权重衰减(weight decay)正则化。Adam为Adaptive+Momentum,是由一阶动量优化以及二阶动量优化结合后的产物。Adam优化算法可以描述为

Δwt=αmtVt+ϵ

式中:ϵ为增加分母稳定性的系数,通常取值为10-6,能在数值稳定性和逼真度之间取得良好的平衡;ɑ为学习率,能够控制步长来解决收敛问题;mt 为第t步的一阶动量;Vt 为第t步的二阶动量。

AdamW是在Adam的基础上引入权重衰减,在Adam中,是直接将权重衰减添加到梯度中

gt=gt+λθt-1

式中:gt 为第t步的梯度;θt-1 为第t-1步中的模型权重;λ为正则化系数。

而在AdamW中,正则化变成为

θt=θt-1-γλθt-1

式中:γ是学习率;λ为正则化系数。

2.6 损失函数

对于一张图片Deformable-DETR会输出N个不同的边界框(bounding box),通过对这N个边界框以及生成的N个真实值进行最优二部图匹配,根据匹配结果计算损失(loss)值。通过定义边界框与真实值的匹配代价来使用匈牙利匹配算法得到最优二部图匹配方案。

边界框与真实值的匹配代价表示为

Lmatch=-1cip^σici+1ciLboxbi,b^σi

式中:1ci是一个布尔函数,当ci为1,否则为0;ci 是第i个物体的类别标签;σi是第i个目标匹配的边界框的索引;p^σici表示模型预测的第σi个预测框的类别为ci的概率;bib^σi分别是第i个目标的位置的真实值的坐标和预测框的坐标;Lbox是2个矩形框之间的距离。由IoU损失和L1损失构成,通过和来控制2个损失的权重,表示为

Lboxbσi,b^i=λIoULIoUbσi,b^i+λL1bσi-b^i1

式中,LIoU使用的是GIoU损失。

当得到最优二部匹配后,根据匹配结果计算损失函数。模型的损失函数与匹配代价相类似,但是类别与测试用的是对数似然

LHungariany,y^=i=1N-logp^σ^ici+1ciLboxbi,b^σ^i

3 试验与结果分析

3.1 试验设置

本研究所有试验均由迁移学习提供预权重,在预训练的基础上再利用本文数据集进行微调。代码基于MMDetection22-23框架进行开发,所有试验使用的数据集都是同一数据集,且进行相同的数据预处理和数据增强。为了进行公平地比较各类模型性能,遵循常见的实践设置,用预先训练的权重初始化主干,并默认使用1×(12个epochs)或3×(36个epochs)调度来训练这些模型。所有这些检测模型都由AdamW进行优化,初始学习率为1×10-4,并且网络架构和损失函数在内的其他设置遵循基线进行设置以公平比较。

在评估模型性能时,计算混淆矩阵的3个主要元素:真阳性(TP)、假阴性(FN)和假阳性(FP),以实现平均精度(mAP)、精确率和召回率的计算。

3.2 结果分析

3.2.1 骨干特征提取网络分析

在进行模型试验时,因为本研究的竹片缺陷检测问题数据集规模较小、缺陷语义信息不丰富,所以使用迁移学习进行模型训练,在预训练权重模型的基础上再进行初步测试。测试过程为:首先选取不同架构的骨干特征提取网络在COCO(Common Dbjects in Context)数据集上进行测试,得到特征热力图;其次根据特征热力图选取性能较好的骨干特征网络;最后进行模型后续模块性能测试的试验。在挑选测试原图时,图片要求有较少物体且物体能有明显个性化特征,在COCO数据集中挑选图7(a)作为测试原图,图7(b)为ResNet50提取的特征热力图,图7(c)为ResNet101提取的特征热力图,图7(d)为SwinTransformer提取的特征热力图,图7(e)为InternImage提取的特征热力图。

图7对比可知,当骨干网络的架构为InternImage时,其特征热力图提取的特征语义信息比ResNet和SwinTransformer的更详细,这是因为InternImage在具有传统CNN能学习稀疏空间位置的基础上又引入具有全局关系建模能力的DCNv3算子。

3.3.2 消融试验

在消融试验中,本研究在SAS-Deformable-DETR上分别验证了协作混合分配训练策略(CHAT)、Sampler模块,以及更换的BackBone对竹片缺陷检测的性能影响,结果见表1

表1可以看出,不同模块以及改进对竹片缺陷检测的贡献。其中,采用协作混合分配训练策略且使用InternImage骨干特征提取网络、Sampler采样模块的模型性能在所有指标上都优于未添加任何组件的BaseLine模型。

通过在未更换骨干特征提取网络情况下,对Sampler采样模块进行消融发现:

1)只应用协作混合分配训练策略的模型性能优于只添加Sampler采样模块的模型(+12.2%mAP50),由此可以得出结论,Sampler采样模块适用于提取 特征较为丰富的情况下,并且协作混合分配训练策略可以大幅度改善DETR模型的缺点带来性能提升。

2)只应用协作混合分配训练策略的模型性能优于BaseLine模型(+1.1% mAP50),由此可以说明,在DETR模型训练过程中存在正样本分配的查询太少会导致对编码器输出的监督稀疏的问题,而引进的协作混合分配训练策略能解决这一问题带来模型性能提升。

3)当添加Sampler采样模块的同时应用协作混合分配训练策略时,对比只添加单个模块或是不添加任何模块的BaseLine模型性能都有提升(与其中性能最好的做对比+1.4% mAP50)。这是因为,在提取语义不丰富的情况下,协作混合分配训练策略可以使模型高效利用采样过的高语义特征从而提高模型性能。

当更换骨干网络后,对Sampler采样模块进行消融发现:

1)只更换骨干网络而不添加任何模块的模型性能优于BaseLine(+0.1% mAP50),证明InternImage骨干网络所提取语义信息性能优于BaseLine模型。

2)应用协作混合分配训练策略的模型性能优于只更换骨干特征提取网络的模型(与其中性能最好的做对比+2.2% mAP50),由此可以得出结论,虽然骨干网络可以使提取到的特征更为丰富,但是未能解决模型存在的本质缺点,当使用新的训练策略时可以使模型性能发挥最佳。

3)添加Sampler采样模块的模型性能优于只更换骨干特征提取网络的模型(+0.1%mAP50),由此可以得出结论,当骨干特征提取网络提取到充裕语义信息后,Sampler采样模块可以对这些充裕语义信息进行采样,提取语义信息较为丰富的特征。

4)当添加Sampler采样模块的同时应用协作混合分配训练策略时,对比只添加单个模块或是不添加任何模块模型,性能都有明显提升(与其中性能最好的做对比+6.8% mAP50),由此可以得出结论,当骨干网络能够提取到充裕语义信息时,配合协作混合分配训练策略和Sampler采样模块,能得到含有高语义信息的特征图,再通过训练策略的功能矫正模型编码与解码阶段存在的问题。

3.3.3 对比试验

在对比试验中,对比了几种在目标检测领域较为流行且性能较好的模型在缺陷检测数据集上的mAP50指标数值,如图8所示,由图8可以发现,本研究所提出的模型性能远优于其他主流模型。

表2展示了较为流行的模型和SAS-Deformable-DETR模型使用不同骨干网络获得的mAP指标数值,表2中所挑选的较为流行的模型涵盖了单阶段、两阶段、基于Transformer的目标检测模型。由表2可看出,本研究提出的方法在使用ResNet50作为BackBone时,SAS-Deformable-DETR的mAP得分虽然没有DAB-DETR模型分数高,但是所训练的轮数以及时间都要更短,与其他模型对比,mAP50得分高出1.2%单张图片推理时间快0.09 s且训练轮数少在使用InternImage作为BackBone时,SAS-Deformable-DETR的mAP50得分高出其他模型9.0%且单张图片推理时间快0.05 s。

3.3.4 检测结果可视化

以检测霉片为例,图9为SAS-Deformabl-DETR模型检测霉片的特征热力图,通过对比图9(a)与图9(b)的特征热力图,可以清楚看到特征热力图的特征信息与竹片缺陷相对应,证明SAS-Deformabl-DETR模型可以准确清晰地检测出竹片缺陷。通过图9(c)可以观察发现,骨干网络在提取特征阶段能有效将缺陷位置的语义信息捕捉到,但是较为冗余。通过图9(d)观察neck模块的最后一个输出层的AM(Ablation CAM)图,可以发现在无梯度信息时,模型的骨干网络和neck模块训练所关注的重点均在图片的缺陷位置,这可以说明模型骨干网络所提取的特征信息较为准确。

图10为SAS-Deformabl-DETR模型检测竹片缺陷结果,通过对比可以看出,图10(b)中检测结果较为准确,缺陷类别defection1的检测框置信度为63%、缺陷类别defection3的检测框置信度为98%、缺陷类别defection4的检测框置信度为74%,通过数据以及检测框的可视化结果表明SAS-Deformabl-DETR模型检测竹片缺陷的效果良好。

4 结论

本研究提出一种改进的基于空间特征采样与查询回收机制的竹片缺陷检测模型(SAS-Deformable-DETR),在竹片缺陷检测领域其性能优于目前大多数的检测模型。SAS-Deformable-DETR模型中InternImage骨干网络可以高效地提取到竹片缺陷的语义信息,而Sampler采样器可以将提取到语义信息进行采样从而得到高语义信息的特征图,在使用协作混合分配训练策略的情况下,通过编码阶段与解码阶段的训练任务进行特征解读,从而得到竹片缺陷的预测值。在竹片缺陷检测的数据集上SAS-Deformable-DETR模型的评估指标mAP50得分比最流行的模型高出5.4%,证明本研究提出的模型在竹片缺陷检测领域的性能较为不错,为竹片缺陷检测提供了一种高效可靠的方案。

参考文献

[1]

张毓雄,姚顺波.民间竹文化的传承与竹产业的发 展——基于“中国竹子之乡”湖南益阳的调查[J].北京林业大学学报(社会科学版)201110(4):7-13.

[2]

ZHANG Y XYAO S B.Inheritance of bamboo culture and development of bamboo industry-based on Yiyang district of Hunan Province,the origin of bamboo culture in China[J].Journal of Beijing Forestry University (Social Science)201110(4):7-13.

[3]

牛晗,伍希志,任桂芹,基于OTSU与CANNY算法的竹片缺陷图像检测[J].森林工程202238(6):75-81.

[4]

NIU HWU X ZREN G Q,et al.Image detection of bamboo chip defects based on OTSU and CANNY algorithms[J].Forest Engineering202238(6):75-81.

[5]

YANG JYANG G.Modified convolutional neural network based on dropout and the stochastic gradient descent optimizer[J].Algorithms201811(3):28.

[6]

BERGMANN PLÖWE SFAUSER M,et al.Improving unsupervised defect segmentation by applying structural similarity to autoencoders[J].arXiv preprint arXiv:1807. 02011,2018.

[7]

YU LCHEN HDOU Q,et al.Automated melanoma recognition in dermoscopy images via very deep residual networks[J].IEEE Transactions on Medical Imaging201636(4):994-1004.

[8]

XUE YLI Y.A fast detection method via region-based fully convolutional neural networks for shield tunnel lining defects[J].Computer-Aided Civil and Infrastructure Engineering201833(8):638-654.

[9]

LEI JGAO XFENG Z,et al.Scale insensitive and focus driven mobile screen defect detection in industry[J].Neurocomputing2018294:72-81.

[10]

LECUN YBOTTOU LBENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE199886(11):2278-2324.

[11]

HE YSONG KMENG Q,et al.An end-to-end steel surface defect detection approach via fusing multiple hierarchical features[J].IEEE Transactions on Instrumentation and Measurement201969(4):1493-1504.

[12]

TAO XWANG ZZHANG Z,et al.Wire defect recognition of spring-wire socket using multitask convolutional neural networks[J].IEEE Transactions on Components,Packaging and Manufacturing Technology20188(4):689-698.

[13]

HOSANG JBENENSON RSCHIELE B.Learning non-maximum suppression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,HI,USA,IEEE,2017:4507-4515.

[14]

牟洪波,王世伟,戚大伟,基于灰度共生矩阵和模糊BP神经网络的木材缺陷识别[J].森林工程201733(4):40-43,54.

[15]

MU H BWANG S WQI D W,et al.Wood defects recognition based on gray-level co-occurrence matrix and fuzzy BP neural network[J].Forest Engineering201733(4):40-43,54.

[16]

FERGUSON MRONAY ALEE TINA Y T,et al.Detection and segmentation of manufacturing defects with convolutional neural networks and transfer learning[J].Smart and Sustainable Manufacturing Systems20182(1):137-164.

[17]

HE KGKIOXARI GDOLLÁR P,et al.Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice,Italy,IEEE,2017:2961-2969.

[18]

王正,江莺,严飞,基于YOLOv7的木材缺陷检测模型Wood-Net的研究[J].林业工程学报20249(1):132-140.

[19]

WANG ZJIANG YYAN F.Research on wood defect detection model wood-Net based on YOLOv7[J].Journal of Forestry Engineering20249(1):132-140.

[20]

WANG WDAI JCHEN Z,et al.Internimage:Exploring large-scale vision foundation models with deformable convolutions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:14408-14419.

[21]

WANG TYUAN LCHEN Y,et al.Pnp-DETR:Towards efficient visual analysis with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:4661-4670.

[22]

ZHU XSU WLU L,et al.Deformable DETR:Deformable transformers for end-to-end object detection[J].arXiv preprint arXiv:2020.

[23]

DAI JQI HXIONG Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision.Venice,Italy,IEEE,2017:764-773.

[24]

ZHAO HSHI JQI X,et al.Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2881-2890.

[25]

ZONG ZSONG GLIU Y.DETRs with collaborative hybrid assignments training[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Paris,France,IEEE,2023:6748-6758.

[26]

CHEN KWANG JPANG J,et al.MMDetection:Open MMlab detection toolbox and benchmark[J].arXiv preprint arXiv:2019.

[27]

张迪,樊绍胜.基于YOLO V3的输电线路故障检测方法[J].自动化技术与应用201938(7):125-129.

[28]

ZHANG DFAN S S.Fault detection of transmission line based on YOLO V3[J].Techniques of Automation and Applications201938(7):125-129.

基金资助

湖南省科技特派员服务乡村振兴(2023NK4285)

中国博士后科学基金资助(2021M690768)

AI Summary AI Mindmap
PDF (4582KB)

289

访问

0

被引

详细

导航
相关文章

AI思维导图

/