LIDD-Net:基于深度学习的轻量级工业产品缺陷检测方法

沙晓鹏 ,  谢德瀚 ,  郭周鹏 ,  孙凯

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (10) : 18 -26.

PDF (2555KB)
东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (10) : 18 -26. DOI: 10.12068/j.issn.1005-3026.2025.20240058
信息与控制

LIDD-Net:基于深度学习的轻量级工业产品缺陷检测方法

作者信息 +

LIDD-Net: Lightweight Industrial Product Defect Detection Method Based on Deep Learning

Author information +
文章历史 +
PDF (2615K)

摘要

工业产品中存在各种缺陷,且不同类型缺陷之间存在着高度相似、尺度变化大、背景信息复杂等问题.为解决这些问题,本文提出了轻量级工业缺陷检测网络(LIDD-Net).针对相似度高的不同种类缺陷,LIDD-Net设计了通道交互分离骨干网络,在降低模型计算量的同时提高了特征提取能力;针对不同尺度的缺陷,LIDD-Net提出了轻量化特征融合网络RepGhostPAN,在能融合图像中多尺度特征的同时提高了推理速度;针对检测背景的复杂性,LIDD-Net提出了轻量辅助训练模块,通过使用辅助训练头和动态软标签分配策略,可更好地区分目标缺陷与复杂背景.通过在钢材缺陷、铝缺陷和轮胎缺陷数据集的实验结果表明,LIDD-Net在参数量仅为0.62×106的情况下分别获得了98.3%,98.1%和96.1%的mAP@0.5,可以满足工业现场实际需求.

Abstract

In industrial products, various types of defects often exhibit high inter-class similarity, large scale variations, and complex backgrounds. To address these challenges, a lightweight industrial defect detection network (LIDD-Net) was proposed. To handle highly similar defect types, in LIDD-Net, a channel interaction separation backbone network was introduced, which enhanced feature extraction while reducing the computational cost of the model. To address multi-scale defect variations, a lightweight feature fusion network was developed, namely RepGhostPAN, to efficiently integrate multi-scale features in the image and accelerate inference. For complex detection backgrounds, a lightweight auxiliary training module was proposed, leveraging an auxiliary training head and a dynamic soft label assignment strategy to better distinguish target defects from complex backgrounds. Experiments on steel, aluminum, and tire defect datasets demonstrate that LIDD-Net achieves mAP@0.5 scores of 98.3%, 98.1%, and 96.1%, respectively, with only 0.62×106 parameters, meeting practical industrial requirements.

Graphical abstract

关键词

工业缺陷检测 / 轻量化检测网络 / 特征融合 / 结构重参数化 / 注意力机制

Key words

industrial defect detection / lightweight detection network / feature fusion / structural reparameterization / attention mechanism

引用本文

引用格式 ▾
沙晓鹏,谢德瀚,郭周鹏,孙凯. LIDD-Net:基于深度学习的轻量级工业产品缺陷检测方法[J]. 东北大学学报(自然科学版), 2025, 46(10): 18-26 DOI:10.12068/j.issn.1005-3026.2025.20240058

登录浏览全文

4963

注册一个新账户 忘记密码

工业产品缺陷检测是保障产品质量、维持生产稳定的重要技术之一.以往的缺陷检测需要人工筛查,检测成本高、效率低,在缺陷种类较多时难以满足检测需要.随着深度学习技术的快速发展,工业缺陷检测技术得到了提升.深度学习方法在处理背景复杂、缺陷微弱的工业图像时展现出了卓越的性能优势,逐渐在该领域占据主导地位.
近年来,学者们针对缺陷检测提出了多种检测网络.Shen等1提出了CRNet检测网络,设计了一个多尺度关系探索模块,可以充分挖掘缺陷与背景信息之间的耦合关系,从而获得更有效的语义特征.Zong等2提出了Co-DETR检测网络,通过训练由一对多标签分配监督的并行辅助头,增强模型在端到端检测器中的学习能力.Yu等3提出了YOLO-FaceV2检测网络,通过设计的多尺度特征提取模块RFEM,有效增强了模型对多尺度特征的提取能力.这些检测方法的出现提高了工业缺陷检测的精度.由于这些缺陷检测网络模型复杂度较高,推理速度慢,在算力有限的工业环境中部署相对困难.Ding等4提出了RepVGG,通过使用等价替换的简单模型进行推理,有效加快了模型推理速度.Lei等5提出了可用于电池集电器缺陷检测的轻量化网络DGNet,在保证检测精度的同时减少了模型的参数冗余.Ye6提出了基于ShuffleNetV2的改进网络AUGShuffleNet,有效减少了特征提取网络的参数量.但是现有的轻量化缺陷检测网络在面对相似度高、尺度变化剧烈、背景信息复杂的工业产品缺陷时,容易出现错检漏检现象.
为应对上述挑战,本文提出了一种基于深度学习的轻量级工业缺陷检测网络(lightweight industrial defect detection network,LIDD-Net).首先,设计了轻量辅助训练模块(lightweight auxiliary training module,LATM),通过辅助训练头(auxiliary training head,ATH)融合多个层次的特征,提取更多的上下文信息以提高模型对背景复杂缺陷的检测能力;其次,设计了通道交互分离骨干网络(channel interaction separation backbone network,CISB-Net),在降低模型计算量的同时提高网络对多种类缺陷的特征提取能力;最后,设计了RepGhostPAN特征融合网络,利用多分支结构提高了网络对不同尺度缺陷的检测能力,同时通过结构重参数化方法加快模型推理速度.

1 LIDD-Net网络设计

LIDD-Net网络的整体框架如图1所示,该网络主要由CISB-Net、RepGhostPAN、目标检测头和LATM组成.其中,CISB-Net可对相似度高的产品缺陷进行特征提取;RepGhostPAN可以将不同分辨率的特征图进行多尺度融合;最后将经过特征网络融合后的特征图分别输入目标检测头中计算损失值.在训练阶段,通过使用本文提出的LATM进行动态标签匹配,并将ATH与目标检测头的输出融合后输入Loss来计算损失值,可以加快模型训练时的收敛速度.

1.1 通道交互分离骨干网络(CISB-Net)

轻量级目标检测方法常用的主流特征提取网络有ShuffleNetV2,MobileNet以及ResNet等,这些网络采用轻量化结构的设计,大幅降低了模型的计算量与参数量,但是这些特征提取网络在面对相似的工业缺陷目标时,容易出现漏检错检现象.针对该问题,本文设计了通道交互分离骨干网络(CISB-Net),可同时满足精度和速度的需求.

CISB-Net的轻量化特征提取能力主要通过本文设计的通道分离增强模块(channel separation enhancement,CSE)和多尺度特征融合模块(multi-scale feature fusion module,MSFFM)实现.其中CSE分为CSE-A和CSE-B.如图2所示,CISB-Net由4层特征提取模块组成,第1层B1由3×3卷积和最大池化层组成;第2层B2由1个CSE-A和3个CSE-B组成;第3层B3由1个CSE-A和7个CSE-B组成;第4层B4由1个CSE-A,3个CSE-B和1个MCFFM模块组成.B2,B3,B4分别输出尺寸依次减半、通道数依次翻倍的不同深度的特征图,随后将特征图输入RepGhostPAN网络中进行特征融合.

1.1.1 通道分离增强模块(CSE)

图3b所示,CSE-B首先通过通道分离(Channel Split)将输入通道C按照分离比6∶5∶5分离为3组通道C1C2C3,通道C2经过1×1普通卷积和3×3深度卷积进行特征提取,其中普通卷积可以提取局部特征,而深度卷积可以提取更加抽象的全局特征,将两者结合获取检测目标的多尺度特征信息,有利于目标检测中的多尺度目标识别,同时深度卷积减少了参数量,提高了模型的计算效率.通道C2经过特征提取后通过Chunk操作按照分离比1∶1分离为2组通道C4C5.两次分离通道可以有效解决特征提取网络通道冗余问题,加快模型推理速度.

分离后的通道C5C2融合后输入SimAM模块来进一步提高模型性能.SimAM7通过计算不同缺陷目标之间的相似性,并根据相似性权重对特征进行加权,使得模型可以更好地区分相似的缺陷目标.加权后的特征通过Do-Conv进行进一步的特征提取.Do-Conv8通过在普通卷积中嵌入额外的DWConv操作,形成一个过度参数化的卷积层,使得模型能够更好地捕捉图像特征,从而提高对相似缺陷目标检测的准确性.然后通过Add操作将通道C2和增强后的通道C5融合,加快模型的收敛速度.最后所有分离的通道通过Concat操作融合在一起,经过通道混洗(Channel Shuffle)后输出.如图3a所示,CSE-A在CSE-B的基础上加入通道升维部分调整特征提取模块的输入通道.为了减少模型的计算量和提高推理速度,采用Do-Conv代替普通卷积来进行通道升维.

1.1.2 多尺度特征融合模块(MSFFM)

图4所示,MSFFM由3个空洞卷积分支、1个平均池化分支和1个残差分支组成.空洞卷积分支分别使用了3个不同空洞率的空洞卷积来生成多尺度特征图,使得模型能够更加全面地捕获缺陷目标的语义信息.不同空洞卷积分支之间使用共享权重的方法来减少参数量,通过共享权重,不同空洞率的卷积分支可以学习到通用的特征表示,从而在减少存储需求的同时提高了模型的泛化能力9.残差连接的引入进一步增强了模型的稳定性,有助于缓解梯度消失问题.平均池化分支通过对输入特征图的平均池化操作,降低了空间分辨率,保留了每个通道的平均值,从而在降低计算复杂度的同时保持关键特征.这有助于提高训练和推理的效率,为处理大规模数据集或实时推理任务提供了优越性能.

为了进一步压缩特征图并增强模型的表征能力,引入Do-Conv模块将通道数压缩为输入通道数的1/16.通过降低通道数量,有效地减少了模型的参数量,提高了计算效率.随后通过上采样操作重新恢复特征图的尺寸,使用Do-Conv操作恢复通道数.这种漏斗卷积结构在压缩和恢复通道数的过程中,使得模型能够更加灵活地捕捉图像特征,在保持模型准确性的同时降低了模型的复杂度.

1.2 轻量化特征融合网络(RepGhostPAN)

为了解决缺陷检测网络在面对尺度变化大的缺陷目标时检测精度差的问题,本文提出了RepGhostPAN特征融合网络.将经过CISB-Net特征提取网络输出的特征图输入到RepGhostPAN网络进行特征融合.如图5所示,特征图在经过1×1卷积通道压缩后,首先进行金字塔特征融合,RepGhostPAN在金字塔特征融合基础上增加了一个自底向上的路径,将浅层的底部特征下采样后与深层的顶部特征进行融合,使得浅层特征图的定位信息能够更好传递到深层特征图,有效提高了检测精度10.考虑到在工业产品缺陷检测中,需要检测模型推理速度快、计算量小,同时可以准确检测出不同尺度的缺陷,因此本文在RepGhostPAN中使用RepGhostBlock代替传统的卷积进行特征融合.

RepGhostBlock训练时的结构如图6a所示,由Ghost卷积和多分支部分组成.Ghost卷积11可以有效降低模型计算量,但是在处理尺度变化大的缺陷目标时性能不足,因此本文在Ghost卷积的基础上加入了多分支部分.多分支部分由3种分支结构组成,分别为1个单分支、4个1×1卷积分支和4个3×3卷积分支.利用多分支结构使得网络能够同时处理多个尺度的特征,能够更好地融合图像中不同尺度缺陷的信息.训练阶段中所有分支结构的输出如式(1)~式(3)所示.

Convk(x)=Wk(x)+bk
B(x)=γ×x-μσ+β
y=k=1nB(Convk(x)).

式中:xRN×C1×H1×W1代表输入;yRN×C2×H2×W2代表输出,其中C1=C2H1=H2W1=W2B(x)代表批量归一化,单分支此时可以视为以单位矩阵为卷积核的1×1卷积;Convk代表各分支上的卷积层;Wk(x)为训练后的卷积核的权重;bk为卷积的偏置向量;n为多分支结构中分支的总数12μ,σ,γ,β分别代表均值、平方差、缩放因子和偏移参数.

图6b所示,在推理阶段,利用结构重参数化方法将上述多分支结构重构为3×3卷积单路结构,可以提高模型的推理速度.将所有分支中的卷积转换为带有偏置向量的卷积,具体过程如式(4)~式(7)所示.

B(Convk(x))=γ×Wk(x)+bk-μσ+β=
γ×Wk(x)σ+γ×(bk-μ)σ+β
B(Convk(x))=γ×Wk(x)σ+γ×(bk-μ)σ+β
Wk*(x)=γ×Wk(x)σ
Bk*=γ×(bk-μ)σ+β.

经过重构后可以得到卷积核权重Wk*和偏置向量Bk*.将全部偏置向量相加得到最终的偏置Bfused*,在1×1卷积核权重周围补一圈0后转换成3×3卷积核权重,将所有3×3卷积核权重相加得到最终的卷积核权重Wfused*,具体过程如式(8)式(9)所示.

Wfused*=k=1nWk*(x),
Bfused*=k=1nBk*.

通过Bfused*Wfused*可以得到融合后的3×3卷积.RepGhostBlock可以降低模型的参数量,提高推理速度,同时增强模型对多尺度缺陷的检测能力.

1.3 轻量辅助训练模块(LATM)

本文设计的轻量辅助训练模块LATM有效增强了模型对背景信息复杂缺陷的检测能力.LATM结构如图1b所示,仅在训练阶段使用,因此不影响LIDD-Net的推理速度.LATM由RepGhostPAN(Copy)和辅助训练头ATH组成.ATH结构如图7所示,首先融合RepGhostPAN(Copy)输出的多层次特征以生成多尺度上下文信息,然后通过1×1卷积来减少通道数量,随后通过3×3卷积来提取更细粒度的特征.将提取后的特征分别输入CLS卷积和REG卷积计算先验框的目标类别以及位置大小.

ATH输出的结果会通过动态软标签匹配(dynamic soft label allocation,DSLA)策略进一步计算出Cost Matrix,并根据Cost Matrix进行动态匹配,确定哪些priors可以得到正样本的监督训练并计算相应的软标签.由于工业检测环境中可能存在复杂的背景信息,其中包含多种纹理、光照变化等因素,使用DSLA可以根据图像内容动态调整标签,有助于模型更好地适应和区分缺陷目标与背景.

2 实验结果与分析

2.1 环境配置

本文实验的主要环境配置如表1所示.

2.2 评价指标

在本文中,使用所有目标类别加权的平均精度(mAP)评价LIDD-Net的整体检测性能,包括mAP@0.5和mAP@0.5∶0.95.为了验证LIDD-Net在轻量化方面的优势,本文还引入了模型参数量(Params)以及浮点运算次数(FLOPs)作为评估指标.

2.3 数据集与预处理

本文分别在NEU-DET钢表面缺陷数据集、铝表面缺陷数据集和轮胎缺陷数据集上进行实验.

NEU-DET钢表面缺陷数据集共包含1 800张图像.由于该数据集中的原始数据量较小,模型在训练过程中可能无法收敛并达到预期效果,因此本文采用随机旋转,翻转和亮度变化方法扩充数据集,扩充后的数据集共包含9 000张缺陷图片.图8a中的缺陷类型分别为开裂、氧化铁皮压入和点蚀.开裂缺陷的特征为细小裂纹;氧化铁皮压入缺陷的特征为不规则突起;点蚀缺陷的特征为不规则斑点.这些不同种类的缺陷之间相似度高、颜色相近、尺度相似,需要检测网络捕捉不同种类缺陷之间的细微差异.铝表面缺陷数据集共包含1 400张缺陷图片.图8b中的缺陷类型分别为针孔、脏污和褶皱.针孔缺陷尺度最小,平均像素面积为18×18;脏污缺陷呈不规则椭圆形,平均像素面积为90×70;褶皱缺陷尺度最大,平均像素面积为320×80.铝表面不同缺陷之间尺度变化很大,这在一定程度上增加了检测的难度.轮胎缺陷数据集共包含1 903张缺陷图片,图8c中的缺陷类型分别为胎面帘线重叠、胎侧帘线开裂和胎面帘线开裂.胎面帘线重叠缺陷处的帘线分布紧凑;胎侧帘线开裂缺陷处的帘线分布松散;胎面帘线开裂缺陷处的帘线呈现出一个裂口.这些轮胎表面缺陷与背景环境相似,需要检测网络可以捕捉缺陷与背景环境之间的细微差异.

2.4 消融实验

为了有效地评估本文提出方法的合理性,基于NEU-DET钢表面缺陷数据集对LIDD-Net的不同部分进行了消融实验.

消融实验结果如表2所示.首先在BaseLine网络的基础上加入了本文设计的LATM模块,LATM有助于模型更好地区分缺陷目标与复杂背景,而且LATM只在训练阶段使用,因此不会增加模型的参数量以及复杂度.由实验数据可知,在加入LATM后,mAP@0.5增加1.31%,同时参数量和FLOPs没有增加.然后加入本文设计的CISB-Net特征提取网络,CISB-Net通过降低通道冗余加快模型推理速度,同时提高了对相似缺陷的检测精度.由实验数据可知,加入CISB-Net后,在NEU-DET数据集上的mAP@0.5增加1.44%,同时参数量减少47.1%,FLOPs减少32.8%.最后加入本文设计的RepGhostPAN特征融合网络,RepGhostPAN可以更好地融合图像中不同尺度缺陷的信息,同时通过结构重参数化方法降低模型复杂度.由实验数据可知,在加入RepGhostPAN后,mAP@0.5∶0.95增加0.84%,参数量仅增加0.008 4×106,FLOPs仅增加0.7×106.

2.5 对比实验

将本文提出的方法LIDD-Net在3个不同数据集上与工业界主流的目标检测算法进行对比实验,从检测精度、模型参数量、模型复杂度等方面来验证该模型的有效性.由于不同数据集中图片分辨率差异较大,为保证检测效果,在3个数据集上进行训练和推理时模型输入图片的分辨率分别调整为192×192,320×320以及480×480.LIDD-Net网络参数设置如下:batch_size为32,grad_clip为35,优化器为AdamW,学习率为0.001,weight_decay为0.05,epochs为300.在所有实验中均统一为上述参数.由表3~表5可知,与目前主流的目标检测方法相比,LIDD-Net保持了较高的检测精度,同时具有较低的模型参数量和计算量.在NEU-DET钢表面缺陷数据集实验中,LIDD-Net与YOLOX-Nano,YOLOv8n,PP-PicoDet-S和TOOD等检测方法相比,mAP@0.5分别提高2.38%,9.07%,4.86%和8.93%,同时参数量分别降低0.27×106,2.38×106,0.36×106和30.60×106.在铝表面缺陷数据集实验中,LIDD-Net与Nanodet,Foveabox和YOLOv5n检测方法相比,mAP@0.5分别提高2.28%,14.50%和0.64%,同时参数量分别降低0.3×106,35.61×106,1.14×106.在轮胎缺陷数据集实验中,YOLO-Fastestv2的参数量和模型计算量低于LIDD-Net,但其精度无法满足工业检测需求,错检漏检率高.YOLOv8n的检测精度与LIDD-Net接近,但其对工业检测环境中的硬件性能要求过高.综上所述,本文提出的检测方法平衡了检测精度和模型复杂度,充分说明本文方法能够准确检测复杂相似的缺陷目标,并满足工业检测环境高实时性的要求.图9为LIDD-Net在不同数据集实验中的检测结果,可以看出LIDD-Net可以准确定位并标识出各类缺陷.

3 结 论

1) 本文提出了一种针对工业产品缺陷检测的轻量化检测网络LIDD-Net.该网络通过提出轻量辅助训练模块LATM,引入动态软标签匹配策略以提高模型对复杂背景中缺陷的检测能力.通过设计CISB-Net特征提取网络,在降低网络冗余的同时加强了对相似缺陷特征的提取能力.

2) 提出了RepGhostPAN特征融合网络,使用多分支结构并引入结构重参数化方法以提高模型对缺陷尺度变化的适应能力.

3) 在3个公开数据集上对LIDD-Net与其他检测网络进行了比较.实验结果表明,本文提出的LIDD-Net在公开数据集上获得了更优的性能,有效平衡了检测精度和模型复杂度,满足工业检测环境的实际需求.

参考文献

[1]

Shen X KLiu J HJiang Let al. A novel weld defect detection method for intelligent magnetic flux leakage detection system via contextual relation network[J]. IEEE Transactions on Industrial Electronics202471(6): 6304-6314.

[2]

Zong Z FSong G LLiu Y. DETRs with collaborative hybrid assignments training[C]// Proceedings of the IEEE Conference on International Conference on Computer Vision. Paris, 2023: 6725-6735.

[3]

Yu Z PHuang H BChen W Jet al. YOLO-FaceV2: a scale and occlusion aware face detector[J]. Pattern Recognition2024155: 110714.

[4]

Ding X HZhang X YMa N Net al. RepVGG: making VGG-style convnets great again[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Virtual, 2021: 13733-13742.

[5]

Lei YChen Y RHai Tet al. DGNet: an adaptive lightweight defect detection model for new energy vehicle battery current collector[J]. IEEE Sensors Journal202323: 29812-29830.

[6]

Ye L Q. AugShuffleNet: communicate more, compute less [EB/OL]. (2022-03-13) [2022-08-21].

[7]

Yang L XZhang R YLi L Det al. SimAM: a simple, parameter-free attention module for convolutional neural networks[C]// International Conference on Machine Learning. Virtual, 2021: 11863-11874.

[8]

Cao J MLi Y YSun M Cet al. Do-Conv: depthwise over-parameterized convolutional layer[J]. IEEE Transactions on Image Processing202231: 3726-3736.

[9]

Filippas DNicopoulos CDimitrakopoulos G. Streaming dilated convolution engine[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems202331: 401-405.

[10]

Shamsolmoali PChanussot JZareapoor Met al. Multipatch feature pyramid network for weakly supervised object detection in optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing202260: 1-13.

[11]

Han KWang Y HTian Qet al. Ghostnet: more features from cheap operations[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Virtual, 2020: 1580-1589.

[12]

Mishra RGupta H P. Designing and training of lightweight neural networks on edge devices using early halting in knowledge distillation[J]. IEEE Transactions on Mobile Computing202423: 4665-4677.

基金资助

河北省中央引导地方科技发展资金项目(246Z2002G)

中央高校基本科研业务费专项资金资助项目(2025GFZD002)

AI Summary AI Mindmap
PDF (2555KB)

318

访问

0

被引

详细

导航
相关文章

AI思维导图

/