基于综合注意力的钢材表面缺陷检测方法

张莉; 付志鹏; 郭华平; 孙艳歌; 李锡瑞; 宋梦扬

doi:10.3969/j.issn.2097-583X.2025.03.008

信阳师范大学学报（自然科学版） ›› 2025, Vol. 38 ›› Issue (03) : 304 -310. DOI: 10.3969/j.issn.2097-583X.2025.03.008

计算机算法与应用

基于综合注意力的钢材表面缺陷检测方法

张莉 ¹^,² ,
付志鹏 ¹ ,
郭华平 ¹^,² ,
孙艳歌 ¹^,² ,
李锡瑞 ¹ ,
宋梦扬 ¹

作者信息 +

Comprehensive attention method for steel surface defect detection

Li ZHANG ¹^,² ,
Zhipeng FU ¹ ,
Huaping GUO ¹^,² ,
Yange SUN ¹^,² ,
Xirui LI ¹ ,
Mengyang SONG ¹

Author information +

文章历史 +

PDF (2440K)

摘要

提出一种新颖的基于综合注意力的钢材表面缺陷检测方法，用于提升对于缺陷与背景对比度低、类内缺陷尺寸差异大等问题的钢材表面缺陷检测性能。1）基于卷积与自注意力混合模块进行特征提取，获取具有局部细节特征信息与长距离像素依赖关系的特征图，有助于增强对于类内特征形状、尺寸变化的处理能力，提升对于复杂背景检测的鲁棒性。2）设计了一种综合注意力结构，其中包含空间注意力模块、通道注意力模块与自注意力模块，充分利用注意力机制对当前特征图进行特征提取，突出存在背景干扰的钢材表面图像中的缺陷目标。实验结果表明，该方法在NEU⁃DET和GC10⁃DET数据集上带来了检测性能提升，证明了该方法的有效性与泛化能力。

Abstract

A steel surface defect detection method based on comprehensive attention was proposed to improve the detection performance of steel surface defects for problems such as low-contrast between defects and background， large differences in the multiple scales of the intra⁃class defects. 1） Feature extraction was performed based on the convolution and self-attention hybrid modules to obtain feature maps with local detail feature information and long⁃distance pixel dependencies， which helps to enhance the processing ability for changes in shape and size of intra⁃class features， and to improve the robustness of complex background detection. 2） A comprehensive attention structure was proposed， which included a spatial attention module， a channel attention module and a self-attention module. The attention mechanism was fully used to extract the features of current feature maps， highlight defect objects in steel surface images with background noise. The experimental results showed that the performance of the proposed method on the NEU⁃DET and GC10⁃DET datasets were improved， which verified the effectiveness and generalization ability of the method.

Graphical abstract

关键词

自注意力 / 注意力机制 / 表面缺陷检测 / 特征融合

Key words

self⁃attention / attention mechanism / surface defect detection / feature fusion

引用本文

引用格式 ▾

张莉,付志鹏,郭华平,孙艳歌,李锡瑞,宋梦扬. 基于综合注意力的钢材表面缺陷检测方法[J]. 信阳师范大学学报（自然科学版）, 2025, 38(03): 304-310 DOI:10.3969/j.issn.2097-583X.2025.03.008

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

钢材作为工业生产的重要材料，在制造业中被广泛地应用。由于生产条件的限制，钢材表面往往不可避免地出现一些缺陷类型，比如夹杂物、斑块、划痕等。这些缺陷会降低工业产品的外观品相、使用体验、工作性能，甚至造成经济损失。此外，由于钢材表面缺陷具有缺陷与背景对比度低、类内缺陷尺寸差异大的特点，给检测带来了一定的困难。因此，研究提升钢材表面缺陷检测系统的性能，具有重要的理论意义和工业应用价值。

针对钢材表面缺陷问题，研究人员提出了多种基于注意力机制的检测模型，例如NI等^［1］提出多尺度融合的堆叠注意力用于钢轨表面小目标的特征提取和不规则多尺度目标的精确定位。注意力机制通过模仿人类的行为，即关注特征图中最相关的信息，同时抑制不相关的部分，以提高模型的性能^［2］，广泛应用于图像分类^［3］、目标检测^［4］、语义分割^［5］等领域。针对钢材表面缺陷图像中缺陷与背景对比度低带来的负面影响，通道注意力可以通过自适应地重新校准每个通道的权重，以突出最相关的特征通道；空间注意力可以看作是一种自适应空间区域选择机制，能够更好地突出缺陷区域。针对类内缺陷尺寸差异大的问题，自注意力机制^［6］可以通过获取输入图像内部元素之间的彼此关系，得到来自目标对象的全局上下文信息，这种方法能够获取图像中长距离像素之间的关联性，能够增强对特征变化的处理能力，且对于复杂背景纹理具有更强的鲁棒性。

综上所述，使用包含空间注意力、通道注意力、自注意力在内的综合注意力，可以结合不同注意力的优点，降低图像中的干扰因素带来的影响，自适应选择重要的对象和区域。为此，针对解决钢材表面缺陷中缺陷与背景对比度低、类内缺陷尺寸差异大的问题，本文提出一种新颖的包含多种注意力机制的综合注意力结构。首先，将输入的缺陷图像分割成不重叠的图像块，输入到卷积与自注意力混合模块进行特征提取，获取具有局部细节信息与全局像素依赖信息的特征表示；然后，提取的特征经过包含空间注意力模块、通道注意力模块与自注意力模块的综合注意力结构，对当前特征图进行多种注意力提取，突出缺陷图像中的重要的对象和区域；最后，使用WIoU^［7］损失函数，降低缺陷的几何因素与尺寸差异带来的负面影响，以提升检测性能。

1 相关工作

1.1 缺陷检测方法

当前，常用的缺陷检测方法主要可以分为：基于机器学习、基于深度学习和基于Transformer架构的检测方法。基于机器学习检测方法一般分为两个阶段：特征提取和分类。例如，YUE等^［8］采用Relief算法选择缺陷特征并过滤掉无关的特征，然后利用AdaBoost多分类器组合算法实现钢轨表面缺陷分类。这些方法依赖于特征的选择，适用于简单的表面缺陷识别，随着现代工业快速发展，难以满足复杂场景中对检测的更高需求。随着计算机硬件设备的发展，深度学习技术得到了进一步的研究与应用，基于改进经典卷积神经网络模型的缺陷检测方法取得了优异的结果。例如，HE等^［9］在Faster R⁃CNN的基础上添加了多级特征融合，以提高网络性能并检测钢材表面缺陷。CHENG等^［10］在RetinaNet的基础上添加注意力机制和特征融合用于钢材表面缺陷检测。

1.2 注意力机制

1.2.1 空间注意力

空间注意力可以视作一种自适应空间区域选择机制：关注哪里？为了实现空间注意力，针对不同模型和任务需求设计了相应的方法。例如，RAM（Recurrent Attention Model）模型^［11］是基于RNN（Recurrent Neural Network）实现的；STN（Spatial Transformer Network）模型^［12］使用子网络显式地预测相关区域。自注意力机制作为空间注意力的一种，在NLP（Natural Language Processing）任务中的Transformer^［6］中首次提出，带来了性能的提升。受此启发，一些研究工作将自注意力机制引入计算机视觉任务领域中。LIU等^［13］利用滑动窗口和分层结构提出一种新型Transformer架构Swin‑Transformer，利用空间维度的移位窗口建模全局和边界特征。DINO引入对比的去噪训练方式，用于锚点初始化的混合查询选择方法，以及用于框预测的向前两次方案^［14］。

1.2.2 通道注意力

通道注意力通过自适应地重新校准每个通道的权重，来确定要关注的内容。HU等^［3］首先通过SENet（Squeeze⁃and⁃Excitation Network）提出了通道注意力的概念，其核心是挤压和激励块，用于收集全局信息、捕获通道关系。

2 基于综合注意力的缺陷检测方法

所提出方法的整体模型框架图如图1所示。

2.1 骨干网络

基于自注意力机制的网络模型，能以序列到序列的表示方式来获取长距离像素间的全局关联。由于基于自注意力机制的网络具有较高的网络复杂度，往往在特征提取与融合的最后阶段添加自注意力块，然而，这种方法容易导致下游任务（例如分割和检测）的性能饱和。因此，选择NextVit^［15］中的主干网作为特征提取网络，NextVit的设计目的是能够在实际工业场景中有效部署。具体而言，在每个NextVit块中，通过一种以

(N + 1) × L

的混合范式，在每一个NextVit块中按顺序堆叠

N

个卷积块和1个自注意力块，将卷积块和自注意力块进行结合，这样的方法能够增强浅层网络获取全局信息的能力，并取得优异的性能。

2.2 颈部网络

通过多种注意力机制对钢材表面缺陷图像的特征图进行提取，可以有效地突出重要的对象和区域。在颈部网络中，对应骨干网络中的分层结构，在每一层的当前特征采用包含空间注意力模块SAB（Spatial Attention Block）、通道注意力模块CAB（Channel Attention Block）与自注意力模块TB（Transformer Block）的综合注意力结构，SAB与CAB分别与输入进行残差连接，有助于训练过程中更好地进行信息传播。层与层之间使用特征金字塔网络结构进行融合。

空间注意力模块结构如图2所示，令

x

表示形状为C×H×W的输入特征图，其中C、H、W分别表示输入通道数、高度和宽度。通过3个并行的输出通道数为C/4的1×1卷积层，分别获得3个形状为C/4×H×W的特征图

x 1 、 x 2

和

x 3

。通过转置操作将

x 1

和

x 3

变换为HW×C/4，将

x 2

变换为C/4×HW。空间注意力系数图计算方法如式（1）所示。

λ=δ(

x 1 T

· x 2

),(1)

式中：T表示矩阵转置操作，δ表示Softmax函数。

为获得所有像素点之间的交互，

λ

将每个像素点的特征表示为所有像素点特征的加权和，经过空间注意力校准后的特征图计算方法，如式（2）所示：

x^

λ · x 3 T

。(2)

得到的特征图

x^

被重塑为C/4×H×W的形状，并通过包含批量归一化层的输出通道为C的1×1卷积层恢复特征图的初始维度，空间注意力模块最终输出如式（3）所示。

S A B = σ (x^)

,(3)

式中：σ表示批量归一化与1×1卷积操作。

通道注意力模块结构如图3所示，令

x

表示通道数为C的输入特征图，首先使用全局平均池化

G A P (x) ∈ R C × 1 × 1

和全局最大池化

G M P (x) ∈ R C × 1 × 1

，获取每个通道的全局信息，然后使用多层感知机模块来获得通道注意力系数，其包含一个输出通道数为C/2的全连接层，ReLU激活函数和一个输出通道数为C的全连接层。GAP和GMP分支使用的多层感知机模块之间互相共享，最终两个分支的结果相加并经过Sigmoid激活函数计算得到通道注意力系数

β ∈ 0,1 C × 1 × 1

，对输入特征通道进行加权。通道注意力模块最终输出如式（4）所示：

CAB=

x · β

。(4)

TR结构如图4所示。在TR块中，首先包含Patch Embedding层；然后包含多头注意力部分，其中有归一化层、多头注意力层，并引入Dropout层，以减少模型过拟合；接着包含多层感知机部分，其中有归一化层与多层感知机层，多头注意力部分和多层感知机部分内部都使用残差连接；最后包含另一个Dropout层。通过使用TR结构，能够帮助模型获得更丰富的缺陷上下文信息，进一步增强模型的特征表示能力。

2.3 检测头

目标检测通常被设置为对于候选框的分类和回归问题，检测头通过回归算法来预测缺陷目标边界框的坐标，并进行类别预测和置信度预测。

2.4 损失函数

采用WIoU loss作为损失函数，与传统IoU相比，WIoU loss考虑预测框与真实框之间的区域，对于类内缺陷尺寸差异大的钢材表面缺陷，能够降低目标的几何因素与尺寸变化带来的负面影响。计算如式（5）和式（6）所示。

L_WIoU=R_WIoUL_IoU,(5)

R_WIoU=exp

x - x g t 2 + y - y g t 2 (W g 2 + H g 2) *

,(6)

式中：x、y分别表示预测框中心点的纵横坐标值；x_gt、y_gt分别表示目标框中心点的纵横坐标值；W_g、H_g分别表示最小边界框的宽和高；上标*代表从计算图中分离的操作，以避免R_WIoU计算得到的梯度阻碍网络收敛。

3 实验及结果分析

3.1 数据集

数据集使用NEU⁃DET数据集^［9］和GC10⁃DET数据集^［16］，图像示例如图5和图6所示。

NEU⁃DET数据集^［9］是东北大学钢材表面缺陷数据集，包括裂纹（Cr）、夹杂（In）、斑块（Pa）、麻点（PS）、压入氧化皮（RS）和划痕（Sc）等6种钢材表面缺陷类型，每种300张灰度图像，一共1800张，尺寸200×200。

GC10⁃DET^［16］是工业金属表面缺陷数据集，包括冲孔（Pu）、焊缝（Wl）、新月形缝隙（Cg）、水斑（Ws）、油斑（Os）、丝斑（Ss）、夹杂物（In）、轧坑（Rp）、折痕（Cr）、腰部折痕（Wf）等10种钢板表面缺陷，一共3570张灰度图像。

3.2 评估指标

以平均精度均值（mAP）作为测量指标。mAP根据精确率P和召回率R计算得出。mAP计算方法如式（7）—式（10）所示。

P = T P T P + F P

,(7)

T P T P + F N

,(8)

AP=

∫ 01 P (R) d R

,(9)

mAP=

∑ I = 1 N A P i / N,

(10)

式中：TP、FP和FN表示正确检测框、误检框和漏检框的数目；AP值表示P⁃R曲线面积大小；

N

表示类别总数。

3.3 实验设置

实验基于Intel（R）Xeon（R）CPU E5⁃2650 v4 @ 2.20GHz处理器，4块TITAN Xp GPU，Ubuntu操作系统，PyTorch深度学习框架实验环境进行。NEU⁃DET数据集调整尺寸为224×224，将GC10⁃DET数据集调整尺寸为512×512，分别按照7∶1∶2比例随机划分为训练集、验证集和测试集。实验设置使用SGD作为优化器，0.01初始学习率，0.000 5权重衰减，0.937动量。使用Mosaic、亮度变化、色调变化、饱和度变化、仿射变换、水平翻转对数据集进行数据增强。实验过程中每次对模型训练300个epoch。

3.4 实验结果

在不同数据集上与一些现有的先进方法进行了实验结果对比。

在NEU⁃DET数据集上的比较结果如表1所示，可视化结果如图7所示。

由表1可知，对于裂纹（Cr）、夹杂（In）、斑块（Pa）和划痕（Sc），分别取得了44.3%、83.7%、94.1%、95.1%的最高AP。其中，夹杂具有缺陷与背景对比度低的特点，在一些图片中存在模糊不清的现象。本文提出的综合注意力中的通道与空间注意力都有助于模型突出缺陷目标；另外，夹杂、斑块和划痕这些缺陷具有类内尺寸与外形差异较大的特点，自注意力机制通过获取局部与局部之间的上下文信息，能够捕获长距离像素之间的关联性，因此在这些类别上取得了性能的提升。对于斑块这类背景复杂且分布较广的缺陷，自注意力机制能够体现出一定的鲁棒性。本文方法取得了77.7%的最高mAP，验证了本文提出方法的有效性。

在GC10⁃DET数据集上的比较结果如表2所示，可视化结果如图8所示。

由表2可知，对于焊缝（Wl）、新月形缝隙（Cg）、夹杂物（In）、轧坑（Rp）、折痕（Cr）和腰部折痕（Wf），本文方法分别取得90.5%、96.1%、32.1%、43.9%、71.7%、92.1%的最高AP，这些类别都具有存在类内尺寸差异的特点，其中焊缝和折痕具有较高纵横比，图像分布跨度较大，再次证明了自注意力机制获取长距离像素关系的有效性。对于丝斑（Ss）这类与背景对比度较低的缺陷，本文方法同样取得了64.5%的AP，验证了综合注意力中的通道与空间注意力对于低对比度问题带来的提升。本文方法取得了71.4%的最高mAP，进一步证明了本文方法的有效性，以及对于钢材表面缺陷检测的泛化能力。

3.5 消融实验

为了分别验证本文在颈部网络提出的综合注意力中各模块的有效性，在不同模型设置下进行了消融实验。实验统一在NEU⁃DET数据集上进行。如表3所示，通过加入SAB模块，mAP精度值提升1.1个百分点，对于类似裂纹一类存在较多干扰信息的缺陷，能够更精确地定位缺陷区域；在上述基础上，再引入CAB模块，mAP值提升了2.0个百分点。对裂纹（Cr）、麻点（PS）之类缺陷，通过突出相应特征通道，进一步带来提升；再加入TR模块，mAP值提升了2.9个百分点，对于夹杂（In）、划痕（Sc）取得了较大提升，表明自注意力机制对于存在类内尺寸差异的图像具有较好的特征表示能力。

4 结束语

提出一种基于综合注意力的钢材表面缺陷检测方法，对于缺陷与背景对比度低、类内缺陷尺寸差异大的钢材表面缺陷，使用包含空间注意力、通道注意力和自注意力在内的综合注意力，降低了干扰因素带来的影响，强化了对形状、尺度等特征变化的处理能力。在NEU⁃DET数据集和GC10⁃DET数据集的实验中，分别获得了77.7%和71.4%的mAP。证明了该方法具有优异的检测精度以及鲁棒的泛化能力，对于钢材表面缺陷检测具有很好的应用价值。在后续工作中，将在已研究方法的基础上，尝试使用其他数据集以及不同的注意力方法，研究如何进一步增强模型的泛用性。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	NI Xuefeng， MA Ziji， LIU Jianwei， et al. Attention network for rail surface defect detection via consistency of intersection⁃over⁃union（IoU）⁃guided center⁃point estimation［J］. IEEE Transactions on Industrial Informatics， 2022， 18（3）： 1694⁃1705.

[2]	GUO Menghao， XU Tianxing， LIU Jiangjiang， et al. Attention mechanisms in computer vision： A survey［J］. Computational Visual Media， 2022， 8（3）： 331⁃368.

[3]	HU Jie， SHEN Li， ALBANIE S， et al. Squeeze⁃and⁃excitation networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（8）： 2011⁃2023.

[4]	CARION N， MASSA F， SYNNAEVE G， et al. End‑to‑end object detection with transformers［C］//Computer Vision⁃ECCV 2020， Glasgow， 2020： 213⁃229.

[5]	FU Jun， LIU Jing， TIAN Haijie， et al. Dual attention network for scene segmentation［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， Long Beach， 2019： 3141⁃3149.

[6]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［EB/OL］. （2017⁃06⁃12）［2017⁃06⁃12］.

[7]	TONG Zanjia， CHEN Yuhang， XU Zewei， et al. Wise‑IoU： Bounding box regression loss with dynamic focusing mechanism［EB/OL］. （2023⁃01⁃24）［2023⁃01⁃24］.

[8]	YUE Biao， WANG Yangping， MIN Yongzhi， et al. Rail surface defect recognition method based on AdaBoost multi⁃classifier combination［C］//2019 Asia‑Pacific Signal and Information Processing Association Annual Summit and Conference （APSIPA ASC）， Lanzhou， 2019： 391⁃396.

[9]	HE Yu， SONG Kechen， MENG Qinggang， et al. An end⁃to⁃end steel surface defect detection approach via fusing multiple hierarchical features［J］. IEEE Transactions on Instrumentation and Measurement， 2020， 69（4）： 1493⁃1504.

[10]	CHENG Xun， YU Jianbo. RetinaNet with difference channel attention and adaptively spatial feature fusion for steel surface defect detection［J］. IEEE Transactions on Instrumentation and Measurement， 2021， 70： 1⁃11.

[11]	MNIH V， HEESS N， GRAVES A， et al. Recurrent models of visual attention［C］//Proceedings of the 27th International Conference on Neural Information Processing Systems⁃ Volume 2， Montreal， 2014： 2204⁃2212.

[12]	JADERBERG M， SIMONYAN K， ZISSERMAN A， et al. Spatial transformer networks［C］//Proceedings of the 28th International Conference on Neural Information Processing Systems⁃ Volume 2， Montreal， 2015： 2017⁃2025.

[13]	LIU Ze， LIN Yutong， CAO Yue， et al. Swin transformer： Hierarchical vision transformer using shifted windows［C］//2021 IEEE/CVF International Conference on Computer Vision （ICCV）， Montreal， 2021： 9992⁃10002.

[14]	ZHANG Hao， LI Feng， LIU Shilong， et al. Dino： Detr with improved denoising anchor boxes for end⁃to⁃end object detection［EB/OL］. （2022⁃07⁃11）［2023⁃01⁃24］.

[15]	LI Jiashi， XIA Xin， LI Wei， et al. Next⁃vit： Next generation vision transformer for efficient deployment in realistic industrial scenarios［EB/OL］. （2022⁃08⁃16）［2023⁃01⁃24］.

[16]	Xiaoming LYU， DUAN Fajie， JIANG Jiajia， et al. Deep metallic surface defect detection： The new benchmark and detection network［J］. Sensors， 2020， 20（6）： 1562.

[17]	LIN T Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（2）： 318⁃327.

[18]	REN Shaoqing， HE Kaiming， GIRSHICK R， et al. Faster R⁃CNN： Towards real⁃time object detection with region proposal networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137⁃1149.

[19]	TIAN Zhi， SHEN Chunhua， CHEN Hao， et al. FCOS： Fully convolutional one⁃stage object detection［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）， Seoul， 2019： 9626⁃9635.

[20]	LI Yanghao， CHEN Yuntao， WANG Naiyan， et al. Scale‑aware trident networks for object detection［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）， Seoul， 2019： 6053⁃6062.

[21]	PANG Jiangmiao， CHEN Kai， SHI Jianping， et al. Libra R⁃CNN： Towards balanced learning for object detection［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， Long Beach， 2019： 821‑830.