基于U2-Net与动态索引旋转卷积的混凝土路面裂缝提取

王春艳; 王康乐; 姜勇; 王祥

doi:10.11956/j.issn.1008-0562.20250100

辽宁工程技术大学学报（自然科学版） ›› 2025, Vol. 44 ›› Issue (06) : 746 -752. DOI: 10.11956/j.issn.1008-0562.20250100

软件工程与通信工程

基于U²-Net与动态索引旋转卷积的混凝土路面裂缝提取

王春艳 ¹ ,
王康乐 ¹ ,
姜勇 ² ,
王祥 ³

作者信息 +

Crack extraction of concrete pavement based on U²-Net and dynamic index-based rotational convolution

Author information +

文章历史 +

PDF (2635K)

摘要

针对卷积神经网络提取混凝土路面裂缝时，因光照变化、背景复杂及模糊效应导致的精度下降问题，提出一种动态索引旋转卷积（DIRC）方法。该方法基于可变形卷积理论，通过解决偏移量可能超出感受野的问题，增强索引偏移量的有效性。将动态索引旋转卷积（DIRC）引入U²-Net架构，以提升网络对混凝土路面裂缝纹理的识别能力。研究结果表明：在DeepCrack数据集上，DIRC-U²-Net相较于基准U²-Net，F1、Kappa和MIoU指标分别提升了2.40%、1.30%和1.49%；在CrackForest数据集上，上述指标分别提升了8.43%、8.47%和9.13%。对提取结果的可视化分析进一步表明，DIRC模块显著增强了U²-Net模型对光照差异及图像模糊等复杂干扰因素的鲁棒性。研究结论为实现混凝土路面裂缝的精准与稳健提取提供理论依据。

Abstract

Aiming at the problem of accuracy degradation caused by illumination change, complex background and fuzzy effect in the extraction of concrete pavement cracks by convolutional neural network, a dynamic index rotation convolution (DIRC) method is proposed. Based on the deformable convolution theory, this method enhances the effectiveness of the index offset by solving the problem that the offset may exceed the receptive field. The dynamic index rotation convolution (DIRC) is introduced into the U²-Net architecture to improve the network's ability to recognize the crack texture of concrete pavement. The results show that on the DeepCrack dataset, compared with the benchmark U²-Net, the F1, Kappa and MIoU indexes of DIRC-U²-Net are increased by 2.40%, 1.30% and 1.49%, respectively. On the CrackForest dataset, the above indicators have increased by 8.43%, 8.47%, and 9.13%, respectively. The visual analysis of the extraction results further shows that the DIRC module significantly enhances the robustness of the U²-Net model to complex interference factors such as illumination differences and image blur. The research conclusions provide a theoretical basis for the accurate and robust extraction of concrete pavement cracks.

Graphical abstract

关键词

裂缝提取 / 动态索引旋转卷积 / U²-Net / 可变形卷积 / 卷积神经网络 / 道路安全

Key words

crack extraction / dynamic indexed rotational convolution / U²-Net / deformable convolution / convolutional neural network / road safety

引用本文

引用格式 ▾

王春艳,王康乐,姜勇,王祥. 基于U²-Net与动态索引旋转卷积的混凝土路面裂缝提取[J]. 辽宁工程技术大学学报（自然科学版）, 2025, 44(06): 746-752 DOI:10.11956/j.issn.1008-0562.20250100

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

路面缺陷检测直接关系到交通安全和基础设施的耐久性^[1]。裂缝的扩展会削弱路面承载力，增加坍塌风险，因此混凝土路面健康监测至关重要^[2]。当前，道路规模与使用强度快速增长，传统人工巡检方法受限于主观性、低效率及安全风险，无法满足大规模基础设施的精细化管理要求^[3-4]。随着计算机视觉与深度学习技术的发展，基于自动化与智能化的检测新方法为混凝土路面裂缝的高效、精准识别提供了新的解决方案^[5-6]。U²-Net是一种用于显著目标检测的深度学习模型^[7]，通过深度嵌套的“U”型结构实现多尺度特征融合，能高效提取细节信息，对复杂背景下的细小缺陷具有较高敏感性。然而，由于U²-Net主要侧重于生成高质量分割掩膜，在小目标检测方面的效果仍存在一定局限。为提升性能，可将U²-Net与空洞卷积及高效通道注意力模块相结合，以增强裂缝提取能力^[8]。该方法虽可借助空洞卷积减少背景噪声干扰，但在纹理特别复杂或高度相似的背景下，仍难以准确识别目标裂缝，导致误检或漏检。

近年来可变形卷积在计算机视觉领域受到广泛关注^[9]。该方法可通过学习空间变换参数，动态调整卷积核的采样位置，从而更好地适应目标物体的形状与尺度变化，有效提升模型对形变目标的检测能力。李海丰等^[10]构建了一种结合可变形卷积与多尺度特征融合的神经网络，满足机场道面裂缝的提取需求。QI等^[11]提出CrackUNet模型，通过嵌套网络结构与可变形卷积的融合，提升路面裂缝检测性能。WANG等^[12]开发了基于大规模可变形卷积网络的DCNCrack系统，实现高精度的路面裂缝分割。可变形卷积增强了卷积核的灵活性，但在处理几何变化特征时，调制机制仅能捕获特征的变化幅度，不能有效约束通道权重，导致采样点权重与特征重要程度之间缺乏相关性^[13]。

本文基于可变形卷积构建一种动态索引旋转卷积，克服可变形卷积的偏移量超出感受野的问题，并将DIRC引入U²-Net模型中，使原模型具有多尺度特征融合能力的同时，能根据图像动态提取不同方向的裂缝纹理特征，增强裂缝特征捕捉能力。

1 DIRC-U²-Net模型

U²-Net通过引入残差“U”型块（residual U-Block，RSU）结构，增强对图像细节的捕捉能力。“U”型块结构采用残差连接机制，有效缓解深层网络训练中的梯度消失或爆炸问题，提升模型的学习稳定性。U²-Net在每一层解码器均输出一张显著性概率图，并通过全连接方法对各层概率图进行融合与监督，从而确保训练过程中每一层的有效性。

基于U²-Net构建DIRC-U²-Net（dynamic indexed rotational convolution U²-Net）模型，结构见图1。该网络包含6层编码层（Encode）和5层解码层（Decode），所有层级均采用RSU模块。卷积操作使用3×3卷积核，卷积结果依次经过批次归一化与ReLU非线性激活处理。在第1层卷积中，采用DIRC以获取多尺度旋转特征。Encode_1与Decode_1的结构包含1层DIRC、1层普通卷积、5组下采样与普通卷积的组合、1层膨胀率为2的空洞卷积、1层普通卷积，以及5组上采样与普通卷积的组合。随着层级加深，第2、3、4层的结构依次简化。Encode_5、Decode_5和Encode_6则引入多层空洞卷积以扩大感受野。编码过程中，每层Encode的输出经下采样后传入下一层，并与对应解码层Decode的输出进行特征拼接，再经上采样传递至上一层Decode。最终，各层特征通过S^(*)side上采样和全连接操作生成显著特征图，经Out全连接层进行信息融合，输出混凝土路面裂缝的二值检测结果。

DIRC-U²-Net网络具有两方面显著特性：①继承了U²-Net架构在多层次特征融合上的优势，借助其双重U型编解码器与嵌套模块设计，强化了对图像全局上下文关联与局部细微特征的感知能力；②采用动态索引旋转卷积方法，使得标准卷积核的采样网格能够依据输入特征自适应旋转，实现对裂缝方向性纹理的更精准拟合。

1.1 动态索引旋转卷积

标准卷积在固定方向上能够从不同图像区域提取特征，然而当处理具有旋转特性的图像时，由于标准卷积核方向固定，难以有效匹配不同角度的特征。因此，提出一种数据驱动方法：根据输入特征图计算出标准卷积核应适应的旋转角度，将该角度映射至卷积核的规则网格，生成偏移索引矩阵，借助可变形卷积实现索引旋转卷积。该方法采用模块化设计，可直接替换标准卷积层，无需大幅调整网络结构，具备良好的即插即用特性，便于集成到多种卷积网络架构中。

可变形卷积的核心是在标准卷积的采样位置引入可学习的偏移量。该方法在标准卷积层之前增设一个辅助卷积层，用于从输入特征图中预测每个采样点相对于规则网格的偏移量。通过双线性插值对偏移后的非整数坐标位置进行特征采样，以此使采样网格能够根据训练数据自适应调整，从而让卷积核灵活适应输入特征的几何形变。可变形卷积结构见图2。然而，由于偏移量的学习过程缺乏显式约束，部分偏移量可能超出合理范围，采样点落入无效特征区域，进而影响模型的稳定性。

本文将用于偏移矩阵运算的卷积核替换为一个多层卷积结构，以计算自适应旋转角度特征图，见图3。由图3可知，通过堆叠两层3×3卷积构建空间特征提取通路，并辅以1×1卷积对输出层数进行调整。其中，首层卷积在局部3×3邻域提取基础几何特征，次层卷积将有效感受野扩展至5×5，从而捕获跨区域的旋转关联模式。相较于可变形卷积，通过单层卷积预测无约束偏移量，且卷积核索引值相对卷积中心呈刚性旋转。本文方法严格约束偏移量服从刚性旋转变换，使参数更新方向与旋转角度显式关联。其中旋转角度特征图记为

θ = Φ W (l) X (l) + b (l)

，（1）

式中： X⁽^l⁾为第l层输入特征图； W⁽^l⁾为第l层卷积核权重矩阵； b⁽^l⁾为第l层的偏置项；

Φ (⋅)

为激活函数。

通过参数化坐标变换建立标准卷积核到旋转空间的几何映射，推导出旋转偏移量矩阵为

Τ = M ⋅ R θ g r i d

，（2）

式中： M 为3×3标准卷积核的规则网格；

R θ g r i d

为网格旋转算子，实现卷积核坐标点的逆时针旋转变换，其表达式为

R θ g r i d = c o s θ - s i n θ s i n θ c o s θ

。（3）

将 T 与上层输出特征图 X⁽^l⁾代入可变形卷积，以实现动态索引旋转卷积计算，其结构见图3。其中，旋转角度特征图大小为1×H×W，维度为1；旋转偏移量特征图大小为2S²×H×W，H、W分别为特征图的长和宽，S为网格卷积核大小。

为提升裂缝提取精度，将动态索引旋转卷积引入U²-Net的各编码层与解码层（见图4），使模型自适应裂缝多尺度旋转相似性。

1.2 损失函数

对于二值检测任务，常用的损失函数为二元交叉熵（binary cross entropy，BCE）损失^[14]，即

T = ψ Φ W (l) X (l) + b (l)

。（4）

为缓解训练中样本不均衡问题，采用基于样本加权的损失函数设计方法，为每层输出的显著特征图设计新的损失函数。该函数通过为不同类别样本分配权重来平衡贡献，对真实标签或预测结果为缺陷（正样本）的像素赋予权重ω⁺，对非缺陷（负样本）的像素赋予权重

ω -

。该损失函数的定义为

L h = - ω + y l o g y^h y = 1 ∨ y^h ≥ 0.5 - ω - (1 - y) l o g (1 - y^h) y = 0 ∧ y^h < 0.5

，（5）

式中：y为真实标签；

y^h

为标签的预测值；h为图1中网络层序号。

最终的损失函数L_final为每个显著特征图损失的带权混合结果，表达式为

L f i n a l = ∑ h ∈ H W h L h

，（6）

式中：

W h

为混合权重；H为网络层数，取6。

2 实验开展与分析

2.1 训练环境设置

试验硬件环境配置为Intel Xeon Platinum 8358P CPU和NVIDIA RTX 3090 GPU。优化器采用Adam算法^[15]，训练超参数设置如下：学习率为0.001，动量指数衰减率为0.9，学习率缩放指数衰减率为0.999，数值稳定性常数为1×10^-8，权重衰减系数为1×10^-5。

2.2 实验数据与评估指标

为验证DIRC-U²-Net模型在光照变化和复杂背景下裂缝检测的可靠性和有效性，实验选用DeepCrack数据集^[16]和CrackForest数据集开展验证^[17]。DeepCrack数据集包含537张分辨率为544×384的RGB彩色图像，采集于不同的实际场景，如路面、石材等。CrackForest数据集包含118张分辨率为480×320的RGB彩色图像，可大致反映城市路面状况，涵盖不同光照条件下的线状、网状裂缝形态。

为全面评估DIRC-U²-Net模型性能，选用F1分数、Kappa系数、平均交并比（mean intersection over union，MIoU）和曲线下面积（area under curve，AUC）作为裂缝提取任务的衡量指标。

2.3 DeepCrack数据集实验

为评估DIRC-U²-Net的性能，将其与6种先进的卷积神经网络进行对比实验，对比模型包括：多尺度特征融合深层语义与浅层细节的FPN^[18]、引入金字塔池化模块的PSPNet^[19]、利用全局平均池化与上采样技术的LinkNet^[20]，以及采用跳跃连接适用于二值分割的U-Net^[21]、结合空间金字塔池化与深度可分离卷积的DeepLabV3+^[22]和前文介绍的U²-Net。各模型在DeepCrack数据集上的综合评估结果见表1。

由表1可知，DIRC-U²-Net的F1分数为82.09%，在所有对比模型中最高，证明该模型在兼顾检测正确性和完整性方面优于其他模型。在Kappa和MIoU上同样表现最佳，表明该模型在混凝土路面裂缝提取任务中，不仅一致性表现出色，而且在区域检测精度和类别平衡方面具有显著优势。DIRC-U²-Net的AUC值为99.54%，在所有对比方法中最高，说明该模型区分正负样本的能力优于对比方法。

为进一步分析各模型的检测性能，对比各模型在DeepCrack数据集上的裂缝提取效果，结果见图5。

由图5第①行可知，对于较粗的混凝土裂缝，DIRC-U²-Net检测出的裂缝边界更为清晰，并且对点状瘢痕的识别能力更强，误检率较低。第②行可知，对于训练集中未出现的道路外景色特征，DIRC-U²-Net误检情况较少，说明在面对新背景时鲁棒性较好。第③行中，由于光照条件和地面材质的影响，图像中存在与裂缝颜色高度相似的密集且不连续的噪声点，其中LinkNet的检测效果较差，而FPN、PSPNet和DIRC-U²-Net能有效识别纹理差异，避免误检。第④行中，DIRC-U²-Net相较于其他模型，在采样模糊的情况下检测结果最清晰。第⑤行中，除DIRC-U²-Net外，其他检测方法均未能完全将花朵及阴影识别为背景。第⑥行中，由于道路标线的高明暗对比以及其他轻微纹理的干扰，多个模型难以有效区分裂缝与背景，而DIRC-U²-Net成功实现了精确检测。第⑦行中，较大的混凝土石子颗粒的纹理与裂缝相似，增加了检测难度，DIRC-U²-Net和FPN的检测效果较好。综上，DIRC-U²-Net在复杂背景、光照变化以及纹理干扰等条件下，可实现清晰且连续的裂缝提取，性能优于对比模型。

2.4 DeepCrack数据集消融实验

为探究各模块对裂缝缺陷检测的提升效果，在DeepCrack数据集上开展4组消融实验，结果见图6，评估指标见表2。其中，E1为基线模型U²-Net，使用传统BCE损失函数，E2在E1基础上采用带权BCE损失函数（P1），E3在E2基础上引入可变形卷积（P2），E4则在E2基础上引入动态索引旋转卷积（P3），且E3和E4中对应模块位置相同。

由图6和表2可知，基线模型（E1）对裂缝的提取准确性不足，易误判裂缝边界造成检测模糊且未能有效学习裂缝的纹理特征，对污渍、生锈道钉、花朵等特征存在明显误检。E2模型引入带权BCE损失函数后，F1、Kappa和MIoU分别达到81.91%、81.12%和69.66%，在避免漏检关键缺陷和减少误报方面进行了平衡。E3模型通过引入可变形卷积提升了裂缝边缘提取的清晰度，但对细小裂缝和花朵等特征的提取精度不足，F1、Kappa和MIoU均有所降低。E4模型引入动态索引旋转卷积机制后，在有效捕捉微小缺陷的同时，降低了误判风险，实现了更精细、更精准的缺陷识别，其F1、Kappa、MIoU相较于E2分别提高了1.28个百分点、1.49个百分点和3.09个百分点。

此外，在消融实验中，对E3的可变形卷积和E4的动态索引旋转卷积所预测的偏移量矩阵分布进行了统计分析，结果见图7。由图7可知，可变形卷积预测的偏移量中，超出3×3感受野（索引值超过[-1,1]）的数据占比为59.32%，超出5×5感受野（索引值超过[-2,2]）的数据占比为29.01%。相比之下，动态索引旋转卷积在预测偏移量方面展现出显著优势，其机制从根本上约束了偏移范围，有效避免了偏移量超出有效感受野的问题。

2.5 CrackForest数据集对比实验

为全面评估DIRC-U²-Net模型在多样化场景中的适用性，在CrackForest数据集上开展检测实验，各模型的评估指标见表3。

由表3可知，DIRC-U²-Net模型在各项评估指标上均表现最佳，与U²-Net相比，DIRC-U²-Net的F1、Kappa和MIoU分别提高了8.43个百分点、8.47个百分点和9.13个百分点。表明其在识别CrackForest数据集中的裂缝时，具有更高的准确性和一致性。

3 结论

本文设计了一种基于DIRC-U²-Net的方法，用以提高混凝土路面裂缝的提取精度，得出如下结论。

（1）构建动态索引旋转卷积（DIRC），解决了可变形卷积中偏移量可能超出感受野的问题，增强了索引偏移量的有效性。

（2）将DIRC应用于U²-Net模型的RSU结构中，结合U²-Net的多尺度特征融合能力，提升了模型对缺陷纹理的检测能力。

（3）在DeepCrack和CrackForest数据集的对比实验中，DIRC-U²-Net相较于基线模型，在F1、Kappa和MIoU上均有所提升。

尽管DIRC-U²-Net在混凝土路面裂缝提取中效果较好，但其裂缝纹理特征的可解释性仍显不足。后续工作拟探索将多种图像特征算子嵌入或替代部分卷积层，以期丰富特征表征方式，提升模型的可解释性，从而为混凝土路面的健康状况评估提供更精准的技术支持。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	刘宇飞, 冯楚乔, 陈伟乐, 等. 基于机器视觉法的桥梁表观病害检测研究综述[J]. 中国公路学报, 2024, 37(2): 1-15.

[2]	LIU Yufei, FENG Chuqiao, CHEN Weile, et al. Review of bridge apparent defect inspection based on machine vision[J]. China Journal of Highway and Transport, 2024, 37(2): 1-15.

[3]	KHERADMANDI N, MEHRANFAR V. A critical review and comparative study on image segmentation-based techniques for pavement crack detection[J]. Construction and Building Materials, 2022, 321: 126162.

[4]	徐鹏, 祝轩, 姚丁, 等. 沥青路面养护智能检测与决策综述[J]. 中南大学学报(自然科学版), 2021, 52(7): 2099-2117.

[5]	XU Peng, ZHU Xuan, YAO Ding, et al. Review on intelligent detection and decision-making of asphalt pavement maintenance[J]. Journal of Central South University (Science and Technology), 2021, 52(7): 2099-2117.

[6]	KIRTHIGA R, ELAVENIL S. A survey on crack detection in concrete surface using image processing and machine learning[J]. Journal of Building Pathology and Rehabilitation, 2023, 9(1): 15.

[7]	GOLDING V P, GHARINEIAT Z, MUNAWAR H S, et al. Crack detection in concrete structures using deep learning[J]. Sustainability, 2022, 14(13): 8117.

[8]	郝明, 林惠晶, 高彦彦. 基于改进主动轮廓模型的无人机影像矿区地裂缝提取[J]. 地球信息科学学报, 2022, 24(12): 2448-2457.

[9]	HAO Ming, LIN Huijing, GAO Yanyan. Ground fissure extraction method based on improved active contour model for UAV images in mining areas[J]. Journal of Geo-Information Science, 2022, 24(12): 2448-2457.

[10]	QIN X B, ZHANG Z C, HUANG C Y, et al. U²-Net: going deeper with nested U-structure for salient object detection[J]. Pattern Recognition, 2020, 106: 107404.

[11]	CHENG H D, LI Y J, LI H K, et al. Embankment crack detection in UAV images based on efficient channel attention U²-Net[J]. Structures, 2023, 50: 430-443.

[12]	ZHU X Z, HU H, LIN S, et al. Deformable ConvNets V2: more deformable, better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 9300-9308.

[13]	李海丰, 景攀, 韩红阳. 基于可变形卷积与特征融合的机场道面裂缝检测算法[J]. 南京航空航天大学学报, 2021, 53(6): 981-988.

[14]	LI Haifeng, JING Pan, HAN Hongyang. Airport pavement crack detection algorithm based on deformable convolution and feature fusion[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2021, 53(6): 981-988.

[15]	QI L, LI C H, MEI T. CrackUnet: a novel network with joint network-in-network structure and deformable convolution for pavement crack detection[J]. International Journal of Machine Learning and Cybernetics, 2024, 15(7): 2643-2654.

[16]	WANG C, LIU H B, AN X Y, et al. DCNCrack: pavement crack segmentation based on large-scaled deformable convolutional network[J]. Journal of Computing in Civil Engineering, 2025, 39(2): 04025009.

[17]	刘卫光, 刘东, 王璐. 可变形卷积网络研究综述[J]. 计算机科学与探索, 2023, 17(7): 1549-1564.

[18]	LIU Weiguang, LIU Dong, WANG Lu. Survey of deformable convolutional networks[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(7): 1549-1564.

[19]	GUO Q W, WANG C T, XIAO D Q, et al. A novel multi-label pest image classifier using the modified Swin Transformer and soft binary cross entropy loss[J]. Engineering Applications of Artificial Intelligence, 2023, 126: 107060.

[20]	KINGMA D P, BA J L. Adam: A Method for Stochastic Optimization[C]//BENGIO Y, LECUN Y. 3rd International Conference on Learning Representations, ICLR 2015, Conference Track Proceedings. San Diego, CA, USA: ICLR, 2015.

[21]	赵文华,刘澳鹏,杜常博,等.基于改进YOLOv8的混凝土裂缝检测算法[J].辽宁工程技术大学学报(自然科学版),2025,44(5):590-596.

[22]	ZHAO Wenhua, LIU Aopeng, DU Changbo,et al.Concrete crack detection algorithm based on improved YOLOv8[J].Journal of Liaoning Technical University(Natural Science),2025,44(5):590-596.

[23]	SHI Y, CUI L M, QI Z Q, et al. Automatic road crack detection using random structured forests[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(12): 3434-3445.

[24]	ONG J C, LAU S L, ISMADI M Z, et al. Feature pyramid network with self-guided attention refinement module for crack segmentation[J]. Structural Health Monitoring, 2023, 22(1): 672-688.

[25]	ZHANG J, QIAN S R, TAN C. Automated bridge surface crack detection and segmentation using computer vision-based deep learning model[J]. Engineering Applications of Artificial Intelligence, 2022, 115: 105225.

[26]	MANJUNATHA P, MASRI S F, NAKANO A, et al. CrackDenseLinkNet: a deep convolutional neural network for semantic segmentation of cracks on concrete surface images[J]. Structural Health Monitoring, 2024, 23(2): 796-817.

[27]	ZHANG Y, ZHANG L. Detection of pavement cracks by deep learning models of transformer and UNet[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(11): 15791-15808.

[28]	WANG X F, WANG T K, LI J L. Advanced crack detection and quantification strategy based on CLAHE enhanced DeepLabv3+[J]. Engineering Applications of Artificial Intelligence, 2023, 126: 106880.