基于可见光与红外双模态融合的林区道路病害识别

李丹岚; 高明星; 徐佳楠; 高宏斌; 张启航

doi:10.7525/j.issn.1006-8023.2026.02.017

森林工程 ›› 2026, Vol. 42 ›› Issue (02) : 424 -438. DOI: 10.7525/j.issn.1006-8023.2026.02.017

道路与交通

基于可见光与红外双模态融合的林区道路病害识别

李丹岚 ¹ ,
高明星 ¹ ,
徐佳楠 ¹ ,
高宏斌 ² ,
张启航 ¹

作者信息 +

Visible-Infrared Bimodal Fusion for Road Distress Recognition in Forest Areas

Author information +

文章历史 +

PDF (10396K)

摘要

林区道路因其所处的自然环境特点和车载荷载易产生裂缝、坑槽等病害，路况较差且养护成本高。针对病害识别过程中目标检测框不准确、无人机视角下病害尺度变化大以及光照条件不足等问题，提出基于可见光与红外图像中间融合策略的双模态沥青路面病害检测方法（bimodal integrated road detection YOLOv8，BIRD-YOLOv8）。将自适应细粒度通道注意力机制（adaptive fine‑grained channel，FCAttention）和线性可变形卷积（linear deformable convolution，LDConv）串联提出DSFM（DynaSpectra fusion module）模块，替换BIRD-YOLOv8主干网络中的C2f结构，提升病害区域的特征提取能力；引入边界框回归优化方法（normalized Wasserstein distance loss，NWDLoss）替换CIoU，以增强模型对小尺度病害的检测能力。试验结果表明，改进后算法的均值平均精度达到83.3%。其中，横向裂缝、纵向裂缝、网状裂缝和坑槽的平均精度分别达到88%、91.3%、90.5%、63.5%，为林区道路路面病害识别与养护提供重要依据。

Abstract

Forest roads are prone to developing defects such as cracks and potholes due to their natural environmental conditions and the heavy vehicle loads they carry， resulting in poor road conditions and high maintenance costs. To address the challenges of inaccurate target detection bounding boxes， significant scale variations of pavement distresses under UAV perspectives， and insufficient lighting conditions， a bimodal asphalt pavement distress detection method （bimodal integrated road getection YOLOv8， BIRD-YOLOv8） was proposed. It employed an intermediate fusion strategy combining visible and infrared images. The DynaSpectra fusion module （DSFM）， constructed by serially connecting adaptive fine-grained channel attention （FCAttention） and linear deformable convolution （LDConv）， replaced the C2f structure in BIRD-YOLOv8's backbone network， enhancing feature extraction capability for distress areas. Normalized Wasserstein distance loss （NWDLoss） was introduced to replace CIoU， strengthening the model's detection ability for small-scale distresses. Experimental results showed that the improved algorithm achieved an mAP of 83.3%， with AP values for transverse cracks， longitudinal cracks， alligator cracks， and potholes reaching 88%， 91.3%， 90.5%， and 63.5%， respectively， laying a foundation for the identification and maintenance of pavement distresses in forest roads.

Graphical abstract

关键词

路面病害 / 双模态图像 / YOLOv8 / 目标检测 / 深度学习 / 无人机 / 可见光图像 / 红外图像

Key words

Pavement distress / bimodal images / YOLOv8 / object detection / deep learning / unmanned aerial vehicle / visible images / infrared images

引用本文

引用格式 ▾

李丹岚,高明星,徐佳楠,高宏斌,张启航. 基于可见光与红外双模态融合的林区道路病害识别[J]. 森林工程, 2026, 42(02): 424-438 DOI:10.7525/j.issn.1006-8023.2026.02.017

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

林区道路等级较低，所处自然环境易受暴雨、洪水和冰雪等自然力作用，尤其内蒙古东北部地区冬季低温严寒，降雪较多，融化后的水渗入到沥青路面中再次结冰造成冻胀损害，路面低温开裂现象明显^［1-3］。同时冻融循环作用加剧路面水侵害的程度导致路面结构的削弱，裂缝和坑洞等病害的产生，造成路况较差且养护成本高^［4］。随着道路病害识别需求增长，传统检测手段已难以满足大范围、高效率的巡检要求，而无人机凭借着高机动性、低干扰性和快速响应能力，在道路病害检测中的应用日益成熟^［5-7］。深度学习在图像分类、分割与目标检测等任务中展现出优越性能，有效弥补了传统方法在特征提取与识别精度方面的不足。为了提升病害识别的效率和准确性，利用无人机搭载红外和可见光镜头等负载采集路面多模态图像，与深度学习技术相结合，实现病害图像的自动化识别。

目前，基于无人机的道路病害识别主要依赖于可见光图像，具有分辨率高、细节丰富等优点，能够有效捕捉路面裂缝、坑槽等病害特征，但可见光图像在道路病害识别中存在一定的局限性。图1对比展示了可见光图像与红外图像在自然光条件下的裂缝和修补区域以及强光和弱光条件下裂缝区域。由图1（a）和图1（b）可知，由于部分裂缝和修补病害在纹理特征上有着相似性，通过可见光图像的纹理细节难以有效区分2种病害，而红外图像能凭借温度差异清晰地区分裂缝及修补痕迹；由图1（c）可知，在强光环境下，可见光图像出现大面积过曝现象，裂缝与路面的对比度降低，难以准确识别到裂缝区域，而红外图像中裂缝区域的温度分布与周围路面存在一定偏差，形成明显的热成像对比；由图1（d）可知，在弱光条件下，可见光图像的整体亮度不足导致裂缝边缘模糊，容易出现漏检现象，而红外图像能够通过感知病害区域表面的温度辐射来获取病害信息。

近年来，随着双模态目标检测技术的发展，Cao等^［8］引入了多模态通道特征融合模块，可以根据不同的光照条件自适应地调节红外和可见光图像的权重，解决了在弱光条件下检测能力弱的问题。Zhu等^［9］引入局部窗口来增强红外图像和可见光图像之间的特征表示，提出了多模态特征金字塔变换器（multi-modal feature pyramid transformer，MFPT），解决了红外和可见光之间存在视觉差异和对齐等问题。Zhang等^［10］在神经网络中引入了循环融合和精炼模块，经过多次循环融合和精炼多模态特征，提高了特征的一致性和互补性。Zhao等^［11］结合特征金字塔网络和软权重分配模块，将图像转换成可见光数据，提出了跨域融合网络方法，提升了双模态特征融合效果和检测精度。Wang 等^［12］使用直方图统计光照条件并进行分类，减少了可见光和红外图像之间的冗余信息。Cao等^［13］整合不同模态之间的输入信息，提出了一种结合通道切换和空间注意力机制的多模态检测方法，提升了多模态目标检测的精度。Zhang等^［14］研究了不同模态特征融合对噪声的影响，提出了目标感知融合的多光谱算法，突出目标特征并抑制背景和噪声特征，生成判别式融合特征。Li等^［15］实现了激光雷达和图像像素之间的几何对准，提出了2种技术InverseAug和LearnableAlign。Fang等^［16］提出了一种用于多光谱目标检测的跨模态融合，提升了病害检测的效果。

本研究构建包含可见光和红外图像的路面病害数据集，选择中间融合的方式提出了BIRD-YOLOv8（bimodal integrated road detection YOLOv8）模型，设计了自适应细粒度通道注意力机制（adaptive fine‑grained channel attention fully connected layer，FCAttention）^［17］和线性可变形卷积（linear deformable convolution，LDConv）^［18］串联模块DSFM（DynaSpectra fusion module），用于替换BIRD-YOLOv8主干网络中的C2f结构，增强了模型在复杂光照条件下的特征提取能力。其次，引入了边界框回归优化方法（normalized Wasserstein distance loss，NWDLoss）替换CIoU损失函数，提升了小目标病害的检测精度。结合红外热成像在复杂光照条件下对温度场变化敏感的优势与可见光图像在纹理细节表达方面的能力，实现两者信息互补，从而提升林区道路病害的识别的准确性与鲁棒性。

1 基于改进BIRD-YOLOv8的路面病害检测框架

1.1 改进BIRD-YOLOv8网络结构

当前主流的目标检测模型主要基于单模态输入，通过网络结构提取图像特征完成目标识别与分类任务。在双模态目标检测任务中，采用加权融合以及模态间交互等策略对各模态特征进行联合建模和融合，同时处理来自2个模态的数据，更全面地捕捉场景信息，提升特征表达能力和检测精度。

本研究提出的改进BIRD-YOLOv8网络模型结构如图2所示。网络的整体结构分为输入端Input层、主干网络Backbone层、特征增强模块Neck层、输出端Head层4个部分。输入端负责对红外和可见光图像进行归一化和调整尺寸等策略，确保不同模态图像能够统一进入网络进行后续处理。主干网络作为特征提取的关键部分，在保持YOLOv8轻量高效的基础上，替换了原Focus结构，采用了3×3卷积结构，既保留了相似的特征提取能力，又有效降低了对硬件的性能要求，确保模型在不同GPU设备上的运行效率。在原始的YOLOv8上增加了Multiin模块，能够接收来自不同模态的数据输入，并通过特征融合捕获局部和全局的上下文信息。提出了FCAttention和LDConv串联模块DSFM，用于替换BIRD-YOLOv8主干网络中的C2f结构，增强了模型在复杂光照条件下的特征提取能力。在特征增强模块Neck层，通过Concat操作将来自不同层的特征图沿通道方向进行拼接，同时利用SPPF模块进一步融合不同尺度的特征信息，增强了特征的多样性和网络的学习能力。输出端负责对提取的特征进行预测，并生成分类结果、定位框等目标检测的最终输出，完成从输入图像到检测结果的流程。引入了NWDLoss替换CIoU损失函数，提升复杂场景下的目标检测性能。

1.2 DSFM模块

本研究构建的数据集中有红外和可见光2种类型，包括自然光、强光和弱光效果的图像数据，且进行了图像增强，增加了雾天、雪天和雨天等极端天气的图片。数据集图像特征复杂且差异明显，为了进一步提高模型的精度，采用级联式特征处理的方式提出了一种基于通道注意力机制FCAttention和线性可变形卷积LDConv串联的模块DSFM。输入特征图经过LDConv模块，通过可微分参数生成网络动态调整卷积核的采样坐标和权重，适应输入数据的复杂光照变化和目标形变，并利用线性增长的卷积核参数降低计算开销或增强特征提取能力。经过LDConv处理后的特征图进入FCAttention模块，利用通道交互机制重新分配各通道特征的重要性，强调关键特征并抑制冗余信息，生成全局优化后的特征表示。通过串联LDConv的局部动态特征提取能力和FCAttention的全局特征优化能力，DSFM模块能够在不同尺度和复杂光照条件下提取关键信息，提高目标检测的准确性和鲁棒性。

1.2.1 FCAttention

FCAttention注意力机制通过融合局部与全局通道信息优化通道间的交互，实现通道权重的建模，提升模型在图像去雾等复杂环境下的特征提取能力和鲁棒性。FCAttention包括全局通道信息提取与局部通道交互建模2个阶段。首先对于输入特征图

F ∈ ℝ C × H × W

，采用全局平均池化（GAP）计算通道描述符

U ∈ ℝ C

，提取全局通道信息，计算公式为

U n = G A P F n = 1 H × W ∑ i = 1 H ∑ j = 1 W F n i, j

。（1）

式中：C、H、W分别为通道数、长度和宽度； U 为全局通道信息向量；

G A P ⋅

表示全局平均池化操作；n 为通道索引；i和j分别为行索引、列索引。

为了在保持较少参数量的同时增强局部通道信息建模能力，引入了带状矩阵 B 进行局部通道交互，并通过经过局部通道交互后的通道特征 U_lc计算局部信息，公式为

B = b 1, b 2, b 3, . . . ., b k

。（2）

U l c = ∑ i = 1 k U ⋅ b i

。（3）

式中：k为相邻通道交互的数量； U 为全局通道信息描述符； b_i 为通道间交互权重矩阵； U_lc为经过局部通道交互后的通道特征。

与传统的SE（squeeze-and-excitation）通道注意力机制相比，FCAttention通过引入局部通道交互机制，在特征权重分配策略上进行优化，使模型能够更精细地捕捉通道间的依赖关系。这种改进有效缓解了SE机制中通道权重分配可能存在的不稳定性或信息丢失的问题，提高了模型对关键特征的关注度。FCAttention结合了全局平均池化（global average pooling，GAP）和局部通道交互策略，使其不仅能够捕捉全局信息，还能通过带状矩阵和对角矩阵对通道进行细粒度建模，实现更精准的特征增强。在极端天气条件下，该机制能够更有效地区分重要特征与噪声，提高模型在恶劣环境中检测的稳定性，FCAttention的结构如图3所示（θ为可学习因子；σ为激活函数）。

1.2.2 LDConv

LDConv是一种改进的卷积，解决了标准卷积和可变形卷积的固有缺陷。传统的标准卷积存在采样局限性和固定的卷积核形状，导致无法捕捉全局信息。LDConv引入了一种新的坐标生成算法，使用任意数量的参数量来提取特征，为卷积核生成灵活的初始采样位置，并通过偏移量调整每个位置的样本形状，使卷积核的参数数量增长或减少呈线性，解决了可变形卷积参数过多的问题。在计算资源受限的情况下，LDConv能够有效减少参数数量和计算开销；在资源充足时，可支持更大尺寸的卷积核，以提升网络性能并增强特征提取能力。

1.2.3 线性参数增长策略

在线性参数增长策略方面，相较于标准卷积的参数量随卷积核边长K²增长，LDConv通过优化偏移参数的计算方式，使参数量仅呈线性增长，从而降低计算复杂度。标准卷积的参数量为

O (C ⋅ K 2)

，而LDConv的参数量仅为

O (C ⋅ K)

。LDConv通过可学习偏移策略和参数线性增长设计，突破了传统卷积操作的限制，使卷积核的大小和形状能够自适应调整，从而提升目标检测和特征提取能力，LDConv卷积的结构如图4所示（+P₀代表将相对坐标转换为绝对坐标）。

1.3 损失函数的改进方法

通过对CIoU损失函数的分析发现，该损失函数在目标检测任务中综合考虑了预测框与真实框的重叠区域、中心点距离及长宽比等几何因素，优化了边界框的拟合效果。然而，在无人机视角下的部分病害具有尺度小、形状狭长和边缘模糊等特点，CIoU损失函数在处理细长目标或非规则目标时存在以下局限性：当预测框与真实框完全不重叠时（IoU为0），无法提供有效梯度，训练失效；CIoU直接计算中心点欧式距离和长宽比，当2个框中心接近但形状差异较大时，无法有效表达目标形状之间的匹配程度；CIoU对小目标不敏感，尺度变小时长宽比与中心点距离对损失的贡献降低，影响训练效果。

针对上述问题，引入了一种基于归一化Wasserstein距离的边界框回归优化方法NWDLoss，将边界框建模为二维高斯分布并通过归一化Wasserstein距离计算目标间的相似性，具有更稳定的梯度反馈机制，避免了CIoU损失函数对小目标度量存在的偏差问题，确保损失计算的精确性，提升目标检测的精度，Wasserstein（W）的距离计算公式为

W 2 p, q = μ p - μ q 2 + T r ∑ 1 + ∑ 2 - 2 (∑ p 1 / 2 ∑ q ∑ p 1 / 2) 1 / 2

。（4）

式中：

μ p

、

μ q

分别表示预测框和真实框的中心点坐标；

∑ p 、

∑ q 分

别表示预测框和真实框的协方差矩阵，描述边界框的尺度及形状信息； p 和 q 分别是预测框与真实框所对应的二维高斯分布；

T r ⋅

表示矩阵的迹运算，反映协方差矩阵的特征尺度。

NWDLoss可与IoU引导的自适应权重机制平衡不同IoU值样本对损失的贡献，使模型更关注关键样本，优化目标框回归效果。此外，NWDLoss能够反映预测框与真实框之间的位置与形状差异，提升对小目标边缘与细节的回归能力，增强检测精度和鲁棒性。相较于传统CIoU损失函数，NWDLoss在复杂场景下更具优势，能够有效提升目标检测性能。

2 试验与分析

2.1 数据集

本研究构建了一个4 611张双模态林区沥青路面病害数据集，包含横向裂缝、纵向裂缝、网状裂缝、坑槽4种病害，并对红外图像与可见光图像进行配准对齐处理，确保空间位置和几何信息的一致性。该数据集支持单模态和双模态任务目标检测，数据集的构建主要包括采集、图像配准、数据集标注以及数据增强，如图5—图8所示。所有相对应的红外和可见光使用同一个标签文件进行病害类别和位置的标注。

在双模态数据采集图像的过程中，红外镜头和可见光镜头的成像参数存在差异，会导致一定的视觉偏差，直接影响2种图像的对齐与融合精度。为了提高图像处理的准确性，需要对采集的双模态图像进行几何校正，确保2种模态的空间对齐一致性。以采集时使用的DJI Mavic 3T为例，在拍摄的过程中开启联动对焦功能来初步减小偏差，确保红外图像和可见光图像的焦距一致，避免在拍摄过程中因焦距导致的图像特征错位。但红外图像和可见光图像的原始分辨率、传感器尺寸及光学特性不同，在后期模型中无法进行直接融合。因此，需要采用几何变换进行图像配准，通过仿射变换和透视变换将2种模态的图像对齐至统一坐标空间提高融合的效果，确保模型能够利用双模态图像信息进行病害检测与分析。为了统一红外图像与可见光图像的尺寸，本研究通过仿射变换和透视变换将红外图像和可见光图像统一调整为640×480像素，以确保后续融合的准确性。

2.2 模型横向对比试验

针对目前主流的目标检测算法，在使用相同的数据集和参数，对YOLOv8和YOLOv11模型的性能进行了对比分析。图9为2种模型的检测样本对比图，左侧为YOLOv8的可见光检测结果，右侧为YOLOv11的可见光检测结果，左侧的YOLOv8结果中出现1处错检（黄色椭圆表示），右侧的YOLOv11出现7处错检（红色椭圆表示）。

本研究选择以均值平均精度（mAP）和召回率（recall）作为主要评价指标，衡量模型的检测精度。试验过程中，将可见光图像和红外图像分别输入单模态检测网络，mAP和Recall随着训练步数的趋势变化，如图10所示。试验结果表明，在单模态检测任务中，红外和可见光图像在YOLOv8上的性能均优于YOLOv11。因此，本研究选择YOLOv8作为基础模型，进一步研究双模态融合的改进策略，充分利用红外和可见光的互补信息，来提升检测的精度。

根据检测网络中融合位置的不同，多模态目标检测方法分为早期融合、中间融合和后期融合3类。早期融合将红外和可见光在输入阶段融合，计算效率高但难以适应复杂环境；中间融合是在特征提取的过程中进行信息交互融合，提升了模型在复杂环境的适应性但设计更复杂；后期融合是在检测头阶段对预测结果进行后处理和加权优化，计算效率较快但对模态间复杂关联信息利用不足。本研究基于YOLOv8模型分别设计3种融合策略并进行试验对比，优选适用路面病害识别任务的最佳融合方式。横向模型对比的检测精度和召回率随训练步骤的变化趋势如图11所示，模型收敛后的具体数值见表1。

结合表1和图11可知，中间融合策略的mAP和Recall相比其他的模型更有优势，与红外单模态、可见光单模态、前期融合策略、后期融合策略相比，中间融合策略模型的mAP分别提升了11.3%、4.9%、3.2%、6.8%，模型的Recall分别提升了10.3%、8.2%、3.9%、10.1%，且中间融合策略的模型参数量相比后期融合降低了38.8%，相比其他的模型降低了18.9%。早期融合策略在输入层对图像进行特征融合，未能充分提取和利用各自模态中的独有特征，造成信息冗余和特征干扰，限制了模型的性能；后期融合在决策层通过直接加权或投票等方式整合双模态检测结果，虽然实现了信息整合，但红外和可见光这2种模态存在较大的差异，该策略难以有效实现特征互补；相比之下，中间融合策略在网络的中间层对红外和可见光进行特征深度交互，保留各自模态的有效特征进行信息互补，有助于提高模型的检测精度和鲁棒性。图12为红外图像和可见光图像单独检测的效果，图12（a）红外图像中因目标边界模糊导致方框标注区域中的裂纹漏检，图12（b）的可见光图像中因背景存在多种标线、光照一般，导致横向裂纹误检为网状。结合图12中结果及模型检测精度等数据可知，红外图像缺乏细节和纹理信息易导致病害的目标边界模糊和特征表达能力弱，检测精度低；可见光图像依赖良好的光照条件和环境条件，在复杂背景和光照条件差的场景下，检测性能下降。因此，本研究采用中间融合策略提出了双模态目标检测算法BIRD-YOLOv8。

2.3 模型模块验证

2.3.1 模块对比试验

为验证FCAttention注意力机制和LDConv卷积模块对病害检测性能的影响，设计了4组试验对比。其中，模型1是上述横向对比试验中采用中间融合策略的双模态目标检测模型BIRD-YOLOv8（基准模型）；模型2是在基准模型基础上加入了FCAttention注意力机制，并将FCAttention替换基准模型中所有的C2f结构，与基准模型相比mAP提高了0.7%；模型3是在基准模型基础上加入了LDConv卷积，将LDConv替换所有的Conv，相比基准模型提高了0.5%；模型4是在基准模型基础上加入了FCAttention和LDConv串联模块DSFM，并替换了所有C2f结构，相比基准模型提高了1.3%。4组试验的平均精度和召回率对比如图13和表2所示。

试验结果表明，FCAttention模块在通道维度上对特征进行了重加权处理，提升了模型对关键区域的关注能力，减少了漏检和错检；引入LDConv后，模型的卷积核能够根据特征分布动态调整感受野，目标形变、位移以及复杂局部结构的适应性，增强了局部特征的建模能力，但模型在筛选候选模板时更加谨慎，部分置信度较低但实际存在的目标被误判为背景，导致Recall有所下降；当FCAttenion和LDConv模块联合使用时，模型在语义感知与空间建模方面得到了协同增强，进一步提升了判别能力和目标定位精度。

2.3.2 损失函数性能验证

试验分别采用CIoU和NWDLoss作为BIRD-YOLOv8模型的损失函数，在相同数据集和训练配置下进行性能评估，对比验证了NWDLoss在双模态沥青路面检测任务中的有效性，训练结果如图14所示。由图14损失值曲线的变化趋势可以看出，采用NWDLoss的模型在训练初期损失值下降速度显著快于CIoU，表明其在梯度优化过程中具备更强的收敛能力。随着训练轮次的增加，NWDLoss的最终损失值更低，曲线收敛更平稳，表明该损失函数在优化过程中能够有效降低损失震荡，提高模型的稳定性与泛化能力。进一步分析模型收敛后的性能可知，NWDLoss的平均精度高于CIoU，验证了其在沥青路面病害检测任务中的优势。

2.4 消融试验结果

本研究通过消融试验验证不同方法、组合对BIRD-YOLOv8模型检测性能的影响。为了确保试验结果的可比性，所有试验均在相同的试验配置下进行，并使用相同的训练集和测试集。试验分别对比了引入FCAttention、LDConv、DSFM（FCAttention和LDconv串联模块）以及NWDLoss的模型检测效果，并将仅采用CIoU损失函数的BIRD-YOLOv8作为基准模型，分析各改进方法对模型性能的影响，结果如图15和表3所示。

由表3可知，在BIRD-YOLOv8中加入了FCAttention后，各类别检测精度均有提升，横向裂缝、纵向裂缝、网状裂缝和坑槽的精度分别提高了0.1%、0.8%、0.1%、1.8%，平均精度（mAP）提升了0.7%；在BIRD-YOLOv8中加入LDConv后，横向裂缝、网状裂缝精度分别提升了0.8%、2.6%，纵向裂缝和坑槽的精度下降了1.2%、1.2%，mAP提升了0.5%；在BIRD-YOLOv8加入了DSFM模块后，横向裂缝、纵向裂缝、网状裂缝和坑槽有明显的提升，分别为0.5%、1.3%、1.3%、1.8%，mAP提升了1.3%。最后在BIRD-YOLOv8+DSFM模型中引入NWDLoss损失函数后，纵向裂缝、网状裂缝和坑槽分别提升了1.1%、2.3%、6.3%，横向裂缝下降了0.7%，mAP提升了2.2%。

试验结果表明，FCAttention通过聚焦关键特征，抑制无关背景噪声，提高了线性目标和局部显著目标的检测能力，但在处理纹理复杂和结构分散的网状结构时，对空间关系的建模能力不足；LDConv通过动态卷积核自适应复杂纹理的尺度和方向变化，增强了网状裂缝的特征提取能力，但对块状或不规则特征的全局空间关联性产生一定干扰；NWDLoss通过归一化Wasserstein距离增强了对小目标的敏感性对坑槽的效果明显，但削弱了大目标样本的梯度贡献导致部分病害的检测效果有所下降。与BIRD-YOLOv8相比，改进后的模型在横向裂缝、纵向裂缝、网状裂缝及坑槽等典型病害的检测任务中表现出更高的检测精度，增强了对不同目标形态（如线性结构与块状区域）和尺度变化的适应能力，验证了各模块在双模态检测框架中的协同优化效应。引入FCAttention、LDConv、NWDLoss模块后，有效提升了模型对横向裂缝、纵向裂缝、网状裂缝以及坑槽的检测精度，增强了对不同目标形态与尺度的适应能力，验证了各模块在BIRD-YOLOv8中的协同优化效应。

2.5 不同算法模型对比试验

为了评估所提出模型的有效性，对比分析了当前主流的3种双模态目标检测模型，MMTOD^［19］、CMDet^［20］、CFT^［16］。其中，MMTOD是在Faster R-CNN框架上结合红外图像和可见光图像的双模态目标检测模型，将红外和可见光并行输入2个子网络提取特征后，在多层级进行融合。CMDet通过引导一个模态的注意力来自另一个模态提出了用于红外和可见光融合的跨模态特征融合机制，分别提取红外和可见光的特征，经过交叉注意力进行融合后送入检测头，实现了深层融合。CFT使用了Transformer的自注意力机制建模红外和可见光之间的复杂关系，不仅能够融合不同模态还能优化模态自身的特征表示。检测精度与训练轮次关系如图16所示，试验结果见表4。

由表4可知，本研究改进的模型（Ours）与MMTOD、CMDet、CFT相比，总体的检测精度分别提升9%、5.2%、2.6%；横向裂缝检测精度分别提升7.7%、2.8%、1.2%；纵向裂缝检测精度分别提升6.6%、3.4%、0.9%；网状裂缝检测精度分别提升9%、4.4%、2%；坑槽检测精度分别提升12.9%、10.2%、6.6%。试验结果表明，MMTOD采用浅层特征并行融合策略，缺乏充分的模态交互和上下文建模能力；CMDet虽然引入了跨模态注意力机制，实现了深层次的模态引导融合，但仍受限于局部注意力机制，未能全面捕捉模态间的差异信息；CFT利用Transformer结构建立模态间的全局关系，但对结构复杂和纹理模糊的病害仍存在一定局限；相比之下，本研究改进的双模态目标检测算法在所有类别中表现出较好的性能。

3 现场验证

现场试验路段位于赤峰市林区，车辆通行多，路面主要病害为横向裂缝、纵向裂缝、网状裂缝和坑槽。实验采集设备为DJI Mavic 3T设备，固定无人机飞行高度为5 m进行拍摄，如图17所示，。DJI Mavic 3T集成了广角相机、长焦相机和热成像相机，热成像相机分辨率高达640×512，广角相机4 800万像素，长焦相机 1 200万像素，采集数据时开启热成像与可见光相机联动变焦。采用本研究算法模型对采集的路面病害进行自动化检测识别，实验路段的识别效果如图18所示，人工检测和模型检测的病害数量信息结果见表5，模型召回率均在88%以上，横向裂缝检测召回率达到96.7%。

4 结论

研究对比了YOLOv8和YOLOv11在所构建数据集上的检测性能，选用YOLOv8作为基准模型，采用中间特征融合策略，将YOLOv8的单模态输入改为双模态输入结构，提出了BIRD-YOLOv8双模态病害检测模型。结果显示，相较于单模态红外图像和可见光图像，检测精度分别提升了11.3%和4.9%。在此基础上，将FCAttention注意力机制和LDConv卷积结构进行串联，提出了DSFM模块，替换其中的C2f模块，同时引入了NWDLoss损失函数优化模型训练过程。试验结果表明，改进后的模型检测精度达到83.3%，相比原始的BIRD-YOLOv8提高了2.2%。最后，改进后的模型与3种主流的双模态目标检测算法MMTOD、CMDet、CFT进行了对比，验证了本研究改进后模型的优越性，有利于林区道路养护效率的提高。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	韩吉伟，崔亚楠，李嘉迪，等.盐冻循环条件下改性沥青的细观结构及低温流变性能［J］.复合材料学报，2016，33（8）：1718-1724.

[2]	HAN J W， CUI Y N， LI J D，et al.Microstructure and rheological properties at low temperature of modified asphalt under salt freezing cycle［J］.Acta Materiae Compositae Sinica，2016，33（8）：1718-1724.

[3]	谭忆秋，赵立东，蓝碧武，等.反复凝冰作用下沥青混合料性能研究［J］.建筑材料学报，2011，14（6）：761-766，792.

[4]	TAN Y Q， ZHAO L D， LAN B W，et al.Performance of asphalt mixture under repeated condensation of ice［J］.Journal of Building Materials，2011，14（6）：761-766，792.

[5]	傅广文.融雪剂对沥青及沥青混合料性能影响研究［D］.长沙：长沙理工大学，2010.

[6]	FU G W.Research on influence of snowmelt agent to performances of asphalt and asphalt mixture［D］.Changsha：Changsha University of Science & Technology，2010.

[7]	周佳顺，李爽，李骏慧，等.林区道路病害检测与定位系统［J］.林业工程学报，2025，10（1）：152-159.

[8]	ZHOU J S， LI S， LI J H，et al.Forest pavement disease detection and position system［J］.Journal of Forestry Engineering，2025，10（1）：152-159.

[9]	王晓燕，王禧钰，李杰，等.无人机视角下的道路损伤检测算法MAS-YOLOv8n［J］.光电工程，2024，51（10）：240170.

[10]	WANG X Y， WANG X Y， LI J，et al.MAS-YOLOv8n road damage detection algorithm from the perspective of drones［J］.Opto-Electronic Engineering，2024，51（10）：240170.

[11]	安学刚，党建武，王阳萍，等.基于改进YOLOv4的无人机影像路面病害检测方法［J］.无线电工程，2023，53（6）：1285-1294．

[12]	AN X G， DANG J W， WANG Y P，et al.UAV image pavement disease detection based on improved YOLOv4［J］.Radio Engineering，2023，53（6）：1285-1294.

[13]	高明星，关雪峰，范井丽，等.基于改进YOLOv5-DeepSORT算法的公路路面病害智能识别［J］.森林工程，2023，39（5）：161-174.

[14]	GAO M X， GUAN X F， FAN J L，et al.Intelligent recognition of road surface disease based on improved YOLOv5-DeepSORT algorithm［J］.Forest Engineering，2023，39（5）：161-174.

[15]	CAO Z W， YANG H H， ZHAO J，et al.Attention fusion for one-stage multispectral pedestrian detection［J］.Sensors，2021，21（12）：4184.

[16]	ZHU Y H， SUN X Y， WANG M，et al.Multi-modal feature pyramid transformer for RGB-infrared object detection［J］.IEEE Transactions on Intelligent Transportation Systems，2023，24（9）：9984-9995.

[17]	ZHANG H， FROMONT E， LEFEVRE S，et al.Multispectral fusion for object detection with cyclic fuse-and-refine blocks［C］//2020 IEEE International Conference on Image Processing （ICIP）.October 25-28，2020.Abu Dhabi，United Arab Emirates.IEEE，2020：276-280.

[18]	ZHAO M， ZHANG H R.An infrared object detection method based on cross-domain fusion network［J］.Acta Photonica Sinica，2021，50（11）：1110001.

[19]	WANG Q W， CHI Y K， SHEN T，et al.Improving RGB-infrared object detection by reducing cross-modality redundancy［J］.Remote Sensing，2022，14（9）：2020.

[20]	CAO Y， BIN J C， HAMARI J，et al.Multimodal object detection by channel switching and spatial attention［C］//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.June 17-24，2023.Vancouver，BC，Canada.IEEE，2023：403-411.

[21]	ZHANG X， ZHANG X H， WANG J T，et al.TFDet：target-aware fusion for RGB-T pedestrian detection［J］.IEEE Transactions on Neural Networks and Learning Systems，2025，36（7）：13276-13290.

[22]	LI Y W， YU A W， MENG T J，et al.DeepFusion：lidar-camera deep fusion for multi-modal 3D object detection［C］//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.June 18-24，2022.New Orleans，LA，USA.IEEE，2022：17182-17191.

[23]	FANG Q， HAN D， WANG Z.Cross-modality fusion transformer for multispectral object detection［J］.arXiv preprint arXiv：2021.

[24]	SUN H， WEN Y， FENG H J，et al.Unsupervised bidirectional contrastive reconstruction and adaptive fine-grained channel attention networks for image dehazing［J］.Neural Networks，2024，176：106314.

[25]	ZHANG X， SONG Y Z， SONG T T，et al.LDConv：Linear deformable convolution for improving convolutional neural networks［J］.Image and Vision Computing，2024，149：105190.

[26]	DEVAGUPTAPU C， AKOLEKAR N， SHARMA M M，et al.Borrow from anywhere：Pseudo multi-modal object detection in thermal imagery［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.June 16-17，2019.Long Beach，CA，USA.IEEE，2019：1029-1038.

[27]	SUN Y M， CAO B， ZHU P F，et al.Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning［J］.IEEE Transactions on Circuits and Systems for Video Technology，2022，32（10）：6700-6713.