融合多源特征的轻量化深度学习跨场景滑坡智能识别

邢珂; 窦杰; 何雨健; 晏培修; 杨涛; 李喜; 董傲男

doi:10.3799/dqkx.2025.255

地球科学 ›› 2026, Vol. 51 ›› Issue (02) : 657 -673. DOI: 10.3799/dqkx.2025.255

融合多源特征的轻量化深度学习跨场景滑坡智能识别

邢珂 ¹ ,
窦杰 ¹^,²^,³ ,
何雨健 ⁴ ,
晏培修 ⁵ ,
杨涛 ³^,⁶ ,
李喜 ³^,⁶ ,
董傲男 ²

作者信息 +

Lightweight Deep Learning for Cross⁃Scene Landslide Intelligent Recognition with Multi⁃Source Feature Fusion

Ke Xing ¹ ,
Jie Dou ¹^,²^,³ ,
Yujian He ⁴ ,
Peixiu Yan ⁵ ,
Tao Yang ³^,⁶ ,
Xi Li ³^,⁶ ,
Aonan Dong ²

Author information +

文章历史 +

PDF (17284K)

摘要

极端环境因素影响下诱发的区域性滑坡对生命财产安全构成严重威胁. 因此，推进区域性滑坡识别的自动化，提升复杂地形下隐患区域的信息透明度，对地质灾害数据库建设和风险管理至关重要. 深度学习方法提供了有效的解决方案，克服了传统方法自动化程度不足的问题. 然而，现有研究多侧重于模型结构优化与训练策略改进，在多源地形数据的有效融合与跨区域识别能力提升方面仍存在挑战. 针对上述瓶颈，提出了一种具有跨区域识别能力的深度学习ResU⁃CBNet模型. 该模型将空间和通道混合的注意力机制融入神经网络模型，并采用残差网络替换原有普通网络结构. 模型在多尺度特征融合条件下的性能显著优于单一遥感数据，具体表现为PA、CPA、F1_Score、MIoU分别提升2.1%、2.6%、6.9%、2.9%；同时，模型在不同场景、不同光谱波段和空间分布的区域中验证了其跨场景泛化能力，PA和F1_Score分别达到了92.8%、91.3%和83.2%、80.0%的性能，识别效果与实际区域高度吻合.提出的跨场景的识别方法可为滑坡智能识别和风险评估提供一定的参考.

Abstract

Regional⁃scale landslides triggered by extreme environmental factors pose a significant threat to life and property safety. Consequently, advancing the automation of regional landslide identification and enhancing the information transparency of potential hazard zones in complex terrain are paramount for the construction of geological hazard databases and effective risk management.Deep learning methods provide an effective solution, overcoming the problem of insufficient automation in traditional methods. However, existing research primarily focuses on optimizing model architecture and improving training strategies, leaving challenges in the effective fusion of multi⁃source topographic data and the enhancement of cross⁃regional identification capability. To address these bottlenecks, this paper proposes ResU⁃CBNet, a deep learning model with robust cross⁃regional identification capability. The model integrates a hybrid spatial and channel attention mechanism into the neural network and utilizes a residual network to replace the conventional network structure. The model’s performance under multi⁃scale feature fusion conditions significantly outperforms that of single remote sensing data, specifically showing improvements of 2.1% in PA, 2.6% in CPA, 6.9% in F1_Score, and 2.9% in MIoU.Furthermore, the model validates its cross⁃scene generalization capability across regions with different scenarios, spectral bands, and spatial distributions, achieving PA and F1_Score performances of 92.8%, 91.3% and 83.2%, 80.0%, respectively. The identification results demonstrate a high degree of consistency with the actual regions.The cross⁃scene identification method presented here offers a valuable reference for intelligent landslide recognition and risk assessment.

Graphical abstract

关键词

深度学习 / 多源数据 / 注意力机制 / 滑坡识别 / 跨场景.

Key words

deep Learning / multi⁃source data / attention mechanism / landslide recognition / cross⁃scene

引用本文

引用格式 ▾

邢珂,窦杰,何雨健,晏培修,杨涛,李喜,董傲男. 融合多源特征的轻量化深度学习跨场景滑坡智能识别[J]. 地球科学, 2026, 51(02): 657-673 DOI:10.3799/dqkx.2025.255

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

滑坡具有极强的破坏性和突发性，已成为全球范围内威胁人类生命财产安全的重要地质灾害类型（Dou et al.， 2019； Wang et al.， 2023，2024a；何雨健等， 2024； Yang et al.， 2024a）. 据中国自然资源部2022年地质灾害通报数据显示，全国共发生滑坡灾害3919起，占地质灾害总量的69%（唐辉明等， 2022）. 研究表明，地震、水库蓄水等极端条件诱发的区域性滑坡具有规模大、隐蔽性强等特征，仅依靠野外实地勘察、仪器测量、单一遥感数据以及基于像素和面向对象的滑坡灾害识别等众多传统手段开展研究，存在时效性滞后、识别精度有限等问题，难以满足复杂地质环境下的防灾减灾需求（Dou et al.， 2020；窦杰等， 2023；许强等， 2023；殷跃平和高少华， 2024）.

随着遥感影像分辨率与计算能力的不断提升，深度学习方法已逐步成为滑坡识别的重要技术手段（Baghbani et al.， 2022；张世殊等， 2025）. 卷积神经网络（convolution neural network， CNN）在图像特征提取方面表现出优异性能，典型模型如Mask R⁃CNN、YOLO⁃SA、SegNet（squeeze⁃and⁃excitation networks， SegNet）、Deeplab系列、U⁃Net、U⁃Net++等已广泛用于遥感图像语义分割任务中（范荣双等， 2019；巨袁臻等， 2020；Cheng et al.， 2021；Yang et al.， 2022；毛佳琪等， 2023； Dong et al.， 2024）. 语义分割方法能够对图像上每个像素点进行定位和识别，具有优于目标检测方法的预测分类特征. 经过不断改进和优化的模型在滑坡边缘细节的分割上更加精准（Liu et al.， 2023）. 同时，已有学者借助多时相高分辨率遥感影像，利用数据驱动混合模型提高了不同滑坡类型的预测精度（Guo et al.， 2025a）. 然而，现有研究多聚焦于单一光学数据的模型优化，忽视了高程突变、坡向变化等地形因子对滑坡发育的协同控制作用.

为突破单一光学影像在地形遮挡、光照变化等问题上的限制，研究者尝试引入多源数据进行滑坡识别. 融合数字高程模型（digital elevation model，DEM）、坡度、归一化植被指数（normalized difference vegetation index， NDVI）、InSAR （interferometric synthetic aperture radar， InSAR）等高程与地物信息，有助于提升模型对滑坡发生条件的判别能力（Dou et al.， 2025；邢珂等， 2025a）. 同时，针对滑坡智能识别的深度学习研究正逐渐从多源融合向轻量结构设计与区域迁移泛化方向演进. Chen et al.（2024）人结合高分遥感与InSAR形变场，提出多尺度U⁃Net结构用于滑坡早期识别； Yang et al.（2024b）人引入注意力机制强化滑坡边界识别能力；Xiang et al.（2024）人基于Transformer和CNN提出了用于遥感影像的语义分割模型，提升了在高山峡谷区的识别性能；而Xu et al.（2022）人则通过迁移学习策略实现了滑坡识别模型在不同地质区间的迁移泛化. 这些研究为滑坡识别从“精度提升”走向“区域迁移”奠定了基础，但仍存在样本依赖大、模型复杂、对多源信息融合能力不足等问题，尤其在跨区域场景中稳定性与鲁棒性仍待提升.

针对以上问题，本文提出融合多源特征与轻量注意力机制的深度学习模型ResU⁃CBNet，旨在提升模型在复杂地形与多变地貌背景下的跨区域识别能力. 主要贡献如下：构建基于Planet影像、DEM及其派生参数的多通道多源输入，增强了多源信息之间的可分性；在U⁃Net结构基础上，引入了融合空间与通道注意力的残差模块（convolutional block attention module， CBAM）（Woo et al.， 2018），增强模型的特征提取能力；开展多场景跨区域实验，系统评估模型的泛化能力. 通过与已有研究成果对比分析，并结合实地调查和遥感验证，验证了所提方法在震区滑坡智能识别中的适用性与有效性，为地质灾害的快速评估与风险防控提供了技术支撑.

1 研究区与数据源

1.1　研究区概况

本文研究区位于日本北海道地震震中附近，东西范围约23.1 km，南北相距约23.3 km，总面积约538.2 km²（图1a）. 震中位置为42.691°N，142.007°E. 该区断层和活断层发育，南北走向，特别是在石狩断层地区，震中也紧邻该断层. 北海道最低海拔为海平面以下，最高海拔约2 270 m，最大高差约2 275 m，整体地势呈中间高四周低的分布，中部区域发育大量山地山脉，地形起伏较大. 属于温带海洋性气候，全年温湿润，降雨集中在夏季且雨量充沛. 在震前一个月，研究区内持续性降雨，导致山体斜坡土体抗剪强度明显降低，这是此次地震引发大量滑坡的因素之一. 岩性主要由早中新统至中中新统、晚白垩世的沉积岩组成，包括砾岩、泥岩、砂岩等（图1b）. 中部以丘陵地形为主，主要由中新世至上新世的泥岩、粉砂岩、砂岩和砾岩组成；西部主要为全新世河流沉积的砂岩、泥岩、页岩及晚更新世火山碎屑流的松散堆积层. 地层发育大量低渗透性粘性土层，导致雨水入渗后无法及时排出，黏性土层上方的土体达到饱和状态，形成斜坡潜在滑动面，为滑坡的发生提供了有利条件（Osanai et al.， 2019）.

1.2　数据来源

本研究涉及的详细数据如下表1，数据获取后依据图2所示流程开展滑坡智能识别.

1.3　数据处理

本文采用3 m高分辨率的遥感影像进行解译和标签制作. 滑坡的解译标志主要包括形状、纹理和颜色特征等，如舌形、马蹄形、“双沟同源”、流动纹理以及土体周边的光谱差异等（Dou et al.， 2025；邢珂等， 2025b）. 成功解译出了8 994个滑坡，并制作样本标签. 采用单一遥感影像数据和引入地形特征的多源数据集两种样本构建方法. 在多源数据输入识别实验中，由于各数据存在量纲尺度不一致的问题，需要进行预处理统一量纲. 利用光学影像的R、G、B三通道以及DEM、坡度、坡向数据，在通道方向上进行叠加融合，制作了六通道的多源数据集（图3a）. 根据区域面积比例，为避免空间泄漏影响模型评估结果，将多源数据集和掩膜标签分为训练和预测区域，训练集与测试集在空间上互不重叠（图3b）. 为了平衡数据尺寸与GPU资源的利用，裁剪数据集生成256×256像素大小的训练样本，运用GADL库保留了地理坐标信息，最终获得253个训练样本. 同时采用几何变换的数据增强方法扩充样本数量，主要包括90°、180°和270°旋转以及水平翻转，使总训练样本量达到1 518张，是初始数量的6倍.

2 方法

2.1　引入残差网络与卷积注意力机制的ResU⁃CBNet模型

残差网络（residual neural network， ResNet）是由何凯明等人提出的一种深度学习架构，通过引入创新的残差块和残差连接，解决了超深度神经网络训练中的梯度消失和梯度爆炸问题（Zhang et al.， 2018；Shafiq et al.， 2022）. CBAM是一种轻量级注意力模块（图4a），结合了通道和空间注意力机制，有效地提升了网络对输入数据通道和空间维度的关注，优化了计算资源的分配（Wang et al.， 2024b）. 本文在U⁃Net模型的基础上进行了改进，U⁃Net模型存在特征融合缺陷问题，使用ResNet50替代VGG16（visual geometry group 16， VGG16）作为主干网络，并嵌入CBAM，增强了模型对多源数据集特征信息的学习能力. 改进后的模型被命名为ResU⁃CBNet模型（图4b）. 其结构包括编码器、过渡层、解码器和跳跃连接. 编码器负责特征提取和下采样，解码器通过反卷积操作进行上采样，过渡层提取和传递高维特征信息，跳跃连接在下采样和上采样过程中融合特征图像，从而实现了尺寸恢复与特征融合的目标.

2.2　精度评价

采用基于混淆矩阵与分割算法性能的常用图像分割任务的评价指标进行精度评价. 识别评价指标与分割评价指标包括：准确率（accuracy）：预测正确的滑坡像素与非滑坡像素占总像素的比例；精确率（precision）：正确预测为滑坡的像素与所有预测为滑坡的像素的比例；召回率（recall）：正确预测为滑坡的像素占所有滑坡像素的比例；F1分数（F1_Score）：精确率与召回率的调和平均值；MIoU：真实标签与预测结果交并比的平均值，衡量了预测结果与真实标签之间的相似度（Wu et al.， 2023）. 其中，准确率在语义分割任务中对应像素准确率（PA），精确率对应类别像素精确率（CPA）. 计算公式如下：

a c c u r a c y = T P + T N T P + F P + F N + T N

,(1)

p r e c i s i o n = T P T P + F P

,(2)

r e c a l l = T P T P + F N

(3)

F 1_S c o r e = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l

,(4)

M I o U = 1 N ∑ i = 1 N T P i T P i + F P i + F N i

,(5)

式中：TP表示正确预测为滑坡的像素数；FN表示错误预测为非滑坡的像素数；FP表示错误预测为滑坡的像素数；TN表示正确预测为非滑坡的像素数；N表示样本数量.

3 实验结果与分析

3.1　单一光学遥感的识别结果

本研究的实验在统一环境下进行，基于Pytorch1.12.0深度学习框架，Python语言，辅助软件为PyCharm和Anaconda. 硬件配置包括NVIDIA GeForce RTX 3090显卡和AMD Ryzen Thread ripper 3970X CPU，显卡内存为128 GB. 训练设置为100个epoch，采用学习率预热策略和Adam优化算法，初始学习率设为0.000 1. 为了探究不同输入批量大小（batch size）对识别结果的影响，设置了6、10、16三种批量大小. 为了确保模型能够充分学习数据的特征差异，首先使用毕节770张滑坡数据进行模型的预训练. 随后，将1 518张北海道遥感滑坡数据集按9︰1的比例划分为训练集与验证集输入模型，以确保模型在训练过程中能够有效地学习和泛化. 模型训练中采用了Focal Loss与Dice Loss的联合损失函数，用于缓解滑坡样本在遥感影像中的类别不平衡问题，其中，Focal Loss通过对易分类样本降低权重、对难分类样本提升权重，有效防止多数类主导训练过程，提高对少数滑坡像素的学习能力；Dice Loss 则通过直接优化预测分割与真实标签的重叠度，提升对小目标与边界区域的敏感性. 两者结合能够增强模型在不平衡数据集上的稳定性，提高滑坡小目标的recall和整体MIoU. 结果表明：当batch size为16时，ResU⁃CBNet模型的Pix Accuracy、F1分数等值最高，模型表现最佳.

3.1.1　精度评价

损失值可以直观地反映模型在训练过程中的精度收敛效率，通常损失值越低，模型的训练效果越好. 在批量大小为16的情况下，通过观察各模型的训练准确度和损失变化曲线（图5），发现如下结果：FCN （fully convolutional networks，FCN）（Long et al.， 2015）、Deeplabv3（Chen et al.， 2017）、U⁃Net（Ronneberger et al.， 2015）（MobileNet）、LR⁃ASPP （lite reduced atrous spatial pyramid pooling， LR⁃ASPP）（Howard et al.， 2019）、U⁃Net和ResU⁃CBNet分别约为75个、60个、80个、60个、40个epoch收敛. 在训练收敛后，FCN、Deeplabv3和LR⁃ASPP在验证集上的损失值有明显波动，表明模型稳定性较差. 而U⁃Net、U⁃Net（MobileNet）和ResU⁃CBNet的验证集损失值较为平稳，表明稳定性较好. 然而，ResU⁃CBNet在第80个epoch左右出现了轻微波动，可能是由于训练数据差异性所致. 综合收敛速度和稳定性，U⁃Net和ResU⁃CBNet表现较佳. 批量大小是直接影响模型的训练效果和泛化性的关键参数. 较大的批量大小有助于模型更快地收敛以提高训练效率和稳定性，但可能丢失一些局部的关键信息；较小的批量大小则增加了训练的随机性，有助于跳出局部最小值，但也可能导致训练的不稳定性. 为了探索最佳的滑坡识别效果，设置了不同大小批量的对比实验，结果详见表 2.

从实验结果可以看出，当batch size增加时，各模型的性能指标均呈现逐步提升的趋势. 在batch size为6、10、16时，ResU⁃CBNet模型的PA、F1_Score和MIoU分别为93.4%、94.2%、94.5%和82.1%、82.7%、82.9%和84.8%、86.4%、86.7%，精度呈逐步上升趋势. 其他模型的PA、F1_Score和MIoU也随着批量增加分别提升了0.5%~1.7%、0.1%~0.5%和1.4%~2.7%，对于大规模滑坡识别任务而言，这是显著的改善. 这种现象的主要原因是在一定范围内，同一batch size更多样本进入训练，模型学习的特征越多，梯度下降方向越准确，训练震荡越小. 在相同batch size下，ResU⁃CBNet模型表现最佳，各项指标均优于其他模型（图6），尤其在16 batch size下，PA、F1_Score和MIoU分别为94.5%、82.9%、86.7%，相较于FCN、Deeplabv3、U⁃Net（Mobile）、LR⁃ASPP、U⁃Net模型，PA分别提高了7.1%、6.7%、4.8%、3.4%、1.3%，F1_Score分别高出了20.1%、18.9%、3.5%、2.2%、1.2%，MIoU分别提高了21.5%、20.8%、7.6%、16.5%、2.1%. 这得益于ResU⁃CBNet模型的残差结构和CBAM的空间注意力机制，解决了过拟合问题并提高了特征提取效率.

不同batch size对识别结果的影响主要体现在边界分割上（图7）. 以ResU⁃CBNet模型为例，当batch size为6时，模型虽然能大致分割出滑坡，但边界刻画存在模糊与不清晰的问题. 随着batch size的增加，模型对边界的分割逐渐细致. 当batch size达到16时，识别出的滑坡边界几乎与标签值重合. 这是因为当batch size数据量较少时，模型学习的特征有限，增加批量数据能更全面地学习特征，从而最大程度地提升滑坡边界的刻画效果. 各模型识别结果如图8. 传统语义分割模型在预测区域的识别效果整体表现较好，能够识别出滑坡的大致范围和位置. 滑坡主要集中在预测区的西南部. 值得注意的是，图中识别出的滑坡边界多为未被植被覆盖的区域，其轮廓在遥感影像中较为清晰. 而实际滑坡边界可能由于季节性植被恢复而被遮挡、强阳光反射或云影影响纹理表达，导致视觉清晰度与真实边界之间存在偏差. 因此，仅以边界清晰度判断模型优劣存在局限性，需结合整体召回率、F1分数等指标综合评价.

3.1.2　网络模型对比

网络模型对比定量分析对应于表2中batch size=16的实验结果. 图9显示，FCN和Deeplabv3模型在像素识别的准确率上表现良好，但召回率较差. 主要原因是输入网络的影像中“非滑坡”背景部分占比较大，类似于大范围场景下的小目标识别分割，容易识别出负样本，导致正确提取滑坡像素较为困难，识别的滑坡呈现“成块”、边界模糊等特点，同时存在将相邻滑坡识别成一个或将背景误识别为滑坡的情况. 相较于前两种模型，LR⁃ASPP模型的识别效果明显提升，PA值达到91.1%，MIoU值突破70%，边界刻画显著改善. U⁃Net、U⁃Net（MobileNet）和ResU⁃CBNet模型的整体识别效果优于前述模型. 尽管U⁃Net在PA值上略低于LR⁃ASPP，但MIoU高出8.9%，表明U⁃Net比LR⁃ASPP更接近真实标签值. ResU⁃CBNet模型相比其他两个U⁃Net系列模型，MIoU分别高出7.6%与2.1%，滑坡像素预测更准确，表明其识别结果与真实标签之间的相似程度最高. ResU⁃CBNet在6种模型中对滑坡边界的刻画效果最佳，能够精确捕捉空间信息，分割出滑坡边界和细节，对于每个单体滑坡或相邻滑坡间的连通部分都能进行精确划分. 这表明在单一光学遥感数据输入下，ResU⁃CBNet模型具有出色的特征提取和空间注意能力，各指标都有明显提升，显著改善了识别效果.

此外值得注意的是，图9所示准确率对比中，部分模型在实际场景小尺度区域中，表现出相似误判趋势. 滑坡周边常分布有裸岩、崩积物、工程扰动等具有相似光谱与纹理特征的地物，容易引起ResU‑CBNet等深度模型的混淆判别，进而降低准确率. 虽然本文提出模型在recall与F1_Score值方面表现优越，识别能力强于传统方法，但在类似背景下仍存在精度下降的可能. 未来工作将考虑通过引入LiDAR形变特征、拓展小区域一致性约束策略以降低相似地物误识别带来的影响.

3.2　引入地形特征下的多源数据识别结果

实验平台、评价指标以及超参数的选取与2.2部分完全一致，其中批量大小选取16. 根据1.3节的内容，本文制作了引入地形特征的多源数据集，对量纲尺度不一致的数据进行了预处理统一量纲，六通道融合顺序采用统一规范输入，模型通过共享卷积核对所有通道进行联合特征提取. 为验证引入地形因子后多源数据输入对滑坡识别结果的影响，选取了ResU⁃CBNet模型，结合2.2部分设置了不同数据源的对照实验，实验数据输入对照分为3组：第一组，仅光学遥感影像；第二组，仅地形因子的数据集；第三组，光学遥感影像与地形因子融合的数据集. 结果表明：引入多源数据后FCN、U⁃Net等模型精度有所提高，ResU⁃CBNet模型的PA、F1_Score等值提升幅度最大.

3.2.1　精度评价

不同数据源输入下的实验结果评估如表3所示，引入地形因子的多源数据相较于单一光学遥感数据，识别效果显著提升. 具体表现为PA、CPA、F1_Score和MIoU分别提高了2.1%、2.6%、6.9%和2.9%. 然而，仅靠地形特征进行识别的实验组表现较差，PA为71.4%，但MIoU与F1_Score分别为51.9%和48.1%，远低于预期水平. 由3.1节的实验结果可知，单一光学遥感数据输入下的识别效果已有不错的表现. 这表明在深度学习滑坡自动识别任务中，光学遥感数据中滑坡与背景之间的光谱、纹理等明显差异信息是不可或缺的. 仅依靠地形特征数据进行滑坡识别，网络无法学习到有用特征，不能作为独立的数据源进行识别. 然而，将地形特征与光学遥感数据融合作为辅助型数据，为网络学习提供了可靠信息，有效提高了识别效果. 地形因子在光谱特征不明显或小规模滑坡区域中的作用尤为关键. 在这类区域，光学数据的对比度较弱，滑坡特征可能被其它地物掩盖，导致模型难以有效区分滑坡与背景. 这时，如坡度和坡向等地形因子，能为模型提供额外的地形信息，帮助其识别那些在光学影像中难以分辨的滑坡区域. 因此，地形数据的引入不仅提升了滑坡识别的整体精度，也弥补了光学数据在特定环境下的不足.

3.2.2　网络模型对比

在多源数据输入的识别对比中，FCN、Deeplabv3和U⁃Net模型相较于3.1节中单一遥感影像数据输入下的识别结果均有所提升（图10）. FCN模型的PA提高了1.5%，F1_Score提高了0.3%，MIoU提高了1%；Deeplabv3模型PA提高了1.5%，F1_Score提高了0.2%，MIoU提高了0.6%；U⁃Net模型PA提高了0.2%，F1_Score提高了0.1%，MIoU提高了0.3%. 值得注意的是，这些传统模型的性能提升幅度不如ResU⁃CBNet大. 可能的原因是，虽然传统模型受益于多源数据的信息增加，一定程度上提升了识别效果，但由于其网络结构的限制，无法充分关注和利用这些信息，从而限制了提升幅度.

通过消融实验验证CBAM在模型中的重要性. 设计了无CBAM的ResU⁃Net模型与ResU⁃CBNet进行比较. 由于本研究的主要目标是验证注意力机制对滑坡识别效果的影响，因此在保持基础骨干网络ResNet结构一致的前提下进行了模块级别的消融分析. 结果显示（表4），PA、F1_Score、MioU值分别下降了2.7%、5.6%和3.1%，表明CBAM在多源数据的信息处理中扮演了重要角色. ResU⁃Net在多源数据输入下的MIoU值略低于ResU⁃CBNet在单一光学数据输入下的结果，主要是因为ResU⁃CBNet模型中的CBAM能够更好地关注光学数据的空间特征. 这也说明了在滑坡识别任务中，光学遥感数据是神经网络结构的主要识别依据，为特征信息的提取提供了重要参考. ResU⁃CBNet在多源数据输入下的表现最佳，其PA值分别比FCN、Deeplabv3、U⁃Net、ResU⁃Net高出了7.7%、7.3%、3.2%、2.7%，F1_Score分别高出了26.7%、25.6%、8.0%、5.6%，MIoU值分别高出了23.4%、23.1%、4.7%、3.1%（图11）. 从局部识别效果来看，FCN和Deeplabv3的分割精度仍然有待提高，U⁃Net在滑坡的分割方面表现不错，能较好地识别滑坡但存在背景误判问题，而ResU⁃Net由于引入了残差结构，减少了滑坡误判，但提高不明显. ResU⁃CBNet在识别效果中表现最优，能够对每一处滑坡进行精准的识别，与真实标签的吻合度最高.

综合3.1节和3.2节的实验结果，发现U形结构的语义分割模型相较于传统模型表现更为出色，特别适用于大范围区域内小目标物体的提取和分割任务，这对于区域性滑坡的识别具有重要意义. 其优势在于编码器-解码器结构能够有效地整合底层和高层信息，准确捕捉滑坡与背景之间的特征关系，同时通过多次上采样过程融合了不同尺度的特征信息，提升了边界分割的精度. 此外，ResU⁃CBNet在多源数据输入下的效果显著优于单一遥感数据输入时的表现，这主要归因于多源数据能够充分利用卷积注意力模块和残差结构的优势. CBAM能够有效地利用空间和通道信息，提升了特征的抽取效率和重要性加权，而残差结构的捷径连接有助于梯度在网络中更顺畅地传播，有效避免了梯度消失和爆炸问题，从而显著提升了识别效果. 这些结果进一步突显了ResU⁃CBNet在区域性滑坡识别任务中的卓越性能和优势.

为评估 ResU⁃CBNet 的轻量化性能，统计了模型参数量与推理速度. ResU⁃CBNet 总参数量约98 M，其中CBAM模块仅占不足0.04%（32 768），对计算开销几乎无影响. 在NVIDIA GeForce RTX 3090上，输入256×256的多源图像单张推理耗时8.2 ms（≈122 FPS），具备无人机或边缘端近实时部署的可行性.

4 模型泛化性跨场景测试

为了验证ResU⁃CBNet模型的跨场景的泛化能力，分别选取了2022年泸定地震诱发的滑坡区域得妥镇的无人机正射影像和公开的四川滑坡数据集作为测试数据进行滑坡识别测试. 日本北海道和四川两个区域在诱发机制、岩性组合、地形坡度分布和气候类型等方面存在显著差异. 这种地质条件和触发因子的差异会直接影响滑坡形成的地貌特征与遥感纹理特征，从而对模型跨区域识别提出更高要求，两个区域地质条件特征对比如下表5：

4.1　泸定地震诱发滑坡区域

以受灾严重的得妥镇为例，利用高分辨率无人机影像，基于在北海道数据集上训练的ResU⁃CBNet模型进行滑坡识别. 由于高分辨率无人机影像需要更大尺度范围的像元来完整表达一个滑坡，因此调整样本输入尺寸为1 024×1 024像素. 识别结果图12显示，尽管在部分受光线影响的区域存在分割不精确和少量误识的问题，但整体识别效果较好，红色区域基本圈出了滑坡的边界，并且与实际情况基本吻合. 这进一步验证了改进的ResU⁃CBNet模型在泸定地震诱发的滑坡区域高分辨率影像上的有效性和泛化能力. 此外，为保障泛化测试公平性，本文未对泸定区域进行微调，确保模型性能体现其结构设计本身的优势，而非依赖局部优化或场景拟合.

4.2　四川滑坡泥石流数据

选择四川滑坡泥石流数据集中的滑坡正射影像作为测试数据. 结果显示，模型整体识别效果良好，能清晰地分割出滑坡（图13）. 尽管在部分边界的刻画方面存在一些不足，并在遥感图像纹理差异较微的区域可能出现漏判或误判情况，但总体来看，识别效果已经满足滑坡识别的需求，进一步验证了ResU⁃CBNet模型具备良好的跨场景泛化能力.

为定量评估 ResU⁃CBNet 的跨场景泛化能力，本文计算了泸定地震和四川滑坡数据集的像素精度（PA）、类别像素精度（CPA）、召回率（recall）、F1 分数（F1）及平均交并比（MIoU），结果如表6所示. 模型在泸定地震无人机高分辨率影像中达到PA：92.8%、F1：83.2%、MIoU：81.2%；在四川滑坡数据集中取得PA：91.3%、F1：80.0%，表明模型在不同地质和光谱条件下依然保持较强的泛化能力，与图12和图13的识别效果高度一致.

5 讨论

ResU⁃CBNet在多源数据输入下的性能优势（F1_Score=89.8%，MIoU=89.6%）主要源于以下机制：残差网络通过跳跃连接缓解了深层网络梯度衰减问题，使模型能有效学习地形突变特征；CBAM模块通过通道重标定赋予DEM衍生参数更高的权重，借助可解释性人工智能（explainable artificial intelligence， XAI）技术Grad⁃CAM（Selvaraju et al.， 2017）生成可视化热图，通过使用最终卷积层输出类的梯度，突显神经网络在预测区域的重要特征区域，强化了地形因子对滑坡边界的约束作用. 如图14梯度热力图中颜色从蓝到红，随着颜色的加深，模型对滑坡识别结果的贡献越大，表明模型对识别滑坡的兴趣较高. 滑坡边缘与沟槽区域呈现高响应，有助于提高边界刻画精度；阴影或低对比度区域通过通道注意力增强了对坡度、坡向等地形因子的利用，降低了漏检率；在裸岩、崩积物、道路等复杂背景区域，模型关注度降低，有效抑制了误判. 以滑坡3为例，其梯度热力图中红-黄色高响应区域准确覆盖了滑坡体主沟槽和两侧扩展区，边界部分呈现出颜色由黄向蓝渐变的特征，显示模型对于边界过渡区具有较强的判别能力.

本研究验证了ResU⁃CBNet模型在跨区域滑坡识别中的性能优势，尤其在边界特征清晰、强降雨诱发等区域表现优异. 然而，面向实际应用中的复杂地表场景，如植被遮盖滑坡、云影干扰区域等，仍需引入不同气候区红外、多时相及形变等数据源融合，增强模型的特征感知与空间泛化能力.

ResU⁃CBNet在跨区域测试中具有较好的泛化能力，归因于空间注意力机制对地形异质性的自适应捕捉能力. 然而，当前方法对光谱特征的依赖度较高，未纳入多时间尺度降雨、地下水位、岩土参数等，缺乏高分辨率、空间连续的公开数据资源关键因子特征，未考虑多时相数据和动态过程监测数据（Guo et al.， 2025b）. 后续研究可以构建跨构造单元滑坡数据库，涵盖板块碰撞带、走滑断裂带等多元地质背景；发展多物理场耦合特征提取方法，集成InSAR形变监测数据与岩土力学参数，构建“光学-地形-物理场”三维信息融合体系（图15）；考虑基于大语言模型的样本自动构建和标签自动标注. 同时，加强模型在冰川前缘、喀斯特等复杂地貌下不同场景间的适用性与迁移能力量化分析，进一步提升滑坡识别方法在区域间的可推广性. ResU⁃CBNet在保持高精度的同时，模型参数适中、推理速度快，可在无人机或嵌入式GPU平台上实现近实时滑坡识别. 未来可结合模型压缩、TensorRT加速与ONNX部署技术，进一步提升边缘端运行效率，实现应急灾害快速响应.

6 结论

本研究针对多源数据融合在滑坡识别中的关键挑战，提出并验证了一种创新的深度学习模型，主要结论如下：

（1）提出了改进后的语义分割模型ResU⁃CBNet，以ResNet50作为特征提取的主干网络，并嵌入了卷积注意力机制，使得模型能够在空间和通道上自适应地学习相应的权重. 与传统模型相比，ResU⁃CBNet在多源数据输入下的滑坡识别F1_Score达89.8%，说明多源数据和优化模型在滑坡识别中起到了重要作用；

（2）构建的六波段多源特征数据集通过光谱-地形特征协同表征，使模型MIoU指标提升至89.6%，验证了引入地形因子后的多源数据相较于单一光学遥感数据有更好的识别效果，各模型的指标均有明显提高，证实了多源数据融合对滑坡边界分割的优化作用；

（3）基于改进模型的智能识别结果，开展泸定区域的无人机高分辨率影像和四川周边滑坡数据集的跨区域泛化性测试，ResU⁃CBNet模型分别取得PA=92.8%、F1=83.2%和PA=91.3%、F1=80%的性能，均表现良好的学习能力与稳定性，识别结果与实际滑坡区域吻合情况较好，显示出一定的跨场景泛化能力.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Baghbani, A., Choudhury, T., Costa, S., et al., 2022. Application of Artificial Intelligence in Geotechnical Engineering: a State⁃of⁃the⁃Art Review. Earth⁃Science Reviews, 228: 103991. https://doi.org/10.1016/j.earscirev.2022.103991

[2]	Chen, H. S., He, Y., Zhang, L. F., et al., 2024. A Multi⁃Input Channel U⁃Net Landslide Detection Method Fusing SAR Multisource Remote Sensing Data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 17: 1215-1232.https://doi.org/10.1109/JSTARS.2023.3339294

[3]	Chen, L. C., Papandreou, G., Schroff, F., et al., 2017. Rethinking Atrous Convolution for Semantic Image Segmentation. arXiv preprint, 1706.05587.https://doi.org/10.48550/arXiv.1706.05587

[4]	Cheng, L. B., Li, J., Duan, P., et al., 2021. A Small Attentional YOLO Model for Landslide Detection from Satellite Remote Sensing Images. Landslides, 18(8): 2751-2765. https://doi.org/10.1007/s10346⁃021⁃01694⁃6

[5]	Dong, A. N., Dou, J., Li, C. D., et al., 2024. Accelerating Cross⁃Scene Co⁃Seismic Landslide Detection through Progressive Transfer Learning and Lightweight Deep Learning Strategies. IEEE Transactions on Geoscience and Remote Sensing, 62:4410213.https://doi.org/10.1109/TGRS.2024.3424680

[6]	Dou, J., Xiang, Z. L., Xu, Q., et al., 2023. Application and Development Trend of Machine Learning in Landslide Intelligent Disaster Prevention and Mitigation. Earth Science, 48(5): 1657-1674 (in Chinese with English abstract).

[7]	Dou, J., Xing, K., Wang, L. Z., et al., 2025. Air⁃Space⁃Ground Synergistic Observations for Rapid Post⁃Seismic Disaster Assessment of 2025 Ms6.8 Xigazê Earthquake, Xizang. Journal of Earth Science, 36(4): 1605-1622. https://doi.org/10.1007/s12583⁃025⁃0160⁃2

[8]	Dou, J., Yunus, A. P., Bui, D. T., et al., 2020. Improved Landslide Assessment Using Support Vector Machine with Bagging, Boosting, and Stacking Ensemble Machine Learning Framework in a Mountainous Watershed, Japan. Landslides, 17(3): 641-658. https://doi.org/10.1007/s10346⁃019⁃01286⁃5

[9]

Dou, J., Yunus, A. P.,Bui, D. T., et al., 2019. Assessment of Advanced Random Forest and Decision Tree Algorithms for Modeling Rainfall⁃Induced Landslide Susceptibility in the Izu⁃Oshima Volcanic Island, Japan. Science of the Total Environment, 662: 332-346. https://doi.org/10.1016/j.scitotenv.2019.01.221

[10]	Fan, R. S., Chen, Y., Xu, Q. H., et al., 2019. A High⁃Resolution Remote Sensing Image Building Extraction Method Based on Deep Learning. Acta Geodaetica et Cartographica Sinica, 48(1): 34-41 (in Chinese with English abstract).

[11]

Guo, Z. Z., Cheng, M. C., Wang, Y. G., et al., 2025a. Landslide Hazard Prediction under an Extreme Rainfall Scenario by Considering Multiple Timescale Rainfalls and Effective Recharge. Georisk: Assessment and Management of Risk for Engineered Systems and Geohazards, 19(4): 775-803. https://doi.org/10.1080/17499518. 2025. 2570863

[12]

Guo, Z. Z., Zeng, T. R., Zhang, Y. H., et al., 2025b. A Novel Hybrid Model Integrating High Resolution Remote Sensing and Stacking Ensemble Techniques for Landslide Susceptibility Mapping: Application to Event⁃Based Landslide Inventory. Geomorphology, 486: 109886. https://doi.org/10.1016/j.geomorph.2025.109886

[13]

He, Y. J., Dou, J., Wang, X. K., et al., 2024. Comparison on the Application of the Software for Image⁃Free Control UAV Data Processing of Digital Landslide: a Case Study of Huangtupo Landslide in the Three Gorges Reservoir Area. The Chinese Journal of Geological Hazard and Control, 35(5): 160-173 (in Chinese with English abstract).

[14]	Howard, A., Sandler, M., Chu, G., et al., 2019.Searching for MobileNetV3.IEEE, 2020. https://doi.org/10.1109/ICCV.2019.00140

[15]	Ju, Y. Z., Xu, Q., Jin, S. C., et al., 2020. Automatic Object Detection of Loess Landslide Based on Deep Learning. Geomatics and Information Science of Wuhan University, 45(11): 1747-1755 (in Chinese with English abstract).

[16]	Liu, X. R., Peng, Y. X., Lu, Z. L., et al., 2023. Feature⁃Fusion Segmentation Network for Landslide Detection Using High⁃Resolution Remote Sensing Images and Digital Elevation Model Data. IEEE Transactions on Geoscience and Remote Sensing, 61:4500314. https://doi.org/10.1109/TGRS.2022.3233637

[17]	Long, J., Shelhamer, E., Darrell, T., 2015. Fully Convolutional Networks for Semantic Segmentation.2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12, 2015, Boston, MA, USA. IEEE: 3431-3440.https://doi.org/10.1109/CVPR. 2015. 7298965

[18]	Mao, J. Q., He, J., Liu, G., et al., 2023. Landslide Recognition Based on Improved DeepLabV³⁺ Algorithm. Journal of Natural Disasters, 32(2): 227-234 (in Chinese with English abstract).

[19]	Osanai, N., Yamada, T., Hayashi, S. I., et al., 2019. Characteristics of Landslides Caused by the 2018 Hokkaido Eastern Iburi Earthquake. Landslides, 16(8): 1517-1528. https://doi.org/10.1007/s10346⁃019⁃01206⁃7

[20]	Ronneberger, O., Fischer, P., Brox, T., 2015. U⁃Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer⁃Assisted Intervention:MICCAI 2015. Cham:SpringerInternationalPublishing:234-241. https://doi.org/10.1007/978⁃3⁃319⁃24574⁃4_28

[21]	Selvaraju, R. R., Cogswell, M., Das, A., et al., 2017. Grad⁃CAM: Visual Explanations from Deep Networks via Gradient⁃Based Localization.2017 IEEE International Conference on Computer Vision (ICCV).October 22-29, 2017, Venice, Italy.IEEE: 618-626.https://doi.org/10.1109/ICCV.2017.74

[22]	Shafiq, M., Gu, Z. Q., 2022. Deep Residual Learning for Image Recognition: a Survey. Applied Sciences, 12(18): 8972. https://doi.org/10.3390/app12188972

[23]	Tang, H. M., Li, C. D., Hu, W., et al., 2022. What Is the Physical Mechanism of Major Landslides? Earth Science, 47(10): 3902-3903 (in Chinese with English abstract).

[24]	Wang, H. H., Liu, J., Zeng, S. K., et al., 2024a. A Novel Landslide Identification Method for Multi⁃Scale and Complex Background Region Based on Multi⁃Model Fusion: YOLO + U⁃Net. Landslides, 21(4): 901-917. https://doi.org/10.1007/s10346⁃023⁃02184⁃7

[25]

Wang, Q. Y., Tang, H. M., An, P. J., et al., 2024b. Insight into the Permeability and Microstructure Evolution Mechanism of the Sliding Zone Soil: a Case Study from the Huangtupo Landslide, Three Gorges Reservoir, China. Journal of Earth Science, 35(3): 941-954. https://doi.org/10.1007/s12583⁃023⁃1828⁃0

[26]	Wang, X. M., Yin, J., Luo, M. H., et al., 2023. Active High⁃Locality Landslides in Mao County: Early Identification and Deformational Rules. Journal of Earth Science, 34(5): 1596-1615. https://doi.org/10.1007/s12583⁃021⁃1505⁃0

[27]	Woo, S., Park, J., Lee, J.Y., et al., 2018. CBAM: Convolutional Block Attention Module. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y., eds., Computer Vision⁃ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, 11211. Springer, Cham. https://doi.org/10.1007/978⁃3⁃030⁃01234⁃2_1.

[28]	Wu, Z. B., Li, H., Yuan, S. X., et al., 2023. Mask R⁃CNN⁃Based Landslide Hazard Identification for 22.6 Extreme Rainfall Induced Landslides in the Beijiang River Basin, China. Remote Sensing, 15(20): 4898. https://doi.org/10.3390/rs15204898

[29]	Xiang, X. Y., Gong, W. P., Li, S. L., et al., 2024. TCNet: Multiscale Fusion of Transformer and CNN for Semantic Segmentation of Remote Sensing Images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,17:3123-3136. https://doi.org/10.1109/JSTARS. 2024.3349625

[30]	Xing, K., Dou, J., Chen, N. C., et al., 2025. Landslide Feature Interpretation and Stability Assessment Using Optical⁃LiDAR Synergy and High⁃Resolution 3D Modeling. Journal of Natural Disasters, 34(3): 119-132 (in Chinese with English abstract).

[31]	Xing, K., Li, H., Zhang,L.L., et al., 2025. Analysis of Surface Rupture and Seismic Damage Characteristics of 2025 Dingri Ms6.8 Earthquake in Xizang. Safety and Environmental Engineering, 32(2): 20-30 (in Chinese with English abstract).

[32]	Xu, Q. S., Ouyang, C. J., Jiang, T. H., et al., 2022. MFFENet and ADANet: a Robust Deep Transfer Learning Method and Its Application in High Precision and Fast Cross⁃Scene Recognition of Earthquake⁃Induced Landslides. Landslides, 19(7): 1617-1647. https://doi.org/10.1007/s10346⁃022⁃01847⁃1

[33]	Xu, Q., Dong, X. J., Zhu, X., et al., 2023. Landslide Collaborative Observation Technology Based on Real Scene 3D View from Space⁃Air⁃Ground⁃Interior Perspective. Journal of Engineering Geology, 31(3): 706-717 (in Chinese with English abstract).

[34]

Yang, Y. C., Dou, J., Merghadi, A., et al., 2024a. Advanced Prediction of Landslide Deformation through Temporal Fusion Transformer and Multivariate Time⁃Series Clustering of InSAR: Insights from the Badui Region, Eastern Tibet. IEEE Transactions on Geoscience and Remote Sensing, 62: 4514219. https://doi.org/10.1109/TGRS. 2024.3504241

[35]

Yang, Y. H., Miao, Z. L., Zhang, H., et al., 2024b. Lightweight Attention⁃Guided YOLO with Level Set Layer for Landslide Detection from Optical Satellite Images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,17:3543-3559. https://doi.org/10.1109/JSTARS.2024.3351277

[36]	Yang, Z. Q., Xu, C., 2022. Efficient Detection of Earthquake⁃Triggered Landslides Based on U⁃Net++: an Example of the 2018 Hokkaido Eastern Iburi (Japan) Mw=6.6 Earthquake. Remote Sensing, 14(12): 2826. https://doi.org/10.3390/rs14122826

[37]	Yin, Y. P., Gao, S. H., 2024. Research on High⁃Altitude and Long⁃Runout Rockslides: Review and Prospects. The Chinese Journal of Geological Hazard and Control, 35(1): 1-18 (in Chinese with English abstract).

[38]	Zhang, S. S., Li, Q. C., Li, H., et al., 2025. Intelligent Glacial Lake Identification in Complex Plateau Terrain Regions Using Multi⁃Source Remote Sensing Data and Mask R⁃CNN Deep Learning Model. Earth Science, 50(8): 3132-3143 (in Chinese with English abstract).

[39]	Zhang, Z. X., Liu, Q. J., Wang, Y. H., 2018. Road Extraction by Deep Residual U⁃Net. IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753. https://doi.org/10.1109/LGRS.2018.2802944

基金资助

国家自然科学基金面上项目(42477170)

国家自然科学基金重大项目(42090054)

资源与生态环境地质湖北省重点实验室开放基金项目(HBREGKFJJ⁃202411)

AI Summary AI Mindmap

PDF (16880KB)

访问

被引

详细

导航

Received	Accepted	Published
2025-10-13
Issue Date
2026-05-13

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引言

1 研究区与数据源

1.1 研究区概况

1.2 数据来源

1.3 数据处理

2 方法

2.1 引入残差网络与卷积注意力机制的ResU⁃CBNet模型

2.2 精度评价

3 实验结果与分析

3.1 单一光学遥感的识别结果

3.1.1 精度评价

3.1.2 网络模型对比

3.2 引入地形特征下的多源数据识别结果

3.2.1 精度评价

3.2.2 网络模型对比