基于PU-Bagging负样本采样的白龙江流域泥石流易发性分级评价

万芹江 ,  郑鸿超 ,  王洪磊 ,  吴彬 ,  石振明 ,  李元伟

地球科学 ›› 2025, Vol. 50 ›› Issue (10) : 4044 -4058.

PDF (9897KB)
地球科学 ›› 2025, Vol. 50 ›› Issue (10) : 4044 -4058. DOI: 10.3799/dqkx.2025.117

基于PU-Bagging负样本采样的白龙江流域泥石流易发性分级评价

作者信息 +

Classification Assessment of Debris Flow Susceptibility in Bailong River Basin Based on PU-Bagging Negative Sampling

Author information +
文章历史 +
PDF (10134K)

摘要

为提高白龙江流域泥石流易发分区的可靠性,建立随机森林为基学习器的PU-Bagging负样本采样模型.选取高程、降水量等评价因子,使用逻辑回归、随机森林、支持向量机和XGBoost算法,构建白龙江流域泥石流易发性评价模型.根据混淆矩阵衍生的评价指标、ROC曲线和5种分级方法,对比分析了4种模型的性能,并利用SHAP分析评价因子对模型的贡献程度.结果表明:(1)支持向量机模型结合几何间隔分级方法的灾害识别精度提升了24%.(2)随机森林模型能够识别更多的潜在泥石流样本,而XGBoost模型可减少对非灾害样本的误判.(3)SHAP值对高程变化的敏感性间接反映了高差对泥石流发育的重要性.本研究可以为白龙江流域新型城镇化建设与泥石流防治工程的规划提供数据支撑.

Abstract

To improve the reliability of the debris flow-prone zones in the Bailong River Basin, a PU-Bagging negative sampling model based on the random forest as the base learner is established. Evaluation factors such as elevation and precipitation were selected, and logistic regression, random forest, support vector machine and XGBoost algorithms were used to construct an evaluation model for the susceptibility of debris flows in the Bailong River Basin. Based on the evaluation indicators derived from the confusion matrix, the ROC curve and five classification methods, the performances of the four models were compared and analyzed, and the contribution degree of the evaluation factors to the model was analyzed by using SHAP. The results show follows. (1) The disaster identification accuracy of the support vector machine model combined with the geometric interval classification method has increased by 24%. (2) The random forest model can identify more potential debris flow samples, while the XGBoost model can reduce the misjudgment of non-disaster samples. (3) The sensitivity of SHAP values to elevation changes indirectly reflects the importance of height differences for the development of debris flows. This research can provide data support for the planning of the new urbanization construction and debris flow prevention and control project in the Bailong River Basin.

Graphical abstract

关键词

白龙江流域 / 负样本采样 / 易发性 / 泥石流 / 分级方法 / 工程地质学.

Key words

Bailong River Basin / negative sampling / susceptibility / debris flow / classification method / engineering geology

引用本文

引用格式 ▾
万芹江,郑鸿超,王洪磊,吴彬,石振明,李元伟. 基于PU-Bagging负样本采样的白龙江流域泥石流易发性分级评价[J]. 地球科学, 2025, 50(10): 4044-4058 DOI:10.3799/dqkx.2025.117

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

我国地貌广阔、地质条件复杂,山区面积占全国总面积的2/3,山区地质灾害频发.据国家统计局《中国统计年鉴2024》显示,2014—2023年我国共发生地质灾害68 885起,其中泥石流具有较大的密度,浮托力大、搬运能力强,受气象水文条件控制,一旦爆发破坏力极大,由此产生的链生灾害威胁沟道附近及其下游的各类构筑物、建筑物(刘传正和王建新, 2024).白龙江流域构造复杂、地震活动频繁,强降雨作用下大规模、群发性泥石流频发,如2010年8月的三眼峪特大泥石流造成1 471人遇难,冲毁房屋5 500余间,掩埋、破坏耕地超0.933 0 km2,损坏各类桥梁共8座,直接经济损失约36亿;2020年8月的陇南群发性泥石流造成18人遇难,超6 000间房屋损毁,直接经济损失超30亿.因此开展白龙江流域的区域地质灾害调查,特别是区域泥石流易发性评价,对防灾减灾工作意义重大.

传统的易发性评价方法包括专家打分、层次分析法、信息量法、证据权、概率比模型和其他数理统计分析等方法.但往往需要进行评价因子分级和因子赋分,主观性较强,模型精度低.机器学习方法克服了人为分级赋分的局限性,利用数据驱动建立的评价模型可以进一步挖掘评价因子对易发分区的影响关系.基于不同研究区的基础地质资料,选取不同的机器学习模型和评价单元,可有效提升易发性评价结果的可靠性.常用的机器学习模型有决策树(林炫歆等, 2023)、支持向量机(Sun et al., 2023)、逻辑回归(Huang and Zhao, 2018)、随机森林(Merghadi et al., 2020)和梯度提升决策树(Yang et al., 2023)、神经网络(Huang et al., 2020)以及各种耦合模型(周超等, 2020;孔嘉旭等, 2023)等.评价单元包括栅格单元、斜坡单元、行政单元和流域单元等(Martinello et al., 2021).栅格单元在计算上面有更好的优势,但其破坏了地质灾害单元的完整性(曹苏傲等, 2025).流域单元很大程度上保证了单元划分的完整性,但其覆盖范围过大,不利于提取灾害点和非灾害点的特征(Xiong et al., 2020).斜坡单元相较于流域单元有更小的面积,亦能反映灾害点所处单元的孕灾条件(黄启乐等, 2018).李坤等(2022)基于BP神经网络模型,采用水文分析法和曲率分水岭法两种斜坡单元划分方法评价东川泥石流的易发性,结果表明曲率分水岭法AUC值更高,更适用于泥石流评价.当前,白龙江流域地质灾害易发性的研究仍以栅格单元为主,基于曲率分水岭法划分斜坡单元的易发性分级评价较少.

易发性评价的数据样本包括灾害点(正样本)和非灾害点(负样本).由于易发性评价中正样本主要是通过野外调查所确定的,与负样本相比数量少,所构成的数据集具有显著的不平衡性(田尤等, 2024).Wu et al.(2024)基于决策树、随机森林、Adaboost和梯度树增强模型,分析了平衡数据集和不平衡数据集在易发分区的效果,结果表明使用平衡数据集的模型可以最小化假阴性数量,在高易发区和极高易发区上分布更多的灾害点.非灾害点的选取方法有随机生成采样(杜国梁等, 2021)、信息量法采样(刘坚等, 2018)、缓冲区控制采样(邓明东等, 2024)、地理信息相似度采样(刘国栋等, 2023)和机器学习算法采样(王悦等, 2024)等方法.杜国梁等(2021)采用随机生成负样本建立逻辑回归-信息量易发性评价模型,组合模型集成了逻辑回归和信息量的优势,但低易发区灾害点比例较高.饶姗姗和冷小鹏(2024)基于粗糙集理论和信息量法进行负样本选择,结果显示RSIV-RF模型比随机采样后的模型AUC值提高了2.5%,但其测试集准确率较低.于海坤等(2024)对比了随机生成采样、缓冲区控制采样、信息量法采样和合成少数类过采样4种采样策略的模型精度,结果显示缓冲区控制采样精度在逻辑回归模型中精度较高,但由于缓冲区外存在的未被记录的历史灾害点没有被考虑,该采样方法在支持向量机模型中精度最低.样本的不平衡和采样方法的局限性,往往引起测试集准确率低、极低和低易发区灾害样本占比较高等问题,为提高非灾害点样本的质量,需要使用合适的采样模型和分区方法.

为了提高模型在高易发区和极高易发区的可靠性,基于上述问题和现有方法的不足,本文以甘肃省白龙江流域为研究区域,根据地形地貌、地质条件、植被覆盖、气象水文和人类活动等方面选取评价因子,结合随机森林和PU学习算法建立PU-Bagging模型进行负样本采样.以斜坡单元为评价单元,基于逻辑回归、随机森林、支持向量机和XGBoost算法构建白龙江流域泥石流易发性评价模型,利用精确率、准确率、召回率、F1分数和Kappa系数及ROC曲线对比分析4种模型性能,讨论不同分级方法对分区结果的影响,并利用SHAP分析评价因子对模型的影响.

1 研究区概况和评价因子

1.1 研究区概况

白龙江流域位于中国甘肃省西南部,属黄土高原与青藏高原的过渡带(图1)(Du et al., 2017),主要行政区包括迭部县、宕昌县、舟曲县、武都区、文县等.区内水网密布,降水丰富,降水量时空差异较大,多年平均降水量436~788 mm,主要集中在雨季和汛期(Du et al., 2017).研究区经历了加里东、海西、印支、燕山运动等多期构造变化,山势陡峻、地形高差大,水系切割强烈(李媛茜等, 2021).区内地层岩性复杂,从第四系至元古界皆有出露,软弱岩层分布广泛(庆丰等, 2024).研究区人类工程活动频繁,加之特殊的地形地貌、水文气候因素影响,地质灾害广泛发育,已成为地质灾害重点研究区域.

1.2 评价因子

基于以往的研究结果,根据泥石流的形成条件和诱发因素,本文从地形地貌、地质条件、气象水文和人类活动等方面选取了12个评价因子,包括高程、坡度、坡向、地层岩性、不稳定边坡核密度、降水量、河网密度、地形湿度指数、水流强度指数、归一化植被指数、土地利用类型、距道路距离.考虑各评价因子的共线性对模型准确性的影响,本文采用皮尔逊相关系数进行特征相关性检验(图2),皮尔逊系数绝对值大于0.8被视为强相关,因此剔除水流强度指数,余下11个评价因子参与建模(图3).评价因子来源如表1所示(甘肃省基础地理数据集,https://www.doi.org/10.12072/ncdc.gseer.db3981.2023),表中连续数据采用平均数、离散数据采用众数表征单元特征.

1.2.1 地形地貌

高程使降水、植被覆盖、风化程度和太阳辐射等呈现出不同的分布,间接影响了泥石流的形成(李志等, 2024),研究区高程最高4 825 m、最低566 m,由西北至东南逐渐降低.地形条件影响泥石流的物源补给方式和运动规模,坡度不仅影响边坡应力分布,还对堆积物和坡面径流有影响,降雨条件下较高的坡度(25°~45°),使泥石流对沟床和岸坡的侵蚀作用增强,导致固体物质总量显著增加.不同的坡向有不同的太阳辐射程度,坡面的蒸发、植被覆盖情况和侵蚀程度亦不同,从而影响泥石流固体物质的数量和迁移方向.地形湿度指数通过量化地形的汇水能力与排水效率反映了地形对水文过程的控制作用.

1.2.2 地质条件

不同岩性的地层抗风化和抗侵蚀的能力不同,破碎的岩体分布在沟道内为泥石流提供物源补给(Esper Angillieri, 2020),研究区风成相分布广泛,板岩、千枚岩、页岩相对脆弱,降水条件下易形成泥石流.尽管泥石流可以通过火山碎屑与冰雪作用触发,也可以由洪水携带大量沉积物产生,但主要是由斜坡的不稳定引发的,不稳定边坡为泥石流提供物源,评价单元的不稳定边坡核密度越高代表其附近存在崩塌、滑坡等破碎岩体,降雨条件下易转化为泥石流.

1.2.3 气象水文

降雨条件是泥石流重要的触发因素,为泥石流提供了动力条件,研究区位于多种气候类型交汇带,降水量时空分布不均,受东南季风控制,时间上主要集中在雨季,空间上由东南至西北总体呈现降低趋势.径流的快速集中和地表水对河床的侵蚀容易产生泥石流,河网密度反映了研究区的水系分布,河流切口影响地下水位和坡脚应力状态.

1.2.4 人类活动

归一化植被指数反映了植被覆盖情况,可对水土流失程度和坡面情况产生影响,已有研究表明植物根系可改善边坡力学性能(Zhu et al., 2017),研究区植被分布与降雨在空间上有一致性.土地利用类型和距道路距离反映了人类活动对地质环境的影响,土地利用类型反映了研究区地表覆盖物类型,修建道路、开挖边坡不同程度地对斜坡岩土体造成了扰动或破坏.

2 模型方法和数据

2.1 负样本采样模型

灾害易发性评价所需要的数据集由灾害点(正样本)和非灾害点(负样本)构成,灾害点通过前期建立的灾害点数据库获得.本文的非灾害点采样分为两个阶段,首先用ArcGIS10.8软件的数据管理工具,在研究区范围内通过随机采样的方法生成未标记的数据点,而后基于PU-Bagging的机器学习算法筛选数量为2倍正样本的负样本数据,构成研究所需要的负样本数据库.

PU-Bagging是一种半监督机器学习算法,在该模型中正样本被标记为P,随机生成的未标记类型的数据点被标记为U,通过对正样本的学习可以定量得出U数据发生泥石流的概率,而后根据概率值选取负样本,从而有效地提高负样本质量(Gu et al., 2024).本文选择随机森林作为PU-Bagging算法的基学习器,具体步骤如下(图4):

步骤1:在未标记类型数据集中随机抽取与正样本等量的样本点组成数据集;

步骤2:构建随机森林模型,将数据集以7︰3的比例划分为训练集和测试集,对数据进行训练,获取模型最佳超参数;

步骤3:将未标记类型数据集中剩下的数据导入模型进行概率预测;

步骤4:重复上述1~3步骤,计算出所有未标记类型数据属于正样本的概率,并将5次重复计算得到的平均概率作为样本发生泥石流的概率.

2.2 易发性评价模型

2.2.1 逻辑回归模型

逻辑回归(LR)是一种广义线性回归模型.在二分类任务中,为了将回归模型的实值与概率联系起来,通常采用对数几率函数,将输出值转化为[0,1]区间的概率值,概率值越接近于1表示发生泥石流的可能性愈大,反之则不易发生(Sun et al., 2021).对于具有k个属性的X组成的数据集而言,多元线性回归方程及其变换后的概率可简写为:

Z=ωTXk+b,
P=11+e-z,

式中:ω=ω1;ω2;...;ωk为回归系数;X=x1;x2;...;xk为影响因素;b为常数项.

2.2.2 随机森林模型

随机森林(RF)是并行式集成学习的一个扩变体(Breiman, 2001),以决策树(DT)作为基学习器的基础,在随机自采样子集内,使用基尼指数寻找局部最优分裂点,而不是从所有特征中选择最优属性,增加分类树间的多样性,从而得到更低的泛化误差.在一次分类任务中,样本数据在RF的DT中进行独立预测,最终由所有DT输出的标签进行多数投票决定,展现出了较好的抗过拟合、干扰能力.

2.2.3 支持向量机模型

支持向量机(SVM)的思想是将原始数据组成的空间映射到更高维度的特征空间,以找到最优分离超平面,距离超平面最近的满足正确分类的训练样本被称为支持向量,两个异类支持向量到超平面的距离为γ,联系特征空间和原始样本空间的函数被称为核函数.SVM模型的预测性能很大程度上受核函数的影响,核函数的类型包括线性核函数(Linear)、多项式核函数(Poly)、Sigmoid核函数、拉普拉斯核函数(Laplacian)和高斯核函数(RBF)(Bui et al., 2016).

2.2.4 极限梯度提升模型

极限梯度提升算法(XGBoost)是基于梯度提升决策树(GBDT)的一种改进梯度提升算法之一,它基于训练后的基学习器调整样本分布,通过新函数拟合前一次预测的残差,实现弱学习器提升为强学习器,从而得到强预测模型,样本预测值和目标函数为(Liu et al., 2024):

yi=m=1mfmxi, fmF,

式中:yi为样本预测值;xii样本的类别标签; m为树的数量;fm为第m棵树的模型.

objk=i=1nlyi,yi+γT+12λω2,

式中:objk为损失函数在第k个决策树期间的最小化值; n为样本数量; l为可逆突损失函数; yi 样本真实值; T为节点总数;γ为节点划分度;ω为叶子分数;λ为正则化系数.

2.3 评价单元

本文负样本采样模型和易发性评价模型选用不同的评价单元.栅格单元更有利于处理大量数据,因此在负样本采样模型中使用30 m×30 m大小的栅格单元作为评价单元.在易发性评价模型中,选择基于地表曲率分水岭法划分的斜坡单元作为评价单元,以30 m分辨率的DEM数据为基础数据,利用ArcGIS10.8中的水文分析,对曲率、流向、洼地、流域进行提取计算,并对山脊线、山谷线进行合并,修整不合理单元,最终将研究区划分出31 143个斜坡单元.

3 结果

3.1 负样本采样结果

本文所涉及的两类机器学习模型均属于二分类问题,通过全球灾害数据平台获得的747个泥石流灾害点样本被记为“1”,由负样本采样模型筛选出的非泥石流灾害点样本记为“0”.根据训练好的模型对所有未标记类型的数据进行预测,获得预测概率值,将预测为正样本的概率值小于0.5的样本点视为负样本,反之则为正样本.由于存在多个正/负样本在一个斜坡单元中的情况,因此需要将对应的多个样本点提取到所在的同一个斜坡单元中再进行数据分析,最终得到斜坡单元下样本数据集包括正样本647个,负样本1 392个(图5).易发性评价模型中,斜坡单元下的正样本与随机抽取等比例的负样本构成模型的数据集.

3.2 模型性能

负样本采样模型测试集的混淆矩阵如表2所示,模型的测试集召回率为0.901 4,准确率为0.903 7.混淆矩阵包含了真阳性(TP)、真阴性(TN)、假阳性(FP)、假阴性(FN)等4种数据,由此衍生5个评价指标,分别是准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1 Score)和Kappa系数(Kappa)(Kumar et al., 2017).其中,Kappa系数衡量的是分类模型的表现与随机猜测的期望表现间的差异,Kappa系数在0.41以下时表示模型预测的一致性较差.这些指标在0和1之间变化,越靠近1表示模型性能越好(Zhou et al., 2021).ROC曲线纵坐标为真阳性率(TPR)、横坐标为假阳性率(FPR),ROC曲线的线下面积(AUC,area under roc curve)用于评价模型的精度,ROC曲线愈靠近左上角,AUC值愈大,精度愈高(Lv et al., 2022).易发性评价模型中的5个评价指标和ROC曲线如图6图7所示.

3.3 易发性分区

本文采用几何间隔的分区方法进行易发性制图(图8).结果表明,泥石流高到极高易发区主要分布在迭部县的中部,宕昌县的北部和中部,舟曲县的东北部和中部,文县的东北部和西北部以及中部和东南部部分地区,武都区的北部和西南部,与不稳定边坡核密度基本对应.白龙江流域属“侵蚀-剥蚀”构造山地地貌,研究区内坡度在40°以下,高程处600~2 100 m和2 100~3 500 m(迭部县中部地区)的高差较大区域,风成砂岩、黄土广泛分布,年降水量均在500 mm以上,河网密集、地形湿度指数较高,城市地区的人类工程活动活跃,为泥石流发育提供了物源和动力条件,高、极高易发区多分布于此.低到极低易发区主要分布在高差不大、不稳定边坡核密度很低的区域.中易发区主要分布在不稳定边坡核密度低于0.05、与道路距离较近、河网密度稍高的城市及邻近区域.不同的模型中,宕昌县和武都区的东北部和文县的东南部易发程度有明显的差异,其中在文县的东南部,LR、SVM模型大致相似,而RF、XGBoost模型识别了更多的高和极高易发区;LR与SVM模型在宕昌县的差异远大于武都区,在宕昌县北部SVM模型识别出更多的极高易发区.

4 讨论

4.1 机器学习模型性能对比分析

图8可以看出,与RF、SVM和LR相比,XGBoost模型在准确率、精确率、F1分数和Kappa系数上表现都优于其他模型,但召回率不及支持向量机模型,会导致假阴性偏高,若欲减少对非灾害样本的误判,则应选择XGBoost模型.RF的召回率最高,但其他指标不及XGBoost模型,假阳性偏高,对非灾害样本存在误判,若为确保潜在泥石流区域尽可能地被识别,则可考虑使用RF模型.相较于XGBoost和RF模型,LR与SVM模型的指标均处于均衡状态.通过图9对比不同模型的ROC曲线的线下面积发现,4个模型的AUC值均大于0.900 0,表明所有模型在泥石流易发性评价中都有较好的性能,其中XGBoost模型的AUC值为0.962 9,SVM、LR和RF的AUC值分别为0.959 2、0.959 0、0.944 4.虽然XGBoost的AUC值最大、RF的AUC最小,但从ROC曲线来看,XGBoost模型并非全过程线下面积都占绝对的优势,部分区域在SVM模型线下面积更大,表明XGBoost模型预测的易发分区在某些历史泥石流区域存在误判,而在该区域上使用SVM模型精度更高.

4.2 易发性分区分级方法

根据自然间断点、分位数、相等间隔、几何间隔和定义间隔等5种分级法方法,将易发性分区分为:极低易发区、低易发区、中易发区、高易发区和极高易发区.其中,定义间隔分级标准为:极低易发区(0~0.1)、低易发区(0.1~0.3)、中易发区(0.3~0.5)、高易发区(0.5~0.75)和极高易发区(>0.75),其余各分级方法与ArcGIS中默认标准一致.在分区统计分析中,采用各易发区斜坡单元占比和泥石流密度指标对4种模型下的不同分级方法进行统计,易发分区统计结果如图9所示.在极低易发区中,基于XGBoost模型的自然间断点分级法和定义间隔分级法,与基于4种模型的相等间隔分级法显示:统计的灾害点密度均大于20%,且涉及的斜坡单元占比均高于50%,表明上述模型在此种分级方法中未能有效识别泥石流.

分位数和几何间隔下的4种模型,随着易发性分区由极低到极高,泥石流密度逐渐增加.在分位数统计中,4种模型的泥石流密度趋向一致,其中LR和SVM模型在极低至低易发区识别有误的泥石流最少(均为13.46%),SVM模型在高到极高易发区识别的泥石流最多(70.64%).几何间隔统计中,除RF模型在高易发区识别的泥石流少于中易发区外,其余3种模型增长趋势一致;LR模型在极低到低易发区识别有误的泥石流最少(13.37%),SVM模型在高到极高易发区识别的泥石流最高(70.97%),SVM模型在极低到低易发区识别的泥石流密度为13.84%,LR模型在高到极高易发区识别的泥石流密度为70.68%;在高到极高易发区中,RF模型的斜坡单元占比为40.75%,LR模型的斜坡单元占比为41.15%,SVM模型的斜坡单元占比为40.34%,XGBoost模型的斜坡单元占比为37.28%.与相等间隔分级法相比,使用分位数分级可以使高易发区和极高易发区覆盖的灾害点提高23.55%,极低易发区和低易发区识别灾害点的错误率降低30.27%;使用几何间隔分级可以使高易发区和极高易发区覆盖的灾害点提高23.88%,极低易发区和低易发区识别灾害点的错误率降低30.36%.

上述结果表明,虽然XGBoost模型的AUC值较高,但对比统计分析结果发现,对于有较好分区结果的分位数和几何间隔方法而言,召回率略高的LR和SVM模型易发分区的效果更好.从泥石流密度分布来看,RF模型部分区域上也更优于XGBoost模型,表明对于易发性评价最优模型的选择不应以模型评价指标为唯一标准,而应结合各分区统计和评价目的进行分析.基于自然间断点、相等间隔和定义间隔等分级方法的斜坡单元占比表现为,高到极高易发区分布比例均小于低到极低易发区,而分位数、几何间隔的斜坡单元占比在易发分区上差异不大.

4.3 易发性评价模型可解释性

机器学习模型的黑盒特性往往导致决策过程的不透明,为认识样本数据中的评价因子对模型决策的影响,本文使用一种基于博弈论Shapley值的量化特征解释方法(SHAP),对评价因子和模型进行分析.根据4个泥石流易发性评价模型的结果,采用SHAP中的宏观特征密度散点图表示不同模型的评价因子对模型的影响.图10中每一个点代表一个样本,纵坐标为评价因子的类型,对应横坐标为评价因子对SHAP值的影响,SHAP值的正负表征评价因子对模型的影响为正相关或负相关.整理发现,高程、降水量和归一化植被指数是重要程度较大的评价因子,距道路距离、坡度、不稳定边坡核密度和河网密度的重要性很大程度受模型选取的影响.由于缺乏单体泥石流的形态数据,当前区域的易发性评价单元无法考虑泥石流主沟和支沟形态,流域高差作为泥石流发育的一个重要条件未被直接考虑.图10中所示模型对不同单元高程的变化最为敏感,间接地印证了高差对泥石流发育的重要性.在模型性能指标和两种统计分区结果相差不大的情况下,LR和SVM模型除了地形湿度指数和地层岩性影响趋势不一致外,其余评价因子表现出较好的一致性,不稳定边坡核密度与河网密度对模型均以正影响为主,距道路距离以负影响为主.对于LR和XGBoost模型而言,地层岩性对模型的贡献最小,即模型对这一评价因子提取的信息不足,可能导致模型泛化能力受限,进而使模型的假阴性偏高.

4.4 白龙江流域易发性区域泥石流实例分析

甘家沟流域频发泥石流,2020年8月17日多次的暴雨天气,使甘肃东南部爆发群发性泥石流,受灾人口高达133.44万人.甘家沟属甘肃省陇南市武都区汉王镇甘家沟村,在此次灾害中被划分为重度受灾区.该流域属典型的峡谷地貌、坡度较大,沟道平均纵比降88‰(晁增祖, 2023).由图11a可知,在基于PU-Bagging模型的泥石流易发性评价中,流域基本处于极高易发区,物源区部分斜坡单元被划分为低和中易发区.据图3显示该流域岩性多为风成相和板岩、千枚岩,岩体强度低、归一化植被指数较低.图11b所示为甘家沟流域发育的构造断裂,包括武都-康县断裂带和次级断层,受构造抬升和断裂带影响,岩层破碎加剧,不稳定边坡核密度为中-高,为泥石流发育提供了充足的物源.如图11c所示在流域布设雨量计(底图源于ASF数据下载平台https://search.asf.alaska.edu/)持续监测一年流域活动,其中雨量计1布设高程高于雨量计2.图11c右下方显示了甘家沟某拦挡坝体被泥石流冲毁后的现场情况(周妍妍, 2023),该处损毁的坝体物质和拦挡的泥沙又组成了潜在物源,威胁下游.图11d所示2022年5月至2023年7月甘家沟流量监测结果表明,全年累计降雨量和单日降雨量随海拔升高而增加,全年累计降雨量最高可达706.4 mm,超过甘家沟流域50年一遇降雨条件,单日降雨量达64.8 mm,超过24 h雨量界限值,当物源充足时,泥石流爆发概率较大,沟道内混合体流速加快,危及下游居住区.

5 结论和展望

本文以甘肃省白龙江流域为研究区域,根据特征相关性检验结果筛选出11个评价因子,采用RF作为基学习器的PU-Bagging模型进行负样本采样,基于LR、RF、SVM和XGBoost算法构建白龙江流域泥石流易发性评价模型,根据模型性能评估指标和5种分级类型的统计结果对比分析了模型的性能,并利用SHAP分析了评价因子对模型的贡献程度.主要结论如下:

(1)尽管XGBoost模型的AUC值最高,但召回率低、假阴性偏高,在低易发区识别错误的泥石流最多,因此对泥石流易发性评价模型的选取和评估,应当结合评价指标、ROC曲线和分级方法统计结果判断.

(2)5种分级方法的统计结果显示分位数和几何间隔下,召回率较高的SVM和LR模型在高到极高易发区能够识别更多的泥石流,在极低至低易发区识别有误的泥石流较少,与不稳定边坡核密度分布基本对应,易发性评价中选取适合的分级方法可有效提高灾害点的识别率.

(3)基于SHAP分析的评价因子对模型的贡献表明,高程、年均降水量和归一化植被指数是影响较大的评价因子,SHAP值对高程变化的敏感较高,间接反映了高差对泥石流发育的重要性,这3个评价因子基本包含泥石流发育、启动所需的地形和气象条件.在LR与SVM模型中,不稳定边坡核密度与河网密度对模型均以正影响为主,距道路距离以负影响为主,反映了环境变化和人类工程活动对泥石流物源的影响.

白龙江流域泥石流形成条件复杂,各类物质来源多样,所划分的甘家沟流域范围较大,形成区内亦分布有低易发区,对于流域防治工程及其他工程的设计规划还需要基于现场条件进一步讨论.本文在数据构建和模型优化方面仍存在不足,由于泥石流灾害的流域划分和评价单元选取的标准,泥石流历史记录尚未完善,今后需要结合滑坡、崩塌评价结果,地调资料和大数据技术,进一步地研究基于灾害形态、发育特征的区域易发性评价的最优方法.

参考文献

[1]

Breiman, L., 2001.Random Forests.Machine Learning, 45(1):5-32.https://doi.org/10.1023/A:1010933404324

[2]

Cao, S. A., Guo, Z., Chen, J. L., 2025. Geological Hazard Susceptibility Evaluation Based on Improved Information Model: A Case Study of the G219 National Highway in Zayu County, Xizang. Geological Bulletin of China,44(1): 185-200 (in Chinese with English abstract).

[3]

Chao, Z. Z., 2023. Study on Erosion Characteristics of Different Cover Slopes in High Debris Flow Area of Bailong River Basin (Dissertation). Lanzhou University, Lanzhou (in Chinese with English abstract).

[4]

Deng, M. D., Ju, N. P., Wu, T. W., et al., 2024. Evaluation of Susceptibility under Different Landslide Sample Points and Polygonal Expression Modes. Earth Science, 49(5): 1565-1583 (in Chinese with English abstract).

[5]

Du, G. L., Yang, Z. H., Yuan, Y., et al., 2021. Landslide Susceptibility Mapping in the Sichuan-Tibet Traffic Corridor Using Logistic Regression-Information Value Method. Hydrogeology & Engineering Geology, 48(5): 102-111 (in Chinese with English abstract).

[6]

Du, G. L., Zhang, Y. S., Iqbal, J., et al., 2017. Landslide Susceptibility Mapping Using an Integrated Model of Information Value Method and Logistic Regression in the Bailongjiang Watershed, Gansu Province, China.Journal of Mountain Science, 14(2): 249-268. https://doi.org/10.1007/s11629-016-4126-9

[7]

Esper Angillieri, M. Y., 2020. Debris Flow Susceptibility Mapping Using Frequency Ratio and Seed Cells, in a Portion of a Mountain International Route, Dry Central Andes of Argentina.CATENA, 189: 104504. https://doi.org/10.1016/j.catena.2020.104504

[8]

Gu, T. F., Duan, P., Wang, M. G., et al., 2024. Effects of Non-Landslide Sampling Strategies on Machine Learning Models in Landslide Susceptibility Mapping.Scientific Reports, 14(1): 7201. https://doi.org/10.1038/s41598-024-57964-5

[9]

Huang, F. M., Zhang, J., Zhou, C. B., et al., 2020. A Deep Learning Algorithm Using a Fully Connected Sparse Autoencoder Neural Network for Landslide Susceptibility Prediction. Landslides, 17(1): 217-229. https://doi.org/10.1007/s10346-019-01274-9

[10]

Huang, Q. L., Chen, W., Fu, X. D., 2018. AHP-RBF Assessment Model of Regional Debris Flow Hazard Supported by Unit Slope. Journal of Zhejiang University (Engineering Science), 52(9): 1667-1675 (in Chinese with English abstract).

[11]

Huang, Y., Zhao, L., 2018. Review on Landslide Susceptibility Mapping Using Support Vector Machines.CATENA, 165: 520-529. https://doi.org/10.1016/j.catena.2018.03.003

[12]

Kong, J. X., Zhuang, J. Q., Peng, J. B., et al., 2023. Evaluation of Landslide Susceptibility in Chinese Loess Plateau Based on Ⅳ-RF and Ⅳ-CNN Coupling Models. Earth Science, 48(5): 1711-1729 (in Chinese with English abstract).

[13]

Kumar, D., Thakur, M., Dubey, C. S., et al., 2017. Landslide Susceptibility Mapping & Prediction Using Support Vector Machine for Mandakini River Basin, Garhwal Himalaya, India.Geomorphology, 295: 115-125. https://doi.org/10.1016/j.geomorph.2017.06.013

[14]

Li, K., Zhao, J. S., Lin, Y. L., et al., 2022. Assessment of Debris Flow Susceptibility Based on Different Slope Unit Division Methods and BP Neural Network. Bulletin of Surveying and Mapping, (8): 68-74(in Chinese with English abstract).

[15]

Li, Y. X., Zhang, Y., Su, X. J., et al., 2021. Early Identification and Characteristics of Potential Landslides in the Bailong River Basin Using InSAR Technique. National Remote Sensing Bulletin, 25(2): 677-690 (in Chinese with English abstract).

[16]

Li, Z., Chen, N. S., Hou, R. N., et al., 2024. Susceptibility Assessment of Debris Flow Disaster Based on Machine Learning Models in the Loess Area along Yili Valley. The Chinese Journal of Geological Hazard and Control, 35(3): 129-140 (in Chinese with English abstract).

[17]

Lin, X. X., Xiao, G. R., Zhou, H. B., 2023. Landslide Susceptibility Assessment Method Considering Land Use Dynamic Change. Journal of Geo-Information Science, 25(5): 953-966 (in Chinese with English abstract).

[18]

Liu, B., Guo, H. X., Li, J. L., et al., 2024. Application and Interpretability of Ensemble Learning for Landslide Susceptibility Mapping along the Three Gorges Reservoir Area, China. Natural Hazards, 120(5): 4601-4632. https://doi.org/10.1007/s11069-023-06374-3

[19]

Liu, C. Z., Wang, J. X., 2024. Research on Classification of Collapse, Landslide and Debris Flow Disaster Chains. Journal of Engineering Geology, 32(5): 1573-1596 (in Chinese with English abstract).

[20]

Liu, G. D., Qin, S. W., Meng, F. Q., et al., 2023. Application of Geographic Information Similarity Based Absence Sampling Method to Debris Flow Susceptibility Mapping. Journal of Engineering Geology, 31(2): 526-537 (in Chinese with English abstract).

[21]

Liu, J., Li, S. L., Chen, T., 2018. Landslide Susceptibility Assesment Based on Optimized Random Forest Model. Geomatics and Information Science of Wuhan University, 43(7): 1085-1091 (in Chinese with English abstract).

[22]

Lv, L., Chen, T., Dou, J., et al., 2022. A Hybrid Ensemble-Based Deep-Learning Framework for Landslide Susceptibility Mapping. International Journal of Applied Earth Observation and Geoinformation, 108: 102713. https://doi.org/10.1016/j.jag.2022.102713

[23]

Martinello, C., Cappadonia, C., Conoscenti, C., et al., 2021. Optimal Slope Units Partitioning in Landslide Susceptibility Mapping.Journal of Maps, 17(3): 152-162. https://doi.org/10.1080/17445647.2020.1805807

[24]

Merghadi, A., Yunus, A. P., Dou, J., et al., 2020. Machine Learning Methods for Landslide Susceptibility Studies: A Comparative Overview of Algorithm Performance. Earth-Science Reviews, 207: 103225. https://doi.org/10.1016/j.earscirev.2020.103225

[25]

Qing, F., Zhao, Y., Chong, Y., et al., 2024. Temporal and Spatial Regularity of Debris Flow Outbreak in Bailong River Basin and Hazard Prediction of River Blocking Disasters. Journal of Lanzhou University (Natural Sciences), 60(4): 488-493 (in Chinese with English abstract).

[26]

Rao, S. S., Leng, X. P., 2024. Debris Flow Susceptibility Evaluation of Liangshan Prefecture Based on the RSIV-RF Model. Bulletin of Geological Science and Technology, 43(1): 275-287 (in Chinese with English abstract).

[27]

Sun, D. L., Gu, Q. Y., Wen, H. J., et al., 2023. Assessment of Landslide Susceptibility along Mountain Highways Based on Different Machine Learning Algorithms and Mapping Units by Hybrid Factors Screening and Sample Optimization.Gondwana Research, 123: 89-106. https://doi.org/10.1016/j.gr.2022.07.013

[28]

Sun, D. L., Xu, J. H., Wen, H. J., et al., 2021. Assessment of Landslide Susceptibility Mapping Based on Bayesian Hyperparameter Optimization: A Comparison between Logistic Regression and Random Forest.Engineering Geology, 281: 105972. https://doi.org/10.1016/j.enggeo.2020.105972

[29]

Tian, Y., Gao, B., Yin, H., et al., 2024. Handling Imbalanced Samples in Landslide Susceptibility Evaluation. Hydrogeology & Engineering Geology, 51(6): 171-181 (in Chinese with English abstract).

[30]

Bui, D.T., Tuan, T. A., Klempe, H., et al., 2016. Spatial Prediction Models for Shallow Landslide Hazards: A Comparative Assessment of the Efficacy of Support Vector Machines, Artificial Neural Networks, Kernel Logistic Regression, and Logistic Model Tree.Landslides, 13(2): 361-378. https://doi.org/10.1007/s10346-015-0557-6

[31]

Wang, Y., Cao, Y., Xu, F. D., et al., 2024. Reservoir Landslide Susceptibility Prediction Considering Non-Landslide Sampling and Ensemble Machine Learning Methods. Earth Science, 49(5): 1619-1635 (in Chinese with English abstract).

[32]

Wu, B., Shi, Z. M., Zheng, H. C., et al., 2024. Impact of Sampling for Landslide Susceptibility Assessment Using Interpretable Machine Learning Models.Bulletin of Engineering Geology and the Environment, 83(11): 461. https://doi.org/10.1007/s10064-024-03980-8

[33]

Xiong, K., Adhikari, B. R., Stamatopoulos, C. A., et al., 2020. Comparison of Different Machine Learning Methods for Debris Flow Susceptibility Mapping: A Case Study in the Sichuan Province, China.Remote Sensing, 12(2): 295. https://doi.org/10.3390/rs12020295

[34]

Yang, C., Liu, L. L., Huang, F. M., et al., 2023. Machine Learning-Based Landslide Susceptibility Assessment with Optimized Ratio of Landslide to Non-Landslide Samples.Gondwana Research, 123: 198-216. https://doi.org/10.1016/j.gr.2022.05.012

[35]

Yu, H. K., Ouyang, J. F., Wang, B. Q., et al., 2024. Susceptibility Assessment of Regional Landslides under Different Sampling Strategies. Safety and Environmental Engineering, 31(5): 122-134, 162(in Chinese with English abstract).

[36]

Zhou, C., Yin, K. L., Cao, Y., et al., 2020. Landslide Susceptibility Assessment by Applying the Coupling Method of Radial Basis Neural Network and Adaboost: A Case Study from the Three Gorges Reservoir Area. Earth Science, 45(6): 1865-1876 (in Chinese with English abstract).

[37]

Zhou, X. Z., Wen, H. J., Zhang, Y. L., et al., 2021. Landslide Susceptibility Mapping Using Hybrid Random Forest with GeoDetector and RFE for Factor Optimization.Geoscience Frontiers, 12(5): 101211. https://doi.org/10.1016/j.gsf.2021.101211

[38]

Zhou, Y. Y., 2023. Risk Assessment and Prediction of Debris Flow Based on the Coupling Mechanism of Eco-Geological Environment in the Bailong River Basin (Dissertation). Lanzhou University, Lanzhou(in Chinese with English abstract).

[39]

Zhu, H., Zhang, L. M., Xiao, T., et al., 2017. Enhancement of Slope Stability by Vegetation Considering Uncertainties in Root Distribution.Computers and Geotechnics, 85: 84-89. https://doi.org/10.1016/j.compgeo.2016.12.027

基金资助

国家自然科学基金项目-面上项目(42477150)

AI Summary AI Mindmap
PDF (9897KB)

38

访问

0

被引

详细

导航
相关文章

AI思维导图

/