考虑非滑坡样本选取和集成机器学习方法的水库滑坡易发性预测

王悦 ,  曹颖 ,  许方党 ,  周超 ,  余蓝冰 ,  吴立星 ,  汪洋 ,  殷坤龙

地球科学 ›› 2024, Vol. 49 ›› Issue (05) : 1619 -1635.

PDF (12803KB)
地球科学 ›› 2024, Vol. 49 ›› Issue (05) : 1619 -1635. DOI: 10.3799/dqkx.2022.407

考虑非滑坡样本选取和集成机器学习方法的水库滑坡易发性预测

作者信息 +

Reservoir Landslide Susceptibility Prediction Considering Non-Landslide Sampling and Ensemble Machine Learning Methods

Author information +
文章历史 +
PDF (13109K)

摘要

准确的滑坡易发性建模对预警预报和风险管控具有重要意义.针对机器学习技术建模中非滑坡样本随机选取和单个分类器存在的精度不高问题,提出了一种耦合多模型的区域滑坡易发性建模框架.以三峡库区秭归‒巴东段为例,选取高程、坡度等12个因子构建评价指标体系,应用信息量法定量分析各指标对滑坡空间发育的影响程度.随机选取70%的滑坡作为训练样本,剩余的30%作为验证样本;应用逻辑回归模型(LR)制作研究区的初始易发性分区图,确定非滑坡随机采样的约束范围.随后,分别采用LR模型约束和无约束条件下随机选取的非滑坡样本,应用单个分类回归树 (LR-CART和No-CART)及分类回归树‒Bagging组合模型(LR-CART-Bagging和No-CART-Bagging)开展滑坡易发性建模,并应用多个指标进行精度评估.结果发现:高程和水系等是滑坡发育的主控因素;LR-CART-Bagging模型精度为0.973,高于LR-CART模型的0.889;相比于No-CART和No-CART-Bagging模型,LR-CART和LR-CART-Bagging模型精度分别提升了0.057和0.047.LR模型可以有效约束非滑坡样本的选取范围,提升样本的选取质量;CART-Bagging模型综合了机器学习和集成学习的优势,预测性能更强,提出的LR-CART-Bagging模型是一种准确可靠的滑坡易发性建模方法.

关键词

机器学习 / 滑坡 / 易发性制图 / 非滑坡样本选取 / 集成学习 / 三峡库区 / 工程地质

Key words

machine learning / landslides / susceptibility mapping / non-landslide sampling / ensemble learning / Three Gorges reservoir area / engineering geology

引用本文

引用格式 ▾
王悦,曹颖,许方党,周超,余蓝冰,吴立星,汪洋,殷坤龙. 考虑非滑坡样本选取和集成机器学习方法的水库滑坡易发性预测[J]. 地球科学, 2024, 49(05): 1619-1635 DOI:10.3799/dqkx.2022.407

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

三峡库区是我国地质灾害的多发区,发育滑坡、崩塌等地质灾害超过四千处,严重威胁库区经济发展和财产安全(殷坤龙等, 2022).滑坡风险评价是科技防灾减灾中的重要环节,易发性制图则是开展滑坡风险定量评价的前提.然而,由于滑坡空间发育特征与其所处地质环境之间存在极强的非线性关系,精准的滑坡易发性建模仍是一项具有挑战的研究.

滑坡易发性建模在过去几十年中得到了迅速发展,其方法主要分为定性和定量两类(Sabokbar et al., 2014).定性方法基于专家经验给出指标因子的权重,对数据精度要求低,在研究初期和数据不充分的地区被广泛应用,常见的定性评价方法有专家打分法、层次分析法(Kayastha et al., 2013)等.定量方法则主要有数据驱动和物理驱动两类.随着对地观测技术的发展,滑坡编录和地形地貌等数据质量显著提升,数据驱动方法逐渐被应用于区域滑坡易发性评价.统计模型(如信息量模型(王佳佳等, 2014; 周超等, 2015)、频率比模型 (Shahabi and Hashim, 2015; 郭子正等, 2019a, 2019b)是常见的数据驱动方法,能定量分析不同因素与滑坡空间发育间的关系.机器学习技术具有非常强的非线性拟合能力,已在各个领域得到了应用.在滑坡易发性建模研究中,支持向量机(Chen et al., 2017; 黄发明等, 2018)、决策树(杨永刚等, 2019)和神经网络(周超等, 2015; 郭子正等, 2019a, 2019b; 吴雨辰等, 2021)等方法也得到了广泛应用.Bui et al.(2020)、陈涛等(2020)、林荣福等(2020)和Liu et al.(2021)应用机器学习模型进行滑坡易发性评价,得到了比传统方法更高的预测精度.虽然前期工作取得了非常多的研究成果,但是相同模型在不同地区可能表现出不同的性能(周超, 2018; Zhou et al., 2018b),哪种模型在易发性评价中性能更好仍没有统一的结论.

当前的易发性建模多采用单个模型来实现,即使耦合多个算法,也主要是针对数据预处理或模型参数的优化,在一定程度上限制了建模精度和稳定性的提升.事实上,不同模型的优缺点是可以互补的.集成学习算法通过耦合多个模型来处理复杂的高维数据,获得比单个模型更稳定、精度更高的预测结果,实现提高模型性能的目标.目前,集成机器学习建模作为一种新的框架逐渐在各个行业中得到应用(Dong et al., 2020),一些学者也开始尝试将集成学习应用于滑坡易发性建模,发现可以有效地提升易发性建模的精度(Wu et al., 2020; 周超等, 2020).Bagging是一种典型的并行式集成学习算法,采用多次重复的随机抽样对样本进行训练,可有效降低方差,减少模型受数据扰动的影响,避免模型过拟合.

机器学习训练样本的构建对易发性建模的准确度有较大影响.由于非滑坡样本数量远大于滑坡样本,构建易发性模型的前提是不平衡样本条件下的有效样本选取(Fang et al., 2021).常用的非滑坡样本选取方法有随机选取法(Kornejady et al., 2017)、缓冲法(Jacobs et al., 2020)、低坡度法 (Kavzoglu et al., 2014)、范围控制法(Wang et al., 2022)和聚类采样法(周晓亭等, 2022; 黄发明等, 2023)等.随机采样法是在未发生过滑坡的区域内随机选取评价单元作为非滑坡样本,该方法原理简单且易于操作,但选取的样本可能与滑坡发育区的地质环境背景相似,影响易发性建模的精度.缓冲法、低坡度法和范围控制法等均通过一定的约束条件缩小非滑坡样本的选取范围,提升非滑坡样本的代表性.然而,目前非滑坡取样范围的约束条件较为单一,如何构建普适有效的非滑坡取样范围约束方法是当前易发性建模研究的热点之一.

为进一步提升滑坡易发性建模的精度,解决非滑坡样本选取和单个分类器建模时精度不高的问题,以三峡库区秭归至巴东库岸段为例,选取坡度、地层岩性等12种因子构建评价指标体系,应用信息量法分析各因子与滑坡发育间的定量关系.利用逻辑回归(Logistics Regression, LR)模型快速构建初始滑坡易发性分区图约束选取非滑坡样本.随后采用分类回归树(Classification and Regression Tree, CART)和分类回归树-Bagging组合模型(CART-Bagging)进行易发性建模,并对比分析LR-CART-Bagging、LR-CART模型与无约束条件下的CART-Bagging和CART模型的性能.期望通过本文的研究建立一种适用于三峡库区滑坡灾害的易发性建模方法.

1 研究区概况

研究区位于湖北省西南部,三峡水库库首段,横跨秭归和巴东两县,经纬度范围为30°51′~ 31°40′N,110°17′~110°52′E,总面积约为656 km2图1),是我国地质灾害的高易发区.长江自西向东流经此区,河谷切割强烈,海拔范围为122.2~ 2 020 m.研究区内地质构造复杂,褶皱断裂发育,岩体较为破碎.区内地层呈现出自东向西渐新展布的规律,以三叠系和侏罗系为主,岩性多为砂页岩、泥灰岩及泥岩,是秭归盆地和秭归向斜的主要物质组成,也是地质灾害易发岩组类型.研究区雨量充沛,年平均降雨量为1 250 mm,主要集中在5-9月.三峡库区在2003年首次蓄水至135 m,2008年9月以后,库水位每年在145~175 m高程之间周期性调度,显著改变了库岸边坡的水文地质条件(刘磊等, 2018; Zhou et al., 2018a).区内滑坡主要分布在长江及其支流岸坡之上,长江右岸的顺向坡中滑坡发育较多,左岸逆向坡发育较少.滑坡前缘高程范围为122~170 m,其中15.6%的滑坡前缘高程位于145 m水位以下,具有相对较低的地势.

2 方法原理

2.1 易发性制图流程

应用逻辑回归模型选取非滑坡样本,并采用集成机器学习模型开展易发性评价研究,主要步骤包括有:(1)基础数据准备:通过滑坡清单、遥感影像和野外调查等技术获得研究所需的基础数据;(2)指标体系构建:定量分析各影响因子与滑坡发育的关系,构建滑坡易发性评价指标体系;(3)训练样本筛选:将滑坡编录数据划分为两部分,随机选取70%的滑坡作为训练样本,剩余的30%作为验证样本;应用LR约束非滑坡选取范围,随机选取等量的非滑坡样本;(4)评价模型构建:分别采用CART-Bagging和CART算法构建易发性评价模型,并通过试算法确定模型参数;(5)易发性制图与精度检验:划分易发性等级并绘制分区图,检验分析模型的预测性能(图2).

2.2 易发性模型

2.2.1 信息量

信息量是一种基于信息理论的统计预测方法,通过计算各指标的信息量值反映不同指标对灾害发生的影响程度.在滑坡易发性评价中,通常采用面积比计算信息量值:

            I = i = 1 n I i = i = 1 n l n S i / S A i / A

式中: I为信息量值;Si 表示第i个影响因子内的滑坡栅格数;S表示区内发生的滑坡总栅格数;Ai 表示第i个影响因子的栅格数;A表示研究区栅格总数;n为影响因子个数.当信息量值大于0时,说明该指标对滑坡的发生有促进作用;当信息量值小于0时,则说明该指标对滑坡的发生有抑制作用,信息量的绝对值越大则说明作用越强;若比值为0,则说明与滑坡发生无相关性.

2.2.2 逻辑回归

逻辑回归模型(Logistics Regression, LR)是一种适用于二项分类因变量的统计分析模型,因其操作简单和相对准确被广泛应用于滑坡预测(Dai et al., 2001).通过对已知滑坡事件进行训练测试,建立因变量与多个自变量间的非线性动态响应关系,对区域未来发生滑坡的概率进行预测或评价.模型以滑坡影响因子为自变量,滑坡发生与否为因变量(滑坡发生为1,滑坡不发生为0),自变量既可以是连续的也可以是离散的.设滑坡发生概率为P,回归方程为:

           L o g i t ( P ) = b 0 + b 1 x 1 + b 2 x 2 + . . . + b n x n   

式中:Logit()为逻辑回归模型中概率的转换函数,x 1x 2, … , xn 为滑坡影响因子,b 1 , b 2 , ... , bn 为逻辑回归系数,b 0为常数.

2.2.3 分类回归树

分类回归树(Classification and Regression Tree, CART)是一种基于二分递归分割算法的决策树,用于解决分类和回归问题(Youssef et al., 2016).CART是一种应用广泛的机器学习方法,模型易于理解和实现,具有良好的容错性.该模型通过基尼指数最小化准则确定最优切分点,对数据集进行递归式划分得到子节点形成二叉树,并不断拓展子节点生成完整的决策树,最后进行必要的剪枝以防止过拟合.基尼指数越小则代表树划分的效果越好;对二分类问题而言,基尼指数可以近似地代表分类误差率.假设样本集D中包含k个类别,则样本集的基尼系数可以表示为:

            G i n i D = 1 - i = 1 k ( C i D ) 2   ,                      

其中CiD中第i类样本的子集.

2.2.4 Bagging

Bagging算法是Brieman于1996年提出的一种集成学习方法(Breiman, 1996).其核心思想(图3)是对输入训练集进行重复地Bootstrap抽样得到n个子集,每个子集构建一个弱分类器,再通过投票法将n个弱分类器集成,形成一个强分类器.Bagging算法能观察到训练数据的微小变化,有效提高模型预测结果的准确性和稳定性,尤其适用于易受样本扰动的模型.

2.3 精度评估

受试者工作特征曲线(Receiver Operating Characteristic Curve, ROC),是滑坡易发性评价中常用的性能评价方法之一.ROC将连续变量设定出多个不同的临界值,在每个临界值处计算出相应的假阳性率(False Positive Rate, FPR)和真阳性率(True Positive Rate, TPR),再以假阳性率为横坐标,真阳性率为纵坐标.计算公式分别为:

            F P R = F P N,
            T P R = T P P,

式中:N是真实负样本的个数,FPN个负样本中被分类器预测为正样本的个数,P是真实正样本的个数,TPP个正样本中被分类器预测为正样本的个数.曲线下面积(Area Under Curve,AUC)可以指示模型性能的好坏,值越高表征模型的性能越好(Pham et al., 2017).

3 滑坡易发性制图

3.1 滑坡数据编录

基于三峡库区的地质灾害调查资料,结合遥感影像,构建研究区的滑坡编录数据库,本文的数据源主要包括:(1)1∶1万地形图,用于地形、地貌和水系等数据提取;(2)1∶5万比例尺地质图提取地层岩性、构造等数据;(3)野外调查及收集的历史滑坡灾害隐患点资料等.结合野外调查和历史资料,共确定研究区滑坡灾害179处.灾害覆盖总面积为22.14 km2,占研究区总面积的3.38%.其中单体滑坡面积最小的约0.129 km2,规模较大的有木鱼包滑坡、白家包滑坡等(图4).

3.2 影响因素分析

不同区域地质环境存在差异,滑坡发育的影响因素也不尽相同.综合区域地质背景,滑坡编录数据和已有研究成果可知,三峡库区滑坡发生的内在控制因子主要为工程地质岩组、高程、坡度和斜坡结构,外在诱发因子主要为库水位升降等(Zhou et al., 2018b; 郭子正, 2019a, 2019b; Yu et al., 2019; 李松林等, 2020).因此,选取高程、坡度、坡向、地表粗糙度、地形起伏度、斜坡形态、斜坡结构、地层岩性、地形湿度指数、土地利用类型、水系距离和构造距离共12个影响因子建立滑坡易发性评价指标体系.依据中国地质调查局《地质灾害调查技术要求(1∶50 000)》,采用30 m的栅格作为易发性制图的基本单元.基于等高线生成研究区数字高程模型,随后应用ArcGIS10.2软件中的“栅格表面”工具提取得到坡度、坡向、斜坡形态指标;采用“栅格计算器”功能获取地形起伏度、地表粗糙度、斜坡类型和地形湿度指标.构造距离和水系距离则通过ArcGIS中的“多环缓冲”功能获取.应用信息量法统计分析12个指标,结果如表1所示.

3.2.1 高程

研究区的低海拔区人类活动强烈,岩土体受破坏程度高且多为第四系堆积区,利于滑坡的发生;高海拔区人类工程活动相对较小,且多为硬岩出露地区,滑坡发生概率相对较低.研究区高程的分布范围为122.2~2 020 m,依据滑坡连续型指标离散化方法(周超, 2018),将其划分为<240 m、240~450 m、450~650 m、650~1 200 m以及 >1 200 m五个等级.区内滑坡主要发生在地形平缓的<240 m范围内,信息量值为最高的1.49,多数滑坡前缘高程低于175 m,在降雨和库水位联合作用下导致滑坡变形或失稳(Tang et al., 2019).随着高程的增加,滑坡发生频率降低,尤其当高程超过1 200 m时,几乎没有滑坡发生(图5a).

3.2.2 坡度

坡度不仅影响坡体的应力分布,而且控制着松散物质的堆积和地表径流.将研究区坡度分为5个等级:(0, 9°]、(9°, 18°]、(18°, 27°]、(27°, 36°]和>36°(图5b).滑坡主要发生在坡度为(9°, 18°]区间的中缓斜坡体内,其信息量值为最高的0.42;部分滑坡发生在(18°, 27°]坡度范围内;当坡度>36°时,对滑坡发育有明显的抑制作用,信息量值为最低的-1.63.

3.2.3 坡向

不同朝向坡面的降雨程度和阳光照射不同,导致斜坡岩土体物理力学性质存在差异,对坡体稳定性的影响程度不同.将坡向分为9类,当斜坡朝向为正北向和东北向时,滑坡最为发育,其信息量值分别为0.47和0.23(图5c).

3.2.4 地表粗糙度

地表粗糙度(Terrain Roughness Index, TRI)反映了地表起伏与侵蚀程度,计算公式为:

T R I = A b s ( m a x 2 - m i n 2 )

将研究区TRI划分为6个等级:1~1.1、1.1~1.2、1.2~1.3、1.3~1.4、1.4~1.5、>1.5(图5d),各等级的信息量值分别为0.37, -0.04, -0.88, -1.90, -2.48, -2.49.随着TRI增加,信息量值逐渐降低.

3.2.5 地形起伏度

地形起伏度可以体现区域内相对高差的大小,基于DEM数据采用窗口分析法提取地形起伏度,计算公式为:

           D = H m a x - H m i n, ,

式中:D为地形起伏度;H max为最高海拔值;H min为最低海拔值.

将地形起伏度分为5类:0~14 m、14~35 m、35~42 m、>49 m(图5e).其信息量值分别为-0.63,0.47,0.08,-0.47,-1.70.当地形起伏度为14~35 m时,信息量值最大,有利于滑坡的发生.

3.2.6 斜坡形态

坡面曲率反映坡面沿坡向的凹凸程度,是地表形态的微观表现,分为平面曲率和剖面曲率.平面曲率测定的是地形聚集和分离程度.剖面曲率用于描述地面的复杂程度,控制着地表物质和降雨汇流的流动速度.将平面曲率和剖面曲率进行分类组合,得到9种斜坡形态(表2图5f).滑坡主要发生在X/X斜坡形态中,其信息量为最高的0.16.

3.2.7 土地利用类型

人类工程活动,如房屋道路修建,耕地开垦等活动,会破坏坡体的平衡状态从而诱发滑坡.研究区土地利用类型可划分为水体、建设用地、耕地和林地4种类型(图5g).建设用地主要集中在长江两侧地势较为平缓的河流阶地上,房屋道路建设中大量的开挖、切坡等活动,对坡体稳定性产生影响,信息量值为0.85.

3.2.8 斜坡结构

斜坡结构指岩层倾向与斜坡坡向的关系,决定了坡面沉积堆栈的方向.依据表3将研究区斜坡结构分为7类,近水平层面坡(B1)、顺向飘倾坡(B2)、顺向伏倾坡(B4)、顺斜坡(B5)、横向坡(B6)、逆斜坡(B7)和逆向坡(B8)(图5h).滑坡主要发生在长江右岸的顺向坡中,占总面积的35.06%,尤其是顺向飘倾坡,信息量值为0.14,左岸的逆向坡中滑坡发育较少,信息量值为最低的-0.67.

3.2.9 地层岩性

地层岩性为滑坡的发生提供了物质基础.将研究区岩性分为5类(表4图5i),从岩性组合来看,在含有软弱面的层状岩层中,特别是含有软硬相间的层状碎屑岩和软弱基座的局部碳酸盐岩,斜坡变形破坏相对强烈,大中型滑坡发育,对应信息量值为0.42,而花岗岩、闪长岩等硬岩中滑坡分布极少,信息量值为-3.94.

3.2.10 地形湿度指数

地形湿度指数(Topographic Wetness Index, TWI)反映了地形对土壤水分饱和程度的影响(Moore et al., 1991),是影响滑坡发育的重要因素之一,计算公式为:

            T W I = l n ( A s t a n β ),

式中,AS 为上游汇集面积,β为坡度.将研究区地形湿度指数划分为6类:1.37~3、3~4.5、4.5~6、6~7.5、7.5~9、>9(图5j).当地形湿度指数在7.5~9区间时,对滑坡发生促进作用最强,其信息量值为最大的0.72.

3.2.11 水系距离

研究区受水文地质环境影响明显,主要水系为长江干流及其支流.三峡库区滑坡前缘高程集中于100~175 m,库水位在滑坡中前部升降变动,侵蚀和浸泡软化作用降低库岸边坡稳定性,加剧滑坡变形(Zhou et al., 2022).用水系距离来表征河流对滑坡发育的作用强度,将其划分为4个等级:0~300 m、300~900 m、900~1 200 m、>1 200 m(图5k).当水系距离小于300 m时,信息量值为最大的0.92.随着距离增加,信息量值减小,水系影响减弱.

3.2.12 构造距离

一般来说,构造运动强烈的地区岩体破碎严重,易发生滑坡灾害.本文以断裂带为中心创建缓冲带:0~500 m、500 ~1 000 m、1 000~1 500 m、1 500~2 000 m、>2 000 m(图5l).当距离断层的距离为1 000~1 500 m时,信息量值为最大的0.24,断层附近发生的频率远大于断层影响不到的区域.

3.3 滑坡易发性建模

3.3.1 指标共线性分析

指标的共线性会影响评价模型的性能,因此在易发性建模前,需进行共线性分析,确保各指标相互独立.采用容差(Tolerance, T)和方差膨胀因子(Variance Inflation Factor, VIF)对指标进行多重共线性分析(周超, 2018).当容差大于0.2且VIF小于5时,则认为指标间不存在多重共线性.采用SPSS软件进行容差和VIF计算,结果如表5所示.12个指标的容差均大于0.2且VIF小于5,说明指标间相互独立,不存在共线性.

3.3.2 训练样本选取

滑坡数据集按7∶3的比例随机分为两组,其中70%用于模型训练,30%用于模型验证.同时,采用随机函数在非滑坡区域中选取与滑坡训练数据相同数量的栅格作为训练的非滑坡样本.模型的性能与参数密切相关,合适的参数选取是构建模型的关键.滑坡的易发性分析是一种不均衡的二分类问题,因此选择二项式过程及向前进步法构建逻辑回归模型,对影响因子进行拟合,得到逻辑回归方程:

L o g i t ( P ) = - 10.87 + 2.175 x 1 + 1.17 x 2 + 6.028 x 3 + 1.079 x 4 + 0.750 x 5 + 1.071 x 6 + 0.987 x 7 + 0.600 x 8 - 1.263 x 9 + 0.672 x 10 + 0.559 x 11 + 0.814 x 12   ,

式中: x 1x 2, …, x 12为自变量,依次表示坡度、坡向、高程、斜坡形态、土地利用、地形起伏度、地表粗糙度、地形湿度指数、斜坡结构、地层岩性、构造距离和水系距离的因素值, P表示各影响因子作用下发生滑坡的概率.

按照0.05∶0.10∶0.15∶0.20∶0.50的比例将LR模型得到的易发性结果,划分为极高易发区、高易发区、中易发区、低易发区和极低易发区5个等级(图6).将极低易发区作为非滑坡样本精确选取的约束范围,并在其中随机选取与滑坡样本相同数量的非滑坡样本,其空间分布如图6所示.

3.3.3 集成机器学习建模

采用LR模型约束选取的非滑坡样本训练集成机器学习模型.分类回归树最大树深和集成模型数量是决策树和集成算法的主要计算参数,优化参数可以有效提升模型的性能(田乃满等, 2020).通过试算CART-Bagging模型子模型数量及其树深,得到子模型数量、树深与CART-Bagging模型预测精度之间的关系(表6),以此确定CART- Bagging模型的子模型数量和树深.由表6统计结果可知,当树深确定时,随着子模型数量的增加,CART-Bagging模型精度逐渐提升,但子模型数量偏多时,CART-Bagging模型的精度会呈现一定程度的下降趋势.当子模型数量一定时,随着树深的增大,CART-Bagging模型的精度逐渐增加.因此,采用CART- Bagging建模时,树深和子模型数量分别设为8和10.同时,选取单个CART模型作为对比,采用试算法确定其最大树深参数为8.

模型训练完成后,将影响因素分别输入CART-Bagging模型和单个CART模型,得到研究区滑坡易发性概率值,按0.05∶0.10∶0.15∶0.20∶0.50的比例将易发性概率值划分为极高、高、中、低和极低5个易发等级,结果如图7a和7b所示.为对比LR约束方法选取非滑坡样本的质量,采用无约束条件下(未发生滑坡区域)随机选取的非滑坡样本构建CART-Bagging模型和单个CART模型,易发性分区结果分别如图7c和7d所示.

4 结果分析与讨论

4.1 滑坡空间发育主控因素

信息量统计结果显示,研究区内滑坡的空间发育规律与坡体高程、岩性组合及河流等影响因素密切相关,与三峡库区滑坡主要影响因素统计结果相一致(李松林等, 2020).库水位周期性调度产生的动力作用和对岩土体性质的劣化作用是导致滑坡变形和失稳的主要因素,且距离长江越近作用越强.当水系距离小于300 m时,信息量值为0.92,随着距离的增加,信息量值逐渐减少.研究区的低海拔地区位于长江沿岸,是水库调度和人类工程活动的强烈作用区,也是崩坡积等松散物质的堆积区.当高程小于240 m时,其信息量值为最高的1.49,该范围内发育有大量滑坡;高程大于650 m的区域多为硬岩分布区,不具备发育滑坡发育的条件.

4.2 集成机器学习模型性能

为验证集成机器学习模型的预测精度,对各易发性等级的分布情况进行统计分析.由表7可知,各模型的易发性分区统计结果较为接近,且与滑坡空间分布规律吻合,说明预测结果可靠.LR-CART-Bagging模型预测结果中,仅有1.71%的滑坡分布在极低易发区内,滑坡比率为最低的0.03;78.07%的滑坡分布在极高和高易发区内,其中极高易发区的滑坡比率则为最高的8.00.LR-CART模型中,极高和极低易发区的滑坡比率分别为6.89和0.05.相较于LR-CART模型,LR-CART-Bagging模型在极高易发区和极低易发区都表现出了更为准确的结果;No-CART-Bagging和No-CART模型结果中呈现了相同的特征,说明采用Bagging算法集成多个CART模型后,建模性能得到了有效提升.

ROC是易发性建模常用的精度评价方法.如图8所示,LR-CART模型的AUC值为0.889,采用Bagging算法集成多个CART模型后(LR-CART-Bagging),建模精度提升了0.084(0.973).在 No-CART-Bagging和No-CART模型结果中同样也呈现了相似的规律.CART模型可以准确构建滑坡发育与其影响因素间的复杂非线性关系,形成易于理解、准确率高的分类规则(Lewis, 2000),但是当拟分类类别较多时,容易产生误分类.Bagging-CART模型可以集成多个CART模型的优点,通过减少多个基础模型组合分类的方差,增强模型的计算能力,弱化模型缺点,从而得到更优的预测结果.

4.3 非滑坡样本选取方法

非滑坡样本的准确选取对易发性建模精度影响较大.论文基于LR模型约束和无约束条件下随机选取的非滑坡样本分别进行建模.在No-CART和No-CART-Bagging模型中,极高易发区的滑坡占比分别是35.35%和40.48%,滑坡比率则分别为6.65和7.83,均弱于 LR-CART和LR-CART-Bagging模型(表7). LR-CART和LR-CART-Bagging模型的AUC值分别为0.889和0.973,也均优于No-CART和No-CART-Bagging模型的0.842和0.926.精度对比结果说明应用LR模型约束非滑坡样本的选取范围,可以有效提升非滑坡样本的质量,从而提升易发性建模的精度.

在进行机器学习建模时,无约束条件下的随机采样得到的非滑坡样本可能位于与已有滑坡工程地质条件相似的极高和高易发区,导致非滑坡样本的质量降低.此外,非滑坡区的工程地质条件多样,部分非滑坡样本约束方法,如低坡度法,仅包含一个或几个非滑坡特征,不具有全面性.通过LR模型进行易发性初评,仅从极低易发区中选取非滑坡样本.该方法可以有效避免误选易发生滑坡区域的样本,同时也可以保障非滑坡样本特征的多样性.总体而言,通过LR模型约束选取非滑坡样本有利于易发性建模精度的提升,是一种不受区域限制,可广泛应用的非滑坡样本选取方法.

5 结论

本文以三峡库区秭归至巴东库岸段为例,选取12种滑坡影响指标和179处滑坡事件构建数据集,定量分析了各指标与滑坡空间发育的关系;采用LR模型约束和无约束条件下选取的非滑坡样本,构建了LR-CART-Bagging、LR-CART、No-CART- Bagging和No-CART四个易发性评价模型,并对建模精度进行了对比分析,结论如下:(1)高程(<240 m)和水系距离(<300 m)是研究区滑坡发生的最主要控制因素,信息值分别为1.49和0.92;(2)通过LR模型约束采样范围得到的非滑坡样本质量高且具有多样性,能有效提升滑坡易发性建模的精度;(3)CART-Bagging模型综合了集成学习和机器学习算法的优点,显著提升了模型的性能.总体而言,提出的LR-CART-Bagging方法促进了建模精度提升,是一种值得推广的滑坡易发性建模方法.

参考文献

[1]

Breiman, L., 1996. Stacked Regressions. Machine Language, 24(1): 49-64. https://doi.org/10.1023/A: 1018046112532

[2]

Bui, D. T., Tsangaratos, P., Nguyen, V. T., et al., 2020. Comparing the Prediction Performance of a Deep Learning Neural Network Model with Conventional Machine Learning Models in Landslide Susceptibility Assessment. CATENA, 188: 104426. https://doi.org/10.1016/j.catena.2019.104426

[3]

Chen, T., Zhong, Z.Y., Niu, R.Q., et al., 2020.Mapping Landslide Susceptibility Based on Deep Belief Network. Geomatics and Information Science of Wuhan University, 45(11): 1809-1817 (in Chinese with English abstract).

[4]

Chen, W., Pourghasemi, H. R., Kornejady, A., et al., 2017. Landslide Spatial Modeling: Introducing New Ensembles of ANN, MaxEnt, and SVM Machine Learning Techniques. Geoderma, 305: 314-327. https://doi.org/10.1016/j.geoderma.2017.06.020

[5]

Dai, F.C., Lee, C.F., Li, J., et al., 2001. Assessment of Landslide Susceptibility on the Natural Terrain of Lantau Island, Hongkong. Environmental Geology, 40(3): 381-391. https://doi.org/10.1007/s002540000163

[6]

Dong, X. B., Yu, Z. W., Cao, W. M., et al., 2020. A Survey on Ensemble Learning. Frontiers of Computer Science, 14(2): 241-258. https://doi.org/10.1007/s11704-019-8208-z

[7]

Fang, Z. C., Wang, Y., Niu, R. Q., et al., 2021. Landslide Susceptibility Prediction Based on Positive Unlabeled Learning Coupled with Adaptive Sampling. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 14: 11581-11592. https://doi.org/10.1109/JSTARS.2021.3125741

[8]

Guo, Z.Z., Yin, K.L., Fu, S., et al., 2019a. Evaluation of Landslide Susceptibility Based on GIS and WOE-BP Model. Earth Science, 44(12): 4299-4312 (in Chinese with English abstract).

[9]

Guo, Z.Z., Yin, K.L., Huang, F.M., et al., 2019b. Evaluation of Landslide Susceptibility Based on Landslide Classification and Weighted Frequency Ratio Model. Chinese Journal of Rock Mechanics and Engineering, 38(2): 287-300 (in Chinese with English abstract).

[10]

Huang, F.M., Chen, B., Mao, D.X., et al., 2023. Landslide Susceptibility Prediction Modeling and Interpretability Based on Self-Screening Deep Learning Model. Earth Science, 48(5): 1696-1710 (in Chinese with English abstract).

[11]

Huang, F.M., Yin, K.L., Jiang, S.H., et al., 2018. Landslide Susceptibility Assessment Based on Clustering Analysis and Support Vector Machine. Chinese Journal of Rock Mechanics and Engineering, 37(1): 156-167 (in Chinese with English abstract).

[12]

Jacobs, L., Kervyn, M., Reichenbach, P., et al., 2020. Regional Susceptibility Assessments with Heterogeneous Landslide Information: Slope Unit-vs. Pixel-Based Approach. Geomorphology, 356: 107084. https://doi.org10.1016/j.geomorph.2020.107084

[13]

Kavzoglu, T., Sahin, E. K., Colkesen, I., 2014. Landslide Susceptibility Mapping Using GIS-Based Multi-Criteria Decision Analysis, Support Vector Machines, and Logistic Regression. Landslides, 11(3): 425-439. https://doi.org/10.1007/s10346-013-0391-7

[14]

Kayastha, P., Dhital, M. R., De Smedt, F., 2013. Application of the Analytical Hierarchy Process (AHP) for Landslide Susceptibility Mapping: A Case Study from the Tinau Watershed, West Nepal. Computers & Geosciences, 52: 398-408. https://doi.org/10.1016/j.cageo.2012.11.003

[15]

Kornejady, A., Ownegh, M., Bahremand, A., 2017. Landslide Susceptibility Assessment Using Maximum Entropy Model with Two Different Data Sampling Methods. CATENA, 152: 144-162. https://doi.org/10.1016/j.catena.2017.01.010

[16]

Lewis, R.J., 2000. An Introduction to Classification and Regression Tree (CART) Analysis. Annual Meeting of the Society for Academic Emergency Medicine in San Francisco, California, 14.

[17]

Li, S.L., Xu, Q., Tang, M.G., et al., 2020. Study on Spatial Distribution and Key Influencing Factors of Landslides in Three Gorges Reservoir Area. Earth Science, 45(1): 341-354 (in Chinese with English abstract).

[18]

Lin, R.F., Liu, J.P., Xu, S.H., et al., 2020. Evaluation Method of Landslide Susceptibility Based on Random Forest Weighted Information. Science of Surveying and Mapping, 45(12): 131-138 (in Chinese with English abstract).

[19]

Liu, L., Yin, K.L., Xu, Y., et al., 2018. Evaluation of Regional Landslide Stability Considering Rainfall and Variation of Water Level of Reservoir. Chinese Journal of Rock Mechanics and Engineering, 37(2): 403-414 (in Chinese with English abstract).

[20]

Liu, S. H., Yin, K. L., Zhou, C., et al., 2021. Susceptibility Assessment for Landslide Initiated along Power Transmission Lines. Remote Sensing, 13(24): 5068. https://doi.org/10.3390/rs13245068

[21]

Peng, L., 2013. Landslide Risk Assessment in the Three Gorges Reservoir (Dissertation). China University of Geosciences, Wuhan (in Chinese with English abstract).

[22]

Pham, B. T., Tien Bui, D., Prakash, I., et al., 2017. Hybrid Integration of Multilayer Perceptron Neural Networks and Machine Learning Ensembles for Landslide Susceptibility Assessment at Himalayan Area (India) Using GIS. CATENA, 149: 52-63. https://doi.org/10.1016/j.catena.2016.09.007

[23]

Sabokbar, H.F., Roodposhti, M.S., Tazik, E., 2014. Landslide Susceptibility Mapping Using Geographically-Weighted Principal Component Analysis. Geomorphology, 226: 15-24. https://doi.org/10.1016/j.geomorph.2014.07.026

[24]

Shahabi, H., Hashim, M., 2015. Landslide Susceptibility Mapping Using GIS-Based Statistical Models and Remote Sensing Data in Tropical Environment. Scientific Reports, 5: 9899. https://doi.org/10.1038/srep09899

[25]

Tang, H. M., Wasowski, J., Juang, C. H., 2019. Geohazards in the Three Gorges Reservoir Area, China- Lessons Learned from Decades of Research. Engineering Geology, 261: 105267. https://doi.org/10.1016/j.enggeo.2019.105267

[26]

Tian, N.M., Lan, H.X., Wu, Y.M., et al., 2020. Performance Comparison of BP Artificial Neural Network and CART Decision Tree Model in Landslide Susceptibility Prediction. Journal of Geo-Information Science, 22(12): 2304-2316 (in Chinese).

[27]

Wang, C. H., Lin, Q. G., Wang, L. B., et al., 2022. The Influences of the Spatial Extent Selection for Non- Landslide Samples on Statistical-Based Landslide Susceptibility Modelling: A Case Study of Anhui Province in China. Natural Hazards, 112(3): 1967-1988. https://doi.org/10.1007/s11069-022-05252-8

[28]

Wang, J.J., Yin, K.L., Xiao, L.L., 2014. Landslide Susceptibility Assessment Based on GIS and Weighted Information Value: A Case Study of Wanzhou District, Three Gorges Reservoir. Chinese Journal of Rock Mechanics and Engineering, 33(4): 797-808 (in Chinese).

[29]

Wu, Y.C., Zhou, H.X., Che, A.L., 2021. Susceptibility of Landslides Caused by IBURI Earthquake Based on Rough Set-Neural Network. Chinese Journal of Rock Mechanics and Engineering, 40(6): 1226-1235 (in Chinese).

[30]

Wu, Y. L., Ke, Y. T., Chen, Z., et al., 2020. Application of Alternating Decision Tree with AdaBoost and Bagging Ensembles for Landslide Susceptibility Mapping. CATENA, 187: 104396. https://doi.org/10.1016/j.catena.2019.104396

[31]

Yang, Y.G., Yin, K.L., Zhao, H.Y., et al., 2019. Landslide Susceptibility Evaluation for Township Units of Bank Section in Wanzhou District Based on C5.0 Decision Tree and K-Means Cluster Model. Geological Science and Technology Information, 38(6): 189-197 (in Chinese).

[32]

Yin, K.L., Zhang, Y., Wang, Y., 2022. A Review of Landslide-Generated Waves Risk and Practice of Management of Hazard Chain Risk from Reservoir Landslide. Bulletin of Geological Science and Technology, 41(2): 1-12 (in Chinese).

[33]

Youssef, A. M., Pourghasemi, H. R., Pourtaghi, Z. S., et al., 2016. Landslide Susceptibility Mapping Using Random Forest, Boosted Regression Tree, Classification and Regression Tree, and General Linear Models and Comparison of Their Performance at Wadi Tayyah Basin, Asir Region, Saudi Arabia. Landslides, 13(5): 839-856. https://doi.org/10.1007/s10346-015-0614-1

[34]

Yu, L. B., Cao, Y., Zhou, C., et al., 2019. Landslide Susceptibility Mapping Combining Information Gain Ratio and Support Vector Machines: A Case Study from Wushan Segment in the Three Gorges Reservoir Area, China. Applied Sciences, 9(22): 4756. https://doi.org/10.3390/app9224756

[35]

Zhou, C., 2018. Landslide Identification and Prediction with the Application of Time Series InSAR(Dissertation). China University of Geosciences, Wuhan (in Chinese).

[36]

Zhou, C., Cao, Y., Yin, K. L., et al., 2022. Characteristic Comparison of Seepage-Driven and Buoyancy-Driven Landslides in Three Gorges Reservoir Area, China. Engineering Geology, 301: 106590. https://doi.org/10.1016/j.enggeo.2022.106590

[37]

Zhou, C., Yin, K. L., Cao, Y., et al., 2018a. Displacement Prediction of Step-Like Landslide by Applying a Novel Kernel Extreme Learning Machine Method. Landslides, 15(11): 2211-2225. https://doi.org/10.1007/s10346-018-1022-0

[38]

Zhou, C., Yin, K. L., Cao, Y., et al., 2018b. Landslide Susceptibility Modeling Applying Machine Learning Methods: A Case Study from Longju in the Three Gorges Reservoir Area, China. Computers & Geosciences, 112: 23-37. https://doi.org/10.1016/j.cageo.2017.11.019

[39]

Zhou, C., Yin, K.L., Cao, Y., et al., 2020. Landslide Susceptibility Assessment by Applying the Coupling Method of Radial Basis Neural Network and Adaboost: A Case Study from the Three Gorges Reservoir Area. Earth Science, 45(6): 1865-1876 (in Chinese with English abstract).

[40]

Zhou, C., Yin, K.L., Xiang, Z.B., et al., 2015. Quantitative Evaluation of the Landslide Susceptibility in Chun’an County Based on GIS. Safety and Environmental Engineering, 22(1): 45-50, 55 (in Chinese).

[41]

Zhou, X.T., Huang, F.M., Wu, W.C., et al., 2022. Regional Landslide Susceptibility Prediction Based on Negative Sample Selected by Coupling Information Value Method. Advanced Engineering Sciences, 54(3): 25-35 (in Chinese).

基金资助

国家自然青年科学基金项目(41907253;41702330)

湖北省重点研发计划项目(2021BCA219)

AI Summary AI Mindmap
PDF (12803KB)

195

访问

0

被引

详细

导航
相关文章

AI思维导图

/