基于多时空滑坡编录和TrAdaBoost迁移学习的滑坡易发性评价

付智勇 ,  李典庆 ,  王顺 ,  杜文琪

地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1935 -1947.

PDF (9351KB)
地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1935 -1947. DOI: 10.3799/dqkx.2023.013

基于多时空滑坡编录和TrAdaBoost迁移学习的滑坡易发性评价

作者信息 +

Landslide Susceptibility Assessment Based on Multitemporal Landslide Inventories and TrAdaBoost Transfer Learning

Author information +
文章历史 +
PDF (9574K)

摘要

为了解决震区不同时期易发性评价中滑坡编录样本不足问题,以汶川地震震区汶川‒映秀区域为研究区,基于TrAdaBoost迁移学习算法,利用2011‒2013年滑坡数据集辅助训练2013‒2015年滑坡数据集的滑坡易发性模型,分别建立了以决策树(DT)和随机森林(RF)为单体学习器的TrAdaBoost-DT和TrAdaBoost-RF滑坡易发性模型.通过所建立的模型对研究区的滑坡易发性进行预测,并将预测结果与仅用2013‒2015年滑坡数据集所建立的DT和RF模型的预测结果进行对比.以受试者工作曲线下方面积(AUC)为评价指标,TrAdaBoost模型使得DT和RF模型的AUC分别提高了0.03和0.01.为了进一步验证所提方法有效性,以2013‒2015年滑坡数据集辅助训练2015‒2018年滑坡数据集中的易发性模型.结果表明,基于TrAdaBoost模型优化DT和RF模型的AUC均提高了0.13;TrAdaBoost模型能够有效提高传统基于机器学习滑坡易发性模型的预测性能,且对小数据集下的滑坡易发性模型的预测性能提升更为显著.

关键词

滑坡易发性 / 滑坡编录 / 迁移学习 / TrAdaBoost / 决策树 / 随机森林 / 工程地质

Key words

landslide susceptibility / landslide inventory / transfer learning / TrAdaBoost / decision tree / random forest / engineering geology

引用本文

引用格式 ▾
付智勇,李典庆,王顺,杜文琪. 基于多时空滑坡编录和TrAdaBoost迁移学习的滑坡易发性评价[J]. 地球科学, 2023, 48(05): 1935-1947 DOI:10.3799/dqkx.2023.013

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

作为世界上最为频发的一种地质灾害,滑坡严重威胁了当地居民的生命和财产安全(Li et al., 2019Tang et al., 2019Criss et al., 2020蒋水华等,2020).例如,2003年发生在湖北省宜昌市秭归县的千将坪滑坡造成50人死亡、9人失踪和约8千万元的经济损失(Wang et al., 2004);2008年汶川地震中,地震诱发的滑坡导致了数万人死亡(殷跃平,2008);2017年6月24日,四川省阿坝羌族自治州新磨村发生山体滑坡,导致10人死亡和73人失踪(许强等,2017).因此,为了减轻滑坡灾害所带来的损失,开展区域滑坡易发性研究十分必要.

滑坡易发性是指某一区域可能发生滑坡的概率(Guzzetti et al., 2012黄武彪等,2022).目前,国内外学者基于地理信息系统(GIS)开发了众多滑坡易发性模型.这些模型一般分为定性评价和定量评价模型(Formetta et al., 2014).定性评价模型是基于专家对研究区的工程经验来判断区域的易发性,其准确性主要依赖专家的经验知识,具有较强的主观性.如许冲等(2009)基于层分析法(AHP)和滑坡面积百分比对汶川地震震区进行了滑坡易发性评价.而定量评价模型是利用已有的滑坡数据集建立统计学模型来计算区域滑坡的易发性.定量评价模型一般又包括数理统计模型和基于机器学习的评价模型.数理统计模型主要有逻辑回归(刘坚等,2018)、信息量(殷坤龙和朱良峰,2001)和证据权模型(许冲等,2011)等.如王佳佳等(2014)结合信息量法和GIS对三峡库区万州区开展了滑坡易发性评价并详细论述了滑坡易发性评价的理论方法.这类模型物理意义明确且计算较为简单.随着计算机科学和人工智能的发展,基于机器学习的滑坡易发性模型如决策树(DT)(Dou et al., 2019)、随机森林(RF)(Long et al., 2021)和支持向量机(Tien Bui et al., 2012)等,被广泛应用于滑坡易发性评价并取得了非常好的预测效果.近年来,一些学者结合卷积神经网络(CNN)和GIS,将深度学习模型引入到滑坡易发性研究中,以进一步提高滑坡易发性模型的预测准确率.如Wang et al.(2019)基于CNN构建了基于深度学习算法的一维、二维和三维滑坡易发性模型.基于机器学习的滑坡易发性模型具有较好的非线性能力,能够很好地刻画滑坡影响因子与滑坡之间的非线性关系(李永威等,2023).但由于模型较为复杂,往往需要较多的数据才能构建出准确的滑坡易发性模型.

为了揭示震区滑坡的演化特征,研究人员利用不同时期的滑坡数据集对震区进行滑坡易发性评价(Fan et al., 2021).然而,伴随着震区地质条件逐渐稳定、区域滑坡活动逐渐减弱,部分时期的滑坡数据集样本数量较少,难以训练出一个令人满意的滑坡易发性模型.增加区域的滑坡样本是解决上述问题的最好方式(黄发明等,2021),但增加新的滑坡样本需要对研究区重新进行现场调查或遥感解译工作(Guo et al., 2021),这将会花费研究人员的大量时间和精力.迁移学习为解决上述问题提供了一种新的方式,其基本思想是在其他滑坡数据集中寻找与研究区滑坡特征相似的信息来帮助研究区滑坡易发性模型的建立(Pan and Yang, 2010Shao et al., 2015),如图1.基于不同的迁移方法,迁移学习主要分为基于实例的迁移学习、基于特征表示的迁移学习、基于参数的迁移学习和基于关系知识的迁移学习(Pan and Yang, 2010).不同的迁移学习方法被广泛应用于计算视觉和自然语言处理,而在滑坡易发性研究中较少涉及.Wang et al. (2022)利用基于特征传递的迁移学习模型对香港地区滑坡易发性模型进行改进,研究结果表明基于特征传递的迁移学习模型可以有效提高滑坡易发型模型的准确度.这种基于特征传递的迁移学习模型的准确性高度依赖深度神经网络,而该网络模型参数众多,在数据集规模不大的情况下易陷入欠拟合.TrAdaBoost是基于实例的迁移学习典型算法(Dai et al., 2007),该算法的思想是在源区样本中寻找与研究区样本特征较为相似的样本来提升研究区滑坡易发性模型的预测性能.在同一研究区不同时期的部分滑坡成因机制大致相同,因此,可以利用TrAdaBoost迁移学习算法从一个时期的滑坡数据集中寻找有用的滑坡样本来提升另一时期滑坡易发性模型的预测性能.

本文以汶川地震震区汶川‒映秀区域为研究区,系统收集并整理了汶川地震后该研究区2011-2013年、2013-2015年和2015-2018年3期滑坡数据集.选择了高程、斜坡坡度、坡向、剖面曲率、地层岩性和距断层距离6个滑坡影响因子,并利用地理探测器对这6个影响因子与滑坡发育之间的相关关系进行了检验.基于TrAdaBoost算法和传统机器学习模型,分别建立了TrAdaBoost-DT和TrAdaBoost-RF两种迁移学习模型来预测不同时期的区域滑坡易发性,并将预测结果与传统DT和RF模型的预测结果进行对比,从而分析基于TrAdaBoost迁移学习模型预测滑坡易发性的准确性和优越性.

1 理论方法

1.1 TrAdaBoost算法

TrAdaBoost是Dai et al.(2007)在2007年提出的一种基于实例的迁移学习算法.该算法的基本思想是利用辅助训练集中的有用数据来提升目标域的预测模型性能.源域和目标域是迁移学习中两个非常重要的概念.源域是指辅助样本所在的数据集 Ta,目标域为研究区样本所在的数据集 Tb .TrAdaBoost算法的根本任务是从辅助训练集 Ta 中发现有用数据,并将这些有用数据迁移到目标域 Tb 的训练学习中.TrAdaBoost算法主要包括以下几个步骤(Dai et al., 2007):

(1)初始化源域和目标域的权重向量 w i 1,并定义β初始值:

w i 1 = 1 / n ,       i   =   1 ,   . . .   ,   n   ( 源域 ) ,    1 / m ,     i   =   n   +   1 ,   . . .   ,   n   +   m   ( 目标 ) .
     b = 1   /   ( 1 + 2 l n n / N t ),

式中:n为源域 Ta 样本个数,m为目标域 Tb 样本个数,Nt 是模型迭代次数.

(2)利用式(3)对权重进行归一化处理,并调用单体学习器,结合样本权重对模型进行训练:

P t = w t i = 1 n + m w i t,

式中:Pt 为归一化过后的样本权重矩阵, w t为迭代t次时的权重矩阵.

(3)计算目标域错误率并更新β值:

           e t = i = n + 1 n + m p i t h t ( x t ) - y t i = n + 1 n + m p i t,
           β = ε t / ( 1 - ε t ),

式中:ht 是步骤(2)中训练得到的分类学习器,xt 是模型输入特征,yt 是目标域输入特征的标签.为了防止过拟合问题,错误率ε须小于0.5.

(4)更新样本参数权重wi

           w i t + 1 = w i t β ( h t ( x t ) - y t ,    i = 1   ,   . . .   ,   n , w i t β - ( h t ( x t ) - y t ,   其他 ,

重复执行步骤(2)和步骤(4),直到达到最大迭代次数Nt 或者错误率低于预先设计的阈值.由公式(6)可以发现,随着迭代过程不断进行,源域中无用的样本权重越来越低,目标域中被分类错误的样本权重越来越高.通过上述迭代过程以达到筛选样本的目的.

1.2 决策树

决策树(DT)是一种由多种判断规则所组成的监督学习算法,被广泛应用于风险决策等问题.决策树中每一个根节点代表一个属性判断过程,每一个叶子节点代表一种判断结果.如何生成一系列准确的判断规则是决策树算法中需要解决的关键性问题(Dou et al., 2019).以信息增益和基尼指数作为特征选择标准的C5.0算法常被用于决策树的生成.由于决策树算法在训练过程中拟合了过多的噪声数据并生成了较多无用的分支,因此,在决策树生成时常需要对所生成的树进行剪枝,以提高决策树模型的总体分类结果.

1.3 随机森林

随机森林算法是通过构建并且结合多个决策树模型来完成分类或者回归任务的一种典型集成学习算法(窦杰等,2023;吴润泽等,2022).在随机森林算法中,假定数据集K包含nk个样本,每次从K中都抽取一个样本,将其复制到数据集K',然后放回原数据集K中.重复nk次抽取,则每个样本不被抽到的概率可用式(7)计算(Breiman, 2001):

           P s a = l i m n k ( 1 - 1 n k ) n k = 1 e 0.368

式(7)表明,约有36.8%的样本没有出现在数据集K'中,因此,可以利用数据集K'对模型进行训练,然后利用没有出现在数据集K'中的数据对模型进行测试,以检验模型的准确性.依据上述流程,每次在数据集中采出o个样本以组成s个训练集和测试集,然后利用s个训练集数据训练得到s个决策树模型,最后利用训练得到的决策树模型对测试集进行预测并将预测结果进行集成.

1.4 基于多时期滑坡编录和TrAdaBoost迁移学习的滑坡易发性模型构建

基于多时期滑坡编录和TrAdaBoost迁移学习的滑坡易发性模型构建主要包括以下4个步骤,流程图见图2.

(1)数据收集:系统收集研究区不同时期的滑坡空间位置数据、数字高程模型、地层岩性以及其他环境影响因子数据,建立研究区区域滑坡数据集.

(2)数据预处理:结合研究区工程地质条件和滑坡空间分布特征,初步选择滑坡影响因子.利用地理探测器检验所选择的滑坡影响与滑坡发育的相关性,进而确定滑坡影响因子.

(3)建立滑坡易发性模型:利用频率比模型对所选择的滑坡影响因子进行赋值,并以赋值后的滑坡影响因子作为所有易发性模型的输入变量.以2011-2013年间滑坡数据集作为源域,并以2013-2015年滑坡数据集作为目标域建立TrAdaBoost-DT和TrAdaBoost-RF滑坡易发性模型.

(4)模型检验:利用受试者工作曲线(ROC)和已发生的滑坡数据对所建立滑坡易发性模型的预测性能进行检验,同时将所提模型的预测性能与传统基于机器学习的滑坡易发性模型进行对比.

2 研究区

2.1 地理位置

研究区位于四川省阿坝藏族羌族自治州汶川县(图3),区域总覆盖面积约为540 km2.龙门山中央断裂带(映秀‒北川断裂)和后山断裂带(汶川‒茂汶断裂)横跨研究区.研究区海拔分布在902~4 100 m,区域地层岩性主要为安山岩、闪长岩、花岗岩、灰岩和砂岩(陈怡和范宣梅,2020).研究区气候主要为亚热带季风气候,年平均温度约为13 ℃.区域降雨充沛,年平均累积降雨量超过 1 250 mm,降雨主要集中在7月和8月.自汶川地震以来,受降雨和人类工程活动等影响,研究区多次发生了滑坡和泥石流等地质灾害,严重威胁了当地民众的生命和财产安全(杨琴,2018).

2.2 数据来源

汶川地震后,Fan et al.(2021)对研究区进行了多次野外现场调查和遥感解译,建立了研究区多期次的滑坡分布数据库.该数据库详细记录了震前、2008年同震、2008-2011年、2011-2013年、2013-2015年、2015-2017年和2017-2018年等时期内所发育的滑坡位置和规模,不同时期滑坡分布数量见表1.考虑本文研究目标,选取2011-2013年、2013-2015年、2015-2017年和2017-2018年期间的滑坡数据进行研究.然而,在2017-2018年期间研究区仅发育17处滑坡,如此有限的滑坡数据难以进行建模分析.为了研究需要,对2017-2018年和2015-2017年所发育的滑坡进行合并,组成2015-2018年滑坡数据集.基于四川基础地理信息中心提供的1:100 000区域地质图,利用ArcGIS矢量化工具对其矢量化以获取区域地层岩性和断裂带分布.通过Google Earth Engine地理信息在线计算和分析平台(earthengine.google.com/)获取研究区空间分辨率为30 m的数字高程模型(DEM).研究区数据来源、分辨率和数据格式详见表2.

3 方法应用

3.1 滑坡影响因子初步选择

影响斜坡稳定性的因素众多,并且相互之间关系复杂.因此,在选择影响因素时,应综合考虑影响因素的物理意义和代表性.斜坡高程影响着滑坡势能并控制着斜坡体内的应力值大小.基于自然间断法将研究区高程划分为5类(图4a):<1 445 m,1 145~2 025 m,2 025~ 2 063 m,2 563~3 125 m,>3 125 m.研究区滑坡主要分布在高程位于1 445~2 560 m区域,该区域共发育了782处滑坡,约占该时期滑坡总数的73%.

斜坡坡度直接影响斜坡体内部的应力分布,一般而言斜坡坡度越大,坡脚的剪应力集中现象越明显,斜坡也就越不稳定.研究区斜坡坡度较大,其中斜坡坡度28°~48°的区域面积约占整个研究区的63%,并且约有71%的滑坡分布在此区域上.基于自然间断法将研究区斜坡坡度划分为5类(图4b):<14°,14°~28°,28°~38°,38°~48°,>48°.

不同斜坡坡向的蒸发量、侵蚀率和植被覆盖率不同,从而导致斜坡岩土体的孔隙水压力分布和岩土体物理力学性质存在差异,进而影响斜坡稳定性.以45°为间隔,将研究区斜坡坡向划分为北、北东、东、南东、南、南西、西和北西8类(包括平坦区域,共9类;图4c).滑坡在坡向上的分布差异明显,其中约58%的滑坡分布在南和南东坡向区域,表明区域斜坡的优势坡向为南和南东.该优势坡向与区域地震波的传播方向也近似一致,进一步表明在2013-2015年时期,该区域斜坡稳定性仍受汶川地震影响.

斜坡剖面曲率是坡度方向的表面曲率,用以表征斜坡沿坡度方向的坡面形态:当剖面曲率小于0时,表明斜坡为凸型坡;当剖面曲率大于0时,表明斜坡为凹形坡.凹型坡应力集中程度较弱,斜坡稳定性系数较高.而凸型坡坡面应力集中程度高,甚至由于卸荷回弹坡面产生拉应力,导致斜坡稳定性降低.利用自然间断法将斜坡剖面曲率划分为5类(图4d):<-4.2,-4.2~-1.1,-1.1~1.1,1.1~4.3,>4.3.统计结果表明,滑坡主要分布在剖面曲率-1.1~1.1之间区域,并且分布在凸形坡区域的滑坡数量高于凹形坡区域.

岩土体类型决定了岩土体物理力学强度、抗风化、渗透系数和变形破坏特征,进而直接影响斜坡岩土体的稳定性.依据研究区出露的地层岩性,将研究区地层划分为5类(图4e):安山岩类、闪长岩类、花岗岩类、灰岩类和砂泥岩类.约有91%的滑坡分布在花岗岩和闪长岩类区域,其中分布在花岗岩类区域的滑坡数量超过滑坡总数的75%.

研究区位于汶川地震强震区,汶川地震对区域斜坡稳定性产生较大影响.一般而言,距离龙门山断裂带越近,地震对斜坡稳定性的影响越大.为了分析龙门山断裂带对研究区滑坡分布的影响,利用ArcGIS中缓冲工具生成距断裂带不同距离的缓冲区(图4f):0~2 km、2~4 km、4~6 km、6~8 km、>8 km.对不同缓冲区中的滑坡数量进行统计发现:70%以上的滑坡分布在距离断裂带4 km以外区域;距离断裂带0~4 km区域内滑坡数量和滑坡密度均小于距离断裂带4~8 km区域,表明该时期内的滑坡分布基本不受断裂带控制.

由于研究区域大部分位于山区,准确的降雨资料难以获取,并且研究区域尺度较小,因此在本文研究中忽略了降雨等外部因素对区域斜坡稳定性的影响.基于上述分析,选择高程、斜坡坡度、斜坡坡向、剖面曲率、距断裂带距离和地层岩性作为滑坡的影响因子,并利用地理探测器检验所选择的滑坡影响因子与滑坡发育的相关性.以2013-2015年发育的滑坡数据为例,分析滑坡影响因子对滑坡发育的控制作用.

3.2 滑坡影响因子确定

上一小节中初步选定了高程、斜坡坡度、斜坡坡向、剖面曲率、地层岩性和距断裂带距离这6个滑坡影响因子,但这些滑坡影响因子与滑坡发育之间的相关性有待进一步证实.为了定量评价滑坡影响因子与滑坡发育之间的相关性,利用地理探测器对滑坡影响因子与滑坡发育之间的统计相关性进行检验.由于滑坡影响因子数据格式和类型各不相同,无法进行统计分析.因此本文采用频率比法对滑坡各个影响因子进行赋值,其计算方法如式(8)Lee et al., 2007黄发明等,2021):

            F R i j = L A i j / j = 1 n s L A i j F A i j / j = 1 n s F A i j,

式中:LAij 为在第j个滑坡影响因子的第i个子类中的滑坡数量,FAij 为在第j个滑坡影响因子的第i个子类的滑坡栅格单元数量,FRij 为在第j个滑坡影响因子的第i个子类中的频率比数值,ns为滑坡影响因子中子类数量.

将赋值后滑坡影响因子作为输入变量,通过地理探测器计算各个滑坡影响因子与滑坡分布的相关性.地理探测器是用来揭示不同因子对自然灾害影响的一种工具(Wang et al., 2010),主要包括分异及因子探测器、交互作用探测器、风险区探测器和生态区探测器.其中分异及因子探测器主要用于探测影响因子X对属性Y的空间变异性,即滑坡影响因子对滑坡分布的影响.计算结果用q值进行度量,其计算公式如下:

           q = 1 - i = 1 n s N R i σ i 2 N R σ 2,

式中:ns为滑坡影响因子中子类数,NR为研究区栅格单元总数,NRi 为在第i个滑坡影响因子子类中的栅格单元数量, σ i 2 σ 2分别为频率比值在第i个滑坡影响因子子类和研究区中的方差.q的值域为[0, 1].q值越大表明该滑坡影响因子对滑坡分布影响程度越大.当q值为0时,表明该影响因子与滑坡分布无关;当q值为1时,则表明该影响因子完全控制了研究区滑坡分布.各个影响因子的q值计算结果见表3.

表3可知,剖面曲率因子的p值大于0.05,表明剖面曲率对区域滑坡分布影响较弱.因此在后续分析中去除剖面曲率因子,只选用坡向、坡度、高程、距断层距离和地层岩性因子来建立滑坡易发性模型.此外,在建立滑坡易发性模型时,机器学习算法需要提供与滑坡样本近似相同数量的非滑坡点(负样本).基于现有的非滑坡点生成方法(Ling et al., 2014),本文通过ArcGIS中的多环缓冲分析工具,在滑坡点周围0~500 m区域随机生成相应数量的非滑坡样本.

3.3 基于TrAdaBoost-DT滑坡易发性模型构建

以赋值后的2011-2013年的滑坡数据作为源域,以2013-2015年的滑坡数据作为目标域,建立基于TrAdaBoost迁移学习的滑坡易发性模型.其中,以2011-2013年的数据集和70%的2013-2015年数据集作为训练集对模型进行训练,以30%的2013-2015年数据集(243个滑坡)作为测试集来检验模型的预测效果.为了论证TrAdaBoost迁移学习模型的有效性,选择决策树算法(DT)作为TrAdaBoost模型的单体学习器以构建区域滑坡易发性模型(TrAdaBoost-DT).

在开源软件Python 3.9环境下编写TrAdaBoost-DT程序以实现上述过程,详细程序代码见https://github.com/Fuzhiyong09/TrAdaBoost.git.以赋值后的2011-2013年的滑坡数据集作为源域、2013-2015年的数据集作为目标域对上述模型进行训练,并利用训练好后的模型对研究区滑坡易发性进行计算.本研究采用均分法将研究区滑坡易发性进行等级划分:极低风险(0~0.2)、低风险(0.2~0.4)、中风险(0.4~0.6)、高风险(0.6~0.8)、极高风险(0.8~1.0).

基于TrAdaBoost-DT模型的研究区滑坡易发性分区如图5a所示,极低风险区、低风险区、中风险区、高风险区和极高风险区分别占研究区总面积的23%、29%、24%、22%和2%.高和极高易发性区域主要分布在南和南东坡向区域,这一发现与基于q统计分析所得结论基本吻合.对比现有滑坡点与区域易发性分区图,发现滑坡易发性分区与现有滑坡点分布基本吻合.为了进一步验证所提方法的准确性,利用测试集数据(243个滑坡和258个非滑坡)和受试者工作曲线(ROC)(Spackman, 1989)对模型进行检验.ROC曲线下方面积(AUC)常被用来评价滑坡易发性模型的准确性,AUC值越大表明模型的预测性能越好.TrAdaBoost-DT模型的检验结果见表4图6,约58%的滑坡和81%的非滑坡点被准确预测,并且TrAdaBoost-DT模型的AUC为0.65,表明该模型具有较好的预测性能.

为了进一步显示该模型的优越性,仅采用DT模型计算区域滑坡易发性.DT模型中的参数值与TrAdaBoost算法中参数值保持一致.值得注意的是,当使用DT算法时,源域的数据集将不再被需要.为此,仅采用目标域的数据集对DT模型进行训练,即DT模型的训练集和测试集与TrAdaBoost-DT模型目标域的训练集和测试集保持一致.利用训练好的DT模型对区域滑坡易发性进行计算(图5b),并利用测试集数据(243个滑坡和258个非滑坡)和ROC曲线对模型进行检验,计算结果见表4图6.由表4可知,DT模型的滑坡预测准确率与TrAdaBoost-DT模型的预测准确率相同,而非滑坡预测准确率和AUC分别比TrAdaBoost-DT模型低0.09和0.03.上述结果表明,TrAdaBoost-DT模型能够在2011-2013年滑坡数据集中寻找到有用的信息以提高DT模型在2013-2015年数据集中的预测性能.

3.4 基于TrAdaBoost-RF滑坡易发性模型构建

为了进一步检验TrAdaBoost模型的适用性,以随机森林算法(RF)作为TrAdaBoost模型的单体学习器来构建TrAdaBoost-RF模型.随机森林算法中决策树的棵树、树的最大深度和节点再划分所需最少样本数分别设置为500、5和5,其余参数保持默认值.以赋值后的2011-2013年的数据集作为源域、以2013-2015年的数据集作为目标域对上述模型进行训练,并利用训练好模型对研究区滑坡易发性进行计算,结果如图7a所示.研究区极低易发区、低易发区、中易发区、高易发区和极高易发区分别占研究区总面积的30%、22%、18%、19%和8%;高和极高易发性区域主要分布在南与南东坡向斜坡,这与TrAdaBoost-DT模型计算所得结果相同.为了与传统RF模型对比,利用目标域训练集的数据对RF模型进行训练,并采用训练好后的RF模型计算研究区滑坡的易发性,结果如图7b.利用ROC曲线和已发生的滑坡对TrAdaBoost-RF和RF模型进行检验,如表4所示,TrAdaBoost-RF模型滑坡预测准确率、非滑坡预测准确率和AUC分别为0.75、0.54和0.62;RF模型滑坡预测准确率、非滑坡预测准确率和AUC分别为0.67、0.63和0.61.相对于RF模型,可以发现TrAdaBoost-RF模型的滑坡预测准确率和AUC分别提高了8%和1%.由TrAdaBoost-DT与DT和TrAdaBoost-RF与RF的对比结果可知,采用TrAdaBoost算法可以较为有效地提高基于机器学习滑坡易发性模型的预测性能.

3.5 模型的适用性检验

以赋值后的2013-2015年的滑坡数据作为源域、以2015-2018年的滑坡数据(37个滑坡)作为目标域对TrAdaBoost模型的适用性进行进一步验证.TrAdaBoost-DT、TrAdaBoost-RF、DT和RF模型的计算参数和计算流程与前文保持一致,计算得到区域滑坡易发性分布如图8所示.利用ROC曲线和测试集数据(12个滑坡和11个非滑坡)对模型进行检验,检验结果见表5图9.可以发现,TrAdaBoost-DT模型和TrAdaBoost-RF的AUC相对于DT和RF模型分别提高了13%;DT模型的滑坡和非滑坡的预测准确率分别提高了约2%和3%;RF模型的滑坡和非滑坡的预测准确率提高了约1%.上述结果进一步表明,TrAdaBoost模型可以有效提高传统机器学习算法的预测性能.此外,对比不同目标域的样本容量,可以发现当目标域样本的容量越小时,TrAdaBoost算法对传统机器学习算法的预测性能提升效果也就越显著.这是因为当目标域样本容量较大时,预测模型可以被目标域样本充分训练;而当目标域样本容量较小时,预测模型很容易对研究区样本欠拟合.此时当有较好的源域样本信息被迁移到目标域时,模型的预测性能将会被提升.

传统的机器学习模型需要获取大量的滑坡数据集,从而训练出一个准确的滑坡易发性模型.而本文所提的TrAdaBoost迁移学习方法依据研究区不同时期滑坡影响因素的相似性,将上一时期滑坡编录数据迁移到所研究时期的滑坡编录中来提高模型的预测准确度.但TrAdaBoost算法依然存在权重不匹配和源域权重下降速度过快等问题.在使用该算法建立滑坡易发性模型时,应合理分配源域和目标域的权重.此外,当数据集非常小时,TrAdBoost算法和传统机器学习算法均不能用于建立区域滑坡易发性模型.此时,进行现场调查和遥感解译仍是最主要和最有效的提高模型预测准确率的方式.

4 结论

地震发生后,随着震区地质条件稳定,震区滑坡发生频率逐渐降低.当某一时期样本容量较小时,难以通过已有方法建立该时期较为准确的滑坡易发性模型.为了解决上述问题,本文提出了一种基于多期次滑坡编录和TrAdaBoost迁移学习的滑坡易发性评价方法.以汶川地震汶川‒映秀区域为例,系统收集了该区域2011-2013年、2013-2015年、2015-2018年滑坡数据,结合区域地质环境,分别建立了不同时期的TrAdaBoost-DT和TrAdaBoost-RF滑坡易发性模型,并利用ROC曲线和已发生滑坡对模型进行检验,取得如下结论.

(1)以2011-2013年滑坡数据集作为源域、以2013-2015年滑坡数据集作为目标域,建立了TrAdaBoost-DT和TrAdaBoost-RF滑坡易发性模型.对比传统DT和RF模型,TrAdaBoost-DT和TrAdaBoost-RF滑坡易发性模型的AUC分别提高了0.03和0.01.而以2013-2015年滑坡数据集作为源域、2015-2018年滑坡数据集作为目标域,TrAdaBoost模型使得DT和RF模型的AUC分别提高了0.13和0.13.结果表明,TrAdaBoost迁移学习模型能够有效提高传统滑坡易发性模型的预测性能.

(2)在小数据集下TrAdaBoost迁移学习模型对滑坡易发性的预测性能提升更为显著,较好地解决了样本数据量不足所引发的欠拟合问题.通过2015-2018年滑坡测试集数据(12个滑坡和11个非滑坡)对模型进行检验,发现TrAdaBoost模型使得DT和RF模型的AUC提高了0.13;而利用2013-2015年滑坡数据集(243个滑坡和258个非滑坡)对模型检验时,TrAdaBoost模型仅使其提高了0.03和0.01.

(3)相较于RF算法,TrAdaBoost模型对DT算法预测性能提升效果较为明显,并且TrAdaBoost-DT的AUC和总体预测准确率均优于TrAdaBoost-RF模型.建议采用DT算法作为TrAdaBoost模型的单体学习器对研究区的滑坡易发性进行预测.

本文基于TrAdaBoost迁移学习模型和不同时期的滑坡数据集对基于机器学习的滑坡易发性模型进行了改进.虽然本文所提方法仅用来改进了DT和RF模型,但该方法亦可用于提升其他基于机器学习的滑坡易发性模型的预测性能.此外,TrAdaBoost迁移学习模型的准确性也受研究区样本容量影响,因此当研究区域滑坡样本较少时,进行现场调查或遥感解译仍然是必不可少的工作.

参考文献

[1]

Breiman, L., 2001. Random Forests. Machine Learning, 45(1):5-32.

[2]

Chen, Y., Fan, X. M., 2020. Susceptibility Assessment of Post-Earthquake Geo-Hazard in the Epicentral Area of the 2008 Wenchuan Eearthquake near Yingxiu Town. Science Technology and Engineering, 20(9): 3516-3527 (in Chinese with English abstract).

[3]

Criss, R. E., Yao, W. M., Li, C. D., et al., 2020. A Predictive, Two-Parameter Model for the Movement of Reservoir Landslides. Journal of Earth Science, 31(6): 1051-1057.

[4]

Dai, W. Y., Yang, Q., Xue, G. R., et al., 2007. Boosting for Transfer Learning. In: Proceedings of the 24th International Conference on Machine Learning. ACM Press, New York, 193-200.

[5]

Dou, J., Xiang, Z. L., Xu, Q., et al., 2023. Application and Development Trend of Machine Learning in Landslide Intelligent Disaster Prevention and Mitigation. Earth Science, 48(5):1657-1674 (in Chinese with English abstract).

[6]

Dou, J., Yunus, A. P., Tien Bui, D., et al., 2019. Assessment of Advanced Random Forest and Decision Tree Algorithms for Modeling Rainfall-Induced Landslide Susceptibility in the Izu-Oshima Volcanic Island, Japan. The Science of the Total Environment, 662: 332-346. https://doi.org/10.1016/j.scitotenv.2019.01.221

[7]

Fan, X. M., Yunus, A. P., Scaringi, G., et al., 2021. Rapidly Evolving Controls of Landslides after a Strong Earthquake and Implications for Hazard Assessments. Geophysical Research Letters, 48(1):1-12.

[8]

Formetta, G., Rago, V., Capparelli, G., et al., 2014. Integrated Physically Based System for Modeling Landslide Susceptibility. The Third Italian Workshop on Landslides: Hydrological Response of Slopes through Physical Experiments, Field Monitoring and Mathematical Modeling, 9: 74-82.

[9]

Guo, C., Xu, Q., Dong, X.J., et al., 2021. Geohazard Recognition and Inventory Mapping Using Airborne LiDAR Data in Complex Mountainous Areas. Journal of Earth Science, 32(5): 1079-1091.

[10]

Guzzetti, F., Mondini, A. C., Cardinali, M., et al., 2012. Landslide Inventory Maps: New Tools for an Old Problem. Earth-Science Reviews, 112: 42-66.

[11]

Huang, F. M., Pan, L. H., Yao, C., et al., 2021. Landslide Susceptibility Prediction Modeling Based on Semi- Supervised Machine Learning. Journal of Zhejiang University (Engineering Science), 55(9): 1705-1713 (in Chinese with English abstract).

[12]

Huang, W.B., Ding, M.T., Wang, D., et al., 2022. Evaluation of Landslide Susceptibility Based on Layer Adaptive Weighted Convolutional Neural Network Model along Sichuan-Tibet Traffic Corridor. Earth Science, 47(6):2015-2030 (in Chinese with English abstract).

[13]

Jiang, S. H., Liu, X., Huang, F. M., et al., 2020. Failure Mechanism and Reliability Analysis of Soil Slopes under Rainfall Infiltration Considering Spatial Variability of Multiple Soil Parameters. Chinese Journal of Geotechnical Engineering, 42(5): 900-907 (in Chinese with English abstract).

[14]

Lee, S., Ryu, J. H., Kim, I.S., 2007. Landslide Susceptibility Analysis and Its Verification Using Likelihood Ratio, Logistic Regression, and Artificial Neural Network Models: Case Study of Youngin, Korea. Landslides, 4(4): 327-338.

[15]

Li, C. D., Fu, Z. Y., Wang, Y., et al., 2019. Susceptibility of Reservoir-Induced Landslides and Strategies for Increasing the Slope Stability in the Three Gorges Reservoir Area: Zigui Basin as an Example. Engineering Geology, 261: 105279.

[16]

Li, Y. W., Xu, L. Y., Zhang, L. L., et al., 2023. Study on Development Patterns and Susceptibility Evaluation of Coseismic Landslides within Mountainous Regions Influenced by Strong Earthquakes. Earth Science, 48(5):1960-1976 (in Chinese with English abstract).

[17]

Ling, P., Niu, R. Q., Huang, B., et al., 2014. Landslide Susceptibility Mapping Based on Rough Set Theory and Support Vector Machines:A Case of the Three Gorges Area,China. Geomorphology, 204(1):287-301.

[18]

Liu, J., Li, S. L., Chen, T., 2018. Landslide Susceptibility Assesment Based on Optimized Random Forest Model. Geomatics and Information Science of Wuhan University, 43(7): 1085-1091 (in Chinese with English abstract).

[19]

Long, J. J., Liu, Y., Li, C. D., et al., 2021. A Novel Model for Regional Susceptibility Mapping of Rainfall-Reservoir Induced Landslides in Jurassic Slide-Prone Strata of Western Hubei Province, Three Gorges Reservoir Area. Stochastic Environmental Research and Risk Assessment, 35(7): 1403-1426.

[20]

Pan, S. J., Yang, Q., 2010. A Survey on Transfer Learning. IEEE Transactions on Knowledge and Data Engineering, 22(10): 1345-1359.

[21]

Shao, L., Zhu, F., Li, X. L., 2015. Transfer Learning for Visual Categorization: A Survey. IEEE Transactions on Neural Networks and Learning Systems, 26(5): 1019-1034. https://doi.org/10.1109/TNNLS.2014.2330900

[22]

Spackman, K. A., 1989. Signal Detection Theory: Valuable Tools for Evaluating Inductive Learning. In: Proceedings of the 6th International Workshop on Machine Learning (IWML). MICCAI, Ithaca, 160-163.

[23]

Tang, H. M., Wasowski, J., Juang, C. H., 2019. Geohazards in the Three Gorges Reservoir Area, China:Lessons Learned from Decades of Research. Engineering Geology, 261: 105267.

[24]

Tien Bui, D., Pradhan, B., Lofman, O., et al., 2012. Landslide Susceptibility Assessment in Vietnam Using Support Vector Machines, Decision Tree, and Naïve Bayes Models. Mathematical Problems in Engineering, 2012: 974638.

[25]

Wang, F. W., Zhang, Y. M., Huo, Z. T., et al., 2004. The July 14, 2003 Qianjiangping Landslide, Three Gorges Reservoir, China. Landslides, 1: 157-162.

[26]

Wang, H. J., Wang, L., Zhang, L. M., et al., 2022. Transfer Learning Improves Landslide Susceptibility Assessment. Gondwana Research. https://doi.org/10.1016/j.gr.2022.07.008

[27]

Wang, J. F., Li, X. H., Christakos, G., et al., 2010. Geographical Detectors‐Based Health Risk Assessment and Its Application in the Neural Tube Defects Study of the Heshun Region, China. International Journal of Geographical Information Science, 24(1): 107-127.

[28]

Wang, J. J., Yin, K. L., Xiao, L. L., 2014. Landslide Susceptibility Assessment Based on GIS and Weighted Information Value: A Case Study of Wanzhou District, Three Gorges Reservoir. Chinese Journal of Rock Mechanics and Engineering, 33(4): 797-808 (in Chinese with English abstract).

[29]

Wang, Y., Fang, Z. C., Hong, H. Y., 2019. Comparison of Convolutional Neural Networks for Landslide Susceptibility Mapping in Yanshan County, China. The Science of the Total Environment, 666: 975-993. https://doi.org/10.1016/j.scitotenv.2019.02.263

[30]

Wu, R. Z., Hu, X. D., Mei, H. B., et al., 2021. Spatial Sususceptibility Assessment of Landslides Based on Random Forest: A Case Study from Hubei Section in the Three Gorges Reservoir Area. Earth Science, 46(1):321-330 (in Chinese with English abstract).

[31]

Xu, C., Dai, F. C., Xu, X. W., 2011. Earthquake Triggered Landslide Susceptibility Evaluation Based on GIS Platform and Weight-of-Evidence Modeling. Earth Science, 36(6): 1155-1164 (in Chinese with English abstract).

[32]

Xu, C., Dai, F. C., Yao, X., et al., 2009. GIS-Based Landslide Susceptibility Assessment Using Analytical Hierarchy Process in Wenchuan Earthquake Region. Chinese Journal of Rock Mechanics and Engineering, 28(S2): 3978-3985 (in Chinese with English abstract).

[33]

Xu, Q., Li, W. L., Dong, X. J., et al., 2017. The Xinmocun Landslide on June 24, 2017 in Maoxian, Sichuan: Characteristics and Failure Mechanism. Chinese Journal of Rock Mechanics and Engineering, 36(11): 2612-2628 (in Chinese with English abstract).

[34]

Yang, Q., 2018. Study on Temporal and Spatial Evolution Law and Susceptibility Evaluation of Geological Disasters after Wenchuan Earthquake (Dissertation). Chengdu University of Technology, Chengdu (in Chinese with English abstract).

[35]

Yin, K. L., Zhu, L., 2001. Landslide Hazard Zonation and Application of GIS. Earth Science Frontiers, 8(2): 279-284 (in Chinese with English abstract).

[36]

Yin, Y. P., 2008. Researches on the Geo-Hazards Triggered by Wenchuan Earthquake, Sichuan. Journal of Engineering Geology, 16(4): 433-444 (in Chinese with English abstract).

[37]

陈怡, 范宣梅, 2020. 震后地质灾害易发性评价: 以映秀震区为例. 科学技术与工程, 20(9): 3516-3527.

[38]

窦杰, 向子林, 许强, 等, 2023. 机器学习在滑坡智能防灾减灾中的应用与发展趋势.地球科学, 48(5):1657-1674.

[39]

黄发明, 潘李含, 姚池, 等, 2021. 基于半监督机器学习的滑坡易发性预测建模. 浙江大学学报(工学版), 55(9): 1705-1713.

[40]

黄武彪,丁明涛,王栋,等,2022. 基于层数自适应加权卷积神经网络的川藏交通廊道沿线滑坡易发性评价. 地球科学, 47(6):2015-2030.

[41]

蒋水华, 刘贤, 黄发明, 等, 2020. 考虑多参数空间变异性的降雨入渗边坡失稳机理及可靠度分析. 岩土工程学报, 42(5): 900-907.

[42]

李永威, 徐林荣, 张亮亮, 等, 2023. 强震山区地震诱发滑坡发育规律与易发性评估.地球科学, 48(5):1960-1976.

[43]

刘坚, 李树林, 陈涛, 2018. 基于优化随机森林模型的滑坡易发性评价. 武汉大学学报(信息科学版), 43(7): 1085-1091.

[44]

王佳佳, 殷坤龙, 肖莉丽, 2014. 基于GIS和信息量的滑坡灾害易发性评价: 以三峡库区万州区为例. 岩石力学与工程学报, 33(4): 797-808.

[45]

吴润泽,胡旭东,梅红波, 等, 2021. 基于随机森林的滑坡空间易发性评价:以三峡库区湖北段为例.地球科学,46(1):321-330.

[46]

许冲, 戴福初, 徐锡伟, 2011. 基于GIS平台与证据权的地震滑坡易发性评价. 地球科学, 36(6): 1155-1164.

[47]

许冲, 戴福初, 姚鑫, 等, 2009. GIS支持下基于层次分析法的汶川地震区滑坡易发性评价. 岩石力学与工程学报, 28(S2): 3978-3985.

[48]

许强, 李为乐, 董秀军, 等, 2017. 四川茂县叠溪镇新磨村滑坡特征与成因机制初步研究. 岩石力学与工程学报, 36(11): 2612-2628.

[49]

杨琴, 2018. 汶川震后地质灾害时空演化规律及易发性评价研究(硕士学位论文). 成都: 成都理工大学.

[50]

殷坤龙, 朱良峰, 2001. 滑坡灾害空间区划及GIS应用研究. 地学前缘, 8(2): 279-284.

[51]

殷跃平, 2008. 汶川八级地震地质灾害研究. 工程地质学报, 16(4): 433-444.

基金资助

国家自然科学基金项目(52078393;U2240211)

AI Summary AI Mindmap
PDF (9351KB)

218

访问

0

被引

详细

导航
相关文章

AI思维导图

/