基于流域单元和堆叠集成模型的天山地区泥石流易发性评估建模

侯儒宁 ,  李志 ,  陈宁生 ,  田树峰 ,  刘恩龙 ,  倪化勇

地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1892 -1907.

PDF (11741KB)
地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1892 -1907. DOI: 10.3799/dqkx.2022.271

基于流域单元和堆叠集成模型的天山地区泥石流易发性评估建模

作者信息 +

Modeling of Debris Flow Susceptibility Assessment in Tianshan Based on Watershed Unit and Stacking Ensemble Algorithm

Author information +
文章历史 +
PDF (12021K)

摘要

天山地区未来将成为国家重要战略交通、油气资源管道、城镇居民点建设的部署区域,对该区域泥石流灾害易发性评估使重大潜在泥石流灾害点的监测点布置以及防治更具针对性.集成学习算法可避免灾害易发性评估中算法选择困难的问题且可显著提高建模精度,但其在泥石流易发性评估中的应用仍然缺乏,可靠性有待检验.本研究基于流域单元采用堆叠集成算法评估天山地区的泥石流灾害易发性,选择干旱度、陡度指数等14个特征变量进行天山地区的泥石流易发性评估建模,比较了堆叠集成算法与独立异质算法建模的预测性能,最后探讨了天山地区泥石流灾害的控制因素.结果表明:(1)天山地区泥石流灾害高、极高易发性区域占比分别为17.06%和19.75%,集中分布在北天山北坡和南天山南坡.(2)堆叠集成算法预测率曲线AUC值为0.87,显著高于独立机器学习算法(0.79~0.81),比独立机器学习算法有更好的预测性能.(3)除去常规地形和降雨对天山地区泥石流的发育有显著控制作用外,干旱和隆升也对天山地区泥石流的发育有重要影响.结果不仅有助于天山地区泥石流灾害风险管理,还对各类机器学习模型评估干旱山区泥石流易发性的建模特征有启示意义.

关键词

天山 / 泥石流 / 机器学习 / 易发性 / 干旱 / 隆升 / 灾害地质

Key words

Tianshan / debris flow / machine learning / susceptibility / drought / uplift / hazard geology

引用本文

引用格式 ▾
侯儒宁,李志,陈宁生,田树峰,刘恩龙,倪化勇. 基于流域单元和堆叠集成模型的天山地区泥石流易发性评估建模[J]. 地球科学, 2023, 48(05): 1892-1907 DOI:10.3799/dqkx.2022.271

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

天山地区是我国泥石流最发育,类型最多样,威胁最严重的、活动最频繁的地区之一.自20世纪50年代以来,在天山及周边地区造成千万元以上的重大经济损失的泥石流达十余次(胡汝骥等, 1991).对泥石流灾害的易发性评估可以使重大潜在泥石流的监测及防治更具针对性,但目前相关工作只局限小范围区域,如阿拉沟和天山公路,覆盖天山全区的泥石流易发性评估工作依然缺乏.随着“中巴经济走廊”、“一带一路”、“西部大开发”等战略的实施,未来天山山脉及周边区域将成为国家重要战略交通、油气资源管道、城镇居民点的部署区域,现阶段对全区泥石流易发性评估的需求日益迫切.

泥石流灾害是气象、水文、地质和地貌条件耦合作用下的复杂过程,利用传统方法进行易发性评估存在不足与弊端,有关泥石流灾害易发性评估的传统方法可以归纳为以下几类:(1)根据频率和规模来划分风险分区,如欧美等国家根据历史记录和实际观测来划定易发性分区(Schrefler and Delage, 2013),然而野外恶劣的自然环境制约了野外观测,建设成本高昂.(2)使用多标准决策技术,如层次分析法(Chen et al., 2015),然而这种方法依赖主观的层次打分,缺乏客观性.(3)基于统计和双变量的模型,如频率比(Dash et al., 2022)、信息量(Xu et al., 2013)、确定性系数(Nahayo et al., 2019)、证据权重(Ilia and Tsangaratos, 2016)、模糊逻辑(Blais-Stevens et al., 2012灰色关联度(黄发明等, 2019)等,但这些方法受限于线性假设和低阶属性,在处理高维数据时精确度不高.(4)基于数学物理模型,包括基于连续介质和非连续介质理论的有限元(Carrara et al., 2008)、离散元、有限体积(Ouyang et al., 2019)等方法;建模和物理参数准备十分耗费精力,仅适用于小范围区域.

随着人工智能的快速发展,机器学习算法被广泛应用于工程应用和科学领域的各类非线性复杂问题.一些机器学习算法如支持向量机(Dou et al., 2020)、人工神经网络(Chen et al., 2020a)、决策树(Band et al., 2020)和随机森林(He et al., 2021)等机器学习算法被应用到灾害易发性评估方面,弥补了传统方法工作量大、主观性强、预测精度低等缺点(黄发明等, 2021b2021c李文彬等, 2021).目前,如何从广泛的选项中选择合适的模型算法仍然没有达成一致认识(黄发明等, 2020);此外,独立机器学习算法的结果可能受到数据缺陷的影响,包括异常值、预测变量之间的多重共线性(Chowdhuri et al., 2020).集成算法可以整合多个独立算法来训练模型,避免了选择何种机器学习算法的难题,并可以处理复杂和高维数据,获得比独立算法更高精度的结果(Dou et al., 2020);然而机器学习算法及集成算法在泥石流易发性评估建模中的应用依然缺乏,可靠性有待探索检验.

选择合理的特征变量用于构建模型有助于提高泥石流灾害易发性的预测精度,常用的特征变量包括但不限于地形地貌、水文、环境、地震、人类工程活动等.一个关于泥石流形成被普遍接受的假设是:降雨越多的地方,泥石流发生的可能性就会越大.但是近来天山地区诸多案例均表明,在干旱地区也会发生大规模的泥石流灾害(胡桂胜等, 2017),尤其集中在天山的阿拉沟区域,这种现象在世界其他区域也有报道(Handwerger et al., 2019).此外,泥石流作为地球物质循环的一个环节,其伴随的地貌剥蚀量和隆升量两者之间存在平衡,在隆升速率有明显差异的大空间范围,泥石流应该多发在高隆升速率区域(Larsen and Montgomery, 2012),尤其是在空间范围大、隆升速率差异明显的天山.所以,有充分理由怀疑干旱和隆升对天山泥石流灾害形成有重要影响,但目前还没有考虑上述两种因素的泥石流易发性评估工作.

针对上述问题,本文在第二次青藏高原科学考察项目的资助下获得第一手泥石流灾害资料的基础上,考虑包括干旱、陡度指数在内的14个特征变量,构造基于堆叠算法的模型,旨在解决以下问题:(1)评估并排列天山地区泥石流灾害相关的控制因素;(2)预测天山地区泥石流灾害的易发性;(3)测试和比较机器学习中堆叠集成算法与异质的独立算法(支持向量机、贝叶斯正则化神经网络、随机森林)在泥石流灾害易发性建模中的性能.

1 研究区域

本文研究区域为乌鲁木齐以西的天山区域,位于39°23′24″~45°22′12″N和73°33′36″~81°46′12″E,占地约26.2万km2图1).古天山起源于两次古生代碰撞,并在山脉内部和山麓形成了一套走滑断层和逆断层. 现代天山山体在不断施加的流水和寒冻风化及冰川等外力作用下,在其两侧从高山到平地,依次堆积了冰川沉积和冰水沉积物, 其上普遍覆盖了黄土及黄土状物质等第四纪沉积物.这些松散、巨厚的土砂砾石堆积为泥石流的产生提供了物质基础(胡汝骥等, 1991).

研究区内盆地、山脉相间出现,导致气温差异极大,最高气温达48 ℃,最低气温仅-35 ℃.研究区横亘新疆全境,中部高山阻隔了新疆南北向水汽的输送,形成新疆“南干北湿”的大环境,最大年降水量为500~800 mm;最小年降水量仅有 150 mm左右,年均降水量为410 mm左右.山区降水自西向东呈逐渐减少的趋势,北坡的降水明显多于南坡;北坡多年平均降水量可达500~ 700 mm,而且在西部个别迎风坡年降水量多达 1 000 mm,这种条件形成了西北干旱区的“湿岛”景观.

2 数据和方法

研究中涉及的数据、计算步骤和方法的工作流程如图2所示,主要包括4个步骤:(1)在旧数据库的基础上利用卫星影像解译、实地调查等方法准备泥石流灾害数据库清单;(2)与泥石流相关的特征变量多重共线性分析与筛选;(3)使用机器学习算法训练构建泥石流灾害易发性预测模型;(4)比较并验证每个模型的性能.

2.1 泥石流灾害数据库

用于泥石流灾害易发性评估的机器学习建模中的泥石流灾害点共有2 097个,主要通过以下3种途径获得:(1)新疆地区有关部门已经建立了泥石流灾害点的数据库,包括之前的历史泥石流灾害点及对该地区小范围内的调查工作获得的泥石流灾害点.(2)堆积扇和流域的形态可以用来初步区分泥石流和河流扇,通过解译识别Google Earth影像进行了初步筛选和评估,将流域的Melton Ratio值>0.6、堆积扇>3.3°作为区别泥石流和洪水沟的最小阈值(Welsh and Davies, 2011).此外,具有2.5 m空间分辨率的SPOT 5可以用来检查流域内历史泥石流沟道痕迹和沉积物的供应条件.(3)部分流域的卫星影像受阴影的影响,无法对流域是否为泥石流灾害点进行准确的判别,但是我们在2020年的9-10月份进行了实地考察工作,来验证核实通过遥感影像识别泥石流灾害点的准确性(图3).

通常情况下滑坡、雪崩、洪水等灾害现象在空间上可以被简化成一个点,但是泥石流是一个流域过程,所以本研究采用流域为评价单元,更能体现泥石流灾害影响因素的完整性.发生泥石流灾害的流域标签值被设定为1,未发生过泥石流灾害的流域标签值被设定为0,并随机在研究区域内选取了相同数量的非泥石流流域单元(2 097个非泥石流流域单元).训练集与测试集相对比率大小并没有严格的限制(黄发明等, 2021b),根据常用的划分比例,本研究中70% 数据为训练集、30% 数据为测试集,训练数据集和测试数据集都包含比例为 1∶1 的正样本和负样本.

2.2 特征变量选取

泥石流的发生涉及到水文、地貌、地质等多类型因素的影响,本文选取了共14个特征变量,包括流域面积、高差、坡度、曲率、径流强度指数(SPI)、输沙指数(STI)、土壤湿度指数(TWI)、植被指数(NDVI)、积雪覆盖度、雨季降雨量、干旱度、陡度指数、断层密度、突出地貌(图5),除去高差、流域面积、坡度和曲率外,其余各项特征变量的具体物理意义及数据来源见表1.流域是独立的集水地貌单元,可以将其看作一个最小且独立的“孕灾系统”.在GIS平台上,以0.2 km2作为集水面积阈值进行研究区流域划分与提取,只保留流域面积在1 km2以上的流域单元,提取的流域边界与卫星影像有良好的匹配性(图4).流域单元内大量像素点的特征变量值符合正态分布,每个流域单元内像素点的均值、中位数、众数相差不大,本文采用均值作为流域单元特征值.

与泥石流有关的特征的多重共线性可能会增强模型的易发性映射,所以有必要在模型构建之间进行特征因子的多重共线性检验.本文利用皮尔逊相关系数、公差(TOL)和方差膨胀因子(VIF)来确定具有高共线性的特征变量,使用泊松相关性、公差和方差因子来确定特征变量之间的相关性.皮尔逊相关系数>0.7、公差(TOL)<0.1 和方差膨胀因子 (VIF) >5 通常被认为是多重共线性的迹象.不满足上述条件的特征变量不被用于构建模型(Rahman et al., 2021).

2.3 模型算法

2.3.1 堆叠集成算法

单个机器学习模型通常会有缺陷,集成学习是将基学习器结合在一起形成一个泛化性能更强的学习器,有效地减小或者消除单个机器学习模型的局限性.堆叠(Stacking)集成算法为异质集成算法(Wolpert, 1992),与装袋(Bagging)和提升(Boosting)相比,堆叠集成算法可以增强预测能力(Healey et al., 2017).Stacking算法分为异质初级学习器和次级学习器两层.其核心思想是将多个初级学习器的预测结果组合成新特征变量,用这些新特征变量训练次级学习器并产生最终预测结果(图6).首先将泥石流灾害数据划分为训练集和测试集.每个初级学习器采用五折交叉验证,将训练集数据分为5份,其中4份用于训练算法,然后用训练好的算法预测训练集剩余的一份数据和整个测试集的数据.依次循环5次,将训练集的预测结果按照原顺序拼接组合.五折交叉验证使测试集数据被预测5次,5次预测结果可能会不同,需要对测试集的预测结果求算术平均数,保证与训练集的新特征矩阵的维度一致,最大限度保留预测信息,即得到一组用于训练次级学习器的测试集新特征矩阵,而初始样本的标记仍被当做样例标记.本文采用3种异质机器学习算法(贝叶斯正则化神经网络、支持向量机、随机森林)作为初级学习器,逻辑回归作为次级学习器.采用Matlab中的‘fitclinear’工具箱内置的逻辑回归模型实现堆叠集成算法,参数均为默认设置.

2.3.2 贝叶斯正则化神经网络

神经网络是进行分布式并行信息处理的算法数学模型(Rahman et al., 2021),但是这种机器学习算法是计算密集型的,可能导致复杂、有限或嘈杂的数据集的强泛化.与传统的神经网络用交叉熵,MSE等损失函数去拟合标签值相反,贝叶斯正则化神经网络(Bayesian Regularization Back Propagation Neural Network,BRBP)将网络的权值和阈值看作是特殊分布的随机变量,用最大似然估计理论自动设置最优性能参数,拟合后验分布,使平方误差和权重的线性组合最小化,有效防止过拟合.利用matlab自带的‘trainbr’工具包进行BPBP模型构建,所有的参数设置均采用默认设置.

2.3.3 支持向量机

支持向量机(Supporting Vector Machine,SVM)是一种有监督的最大似然方法(Dou et al., 2020).SVM的基本思想是通过内积函数定义非线性变换将输入空间变换到一个高维特征空间,在这个高维特征空间中求取最优分类超平面,使得在原输入空间中不可分的数据变得线性可分(黄发明等, 2018).SVM 模型的能力主要取决于合适的核函数,例如多项式核(PL)、sigmoid 核(SIG)、径向基函数(RBF)和线性核(LN).该模型构建基于LIBSVM-matlab附加包,采用RBF作为核函数,利用网格寻优法确定的惩罚因子c为100,gamma参数取值为10-1.58.

2.3.4 随机森林

随机森林(Random Forest,RF)方法基于bootstrap聚合(bagging)多个决策树,引入了样本随机抽样和特征随机抽样,显著提高了模型的准确性和稳定性,降低了对噪声和异常值的敏感性,并有效避免了过度拟合(张书豪和吴光, 2019).与其他机器学习方法不同,随机森林可以通过计算预测误差的增加来返回量化变量的重要性,尤其是在变量之间存在潜在相关性的情况下,使用随机森林对因子贡献率评估更加稳定.利用由Abhishek Jaiantilal 开发的randomforest-matlab附加包进行RF模型构建,默认决策树的特征个数mtry为特征变量个数(13)的1/3,取值为4,决策树个数ntree设置为300.

2.4 特征变量相对重要性

基于树模型的随机森林算法根据不纯净度的下降来判断特征变量重要性,但是该重要性通常是基于训练集的,当模型过拟合时,特征变量的相对重要性未必准确.对于神经网络和支持向量机等不是基于树模型的机器学习算法,本文采用置换重要性方法获得各个算法的特征重要性(Altmann and Tolo, 2010),该类方法对于特征重要性的评判取决于该特征被随机重排后模型在测试集中性能评分的下降程度,可以用于对比随机森林算法的结果.

2.5 模型性能评估

泥石流灾害易发性建模中评估模型性能必不可少.本文使用标准偏差、均方根误差、相关系数来评估算法性能.这些指标被绘制在泰勒图上,作为模型对预测目标变量能力的图形表示(Taylor, 2001).在泰勒图中算法与观测点间的距离越小,则表示模型预测能力越好.

本文采用混淆矩阵及其相关的参数验证不同算法预测泥石流易发性的合理性.混淆矩阵包含模型的4种可能结果:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)(Rahman et al., 2021).TP和TN分别表示准确分类的泥石流和非泥石流样本的数量,而FP和FN分别表示错误分类的泥石流样本和非泥石流样本的数量.ROC已被广泛用于验证易感性预测模型.ROC是Y轴真阳性率(TP)与X轴假阳性率(FP)的二维曲线.AUC是模型精度的定量基准,其值介于0.5~1.AUC越高,模型的性能越好.AUC越接近1,模型越精确.AUC值在0.5~0.6、0.6~0.7、0.7~0.8、0.8~0.9和0.9~1.0范围内,可分别归类为差、平均、好、非常好和优秀(He et al., 2021).除上述标准外,还考虑了准确率、精度、召回率和F1分数作为模型性能指标(He et al., 2021).更高的准确率、精度、召回率和F1值代表了模型较好的预测能力.

           准确 = T P + T N T P + T N + F P + F N,
           精度 = T P T P + F P,
           召回 = T P T P + F N,
           F 1 = 2 T P 2 T P + F P + F N .

3 泥石流易发性评价结果

3.1 特征变量共线性

图7显示了14个特征变量之间的泊松相关系数,大多数特征变量之间通过了显著性检验 (p<0.05),但径流强度指数(SPI)和沉积物输送指数(STI)之间的相关系数为0.95,这意味着两者之间有较强的正相关关系.表2显示了14个特征变量的公差(TOL)和方差膨胀因子(VIF),径流强度指数(SPI)和沉积物输送指数(STI)的方差膨胀因子分别为12.45和13.01.不考虑方差膨胀系数最大的沉积物运输指数(STI)后,剩余13个特征变量的公差值在0.29~0.96,膨胀系数在1.2~2.5,满足TOL>0.1和VIF<5的不共线阈值要求.除去沉积物运输指数(STI)外,其余13个特征变量均被用于模型训练和验证.

3.2 泥石流易发性

四种算法得到的结果按照自然间断法被划分为极低、低、中、高、极高5个等级.图8展示了4种不同算法得到的研究区不同等级泥石流易发性分区图.不同算法划分得到的泥石流5种等级易发性区域的占比不相同;SVM有最大的极高易发性区域面积占比(22.31%),其后分别是Stacking(17.73%)、RF(17.06%)和BRBP(12.12%).尽管4种算法得到的不同等级泥石流易发性面积比有一定差异,但是4种算法得到的泥石流极高、高易发性区域面积占比之和基本相同,SVM、BRBP、RF和Stacking分别为38.67%、36.59%、35.08%和36.81%.从空间分布来看,4种算法的高、极高易发性区域的分布大致一致,主要沿着北天山北坡和南天山南坡线状分布,这些区域显著的特点是有适中的坡度、高差,但是具有较少的降雨量和极高的干旱度.

3.3 模型验证及性能对比

图9展示了使用4种不同算法获得的预测结果与实际观测值之间的关联性.在训练集中,SVM、BRBP、RF和Stacking的预测结果与实际观测值之间的相关系数分别为0.63、0.71、0.83和0.96,均方根误差分别为0.40、0.30、0.29和0.17;在测试集中,上述4种算法对应的相关系数分别为0.53、0.48、0.57和0.81,均方根误差分别为0.44、0.45、0.41和0.29.以上说明集成算法在两类数据集中均具有最大的相关系数和最小的均方根误差,Stacking比其他独立算法有更好的预测能力.

图10显示了4种算法在训练集和验证集中的ROC曲线.成功率结果表明,Stacking算法的AUC值最高(0.99),其次是BRBP(0.91)、RF(0.90)和SVM(0.86).在预测率方面,所有4个算法都具有可接受的预测能力,但堆叠集成算法AUC最高(0.87),其次随机森林(0.81)、支持向量机(0.80)、贝叶斯正则化神经网络(0.79).如图11所示,4种算法的准确度、精度、召回率和F1值在训练集和预测集的中位数均在0.8附近,但集成算法表现出最突出的性能,其在训练集中的精度和召回率的中值均为1,远高于其他3种算法(0.75~0.91).值得强调的是,所有模型算法的预测率曲线的AUC值都小于成功率曲线,这可能与测试集训练集划分比例、数据规模、超参数设置等诸多因素有关.但是两类曲线之间都有相似的增长趋势,这意味着不同模型算法处理两类数据集时都具有良好的鲁棒性.总之,4种算法对泥石流易发性的预测能力都在可接受范围内,但是Satcking算法有准确率最高的预测结果.

对区域内历史泥石流灾害点的易发性指数进行统计,并将不同等级泥石流易发性分区图与研究区内历史泥石流灾害发育密度进行对比(图7).极高、高易发性分区和历史泥石流之间的空间关系的良好吻合表明模型对历史泥石流流域单元的识别能力.对于不同算法模型,大部分的历史泥石流灾害事件都分布在高、极高易发性区间内.具体而言,高、极高区间内历史泥石流占比分别为92.9%(Stacking)、86.2%(RF),81.3%(BRBP)、76.74%(SVM),尤其是Stacking的极高易发性区域面积仅占17.73%,但是却涵盖了75.55%的历史泥石流灾害事件,远高于其他算法模型.所以,Stacking能准确识别历史泥石流流域单元,只有较少的历史泥石流灾害事件被错误划分到低易发性区间内.

4 讨论

4.1 泥石流灾害的影响因素

图12所示,高差在4种算法中的重要性均是最大值(0.099~0.106),说明了高差对泥石流形成的重要性,因为它代表了基本的势能条件;而坡度、曲率、径流强度指数有最低的重要性(<0.06).除去上述4个特征变量外,其余特征在4种算法中的排序如下:雨季降雨和积雪覆盖度并没有期望的较高重要性,而干旱度的重要性却高于两者;断层密度和陡度指数的重要性在4种算法中均在前五范围内.

大多数研究基于降雨强度预测泥石流易发性,很少考虑早期干旱对泥石流易发性的影响.然而,旱后泥石流频发已成为世界性难题,一些研究人员指出中国西南山区和哥伦比亚的泥石流事件总是发生在干旱后的降雨时期(Chen et al., 2020b),天山同样也是典型的旱后泥石流发生的重灾区.该类区域属于半干旱、干旱气候,其特点是夏季干旱和秋季局部对流风暴,产生高径流率和强烈的土壤侵蚀并引发泥石流灾害.前面各个特征变量的相对重要性表明,干旱比降雨和积雪覆盖度有对泥石流更重要的控制作用.我们对此的解释是:尽管降雨、积雪为泥石流形成提供了必要的激发水源条件,但泥石流的形成是由物源控制的,干旱会使土壤表面产生大量裂缝并导致土体结构损伤(陈宁生等, 2021);此外,野外调查也显示天山南坡的植被覆盖度明显低于北坡,极利于产流.但是泥石流流域因旱后土壤性质的变化而引起的物源增加并不容易引起人们的重视.在我国,干旱山区广泛存在,本文结果对干旱山区泥石流风险评价的工作有重要启示意义.

陡度指数较高的相对重要性意味着构造隆升对泥石流灾害的重要作用.强构造隆升会引起的河流快速下切和频繁发生的滑坡,这些滑坡沉积物进入河道为泥石流提供了物源.如2008年汶川地震引发的75%的构造抬升被滑坡抵消,约有12.76%的滑坡沉积物进入河道转化为泥石流(李勇等, 2015).研究区域西南部受青藏高原扩展挤压的影响,地壳水平运动速率为12.7±0.6 mm/a,为研究区域平均值的3倍.考虑该区域干旱的气候条件,隆升‒干旱对泥石流的叠加影响导致该区域极容易形成泥石流灾害.事实证明近年来天山地区的严重的泥石流事件多发生在该区域,如2016年7月6日叶城县泥石流(胡桂胜等, 2017),2018年7月30日的温宿泥石流.由此可见,以隆升速率为代表的内动力因素对泥石流灾害有重要影响,尤其表现在空间范围跨度较大、隆升速率有明显差异的天山区域.

总体而言,基于机器学习算法得到的特征变量重要性具有参考意义,除去常规的地形和降水特征因素外,本文的结果强调了干旱和隆升对泥石流形成的重要作用.

4.2 局限性与展望

本文存在4点局限性.第一,每个流域单元内有大量像素点,本研究中采用的是流域内像素点的平均值来作为特征值,而采用流域内像素点的中值、众数与平均值之间的差异值得深入探讨.第二,岩性常被考虑为与泥石流相关的重要特征变量,但是现阶段获取大比例尺的地层数据仍然存在困难;另一方面,地质图主要传达的是基岩划分情况,而不是风化层和斜坡沉积物的信息,而后者是泥石流形成的主要物质来源,所以地层划分情况或许对预测准确度的提升作用有限.第三,《中国地震动参数区划图》对研究区域内的地震参数划分差别不大,所以本研究中并没有采用该特征变量,如何选择合适的指标参数来量化地震对泥石流的作用仍需要进一步的工作.第四,输入数据的质量至关重要,其类型和分辨率均会对模型构建产生一定影响(黄发明等, 2021a).不同版本的高程、积雪、降水产品可能会导致不同的泥石流易发性预测结果.本研究采用的数据最高分辨率为30 m,这可能导致一些细节会被遗漏;尽管目前有一些高分辨率的免费高程数据(如ALOS,12.5 m),但遗憾的是,获得高分辨率降水、积雪覆盖等产品仍然存在困难.随着越来越多的全球高分辨率数据可用,未来基于机器学习开发的易发性评估建模的可靠性会不断增加.

尽管集成方法可以有效提高模型预测精度,也解决了选取何种机器学习算法的困扰,但是一个突出的缺点是,集成算法相比于独立机器学习算法耗费更多的计算资源和时间.因此,在满足实际精度需求的情况下,算法的选择应根据实际情况而定.

5 结论

本研究以流域为基本评价单元,采用堆叠集成算法评估了天山地区泥石流灾害易发性,并比较集成算法与3种异质独立算法的性能.此外,还讨论了该地区与泥石流灾害相关的控制因素.结果表明:

(1)堆叠集成算法结果显示,天山地区泥石流极高、高、中、低、极低易发性区域面积占比分别为17.06%、19.75%、17.98%、19.07%和26.13%,高和极高泥石流易发性集中分布在北天山北坡和南天山南坡.

(2)堆叠算法与3种异质独立算法在泥石流灾害易发性预测的能力均表现良好(AUC>0.79),但堆叠算法在具有最好的性能表现,在训练集和测试集中的AUC值分别为0.99和0.87.

(3)除去常规地形因素对天山地区泥石流的形成有显著控制作用外,干旱和隆升对天山地区泥石流的影响作用不可忽略.

参考文献

[1]

Altmann, A., Tolo, L. I., 2010. Permutation Importance. Bioinformatics, 26(10): 1340-1347.

[2]

Band, S. S., Janizadeh, S., Pal, S. C., et al., 2020. Flash Flood Susceptibility Modeling Using New Approaches of Hybrid and Ensemble Tree-Based Machine Learning Algorithms. Remote Sensing, 12(3568): 3568.

[3]

Blais-Stevens, A., Behnia, P., Kremer, M., et al., 2012. Landslide Susceptibility Mapping of the Sea to Sky Transportation Corridor, British Columbia, Canada: Comparison of Two Methods. Bulletin of Engineering Geology and the Environment, 71(3): 447-466.

[4]

Blöthe, J. H., Korup, O., Schwanghart, W., 2015. Large Landslides Lie Low: Excess Topography in the Himalaya-Karakoram Ranges. Geology, 43(6): 523-526.

[5]

Carrara, A., Crosta, G., Frattini, P., 2008. Comparing Models of Debris-Flow Susceptibility in the Alpine Environment. Geomorphology, 94(3/4): 353-378.

[6]

Chen, N. S., Tian, S. F., Zhang, Y., et al., 2021. Soil Mass Domination in Debris-Flow Disasters and Strategy for Hazard Mitigation. Earth Science Frontiers, 28(4): 337-348 (in Chinese with English abstract).

[7]

Chen, N. S., Zhang, Y., Tian, S. F., et al., 2020a. Effectiveness Analysis of the Prediction of Regional Debris Flow Susceptibility in Post-Earthquake and Drought Site. Journal of Mountain Science, 17(2): 329-339.

[8]

Chen, Y., Qin, S., Qiao, S., et al., 2020b. Spatial Predictions of Debris Flow Susceptibility Mapping Using Convolutional Neural Networks in Jilin Province, China. Water, 12(8): 2079.

[9]

Chen, X., Chen, H., You, Y., et al., 2015. Susceptibility Assessment of Debris Flows Using the Analytic Hierarchy Process Method—A Case Study in Subao River Valley, China. Journal of Rock Mechanics and Geotechnical Engineering, 7(4): 404-410.

[10]

Chowdhuri, I., Pal, S. C., Chakrabortty, R., 2020. Flood Susceptibility Mapping by Ensemble Evidential Belief Function and Binomial Logistic Regression Model on River Basin of Eastern India. Advances in Space Research (the Official Journal of the Committee on Space Research (COSPAR)), 65(5): 1466-1489.

[11]

Dash, R. K., Falae, P. O., Kanungo, D. P., 2022. Debris Flow Susceptibility Zonation Using Statistical Models in Parts of Northwest Indian Himalayas—Implementation, Validation, and Comparative Evaluation. Natural Hazards, 111(2): 2011-2058.

[12]

Dou, J., Yunus, A. P., Bui, D. T., et al., 2020. Improved Landslide Assessment Using Support Vector Machine with Bagging, Boosting, and Stacking Ensemble Machine Learning Framework in a Mountainous Watershed, Japan. Landslides, 17(3): 641-658.

[13]

Handwerger, A. L., Huang, M. H., Fielding, E. J., et al., 2019. A Shift from Drought to Extreme Rainfall Drives a Stable Landslide to Catastrophic Failure. Scientific Reports, 9(1): 1569.

[14]

He, Q., Wang, M., Liu, K., 2021. Rapidly Assessing Earthquake-Induced Landslide Susceptibility on a Global Scale Using Random Forest. Geomorphology, 391: 107889.

[15]

Healey, S. P., Cohen, W. B., Yang, Z., et al., 2017. Mapping Forest Change Using Stacked Generalization: An Ensemble Approach. Remote Sensing of Environment, 204: 717-728.

[16]

Hu, G. S., Shang, Y.J., Zeng, Q. L., et al., 2017. The Emergency Scientific Investigation of Catastrophic Debris Flow in Yecheng County of Xinjiang on July 6th, 2016. Mountain Research, 35(1): 112-116 (in Chinese with English abstract).

[17]

Hu, R. J., Ma, H., Wu, R. S., et al., 1991. An Outline of Debris Flow in Xinjiang. Arid Land Geography, 14(2): 32-40 (in Chinese with English abstract).

[18]

Huang, F. M., Cao, Y., Fan, X. M., et al., 2021a. Effects of Different Landslide Boundaries and Their Spatial Shapes on the Uncertainty of Landslide Susceptibility Prediction. Chinese Journal of Rock Mechanics and Engineering, 40(S02): 3227-3240 (in Chinese with English abstract).

[19]

Huang, F.M., Chen, J.W., Tang, Z.P., et al., 2021b. Uncertainties of Landslide Susceptibility Prediction Due to Different Spatial Resolutions and Different Proportions of Training and Testing Datasets. Chinese Journal of Rock Mechanics and Engineering, 40(6): 1155-1169 (in Chinese with English abstract).

[20]

Huang, F.M., Pan, L.H., Yao, C., et al., 2021c. Landslide Susceptibility Prediction Modelling Based on Semi- Supervised Machine Learning. Journal of Zhejiang University (Engineering Science), 55(9): 1705-1713 (in Chinese with English abstract).

[21]

Huang, F.M., Pan, L., Fan, X., et al., 2022. The Uncertainty of Landslide Susceptibility Prediction Modeling: Suitability of Linear Conditioning Factors. Bulletin of Engineering Geology and the Environment, 81(5): 182.

[22]

Huang, F. M., Wang, Y., Dong, Z.L., et al., 2019. Regional Landslide Susceptibility Mapping Based on Grey Relational Degree Model. Earth Science, 44(2): 664-676 (in Chinese with English abstract).

[23]

Huang, F. M., Ye, Z., Yao, C., et al., 2020. Uncertainties of Landslide Susceptibility Prediction: Different Attribute Interval Divisions of Environmental Factors and Different Data-Based Models. Earth Science, 45(12): 4535-4549 (in Chinese with English abstract).

[24]

Huang, F. M., Yin, K.L., Jiang, S.H., et al., 2018. Landslide Susceptibility Assessment Based on Clustering Analysis and Support Vector Machine. Chinese Journal of Rock Mechanics and Engineering, 37(1): 156-167 (in Chinese with English abstract).

[25]

Ilia, I., Tsangaratos, P., 2016. Applying Weight of Evidence Method and Sensitivity Analysis to Produce a Landslide Susceptibility Map. Landslides, 13(2): 379-397.

[26]

Larsen, I. J., Montgomery, D. R., 2012. Landslide Erosion Coupled to Tectonics and River Incision. Nature Geoscience, 5(7): 468-473.

[27]

Li, W. B., Fan, X. M., Huang, F. M., et al., 2021. Uncertainties of Landslide Susceptibility Modeling under Different Environmental Factor Connections and Prediction Models. Earth Science, 46(10): 3777-3795 (in Chinese with English abstract).

[28]

Li, Y., Zhou, R. J., Zhao, G. H., et al., 2015. Uplift and Erosion Driven by Wenchuan Earthquake and Their Effects on Geomorphic Growth of Longmen Mountains: A Case Study of Hongchun Gully in Yingxiu, China. Journal of Chengdu University of Technology (Science & Technology Edition), 42(1): 5-17 (in Chinese with English abstract).

[29]

Nahayo, L., Kalisa, E., Maniragaba, A., et al., 2019. Comparison of Analytical Hierarchy Process and Certain Factor Models in Landslide Susceptibility Mapping in Rwanda. Modeling Earth Systems and Environment, 5(3): 885-895.

[30]

Ouyang, C. J., Wang, Z. W., An, H. C., et al., 2019. An Example of a Hazard and Risk Assessment for Debris Flows—A Case Study of Niwan Gully, Wudu, China. Engineering Geology, 263(20): 105351.

[31]

Rahman, M., Chen, N. S., Mahmud, G. I., et al., 2021. Flooding and Its Relationship with Land Cover Change, Population Growth, and Road Density. Geoscience Frontiers, 12(6): 16-35.

[32]

Schrefler, B., Delage, P., 2013. Snow Avalanches. Environmental Geomechanics.Wiley, New York.

[33]

Taylor, K.E., 2001. Summarizing Multiple Aspects of Model Performance in a Single Diagram. Journal of Geophysical Research Atmospheres, 106(D7): 7183-7192.

[34]

Welsh, A., Davies, T., 2011. Identification of Alluvial Fans Susceptible to Debris-Flow Hazards. Landslides, 8(2): 183-194.

[35]

Wolpert, D. H., 1992. Stacked Generalization. Neural Networks, 5(2): 241-259.

[36]

Xu, W., Yu, W., Jing, S., et al., 2013. Debris Flow Susceptibility Assessment by GIS and Information Value Model in a Large-Scale Region, Sichuan Province (China). Natural Hazards, 65(3): 1379-1392.

[37]

Zhang, S.H. ,Wu, G., 2019. Debris Flow Susceptibility and Its Reliability Based on Random Forest and GIS. Earth Science, 44(9): 3115-3134 (in Chinese with English abstract).

[38]

陈宁生, 田树峰, 张勇, 等, 2021. 泥石流灾害的物源控制与高性能减灾. 地学前缘, 28(4): 337-348.

[39]

胡桂胜,尚彦军,曾庆利,等, 2017. 新疆叶城"7.6"特大灾害性泥石流应急科学调查. 山地学报, 35(1): 112-116.

[40]

胡汝骥, 马虹, 吴荣生, 等, 1991. 新疆境内的泥石流. 干旱区地理, 14(2): 32-40.

[41]

黄发明, 曹昱, 范宣梅, 等, 2021a. 不同滑坡边界及其空间形状对滑坡易发性预测不确定性的影响规律. 岩石力学与工程学报, 40(S02): 3227-3240.

[42]

黄发明, 陈佳武, 唐志鹏, 等, 2021b. 不同空间分辨率和训练测试集比例下的滑坡易发性预测不确定性. 岩石力学与工程学报, 40(6): 1155-1169.

[43]

黄发明, 潘李含, 姚池, 等, 2021c. 基于半监督机器学习的滑坡易发性预测建模. 浙江大学学报(工学版), 55(9): 1705-1713.

[44]

黄发明, 汪洋, 董志良, 等, 2019. 基于灰色关联度模型的区域滑坡敏感性评价. 地球科学, 44(2): 664-676.

[45]

黄发明, 叶舟, 姚池, 等, 2020. 滑坡易发性预测不确定性: 环境因子不同属性区间划分和不同数据驱动模型的影响. 地球科学, 45(12): 4535-4549.

[46]

黄发明, 殷坤龙, 蒋水华, 等, 2018. 基于聚类分析和支持向量机的滑坡易发性评价. 岩石力学与工程学报, 37(1): 156-167.

[47]

李文彬, 范宣梅, 黄发明, 等, 2021. 不同环境因子联接和预测模型的滑坡易发性建模不确定性. 地球科学, 46(10): 3777-3795.

[48]

李勇, 周荣军, 赵国华, 等, 2015. 汶川地震驱动的隆升、剥蚀作用与龙门山地貌生长: 以映秀红椿沟为例. 成都理工大学学报(自然科学版), 42(1): 5-17.

[49]

张书豪, 吴光, 2019. 随机森林与GIS的泥石流易发性及可靠性. 地球科学, 44(9): 3115-3134.

基金资助

第二次青藏高原综合科学考察项目(2019QZKK0902)

国家自然科学基金联合基金项目(U20A20110)

AI Summary AI Mindmap
PDF (11741KB)

212

访问

0

被引

详细

导航
相关文章

AI思维导图

/