考虑机器学习建模中训练/测试集时空划分原则的滑坡易发性预测建模

黄发明; 欧阳慰平; 蒋水华; 范宣梅; 连志鹏; 周创兵

doi:10.3799/dqkx.2022.357

地球科学 ›› 2024, Vol. 49 ›› Issue (05) : 1607 -1618. DOI: 10.3799/dqkx.2022.357

考虑机器学习建模中训练/测试集时空划分原则的滑坡易发性预测建模

黄发明 ¹^,² ,
欧阳慰平 ¹ ,
蒋水华 ¹ ,
范宣梅 ² ,
连志鹏 ³ ,
周创兵 ¹

作者信息 +

Landslide Susceptibility Prediction Considering Spatio-Temporal Division Principle of Training/Testing Datasets in Machine Learning Models

Author information +

文章历史 +

PDF (2079K)

摘要

滑坡易发性预测时大多按空间随机来划分模型训练/测试数据集，但随机划分方式难免将不确定性因素引入建模中.因为理论上滑坡易发性是基于过去的滑坡来预测将来发生滑坡的空间概率，具有显著的时间顺序特征而非单纯的空间随机，可见有必要探索基于滑坡发生的时间顺序划分模型训练/测试集.以浙江文成县为例获取11类环境因子及128个时间准确的滑坡；之后将联接了环境因子的滑坡‒非滑坡样本分别按照滑坡时间顺序和空间随机的原则，划分为两类不同训练/测试集；其划分比例分别设定为9∶1、8∶2、7∶3、6∶4和5∶5等以避免不同比例影响研究结果，由此得到10种组合工况下的训练/测试集；最后再训练测试支持向量机（SVM）、多层感知器（MLP）和随机森林（RF）等模型以预测滑坡易发性并分析其不确定性.结果表明：（1）训练/测试集按时间顺序划分的SVM、MLP和RF模型预测的滑坡易发性的不确定性略低于按空间随机性划分的模型，验证了按时间顺序划分的可行性；（2）训练/测试集按时间顺序划分实际上是其在空间随机划分下的一种更符合滑坡发生实际情况的“确定性”特征，当然对缺乏滑坡发生时间的数据集开展空间随机划分也是可行的.

关键词

滑坡 / 滑坡易发性 / 时间顺序 / 训练/测试集比例 / 机器学习 / 工程地质

Key words

landslides / landslide susceptibility / time series / training/testing dataset / machine learning model / engineering geology

引用本文

引用格式 ▾

黄发明,欧阳慰平,蒋水华,范宣梅,连志鹏,周创兵. 考虑机器学习建模中训练/测试集时空划分原则的滑坡易发性预测建模[J]. 地球科学, 2024, 49(05): 1607-1618 DOI:10.3799/dqkx.2022.357

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

滑坡易发性预测通常是将各种数据驱动模型与地理信息系统（GIS）结合，利用已有的滑坡及环境因子数据预测研究区未来发生滑坡的空间概率（Shirzadi et al.， 2019）.滑坡易发性预测建模的主要步骤为：滑坡编录的获取、环境因子的选取、滑坡与环境因子的联接，模型训练集与测试集的划分，利用数据驱动模型对滑坡易发性预测进行建模，最后分析易发性指数的不确定性等（吴润泽等，2021）.

滑坡是一定空间和时间内的自然现象，其发生必然同时受到空间和时间尺度的影响（朱吉祥等， 2014）.理论上的滑坡易发性预测也是用过去发生的滑坡来预测将来滑坡发生的潜在区域，其建模具有显著的时间顺序特征而非单纯的空间随机性特征（朱吉祥等，2014；Khanna et al.， 2021）.然而现有滑坡易发性预测建模过程中往往忽略了时间效应这一要素.例如获取滑坡编录与环境因子时只考虑了高程、坡度、坡向等具有空间信息的因子而未考虑其时间效应；另外易发性建模的训练/测试数据集主要是从空间分布的角度出发，以随机方式将所有滑坡编录信息划分为训练/测试数据集（Hussin et al.， 2016；黄发明等，2022a）.这样可能造成用后期发生的滑坡来预测和验证早期发生的滑坡的情况，与滑坡易发性预测理论相悖.再加上是随机划分数据集开展模型训练测试，难免将不确定性因素引入易发性结果中（Shirzadi et al.， 2019）.因此，为考虑时间顺序因素对滑坡易发性预测建模的影响并降低空间随机划分数据集产生的不确定性，本文拟在模型训练/测试集划分这一过程中构建基于时间顺序原则的模型训练/测试集划分工况.

在确定模型训练/测试集划分原则基础上，下一步需分析训练/测试集划分的合理比例.在滑坡编录数量较丰富时，划分比例通常按照经验而设置成适中的7∶3，此时的易发性预测建模效果较好（黄发明等，2021）.由于是按照空间随机原则划分滑坡‒非滑坡样本形成7∶3的比例的训练/测试集，这样会使易发性结果产生较大的不确定性，并且忽略了滑坡发生时间顺序的影响.另外为避免单一训练/测试集比例可能造成的建模结果不确定性，本文在按时间顺序原则划分基础上同时考虑各类训练/测试集比例（9∶1，8∶2，7∶3，6∶4，5∶5），最后形成10种组合工况开展易发性建模（Shirzadi et al.， 2019）.在利用数据驱动模型预测滑坡易发性时也需避免不同模型产生的不确定性（曹文庚等， 2023）.只用某一种模型开展建模时其结果具有偶然性，可信度不够高.因此拟分别采用支持向量机（Support Vector Machine， SVM）、多层感知器（Multilayer Perceptron， MLP）和随机森林（Random Forest， RF）（黄发明等， 2021）三种典型的数据驱动模型预测易发性.综上所述，本文拟探讨按时间顺序和空间随机方法划分模型训练/测试集（Time series-based， Spatial random-based SVM、MLP和 RF模型），及其在各种不同比例工况下的滑坡易发性建模规律.

1 滑坡易发性预测方法

1.1　滑坡易发性预测流程

本文研究流程包括：（1）研究区滑坡编录及环境因子数据源获取；（2）获取时间顺序和空间随机两种划分工况在5种测试训练集比例下的模型输入和输出变量；（3）利用测试完成的Time series- based， Spatial random-based SVM、MLP and RF模型分别进行滑坡易发性预测并绘制易发性图；（4）通过评价易发性预测结果精度；（5）通过分析ROC曲线下面积（Area Under ROC， AUC），易发性指数的均值和标准差及差异显著性来探讨建模不确定性规律.

1.2　基于时间顺序原则的滑坡训练/测试集划分方法

以文成县为例说明如何开展考虑滑坡发生时间的训练/测试集划分.文成县现有准确时间信息的滑坡编录共128处，大多发生在近30年内（王丽丽， 2016）.为探讨时间因素对滑坡易发性预测的影响，将128处滑坡面按时间顺序排序，分别以9∶1、 8∶2、7∶3、6∶4和5∶5等五种比例划分（黄发明等， 2021），并在ArcGIS 10.2软件中被转换为滑坡栅格单元；再从县域的非滑坡区中随机选取与滑坡栅格同等数量的栅格单元作为非滑坡栅格样本（张虹等， 2022），将11个环境因子的原始值作为模型输入变量，共同组成模型的训练/测试集.

为探究结果与以往的实验方法有何差异，也将未考虑时间尺度的滑坡随机挑选，以上述5种训练/测试集比例参与建模.例如将128处滑坡面按时间顺序排序后按7∶3划分，划分节点为2006年；滑坡面转栅格后，训练集有617个滑坡栅格而测试集有239个滑坡栅格（滑坡面按不同时间节点划分面转栅格后，栅格数量会有较小差异，详见表1，二者分别加入同等数量非滑坡栅格后参与模型的训练和测试.

1.3　机器学习模型简介

1.3.1　支持向量机

支持向量机（SVM）是通过核函数映射将向量变换到高维空间再进行线性回归分析，寻找最优超平面使得类别间距达到最大化（曹文庚等， 2023）；达到结构风险最小化.其原理是用线性回归函数f（x）=w·x+b来拟合数据（x_i， y_i ）并确定其系数w， b，其中i=1，2，……，n；假定数据（x_i， y_i ）精度为σ，通过拉格朗日函数对偶性求得其不等式极值，最终求得其最优超平面方程：

L = 12 w ⋅ w + C ∑ i = 1 n (ζ i + ζ i *) - ∑ i = 1 n α i ζ i + σ - y i + f (x i) - ∑ i = 1 n α i * ζ i * + σ - y i + f (x i) - ∑ i = 1 n ζ i γ i + ζ i * γ *,

(1)

f (x) = w x + b = ∑ i = 1 n α i - α i * x i x + b,

(2)

式（1）中L为拉格朗日函数求解，α_i，α_i ^*，γ _i，γ _i ^*均为拉格朗日乘数；式（2）中f（x）为得到的最优解超平面方程.

1.3.2　多层感知器和随机森林

多层感知器（MLP）有着独特的模型结构和较好的非线性模拟能力，以及自适应和容错等特性（Lombardo and Tanyas， 2020）.模型的每一层通常有多个神经元连接，神经元主要通过权重来实现输入层、隐藏层和输出层之间的联接；神经元间的连接权值反映了单元间的连接强度，信息的传递和处理体现在网络单元的连接关系中.

随机森林（RF）是由多个独立学习和自主做出预测的决策树组成的集成学习模型.RF模型采用重采样技术，从样本训练数据中随机且有放回地抽取K个样本组成新的训练样本合集（曹文庚等， 2023）；再对各样本都进行决策树建模以形成包含K个分类树的随机森林，最后将投票次数最多的类别作为最终的RF模型输出值（吴润泽等， 2021）.RF模型独特的数据处理方式导致其具有以下优点：（1）极高的模型预测能力；（2）对于缺省值问题也能够获得很好的结果；（3）可评估各个特征在分类问题上的重要性.

1.4　建模结果不确定性评价

1.4.1　ROC曲线

ROC曲线可精确、直观地体现不同机器学习模型与滑坡易发程度的关系，以及不同机器学习模型在参与易发性建模时所产生的差异性（李永威等， 2023）.ROC曲线的绘制思路是：先根据机器学习预测的滑坡易发性指数，再对测试集样例进行排序并按此顺序选择截断点，将样例逐个作为正例预测，最后将计算出的当前分类器的“真阳率”和“假阳率”作为ROC曲线的纵轴和横轴绘图（黄发明等， 2023）.AUC值可定量表征模型精确，其值位于0~1之间，AUC值越接近1表明精度越高（郭衍昊等， 2023）.

1.4.2　滑坡易发性指数分布规律

均值（Mean value）和标准差（Standard deviation， SD）两个统计指标能够分别体现滑坡易发性指数的平均水平和离散程度（Huang et al.， 2021）.本文采用均值和标准差分析滑坡的易发性指数分布规律以及机器学习模型的预测程度.通过分析均值和标准差的大小排序来评估易发性建模不确定性.Kendall协同系数检验各模型易发性指数分布的差异显著性，其原假设是指不同易发性预测结果不存在差异（李文彬等， 2021）.其计算公式如式（3），其中m为评估模型， n为样本数，R_i 为第i个样本的秩的和，W∈［0，1］.

W = 12 m 2 n 3 - n ∑ i = 1 n R i - m n + 1 2 2

，(3)

当W=1时，证明各模型预测的易发性结果一致；W值越小，易发性结果差异越显著，原假设不成立.当样本量n趋于无穷大时可在5%显著性水平下用

χ 2

检验评价机器学习模型组间的差异显著性.

2 研究区概况及环境因子选取

2.1　文成县及其滑坡编录

文成县位于浙江南部（图1），总面积为1 293 km².文成位于亚热带季风湿润型气候区，降雨量充足，年均降雨量达1 884.7 mm.地势从西北往东南倾斜，高程范围为15~1 362 m.地层岩性主要由花岗岩、碎屑岩、流纹岩和凝灰岩等构成.文成地貌类型有山地、丘陵和河谷平原等，其中全县面积的57.6%为山地、37.8%为丘陵.因其地形陡峭，地质构造复杂，区域内局部岩体较破碎，使得地质灾害频发.根据文成县国土资源局地灾资料显示，截止2020年底该县发生滑坡、崩塌、泥石流等灾害173起，其中滑坡发生128起，占地灾总数的74%.这些滑坡主要是第四纪浅层堆积层滑坡，体积以中小型为主，滑动方式以平推式为主，主要诱发因素为台风强降雨过程和不良工程建设.

2.2　数据源

滑坡编录与滑坡环境因子之间的关系在滑坡易发性预测建模中扮演了至关重要的角色.本文数据来源主要有：文成县滑坡编录信息、野外实地调查数据以及滑坡分布图（用于提取文成县滑坡信息）；30 m空间分辨率的DEM（用于提取坡度、坡向等地形地貌因子）；1∶100 000的地层岩性分布图（用于获取地层岩性和断层）；15 m空间分辨率的遥感影像（用于提取NDVI；NDBI；MNDWI）.

2.3　环境因子选取和频率比分析

滑坡的演化发展过程错综复杂，其环境因子的选取也是多种多样，目前并未有一个明确的标准（Chen et al.， 2018）.为确保本文选取的环境因子客观准确，通过分析文成县滑坡特征并参考以往文成县滑坡研究文献中环境因子的选取情况，选取高程、坡度、坡向、平面曲率、剖面曲率、地形起伏度、沟壑密度等7个地形地貌因子；NDBI、NDVI等2个地表覆盖因子；MNDWI和地层岩性2个水文环境与基础地质因子；总计11个环境因子参与建模.

本文采用频率比法定量表征文成县环境因子各属性区间与滑坡的相关性.频率比值大于1，表明该环境因子属性区间与滑坡的发生有较大相关性；反之，频率比值小于1，则表明该环境因子属性区间与滑坡发生的相关性较小（黄发明等，2022b）.计算得到的各部分频率比值.

2.4　环境因子分析

在获取文成滑坡及其环境因子之后，本文将10个连续型环境因子按自然间断点法分成8个状态级或子区间（李文彬等，2021；黄发明等，2022a），离散型环境因子岩土体类型则按实际确定状态分级.

2.4.1　地形地貌因子

本文选取的高程、坡度、坡向、平面曲率、剖面曲率、地形起伏度、沟壑密度等7个地形地貌因子均来自数值高程模型（Digital Elevation Model， DEM）.高程影响着滑坡的发育，高程不同的斜坡，坡度也具有差异性，会造成地表集水能力的不同；另外同一地区高程不同的地方人类活动强度又不一样（Chen et al.， 2018）.频率比结果显示高程在13.5~603.1 m这个区间内的频率比值大于1，这表明文成县滑坡主要分布在海拔中等偏低区域.

坡度影响着斜坡内地表水的径流、地下水的补充排放及其应力分布.从图2可以看出，在21.5°~38.5°这个坡度范围内的频率比值均大于1，这说明文成县滑坡大多发生在坡度中等的区域；而坡度大于38.5°的斜坡，堆积层不易堆积且地表水不易富集，导致其没有滑坡发生的土体条件且侵蚀作用更弱；因此更不容易发生滑坡，频率比值也小于1.平面曲率和剖面曲率分别影响着斜坡内水流的收敛与分散以及水流流动的加速度；二者能够体现出研究区域内地形的复杂程度.经统计，平面曲率和剖面曲率分别在0~31和3.7~9.5这两个范围更容易发生滑坡.地形起伏度反映了斜坡的地表起伏变化，影响着斜坡内的水土流失.沟壑密度体现了地表的破碎程度，沟壑密度越大，地表的破碎程度越严重.据统计，沟壑密度在0.94~1.27、1.61~3.91这两个区间内的频率比值全都大于1；这表明这两个区间更容易造成文成县滑坡的发生.

2.4.2　水文环境、基础地质和地表覆盖因子

水文环境会加速斜坡土体受到的侵蚀作用，导致滑动面土体软化搓动，使得滑坡更易发生.本文选取修正归一化水体指数（Modified Normalized Difference Water Index， MNDWI）来作为研究区的水文环境因子；经统计，MNDWI在0~0.41时，其频率比值大于1，文成县发生的滑坡最多；这表明距离水源近的地方容易发生滑坡（图3）.

岩土体是滑坡发生的重要内部因素，斜坡岩土体的物理力学性质能影响滑坡的发生（Chen et al.， 2018）.文成县的地层岩性主要包括流纹岩岩组（Rr）、晶、玻屑凝灰岩岩组（Ht）、凝灰质碎屑岩岩组（Hsf）、花岗岩岩组（Qg）、闪长岩岩组（Qd）、辉绿岩岩组（Rb）、砂类土岩组（ST）、砾石类土岩组（LT）、熔结凝灰岩岩组（Hi）.频率比结果显示熔结凝灰岩、凝灰质碎屑岩、花岗岩、闪长岩和砂类土这5种岩组的频率比值均大于1，更易造成文成县滑坡的发生（图3）.

选取归一化植被指数（Normalized Difference Vegetation Index， NDVI）和归一化建筑指数（Normalized Difference Building Index， NDBI）作为研究区的地表覆盖因子.NDVI能够反映出研究区植被覆盖程度的高低（黄发明等，2022a），且植被覆盖程度越高的地区越不容易发生滑坡；NDBI代表研究区的地表建筑密度，能够反映人类工程活动对滑坡的影响.频率比结果显示当二者分别在0.15~0.72、0.35~1时，其频率比值大于1；这表明植被覆盖程度中等、人类工程活动越强以及地表建筑密度越高的区域更有利于文成县滑坡的发生（图3）.

3 文成县滑坡易发性预测建模

3.1　模型训练和测试数据集

本文将11个环境因子原始值作为SVM、MLP和RF模型输入变量，同时将128个具有准确时间信息的滑坡按时间顺序排序，分别以9∶1、8∶2、7∶3、6∶4和5∶5等五种训练/测试集比例划分并在ArcGIS 10.2软件中转换为栅格单元（易发性指数设为1），作为机器学习输出变量.再从研究区内的非滑坡区域随机选取同等数量的栅格单元作为非滑坡样本（易发性指数设为0），与滑坡栅格单元和环境因子共同组成模型的训练/测试集.为探究本文结果与以往实验方法的差异性，也随机划分未考虑时间效应的滑坡样本并以上述五种训练/测试集比例参与建模.

3.2　滑坡易发性预测结果

3.2.1　SVM模型预测易发性

本文利用SPSS modeler 18.0软件来构建SVM模型，选择径向基函数RBF作为核函数，对于仅考虑空间信息的滑坡‒非滑坡数据样本，采用交叉验证法确定其模型最优参数.例如9∶1训练/测试比例组合工况下其规则参数（C ₀）和核函数（γ）分别为10和0.6，8∶2训练/测试比例组合工况下其规则参数（C ₀）和核函数（γ）分别为9和0.5；其余参数取默认值.然后利用训练好的SVM模型预测文成县全区栅格单元的滑坡易发性指数，并将预测结果导入ArcGIS10.2中，采用自然间断法对其进行分级，将易发性分为极高、高、中、低、极低五个等级.

两种划分工况的滑坡易发性结果如图4和表2所示.从整体上看，两种划分工况的滑坡栅格单元在极高和高易发区的占比和频率比值都较大，在极低和低易发区都较小；这表明绝大多数滑坡栅格单元分布在极高易发区和高易发区，极少部分分布在极低和低易发区，可见SVM模型预测的易发性结果与已知滑坡分布特征非常吻合且其整体预测精度较好.

时间顺序工况构建的SVM模型预测的滑坡栅格单元分布在极高易发区的占比在9∶1、8∶2、7∶3和5∶5四个比例下均大于空间随机工况，且相差最大可达2.44%；在6∶4比例下则略低于空间随机工况，仅相差0.47%.在8∶2、7∶3和5∶5三个比例下，时间顺序工况构建的SVM模型预测的滑坡栅格单元分布在极高易发区的频率比值大于空间随机工况；在9∶1和6∶4两个比例下则略小于空间随机工况；综上所述，在SVM模型下，时间顺序工况能够将研究区更多的滑坡预测在极高易发区，其预测结果整体上更优.

3.2.2　MLP模型预测易发性

本文通过SPSS modeler 18.0软件的建模节点训练和测试MLP模型.MLP采用 boosting 算法生成完整的模型序列，提高模型的精确度，通过迭代循环计算模型的最优隐藏层神经元个数，并采用梯度下降算法进行训练优化，其余参数取默认值.例如，在9∶1训练/测试集比例下，时间顺序划分工况构建的MLP模型最佳隐藏层神经元个数为12，用于boosting的模型数量为10.最后用训练/测试好的各工况下的MLP模型进行滑坡易发性预测并得到对应的易发性结果（图5）.从整体上看，各工况的滑坡栅格单元在极高和高易发区的占比和频率比值都较大，在极低和低易发区都较小；这表明绝大多数滑坡栅格单元分布在极高易发区和高易发区，极少部分分布在极低和低易发区，可见MLP模型预测的易发性结果与已知滑坡分布特征吻合统一且其整体预测精度较好.时间顺序工况构建的MLP模型，其预测的滑坡栅格单元分布在极高易发区的频率比值在7∶3和5∶5两个比例下大于空间随机工况，仅在9∶1比例下，其预测的滑坡栅格单元分布在极高易发区的频率比值小于空间随机工况；可见时间顺序工况构建的MLP模型的预测结果整体上更优.

3.2.3　RF模型预测易发性

本文采用R Studio 2017中的RF软件包来构建随机森林模型.通过R语言循环迭代自动筛选因子特征数量并计算不同随机森林的袋外误差，随机特征数越优以及袋外误差越小的RF模型，其预测的滑坡易发性精度越高.例如，在9∶1训练/测试集比例下，时间顺序工况构建的RF模型通过交叉验证得到最优的随机特征数为4，随机森林决策树数目为500.再利用训练好的RF模型预测文成县全区栅格单元的滑坡易发性指数，并采用自然间断法对其进行分级.不同工况下滑坡易发性结果如图6所示.RF模型在时间顺序和空间随机两种划分工况下预测的滑坡栅格单元绝大部分都分布在高和极高易发区，二者频率比值在极高易发区都较大，在极低和低易发区都较小；其中时间顺序工况构建的RF模型在9∶1比例下所预测的滑坡栅格单元在极高易发区的占比达到了93.64%，频率比值也较高，为10.765.各工况滑坡栅格单元在极低易发区的占比最低为0%，频率比值最低也为0.

4 讨论

4.1　滑坡易发性精度评价

采用AUC值评估时间顺序和空间随机两种划分工况在不同训练/测试集比例下的易发性预测建模精度（图7和表3）.由表3可知，在SVM和MLP模型中，时间顺序和空间随机两种划分工况相比，前者在9∶1、8∶2和6∶4三种训练/测试集比例下的模型AUC值高于后者，而在7∶3和5∶5两种训练/测试集比例下二者相差不大；以MLP模型为例，前者在9∶1、8∶2和6∶4三种训练/测试集比例下的AUC值分别为0.818、0.812和0.816，高于后者的0.802、0.794和0.809；但在7∶3和5∶5两种训练/测试集比例下，二者精度相差较小，仅为0.003.而在RF模型中，时间顺序工况的模型AUC值仅在6∶4训练/测试集比例下高于空间随机工况，在其他四种训练/测试集比例下要低于空间随机工况.

综上可知，在SVM和MLP模型中时间顺序工况的模型精度整体上高于空间随机工况；而在RF模型中虽然二者都取得了较高的精度，但在大多数情况下，前者精度都略低于后者.这可能是由于RF模型处理数据无需进行过多的特征选择也能取得较高精度，甚至对于缺省值也能获得很好的结果（李文彬等，2021）.但是这可能导致RF模型在取得更优结果的同时也弱化了各滑坡环境因子的时间属性特征，导致特征选择相对较多、划分较固定且具有时间属性特征的模型精度反而略低.虽然AUC精度能够在某种程度上反映模型预测能力的优劣，但并不是唯一指标，其仅能代表样本数据的结果.判断各工况在不同机器学习模型下预测结果的好坏，还要从其全区易发性的平均值和标准差的角度综合分析.

4.2　易发性指数分布规律的对比分析

通过均值（Mean）和标准差（SD）分别反映不同组合工况下滑坡易发性指数的平均水平和离散程度.由表4可知，在SVM模型中，两种划分工况在5∶5训练/测试集比例下的易发性均值都为0.321；时间顺序工况在6∶4训练/测试集比例下的易发性均值为0.315，小于空间随机工况的0.322，而在其他3个训练/测试集比例下则恰恰相反；另外时间顺序工况在9∶1、8∶2、7∶3和6∶4这四个训练/测试集比例下的标准差均大于空间随机工况，在5∶5训练/测试集比例下的标准差值为0.252，略小于空间随机工况的0.265；结合其AUC精度整体上高于空间随机工况可知，时间顺序工况的SVM模型预测的易发性指数整体较优.在MLP和RF模型中，时间顺序工况的易发性均值整体上小于空间随机工况（仅MLP模型在9∶1训练/测试集比例下的易发性均值略大于空间随机工况）；其易发性标准差均大于空间随机工况.

4.3　滑坡易发性预测结果的差异显著性分析

本文采用Kendall协同系数检验法进一步探究时间顺序和空间随机两种划分工况，在不同训练/测试集比例下和不同机器学习模型下的滑坡易发性的不确定性.显著性水平设置为0.05，置信区间为95%，若检验结果的显著性水平小于0.05，说明各工况下易发性指数的差异是显著的，原假设（组内各样本之间不存在差异）不成立.在SVM、MLP和RF模型下，各工况的滑坡易发性指数的显著性均接近于0，差异显著性较大，因此有必要对不同训练/测试集比例下考虑时间顺序和空间随机两种划分工况的滑坡和机器学习模型进行交叉验证探讨其不确定性.

4.4　各工况下易发性结果不确定性的综合分析

近年来，机器学习由于其优秀的非线性预测能力而被广泛用于滑坡易发性预测.利用滑坡样本开展模型训练和测试，能够得到与已知滑坡样本分布特征非常吻合的滑坡易发性指数空间分布规律.但是，机器学习与滑坡易发性建模的结合在本质上是将滑坡易发性预测单独看作数值运算“预测游戏”.对于机器学习而言，滑坡样本数据与其他领域的基础数据没有多大的区别.简单地将滑坡数据不加区分地进行训练测试，将可能丢失滑坡原本的时间特性.因为滑坡作为一定时空内的地质现象，其特性之一就是具有显著的时间顺序而非单纯的空间随机性（朱吉祥等，2014）.因此，为在滑坡易发性建模中保留滑坡的时间特性并降低以往训练测试方法带来的建模不确定性，本文探讨按照时间顺序和空间随机方法两种划分训练/测试集工况，结合五种不同训练/测试集比例下的滑坡易发性建模规律.

综合5.1~5.3节分析可知，时间顺序与空间随机两种划分工况相比，前者能取得更准确可靠的滑坡易发性结果且不确定性更低.在模型精度方面，整体上时间顺序工况AUC精度更高但与空间随机工况下的精度偏差不大.尤其在RF模型中虽然RF的AUC精度远高于SVM和MLP，但时间顺序工况的模型精度要略低于空间随机工况.这可能与模型的非线性拟合特征、参数设置以及模型本身非常高的非线性预测性能有关（张虹等，2022）.另外时间顺序工况本身也不一定能够提高AUC精度，其主要是提供一种更加确定的训练测试集划分方案.该方案能够在保留滑坡时间特征的同时避免训练测试集空间随机划分的不确定性.

本文研究也显示，基于空间随机划分工况的滑坡易发性预测建模总体上也是可行的.其预测的滑坡易发性结果能有效反映研究区滑坡空间概率分布规律，在缺乏准确的滑坡时间信息时可作为一种常规方案使用.综上所述，本文通过对两种划分工况的滑坡易发性结果进行不确定性分析，为机器学习模型训练/测试集的构建提供了多元化的方案.

5 结论

研究结果表明，在SVM、MLP和RF等3种机器学习模型下，时间顺序和空间随机两种划分工况预测出的文成县滑坡易发性结果与已知滑坡分布特征非常吻合且整体预测精度都较好，但时间顺序划分工况的易发性结果整体上更优，这表明了时间顺序划分的可行性与先进性.从本质上看，训练/测试集按时间顺序划分实际上是其在空间随机划分下的一种更符合滑坡实际特征的“确定性”工况，其能够在考虑时间顺序因素对滑坡易发性预测建模影响的同时，降低空间随机划分数据集产生的建模不确定性.当然这并不代表所有研究区的易发性预测都要以时间顺序划分工况进行，对于缺乏滑坡发生时间的数据集，开展空间随机划分也是可行的.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Cao, W. G., Pan, D., Xu, Z. J., et al., 2023. Landslide Hazard Susceptibility Mapping in Henan Province: Comparison of Multiple Machine Learning Models. Bulletin of Geological Science and Technology, 1-11 (in Chinese with English abstract).

[2]	Chen, W., Peng, J. B., Hong, H. Y., et al., 2018. Landslide Susceptibility Modelling Using GIS-Based Machine Learning Techniques for Chongren County, Jiangxi Province, China. Science of the Total Environment, 626: 1121-1135. https://doi.org/10.1016/j.scitotenv.2018.01.124

[3]

Guo, Y. H., Dou, J., Xiang, Z. L., et al., 2023. Evaluation of Susceptibility of Wenchuan Coseismic Landslide Using Gradient Lifting Decision Trees and Random Forests Based on Optimal Negative Sample Sampling Strategy. Geological Science and Technology Bulletin, 1-20 (in Chinese with English abstract).

[4]	Huang, F.M., Chen, B., Mao, D.X., et al., 2023. Landslide Susceptibility Prediction Modeling and Interpretability Based on Self-Screening Deep Learning Model. Earth Science, 48(5): 1696-1710 (in Chinese with English abstract).

[5]

Huang, F.M., Chen, J.W., Tang, Z.P., et al., 2021. Uncertainties of Landslide Susceptibility Prediction Due to Different Spatial Resolutions and Different Proportions of Training and Testing Datasets. Chinese Journal of Rock Mechanics and Engineering, 40(6): 1155-1169 (in Chinese with English abstract).

[6]	Huang, F. M., Hu, S.Y., Yan, X.Y., et al., 2022a. Landslide Susceptibility Prediction Modeling Based on Machine Learning and Identification of Main Control Factors. Bulletin of Geological Science and Technology, 41(2):79-90 (in Chinese with English abstract).

[7]	Huang, F. M., Li, J. F., Wang, J. Y., et al., 2022b. Landslide Susceptibility Prediction Modeling Law Considering Suitability of Linear Environmental Factors and Different Machine Learning Models. Bulletin of Geological Science and Technology, 41(2):44-59 (in Chinese with English abstract).

[8]	Huang, F. M., Ye, Z., Jiang, S. H., et al., 2021. Uncertainty Study of Landslide Susceptibility Prediction Considering the Different Attribute Interval Numbers of Environmental Factors and Different Data-Based Models. CATENA, 202: 105250. https://doi.org/10.1016/j.catena.2021.105250

[9]	Hussin, H. Y., Zumpano, V., Reichenbach, P., et al., 2016. Different Landslide Sampling Strategies in a Grid-Based Bi-Variate Statistical Susceptibility Model. Geomorphology, 253: 508-523. https://doi.org/10.1016/j.geomorph.2015.10.030

[10]	Khanna, K., Martha, T. R., Roy, P., et al., 2021. Effect of Time and Space Partitioning Strategies of Samples on Regional Landslide Susceptibility Modelling. Landslides, 18(6): 2281-2294. https://doi.org/10.1007/s10346-021-01627-3

[11]	Li, W.B., Fan, X.M., Huang, F.M., et al., 2021. Uncertainties of Landslide Susceptibility Modeling under Different Environmental Factor Connections and Prediction Models. Earth Science, 46(10): 3777-3795 (in Chinese with English abstract).

[12]	Li, Y.W., Xu, L.R., Zhang, L.L., et al., 2023. Study on Development Patterns and Susceptibility Evaluation of Coseismic Landslides within Mountainous Regions Influenced by Strong Earthquakes. Earth Science, 48(5):1960-1976 (in Chinese with English abstract).

[13]	Lombardo, L., Tanyas, H., 2020. Chrono-Validation of Near-Real-Time Landslide Susceptibility Models via Plug-in Statistical Simulations. Engineering Geology, 278: 105818. https://doi.org/10.1016/j.enggeo.2020.105818

[14]	Shirzadi, A., Solaimani, K., Roshan, M. H., et al., 2019. Uncertainties of Prediction Accuracy in Shallow Landslide Modeling: Sample Size and Raster Resolution. CATENA, 178: 172-188. https://doi.org/10.1016/j.catena.2019.03.017

[15]	Wang, L. L., 2016. Feature Processing Methods in the Assessment of the Vulnerability of Rainfall-Type Landslides. Zhejiang University, Hangzhou (in Chinese with English abstract).

[16]	Wu, R.Z., Hu, X.D., Mei, H.B., et al., 2021. Spatial Susceptibility Assessment of Landslides Based on Random Forest: A Case Study from Hubei Section in the Three Gorges Reservoir Area. Earth Science, 46(1): 321-330 (in Chinese with English abstract).

[17]	Zhang, H., Gu, Q.Y., Sun, C.B., et al., 2022. Landslide Susceptibility Mapping in Hilly and Gentle Slope Region Based on Interpretable Machine Learning. Journal of Chongqing Normal University (Natural Science), 39(3): 78-92 (in Chinese with English abstract).

[18]	Zhu, J.X., Zhang, L.Z., Zhou, X.Y., et al., 2014. Characteristics of Temporal Scale of Regional Landslides Susceptibility Assessment. Soil and Water Conservation in China, (6): 18-21, 69 (in Chinese with English abstract).

基金资助

国家自然科学基金面上项目(42377164)

AI Summary AI Mindmap

PDF (2031KB)

292

访问

被引

详细

导航

Received	Accepted	Published
2022-07-07
Issue Date
2024-05-25

摘要

关键词

Key words

引用本文

0 引言

1 滑坡易发性预测方法

1.1 滑坡易发性预测流程

1.2 基于时间顺序原则的滑坡训练/测试集划分方法

1.3 机器学习模型简介

1.3.1 支持向量机

1.3.2 多层感知器和随机森林

1.4 建模结果不确定性评价

1.4.1 ROC曲线

1.4.2 滑坡易发性指数分布规律

2 研究区概况及环境因子选取

2.1 文成县及其滑坡编录

2.2 数据源

2.3 环境因子选取和频率比分析

2.4 环境因子分析

2.4.1 地形地貌因子

2.4.2 水文环境、基础地质和地表覆盖因子