基于贝叶斯集成学习算法的土体先期固结压力预测模型

李超 ,  汪磊 ,  陈洋 ,  李天义

地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1780 -1792.

PDF (5863KB)
地球科学 ›› 2023, Vol. 48 ›› Issue (05) : 1780 -1792. DOI: 10.3799/dqkx.2022.450

基于贝叶斯集成学习算法的土体先期固结压力预测模型

作者信息 +

Prediction Model of Soils’ Preconsolidation Pressure Based on Bayesian Ensemble Learning Algorithm

Author information +
文章历史 +
PDF (6002K)

摘要

准确评估土体的先期固结压力(PS)是岩土工程实践中的一个重要问题.采用集成学习算法(XGBoost、RF)来捕捉各个土体参数之间的关系,建立先期固结压力预测模型.使用贝叶斯优化方法来确定模型的最优参数,并通过与SVR、KNN和MLP三种非集成算法进行对比,统计分析了不同模型在相关系数R2 、均方根误差RMSE和绝对平均误差MAPE三种误差指标下的表现;最后在5折交叉验证下,评估各个模型的预测精度及泛化性.结果表明基于XGBoost的预测精度最高,其RMSE及MAPE分别为20.80 kPa和18.29%;其次是RF,分别为24.532 kPa和19.15%.同时在PS作为回归变量的情况下,其特征重要性为:USS>VES>w>LL>PL.因此,在小规模数据集情况下,集成学习算法在预测精度及泛化性上要优于其他算法,且可作为岩土参数敏感性分析的有效方法.

关键词

先期固结压力 / 集成学习 / 贝叶斯优化 / 5折交叉验证 / XGBoost / 工程地质

Key words

preconsolidation stress / ensemble learning / Bayesian optimization / 5-fold cross-validation / XGBoost / engineering geology

引用本文

引用格式 ▾
李超,汪磊,陈洋,李天义. 基于贝叶斯集成学习算法的土体先期固结压力预测模型[J]. 地球科学, 2023, 48(05): 1780-1792 DOI:10.3799/dqkx.2022.450

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

随着轨道交通、市政工程及各种水利基础设施的开发,了解各种地基的力学特性,特别是固结特性成为建筑施工的关键,先期固结压力是指在土层上曾作用过的最大竖向有效压力,其大小一般很难查明,先期固结压力对预测土体的变形和沉降至关重要(周军, 2014),因此用可靠的方法评估先期固结压力对施工来说是一个关键问题.目前较为常用方法是Casagrande法(Casagrande, 1936),由于该方法是一种绘图法,导致在实际应用中往往会出现各种人为误差,测量结果不够准确.此外还有国内外学者提出的三笠法、强度法以及密度法等,但上述方法均存在适用区域较小,实际操作过于复杂等因素,无法被广泛采用(常林越等, 2009).目前国内外越来越多的共识是先期固结压力与多种因素有关,准确的计算先期固结压力较为不易,因此提出一种根据经验或数值进行回归拟合得到土体先期固结压力的方法在实际工程中是非常有必要的.

近年来,许多机器学习(ML)算法在化学、材料和土木工程领域的数据挖掘中得到了广泛应用(Vyas et al., 2015Li et al., 2019Li et al., 2021),然而,由于来自不同地区的土体通常具有不同的性质,因此在进行土体参数的回归预测时,由单一经典机器学习算法训练出的模型,其预测能力往往不尽如人意.集成算法是一种通过构建多个弱学习器,结合一定的策略来完成学习的算法,当弱学习器被结合时,我们能够得到更精确,鲁棒性更好的学习器,以此来获得更为准确的预测结果(Nascimento et al., 2014Xia et al., 2017).随机森林(简称RF)是一种被广泛应用集成学习算法(Breiman,2001),其也被应用于解决岩土工程领域的问题中,例如,李文彬等(2021)使用RF进行了滑坡易发性建模,吴润泽等(2021)利用RF构建了三峡库区湖北段的滑坡易发性评价模型.XGBoost是一种基于Boosting思想的决策树算法(Chen and Guestrin, 2016).在岩土工程领域,Zhang et al.(2021)曾使用XGBoost算法准确预测了黏土的不排水抗剪强度,在盾构挖掘及基坑稳定性评估方面XGBoost也被广泛应用(Zhou et al., 2021Zhang et al., 2022).然而,模型的精度不仅取决于算法,还取决于超参数(即开始学习之前所设定参数的值),例如,Sun et al.(2020)曾利用贝叶斯优化算法显著提高了RF的预测效果,建立了高精度的滑坡稳定性预测模型,因此在进行模型训练时,还有必要考虑超参数的优化问题.

基于上述研究,本文采用XGBoost和RF两种集成算法,构建了小规模数据集上的土体先期固结压力预测模型,并探讨土体先期固结压力与各个土壤参数的关系,得出先期固结压力对其他输入变量的敏感性.此外,还选用支持向量回归机(SVR)、K近邻(KNN)、多层感知机(MLP)3种算法与两种集成算法模型在5折交叉验证(CV5)下进行对比分析,验证了集成学习算法的准确性及泛化性.为了减少超参数优化过程中对经验法则的依赖和低效的蛮力搜索,本文使用贝叶斯优化确定了各个模型的最优参数.

1 研究方法

1.1 极限梯度提升

极限梯度提升(XGBoost)是陈天奇基于GBDT算法提出的一种高级监督算法(Chen and Guestrin, 2016),被广泛应用在Kaggle竞赛及其他机器学习竞赛中并取得了不错的成绩.XGBoost的优势在于对损失函数进行二阶泰勒展开,并添加常数项来防止过拟合,同时还支持行和列采样,具有极快的运行速度.

XGBoost的输出结果可以用所有回归树的结果累加来表示:

y i ^ = k = 1 k f k x i , f k F,

式中: y i ^表示第i个样本的预测值;k表示回归树的个数; x i表示输入的第i个样本数据; f k x i表示第k颗回归树;F为回归树的样本空间.

XGBoost的损失函数可由预测值 y i ^与真实值 y i进行表示;回归树的复杂度可通过叶子节点数T来限制:

           L = i = 1 n l y i , y i ^,
           Ω f k = γ T + 1 2 λ j = 1 T ω j 2,

其中,n为样本的数量;T为叶子节点数; ω j 2表示叶子节点权重向量的L2范数; γ λ为惩罚系数,分别限制叶子节点的个数和权重.

叠加损失函数(2)和惩罚函数(3),可得到XGBoost目标函数,对该目标函数进行二阶泰勒展开可得:

           O B j k i = 1 n l y i , y ^ i k - 1 + g i f k x i + 1 2 h i f k 2 x i + γ T + 1 2 λ j = 1 T ω j 2,

其中, g i h i分别为损失函数L的一阶和二阶导数.由于 l y i , y ^ i k - 1为常数项,不影响对目标函数的优化,因此可以省去,同时我们定义样本到叶子节点的映射函数表示: i = 1 n f k x i = j = 1 T ω j 2,因此上式可以表示为:

O B j k j = 1 T i I j g i ω j + 1 2 i I j h i + λ ω j 2 + γ T,

把目标函数视为一元二次方程,可以得到每个叶子节点的最佳权重 ω j *以及目标函数的最优解 O B j k *为:

ω j * = - i I j g i i I j h i + λ,
           O B j k * = - 1 2 j = 1 T i I j g i 2 i I j h i + λ + γ T,

式7可被视为一个结构评分函数,目标 O B j k越小,则树结构最好,此时即是目标函数的最优解.XGBoost示意图如图1a所示.

1.2 随机森林

RF(Breiman,2001)同样是基于决策树和回归树(CART)的一种集成算法,与XGBoost不同的是,其算法核心为Bagging思想(Breiman, 1996).RF会构建多个树,并尽可能地使每个树的差异较大,对于输出结果,对每个树的结果采取一定的组合策略来获得最终结果.

考虑到本文研究的是回归问题,下文将着重介绍回归树,分类树在此不再赘述.在回归树的每个叶子节点处的平均值会和样本特征值构成误差,这个误差一般用方差来表示,在保证所有特征变量输入完成即树模型构建结束时的方差最小或特征用尽时,便构成了一个完整的回归树.

对于随机森林的构建,随机且有放回的从原始数据集中抽出N个样本作为回归树新的训练集,且里面包含重复的样本,同时在构建树模型时,对特征也选取随机抽取原则,再经由上述过程产生的多个决策树组成随机森林,随机抽样的目的即是为了保证每个树尽量是独立的,即每棵树训练出来都有很大的差异,且回归树在构建时不会进行剪枝操作,以此提高随机森林回归预测的能力,经过N次训练,构建N个回归树模型,在最后对所有树的回归结果取平均值为最终预测结果,其数学表达式如式8所示.随机抽样的引入使得随机森林不容易陷入过拟合,且可以获得很好的抗噪能力(比如:对缺省值不敏感)(董红瑶等, 2021).

f R F x = 1 N t = 1 N t i x,

式中: f R F ( x )为随机森林的最终预测值;N表示决策树个数; t i x表示每棵树的回归模型,如图1b所示.

1.3 贝叶斯优化

超参数的优化属于黑盒问题,即在优化过程中其函数表达式未知,只能根据离散的自变量得到对应的目标函数值,这一特点给超参数优化带来了许多困难.现在,越来越多的超参数优化通过自动化的方法完成,这些方法旨在按照一定的策略,消耗更少资源的前提下寻得最优参数组合.贝叶斯优化是一种基于概率分布的全局算法,相比于其他超参数优化方法,贝叶斯优化需要的迭代次数更少,且有着更快的收敛速度(Bergstra et al., 2013).贝叶斯优化通过在一组超参数决策空间中,为待优化函数构造概率模型,进一步利用该模型选择下一个评估点,依次循环得到最优解,其流程如下:

(1)初始化一个代理函数的先验分布.

(2)选择数据点x,使得采集函数 a ( x )取最大值.

(3)在目标函数中评估数据点x并获取其结果y.

(4)使用新数据(x,y)更新代理函数,得到一个后验分布作为下一步的先验分布.

(5)重复(2)~(4)步,直到达到最大迭代次数.

综上所述,贝叶斯优化的流程伪代码如表1所示.

1.4 模型评估方法

1.4.1 误差评估指标

在误差评估方面,引入以下指标用于分析和评估机器学习模型的预测结果:

RMSE为均方根误差,是整体预测值与真实值偏差的均值平方根,对于数据中的异常值较为敏感,RMSE值接近于0,表示预测误差较小.

R M S E = 1 n i = 1 n y i - y ^ i 2 ,

R2 为线性回归系数,反映了拟合程度,其值越接近于1,表示该数据拟合程度越好.

           R 2 = 1 - y i - y ^ i 2 y i - y ¯ i 2,

MAPE为平均绝对百分比误差,其值越小代表其越接近完美模型.

           M A P E = 100 % n i = 1 n y i - y ^ i y i,

式中n代表数据总数; y i y ^ i分别代表数据的真实值和预测值; y ¯ i代表样本数据平均值.

1.4.2 K-fold交叉验证

在理想情况下,如果有较多的数据来进行模型学习,最佳的学习策略是将数据集随机分成三部分:训练集、验证集和测试集.训练集用来拟合模型,采用验证集来评估模型选择的预测误差,测试集用来评估最终模型的泛化误差(Hastie et al., 2009),事实上,我们往往不会拥有较为理想的数据量来进行模型训练,因此无法真实反映模型的泛化性是常见的,为了避免数据选择中的偏差,本文在超参数优化及模型评估时采用了一种目前较为流行的方法:交叉验证(Wong, 2015).K-fold交叉验证是一种数据拆分技术,数据被划分为n个互斥子集,在每次迭代时取n-1个子集作为训练集,1个子集作为测试集,因此可以获取n组测试集及训练集,从而可以完成n次训练.在应用K-fold方法时,通常选用5折或10折交叉验证的方式,基于数据量考虑,本文选用5折交叉验证,其示意图如图2所示.

2 土体先期固结压力数据库及分析

2.1 数据集选取及处理

本文所用数据集为国际土力学与岩土工程学会(ISSMGE)工程实践风险评估与管理委员会(TC304)数据库中的Clay/7/216和Clay/7/168黏土数据集(D’Ignazio et al., 2016),包括液限(LL)、塑限(PL)、天然含水率(w)、垂直有效应力(VES)、先期固结压力(PS)和不排水抗剪强度(USS)6个参数.该数据集的数据来源于芬兰的24个不同实验地点、瑞典的12个地点以及挪威的7个地点共计384组数据,图3为该数据集的参数频率分布直方图,可以看出,各个参数均近似服从正态分布或对数正态分布.

表2给出了该数据集各个参数的最大值、最小值、平均值、中位数、标准差、峰度以及偏度.其中,由最大值和最小值可以看出,各输入变量的数值分布跨度较大;中位数和平均值在数值上较为接近,且均靠近最小值,数值分布集中,离散程度较低;此外,各个变量均有着较小的标准差,这表明大部分数据靠近其平均值,存在异常值较少.偏度是衡量数据分布是否对称的指标,从表2可以看出w的偏度接近于0,两侧数据分布较为对称,LL、PL、VES、PS和USS指标偏度均大于1,表明分布右侧尾部较长;峰度是表征概率密度分布曲线在平均值处峰值高低的特征数,w和USS峰度值小于3,表示总体数据与正态分布相比较为平坦,其余输入变量峰度值大于3,总体数据分布较为陡峭.图3的参数频率直方图可以直观地反映以上的描述.

2.2 数据相关性分析

根据各个特征参数的分布,输入变量之间的相关系数( γ s)可以用斯皮尔曼相关系数(Benesty et al., 2008)来确定,它利用单调方程评价两个输入变量的相关性,可以用来作为两个独立变量的依赖型指标.其计算公式如式12.

γ s = 1 - 6 d i 2 n ( n 2 - 1 ),

式中, d i为样本 x i y i的等级之差,n为样本组数.变量之间相关性系数详见表3.

对于PS,与USS、VES相关性系数大于0.7,为强相关,与w相关性系数大于0.4,为中等相关,与LL、PL变量相关性大于0.2,为弱相关.Zhang et al.(2021)在土体的不排水抗剪强度预测中也给出了类似的结论.根据过去的研究可以得到,在机器学习时,若输入太多与回归变量相关性低的参数,会对模型产生负面影响,并增加模型的复杂性,导致计算更耗时且预测结果更不准确(Shah et al., 2021),一般可通过降维等方法减少无关变量对模型预测的影响,在本文中,各输入变量与回归变量相关性均大于0.2,并未出现几乎独立于回归变量的情况,且本文所用数据集输入维度较小,剔除弱相关变量,会因输入变量纬度较低,损失信息过多而降低模型的预测精度.此外该数据集还存在多重共线性问题(例如LL和w的相关性为0.843),本文的目的是进行预测回归,使用的两种集成学习算法均是基于决策回归树,多重共线性一般不会对模型产生负面影响,变量越多包含的信息越多,模型的准确度会更高.因此基于上述分析,LL、PL、w、VES、USS这5种变量均可以作为特征变量来进行PS的预测回归.

3 预测模型的建立

3.1 回归模型建立

为了准确评估集成学习算法(XGBoost,RF)在先期固结压力预测的性能,引入了3种机器学习算法(SVR、KNN、MLP)(Cortes and Vapnik, 1995Gardner, 1998Zhang and Zhou, 2007)来加以比较,在构建回归模型时,公平起见,对这5种算法均使用了贝叶斯优化来对模型参数进行调整,并在5倍CV下输出最优的回归器作为回归模型.模型训练时,选取80%数据样本作为训练集用来训练模型,20%作为测试集来评估模型的泛化误差.为了防止出现数据选择的偏差,对数据集进行了打乱处理,同时为了保证各个模型在训练以及评估时的公平及可复现性,在数据集划分时均固定了相同的随机起点.

此外,D’ Ignazio基于该数据提出了两个相对较好的土体先期固结压力转换模型(D’Ignazio et al., 2016),也被纳入与集成学习算法的比较之中,公式见式13式14,该模型基于芬兰24个地点的粘土数据库,利用回归分析来评估PS和USS变量之间的相关性,并通过瑞典和挪威19个地点的数据进一步完善了该模型公式.需指出的是,由于式13式14为函数模型,在进行PS计算时,使用的是整个数据集.

           P S = 4.687 U S S 1.264 w - 0.427 V E S - 0.269,
           P S = 4.522 U S S 1.321 L L - 0.440 V E S - 0.321,

图4是5种机器学习算法模型在训练集及测试集上的回归表现,为了便于比较,基于D’ Ignazio公式的两种回归模型也被绘制在图4中,图中散点代表预测值,曲线代表实际值,可以看出,每个算法在测试集上都能准确地计算出土体的先期固结压力,且保证了良好的拟合能力.

3.2 贝叶斯优化超参数

对于XGBoost和RF模型,依据对参数的认识和调参的经验,分别选取了7个和5个重要参数,在5倍CV下,设置迭代次数为100,共计迭代500次,优化目标为线性回归系数R 2最大,需要指出的是在进行优化超参时,为了保证模型在未观测数据集上的可靠性,只将训练集作为调参整体数据集,测试集不参与调参.各个模型的最佳超参数如表4表5所示,选取最优参数时给出了优化前后的综合得分,优化结果如图5所示.

为了有效评估贝叶斯优化的作用,SVR、KNN和MLP优化前后得分也被绘制在图5中.可以看出,超参数显著影响模型的预测能力,优化后,各个模型的得分均比优化前要高(XGBoost、RF、SVR、KNN、MLP模型的得分别提高了8.8%、6.1%、9.5%、10.5%、16.8%),表明贝叶斯优化能够显著提高机器学习模型的预测精度.

4 模型评估及讨论

4.1 模型评估及误差分析

在5种机器学习算法模型中,XGBoost模型和RF模型无论是RMSE还是MAPE值均要显著小于SVR、KNN及MLP,其中预测精度最高的模型为XGBoost模型,其次为RF模型,预测精度最低的模型为SVR模型,表明在小规模数据集上进行回归预测,准确度方面集成学习算法要显著好于非集成算法,值得注意的是MLP和KNN模型展现出了较好的拟合能力,但精度不高,因此在评估模型回归精度时,需要考虑多个误差指标.鉴于此类数据存在噪声数据及多源数据,因此可认为,其真实误差较预测误差更小.此外由表6可以看出,5种机器学习算法模型相较于D’ Ignazio et al.(2016)提出的模型,拥有着更好的拟合能力及更小的误差,表明机器学习算法能够较好地运用于土体参数预测中.

图6为模型的误差分布直方图,显然,6种算法模型的误差都近似服从正态分布,无明显噪声点.在训练数据集和测试数据集,每个计算模型的误差分布均集中在-20 ~ 20 kPa,各个算法在此区间占比分别为:XGB(77.92%)>RF(76.62%)>KNN(71.43%)=MLP(71.43%)=SVR(71.43%),这表明误差主要分布在0值附近,且集成算法模型相比于非集成算法模型,误差分布更为集中.相比于SVR、KNN、MLP三种模型,XGBoost和RF有着更小的平均值及方差,说明其误差波动更小,表现出良好的鲁棒性.

5种机器学习算法中,回归表现最好的为XGBoost模型,尽管在训练集上,XGBoost各误差评价指标均不是最好,但在测试集上,其回归系数R 2要显著高于其他4种模型,从图4可以看出,各预测值均匀地分布在实际值两侧,无明显离群点,此外,XGBoost模型还有着最小的RMSE值和MAPE值,表明其预测值与真实值之间误差也更小,这说明相比于其他算法,XGBoost能更好地捕捉土体参数之间的关系,且在未观测数据集上有着更高的可靠性.

相较于常规函数模型,机器学习模型也有其局限之处.5种模型在测试集的表现相较于训练集均有较为明显的下降,表明其对数据的依赖较大,本文所用数据集来源较为广泛,且数量较少,在一定程度上影响着模型的学习;此外由于来自不同地区土质通常具有不同的性质,基于单一学习器的非集成学习算法通常在回归表现上较弱,在本文中,这一情况也有所体现,因此采用合适的算法(如集成学习算法)或通过一定的策略将多种算法组合起来往往会取得更好的效果.

4.2 贝叶斯优化超参数前后模型性能比较

图7给出了优化前后测试集的回归表现,其中红点和蓝点分别代表优化前后预测值,黑色直线为斜率为1的直线,代表理想拟合曲线,散点越靠近该直线证明其拟合程度越高.可以看出5种算法在优化后,精确度均有着不同程度的增加,相对来说SVM、KNN和MLP提升的效果比较均匀和明显,3种算法的RMSE和MAPE平均下降了6.142和4.119,预测误差明显较少,此外可以注意到R2 显著提高,说明模型的拟合程度更好.在优化前,3种算法均出现了预测异常值较多的情况,散点明显偏离理想拟合曲线(如KNN),显著影响到了模型的预测精度,超参数优化后这一情况明显改善,散点均匀分布在理想拟合曲线四周.XGBoost未调参前的模型即比3种非集成学习算法表现要好,侧面反映出XGBoost是一种强大的开箱即用算法,值得注意的是,相比于其他4种算法,RF模型受模型本身超参数影响较小,其预测回归结果相对比较稳定.

4.3 特征重要性分析

特征重要性是特征选取和模型可解释性的重要参考,经过训练的XGBoost模型和RF模型可以自动计算出特征重要性,其计算原理为熵增益原则(周志华, 2016).通过计算特征对模型中每个树的相对贡献来计算增益,表明其特征对于模型的贡献程度,该指标越大,意味着该特征对于生成预测的重要性就越大,图8显示了5个特征变量在XGBoost模型及RF模型中的特征重要性,两种算法计算出的特征重要性在趋势上保持一致,其大小分别为USS>VES>w>LL>PL.

表3得到的各变量斯皮尔曼相关性系数可以看出,对于PS变量有USS(0.747)>VES(0.708)>w(-0.461)>LL(-0.308)>PL(-0.267),集成学习算法在重要性变化趋势上与斯皮尔曼矩阵得出的特征重要性一致.需要指出的是,这里的负号代表着负增长;其数值越大,代表着越容易引起相关变量的变化.周军(2014)指出,随着土体的含水率增大,土体间颗粒容易产生滑动使得土体的先期固结压力减小,本文也得到了类似的结论,如在图8中即证实了这一相关性的存在.同时先期固结压力也会显著反映到土体强度上(张文振, 2014),从图8可以看出,VSS和USS是引起PS变化的最重要因素,与前人得到的结论相符.综上,可得出土体敏感性分析的结论,对PS变量影响最为明显的因素为USS和VES,呈正相关趋势,其次为w、LL和PL,呈负相关趋势.

4.4 五折交叉验证

图9显示的是5倍CV下模型的训练集及测试集的R2RMSEMAPE值.显然,两种集成学习算法模型在预测性能上更有优势,在误差的第2折和RMSE误差的第4折,5种模型的算法均出现了不同程度的波动,表明模型易受到数据质量的影响,且对于不同的误差评判指标,其误差并未表现在相同验证折上,表明不同误差指标对数据质量的敏感性不同.

对于集成学习算法,RF相较于XGBoost具有更高的泛化性,在5折验证中,3种误差评判指标均未出现明显波动,在拟合能力及预测精度上,XGBoost要略好于RF,但XGBoost对于数据集质量较为敏感,在数据集质量差的验证折上误差较大(如第4折).5种模型中,表现最差的为SVR,其在第2折和第4折上均出现了较大的波动,且各类评估指标中均表现较差,表明其在土体的先期固结压力预测上性能较弱,且鲁棒性较差.

5 结论

集成学习算法是一种解决多元回归问题和分类问题时非常强大的机器学习算法,本文使用XGBoost和RF两种集成学习算法用于预测土体的先期固结压力,基于Clay/7/216和Clay/7/168黏土数据集,与3种非集成算法:SVR、KNN、MLP进行比较,得出以下结论:

(1)建立5种回归模型,模型的计算结果表明,集成学习算法模型在预测精度上要好于非集成算法,对于测试集两个集成学习算法的MAPE值分别为18.29%和19.15%,由于该数据集包含多源数据和噪声数据,因此可认为MAPE实际值更小.五种模型中,XGBoost预测精度最高,SVR预测精度最低,同时对5种模型进行5折交叉验证分析,RF模型表现出较好的泛化性,且5种机器学习模型在预测效果上均要好于D’ Ignazio所提出的两种数学模型.

(2)调整不同的模型参数能够提高土体先期固结压力的预测效果,采用贝叶斯优化方法对5种算法的超参数进行优化,保证5种模型能够充分挖掘预测潜力、并且更好地捕捉PS与各个土壤参数之间的关系.

(3)依据熵增益原理,导出了在集成学习模型下PS作为预测结果时,各输入参数的特征重要性,其大小分别为:USS>VES>w>LL>PL,得出了与他人类似的结论,表明集成学习算法能有效捕捉岩土参数之间的关系,并且可作为岩土参数敏感性分析的有效工具.

参考文献

[1]

Benesty, J., Chen, J.D., Huang, Y.T., 2008.On the Importance of the Pearson Correlation Coefficient in Noise Reduction. IEEE Transaction on Audio Speech Language Processing,16:757-765. https://doi.org/10.1109/TASL.2008.919072

[2]

Bergstra, J., Yamins, D., Cox, D., 2013. Hyperopt: A Python Library for Optimizing the Hyperparameters of Machine Learning Algorithms. Python in Science Conference, Texas, 13-19. https://doi.org/ 10.25080/Majora-8b375195-003

[3]

Breiman, L., 1996. Bagging Predictors. Mach Learn,24:123-140. https://doi.org/10.1007/BF00058655

[4]

Breiman, L., 2001. Random Forest. Mach Learn,45(1):5-32. https://doi.org/10.1023/A:1010933404324

[5]

Casagrande, A., 1936. The Determination of Pre- Consolidation Load and Its Practical Significance. Proc. of First Lcmfe, (3):60-64.

[6]

Chang, L. Y., Wang, J. C., Zhu, X. R., 2009. Nonparametric Fitting Model for Determining Soil Preconsolidation Pressure. Rock and Soil Mechanics, 30(5): 1337-1342 (in Chinese with English abstract).

[7]

Chen, T.Q., Guestrin, C., 2016. XGBoost: A Scalable Tree Boosting System. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, San Francisco, 785-794. https://doi.org/10.1145/2939672.2939785

[8]

Cortes, C., Vapnik, V., 1995. Support-Vector Networks. Mach Learn, 20: 273-297. https://doi.org/10.1007/BF00994018

[9]

D’Ignazio, M., Phoon, K.K., Tan, S.A., et al., 2016. Correlations for Undrained Shear Strength of Finnish Soft Clays. Candian Geotechnical Journal, 53:1628-1645. https://doi.org/10.1139/cgj-2016-0037

[10]

Dong, H. Y., Wang, Y. D., Li, L. H., 2021. A Review of Random Forest Optimization Algorithms. China Computer & Communication, 33(17):34-37 (in Chinese with English abstract).

[11]

Gardner, M. W., 1998. Artificial Neural Networks (the Multilayer Perceptron)—A Review of Applications in the Atmospheric Sciences. Atmos Environment,32: 2627-2636. https://doi.org/10.1016/S1352-2310(97)00447-0

[12]

Hastie, T., Friedman, J.H., Tibshirani, R., 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Math Inter, 27(2):83-85. https://doi.org/10.1007/BF02985802

[13]

Li, H., Zhang, Z.E., Zhao, Z.Z., 2019. Data-Mining for Processes in Chemistry, Materials, and Engineering. Processes,7(3):151. https://doi.org/10.3390/pr7030151

[14]

Li, S., Chen, J., Liu, C., et al., 2021. Mineral Prospectivity Prediction via Convolutional Neural Networks Based on Geological Big Data. Journal of Earth Science, 32(2): 327-347. https://doi.org/10.1007/s12583-020-1365-z

[15]

Li, W. B., Fan, X. M., Huang, F. M., et al., 2021. Uncertainties of Landslide Susceptibility Modeling under Different Environmental Factor Connections and Prediction Models. Earth Science, 46(10): 3777-3795 (in Chinese with English abstract).

[16]

Nascimento, D.S.C., Coelho, A.L.V., Canuto, A.M.P., 2014. Integrating Complementary Techniques for Promoting Diversity in Classifier Ensembles: A Systematic Study. Neurocomputing, 138: 347-357. https://doi.org/10.1016/j.neucom.2014.01.027

[17]

Shah, M. I., Javed, M. F., Abunama, T., 2021. Proposed Formulation of Surface Water Quality and Modelling Using Gene Expression, Machine Learning, and Regression Techniques. Environmental Science and Pollution Research International, 28(11): 13202-13220. https://doi.org/10.1007/s11356-020-11490-9

[18]

Sun, D.L., Wen, H.J., Wang, D.Z., et al., 2020. A Random Forest Model of Landslide Susceptibility Mapping Based on Hyperparameter Optimization Using Bayes Algorithm. Geomorphology, 362: 107201. https://doi.org/10.1016/j.geomorph.2020.107201

[19]

Vyas, R., Goel, P., Tambe, S.S., 2015. Genetic Programming Applications in Chemical Sciences and Engineering. In: Gandomi, A.H., Alavi, A.H., Ryan, C., eds., Handbook of Genetic Programming Applications. Springer International Publishing, Cham, 99-140. https://doi.org/10.1007/978-3-319-20883-1_5

[20]

Wong, T. T., 2015. Performance Evaluation of Classification Algorithms by K-Fold and Leave-One-out Cross Validation. Pattern Recognition, 48(9): 2839-2846.

[21]

Wu, R. Z., Hu, X. D., Mei, H. B., et al., 2021. Spatial Susceptibility Assessment of Landslides Based on Random Forest: A Case Study from Hubei Section in the Three Gorges Reservoir Area. Earth Science, 46(1): 321-330 (in Chinese with English abstract).

[22]

Xia, Y.F., Liu, C.Z., Li, Y.Y., et al., 2017. A Boosted Decision Tree Approach Using Bayesian Hyper-Parameter Optimization for Credit Scoring. Expert System with Applications, 78:225-241.

[23]

Zhang, M.L., Zhou, Z. H., 2007. ML-KNN: A Lazy Learning Approach to Multi-label Learning. Pattern Recognition, 40: 2038-2048. https://doi.org/10.1016/j.patcog.2006.12.019

[24]

Zhang, W.G., Wu, C.Z., Zhong, H., et al., 2021.Prediction of Undrained Shear Strength Using Extreme Gradient Boosting and Random Forest Based on Bayesian Optimization. Geoscience Frontiers,12:469-477. https://doi.org/10.1016/j.gsf.2020.03.007

[25]

Zhang, W.G., Zhang, R.H., Wu, C.Z., et al., 2022.Assessment of Basal Heave Stability for Braced Excavations in Anisotropic Clay Using Extreme Gradient Boosting and Random Forest Regression. Underground Space, 7:233-241. https://doi.org/ 10.1016/j.undsp.2020.03.001

[26]

Zhang, W. Z., 2014. Research on Consolidation Characteristics of Ultra Soft Soil (Dissertation). Tianjin University, Tianjin, 41-42 (in Chinese with English abstract).

[27]

Zhou, J., 2014. Research on Preconsolidation Pressure of Soil (Dissertation). Wuhan University of Technology, Wuhan, 12-15 (in Chinese with English abstract).

[28]

Zhou, J., Qiu, Y.G., Zhu, S.L., 2021. Estimation of the TBM Advance Rate under Hard Rock Conditions Using XGBoost and Bayesian Optimization. Underground Spaceace, 6: 206-515. https://doi.org/10.1016/j.undsp.2020.05.008

[29]

Zhou, Z. H., 2016. Machine Learning. Tsinghua University Press, Beijing,171-196 (in Chinese).

[30]

常林越, 王金昌, 朱向荣, 2009. 确定土体前期固结压力的非参数化拟合模型. 岩土力学, 30(5): 1337-1342.

[31]

董红瑶, 王弈丹, 李丽红, 2021. 随机森林优化算法综述. 信息与电脑, 33(17): 34-37.

[32]

李文彬, 范宣梅, 黄发明, 等, 2021. 不同环境因子联接和预测模型的滑坡易发性建模不确定性. 地球科学, 46(10): 3777-3795.

[33]

吴润泽, 胡旭东, 梅红波, 等, 2021. 基于随机森林的滑坡空间易发性评价: 以三峡库区湖北段为例. 地球科学, 46(1): 321-330.

[34]

张文振,2014.吹填超软土的固结特性试验分析(硕士学位论文).天津:天津大学,41-42.

[35]

周军,2014.土先期固结压力问题的研究.(硕士学位论文).武汉:武汉理工大学,12-15.

[36]

周志华,2016,机器学习.北京:清华大学出版社,171-196.

基金资助

国家自然科学基金项目(12172211)

国家重点研发计划项目(2019YFC1509800)

AI Summary AI Mindmap
PDF (5863KB)

138

访问

0

被引

详细

导航
相关文章

AI思维导图

/