0 引言
含水层中的砷污染对人类健康具有严重的影响,地质成因的地下水砷污染是当前国际社会面临的严重的环境地质问题
[1]。当地下水中的砷浓度超过世界卫生组织(WHO)的饮用水临时准则值(10 μg/L)时,可认为是高砷地下水
[2]。砷作为一种已知的致癌物质,长期接触饮用水砷,会对人体的多个器官产生不良影响,引发心血管疾病、皮肤病及癌症等。全世界约有超过2亿人长期接触砷浓度超过10 μg/L的地下饮用水,其中在中国约有1 500万人受到地下水砷的影响
[3],主要分布在中国北方的新疆、内蒙古、宁夏和山西等干旱-半干旱地区
[4]。
内蒙古河套盆地是中国典型的干旱-半干旱内陆沉积盆地,地下水砷含量严重超标
[5-6]。流经盆地南部的黄河多用于灌溉,当地居民的饮用水多依赖地下水,导致该地区饮水型砷中毒情况严重,病患率高达15.54%
[7]。目前国内外众多专家学者对该地区的高砷地下水成因、分布以及水文地球化学特征开展了大量研究
[8⇓⇓⇓-12],从微观层面揭示了pH和氧化还原电位的变化以及土著微生物、天然胶体的参与等因素是含水层沉积物中砷溶出的主要原因,而对于宏观层面的高砷地下水的空间分布与机理缺乏较为全面的评价。
由于地下水砷分布的非均质性,从宏观层面开展研究需要大量的监测采样及分析测量来支撑。随着我国对地下水污染问题的高度重视,中国自然资源部和水利部于2015年开始实施国家地下水监测工程,但受到设站标准和社会人力资源等条件的限制,难以在短时间内建成覆盖范围广、密集性强的地下水监测网络,无法获取大范围、高精度的地下水监测信息
[13]。目前,通过构建统计模型进行高砷地下水风险分布预测被认为是一种有效获取区域高砷地下水空间分布的重要手段,并已取得了广泛的应用
[14-15]。克里金作为统计模型的典型算法,由于其不能考虑外部环境因子对高砷地下水风险分布的影响,其预测结果不能较好地反映高砷地下水的空间变异性,特别是对于没有可用砷数据的区域和小尺度区域预测时不具备代表意义
[16]。随着模型算法的发展,Winkel等
[17]使用线性模型中最具代表性的逻辑回归算法,结合地质和地表土壤参数预测了高砷地下水的分布,但线性模型的前提是假设高砷地下水与环境要素之间的关系是线性的,而实际高砷地下水浓度与环境要素之间具有复杂的非线性关系,线性模型不能很好地对其进行预测
[18]。为了克服这一问题,以支持向量机
[19]、神经网络
[20]、增强回归树
[21]以及随机森林
[22]等为代表的非线性模型被应用到高砷地下水风险分布预测。如Podgorski等
[1]使用11个地理空间环境参数和50 000多个采样点,基于随机森林模型绘制了全球地下水砷含量超过10 μg/L的预测图,估算出全球约有9 400万至2.2亿人受到高砷地下水的影响,其中亚洲潜在受影响人口最多。Cao等
[23]利用包括气候、土壤理化性质在内的26个指标,以及全球超过70 612个数据点,建立了全球地下水砷污染的神经网络模型,重要性分析表明,气候和土壤质地指标是产生高砷地下水的主要因素。虽然这些模型方法可以捕获用作预测变量的地理环境参数和砷之间的联系,但单一的模型算法因存在随机性而导致泛化能力有限,进而会降低模型预测的准确性和稳定性。为了改善单一模型存在的缺陷,提升模型对复杂问题的解决能力,对多种机器学习算法进行组合应用应运而生。目前,已有学者应用集成组合模型来研究地下水资源潜力,地下水水质等问题,并取得了许多新的认识
[24⇓-26]。如Mallick等
[25]构建树形模型与神经网络、朴素贝叶斯树的组合模型对地下水储存潜力进行预测,发现组合模型效果优于单一模型。Chen等
[26]将深度学习与boosting集成、提升树、人工神经网络等组合建模,结果发现所有组合模型精度都较为理想,其中Deep-boosting组合模型最适用于伊朗Saveh地区地下水资源潜力预测。Stacking集成学习
[27]作为一种主张结合多样性学习器的集成方法,主要思想是使用元学习器实现对不同基学习器的非线性加权组合
[28]。由于不同分类器间存在不同的学习偏差,它们的错误不会完全相关,因此多学习器的组合将比单一的基分类器执行得更好
[29]。Stacking集成学习优势已经在其他自然灾害和地球工程问题的类似研究中得到证实
[30⇓⇓-33]。
本研究以内蒙古河套盆地为研究区,使用了研究区605个浅层地下水样品,以沉积、气候、人类活动、土壤、水文地质条件等环境因子作为模型变量,开发了基于Stacking集成框架的河套盆地地下水砷风险预测模型,识别河套盆地潜在的地下水砷浓度大于10 μg/L的高风险区,分析主控变量对河套盆地地下水砷空间格局的影响。本研究对区域居民饮水安全以及地下水资源的合理利用具有重要现实意义。
1 研究区概况
1.1 地形地貌
在区域上,河套盆地东部为乌拉山,北部为阴山山脉,西部为乌兰布和沙漠,南部为鄂尔多斯高原,阴山山脉展布于研究区北、东、西三面,海拔高度为1 500~2 300 m。阴山山地由中低山、低山丘陵和山间盆地组成,地势南陡北缓,南坡在短距离内以500~1 000 m的高差与河套盆地相接。河套盆地由山麓阶地、山前冲积洪积扇和冲积平原组成,地貌类型以黄河冲湖积平原为主,西部及南部为沙漠,海拔高程为1 000~1 160 m,区域总体地势自西南向北东微倾。
1.2 水文气象
河套盆地属于中温带大陆性季风气候,降水量季节分配不均,主要集中于夏季,多年平均降水量在175 mm左右,多年平均蒸发量达2 200 mm,属于典型的干旱半干旱地区。黄河干流是唯一流经盆地的外流水系,多年平均径流量315亿m
3,黄河水通过纵贯全区的引黄灌渠由南向北、由西向东灌溉耕地。盆地内面积最大的湖泊乌梁素海是目前为河套盆地黄灌区排退水、山洪水的容泄区
[11]。
1.3 水文地质条件
河套盆地广泛分布着上更新统—全新统潜水、弱承压水含水层(浅层含水层),其岩性以冲积湖积的粉细砂为主。含水层顶板埋深一般小于20 m,平原大部分地区地下水位埋深在5 m之内
[6]。区域内浅层水主要的补给来源是引黄灌溉水的入渗补给。受地层岩性等因素的影响,黄河对研究区浅层水的季节性河道侧渗补给量有限,不是浅层水主要的补给来源。由于黄河冲洪积平原的浅层地下水水位埋藏非常浅,蒸发作用强烈,蒸发排泄成为平原区浅层地下水的主要排泄方式,其次是浅层地下水向排水沟的侧向排泄,以及农作物的蒸散发消耗。浅层地下水的径流方向受构造、地形影响较大,主要由北部的冲积扇向南部的冲积平原流动,随着地形逐渐平缓,含水层颗粒逐渐变细以及渗透系数的降低,流速逐渐缓慢
[34]。
2 材料与方法
2.1 样品采集及测试
2014年6月—9月,2019年8月—9月,以及2020年4月—6月在河套盆地开展了水文地质调查工作,共采集浅层地下水样品605组(
图1),井深5~100 m,其中平原中部的井深多在30 m以内,样品采集深度基本都控制在上更新统含水层。
样品采集项目包括全分析、微量元素、As、Fe价态分析。采样前先对采样井进行抽水洗孔。采样过程中,所采水样需注满采样容器,采样完毕后用防水胶带封口。使用0.45 μm滤膜现场过滤用于分析砷元素的水样,获取的上清液需滴加1 mL浓盐酸,将水样酸化至pH<2,装入25 mL高密度聚乙烯棕色采样瓶。现场测试采用美国HACH公司生产的便携式多参数水质分析仪现场测试地下水温度、pH值、电导率(EC)、溶解氧(DO)浓度、氧化还原电位(ORP)、溶解性总固体(TDS)浓度,采用上海昕瑞公司生产的WGZ-200B便携式浊度计(仪)测试浊度。本项目样品测试工作由中国地质科学院水文地质环境地质研究所完成。测试环境温度23℃,湿度50%,水样检验方法、测试精度及误差范围均依据《地下水质检验方法》(DZ/T 0064—1993)。
2.2 Stacking集成学习模型构建
2.2.1 模型变量选取
已有研究表明浅层地下水中砷的释放受多种环境变量的影响
[35]:高存荣
[10,32]研究表明高砷地下水的形成与古地理环境、地形地貌、特定的地质以及沉积物颗粒等条件有关;Raphaël等
[36]研究表明气候变化,如温度和降水等,对含水层地下水中天然砷的地球化学特性存在潜在影响;Charlet和Polya
[37]研究发现,在特定的水力梯度和沉积环境下,人类活动会加剧砷从铁氧化物中释放到含水层;土壤有机碳含量高也是导致含水层中砷释放减少的一个常见驱动因素
[38]。综合前人研究成果,在充分考虑地下水砷累积过程中已知或潜在的影响变量的基础上,本次建模使用了气候、人类活动、沉积、水文地质、土壤等6类环境因素,共计24个地理环境空间参数作为预测变量(
表1)。所有预测变量的空间分辨率为0.5 km×0.5 km(15″分辨率)。
2.2.2 模型构建与验证
基学习器是Stacking集成学习框架最重要的部分,算法的挑选应遵循性能优越且算法各异的原则。逻辑回归、支持向量机、boosting、bagging、神经网络等方法在地下水水质建模领域都有较好的预测性能
[39⇓-41]。因此,本文选用自适应增强(AdaBoost)
[42]、极度梯度提升(XGBoost)
[43]、梯度提升决策树(GBDT)
[44]、TreeBag
[45]、随机森林(RF)
[46]、极限树(ET)
[47]、K近邻(KNN)
[48]、多层感知器(MLP)
[49]、逻辑回归(LR)
[50]、线性判别(LDA)
[51]和支持向量机(SVM)
[52]这11种在实际应用中表现良好的机器学习算法作为基学习器。
以砷浓度数据为因变量,以预测变量为自变量,建立地下水砷浓度超10 μg/L的统计模型来比较不同方法。数据集以8:2的比例随机分成训练集和测试集,同时保持相同的砷超出率,使用0.50作为概率截止点,这可以保证对所有模型的模型性能进行一致的比较。每种方法的性能通过AUC、准确率(Accuracy)、精确度(Precision)、敏感性(Recall)、F1和kappa这6种指标进行评估,得到不同模型的性能度量汇总。为了能对这6种指标客观的赋以权重,得到候选基学习器的综合得分,采用熵值法
[53]赋权的方式计算候选基学习器的熵权综合得分。对这6种模型性能指标进行层次聚类分析,对聚类结果进行分簇。根据模型性能度量指标值和综合评价得分,剔除性能较差的算法,挑选算法结构简单、性能较好的模型作为Stacking模型的元学习器
[54],并从聚类结果中筛选各簇性能最优的模型纳入Stacking结构作为基学习器。
将聚类后样本数相同的低砷和高砷采样数据随机分成具有相同配置的两部分(80%为训练样本,20%为预测样本)。其中训练集划分为5个子集,进行五折交叉验证,通过对基学习器进行五次训练预测,将输出结果叠加组合,将5次预测结果的平均值作为新测试集。所有的基学习器的执行以上步骤。把不同基学习器训练集输出预测结果和测试集输出结果作为二层元学习器的输入数据,对其训练预测得到最终的Stacking集成模型。选取基学习器中性能最优的基学习器与Stacking集成模型进行比较,选择AUC、Accuracy、Precision、Recall和Specificity作为模型性能比较指标。最后,将stacking集成模型应用于这24个空间上连续的预测变量集,创建河套盆地地下水中砷浓度概率图作为风险分布图。
3 结果与分析
3.1 高砷地下水分布及水化学特征
以WHO发布的饮用水砷的临时指导值10 μg/L为阈值,获取的605个浅层地下水样本中有300个样本显示砷浓度大于10 μg/L,砷含量的超标率为49.59%,对该地区居民造成极大的健康威胁。对研究区地下水砷含量统计特征(
表2)进行分析,该地区地下水样品中有9个样本(1.49%)的砷浓度低于仪器检出限0.05 μg/L,最高值为916.7 μg/L,高出生活饮用水标准90多倍,平均值为54.74 μg/L,中位数为9.43 μg/L。所有样品的变异系数为1.98,为强变异性,且砷浓度极差较大,数据集不符合正态分布特征,呈右偏态分布。研究区地下水主要组分中Cl
-离子浓度均值和
离子浓度中值最高,分别高达800.14 mg/L和444.8 mg/L,均值和中值最低的分别为Ca
2+和Mg
2+离子,分别为87.09 mg/L和68.12 mg/L(
图2b)。砷浓度小于10 μg/L的地下水的水化学类型主要为Na-HCO
3和Na-Cl型,少部分为Ca-HCO
3和Mg-HCO
3型。高砷地下水的水化学类型相对更加集中在Na-HCO
3和Na-Cl类型(
图2a)。
从空间分布(
图1)看,高砷地下水分布较为集中,空间上呈带状分布。高砷地下水沿阴山山脉的山前冲洪积扇缘的低洼地带,呈北东向的条带状分布,并逐渐向南扩展,多集中于黄河古河道带和黄河决口扇。行政区划上看主要分布在研究区中部的临河,五原,以及乌梁素海西部的乌拉特前旗部分地区。从地质地貌类型分布来看,高砷检出主要散布在地形平坦的黄河冲湖积平原。从沉积环境来看,高砷检出主要分布在黏土层较厚,黏沙比较低的冲积湖积平原。
3.2 高砷地下水风险分布预测
使用了24个变量来建立最终的模型,最终模型的超参数是从距离最精确模型的一个标准误差范围内的更简单模型中选择的。根据模型性能度量指标(
表3)和综合评价得分(
表4),基于bagging集成算法的RF,ET和TreeBag模型的表现要明显优于其他模型,其中RF模型的综合表现在所有独立的学习器中最佳,MLP模型预测该地区高砷地下水性能较差,予以排除,将剩余10个模型分为4簇(
图3)。从不同簇中各挑选出性能最优的RF、XGBoost、SVM模型作为Stacking结构的基学习器,选择算法结构简单、性能较好LDA作为Stacking模型的二层元学习器。对其训练预测得到最终的Stacking集成模型。
分别使用Stacking和RF模型计算了河套盆地地下水砷浓度超过10 μg/L的概率,制作了0.5 km分辨率的地下水高砷概率图(
图4a,
c)。在此基础上根据概率阈值≥0.5(>10 μg/L)划定地下水砷高风险区(
图4b,
d)。Stacking与RF模型预测的高砷地下水概率分布图(
图4a,
c)具有相似的空间变化趋势,整个研究区内高砷地下水分布范围较广,高风险区主要分布在黄河平原区的冲积湖积平原,具体位于自西向东的黄河古河道影响带,黄河北岸的黄河决口扇以及乌梁素海南部的黄河决口扇前平原,但局部区域存在差异。在Stacking预测的地下水砷概率分布图中,根据概率阈值0.5(>10 μg/L)划定的高砷风险区(
图4b)面积达到5 727 km
2,占研究区总面积的38.44%。高砷地下水严重影响的区域集中分布在杭锦后旗北部,临河北部,乌拉特中旗南部,五原以及乌拉特前旗西部的整个黄河古河道影响带,黄河北部的黄河决口扇,以及杭锦旗东北部的部分黄河决口扇前平原。
4 讨论
4.1 不同机器学习模型结果比较
将Stacking集成模型与基学习器中性能最优的RF模型进行比较,Stacking集成模型具有更优的AUC、Accuracy、Precision、Recall和Specificity,各指标分别提高了1.1%、3.2%、0%、9.2%和0.2%。从模型评估指标来看,虽然两种方法在测试集具有相似的性能,在数据集上有相近的变化趋势,但Stacking集成模型取得了优于RF模型的预测精度,模型AUC和灵敏度(Recall)分别为0.781和0.793,这表明该模型具有更好的泛化能力,对高砷数据具有更好的预测性能。最终模型预测性能指标如
表5所示。
与RF预测的地下水砷浓度超过10 μg/L概率(
图4c)相比,Stacking预测的风险概率(
图4a)幅度较小,风险概率范围在0.18~0.78,而RF预测图高估了研究区北部黄河古河道影响带和黄河北岸黄河决口扇部分区域的超标概率。虽然Stacking与RF模型预测的高砷风险区(
图4b,
d)具有相似的空间分布,但RF方法预测的高砷风险区面积为5 900.75 km
2,比Stacking预测的风险区面积多出173 km
2。与RF方法相比,Stacking预测高砷风险区的最显著改进在于预测了研究区西部黄河古河道影响带和研究区东南部黄河决口扇前平原地区。
4.2 高砷地下水风险概率与预测变量关系分析
不同模型预测变量对研究区高砷风险概率影响的重要程度如
图5。所有的环境因子得分均为正值,这表明它们都对模型有益。预测变量中的水位埋深、蒸散(ET)、降水、温度、排灌渠影响、水力梯度、Q
3-4地层厚度和黏土层是对模型预测贡献度最大的8个预测变量,其中水位埋深影响程度最大,重要性得分为8.3%,其余7个预测变量的重要性得分为7.9%,7.7%,7.5%,7.4%,7.1%,7.1%和7.0%。
根据预测变量重要性排序计算影响高砷风险概率的综合因子贡献率(
图6),得到沉积环境(黏砂比、黏土层、Q
3-4地层厚度、DEM)因子群综合得分为25.06%,与含水层中砷的溶出显著相关。沉积环境是影响河套盆地高砷地下水概率分布的关键要素,对含水层砷的释放有着强大的控制作用。目前的研究成果也表明
[55],地形、地貌和沉积环境的差别是造成地下水砷含量差别的主要原因,高砷地下水的分布与某些特定的地层结构、沉积环境能很好地吻合,原生高砷地下水污染最严重的是现代洪积平原下的冲积层
[56]。气候因子群综合得分为22.93%,表明气候因子对河套盆地地下水砷的富集也起着重要的作用。研究表明受气候因素影响,地下水砷含量会呈现出明显的波动性
[36,57]。气候因子(如温度和降水)的变化,将通过改变补给、地下水位、水温、水流动态和存储变化来影响水文地球化学过程,进而影响砷浓度的变化。人类活动因子群综合得分为22.4%,也是影响河套盆地砷从地层中溶出的一个重要因素。河套盆地的还原环境有利于三价铁向二价铁转换,使得砷从铁氧化物、氢氧化物中解吸释放
[58],向沉积物颗粒孔隙间迁移,由于每年大量的引黄灌溉水的入渗使地下水位发生抬升,空气无法进入地层,更加促进了还原环境的产生,同时灌溉水入渗使得地下水压力发生显著的变化,为土粒空隙中的砷进入地下水创造了有利条件。
5 结论
本研究使用Stacking集成框架构建了地下水砷统计模型,预测了河套盆地高砷地下水风险分布,识别了控制高砷地下水空间分布的关键环境变量。得出以下结论:(1)研究区地下水样品超标(>10 μg/L)率为49.59%,高砷区主要呈条带状分布在黄河古河道带和黄河决口扇;(2)构建的以RF、XGBoost、SVM为基学习器,以LDA为元学习器的Stacking集成模型相较于独立算法中性能最优的RF模型具有更高的指标性能,模型泛化能力和对高砷数据的预测能力都得到了提升,同时Stacking模型预测的风险概率幅度较小;(3)预测的高砷风险区主要位于盆地的冲积湖积平原,沿自西向东的黄河古河道影响带、黄河北岸的黄河决口扇以及乌梁素海南部的黄河决口扇前平原分布,潜在受影响的高风险区面积达到5 727 km2,占研究区面积的38.44%;(4)水位埋深、蒸散(ET)、降水、温度、排灌渠影响、水力梯度、Q3-4地层厚度、黏土层是影响河套盆地高砷地下水重要的环境变量,沉积环境是影响高砷地下水风险分布的关键环境要素,对模型准确性贡献度高达25.06%。
本研究构建的Stacking集成框架模型为高砷地下水统计建模提供了一条新的思路,该模型方法可以在相同数据集的条件下,提高对数据的利用效率,提升模型的各项性能指标。改进的高砷概率预测图提供了大范围准确度更高的高砷含水层位置分布,并突出了特别关注的区域。生成的预测图可以帮助地下水砷危害高且高度依赖地下水的地区制定有效的缓解措施。但该模型更重要的价值体现在通过准确判断潜在高砷暴露的区域,可以与人类健康研究结果进行关联,增强研究人员对环境流行病学的研究能力。
研究表明高砷地下水分布也会受到气候变化,人类活动等动态因素的影响而发生变化,本次建模并未考虑时空变化带来的影响。高砷地下水浓度与含水层中水化学元素的含量具有一定的相关性,为了获得高精度的高砷地下水统计模型,需要在下一步工作中加入相关预测变量并补充更多的采样数据,以进一步提高模型预测的灵敏度。