基于可解释机器学习的河套平原盐碱农田土壤水分和有机质含量估算

丁启东 ,  黄华雨 ,  张俊华 ,  杨凌彬 ,  贾科利 ,  郝凤霞

水土保持通报 ›› 2025, Vol. 45 ›› Issue (04) : 184 -197.

PDF (6513KB)
水土保持通报 ›› 2025, Vol. 45 ›› Issue (04) : 184 -197. DOI: 10.13961/j.cnki.stbctb.2025.04.033
水保监测与应用技术

基于可解释机器学习的河套平原盐碱农田土壤水分和有机质含量估算

作者信息 +

Estimation of soil moisture and organic matter content in saline-alkaline farmland of Hetao Plain based on interpretable machine learning

Author information +
文章历史 +
PDF (6669K)

摘要

目的 针对传统方法在盐碱化农田土壤水分(SMC)和有机质含量(SOMC)监测中存在效率低下的问题,探索高光谱数据结合可解释机器学习的估算方法,以期为河套平原盐碱化土壤信息快速获取和土壤质量评价提供理论依据。 方法 以地面高光谱反射率及实测SMC和SOMC为数据源,对光谱数据采用分数阶微分(FOD)变换并构建光谱指数,基于偏最小二乘回归(PLSR)、支持向量机(SVM)和随机森林(RF)算法建模,并引入夏普利加性解释(SHAP)方法解析变量对模型预测结果的相对贡献,提升模型的解释性。 结果 ①经1.25阶微分变换后构建的光谱指数与SMC和SOMC间相关性最强,其中,广义差异指数(GDI)和最优光谱指数(OSI)与SMC和SOMC间相关系数最大,分别为0.505 4和0.682 5。②RF模型对SMC和SOMC的估算精度远高于PLSR和SVM;SMC和SOMC-RF模型验证集(R²)、均方根误差(RMSE)和相对分析误差(RPD)分别为0.734,3.28,2.07及0.870,1.53,2.43。③SHAP分析发现,氮平面域指数(NPDI)和比值指数(RI)分别在SMC和SOMC的建模估算中贡献度最大,且NPDI,OSI和差值指数(DI)对SMC的建模贡献度累计达到68.58%;RI,GDI和NPDI对SOMC的建模贡献度累计达到61.86%。 结论 FOD联合光谱指数在高光谱数据的有效利用中具有明显优势,RF模型在土壤属性估算中展现了较高的精度和鲁棒性,SHAP分析有效揭示了不同变量对目标变量的贡献度。NPDI,RI,OSI和DI等光谱指数在盐碱化农田SMC和SOMC的建模估算中贡献显著。

Abstract

Objective To address the inefficiencies of traditional approaches for monitoring the soil moisture content (SMC) and soil organic matter content (SOMC) in saline-alkaline farmlands, an estimation method that integrates hyperspectral data with interpretable machine learning was investigated. The goal was to establish a theoretical foundation for the rapid acquisition of soil information and quality assessments of the Hetao Plain, China. Methods Ground-based hyperspectral reflectance data and field-measured SMC and SOMC were used as the primary data sources. Spectral data were processed using a fractional-order differential (FOD) transformation, and various spectral indices were constructed. The models were developed using partial least squares regression (PLSR), support vector machines (SVM) and random forest (RF). To enhance interpretability, the Shapley additive explanations (SHAP) method was employed to evaluate the relative contribution of each variable to model predictions. Results ① The spectral indices derived from the 1.25-order differential transformation showed the highest correlation with the SMC and SOMC. In particular, the generalized difference index (GDI) and optimal spectral index (OSI) exhibited the strongest correlations, with coefficients of 0.505 4 and 0.682 5, respectively. ② The RF model significantly outperformed the PLSR and SVM models in estimating both the SMC and SOMC. For the validation datasets, the RF models achieved R2 values of 0.734 and 0.870, root mean square errors of 3.28 and 1.53, and recognition-primed decisions of 2.07 and 2.43 for SMC and SOMC, respectively. ③ The SHAP analysis indicated that the normalized plane domain index (NPDI) and ratio index (RI) were the most influential variables for estimating the SMC and SOMC, respectively. The combined contributions of the NPDI, OSI and difference index (DI) to SMC modeling reached 68.58%, whereas RI, GDI and NPDI collectively contributed 61.86% to SOMC modeling. Conclusion The integration of FOD and spectral indices enhanced the utility of hyperspectral data. The RF model demonstrated superior accuracy and robustness in estimating soil properties, whereas the SHAP analysis effectively elucidated the contribution of individual variables. Spectral indices (such as NPDI, RI, OSI and DI) played significant roles in modeling SMC and SOMC in saline-alkaline farmland.

Graphical abstract

关键词

高光谱 / 土壤盐碱化 / 机器学习 / 夏普利加性解释 / 数字土壤制图

Key words

hyperspectral / soil salinization and alkalinization / machine learning / shapley additive explanations SHAP / digital soil mapping

引用本文

引用格式 ▾
丁启东,黄华雨,张俊华,杨凌彬,贾科利,郝凤霞. 基于可解释机器学习的河套平原盐碱农田土壤水分和有机质含量估算[J]. 水土保持通报, 2025, 45(04): 184-197 DOI:10.13961/j.cnki.stbctb.2025.04.033

登录浏览全文

4963

注册一个新账户 忘记密码

文献参数: 丁启东, 黄华雨, 张俊华, 等.基于可解释机器学习的河套平原盐碱农田土壤水分和有机质含量估算[J].水土保持通报,2025,45(4):184-197. Citation:Ding Qidong, Huang Huayu, Zhang Junhua, et al. Estimation of soil moisture and organic matter content in saline-alkaline farmland of Hetao Plain based on interpretable machine learning [J]. Bulletin of Soil and Water Conservation,2025,45(4):184-197.
土壤盐碱化是干旱与半干旱地区普遍存在且亟待解决的生态与农业问题,该现象不仅破坏土壤结构,显著抑制养分循环和作物生长,还降低农田产出效率1。土壤水分(soil moisture content, SMC)和有机质含量(soil organic matter content, SOMC)是土壤健康与农田生产力的核心指标,对土壤结构、微生物活性有着深远影响2。传统的土壤监测方法,如地面采样和实验室分析,虽然能够提供精准的土壤属性数据,但面临着高成本、低效率等问题,更无法满足大范围、实时监测的需求3。相比之下,高光谱遥感因其光谱信息丰富和获取效率高,正逐渐成为实现土壤属性快速、无损监测的重要手段4。利用高光谱数据估算SMC和SOMC,不仅能克服传统监测方法的局限性,还能为盐碱化农田土壤信息的快速获取提供技术支撑。
在基于高光谱数据对土壤属性的估算中,数据预处理与特征选择对建模效果有重要影响5。有研究表明高光谱数据经一阶微分变换后对耕地SOMC的估算效果最优6。然而,整数阶微分变换会忽略与目标变量相关的细微光谱特征。此外,高阶微分变换还存在过度平滑等问题,可能导致一些关键光谱信息的丢失,进而影响模型的精度。针对以上问题,本研究设置细微的微分间隔,通过选取合适的阶数来避免过度平滑,并保留与目标变量有效的光谱信息。除反射率变换方法外,特征提取对模型精度亦有显著影响。尽管相关性分析5、灰度关联法以及竞争性自适应重加权采样等方法广泛用于特征选择,但选取的单一波段往往难以全面表征土壤的复杂属性。相比之下,构建光谱指数可有效融合多波段信息,增强与土壤属性的相关性7。尚天浩等8通过FOD变换构建光谱指数,实现了银川平原SOMC的高精度估算(R2=0.87)。在高光谱估算SMC的研究中,FOD结合光谱指数同样展现出较高精度9。但上述研究对不同光谱指数在SMC与SOMC建模中的贡献度尚缺乏系统量化评估,仍需进一步研究。
机器学习模型凭借其非线性建模能力和强鲁棒性,广泛应用于高光谱数据分析10。偏最小二乘回归(partial least squares regression, PLSR)、支持向量机(support vector machine, SVM)和随机森林(random forest, RF)等算法已被成功用于土壤属性估算11。李天乐等12在利用高光谱数据估算SOMC时发现,SVM模型表现优于PLSR,估算精度达到R²=0.85,体现出SVM较强的非线性拟合能力。在宁夏银北地区盐碱化SMC的估算研究中,SVM同样展现出最佳的建模效果13。同时,RF算法在SOMC估算中表现最优14R2达到0.93。尽管机器学习模型在精度上表现优越,其“黑箱”特性使得模型内部决策机制仍不透明,限制了其在科学研究中的解释力15。为提升模型可解释性,夏普利加性解释(shapley additive explanations, SHAP)作为一种解释型算法,可对模型预测结果进行可视化解析,定量评估各变量对预测结果的贡献16。叶淼等17在北京市延庆区和房山区永久农田SOMC估算中,通过SHAP识别并剔除贡献度较低的变量,重构模型后精度显著提升。在辽西地区SMC的估算中,研究者将RF与SHAP结合,系统阐明了不同变量对模型预测的贡献18。基于上述成果,本研究引入SHAP方法,旨在系统量化并识别对SMC与SOMC建模贡献显著的关键变量,从而为盐碱化农田SMC与SOMC的高精度估算提供理论依据与变量优选支持。
河套平原是中国西北重要的农业产区,土壤盐碱化已成为制约其农田生产力和生态可持续发展的关键因素。本研究结合地面高光谱数据、机器学习算法与SHAP方法,构建SMC与SOMC的估算模型,并量化不同光谱指数在建模中的贡献。以期为河套平原及类似地区盐碱化土壤的肥力监测与地力提升提供方法支持和数据依据。

1 材料与方法

1.1 研究区概况

河套平原位于内蒙古和宁夏回族自治区,属干旱半干旱区,是黄河沿岸的冲积平原,面积约2.50×104 km2。地势平坦,依靠黄河水自流灌溉,盛产小麦、玉米、高粱等,是中国重要的农业区和商品粮基地。然而,灌溉水渗漏抬升地下水位,导致土壤盐碱化加剧,肥力下降。本研究采样点涵盖9个典型示范区(图1)。

(1) 吴忠市红寺堡区。属中温带干旱气候区,该区多年平均蒸发量为2 387 mm,是降水量的9倍。农田灌溉多采用大水漫灌方式,加之排水不畅,导致地下水位上升,次生盐碱化现象明显。

(2) 银川市兴庆区。属西北内陆温带干旱气候区,农田排水系统较好,土壤盐碱化程度较轻,但地处黄河沿岸,导致地下水位偏高。

(3) 平罗县。属温带干旱荒漠气候区,降水分布不均,蒸发强度大。盐碱地主要分布在前进农场、西大滩、宝丰镇和交济村。地势整体平缓低洼,灌溉条件良好但排水不畅,农田排水沟深1.5~1.8 m,接近地下水位。

(4) 惠农区。属西北内陆温带干旱气候区,该地区地处灌区下游,是上游排水排盐的聚集区,同时,受黄河水顶托作用,导致排水不畅,多为重度盐碱地。

(5) 内蒙古杭锦后旗和五原县。属中温带大陆性季风气候,海拔高度1 000~1 800 m,地势由南向北倾斜,蒸降比接近10∶1,土壤类型主要有淡栗钙土、灌淤土、潮土和盐化土等盐碱化程度高,pH值平均8.55。

1.2 高光谱数据采集与处理

样品采集均在春灌之前进行,采样前利用ArcGIS 10.8布设采样网格。具体采样时间为2022年3月中旬至4月上旬,在宁夏的红寺堡区、兴庆区、前进农场、宝丰镇、交济村及西大滩等6个示范区完成采集任务;2023年3月下旬至4月上旬,则分别在宁夏惠农区以及内蒙古五原县和杭锦后旗的3个示范区开展了样品采集工作。

高光谱数据由ASD FieldSpec 4地物光谱仪(350~2 500 nm)获取,测量安排在晴朗、无风的10:00—14:00进行。每个样点先进行白板校准,随后采集5条光谱曲线,取均值作为代表光谱。数据经ViewSpec Pro处理并导出,为减少噪声干扰,剔除350~499 nm及2 401~2 500 nm波段。

1.3 土壤样品采集与指标测定

为确保土壤样品具有代表性,每个样点以高光谱测定点为中心,在直径1 m范围内采用五点采样法采集表层土(0—20 cm),将采集的土样充分混合后,取约500 g均匀样品,装入洁净自封袋中,密封保存以备后续试验分析。9个示范区采集有效样品共计383份。将土壤样品带回实验室,首先取部分样品采用烘干法测定SMC,剩余样品风干、过筛后,采用外加热重铬酸钾法测定SOMC。

1.4 光谱变换

分数阶微分(FOD)通过灵活调整微分阶数,有效增强高光谱数据中的关键信息特征。相比传统的整数阶微分方法,FOD在提升光谱特征敏感性的同时,能够更有效地抑制噪声,并增强光谱曲线的平滑性与分辨能力19。目前常用的FOD计算方法主要包括Caputo, Riemann-Liouville和Grünwald-Letnikov(G-L)3种形式。本研究基于G-L定义采用公式(1)在MATLAB R2023 b软件中编程实现FOD变换,具体步骤如下:

首先对400~2 400 nm间的原始高光谱数据采用Savitzky-Golay(SG)9点平滑进行预处理,为降低光谱波段间的共线性,以10 nm为间隔对数据进行重采样,最终获得201个波段,然后对重采样后的光谱数据进行0~2阶(间隔0.25)的FOD变换,最后,基于不同阶数的FOD光谱构建多种光谱指数,并分别计算其与SMC及SOMC之间的相关性,从中筛选出最优波段组合与光谱指数。

dαfxdxαfx+-αfx-1+-α-α+12fx-2++Г-α+1n!Г-α+n+1fx-n

式中:x为自变量;α为阶数,α=0.0表示原始光谱,α=1.0表示一阶微分,α=2.0则表示二阶微分。

1.5 光谱指数

光谱指数是通过对不同波段反射率进行数学组合运算,用于提取物体的光谱特征信息。其原理基于不同物质对电磁波的反射、吸收和散射特性差异,结合特定波段选择,能够有效地增强目标物质的光谱特征。不同类型的光谱指数通过选择适当的波段组合,利用反射率差异,能够有效地表征土壤特性20

本研究基于FOD变换后的光谱反射率构建差值指数(difference index, DI);乘积指数(product index, PI);比值指数(ratio index, RI);加和指数(sum index, SI);广义差异指数(generalized difference index, GDI);最优光谱指数(optimal spectral index, OSI);土壤调节光谱指数(soil-adjusted spectral index, SASI)和氮平面域指数(nitrogen planar domain index, NPDI)。这些光谱指数的构建充分考虑了不同土壤属性的光谱响应特性,旨在提高SMC和SOMC的估算精度。光谱指数构建公式见表1

1.6 建模方法与评价

1.6.1 建模方法

偏最小二乘回归(PLSR)是一种典型的线性降维回归方法,适用于特征维度高、变量间存在多重共线性的情况。该方法通过将自变量矩阵X和因变量矩阵Y同时投影到一组新的潜在变量上,构建回归模型,其核心思想是最大化XY的协方差7。其建模过程可表示为:

X=T · PT+E,       Y=T · QT+F

式中:T为得分矩阵,PQ分别为载荷矩阵,EF为残差项。最终预测通过回归系数矩阵实现:

Y^=X · B

潜变量个数通过交叉验证选择,以最小化验证集上的均方根误差(RMSE)。

支持向量机(SVM)是一种基于统计学习理论的非线性回归方法,具有良好的泛化能力。采用径向基函数(radial basis function, RBF)作为核函数7,其形式为:

KXi,Yj=exp (-γXi-Yj2

式中:γ为核参数,控制样本之间的影响范围。SVM回归的目标是构建一个对训练数据拟合良好且对未知样本具有强泛化能力的函数f(x),其优化目标为最小化以下目标函数:

minω,b,ε,ε* 12ω2+Ci=1nεi+εi*

约束条件为:

yi-ω  φxi+bε+εiω  φxi+b-yiε+εiεi,εi*0

式中:C为惩罚系数; φxi为非线性映射函数; ε为不敏感损失函数的宽度。模型参数Cγ通过网格搜索(grid search)结合交叉验证优化,以RMSE最小为准则选择最优组合。

随机森林(RF)是一种基于决策树的集成学习算法,采用Bootstrap自助采样法生成多个训练子集,并在每棵树的分裂过程中随机选择部分特征参与建模,从而提高模型的多样性与泛化能力。最终预测结果为所有树输出的平均值21

y^=1Tt=1Tht(x)

式中:htx为每棵回归树的预测结果; T为总树数。每棵树的生成过程中,特征选择采用随机子集策略(通常为p,其中p为总特征数),以降低模型的方差并增强鲁棒性。

本研究将整体数据采用5折交叉验证法划分为70%用于训练集,30%用于验证集。模型建立及数据划分通过Python环境在Pycharm中编程实现。

1.6.2 精度评价

模型精度通过建模决定系数(Rc2)、验证决定系数(Rp2)、均方根误差(RMSE)和相对分析误差(RPD)综合评估。其中,R2越接近1,RMSE越小,表明模型性能越优。RPD用于判断预测能力,划分如下:RPD≤1.4表示预测效果较差,1.4<RPD≤2.0为一般水平,2.0<RPD≤2.5表示预测较好,RPD > 2.5说明模型预测效果优秀22

1.7 夏普利加性解释

夏普利加性解释(SHAP)是基于博弈论的模型解释方法,旨在为复杂的机器学习模型提供全局和局部的可解释性。SHAP通过计算每个特征在给定预测中的贡献来帮助理解模型的决策过程。该方法的核心思想来源于博弈论中的夏普利值(Shapley value),其本质上是对每个特征“边际贡献”的度量23。以上过程基于Python环境,通过PyCharm软件调用shap库中的TreeExplainer类对最佳模型进行解释,夏普利值计算公式如下:

ϕiƒ=SSxiS!n-S-(1)!n!         ƒ(Sxi)-ƒ(S)

式中:ϕiƒ为特征xi的夏普利值; ƒ(S)为给定特征集合S时模型的预测值; S为子集S中特征的数量; n为特征的总数量。

2 结果与分析

2.1 土壤水分和有机质含量描述性统计特征

研究区SMC和SOMC描述性统计结果见表2。SMC为2.11%~37.60%,平均值为17.81%,变异系数为35.83%,表明SMC在空间上变异程度较高。SOMC为2.24~23.68 g/kg,平均值为9.39 g/kg,其中SOMC低于20 g/kg样品占比达到99.22%,表明整体SOMC水平偏低,变异系数为43.45%,表明SOMC的空间变异性较高。

为直观呈现不同数据集中样本分布的统计特征,绘制了训练集与验证集对应的小提琴图(图2)。由图2可知,SMC和SOMC在总样本集、训练集和验证集中的分布较为一致,且均值和标准差变化不大,表明数据划分科学合理,具备较高的代表性。

在SMC和SOMC的分布上,各子集的均值和标准差相对稳定,变异系数变化较小,进一步表明数据集划分没有引入显著的偏差。SMC样本总集、训练集和验证集均值分别为17.81%,17.82%和17.79%(图2a),而SOMC对应数据集均值分别为9.39 g/kg,9.40 g/kg,9.36 g/kg (图2b)。表明训练集和验证集能够有效代表整个数据集的分布特征,确保了模型训练和评估的科学性与稳定性。

2.2 不同等级土壤水分和有机质含量光谱曲线变化特征

依据5%为间隔和全国第二次土壤普查SOMC分级标准对SMC和SOMC进行等级划分,并将各等级光谱数据进行平均化(图3)。由图3a可知,随着SMC从<5%增加到35%~40%,整体光谱反射率逐渐降低,尤其在近红外(800~1 300 nm)和短波红外(1 300~2 400 nm)波段,这主要归因于水分吸收效应的增强,导致在1 400,1 900,2 200 nm波段形成显著吸收峰,吸收深度随水分含量的增加而加深。同时,低水分含量的土壤光谱表现出更高的反射率和明显的纹理特征。同样地,图3b表明随SOMC的增加(<6 g/kg到 20~30 g/kg)整体光谱反射率逐渐下降,尤其在近红外(900~1 300 nm)和短波红外(2 000 nm附近)波段表现明显,反映出有机质中羰基(C=O)或羟基(OH)基团的吸收特征。高SOMC(>20 g/kg)的土壤光谱吸收特征更为显著,而低SOMC(<6 g/kg)则表现出较高的反射率。

2.3 分数阶微分变换后的光谱曲线变化特征

图4中显示了高光谱反射率经不同微分阶数变换过程光谱曲线的变化特征。从0阶即原始光谱可以看出,反射率曲线整体平滑,主要反映目标物体的固有光谱特征,曲线细节变化较少。随着阶数从0.25逐渐增加至0.75阶,光谱曲线的细节特征逐渐显现,特别是在波峰与波谷附近的变化更为明显,但整体曲线仍保持一定的平滑性,此阶段经微分变换有效增强了光谱特征的梯度信息,适用于提取低频特征。从1.0阶开始,波峰和波谷的振荡显著增强,波形变化更加清晰,有助于区分相邻波段间的差异,但同时可能放大光谱中的噪声。进一步提高阶数至1.25阶至1.75阶后,高频振荡特征愈发明显,曲线的平滑性减弱,信号中的细微变化被进一步放大,但噪声也随之增加。最终在2.0阶高阶整数微分时,光谱曲线表现出较大幅度的高频振荡,信噪比显著下降。

2.4 土壤水分和有机质含量对应光谱指数及其二维相关性

基于1.25阶微分变换后的光谱反射率与SMC和SOMC间构建的光谱指数相关性最强,两种属性与各光谱指数以及对应最优波段组合结果见表3。可以看出,SMC与GDI表现出最高的相关性,最大相关系数绝对值(maximum absolute correction coefficient, MACC)为0.505 4,最优波段组合为(1 190,1 550 nm)。其次,OSI和DI的相关性也较高,分别为0.503 9和 0.501 4。而RI的相关性最低,MACC仅为0.457 3,说明其在水分含量监测中的效果相对较弱。对于SOMC的相关性分析,OSI在所有光谱指数中表现最优,MACC达到0.682 5,其最优波段组合为(1 990,1 610 nm)。此外,SASI和SI的相关性也较高,分别为0.671 2和 0.586 3。而PI的相关性较低,MACC值为0.592 2。从波段组合来看,短波红外区域的波段(如1 190,1 550 nm)与SMC和SOMC的相关性中表现突出。此外,近红外和可见光波段(如810 nm)也在SOMC的敏感性分析中起到重要作用。

图5为SMC与各光谱指数间的二维相关矩阵热图。由图5可知,各光谱指数与SMC的相关性具有显著的波段依赖性,其中在中红外波段(1 400,1 900 nm附近)表现出较强的正负相关性,而在短波长区域(400~1 000 nm)相关性较弱,多呈现绿色或浅蓝色,表明短波长波段对SMC的敏感性较低。具体而言,DI, SI和GDI在1 400,1 900 nm等关键水分吸收带附近具有显著相关性,反映了其对水分特征的良好响应;RI和SASI在中红外范围内表现出较高的正负相关性,而PI和OSI的相关性分布则较为复杂,表现为高频振荡。此外,NPDI在短波长(500~800 nm)和中红外波段(1 400,1 900 nm)均表现出较高相关性,体现出其对SMC特征的有效捕获能力。

图6为SOMC与各光谱指数间的二维相关矩阵热图。各光谱指数与SOMC在中红外波段(1 600~2 400 nm)和近红外波段(800~1 300 nm)表现出较高的相关性。DI和GDI在近红外波段与SOM表现出较强的正相关,而在中红外波段,负相关显著增强。RI和OSI则在近红外与中红外波段均表现出正负交替的分布,表明其构建机制对波段间比值关系的敏感性较强。PI和SASI在短波长(400~700 nm)与中红外波段的相关性较低,多呈现绿色或浅蓝色区域。此外,SI和NPDI在中红外波段相关性显著增强,表明它们对SOMC吸收特征的捕捉能力较强,其中NPDI的相关性在多个波段交替出现高相关性区间。总体来看,8种光谱指数在不同波段对SOMC的响应特性差异显著。

2.5 模型的建立与验证

表4为基于1.25阶微分变换联合光谱指数的SMC和SOMC建模结果。相比于PLSR和SVM, RF模型表现出显著的优势。

在SMC建模中,RF的验证集拟合优度R2达到0.734,RMSE最小为3.28,相对分析误差(RPD)为2.07,达到有效预测水平(RPD>2.0),而PLSR和SVM的R2分别为0.248和 0.212,RPD均低于2.0,预测能力有限。

在SOMC建模中,RF模型的验证集R2高达0.870,RMSE为 1.53,RPD达到2.43,同样优于PLSR和SVM,后两者的R2分别为0.322和0.369,RPD均为1.12,未达到有效预测水平。综合来看,RF模型能够更好地处理光谱指数与SMC和SOMC间的非线性关系,其鲁棒性和对复杂特征的适应性使其在SMC和SOMC建模中表现最优。

2.6 模型可视化解释

基于SHAP值的全局解释结果揭示了SMC和SOMC预测模型中不同变量的贡献度(图7)。在SMC模型中,NPDI以最高SHAP值对模型输出贡献最大,贡献度占比达34.29%。其次,OSI和DI贡献度分别占20%和14.29%,而RI和GDI等变量则对模型提供了补充信息。在SOMC模型中,RI贡献度最高,占比23.20%,表明其敏感地捕捉了有机质深色特性及其光谱响应机制,GDI和NPDI分别以20.62%和18.04%的贡献度紧随其后。整体来看,SMC和SOMC估算主导变量的差异反映了两种土壤属性光谱响应机理的不同,其中SMC的主导变量主要与吸收和散射路径变化相关,而SOMC的主导变量则与其深色特性及特定波段吸收能力密切相关。该结果从全局视角明确了变量重要性和光谱机理关系,不仅验证了模型构建的科学性,也为土壤属性精准预测和模型优化提供了理论依据与技术支持。

2.7 数字土壤制图

基于SMC实测值和1.25阶-RF模型预测值,利用IDW进行空间插值(图8)。从SMC实测值(8A)与预测值(8B)的空间分布对比可以看出,RF模型整体上能够较好地反映不同区域SMC的分布趋势,尤其在红寺堡、前进农场和西大滩等区域,高、低水分区域的分布位置较为一致。然而,部分区域如兴庆和交济,实测值与预测值在局部存在一定偏差,表现为高值低估和低值高估现象,但该现象仅在小范围区域存在。总体来看,RF模型在捕捉高、低水分极端值方面表现良好,且模型具有较高的预测性能和稳定性。

图9为基于实测SOMC(9A)和1.25阶-RF模型预测值(9B)的空间插值分布结果。整体来看,RF模型整体上较好地反映了各区域SOMC的空间分布趋势,特别是在红寺堡、前进农场和西大滩等区域,高值区与低值区的分布位置基本吻合。然而,在兴庆、交济和杭锦后旗等区域,实测值与预测值在局部高值或低值的空间位置上存在一定差异,部分区域的预测值在高值区略低于实测值。而惠农和交济在低值区的分布位置表现出较好的一致性,但模型对部分中值区域的空间过渡特征描述略显平滑。

3 讨 论

3.1 分数阶微分和光谱指数与目标变量的适用性差异

高光谱遥感在土壤属性估算中的应用已得到广泛证实,而FOD作为光谱变换的新方法,在突出特征光谱信息方面显示出优良潜力。整数阶微分在增强光谱特征的同时,引入高频噪声可能性较大7。FOD可以灵活调整阶数,兼顾光谱数据的高频和低频信息,从而实现光谱特征的平滑提取和噪声抑制。但也有研究表明经一阶微分变换对SOMC建立的SVM模型反演精度最高24。本研究通过比较不同阶数的变换效果发现1.25阶微分变换对增强SMC和SOMC相关光谱特征更有效,这与在江汉平原SOMC估算中得出的结论高度一致25。这表明在不同研究地区,SOMC在光谱中的体现在本质上具有相似性。而Liu Ya等26表明0.8阶微分变换对SOMC估算效果最佳。Ge Xiangyu等27则发现0.8阶变换驱动的模型对土壤盐分展示出最佳估算效果。更有研究发现1.5阶微分变换对SMC的预测效果最佳28。因此,不同地区不同土壤属性甚至相同类型地区相同土壤属性对应的最佳微分变换仍存在差异。原因在于不同地区的土壤类型、矿物质组成等因素不同,进而影响到光谱信号的反射特征,因此最佳微分结果存在差异。此外,气候条件对土壤的物理化学特性和光谱响应也会产生影响,从而进一步影响了最佳微分阶数的选择29。光谱指数通过特定波段的组合反映目标参数的物理或化学特性。本研究发现GDI和OSI分别与SMC和SOMC间相关性最强。SMC主要通过影响近红外区域的吸收特性而表现出显著的光谱响应,而SOMC则通过其对光谱信号的散射作用在可见光和近红外区域形成独有的特征波段30。GDI通过反射率差异突出水分变化特征,而OSI通过加权组合波段反射率强化了SOMC的光谱响应31

3.2 不同建模方法对土壤属性估算性能的差异分析

本研究发现RF算法在SMC和SOMC估算中的表现显著优于PLSR和SVM,这一结果既与模型自身的特性有关,也与土壤属性的光谱响应机制密切相关。PLSR作为一种线性回归方法,其建模能力依赖于目标变量与光谱特征之间的线性关系。而在复杂的土壤系统中,目标属性与光谱信号之间的关系通常是非线性的。如SOMC通过其对光谱散射的影响表现出复杂的多峰特征,而PLSR模型由于其线性假设的局限性,难以有效捕捉这一特征。刘英等32在矿区开展的SMC预测研究中,建立的PLSR模型R2达到0.640,该结果远高于本研究PLSR模型精度。原因主要源于研究区域的土壤特性和光谱响应之间的差异。首先,矿区的土壤可能相对均质,光谱特征较为一致,因此PLSR模型在矿区的SMC预测中取得较好结果。而在盐碱化农田,土壤盐碱性的空间异质性导致光谱响应更加复杂,且土壤的物理化学性质可能导致光谱特征的高度变异。此外,矿区和农田的土壤样本数量、空间分布和采样密度也可能不同,进而影响模型的泛化能力和预测精度。SVM尽管通过核函数的引入一定程度上能够表征非线性关系,但其建模过程对核函数的选择和参数优化高度敏感,且在高维特征空间中容易出现过拟合或计算效率降低的问题33,导致其在本研究中的表现一般。相比之下,RF模型通过随机抽样和决策树的集成结构,能够在不依赖特定数据分布假设的情况下,捕捉光谱变量与目标属性之间的非线性交互关系,从而在高维光谱数据建模中表现出明显的优势34

3.3 SHAP值分析揭示变量的贡献与变量优选建议

本研究基于SHAP值分析揭示了不同光谱指数在SMC和SOMC预测中的贡献存在的差异性。具体而言,NPDI,OSI和DI在SMC的估算中贡献度明显高于其他指数,而在SOMC预测中,RI, NPDI和GDI的贡献度则更加突出。这一结果不仅揭示了不同土壤属性对光谱指数的依赖模式的多样性,还反映出土壤属性与光谱特征之间潜在的非线性关系与高度复杂的交互作用。进一步的分析表明,尽管SMC和SOMC分别与GDI和OSI之间的相关性最强,但SHAP值的分布却揭示了这些变量对具体样本的实际贡献并不完全一致。意味着单纯的相关性强并不等同于变量在模型中的贡献度高。GDI在SMC较高区域可能受限于其他表面特征,而在SOMC预测中,光谱特征可能受到更多的非线性因素干扰,如SOMC分解程度、土壤类型及其微生物活动变化等。因此,在特定样本或区域中,相关性较强的变量可能因其信号表达的复杂性或受其他因素的调节而对模型贡献度较低。

基于以上结论,在实际应用中,应将相关性分析作为特征预筛选工具,而将SHAP或其他模型内部重要性度量方法作为核心建模变量筛选手段。此外,针对光谱变量间高度共线的特性,建议结合特征降维与嵌入式选择方法,提升模型稳定性与泛化能力。这一发现强调了变量选择时不应仅依赖于相关性的强弱来判断变量的贡献度,而要结合变量与目标属性之间潜在的机制性联系以及其在不同环境背景下的表现。因此,未来研究应进一步探讨土壤属性估算中的复杂性,特别是在土壤类型和地理环境异质性影响下,如何更加精准地选取与目标属性最相关的特征,以提升模型的泛化能力和预测精度。

4 结 论

本文采用FOD(步长0.25)对原始高光谱数据进行变换,并基于不同阶次微分变换后的光谱数据构建8种光谱指数,依据各光谱指数与SMC和SOMC间的相关性来筛选最佳变量,基于PLSR,SVM和RF算法构建SMC和SOMC估算模型,得到以下结论。

(1) 河套平原平均SMC为17.81%,但SOMC平均值为9.39 g/kg,整体水平较低。光谱数据经1.25阶微分变换构建的光谱指数与SMC和SOMC间相关性最强,其中,SMC和SOMC分别与GDI和OSI间相关性最强,MACC分别为0.505 4和0.682 5。

(2) RF模型对SMC和SOMC预测效果最优,SVM次之,PLSR效果最差, SMC和SOMC-RF模型R2分别为0.734和0.870,RF模型较其他2种方法更适于干旱地区盐碱农田SMC和SOMC的估算。

(3) SHAP结果表明,NPDI,OSI和DI是SMC建模估算的最佳光谱指数,而SOMC最佳估算光谱指数分别为RI, GDI和NPDI。与SMC和SOMC相关性最强的光谱指数对2种属性的建模估算贡献均不是最高。NPDI,OSI,RI和DI是盐碱化SMC和SOMC建模估算的最佳光谱指数变量。

参考文献

[1]

陆宝金,田生昌,左忠,.盐渍化土地可持续利用研究综述及展望[J].宁夏大学学报(自然科学版)202344(1):79-88.

[2]

Lu BaojinTian ShengchangZuo Zhonget al. Review and prospect on sustainable utilization of salinized land [J]. Journal of Ningxia University (Natural Science Edition)202344(1):79-88.

[3]

丁启东,王怡婧,张俊华,.利用CARS算法联合协变量估算盐碱农田土壤水分和有机质含量[J].应用生态学报202435(5):1321-1330.

[4]

Ding QidongWang YijingZhang Junhuaet al. Estimation of soil moisture and organic matter content in saline alkali farmland by using CARS algorithm combined with covariates [J]. Chinese Journal of Applied Ecology202435(5):1321-1330.

[5]

Geng JingTan QiuyuanLv Junweiet al. Assessing spatial variations in soil organic carbon and C:N ratio in northeast China’s black soil region:Insights from Landsat-9 satellite and crop growth information [J]. Soil and Tillage Research2024235:105897.

[6]

Zhao MingsongGao YingfengLu Yuanyuanet al. Hyperspectral modeling of soil organic matter based on characteristic wavelength in East China [J]. Sustainability202214(14):8455.

[7]

丁启东,王怡婧,张俊华,.基于高光谱信息的宁夏土壤有机质含量估算[J].生态学杂志202443(8):2531-2538.

[8]

Ding QidongWang YijingZhang Junhuaet al. Estimation of soil organic matter content in Ningxia based on hyperspectral information [J]. Chinese Journal of Ecology202443(8):2531-2538.

[9]

李嘉琦,冯宇华,陈署晃,.基于高光谱的土壤有机质及全氮估测[J].新疆农业科学202461(10):2491-2499.

[10]

Li JiaqiFeng YuhuaChen Shuhuanget al. Estimation of soil organic matter and total nitrogen based on hyperspectral technology [J]. Xinjiang Agricultural Sciences202461(10):2491-2499.

[11]

丁启东,王怡婧,张俊华,.基于高光谱信息的宁夏引黄灌区中低产田土壤水分和有机质含量估算[J].应用生态学报202334(11):3011-3020.

[12]

Ding QidongWang YijingZhang Junhuaet al. Estimation of soil water and organic matter content in medium and low yield fields of Ningxia Yellow River irrigation area based on hyperspectral information [J]. Chinese Journal of Applied Ecology202334(11):3011-3020.

[13]

尚天浩,陈睿华,张俊华,.基于分数阶微分联合光谱指数估算银川平原土壤有机质含量[J].应用生态学报202334(3):717-725.

[14]

Shang TianhaoChen RuihuaZhang Junhuaet al. Estimation of soil organic matter content in Yinchuan Plain based on fractional derivative combined with spectral indices [J]. Chinese Journal of Applied Ecology202334(3):717-725.

[15]

王怡婧,陈睿华,张俊华,.基于分数阶微分技术的土壤水盐信息高光谱反演[J].应用生态学报202334(5):1384-1394.

[16]

Wang YijingChen RuihuaZhang Junhuaet al. Hyperspectral inversion of soil water and salt information based on fractional order derivative technology [J]. Chinese Journal of Applied Ecology202334(5):1384-1394.

[17]

Ben Abbes AJarray NFarah I R. Advances in remote sensing based soil moisture retrieval:Applications, techniques, scales and challenges for combining machine learning and physical models [J]. Artificial Intelligence Review202457(9):224.

[18]

仇皓雷,王海燕.机器学习在土壤性质预测研究中的应用进展[J].生态学杂志202544(1):283-294.

[19]

Qiu HaoleiWang Haiyan. Application of machine learning to the prediction of soil properties: A review [J]. Chinese Journal of Ecology202544(1):283-294.

[20]

李天乐,赵泉华,贾淑涵,.土壤有机质含量反演方法:土壤高光谱数据微分-瞬时频率变换[J].地球信息科学学报202426(7):1733-1744.

[21]

Li TianleZhao QuanhuaJia Shuhanet al. Soil organic matter content inversion methods: Differential-instantaneous frequency transform of soil hyperspectral data [J]. Journal of Geo-Information Science202426(7):1733-1744.

[22]

尚天浩,贾萍萍,孙媛,.宁夏银北地区盐碱化土壤水分光谱特征及模型拟合精度分析[J].水土保持通报202040(4):183-189.

[23]

Shang TianhaoJia PingpingSun Yuanet al. Spectral characteristics of soil moisture in salinized soil and model fitting accuracy in northern Yinchua City, Ningxia Hui Autonomous Region [J]. Bulletin of Soil and Water Conservation202040(4):183-189.

[24]

李武耀,买买提·沙吾提,买合木提·巴拉提.基于分数阶微分的土壤有机质含量高光谱反演研究[J].激光与光电子学进展202360(7):404-411.

[25]

Li WuyaoSawut MamatBalati Maihemuti. Fractional differential-based hyperspectral inversion of soil organic matter content [J]. Laser & Optoelectronics Progress202360(7):404-411.

[26]

Rohmer JBelbeze SGuyonnet D. Insights into the prediction uncertainty of machine-learning-based digital soil mapping through a local attribution approach [J]. Soil202410(2):679-697.

[27]

Pan MengyaoXia BishengHuang Wenboet al. PM2.5 concentration prediction model based on random forest and SHAP [J]. International Journal of Pattern Recognition and Artificial Intelligence202438(5):2452012.

[28]

叶淼,朱琳,刘旭东,.基于连续小波变换、SHAP和XGBoost的土壤有机质含量高光谱反演[J].环境科学202445(4):2280-2291.

[29]

Ye MiaoZhu LinLiu Xudonget al. Hyperspectral inversion of soil organic matter content based on continuous wavelet transform, SHAP, and XGBoost [J]. Environmental Science202445(4):2280-2291.

[30]

付平凡,杨晓静,苏志诚,.基于集成学习的土壤含水量预测研究:以辽西地区为例[J].土壤202355(3):671-681.

[31]

Fu PingfanYang XiaojingSu Zhichenget al. Prediction of soil moisture content based on ensemble learning: A case study of western Liaoning Province [J]. Soils202355(3):671-681.

[32]

Lao CongcongChen JunyingZhang Zhitaoet al. Predicting the contents of soil salt and major water-soluble ions with fractional-order derivative spectral indices and variable selection [J]. Computers and Electronics in Agriculture2021182:106031.

[33]

Dharumarajan SLalitha MKalaiselvi Bet al. Remote sensing of soils:Spectral signatures and spectral indices [M]. Remote Sensing of Soils2024.

[34]

施光耀,杨思琪,张劲松,.基于机器学习算法的高海拔地区臭氧影响因素重要性分析[J].宁夏大学学报(自然科学版)202445(2):196-202.

[35]

Shi GuangyaoYang SiqiZhang Jinsonget al. Importance analysis of ozone influencing factors in high-altitude regions based on machine learning algorithms [J]. Journal of Ningxia University (Natural Science Edition)202445(2):196-202.

[36]

黄华雨,丁启东,张俊华,.基于地面高光谱的宁夏银北地区农田不同土层盐碱化信息反演[J].应用生态学报202435(11):3073-3084.

[37]

Huang HuayuDing QidongZhang Junhuaet al. Ground-based hyperspectral inversion of salinization and alkalinization of different soil layers in farmland in Yinbei area, Ningxia, China [J]. Chinese Journal of Applied Ecology202435(11):3073-3084.

[38]

Letif MBahar RMezouar N. The use of machine learning models and SHAP interaction values to predict the soil swelling index [J]. Periodica Polytechnica Civil Engineering202569(1):239-250.

[39]

侯化刚,王丹阳,马斯琦,.黄河三角洲不同盐渍度土壤有机质含量的高光谱预测研究[J].中国农业科学202356(10):1905-1919.

[40]

Hou HuagangWang DanyangMa Siqiet al. Hyperspectral prediction of organic matter in soils of different salinity levels in the Yellow River delta [J]. Scientia Agricultura Sinica202356(10):1905-1919.

[41]

Hong YongshengLiu YaolinChen Yiyunet al. Application of fractional-order derivative in the quantitative estimation of soil organic matter content through visible and near-infrared spectroscopy [J]. Geoderma2019337:758-769.

[42]

Liu YaZhang YuewenLu Huizhonget al. Application of fractional-order differential and ensemble learning to predict soil organic matter from hyperspectra [J]. Journal of Soils and Sediments202424(1):361-372.

[43]

Ge XiangyuDing JianliTeng Dexionget al. Exploring the capability of Gaofen-5 hyperspectral data for assessing soil salinity risks [J]. International Journal of Applied Earth Observation and Geoinformation2022112:102969.

[44]

Li WangyangXiang YouzhenLiu Xiaochiet al. Estimation of soil moisture content based on fractional differential and optimal spectral index [J]. Agronomy202414(1):184.

[45]

Yuan JingGao JichaoYu Boet al. Estimation of soil organic matter content based on spectral indices constructed by improved Hapke model [J]. Geoderma2024443:116823.

[46]

Wu DongqingLei LeiXie Meitinget al. High-performance metamaterial light absorption from visible to near-infrared assisted by anti-reflection coating [J]. Photonics202310(9):998.

[47]

Zhang XinleDong ChangLiu Huanjunet al. Methodology for regional soil organic matter prediction with spectroscopy: Optimal sample grouping, input variables, and prediction model [J]. Remote Sensing202416(3):565.

[48]

刘英,范凯旋,裴为豪,.基于PLSR和LSSVM模型的土壤水分高光谱反演[J].矿业安全与环保202451(5):147-153.

[49]

Liu YingFan KaixuanPei Weihaoet al. Hyperspectral inversion of soil moisture based on PLSR and LSSVM models [J]. Mining Safety & Environmental Protection202451(5):147-153.

[50]

陈睿华,尚天浩,张俊华,.不同光谱类型对银川平原土壤含盐量反演精度的影响与校正[J].应用生态学报202233(4):922-930.

[51]

Chen RuihuaShang TianhaoZhang Junhuaet al. Effects of different spectra types on the accuracy and correction of soil salt content inversion in Yinchuan Plain, China [J]. Chinese Journal of Applied Ecology202233(4):922-930.

[52]

Jia PingpingHe WeiHu Yiet al. Inversion of coastal cultivated soil salt content based on multi-source spectra and environmental variables [J]. Soil and Tillage Research2024241:106124.

基金资助

国家重点研发计划项目”河套平原盐碱农田水肥盐精准诊断与地力长效提升关键技术及产品研发”(2021YFD1900602)

国家自然科学基金项目“时空谱数据融合的宁蒙引黄灌区土壤盐碱化时空演变与风险评价”(42467036)

宁夏科技创新领军人才项目(2022GKLRLX02)

AI Summary AI Mindmap
PDF (6513KB)

154

访问

0

被引

详细

导航
相关文章

AI思维导图

/