土壤风蚀是风力作用导致表土物质脱离原位置的过程,其发生与发展受风力、土壤及地表粗糙元等因子影响。土壤风蚀可蚀性指风蚀过程中土壤对风力引起的剥离和搬运的敏感程度,是衡量区域土壤风蚀发生潜力的重要指标,也是土壤风蚀量准确评估和土壤风蚀防治技术研发的关键参数。作为表征土壤抵抗风力侵蚀能力的综合指标,土壤风蚀可蚀性受土壤颗粒组成、可蚀性颗粒含量、团聚体稳定性、有机质、碳酸钙等土壤理化性质影响
[1-3]。传统土壤风蚀可蚀性研究方法主要利用野外实地采样和室内分析,通过测定土壤理化性质表征土壤风蚀可蚀性,但随着土壤风蚀研究时空分辨率的提升,传统土壤可蚀性研究方法的局限性也愈发显现。首先,土壤风蚀可蚀性受土壤类型、地形、气候等多种自然因素和人类活动的影响而呈显著的空间异质性,而野外采集的有限样本点仅能反映野外调查区域及周边小范围的土壤风蚀可蚀性特征,难以代表调查区以外区域的土壤风蚀可蚀性。其次,土壤风蚀是随土壤风蚀过程、气候条件变化而变化的动态参数,而野外采样工作通常只能获取特定时刻的土壤风蚀特征,难以监测土壤风蚀不同时间尺度的变化。因此,为深入理解风蚀机制、提高风蚀模型预报精度、精准制定土壤风蚀防治措施,必须拓展面向区域的高时空分辨率土壤风蚀可蚀性研究方法。
近年来,随着遥感技术的不断进步,土壤粒径组成,土壤有机质、土壤碳酸钙等土壤理化性质在不同反射率区间内呈较大的光谱特征差异。作为影响土壤风蚀可蚀性的主要因素之一,土壤粒径组成对土壤光谱特征有着重要影响,不同土壤粒径在光谱特征中呈现明显差异。黏粒粒径细小,光谱曲线吸收特征明显,在可见光波段(400~700 nm)反射率较低,但在近红外波段(700~1 300 nm)和短波红外(1 300~2 500 nm)波段反射率较高
[4],组成黏粒的黏土矿物具有较高的水分吸附能力,在近红外边缘反射率出现一定下降
[5]。粉粒反射率介于黏粒与砂粒间,在可见光波段高于黏粒,但低于砂粒;受粒径和矿物组成的综合影响,其在红外波段反射率中等,吸收峰较弱且分散
[6],受土壤水分影响,粉粒在短波红外1 400、1 900 nm附近呈一定的吸收特征
[7-8]。砂粒主要由石英组成,含有硅酸盐、碳酸盐等矿物成分,砂粒光谱曲线较为平坦,无明显的吸收峰
[9-11],在可见光、近红外及短波红外区未呈明显吸收带,而在热红外区域其光谱特征具有一定波动
[12]。有机质作为土壤重要成分之一,在可见光波段(400~700 nm)反射率较低,尤其在蓝、绿波段呈较强吸收效应
[13],随着土壤有机质的增加光谱反射率呈下降趋势,尤其是在400~1 320 nm波段范围内,土壤有机质与光谱反射率呈明显负相关
[14-15]。土壤的光谱反射率明显随着碳酸钙质量分数的升高而升高
[16],由于碳酸钙的振动,土壤碳酸钙在可见光与近红外区域呈明显的吸收特征
[17],同时,在经过温度变化后的土壤碳酸钙光谱特征峰形基本不变,表明土壤碳酸钙的光谱特征较为稳定,受外界因素的影响较小
[18]。利用遥感技术估算土壤理化性质的研究为土壤风蚀可蚀性的遥感估算提供基础,使得获得较大空间尺度高时空分辨率的土壤风蚀可蚀性成为可能,但仍缺乏面向土壤风蚀研究的半干旱地区土壤可蚀性遥感估算研究。
目前,关于土壤属性制图建模的方式主要为线性建模与非线性建模
[19-20]。线性建模通过权重系数能够直接反映变量与目标变量间的关系
[21],同时,其模型参数较少,训练与计算速度较快,但线性模型难以捕捉复杂的非线性特征,且对异常值异常敏感,数据极值对估算建模影响较大,不利于模型的稳定性
[22-23],导致估算精度受限。随机森林
[24]、支持向量机
[25]、偏最小二乘法
[26]、BP神经网络
[27]等非线性模型可自动学习复杂的非线性关系,通过一定的数据训练,减小极端异常值对整体模型的稳定性影响
[28],结合投票或加权等多种集成方式显著增加估算精度。该方法为土壤风蚀可蚀性的空间估算与制图提供较好的方法支撑,可为土壤风蚀可蚀性遥感估算提供借鉴,但不同方法对土壤风蚀可蚀性遥感估算的精度影响仍需进一步评估。
综上所述,为克服传统土壤风蚀可蚀性研究方法难以满足当前土壤风蚀研究的需求,为建立适用于大尺度范围内高时空分辨率土壤风蚀可蚀性的遥感估算方法,本研究通过实地采集土壤样品,测定其理化性质并计算土壤风蚀可蚀性,结合Sentinel-2A多光谱遥感数据,分析土壤风蚀可蚀性与不同波段光谱特征间的响应关系,在此基础上,筛选出对土壤风蚀可蚀性具有敏感性的特征波段,评估4种机器学习回归方法在不同特征变量输入条件下的土壤风蚀可蚀性的遥感估算精度,以确定对土壤风蚀可蚀性遥感估算的最优模型及参数,研究结果可为实现高时空分辨率下的土壤风蚀动态监测提供新的方案与技术支撑。
1 材料与方法
1.1 研究区概况
研究区位于河北省张家口市康保县(41°25′24″~42°08′57″N,114°11′21″~114°55′57″E)(
图1),平均海拔1 450 m。该区域属温带大陆性季风气候,根据1991—2020年气象统计数据,康保县年平均降水量为345.9 mm,最大和最小年降水量分别为534.5、142.6 mm,7—9月降水占全年降水量的81.6%。年平均气温为2.5 ℃,最高气温为30.7 ℃,最低气温为-33.6 ℃,无霜期为92 d。多年平均蒸发量高达1 772.6 mm,常年主导风向为西北风,平均风速2.99 m/s,年平均大风日数为40 d。土壤以栗钙土为主,质地松散,抗侵蚀能力低。研究区土地类型主要为农田、草地及林地,其中农田作物类型以粮食作物为主、经济作物为辅,粮食作物主要为春小麦(spring wheat)、莜麦(wheat)、土豆(potato),在作物收获完成后习惯于在秋季或者早春时节对农田进行翻耕作业,该传统做法导致研究区内大面积的农田翻耕后裸露无遮挡,而恰逢冬春季节,坝上地区强风天气多发,在自然与人为等多种因素的影响下,该区域农田土壤风蚀问题尤为严重。同时,研究区位于中国北方风蚀区中部,是京津冀风沙源治理工程、首都水源涵养功能区和生态环境支撑区的核心区域,开展研究区土壤风蚀可蚀性研究对区域生态文明建设具有重要意义。
1.2 数据来源
1.2.1 野外样品采集与分析
根据前期调查,研究区播种普遍集中在5月下旬、6月上旬,为减少作物残茬、植被等因素对遥感影像中土壤光谱特征影响,于2020年5月下旬开展野外调查及采样工作,该时期农作物尚未播种,采样工作均在地表性质较为均一的较大裸露农田进行,采样点周围无林地、水体等遮挡与干扰,能够最大程度保留裸土的光谱信息,降低作物残茬等地表覆盖物等非土壤因素对遥感反射率的干扰。采样点设置于裸露农田内部,在10 m×10 m范围内随机采集3个平行样品,使用自制土壤取样器对裸露农田表层0~1 cm的土壤进行采集
[29],取样面积为0.16 m²,样品重量为1.0 kg,共采集38个样点。将野外采集的土壤样品带回实验室自然晾干,使用英国Malvern Instruments Ltd生产的Mastersizer 3000激光粒度分析仪进行粒度测定。依据乌登-温特沃思粒度分类标准进行土壤样品粒径统计分析。通过重铬酸钾-外加热法测定土壤样品有机质质量分数,土壤碳酸钙质量分数数据来自于世界土壤数据库(
https://gaez.fao.org/pages/hwsd),土壤粒度、有机质质量分数均取3个平行样的平均值。
1.2.2 遥感影像获取及预处理
研究所使用的遥感数据为欧洲航天局(ESA)哥白尼计划(Copernicus Programme)中的哨兵2号(Sentinel-2)卫星遥感数据,该卫星系统由Sentinel-2A和Sentinel-2B 2颗相同卫星组成,双星重访周期为5 d,共包含13个波段(B2、B3、B4、B8空间分辨率为10 m,B5、B6、B7、B8A、B10、B11空间分辨率为20 m,B1、B9、B10空间分辨率为60 m)。使用Google Earth Engine(GEE,
https://code.earthengine. google.com/)平台下载并处理数据,影像采集时间为2020年5月下旬,与地面采样时间匹配,云量为0.02,GEE平台已对Sentinel-2的L2A级数据完成辐射定标、大气校正、几何校正等预处理,在此基础上,对Sentinel-2A数据进行去云处理、影像拼接、矢量裁切等操作,同时,为保证遥感影像空间分辨率与农田数据空间分辨率保持一致(农田数据来自GEE平台的ESA/WorldCover/v100,空间分辨率为10 m),将Sentinel-2A中的B1、B5、B6、B7、B9、B10、B11、B12波段重采样至10 m分辨率,重采样过程基于GEE平台,采用最邻近插值法进行处理,该方法能够在空间尺度转换过程中保持原始像元的光谱反射值不变,从而避免对定量估算结果造成影响。
1.3 研究方法
1.3.1 土壤风蚀可蚀性计算
土壤风蚀可蚀性通常由土壤质地、土壤团聚体、有机质、土壤水分、土壤结皮及可蚀性颗粒质量分数等土壤理化性质决定,其评价指标与量化表达形式也存在多种,随着土壤风蚀模型的发展与完善,土壤风蚀可蚀性评价方法也由单因素量化评价指标逐步发展为多因素综合量化评价指标。本研究选用修正土壤风蚀模型
[30](RWEQ)的土壤可蚀性因子(EF)表征土壤风蚀可蚀性,该因子综合考虑土壤粒径组成、有机质、碳酸钙质量分数等重要土壤属性对土壤风蚀可蚀性的影响,并在河北坝上地区的土壤风蚀评估中得到广泛应用
[31]。EF的计算公式为:
式中:Sa为砂粒质量分数,%;Si为粉粒质量分数,%;Cl为黏粒质量分数,%;OM为有机质;CaCO3为碳酸钙质量分数,%。EF为无量纲的量,为0~1,EF越接近1,表示土壤越容易受到侵蚀;反之,EF越接近0,表示土壤对侵蚀的抵抗力越强。
1.3.2 估算模型选择
为全面评估不同建模方法在EF估算中的适用性,本次研究选用随机森林(RF)、支持向量机(SVM)、偏最小二乘法(PLSR)、BP神经网络(BPNN)4种建模方法用于EF的遥感估算。RF回归通过对特征的随机子集进行多个决策树训练,并将每棵决策树预测结果的平均值作为最后的预测结果,该方法不仅降低过拟合风险,还可显著增强模型的稳定性和泛化能力。在建模过程中选取的参数为决策树数量、最大树深度及最大叶子节点数。SVM回归是指在特征空间中寻找最优超平面,使多数样本点落在以超平面为中心的特定宽度“管道”内,通过最小化“管道”外样本点到“管道”的距离之和,有效减少超出误差范围的数据点对模型的影响,从而实现对复杂数据的精准预测。为提高模型的鲁棒性,选取惩罚系数与核函数类型作为模型的关键参数。PLSR回归通过将自变量与因变量投影到低维空间,提取出最能解释自变量与因变量之间的协方差,从而实现降维和回归的双重目的。在此模型中选取潜变量个数作为建模过程中的主要参数。BPNN回归由输入层、隐藏层、和输出层组成,并采用误差反向传播算法进行训练,最后通过不断调整权重和偏置,使模型输出结果接近期望值。主要参数包括隐藏层数、学习率及每层神经元个数。
RF与SVM作为主流的机器学习算法,具有良好的非线性建模能力和抗过拟合特性,常用于处理复杂遥感变量与土壤属性间的非线性关系;PLSR为经典的多元统计方法,能够有效降维并提取关键光谱特征,适用于小样本情况下的稳定建模;BPNN则具备较强的模式识别与自动学习能力,适合高维遥感数据建模。4种建模方式涵盖从线性统计模型到典型机器学习及基础神经网络算法在内的多种建模方式。同时,通过将多个模型的估算结果进行对比,可有效减少单一算法在EF遥感估算中的偏差,增强EF遥感估算结果的稳定性与区域适用性。
1.3.3 特征波段筛选
为比较多光谱数据中不同波段特征及其数学变换形式与EF的关联程度,分别通过不同机器学习方法对多光谱数据不同波段的光谱反射率(ρ)、对数变换反射率(ln ρ)、倒数变换反射率(1/ρ)与EF进行特征重要性评估。本文选择的RF、SVM、PLSR、BPNN等4种回归模型在输入因子重要性评价中存在显著差异。RF通过构建多棵决策树对特征进行重要性评估,模型在训练过程中统计每个特征在所有决策树中作为分裂节点所导致基尼指数下降的总和,下降值越大,说明该特征在划分样本、提高估算精度中的贡献越显著,重要性越高;SVM特征重要性评估则采用权重法,通过比较各特征对应权重的绝对值大小,可实现特征的重要性排序,该方法具有清晰的数学解释,适用于线性划分问题,且在高维小样本条件下表现稳定;PLSR基于变量投影重要性对特征进行排序,变量投影重要性通过量化特征变量在建模过程中的参与度进行特征排序,参与度越大,重要性越高;BPNN选取Garson算法对输入的特征变量进行评估,该方法通过解析输入至输出间的权重路径,对每个输入变量在模型中的贡献进行量化,该方法可有效揭示神经网络内部对特征变量的响应机制,适用于复杂特征变量与土壤属性间非线性关系的建模与解释。
为实现不同模型间特征重要性排序结果的对比,将各模型计算所得的重要性评分进行归一化处理。特征重要性评分越接近1,说明该特征在模型中对预测结果影响更显著。根据特征重要性评分将光谱波段及其数字变换后的波段进行排序,并作为特征变量从高到低逐次输入估算模型。
1.3.4 模型验证与精度评估
为评估RF、SVM、PLSR、BPNN 4种回归模型对EF的估算精度,采用决定系数(R²)与均方根误差(RMSE)对拟合结果进行评估验证。同时,为提升估算模型的泛化能力与稳定性,选用K折交叉验证对各个估算模型的参数进行调优与筛选,避免因样本划分偏差导致的过拟合或欠拟合问题。
2 结果与分析
2.1 土壤理化性质与土壤风蚀可蚀性
研究区采样裸露农田土壤类型为壤质砂土、砂壤土和粉质壤土,其中砂壤土占比最高(
图2)。整体来看,因研究区土壤长期受风蚀影响,土壤质地粗化比较明显,土壤样品黏粒质量分数较低,平均为0.86%,粉粒与砂粒质量分数较高,平均分别为43.29%、56.06%。土壤样品有机质平均质量分数为1.98%,整体质量分数较低,碳酸钙的平均质量分数为5.79%。EF为0.52~0.94,平均值为0.71,变异系数为14.42%,表明研究区裸露农田表土风蚀可蚀性较高,抵抗土壤风蚀能力较差(
表1)。
2.2 不同风蚀可蚀性土壤的光谱特征
根据裸露农田表土样品的采样点坐标明确采样点所在的农田地块,提取对应农田地块在Sentinel-2A数据中的光谱特征,并将
ρ、ln
ρ及1/
ρ分别与EF进行皮尔逊相关性分析(
图3)。整体上,
ρ、ln
ρ及1/
ρ均呈较大的波动变化趋势,在B1~B2波段内,1/
ρ与ln
ρ呈平缓下降趋势,1/
ρ呈增加趋势,有机质在可见光波段具有较强的吸收特性,高有机质质量分数土壤在该波段通常表现为较低的反射率
[32],表明土壤样品在B1~B2波段内光谱信息主要受有机质质量分数影响。在B2~B7波段内,
ρ、ln
ρ随波长增加而增加,且增长速率较快,1/
ρ随波长增加而下降,下降速率较快,其主要原因为碳酸钙等矿物成分在近红外波段的特征吸收,导致光谱反射率随碳酸钙质量分数增加呈上升趋势
[33]。在B7~B8波段内,
ρ、ln
ρ及1/
ρ变化均较平稳;在B8~B12波段波长内,
ρ、ln
ρ及1/
ρ均呈显著波动变化趋势,
ρ及ln
ρ在B8~B10波段内呈陡降趋势,且在B10波段达到反射率最低值,在B10~B11波段波长内呈陡增趋势,且在B11波段达到反射率最高值,在B10~B12波段波长内呈平缓下降趋势,变化较为平缓;1/
ρ在B8~B10波段内呈陡增趋势,且在B10波段达到反射率最高值,在B10~B11波段内呈陡降趋势,且在B11达到最低值,在B10~B12波段内呈平缓上升趋势,表明B8~B12波段对土壤粒径具有较高敏感性。短波红外波段的光谱特征能够有效反映土壤结构的稳定性,与EF的空间分异特征密切相关。由
图3可知,B1、B2、B8、B10、B11波段的光谱反射率呈明显的波动变化,表明4个波段对土壤风蚀可蚀性的响应较为敏感,是EF估算的关键光谱窗口。
土壤样品不同光谱特征与EF相关性在不同波长范围内具有一定差异,ρ、ln ρ与EF在可见光B1~B3波段内呈正相关,相关系数逐渐降低;在近红外B4~B9波段内呈负相关,相关系数呈波动变化趋势;在短波红外B10~B12波段,相关系数呈下降后上升趋势,其中B11波段与EF的呈较大负相关,主要原因为B11波段与黏粒质量分数相关性较高,黏粒成分在土壤团聚体构成中起到胶结作用,可降低EF值;1/ρ与EF在B1~B3波段内呈负相关,相关系数逐渐上升,在B4~B9波段内呈正相关,相关系数呈波动变化趋势,在B10~B12波段相关系数呈先上升后下降趋势。土壤可蚀性的光谱特征明确Sentinel-2A数据在EF估算中的适用性,其中,B1、B2、B10、B11、B12波段因显著的相关性特征可作为主要特征波段,可见光-近红外波段组合可有效表征土壤有机质与碳酸钙的差异,而短波红外波段对黏粒的敏感性则为EF估算提供补充信息。
2.3 光谱特征重要性筛选
4种机器学习模型的特征重要性对比,揭示不同光谱变换方法对EF估算的影响(
图4)。在RF模型与PLSR模型中,倒数变换后的第B11波段和第B6波段对EF预测贡献最高;而在SVM模型与BPNN模型中,原始光谱的B10波段和B2波段重要性更为显著。倒数变换和对数变换光谱特征在前20个重要特征中占比达75%,其中,短波红外波段B11的倒数变换显著强化黏粒吸收特征,可见光-近红外波段B6的对数变换凸显碳酸钙的成分响应,表明光谱变换可有效增强模型对土壤理化特性的敏感性。研究进一步验证,光谱变换可增强黏粒吸收、有机质反射等波段的响应特征,能够克服原始光谱的信息冗余性,提升模型鲁棒性。不同机器学习模型对光谱特征的差异性筛选,表明利用机器学习估算EF可以综合利用光谱变换的优势,以实现区域尺度EF的高精度动态监测。
2.4 不同机器学习的土壤可蚀性估算
根据不同模型对光谱特征重要程度的筛选结果,将光谱特征变量按照重要性从大到小依次逐渐加入到RF、SVM、PLSR、BPNN等4种回归模型中。表明RF、SVM、PLSR和BPNN的
R²均呈前期迅速上升、后期逐渐稳定的两阶段变化特征(
图5)。RF在光谱特征数量达12 h,
R²达到最大值0.836,RMSE为0.041,后续
R²波动幅度<5%;SVM在光谱特征数量达到13 h,
R²达到最大值0.777,RMSE为0.048,后续
R²波动较小;PLSR在光谱特征数量达到17 h,
R²逐渐趋于稳定,在光谱特征数量增加至20 h,
R²达到最大值0.647;BPNN在光谱特征数量达到16 h,
R²趋于稳定,当光谱特征数量增加至17 h,
R²达到最大值0.515,RMSE为0.071(
图6)。整体上看,RF模型所需光谱特征数量最少,仅12个光谱特征即可达到较高拟合程度,且拟合结果与样品实测结果的偏差较小,SVM次之,当光谱特征数量较少的情况下,BPNN模型的拟合程度高于PLSR模型,但当光谱特征数量超过15 h,PLSR模型的拟合程度超过BPNN模型。
根据不同模型预测的EF与真实值比较结果,RF、PLSR、BPNN等模型在对EF进行预测时,预测值的极大值与极小值相对真实值均偏小;SVM模型中对于极小值预测偏大,极大值预测偏小。其主要由不同模型的算法特性所致,RF取多棵决策树的平均值作为最后结果,其集成策略使得极端值的影响变小;PLSR作为线性回归模型,受到数据正态分布的影响,对极值的拟合能力不足;BPNN在反向传播过程中,深层次的网络出现梯度指数级衰减现象,从而导致网络参数难以通过极值样本对预测值进行调整,导致极值预测值趋于均值化。
2.5 土壤风蚀可蚀性空间分布特征
基于不同机器学习估算模型对研究区裸露农田表土EF的估算结果(
图7),不同模型估算的EF主要为0.7~0.9(
图8),主要集中在研究区的中、南部,可达研究区农田面积的87%以上,其他可蚀性范围的面积相对较小。该结果与冯哲等
[34]在康保春季翻耕农田试验中获得的土壤可蚀度数据基本一致,同时与李玄姝等
[35]在康保地区观测到的翻耕农田总输沙量较大的研究结论相吻合,从侧面验证本研究EF估算结果的可靠性。
RF与BPNN估算结果显示,裸露农田EF值主要为0.7~0.8,该EF等级范围的农田面积分别为428.21、554.53 km²,分别约占农田面积的54%、70%,其他2种模型估算的该EF等级范围的农田面积相对较小。SVM与PLSR估算结果中,EF值主要集中在0.8~0.9,该EF等级范围农田面积分别为492.47、468.92 km²,分别约占农田面积的62.1%、59.2%(
表2)。RF与PLSR估算的EF为0.6~0.7的面积相对其他2种模型较高,但整体上,该EF等级范围农田面积不到研究区农田面积的11.5%,其他EF等级范围农田面积不足5%。整体上看,土壤风蚀可蚀性空间分布表明研究区裸露农田表土EF较高,整体上抵抗风力侵蚀的能力较弱。
本次研究中所采用的4种EF估算模型在研究区EF空间分布的估算中表现出较高一致性,但在局部区域的估算中仍存在一定差异,其差异主要源于实测EF值本身的空间差异性,以及不同估算模型在建模机理上的差别。首先,受研究区不同地区土壤粒径组成、有机质质量分数及碳酸钙质量分数等土壤属性空间差异影响,根据野外调查实测的EF值亦具有空间分布差异。同一地块不同位置的EF也并不相同,模型在训练过程中受到差异样本的影响,从而导致EF的空间估算结果产生差异。其次,各个估算模型的建模内核机理不同,是造成EF空间估算差异的主要原因。RF通过将多棵决策树的结果的平均值作为最终输出值,能够有效捕捉变量间复杂的非线性关系,建模过程中个别极值对整体估算的影响较小,因此,在整体EF的估算中较为稳定;SVM通过构建最大回归超平面进行建模,导致其对边界样本较为敏感,在EF极值部分估算时,结果更加集中;PLSR侧重于特征变量间的线性相关性,对于非线性关系和局部差异的捕捉能力较弱,且受样本数值分布影响较大,导致其在极值区域的拟合效果不足;BPNN通过学习输入层与输出层间复杂的非线性映射关系,能够有效捕捉数据中的细微特征变化,在局部区域的EF估算中表现出更稳定的效果。
3 讨 论
3.1 土壤风蚀可蚀性影响因子的光谱反映
利用遥感数据对EF的估算结果主要受土壤粒径组成、有机质、碳酸钙质量分数等因素的影响,土壤属性与光谱反射率间往往呈非线性的关系,原始反射率受到大气散射、土壤背景等多种因素的影响,导致原始光谱反射率集中在某一范围内,土壤属性光谱特征差异较小,直接基于原始光谱反射率建模效果有限。为减少外界因素对光谱的干扰,本研究将光谱反射率进行倒数变换、对数变换以增强EF估算过程中反射率低值区与高值区的敏感程度。由
图3可知,土壤样品的光谱及对数变换反射率在可见光波段范围呈上升趋势,在红外波段呈剧烈波动起伏,在B10波段达到最低,B11波段呈最高值,在短波红外波段呈下降趋势。光谱反射率的倒数变换在可见光波段范围内呈下降趋势,在红外波段B10与B11达到反射率最高值与最低值,在短波红外波段呈上升态势。
土壤可蚀性光谱特征与土壤属性具有密切关系。可见光波段反射率主要受到土壤有机质质量分数影响,土壤有机质质量分数与光谱反射率呈负相关,在400~600 nm土壤有机质质量分数与光谱反射率负相关性较小,但在400~900 nm,其负相关性显著增强,且随着波长增加,土壤有机质质量分数差异造成光谱反射率呈极高值与极低值的分化
[36]。由于碳酸钙中的氢氧离子的影响
[37],土壤碳酸钙光谱特征在近红外波段反射率明显高于可见光波段反射率
[38],土壤碳酸钙质量分数与光谱反射率呈明显正相关,且在近红外波段反射率增长速度明显高于可见光反射率增长速度,因此,
图3中B10~B11波段反射率增长速度明显高于B3~B8。作为土壤的重要属性,土壤质地对光谱特征影响明显,整体上,随着土壤粒径减小,光谱反射率呈明显上升态势,且在1 490、1 910、2 100 nm呈明显吸收谷,在可见光波段范围内,粒径大小对光谱反射率差异影响较小,在红外波段范围内,粒径差异越大导致的光谱反射率差异越大,且在短波红外波段范围内出现多个吸收带,主要是黏土中的碳酸矿物造成的
[39],因此,在本研究中在B10~B11波段反射率出现较大波动。在可见光波段范围内,黏粒、粉粒、砂粒光谱反射率差异较小,但随着波长增加,不同粒径土壤光谱反射率差异逐渐增大,粉粒在400~2 400 nm范围内反射率最高,砂粒在400~2 000 nm范围内反射率最低
[40],通过微分、倒数、平方根等数学变换可有效增强不同土壤粒径间的光谱特征差异
[41]。本研究采用倒数、对数变换方式与原始光谱反射率进行差异对比,提取表征EF的光谱特征,证明利用光谱反射率的数学变换在估算EF同样具有适用性。
3.2 机器学习对土壤风蚀可蚀性遥感估算的适用性
土壤属性与卫星遥感数据多呈非线性关系,作为土壤属性的综合指标,EF受土壤有机质、碳酸钙及土壤粒径组成等多种因素的影响,单纯依靠线性回归难以解决数据冗余、共线性等问题。对于受到多种风蚀因子影响的EF,线性模型的预测精度与泛化能力较差,难以满足未来高时空分辨率的土壤风蚀研究需求。与线性回归等传统方法相比,机器学习方法更能适应遥感数据源多样、维度高、冗余强的特点,在建模过程中较大程度捕捉土壤属性与遥感卫星间非线性特征。机器学习模型还具备较强的特征识别和变量选择能力,能够提升建模效率和可解释性。不同模型的特征重要性排序差异源于其算法原理的不同,RF通过多棵决策树进行平均集成对光谱倒数变换特征更加敏感;SVM通过核函数映射侧重原始光谱的线性特征;PLSR依赖协方差最大化原则捕捉线性相关特征;BPNN则通过反向传播优化权重,擅长挖掘特征间的复杂非线性关系。
本研究中基于特征重要性程度,将数学变换后特征变量依次输入回归模型进行估算建模。RF、SVM、PLSR、BPNN的内核原理的差异,导致不同回归模型在研究区裸露农田表土EF估算中呈一定差异性。RF回归模型通过对多棵决策树的结果进行平均集成,能够有效减少拟合结果的方差,对中值区的EF具有较强的拟合能力,但弱化样本中极大值与极小值的权重,降低极端值的预测精度;SVM回归模型通过核函数将数据映射到高维空间,对EF极大值与极小值预测精度相对较高;PLSR通过提取数据中的潜变量缩小EF高值的影响,导致预测的EF高值区域农田面积最小;BPNN受到隐藏节点对训练数据分布过度拟合的影响,导致模型对EF极大值的预测精度下降,导致预测的EF值高区农田面积较低。RF、SVM、PLSR、BPNN在预测EF极值中有一定的差异,但是对EF中间值预测结果类似,验证EF在0.7~0.9中值区间范围内估算结果鲁棒性。
3.3 土壤可蚀性估算的局限性分析及研究前景
本次研究主要针对康保裸露农田进行EF的估算,在野外采样调查中所选择的样本点为裸露农田,所使用的遥感数据也为农田播种前的翻耕时期获得的,以减少植被、作物残茬等外在因素对遥感光谱信息的干扰,从而获得更真实的土壤光谱信息并用EF估算。然而,在实际野外调查中,研究每年10月底至翌年5月底的风蚀易发生季节,农田地表并非完全裸露,往往有不同程度的作物残茬、杂草及砾石等地表覆盖物,覆盖物显著影响多光谱对土壤信息的响应,不利于EF估算中敏感波段的探寻,进而影响EF估算的准确性与区域适用性。因此,为准确获得干旱、半干旱地区风蚀季农田土壤风蚀可蚀性,需要剥离地表残留覆盖物对光谱信息的影响。与多光谱数据相比,高光谱遥感具有波段连续、光谱分辨率高等显著优势
[42],能够更细致地捕捉土壤理化性质在不同波段下的微弱光谱响应差异,尤其适用于提取土壤粒径组成、有机质质量分数、碳酸钙等关键影响因子的光谱特征,在未来农田土壤EF遥感估算研究中可引入高光谱数据,进一步提取EF影响因子的光谱特征,应注重高光谱与多光谱数据的融合应用,从而提高EF估算模型的稳定性与泛化能力。
4 结 论
1)以康保地区裸露农田为研究对象,基于Sentinel-2A多光谱遥感数据及实测EF样本,系统评估倒数、对数等光谱变换在EF估算的增强作用,识别出B1、B2、B8、B10、B11等波段在多种变换下对EF具有较高敏感性,是EF估算的特征波段。
2)RF、SVM、PLSR和BPNN等不同机器学习模型在特征数量和估算精度上具有明显差异,各模型估算精度随特征变量的增加而趋于稳定,RF模型可在较少特征变量输入情况下实现对EF较好估算,R²最高为0.836,RMSE为0.041。
3)不同模型估算的研究区EF空间分布存在显著差异,研究区农田风蚀可蚀性为0.7~0.9,占农田面积的87%以上,主要分布于研究区中、南部,表明研究区农田土壤整体抵抗风力侵蚀能力较差。