基于高分辨率遥感影像的土壤类型制图研究

芦倩 ,  赵维俊 ,  黄鑫

甘肃农业大学学报 ›› 2022, Vol. 57 ›› Issue (06) : 188 -197.

PDF (2655KB)
甘肃农业大学学报 ›› 2022, Vol. 57 ›› Issue (06) : 188 -197. DOI: 10.13432/j.cnki.jgsau.2022.06.022
林学·草业·资源与生态环境

基于高分辨率遥感影像的土壤类型制图研究

作者信息 +

Research on mapping of soil type based on high resolution remote sensing image

Author information +
文章历史 +
PDF (2717K)

摘要

目的 将数字土壤制图技术应用在土地调查中从而制作高精度土壤图。 方法 以祁连山排露沟小流域的土壤类型作为研究对象,选择高分二号遥感数据及DEM数据提取遥感光谱指数和地形因子作为环境协同变量,分别基于C5.0决策树算法、CART决策树算法及支持向量机方法构建土壤类型制图模型,制作研究区土壤类型分布图,并比较评价3种方法下的制图结果。 结果 基于C5.0决策树算法得到的制图结果经验证,其总体精度为89%,明显高于其他2种方法的制图精度。 结论 在研究区可用,且提升了流域数字土壤制图的精度,为该地区的数字土壤制图技术提供一定的科学参考。

Abstract

Objective The purpose of this research was to study the application of digital soil mapping technology to making high definition soil map in land survey. Method In this study, the soil type of the drainage basin in the Peilou Valley of the Qilian Mountains was taken as the research object, and the spectral index and topographic factor of remote sensing were extracted from Gaofen-2 remote sensing data and DEM data as environmental cooperative variables. The soil type mapping model was established based on C5.0 decision tree algorithm, CART decision tree algorithm and support vector machine method respectively, and the soil type distribution map of the study area was made. The cartographic results of the three methods were compared and evaluated. Result The results showed that the overall mapping accuracy of C5.0 decision tree algorithm was 89%,which was significantly higher than that of the other two methods. Conclusion Our results suggested that the proposed method was useful in the study area, and it could improve the accuracy of watershed digital soil mapping and provide scientific reference for the digital soil mapping technology in the area.

Graphical abstract

关键词

环境协同变量 / C5.0决策树算法 / CART决策树 / 数据挖掘 / 数字土壤制图

Key words

environmental covariates / C5.0 decision tree algorithm / CART decision tree / data mining / digital soil mapping

引用本文

引用格式 ▾
芦倩,赵维俊,黄鑫. 基于高分辨率遥感影像的土壤类型制图研究[J]. 甘肃农业大学学报, 2022, 57(06): 188-197 DOI:10.13432/j.cnki.jgsau.2022.06.022

登录浏览全文

4963

注册一个新账户 忘记密码

土壤在人类生活及各项农业生产活动中发挥着不可替代的作用,是重要的自然资源。人们通过传统的土壤调查认识土壤,获取土壤信息,并且借助常规绘图工具完成土壤制图。这种方法不仅工作周期长,而且耗费大量人力,无法保证数据时效性,使制图准确性受到影响。近年来,随着信息技术、地理信息系统及遥感技术、卫星导航定位技术的快速发展,数字土壤制图逐渐表现出其优良的制图能力。数字土壤制图是基于土壤⁃景观模型,借助地理信息系统中的空间分析方法和数学规则,模拟出土壤类型和不同属性在空间上的分布情况1。根据土壤⁃景观模型相关理论及五大成土因素理论,土壤的性质与气候、地形、母质、时间、生物等因素密不可分,因此数字制图将这些环境因素作为协同变量,辅助制作土壤类型图、土壤性质图等。
数字土壤制图研究发展迅速,基于环境协同变量构建的土壤类型或土壤性质制图模型层出不穷。诸如神经网络模型2-3、广义线性模型4-5、分类回归树模型6等。赵明松7基于地理加权回归方法构建土壤有机质空间模型,发现该模型在大尺度区域更具优势,并且相较传统的全局回归模型,建模结果精度更高。任丽8等选择随机森林模型对苹果区土壤有机质含量进行预测,发现该方法在研究区适用。杨煜岑9等人通过多元线性回归预测方法,将研究区不同的环境影响因子进行筛选建模,最终对土壤养分进行了空间预测,并得到较为理想的结果。过往的研究也表明神经网络模型的构建结果不易解释,不能得到较为理想的结果。广义线性模型的使用主要考虑土壤属性和环境因子在非正态分布状态下。决策树的基本思想是分类与回归。它可以依据样本数据通过建立分类规则来构建决策树模型。韩浩武等10通过决策树算法构建了土壤⁃环境关系模型,基于模型实现了研究区的土壤类型预测,结果精度较传统土壤图有明显提升。决策树算法众多,如ID3,C5.0,CART等,可提供多种选择进行研究,其分类精度高,可读性强,而且速度较快。因此被广泛应用在各个领域,如水质监测11、生态环境预测12-14、土壤属性制图14-16等。此外还有支持向量机、专家知识模型等方法运用在数字土壤制图中。
研究选择在祁连山排露沟流域开展。长久以来,该流域土壤调查工作大多基于传统的土壤调查方法,对土壤类型的分布研究多利用地形图及航片等资料进行判读,制图方法耗时耗力,制图精度不高。但土壤类型的研究一方面可以让人们直观认识其空间分布状况,另一方面影响着研究区土地利用、植被恢复和水土流失等。因此只有明确表达土壤类型在空间上的分布情况,才能够有效开展土壤资源的科学规划。本研究在研究区进行野外土壤采样,利用数字土壤制图方法绘制高精度土壤分类图,打破传统土壤制图方法的局限性,保证土壤数据的时效性,提高制图精度。基于高分辨率遥感影像数据及研究区数字高程模型,提取遥感光谱指数和地形因子等环境协同变量,采用C5.0决策树算法、CART决策树算法及支持向量机方法对研究区土壤类型分别进行高精度数字土壤制图,并对制图结果进行评价对比,旨在探索适用于研究区的数字土壤制图模型,为研究区土壤调查提供新的技术手段,对流域植被恢复和水源涵养提供空间数据支持和科学依据。

1 材料与方法

1.1 研究区概况和数据来源

排露沟流域(N 38°32′~38°33′,E 100°17′~100°18′,)位于祁连山中段西水林区,海拔在2 600~3 800 m之间,纵坡比降1∶4.2,流域面积2.71 km2。该区属大陆性高寒山地森林草原气候。根据祁连山西水生态站多年统计资料显示,该流域年均气温-0.6~2.0 ℃;年均降水量291.3~453.8 mm,多集中在5~9月;年均蒸发量1 081.7 mm;年均日照时数1 895 h;日辐射总量110.28 kW/m2;年均相对湿度60%17。研究中用到的DEM数据来源于国家青藏高原科学数据中心,是从大野口流域1 m分辨率的DEM裁剪获得。国产“高分二号(GF-2)”遥感影像数据分辨率为1 m,其不仅具有优越的空间分辨率,而且定位精度准确,对于排露沟流域这种小尺度研究区,选择高分辨率影像尤为重要。本次研究中遥感影像成像时间为2015年12月3日。

排露沟流域土壤类型主要有山地栗钙土、山地森林灰褐土和亚高山灌丛草甸土3类。在流域海拔2 700~3 300 m的阴坡和半阴坡区域,分布着建群种青海云杉,其土壤类型为山地森林灰褐土。草地主要分布在2 700~2 900 m的阳坡和半阳坡,土壤类型为山地栗钙土。流域高海拔3 300~3 800 m的土壤类型多为亚高山灌丛草甸土。本次研究对流域内不同植被类型下的土壤进行采样。为了力求采样点分布均匀,并保证采样的合理性,首先基于研究区GF-2数据对流域植被采用面向对象的高分辨率遥感影像分类方法进行分类。该方法能够最大程度地基于图像信息和目标划分地理对象,同时借助于光谱统计特征、图像形状、大小、影像纹理、空间关系等众多因素,进行高精度的对象分类。分类操作在eCognition 8.7软件中完成,多次试验后,在影像分割时确定波段权重全为1,分割尺度为100,形状指数0.2,紧致度因子0.5。光谱差异分割进一步对相邻分割对象进行光谱特征分析,最终设定光谱差异最大值为70,有效避免了“过分割”现象。特征参数选择归一化植被指数NDVI和改进后的归一化水体MNDWI进行特征计算,最终借助面向对象最邻近法将植被类型分为青海云杉、灌丛、草地及裸岩四种类型,如图1所示。因高海拔地区地形复杂,常用的规则网格采样法实施起来难度较大,根据植被空间分布图和DEM数据,借助研究区《土壤志》等数据材料,采用非等间距不规则网格布点法,在不同高程、坡向上均进行了样点采集,并通过手持GPS记录了样点经纬度。其中,青海云杉林下共采集45个山地灰褐土类型样点;草地35个,为山地栗钙土类型样点;灌丛33个,为亚高山灌丛草甸土类型样点,共计113个采样点,其中80个用于土壤类型制图,33个用于制图结果验证。图1为样点分布图。

1.2 传统土壤类型图

排露沟流域面积较小,过去的研究中形成了大量的野外土壤调查文档数据,有关土壤类型空间制图的研究较少,因此研究区没有形成传统的土壤类型分布图。为了便于和后续研究中基于机器学习产生的土壤类型预测图进行对比,所以对研究区野外土壤类型采样点进行空间插值,基于克里金插值方法得到的图2作为传统土壤类型图,将在下文中和其他预测方法结果进行对比。

1.3 环境协同变量信息生成

不同的环境条件造就了各异的土壤属性。数字土壤制图中,影响土壤环境差异的地理变量可以辅助预测土壤性质的空间变化,这些变量即为环境协同变量1。母质、气候、生物和地形等因素都能够作为环境协同变量。土壤母质信息一般较难获得,因此研究中用地貌信息代替1。由于排露沟流域尺度较小,因此没有考虑气候因素,认为其影响是均质的,研究中主要借助地形因素来体现局域气候对土壤发育的影响。生物因素在文中主要通过流域内的植被来综合反映。综上,本次研究中环境协同变量的选择主要从影响土壤空间变化的强度及信息获取的难易程度这两方面考虑。首先,基于排露沟流域DEM数据提取相关地形要素。包括高程、坡度、坡向、平面曲率、剖面曲率和地形湿度指数(TWI)。其次,根据GF-2裁剪出的研究区遥感影像,计算遥感光谱指数。其中遥感光谱指数中的纹理特征能够表现研究对象自身的属性,所以在影像分类中起到关键的作用。环境协同变量的具体选取情况见表1

1.4 基于C5.0算法构建决策树模型

1.4.1 环境协同变量筛选

根据采样点的空间分布情况,提取各个采样点上的环境协同变量信息,制作样本集。根据图3环境协同变量信息发现,流域内高差较大,且坡度坡向变化明显。平面曲率和剖面曲率也呈现出较大的地表变率,因此流域内地表物质运动过程明显,从而使土壤性质的空间异质性显著18。地形湿度指数反映了土壤水分的空间分布状态,距离研究区水系越近,其值越大。NDVI则表明流域内植被覆盖度较高。在众多环境协同变量中如何筛选出作用显著的变量还需要继续探讨。研究中通过逐步回归方法分析环境协同变量的重要性,其分析思路是判定全部变量对土壤类型的贡献大小,并按贡献大小顺序逐个代入回归方程,其中作用不显著的变量有可能被淘汰。为了保证新引入的变量参与判定,每一次进入方程计算后都要进行F检验,这样不断判定直到确定出各个变量的重要性。该过程借助Clementine软件完成环境因子筛选,如表2,最终选出高程、均值、地形湿度指数、二阶矩和NDVI 5种环境协同变量深入挖掘探索。

1.4.2 数据挖掘

研究选用C5.0算法进行决策树模型构建,其构建方法可以从单一模型或者Boost模型入手。Boost模型19的最大优势在于建模时能够对样本进行正确和错误的划分,并且予以赋值,在完成多个模型建立后,根据加权投票的结果,判定出精度最高的模型,而且可以对模型结果进行测试验证。但是在模型构建时,并不能完全使用其形成的规则,还要对其改进,这就需要对决策树进行剪枝修正,再次建模,直到模型可信度达到70%以上,即可停止建模。本次研究根据排露沟流域的相关土壤资料,结合基于C5.0算法构建的决策树模型,修剪建模规则,得到如表3的土壤分类推理规则。根据该规则进行土壤类型数字制图,如图4-A所示。

1.5 基于CART算法构建分类决策树模型

分类决策树,是以树形结构对研究对象进行分类。在构建树的过程中,需要选择不同的变量作为构建节点,其中叶节点用来表示划分完成的一个类。通过分类决策树进行分类时,首先完成训练集的组成,这其中包括不同变量的属性和即将分类的类别,然后基于CART算法建立各个变量之间的规则,最后确定出变量属性和类别的关系,即可完成分类。

CART算法构建决策树模型的核心是进行特征选择和剪枝。基于上述研究中的15个环境协同变量,通过CART算法选择最优变量组合,并形成决策规则。通过自变量标准化重要性分析,最终筛选出高程、坡向、信息熵(entroy)3个自变量。CART规则树如图5所示,可以看出,该规则树将土壤类型作为根节点,高程变量将其分为2个子节点,分别为高程小于等于3 271.05 m和大于3 271.05 m,且在后者划分出部分亚高山灌丛草甸土。然后又基于坡向对前者进一步划分,在坡向值小于等于121.338°处划分出部分山地森林灰褐土,并对坡向大于121.338°处再次以坡向值划分,此时,当坡向值小于等于315.443 5°时,得到部分山地栗钙土。坡向值大于315.443 5°时,根据影像的信息熵(entroy)进行划分,在该值小于等于1.783时,划分出部分灰褐土,大于1.783时得到部分栗钙土。同时在构建过程中,为了防止过度拟合,研究中选择分割样本验证方法,随机选择70%作为训练样本用来构建模型,剩余30%则用来检验。最终分类结果如图4-B所示。

1.6 基于支持向量机算法构建分类模型

支持向量机(Support Vector Machine,SVM)是一种机器学习算法。SVM支持线性可分,即在二维空间上,2类点可以被一条直线完全分开,从二维扩展到多维空间,SVM力求寻找能够把2类样本分开的最大间隔,即最优超平面,这时两类样本被划分至该超平面两侧,即便距离超平面最近的两侧样本点也被距离最大化。SVM可以通过核函数进行分类,本次研究选择了核函数中的径向基方法,该方法中参数众多,其中惩罚因子C,在理论上表现出模型的精度随着C值的增大而提高,但是也不能使该值过大,否则易造成模型的过度拟合,导致模型性能降低。支持向量机算法中参数的确定需要经过多次遍历优化后方可获得,研究中经过多次试验,最终获取的最优参数组合中,C值取值15。建模结果如图4-C所示。

2 结果与分析

2.1 制图结果与分析

通过图4可以看出,不同制图方法下,在流域海拔3 300~3 700 m的亚高山地带,土壤类型主要是亚高山灌丛草甸土。在流域海拔2 600~3 300 m的阴坡区域,土壤类型多为山地森林灰褐土。在流域海拔2 700~3 000 m的阳坡区域,分类结果存在差异:图4-A中该区域土壤类型主要以山地栗钙土居多,伴随少量山地森林灰褐土;图4-B中该区域则主要是山地栗钙土;图4-C中该区域分布有山地栗钙土和亚高山灌丛草甸土。

2.2 精度评价

本次研究通过均匀采样选择的33个野外采样点对不同制图方法下的土壤图进行精度评价,结果(表4)表明基于C5.0决策树制图结果精度明显高于采样点插值的结果。为进一步验证3种机器算法的制图结果,通过混淆矩阵计算得到的Kappa系数、生成精度和用户精度实现,结果如表5所示。由精度评价结果可以看出,C5.0决策树分类方法总体精度为89%,Kappa系数为0.83;CART决策树分类方法总体精度为83%,Kappa系数为0.78;支持向量机分类方法总体精度为57%,Kappa系数为0.52。由此可见,C5.0和CART决策树分类方法得到的土壤分类结果较为满意,而支持向量机方法分类结果较差。

对比3种不同方法的精度评价结果,从整体上来看,3种方法下各土壤类型的空间分布具有明确的相似性,C5.0决策树的分类结果较CART决策树结果的图斑数量更多,图上细节也更为清晰。尽管支持向量机分类结果图斑数增多,但是分类结果较差,在流域阳坡地带出现了较多的亚高山灌丛草甸土,和传统土地调查的结果有一定出入。生产精度方面,C5.0算法和CART算法分类结果中,3种土壤类型的精度均比较高,支持向量机分类精度较低。用户精度方面,支持向量机分类精度较差。综上,3种方法都基于高清遥感影像获取的环境协同变量进行土壤⁃景观模型构建,并借助构建的模型对推理预测土壤类型的空间分布状态,但由于选取的数据挖掘算法不同,提取的环境协同变量也存在一定的差异,因此得到了不同的制图输出。通过精度评价,基于C5.0算法构建的决策树模型应用在排露沟流域的土壤分类图结果最佳。

3 讨论

数字土壤制图通常要经过选择环境变量、采集样点、构建模型及验证评价4个步骤。环境变量的选择要能够充分表达土壤的空间变化并且易于获取。Scull、Razakamanarivo、Sarkar20-22等人均采用了地形因子或土地利用信息作为环境变量来对土壤相关性质做空间预测。本次研究从地形因子和遥感光谱指数两方面入手,共选取高程、坡度、坡向及影像纹理特征等15个变量作为环境协同因子分析建模。建模过程中对变量重要性进行了分析,尽管引入了遥感光谱指数,但在最终选取的变量中遥感光谱指数参与度不如地形因子,在未来的研究中可以考虑将土壤理化性质作为环境协同变量参与制图。

本次研究中,土壤采样点的选择尽可能保证均匀分布在流域各个位置,但是受到流域地形的客观条件限制,采样点的典型性和一般性还有待继续探索。

研究中模型的选择主要考虑的是基于机器学习与数据挖掘的方法。这种方法主要探讨土壤类型和环境因子的关系,并建立相应的规则预测空间分布状况23-27。由于研究区面积较小,学者对土壤类型的分类研究大多基于传统野外调查数据28-30,较少分析流域土壤类型的空间分布。本文比较了3种不同的基于机器学习的土壤类型空间制图方法,发现C5.0算法对土壤类型的预测精度更高,更准确地表现了土壤类型与各环境协同变量间的关系,清晰直观地反映了流域土壤的空间分布状况,后续研究还可以探索其他数字制图方法,讨论流域土壤类型的多样性,为流域在植被恢复、水源涵养等方面的研究提供空间数据支持。

4 结论

本文基于决策树C5.0算法、CART决策树算法及支持向量机方法分别构建土壤分类模型,并将其应用在祁连山排露沟流域。得到结论是,对比3种土壤类型分类方法,C5.0决策树模型表现出较好的分类精度,总体精度和Kappa系数均高于其他两种方法。本文在提取地形因子作为地理协同变量的同时,加入了遥感光谱指数共同参与模型构建,其中 C5.0决策树运用了比CART决策树更多的遥感光谱指数,在一定程度上提升了制图精度。研究中基于C5.0算法构建的决策树模型,获取了明确的土壤—环境关系规则,该规则能够清晰表达排露沟流域各土壤类型的发育环境,增强了C5.0算法在研究区的可用性,提升了数字土壤制图的精度。在小尺度研究区,高空间分辨率的遥感数据更有利于获取与土壤空间变化相关的环境协同变量,对未来土壤普查工作的精细化提供一定的科学参考。

参考文献

[1]

朱阿兴,杨琳,樊乃卿,.数字土壤制图研究综述与展望[J].地理科学进展201837(1):66-78.

[2]

Sinha S KWang M C.Artificial neural network prediction models for soil compaction and permeability[J].Geotechnical and Geological Engineering200826(1):47-64.

[3]

Li Q QYue T XWang C Qet al.Spatially distributed modeling of soil organic matter across China:an application of artificial neural network approach[J].Catena2013104:210-218.

[4]

Halimi AAltmann YDobigeon Net al.Nonlinear unmixing of hyperspectral images using a generalized bilinear model[J].IEEE Transactions on Geoscience and Remote Sensing201149(11):4153-4162.

[5]

孙孝林,赵玉国,刘峰,.数字土壤制图及其研究进展[J].土壤通报201344(3):752-759.

[6]

Chaney N WWood E FMc Bratney A Bet al.POLARIS:A 30-meter probabilistic soil series map of the contiguous United States[J].Geoderma2016274:54-67.

[7]

赵明松,刘斌寅,卢宏亮,.基于地理加权回归的地形平缓区土壤有机质空间建模[J].农业工程学报201935(20):102-110.

[8]

任丽,杨联安,王辉,.基于随机森林的苹果区土壤有机质空间预测[J].干旱区资源与环境201832(08):141-146.

[9]

杨煜岑,杨联安,王晶,.基于多元线性回归模型的土壤养分空间预测:以陕西省蓝田县农耕区为例[J].土壤通报201748(5):1102-1113.

[10]

韩浩武,许伟,黄魏,.基于遥感影像和决策树算法的土壤制图[J].土壤通报201950(1):8-14.

[11]

王国重,李中原,张继宇,.基于决策树的河南省主要水库水质影响因素分析[J].武汉大学学报(工学版)201952(9):774-781.

[12]

韩东,王浩舟,郑邦友,.基于无人机和决策树算法的榆树疏林草原植被类型划分和覆盖度生长季动态估计[J].生态学报201838(18):6655-6663.

[13]

邵湾湾,张廷军.被动微波遥感近地表土壤冻融状态数据产品对比及分析[J].冰川冻土202143(1):285-295.

[14]

李诗涛,张王菲,赵丽仙,.基于时序PolSAR影像与决策树模型的油菜物候期识别[J].浙江农业学报202133(11):2116-2127.

[15]

张振华,丁建丽,王敬哲,.集成土壤-环境关系与机器学习的干旱区土壤属性数字制图[J].中国农业科学202053(3):563-573.

[16]

孙亚楠,李仙岳,史海滨,.基于特征优选决策树模型的河套灌区土地利用分类[J].农业工程学报202137(13):242-251.

[17]

齐鹏,赵维俊,刘贤德,.祁连山中段青海云杉林分空间结构分析[J].甘肃农业大学学报201550(4) 90-96.

[18]

Behrens TSchmidt KRamirez-Lopez Let al.Hyperscale digital soil mapping and soil formation analysis[J].Geoderma2014213:578-588.

[19]

薛薇,陈欢歌.Clementine数据挖掘方法及应用[M].北京:电子工业出版社,2010:137-205.

[20]

Scull PFranklin JChadwick O A.The application of classification tree analysis to soil type prediction in a desert landscape[J].Ecological Modelling2005181(1):1-15.

[21]

Razakamanarivo HGrinand CRazafindrakoto M Aet al.Mapping organic carbon stocks in eucalyptus plantations of the central highlands of Madagascar:A multiple regression approach[J].Geoderma2011162(3-4):0-346.

[22]

Sarkar SRoy A KMartha T R.Soil depth estimation through soil landscape modelling using regression kriging in a Himalayan terrain[J].International Journal of Geographical Information Science201327(12):2436-2454.

[23]

Heng TMendes de Jesus JHeuvelink G B Met al.Soil Grids 250 m:Global gridded soil information based on machine learning[J].Plos One201712(2):1-40.

[24]

Gray J MBishop T F AWilford J R.Lithology and soil relationships for soil modelling and mapping[J].Catena2016147:429-440.

[25]

黄魏,罗云,汪善勤,.基于传统土壤图的土壤⁃环境关系获取及推理制图研究[J].土壤学报201653(1):72-80.

[26]

宋敏,杨琳,朱阿兴,.轮作模式在农耕区土壤有机质推测制图中的应用[J].土壤通报201748(4):778- 785.

[27]

韩家琪,毛克彪,葛非凡,.分类回归树算法在土壤水分估算中的应用[J].遥感信息201833(3):46- 53.

[28]

李雯靖,王立,赵维俊,.祁连山青海云杉林土壤养分特征[J].甘肃农业大学学报201651(5) :88-94.

[29]

胡健,吕一河,张琨,.祁连山排露沟流域典型植被类型的水源涵养功能差异[J].生态学报201636(11) :3338-3349.

[30]

敬文茂,牛赟,刘贤德,.祁连山大野口流域土壤温度空间变化特征[J].山地学报201634(2):142-149.

基金资助

甘肃省青年科技基金项目(20JR10RA558)

甘肃省高等学校创新基金项目(2021A-057)

AI Summary AI Mindmap
PDF (2655KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/