陳 榮, 韓浩武, 傅佩紅, 楊雨菲, 黃 魏
基于多時相遙感影像和隨機森林算法的土壤制圖①
陳 榮, 韓浩武, 傅佩紅, 楊雨菲, 黃 魏*
(華中農業大學資源與環境學院,武漢 430070)
獲取準確的土壤–環境關系是數字土壤制圖的關鍵,目前遙感影像已作為環境因子應用于土壤–環境知識的建立過程,但單幅遙感影像所包含的光譜信息差異難以將不同土壤類型區分開來。因此本文提出了一種基于多時相遙感影像的土壤制圖方法:選取紅安縣灄水河流域為研究區,以母質類型圖、等高線數據和多時相哨兵二號遙感影像為基礎,提取與土壤形成有關的環境因子,通過隨機森林算法獲取土壤–環境關系,預測研究區各土壤類型的空間分布并成圖,利用野外實地分層采樣點驗證推理圖的精度。結果表明:推理土壤圖總體分類精度高達86%,與原始土壤圖對比,各土壤類型的空間分布具有一定相似性,展現了更為詳細的空間細節信息,該研究成果可為更新土壤圖工作提供新方法。
土壤–景觀推理模型;隨機森林算法;遙感影像;數字土壤制圖
土壤普查是了解土壤資源空間分布及合理利用土壤資源的前提,是農業生產的基礎。傳統的土壤普查主要是土壤學家以大比例尺航片和地形圖為底圖,通過實地采樣獲得土壤–景觀模型,以此判斷不同土壤類型的空間分布并手繪成圖[1-2]。此方法存在的精度低、人為主觀性強及時間和人工成本高[3]等問題推動了數字土壤制圖的誕生與發展。與傳統土壤普查不同的是,數字土壤制圖方法是以空間分析和數學方法為技術手段,用柵格形式來表達土壤空間分布信息,此種方法可更好地表達出土壤分布的漸變特征[4-6]。土壤–環境知識的獲取和土壤空間推理方法的選擇是當前精細數字土壤制圖的關鍵。
目前,數字土壤推理制圖過程常用到的協同因子多為由數字高程模型(digital elevation model,DEM)衍生的地形因子。遙感影像因其時效性強、數據分辨率高、易獲取及含有豐富的下墊面信息等優勢逐漸應用于土壤制圖,其包含的地表光譜信息可用于反演地物屬性、地物分類,提取的多種遙感指數可用于定量或定性地表述植被生長狀況。遙感影像可以多種形式參與到土壤推理制圖過程中,如利用土壤有機質的遙感響應波段以實現其含量的估算[7],借助影像建立特定時段的地表動態反饋模型[8-10],在時序遙感影像數據上提取植被的輪作模式[11-12],或直接在遙感影像數據中提取地物的分類特征[13-15]等。但在以往的研究中,土壤制圖使用的遙感影像多為單時相數據[16],不同時間點遙感影像產生的光譜信息具有較大差異,制圖結果也存在一定差異。且單一時間點的遙感數據易受天氣、季節等因素的影響,在遙感影像時期的選擇上也存在著人為主觀性,這些環節都將直接影響制圖結果。
土壤分類常用的數據挖掘算法主要有模糊聚類[17-18]、決策樹[19-20]、支持向量機[21]、判別分析[22]、隨機森林[23-24]等。其中,隨機森林算法可以有效避免原始數據的缺失及噪聲、異常值造成的精度低等問題,在分類和回歸等多方面具有一定的優勢,在國內數字土壤制圖領域中該方法被廣泛應用于獲取土壤類型[23]或屬性[25-27]的空間分布信息。本研究擬將多時相遙感影像數據和隨機森林算法應用于土壤分類,為土壤分類提供新的技術與方法。
本研究使用圖斑面積加權法在傳統土壤圖上設計采樣點,在母質和地形等環境協同因子的基礎上,加入多時相遙感指數,通過隨機森林算法建立土壤類型與環境協同因子組合的對應關系,并推理得到研究區各土壤類型的空間分布信息,進而對傳統土壤圖進行更新,同時探究多時相遙感影像數據在土壤制圖中的可行性。
研究區域位于華家河鎮灄水河流域(圖1),隸屬于湖北省黃岡市紅安縣(114°23′ ~ 114°49′E,30°56′ ~ 31°35′N),地處大別山南麓,境內地勢北高南低,為低山丘陵區。土地利用類型以林地和農耕地為主。根據全國第二次土壤普查結果,研究區土壤類型共12種,母質類型共6種,其中石英片巖、基性巖分別與硅沙泥田、烏沙泥田相對應,因此這兩種土壤類型不參與后續建模和推理過程。為方便后續隨機森林建模和預測,數據預處理時將石灰巖、片麻巖、近代河流沖積物、泥質巖4種母質分別編號為1、2、3、4。研究區各土壤類型和其對應的母質類型如表1所示。

表1 灄水河流域土壤類型和母質類型
本研究使用的原始數據主要包括母質類型圖、等高線、遙感影像和傳統土壤圖。根據紅安縣土壤圖和地質圖及當地土壤普查專家的意見,研究區域可以劃分成6種母質類型。地形因子數據集是在湖北省測繪局的10 m等高距的等高線數據的基礎上衍生而來,在ArcGIS中內插得到研究區的數字高程模型,提取常用的高程、坡度、坡向等地形因子。遙感影像數據來源于哨兵二號衛星(https://scihub.copernicus.eu/),分辨率為10 m,選擇一個完整的作物生長周期,成像時間由2016年11月至2017年10月,每月選擇一景遙感影像,借助ENVI軟件平臺計算歸一化植被指數,具體成像時間如表2所示。
研究區原始土壤類型圖的比例尺為1︰50 000,由第二次全國土壤普查結果經數字化后得到。傳統土壤圖是當地土壤普查專家進行野外調查的制圖成果,其往往蘊含著土壤學家的“隱性知識”[3],即土壤–環境知識,利用決策樹、隨機森林等數據挖掘算法可有效提取隱性知識并加以利用,更新傳統土壤圖。

表2 哨兵二號影像獲取時間(年–月–日)
采樣點的設計方式對數字土壤制圖的結果具有重要影響。本研究中采樣點數據依據傳統土壤圖圖斑面積,采用面積加權法進行布設采樣點,并保證每個圖斑中最少采樣點數量不低于10個,最后共生成采樣點數量6 686個。
隨機森林(random forest,RF)分類算法是Breiman[28]于2001年提出的一種機器學習方法,是一種以決策樹為基分類器的Bagging集成算法,廣泛應用于回歸和分類。隨機森林算法基于自助采樣法(bootstrap sampling)[29],即有放回的采樣或重復采樣,從初始數據集中有放回的反復抽取數據作為訓練樣本集,在采樣過程中約有36.8% 的數據始終沒有被抽中,這部分數據為袋外(out-of-bag,OOB)數據,用以對模型性能進行估算,稱為袋外估計。OOB誤差是隨機森林模型泛化誤差的無偏估計[28]。隨機森林模型中有兩個重要參數:節點分裂次數mtry和決策樹數量ntree,這兩個參數值的選擇直接決定了隨機森林模型的性能。
本研究利用橫截面采樣、主觀采樣和均勻采樣3種方式得到的264個驗證點對推理制圖結果的準確性進行評價。驗證點集包含研究區存在的所有土壤類型,且在整個研究區均有分布,如圖2所示。建立實地驗證點與推理土壤圖的混淆矩陣,可得到總體分類精度、生產精度、用戶精度及Kappa系數等評價指標。其中生產精度是預測土壤圖某土壤類型正確分類的點數與野外采樣點中該土壤類型的總點數的比值,而用戶精度是預測土壤圖某土壤類型正確分類的點數與預測土壤圖中該土壤類型的總點數之比[30]。
本研究提取的原始環境因子如表3所示,包括母質類型、地形因子和遙感因子。基于采樣點數據分別建立土壤類型與地形因子、遙感因子之間的關系(圖3和圖4)。從圖3可以看出,除高程、坡度和坡向這3個地形因子外,其余因子在不同土壤類型之間差異較小,因此本研究中僅選取高程、坡度和坡向參與到后續隨機森林建模和推理過程中。從圖4可以看到,不同土壤類型的全年植被指數變化規律相似,夏季7月和8月NDVI達到峰值,冬季則最低;林地細沙泥土(21)、林地沙泥土(31)和林地棕色石灰土(51)這3種土壤類型的歸一化植被指數全年均處于較高水平,這可能與其土地利用類型有關;此外,4—6月及9—10月,各土壤類型對應的NDVI值差異較大,可能是因為不同類型的植被生長及秋季葉片凋謝的速度不一致,從而導致植被指數出現較大差異。
本研究通過R語言中random forest包來建立隨機森林模型,環境因子為輸入變量,土壤類型為輸出變量,采用遍歷的方式,以OOB誤差的大小來確定模型的最優參數組合。由此得到mtry和ntree分別取6和600時,隨機森林模型性能最佳,進而利用該模型進行預測。
對比原始土壤圖(圖5A)和隨機森林預測推理土壤圖(圖5B),整體上兩者的各類土壤空間分布具有一定相似性,林地沙泥土、沙泥土、細沙泥土、沙泥田、棕色石灰土等在兩個土壤圖中的空間分布基本一致,但棕色石灰土、淺潮沙田、沙泥土、沙泥田的面積有所減少。推理土壤圖的圖斑數量顯著增多,展現出更精細的土壤空間細節信息,且不同土壤類型之間不再存在明顯的“分界線”,過渡平滑,呈現出自然界中土壤空間分布的漸變特征。
為進一步評價土壤分類的準確性,我們采用野外獨立樣本點對推理后土壤圖進行評價。評價結果以混淆矩陣的形式展示,其中包括總體分類精度、各土壤類型的生產精度和用戶精度及Kappa系數等精度評價指標,如表4所示。總體來說,推理結果圖的總體分類精度達到了86%,分類結果較好;Kappa系數為83%,表現出高度一致性,這說明驗證樣點與土壤圖之間的契合程度高,推理土壤圖所表達的土壤類型空間分布信息是可信的。大部分土壤類型的分類精度較高:除淺潮沙田外,其余土壤類型均有良好的用戶精度(≥70%);除棕色石灰土和細沙泥田外,其余土壤類型的生產精度良好(≥70%)。因此,基于多時相植被指數的土壤推理方法具有較好的制圖結果。
從混淆矩陣中可以看到,首先,林地沙泥土、林地棕色石灰土的生產精度和用戶精度均較高。這是由于這兩種土壤類型主要分布于研究區北部高程較大的丘陵處,土地利用類型為林地,與同母質發育而來的其他土壤類型相比,其歸一化植被指數值較大,容易區分;沙泥田和潮沙田與研究區內河流分布關系密切,土壤養分較豐富,肥力水平高,宜耕性強,作物長勢穩健,亦具有較高的植被指數,故分類精度較高。其次,淺潮沙田的生產精度和棕色石灰土的用戶精度均較低,混淆矩陣中可以看出,這兩種土壤類型容易被錯分為同種母質下的潮沙田和林地棕色石灰土,其原因可能是同一母質發育而來的兩種土壤類型分布區域間地形起伏程度差異較小,且土地利用類型相近,作物生長規律相似,在時序遙感影像上表現為數值相近、無明顯差異性的歸一化植被指數,因此利用地形因子和多時相的遙感植被指數均不能有效區分,從而產生分類誤差。此外,細沙泥田的生產精度較低,分類時易與細沙泥土混淆,從而影響到整體分類精度。
綜上所述,經264個野外獨立樣點驗證結果表明,基于多時序遙感影像推理得到的土壤圖分類精度達到了86%,土壤圖斑更為破碎,數量變多,空間詳細程度更高,Kappa系數為83%,驗證樣點與推理之間具有顯著的一致性水平,因此利用這種方法來推理得到研究區的土壤類型空間分布信息是可行的。

表4 實地驗證點與推理土壤圖間的混淆矩陣
注:總264個驗證點,其中226個點分類正確,總體精度86%,Kappa系數為83%。
本研究提出了一種基于多時相遙感影像和隨機森林算法的土壤推理制圖方法。利用時序哨兵二號遙感影像數據提取歸一化植被指數,作為遙感因子與常用的高程等地形因子、母質類型組成完整的環境因子集,并通過隨機森林算法提取土壤–環境知識后推理制圖,經野外獨立驗證點驗證其結果分類精度高達86%,更新后土壤圖表達出的研究區內各土壤類型的分布信息可信度較高。
已有研究大多采用單時相遙感影像數據,通過提取植被指數、紋理信息、主成分等遙感光譜指數用于土壤分類及土壤屬性制圖,并取得了較好的結果,但同時我們也應看到不同季節影像的制圖結果具有較大的差異,且在影像時間的選擇上多存在主觀性。相比于單時相遙感影像數據易受天氣、季節等因素的影響,本研究采用多時序遙感影像數據參與土壤制圖,避免了依賴單時相遙感影像數據的局限性。周紫燕等[23]在同一區域的研究中,同樣采用了隨機森林算法進行數據挖掘,但不同的是其使用的環境因子中除了常用的地形因子外,只加入了單時相的遙感因子,制圖精度為76%。與其相比,本研究加入的是多時相遙感因子,推理土壤圖的準確性有了明顯提升,精度提高了10%。本研究結果具有較高的預測精度,各土壤類型空間分布的詳細程度有較大提升,可以滿足未來對高精度數字土壤制圖的要求,為土壤普查工作提供參考依據。
本研究雖取得了較好的分類精度,但仍有一些需要改進的地方。在遙感影像的數據基礎上,僅提取了時序歸一化植被指數,未對其他可從影像提取的光譜信息加以利用,而歸一化植被指數實際上由植被和土壤兩部分組成,土壤背景對歸一化植被指數干擾強烈,影響較大,且在植被稀疏的地方,歸一化植被指數的表征能力較差。未來可引入更多能間接反映土壤發生發育的遙感光譜指數,同時,為避免環境因子較多帶來的數據冗余現象,可采用主成分分析對因子進行降維處理,以減少不必要的信息冗余;此外,可對研究區進行地貌分區,針對不同區域采用不同的推理協同因子組合和權重,分區制圖。
[1] Hudson B D.The soil survey as paradigm-based science[J].Soil Science Society of America Journal, 1992, 56(3): 836–841.
[2] Zhu A X, Hudson B, Burt J, et al.Soil mapping using GIS, expert knowledge, and fuzzy logic[J].Soil Science Society of America Journal, 2001, 65(5): 1463–1472.
[3] Shi X, Zhu A X, Burt J E, et al.A case-based reasoning approach to fuzzy soil mapping[J].Soil Science Society of America Journal, 2004, 68(3): 885–894.
[4] McBratney A B, Mendon?a Santos M L, Minasny B.On digital soil mapping[J].Geoderma, 2003, 117(1/2): 3–52.
[5] 孫福軍, 雷秋良, 劉穎, 等.數字土壤制圖技術研究進展與展望[J].土壤通報, 2011, 42(6): 1502–1507.
[6] 朱阿興, 楊琳, 樊乃卿, 等.數字土壤制圖研究綜述與展望[J].地理科學進展, 2018, 37(1): 66–78.
[7] 王琪, 吳成永, 陳克龍, 等.基于多光譜遙感圖像的青海湖流域土壤有機質估算初探[J].土壤, 2019, 51(1): 160–167.
[8] 劉峰, 朱阿興, 李寶林, 等.利用陸面反饋動態模式來識別土壤類型的空間差異[J].土壤通報, 2009, 40(3): 501–508.
[9] Zhu A X, Liu F, Li B L, et al.Differentiation of soil conditions over low relief areas using feedback dynamic patterns[J].Soil Science Society of America Journal, 2010, 74(3): 861–869.
[10] Zeng C Y, Zhu A, Liu F, et al.The impact of rainfall magnitude on the performance of digital soil mapping over low-relief areas using a land surface dynamic feedback method[J].Ecological Indicators, 2017, 72: 297–309.
[11] 宋敏, 楊琳, 朱阿興, 等.輪作模式在農耕區土壤有機質推測制圖中的應用[J].土壤通報, 2017, 48(4): 778–785.
[12] Yang L, Song M, Zhu A, et al.Predicting soil organic carbon content in croplands using crop rotation and Fourier transform decomposed variables[J].Geoderma, 2019, 340: 289–302.
[13] Mulder V L, de Bruin S, Schaepman M E, et al.The use of remote sensing in soil and terrain mapping—A review[J].Geoderma, 2011, 162(1/2): 1–19.
[14] Sreenivas K, Dadhwal V K, Kumar S, et al.Digital mapping of soil organic and inorganic carbon status in India[J].Geoderma, 2016, 269: 160–173.
[15] 韓浩武, 許偉, 黃魏, 等.基于遙感影像和決策樹算法的土壤制圖[J].土壤通報, 2019, 50(1): 8–14.
[16] 劉煥軍, 楊昊軒, 徐夢園, 等.基于裸土期多時相遙感影像特征及最大似然法的土壤分類[J].農業工程學報, 2018, 34(14): 132–139, 304.
[17] 朱阿興, 李寶林, 楊琳, 等.基于GIS、模糊邏輯和專家知識的土壤制圖及其在中國應用前景[J].土壤學報, 2005, 42(5): 142–149.
[18] 楊琳, Fahmy S, Hann S, 等.基于土壤–環境關系的更新傳統土壤圖研究[J].土壤學報, 2010, 47(6): 1039– 1049.
[19] 周斌, 王繁, 王人潮.運用分類樹進行土壤類型自動制圖的研究[J].水土保持學報, 2004, 18(2): 140–143,147.
[20] 黃魏, 羅云, 汪善勤, 等.基于傳統土壤圖的土壤–環境關系獲取及推理制圖研究[J].土壤學報, 2016, 53(1): 72–80.
[21] 石偉, 南卓銅, 李韌, 等.基于支持向量機的典型凍土區土壤制圖研究[J].土壤學報, 2011, 48(3): 461–469.
[22] 邱琳, 李安波, 趙玉國.基于Fisher判別分析的數字土壤制圖研究[J].土壤通報, 2012, 43(6): 1281–1286.
[23] 周紫燕, 黃魏, 許偉, 等.基于隨機森林算法的原始土壤圖更新研究[J].華中農業大學學報, 2019, 38(3): 53–59.
[24] 韓杏杏, 陳杰, 王海洋, 等.基于隨機森林模型的耕地表層土壤有機質含量空間預測——以河南省輝縣市為例[J].土壤, 2019, 51(1): 152–159.
[25] 姜賽平, 張懷志, 張認連, 等.基于三種空間預測模型的海南島土壤有機質空間分布研究[J].土壤學報, 2018, 55(4): 1007–1017.
[26] 盧宏亮, 趙明松, 劉斌寅, 等.基于隨機森林模型的安徽省土壤屬性空間分布預測[J].土壤, 2019, 51(3): 602–608.
[27] 袁玉琦, 陳翰閱, 張黎明, 等.基于多變量與RF算法的耕地土壤有機碳空間預測研究——以福建亞熱帶復雜地貌區為例[J].土壤學報, 2021, 58(4): 887–899.
[28] Breiman L.Random forests[J].Machine Learning, 2001, 45(1): 5–32.
[29] Efron B, Tibshirani R J.Introduction//An Introduction to the Bootstrap[M].Boston, MA: Springer US, 1993: 1–9.
[30] 朱阿興.精細數字土壤普查模型與方法[M].北京: 科學出版社, 2008.
Soil Mapping Based on Multi-temporal Remote Sensing Images and Random Forest Algorithm
CHEN Rong, HAN Haowu, FU Peihong, YANG Yufei, HUANG Wei*
(College of Resources and Environment, Huazhong Agricultural University, Wuhan 430070, China)
Extracting accurate soil-environment relationship is the key to digital soil mapping.Nowadays, remote sensing images have been used as the indicators of environmental factors in the process of obtaining soil-environment knowledge.However, the spectral differences in mono-temporal image are difficult to be used to distinguish soil types.In this study, we proposed a soil mapping method based on multi-temporal remote sensing images.The Sheshui River Basin in Huajiahe Town, Hongan County, Huanggang City of Hubei Province was selected as the study area, and the parent-material-type map, the multi-temporal sentinel-2 remote sensing images, and contour data were used to extract environmental factors related to soil properties.Soil environment relationships were obtained to infer the spatial distribution of soil types using the random forest algorithm.The field sampling points in the study area were used for validation, and the confusion matrix and Kappa coefficient of inferenced soil map were calculated to evaluate the map accuracy.The results demonstrated that the overall classification accuracy of the inferred soil map was as high as 86%.The soil type map obtained by inference was similar to the traditional soil map in the spatial distribution, but it could display more detailed information than the traditional soil map.This research can provide an effective alternative for updating the traditional soil map.
Soil land inference model; Random forest algorithm; Remote sensing images; Digital soil mapping
S159
A
10.13758/j.cnki.tr.2021.05.026
陳榮, 韓浩武, 傅佩紅, 等.基于多時相遙感影像和隨機森林算法的土壤制圖.土壤, 2021, 53(5): 1087–1094.
國家自然科學基金項目(41877001)、國家重點研發計劃項目(2017YFD0202000)和中央高校基本科研業務費專項資金項目(2662019PY074)資助。
通訊作者(ccan@mail.hzau.edu.cn)
陳榮(1996—),女,湖北咸寧人,碩士研究生,主要從事精細數字土壤制圖研究。E-mail: charlottechen@webmail.hzau.edu.cn