馬國林,丁建麗,韓禮敬,張子鵬
基于變量優選與機器學習的干旱區濕地土壤鹽漬化數字制圖
馬國林,丁建麗※,韓禮敬,張子鵬
(1.新疆大學資源與環境科學學院 智慧城市與環境建模自治區普通高校重點實驗室,烏魯木齊 830046;2. 新疆大學綠洲生態教育部重點實驗室,烏魯木齊 830046)
土壤鹽漬化是導致土壤退化和生態系統惡化的主要原因之一,對干旱區的可持續發展構成主要威脅。為了盡可能精確地監測土壤鹽漬化的空間變異性,該研究收集新疆艾比湖濕地78個典型樣點,其中選取54個樣本作為訓練集,24個樣本作為獨立驗證集。基于Sientinel-2 多光譜傳感器(Multi-Spectral Instrument,MSI)、數字高程模型(Digital Elevation Model,DEM)數據提取3類指數(紅邊光譜指數、植被指數和地形指數),經過極端梯度提升(Extreme Gradient Boosting,XGBoost)算法篩選有效特征變量,構建了關于土壤電導率(Electrical Conductivity,EC)的隨機森林(Random Forest,RF)、極限學習機(Extra Learning Machine,ELM)和偏最小二乘回歸(Partial Least Squares Regression,PLSR)預測模型,并選擇最優模型繪制了艾比湖濕地鹽漬化分布圖。結果表明:優選的紅邊光譜指數基本能夠預測EC的空間變化;紅邊光譜指數與植被指數組合建模效果總體上優于其與地形指數的組合,3類指數組合的建模取得了較為理想的預測精度,其中RF模型表現最優(驗證集2=0.83,RMSE=4.81 dS/m,RPD=3.11);在整個研究區內,中部和東部地區土壤鹽漬化程度尤為嚴重。因此,XGBoost所篩選出的環境因子結合機器學習算法可以實現干旱區土壤鹽漬化的監測。
土壤;鹽分;數字制圖;機器學習;變量優選;Sentinel-2A
土壤鹽漬化作為當前的全球性問題,對生態系統的安全與穩定產生嚴重威脅[1]。在干旱和半干旱地區,除了巖石、礦物、風化產物和土壤中含有較多的可溶性鹽外,土壤資源也受到次生鹽漬化的威脅[2]。土壤鹽分是土壤鹽堿化的有效評價指標,其時空范圍存在很大差異[3]。這表明只有通過動態監測才能充分了解當前土壤鹽堿化的狀況,從而為進行有效的土壤修復和土地復墾提供更多的定量信息。
傳統的實驗室分析費時費力,此外由于時間和空間的巨大差異,很難揭示土壤鹽漬化的演變過程和趨勢[4]。與傳統方法相比,衛星遙感技術在大空間尺度和高時間分辨率下監測土壤鹽漬化具有巨大優勢。作為新一代的星載多光譜儀(Multi-Spectral Instrument,MSI),Sentinel-2A(S2)衛星可測量443~2 190 nm的13個波譜帶,覆蓋可見光和近紅外波段,最高分辨率為10 m,其新穎的光譜功能(即3個紅邊帶和2個近紅外波段)為各種土壤信息的監測提供了廣闊的應用前景[5]。目前已有相關學者使用S2數據構建相關的鹽度指數進行土壤鹽分的建模預測[6],取得了良好的預測精度,但尚未充分挖掘紅邊波段與其他環境因子(植被覆蓋、地形)在土壤鹽分預測中的作用。
土壤是具有高度變異的時空連續體,在發育成土過程中成土因子對其的作用是非線性的,在較大區域中對土壤屬性的非線性作用更加明顯,而機器學習與數據挖掘技術能夠有效解決土壤與環境因子之間非線性的問題[7]。基于樹的模型是最常見的機器學習算法,主要包括分類回歸樹(Classification And Regression Tress,CART)[8]、隨機森林(Random Forest,RF)[9]和增強回歸樹(Boosted Regression Tress,BRT)[10]。已用于土壤數字制圖的其他機器學習算法還包括人工神經網絡(Artificial Neural Networks,ANN)[11]、支持向量機(Support Vector Machines,SVM)[12]和極限學習機(Extreme Learning Machine,ELM)[13]等。但是為特定的景觀選擇最佳的建模技術一直是數字土壤制圖的挑戰。
已有研究表明,鹽分指數、植被指數、地形因素等環境變量能夠為土壤鹽漬化監測提供有效的輔助信息[14]。不同類型的環境變量雖能從不同的角度表征土壤鹽分的變化,但這些輔助信息大都可以通過波段運算得到,存在不同程度的信息冗余[15]。目前在進行建模特征變量優選時,部分學者采用Pearson相關分析篩選與土壤鹽分(Soil Salt Content,SSC)或土壤電導率(Electric Conductivity,EC)顯著相關的因子用于土壤鹽漬化的制圖研究[2,9]。Pearson相關性分析的本質是一種線性關系,忽略了預測變量與目標變量之間的非線性關系[16]。王飛等[17]使用循環迭代的方法對變量進行優選,相較于全變量,優選之后的模型精度和穩定性得到顯著提升,但這種方法進行變量優選時會耗費大量的時間。相較于上述變量優選方法,極端梯度提升(Extreme Gradient Boosting,XGBoost)可以有效的構造增強樹并運行、并行計算、近似建樹以及對稀疏數據進行有效處理[18]。同時,該算法也借鑒了隨機森林的特征采樣做法,在對弱學習器進行訓練時,只考慮隨機抽樣特征的子數據集,增加了模型的多樣性,避免過擬合,也減少了模型的計算量,有效提高了對輸入特征變量重要性最優解的效率[19]。XGBoost因其強大的優化能力,已被廣泛應用于各領域,卻鮮見于土壤鹽漬化建模特征變量優選中,其適用性有待驗證。
基于此,本文擬以新疆艾比湖濕地為研究區,使用Sentinel-2A、高程數據提取3類(紅邊光譜指數、植被指數、地形因子)共61個與鹽漬化相關的因子作為環境變量,并結合EC采樣數據,采用XGBoost算法優選環境變量,利用優選之后的紅邊光譜指數、紅邊光指數與植被指數、紅邊光譜指數與地形指數以及3類指數的組合構建RF、PLSR和ELM 3種鹽漬化預測模型,優選出艾比湖保護區最佳土壤鹽漬化制圖方案,以期實現對旱區濕地土壤鹽漬化分布特征更為精細的刻畫,為干旱區濕地的土地可持續利用和生態保護提供科學依據。
艾比湖濕地自然保護區位于新疆維吾爾自治區博爾塔蒙古自治州境內,地理位置43°38′~45°52′N,79°53′~85°02′E之間(圖1)。研究區主要土地利用類型包括水體、濕地、荒漠和其他類型。受低平的地形(海拔189 m)、特定的氣候特征和淺層地下水位的影響,研究區的土壤鹽漬化問題嚴重。近年來,由于艾比湖人口的激增、土地的大規模開發利用,致使湖面縮小,土壤鹽漬化不斷惡化,嚴重威脅著當地生態系統的安全與社會經濟的可持續發展。

圖1 研究區及采樣點分布
野外土壤調查于2019年5月25日至5月29日進行,采樣過程的調查路線是依據車輛對潛在樣點的可達性而設計的。根據之前的實地調查經驗,結合現有的數字土壤圖(土壤類型、質地等特征)和當地主要的土地利用/覆蓋類型,總共選擇了78個具有代表性的采樣點(圖1)。研究區的主要農作物為棉花,其他植被主要有胡楊、檉柳、鹽節木、堿蓬、蘆葦等,其中裸地設計采樣點23個,草地22個,林地18個、耕地15個。在各采樣點10 m×10 m樣方內使用木鏟采集4個樣本,采樣深度為10 cm,并在現場進行混合以創建代表性的復合樣本,使用便攜式GPS(UniStrong G120,誤差小于5 m)記錄每個采樣點的位置。盡管GPS定位精度水平不理想,但可以在四邊形采樣樣方和遙感影像像素之間提供合理的位置對準[5]。將土壤放入密封的防水袋中并貼上標貼,以備進行近一步的化學分析。將所有樣品風干、研磨(瑪瑙體)、均質并過0.15 mm篩。每20 g土壤樣品中加入100 ml蒸餾水,并充分震蕩30 min后,靜置24 h,然后通過配備有復合電極(TetraCon 925)的數字多參數測量設備(Multi 3420 Set B,WTW GmbH,德國)在室溫25℃下提取滲濾液以測量土壤電導率[5]。
Sentinel-2A衛星于2015年發射,承擔著全球環境與安全監測的重要任務,其幅寬達290 km,重訪周期為10 d,影像的最高分辨率為10 m,相關參數請見官網。本次研究中從歐洲航天局哥白尼開放訪問中心(https://scihub.copernicus.eu/)獲取到兩張以UTM/WGS84投影的無云Sentinel-2多光譜衛星的Level-1C級影像數據,成像時間為2019年5月28日。遙感影像數據已經過輻射校正和幾何處理的Level-1C大氣上層表觀反射率。利用配套處理軟件SNAP和Sen2Cor插件進行大氣校正,將大氣上層表觀反射率轉換為大氣層底部反射率值。在此步驟中,分辨率為60 m的波段(波段1、波段9和10)主要用于監測大氣特征,因此不包括在后續研究中。為了盡可能多的保留信息,每個預處理光譜帶的鑲嵌圖以10 m的空間分辨率進行創建。
地形數據是數字土壤制圖研究中最常用的地表參數,地形條件在鹽分布和重新分布中起著重要作用,坡陡的地形有利于鹽分的淋移,而低洼的地形卻有利于鹽分的積累[20]。本研究從地理空間數據云(http://www.gscloud.cn/)獲取了空間分辨率為30 m的研究區DEM數據,并重采樣成10 m的分辨率,使用SAGA GIS軟件計算了15種地形指數,見表1。在土壤鹽漬化監測中,植被是影響預測精度的關鍵因素之一,雖然植被會遮蔽土壤信息,但是在高植被覆蓋下,植被指數對土壤鹽分的變化更加敏感[21]。已通過遙感影像計算了部分植被指數,見表2。在遙感影像上,由于鹽漬化土壤的藍、綠、紅和近紅外的光譜特性不同,因此相關學者開發了各種鹽度指數用于土壤鹽漬化的監測與制圖[22]。然而目前構建的指數大都集中于可見光與近紅外波段,在短波近紅外和紅邊光譜帶中研究較少,Sentinel-2特有的3個紅邊光譜帶為改善土壤鹽分監測提供了新的機遇。本研究計算了33個紅邊光譜指數,見表3。

表1 地形指數

表2 植被指數及其計算公式
注:為Sentinel-2A波段反射率,下標數字為各波段編號,下同。
Note:is reflectivity of Sentinel-2A waveband, and the subscript number is the number of each band, same as below.

表3 紅邊光譜指數及其計算公式[5]
在土壤鹽漬化制圖中,并不是所有的環境因子都是參與建模的重要變量,其對EC預測的貢獻也存在差異[32]。XGBoost模型是高級的樹增強系統,它是Friedman[33]開發的梯度增強方法的改進,與梯度提升回歸樹算法相比,它不再使用一階導數,而是基于二階泰勒公式展開,其通過許多加法函數進行預測:





式中為第棵樹的葉子樹,為葉子權值,從1到,和是控制樹結構的簡單性以避免過擬合的正則化參數。參數G和H分別是損失函數的第一和第二梯度的第個葉相關樣本的總和。

式(4)中G和H與左葉相關,G和H在分裂后與右葉相關。如果增益參數優于0,則接受分裂。因此,增加正則化參數和降低增益參數,從而避免葉分裂的復雜性,即保持樹結構的簡單性,但同時也會降低模型對訓練數據的擬合能力。
隨機森林(RF)是一種包含多棵決策樹,輸出類別由個別樹輸出的類別眾數而決定的分類回歸模型。RF不需要關于響應協變量關系的分布假設,Bagging算法確保了模型的性能,該過程允許對模型泛化能力進行統計上的可靠估算,并不存在過度擬合的風險[19]。在Python3.7語言中,RF通過Sklearn機器學習庫實現(決策樹數量n_estimators = 41)。極限學習機(ELM)模型是發展于單隱含層前饋神經網絡的新型算法,是為快速訓練而設計的單層前饋神經網絡算法[34]。ELM以學習力迅速、泛化性突出、參數設置便捷等優點彌補傳統神經網絡中出現時間訓練時間過長、學習率敏感等不足的缺點(本文中隱含層Hidden nodes=16)。偏最小二乘回歸(PLSR)結合了主成分分析、多元線性回歸分析和典型相關分析方法的特點,是一種新型的數據分析方法。PLSR建立的模型具有更好的魯棒性,避免過擬合,為多元統計分析提供了極大便利[35]。
利用Python3.7編程語言中機器學習庫Sklearn模塊中train_test_split函數隨機劃分出70%(=54)的建模集和30%(=24)的驗證集,并用random_state函數固定選中的數據集。為了評估基于 RF、ELM 和 PLSR 3種預測模型的性能,本文選取決定系數(2)、均方根誤差(Root Mean Square Error,RMSE)和相對分析誤差(Ratio of Performance to Deviation,RPD)來客觀評價預測建模的效果和性能。其中,2值越大,模型的精度越高;RMSE 表示預測能力,其大小與2成反比。RPD作為一種預測指標也已廣泛應用于評估預測模型的準確性中。當RPD≥2.5表示模型具有極佳預測能力,2.0≤RPD<2.5之間表示模型預測效果較好,1.7≤RPD<2.0表示模型預測能力一般,1.4≤RPD<1.7表示預測結果較差,RPD<1.4表示預測模型不可信[36]。
在整個研究區內EC的變化很大,整個數據集的EC在0.25~39.8 dS/m 之間變化。建模集和驗證集的均值分別為10.27和11.97 dS/m,變異系數分別為0.96和0.81,全樣本的均值為10.79 dS/m,變異系數為0.91,為中等變異。全樣本的均值和變異系數均介于驗證集和建模集之間,表明樣本劃分合理。
為了可視化不同鹽度的土壤樣品與Sentinel-2A各波段反射率之間的關系,根據土壤鹽漬化程度劃分標準,繪制了不同鹽度水平區間和光譜反射率均值的光譜曲線(圖2)。

圖2 研究區不同電導率土壤的反射光譜曲線
如圖2所示,從非鹽土(0.73 dS/m,最低反射率)到鹽土(24.58 dS/m,最高反射率),土壤樣品的反射率隨著土壤鹽分的增加而增加。不同土壤樣品的電導率光譜反射率曲線非常相似,從可見光到近紅外波段,尤其是從藍光到近紅外波段(B2-B8a)急劇增加,并在短波近紅外波段1(B11)處達到最大值,從短波近紅外波段1到短波近紅外波段2(B12)反射率降低。但值得注意的是在短波近紅外波段2中,不同EC水平和相應光譜特征之間的規律不太明顯(圖2),這與El Harti等[37]的發現是一致的。
使用五折交叉驗證方法訓練XGBoost算法計算特征屬性重要性,采用默認參數,以盡可能減少人為因素的影響,特征值小于0.01時無統計學意義,在本次研究中將重要性小于0.01的環境變量全部予以剔除[38]。本文在Python3.7 中通過XGBoost庫進行環境變量進行篩選。在15個地形指數中,LSF的重要性為38.38%,其次是CA(重要性27.27%),而CI、VD、RSP、AS、DEM、PC、PrC的重要性小于0.01,因此不參與建模。在13個植被指數中, MAVI的重要性為32.7%,RVI和IPVI的重要性小于0.01,因此剔除這2個植被指數。在33個紅邊光譜指數中,RESI62、RESI61、RESI13、RESI12、RESI36、RESI34、REII16、REII13、RESI14的重要性都為小于0.01,全部剔除,重要性最大的指數是RENDSI2。至此,在3種指數中,共篩選出了8個地形指數、11個植被指數、24個紅邊光譜指數參與本次建模。圖3為篩選后指數及其重要性。

圖3 優選變量及其重要性
利用紅邊光譜指數、紅邊光譜指數與地形指數、紅邊光譜與植被指數以及三者的組合分別作為輸入變量,以土壤電導率為目標變量,建立了RF、ELM和PLSR 3種模型,利用獨立的驗證數據集來驗證模型的預測能力。結果表明,僅利用紅邊光譜指數所建立的估算模型中,RF模型的效果最好(驗證集2=0.63, RMSE=7.14 dS/m, RPD =2.09),根據驗證標準,具有較好的預測能力,而ELM預測效果較差。在紅邊光譜指數分別與地形指數、植被指數組合所建立的預測模型中,紅邊光譜指數與植被指數組合所建立模型的效果優于其分別與地形指數的組合,在其與植被指數組合所建立的模型中,RF模型的驗證集2為0.76,RMSE為5.36 dS/m,RPD 為2.79。此外,3種指數的組合建立的模型預測效果都優于其與地形指數和植被指數的組合。對比3種模型驗證集2、RMSE和RPD 可知,RF的預測效果最佳,2為0.83,RMSE為4.81 dS/m,RPD 為3.11,ELM次之,2為0.78,RMSE為5.19 dS/m,RPD 為2.88,PLSR的效果最差。此外,隨著輸入特征變量的增加,不同模型的預測精度都有不同程度的增加(表4)。總之,在3種建模方法中,RF的預測性能和效果都優于其他2個模型(表4)。

表4 3種建模方法預測結果比較
利用選取的最優變量組合(Spectral index+ Topographic index + Vegetation Index)和最佳模型(RF)繪制了艾比湖濕地土壤鹽漬化空間分布圖(圖4)。依據土壤鹽漬化等級劃分標準,將研究區土壤樣本劃分為5類:EC<2 dS/m 為非鹽漬土,2≤EC<4 dS/m 為輕度鹽漬化,4≤EC<8 dS/m 為中度鹽漬化,8≤EC<16 dS/m為重度鹽漬化,EC≥16 dS/m為鹽漬土[39]。從圖中(圖4)可以看出,土壤鹽分從研究區的中心到邊緣逐漸降低。受地形影響,鹽堿化程度最低的區域大部分位于研究區北部,而鹽漬化程度最高的地區位于艾比湖的中部和東部地區。

圖4 土壤鹽漬化分布圖
本研究中預測準確性的比較表明,機器學習算法的選擇以及環境變量的類型和組合對EC的預測性能有很大的影響(表4)。總體而言,RF模型的表型優于其他2個預測模型,這與Wang等[40]的研究結果相似。在3個研究地點(德國,比利時,盧森堡),Castaldi等[41]利用不同類型的遙感影像進行土壤性質的預測,發現遙感數據的類型、預測模型的選擇以及研究區域對預測精度有影響。此外,以前的研究中也存在不一致之處,厲彥玲等[42]使用環境一號衛星(HSI)高光譜衛星和Lansat8多光譜衛星2種不同傳感器的影像進行融合,構建了多元線性回歸(MLR)、PLSR、RF、BP神經網絡和支持向量機(SVM)5種模型對黃河三角洲的土壤鹽分進行反演,結果表明BP神經網絡模型的預測效果要優于其他模型。基于此,沒有一個模型在所有情況下都能達到最佳效果,因此,我們建議使用特定的實驗數據集來校準模型。
各種光譜傳感器使用地面目標反射的光譜信息來監測目標信息,與不同鹽度的目標土壤相關的不同光譜特征也為表土鹽度監測奠定了基礎[40]。鹽漬化程度最高的區域通常覆蓋著白色鹽殼,這解釋了幾乎在每個波段中土壤鹽分增加時土壤樣品的光譜反射率增加(圖2)。這使得可以將光譜指數用于土壤鹽度監測和制圖,在大范圍遠程監測土壤鹽漬化過程中具有重要作用[2]。地形是土壤形成中最重要的因素之一,基于DEM的地形變量通常被用作數字化土壤制圖的關鍵因子。地形控制著溶質、水和沉積物的流動,進而影響土壤的發育和土壤特性的空間分布[43]。在本次研究中,VD、RSP、PrC、PC、DEM、CI、AS重要性小于0.01,未參與建模,這可能主要是由于研究區地形相對平坦。此外,該地區降雨產生的地表徑流有限,大大削弱了地形因素對鹽分再分配的影響[40]。土壤性質與植被覆蓋之間有著密切的關系,而植被指數可以捕捉到土壤性質的變化。蒙莉娜等[9]的研究表明,植被指數和遙感反射率是預測土壤性質的重要指標。在33個紅邊光譜指數中,有將近73%的指數參與了建模。建模結果也表明,在加入了植被指數之后,3種建模方法效果和穩定性都優于其與地形指數參與的建模效果。值得注意的是,植被指數和鹽度光譜指數在全世界范圍內的鹽度監測中均顯示出較高的預測精度[5]。此外,植被指數和鹽度光譜指數對土壤鹽分的響應受許多因素影響,并沒有通用的光譜指數在任何環境條件下都能顯示出良好的預測精度[2]。
利用RS技術實現對土壤鹽漬化的監測,鹽度不是影響土壤光譜特征的唯一因素,土壤水分、土壤質地和植被是影響監測精度的關鍵因素,由于植被覆蓋率、土壤水分和土壤質地會發生可變誤差,對土壤鹽分制圖將會產生一定的影響[5]。在未來的研究中,將嘗試通過增加采樣點和先進的采樣策略增加樣本量,同時也適當的增加環境協變量,以減少不確定性并做出更可靠地預測,制作更為精細的土壤鹽漬化監測圖。
本研究利用Sentinel-2A影像構建了紅邊光譜指數和植被指數,并輔以地形指數,使用XGBoost模型剔除無效變量,建立了RF、ELM和PLSR 3種土壤鹽漬化預測模型,并利用最佳模型進行了土壤鹽漬化制圖,為進一步監測干旱、半干旱地區土壤鹽漬化選擇有效環境變量,提高土壤鹽漬化制圖精度提供了一定基礎。主要結論如下:
1)在不同水平的土壤電導率下相應光譜反射特征的變化表明,土壤含鹽量越高,光譜反射越強烈,并在短波近紅外波段1(B11)處達到最大值。
2)優選的紅邊光譜指數基本可以實現對土壤鹽分的預測,僅用優選的紅邊光譜指數建立的RF模型預測精度(驗證集2=0.63,RMSE=7.14 dS/m,RPD=2.09)優于其他2個模型。此外,隨著特征變量(地形指數和植被指數)的加入,3個模型的預測精度和穩定性都有不同程度的增加和改善。
3)3類變量組合建模取得了良好的預測精度,其中RF的預測精度和穩定性最佳(驗證集2=0.83,RMSE=4.81 dS/m,RPD=3.11),并利用其進行了土壤鹽漬化制圖。鹽漬化嚴重的地區主要分布在艾比湖東部和中部地區,北部地區鹽漬化程度較低。
[1] Dehaan R, Taylor G R. Image-derived spectral endmembers as indicators of salinisation[J]. International Journal of Remote Sensing, 2003, 24(4): 775-794.
[2] Peng Jie, Biswas A, Qing Songjiang, et al. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China[J]. Geoderma, 2019, 337: 1309-1319.
[3] Ma Ziqiang, Xu Yaping, Peng Jie, et al. Spatial and temporal precipitation patterns characterized by TRMM TMPA over the Qinghai-Tibetan plateau and surroundings[J]. International Journal of Remote Sensing, 2018, 39(11/12): 3891-3907.
[4] Ding Jianli, Yu Danlin. Monitoring and evaluating spatial variability of soil salinity in dry and wet seasons in the Werigan-Kuqa Oasis, China, using remote sensing and electromagnetic induction instruments[J]. Geoderma, 2014, 235: 316-322.
[5] Wang Jingzhe, Ding Jianli, Yu Danlin, et al. Capability of Sentinel-2 MSI data for monitoring and mapping of soil salinity in dry and wet seasons in the Ebinur Lake region, Xinjiang, China[J]. Geoderma, 2019, 353: 172-187.
[6] Nesa Farahmand, Vahid Sadeghi. Estimating soil salinity in the dried lake bed of Urmia lake using optical Sentinel-2 images and nonlinear regression models[J]. Journal of the Indian Society of Remote Sensing, 2020, 48(4): 675-687.
[7] 朱阿興,楊琳,樊乃卿,等. 數字土壤制圖研究綜述與展望[J]. 地理科學進展,2018,37(1):66-78.
Zhu Axing, Yang Lin, Fan Naiqing, et al. The review and outlook of digital soil mapping[J]. Progress in Geography, 2018, 37(1): 66-78. (in Chinese with English abstract)
[8] 張天柱,張鳳榮,黃敬文,等. 工業化區域撂荒耕地空間格局演變及影響因素分析[J]. 農業工程學報,2019,35(15):246-255.
Zhang Tianzhu, Zhang Fenrong, Huang Jinwen, et al. Spatial pattern evolution of abandoned arable land and its influencing factor in industrialized region[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 246-255. (in Chinese with English abstract)
[9] 蒙莉娜,丁建麗,王敬哲,等. 基于環境變量的渭干河-庫車河綠洲土壤鹽分空間分布[J]. 農業工程學報,2020,36(1):175-181.
Meng Lina, Ding Jianli, Wang Jingzhe, et al. Spatial distribution of soil salinity in Ugan-Kuqa River delta oasis based on environmental variables[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 36(1): 175-181. (in Chinese with English abstract)
[10] 韓逸,江葉楓,郭熙,等. 基于增強回歸樹的鄱陽湖平原區耕地土壤鉀素空間變異影響因素研究[J]. 植物營養與肥料學報,2020,26(4):622-634.
Han Yi, Jiang Yefeng, Guo Xi, et al. Study on the factors influencing the spatial variability of soil potassium in cultivated land in Poyang Lake Plain based on boosted regression tree[J]. Journal of Plant Nutrition and Fertilizers, 2020, 26(4): 622-634. (in Chinese with English abstract)
[11] 劉全明,成秋明,王學,等. 河套灌區土壤鹽漬化微波雷達反演[J]. 農業工程學報,2016,32(16):109-114.
Liu Quanming, Cheng Qiuming, Wang Xue, et al. Soil salinity inversion in Hetao Irrigation district using microwave radar[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(16): 109-114. (in Chinese with English abstract)
[12] 陳紅艷,趙庚星,陳敬春,等. 基于改進植被指數的黃河口區鹽漬土鹽分遙感反演[J]. 農業工程學報,2015,31(5):107-114.
Chen Hongyan, Zhao Gengxing, Chen Jingchun, et al. Remote sensing inversion of saline soil salinity based on modified vegetation index in estuary area of Yellow River[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 107-114. (in Chinese with English abstract)
[13] 姚志華,陳俊英,張智韜,等. 覆膜對無人機多光譜遙感反演土壤含鹽量精度的影響[J]. 農業工程學報,2019,35(19):89-97.
Yao Zhihua, Chen Junying, Zhang Zhitao, et al. Effect of plastic film mulching on soil salinity inversion by using UAV multispectral remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(19): 89-97. (in Chinese with English abstract)
[14] Allbed A, Kumar L, Aldakheel Y Y. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region[J]. Geoderma, 2014(230/231): 1-8.
[15] Zhou Tao, Lu Huiling, Wang Wenwen, et al. GA-SVM based feature selection and parameter optimization in hospitalization expense modeling[J]. Applied Soft Computing, 2019, 75: 323-332.
[16] 徐紅濤,陳春波,鄭宏偉,等. 基于相關分析和自適應遺傳算法的鹽漬化建模變量和參數優選[J]. 地球信息科學學報,2020,22(7):1497-1509.
Xu Hongtao, Chen Chunbo, Zheng Hongwei, et al. Correlation analysis and adaptive genetic algorithm based feature subset and model parameter optimization in salinization monitoring[J]. Journal of Geo-information Science, 2020, 22(7): 1497-1509. (in Chinese with English abstract)
[17] 王飛,楊勝天,丁建麗,等. 環境敏感變量優選及機器學習算法預測綠洲土壤鹽分[J]. 農業工程學報,2018,34(22):102-110.
Wang Fei, Yang Shengtian, Ding Jianli, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(22): 102-110. (in Chinese with English abstract)
[18] 田美玲,葛翔宇,丁建麗,等. 耦合機器學習和機載高光譜數據的土壤含水量估算[J]. 激光與光電子學進展,2020,57(9):093002.
Tian Meiling, Ge Xiangyu, Ding Jianli, et al. Coupled machine Learning and UAV-based hyperspectral imagery for soil water content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 093002. (in Chinese with English abstract)
[19] 鄒玉江. 基于機器學習的滬深300指數走勢預測研究[D].濟南:山東大學,2018.
Zou Yujiang. The Study of HS300 Index Predition Based Machine Learning[D]. Jinan: Shandong Uiniversity, 2018. (in Chinese with English abstract)
[20] Taghizadeh-Mehrjardi R, Minasny B, Sarmadian F, et al. Digital mapping of soil salinity in Ardakan region, central Iran[J]. Geoderma, 2014, 213: 15-28.
[21] Zhang Tingting, Zeng Shenglan, Gao Yu, et al. Using hyperspectral vegetation indices as a proxy to monitor soil salinity[J]. Ecological Indicators, 2011, 11(6): 1552-1562.
[22] Meng Ling, Zhou Shiwei, Zhang Hua, et al. Estimating soil salinity in different landscapes of the Yellow River Delta through Landsat OLI/TIRS and ETM+ Data[J]. Journal of Coastal Conservation, 2016, 20(4): 271-279.
[23] Tucker C J. Red and photographic infrared linear combinations for monitoring vegetation[J]. Remote Sensing of Environment, 1979, 8(2): 127-150.
[24] Frampton W J, Dash J, Watmough G, et al. Evaluating the capabilities of Sentinel-2 for quantitative estimation of biophysical variables in vegetation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2013, 82: 83-92.
[25] 易秋香. 基于 Sentinel-2 多光譜數據的棉花葉面積指數估算[J]. 農業工程學報,2019,35(16):189-197.
Yi Qiuxiang. Remote estimation of cotton LAI using Sentinel-2 multispectral data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(16): 189-197. (in Chinese with English abstract)
[26] Qi J, Chehbouni A, Huete A R, et al. A modified soil adjusted vegetation index[J]. Remote Sensing of Environment, 1994, 48(2): 119-126.
[27] Jordan C F. Derivation of leaf-area index from quality of light on the forest floor[J]. Ecology, 1969, 50(4): 663-666.
[28] Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295-309.
[29] Gitelson A A, Kaufman Y J, Merzlyak M N. Use of a green channel in remote sensing of global vegetation from EOS-MODIS[J]. Remote Sensing of Environment, 1996, 58(3): 289-298.
[30] Huete A, Didan K, Miura T, et al. Overview of the radiometric and biophysical performance of the MODIS vegetation indices[J]. Remote Sensing of Environment, 2002, 83(1/2): 195-213.
[31] Daughtry C, Walthall C, Kim M, et al. Estimating corn leaf chlorophyll concentration from leaf and canopy reflectance[J]. Remote Sensing of Environment, 2000, 74(2): 229-239.
[32] 張振華,丁建麗,王敬哲,等. 集成土壤-環境關系與機器學習的干旱區土壤屬性數字制圖[J]. 中國農業科學,2020,53(3):563-573.
Zhang Zhenghua, Ding Jianli, Wang Jingzhe, et al. Digital soil properties mapping by ensembling Soil-Environment Relationship and Machine Learning in Arid Regions[J]. Scientia Agricultura Sinica, 2020, 53(3): 563-573. (in Chinese with English abstract)
[33] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. Annals of Statistics, 2001, 29(5): 1189-1232.
[34] Huang Gao, Huang Guangbin, Song Shiji, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48.
[35] 薛利紅,周鼎浩,李穎,等. 不同利用方式下土壤有機質和全磷的可見近紅外高光譜反演[J]. 土壤學報,2014,51(5):993-1002.
Xue Lihong, Zhou Dinghao, Li Yin, et al. Prediction of soil organic matter and total phosphorus with Vis-NIR hyperspectral inversion relative to land use[J]. Acta Pedologica Sinica, 2014, 51(5): 993-1002. (in Chinese with English abstract)
[36] Chang C W, Laird D A, Mausbach M J, et al. Near-infrared reflectance spectroscopy-principal components regression analyses of soil properties[J]. Soil Science Society of America Journal, 2001, 65(2): 480-490.
[37] El Harti Abderrazak, Lhissou Rachid, Chokmani Karem, et al, Spatiotemporal monitoring of soil salinization in irrigated Tadla Plain (Morocco) using satellite spectral indices[J]. International Journal of Applied Earth Observations and Geoinformation, 2016, 50: 64-73.
[38] Zamani M. PM2.5 Prediction based on random forest, XGBoost, and deep learning using multisource remote sensing data[J]. Atmosphere, 2019, 10(7), 373.
[39] Wang Jingzhe, Ding Jianli, Yu Danlin, et al. Machine learning-based detection of soil salinity in an arid desert region, Northwest China: A comparison between Landsat-8 OLI and Sentinel-2 MSI.[J]. The Science of the Total Environment, 2020, 707: 136092.
[40] Wang Sijia, Chen Yunhao, Wang Mingguo, et al. Performance comparison of machine learning algorithms for
Estimating the soil salinity of salt-affected soil using field spectral data[J]. Remote Sensing, 2019, 11(22): 2605.
[41] Castaldi F, Hueni A, Chabrillat S, et al. Evaluating the capability of the Sentinel 2 data for soil organic carbon prediction in croplands[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 147: 267-282.
[42] 厲彥玲,趙庚星,常春艷,等. OLI 與 HSI 影像融合的土壤鹽分反演模型[J]. 農業工程學報,2017,33(21):173-180.
Li Yanling, Zhao Gengxing, Chang Chunyan, et al, Soil salinity retrieval model based on OLI and HSI image fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(21): 173-180. (in Chinese with English abstract)
[43] Ibrahim Yahiaoui, Abdelkader Douaoui, Zhang Qiang, et al. Soil salinity prediction in the Lower Cheliff plain (Algeria) based on remote sensing and topographic feature analysis[J]. Journal of Arid Land, 2015, 7(6): 794-805.
Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning
Ma Guolin, Ding Jianli※, Han Lijing, Zhang Zipeng
(1.830046,; 2.,830046,)
As a global problem, soil salinization poses a serious threat to the limited soil resources and ecosystem health in arid and semi-arid areas, and is one of the most important causes of land desertification and land degradation. Soil salinity is an effective evaluation index of soil salinization, and there is temporal and spatial difference. Dynamic monitoring can fully understand the status of soil salinization and effectively provide more quantitative information for soil restoration and land reclamation. Compared with traditional laboratory analysis, satellite remote sensing technology has major advantages in observing the ground at large spatial scales and high temporal resolution. As a new generation of spaceborne multi-spectral instrument (MSI), Sentinel-2A has novel spectral functions (namely, three red-edge bands and two near-infrared bands), which provides a broad prospect for quantitative evaluation of soil properties. At present, only a few studies were associated with red edge spectral index, vegetation index and topographic index in soil salinization mapping, and it has become a great challenge to choose the best modeling technology in soil mapping for a specific landscape area, although many algorithm have been successfully applied in the prediction of soil properties. Therefore, in this study, we used Sentinel-2A red-edge bands, vegetation indexes and digital elevation model (DEM) derived variables to conduct soil salt analysis based on machine learning methods in the Ebinur Lake wetland in the northwestern Xinjiang of China. 24 red edge spectral indices, 11 vegetation indices and 8 topographic indices were selected to participate in the modeling by the XGBoost algorithm, and the Random Forest (RF), Extreme Learning Machine (ELM) and Partial Least Squares Regression (PLSR) three machine learning models based on 78 sampling sites were applied to extract soil Electrical Conductivity (EC). The coefficient of determination (2), root mean square error (RMSE) and ratio of performance to deviation (RPD) were used to evaluate the prediction accuracy of the above models. The results showed that the optimal red edge spectral index combined with RF could basically predict EC. The verification set2, RMSE, and RPD were 0.63, 7.14 dS/m, and 2.09, respectively. The prediction accuracy of the combined modeling of the red edge spectral index and the vegetation index is better than that of the combination with the terrain index, and the prediction effect of the RF model was better than that of ELM and PLSR, and its training set (2=0.83, RMSE=4.84 dS/m), validation set (2=0.76, RMSE=5.36 dS/m, RPD=2.79). The prediction accuracy of the combined modeling of the red edge spectral index, vegetation index and terrain index combined with RF reached the best. The2, RMSE and RPD of the verification set were 0.83, 4.81 dS/m and 3.11, respectively. In addition, with the continuous increase of input feature variables, the prediction effect of each model were improved to varying degrees. Soil salinization mapping based on the optimal variable combination (red edge spectral index + terrain index + vegetation index) and the best prediction model (RF), showed that the degree of soil salinization in the central and eastern regions was particularly serious in the study area.
soils; salts;digital mapping; machine learning; variable selection; Sentinel-2A
馬國林,丁建麗,韓禮敬,等. 基于變量優選與機器學習的干旱區濕地土壤鹽漬化數字制圖[J]. 農業工程學報,2020,36(19):124-131.doi:10.11975/j.issn.1002-6819.2020.19.014 http://www.tcsae.org
Ma Guolin, Ding Jianli, Han Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(19): 124-131. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.19.014 http://www.tcsae.org
2020-06-14
2020-09-20
國家自然科學基金項目(41961059,41771470)
馬國林,主要從事陸地遙感研究。Email:15894636407@163.com
丁建麗,教授,博士生導師,主要從事干旱區環境演變與遙感應用方面的研究。Email:watarid@xju.edu.cn
10.11975/j.issn.1002-6819.2020.19.014
S153
A
1002-6819(2020)-19-0124-08