杜瑞麒,陳俊英※,張智韜,徐洋洋,張 興,殷皓原,楊 寧
(1. 西北農林科技大學水利與建筑工程學院,楊凌 712100;2. 西北農林科技大學旱區農業水土工程教育部重點實驗室,楊凌 712100)
在干旱-半干旱地區,土壤鹽漬化問題嚴重制約著當地灌溉農業的生產與發展,及時、準確地監測土壤鹽分含量的動態變化,對治理土壤鹽漬化以及提高農業生產效率具有重要意義[1-5]。目前,遙感技術已被證明具備監測土壤鹽分含量的能力。從光學角度來看,當前常用的傳感器主要分為多光譜攝影機[6]、多光譜掃描儀[7]、航空攝影機(航攝儀)[8]、全景攝影機[9]、合成孔徑側視雷達[10]。相比于其他傳感器,多光譜具有成像視角較廣和頻帶預處理相對簡單的特點,在區域尺度上更容易實現土壤鹽分含量的實時采集和制圖,如中分辨率成像光譜儀[11-13]、Landsat衛星[14]、IKONOS衛星[15]、和高分1號衛星[16]。然而,由于多光譜衛星回訪時間較長及空間分辨率較低,使得在監測精度上存在一定局限。于2015年發射的Sentinel-2衛星是唯一一顆在紅邊范圍上有3個波段的衛星,在監測植被健康信息上有較大優勢[17-19]。
當地表存在植被時,裸土和植被均會對光譜反射率產生影響,對利用遙感技術反演植被覆蓋條件下土壤鹽分含量帶來困難,如王飛等[20]基于機器學習算法預測中國新疆典型綠洲地區的土壤鹽分含量時,發現對于植被覆蓋程度較高的農田,預測效果并不突出,而在沙漠地區更符合實際情況。為此,很多學者通過探究作物生育期內植被生長狀態與光譜反射率之間的關系,將光譜反射率計算成光譜指數以構建相應的土壤鹽分含量反演模型,如黃權中等[21]基于 Landsat 8 OLI影像構建鹽分光譜指數(Spectral Index,SI),以反演中國河套灌區農田土壤鹽分含量,決定系數為0.46。然而,當前研究忽略了不同植被生長狀態對同一土壤深度的土壤鹽分含量響應的差異性,而這可能是導致反演效果仍不理想的原因。與此同時,植被生長狀態也會受土壤含水率的影響,尤其在干旱-半干旱地區,植被生長狀態會因受到水分脅迫而有所改變,進而影響光譜反射率,如梁靜等[22]發現衛星光譜反射率與室內測量的光譜反射率的聯合建模可降低植被生長狀態和土壤含水率對光譜反射率的干擾,明顯提高土壤鹽分含量的估算精度。因此,有必要選擇一個能同時考慮土壤含水率、土壤鹽分含量和植被生長狀態這3個因素的算法,從而精準地提取出土壤中的鹽分含量。相比其他算法,決策樹算法可根據數據本身的特點來實現信息精準分類,在監測土壤鹽分含量方面上具有應用潛力,如孫濱峰等[23]通過構建以歸一化植被指數(Normalized Difference Vegetation Index,NDVI)為分支標準、相關系數和馬氏距離為評估標準的決策樹來識別中國江西省永豐縣的生態系統(濕地、森林、草地、農田),分類精度可達89.11%。
綜上,本研究利用Sentinel-2衛星獲取的多光譜影像,基于采樣與試驗獲取土壤樣本的土壤含水率和土壤鹽分含量,通過構建以NDVI為分支標準的鹽分深度決策樹和以NDVI和表層土壤(<20 cm)的含水率為分支標準的類別決策樹,以確定每個土壤樣本鹽分含量的最佳反演深度和類別,并應用自適應提升算法(Adaptive boosting algorithm,Adaboost)、支持向量機(Support Vector Machines,SVM)、偏最小二乘法(Partial Least Square Regression,PLSR)、漸進梯度決策樹(Gradient Boosting Decision Tree,GBDT)和隨機森林(Random Forest,RF)5種機器學習方法對不同類別的土壤樣本分別構建土壤鹽分含量反演模型,以期為多光譜衛星監測植被覆蓋條件下土壤鹽分含量的動態變化提供有效方案。
研究區域位于河套灌區解放閘灌域的沙壕渠。解放閘灌域位于內蒙古自治區西部(40°13'49"N,107°04'26"E),東接包頭市,西到烏蘭布和沙漠,南臨黃河,北至陰山(圖1a),控制面積為21.6萬hm2,現有灌溉面積為14.2萬hm2。研究區屬于典型的大陸性氣候,年降雨量為158 mm,年蒸發量超過2 000 mm,土壤以粉質黏壤土為主,種植作物主要以玉米和葵花為主。該區域內約60%的土地受到不同程度的鹽漬化影響,嚴重制約當地農業活動的健康可持續發展[6]。
1.2.1 土壤樣本的采集與測定
本研究于2019年的6-8月在河套灌區沙壕渠進行土壤樣本采集工作,待實地勘察之后,根據研究區域內土壤鹽漬化程度的不同,均勻布設100個采樣點(圖1b)。土壤樣本的采集時間為2019年6月13日、2019年7月21日、2019年8月13日(共計300個土壤樣本),采樣土壤深度為<20、20~40和>40~60 cm。
待采集完畢后,將土壤樣本進行烘干處理,根據式(1)計算土壤表層(<20 cm)處的含水率(Soil Moisture Content,SMC,%);土壤樣本在烘干之后進行研磨,經過土水比1:5進行溶液的配置和溶液靜置沉淀后,使用電導率儀(DDS-307A,上海佑科儀器公司)測定土壤溶液的電導率(Electric Conductivity,EC,mS/cm),再根據經驗公式[6]式(2)計算土壤鹽分含量(Soil Salinity Content,SSC,%)。
式中SQorigin為土壤樣本的質量,g;SQdried為烘干后土壤樣本的質量,g。
1.2.2 Sentinel-2衛星影像的獲取與處理
本研究在美國地質勘探局(United States Geological Survey,USGS)官方網站(https://www.usgs.gov/)上下載與采樣時間同步的Sentinel-2衛星影像,然后利用Sen2cor、SNAP(Sentinel Application Platform)和ENVI軟件(the Environment for Visualizing Images)對衛星影像分別進行大氣校正、格式轉換和數據讀取(即波段2~12的光譜反射率)。
一般而言,不同土壤深度下土壤鹽分含量與光譜反射率之間關系的顯著性存在差異,且該差異與歸一化植被指數(Normalized Difference Vegetation Index,NDVI)有關[24-26]。為此,本研究通過構建以NDVI為分支標準的決策樹來確定每個土壤樣本鹽分含量的最佳反演深度。
本研究收集的土壤樣本共計300個,每個土壤樣本對應3種土壤深度的土壤鹽分含量,故共計3300種深度組合。為篩選出最佳鹽分深度決策樹,需遍歷所有深度組合構建的鹽分深度決策樹。為降低該計算量,本研究假定不同土壤樣本的歸一化植被指數在同一范圍時,土壤鹽分含量的最佳反演深度也一致[24-26]。基于此假定,本研究以NDVI為分支標準、分支數為3和每個分支樣本數不低于70的分支結構來構建鹽分深度決策樹。因此,所有土壤樣本會被2個閾值(NDVI1和NDVI2)劃分為3個數據集,3個數據集的NDVI范圍分別為[0,NDVI1)、[NDVI1,NDVI2)和[NDVI2,1)。根據土壤樣本的實際劃分情況,鹽分深度決策樹的閾值組合如表1所示。
SMC和SSC對光譜反射率均會產生影響,給SSC的反演帶來誤差,有必要考慮SMC對光譜反射率的影響,以實現土壤鹽分含量的精準反演[27-28]。在實際情況下,SMC與SSC并無直接關系,故很難將SMC直接作為自變量來構建土壤鹽分含量反演模型。與此同時,光譜反射率也會受到植被生長狀態的影響。研究表明,根據NDVI劃分土壤樣本類別并分別構建土壤鹽分含量反演模型的做法可取得理想反演效果[29]。對此,本研究通過構建以NDVI和土壤表層SMC為分支標準的決策樹來實現土壤樣本的類別劃分,以降低植被生長狀態和土壤含水率對反演土壤鹽分含量的影響。
同樣地,為降低計算量,本研究假定不同土壤樣本的NDVI和SMC在同一范圍時,植被生長狀態和土壤含水率對土壤鹽分含量的影響一致[24-26]。基于此假定,本研究設決策樹共有2層分支,第一層以NDVI為分支標準,分支數為2;第二層以SMC為分支標準,每層分支數不超過2,且每個分支的樣本個數不低于70。理論上,所有土壤樣本至少會被類別決策樹劃分為4個類別,但由于每個分支內的樣本數不得低于70,故所有土壤樣本會被2個閾值(NDVI,SMC)劃分為3個類別,并且有2種劃分情況:劃分1中,3個類別的NDVI和SMC范圍分別為[NDVI1,1)和[SMC2,1)、[NDVI1,1)和[0,SMC2)、[0,NDVI1)和[0,1);劃分2中,3個類別的NDVI和SMC范圍分別為[0,NDVI1)和[SMC1,1)、[0,NDVI1)和[0,SMC1)、[NDVI1,1)和[0,1)。根據土壤樣本的實際劃分情況,NDVI1和SMC2的閾值組合共有16種(表1)。

表1 鹽分深度決策樹和類別決策樹的閾值組合Table 1 Threshold combination of salinity depth decision tree and classification decision tree
在篩選最佳鹽分深度決策樹和類別決策樹時,本研究分別以深度決策樹相關系數(correlation coefficient of depth decision tree,RD)和類別決策樹相關系數(correlation coefficient of classfication decision tree,RC)為指標來評估其構建效果,并選擇評估指標達到最大時所對應的鹽分深度決策樹和類別決策樹為最佳鹽分深度決策樹和最佳類別決策樹。RD和RC的計算如式(3)和式(4)所示。
式中Bi為Sentinel-2衛星第i個波段的光譜反射率;Sdepth為指定土壤深度的土壤鹽分含量,%;Rn為第n個分支內Sentinel-2衛星第i個波段的光譜反射率與指定土壤深度的土壤鹽分含量的相關系數;SRD為最佳反演深度下土壤鹽分含量,%,其中最佳反演深度由最佳鹽分深度決策樹得出;Rm為第m個分支內Sentinel-2衛星第i個波段的光譜反射率與最佳反演深度下土壤鹽分含量的相關系數。
本研究所用的機器學習方法有自適應提升算法(Adaboost)、支持向量機(SVM)、偏最小二乘法(PLSR)、漸進梯度決策樹(GBDT)和隨機森林(RF)。
自適應提升算法是一種從一系列弱分類器中產生一個強分類器的通用方法[30]。支持向量機是一種通過推廣誤差上界最小化來增強模型泛化能力的理論方法,本研究選取的核函數為徑向基核函數,核函數參數和懲罰系數由序列最小優化算法(Sequential Minimal Optimization,SMO)篩選而出[31]。偏最小二乘法通過最小化誤差的平方和找到一組數據的最佳函數匹配[32]。漸進梯度決策樹是一種通過多輪迭代實現的決策樹算法[33],能靈活處理連續和離散型數據,有效地防止過擬合現象。隨機森林是一種利用多個決策樹對數據進行判別與分類的集成算法[34],能在運算量沒有顯著提高的前提下提高預測精度,在數據缺失和非平衡情況下比較穩健。
1.5.1 構建流程
由前人研究[6]可知,基于光譜指數監測土壤鹽分含量反演效果較好。為盡可能嘗試所有光譜指數,本研究采用遍歷法對Sentinel-2衛星的11個波段(波段2~12)的光譜反射率進行隨機組合(共165種組合),并按照張磊等[17]研究中提供的8個光譜指數形式(Spectral Index Calculation,SIC)計算相應的光譜指數,最終一共得到了1 320種光譜指數,其中光譜指數的計算如式(5)~式(12)所示。
式中SICz為第z種計算形式的光譜指數,z=1,2,…,8;Rλ1、Rλ2和Rλ3為Sentinel-2衛星波段2~12中隨機3個波段的光譜反射率。在此基礎上,本研究以光譜指數與最佳反演深度下土壤鹽分含量之間的相關系數為評估標準,篩選出最佳的光譜指數作為土壤鹽分含量反演模型輸入的自變量。
本研究基于5種機器學習方法構建土壤鹽分含量反演模型,為保證建模集和驗證集均能代表土壤樣本鹽分含量的統計特征,利用 Kennard-Stone(K-S)算法對300個土壤樣本按照3:2的比例劃分為建模集(180個土壤樣本)和驗證集(120個土壤樣本)。
1.5.2 精度評價
本研究引入決定系數(R2)、均方根誤差(RMSE)、相對分布誤差(Residual Predictive Interquartile Range,RPIQ)和相對分析誤差(Residual Predictive Deviation,RPD)來綜合評估擬合效果,其中R2越接近1,RMSE越接近0,RPIQ越接近0.38(驗證集土壤鹽分含量實測值的RIPQ為0.38),RPD越大,則說明土壤鹽分含量反演模型的精度越高,其中RPIQ和RPD的計算如式(13)和式(14)所示。
式中S為驗證集土壤鹽分含量的標準差,%;Q3為第三四分位數,即驗證集中土壤樣本鹽分含量由小到大排序后,位于第90(驗證集中土壤樣本數量的75%)的土壤樣本鹽分含量,%;Q1為第一四分位數,即驗證集中土壤樣本鹽分含量由小到大排序后,位于第30(驗證集中土壤樣本數量的25%)的土壤樣本鹽分含量,%。
對所有土壤樣本的鹽分含量進行統計分析,其結果如表2所示。由表2可知,2019年6-8月研究區域內土壤鹽分含量的中位數范圍為0.95%~1.68%,參照土壤鹽漬化程度分級標準[3]可知,研究區域屬于重度鹽漬化(>0.5%~1.0%)。研究區域內土壤鹽分含量的均方差范圍為0.58%~0.82%,最大值范圍為2.33%~3.35%,最小值范圍為0.15%~0.21%,說明研究區域內土壤鹽分含量的分布不均勻,存在局部土壤鹽分含量過高的現象。與6月相比,研究區域內土壤鹽分含量在7月和8月相對較低,土壤鹽分含量的分布相對均勻,這可能是因為7-8月期間頻發的降水使土壤水分和鹽分發生劇烈的運移,從而改變研究區域內土壤鹽分含量的分布。

表2 研究區域內土壤鹽分含量統計Table 2 Statistics of soil salinity content in study area%
通過構建鹽分深度決策樹可確定每個土壤樣本鹽分含量的最佳反演深度,構建結果如圖2所示。由圖2可知,當NDVI1和NDVI2分別為0.13和0.26時,波段2~12的RD均能達到最大。與此同時,利用式(3)可計算出每個土壤樣本鹽分含量的最佳反演深度,具體而言,當0≤NDVI<0.13時,土壤樣本鹽分含量的最佳反演深度為<20 cm;當0.13≤NDVI<0.26時,土壤樣本鹽分含量的最佳反演深度為20~40 cm;當0.26≤NDVI<1時,土壤樣本鹽分含量的最佳反演深度為>40~60 cm。
本研究通過構建以NDVI和SMC為分支標準的類別決策樹來確定每個土壤樣本的類別(圖3),以增強土壤鹽分含量對植被生長狀態的敏感性和降低土壤含水率對1光譜反射率的干擾。當(NDVI1,SMC2)2為(0.30,0.21)時,波段2~12的RC均能達到最大(圖3b)。因此,3個類別的土壤樣本的NDVI范圍依次為[0,0.30)、[0,0.30)和[0.30,1),SMC范圍依次為[0.21,1)、[0,0.21)和[0,1)。
為評價土壤鹽分含量反演模型的精度,本研究將驗證集中土壤鹽分含量的實測值與預測值進行比較,并利用R2、RMSE、RPD和RPIQ評價精度,結果如圖4所示。由圖4可知,基于5種機器學習方法的土壤鹽分含量反演模型的R2范圍為0.51~0.70,RMSE范圍為0.25%~0.39%,RPD范圍為1.30~1.67,RPIQ范圍為0.34~0.35(驗證集中土壤樣本鹽分含量實測值的RPIQ為0.38),根據反演精度由高到低的順序,5種機器學習方法的排序依次為RF、Adaboost、GBRT、SVM和PLSR,其中RF的決定系數為0.70,均方根誤差為0.25%,相對分布誤差為0.35,相對分析誤差為1.67,表明基于機器學習方法的土壤鹽分含量反演模型可取得一定的反演效果。相比于其他機器學習方法,基于RF和Adaboost的土壤鹽分含量反演模型精度較為接近,說明RF和 Adaboost這兩種機器學習方法具有較強的泛化能力,能在不同的土壤含水率、鹽分含量和植被生長狀態下均實現理想且穩定的反演效果,在反演土壤鹽分含量上擁有強大的優勢和應用潛力。
為評價土壤鹽分含量反演模型在反演不同土壤深度的土壤鹽分含量上的表現,本研究將每個土壤樣本鹽分含量的實測值與土壤鹽分含量反演模型的預測值進行比較,并利用R2和RMSE評價精度,結果如表3所示。由表3可知,土壤鹽分含量反演模型在不同土壤深度上(<20、20~40和>40~60 cm)的R2依次為0.72、0.56和0.77,驗證集中RMSE依次為0.24%、0.65%和0.22%,表明土壤鹽分含量反演模型在<20 cm和>40~60 cm土壤深度上表現較好,且差異較小,在20~40 cm上表現較差。

表3 不同土壤深度的土壤鹽分含量反演結果評價Table 3 Evaluation of inversion results of soil salinity content at
在植被覆蓋條件下,土壤含水率、鹽分含量和植被生長狀態均能對光譜反射率產生影響,導致很難量化土壤鹽分含量對光譜反射率的影響,給土壤鹽分含量的反演帶來困難。為此,本研究以構建類別決策樹的方式,將土壤含水率作為先驗信息,以降低土壤含水率對光譜反射率的影響。與此同時,本研究通過鹽分深度決策樹來考慮不同植被生長狀態對同一土壤深度的土壤鹽分含量響應的差異,降低植被生長狀態對光譜反射率的影響。為能更清晰地了解鹽分深度決策樹和類別決策樹對土壤鹽分含量反演精度的影響,本研究在未考慮決策樹情況下直接建立土壤鹽分含量反演模型,將該模型的精度與考慮決策樹的土壤鹽分含量反演模型的精度比較,其結果如表4所示。光譜反射率對土壤鹽分含量的敏感性,精度得到明顯提升。研究表明,光譜反射率對植被根系所處土壤深度下土壤鹽分含量更加敏感,而該土壤深度下土壤鹽分含量與植被生長狀態存在一定關系[36-37]。因此,當未考慮決策樹直接建立土壤鹽分含量反演模型時,由于忽略每個土壤樣本在植被生長狀態上的差異,同一土壤深度的土壤鹽分含量與光譜反射率相關性較低,從而出現精度不高的問題。對此,有必要考慮決策樹建立土壤鹽分含量反演模型,使能根據每個土壤樣本的植被生長狀態來確定土壤鹽分含量的最佳反演深度,增強Sentinel-2衛星在監測土壤鹽分含量方面上的應用潛力。

表4 決策樹對土壤鹽分含量反演精度的影響Table 4 Effects of decision trees on inversion accuracy of soil salinity content
由表4可知,未考慮決策樹時,土壤鹽分含量反演模型的精度較差,其中R2為0.38,RPD為0.87,RPIQ為0.32,RMSE為0.44;考慮決策樹時,土壤鹽分含量反演模型的R2為0.70,RPD為1.67,RPIQ為0.35,分別比未考慮決策樹時提高0.32、0.80、0.03,RMSE為0.25,比未考慮決策樹時降低0.19,表明決策樹可有效地增強
針對植被覆蓋條件下土壤鹽分含量反演精度較低的問題,本研究利用Sentinel-2衛星同步獲取光譜數據,以構建決策樹的方式來確定每個土壤樣本鹽分含量的最佳反演深度和類別,并按照不同類別土壤樣本分別構建土壤鹽分含量反演模型,以降低土壤含水率和植被生長狀態對土壤鹽分含量反演的影響,主要結果如下:
1)鹽分深度決策樹和類別決策樹能增強光譜反射率對土壤鹽分含量的敏感性,基于機器學習方法的土壤鹽分含量反演模型可取得理想的反演效果,土壤鹽分含量反演模型精度由高到低依次為隨機森林、自適應提升算法、漸進梯度決策樹、支持向量機和偏最小二乘法,其中隨機森林的決定系數為0.70,相對分析誤差為1.67,均方根誤差為0.25%,相對分布誤差為0.35。
2)土壤鹽分含量反演模型的精度在不同土壤深度上存在差異,土壤鹽分含量反演模型精度由高到低依次為>40~60 cm、<20 cm和20~40 cm。