樊泳灼, 李新國
新疆師范大學地理科學與旅游學院 / 新疆干旱區湖泊環境與資源實驗室,新疆 烏魯木齊 830054
土壤電導率是土壤重要的理化性質之一,它包含了豐富的物理和化學信息(朱成立等,2017),現多采用測量土壤電導率來間接反映土壤鹽分含量,該方法省時省力,已成為土壤含鹽量監測的重要方法(Srivastava et al.,2017;張一清等,2023)。傳統的土壤含鹽量測定費時費力,而高光譜遙感技術可以快速、準確地獲取鹽分信息(田安紅等,2019),在土壤鹽漬化防治方面發揮重要作用(Jin et al.,2015;亞森江·喀哈爾等,2019 )。Heil等(2019)利用電磁感應法對土壤電導率進行現場測量,效果明顯好于室內實驗測量。光譜數據通過數學變換和特征篩選能有效提高模型精度,經一階導數變換后能夠消除部分線性或接近線性的噪聲光譜從而提高模型的精度(張賢龍等,2018)。吳俊等(2022)采用CARS-BPNN 方法能夠較好地預測江西省土壤有機碳含量,CARS 算法能夠在一定程度通過降低訓練樣本的復雜度從而提升土壤SOC 的預測精度。王濤等(2019)利用去包絡線結合連續投影算法(SPA,successive projection algorithm)可以更優的選擇特征光譜,可以快速、準確的實現對土壤電導率的檢測,SPA算法可以最大程度的消除共線性對模型的干擾。干旱區土壤電導率與土壤光譜之間存在著復雜的非線性關系(曹肖奕等,2020),BP 神經網絡模型可以很好的解決土壤鹽分監測中復雜的非線性函數逼近問題,提升對土壤電導率高光譜模型的定量估算精度(Farifteh et al.,2007;曹肖奕等,2020)。
目前大多數研究將區域土壤電導率作為一個整體進行電導率反演模型的構建與驗證(王懂等,2022),且大多數研究多以對光譜數據進行數學變換后利用相關性篩選特征波段建模(孫亞楠等,2022),但利用競爭性自適應重加權采樣(CARS,competitive adaptive reweighted sampling)、連續投影算法(SPA)和競爭性自適應重加權-連續投影算法(CARS-SPA, competitive adaptive reweighting sample- successive projection algorithm)3 種篩選特征波段算法對湖濱綠洲單一土地利用類型土壤電導率的高光譜估算缺乏深入研究,本文以新疆博斯騰湖湖濱綠洲耕地、林地、荒地的土壤電導率為研究對象,利用ASDFieldSpec3 地物光譜儀采集并分析350~2 500 nm 波長范圍的光譜反射率,分別利用CARS、SPA、CARS-SPA 等3 種方法對耕地、林地、荒地及整體土地篩選特征波段構建BP神經網絡模型分析,找出研究區不同土地利用類型土壤電導率估算的優選方法,以期為湖濱綠洲不同土地利用類型土壤電導率的光譜高效估算及方法選擇提供參考。
博斯騰湖湖濱綠洲位于新疆焉耆盆地東南部博湖縣(41°45?~42°10? N,86°15?~86°55? E),是典型的人工綠洲和自然綠洲混合的湖濱綠洲,面積約為1 360 km2(圖1),多年平均降水量83.55 mm,年均溫約8.0~8.6 ℃,光照充足,屬于大陸性荒漠氣候(趙慧等,2021a)。研究區耕地、林地的土壤類型主要是潮土、草甸土、棕漠土等,其成土母質分別為:河流搬運沉積物、沖積湖積物及砂礫質洪積物,荒地的土壤類型主要以鹽土為主,其富含鹽分的母質環境使研究區土壤鹽漬化較為普遍(李志等,2018)。研究區土壤鹽分平均含量為2.84 g/kg (李新國等,2012)。

圖1 研究區位置及采樣點分布Fig.1 Location of the study area and distribution of sampling sites
根據研究區土壤現狀,在不同土地利用類型的區域,選取具有典型性、代表性樣地,并均勻布設樣點;每個樣點按照每10 cm為一層,采集0~20 cm 層的土壤樣品。耕地、林地、荒地的采樣點個數分別為28、15、14 個(圖1),共采集114 份土樣。土壤采樣時間為2021 年4 月13~17 日,野外數據采集時地表無植被覆蓋,能最大限度減小植被對光譜的影響;采集時去除地表的植物根系及石塊等雜質,利用GPS 記錄樣點經緯度并記錄采樣點周圍環境,每個樣點運用四分法選取約200 g土樣裝袋標號密封帶回實驗室,將樣品進行自然風干、研磨并過2 mm 篩后封裝為兩部分,一部分用于土壤電導率的測定,另一部分用于高光譜測定(趙慧等,2021b)。土壤電導率測定按照5∶1 的水土浸提液比例進行配置,并測定浸提液25 ℃時的電導率(EC,單位為mS/cm)(亞森江·喀哈爾等,2019)。
使 用 ASDFieldSpec3 地 物 光 譜 儀(350~2 500 nm),于無風且晴朗天氣測定采集的不同土地利用類型樣品的高光譜數據,采樣時間為北京時間12:00~14:00,每個樣品的光譜曲線以對其采集的10 條光譜數據的平均值為準(牛芳鵬等,2021)。由于環境存在復雜的影響因素因素,將受噪聲及水汽影響較大的1 250~1 450、1 700~1 950和2 401~2 500 nm 波段剔除(孫亞楠等,2022)。為提升光譜曲線信噪比,利用The Unscrambler 軟件對光譜數據進行Savitzky-Golay(SG)濾波9 點平滑處理。Cloutis(1996)研究表明,對光譜數據進行低階微分處理可有效減少噪聲的干擾,因此再對SG平滑處理后數據進行一階導數變換,最終保留1 698個波段參與后續特征波段篩選。
采用CARS、SPA、CARS-SPA等3種方法對耕地、林地、荒地、整體土地分別篩選特征變量構建模型,有效解決光譜信息量大、數據冗余等問題,以提高估算模型的精度和速度(唐海濤等,2021)。
CARS 算法的關鍵在于利用指數衰減函數(EDP,exponentially decreasing function)和自適應重加權采樣法(ARS,sdaptive reweighted sampling)2 個步驟對關鍵變量進行選擇,將蒙特卡羅采樣次數設置為100,對采樣次數反復迭代,并用蒙特卡羅交叉驗證法篩選交叉驗證均方根誤差(RMSECV,root mean square error of cross-validation)最小的最優變量組合(Jin et al.,2015)。在一定程度上可以減少光譜數據冗余,提高模型的驗證精度。
SPA算法是一種前向變量選擇算法,可以從光譜數據中選擇共線性最少的波段作為特征波段,在一定程度上壓縮光譜數據數量,從而提高模型運行效率(牛芳鵬等,2021;趙慧等,2021b)。本次運用Matlab 軟件進行波段篩選及模型的構建(唐海濤等,2021)。
CARS-SPA 算法是利用SPA 算法對CARS 篩選過后的特征變量進行二次篩選,可以進一步的優化變量結構,減少輸入的特征波段數目,提高模型的運行效率和精度。
BP 神經網絡屬于多層神經網絡,一般由輸入層、隱層、輸出層三層結構組成,在處理非線性問題上有較好的應用,也是目前土壤高光譜定量估算中應用較多的非線性模型(田安紅等,2020)。
采集耕地、林地、荒地、整體土地總樣本數分別為56、30、28 和114 個,采用濃度梯度法對土壤樣本按照3∶1 比例劃分訓練集與驗證集(肖云飛等,2020),將耕地、林地、荒地及整體土地的光譜數據通過CARS、SPA、CARS-SPA 等不同算法篩選的特征波長為自變量,土壤電導率含量為因變量,輸入到BP 神經網絡模型中進行估算。對模型的精度評價通常以決定系數(R2)、均方根誤差(RMSE)、相對分析誤差(RPD)來表示,其中
式中ym和ye分別表示土壤電導率的實測值和估算值,yˉ表示土壤電導率實測值的平均值;
式中n是樣本數量;
式中SD 是驗證集實測值的標準偏差,RMSEv為驗證集的均方根誤差。其中R2和RPD 越大,RMSE越小(趙慧等,2021a;唐海濤等,2021),則說明模型較為穩定,估算性能較好。當RPD<1.40 則說明模型估算性能較差;當1.40 ≤ RPD < 2.00則說明模型估算性能一般,只能粗略進行估算;當RPD≥2.00 時模型能較好的實現對土壤電導率含量的估算(亞森江·喀哈爾等,2019)。
由表1可知,對耕地、林地、荒地土壤電導率進行描述性統計分析,耕地、林地、荒地土壤電導率分別為0.02~2.22、0.07~24.70 和0.18~16.66 mS/cm,平均值分別為0.84、5.43 和5.78 mS/cm,林地和荒地的平均電導率明顯大于耕地,變異系數分別為61.61%、115.41%、83.72%。當把耕地、林地、荒地作為整體進行分析時,土壤電導率含量在0.02~24.70 mS/cm 之間,平均值為3.26 mS/cm,相比耕地增加了2.42 mS/cm,相比林地和荒地減少了2.17 和2.52 mS/cm, 變異系數為142.31%,屬于強變異性。

表1 土壤電導率描述性統計Table 1 Descriptive statistics of soil conductivity
分別對一階求導變換后耕地、林地、荒地、整體土地的高光譜反射率通過CARS、SPA、CARS-SPA 等3 方法篩選特征波段,篩選結果如圖2~5。由圖可以看出,不同方法對3 種土地利用類型土壤電導率的高光譜反射率篩選特征波段結果存在差異。

圖2 耕地的篩選特征變量結果Fig.2 Results of cultivated land of screening characteristic variables
圖2(a)可以看出,利用CARS 方法篩選特征波段的過程中,篩選變量個數隨著采樣次數的增加逐漸減少至平緩,而RMSECV 的波動較大。紅線所表示的采樣次數為71 次時,RMSECV 值達到最小為0.31,由圖2(d)可知,在RMSECV 最小時對應CARS 方法篩選的特征波段為14 個,該方法篩選后的特征波段占全波段的0.82%。采用濃度梯度法按照3∶1 比例劃分耕地土壤電導率為42 個建模集和14個驗證集并通過SPA方法進行計算,由圖2(b)可知,篩選特征波段數目為11 時,RMSECV值達到最小為0.34,特征波段分布如圖2(e)所示,特征波段數目占全波段的0.65%。CARS-SPA 方法篩選過程如圖2(c)所示,當CARS-SPA 篩選后特征波段為12 個時,RMSECV 值達到最小為0.30,其選擇的特征波段在全波段的位置圖2(f)所示,特征波段數目占全波段的0.71%。
從圖3(a)可知,利用CARS 方法篩選林地土壤電導率特征波段的過程中,采樣次數為60 次時,RMSECV 值達到最小為1.77,由圖3(d)可知,在RMSECV 最小時對應篩選的特征波段為31 個,該方法篩選后的特征波段占全波段的1.83%。利用濃度梯度法按照3∶1 比例劃分成23個建模集和7 個驗證集并通過SPA 方法進行計算,由圖3(b)可知,篩選特征波段數目為10 個時,RMSECV 值達到最小為2.34,特征波段分布如圖3(e)所示,特征波段數目占全波段的0.59%。CARS-SPA 方法篩選過 程 如圖3(c)所示,當CARS-SPA 篩選后特征波段為10 個時,RMSECV 值達到最小為2.52,其選擇的特征波段在全波段的位置如3(f)所示,特征波段數目占全波段的0.59%。

圖3 林地的篩選特征變量結果Fig.3 Results of forest land of screening characteristic variables
由圖4(a)可知,利用CARS方法篩選荒地土壤電導率特征波段的過程中,當采樣次數為64次時,RMSECV 值 達 到 最 小 為2.56,由 圖4(d)可 知,CARS 方法篩選的特征波段為23 個,該方法篩選后的特征波段占全波段的1.35%。利用濃度梯度法按照3∶1 比例劃分成21 個建模集和7 個驗證集并通過SPA 方法進行計算,由圖4(b)可知,篩選特征波段數目為2 個時,RMSECV 值達到最小為1.31,特征波段分布如圖4(e)所示,特征波段數目占全波段的0.12%。CARS-SPA 方法篩選變量過程見圖4(c)。當CARS-SPA 篩選后特征波段為1 個時,RMSECV 值達到最小為1.91,其選擇的特征波段在全波段的位置如4(f)所示,特征波段數目占全波段的0.06%。

圖4 荒地的篩選特征變量結果Fig.4 Results of wasteland of screening characteristic variables
對整體土地的高光譜反射率進行CARS、SPA、CARS-SPA 等3 種方法篩選,特征波段結果如圖5。圖5(a)表示利用CARS 方法篩選特征波段的過程中,當采樣次數為66 次時,RMSECV 值達到最小為3.04,由圖5(d)可知,在RMSECV 最小時,對應CARS 方法篩選的特征波段為20 個,該方法篩選后的特征波段占全波段的1.18%。采用濃度梯度法按照3∶1比例劃分成86個建模集和28個驗證集并通過SPA 方法進行計算,由圖5(b)可知,篩選特征波段數目為18 個時,RMSECV 值達到最小為3.81,特征波段分布如圖5(e)所示,特征波段數目占全波段的1.06%。SPA 算法能有效的減少篩選的特征波段的數目,而CARS方法篩選特征波段雖然數量相較于全波段有所減少,但波段數目仍較多,模型運行效率慢,因此利用CARS-SPA方法進行篩選,過程如圖5(c)所示,當CARS-SPA 篩選后特征波段為17 個時,RMSECV 值達到最小為3.69,其選擇的特征波段在全波段的位置圖5(f)所示,特征波段數目占全波段的1.00%。

圖5 整體土地的篩選特征變量結果Fig.5 Results of Overall land of screening characteristic variables
利用CARS、SPA、CARS-SPA 等3 種方法篩選特征光譜并結合BP 神經網絡構建土壤電導率估算模型。從表2 可知,一階求導(FDR)后全波段建模R2比原始全波段建模R2分別提高了0.15、0.18、0.19、0.03,RPD 分 別 提 高 了0.10、0.21、0.21、0.03,進行一階求導變換后建模精度明顯提高。

表2 基于BP的土壤電導率高光譜估算模型的構建與驗證1)Table 2 Construction and verification of soil conductivity hyperspectral estimation model based on BP
基于CARS、SPA、CARS-SPA等3 種方法篩選特征波段結合BP神經網絡構建單一土地利用類型估算模型,耕地相較于全波段建模R2分別提升了0.34、0.42、0.43,RMSE降低了0.27、0.22、0.07 mS/cm,RPD提高了0.44、0.62、0.64。林地相較于全波段建模R2分別提升了0.18、0.17、0.24,RMSE 降低了0.55、2.22、2.80 mS/cm,RPD 提高了0.35、0.33、0.58。荒地相較于全波段建模R2分別提升了0.10、0.09、 0.19。 RMSE 在FDR-CARS-BP 和FDRCARS-SPA-BP 中減少了1.37 和1.49 mS/cm,在FDR-SPA-BP中增加了0.82,RPD分別提高了0.17、0.15、0.37。整體土地建模相較于全波段建模R2分別 提 升 了0.15、0.15、0.20,RMSE 降 低 了0.83、0.78、2.22 mS/cm。在耕地、林地、荒地、整體土地4 種類型下,模型精度較好的均為FDR-CARSSPA-BP模型,平均R2=0.68,RPD>1.70。
綜合對比模型驗證集可知,耕地、林地、荒地中FDR-CARS-BP 模型的平均R2相比整體土地模型由0.51提升到0.63,提高了0.12。耕地、林地、荒地的FDR-SPA-BP模型的平均R2=0.65,比整體模型R2的0.51 提高了0.14,單一土地利用類型的FDRCARS-SPA-BP模型的平均R2相比整體模型由0.56提升到0.71。因此,基于CARS、SPA、CARS-SPA等3種方法結合BP神經網絡構建耕地、林地、荒地土壤電導率估算模型精度明顯高于整體土地建模精度。
本文采用原位測定可以更真實的反映土壤情況,從而避免了室內土壤光譜測定實驗所帶來的局限性,這與陳紅艷等(2018)研究發現一致。通過一階求導變換后全波段建模與原始全波段進行對比,發現精度有所提升,對原始光譜反射率進行一階求導變換能夠使部分與土壤電導率相關性較好的光譜信息顯露出來,從而提高模型的整體精度,這與Bannari et al.(2018)研究表明一階導數變換能夠增強950~2 500 nm 的光譜特征的結論基本一致。地理異質性是影響研究區土壤電導率估算模型精度的重要因素之一,本文中考慮了不同土地利用類型的差異,分別構建了單一土地利用類型的土壤電導率反演模型和整體模型,旨在探索地理異質性對模型精度的影響(亞森江·喀哈爾等,2019;孫亞楠等,2022)。土壤電導率與土壤高光譜數據之間存在著非線性關系,機器學習通常可以更好的解決土壤屬性間的非線性問題,這與曹肖奕等(2020)研究結果基本一致。
單一土地利用類型土壤電導率估算模型精度高于整體土壤電導率建模精度,分析可能是采樣時間在春季,林地、荒地相較于耕地土壤表層結皮程度高,有研究表明(Fan et al.,2015;Bannari et al.,2018)土壤表層鹽分結皮程度高其反射率及光譜特征更高,通過不同方法篩選不同土地利用類型土壤電導率特征波段可以看出,耕地、林地、荒地的光譜響應的波段存在差異性,從而使得單一土地類型的土壤電導率估算模型相比整體建模來說優勢更明顯,本文中單一土地利用類型土壤電導率估算模型FDR-CARS-BP 平均R2相比整體模型由0.51 提升到0.63,提升了0.12。單一土地利用類型土壤電導率構建FDR-SPA-BP模型比整體模型平均R2由0.51 提升到0.65。基于CARS-SPA-BP 的單一土地利用類型土壤電導率估算模型的平均R2由0.56 提升到0.71,提升了0.15。基于CARS、SPA、CARS-SPA 三種方法結合BP 神經網絡構建耕地、林地、荒地土壤的電導率估算模型精度明顯高于整體土地建模精度,這與孫亞楠等(2022)研究耕地和鹽荒地土壤鹽分的結論基本一致。
與已有研究(亞森江·喀哈爾等,2019;趙慧等,2021c)相比,本文利用CARS、SPA、CARS-SPA 方法篩選最優波段用于建立土壤電導率的估算模型,以提高土壤電導率的建模精度,為土壤鹽漬化的相關研究提供新的方法;本文篩選得出的特征波段可以為湖濱綠洲土壤電導率最優波段選擇提供參考。但受限于區域差異性(彭杰等,2014),土壤電導率變化除了與土地利用方式有關,可能還與成土母質及土壤類型等有關,本文確定的土壤電導率最優建模方法具有一定的局限性。在后續研究工作中,針對不同土地利用類型土地土壤電導率的估算機理有待于進一步探討。
1)耕地、林地、荒地、整體土地土壤電導率均值分別為0.84、5.43、5.78和3.26 mS/cm。
2)通過CARS、SPA、CARS-SPA 三種方法篩選特征波段輸入模型能有效提高模型運行效率。CARS-SPA 方法是對CARS 篩選后的波段利用SPA進行二次篩選,能有效減少篩選波段數據,得到耕地、林地、荒地、整體土地特征波段數據僅占全波段的0.71%、0.59%、0.06%、1.00%。
3)對耕地、林地、荒地的土壤電導率構建的單獨估算模型明顯提高了研究區土壤電導率的估算精度,在FDR-CARS-BP、FDR-SPA-BP、FDRCARS-SPA-BP 三種模型中,耕地、林地、荒地土壤電導率估算模型平均R2相比整體土地建模分別提 高 了0.12、0.14、0.15,FDR-CARS-SPA-BP 模型為研究區土壤電導率高光譜估算最優模型。