王 飛
(伊犁州水利局 伊犁州水土保持監(jiān)測(cè)分站,新疆 伊犁 835000)
土壤有機(jī)質(zhì)(SOM)是一種復(fù)雜的、自然存在的物質(zhì),在土壤肥力、有機(jī)耕作和可持續(xù)農(nóng)業(yè)系統(tǒng)中發(fā)揮著關(guān)鍵作用[1]。土壤有機(jī)質(zhì)是由活植物、動(dòng)物和微生物生物量、腐朽的根部和其他植物殘余物以及土壤腐殖質(zhì)組成的。此外,土壤有機(jī)質(zhì)還能促進(jìn)植物的生長(zhǎng)發(fā)育,改善土壤的物理性質(zhì),促進(jìn)微生物和土壤有機(jī)體的活動(dòng),促進(jìn)土壤養(yǎng)分的分解,從而改善土壤的施肥和緩沖作用。同時(shí)土壤有機(jī)質(zhì)含量的維持對(duì)減少土壤荒漠化有著十分重要的作用。
傳統(tǒng)的土壤有機(jī)含量測(cè)定方法是基于野外取樣和復(fù)雜的室內(nèi)分析。然而,這種實(shí)驗(yàn)室測(cè)量方法費(fèi)時(shí)費(fèi)力,難以獲得土壤有機(jī)質(zhì)的分布[2]。與傳統(tǒng)的分析方法相比,土壤光譜學(xué)的吸引力在于測(cè)量速度快,土壤性質(zhì)的估計(jì)比傳統(tǒng)的土壤分析便宜。土壤反射光譜波段豐富,是土壤理化性質(zhì)的綜合反映。可見(jiàn)-近紅外反射光譜(VIS-NIR),即高光譜已被證明是一種成本效益高、環(huán)境友好、無(wú)損、重復(fù)性好的分析技術(shù),非常適合于SOM的分析。目前,在多元統(tǒng)計(jì)和化學(xué)計(jì)量學(xué)發(fā)展的推動(dòng)下,定量土壤光譜預(yù)測(cè)土壤性質(zhì)的研究仍在不斷發(fā)展。
然而,利用高光譜檢測(cè)土壤有機(jī)質(zhì)含量時(shí),往往因?yàn)楦吖庾V豐富的波段信息,導(dǎo)致模型復(fù)雜不穩(wěn)定。因此,必須要去除光譜信息中的冗余信息。已有研究表明,利用篩選算法可以降低光譜的冗余度,去除非關(guān)鍵的波段。變量迭代空間收縮法是一種新穎且有效的光譜變量篩選算法,可以利用該算法來(lái)開(kāi)發(fā)適用于土壤有機(jī)質(zhì)快速檢測(cè)的模型。此外,于雷等發(fā)現(xiàn)利用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)結(jié)合偏最小二乘回歸(PLSR)可以較好地估測(cè)土壤有機(jī)質(zhì)含量[3]。因此,本文將利用新開(kāi)發(fā)的VISSA-PLSR和已有的CARS-PLSR進(jìn)行對(duì)比研究。
研究區(qū)域?yàn)樾陆舅_爾縣(88°36′E,44°10′N(xiāo))。該地區(qū)為卡拉麥里西南山前戈壁荒漠地帶,屬典型的極端干旱大陸氣候,干旱少雨,且該地區(qū)面臨土壤荒漠化。因此,有效監(jiān)測(cè)土壤有機(jī)質(zhì)含量對(duì)該地區(qū)的荒漠化防治是必要的。土壤類(lèi)型為砂質(zhì)土,在所研究區(qū)域共采集81份土壤樣品。
在土壤樣品分析前,樣品經(jīng)2 mm篩子篩分后,進(jìn)行風(fēng)干、粉碎、作物殘?jiān)⒅参餁堅(jiān)痛笫拥那宄H缓蟛捎弥劂t酸鉀容量法測(cè)定土壤有機(jī)質(zhì)含量。利用ASD地物光譜儀(Fieldspecc 3)測(cè)量土壤樣品的反射光譜,光譜范圍為350~2 500 nm。并對(duì)已測(cè)的光譜數(shù)據(jù),利用二階多項(xiàng)式和9個(gè)波長(zhǎng)窗口大小的Savitzky-Golay(SG)平滑方法去除光譜中的隨機(jī)噪聲。此外,剔除邊緣波段350~400 nm和2 401~2 500 nm,這部分波段具有較高的噪聲且難以去除無(wú)法用于土壤有機(jī)質(zhì)含量的預(yù)測(cè)。
CARS方法是Li等[4]提出的先進(jìn)變量選擇技術(shù)。它模仿達(dá)爾文生物演進(jìn)理論的“適者生存”的原則,旨在通過(guò)自適應(yīng)加權(quán)抽樣和指數(shù)遞減函數(shù)選擇一些關(guān)鍵的光譜變量。
變量迭代空間收縮方法(VISSA)作為一種較為新穎的篩選方法,對(duì)近紅外波段范圍的數(shù)據(jù)具有良好的預(yù)測(cè)能力。VISSA使用加權(quán)二進(jìn)制矩陣采樣已得到跨越可變子空間的子模型,此方法可優(yōu)化評(píng)估變量空間的性能。優(yōu)化過(guò)程中將突出顯示兩個(gè)規(guī)則:第一,可變空間在每個(gè)步驟中都會(huì)縮小;第二,新的可變空間優(yōu)于上一個(gè),這是VISSA篩選方法的關(guān)鍵,也是區(qū)別于CARS的地方。最終以迭代結(jié)果均方根誤差最小時(shí)的組合變量作為篩選結(jié)果。
上述兩種方法在MATLAB 2018b軟件中進(jìn)行分析計(jì)算。
偏最小二乘回歸(PLSR)是一種基于主成分回歸的建模方法[5]。將偏最小二乘回歸與光譜技術(shù)相結(jié)合,成功建立了各種土壤性質(zhì)的預(yù)測(cè)模型。在預(yù)測(cè)器和響應(yīng)空間之間進(jìn)行矩陣運(yùn)算的方法,PLSR使預(yù)測(cè)子空間和響應(yīng)子空間之間的協(xié)方差最大化,通過(guò)將預(yù)測(cè)變量和實(shí)測(cè)變量投影到一個(gè)新的空間,找到一個(gè)較優(yōu)的線性回歸模型。本文將數(shù)據(jù)分割成一個(gè)建模集和一個(gè)驗(yàn)證集。隨機(jī)選取70%的土壤樣品作為建模集,對(duì)PLSR進(jìn)行構(gòu)建和校正,其余30%為驗(yàn)證集。圖1為描述樣本特征的統(tǒng)計(jì)圖。由圖1可知,總體樣本集、建模集以及驗(yàn)證集三者之間的均值及方差都較為接近,說(shuō)明建模集與驗(yàn)證集都能較好地代表總體樣本。

圖1 描述樣本特征統(tǒng)計(jì)圖
其中,計(jì)算R2、RMSE、及RPD的公式如下:
(1)

(2)

(3)
式中:S.D為觀測(cè)值的方差;RMSE為均方根誤差。
最優(yōu)模型定義為RMSE最小、R2值最大的模型。此外,RPD的評(píng)價(jià)標(biāo)準(zhǔn)如下:RPD>3是一種極好的定量預(yù)測(cè)模型[6]。
圖2為不同土壤有機(jī)質(zhì)含量的光譜曲線特征。由圖2中可知,土壤樣品有機(jī)質(zhì)含量的不同,其光譜曲線也有所不同。隨著土壤有機(jī)質(zhì)含量的增加,光譜曲線的反射率逐漸降低。此外,1 400、1 900和2 200 nm處的吸收谷主要與土壤中水分相關(guān)[7]。在1 800 nm附近,光譜曲線有一定的重合,說(shuō)明該部分的波段對(duì)土壤有機(jī)質(zhì)含量并不敏感。因此,在利用光譜檢測(cè)土壤有機(jī)質(zhì)含量時(shí),需要去除部分不太重要的波段。

圖2 不同土壤有機(jī)質(zhì)含量的光譜曲線特征
將建模集數(shù)據(jù)輸入到CARS及VISSA的程序中,可得篩選后的光譜結(jié)果。圖3為CARS算法的運(yùn)行過(guò)程圖。圖3(a)表示隨著運(yùn)行次數(shù)的增加,所選變量數(shù)目逐漸的減小;圖3(b)表示交互驗(yàn)證均方根誤差隨運(yùn)行次數(shù)的變化;圖3(c)表示不同變量的回歸系數(shù)隨著運(yùn)行次數(shù)的變化,其中“*”號(hào)表示在交互驗(yàn)證均方根誤差最小時(shí)所選的波段。綜合圖3(a)-圖3(c)可知,在運(yùn)行到第5次時(shí),交互驗(yàn)證均方根誤差最小,此時(shí)的“星”號(hào)位置所截取的波段即為通過(guò)CARS所選的波段,共有1 138個(gè),約占所有波段數(shù)目(2001)的56.87%,表明CARS確實(shí)極大地降低了波段的冗余程度。

圖3 CARS算法的運(yùn)行過(guò)程圖
圖4為VISSA算法的運(yùn)行過(guò)程圖。圖4中,縱坐標(biāo)表示不同變量數(shù)目時(shí)所建模型的均方根誤差,橫坐標(biāo)表示所選的變量數(shù)目。由圖4可知,當(dāng)均方根誤差最小時(shí),所選取的波段即為VISSA算法所選的波段,共有301個(gè),約占所有波段數(shù)目(2001)的15.04%,說(shuō)明與CARS相比VISSA可以更為有效地減少波段的冗余。

圖4 VISSA算法的運(yùn)行過(guò)程
為了更加直觀地對(duì)比CARS與VISSA兩種算法所選波段的差異,繪制波段分布圖,見(jiàn)圖5。由圖5可知,CARS所選的波段大致分成6個(gè)區(qū)間,分別是436~1 010、1 389~1 472、1 624~1 662、1 772~2 050、2 171~2 262及2 325~2 400 nm,這6個(gè)區(qū)間與土壤有機(jī)質(zhì)含量具有一定的聯(lián)系。而利用VISSA算法所選的波段區(qū)間主要在756~900、1 376~1 456和1 784~1 936 nm,以及一些少量的離散波段。這3個(gè)區(qū)間都在CARS所選的區(qū)間內(nèi),表明VISSA的篩選效果要優(yōu)于CARS的篩選效果,且更為精細(xì)。

圖5 基于不同篩選算法的波段分布圖


表1 基于不同篩選算法的偏最小二乘回歸建模與預(yù)測(cè)效果
為了進(jìn)一步說(shuō)明3個(gè)模型之間的差異,本文繪制了3個(gè)模型的建模及驗(yàn)證的散點(diǎn)分布圖,見(jiàn)圖6。由圖6可知,VISSA-PLSR的建模與驗(yàn)證的擬合線都更加接近1∶1直線,且其95%置信帶與95%預(yù)測(cè)帶都較窄,說(shuō)明模型具有較好的魯棒性。而CARS-PLSR的建模與驗(yàn)證的擬合線與1∶1直線的接近程度要優(yōu)于全波段-PLSR,95%置信帶與95%預(yù)測(cè)帶也相對(duì)較窄。說(shuō)明經(jīng)CARS篩選,一定程度上可以提升模型的效果,但提升效果不如VISSA。

圖6 基于不同篩選算法的建模及預(yù)測(cè)精度比較
本文以新疆吉木薩爾縣地區(qū)的土壤為研究對(duì)象,利用CARS和VISSA算法,分別篩選光譜變量并建模預(yù)測(cè)。通過(guò)模型的對(duì)比分析,得到以下結(jié)論:
1)VISSA篩選算法優(yōu)于CARS篩選算法,VISSA算法可以去除大部分冗余波段,保留15.04%的波段變量。
2)土壤有機(jī)質(zhì)含量檢測(cè)模型的效果排序?yàn)椋篤ISSA-PLSR最優(yōu),CARS-PLSR次之,全波段-PLSR最差。
