張楠楠, 張 曉, 施明登, 范澤華, 王 濤, 白鐵成
(塔里木大學信息工程學院/中國農業科學院農業信息研究所新疆南疆農業信息化研究中心,新疆阿拉爾 843300)
在干旱與半干旱地區,土壤鹽漬化是一種常見的土地退化方式[1],已發展成為國內外土壤學研究的熱點[2]。土壤鹽漬化是威脅農業生產和生態系統穩定的一個重要因素[3],目前已成為全球性環境問題。新疆鹽堿土總面積848萬hm2,現有耕地中31.1%的面積受到了不同程度鹽堿化危害[4]。新疆南疆綠洲區為土壤鹽漬化大區,鹽堿土具有面積大、類型多、積鹽重、形成復雜的特點[5]。
近紅外光譜(NIR)技術具有快速高效監測的特點,已經在農業及其他許多領域中得到廣泛應用[6-8]。近年來,許多專家學者致力于變量的選擇問題[9]和采用不同的光譜預處理方法使所建立的土壤模型更穩定和精確。如代希君等借助模糊k-均值聚類方法、歸一化處理等方法,采用偏最小二乘回歸法進行全局鹽分預測,預測精度有所提高[10];張娟娟等選取全譜、合頻、N—H基團等組合的8個波段,采用多元散射校正等多種預處理方法組合進行土壤光譜樣品處理,發現 4 000~5 500 cm-1波段的模型精度最好,其決定系數達到 0.90,說明模型具有極好的預測能力[11];黃帥等把原始光譜經微分變換后的12種高光譜指數與土壤含鹽量進行相關性分析,篩選出對土壤含鹽量變化敏感的特征光譜波段,構建了基于逐步多元線性回歸和偏最小二乘回歸模型,得出對數二階微分變換形式模型的穩定性和預測精度最高[12];賈生堯等提出采用遞歸偏最小二乘法(recursive partial least squares regression,簡稱RPLS)來提高模型的預測能力,并同偏最小二乘法(PLS)、局部加權PLS、滑動窗口PLS對土壤速效磷與速效鉀含量進行預測,結果表明,RPLS模型取得了最優的預測結果,決定系數分別為0.61、0.76[13];Lin等利用平滑與多重散射校正聯合的方法對光譜進行預處理,再利用x-y矩陣法(sample set partitioning based on joint x-y distance,簡稱SPXY)算法挑選建模集樣本,利用連續投影算法和遺傳算法分別進行波長優選,得出2種算法均可減少參與建模的波長數且能提高模型的準確度,其中遺傳算法的預測精度更高[14]。
本研究在總結前人研究的基礎上,以南疆綠洲區為研究區,依據近紅外光譜數據、土壤含鹽量實測數據,通過多種處理方法對土壤光譜進行變換處理消除光譜噪聲,運用連續投影算法(successive projections algorithm,簡稱SPA)[15]選出特征波長,建立偏最小二乘法(partial least square,簡稱PLS)和連續投影算法-偏最小二乘法(successive projections algorithm-partial least square,簡稱SPA-PLS)預測模型,并將2種模型進行比較,以期為土壤鹽分預測模型提供一種新的研究思路和方法。
本研究選取新疆維吾爾自治區南疆綠洲區土壤為試驗對象,該地區最高氣溫為35 ℃,最低氣溫為-28 ℃。研究區太陽輻射強度平均每年為0.56~0.61 MJ/cm2。年均日照時數為2 556.3~2 991.8 h,日照率為58.69%。研究區雨雪稀少,地表蒸發強烈,年均降水量為40.1~82.5 mm,年均蒸發量為1 876.6~2 558.9 mm。
在南疆綠洲區所選的典型樣點進行土樣采集,取表層 0~10 cm土壤,為保證所取土樣樣點的代表性,確定樣方面積為3 m×3 m,采用5點法采樣,即在每個樣方的4角和中心各取1個土樣,混合均勻,取500 g土樣放入密封袋中,并做好標記。室內陰干:將采回的各土樣放到塑料布上攤開,并做好標記后依次排開,將較大的土塊捏碎,以利于磨細;將石子、草渣等雜物撿出,以免雜物過多,防止在稱質量時產生較大誤差。 研磨過篩,將陰干后的各土樣倒入木盤中,用搟面杖或啤酒瓶研磨,并全部通過1 mm篩,分成2份,1份用于土壤鹽分測定,另1份用于近紅外光譜測定。共取得92份土壤樣本。
土壤含鹽量的測定參照《土壤農化分析》中的電導法[16],采用標準曲線法計算土壤全鹽含量。
使用美國賽默飛世爾科技公司生產的Antaris Ⅱ FT-NIR型光譜儀,以儀器內部空氣為背景,測量范圍為4 000~10 000 cm-1,采樣點數為1 557個,每張光譜掃描次數為32次,分辨率為8 cm-1,儀器使用InGaAs檢測器,化學計量學分析軟件為儀器自帶的TQ軟件。采集光譜前開機預熱0.5h,確保光源更穩定,采集樣品時重復3次,取平均值作為土壤樣品的原始光譜(圖1)。

應用MATLAB 2010b軟件,采用多種處理方法對土壤光譜進行變換處理及相關分析。數據變換處理包括數據中心化(data centralized)、傅里葉變換(the fourier transform)、小波變換(wavelet transform)、歸一化處理(the normalized processing)、一階導數(savitzky golay first derivative)、二階導數(savitzky golay second derivative)、多元散射校正(multiplicative scatter correction,簡稱MSC)、卷積平滑(savitzky golay smoothing,簡稱SG平滑)。進行光譜預處理的目的在于比較分析不同光譜預處理方法對模型預測結果的影響,從而為后續提高預測模型精度打下基礎。
連續投影算法是一種新型變量選擇方法,通過向量的投影分析,從光譜矩陣提取有效信息,并使光譜變量共線性最小[17],具體算法步驟參考文獻[18]。
偏最小二乘法是一種多元數據統計分析方法,該方法是集主成分分析、普通多元線性回歸和典型相關分析于一體的回歸分析方法,解決了自變量多重共線性的問題[19],已經在光譜分析中得到了廣泛應用。為了有效評價模型精度,本研究選取相關系數(r)、交互驗證預測均方差(root mean standard error of cross validation,簡稱RMSECV)、預測標準差(standard error of prediction,簡稱SEP)、準確率(Precision)進行模型分析檢驗,其計算公式見表1。其中,r越接近1,回歸(或預測)結果越好;RMSECV越小,說明該模型的預測能力越高;SEP越小,則表示模型對外部樣品的預測能力越高;對于同一批次的樣本,RMSECV和SEP越小,說明模型的精度越高,兩者的值越接近,說明模型穩定性越好;Precision用來驗證模型的準確程度。
由表2可知,數據中心化和歸一化處理經SG平滑后,各項指標均有小幅度改善;傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換這5種處理方式的4項指標基本一樣,是因為這5種處理算法都有平滑去噪的功能;一階求導運用SG平滑處理后,SEP變大,r和Precision變小,RMSECV有較大改善;二階求導經SG平滑處理后,4個指標均有較明顯改善。從SEP來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值較小,分別為0.019 876、0.019 877、0.019 876、0.019 876、0.019 877;從RMSECV來看,SG平滑+一階求導的值最小,為0.008 877,其次為傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換,其值分別為 0.024 978、0.024 979、0.024 978、0.024 978、0.024 979;從r來看,SG平滑、傅里葉變換、SG平滑+傅里葉變換的值接近1,為0.982 686,其次是小波變換、SG平滑+小波變換處理,為0.982 685;但從Precision來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值最大,為0.965 362。

表1 偏最小二乘法模型的檢驗指標

綜合來看,效果最好的是SG平滑、傅里葉變換、SG平 滑+ 傅里葉變換,由圖2可知,模型的SEP、RMSECV相對較小,分別為0.019 876、0.024 978,r最接近1,為 0.982 686,Precision為0.965 362。從全局波段來看,SG平滑、傅里葉變換、SG平滑+傅里葉變換適合土壤鹽分含量的可見近紅外光譜預處理。

表2 PLS模型對土壤中鹽分含量的建模精度和預測能力
2.2.1 基于MSC+SPA的優選波長 采用校正集60個樣本的1 557個光譜變量建立的PLS全譜模型在建模過程中的光譜數據量很大,同時還會引入干擾變量,反而會降低模型的預測精度。在全譜范圍內使用MSC進行光譜預處理,之后使用SPXY進行校正集樣品劃分處理,最后使用SPA算法進行光譜變量壓縮。由圖3可知,模型中包含的變量數為6時,其均方根誤差(RMSE)最小,為0.011 809。由圖4可知,得到6個特征波長,波數分別為4 393.047、4 285.053、4 971.587、3 999.64、7 293.461、5 210.717 cm-1,其重要性依次減弱。



2.2.2 基于SPA特征波長的PLS模型 采用13種光譜預處理方法后建立SPA-PLS模型,由表3可知,數據中心化經SG平滑后,各項指標均變差;歸一化處理經SG平滑后,各項指標均向好的方向變化;傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換這5種處理方式的4項指標基本一樣;一階求導運用SG平滑處理后,4項指標性能變差;二階求導經SG平滑處理后,4個指標性能變差,r變化最劇烈。從SEP來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值均較小,分別為0.016 931、0.019 144、0.017 688、0.017 688、0.019 262;從RMSECV來看,傅里葉變換的值最小,為0.016 769,其次是SG平滑和SG平滑+傅里葉變換的值,均為0.017 173;從r來看,傅里葉變換的值最接近1,為0.987 467;從Precision來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值較大,為0.96左右。

表3 SPA-PLS模型的預測結果
綜合來看,效果最好的是傅里葉變換,由圖5可知,SPA-PLS模型的SEP、RMSECV相對較小,分別為 0.016 931、0.016 769,r最接近1,為0.987 467,Precision為0.968 915。從局部特征波段來看,傅里葉變換適合土壤鹽分含量的可見近紅外光譜預處理。

研究表明,利用可見近紅外光譜技術、光譜預處理算法和連續投影算法檢測土壤中的鹽分是可行的。全波段建模過程中,經過13種光譜預處理后建立的PLS模型,效果最好的是SG平滑、傅里葉變換、SG平滑+傅里葉變換,模型的SEP、RMSECV都較小,分別為0.019 876、0.024 978,r為 0.982 686,Precision為0.965 362。說明SG平滑、傅里葉變換、SG平滑+傅里葉變換組合適合土壤鹽分含量的可見近紅外光譜預處理。
經SPA算法得到6個特征波長,將6個特征波長作為輸入,經13種光譜預處理后建立的PLS模型中,效果最好的是傅里葉變換,模型的SEP、RMSECV相對較小,且比較接近,分別為0.016 931、0.016 769,r為0.987 467,Precision為 0.968 915。從局部特征波段來看,傅里葉變換適合土壤鹽分含量的可見近紅外光譜預處理。
比較全局波段和局部特征波段的模型,局部特征建模的精確度有所提高,而模型的運算量大大降低,并具有較好的穩定性。模型是否適合其他更廣闊的區域有待進一步驗證。