馬瑋鍵,邢澤炳,韓春風,桑梓繁,尚愷霖,李宇航
(山西農業大學 農業工程學院,山西 太谷 030801)
氮素在作物生長發育過程中發揮著重要的作用,而作物所吸收的氮素主要來源于土壤[1]。氮素作為土壤養分的重要組成成分,其土壤中的氮含量水平影響著作物生長發育,氮含量過少會引起作物植株矮小,葉片枯黃等問題,過多又會引起作物植株抗逆性差、環境污染等問題,分析測定土壤中的氮含量對于了解土壤氮素供給水平和指導施肥具有重要意義[2-9]。目前,傳統的測量土壤氮含量方法如凱氏定氮法和堿解擴散法,普遍存在測量時間長、操作復雜等問題,無法快速大規模測定土壤氮含量,難以滿足精確農業的需求。近年來,基于近紅外光譜技術(Near Infrared,NIR)的分析方法因其快速、無損的優勢在食品檢測、藥物檢測、土壤養分檢測等領域被廣泛應用[10-14]。近紅外波段的光譜特征往往與官能團對紅外光的選擇性吸收有關(如O-H、N-H、C-H 結合的化學鍵對紅外光的吸收波長和強度不同),所以,可以利用NIR 測定土壤中的水分、氮、有機質等參數[15]。
多年來,許多專家學者利用NIR 在檢測土壤氮含量方面做了大量研究。郭志新等[16]利用NIR 建立了林地土壤養分的預測模型,達到了良好的預測效果,為林地土壤肥力檢測提供了新的方法。彭海根等[17]利用NIR 結合競爭自適應重加權采樣(CARS)變量選擇算法,建立了昆明地區土壤水解氮的預測模型,有效預測了昆明地區土壤的水解氮含量。劉燕德等[18]利用NIR 檢測贛南臍橙果園土壤全氮和有機質,建立了全氮和有機質預測模型。綜上所述,許多專家學者利用NIR 對不同類型土壤氮含量進行檢測,但對于山西玉米地土壤的近紅外檢測研究較少。
土壤的光譜特征是土壤內在理化性質的綜合反映,土壤的粒度、水分等因素都會對土壤的近紅外光譜特征造成影響,不同地區、不同類型的土壤光譜特征也不同[19]。玉米是山西主要種植作物之一,在我國糧食生產中具有重要作用。山西多為旱地,玉米作為耐旱作物主要種植在平原臺地、漫崗地和河谷階地,海拔30~1150 m,年降水量170~800 mm,土壤類型多為白漿土、褐土等,山西玉米地土壤因地理位置和氣候等因素使其不同于其他地區[20]。
本試驗以山西玉米地土壤為研究對象,探究利用可見近紅外光譜建立土壤氮含量的預測模型,并利用不同的預處理和建模方法優化預測模型,旨在為利用可見近紅外光譜對土壤養分分析提供理論依據。
試驗使用FieldSpec3 光譜儀采集土壤光譜數據,該光譜儀由美國ASD(Analytical Spectral Devices)公司生產,光譜測量范圍為350~2500 nm,數據間隔為1 nm,波長精度為±1 nm,波長重復性為±0.02 nm,光譜分辨率在350~1000 nm 波段為3 nm,在1000~2500 nm 波段為10 nm。土壤氮含量由中國力辰科技(LICHEN)公司的全自動凱氏定氮儀測量。
試驗土壤來自山西農業大學太谷區玉米試驗田,土壤類型為褐土。試驗田按8 kg/m2的用量均勻施用有機肥,經過一季玉米生長后,采集土壤樣本。采樣深度為0~20 cm,采用梅花法用土鉆采集5 點的混合樣本,挑去其中的樹葉和小石塊,自然風干后研磨成粉末,過0.42 mm 的篩子,最終得到土壤樣本120 個。將每份樣本一分為二,一份用于采集光譜數據,一份用于測量土壤全氮含量。試驗所測土壤全氮含量如表1 所示,其中,校正集和預測集采用光譜-理化值共生距離(Sample set partitioning based on joint x-y distances,SPXY)算法[21]按2∶1 的比例劃分得到。

表1 土壤全氮實測統計Tab.1 Statistical table of actual measurement of soil total nitrogen
光譜數據由光譜儀采用漫反射的形式采集,數據采集前,關閉日光燈,打開近紅外光源預熱20 min,這樣可以確保光源的穩定。土壤樣本均勻放置于直徑80 mm 的黑色尼龍樣品盒中。光譜儀采集器置于樣品盒斜上方15 cm 處,光照入射角和采集器角度均為45°。對每個樣本采集3 次數據,取平均值作為土壤樣本的標準光譜數據,以減小噪聲和樣品顆粒大小所引起的散射等因素對光譜數據的影響,使光譜數據更有代表性。
1.4.1 數據處理軟件 光譜數據平均及轉換采用ViewSpecPro 數據處理軟件來完成。光譜預處理及建模由挪威CAMO 公司的Unscrambler v 10.4 軟件來完成。樣本集劃分采用SPXY 算法在MATLAB軟件中完成。數據圖由Origin 繪圖軟件繪制。
1.4.2 模型驗證與評價 預測模型由決定系數(Determination coefficient,R2)、預測均方根誤差(Root mean square error of prediction,RMSEP)和校正均方根誤差(Root mean square error of calibration,RMSEC)來評價。R2越接近1,RMSE 越小,模型的擬合效果越好;當R2>0.80 時,就認為模型是成功的(Moderately successful);當R2>0.90 時,模型為優秀(successful)。
試驗采集的土壤近紅外光譜數據不僅有土壤的光譜特征,還包含有大量的無關信息和噪聲,比如樣品背景和雜散光等因素都有可能對建模分析產生影響,所以,需要利用光譜預處理方法提高光譜的信噪比。為獲得更好的建模效果,本研究選擇可以消除光譜數據中隨機噪聲的平滑處理(Smoothing)、可以消除樣品顆粒大小和樣品表面散射影響的標準狀態變換(SNV)、可以提高光譜數據穩定性和減小偏差的基線校正(Baseline)、可以消除數據偏移的去趨勢處理(Detrend)、可以歸納統一光譜數據統計分布性的歸一化(Normalize)和可以消除光譜散射效應和顆粒分布不均勻影響的多元散射矯正(MSC)6 種光譜預處理方法對原始光譜數據進行處理。
不同的建模方法由于原理不同,也會對模型精度產生影響。本研究采用可以在自變量存在嚴重多重相關性的條件下進行回歸建模及更易于辨識系統信息與噪聲的偏最小二乘法(Partial least square,PLS)、可以有效地解決數據分析中高維特征回歸問題的支持向量機(Support vector machine,SVM)和可以降低維數和解決多重共線性問題的主成分回歸(Principal Component regression,PCR)3 種建模方法建立土壤氮含量預測模型。
將試驗所采集的土壤近紅外漫反射光譜數據經過平均和轉換成吸收光譜數據后,得到土壤近紅外光譜圖(圖1),因為在350~500、2300~2500 nm波段內的噪聲較大,所以,本研究采用500~2300 nm波段內的光譜數據。從圖1 可以看出,不同土壤樣本的光譜波形大致相同,在相近的位置都有比較明顯的吸收峰,波峰或波谷出現在1200、1450、1830、1940 nm 等位置。

圖1 土壤近紅外光譜Fig.1 Near-infrared spectroscopy of soil
經過光譜預處理可有效消除噪聲,圖2 為經過標準狀態變換(SNV)預處理后的光譜圖。由圖2可知,經過處理后光譜數據的光譜特征更加明顯,噪聲的影響也大大減少,不同土壤樣本的光譜信息差別更容易被解析提取。

圖2 經SNV 處理后的光譜Fig.2 The spectroscopy after SNV treatment
2.2.1 PLS 模型預測效果 利用原始光譜數據及6種預處理方法結合PLS建立Original-PLS、Baseline-PLS、Smoothing-PLS、SNV-PLS、Detrend-PLS、Normalize-PLS、MSC-PLS 等7 種土壤氮含量預測模型。相關模型結果如表2 所示,7 種模型校正集Rc2均大于0.8,可以認為模型是成功的,其中Original-PLS、Baseline-PLS 和Smoothing-PLS 模型的預測集預測效果優于其他模型,其均大于0.9,可以認為模型的預測效果優秀。由于試驗樣本經過充分過篩,顆粒大小均勻,且光譜采集時背景干擾小,儀器性能穩定,所以,Original-PLS 與Smoothing-PLS 模型的預測效果優于其他模型,Rp 2達到0.907,RMSEP 為0.086。因為Smoothing 預處理可以消除光譜數據中的隨機噪聲,所以,選擇Smoothing-PLS 為最佳模型。

表2 土壤光譜預處理后PLS 建模結果Tab.2 Modeling results of PLS after soil spectroscopy pre-processing
2.2.2 SVM 模型預測效果 土壤光譜預處理后SVM 建模結果如表3 所示。

表3 土壤光譜預處理后SVM 建模結果Tab.3 Modeling results of SVM after soil spectroscopy pre-processing
SVM 由于不包括主成分降維處理,所以,需要先利用主成分分析(Principal component analysis,PCA)進行降維處理。經過降維處理后,前4 個主成分累計貢獻率達到86.23%,包含了原始光譜數據的大部分特征信息,選擇這4 個主成分作為新的輸入變量,用80 份校正集樣本建立Original-SVM、Baseline-SVM、 Smoothing-SVM、 SNV-SVM、Detrend-SVM、Normalize-SVM、MSC-SVM 等7 種預測模型,之后利用剩余40 份預測集樣本對所建立的SVM 預測模型的精度和預測效果進行驗證。由表3 可知,7 種模型校正集Rc2均大于0.8,所構建的模型是成功的,用預測集數據驗證模型預測效果后,最佳的預測模型為基于Baseline 的SVM 模型,此模型Rp 2達到0.858,RMSEP 為0.120。與PLS 預測模型對比發現,SVM 模型沒有達到理想的預測效果,其預測效果均弱于PLS 模型的預測效果。
2.2.3 PCR 模型預測效果 最后利用PCR 建模方法建立Original-PCR、Baseline-PCR、Smoothing-PCR、SNV-PCR、Detrend-PCR、Normalize-PCR、MSC-PCR等7種土壤氮含量預測模型。相關模型結果如表4 所示,PCR 模型的建模效果與PLS 模型相近,7 種模型校正集Rc2均大于0.8,可以認為所建模型成功,用預測集驗證預測模型精度及預測效果,其預測效果也與PLS 模型相近,分析對比7 種模型的預測效果,發現最佳的預測模型為基于Baseline的PCR 模型,此模型Rp2達到0.906,RMSEP為0.087。

表4 土壤光譜預處理后PCR 建模結果Tab.4 Modeling results of PCR after soil spectroscopy pre-processing
在原始數據和6 種預處理方法的基礎上,使用3 種建模方法建立的最佳模型為Smoothing-PLS、Baseline-SVM 和Baseline-PCR,3 種建模方法的預測模型Rc2均大于0.8,都可以有效預測土壤全氮含量,用驗證集驗證預測效果,Baseline-SVM 預測模型為0.850,預測效果弱于Smoothing-PLS 和Baseline-PCR 預測模型,Smoothing-PLS 和Baseline-PCR 預測模型Rp 2均大于0.9,模型精度達到了優秀水平,其中,基于Smoothing 的PLS 預測模型效果更好,Rp2為0.907,RMSEP 為0.086,故Smoothing-PLS 為21 種模型中的最佳模型。圖3 和圖4 為80 個校正集和40 個預測集經Smoothing 預處理后用PLS 建模的預測值和實測值的回歸圖,由圖可知,樣本點集中于回歸線附近,預測值和實測值很接近,達到了良好的擬合效果。

圖3 土壤全氮校正模型預測值與實測值關系Fig.3 Relation between prediction value of soil total nitrogen correction model and measured value

圖4 土壤全氮預測模型預測值與實測值關系Fig.4 Relation between prediction value of soil total nitrogen prediction model and measured value
對模型的穩定性進行分析,PLS、SVM 和PCR等3 種建模方法所建立的最佳模型Rc2分別為0.869、0.898、0.862,對應的Rp 2分別為0.907、0.858、0.906,由此可知,3 種模型擬合效果較好,且校正結果與預測結果接近,模型不存在過擬合和欠擬合現象;其中,PLS 模型與PCR 模型效果類似,但PLS模型效果稍好,因為PLS 模型是在PCR 模型的基礎上發展而來,但PLS 建模方法更易于辨識系統信息與噪聲[22],綜合比較,Smoothing-PLS 模型最優。張娟娟等[23]研究發現,對于土壤鮮樣,基于Smoothing的PLS 預測模型效果最佳;對于土壤干樣,基于Smoothing+Normalize+MSC 的PLS 預測模型效果最佳,這與本研究結果類似,但在預處理方法選擇上有所不同。
土壤的光譜特征受多種因素的影響,不同地區不同類型的土壤光譜特征不同,所以,利用NIR 建立的預測模型往往也不能直接遷移,光譜模型的泛用性問題一直都是NIR 應用研究領域的難點[19]。針對這一問題,近年來一些專家學者也做了一些研究,周鵬等[24]研究了不同土壤粒度對基于近紅外離散波長土壤全氮預測精度影響,提出了土壤粒度修正法來解決土壤粒度的干擾,顯著減小了土壤粒度的影響。鄭文瑞等[25]利用遷移成分分析(TCA)提高了模型在另一地區使用時的精度,為速效磷光譜模型的廣泛應用提供了新思路。關于光譜模型泛用性問題的研究總體上還研究較少,即便是山西玉米地土壤,就有褐土、白漿土、潮土等類型,在光譜特征上也存在差異[20]。本研究土壤類型僅為褐土,未能全面反映山西土壤類型,模型泛用性不強,將來通過加大不同地區不同類型的土壤樣本數量,共同建立預測模型可能會減小干擾因素和提高泛用性,今后應進一步研究。
本研究利用可見近紅外光譜檢測北方玉米地的土壤全氮含量,在原始數據的基礎上,結合6 種預處理方法和3 種建模方法建立了21 種預測模型,最后選出Smoothing-PLS 預測模型為最佳模型,利用模型對未知土壤全氮含量進行預測,模型預測效果良好,說明利用可見近紅外光譜對土壤氮含量進行預測是可行的。該模型可有效預測山西玉米地土壤全氮含量,為利用可見近紅外光譜對土壤養分分析提供參考。