曾遠文
(重慶市地理信息和遙感應用中心, 重慶 401147)
土壤有機質(soil organic matter,SOM)作為作物生長的重要養分來源,其含量的多少對作物的生長發育有著顯著的影響[1]。因此,如何準確快速地獲取土壤有機質含量,科學指導農業現代化管理,已成為相關專家學者積極探索的熱點問題。光譜分析技術的飛速發展,為上述問題的研究提供了新的路徑,由于其具有的快速、便捷、無污染的特點,已在農業及其他領域得到了廣泛的應用[2-6]。實驗和研究表明,土壤有機質作為影響土壤光譜特性的重要因素之一,其在可見光和近紅外區域有獨特的光譜特性[7]。土壤光譜反射率與有機質含量呈顯著負相關,有機質含量可以從土壤反射光譜中得到一定程度的反映[8-9]。
為進一步研究土壤有機質的高光譜反射特性,以及土壤樣本的不同粒徑水平和不同光譜變換形式對土壤有機質反演模型的影響程度,本研究通過相關分析和主成分回歸分析探討了不同粒徑水平下和不同光譜數學變換形式下的土壤有機質的光譜特性,并淺析了實驗室土壤樣本制備的最優粒徑大小及光譜變換形式,以期為后續研究提供一定的參考和借鑒。
將野外采集的37個土壤樣本自然風干,并研磨成1 mm、0.5 mm、0.25 mm、0.125 mm、0.075 mm這5個不同等級的粒徑。由于在試驗中使用了樣本粉碎機,導致有的樣本中1 mm和0.5 mm粒徑的樣本數量較少,結果0.075 mm、0.125 mm、0.25 mm粒徑的樣本數都為37個,0.5 mm的有24個,1 mm粒徑的樣本量為22個。土壤有機質含量采用重鉻酸鉀氧化—外加熱法測定,主要原理和操作步驟詳見《土壤農化分析》[10]。各粒徑水平下有機質統計結果如表1所示。

表1 不同粒徑樣本有機質含量統計表
1.2.1光譜測定
用ASD FieldSpec 3光譜儀進行室內光譜測量,測量時將裝有樣品的石英玻璃皿放置在黑色天鵝絨中心,并使用功率為50 W的鹵素燈和8°視場角的探頭,探頭垂直于土樣表面,到土樣表面距離15 cm,光源入射方向與垂直方向夾角15°,光源到土樣中心的距離為30 cm,各幾何參數在實驗過程中保持不變。把適量經過處理的土壤樣品放入盛樣皿中,用玻璃壓實,使其表面盡量平整,為了消除土樣反射光譜各向異性的干擾,測量時轉動盛樣皿三次,測量土樣的4個方向的光譜曲線(每個方向取5條,一共20條光譜曲線),將各方向的光譜曲線算術平均后得到該土樣的反射光譜數據。
1.2.2光譜數據預處理
對獲取的光譜曲線進行斷點校正、10 nm間隔重采樣、低信噪比波段及水吸收峰剔除,具體的剔除范圍為:350~395 nm、1 345~1 515 nm、1 795~2 025 nm、2 405~2 500 nm,經過以上預處理之后最終剩下158個波段。
1.2.3光譜曲線數學變換
本研究除了直接用原始光譜反射率進行分析外,參照前人的研究還對土壤光譜曲線進行數學變換,包括反射率求對數lgR、反射率倒數1/R、反射率倒數的對數lg (1/R)、反射率對數的倒數1/lgR、反射率求一階微分R′、反射率倒數求一階微分(1/R)′、反射率對數的一階微分(lgR)′、反射率倒數的對數的一階微分(lg (1/R))′、反射率對數的倒數的一階微分(1/lgR)′、反射率求二階微分R″、反射率倒數求二階微分(1/R)″、反射率對數的二階微分(lgR)″、反射率倒數的對數的二階微分(lg (1/R))″、反射率對數的倒數的二階微分(1/lgR)″、吸收深度(Depth)提取等。
在進行主成分分析時按以下步驟進行:
(1)對反射光譜進行預處理和相應的數學變形;
(2)土壤有機質含量和反射率及其數學變形進行單相關分析,篩選出相關性達到顯著的波段(P<0.01);
(3)用這些被篩選出來的波段進行主成分回歸分析。
這樣保證了在進行主成分分析時不丟失與土壤有機質相關性顯著的波段,又相當于進行了數據降維,增加了數據處理的效率。
回歸模型的精度和預測能力通過以下參數進行評價:
(1)決定系數R2。包括建模決定系數、交叉檢驗絕對系數和預測絕對系數。
(2)均方根誤差。包括建模均方根誤差Rc、交叉檢驗均方根誤差Rcv和預測均方根誤差Rp。計算公式如下所示:
(1)
(2)
(3)
式中,Ym和Yp分別表示實測值和預測值;Nc、Ncv、Np分別表示建模、交叉檢驗和預測樣本數。
(3)預測相對偏差Rpd。當Rpd>2時,回歸模型具有極好的預測能力;當1.4 模型的決定系數R2和預測相對偏差Rpd越大,均方根誤差Rc、Rcv、Rp越小,說明模型的精度越高。 將有機質含量和土壤光譜反射率及其變化形式在各個不同的粒徑水平下進行相關性分析。結果顯示,有的變換形式在有的粒徑水平上全波段范圍內與有機質的相關性均未達到顯著水平(P<0.01),其中只有吸收深度(Depth)、反射率對數的一階微分(FD-lgR)、反射率對數的二階微分(SD-lgR)、反射率的二階微分(SD-R)、反射率倒數的二階微分(SD-1/R)和反射率對數的倒數的二階微分(SD-1/lgR)這6種變換在5個粒徑水平上均有與有機質含量顯著相關的波段存在。 比較這6種變換形式各個粒徑水平下與有機質含量的相關性,如表2所示,結果顯示,達到顯著相關性的波段大都集中在UV ~VNIR波段范圍內,且最大相關波段主要分布在475~600 nm波段范圍內(對數的一階微分除外),這與前人的研究結論相似;達到顯著相關性的波段數無論在哪個粒徑水平下都是對數的一階微分這種變換形式最多,倒數的二階微分最少,且相關系數的均值在各個粒徑水平下也是前者大于后者,說明就這兩種變形而言對數的一階微分比倒數的二階微分更為有效;各個粒徑水平下相關系數均值最大的都是對數的二階微分。 表2 反射率各種變換形式與有機質含量相關分析結果 篩選出的波段相互之間存在多重共線性,直接進行回歸分析將不能解決數據冗余問題,而且還難以得到精確的模型,因此用篩選出來的波段進行主成分分析,消除自變量間的自相關性。數據集分為建模集和預測集,在0.075 mm、0.125 mm、0.25 mm三個粒徑水平下按隨機的原則選取建模集樣本25個,預測集12個,0.5 mm粒徑水平為16個和8個,1 mm粒徑水平為15個和7個。 主成分分析之前需要對數據進行標準化處理,建模過程中選用“Full Cross validation”的方法來確定模型需包含的潛變量的個數和防止過度擬合,分析結果如表3~表7所示。 表3 0.075 mm粒徑水平下的回歸分析結果 表4 0.125 mm粒徑水平下的回歸分析結果 表5 0.25 mm粒徑水平下的回歸分析結果 表6 0.5 mm粒徑水平下的回歸分析結果 表7 1 mm粒徑水平下的回歸分析結果 從主成分回歸分析結果可以看出,同一個粒徑水平下不同的變換形式所建立的模型精度有很大的差異性,同理,一種數學變換形式在不同的粒徑水平下所建立的模型精度也不一樣,說明光譜數據的處理方法和土壤樣本的粒徑大小共同影響著回歸模型的結果。 在0.075 mm粒徑水平下,以反射率的對數的一階微分這種變換形式建立的模型預測精度最高,決定系數為0.848,預測均方根誤差最小為0.230。其次是對數的倒數的二階微分這種變換形式的模型預測的決定系數為0.788,均方根誤差為0.267;在0.125 mm水平下,預測精度最高的也是對數的一階微分,決定系數為0.846,均方根誤差為0.271,反射率二階微分、反射率對數的倒數二階微分、反射率倒數二階微分三種形式預測精度相當;0.25 mm水平下預測精度最高的依然是對數的一階微分這種變換形式,其次是對數的二階微分和Depth;0.5 mm水平下最好的倒數的二階微分其決定系數為0.831,緊隨其后的是對數的二階微分為0.818;1 mm水平下最優模型為對數的二階微分建立的,決定系數達到了0.922,遠高于其他變形,最差的為反射率的二階微分,決定系數僅為0.383。 觀察各個結果的Rpd可以發現,0.075 mm水平下均大于了1.4,說明均可對有機質做出粗略的估計,其中最大的為反射率對數的一階微分達到了2.518,能準確地估算土壤有機質含量。0.125 mm水平各個變形的Rpd也都大于了1.4,最大的也是反射率對數的一階微分為2.456。0.25 mm水平下反射率對數的倒數的二階微分為1.399,與1.4非常接近,其他的都大于1.4,最大值還是對數的一階微分為2.797,且總體上說這組值都比其他水平的要大。0.5 mm水平下有一半的變形未達到1.4,但都很接近1.4,最大值是對數的二階微分為1.973。1mm水平也有一半未達到1.4,最大的是對數的二階微分為2.938。 在各個粒徑水平上分別求取預測決定系數和均方根誤差的平均值,其中決定系數最大的是0.25 mm水平,為0.750。其次是0.075 mm水平,為0.724。呈現出0.25 mm> 0.075 mm>0.125 mm>0.5 mm>1 mm的規律,均方根誤差最小的是0.25 mm水平,排序為0.25 mm<0.075 mm<0.5 mm<1 mm<0.125 mm。所以,從模型的預測精度考慮,0.25 mm水平總體優于其他粒徑水平,當粒徑從0.25 mm減小到0.125 mm時決定系數有所降低,但是在繼續減小到0.075時決定系數卻開始增大,但是未達到0.25 mm水平的值,說明土壤樣本并不是越細越好,而是存在一個度。當粒徑從0.25 mm增大到0.5 mm時模型決定系數迅速減小,伴隨著的是均方根誤差的增大,繼續增大粒徑時這種規律依然存在,所以可以粗略地認為當粒徑大于0.25~0.5 mm這個范圍之后,模型的精度隨著粒徑的增大而減小,但是這個結論可能會受到樣本容量的影響。0.075 mm、0.125 mm、0.25 mm水平的樣本數都是37個,但是0.5 mm是24個,1 mm是22個,所以決定系數的大小是否還受到樣本容量大小的影響還有待進一步驗證,比較前3個粒徑水平可以發現,0.25 mm水平明顯優于其他兩個水平,比較0.5 mm和1 mm發現前者優于后者,所以可以斷定回歸模型建立的最優粒徑水平存在于0.125 mm~0.5 mm之間,但具體是哪個值本文未做深究,這為今后實驗室樣本的制備提供了一定的參考。 同理,分析各個變換形式的決定系數和均方根誤差,決定系數排序為SD-lgR> FD-lgR> SD-1/R>Depth> SD-1/lgR>SD-R,均方根誤差排序為FD-lgR 為了研究粒徑大小和反射率變換形式兩者對模型精度的作用大小,同時又排除樣本容量大小的影響,因此摒棄1 mm和0.5 mm這兩個粒徑水平之后,分別求不同變換形式和粒徑水平下建立的回歸模型的決定系數的變異系數。其中,不同粒徑水平決定系數的變異系數為2.28%,同理可得不同變換形式的為8.37%。可知兩者決定系數的變異系數相差很大,說明數學變換對回歸模型預測精度的影響要大于粒徑水平,所以在實驗室對土壤樣本進行預處理固然重要,但是對光譜數據的數學變形同樣不可忽視。 圖1展示的是在0.25 mm粒徑水平下各個變換形式主成分回歸模型預測值與實測值的散點圖。可以看出,除了反射率的二階微分和吸收深度之外,其他變換形式的樣點多半分布在1∶1直線下端,說明預測值普遍比實測值偏小,反射率的二階微分樣點雖然均勻分布在1∶1直線兩端但是平均距離較大。綜合來說,反射率對數的一階微分建立的模型最優,且當有機質含量在2.0%~2.5%時預測結果不佳,樣點距離1∶1直線明顯遠于其他值。 (a)對數的一階 (b)吸收深度 (c)對數的倒數的二階 (d)對數的二階 (e)反射率的二階 (f)倒數的二階 利用主成分分析的方法實現了土壤有機質反演模型的建立,在分析前首先通過相關性分析篩選出與有機質含量有顯著相關性的波段,實現了數據的降維但又不丟失土壤有機質的敏感波段,然后用篩選出來的敏感波段來進行主成分分析,消除自變量之間的多重共線性,最后用求出的主成分與有機質含量進行多元線性回歸分析,建立了反射率的各種數學變形在各個粒徑水平下的回歸模型。 分析粒徑大小對模型精度的影響發現,土壤樣本并不是研磨得越細越好,也不是越粗越好而是存在一個度。實驗中建立回歸模型的最優粒徑水平存在于0.125 mm~0.5 mm之間,分析不同變換形式對模型預測精度的影響可知,建模之前對光譜數據進行預處理是相當有必要的,特別是進行對數變化之后再求微分。研究還發現,不同變換形式對模型精度的影響要大于不同的粒徑水平,這將為今后相關研究提供一定的參考。3 結果與分析
3.1 相關性分析

3.2 主成分回歸分析





3.3 模型精度和預測能力分析



4 結束語