喬娟峰,熊黑鋼,王小平,鄭曼迪,劉靖朝,李榮榮
(1.新疆大學資源與環境科學學院,綠洲生態教育部重點實驗室,新疆 烏魯木齊 830046;2.北京聯合大學應用文理學院,北京 100083)
土壤有機質的含量是影響土壤肥力的一個重要指標。常規土壤有機質含量的測定一般采用化學分析法,成本較高且耗費時間較長[1]。而高光譜遙感具有波段多,分辨率高等特點,可以快速,無損測定地物反射率。因此,利用實測光譜反射率對土壤有機質含量進行定量反演,能為地表土壤有機質含量的快速測定提供技術支持。基于荒地地表土壤自身的實測光譜特征,通過土壤有機質高光譜分析,了解土壤的現狀,為該荒地有機質含量大面積精準反演提供依據。
國內外學者對土壤光譜和土壤有機質含量之間的關系做了深入研究后發現,土壤有機質在可見光-近紅外區域表現出獨特的光譜特性[2]。Al-Abbas等發現土壤光譜反射率與有機質含量呈顯著負相關[3]。Marion認為有機質含量是解釋520~1 750 nm譜段光譜反射差異的最重要變量,尤其與可見光波段的相關性最高[4]。Hummel等研究土壤有機質和近紅外光譜曲線之間的關系,并采用光譜反射率倒數的對數建立有機質含量預測模型[5]。在利用光譜反射率數據進行土壤有機質含量反演的模型方面,模型的建立依賴于研究區域和特有的數據,大多是運用最小二乘回歸的方法[6-10]。南鋒等針對黃土高原煤礦區復墾農田土壤,對光譜反射率進行lg(1/A)、R′變換,建立全波段和顯著性波段PLSR模型,發現顯著性波段對數的倒數建立的模型精度優于全波段[11]。朱登勝等研究了土壤的光譜特性,并采用PLSR方法建立了一階微分光譜的光譜吸光度與土壤有機質含量之間的定量分析模型,預測結果的相關系數為0.82,為實現土壤特性快速測量光譜數據提供了參考[12]。李頡等對土壤全氮、全鉀、有機質養分含量和pH值用PLSR模型進行預測,發現預測結果與實測數據具有較好的一致性[13]。

研究區位于阜康中部的荒地,土壤鹽堿化嚴重,土壤類型以鹽堿土為主,具有良好的區域土類代表性。其地表由紅柳、梭梭、雜草混合鑲嵌分布。地理坐標(87°46′~88°44′E,43°45′~45°29′N)。此地夏季炎熱,冬季寒冷,春秋氣溫升降劇烈,年均氣溫6.6℃,7月平均氣溫26.6℃,1月平均氣溫-17℃,無霜期174天,年降水量164 mm,年蒸發潛力2 000 mm左右,冬季積雪3~29 cm,是典型的大陸性干旱氣候[14]。
研究區土壤為原狀表層土,質地為壤土。采樣以遙感圖像為參考圖,手持GPS科學輔助野外調查選點。樣點采用東南-西北方向布點,每個點大約相隔300 m。采樣取0~10 cm深度土壤,按照梅花樁鉆取5個土樣混合為一個樣品,總計為64個采樣點(圖1)。對所采的每個土壤樣本編號入袋,帶回實驗室,經自然風干和剔除殘渣、石塊等雜質后,研磨,過2 mm孔篩。然后送至中國科學院新疆生態與地理研究所理化測試中心,由專業人員采用高溫外熱重鉻酸鉀容量法進行土壤有機質含量測定。

圖1 研究區位置及采樣點分布Fig.1 Location of the study area and distribution of sampling points
野外光譜測量采用美國ASD公司生產的便攜式FieldSpec?3 Hi-Res光譜儀,有效光譜范圍:350~2 500 nm。為了避免天氣對光譜造成不利的影響,測量時間選擇在13∶00~15∶00(當地時間)、晴朗少云、無風的天氣進行。每次采集光譜前對光譜儀進行白板校正以去除暗電流影響,且探頭距采樣點的垂直上方15 cm。為了避免地表裂縫及周圍植被等因素的干擾,每個樣點盡量遠離可能干擾土壤光譜的物體。同時在樣點附近(1m范圍內)選取土壤背景相近的5個位置采集光譜,每個位置重復測量10條光譜曲線,共50條曲線,以減小環境對光譜的影響。
首先,采用ASD View Spec Pro對光譜預處理,去除光譜數據中有異常的光譜曲線。其次,對每個樣點反射率進行平均作為該樣點的實測光譜數據。最后,運用OriginPro 9.1對光譜反射率進行Savitaky-Golay(2次多項式,5個點)平滑去噪處理,同時刪除噪聲較大的波段350~499 nm和2 351~2 500 nm。在預處理后的土壤原始光譜反射率(R)的基礎上,利用ENVI4.8軟件進行光譜反射率一階微分(R′)、倒數的對數(lg(1/A))、倒數的對數一階微分(lg(1/A)′)、去包絡線(CR)等4種光譜反射率變換。光譜反射率作一階微分變換可以對重疊混合光譜進行分解以便識別,擴大樣品之間的光譜特征差異;光譜反射率經對數變換后,可以增強可見光區域的光譜差異性,而且可以減少因光照條件變化引起的乘性因素影響[15]。去包絡線處理可突出光譜信息的吸收的特征。
偏最小二乘法是一種多元統計分析方法,可以更好地解決自變量之間多重自相關性的問題,從而允許在樣本個數少于變量個數的條件下進行回歸建模,能有效地提取對系統解釋能力最強的綜合變量(稱為潛變量),排除無解釋作用的信息,使之對因變量有最強的解釋能力[16]。有機質含量建模集和預測集的劃分選用K-S(Kennard-Stone)算法[17],在Matlab R2013a軟件中編程計算出各個樣本光譜空間的歐氏距離,選用43個樣本用于建模,21個樣本用于驗證。
土壤有機質含量反演模型的預測精度采用預測值和實測值的決定系數R2,均方根誤差RMSE和相對分析誤差RPD(檢驗樣本標準SD與預測均方根誤差RMSE的比值)來衡量。R2越大,RMSE越小,說明模型的精度越高[18]。Viscarra等[19]對模型RPD做了如下分類,RPD<1.0,預測能力極差;1.0 (1) (2) (3) (4) 根據全國第二次土壤普查及有關標準,土壤有機質含量為6個級別[20](表1)。研究區土壤有機質含量在0.59~23.55 g·kg-1之間,屬于極缺乏-缺乏水平。從其均值來看,有機質量為9.61 g·kg-1,總體上偏低,屬于很缺乏水平,說明該區土壤貧瘠且養分含量少(表2)。其原因主要與研究區氣候干旱少雨,荒地植物生產能力低,土壤中微生物活性低、土壤動植物殘體歸還土壤少,使有機質在土壤中的積累緩慢有關。 根據變異系數(CV)的大小可粗略估計變量的變異程度:弱變異性,CV<10%;中等變異性,CV為 10%~100%;強變異性,CV>100%。64個樣品土壤有機質的CV為53.21,在空間表現為中等變異,表明樣本離散程度較高,用于構建模型具有代表性。偏度(α)一般用于衡量樣本分布的對稱程度,α為0時為正態分布;α大于0時為正偏斜;α小于0時為負偏斜。該采樣區α>0,說明其數據屬于正態分布的正偏斜。峰度(β)一般用于衡量樣本分布的集中程度,當β>0時,代表正態分布更集中在平均數周圍,分布呈現尖峰態;當β=0時,呈現為正態分布;當β<0時,表示數據更分散,呈現低峰態。該荒地β<0,說明數據相對于正態分布更平坦。 表1全國土壤養分含量分級標準 Table 1 National standards for soil nutrient content 有機質/(g·kg-1)Organic matter級別Level>40很豐富 Very rich30~40豐富 Rich20~30中等 Secondary10~20缺乏 Lack6~10很缺乏 Very scarce<6極缺乏 Extreme lack 表2 研究區土壤有機質描述性統計分析 對應全國第二次土壤普查及有關標準,將各樣點的土壤有機質含量分為3個等級(由于中等分級區僅有2個土壤樣本,樣本數較少,因而沒有在此處討論)。做出不同等級的土壤光譜反射率曲線(圖2)。其具有以下特征:(1)3個等級的有機質含量的土壤光譜曲線大致保持平行狀態,且波形基本相似。近紅外波段光譜反射率大于可見光波段,其曲線之間差異也略大于可見光。(2)土壤有機質含量與其光譜反射率呈負相關關系,即有機質含量越低,土壤反射率越高。說明土壤有機質含量可以從土壤反射率中得到一定程度的反映。(3)在400~760 nm波段范圍內,隨著波長的增加反射率呈現明顯上升趨勢。土壤中有機質主要來源于腐殖質,由于土壤中胡敏酸和富里酸的作用,曲線在可見光波段范圍內總體呈上升趨勢[21]。在760~2 350 nm波段范圍內曲線有凹凸不平的峰谷且變化趨于平緩。(4)在1 400 nm、1 900 nm、2 200 nm附近存在明顯的水分吸收谷,但3條曲線吸收深度不同。1 400 nm附近為羥基(-OH)帶譜,1 900 nm附近為H2O譜帶,2 200 nm附近為羥基伸縮振動與AL-OH和Mg-OH彎曲振動的合譜帶[22-23]。 土壤光譜反射率經過去包絡線處理后,將其反射率歸一化到0~1之間,光譜的吸收特征也歸一化到一致的光譜背景上[24],有效地突出反射光譜曲線特征(圖3)。其表現出:(1)3條光譜曲線的吸收谷更加明顯,除了1 400 nm、1 900 nm、2 200 nm附近外,在500 nm、700 nm、850~1 150 nm波段、2 000 nm附近都存在吸收谷,而這些特征在圖2中難以分辨出。因此,去包絡線有利于突出土壤光譜曲線的異質性特征。(2)對比3個等級有機質含量的去包絡線曲線發現,當光譜反射率≥2 100 nm,3個等級的去包絡線曲線差異較小;而<2 100 nm的光譜范圍內呈現顯著差異。說明去包絡線凸顯了不同含量土壤有機質的光譜反射率的特點。(3)3條曲線在500 nm、700 nm、2 000 nm波段附近均出現明顯的波谷,尤其在700 nm附近,極缺乏的吸收深度為0.066,很缺乏的吸收深度為0.042,缺乏的吸收深度為0.004。表明土壤有機質含量越多,其光譜的吸收能力越強,這與紀文君[25]等利用全國的光譜數據進行土壤有機質去包絡線后結果一致。以上分析說明,土壤有機質含量與土壤反射率特征具有一定相關性,且在450~2 100 nm光譜范圍內存在敏感波段。 2.3.1 土壤有機質與全波段光譜反射率相關分析 用全波段(450~2 350 nm)的R、R′、lg(1/R)、lg(1/R)′、CR與土壤有機質含量分別進行相關性分析,繪制相關關系曲線(圖4)。R與土壤有機質含量呈負相關,曲線整體上比較平滑,在450~700 nm、1 400 nm、1 900 nm、2 200 nm附近有微弱的低谷;lg(1/R)與有機質含量呈正相關,與R相關系數絕對值趨勢大體一致,相關系數都在0.43以上;R′、lg(1/R)′和CR與有機質含量相關系數在正負值之間波動。與R相關系數曲線相比,反射率經過變換后提高了與有機質含量的相關系數,一些細小的光譜吸收特征被擴大。 圖2 不同有機質含量的光譜曲線Fig.2 Spectral curves of different organic matter content 圖3 不同有機質含量去包絡線光譜曲線Fig.3 The curve of the removal of organic matter with different envelope 圖4 土壤有機質含量與原始及其變換后的光譜反射率相關分析Fig.4 Correlation analysis between soil organic matter content and its original spectral reflectance 2.3.2 光譜顯著性波段挑選 將R、R′、lg(1/R)、lg(1/R)′、CR與有機質含量相關性通過P=0.01水平檢驗的作為顯著性波段。通過檢驗的波段有:R的波段為550~870、1 400~1 700、2 000~2 350 nm;R′的波段為500~900 nm、1 000~1 300 nm、1 600~2 300 nm;lg(1/R)的波段為525~1 000、1 150~1 250、1 500~1 700、2 000~2 200 nm;lg(1/R)′的波段為800~1 750、2 000~2 350 nm;CR的波段為800~960、1 050~1 110、2 000~2 100 nm。其中光譜反射率與有機質含量相關系數由0.36提高到0.53,說明反射率經數學變換后一些細小的光譜吸收特征被擴大。 分別以全波段(450~2 350 nm)和顯著性波段的5種光譜數學變換形式(R、R′、lg(1/R)、lg(1/R)′、CR)為自變量,土壤有機質含量為因變量,建立相應的PLSR模型。 在5種光譜數學變換形式建模中,全波段(450~2 350 nm)的建模效果R2、RPD均高于顯著性波段對應值,而全波段RMSE與之相反,說明全波段的建模的模型精度大于顯著性波段。在全波段建模方法中,R和lg(1/R)模型的RPD在1.8~2.0之間,說明二者模型的預測能力較好。R′、lg(1/R)′和CR模型的RDP均大于2.0,表明其預測能力極好。對比各反演模型精度,CR建模和驗證均優于其它4種模型,其R2為0.84,RMSE為3.24,模型驗證的R2為0.79,RMSE為4.12,RDP為2.18;在顯著性建模中,R的模型RDP在1.4~1.8,只能對有機質含量進行一般預測。lg(1/R)′和lg(1/R)的模型RDP均在1.8~2.0,表明其模型預測能力較好。R′和CR的模型RDP都大于2.0,對有機質含量極好預測能力;CR建立的模型R2無論在全波段還是顯著性建模中,該模型精度最高且誤差最小,是土壤有機質含量的最佳預測模型。 在全波段(450~2 350 nm)和顯著性波段建模中,對R進行變換后的模型精度均有所提升。比如全波段R的建模R2為0.61,反射率經過lg(1/R)變換后R2達到0.69,說明反射率倒數的對數的變換后增強了的光譜間信息。經過微分變換R′建模的R2達到了0.81,表明光譜反射率作一階微分變換可以對重疊混合光譜進行分解以便識別,擴大樣品之間的光譜特征差異。CR處理后建立的模型R2為0.84,揭示了CR處理能增加土壤中有機質含量的光譜反射率,同時也論證了圖3去包絡線后不同有機質含量光譜曲線的明顯特征。雖然全波段(450~2 350 nm)和顯著性波段建模方法精度存在差距,全波段對有機質含量的預測能力略好,但是全波段CR模型的RPD僅比顯著性波段模型高0.03。因此,選擇顯著性波段CR模型作為估測該荒地土壤有機質含量的模型。其利用的波段少,減少了數據的冗繁,提高在實際工作的效率,縮短建模時間,具有比較好的解釋能力,更適合大面積野外精準估測土壤有機質含量。 以上研究表明,對于干旱區荒地有機質含量低的土壤,隨著有機質含量的增加,光譜反射率逐漸減小,說明有機質含量與土壤光譜反射率具有呈負相關,同時有機質含量能在土壤光譜信息中得到一定反映,其中相關系數最大0.59,其建模集和檢驗集R2最高值分別為0.84和0.79,更加支持了利用土壤高光譜反演土壤有機質含量具有可行性。 表3 不同光譜數學變換形式建模及驗證比較 此外本次試驗在野外測量,受到很多自然和人為因素的影響,因此,對R進行4種數學變換消除諸多因素對光譜信息的影響,突出光譜反射率與土壤成分含量相關性,從而提升了建模的精度[26]。發現一階微分和去包絡線后建立的模型精度較優。這與它們計算方法密切有關,一階微分能使隱蔽的光譜信息得到增加,去包絡線能使有機質光譜吸收特征信息被釋放出來。這與于雷等以漢江平原土壤為研究對象,采用微分和包絡線后的結果一致[10]。 對比發現全波段建模效果優于顯著性波段,這主要是顯著性波段建模僅應用了全波段的建模部分波段,可能造成一些數據損失,但是避免了波段間的過度擬合,因而導致RPD偏低。而全波段應用了土壤光譜信息所有波段,考慮了全光譜的信息,所以建模精度稍高于顯著性波段建模效果。然而,從模型的復雜度上說,顯著性波段的PLSR模型與全波段對比在模型精度方面雖有一定差距,但從模型的復雜程度來比較,具有模型簡單、運算量小、變量更少的特點,而且節省了運算時間,建模過程也更快速,適合用于對模型精度要求較高的場合,對今后的便攜儀器設備開發有一定的指導作用[27-28]。 本文以阜康中部荒地土壤有機質以研究對象,采用野外采集光譜數據,分析了土壤有機質的光譜特性。首先重點探討了以全國第二次土壤普查及有關標準,按有機質含量對應其光譜進行分級,詮釋了土壤有機質含量與土壤光譜的特性。其次利用64個點土壤反射率并選取了全波段(450~2 350 nm)和顯著性波段結合PLSR建型,并對不同處理光譜反射率的結果用于有機質含量建模和檢驗,找出其差異,得出了去包絡線建模能有效提高估測精度。具體結論如下: (1)不同有機質含量與土壤原始光譜反射率呈現負相關關系,即有機質含量越高,其光譜反射率越低,同時1 400 nm、1 900 nm、2 200 nm附近存在明顯的水分吸收谷。經去包絡線后,在500 nm、700 nm、850~1 150 nm波段、2 000 nm附近呈現顯著差異,同時土壤有機質含量越多,土壤光譜反射率吸收深度越大。 (2)分析有機質含量與光譜反射率相關系數,發現光譜反射率經過4種數學變換后提高了與有機質含量的相關系數,相關系數由0.36提高到0.53,說明數學變換后一些細小的光譜吸收特征被擴大。 (3)在全波段建模方法中,CR精度優于其它4種模型,其R2為0.84,RMSE為3.24,模型驗證的R2為0.79,RMSE為4.12,RPD為2.18,能極好的預測有機質含量。同時,CR、R′和lg(1/R)′建模集的RDP均大于2.0,表明這3種建模的預測能力好;在顯著性波段建模中,R建立的模型RDP均低于2.0。雖然R′和CR的模型RDP均大于2.0,可以準確預測有機質含量,但CR的R2,RPD更高,說明選擇CR建模的效果最好。 (4)在5種光譜反射率數學變換的建模中,全波段(450~2 350 nm)精度均略優于顯著性波段,但其使用數據量大,增加了計算量。其CR模型的RPD僅比顯著性波段模型的高0.03,同時顯著性波段建模方便快捷。因此,選擇顯著性波段CR模型作為估測該荒地土壤有機質含量的模型更可行。 該模型對其它地區是否適用,有待以后研究過程中進一步深度驗證。因此,在今后工作中,應加大光譜研究區域,完善土壤光譜信息庫。另外,同時建立荒地有機質含量變化監測系統,為干旱區新疆阜康有機質含量低荒地的建模提供理論基礎,區域的研究還可為遙感影像與野外實測光譜相結合提供更為客觀的輻射信息。
2 結果與分析
2.1 土壤有機質的統計特征


2.2 不同有機質含量的土壤光譜特征分析
2.3 土壤有機質與光譜反射率的相關性分析



2.4 土壤有機質PLSR模型建立與驗證
3 討 論

4 結 論