葉紅云,熊黑鋼,包青嶺,王 寧,馬利芳
(1.新疆大學資源與環境科學學院/教育部綠洲生態重點實驗室,新疆烏魯木齊 830046;2.北京聯合大學應用文理學院城市系,北京 100083)
土壤有機質(SOM)主要由各種動植物的殘體、微生物體及其分解和合成的各種有機物質組成,雖然其含量僅占土壤總量的很小一部分,但在土壤肥力上的作用卻十分重要。不同土壤類型和區域由于氣候以及人類干擾程度的不同,使得有機質分解程度不同,其光譜反射特性也存在差異。近年來,利用高光譜對土壤有機質進行估測研究因其便利性而被普遍使用[1-3]。但土壤高光譜曲線是土壤屬性的綜合體現,存在很多與有機質無關的噪聲,且信息相關性強、信息冗余等,因此對于高光譜噪聲的去除成為近年來研究的熱點[4-6]。目前光譜去噪方法有很多,如Savitzky-Golay平滑去噪、移動平均法、傅里葉變換(FFT)濾波等,但這些方法能檢測的信噪比信息有限。小波變換近幾十年來在高光譜遙感領域以其在信號去噪和數據壓縮方面獨特的優勢為地物光譜信息提取提供了新途徑[7-9]。但目前的研究大都以人類干擾的土壤為對象,且均是有機質含量較高的地區,未充分考慮到人類干擾程度不同且有機質含量較低時光譜的估測情況。灰鈣土是新疆北部典型的土壤類型之一,其有機質質量分數大多低于2%。研究表明,有機質含量較低會減弱其光譜反射率的吸收特性[10-11],導致在估測有機質含量時存在光譜響應較弱、模型預測精度較低等問題,因此有必要探究進一步提高預測精度的方法。
灰度關聯法是分析各因素之間關聯程度的方法,在光譜分析中可以很好地識別敏感波段,有利于優化模型精度[12]。極限學習機(ELM)算法可隨機產生輸入層與隱含層間的連接權值及隱含層神經元的閾值,且在訓練過程中無需調整,只需設置隱含層神經元的數量,便可獲得唯一的最優解,與傳統的BP神經網絡算法相比,ELM方法學習速度快、泛化性能好[13]。雖然目前這2種方法應用較多,但將二者結合應用于干旱區小波變換最佳光譜層的確定中還未見報道。
本研究從人類干擾程度出發,結合植被特征、土地利用方式等指標,將研究區劃分為輕度、中度和重度干擾區3種干擾類型,采用離散小波技術從土壤光譜數據中分別提取有機質信息,并利用相關分析和灰色關聯分析法挑選有機質含量的敏感波段,結合極限學習機構建估測土壤有機質含量的模型,以期提高估測精度,為精準農業的發展提供借鑒和科學依據。
研究區位于新疆北部的阜康市(87°44′~88°46′E,43°29′~45°45′N)。地勢南高北低,平均海拔為452 m。氣候為典型的溫帶大陸性氣候,夏季高溫,冬季嚴寒,光能資源充足,熱量資源豐富,降水稀少且空間分布不均,年降水量為163 mm,年蒸發潛力為2 000 mm左右[14]。
本試驗將研究區分為Ⅰ、Ⅱ、Ⅲ3個區。Ⅰ區為輕度干擾區,因距離人類居住地較遠,并未開發利用,該區人類活動很少,偶有人類進入,基本保持了其原有風貌;Ⅱ區為中度干擾區,處于新疆生產建設兵團102團附近,大部分為廢棄耕地,人類目前對其干擾較小;Ⅲ區為重度干擾區,位于研究區的西南部,人類對其開發利用程度較大,主要開發利用方式為林地(包括人工梭梭林地、榆樹林地、育苗地),尚處于開發利用的初期階段(表1)。
參照余作岳提出的人類干擾分類體系[15],研究中的Ⅰ區長期以來的主導干擾因子只是人類偶爾進入該區,并未對該區原有植被類型造成干擾,即幾乎不引起土壤中組分的變化,屬于無效干擾;而Ⅱ區、Ⅲ區經過人類開墾、植樹等干擾活動后,使得植被類型發生改變,正常演替序列被打破,土壤中的鹽分、有機質等組分也隨之發生變化,即表1中的3種干擾改變了生態系統的正常動態發展,屬于有效干擾。因此可以用輕度干擾區的各項指標作為對照來比較分析中度干擾、重度干擾區土壤有機質含量的變化等信息。

表1 研究區3類典型干擾區基本情況
本研究于2017年10月進行了土壤樣本數據采集。在Ⅰ區由南向北布設5條間距500~700 m的東西向采樣線,每條采樣線布設6個采樣點;Ⅱ區按同樣方向布設5條間距400~600 m的采樣線,每條采樣線上選擇5~7個具有代表性的的采樣點;Ⅲ區面積較小,因此布設6條間距200~400 m的采樣線,每條采樣線布設5個采樣點。每個區均為30個采樣點,由此構成由90個采樣點組成的空間網格,并分別對其進行GPS(全球定位系統)定位。采樣點具體分布見圖1。本次野外數據采集主要包括以下2個部分:
1.2.1 野外土壤高光譜數據的采集 光譜測量采用美國ASD公司生產的便攜式FieldSpec?3Hi-Res光譜儀,波段為350~2 500 nm,350~1 000 nm光譜采樣間隔為1.4 nm,光譜分辨率為3 nm;1 001~2 500 nm范圍內光譜采樣間隔為1.1 nm,光譜分辨率為8 nm。由于本試驗光譜測量采用野外實測方法,為了減少太陽高度對光譜采集造成的不利影響,試驗均選在當地時間11:00—15:00、晴朗少云、無風的天氣進行。每次采集光譜前對光譜儀進行白板校正以去除暗電流的影響。采用25°視場角探頭,且距采樣地面15 cm處垂直角度,在每個采樣點按梅花樁對表層土壤原始光譜進行采集,每個位置重復測量10次,得到的50條光譜曲線的平均值即為該采樣點的實測光譜值,共測定90個樣點的采樣光譜曲線。野外測量時觀察每個樣點的實測光譜值,將出現異常的光譜曲線刪除并重新測定,以便獲得更加準確的實測光譜反射率。
1.2.2 土壤有機質含量的采集 土樣的采集與高光譜數據的測定同時、同地進行,選擇地勢平坦、能代表樣點周圍區域特征的地點作為采樣單元,每個采樣點分別從周邊1 m范圍內不同的地點挖取3個0~10 cm的土坑分別采樣,并混合均勻放入密封袋中,封口標記編號,用手持GPS定位后記錄經緯度。將采集的樣品帶回實驗室經自然風干、去除雜質后,研磨過1 mm篩,送至中國科學院新疆生態與地理研究所,由專業人士采用重鉻酸鉀容量-外加熱法測定[16]有機質含量。

因為光譜儀器波譜兩端的邊緣波段存在較大的儀器噪聲,首先剔除350~399 nm和2 451~2 500 nm波段。然后運用OriginPro 9.0對光譜反射率進行Savitaky-Golay(9點)平滑去噪處理。通過觀察研究區90個采樣點的土壤光譜曲線,發現野外實測光譜在1 350~1 450 nm和1 830~1 950 nm附近出現異常,這主要受到水分吸收帶和大氣的影響,因此將其剔除。
離散小波變換是基于傅里葉變換發展起來的數據分析方法,可以將原始信號按照不同的尺度、頻率進行多級分解,得到不同分解尺度下的小波系數。通過小波系數可以實現原始光譜的信息重構。借鑒前人研究結果[17-18],本研究對原始光譜進行1~8層小波分解并重構各層光譜進行分析。
灰色關聯分析是通過灰色關聯度來揭示2個因素的貼近程度,曲線幾何形狀越接近,灰色關聯度越大。一般而言,若關聯度≥0.8,則2個因素貼近程度很好;若關聯度介于0.6與0.8之間,則貼近程度較好;若關聯度小于0.5時,則認為基本不相關[19-20]。
ELM是發展于單隱含層前饋神經網絡的新型神經網絡算法[21]。在算法執行過程中隨機設定輸入層與隱含層之間的權值和閾值,無需反復調整迭代網絡的輸入權值及隱元的偏置,并且產生唯一的最優解,避免陷入局部最優解的情況,因此具有學習速度快和強泛化性的優點[22]。
模型的精度檢驗主要通過判定系數(coefficient of determination,簡稱R2)、均方根誤差(rootmean square error of calibration,簡稱RMSE)和相對分析誤差(residual prediction deviation,簡稱RPD)來檢驗實測值和估測值的擬合效果。R2越大,RMSE越小,說明模型精度越高[23]。Viscarra等對模型RPD做了如下分類,RPD<1.0,預測能力極差;1.0<RPD<1.4,預測能力較差;1.4<RPD<1.8,預測能力一般;1.8<RPD<2.0,預測能力較好;2.0<RPD<2.5,說明預測能力極好[24]。
選用SPXY(光譜-理化值共生距離)算法[25]分別計算出Ⅰ、Ⅱ、Ⅲ區各個樣品有機質含量之間的歐式距離,按照3∶2的比例劃分為建模集和檢驗集。研究區土壤有機質含量總體較低,且隨著干擾強度的減少,經營方式逐漸回歸自然狀態,有機質含量逐漸增加,變異系數逐漸減少(表2)。這是因為Ⅰ區原始植被狀態保存得完好,主要分布有梭梭、檉柳、豬毛菜、鹽爪爪等,植被覆蓋度較高;而Ⅲ區受人類活動干擾的影響,土地利用方式多樣,主要有人工林、枸杞育苗地以及其他農業土地利用類型,使得空間異質性與其他2個區相比加強,變異系數也增加。

表2 土壤有機質含量的描述統計量
應用小波分解與重構去噪方法需要對各種光譜信號進行分解以選擇分解層次,從而在重構時達到去噪與保留細微光譜特征的平衡點。在MATLAB R2017b中選取常用的db4函數作為小波母函數,并對原始高光譜數據進行8層離散小波分解,然后將分解后的每層小波系數分別進行光譜重構(圖2)。隨著分解層數的增加,吸收谷由較為“尖銳”逐漸變得“圓潤”。與L0相比,L1、L2的光譜反射率曲線變化不大,而L3~L5則凸顯了光譜曲線的局部細節,使得波峰、波谷更加清晰,到L6、L7光譜反射率趨于平滑,L8則幾乎看不到吸收谷。表明適當的分解尺度可以減少背景和噪音的影響,但分解尺度過高可能會導致某些有效光譜信息的丟失。Ⅰ區、Ⅱ區、Ⅲ區的光譜反射率曲線形態大致相同,土壤高光譜反射率曲線呈現Ⅰ區<Ⅱ區<Ⅲ區,即隨著人類干擾程度的增加,土壤高光譜反射率增強。
以0.05顯著性水平為閾值,通過對比不同分解層數與土壤有機質含量的相關性來選擇適宜的分解層(表3)。隨著分解層的增加,Ⅰ區、Ⅱ區、Ⅲ區通過0.05顯著性水平檢驗的相關系數逐漸減小,在L6附近變化程度不大,且通過檢驗的敏感波段數均在L6處達到最高值,分別為405、198、167個,而L7、L8的敏感波段數量則呈現快速下降的狀態。表明分解層數的增加,在一定程度上使得小波系數輸出原始光譜信息的能力逐漸減弱。因此,本研究選取相關性較強且通過的敏感波段數量較多的前6層特征光譜用于土壤有機質含量模型的反演研究。
基于以上分析,將通過0.05水平檢驗的原始光譜(L0)和小波分解后(L1~L6)的特征光譜分別進行1/R、lg R、R′、(1/R)′、(lg R)′等5種數學變換,以獲得各分解層的敏感波段。由于高光譜數據量較大,且通過小波變換后信息含量更大,使得選擇敏感波段難度加大,因此本研究以通過0.05顯著性水平以及相關性最大的原則選擇每層的敏感波段(表4)。總體來看,Ⅰ區敏感波段主要分布在可見光區(752~875 nm)和近紅外區(1 820 nm),Ⅱ區相關性最大的波段主要集中在可見光區(400~600 nm),而Ⅲ區主要集中在近紅外區(1 200~1 300 nm);從不同數學變換來看,無論是哪個區,微分變換后整體上相關系數均有所增加;對于不同分解層來說,Ⅰ區、Ⅱ區、Ⅲ區相關系數較高的波段均主要集中在L3和L4層,以Ⅰ區的1/R為例,L4層相關系數最高,為0.498 3,比L0處的相關系數提高了0.05左右,說明微分處理可以將可見光區微弱的有效信息放大,有利于敏感波段的選擇。



表3 不同程度人類干擾下SOM 與各層敏感光譜的相關性分析

表4 SOM 與各層特征光譜的不同數學變換的最大相關性及波段所處位置
單純依賴簡單的相關性分析確定敏感波段并不能完全確定有機質含量的有效信息,具有一定的局限性。為了進一步衡量不同分解層所選的敏感波段與有機質的關聯程度,更好地篩選出表征有機質的敏感光譜指標因素,本研究對其進行了灰色關聯分析(表5)。總體來看,Ⅰ區、Ⅱ區和Ⅲ區各層特征光譜及其不同數學變換與有機質含量的灰色關聯度均高于小波變換前(L0)所對應的數據,表明小波變換在去除噪聲的同時也最大程度地保留了光譜中的有效信息,使得小波變換的各層重構光譜與有機質含量的關聯程度增加。從同一分解層來看,經過微分處理后小波變換重構特征光譜與有機質含量之間的灰色關聯度總體上均高于對應的未經微分處理的數學變換,如Ⅰ區L0,其關聯度排序依次是(1/R)′>R′>(lg R)′>1/R>lg R>R,進一步說明在小波去噪的基礎上,通過微分數學變換可以顯著增強光譜曲線上局部位置對有機質含量變化的響應差異。

表5 不同程度人類干擾下各層特征光譜不同數學變換的灰色關聯度
分別選取Ⅰ區、Ⅱ區和Ⅲ區的原始光譜和重構光譜及5種數學變換后與有機質含量相關系數最大的波段為自變量、土壤有機質含量為因變量,結合PLSR和ELM算法構建有機質含量的估測模型,通過對比得出灰度關聯-極限學習機模型建模精度均優于對應的相關系數-PLSR模型,由于各層小波重構光譜所建立的模型太多,此處僅對各層灰色關聯-ELM模型進行討論。此外,由于小波變換把原始光譜分解成不同的離散光譜,每層光譜均表征了原始光譜中的特定信息,如果單一地選擇某一層重構特征光譜建模,容易導致其他分解層中有效信息的丟失,使得所選變量不能完全反映有機質含量信息,對建模精度產生影響。因此,本研究再以各層相關系數最大的波段組合以及灰色關聯度分析所選的波段組合,分別建立PLSR和ELM模型。僅列出利用相關系數最大波段組合所建的PLSR模型和灰度關聯所建立的ELM模型,分別用L-R、L-GRD表示(表6)。
從各分解層的建模效果來看,以L3、L4所構建的模型最優。以Ⅰ區為例,前4層構建的驗證集模型R2呈不同程度的增加,到L4模型R2最優(0.807),均方根誤差最小(1.093 g/kg),且RPD大于2(2.109),表明第4層能夠極好地預測有機質含量。此后,隨著分解層數的增加,各模型的R2降低,RMSE增大,RPD也隨之減小。這與王延倉等的研究結果[17,26]一致,即利用小波重構原始光譜時,隨著分解層數的增加,使得原始光譜中噪聲和信號信息更加明顯,有利于有效光譜信息和噪聲的分離。但分解尺度過大,會導致有效信息的丟失而使得模型誤差較大。從總的建模效果來看,對于Ⅰ、Ⅱ、Ⅲ區利用相關分析-偏最小二乘法所建模型驗證集決定系數R2分別為0.568、0.517、0.544,RMSE分別為1.620、1.771、3.208,RPD均小于1.4,預測能力較差。而利用灰度關聯-極限學習機建模效果均最好。以驗證集所建模型為例,與原始光譜所建模型相比,Ⅰ、Ⅱ、Ⅲ區R2分別提高了9.8%、8.9%、13.6%,RMSE分別減少了18.3%、2.5%、7.3%,RPD分別增大了39.9%、22.2%、46.4%,這可能是因為單一地利用某一層的小波重構光譜,并不能完全將光譜中的細節體現出來,通過灰色關聯度分析將不同層的特征光譜組合起來,可以很好地體現每一層特征光譜與有機質含量的關系,增加了模型的穩定性和模型精度。同時,灰色算法結合光譜和有機質信息,能夠較好地挑選敏感波段,且ELM算法是在BP神經網絡基礎上的優化新型算法,具有學習速度快且泛化性能好的優點。
此外,Ⅰ區不同分解層下的土壤有機質建模精度均高于相應的Ⅱ區、Ⅲ區,這主要是因為Ⅰ區為輕度干擾區,基本保持原有狀態,有機質分布較為均質,而Ⅱ區、Ⅲ區由于受到人類不同干擾程度的影響,不同地塊的土地利用方式不同,使得有機質含量分布變異性較大,導致模型預測精度相對較低。
對于人類不同干擾程度土壤的小波重構光譜來說,對其最大的影響因素主要是有機質含量的高低,整體上隨著人類干擾程度的增加,小波分解的重構光譜反射率隨之升高,排序為Ⅰ區<Ⅱ區<Ⅲ區。
在確定最佳分解尺度中,Ⅰ區、Ⅱ區、Ⅲ區土壤有機質和重構光譜通過0.05顯著性水平檢驗的敏感波段在L6處變化幅度不大,且通過檢驗的敏感波段數達到最大值,分別達405、198、167個。因此L6為本研究的最大分解層。
對于不同層的重構光譜來說,小波分解使得重構光譜及各種數學變換與有機質含量之間的相關性和灰色關聯度有不同程度的提高;對于同一分解層來說,經過微分變換后與有機質含量之間的相關性和灰色關聯度均優于微分變換前,表明小波變換和微分結合有利于挖掘光譜中的有效信息,提升其與有機質含量的相關性。

表6 土壤有機質含量反演最優模型的建模集與驗證集結果
對3個區原始光譜分別進行不同尺度的分解后(L1~L6),總體上L3、L4的建模效果最好,與L0建模效果相比,驗證集R2分別提高了0.06、0.04、0.05,表明L3、L4在去噪的同時又最大程度上保留了光譜的有效信息。
不論在哪個區,利用灰度關聯與ELM結合均優于傳統建模方法,且Ⅰ區、Ⅱ區、Ⅲ區均以L-GRA所建模型的精度最高。其驗證集R2均大于0.73,RPD均大于2,相比原始L0所建模型,RPD分別提高了0.679、0.400、0.678。預測能力由較差上升為極好,表明灰色關聯-極限學習機方法有利于最大程度地篩選有機質敏感光譜信息,尤其適用于干旱區有機質含量較低情況下有機質含量的預測,且不受人類干擾程度的影響,是估算干旱區有機質含量的優選模型。