曹萌萌,楊圣舒,丁勝男,馬 燦,肖 瑩,劉煥軍*
(東北農業大學 資源與環境學院,黑龍江哈爾濱 150030)
基于土壤反射光譜聚類分析的有機質預測模型
曹萌萌,楊圣舒,丁勝男,馬 燦,肖 瑩,劉煥軍*
(東北農業大學 資源與環境學院,黑龍江哈爾濱 150030)
結合土壤圖、Landsat8影像、DEM等,以松嫩平原典型土壤類型(黑土、黑鈣土、草甸土、風砂土)的149個耕層(0~20 cm)土樣的高光譜數據為研究對象,通過重采樣、包絡線消除法對數據進行處理,在此基礎上對不同波段反射率與土壤有機質(SOM)含量進行相關性分析,以敏感波段作為輸入量,采用K-均值聚類的方法對4種土壤進行聚類分析,建立聚類分析前后不同土壤類型的SOM多元逐步回歸模型。結果表明:(1)K均值聚類法將土壤分成4類,其結果與實際采樣結果大體類似;(2)土壤經過光譜分類后,預測模型精度較原來單一土類預測模型精度得到提高,R2的平均值由分類前的0.762提高到分類后的0.836,RMSE平均值由分類前的0.657降到分類后的0.504。該研究可應用于土壤光譜的分類、土壤有機質含量的速測、遙感反演、土地質量評價等工作。
重采樣 包絡線消除法 K-均值聚類 多元逐步回歸
近年來,土壤分類研究得到了快速的發展,由最初的定性分析到如今的定量化分類[1],劉煥軍等采用K-均值聚類和決策樹進行分類模型的構建,結果表明表層土壤光譜特性的決策樹模型可用于土壤分類[1],黃應豐通過對華南地區的土壤進行研究,采用主次元、模糊聚類分析后,將土壤分成平直型、緩斜型及陡坎型[2],王人潮等通過采用模糊數學方法,進而對土壤19個土壤剖面進行分類[3],康冉等通過對松嫩平原的土壤特征參數、光譜角度分析并結合聚類的方法,對松嫩平原土壤進行分類[4],戴達昌對中國的現行土壤類型進行研究,基于光譜反射率進行了光譜分類[5],目前已有很多學者從事土壤的分類研究,在土壤分類研究的基礎上有很多學者也在進行土壤有機質反演模型的研究,武彥清等通過最小二乘法和多元逐步回歸方法對松嫩平原建立土壤有機質高光譜預測模型,并具有很高的穩定性[6],劉煥軍等利用多元統計回歸方法,建立黑土有機質含量高光譜預測模型,并對模型的穩定性和預測能力進行檢驗,得出了歸一化一階微分模型為最優預測模型[7],吳炳方等基于統計分析方法研究了光譜分辨率對黑土有機質預測模型精度的影響,得到黑土有機質含量高,土壤有機質的光譜作用范圍寬;黑土有機質光譜預測模型精度隨光譜分辨率降低,呈現先增后減的趨勢[8],該文在前人研究的基礎上選擇松嫩平原土壤作為研究目標,對土壤有機質預測模型進行研究。
東北地區是我國重要的商品糧基地,然而隨著近年來土壤侵蝕、土壤鹽漬化以及荒漠化等土壤退化問題的加重,對東北地區土壤退化進行實時、定量、動態宏觀的監測是必要的。因此該文針對東北地區尤其是松嫩平原地區的土壤進行聚類以及不同土壤類型的SOM預測模型研究,旨在為區域土壤分類及土壤有機質含量的速測提供支持。
1.1 研究區概況
研究區為位于大、小興安嶺與長白山脈及松遼分水嶺之間的松嫩平原黑龍江省部分的耕地范圍,它屬于中溫帶大陸性季風氣候,雨熱同季,光照充足,土壤類型從東北到西南依次有:草甸土、黑土、黑鈣土、風砂土。該區耕地面積約占63.4%,土質肥沃,是我國重要的商品糧生產基地。作物一年一季,裸土時間長,晴天多,適于土壤遙感研究。
1.2 土樣采集與處理
結合土壤圖、春季裸土時期環境星、Landsat 8影像、Google Map、DEM,在松嫩平原土壤區(北安市、杜爾伯特蒙古自治縣、林甸、依安、拜泉、等市縣境內)采集0~20 cm耕層土樣(選擇該區典型土壤類型:黑土、黑鈣土、草甸土、風砂土)共149個。如圖1。

圖1 研究區示意與土壤分布

表1 樣本有機質統計量
利用GPS測定采樣點經緯度坐標,在室內將土樣風干、研磨、過2 mm篩,采用四分法將土樣分成兩份,分別供化學分析和光譜測試用。采用重鉻酸鉀容量法-外加熱法分析有機質含量[9]。室內測定土樣有機質含量如表1。對采集的土樣有機質含量進行測定并進行反射光譜測試。
1.3 室內反射光譜測試
對處理加工過的土樣進行光譜測試,采用ASD FieldSpec3地物光譜儀測量土壤樣品的反射光譜數據。該光譜儀波長范圍為350~2 500 nm,光譜測量在一個能控制光照條件的暗室內進行。光源為1 000W的鹵素燈,采用的探頭視場角為8°。光源照射方向與垂直方向夾角30°。探頭到土樣表面垂直距離為15 cm,把適量經處理的土壤樣品倒入直徑為12 cm,深1.8 cm的盛樣皿中。用玻璃稍稍壓實,使其表面盡量平整。每個土樣采集10條光譜曲線,取其平均值作為該測量樣本的光譜數據。
1.4 光譜數據的處理
利 用 遙 感 軟 件 ENVI5.1的 Spectral Library Resampling功能對光譜數據以5 nm為間隔進行重采樣,同時利用軟件的Continuum Removed功能對重采樣的數據進行包絡線消除法處理,將反射率歸一化到0~1之間,從而使光譜特征更加明顯。數據進行去包絡線消除法后對比圖(圖2)。

圖2 去包絡線消除法后對比
1.5 K-均值聚類
1.5.1 指標的標準化處理
在進行K-均值聚類前,需要對指標進行標準化處理,即將各個指標值按比例映射到相同的取值區間,從而能夠平衡各個屬性對距離的影響。映射區間為[0,1]。公式如下:

Zj(i)為第j個指標,第i個樣本的標準化結果,Xj(i)第j個指標,第i個樣本值,max[Xj(i)]和min[Xj(i)] 分別為第j個指標的最大值和最小值。
1.5.2 K-均值聚類
K-means算法是典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大[1]。采用SPSS來進行該算法的實現。
1.6 多元逐步回歸
多元線性回歸模型是指含有多個解釋變量(即含有兩個或兩個以上的自變量)的線性回歸模型,用于揭示變量與多個解釋變量的線性關系[4],其數學模型為:

式中Y為被解釋變量,Xj(j=1,2,3,…,k)為解釋變量,βj(j=0,1,2,3,…,k)為未知參數,μ為隨機誤差項。該研究采用 SPSS進行多元逐步線性回歸。
1.7 模型精度的檢驗
模型穩定性的判斷指標用決定系數R2檢驗,預測精度評價指標用均方根誤差(RMSE)判斷越大[9]。其計算公式為:

式中yi和分別檢驗樣本的觀測值和預測值,為樣本觀測值的平均值,n為預測樣本數,其中決定系數R2的值越接近于1則代表模型的穩定性越強。
RMSE的計算公式如下:

式中yi和分別為檢驗樣本的觀測值和預測值,n為預測樣本數。RMSE值越小則代表模型精度越高、預測能力越強。
2.1 松嫩平原不同土壤反射光譜特征
將松嫩平原4種典型土壤的光譜反射率進行重采樣及去包絡線處理,為了更好地發現不同土壤類型的光譜特征,對每一種土壤光譜反射率及去包絡線后的數據求取均值,代表每一個土壤類型的平均光譜特征,如圖3。
由圖3可知:在430~930 nm較其他土壤,黑土由于有機質含量較高,受其含量影響,黑土在這一波段的反射率較低,風砂土的反射率較高。在去包絡線前后,4種土壤光譜反射曲線走勢大致相同,去包絡線后使數據的特征更加明顯,在小于930 nm之前,數據更是表現出之前沒有的特征,且在波長小于1 400 nm時,黑土曲線表現出下凸的趨勢,風砂土則表現為上凸的情況。
2.2 K均值聚類
在土壤有機質含量與光譜數據的相關性分析的基礎上,選出相關性最大的幾個波段,并對其進行標準化處理,作為K均值聚類的輸入量。利用SPSS軟件進行標準化處理及聚類分析,結果如表2。

圖3 土壤反射率光譜曲線與去包絡線

表2 聚類分析結果

表3 分類前后不同土壤有機質含量預測多元線性逐步回歸模型

表4 不同土壤有機質 多元逐步回歸模型

圖4 不同類型土壤反射光譜曲線
與實際的土壤類別對比后發現:第一類混有87.5%的風砂土和12.5%的草甸土,其中風砂土占比最大;第二類混有83.3%的草甸土、3.3%的風砂土和13.3%的黑鈣土,其中草甸土占比較大;第三類混有76.8%的黑鈣土、 13.4%的風砂土以及9.8%的草甸土,其中黑鈣土占比最大;第四類的光譜特征有機質含量偏高,平均有機質含量達到6.87,其中25個樣本均為黑土(即86%為黑土)混有部分黑鈣土和草甸土。
根據聚類后的結果,以占比多的土壤類型命名該類別,繪制出4類土壤的光譜反射率曲線如圖4。
2.3 多元逐步回歸
以分類前后不同土壤不同波段去包絡線處理后的土壤數據為自變量,以有機質含量為因變量,利用SPSS軟件將全部變量的方差貢獻值按大小進行排列,進行多元線性逐步回歸分析,選入以及剔除自變量的概率參數為0.05和0.1,結果如表3。
由表3可知: 4種土壤類型的預測模型R2>0.494,風砂土單獨建模精度高于其他土類,黑鈣土單獨建模精度低于其他土類。土壤類型的R2多集中于0.8附近,RMSE值<0.877,故模型的適用性較強。
整體看,土樣經過分類以后,多數土壤的R2得到提高,RMSE值減小,其中黑土、草甸土以及風砂土的R2均得到提高,其模型精度高于單一土類建模,同時4類土壤R2的平均值由分類前的0.762提高到分類后的0.836,RMSE平均值由分類前的0.657到分類后的0.504。
分類后4種土壤的預測模型如表4。
在風砂土分類中加入了1個草甸土,風砂土單獨建模時模型精度高于其他3種土類的模型精度,但當風砂土與部分的草甸土歸為一類時,其模型精度又有所提高,這說明該采樣點的表層草甸土的光譜反射率特征表現出風砂土的特征。草甸土分類中加入了部分風砂土和黑鈣土,由于黑鈣土與草甸土采樣點相鄰,這部分草甸土會兼具黑鈣土和草甸土兩種土壤的光譜反射率特征,因此草甸土的模型精度并未得到顯著的提高,黑鈣土與黑土的分類中,均混有少部分草甸土,說明表層草甸土的光譜反射率特征表現出相鄰土樣的反射率特征,證實了表層草甸土的“向鄰性”。

(1)松嫩平原的4種土壤反射率數據去包絡線處理后均適用于多元逐步回歸模型,其中單一風砂土的預測模型最好,預測精度可達到0.894,RMSE值為0.336。
(2)經過聚類分析后,4類土壤有機質預測模型的精度較單一土壤模型的預測精度均得到一定提高,因此可以認為對于土壤有機質含量進行預測時,先將其進行光譜分類是有必要的,故該方法可應用于土壤光譜分類,并且有利于土壤有機質含量的速測。
(3)聚類分析后草甸土預測模型精度并未得到顯著提高,主要是由于黑鈣土與草甸土采樣點相鄰,這部分草甸土會兼具黑鈣土和草甸土兩種土壤的光譜反射率特征,因此預測模型精度不高。
該研究的結果僅是基于土壤光譜反射率去包絡線數據的K-均值聚類結果,并未基于土壤光譜特征參數進行聚類分析,因此從不同角度對土壤進行聚類分析從而提高聚類的精度還有待研究。
[1] 劉煥軍,張小康,張新樂,等.面向土壤分類的高光譜反射特征參數模型.遙感學報.2017,21(1)105~114
[2] 黃應豐,劉騰輝.華南主要土壤類型的光譜特性與土壤分類.土壤學報.1995.32(1):58~68
[3] 王人潮,蘇海萍,王深法.浙江省主要土壤光譜反射特性及其模糊分類在土壤分類中的應用研究.浙江大學學報(農業與生命科學版).1986
[4] 康冉,劉煥軍.松嫩平原典型土壤有機質高光譜預測模型研究.哈爾濱:東北農業大學,2016
[5] 戴昌達.中國主要土壤光譜反射特性分類與數據處理的初步研究.遙感選A集.北京:科學出版社.1981,5~323
[6] 武彥清,張柏,劉煥軍,等.松嫩平原土壤有機質含量高光譜反演研究.中國科學院研究生院學報.2011,187~194
[7] 劉煥軍,張柏,張興義,等.黑土有機質含量高光譜模型研究.土壤學報.2007,28~32
[8] 劉煥軍,吳炳方.光譜分辨率對黑土有機質預測模型的影響.光譜學與光譜分析.2012,739~742
[9] 李勝男,曹萌萌,等.黑土典型區有機質高光譜預測模型.國土與自然資源研究.2016,(4)