陳 磊,薛東劍,代 優
(成都理工大學地球科學學院,四川成都 610059)
森林是碳儲藏庫和衡量生態系統平衡的關鍵指標之一,準確估測森林地上生物量(above-ground biomass,AGB)對于了解氣候變化、維持生態系統平衡具有不可代替的作用[1-3].同時,林業是國家經濟發展的重要組成部分,森林儲蓄量是衡量國家林業資源的關鍵指標,進行森林地上生物量估測,具有重要的自然和社會經濟價值[4].傳統的森林地上生物量估測方法主要以野外實地測量為主,此方法雖然精度高、估測準確,但因其耗時、耗力、耗材且在偏遠山區和地質條件復雜的地區難以實施,難以運用在連續大范圍的生物量監測[5]方面.隨著遙感技術不斷發展,借助其高效、動態、宏觀優勢快速獲取各個尺度的森林參數,已成為區域或全球大尺度森林資源動態監測和定量評價的重要工具[6].
利用光學遙感、激光雷達和微波遙感數據結合實測樣地數據進行森林地上生物量反演已成為國內外學者研究的熱點并取得了顯著成果[7-10].合成孔徑雷達(Synthetic Aperture Radar,SAR)技術,波長較長,對森林有一定的穿透能力,能有效獲取森林樹干結構特征,且具有全天時、全天候大范圍連續動態監測等優點,彌補光學遙感和激光雷達的缺點,在森林地上生物量反方面具有巨大潛力[11-14].陳爾學[15]等利用SIR-C/X兩個波段的SAR數據,采用極化干涉測量數據處理方法和樹高反演算法,應用于平均樹高的提取;張國飛[16]等利用Sentinel數據通過線性回歸和機器學習算法估測了滇池湖濱森林地上生物量.除了數據源,森林地上生物量反演方法的選擇也十分關鍵.參數化方法主要是基于數理統計的線性回歸方法,譚炳香、李增元[17]等利用Hyperion高光譜數據采用逐步多元線性回歸定量估測森林郁閉度,精度達到86.34%.Kronseder[18]等利用全波形激光雷達數據建立多元線性回歸模型應用于熱帶森林地上生物量的估測,解釋了樣地71%的變化.潘磊[19]等以Sentinel-1 SAR數據的紋理信息構建回歸模型估測森林生物量,R2達到0.716.非參數化方法主要是通過建立實測數據和特征變量的非線性關系而實現的,菅永峰[20]等基于GF-2和SPOT-6衛星的紋理信息和光譜信息構建隨機森林模型,兩者精度分別為R2=0.88、R2=0.89.陳爾學[21]等利用Landsat TM數據采用K最近鄰法(K-NN)對小面積統計單元森林蓄積進行了估測,平均誤差低于1.5 m3·hm-2;Gleason[22]等利用機載激光雷達數據,對比分析線性混合效應(LME)回歸、支持向量機(SVR)和Cubist四種建模技術在生物量估測上的有效性.
本文以Sentinel-1 SAR為數據源,分別提取VV、VH極化下的后向散射系數和四個不同大小窗口下的紋理特征,結合坡度、坡向、高程三個地形信息,采用多元線性回歸和隨機森林進行建模反演,對比分析兩種模型的精度,以探索采用微波遙感數據和非線性方法在森林地上生物量反演上的能力.
研究區位于美國弗吉尼亞州東南部和北卡羅來納州東北部,地理位置為36°26′-36°46′N、76°34′-76°21′W,面積約637 km2,距離大西洋海岸不到64 km.迪斯默爾沼澤屬于副熱帶濕潤氣候,年均溫19℃,年平均降水量為(117~137)cm,地形以平原為主,地勢平坦、起伏小.研究區及實測樣地數據如圖1所示.

圖1 研究區位置及樣地分布圖
(1)雷達數據及處理.采用的Sentinel-1A數據來源于歐空局,影像成像時間為2015年9月18日,數據類型為干涉寬幅模式(IW)斜距單視復數(SLC)影像,極化方式為VV、VH,空間分辨率為5 m×20 m,入射角為43.99°.對Sentinel-1 IW SLC影像進行精密軌道校正、多視處理、Frost濾波處理,利用ASTGTM2 30 m分辨率的DEM進行地形校正、輻射定標和地理編碼,最后將圖像轉換為以分貝為單位的后向散射系數圖.
(2)樣地調查數據.研究區樣地調查數據來源于美國地質調查局于2014年夏季收集地塊級現場數據,使用Trimble ProXH全球定位系統(GPS)記錄每個樣地的中心位置,并進行差分校正.每塊樣地的半徑設置為5.6 m,共計83塊樣地調查數據.
(1)紋理特征:影像紋理特征提取采用灰度共生矩 陣(GLCM),GLCM于20世 紀70年 代 由Haralick[23]等人提出,它是圖像像元之間的角度和距離二者的函數,該矩陣中的值表示的是圖像中某個像元與某一個距離和方向處指定像元的像元值出現的次數.本研究采用4個不同大小的窗口(3×3、5×5、7×7、9×9)下的4個不同方向:0°(從左到右)、45°(從左下到右上)、90°(從下到上)、135°(從右下到左上)來計算8個常用紋理變量.
(2)地形特征:利用DEM數據分別提取坡度、坡向、高程三個特征.
本研究提取了VV、VH后向散射系數,VV、VH極化下4個窗口的8種紋理特征,坡度(Slope)、坡向(Aspect)和高程(Elevation)三個地形特征,共計69個特征.特征變量類型、名稱和個數見表1.

表1 特征變量因子
2.3.1 多元線性回歸模型
回歸分析的目的是分析兩個或兩個以上的變量間是否存在相關性以及相關方向和強度.構建多元線性回歸模型的任務主要包括:根據多個響應變量和解釋變量的實測值來構建線性方程;分析各個響應變量對解釋變量的綜合線性影響顯著性;評價各個響應變量與解釋變量的相關性及各個響應變量之間的共線性;選擇出對解釋變量有顯著影響的最優解釋變量建立回歸模型.多元線性回歸模型的一般表達式為:

其中,y為生物量實測值,x1,x2,···,xn為特征變量,β0為常數,β1,β2,···,βn為回歸系數,n為預測變量個數,ε為誤差項.
2.3.2 隨機森林模型
隨機森林(RF)是由Breiman[24]于2001年提出的一種基于決策樹的分類、回歸算法,由于隨機森林每顆決策樹都隨機地選擇部分樣本和部分特征,故該模型可以很好地避免過擬合問題,具有很好的抗噪能力和較好的穩定性,適合并行計算且運算速度和精度都較高.隨機森林通過自助法bootstrap重采樣技術,從原始訓練樣本集中隨機有放回的抽取2/3樣本生成新的訓練集合訓練決策樹,同時從所有特征中選擇m個特征來確定決策樹節點,按照以上步驟生成n顆決策樹組成隨機森林.該模型需要調整的參數為決策樹的數目(ntree)和節點分類時的變量個數(mtry).經多次運行,根據決策樹數目和誤差之間的關系圖確定最優的數目和變量個數.
2.3.3 模型最優特征變量的選擇
在多元線性回歸和隨機森林兩個模型中選擇出最優的特征變量進行建模是決定預測精度的重要因素.使用逐步回歸法選擇多元線性回歸模型的最優特征變量,隨機森林法選擇隨機森林模型的最優特征變量.
逐步回歸的思想是將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,并對已經入選的解釋變量逐個進行t檢驗,當原來引入的解釋變量由于后面引入的解釋變量變得不再顯著時,則將其刪除,以確保每次引入新的變量之前回歸方程中只包含顯著性變量.此過程直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中刪除為止,以保證最后所得到的變量集是顯著的、最優的.
隨機森林算法對解釋變量重要性進行度量,選擇出重要性高的解釋變量.隨機森林使用Inc-NodePurity(Increase in Node Purity)值對解釋變量重要性進行排序,通過殘差平方和來度量,其代表了每個變量對決策樹每個節點上觀測值的異質性的影響,該值越大表示變量重要性越高.
利用逐步回歸法和隨機森林法進行最優變量選擇的結果見表2.其中,逐步回歸法選擇出的變量按照進入順序進行排列,隨機森林法選擇出的變量按照重要性進行排列.

表2 最優變量選擇結果
由表2可知,在地形信息中,兩種方法均篩選出坡度(Slope)作為最優變量,且重要性大于其他所有特征;VV極化下的紋理特征更多地參與到森林地上生物量反演建模中.坡度(Slope)信息對于森林生物量估測具有重要作用,VV極化下的紋理特征在森林生物量估測中更具有穩定性,地形信息和微波遙感提取的紋理特征在生物量反演中具有較大潛力.
多元線性回歸模型:根據逐步回歸法選擇出的最優變量作為自變量,實測樣地生物量作為因變量構建回歸模型,即:

隨機森林模型:根據決策樹數目和誤差之間的關系圖選擇最優的數目.經過多次調試,根據圖2,當決策樹數目為300以后,誤差趨于平穩,將隨機森林法選擇出的最優變量代入模型進行建模反演.

圖2 決策樹數目和模型誤差關系圖
為定量分析參數和非參數模型在森林地上生物量的反演精度,進行多元線性回歸模型和隨機森林模型的反演,結果見圖3.多元線性回歸模型的預測結果較為離散,R2為0.458,均方根誤差(RMSE)為65.822 t/hm2,預測精度較差;隨機森林模型的預測值和實測值較為吻合,R2為0.697,均方根誤差為43.957 t/hm2,預測精度較好.因此,隨機森林模型在森林地上生物量預測上效果更好.

圖3 多元線性回歸模型(上)和隨機森林模型(下)預測結果
從兩個模型的預測值和實測值的比較可以看出,兩種模型都存在對低生物量過高估計,對高生物量過低估計的問題.基于多元線性回歸模型的森林地上生物量預測值最低為31.68 t/hm2,最高為438.08 t/hm2,與之對應的實測值為90.18 t/hm2和588.35 t/hm2,彈性幅度較大,表現出明顯飽和的特點,該模型各組數據相對誤差較大.基于隨機森林模型的森林地上生物量預測值最低為91.97 t/hm2,最高為473.8 t/hm2,與之對應的實測值為41.34 t/hm2和588.35 t/hm2,當生物量小于150 t/hm2和大于270 t/hm2時,相對誤差最大,平均相對誤差為61.03 t/hm2,生 物 量 在150 t/hm2和270 t/hm2之 間時,相對誤差最小,平均相對誤差為6.69 t/hm2.
本文以美國迪斯默爾沼澤國家野生動物保護區為研究對象,利用Sentinel-1 SAR數據對比分析隨機森林和多元線性回歸模型在生物量反演中的精度.隨機森林方法相比于多元線性回歸方法更適用于森林地上生物量反演.多元線性回歸方法以數理統計為理論基礎,便于分析解釋變量和響應變量之間的線性因果關系,但難以描述森林地上生物量與遙感數據間復雜的非線性因果關系,容易造成估測值與實測值之間的偏差過大.隨機森林方法不依賴于特定的函數分布,能夠有效的在大數據集上運行,處理高維度數據,不容易出現過擬合問題,可以對變量重要性進行排序,既提升了變量特征選擇效率,又提高了森林地上生物量估測精度.