高 萌,王霓虹*,李 丹,劉立臣
(1.東北林業大學 信息與計算機工程學院,哈爾濱 150040;2.東北林業大學 機電工程學院,哈爾濱 150040)
在全球溫室效應形勢較為嚴峻的情況下,森林在吸收CO2及釋放O2上的作用日益凸顯,針對森林生物量開展研究工作成為近年來的熱點,對森林生物量進行量化并建立合理的價值核算與評估體系,為推動“京東協議書”背景下的碳匯市場化奠定基礎[1-2]。目前進行生物量計量與估算的方法主要有林地調查法、遙感估算法和生理生態學方法[3-4],其中,林地調查法應用最為普遍,且技術方法已比較成熟。而在林地調查法中,常采用異速生長方程估算單位面積生物量,乘以林地面積即可得到區域總生物量。馮宗煒[5]等、李鳳日[6]等、王洪巖[7]等分別利用異速生長方程建立了多個樹種的生物量估算模型,并進一步研究了生物量的時間與空間分布特征。
上述研究在生物量估算上取得了可靠的精度,但其在進行樣地設置和樣地數據獲取上均存在一定的主觀性及隨機性,主觀地以相似立地為準則獲取數據,因此基于該類數據建立的生物量模型在估算林分、群落及林場生物量時存在以偏概全的問題。另外,基于異速生長方程估算林分生物量時工作量較大,且現有研究中建立的林分生物量估算模型較少,因此應研究一種客觀、快速、高精度的森林生物量估算方法。本文研究一種聚類分析、主成分分析和支持向量回歸(Support Vector Rergression)的組合算法,對森林資源二類清查數據進行主成分分析,利用小班主成分得分值進行聚類分析,在此基礎上客觀地設置樣地來獲取分類的數據樣本,分別輸入支持向量機進行訓練,得到基于相似性分類的生物量估算模型,進而估算林場級生物量。
研究地位于完達山西麓余脈佳木斯市孟家崗林場(北緯46°20′~46°30′50″,東經130°32′42″~130°52′36″),處于佳木斯市樺南縣東北部,以低山丘陵為主,坡度在10°~20°之間,平均海拔250m,森林土壤以暗棕壤為主。該區年平均氣溫2.7℃左右,年大于10℃積溫2 547℃,年均降水量550 mm,年無霜期120 d左右,年日照時數1 955 h,屬東亞大陸性季風氣候。落葉松人工林蓄積量占總蓄積量的65%以上,主要以長白落葉松為主,其中,商品林面積達3 012 hm2,蓄積量達438 604 m3,包括幼、中、近熟、成熟四個齡級,林下灌木及藤本植物主要有毛榛子(CorylusmandshuricaMaxim)、刺五加(Acanthopanaxsenticosus)、五味子(Schisandrachinensis)、懷槐(Maackiaamurensis)、胡枝子(Lespedezabicolor)、山葡萄(Vitisamurensis)等,草本主要有苔草(Carextristachya)、地榆(Sanguisorbaofficinalis)、問荊(Equisetumarvense)、鈴蘭(Convallariamajalis)、玉竹(Polygonatumodoratum)、蚊子草(FilipendulaPalmata)、木賊(Hippochaetehiemale)、百合(Liliumbrowniivar.viridulum)等。
本文實驗數據包括孟家崗林場2012年二類清查數據和樣地生物量實測數據,后者的獲取需建立在基于聚類分析結果的樣地設置基礎上,設置樣地的位置處于各聚類中心附近,面積均為0.09 hm2,對樣地內林木進行每木檢尺,記錄樹高、胸徑,并統計出樣地平均胸徑與平均樹高,同時記錄樣地的林分類型、郁閉度、立地類型、坡向、坡位等因子。在樣地外,分別選取3株生長良好、胸徑和樹高接近平均值、林地屬性同樣地接近的林木為標準木,重新測量上述相關因子。同時,對伐倒樣木進行生物量測定,按照1 m區分段,測定各區分段帶皮樹干鮮重;各區分段剝下10 cm長的樹皮,測定樹皮鮮重,乘以10后可得區分段的樹皮鮮重;采取全稱重法,測定各區分段所有的活枝、死枝及樹葉鮮重;采用全收獲法,挖掘地下0~10、10~20、20~30、30~40及40 cm以下土層的根系,測定各土層根系鮮重。將所有樣品在105℃的恒溫箱中烘至恒重,用電子秤對應秤得各部分干重,各部分干重相加即為單株木干重。
2.2.1 主成分分析
主成分分析可將存在相關關系的一組指標用一組新的互相無關的幾個綜合指標來代替,且可提取出能夠盡可能多地反映原指標所包含信息的幾個綜合指標,起到簡化復雜問題的目的[8]。假設三類清查數據中包含 個小班數據,每個小班包含 個屬性,并記累積貢獻率閾值為,算法如下。
(1)用xij(1≤i≤n,1≤j≤m)表示第i個小班的第j個屬性指標的值,并對xij進行數值化處理,建立原始數據矩陣Xij。


(4)當totalContributeRatep≥contributeLine時,此時所包含的p個主成分即為提取的新的綜合指標。
(5)計算因子載荷矩陣Mjp,mjp為第j個屬性在第p個主成分上的載荷。

(7)根據Ajp分別構建p個主成分表達式,并據此分別計算n個小班的主成分得分值,得到小班主成分得分矩陣Fnp。
2.2.1 聚類分析
本文采用層次聚類分析法進行林場級森林資源清查數據的聚類,算法的核心思想是使聚類后的各數據簇之間具有最大的差異性,而數據簇內部具有最大的相似性,得到的聚類中心集基本能夠覆蓋整個樣本空間,保證提取數據的代表性[9]。假設初始數據集中有n個樣本,聚類數目為m,算法如下。
(1)以每個樣本為初始聚類中心,分別形成n個聚類,此時m=n。
(2)以平方Euclidean距離計算樣本間距離,并選擇一種聚類方法分別計算m個聚類之間的距離。
(3)以相關關系衡量聚類間的相似性,將最相似的聚類兩兩合并成新的聚類,新的聚類將被重新視為一個包含多個樣本的整體,此時m′=m-1,并令m=m′,同時將新的聚類中心加入聚類中心集C。
(4)重復步驟(2)和(3),至m=1時,算法結束。
(5)根據實際情況確定最終選擇的聚類數目m′。
2.2.3 SVR算法
支持向量機(Support Vector Machine)是一種機器學習方法,以統計學的VC維理論及結構風險最小為理論基礎,在有限樣本信息在學習精度及學習能力間尋找最優解,以獲得較好的推廣能力[10]。SVM包括支持向量機分類和支持向量機回歸兩種,算法如下:
(1)建立訓練樣本數據集,(x1,y1),(x2,y2),…(xi,yi),xi∈Rn,yi∈R,1≤i≤n。
(2)對訓練樣本數據集進行歸一化處理,并分別建立訓練樣本集D和測試樣本集F。
(3)選擇支持向量類型及核函數類型,利用留一法計算核函數參數,并以最小回歸誤差為評價參數確定最優參數,得到最佳懲罰參數c、核函數屬性數g和不敏感損失函數p。
(4)將原二次規劃問題轉化為凸優化問題進行求解,構造決策函數,確定最優超平面,進行SVR模型訓練。
(5)將測試樣本數據集輸入訓練模型進行預測,輸出結果。
采用SPSS19.0進行基于三類清查數據主成分分析、聚類分析及異速生長方程的建立,采用Libsvm軟件進行SVR模型訓練及預測。
通過查閱相關文獻及相關性分析,確定起源、林分類型、郁閉度、立地類型、坡向、坡位、坡度、海拔、平均胸徑、平均樹高、齡級等11個林分調查因子與林木生物量關系較為密切,對基礎數據中的上述屬性進行提取,同時保留小班id屬性,并對起源、林分類型、立地類型、坡向、坡位、坡度等描述性屬性進行數值化處理,填補空值,并進行標準化處理。
對11個指標的1 371個小班進行主成分提取,統計和分析各主成分的方差貢獻率及累計貢獻率,結果表明前7組的累計貢獻率達到87.995%,即前7個主成分表達了原數據87.995%的信息,因此選取前7個主成分作為新的綜合指標。
以特征根及初始因子載荷矩陣為基礎計算特征向量矩陣,并構建7個主成分的表達式,分別為:
F1=0.15x1-0.11x2+0.23x3-0.02x4+0.06x5+0.07x6+0.02x7-0.15x8+0.5x9+0.52x10+0.44x11;
F2=-0.6x1+0.52x2-0.03x3+0.21x4+0.16x5+0.04x6+0.05x7+0.44x8+0.1x9+0.15x10+0.27x11;
F3=-0.04x1-0.01x2+0.02x3-0.45x4+0.48x5-0.23x6+0.7x7-0.11x8-0.01x9-0.06x10-0.02x11;
F4=-0.14x1+0.29x2-0.55x3+0.49x4+0.44x5-0.03x6-0.05x7-0.31x8+0.17x9+0.06x10+0.11x11;
F5=0.05x1-0.17x2-0.19x3-0.19x4+0.23x5+0.91x6+0.04x7+0.11x8+0.03x9+0.05x10+0.06x11;
F6=-0.1x1+0.39x2+0.64x3+0.37x4+0.05x5+0.31x6+0.25x7-0.27x8-0.05x9-0.07x10-0.17x11;
F7=0.03x1-0.05x2+0.25x3+0.17x4+0.65x5-0.14x6-0.27x7+0.57x8-0.12x9-0.02x10-0.08x11。
式中:x1,x2,…x11分別對應小班的起源、林分類型、郁閉度、立地類型、坡向、坡位、坡度、海拔、胸徑、樹高、齡級,根據7個主成分表達式分別計算每個小班的F值,用于進行聚類分析。
以7個主成分得分值為聚類因子,對孟家崗林場三類清查數據中的1 371個小班進行系統聚類,實驗時為了計算方便,用唯一的小班id號代替用來標識小班的林班號和小班號,并嘗試利用組間聯接法、質心聚類法、中位數聚類法、Ward方法、最近鄰元素法和最遠鄰元素法分別聚類,得到的聚類結果較為一致,可將小班分為五類,見表1。由于小班數量較多,表中僅給出了每一類組中的部分小班。

表1 小班聚類結果
以類為單位,分別設置樣地,實測樣木生物量,建立異速生長方程,估算小班生物量;以小班主成分得分值為輸入,以小班生物量估算數據為輸出,進行SVR模型的訓練。
以類為單位,對訓練樣本分別進行 和 兩種支持向量機模型的訓練,核函數類型分別采用線性核函數、多項式核函數、RBF徑向基核函數及Sigmoid核函數,以測試樣本對模型進行檢驗,并以均方誤差和平方相關系數兩個指標衡量模型的優劣。
經過對比,最優模型的模型形式及相關參數見表2。
從表2可以看出,除第三類小班外,其它小班的SVR模型精度均在90%以上,且各模型的均方誤差均比較小;另外,支持向量機模型在生物量模型訓練時優于 模型,且核函數以RBF徑向基函數及Sigmoid函數優于線性及多項式核函數。
將非樣本數據輸入對應模型進行預測,即可實現對林場森林喬木層生物量的估算。經計算,孟家崗林場森林喬木層生物量約為1 061 981.096t,與利用相關文獻[11-15]中的生物量模型估算得到的1 225 862.96t的結果相近。
選取與生物量緊密相關的11個指標進行主成分分析,結果表明:用7個新的指標能夠以87.995%的信息量反映孟家崗林場森林生物量情況,且7個指標間不相關,起到了降維及弱化因子間自相關問題的目的,克服了傳統基于多元回歸分析方法的生物量估算模型引入因子不足或考慮過多因子而帶來的自變量共線性問題。

表2 五類小班SVR最優模型相關參數
在主成分分析提取的7個主導指標及小班主成分得分值的基礎上,利用聚類分析中的系統聚類法對孟家崗林場小班進行客觀的分類,采用不同的聚類方法,均一致將林場小班分為5類,即每一類小班存在一定的相似性,而不同類之間的小班存在一定的差異性。基于此分類結果進行樣地設置和樣木數據采集,降低了傳統樣地設置方法的隨機性,在分類樣本數據的基礎上計算模型能夠提高模擬精度。
在得到的5類小班基礎上,分別進行SVR模型的訓練和預測,結果表明:除第3類小班外,其余4類模型的精度均在90%以上,且由于同一類內小班在起源、林分類型、立地上存在整體相似性,利用該類數據進行生物量整體建模,避免了分樹種、地區建模的麻煩,減少了工作量,另外,模型預測實驗證明了SVR較強的泛化能力。
本文進行小班聚類分析后,尚未具體量化每一類中小班的相似性特征及類間的差異特征,下一步考慮采用決策樹及關聯規則深入挖掘類內部及類間存在的關系。
【參 考 文 獻】
[1]羅云建,張小全,王效科,等.森林生物量的估計方法及其研究進展[J].林業科學,2009,45(8):129-134.
[2]Uri V,Varik M,Aosaar J,et al.Biomass production and carbon sequestration in a fertile silver birch(Betula pendula Roth)forest chronosequence[J].Forest Ecology and Management,2013,267:117-126.
[3]Liu C,Li X.Carbon storage and sequestration by urban forests in Shenyang,China[J].Urban Forestry & Urban Greening,2012,11(2):121-128.
[4]黃從紅,張志永,張文娟,等.國外森林地上部分碳匯遙感監測方法綜述[J].世界林業研究,2012,25(6):20-26.
[5]王效科,馮宗煒.中國森林生態系統的植物碳儲量和碳密度研究[J].應用生態學報,2001,12(1):13-16.
[6]賈煒瑋,李鳳日,董利虎,等.基于相容性生物量模型的樟子松林碳密度與碳儲量研究[J].北京林業大學學報,2012,34(1):6-13.
[7]王洪巖,王文杰,邱 嶺,等.興安落葉松林生物量、地表枯落物量及土壤有機碳儲量隨林分生長的變化差異[J].生態學報,2012,32(3):833-843.
[8]鮑 艷,胡振琪,柏 玉,等.主成分聚類分析在土地利用生態安全評價中的應用[J].農業工程學報,2006,22(8):88-90.
[9]陳桂芬,馬 麗,董 瑋,等.聚類、粗糙集與決策樹的組合算法在地力評價中的應用[J].中國農業科學,2011,44(23):4833-4840.
[10]顧嘉運,劉晉飛,陳 明.基于SVM的大樣本數據回歸預測改進算法[J].計算機工程,2014,40(1):161-166.
[11]王鶴智.東北林區林分生長動態模擬系統的研究[D].哈爾濱:東北林業大學,2012.
[12]周建宇,萬道印,李 琳,等.紅松人工林生物量的測定及其分析[J].森林工程,2014,30(4):50-53.
[13]邢艷秋,王立海.基于森林調查數據的長白山天然林森林生物量相容性模型[J].應用生態學報,2007,18(1):1-8.
[14]姜慧泉.金溝嶺林場森林地上生物量時空動態分析與預測[D].北京:中國林業科學研究院,2011.
[15]歐陽紹儀.正確把握森林生態建議的發展方向[J].江西林業科技,2014(3):39-41+61.