曾偉生
(國家林業和草原局調查規劃設計院,北京 100714)
森林生物量與森林蓄積量一樣,既是各級森林資源監測的重要指標,更是反映森林生態系統生產力的重要參數[1-3]。對森林生物量的估計,既可通過建立立木生物量模型來獲得[4-5],也可通過建立林分生物量或生物量轉換因子模型來獲得[2,4]。根據Luo等[6]的綜述,1978年至2013年間,我國學者已發表了近200個樹種的5924個立木生物量模型。2014年以來,國家林業局有計劃地編制了我國主要樹種的立木生物量模型,并頒布實施了系列行業標準[7-13]。但是,不論是國外[5,14-20]還是國內[21-28],發表的林分生物量模型都要顯著少于立木生物量模型。
在已有的林分水平模型中,影響最大的是方精云等[21-22]發表的21種森林類型的材積源生物量模型,該模型在很多研究中得到了引用[27,29-32]。此外,王斌等[24]利用1266個不同森林類型樣地的數據,建立了我國16種森林類型的生物量與蓄積量之間的雙曲線模型。經分析,這些模型存在3個方面的不足:一是建模樣本較少,大部分模型都是建立在小樣本基礎上。如方精云等[22]建立的21個模型有18個(僅落葉松、油松、杉木除外)的建模樣地數在30 以下,王斌等[24]建立的16個模型有10個的建模樣地數在50 以下。二是建模方法簡單,基本都是采用普通最小二乘法,未考慮生物量和蓄積量數據的異方差性。三是評價指標單一,僅提供了確定系數R2[22]或相關系數R[24]這一項評價指標,未提供其他誤差方面的評價指標,其適用性存疑。因此,對林分生物量建模方法做進一步研究是非常必要的。
本研究利用我國3種主要針葉林(落葉松Larixspp. 、油松Pinus tabulaeformisCarr.、杉木Cunninghamia lanceolata(Lamb.) Hook.)的3000個樣地的地面實測數據,采用加權回歸估計[33]和分段建模方法[34],建立林分水平的材積源生物量模型,既為這3種森林類型的生物量調查提供計量依據,也為規范林分生物量建模方法提供科學參考。
本研究所用數據為第九次全國森林資源清查的固定樣地調查資料,涉及我國3種主要的針葉林類型,即:落葉松林、油松林和杉木林。按優勢樹種(占65%以上)確定的這3種類型的針葉林,全國的有效樣地數(蓄積量大于0)分別為2490、1185和3152個,每個樣地都基于每木胸徑測量數據,采用一元立木材積模型和立木生物量模型計算出蓄積量和生物量(包括地上生物量和地下生物量)。由于樣地數主要集中在每公頃蓄積量和生物量較小的區段,為了保證所建模型具有廣泛適用性,將全部樣地按每公頃生物量大小用上限排外法分為4級(<50,50~100,100~150,≧150 t·hm?2),按每級樣本量盡量均等的原則[35-36]選取建模樣本,每公頃生物量150 t 以上的樣地數相對較少,盡可能多選一些用作建模樣本,剩下的樣地作為檢驗樣本。經綜合考慮,最后確定3種林分類型選取建模樣地分別為1200、800 和1000個。表1 是3種針葉林分的建模樣地數和檢驗樣地數按每公頃生物量等級的分布情況,圖1 是根據全部3000個建模樣地數據繪制的散點圖。

表1 3種針葉林分的建模樣本數和檢驗樣本數Table 1 The number of modeling plots and validation plots for three coniferous forest types

圖1 全部建模樣地生物量與蓄積量散點圖Fig.1 The scatterplot of biomass vs.volume for all modeling plots
將基于前述3種針葉林3000個樣地的蓄積量、生物量實測數據,首先分別普通回歸和加權回歸,建立林分生物量模型,并分析其建模效果,最后再用分段建模方法,建立估計效果更好的生物量模型。
1.2.1 回歸估計方法 林分生物量主要與林分蓄積量有關,基于蓄積量的生物量模型應用最為廣泛[21-22,24,27,29-32]。根據方精云等[22]對全國21種森林類型的研究結果,林分生物量與蓄積量之間呈線性相關。從3000個樣地的每公頃生物量與蓄積量數據的散點圖分析,這種線性相關規律也是非常明顯的(圖1)。因此,本研究確定采用如下線性形式的林分生物量模型:

式中:B為每公頃生物量(t·hm?2),V為每公頃蓄積量(m3·hm?2),a0、b0為模型參數,ε1為誤差項,假定其服從均值為0 的正態分布。將(1)式兩邊除以V,可得到如下林分生物量轉換因子模型:

式中:BCF為生物量轉換因子(=B/V),c0、d0為模型參數,ε2為誤差項。式(2)為非線性模型,如果設定y=BCF,x= 1/V,則可以轉為以下線性模型:

上述模型(1)、(3)的參數可采用普通線性回歸估計方法求解。根據對模型的結構分析,模型參數之間理論上應該存在以下關系:

事實上,模型(2)、(3)的擬合結果,就相當于模型(1)的加權回歸結果,其權函數為w=1/V。因此,根據實際的擬合結果,式(4)必然是不成立的。由于生物量數據與蓄積量數據類似,都具有異方差性,模型(1)應該采用加權回歸估計才是合適的[33,37]。參照有關權函數的研究結論[37],權函數w= 1/V效果不一定最好,更通用的權函數應為w= 1/Vk,其中k一般在0.5~1.0 之間。
為了區別,這里將生物量模型(1)的擬合方法稱為普通回歸,生物量轉換因子模型(2)或(3)的擬合方法稱為加權回歸1(權函數w1=1/V),以模型(1)為基礎進行的加權回歸估計方法稱為加權回歸2(權函數w2= 1/Vk)。
1.2.2 分段建模方法 當變量的取值范圍很大時,用一個模型通常難以對各個區段都作出準確估計,解決這一問題的有效方法就是分段建模。在建立單木水平的生物量模型時,就已經有人用到了這一方法[34]。林分生物量的建立,同樣可能碰到這一問題。假設最小的區段(如每公頃蓄積量50 m3·hm?2以下)存在明顯偏估,就可以將自變量V=50 m3·hm?2置為兩個模型的鏈接點,并將適用于V<50 m3·hm?2的模型參數設定為a1和b1,適用于V≧50 m3·hm?2的模型參數設定為a2和b2。為了保證兩個模型在鏈接點的估計值一致,先擬合其中一個模型的2個參數后,另一個模型2個參數的估計就要受到這一條件的約束,其中只有一個參數是獨立估計的,另一個參數直接根據(5)式由其他3個參數推出。

根據兩個分段模型擬合的先后順序,可以得出2 組分段模型:

式(6)是先擬合適用于V<50 m3·hm?2的模型參數a1和b1,再擬合適用于V≧50 m3·hm?2的模型;式(7)是先擬合適用于V≧50 m3·hm?2的模型參數a2和b2,再擬合適用于V<50 m3·hm?2的模型。通過對比其評價指標的優劣,選定擬合效果較好的模型。
1.2.3 模型評價方法 用于模型評價的指標包括以下6 項:確定系數R2、估計值的標準差(也稱剩余標準差)SEE、總體相對誤差TRE、平均系統誤差ASE、平均預估誤差MPE和平均百分標準誤差MPSE[38-39]。其中MPE和MPSE的計算公式如下:

式中:yi為實際調查值,為模型預估值,為樣本平均值,n 為樣地數,tα為置信水平α 時的t 值。對建立的回歸模型,計算以上6 項指標值,根據指標大小進行模型評價。
從實用性角度考慮,一般要求模型的TRE和ASE均在 ± 3%以內,MPE小于3%,MPSE小于15%。另外,殘差圖也是評價模型的重要參考依據。一個好的模型,殘差應當呈隨機分布。也就是說,模型每個區段的總體相對誤差TRE都應該相差不大,一般應在 ± 5%以內。為了評價模型的廣泛適用性,還采用檢驗樣本進行獨立交叉檢驗,計算模型的總體相對誤差TRE是否在允許誤差范圍內。
利用3種針葉林的3000個樣地的每公頃蓄積量和生物量數據,分別采用普通回歸、加權回歸1(權函數w1= 1/V)和加權回歸2(權函數w2=1/Vk)擬合線性生物量模型(1),其擬合結果和評價指標見表2。
從表2 可以明顯看出,不論是2個參數的估計值還是6 項評價指標,加權回歸2 的結果都居于普通回歸和加權回歸1 之間,且更接近加權回歸1 的結果,唯有TRE和ASE這2 項指標比較特殊:普通回歸TRE為0,ASE較大;加權回歸1 則ASE接近于0,TRE較大;而加權回歸2 則處于折中狀態,TRE和ASE都與0 相差不大,盡可能同時控制在預定的誤差范圍內(如 ± 3%以內)。盡管從R2、SEE和MPE這3 項指標看,普通回歸模型要好些,但從ASE和MPSE看,則普通回歸模型要顯著差些。最后,再來看另外一項重要指標總體相對誤差TRE,為了更深入了解模型在不同生物量等級的擬合效果,表3 分別落葉松、油松和杉木按建模樣本和檢驗樣本列出了總體和各個生物量等級的TRE。

表2 林分生物量模型的參數估計值和模型評價指標Table 2 The parameter estimates and evaluation indices of stand-level biomass models
從表3 可以看出,不論是考慮建模樣本還是檢驗樣本,加權回歸模型的結果都要優于普通回歸模型,而加權回歸模型2 又要略優于加權回歸模型1。因此,從模型本身特性、6 項評價指標及獨立檢驗結果綜合考慮,應當采用加權回歸模型2 的擬合結果。
然而,如果再仔細查看表3 中加權回歸模型2 在各個生物量等級的TRE(加粗的部分),發現還是存在一些不足,如:生物量小的區段總體上表現為正偏,而生物量大的區段總體上表現為負偏(油松相反);部分區段TRE較大,超出了 ± 5%的范疇。根據對殘差圖所作的分析,生物量小的區段容易出現較大偏差,因此,如果采用分段建模方法,應該能提高預估精度。綜合考慮樣本量的支撐程度和規范統一性,本研究將自變量V= 50 m3·hm?2設置為分段建模的鏈接點,同時建立了式(6)和式(7)兩套模型,擬合結果見表4,基于建模樣本和檢驗樣本計算的各個生物量等級的總體相對誤差TRE見表5。

表4 分段建模的參數估計值和模型評價指標Table 4 The parameter estimates and evaluation indices of segmented biomass models

表5 分段生物量模型的總體相對誤差Table 5 The total relative errors of segmented biomass models
從表4 的6 項評價指標看,模型(6)和(7)之間的差異不明顯;但從表5 的對比可以看出,模型(6)明顯優于模型(7),每個生物量等級的誤差基本都在 ± 5%以內。除油松的分段模型改進甚微外,落葉松和杉木的分段模型有顯著改進,杉木分段模型各生物量等級的誤差甚至達到了 ± 2%以內。因此,綜合考慮模型的各項評價指標及檢驗結果,最終選定分段模型(6)作為3種針葉林分的生物量估計模型。
本研究針對我國在林分生物量建模方面存在的樣本數量偏少、建模方法簡單、評價指標單一等問題,基于第九次全國森林資源清查3000個固定樣地的實測數據,綜合利用加權回歸方法和分段建模方法,建立了落葉松、油松、杉木3種主要針葉林的每公頃生物量模型。最終確定的分段回歸模型如下:

其確定系數R2在0.915~0.953 之間,平均預估誤差MPE在0.81%~1.55% 之間,平均百分標準誤差MPSE在11.56%~15.41%之間。林分生物量與蓄積量呈線性相關,這與方精云等[22]的研究結論是一致的。但是,由于在樣本數量、建模方法等方面存在的差異,模型的適用性肯定會有很大不同。在引言中提到方精云等[22]建立的21個林分類型的生物量模型,建模樣本數量在30 以上的僅有以下3個模型:

表6 列出了利用本研究所收集的全部樣地對這3個模型的檢驗結果。可以看出,3個模型不僅總體的TRE遠遠超出了允許誤差范圍,不同生物量等級的估計值更是存在非常大的系統偏差。通過與本研究所建模型參數進行對比,發現式(13)~(15)的截距參數都要偏大,而斜率參數都要偏小,這正是對蓄積量小的樣地會產生正偏而對蓄積量大的樣地會產生負偏的直接原因。之所以其參數估計值出現大的偏差,主要原因應該是參數估計方法不恰當,采用的是普通回歸而不是加權回歸。其次,樣本量的大小及樣本結構的好壞也是影響因素之一。筆者曾試圖系統抽取表1 中全部樣本的2/3 建模、1/3 檢驗,盡管建模樣本數量大幅增加,但因為樣本結構不理想,建模結果并未達到預期要求。因此,建模成功的要素,一是樣本數量足夠;二是樣本結構合理;三是建模方法科學。表6 也列出了利用全部樣本對本研究所建模型的檢驗結果,總相對誤差都在 ± 1%以內,各個生物量等級的估計誤差大都在 ± 5%以內,最大的也未超出 ± 10%的范圍。這樣的模型,才是適用性廣的模型。

表6 不同生物量模型總體相對誤差的對比Table 6 The comparison of total relative errors of different biomass models
圖2 展示了落葉松生物量模型(10)和模型(13)的殘差分布,可以看出,因為模型(13)的截距參數a0= 33.8060,會得出每公頃蓄積量為0 的落葉松林其生物量高達33.8 t·hm?2的結果,從而導致每公頃蓄積量較小的林分,其生物量估計結果出現正偏;每公頃蓄積量較大的林分,其生物量估計結果出現負偏。其他2個樹種的生物量模型(11)、(12)與模型(14)、(15)的殘差分布對比情況也類似,為省篇幅,不再列出。

圖2 落葉松生物量模型(10)和模型(13)的殘差分布對比Fig.2 Comparison of residual errors between model (10) and (13) for larch
根據本研究的相關結果,可以得出以下結論:(1)林分每公頃生物量與蓄積量呈線性相關。(2)建立林分生物量模型,應當采用加權回歸方法;當一個模型難以準確估計各個等級的生物量時,可以采用分段建模方法。(3)樣本數量和樣本結構是除建模方法之外影響建模效果的另外兩個重要因素。(4)本研究所建3種針葉林的生物量模型,預估精度高,可以在實踐中推廣應用。
最后需要補充的一點是,本研究只是基于優勢樹種劃分的林分類型分別建立材積源生物量模型,沒有再分樹種組成按絕對純林(占90%以上)和相對純林(占65%~90%)分別建模,也沒有分起源按天然林和人工林分別建模。因此,用于預估更細的類型時模型的誤差肯定會有所增加。若想進一步提高模型的預估精度,可以分別天然林、人工林和絕對純林、相對純林建模,或將起源、純林類型等因子按啞變量對待,建立適應性更廣的啞變量模型。另外,本研究所建材積源生物量模型是以立木生物量模型的估計結果為基礎建立的,屬于林分水平的模型;與單木水平的模型相比,其預估精度要略低[40-41]。模型應用時,若具備單木水平模型的應用條件,應該首先采用單木模型;若只有樣地、林分或小班水平的數據,不具備單木水平模型的應用條件,才考慮采用林分水平模型。