申屠惠良
(國家林業局華東林業調查規劃設計院,浙江 杭州 310019)
使用懷特檢驗判斷生物量模型的異方差性
申屠惠良
(國家林業局華東林業調查規劃設計院,浙江 杭州 310019)
為了在生物量建模過程中得到回歸模型的最優估計,針對回歸模型存在的異方差性,提出用懷特檢驗方法來定量分析模型,再結合殘差分布圖來輔助判斷,并應用懷特檢驗方法和殘差分布圖實例分析了普通最小二乘法擬合櫟類生物量模型結果存在異方差性,建議采用加權最小二乘法擬合櫟類生物量模型。
生物量;模型;懷特檢驗;異方差性
生物量建模過程中,要求模型的誤差項必須滿足零數學期望、獨立和等方差,這樣才能得到回歸模型的最優估計,而誤差項的方差經常會隨著自變量的變化,產生規律性的增加或減少,即不滿足等方差,也就是回歸模型存在異方差性。如何判斷建立的回歸模型存在異方差性,本文采用懷特檢驗方法來定量分析模型,再結合殘差分布圖來輔助判斷。
生物量模型表達式為:

式中,M表示生物量,D為胸徑,H為樹高,V為材積,a、b為常數。
懷特檢驗是通過建立輔助回歸模型的方式來判斷異方差性,在生物量建模應用過程中設定如下輔助回歸模型:

式中,E2為殘差平方,ai為輔助回歸模型的參數,υ為滿足古典回歸模型基本假設的誤差項。
懷特檢驗輔助回歸模型的原理是,將殘差平方與胸徑、樹高、材積的一次項、二次項和交叉乘積項建立回歸方程,擬合產生回歸模型的參數項和誤差項,再根據建立的輔助回歸模型計算殘差平方的擬合值,分析殘差平方的原始值和擬合值之間存在的關系,可以判斷回歸模型的異方差性。
假定輔助回歸模型的R2值在零假設條件下不存在異方差性,也就是輔助回歸模型的回歸結果不存在異方差性,則R2與樣本容量的乘積服從分布。在生物量建模應用過程中,設定上側分位數置信區間為“0.05”,即α = 0.05,且自由度為3,當nR2大于上側分位數值,說明生物量模型存在異方差性,也就是回歸模型不滿足“獨立、正態、等方差”的基本假設。
生物量建模數據,按樣本的部位可以分解為樹干、樹枝、樹葉和樹根,各部位可以單獨建立回歸模型,在實例分析中采用2010年采集的櫟類數據,且將樣本各部位生物量數據組合成為一個總體,使用懷特檢驗和殘差圖判別法來驗證回歸模型的異方差性。
3.1 懷特檢驗
原始采集的生物量建模數據因天氣、樣本所在的地理位置等原因,部分樣本不符合建模要求,稱為擾動數據。剔除擾動數據以后,實際樣本數量n =52,自由度為p = 3個,分別是D、H和V,使用回歸模型表達式為式(1),經普通最小二乘法擬合,結果見表1。

表1 普通最小二乘法擬合結果Table 1 Fitting statistics by ordinary least squares
由此可以建立櫟類總體生物量的回歸方程:


表2 懷特輔助回歸模型擬合結果Table 2 Fitting statistics by associated regression model

式中,Q為輔助回歸模型的殘差平方和,U為輔助回歸模型的離差平方和。
由此獲得的計算結果如表3。

表3 懷特檢驗結果Table 3 White test
櫟類總體生物量數據如果使用普通最小二乘法進行擬合,從懷特檢驗結果表中可以看出,nR2值大于上側分位數(xα2),回歸模型存在異方差性,也就是說,回歸模型擬合結果不是最優解,需要將模型進行變換,采用加權最小二乘法進行估計,消除異方差性。
3.2 殘差分布圖
回歸模型是否存在異方差性,也可以從殘差平方分布圖中判斷。按普通最小二乘法回歸后獲得櫟類總體生物量樣本的擬合值()和殘差平方值(),將擬合值()作為X軸,殘差平方值()為Y軸,繪制殘差平方分布圖(圖1)。
從殘差平方分布圖中可以看出散點的分布成發散趨勢,殘差平方隨擬合值有顯著變化,說明普通最小二乘法擬合結果存在異方差性,和懷特檢驗的定量分析是一致的。

圖1 生物量殘差平方分布Figure 1 Residuals distribution
[1] 唐守正. 多元統計分析方法[M]. 中國林業出版社,1984.
[2] 張會儒,唐守正,胥輝. 關于生物量模型中的異方差問題[J]. 林業資源管理,1999(1):46-49.
[3] 彭偉,陳圣滔. 回歸模型中異方差的檢驗方法[J]. 欽州學院學報,2007,22(6):29-31, 42.
White Test for Heteroskedasticity of Biomass Model
SHENTU Hui-liang
(East China Forest Inventory and Planning Institute of State Forestry Administration, Hangzhou 310019, China)
In order to have the optimal estimation during regression model for biomass, White test was recommended to quantitative analyze model, associated by residuals distribution. Application of White test and residuals was conducted on analysis of biomass model for Quercus L. fitted by ordinary least squares, the result showed that there had heteroskedasticity. Therefore, weighted least squares were recommended to fit biomass model for Quercus L.
biomass; model; white test; heteroskedasticity
S718.55+6
A
1001-3776(2012)03-0043-03
2011-11-15;
2012-03-03
申屠惠良(1960-),男,浙江東陽人,工程師,從事林業調查規劃設計相關的林業技術研究。