○王智慧 陳 飛
(云南財經(jīng)大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院 云南 昆明 650221)
森林資源是自然生態(tài)資源的重要組成部分,在維護(hù)生態(tài)平衡和可持續(xù)發(fā)展方面起到至關(guān)重要的作用。森林火災(zāi)是森林資源所面臨的嚴(yán)重威脅之一,有很強的突發(fā)性、周期性和破壞性,給人們的生活和環(huán)境安全帶來嚴(yán)重的危害。近年來,森林火災(zāi)受害面積問題受到了一定的關(guān)注,比如:張智光,葉超飛曾就該問題做過研究,主要使用灰色預(yù)測模型預(yù)測森林火災(zāi)受害面積的變化趨勢。本文主要研究森林火災(zāi)受害面積的影響因素,影響火災(zāi)受害面積的因素是多方面的,大致可以分為自然原因和人為原因兩大類,由于人為的因素存在諸多的突發(fā)性和不確定性,在研究過程中存在著許多問題,故本文主要關(guān)注自然因素,例如氣候、溫度等。我們基于統(tǒng)計年鑒中2011年全國31個省市級城市的森林火災(zāi)數(shù)據(jù),通過變量選擇方法,從眾多的初始變量中,篩選出了對森林火災(zāi)受害面積具有顯著影響的因素,并建立了線性回歸模型,擬合森林火災(zāi)受害森林面積與這些因素之間的數(shù)量關(guān)系,模型通過了異方差性和異常值檢驗。
為了分析森林火災(zāi)造成的影響與危害,本文搜集了2011年全國31個省市級城市的森林火災(zāi)數(shù)據(jù)。由于森林火災(zāi)造成的嚴(yán)重性后果和影響森林火災(zāi)發(fā)生因素的復(fù)雜性,因此對森林火災(zāi)的影響因素分析顯得尤為重要。對這些因素的分析不僅有助于深入的了解森林火災(zāi)的發(fā)生規(guī)律和導(dǎo)致災(zāi)害的原因,而且對森林火災(zāi)的預(yù)防和降低森林火災(zāi)的損失也有很大的幫助。由于影響火災(zāi)的因素很多,這里初步考慮影響火災(zāi)受害的自然因素,包括全年降水量、年平均相對濕度、林地面積、森林面積、森林蓄積量、年平均氣溫、火場總面積。這里要研究的是火災(zāi)受害面積與以上因素之間的關(guān)系。
我們建立森林火災(zāi)受害森林面積影響因素分析的七回歸模型:

其中x1-全年降水量、x2-年平均相對濕度、x3-林地面積、x4-森林面積、x5-森林蓄積量、x6-年平均氣溫、x7-火場總面積、y-受害森林面積。
回歸方程的F檢驗的p值為0.000<0.05,這意味著,在5%的顯著性水平下,解釋變量對被解釋變量的聯(lián)合線性影響是顯著的。然而,系數(shù)的t檢驗中,p值最小的為0.183,故在5%顯著性水平下所有系數(shù)卻不顯著,這可能是由于多重共線性的存在使得某些自變量對因變量的影響被其他自變量掩蓋了。為了檢驗多重共線性存在與否,我們使用樣本協(xié)方差的條件數(shù)來進(jìn)行檢驗,求得自變量的樣本協(xié)方差矩陣的條件數(shù)(最大特征值與最小特征值之比)為54126.21,這說明七個自變量之間存在很嚴(yán)重的多重共線性。故此,分別通過逐步回歸法、AIC準(zhǔn)則和L a s s o回歸進(jìn)行自變量的選擇。
對自變量采用逐步回歸方法進(jìn)行變量篩選,用R軟件逐步回歸的結(jié)果如表1所示。

表1 逐步回歸方法篩選結(jié)果
逐步回歸結(jié)果顯示應(yīng)當(dāng)選擇自變量x2(年平均相對濕度),(森林面積),x4(火場總面積)作為森林火災(zāi)受害面積的解釋變量。在5%的顯著性水平下,他們的p值分別為0.0325,0.0282和0.000,表明這三個解釋變量對因變量的影響是顯著的。為了印證上述變量選擇結(jié)果,我們再使用AIC準(zhǔn)則在回歸中對一些重點待選模型進(jìn)行比較。比較結(jié)果如下:僅包含x2、僅包含x4、僅包含x7、以及x2、x4、x7三個自變量和其他任意自變量搭配的模型,其AIC值均大于只包含x2、x4、x7三個自變量的模型的AIC值。可見,AIC準(zhǔn)則提供的變量選擇的結(jié)果與逐步回歸法一致,均選擇 x2、x4和 x7。
由逐步回歸的貪婪性,下面我們引入L a s s o回歸進(jìn)行進(jìn)一步的驗證。L a s s o回歸是一種壓縮估計,該方法以模型系數(shù)的絕對值之和對最小二乘目標(biāo)函數(shù)施加懲罰,通過最小化懲罰下的目標(biāo)函數(shù)獲得參數(shù)估計。不顯著的回歸函數(shù)L a s s o估計傾向于收縮為0,因此,使用L a s s o估計可以達(dá)到變量選擇的目的。記回歸模型的樣本形式為,其中,εi~N(0,σ2),(xi1,…xip,Yi)T,i=1,…,n為樣本數(shù)據(jù)。不失一般性,假設(shè)xij,i=1,…,n已經(jīng)過中心化和標(biāo)準(zhǔn)化,隨機誤差 ε1,…,εn獨立同分布。L a s s o估計為

其中τ≥0,為調(diào)和參數(shù)。易見,對任意τ≥0,均有α的估計α^=y(tǒng)。調(diào)和參數(shù)的取值影響著 β1,…,βp,的估計值,需要恰當(dāng)選擇。本文使用C p統(tǒng)計量來選取調(diào)和參數(shù),進(jìn)行Lasso回歸。β1,…,β7的 Lasso估計中,只有 β2、β4、β7的估計值非零,這意味著變量選擇結(jié)果仍是x2,x4和x7,與前述變量選擇的結(jié)果一致。
以y為因變量,以x2,x4和x7為自變量的回歸模型擬合結(jié)果如下:y=1217.52-20.91 x2-0.38 x4+0.61 x7(2)
由于數(shù)據(jù)樣本來自不同的地域,故我們需要進(jìn)行異方差檢驗。從異方差性的Wh i t e檢驗結(jié)果來看,F(xiàn)統(tǒng)計量的p值為0.4352,在5%的顯著性水平下,無法拒絕同方差假設(shè)。所有的交叉項和獨立項的p值也較大,故模型中不存在明顯的異方差性。
異常點為不符合預(yù)設(shè)統(tǒng)計模型所刻畫的統(tǒng)計規(guī)律的數(shù)據(jù)點。在線性模型下,異常點可采用下述的均值漂移模型來檢驗。為了檢驗第i個點是否為異常點,設(shè)定均值漂移模型形式為其中 hi第 i個元素為 1,其余元素為0,X為設(shè)計矩陣,Y為因變量向量。若不顯著,則說明第i個點的均值無漂移,即該點符合假定的線性方程εi;若γ顯著,說明第i個點的均值有漂移,即該點不符合假定的線性回歸方程,從而說明第i個點為異常點。對異常點的檢驗過程如下:對每一個待檢測的數(shù)據(jù)點在原模型y=β0+β1x1+下新增加一個自變量z,待檢測的數(shù)據(jù)點所對應(yīng)的取值為1,其他元素取值為0,對新模型再進(jìn)行線性回歸,若z的系數(shù)顯著,則判定相應(yīng)的樣本點為異常值點。經(jīng)過計算,在5%的顯著性水平下,湖北和廣西的數(shù)據(jù)通過了γ的顯著性檢驗(其p值分別為0.032和0.028),故判定其為異常點。下列表2是刪除異常點后森林受害面積與年平均相對濕度、森林面積、火場總面積之間的回歸結(jié)果。

表2 刪除異常點后的回歸結(jié)果
從上述結(jié)果中可得剔除異常點之后的擬合模型如下:

從上述數(shù)據(jù)分析的結(jié)果顯示來看,在全年降水量、年平均相對濕度、林地面積、森林面積、森林蓄積量、年平均氣溫、火場總面積這些變量中,年平均相對濕度、森林面積、火場總面積對火災(zāi)受害面積有著顯著的影響,且年平均相對濕度、森林面積與受害森林面積呈負(fù)相關(guān),而火場總面積與受害森林面積呈正相關(guān)。這說明年平均相對濕度越大,火災(zāi)受害森林面積越小;森林面積越大,火災(zāi)受害面積越小。火災(zāi)受害森林面積與森林面積之間的這種負(fù)相關(guān)性可能是由于森林面積大的地方,采取的火災(zāi)預(yù)防和監(jiān)管措施通常較為全面,因此發(fā)生火災(zāi)的幾率較小,使得火災(zāi)受害面積越小。由此可見,在以后的森林火災(zāi)預(yù)防中,我們可以在氣候干燥的季節(jié),我們可以對森林進(jìn)行人工澆灌,適量的增加空氣的相對濕度,減少火災(zāi)的發(fā)生幾率;并且要加大森林面積較大的地區(qū)的防護(hù)措施;以減少火災(zāi)的發(fā)生和危害。加強火災(zāi)的預(yù)防和防護(hù)工作,對我國的經(jīng)濟(jì)發(fā)展和人民的生活起著至關(guān)重要的作用。
[1]馮乃祥、李連俊:森林火災(zāi)損失評估淺析[J].森林防火,2000(2).
[2]吳喜之:復(fù)雜數(shù)據(jù)統(tǒng)計方法-基于R的應(yīng)用[M].北京,中國人民大學(xué)出版社,2012.
[3]張智光、葉超飛:森林火災(zāi)受害面積的灰色預(yù)測模型的研究[J].林業(yè)科學(xué),1999.