邱利軍 張 波 楊懷義 侯占東
(1.河北建筑工程學(xué)院,河北 張家口 075000;2.中國建筑材料工業(yè)地質(zhì)勘查中心山西總隊(duì),山西 太原 030031;3.江蘇中煤地質(zhì)工程研究院有限公司,江蘇 常州 213018)
森林病蟲害預(yù)測(cè)在森林管理中非常重要,有利于在未發(fā)生前制定策略加以控制以降低損失且增加工作效率.影響我國南方馬尾松林的最大害蟲就是馬尾松毛蟲.因此,本文對(duì)馬尾松毛蟲發(fā)生面積進(jìn)行預(yù)測(cè)研究,其具有實(shí)際意義.國內(nèi)外學(xué)者在馬尾松毛蟲預(yù)測(cè)方面,已經(jīng)取得很多研究成果,其中文獻(xiàn)[1,2]采用人工神經(jīng)網(wǎng)絡(luò)方法建立模型進(jìn)行預(yù)測(cè);文獻(xiàn)[3,4]采用馬爾科夫鏈建模預(yù)測(cè)馬尾松毛蟲面積;文獻(xiàn)[5]采用機(jī)器學(xué)習(xí)的方法建模進(jìn)行馬尾松毛蟲發(fā)生面積預(yù)測(cè);文獻(xiàn)[6]采用灰色系統(tǒng)模型進(jìn)行蟲發(fā)面積預(yù)測(cè);文獻(xiàn)[7]采用ARIMA模型進(jìn)行馬尾松毛蟲發(fā)面積預(yù)測(cè).基于此,本文提出采用多元線性回歸分析模型對(duì)馬尾松毛蟲發(fā)生面積進(jìn)行預(yù)測(cè).相對(duì)其他方法而言,其建模簡單.具體過程是利用該模型對(duì)松毛蟲發(fā)生面積與影響因子間進(jìn)行建模分析并預(yù)測(cè),并對(duì)建模數(shù)據(jù)序列分別采用累積序列、新陳代謝形式序列以及前期數(shù)據(jù)優(yōu)化后的序列建模,并對(duì)建模預(yù)測(cè)結(jié)果進(jìn)行了比較分析,認(rèn)為采用數(shù)據(jù)優(yōu)化后的序列建立多元線性回歸模型進(jìn)行預(yù)測(cè)能夠達(dá)到較好效果.
多元線性回歸模型主要用于研究因變量與多個(gè)因子之間非確定關(guān)系,其數(shù)學(xué)模型是:
yt=α0+α1xt1+α2xt2+…+αpxtp+εt
其中,t=1,2,…,n,εt~N(0,σ2).t為因子變量,p為因子個(gè)數(shù).
多元線性回歸模型矩陣表示形式為:
y=α+ε
其中,y為因變量向量,則是x一個(gè)n×(p+1)的自變量元素矩陣,α是待估計(jì)參數(shù)向量,ε是服從同一正態(tài)分布的n維隨機(jī)向量.

采用文獻(xiàn)[1]數(shù)據(jù),采用1983年到2001年馬尾松毛蟲發(fā)生面積及其相關(guān)影響因子數(shù)據(jù),分別對(duì)1994年-2001年面積進(jìn)行預(yù)測(cè).已知數(shù)據(jù)采用8個(gè)氣象因子,即:當(dāng)年2月下旬平均氣溫;當(dāng)年3月上旬平均氣溫;當(dāng)年2月中旬相對(duì)濕度;上年10月中旬降水量;上年9月中旬日照時(shí)數(shù);上年6月上旬最低氣溫;上年8月中旬最低氣溫,上年12月中旬最低氣溫.分別采用累積數(shù)據(jù)序列整體預(yù)測(cè)和新陳代謝序列建模預(yù)測(cè).結(jié)果如下表1及圖1所示:

表1 累計(jì)序列與新陳代謝序列預(yù)測(cè)面積值比較

圖1 累計(jì)序列建模與固定n值新陳代謝序列建模比較圖
由表1結(jié)合圖1可知,累計(jì)預(yù)測(cè)方法相對(duì)于采用n(n=10,11,12,13)期數(shù)據(jù)新陳代謝形式建模,預(yù)測(cè)效果穩(wěn)定,但不同年份的最佳預(yù)測(cè)值分別位于n取不同值的預(yù)測(cè)曲線上,即n=10時(shí),2000年與2001年取得的預(yù)測(cè)效果較優(yōu),n=11時(shí),1994年、1995年、1999年取得的預(yù)測(cè)效果較優(yōu),n=12時(shí),1996年的預(yù)測(cè)效果較好,而n=13時(shí),1997年與1998年的預(yù)測(cè)效果較好.因此,應(yīng)用依據(jù)行列向量相關(guān)系數(shù)對(duì)建模樣本量及因子數(shù)進(jìn)行篩選,然后進(jìn)行建模以達(dá)到較好預(yù)測(cè)效果,并與累計(jì)數(shù)據(jù)序列建模預(yù)測(cè)數(shù)據(jù)、新陳代謝預(yù)測(cè)擇優(yōu)數(shù)據(jù)進(jìn)行比較.結(jié)果見下表1,曲線圖如下圖2所示:

表2 篩選優(yōu)化后數(shù)據(jù)預(yù)測(cè)與其它預(yù)測(cè)比較

圖2 數(shù)據(jù)篩選后建模預(yù)測(cè)與其它建模預(yù)測(cè)比較面圖
由上表2及圖2可知,累計(jì)數(shù)據(jù)序列建立多元線性回歸雖然較固定n值的新陳代謝序列建立多元線性回歸預(yù)測(cè)穩(wěn)定,但是誤差較大,不能夠?qū)嶋H應(yīng)用.而采用改變n值的新陳代謝序列建立多元線性回歸模型進(jìn)行預(yù)測(cè),其預(yù)測(cè)效果有所提高,但是1994年、1998年以及1995年預(yù)測(cè)結(jié)果誤差較大,相對(duì)誤差均大于20%,存在于實(shí)際的較大差異,且建模數(shù)據(jù)序列元素?cái)?shù)為變量,較難確定.而建模數(shù)據(jù)篩選優(yōu)化后建立多元線性回歸模型進(jìn)行預(yù)測(cè),預(yù)測(cè)效果最好,雖然1994年和1998年誤差均超過10%,但相比較于新陳代謝改變n值的擇優(yōu)數(shù)據(jù)已經(jīng)明顯精確.達(dá)到了與實(shí)測(cè)值相符的要求.且從圖2可以明顯看出,經(jīng)過數(shù)據(jù)篩選優(yōu)化的多元線性回歸曲線更接近面積實(shí)測(cè)曲線值.
依據(jù)馬尾松毛蟲歷史資料數(shù)據(jù)采用多元線性回歸建模方法對(duì)其發(fā)生面積進(jìn)行了預(yù)測(cè)分析,并分別采用數(shù)據(jù)累計(jì)序列建模、固定序列數(shù)新陳代謝數(shù)據(jù)建模、新陳代謝數(shù)據(jù)預(yù)測(cè)擇優(yōu)以及采用優(yōu)化數(shù)據(jù)后建模,比較分析預(yù)測(cè)結(jié)果認(rèn)為在優(yōu)化建模數(shù)據(jù)的前提下,采用多元線性回歸模型預(yù)測(cè)馬尾松毛蟲發(fā)生面積,能夠取得較好效果.對(duì)實(shí)際林業(yè)保護(hù)具有一定的價(jià)值和意義.