金文彪 姚永杰 金哲植
摘 要 為更好地反映長春市大氣環境狀況,以長春市2014年PM2.5監測數據作為主要指標進行研究分析。借助SAS統計分析軟件,采取線性插值法對樣本數據缺失值進行補插。鑒于各指標變量之間具有強相關性及異方差現象,不滿足一般多元線性回歸基本假設條件,應用極大似然法對樣本數據進行Box-Cox非線性變換,并基于主成分分析理論建立回歸模型,成功地消除了以上弊端。檢驗預測證明模型能夠用以預測分析長春市未來大氣環境狀況.
關鍵詞 PM2.5 線性插值 Box-Cox變換 主成分分析 預測分析
中圖分類號:X823 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2016.11.071
0 引言
從長春市2014年10、11、12月份月平均PM2.5濃度以及優良級天數監測結果(數據來自吉林省環境保護廳)可以看出:這三個月長春市優良級天數比例均小于50.0%,幾乎整個冬季都處于連續污染狀態,霧霾問題嚴重,再加上嚴寒的天氣,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等類患者的病情。因此準確預測并及時公布大氣環境狀況變得越來越重要。
近年來,專家學者開展了一些相關的研究工作。劉小生等①提出了一種基于基因表達式編程的PM2.5濃度預測研究;彭斯俊等②提出了一種基于ARIMA模型的PM2.5預測模型;陳俏等③提出了一種基于支持向量機和回歸法的大氣污染物濃度預測模型。這些文獻通過研究個別因素對大氣環境狀況提出了預測方法,但是氣象因素對PM2.5的影響是十分復雜的,實際情況中往往是不同氣象因素相互影響的結果。尤其是ARIMA模型只突出了時間因素在預測中的作用,沒有考慮到外界具體因素的影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化往往會有較大偏差。
本文旨在用與PM2.5濃度相關性強的因素,綜合考慮PM10、CO、NO2、SO2四項指標對PM2.5濃度的影響,并基于主成分分析理論提取幾個互不相關的主成分進行回歸分析,最終得到準確度較高的大氣環境預測模型。
1 材料與方法
1.1 數據預處理
1.1.1 補充缺失數據
本文數據來自天氣后報網,共研究PM2.5、PM10、CO、NO2、SO2五項指標,個別日期(共4天)的數據缺失。這時,我們使用SAS統計分析軟件,運用插值法補全缺失值。
1.1.2 Box-Cox非線性變換④⑤
將原始數據中PM2.5、PM10、CO、NO2、SO2等因子依次記為、、、、,因事先由散點圖分析可得,PM2.5與PM10、CO具有良好的線性關系,考慮到變換的簡便性最終選定對PM2.5、PM10和CO做變換€%d的值為0,記變換后的PM2.5、PM10和CO為、和;對NO2和SO2進行Box-Cox變換的過程中,最優€%d的取值是依據最大似然估計的方法原理來確定,由SAS統計軟件計算得到,最終選擇NO2和SO2的最優€%d值依次為0.5、0,經過Box-Cox變換后的NO2和SO2依次用下列符號標記:和。
1.2 主成分分析原理
主成分分析⑥是將多指標化為少數幾個綜合指標的一種統計分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的線性組合,且各個主成分之間互不相關。這樣在研究復雜問題時就可以只考慮少數幾個主成分且不止于損失太多信息,從而更容易抓住主要矛盾,解釋事物內部變量之間的規律性,同時使問題得以簡化,提高分析效率。
2 結果
2.1 主成分分析
本過程主要通過SAS軟件⑦實現,詳細程序參照附件。輸出結果(表1)給出了各變量之間的相關系數矩陣。可以看出:與之間的相關系數為0.8341,呈現非常強的相關性;
與,與之間的相關系數均為0.6800以上,有較強的相關性,其他變量之間相關性則相對較弱。不滿足多元線性回歸的基本假定條件,這也是本文選擇主成分回歸的主要原因之一。
輸出結果(表2)給出了相關系數矩陣的特征值、上下特征值之差、各主成分的方差貢獻率以及累計貢獻率。可以看出,第一主成分的方差貢獻率為71.34%,前兩個主成分的累計貢獻率已達87.69%,因此,只需前面兩個主成分就可以概括這組數據。根據相關系數矩陣的各個特征值的特征向量,可以寫出前三個主成分得分:
2.2 主成分回歸
現在用對前兩個主成分和做普通最小二乘回歸,得到主成分回歸方程為:
=3.93932+0.36567€Ha0.01363 (3)
但是斜率的t檢驗p值0.4123>0.05,未通過顯著性檢驗,即認為與之間的線性回歸關系不顯著,需對模型進一步的調整。
經過多次對u和主成分、、之間進行不同模型模擬對比分析,最終采用逐步回歸法選取與、做最小二乘回歸,輸出結果如表3。雖然信息量從原來的87.69%降到了79.78%,但截距和斜率的t檢驗p值<0.0001,有顯著的線性關系。最終得到主成分回歸方程:
為了得到和、、、之間的關系,運用R軟件⑧編寫計算系數的函數代碼作變換,得到還原后的主成分回歸方程為:
3 結果分析
3.1 殘差分析
回歸方程通過了t檢驗,只是表明變量之間的線性關系是顯著的,但不能保證數據擬合得很好,也不能排除由于意外原因而導致的數據不完全可靠,比如異常值出現、周期性因素干擾等。借助SAS統計分析軟件以回歸預測值作橫軸,以殘差 =€Ha作縱軸,將相應的殘差點畫在直角坐標系上,得到殘差圖如圖1。
從殘差圖上看出,殘差是圍繞隨機波動的,表明模型中不存在異方差、相關性問題,模型的基本假定是滿足的。
3.2 預測
為了更好地反映模型的擬合效果,我們對2015年1月2日到3月27日的PM2.5進行預測,并與實際值對比。預測曲線圖如圖2,除了少數幾天PM2.5預測值偏差較大外,其它模擬效果比較樂觀,而且相對誤差相對較小,很大程度上接近了PM2.5的實際觀測值。進一步地證明該模型能夠較準確地預測未來短期的PM2.5趨勢和水平。
4 結論
本文利用長春市2014年空氣質量歷史數據,基于主成分分析理論建立了大氣環境預測模型,并預測2015年1月至3月的污染物PM2.5濃度,通過將其與實際值檢測值進行對比分析,表明運用此模型在PM10、CO、NO2、SO2各項指標已知的情況下,能夠對PM2.5進行準確性預測。
模型的判定系數和修正分別為0.9225和0.9221,均方殘差平方根為0.1866。這說明回歸方程的擬合效果非常好,能夠很好地反映并及時公開大氣環境狀況,讓公眾更加精確地感知到本地空氣質量的真實情況,還可以有的放矢地治理大氣污染,通過數據分析找出污染源頭。
注釋
① 劉小生,李勝,趙相博.基于基因表達式編程的PM2.5濃度預測研究[J].江西理工大學學報,2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5預測[J].安全與環境工程,2014.21(6):125-128.
③ 陳俏,曹根牛,陳柳.支持向量機應用于大氣污染濃度預測[J].計算機技術與發展,2010.20(1):250-252.
④ 張誠.基于Box-Cox變換的城市火災起數的模型研究[D].合肥工業大學碩士學位論文,2013.
⑤ 胡宏昌,樊獻花.廣義Box-Cox變換[J].周口師范學院學報,2006.23(5):17-19.
⑥ 何曉群.應用回歸分析(第三版)[M].北京:中國人民大學出版社,2011.
⑦ 汪遠征,徐雅靜.SAS與統計應用教程[M].北京:機械工業出版社,2007.1
⑧ Robert I.Kabacoff. R in Action: Data Analysis and Graphics with R[M].Manning Publications Co,2011.