劉玲,宋馬林
(安徽財經大學統計與應用數學學院,安徽蚌埠 233030)
?
基于ARMA模型的南京市PM2.5濃度分析與預測
劉玲,宋馬林*
(安徽財經大學統計與應用數學學院,安徽蚌埠233030)
[摘要]針對PM2.5濃度的時間分布,運用南京市2014年PM2.5日濃度時間序列,利用時間序列分析的Box-Jenkins建模思想,結合EViews7得到符合南京市PM2.5濃度變化的ARMA(5,3)模型,并預測出2015年1月1日至5日的PM2.5濃度,通過與實際數據相對照,發現模型具有較好的擬合性,適用于大氣中PM2.5濃度分析與預測.
[關鍵詞]PM2.5;時間序列;EViews7;ARMA模型;預測
0引言
大氣為地球上的生命繁衍以及人類發展提供了理想的環境.它的狀態和變化,無時無刻影響著人類的生產、生活甚至生存.近年來,隨著經濟的迅猛發展,大氣污染問題也越來越嚴重.空氣質量問題已然是政府、環境保護部門和全國人民關注的熱點問題.據中國國家發展和改革委員會2013年7月11日在官方網站上公布的一份報告披露:自2013年初以來,中國發生大范圍持續霧霾天氣.據統計,我國約1/4的國土面積、6億人受到霧霾的影響,包括華北平原、黃淮、江淮、江漢、江南、華南北部等地區[1],其中,PM2.5被認為是造成霧霾天氣的“元兇”.
大氣中PM2.5的污染已經引起了國內外環境和大氣科學家的廣泛關注,其中以美國對于PM2.5的研究開展得最早,也最為深入.中國對于PM2.5等顆粒物的研究起步相對較晚,近年來由于空氣污染日益嚴重,國內的研究工作越來越受到重視.前期研究工作主要是分析PM2.5的濃度特征以及成分和來源,楊凌霄(2008)通過對濟南市PM2.5的深入研究,闡述了其PM2.5的污染水平和影響因素[2].近年來對于PM2.5濃度與氣象條件關系的研究也逐漸增多,劉輝(2011)等通過對實測數據的分析,得出氣象條件是除污染源排放外影響PM2.5濃度的重要因素[3].隨著目前學術界對PM2.5研究的逐漸深入,國內相關研究也逐步增多,近兩年尤以PM2.5的時空分布居多,張振華(2014)對北京市PM2.5的污染水平和時空分布特征進行了研究[4],盧鵬(2014)等運用高斯擴散模型研究了PM2.5的時間分布與演變擴散[5].
南京市作為長江三角洲輻射帶動中西部地區發展的重要門戶,近幾年經濟得到迅速發展,高能耗企業頻出,人口密集進一步加大,城市建設與環境保護之間的矛盾日益加劇.2013年12月4日南京首次發布霾紅色預警,與此同時,南京市氣象部門統計數據顯示,2013年南京市有242天出現霾,即南京全年有五分之三的時間處于霧霾之中,這一數據達到了有氣象統計以來的最高值[6].據2014年南京市環境狀況公報顯示,南京市環境空氣質量超標天數高達175天[7],約達全年天數的半成,再一次敲響了南京市PM2.5防治的警鐘.為此本文利用南京市2014年PM2.5日濃度時間序列,基于ARMA模型對南京市PM2.5濃度進行分析和預測,以期為南京市當前和未來的PM2.5防治工作提供第一手參考資料.
1ARMA模型的理論介紹及建模步驟
1.1ARMA模型的理論介紹
ARMA(Auto Regressive Moving Average Model)自回歸滑動平均模型,是一種隨機時序模型,由美國統計學家Box、英國統計學家Jenkins一起創立,因此簡稱為B-J方法[8].作為一種時序短期預測方法,其具有較高的精度,通常寫為ARMA(p, q),基本公式如下:
Xt=φ1Xt-1+φ2Xt-2+…+φpXt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-q
(1)
其中,{εt}是白噪聲序列,φ1,φ2,…,φp為自回歸系數,θ1,θ2,…,θq為移動平均系數,都是模型的待估參數.顯而易見,AR(p)模型和MA(q)模型均為ARMA(p,q)模型的特殊情況.當公式(1)中q=0時,則是自回歸模型AR(p),當公式(1)中p=0時,則成為移動平均模型MA(q).
以上模型針對的是平穩序列,然而非平穩序列,需要經過差分變換轉化為平穩序列后才能應用于ARMA模型.此時需要在公式(1)中引入滯后算子B,得到公式(2):
φ(B)Xt=θ(B)εt
(2)
1.2時間序列特性的分析工具與方法
(1)序列的平穩性檢驗
如果時間序列{Xt},t∈N滿足:

②對任何t∈N,EXt=μ;對任何t,s∈N,E[(Xt-μ)(Xs-μ)]=γt-s,就稱{Xt}是平穩時間序列,簡稱平穩序列.
針對獲取的時間序列,在建立模型之前,通常需要對其進行平穩性檢驗,其中ADF檢驗法運用最為廣泛,下面對ADF檢驗法進行簡要說明:
首先,假定序列{Xt},t∈N服從AR(p)過程.檢驗方程為:
▽Xt=γXt-1+ξ1▽Xt-2+…+ξp▽Xt-p+1+εt
其中,εt是白噪聲,若參數γ<0,則序列是平穩的,而當參數γ=0時,序列至少存在一個單位根,序列是爆炸性的,沒有實際意義.因此ADF檢驗的原假設可以表示為:H0:γ=0H1:γ<0.
其次,構造ADF檢驗統計量:
(3)

通過公式(2)可以計算得到一個t統計量,然后通過查詢ADF檢驗統計量的臨界值表,決定是否拒絕原假設.如果計算得到的t統計量絕對值超過ADF檢驗的臨界值,則拒絕原假設,認為序列是平穩的,反之,則認為序列是非平穩的.
(2)ARMA模型的識別
ARMA模型的識別其實就是對模型進行定階,確定p、q的取值,常用的方法有序列的自相關圖和偏自相關圖、AIC準則.
首先,通過對平穩序列的自相關圖和偏自相關圖進行分析,有如表1所示的模型識別依據[9]:

表1 ARMA模型識別依據
當運用自相關圖和偏自相關圖難以確定階數時,再采用AIC準則進行判斷.針對某一p、q取值,當AIC(p, q)取最小值時,p、q為最佳的模型階數,此時模型達到最優.
1.3ARMA模型的建模步驟
Box-Jenkins提出了針對時間序列的建模思想,其建模基本步驟如下:
(1)檢驗原始序列進行平穩性,若序列表現為不平穩,可對序列進行差分變換使其達到平穩;
(2)求出該觀察值序列的樣本自相關函數和樣本偏自相關函數,結合AIC準則,選擇適當p、q擬合ARMA(p, q)模型;
(3)運用OLS估計ARMA(p, q)模型中的未知參數;
(4)檢驗模型的合理性,當擬合模型無法通過檢驗時,需返回步驟(2),重新確定p、q;
(5)模型優化,即時擬合的模型通過檢驗,仍然可以返回步驟(2)重新確定p、q來模型進一步優化,從而選取最優模型;
(6)根據最終確定的擬合模型,預測序列的未來趨勢.
2南京市M2.5濃度的實證分析與預測
通過中國空氣質量在線監測平臺選取南京市2014年1月1日至12月31日PM2.5濃度數據[9],共365個樣本.下面旨在利用ARMA模型的建模理論結合EViews7進行南京市PM2.5濃度的實證分析與預測.
2.1原始數據平穩性檢驗
首先,運用EViews7畫出南京市2014年1月1日至12月31日PM2.5濃度時間序列圖,如圖1所示,通過對時序圖的分析,可以大致認為該序列沒有明顯的趨勢,初步判斷序列是平穩的.

圖1 PM2.5濃度時間序列圖
接下來,采用ADF檢驗對原序列進行平穩性檢驗,若數據沒有通過檢驗,則說明原始序列不平穩.運用EViews7繼續ADF檢驗,結果如表2所示.

表2 序列PM2.5的ADF檢驗結果
ADF檢驗的原假設為序列PM2.5存在一個單位根,由表2知,ADF檢驗的t統計量值為-8.32,比1%顯著性水平臨界值-3.45要小,因此在99%的置信水平下,可以拒絕原假設,認為序列PM2.5不存在單位根,即序列平穩.

圖2 PM2.5序列自相關—偏自相關分析圖
2.2模型識別
運用EViews7畫出原始序列的自相關圖和偏自相關圖,如圖2所示,接下來,通過分析圖2進行模型的識別和定階.
總觀圖2,可以看出,原始序列的自相關圖和偏自相關圖都沒有明顯的截尾性,因此需要嘗試使用ARMA模型.首先,通過觀察圖2左邊的序列自相關圖,可以看出序列明顯地短期相關,延遲1階、2階、3階以及5階的相關系數均顯著不為0,延遲4階的相關系數近似為0;且序列相關系數由非零衰減為小值波動的過程較為連續和緩慢,因此可以判定該序列的自相關系數具有拖尾性,可以考慮取q=2或q=3.再觀察圖2右側的序列偏自相關圖,可以看出偏自相關系數除了在延遲1階、2階以及5階時顯著大于2倍標準差,其他延遲階數時,基本在2倍標準差范圍內,因此,可以考慮P取5.
綜上,本文可以對PM2.5序列建立ARMA(5,2)模型或者ARMA(5,3)模型.
2.3模型的參數估計
確定模型的階數后,需要對模型進行參數估計.
表3ARMA(5,2)模型參數估計及檢驗結果


圖3 單位根檢驗
運用EViews采用非線性方法分別對ARMA(5,2)和ARMA(5,3)模型進行參數估計與檢驗,結果分別如表3和表4所示,兩表上部分與普通最小二乘估計結果一樣.此時需要根據模型調整后的可決系數以及AIC和SC準則等判斷模型的整體擬合效果.兩表中最下面三行均為滯后多項式φ(x-1)=0和θ(x-1)=0的倒數根,當倒數根都位于單位圓之內時,即可判定過程是平穩的.由圖3可知,表3和表4中的根都在單位圓內,均符合要求.
表4ARMA(5,3)模型參數估計及檢驗結果

由表4可知,ARMA(5,3)模型調整后的R2為0.471741大于表3中ARMA(5,2)模型的0.43824,而AIC和SC值分別為9.564024和9.6399,分別小于表3中的9.622771和9.687808,因此認為ARMA(5,3)模型更合適,其對應的模型表達式為:
Xt=1.28Xt-1-0.36Xt-2+0.07X5+εt+0.52εt-1+0.37εt-2
2.4模型的檢驗
參數估計后,還需要進一步檢驗殘差序列et是否為白噪聲,即當滯后期k≥1時,et的樣本自相關系數是否大致為0.當殘差序列不是白噪聲時,表明殘差序列中還有少量有用信息沒有被提取出來,此時需要對模型進行改進.模型的檢驗一般側重于檢驗殘差序列的隨機性,通過對殘差序列進行χ2檢驗,可以大致判斷其是否是純隨機序列.首先,給出殘差序列的自相關函數:

則接受原假設,認為模型通過檢驗,即殘差序列{et}之間相互獨立,;否在檢驗不通過[8].


圖4 ARMA(5,3)殘差序列的自相關—偏自相關分析圖
2.5模型的預測
接下來運用已經建立好的ARMA(5,3)模型,通過EViews7對南京市2014年1月1日至12月31日PM2.5濃度進行擬合,得到圖5.

圖5 南京市2014年1月1日至12月31日PM2.5濃度擬合預測效果
如圖5,紅色、綠色、藍色曲線分別表示序列觀察值、擬合序列值以及序列的殘差.可以看出,擬合值與觀測值十分接近,模型的擬合預測效果良好.
下面采用線性最小方差,利用ARMA(5,3)模型對PM2.5序列的未來發展進行預測,給出2015年1月1日至5日五天的預測值,如表5所示.

表5 2015年1月1日至5日南京市PM2.5預測值與真實值比較
從表中可看出,置信區間長度遠遠大于預測值與真實值的誤差范圍,所以本文建立模型的預測效果較好.由此也進一步驗證了本文所建立模型的準確性,對目前空氣中PM2.5預測具有較好的實際意義.
3結論
本文利用時間序列分析的Box-Jenkins建模思想,對南京市2014年1月1日至12月31日PM2.5濃度這一時間序列進行模型的建立和實證分析,得到符合南京市PM2.5濃度變化的ARMA(5,3)模型,了解了南京市PM2.5變化的基本特征.
首先,針對原始數列進行平穩性檢驗得到原始數據基本平穩;其次,運用原始序列的自相關圖和偏自相關圖進行模型識別,確定可建立的模型為ARMA(5,2)和ARMA(5,3);然后,對兩個模型進行參數估計與檢驗,確定合適的模型為ARMA(5,3),并根據參數估計結果給出模型的表達式;隨后,對已識別的模型進行檢驗,充分驗證了所設計模型的合理性;最后,運用已經確立好的模型,對南京市2014年1月1日至12月31日PM2.5濃度進行擬合,通過與實際值進行比較,再一次驗證了模型的準確性,并對南京市2015年1月1日至5日的PM2.5濃度做了短期預測,發現模型具有較好的預測效果.
綜上所述,ARMA模型較好地解決了大氣中PM2.5的時間分布問題,借助EViews軟件能夠十分便捷地將ARMA模型應用于大氣中PM2.5濃度的分析與預測,為國家和地方政府進行空氣質量監測、預報、控制以及制定相應政策、法規和管理辦法提供決策指導.
參考文獻
[1]國家發展改革委環資司.節能減排形勢嚴峻產業發展潛力巨大——2013年上半年節能減排形勢分析[J].中國經貿導刊.2013:14-15.
[2]楊凌宵.濟南市大氣PM2.5污染特征、來源解析及其對能見度的影響[D].山東大學,2008.
[3]劉輝,賀克斌,巧水亮,等.2008年奧運前后北京城、郊PM2.5及其水溶性離了變化特征[J].環境科學學報.2011,31(1):177-185.
[4]張振華.PM2.5濃度時空變化特性、影響因素及來源解析研究[D].浙江大學,2014.
[5]盧鵬,何杰.PM2.5的時間分布與演變擴散研究[J].西南民族大學學報2014,40(1):66:70.
[6]中國新聞網.去年南京霧霾242天“防霾”成南京兩會熱議詞[2015-11-2].http://www.chinanews.com/sh/2014/01-12/5725911.shtml.
[7]南方日報.2014年南京市環境狀況公報.[2015-11-2].http://njrb.njdaily.cn/njrb/html/2015-06/05/content_158622.htm.
[8]易丹輝.數據分析與EViews應用[M].北京:中國統計出版社,2002.
[9]馮盼,曹顯兵.基于ARMA模型的股價分析與預測的實證研究[J].數學的實踐與認識2011,41(22):85-89
[10]中國空氣質量在線監測平臺[2015-10-31]. http://www.aqistudy.cn/.
[責任編輯:房永磊]
PM2.5 Concentration Analysis and Prediction in Nanjing Based on ARMA Model
LIU Ling, SONG Ma-lin*
(Anhui University of Finance and Economics Institute of Statistics and Applied Mathematics, Bengbu 233030,China)
Abstract:In connection with PM2.5 concentration in different time, use PM2.5 concentration of everyday in Nanjing in 2014, apply Box-Jenkins time series analysis modeling ideas, combined EViews7, get ARMA (5,3) model conform with the changes ofPM2.5 concentration in Nanjing and predict the concentration of PM2.5 from January 1, 2015 to 5th, by contrast with the actual data and found that the model has better fitting, is suitable for the analysis and prediction of PM2.5 concentration in the atmosphere.
Key words:PM2.5; time series; eviews7; ARMA model; prediction
[中圖分類號]X511
[文獻標識碼]A
[文章編號]1004-7077(2016)02-0054-09
[作者簡介]宋馬林(1972-),男,安徽蚌埠人,安徽財經大學統計與應用數學學院教授,碩士生導師,主要從事資源環境統計、數量經濟的研究.
[基金項目]安徽省級創新創業項目(項目編號:AH201410378516).
[收稿日期]2016-02-01