張學新 周泳岑
摘 要 利用武漢及其周邊城市長沙、南昌、合肥、襄陽、孝感等城市空氣質量指數(AQI)及相關污染物數據,探索了武漢市空氣質量指數的統計分布規律及空氣污染治理效果的評價問題,給出了能較好預測空氣質量指數等級的推理規則.用統計模型分析武漢及周邊大中城市的SO2等空氣污染物之間的傳播及相互影響.
關鍵詞 環境經濟學;空氣污染影響機制;規則模型預測;空氣質量;因果檢驗;協整關系
中圖分類號 X823 ???????????文獻標識碼 A
Prediction of Air Quality in Wuhan
and Analysis of the Influence on its Air Pollution
Exerted by Those of Surrounding Cities
ZHANG Xuexin1, ZHOU? Yongcen 2
(1. School of Mathematics and Statistics, Hubei Engineering University, Xiaogan, Hubei 432000, China;
2. Wuhan Foreign Languages School, Wuhan, Hubei 430022, China)
Abstract The data of air quality index(AQI) and related pollutants in Wuhan and in its surrounding cities such as Changsha, Nanchang, Hefei, Xiangyang and Xiaogan are used in this paper.Then, the statistical distribution of air quality (AQI) in Wuhan and a scientific evaluation of the effect of pollution control and management are explored. More importantly, some inference rules are obtained which can well predict the air quality (AQI) level. Finally, by applying some statistical regression mode, the spread and interaction between air pollutants such as SO2 in atmosphere of Wuhan and its surrounding cities has been analyzed.
Key words environmental economics; impact mechanism of air pollution; rulebased model forecast; air quality; testing for causality; cointegration relation
1 引 言
對城市空氣質量狀況及其氣象誘因,已有許多研究.時連俊等(2015)[1]對成都市空氣質量狀況、李剛(2017)[2]對克拉瑪依市空氣質量特征進行描述性統計分析.韓霄和張美根(2014)[3] 通過模擬華北平原氣象場及主要氣溶膠粒子的時空分布分析重霾成因,趙金霞等(2017)[4] 探討了天津濱海新區灰霾的主要氣象誘因.劉超等(2017)[5]討論上海冬夏兩季大氣污染特征及其污染來源,蘇維等(2017) [6] 討論南昌市PM2.5和PM10的時空變異特征.在預測方面,叢琳等(2017) [7]對北京市PM2.5做回歸分析,用PM10等關聯指標對PM2.5作靜態預測.對武漢市空氣質量研究,岳巖裕等(2016)[8]研究空氣質量狀況與氣象條件的關系;劉慧君(2014)[9]分析PM2.5污染的成因;郭浩天(2014) [10]分析PM2.5中有機酸的分布特征及來源.這些研究側重于分析氣象因素對武漢市空氣質量指數的影響,主要關注PM2.5污染物成分的分解.
空氣質量指數是研究空氣質量常用的一個指標.利用當天全部實體污染物信息預測該天空氣質量等級很有意義.第一,擬合武漢市PM2.5,PM10,SO2,CO,NO2和O3-8h等實體污染物濃度的分布函數,確認選擇非時間序列分析方法預測質量指數等級,使用決策樹模型進行預測.第二,分析空氣質量治理效果.第三,鑒于城市群之間的空間相關性,應用Granger因果檢驗、協整檢驗,聯系地、整體地研究武漢市及周邊大中城市的污染物間的相互影響及傳播機制.
2 武漢市空氣質量指數分布特征
在《空氣質量歷史數據查詢》網頁里采集武漢市2013年12月初到2018年6月中旬的日相關記錄,其中有空氣質量指數值、質量等級、污染物PM2.5、PM10、SO2、CO、NO2、O3-8h的濃度觀測值.對少量缺失記錄,用最鄰近的3個觀測值的均值替補.
對武漢市空氣質量指數序列的頻率圖及周期性模型擬合分析得到,6年內武漢市空氣質量指數序列沒有周期性.再考察2015年對2014年、2016年對2015年、2017年對2016年的每日差分序列,均值、方差及其他分布特征均有顯著性差異,印證空氣質量指數序列沒有周期性.統計分布結果從一個側面說明空氣質量治理取得了一定的效果.其中,2013年12月份有21天、2014年有36天、2015年有20天、2016年有7天、2017年有8天、2018年1月~6月份有4天分別是重度污染,這些日期多數分布在12月份、1月份、2月份,少數分布在3~6月、10~11月.2014年有29天、2015年有32天、2016年有52天、2017年有56天、2018年1月~6月份有14天分別是優秀天氣,優秀日期多數分布在7月份、8月份、10月份、9月份、5月份,少數分布在2月份、11月份.
從空氣質量指數的月度平均值看,武漢市空氣質量的同比沒有明顯下降,如圖1所示.
圖1 武漢市5年月度空氣質量指數均值比較
3 空氣質量治理效果分析
評價空氣質量治理狀況,一般是統計某個時段的“優良”等級天數的累計頻率.為了分析某個時段連續的“優良”等級天數,需使用序列模式方法.該方法的步驟是:1)保持空氣質量指數序列觀測值的時間順序,對序列進行分割聚類;2)在每個聚類里,對空氣質量指數求平均值,按“優”、“良”、“重度污染”、“中度污染”、“輕度污染”5級給出該類的屬性標簽.3)對每個聚類,計算不同屬性標簽的空氣質量指數日數的比例.
序列模式分析不打亂空氣質量指標值的觀測時間順序,它依據樣本點之間的相近程度,將性質相近的樣本點聚為一類.設某一類Gi={ti,ti+1,…,ti+j-1},j≥1,表示Gi包含j個樣本點{xti,xti+1,…,xti+j-1}.該類的均值為i.=∑ti+j-1l=tixl/j,該類的直徑為D(ti,ti+j-1)=∑ti+j-1l=ti(xl-i.)2.記L(p(n,k))是把n個樣本點分為k類遭受的損失函數,并定義為全體分類的直徑總和.當n和k固定時,最小的L(p(n,k))意味著分割聚類的離差平方總和最小,因而分割聚類是有效的.可證
L(p(n,2))=min 2≤j≤nD(1,j-1)+D(j,n), L(p(n,k))=min k≤j≤n{L(P(j-1,k-1))+D(j,n)},(k≥3).? (1)
由式(1)可知,尋找把n個樣本點分成k類(k≥3)的最優分割,需要在對j-1個樣本點做k-1類最優分割(2≤j≤n)的基礎上進行.
不失一般性,僅對武漢市2014年至2017年間四個冬季的空氣質量指數序列做最優分割聚類,結果見表1.從表1看,2014-2017年4個冬季的空氣質量,前3年持續好轉,但是在第4年情況惡化.2014年冬季,兩次出現重度污染,共9天,良好一次,44天.2015年冬季,兩次出現重度污染,共6天,良好一次,100天.2016年冬季,零次出現重度污染,良好二次,57天,其余全是輕度污染.2017年冬季,一次出現重度污染,共3天,良好一次,51天.應用序列模式方法分析和表述武漢市大氣環境質量,結果更具體、更深刻.
4 空氣質量等級預測
設樣本集S的大小為|S|,樣本點共有m個不同的類別,其中屬于第i類Ci(i=1,2,…,m)的樣本點構成集合Si,樣本點落入Ci的概率是pi.再設屬性A將S劃分為S=∪vj=1Sv,當A取值aj時,落入類Ci的樣本點構成集合Sij,發生的概率是pij=|Sij|/|S|,則屬性A的信息增益定義為 Gains(C,A)=(∑vj=1∑mk=1Skj/|S|)(∑mi=1pijlog 2pij)-∑mi=1pilog 2pi,信息增益率定義為
GainsR(C,A)=Gains(C,A)/[(∑vj=1∑mk=1Skj/|S|)(∑mi=1pijlog 2pij)].?? (2)
現在構建分類與回歸樹(C&R tree)預測模型.這是一種基于樹的分類方法,它以遞歸劃分的方式將訓練記錄分割為具有相似輸出變量值的若干個子集.C&R樹從根節點開始,每次利用信息增益率選擇一個當前最佳的屬性進行分枝,采用成本復雜性的修剪策略去控制樹的生長,最后產生基本形式是A→B的推理規則來預測新樣本點的類別.
為了檢驗C&R樹模型的預測效果,把所有樣本按7:3的比例隨機分成兩個數據集,一個用于訓練模型,一個用于測試模型的性能,結果如表2所示.
由C&R樹得到的推理規則有6條,預測準確率在93%以上.變量的重要性依次是PM2.5,PM10,O3-8h,Co,NO2和SO2.
規則用于 優 - 包含 1 個規則: 如果 PM2.5 <= 75.5且 PM10 <= 46.5 則 優;
規則用于 良 - 包含 1 個規則:如果 PM2.5 <= 75.5且 PM10 > 46.5 且 O3-8h <= 160.5 則 良;
規則用于 輕度污染 - 包含 2 個規則:
規則 1如果 PM2.5 <= 75.5且 PM10 > 46.5且 O3-8h > 160.5則 輕度污染;
規則 2如果75.5 < PM2.5 <= 115.5則 輕度污染;
規則用于 中度污染 - 包含 1 個規則:如果 115.5 < PM2.5 <= 149.5則 中度污染;
規則用于 重度污染 - 包含 1 個規則:如果PM2.5 > 149.5則 重度污染;
缺省:良.
給出一個上述推理規則的使用和驗證實例.查閱2019年5月1日武漢空氣質量指數日歷史數據(來源:https://www.aqistudy.cn/historydata/daydata.php?city=武漢)知:AQI=79,質量等級=良,PM2.5=28,PM10=71,SO2=8,CO=0.8,NO2=35,O3-8h =134.按照第二條規則,滿足條件PM2.5 =28<75.5且PM10=71>46.5且O3-8h =134<160.5,因此它被規則預測為良,的確如此.
5 武漢市及周邊大城市的空氣質量相互影響
為了分析武漢市空氣質量是否受周邊大城市長沙、南昌、合肥、襄陽、宜昌等地空氣質量的影響,現對PM2.5、PM10、SO2、CO、NO2、O3-8h等實體污染物觀測值序列做統計建模分析.
5.1 長期穩定關系
如果k個城市的某污染物濃度序列PC1t、PC2t,… PCkt不是平穩的,但其d階差分是平穩的,而且存在不全為零的常數c1,…,ck使得∑ki=1ciPCit是平穩的,則稱這k個序列有協整關系(長期穩定的關系).把平穩序列視為d=0的情形.對于具有協整關系PC*2=k0+k1PC*1的兩個序列,其動態關系用誤差修正模型給出:
ΔPC2t=α(PC2-k0-k1PC1)t-1+
β2ΔPC1t+εt,?? (3)
這里, 差分ΔPCt=PCt-PCt-1,假定殘差εt為白噪聲.
首先通過單位根檢驗判斷武漢PM2.5W與長沙PM2.5C兩個時間序列之間的平穩性.各單位根檢驗的原假設都是:“序列沒有單位根”.細微差別是,Levin方法假設“兩個序列有共同的單位根”,Pesaran方法假設“每個序列各自有單位根”.在計算檢驗的概率時,ADFFisher、Fisher、PPFisher方法使用漸近卡方分布,其它檢驗方法則使用漸近正態分布.各個檢驗結果都顯著性地拒接了原假設,說明兩個序列都是平穩的,見表3.
其次,分析它們之間的協整關系.表4是武漢PM2.5W與長沙PM2.5C的誤差修正模型擬合結果.
表4對應的誤差修正模型是:
ΔPM2.5Wt=-0.355(PM2.5W-16.225-0.85PM2.5C)t-1+0.507ΔPM2.5Ct+εt,??? (4)
它表明武漢的PM2.5W與長沙的PM2.5C有長期均衡關系,PM2.5W=16.225+0.85PM2.5C,同樣的,武漢與南昌、武漢與合肥的PM2.5都有長期均衡關系.值得注意的是,兩地之間的影響,不局限于滯后一天,經初步分析,滯后可達7天.
對有關城市的其它污染物PM10、SO2、CO、NO2、O3-8h的時間序列分析可以得到類似的結論.
5.2 Granger因果關系
判斷一個城市的空氣污染是否是由另一個附近城市漂移過來的,即一個城市的空氣質量指數是否與另一個城市的空氣質量指數具有Granger因果關系,需要進行相關的檢驗.把一個城市的某種污染物濃度PC1的歷史信息加入到關于另一個城市的同樣污染物PC2的預測模型中,如果該模型的預測能力得到顯著提高,就說PC1是PC2的“Granger原因”.
對模型
檢驗H0:βj=0,(j=0,1,…l),其含義是假設“一地PM2.5不是另一地PM2.5的“Granger原因”.統計量F=(SSE0-SSE1)/mSSE1/(n-l-m-1)~F(m,n-l-m-1),這里n是觀測值個數,SSE1、SSE0是模型及零假設下的模型的殘差平方和.
5.3 武漢、長沙、南昌、合肥各PM2.5序列之間的Granger因果檢驗
武漢、長沙、南昌、合肥各PM2.5序列PM2.5W、PM2.5C、PM2.5N、PM2.5H之間的Granger因果檢驗結果見表5.在0.05、0.01的顯著性水平下,拒接“一地PM2.5不是另一地PM2.5的Granger原因”的假設.即武漢、長沙、南昌、合肥四城市的PM2.5污染物是互為相互影響的,一地至少受另外一地的污染物提前1~2天的影響.
5.4 湖北省武漢市周邊城市大氣污染物的相互影響
對湖北省內武漢市周邊大中城市空氣質量狀況對武漢市的影響分析,僅選擇SO2污染物這一個指標做實證分析.
武漢市某天的SO2污染物不僅受省內其周邊大中城市當天SO2污染物的影響,而且也受這些周邊大中城市前若干天SO2污染物的影響、還受武漢市自身前若干天SO2污染物的影響,因此,可以建立一個帶有分布滯后項的多元線性回歸模型.模型的概要見表6.
有些系數估計值是負的,比如-0.0805,意指前2天黃石市SO2污染物濃度的減少將引致武漢市今天SO2污染物濃度0.0805個單位的增加,或者說前2天黃石市SO2污染物濃度的增加將引致武漢市今天SO2污染物濃度0.0805個單位的減少.說明武漢市及周邊SO2污染物有關聯,污染途徑可能取決于風向(因為沒有取得風向的歷史數據,不能確定其具體關系),它引致了SO2污染物的流動.對宜昌沒有檢測到這種關系.
Durbin統計量的值是2.077950,說明殘差序列非自相關,圖2顯示殘差分布近似于正態分布.模型總體效果很好.
類似的,對其它污染物濃度的分析也表明武漢市及省內部分周邊大中城市的污染物濃度是相互影響的.
6 結論與討論
武漢市空氣質量指數的統計分布難以得到,使得當前評價空氣質量治理效果的方法比較簡單,序列模式方法嘗試更加科學化的評價,但是帶來一定的時間復雜度.規則模型不僅可準確地預測空氣質量等級,而且能給出等級對應的各種污染物濃度的臨界值,給人具體的空氣質量認識.
武漢市與周邊大中城市空氣質量污染物之間的影響機制很復雜.Granger因果檢驗及其它統計分析表明這種影響機制是相互的,武漢市空氣污染物與長沙、南昌、合肥的空氣污染物有著長期均衡關系,可以有比較穩定的2~7天的前期影響.武漢當天空氣污染物還受孝感、黃石及武漢市自身前1~3天污染物影響.建立帶有分布滯后項的多元線性回歸可以定量地描述武漢市與周邊大中城市空氣質量污染物之間的影響力度.模型(6)只用PM2.5、PM10、SO2、CO、NO2、O3-8h污染物的濃度就較好地預測了武漢市未來一天SO2污染物濃度.如果能加入其它氣象因素,將極大提升模型的預測能力.
參考文獻
[1] 時連俊,徐建,王變芳,等.成都市空氣質量狀況研究[J].資源與環境,2015,31(8): 986-989.
[2] 李剛.克拉瑪依市空氣質量特征分析[J].干旱環境監測,2017,31(2): 75-79.
[3] 韓霄,張美根.2013年1月華北平原重霾成因模擬分析[J].氣候與環境研究,2014,19(2):127-139.
[4] 趙金霞,沈岳峰, 范蘇丹.天津市濱海新區持續性重度霧霾成因分析[J].沙漠與綠洲氣象,2017, 11(6): 69-74.
[5] 劉超,花叢,康志明. 2014-2015年上海地區冬夏季大氣污染特征及其污染源分析[J].氣象,2017,43(7):823-830.
[6] 蘇維,賴新云,賴勝男,等.南昌市城市空氣PM2.5和PM10時空變異特征及其與景觀格局的關系[J].環境科學學報.2017,37(7): 72432-2439.
[7] 叢琳,孫德山,鄒存利,等.北京市PM2.5的相關因素研究[J].經濟數學,2017,34(4): 26-29.
[8] 岳巖裕,王曉玲,張蒙晰,等.武漢市空氣質量狀況與氣象條件的關系[J].暴雨災害,2016,35(3):271-278.
[9] 劉慧君.武漢市PM2.5污染的演變預測及成因分析和仿真[D].長沙:湖南大學數學與計量經濟學院,2014.
[10]郭浩天.武漢市大氣PM2.5中有機酸的時空分布特征及來源解析[D].武漢:武漢理工大學資源與環境工程學院,2014.