劉林波,劉立龍,黎峻宇,黃良珂,周 威,甘祥前
(桂林理工大學 a.測繪地理信息學院;b.廣西空間信息與測繪重點實驗室,廣西 桂林 541006)
近年來,我國多個城市(北京、 天津、 西安等)不斷發生大規模的霧霾災害天氣,現已成為制約我國區域經濟發展和影響城市環境的熱點問題[1]。產生霧霾的主要原因是空氣污染和一些氣象因素的共同作用[2],在組成霧霾的眾多污染物中,最具有局域性特征、對人體危害最嚴重的污染物為大氣中細顆粒物PM2.5,其可以作為反映霧霾災害嚴重程度的一個指標。研究表明,霧霾災害的成因與CO、NO2、SO2、O3等大氣環境因子和濕度、溫度、風速等氣象因子密切相關[3-5]。隨著GPS氣象學的發展,文獻[6]利用2016年北京市GPS-PWV(GPS-Precipitable Water Vapor)數據與PM2.5質量濃度進行比較,發現兩者存在著明顯的正相關性。文獻[7-8]研究表明,GPS-PWV是影響霧霾天氣的一個重要因素,可將其作為預測霧霾的一個關鍵參數。
針對霧霾與諸多大氣環境和氣象因子密切相關的這一特性, 國內外許多氣象學者們都在研究建立科學、 準確、 實時的霧霾預測方法。 由于人工神經網絡方法可以解決預測數據的非線性和強突變特征等問題, 因此將其作為預測霧霾嚴重程度的主要方法[9-11]。但是, 使用單一的BP神經網絡模型預測的輸出結果誤差較大[12], 且容易突變,不能滿足實際霧霾預測的要求。 為解決這些重要問題, 本文采用了GA-BP神經網絡模型進行預測。 遺傳算法[13]是一種全局優化搜索算法, 可對BP神經網絡的初始權值和閾值進行優化選擇,能夠避開局部極小點,克服BP神經網絡的缺點,兩者的結合使得模型具有更高的穩定性和預測精度。
基于以上研究, 本文通過對比分析北京市2015年第275~280天3個陸態網絡(crustal movement observation network of China,CMONOC)站點的GPS-PWV數據以及影響霧霾的其他大氣環境數據、氣象數據與PM2.5質量濃度數據之間的相關程度,利用GPS-PWV數據聯合相關性較強的影響因素作為預報因子,采用GA-BP神經網絡模型進行PM2.5質量濃度預測,并將其與BP神經網絡模型的預測值進行精度對比,分析引入GPS-PWV因子能否提高PM2.5數據的預測精度。
本實驗采用了CMONOC基準站數據和NOAA氣象站的相關氣象數據, 通過薩斯塔莫寧(Saastamoinen, SA)模型聯合反演求取北京市2015年第275~280天霧霾嚴重時期3個CMONOC基準站點(BJFS、BJGB、BJSH)天頂方向的GPS-PWV值。
SA天頂靜力學延遲計算模型為
(1)
式中:ZHD為對流層天頂靜力學延遲, mm;PS為地面氣壓, hPa;θ指的是觀測站的大地緯度, °;H為測站的大地高, km。利用下載CMONOC基準站數據中對流層天頂總延遲(ZTD)減去ZHD即得到對流層濕延遲(ZWD), 則大氣水汽總量(PWV)可表示為
(2)
式中:K代表轉換系數;ρw表示水的密度;Rv表示水汽氣體常數;k2′、k3為大氣折射常數;Tm表示大氣加權平均溫度, K。
通過中國空氣質量在線監測分析平臺(http://www.aqistudy.cn/)下載得到2015年第275~280天北京市的CO、NO2、SO2、 O3、 PM2.5等大氣環境數據及濕度、 溫度、 風速等氣象數據, 這8組數據時間分辨率均為1 h, 每組共144個樣本值。 各影響因素與PM2.5之間的時間序列關系見圖1。
可知,在北京市2015年第275~280天, 3個CMONOC站的GPS-PWV以及NO2、 CO含量分別與PM2.5質量濃度數據在時間序列的變化下具有很好的對應關系, 各影響因素的上升、 下降過程對應了PM2.5質量濃度數據的上升下降過程, 這種現象尤其明顯地表現在各數據曲線的峰頂和低谷處。 而SO2、O3、 風速、 溫度、 濕度與PM2.5質量濃度數據在時間序列的變化下的對應關系并不是特別明顯。 為進一步分析各因素與PM2.5之間的關系, 本文采用相關性分析方法[14]表征其相關程度, BJFS站GPS-PWV、 BJGB站GPS-PWV、 BJSH站GPS-PWV、 NO2、 SO2、 CO、O3、風速、溫度、濕度等影響因素與PM2.5質量濃度的相關系數分別是0.642 2、 0.644 1、 0.641 3、 0.648 7、0.348 5、0.958 4、0.364 1、-0.248 4、0.198 4和0.451 1。
結合圖1可知:北京市3個站點的GPS-PWV與PM2.5質量濃度在時間序列的變化下具有很好的對應關系,總體呈中度相關,因此由GPS反演的GPS-PWV可以作為本次預測PM2.5質量濃度的一個重要參數。NO2、SO2、O3、濕度與PM2.5之間的也具有很好的相關性,屬中度相關。CO與PM2.5之間的相關系數更是達到了0.958 4,屬高度相關。從整體上看,風速和溫度在該時段與PM2.5數據的相關性較小,屬低度相關。
由霧霾的成因分析可知,影響霧霾程度的因素很多,通過分析各個影響因素與PM2.5之間的相關性,合理地選取影響霧霾程度的主要預報因子,剔除相關性較弱的預報因子,從而避免預報的冗余度,這對于提高PM2.5預測的精度至關重要,進一步說明了本文工作的必要性。為保障GA-BP神經網絡預測PM2.5質量濃度的精度,本文選取了CO、NO2、SO2、O3、濕度以及GPS-PWV數據作為預報因子,以提高其預測精度。
BP神經網絡是近年來應用廣泛的一種多層前饋神經網絡,其采用信號前向傳遞,誤差反向傳播的方法,并以均方根誤差最小化為目標調整網絡權值和閾值。這種學習方法解決了多層前饋神經網絡的權重調整問題,使得最終預測值不斷逼近真實值。但在實際使用BP神經網絡預測過程中發現其存在著隱含層神經元個數的最佳值沒有定論、初始權值和閾值是隨機產生、容易陷入局部極值等問題[15]。

圖1 各影響因素與PM2.5質量濃度對比Fig.1 Comparison of influencing factors and concentration of PM2.5
遺傳算法是一種模擬自然界遺傳機制和生物進化論的并行隨機搜索最優化方法,具有良好的全局搜索性能,不易陷入局部極小等優點。遺傳算法能夠優化BP神經網絡的初始權值和閾值,且適用于并行處理,搜索不依賴于梯度信息,可以用來優化BP神經網絡[16]。遺傳算法優化BP神經網絡的公式為[17]
(3)

(4)

GA-BP模型預測PM2.5質量濃度可分為BP預測模型結構確定、遺傳算法優化BP預測模型和預測3部分。BP神經網絡結構可由擬合函數輸入輸出參數的個數確定,進而確定遺傳算法個體的長度。遺傳算法可優化BP神經網絡的權值和閾值,可通過選擇、交叉和變異操作找到最優適應度值對應的個體。BP神經網絡預測是將遺傳算法得到的最優個體對網絡初始權值和閾值賦值,網絡經訓練后預測輸出。
經分析可知:在本文試驗中,當不含水汽影響因子時,其輸入參數5個、輸出參數1個,所以設置的GA-BP神經網絡輸入層有5個節點,隱含層有5個節點(單隱層),輸出層有1個節點,共有5×5+5×1=30個權值,5+1=6個閾值,在遺傳算法中采用實數法對個體進行編碼,其長度為30+6=36;當含水汽影響因子時,其輸入參數6個,輸出參數1個,所以設置的GA-BP神經網絡輸入層有6個節點,隱含層有6個節點,輸出層有1個節點,共有6×6+6×1=42個權值,6+1=7個閾值,遺傳算法個體編碼長度為42+7=49。本次實驗選擇北京市2015年第275~280天霧霾嚴重時期的144組數據,前120組(275~279天)數據作為神經網絡訓練樣本,后24組(280天)作為預測樣本。遺傳算法的參數設置為:進化次數為1 000,種群規模為10,變異概率為0.2,交叉概率為0.4。其GA-BP神經網絡模型通過MATLAB R2014a軟件進行編程實現。
GA-BP模型預測PM2.5質量濃度網絡算法流程見圖2。

圖2 GA-BP神經網絡預測PM2.5質量濃度流程圖Fig.2 Prediction of PM2.5 mass concentration flow chart by GA-BP neural network
本文利用北京市2015年第275~279天120 h的PM2.5數據作為樣本,分別通過GA-BP神經網絡模型和BP神經網絡模型預測第280天24 h的PM2.5值,其中不含水汽預測值指將CO、NO2、SO2、O3、濕度作為輸入因子的預測結果,含水汽預測值則是分別增加了各CMONOC 站點(BJFS、 BJGB、 BJSH)的GPS-PWV數據作為輸入因子的預測結果,分別如圖3、圖4所示。


圖3 2015年第280天24 h實測PM2.5含量和BP神經網絡預測PM2.5含量對比Fig.3 Comparison of measured PM2.5 content and BP neural network prediction of PM2.5 content on 280th day and 24 hours in 2015

圖4 2015年第280天24 h實測PM2.5含量和GA-BP神經網絡預測PM2.5含量對比Fig.4 Comparison of measured PM2.5 content and GA-BP neural network prediction of PM2.5 content on 280th days and 24 hours in 2015

預測因素BPBiasRMSEGA-BPBiasRMSE不含GPS-PWV35.823.737.334.6BJFS含GPS-PWV41.330.145.540.8BJGB含GPS-PWV18.812.820.313.2BJSH含GPS-PWV22.216.823.416.0
綜合可知,BP神經網絡模型預測值的Bias 和RMSE均遠遠大于GA-BP神經網絡模型預測值。通過對比分析兩種模型的預測值可以看出:在預報因子不同的條件下,使用GA-BP神經網絡模型預測的數據精度更高,數據穩定性更好,可以預測出接近實際的PM2.5數據。因此,本文將著重對GA-BP神經網絡模型的預測值作出詳細分析。
在GA-BP神經網絡中,BJFS和BJSH站點的GPS-PWV數據聯合其他主要影響因素作為預報因子的預測值,其Bias和RMSE均小于不含GPS-PWV時的預測值,而含BJGB站點GPS-PWV預測值的Bias和RMSE分別為20.3、23.4,大于不含GPS-PWV時的18.8和22.2。這種情況是由于各站的高程不同引起的,3個CMONOC站BJFS、BJGB、BJSH的海拔高為87.5、213.0、155.4 m,均高于北京市的平均海拔55.0 m,BJGB站與北京市的海拔差值最大,達到158 m。隨著測站海拔與北京市的海拔高度差值增大,當大于64 m后,PM2.5質量濃度會表現出隨高度增加而遞減的趨勢,因此對于BJGB站點的預測值影響更加明顯,使得預測值精度相對有所降低。
為進一步比較不同預報因子GA-BP神經網絡預測值的優劣,利用各預測值的相對誤差來進行精度分析,使其能更好地反映預測值的可靠程度。其中,相對誤差=(|真實值-預測值|/真實值)100/%,相對誤差越小,預測精度越高。不同預報因子的預測值相對誤差見圖5。
在預報因子不同的4種情況下,總體上模型預測的結果與真實監測值前21 h預測值相對誤差均在10%左右。在22:00—24:00,4種情況下的預測值相對誤差均產生極大變動,尤其是在預測因子不含GPS-PWV的情況下的預測值相對誤差變化最為明顯。產生這種情況是由于風速的快速變化,北京市在2015年第280天22:00時風速3級,隨后在接下來的1 h內迅速增加到7級,最終24:00時達到8級。隨著風速的增加,大氣中的PM2.5微顆粒物被吹散,PM2.5數值由21:00的343 μg/m3急速降到24:00的12 μg/m3。為更好地描述不同預報因子的預測誤差,將相對誤差詳細情況列于表2。

圖5 2015年第280天24 h各組GA-BP神經網絡預測PM2.5含量相對誤差對比Fig.5 Comparison of the relative errors of GA-BP neural network prediction of PM2.5 content in each group on 280th day and 24 hours in 2015
4種預測因素預測值的相對精度在21:00前都比較高, 其相對誤差都在10%以內, 在22:00—24:00內, 其預測精度均有所降低。 從24:00整體來看,預報因子中分別包含3個CMONOC站GPS-PWV數據的預測值,相對誤差分別為8.2%、 10.2%、 8.1%, 較單純使用其他影響因子預測的相對誤差11.0%分別降低了2.8%、 0.8%、 3%, 其誤差相對較穩定。 這表明,引入GPS-PWV數據聯合其他影響霧霾的主要大氣環境數據和氣象數據作為預報因子可明顯提高預測PM2.5質量濃度的精度和可靠性。
本文分析了北京市2015年第275~280天各霧霾影響因素與PM2.5質量濃度之間的相關性,為提高模型預測值精度,選取了CO、NO2、SO2、O3、濕度數據并將其分別與BJFS、BJGB、BJSH 3個CMONOC站反演得到的GPS-PWV數據聯合作為預報因子的4種情況,采用BP神經網絡模型和GA-BP神經網絡模型分別預測了PM2.5質量濃度值。通過分析這4種情況下兩種模型預測出的PM2.5值與真實值的誤差,結果表明:在預報因子不同的條件下,使用GA-BP神經網絡模型比BP神經網絡模型預測的數據精度更高,更加穩定;在GA-BP神經網絡預測PM2.5質量濃度時,利用影響霧霾的主要因子聯合不同高程站點的GPS-PWV數據預測的精度有所差異,測站高程與當地高程相差越大,預測值精度相對越低;但就整體而言,使用包含GPS-PWV數據比單純使用影響霧霾主要的大氣環境因素和氣象因素作為預報因子的GA-BP神經網絡預測值相對誤差小,其預測值的精度和可靠性均有所提高;因此,將GPS-PWV數據聯合影響霧霾主要的大氣環境因素和氣象因素作為GA-BP神經網絡模型預測PM2.5含量的主要預報因子,有利于提高預測PM2.5含量的精度和可靠性。本文僅針對于北京市的PM2.5預測得到驗證,對于其他城市添加水汽因素對于預測PM2.5可以起到一定的參考作用。
表2 不同組預報因子的GA-BP神經網絡預測值的相對誤差

Table 2 Relative error of GA-BP neural network predictive value for different group forecasting factors %