張順順 盧彥希 羅崴 李東旭 馬凱
(1 廣西科技大學自動化學院 廣西柳州 545000 2 北京交通大學電氣工程學院 北京 100044 3 桂林電子科技大學信息與通信學院 廣西桂林 541004)
受經濟快速發展的影響,我國大氣污染問題較為突出[1]。大氣污染是指大氣中一些物質的含量達到有害程度,以致破壞生態系統和人類正常生存和發展的條件,對人或物造成危害的現象[2]。大氣污染具有污染物種類多樣的特點。由于大氣污染來源廣泛,其中包含的污染物種類也較多,如懸浮顆粒、可吸入顆粒等[3]。隨著“十四五”規劃的實施,全國城市空氣質量持續向好,相比于2022 年提高了0.5 個百分點[4-5]。空氣質量與污染物濃度息息相關,而污染物不僅是全球氣候變暖的關鍵影響因素之一,還會影響人類的身體健康[6]。目前主要是利用空氣質量預報模型,提前預報空氣中污染的主要成分,達到預防改善的效果。楊衛芬等[7]利用耦合氣象模式的通用多尺度空氣質量(The Weather Research and Forecasting coupled with the Community Multiscale Air Quality,WRF-CMAQ)模式對常州市空氣質量預報效果進行評估。陳敏等[8]基于WRF-CMAQ 模式對銀川市空氣質量預報效果進行檢驗分析。陳欣昊等[9]基于WRFCMAQ 對江蘇省2014 年冬半年霧霾日的模擬與評估。但上述的研究利用傳統WRF-CMAQ 模型對污染物進行預報,由于生成機理不完全明晰,導致模型預報的結果不理想。對于傳統算法來說,BP 神經網絡收斂速度慢容易陷入局部最優,K 均值的K 值大小不易把握,容易影響預測的精度[10-11]。針對上述存在的問題,本文提出利用主成分分析的支持向量機(Support Vector Machines for Principal Component Analysis,PCA-SVM)算法的二次預報模型,最后用氣象與污染物數據來優化預報模型。
根據《環境空氣質量標準》(GB 3095—2012),用于衡量空氣質量的常規大氣污染物分別是二氧化硫(SO2)、二氧化氮(NO2)、粒徑<10 μm 的顆粒物(PM10)、粒徑<2.5 μm 的顆粒物(PM2.5)、臭氧(O3)、一氧化碳(CO)6 種。近年來,我國的PM2.5濃度一直高居不下,O3日最大8 h 平均值第90 百分位數濃度一直呈上升態勢,污染形勢異常嚴峻[12-13]。O3最大8 h 滑動平均是指1 個自然日內8∶00—24∶00 的所有8 h 滑動平均濃度中的最大值,其中8 h 滑動平均值指連續8 h 平均濃度的算術平均值。其計算公式見式(1)。
式中:Ct為臭氧在某日t-1 時至t 時的平均污染物濃度。
CO、SO2、NO2、PM10、PM2.5計算24 h 的平均值見式(2)。
然后計算各項污染物的空氣質量分指數(Individual Air Quality Index,IAQI),其計算公式見式(3)。
空氣質量指數(Air Quality Index,AQI)取各分指數中的最大值,見式(4)。
式中:IAQI1,IAQI2,…,IAQIn為各污染物項目的分指數。
最后計算出6 種污染物的AQI 取最大值,見式(5)。
AQI 是基于6 項常規監測污染物計算所得出的、用來衡量空氣質量綜合情況的指標[10]。
根據上述公式建立模型,不同污染物的IAQI 值的結果如圖1 所示。

圖1 不同污染物的IAQI 值
從圖1 可以得知,O3的IAQI 值在不同的時刻都是最大的,所以O3為首要污染物。2020 年8 月25—28 日在監測點A 的首要污染物都是O3,其中IAQI 值分別為79、47、109、138,則說明在25 日,O3成為首要污染物。26 日時空氣質量為優,則當天無首要污染物。而在27 日和28 日IAQI 值超過100,O3成為了超標污染物,空氣質量較差。
為了實現空氣污染物的精確預報,需要對氣象條件的原始數據進行標準化處理,然后分別計算相關系數矩陣、計算特征值和特征向量,其次選擇P 個主成分,計算綜合評價值,再次對于給出的原始數據進行數據的預處理,最后利用SVM 建立模型。建模步驟流程如圖2 所示。

圖2 PCA-SVM 算法的建模流程圖
首先需要對天氣的原始數據進行標準化,假設進行主成分分析的指標變量有m 個:x1,x2,…,xm,共有n 個評價對象,第i 個評價對象的第j 個指標的取值為aij。將各指標值aij轉換成標準化指標,見式(6)。
計算各個特征的相關系數矩陣R=(rij)m×m,見式(7)。
式中:rii=1,rij=rji,rij是 第i 個指標與第j 個指標的相關系數。
計算綜合得分,見式(8)。
式中:bj為第j 個主成分的信息貢獻率,根據綜合得分值就可進行評價。
通過主成分分析法得到的特征,用SVM 算法進行空氣污染物濃度預測,建立SVM 的數學模型見式(9)。
求得最優值對應的ω*、b*,可以得到分類函數,見式(10)。
通過觀察所給的數據并進行分析,發現預報數據和實測數據都有缺失的問題,如表1 所示。預報數據采用逐月尋找的方式,缺失程度較大的實測數據采用填充后平滑處理。首先對A、B、C 3 個監測點2020 年7 月23 日—2021 年7 月12 日的預報數據和實測數據使用2 種方法進行相應的預處理操作,并將3 個監測點處理后的預報數據和實測數據輸入PCA-SVM 模型進行訓練,最后預測出2021 年7 月13 日—7 月15 日3 d 污染物單日濃度值。

表1 缺失數據情況
6 項常規監測項目濃度及AQI 預測結果見圖3。從圖3 可知,邊界層高度的綜合得分最高為327.64,驗證了建立模型的可靠性,并通過主成分分析法,可以得出NO2、SO2、PM10、PM2.5、CO、O3對空氣質量影響較大,而溫度、濕度、氣壓等對空氣質量的影響較小。最后通過建立的PCA-SVM 模型得到監測點A、B、C 在2021 年7 月13—15 日的污染物濃度及AQI 預測結果如圖4 所示,可以看出NO2、SO2、PM10、PM2.5、CO、O3二次預測值和實測值能夠很好的吻合,預測準確率能達到93.8%,說明PCA-SVM 算法能很好的對空氣的污染物進行預報,O3和PM10對空氣質量的影響較大。

圖3 綜合評價值

圖4 污染物濃度及AQI 預測結果
本文通過計算各項污染物的空氣質量分指數,可以確定當天首要污染物,并通過對數據進行挖掘找出了氣象條件與污染物濃度之間的關系。由于WRF-CMAQ 模式結果并不理想,所以在一次預報模型模擬結果的基礎上,結合更多的數據源運用PCA-SVM 算法進行預測來提高預報的準確性,具有非線性映射能力、自學習等優點。