張弛, 朱宗玖
(安徽理工大學電氣與信息工程學院, 淮南 232001)
隨著中國工業技術水平的不斷提高與城市化進程加快,經濟發展與工業生產所帶來的空氣污染對人類的健康狀況及工業環境產生了嚴重的影響[1]。大氣環境與人類健康有著密切的關系,要想深入打好污染防治攻堅戰,大氣污染的治理與預防必不可少。鑒于空氣質量與氣象條件的密切關系,就探究空氣質量與氣象要素的相關性對大氣污染治理具有重要意義。最普遍的空氣污染顆粒物是PM2.5和PM10。根據以往研究,空氣污染與這些顆粒物在空氣中的濃度呈正相關,大氣中的顆粒物濃度越高城市污染越嚴重。相比于PM10、PM2.5的污染性更強,對人體健康的危害也更大。
根據以往研究,針對環境污染物濃度預測的方法分為兩類:確定性法和統計法。確定性法在建立模型時結構參數對理論的理想程度及數據庫的大小有很高的要求,且對非線性因數的解釋性較差;與確定性法相比,統計法通常具有更高的運行效率和簡易的結構。線性回歸模型(特別是多元線性回歸)已被采取建立PM2.5濃度和影響因子之間的關系,這些模型具體包括廣義線性回歸[2]、自回歸綜合移動平均(autoregressive integrated moving average,ARIMA)模型[3],土地利用回歸模型、地理加權回歸、神經網絡等。Yan等[4]發現,使用分位數面板回法,當影響因子之間存在多重共線性,或實際環境與期望模型偏差較大時,這些統計模型將會失效。近年研究中機器學習已經越來越多地應用于大氣污染物的短期和長期預測。2020年,康俊鋒[5]使用了機器學習極限梯度提升樹(XGBoost)模型來預PM2.5質量濃度。作為一種并行提升樹的工具,XGBoost的機器學習能力較強,但對于數據中的時間序列特征的識別較弱。陳柳[6]在反向傳播(back propagation,BP)神經網絡模型的基礎上結合小波分析預測SO2濃度,傳統的神經網絡預測模型的優點是斂速度快,但是由于采用線性回歸算法對數據進行篩選,無法篩選出無關非線性變量。而主成分分析(principal component analysis,PCA)算法可以對多重變量進行降維。因此現結合PCA算法和BP神經網絡,構建PCA-BP預測模型,利用該模型皖地區2018—2021年的PM2.5濃度值進行預測,在降低模型復雜度的前提下有效提升預測精度。
實驗中(相關性分析實驗及PM2.5濃度預測)所需要用到的空氣質量指數及相關污染物的數據來源于安徽省生態環境廳(http://sthjt.ah.gov.cn/index.html),包括皖北地區23個國控空氣質量監測站點和20個省控空氣質量監測站點,選取淮南、蚌埠、阜陽、淮北、亳州、宿州、滁州7個城市2018年1月—2022年12月的監測數據,包括逐日及逐時首要空氣污染物(PM2.5、PM10、O3、NO2、CO、SO2)濃度數據,氣象數據來源于國家氣象科學數據中心(http://data.cma.cn/),包括溫度、相對濕度、風瞬時向、瞬時風速、2 min平均風速、10 min平均風速共6類。
圖1所示為實驗中部分氣象數據在時間序列上的變化特征(取皖北各站點監測數據平均值),包括環境溫度、環境相對濕度、風瞬時向、瞬時風速、2 min平均風速、10 min平均風速在內的6類氣象數據。橫坐標為樣本點,采樣間隔為1 h。

圖1 各氣象變量的時間序列Fig.1 Time series of each meteorological variable
可以看出相對濕度基本維持在50%~95%,圖1(c)中的風向序列采用的是角度制(范圍是0~360°),由于地表建筑物遮擋較多且風速較慢(基本處于0~5 m/s的區間內)導致風向是時時刻刻在變化的,因此風向序列的波動性很強。
PCA是一種常用的數據分析算法[7],它可以將一組數據投射到一個低維空間中,從而實現數據維度的降低,減少計算量,提高計算效率。主成分分析通過正交變換[8-9],將原始特征(變量)轉換為新的特征(變量),使原始特征(變量)之間的關系最大化,從而實現對數據的降維。BP神經網絡內部結構由圖2中三層組成[10]。

X1~xn為模型的輸入變量;x1~xm為經過PCA模型降維后的變量;O1~On為模型最終輸出結果
(1)PCA模型對輸入的相關空氣污染物變量進行降維,將處理后輸出的變量輸入到下一層BP模型中并獲取空氣污染物變量的相關性[11]。
(2)通過神經網絡對空氣污染物變量數據進行分組處理,PCA模型中的輸出作為BP模型的輸入將樣本映射到隱藏層[12]。
(3)求解模型權值,根據輸出層輸出的結果對隱藏層的輸出權值做調整,權值w更新公式為
(1)
式(1)中:Wij為更新后的權值;wij為更新前的權值;η為學習速率;Hj為隱藏層輸出;xi為輸入空氣污染物變量;ωjk為隱藏層到輸出層的權重;ek為期望輸出與實際輸出的誤差[13]。
(4)將加權后的輸入數據代入模型獲取輸出層結果,直至ek<1%,學習結束。
通過主成分分析識別空氣質量與各類污染物的相關性,如圖3所示,采用皮爾遜(Pearson)相關系[14]數量化各變量之間的相關程度,其表達式為
(2)

圖3 2021年PM2.5與各影響因子相關性熱圖Fig.3 Heat map of correlation between PM2.5and impact factors in 2021
式(2)中:cov為兩變量的協方差;xfeatures和xvariable分別為特征變量PM2.5和各影響因子的數值;σfeature和σvariable分別為特征變量PM2.5和各影響因子的標準偏差。
通過圖3相關性熱圖可以看出,影響PM2.5最主要的因數是PM10、CO、NO2、SO2[15],而溫度等氣象數據相關系數極小且多為負相關,因此氣象因數對PM2.5的影響很小可以忽略。
在春、夏、秋、冬四季分布基礎上對與PM2.5相關性最強的PM10污染物濃度進行分析,建立PCA-BP神經網絡測模型[16]。污染物PM2.5與PM10的濃度變化如圖4所示,數據設置從2018年1月—2021年12月,通過對比發現PM2.5、PM10在這4年內呈現明顯周期性與季節性變化,兩種污染物濃度具有較強的線性相關性[17],在深色區域附近各類數值整體處于較高水平,該深色區域表示冬季。污染物濃度在一年的時間范圍內呈現U形變化規律,這與李名升等[18]研究中國城市PM10污染濃度季節變化得出的結論一致。PM2.5與PM10濃度值由高到低的順序為冬季、秋季、春季、夏季,反映二次污染物在秋冬季節的貢獻率較高, 這與張智勝等[19]的研究結果一致。

圖4 2018—2021年PM2.5與PM10濃度變化情況Fig.4 Changes in PM2.5 and PM10 concentrationsfrom 2018 to 2021


Output為預測值;Target為真實值;Y表示縱軸;T表示橫軸
結果表明,皖北地區的PM2.5濃度與氣象因數之間的關系較為簡單,沒有O3那種復雜的關系與不確定性,因此可以更容易、更準確地預測皖北地區PM2.5濃度。研究模型采用的評價指標(調整R2)解釋性強,均方根誤差RMSE誤差小,具有較高的精度以保障預測結果的適用性。
對于研究實驗中的皖北城市群,構建的PCA-BP模型在預測季節性PM2.5濃度的測試中,實現了75%以上精度的預測,該精度對于多數時間段是夠用的。
預測模型是對未知變量做估算,真實值與預測值的誤差越小,表明預測值越接近真實值。在表1中,對比不同季節的結果指標,可以清楚地看到,隨著訓練集比例的增加[20](依次選取80%、85%、90%,交叉驗證集與測試集始終按照剩余數據1∶1的比例分配)[21]模型預測結果的誤差有所降低,在夏季的預測誤差最低(RMSE為7.011)其次是秋季和春季(RMSE分別為11.004、13.471);冬季的預測誤差最高(RMSE為15.799)。在調整R2的評價標準下,夏、秋、冬季(調整R2百分比分別為95.8%、93.5%、92.4%)的結果也優于冬季(調整R2百分比為79.4%),前三季測試結果差距不大,冬季的誤差明顯大于前三組測試。

表1 皖北地區不同季節下預測模型結果Table 1 Prediction model results under different seasons in northern Anhui
通過分析2018—2021年皖北地區各城市在不同季節里PM2.5與其他各空氣污染物含量及氣象因數之間的關系,進行相關性模擬測試,獲得以下結論。
(1)在環境變量與氣象因數的基礎上通過主成分分析發現,氣象因數對PM2.5濃度的影響極小,而環境變量中的O3也與PM2.5濃度無關,據此模型的輸入刪去無關變量降低模型的運行成本,使得模型輸入的復雜度降低了63.6%。
(2)通過相關性分析發現,大氣中影響PM2.5濃度最重要的因子是PM10,該污染物含量與PM2.5、具有較強的線性關系,PM2.5含量在年初、年中、年末3個時間段最高,其中年初和年末階段達到頂峰。
(3)建立PCA-BP神經網絡預測模型對皖北地區四季的PM2.5含量預測,結果顯示,夏、秋、春三季(R2分別為0.958、0.935、0.924)的精度明顯要高于冬季(R2為0.794),誤差值RMSE分別為春(13.471)、夏(7.001)、秋(11.004)、冬(15.799),預測模型整體的性能表現良好,具有良好的解釋力。該模型仍有不足之處,如對于冬季的數據集模型性能偏低,將來的工作可以重點放在提升冬季預測的精度與進一步減小整體預測誤差上。