董紅召,王樂恒,唐 偉,楊 強,佘翊妮 (.浙江工業大學,智能交通系統聯合研究所,浙江 杭州 004;.杭州市環境保護科學研究院,浙江 杭州 004;.杭州環研科技有限公司,浙江 杭州 004)
近年來,我國臭氧(O3)污染問題日益顯現,京津冀及周邊地區、長三角地區、汾渭平原等區域臭氧濃度呈上升趨勢,尤其是在夏秋季節已成為部分城市的首要污染物[1].臭氧作為氮氧化物(NOx)和揮發性有機物(VOCs)等污染物在大氣中發生光化學反應生成的二次污染物[2-5],對人體的心血管和呼吸系統具有強烈的刺激性作用,會導致多種疾病的發生[6-8].此外,臭氧還會對生態環境產生嚴重的危害.對臭氧污染的提前預測可以為政府實施環境管理決策提供依據.
臭氧濃度預測方法分為統計預測、數值預測兩大類[9].統計預測以歷史大氣污染物數據和氣象數據作為基礎,運用數學統計方法建立污染物預測模型.數值預測目前主要使用光化學網格模型WRFCMAQ(x)、WRF-Chem 等[10-12].相較于數值模型,統計預測模型構造簡單,數據資料要求較低,易于操作,因此在大氣污染物預測中應用廣泛[13-16].常用的統計預測方法有多元線性回歸、決策樹[17]、神經網絡[18]、支持向量機[19]等.丁愫等[17]利用決策樹算法建立臭氧濃度預測模型,并采用線性回歸集成方法進行預測修正,相關系數在0.5~0.64;梁卓然等[20]考慮環流因子與臭氧的關系,將客觀環流分析法與逐步回歸模型結合對臭氧日最大8h 平均濃度進行預測,可決系數R2達到0.75;Gao 等[21]利用人工神經網絡模型對臭氧濃度進行預測,R2達到0.73.目前統計預測方法在進行單站點預測時往往只采用該站點的大氣污染物歷史數據,并著重考慮臭氧與氣象因素的關系,忽略了臭氧污染的時空特征,即未考慮臭氧傳輸、擴散的區域性和在時間周期上的強自相關性的影響[22-24],預測精度仍存在較大的提升空間.
針對上述問題,提出一種融合時空特征的PCAPSO-SVM 臭氧組合預測模型.組合預測模型包括基于小波分析的臭氧時間序列變化的主周期獲取,和基于系統聚類的區域內站點臭氧濃度變化相似性分析及分類,并通過主成分分析(PCA)進行特征提取,獲取最優特征子集,將其輸入粒子群算法優化的支持向量機模型(PSO-SVM)開展對臭氧日最大8h 平均濃度預測,以期獲得更高的預測精度.

圖1 國控站點和氣象站位置分布Fig.1 Position of national atmospheric monitoring points and meteorological station
使用的大氣污染物濃度數據為2016~2018 年杭州市10 個環境空氣質量國控站點逐小時監測數據,主要污染因子為O3、PM2.5、PM10、CO、NO2監測濃度.計算臭氧日8h 平均濃度,篩選得到臭氧日最大8h 平均濃度ρ(O3-8h),將PM2.5、PM10、CO、NO2、O3-1h日均濃度定義為輔助大氣污染物濃度.氣象資料來源于杭州市地面氣象站,主要為與大氣污染物監測數據平行的逐時氣溫、氣壓、降水量、風速、相對濕度.選定2016 年1 月1 日~2018 年5 月31 日作為訓練樣本集,2018 年6 月1 日~2018 年9 月31日這一臭氧高值時段作為測試樣本集.
臭氧濃度變化受其前體物排放源、氣象、地形環境等多因素的綜合影響,具有高度復雜性、非線性的變化特征,采用傳統線性預測方法難以得到較好的預測效果.此外臭氧濃度影響特征較多且特征之間相關性較強,若將特征全輸入至預測模型中會加大模型訓練負擔、降低訓練效率.因此提出一種融合時空特征的PCA-PSO-SVM 組合預測模型,模型結構如圖2 所示.

圖2 組合預測模型結構Fig.2 Structure of the combining ozone prediction model
在特征獲取階段,考慮到臭氧時間序列存在強相關性和城市內臭氧變化的區域性[25-26],利用小波分析和系統聚類分析臭氧濃度變化規律和區域內站點的臭氧濃度空間分布的相似性關系,以獲得時空特征.小波分析是一種可應用于非平穩序列的時間-尺度分析方法,可以降低臭氧時間序列噪聲的影響,分析其隱藏的變化周期和規律[27-28];系統聚類通過距離準則評價樣本之間的相似性,并依據相似性對樣本分類,利用系統聚類方法可以有效地將臭氧濃度變化相似度高的國控站點歸為一類[29-30].
在建模預測階段,利用主成分分析方法將高維且相關性較強的臭氧濃度影響特征映射為低維且互不相關的主成分,消除臭氧影響特征之間的冗余性和相關性,從而獲得最優特征子集[31].支持向量機適用于解決非線性預測問題,因此可以運用于臭氧濃度預測,其構造高維特征空間的線性函數如下:

式中:x 為臭氧預測最優特征子集; f ( x) 為臭氧濃度預測值;ω 和b 分別為法向量和偏移量.通過引入拉格朗日乘子 αi和采用拉格朗日乘子法進行求解得到最優超平面的回歸函數:

式中: κ( x, xi)為核函數.選用徑向基核函數(Radial Basis Function,RBF)作為預測模型的核函數.
在基于徑向基核函數的SVM 預測模型中,懲罰系數C 與核參數γ 對其預測能力有直接的影響[32].粒子群算法是一種模仿鳥類覓食行為的優化算法,具有參數少、迭代簡單的優點,其核心思想是在規定的空間內,經過多次迭代,對粒子的速度和位置進行更新,來獲得最優的適應度值.粒子群算法的數學表達如下:


1)對初始樣本數據進行標準化處理.
2)利用小波分析對臭氧時間序列進行小波變換處理,獲取主周期N,提取tT?N~tT?1日待預測站點sj的臭氧濃度作為時間特征;通過系統聚類提取tT?1日的站點sj所屬集合內所有站點的臭氧濃度作為空間特征;對影響臭氧濃度變化的氣象、輔助大氣污染物因素進行相關性分析,獲取輔助特征.
3)通過主成分分析算法獲取臭氧的最優特征子集.
4)初始化粒子群算法(PSO)參數,隨機生成粒子的位置與速度,采用SVM 模型訓練,對參數( C, γ) 進行迭代尋優.
5)確定最優參數( C, γ) 代入SVM 模型,輸入測試集,輸出結果檢驗預測精度.

圖3 融合時空特征的PCA-PSO-SVM 組合模型預測流程Fig.3 Workflow of PCA-PSO-SVM ozone predicting method considering spatial-temporal features
為了檢驗預測模型的預測精度,通過平均絕對誤差(MAE)、均方根誤差(RMSE)、可決系數(R2)3個指標對預測結果進行評價,表達式如下:

2.1.1 時間特征分析 由圖4可見,2016~2018年杭州市臭氧日最大8h 平均濃度時間序列,如圖所示杭州市臭氧濃度變化具有明顯的季節性特征.對臭氧時間序列進行小波分析,并繪制小波系數實部圖和小波方差圖(圖5).小波系數實部圖中小波系數大代表臭氧濃度高,小波方差圖中波峰所對應的尺度可定義為臭氧的主周期.由圖5(b)可知,臭氧時間序列存在3 個震蕩周期,分別發生在70~90d、40~50d、10~20d,第一主周期為82d,第二、第三周期分別為43d、14d.3 個周期反映了臭氧時間序列的變化特征.結合圖6 可以看出,臭氧時間序列存在較強的自相關性,但當滯后天數大于30d 后,相關系數趨近于0,若將待預測日前82d 或前43d 的臭氧濃度序列作為時間特征輸入,會導致特征冗余.因此選擇預測日前14d 的臭氧濃度TIMEO3-8h(tT-1,T-2,…,T-N,Sj)共14 維向量作為時間特征輸入模型.

圖4 ρ(O3-8h)時間序列Fig.4 Time series of ρ(O3-8h)

圖5 臭氧時間序列小波系數實部圖與小波方差圖Fig.5 Real part and variance diagram of wavelet coefficients concerning ozone time series

圖6 臭氧時間序列時間滯后自相關系數Fig.6 Lagging self-correlation coefficient of ozone time series
2.1.2 空間特征分析 對杭州市10 個國控站點的臭氧日最大8h 平均濃度數據進行系統聚類,結果如圖7 所示.根據站點臭氧濃度的歐氏距離大小,將其劃分為類1(朝暉五區、和睦小學、浙江農大、城廂鎮、濱江)、類2(臨平鎮、下沙)、類3(臥龍橋、云棲、西溪).結合站點周邊環境和地理位置進行分析,類1 中的國控站點周邊環境皆為居民住宅區;類2 中的國控站點周邊存在較多工業區;類3 中臥龍橋、云棲站點位于西湖景區中,西溪站點位于西溪公園內,皆為景區站點,此外每一類中的站點距離相近,這表明周邊環境的不同會導致區域內臭氧濃度變化存在差異性,相近站點的臭氧濃度變化會存在較高的相似性.在建立預測模型時,將tT?1日的與待預測站點同一類站點的臭氧濃度序列SPAO3-8h( tT?1, Sh)作為空間特征輸入.

圖7 ρ(O3-8h)聚類分析Fig.7 Cluster analysis tree of ρ(O3-8h)
2.1.3 輔助特征分析 表1、表2 分別為臭氧與氣象因素、輔助大氣污染物的相關性統計.由表1 可知,溫度與臭氧呈正相關,且相關系數較大,溫度升高導致光化學反應增強,從而造成O3濃度升高[33].氣壓和濕度與臭氧濃度呈顯著負相關,高濕度的環境易遏制臭氧污染的產生[34],降水與風對臭氧存在清除作用,與臭氧呈負相關[35].
由臭氧與輔助大氣污染物日平均濃度的相關性統計可以看出臭氧與輔助大氣污染物皆為負相關,由于NO2作為臭氧形成的前體物,通過光化學反應生成臭氧[22],與臭氧濃度呈負相關.高濃度的PM2.5和PM10會導致氣溶膠光學厚度增大,降低了O3光化學速率,減少O3的形成,因此也和臭氧濃度呈負相關[36].綜上所述,在建立預測模型時,選擇將tT-1日的待預測站點的輔助大氣污染物濃度和tT日的氣象預報數據共10 維向量作為輔助特征輸入模型.

表1 ρ(O3-8h)與氣象因素相關性統計Table 1 Correlation statistics between ρ(O3-8h) and meteorological factors

表2 ρ(O3-8h)與輔助大氣污染物相關性統計Table 2 Correlation statistics between ρ(O3-8h) and air pollutants
以朝暉五區(類1)、下沙(類2)、西溪(類3)3 個不同類的國控站點為例,結合時間特征、空間特征、輔助特征構建初始特征集,通過PCA 算法進行特征降維,結果如表3 所示.
對3 個站點的初始特征集進行KMO 檢驗,結果均大于0.9,表明特征之間存在較強的相關性,很適合主成分分析[25].通過主成分分析,分別從3 個監測站的初始特征集中提取到11、12、12 個主成分,且主成分的累積方差貢獻率皆超過90%,表明所提取的主成分可以有效反映原特征集的信息,因此將提取到的主成分作為3 個最優特征子集,輸入PSO-SVM模型.

表3 典型站點PCA 降維結果Table 3 Dimension reducing outcome of the typical stations by PCA method
為檢驗PCA-PSO-SVM 模型建模時輸入時間特征和空間特征能否提升待預測站點的預測精度,建立未融合時空特征的傳統PCA-PSO-SVM 模型(僅采用待預測站點t T?1 日臭氧日最大8h 平均濃度和輔助特征構建特征集)進行預測精度對比.采用殘差(真實值與預測值的差值)評價模型的預測效果,結果如圖8 所示.

圖8 四種PCA-PSO-SVM 模型部分樣本殘差比較Fig.8 Prediction difference comparing among four PCA-PSO-SVM models
由圖8 三個站點的預測結果可知,融合時空特征的PCA-PSO-SVM 組合預測模型預測值與真實值波動較為符合,其殘差在零值附近波動且波動范圍較小,不易出現突變值,相較于另外3 個模型預測效果最優,而傳統PCA-PSO-SVM 模型突變值較多,預測效果較差.建模時加入時間特征可以使傳統模型學習臭氧濃度變化趨勢,加入空間特征可以使傳統模型結合臭氧濃度區域性變化的影響,皆可以提升傳統模型的預測精度.以3 種評價指標對四種模型進行評價,如表4 所示.3 個站點的融合時空特征PCA-PSO-SVM 組合模型的RMSE 均值為22.1μg/m3,相較于傳統PCA-PSO-SVM 模型預測精度提升19%,這表明在模型構建時融合時空特征可以有效地提升預測精度.

表4 四種PCA-PSO-SVM 模型預測效果對比Table 4 Comparison of predicting outcome of four PCA-PSO-SVM models
為檢驗融合時空特征的PCA-PSO-SVM 組合模型的適用性及PCA、PSO 算法對SVM 模型的優化效果,對10 個國控站點皆進行預測實驗,并以RMSE、R2兩個評價指標對預測結果進行評價并繪圖,如圖9 所示.從3 種模型(SVM、PSO-SVM 和PCA-PSO-SVM)預測結果來看,PCA-PSO-SVM模型的預測精度最高,PSO-SVM 模型次之,SVM 模型預測效果最差.這說明通過PSO 算法對SVM 模型的核參數準確尋優和PCA 算法對初始樣本集的特征降維,可以有效提升模型的預測精度.系統聚類分析表明,類1、類2、類3 的站點的監測區域分別為居民區、工業區、景區.由10 個國控站點的預測結果可知,預測模型對居民區、景區站點的預測結果優于工業區的站點,可能是因為杭州東部經濟技術開發區、蕭山區、大江東地區的工業企業排放較多臭氧前體物[37],致使站點臭氧濃度波動較大,且工業區的站點數量僅有2 個,模型對空間特征獲取有限,從而影響預測效果.融合時空特征的PCAPSO-SVM 組合模型在10 個站點的RMSE 均值為22.8μg/m3,R2皆高于0.75,表明該模型在不同類型的區域內皆可以較好地模擬臭氧濃度的變化情況.當前上海市應用的臭氧數值預測模型WRF-Chem對臭氧日最大8h 平均濃度預測的RMSE 值達到31.2μg/m3[38],對比而言,提出的臭氧預測模型有更高的預測精度.

圖9 融合時空特征的3 種預測模型RMSE、R2 比較Fig.9 RMSE, R2 comparing among three predict models considering spatial-temporal features

圖10 10 個站點超標天累計和融合時空特征的3 種模型預測準確率比較Fig.10 The number of days exceeding the standard and the comparison of prediction accuracy among three models for the ten stations
臭氧濃度高值預測的準確性也是衡量模型預測能力的一個重要指標.根據國家標準[39],當臭氧日8h 平均濃度大于160μg/m3和215μg/m3,分別為臭氧濃度超標和其IAQI 污染等級達到中度污染.為評價融合時空特征的PCA-PSO-SVM 組合模型的臭氧高值預警能力,統計2018 年6~9 月各個國控站點臭氧超標和達到中度及以上污染天數,采用準確率P評價3 種模型的臭氧高值預測準確性,其計算公式如下:

式中:TN 為臭氧高值預測正確天數;TF 為臭氧高值預測失敗天數.
各個國控站點超標天數累和及融合時空特征的3 種模型預測準確率如圖10 所示.由圖可知2018年6~9 月各站點臭氧超標天數累和分布在27~45d.景區站點的臭氧超標天數均值為31d,低于居民區站點和工業區站點,主要是因為景區站點周邊存在較少臭氧前體物排放源.PCA-PSO-SVM 模型在10 個站點的臭氧超標預測準確率皆高于PSO-SVM 模型和 SVM 模型,結合表 5 可知融合時空特征的PCA-PSO-SVM 模型對臭氧超標預測的準確率皆高于79%,且對10 個站點中度及以上污染等級的預測平均準確率達到68%,表明該模型可以較好地實現臭氧超標預警,具有較好的適用性.

表5 融合時空特征的PCA-PSO-SVM 模型預測準確率統計Table 5 Statistics of prediction accuracy of PCA-PSO-SVM model considering spatial-temporal features
采用氣象預報數據作為統計預測模型的部分輸入對大氣污染物進行預測,可以獲得更好的預測效果[40-41].而實際應用中,氣象預報數據往往與氣象要素實測值存在誤差,因此分析融合時空特征的PCA-PSO-SVM 組合模型對氣象數據誤差的敏感性是有意義的.依據現有研究選取影響臭氧濃度的主要氣象因素:溫度、相對濕度和風速進行誤差敏感性分析[5,17,42-43].將測試集中的上述氣象要素數據按下式設置不同尺度的隨機誤差來模擬預測誤差,再輸入模型得到預測結果.

式中:Met 為測試集中原始氣象數據;Met′為經過誤差模擬后的氣象數據; U ( ?λ , λ)為均勻分布隨機數,λ 為誤差尺度,由于實際氣象要素預測中3 個氣象要素的預測精度存在差異[44-45],因此設定3 組模擬隨機誤差實驗,不同的氣象要素設置對應的誤差尺度,如表6 所示.考慮到部分相對濕度高值經過放大后會超過100%,設定相對濕度放大閾值為98%.
表7 為融合時空特征的PCA-PSO-SVM 組合模型誤差敏感性分析結果,采用RMSE、臭氧超標預測準確率兩個指標評價模型的預測效果.由表可知,當氣象要素的誤差尺度較低時,模型對誤差的敏感性較低,對臭氧超標預測的準確率保持在76%.當誤差較大(誤差尺度為 λ3),模型的RMSE 均值雖達到28.8μg/m3,但其準確率仍高于70%,具有一定的預測效果.為評價3 個氣象要素各自對模型預測精度的重要性,分別對溫度、相對濕度、風速進行10%尺度的隨機誤差變換并輸入模型,得到影響權重分布:溫度對模型預測精度的影響最大,權重達到0.58,相對濕度次之,權重為0.29,風速影響最小,權重為0.13.現有研究表明對時效24 小時的溫度預報誤差可達到1℃~2℃[46],即融合時空特征的PCA-PSO-SVM 組合模型在當前的氣象預報精度下可以較好地實現對臭氧污染的預測.

表6 氣象參數誤差尺度設置(%)Table 6 Error scale setting of meteorological elements(%)

表7 不同誤差尺度下模型預測敏感性Table 7 Predicting sensitivity of the model in case of different error scales
3.1 杭州市臭氧日最大8h 平均濃度存在顯著的周期性變化;周邊環境的不同會導致區域內臭氧濃度變化存在差異性,相近的站點的臭氧濃度變化會存在較高的相似性.
3.2 主成分分析可以有效消除特征之間的相關性和減少特征數量,提高預測精度.
3.3 融合時空特征的PCA-PSO-SVM 組合模型具有更好的預測精度和良好的適用性, 對臭氧超標預測的準確率高于0.79,與傳統PCA-PSO-SVM 模型預測結果相比,精度提升19%.
3.4 氣象因素中溫度對臭氧預測效果影響最大,當氣象預報數據存在誤差時,融合時空特征的PCAPSO-SVM 組合模型仍有較好的預測效果.