孟春陽 謝劭峰 魏朋志 唐友兵 張亞博 熊 思
1 桂林理工大學測繪地理信息學院,桂林市雁山街319號,541006 2 湖北科技學院資源環境科學與工程學院,湖北省咸寧市咸寧大道88號,437100
大氣顆粒物PM2.5能夠深入人體肺部,損害肺功能[1]。楊忠等[2]使用粒子群優化算法(particle swarm optimization,PSO)對支持向量回歸模型進行優化,并結合加權因子進行PM2.5預測;李建更等[3]通過建立互補集合經驗模態分解(complementary ensemble empirical mode decomposition, CEEMD)和支持向量回歸的組合模型(CEEMD-SVR)預測PM2.5濃度;謝劭峰等[4]使用WPA(wolf pack algorithm)和WOA(whale optimization algorithm)2種算法對BP神經網絡模型進行優化;Chen等[5]使用SVR與Elman結合的方法對武漢的PM2.5濃度進行預測,并與多元線性回歸、BP神經網絡、SVR模型預測結果進行對比;王勇等[6]根據PWV與ZTD之間的聯系探究ZTD與PM2.5的相關性;查艷芳[7]使用優化后的灰狼算法(grey wolf optimize,GWO)對支持向量回歸模型進行優化,使用武漢市的日均大氣污染物及氣象數據等建立模型,對PM2.5濃度進行預測。
上述研究均采用模型優化或結合大氣污染資料、氣象資料、PWV、ZTD等多方面因素對PM2.5濃度進行建模預測,結果表現良好,但多數研究僅針對單一城市的空氣質量進行預測,未考慮到模型在不同城市的適用性。相較于BP及其優化模型,SVR及其優化模型的性能更佳,對于高維數據問題具有更強的處理能力[8]。
考慮到不同海拔城市PM2.5濃度存在差異,且相較于春、夏、秋3個季節,冬季的PM2.5濃度波動幅度較大、受影響因素較多、預測難度較大,因此本文結合冬季的大氣污染物、氣象因素、ZTD的小時數據資料,選取SVR及其優化模型預測5個不同海拔城市的PM2.5濃度變化情況。
SVR模型的基本思路是:將與預測變量非線性相關的原始輸入空間通過非線性映射函數(核函數)映射到高維特征空間上,得到一個盡可能適合擬合訓練集樣本的模型。常用的方法是在樣本標簽和模型預測值之間構造一個損失函數,通過最小化損失函數確定函數模型。建立一個考慮輸出向量的數據集,SVR的目標是基于給定的數據集S找到多元回歸函數來預測未知物體的期望輸出性質。SVR模型如下[9]:
(1)

灰狼優化算法GWO通過模擬灰狼的狩獵過程搜索代理獲取最優值,尋找到灰狼捕獵時的最優位置,從而計算得到最佳參數[10]。將參數代入SVR模型中建立GWO-SVR模型,獲取最優值的具體過程如下。
1)灰狼首先對獵物進行追蹤、包圍:
(2)
2)通過騷擾讓獵物停止移動,對獵物發動攻擊:
(3)

鯨魚優化算法WOA通過模擬鯨魚搜索、合圍及狩獵等一系列行為在全局中尋找到最優值,進而輸出全局最優個體[11]。將最優參數代入SVR模型建立WOA-SVR模型,具體過程如下。
1)識別獵物的位置,對獵物進行合圍:
(4)
2)通過螺旋搜索,采用環形游動噴出氣泡來驅趕獵物,最后游向水面捕食獵物:
(5)

天鷹算法AO是根據天鷹在捕食獵物過程中的自然行為提出的一種基于種群的優化方法[12],可以用來搜索模型的最優參數。天鷹狩獵可分為4種方式,具體過程如下。
1)識別獵物區域,采用垂直彎腰高飛的方式選取最佳狩獵區域,進行攻擊:
(XM(t)-Xbest(t)×rand)
(6)
2)從高空發現獵物區域,在獵物區域的上方盤旋,使用短滑翔攻擊的輪廓飛行:
X2(t+1)=Xbest(t)×Levy(D)+
XR(t)+(y-x)×rand
(7)
3)確定獵物區域,準備好著陸和攻擊后采用低飛慢降攻擊:
X3(t+1)=(Xbest(t)-XM(t))×α-
rand+((UB-LB)×rand+LB)×δ
(8)
4)當天鷹接近獵物時,會根據獵物的隨機移動規律在陸地行走并抓住獵物:
X4(t+1)=QF×Xbest(t)-(G1×X(t)×
rand)-G2×Levy(D)+rand×G1
(9)
式中,X1,2,3,4(t+1)為下一次迭代t的解,Xbest(t)為最佳解,XM(t)為位置均值,rand為[0,1]的隨機值,Levy(D)為飛行分布函數,XR(t)為[1,N]的隨機解,UB為上界,LB為下界,QF為質量函數,G1、G2為跟蹤獵物時的各種運動,X(t)為第t次迭代時的當前解。
根據目標需要選擇算法捕獲最優參數,將最優參數代入SVR模型中建立AO-SVR模型。AO算法優化SVR模型的基本步驟如下:
1)導入并讀取數據,進行數據預處理,初步建立SVR模型。
2)初始化天鷹算法的種群數量及其迭代次數,確認懲罰參數C和核懲罰參數g的取值范圍。
3)依據天鷹捕獵的4種方法選取最優的適應度函數,并作為天鷹捕獵時與獵物的最佳距離,通過搜索確定天鷹捕獵的最佳位置。
4)根據天鷹捕獵所在的最優位置,獲取最優的懲罰參數和核懲罰參數。
5)將獲取到的最優參數值加入到SVR中,通過多次訓練,確定最終優化的SVR預測模型。
6)將測試數據分為訓練集和預測集導入到優化后的AO-SVR模型中,將結果與預測集進行對比,分析模型具體誤差。
AO-SVR算法流程見圖1。

圖1 AO-SVR算法流程Fig.1 AO-SVR algorithm flow chart
各個城市間的PM2.5濃度具有時空差異性,通常會隨海拔的升高而降低,且東部、北部城市的PM2.5濃度通常高于西部、南部城市[13]。本文選取海拔呈遞減趨勢的拉薩(3 656 m)、烏魯木齊(918 m)、長春(237 m)、武漢(35 m)、上海(5 m)等5個城市作為實驗對象。由于PM2.5濃度在冬季波動最大,因此選取2020-01的數據進行建模。使用的數據主要包括:SO2、NO2、CO、O3、PM10及PM2.5的逐小時大氣污染物濃度數據;氣溫、氣壓、相對濕度、風級的逐小時氣象數據;IGS提供的逐小時ZTD數據。為確定各要素與PM2.5之間的相關性,通過SPSS軟件對大氣污染物、氣象因素及ZTD數據進行相關性分析,使用Spearman相關系數進行計算,結果見表1和表2。

表1 PM2.5與大氣污染物相關性Tab.1 Correlation of PM2.5 and atmospheric pollutants

表2 PM2.5與氣象因素及ZTD相關性Tab.2 Correlation of PM2.5 and meteorological factors and ZTD
由表1和表2可知,5個城市的PM2.5與PM10、SO2、NO2、CO、相對濕度、氣壓基本呈正相關,與O3、溫度、風級基本呈負相關;PM2.5與拉薩、武漢的ZTD呈正相關,與烏魯木齊、長春、上海的ZTD呈負相關。PM2.5與空氣污染物、氣象因素及ZTD的相關性顯著,在對PM2.5濃度進行建模預測時,可將上述因子作為預測輸入。
為探究不同海拔的5個城市在2020-01的PM2.5濃度變化趨勢,將5個城市PM2.5濃度小時數據組成一個連續時間序列進行整體變化趨勢對比(圖2)。

圖2 PM2.5變化趨勢Fig.2 Variation trend of PM2.5
由圖2可知,在1月份供暖期間,拉薩的PM2.5濃度為0~75 μg/m3,空氣質量良好;烏魯木齊、長春的PM2.5濃度波動較大,整體濃度偏高,可能是因為2020-01疫情嚴重,人流量及車流量均有所降低,但供暖及用電量高于往常年份,導致PM2.5濃度整體偏高;該時段內武漢疫情封城,PM2.5濃度降低,短時期內空氣質量得到改善;上海在疫情影響下人流量及車流量有所減少,且1月中有19 d降雨,極大改善了空氣質量。烏魯木齊、長春的海拔高于武漢、上海,但在疫情、供暖、天氣等因素的影響下,烏魯木齊、長春的PM2.5濃度均高于武漢和上海,且波動變化更為劇烈,說明在冬季僅依靠海拔高低無法準確判斷PM2.5的變化趨勢。通過模型預測不同海拔的城市在冬季的PM2.5濃度變化,能為PM2.5濃度預測及其變化趨勢研究提供借鑒,對未來空氣環境治理也具有指導意義。
分別采用SVR、GWO-SVR、WOA-SVR和 AO-SVR四種回歸模型對5個城市2020-01的PM2.5濃度進行預測,選取表1、2中各城市在 0.01 級別相關性顯著的因素作為因子集,預測模型中每種因子采用的時間長度完全一致,數據采樣率為1 h。各城市1月份的樣本數據集長度均為744 h,選取前720 h的數據作為訓練樣本集,后24 h作為校驗樣本集,使用訓練樣本集進行建模,將模型預測的24 h PM2.5數據與校驗樣本集PM2.5數據進行分析對比。
5個城市4種模型的預測結果與預測相對誤差絕對值見圖3、4。

圖3 2020-01-31預測結果Fig.3 Prediction results of January 31, 2020
由圖3可見,4種模型的預測結果與觀測值之間具有相似的變化趨勢,但相較于基礎SVR模型,優化后的SVR模型預測結果的整體趨勢更優,其中AO-SVR模型最貼近實際觀測值。從2020-01-31的數據可以看出,拉薩全天PM2.5濃度均為優;烏魯木齊、長春PM2.5濃度在10:00開始降低并在15:00左右開始回升,其中,長春的回升幅度更明顯,PM2.5濃度在晚間突破240 μg/m3。查詢資料可知,長春常住人口遠多于烏魯木齊,且疫情階段居家人數增多,供暖需求加大,導致污染加重;武漢、上海在疫情的影響下,人流量和車流量有所減少,但人均用電量增加,使得PM2.5濃度值并未出現大幅度降低,均呈現升-降-升的變化趨勢。由圖4可見,模型預測的相對誤差隨時間的增長不斷增加,SVR模型相對誤差的增大趨勢最顯著,在拉薩和上海2市共有7 h的誤差比例超過40%。WOA-SVR模型的誤差比例基本低于GWO-SVR模型,AO-SVR模型相對誤差變化趨勢表現最好,整體趨勢隨時間的增長而降低,在烏魯木齊的24:00,相對誤差比例僅為0.04%。

圖4 2020-01-31相對誤差Fig.4 The relative error of January 31, 2020
為更好地展示模型的預測結果,采用RMSE、MAE和MAPE來判斷模型的適用性、對比模型的預測精度,各模型預測精度結果見表3:

表3 各模型預測精度對比Tab.3 Comparison of prediction accuracy of each model
(10)

由表3可知,對于海拔不同的5個城市,4種模型的適用性均表現良好,但GWO-SVR、WOA-SVR、AO-SVR模型的RMSE要顯著低于SVR模型,說明3種算法對于SVR模型都有一定程度的優化,使得誤差的離散性減小。由RMSE可以看出,AO-SVR模型的效果最好,相比于SVR模型,拉薩、烏魯木齊、長春、武漢和上海的RMSE分別提高33.9%、56.3%、56.2%、63.8%和68.1%,其中上海市的優化程度最高。從5個城市的MAE和MAPE指標來看,GWO-SVR、WOA-SVR、AO-SVR模型對于SVR模型均有一定程度的提升,WOA-SVR模型的優化效果要稍優于GWO-SVR,其中上海的優化程度最明顯。相比于SVR模型,GWO-SVR與WOA-SVR模型的MAE指標分別提高54.0%和61.0%,MAPE指標分別提高61.6%和68.7%。由整體數據可知,AO-SVR模型在5個城市的PM2.5預測中表現最為出色,相比于SVR模型,AO-SVR模型的MAE和MAPE在拉薩提高32.4%和38.4%,在烏魯木齊提高58.5%和58.8%,在長春提高57.1%和46.1%,在武漢提高60.6%和58.3%,在上海提高75.3%和77.0%。由此可見,相較于SVR模型,AO-SVR模型在5個城市的PM2.5預測精度均有所提升,武漢、上海的MAE和MAPE提高最多,可能是由于烏魯木齊、長春的數據波動幅度相對較大,數據的穩定性以及整體水平對模型預測精度存在一定程度的影響。通過圖2、3和表3可知,相比于SVR模型,GWO-SVR、WOA-SVR、AO-SVR模型預測精度均有明顯改善;AO-SVR模型在4個模型中的預測值最貼合實際觀測值,在多種因素的影響下,表現出較為優秀的適用性,能展現不同海拔城市冬季PM2.5的趨勢變化規律。
本文基于5個不同海拔城市的2020-01大氣污染物、氣象因素以及ZTD的小時數據,利用SVR、GWO-SVR、WOA-SVR、AO-SVR四種模型對PM2.5濃度進行預測和對比。實驗結果表明,AO-SVR模型的預測結果整體精度最高,且對于不同海拔城市PM2.5濃度變化的預測均有很好的適用性。
本文僅預測了不同海拔城市24 h的 PM2.5濃度變化,后續可考慮增加數據量并增加預測時長,對不同海拔城市的PM2.5濃度變化趨勢作更深入的探究。