蘇筱倩,安俊琳*,張玉欣
基于支持向量機回歸和小波變換的O3預報方法
蘇筱倩1,安俊琳1*,張玉欣2
(1.南京信息工程大學,氣象災害教育部重點實驗室,氣候與環境變化國際合作聯合實驗室,氣象災害預報預警與評估協同創新中心,江蘇 南京 210044;2.青海省人工影響天氣辦公室,青海 西寧 810001)
使用南京工業區2016年6月1日~8月15日的臭氧(O3)、O3前體物及常規氣象數據,結合多元線性回歸(MLR)方法和小波變換(WT)改進支持向量機回歸(SVR)對O3小時濃度的預報精度.結果表明,通過WT方法將一個高變異性的序列轉化為多個低變異性的序列后再處理可提高預報精度,M-WT-SVR預報的決定系數(2)達到0.90,平均絕對誤差(MAE)、平均絕對百分誤差(MAPE)和均方根誤差(RMSE)分別為3.86×10-9、28.26%和5.57×10-9,優于M-SVR和SVR.低層細節序列主要與NO、NO2和芳香烴有關,而更高層的近似序列受到氣象條件、前體物和O3前期濃度共同影響.與經典的MLR方法相比,M-WT-SVR對O3小時濃度的預報有明顯優勢.
支持向量機回歸;小波變換;多元線性回歸;臭氧預報;臭氧小時濃度
近年來,隨著工商業的發展與汽車保有量的增加,近地面大氣中人為排放的氮氧化物(NO)[1-2]及揮發性有機物(VOCs)[3-4]日益上升,光化學煙霧[5]等復合型大氣污染問題正嚴重影響著人體健康[6-7]和生態環境[8-9].研究大氣污染物的預報方法,建立及時的大氣污染物預警機制,對改善城市的空氣質量,制定控制策略有重大的應用價值.O3濃度的預報涉及到非線性、強耦合和多變量等問題,基于污染變化機理和大量氣象、污染物排放源數據運作的數值預報將是一項十分復雜的系統工程.而傳統的統計預報方法如回歸模型[10-11]大多以線性回歸理論為基礎,難以適用于非線性、強耦合系統.近年來,隨著計算機技術的發展,人工智能與機器學習理論得到廣泛地研究和應用.神經網絡[12-13]、決策樹[14]和支持向量機(SVM)等基于統計理論的機器學習方法,在處理非線性問題時表現出優異的性能.
SVM遵循結構風險最小化原則,與遵循經驗風險最小化原則的傳統機器學習方法不同,SVM避免了過擬合、局部最優或局部優化能力差、調參困難與收斂慢等問題[15-16],需要調節的參數更少.近年來,支持向量機回歸(SVR)不僅用于預報太陽輻射[17]、云量[18]和能見度[19],還廣泛應用在預報大氣污染物濃度[20].有研究者比較了SVR與多層感知機(MLP)[21]、線性回歸模型[22]、向量自回歸模型(VARMA)和自回歸積分滑動平均模型(ARIMA)[23]等常用的統計預報模型,發現SVR對污染物的預報效果更優.Xu等[24]基于SVM開發了太原、重慶與哈爾濱3個城市的空氣質量預警系統,經比較,此系統的準確性和有效性均高于其現有的空氣質量預警結果.與眾多統計預報方法相比,SVR顯示出更多的可行性和優越性.
小波變換(WT)是從序列中提取時間和頻率信息的有用工具[25],已廣泛地應用于信息類學科.近年來,WT理論在大氣領域漸漸展現出強大的生命力[26-27].O3與前體物、氣象條件存在復雜的非線性響應關系[28],其時間序列具有非平穩、高變異性的特征,難以準確地預報.利用WT理論將高變異性的時間序列轉變成多個低變異性的子序列后進行預報具有明顯優勢.Farajzadeh等[29]將WT、自回歸積分滑動平均模型(ARIMA)與最小二乘支持向量機(LSSVM)結合進行降水量預報,發現W-S- LSSVM模型的性能比經典模型提高了約7%~ 8%.Dunea等[30]結合WT和前饋神經網絡(FANN)預報4種大氣污染物,發現組合模型優于單一FANN.對于大多數模型來說,WT方法是提高預報精度的有效途徑.
前人的研究顯示出SVR在回歸問題上的可行性,但對O3濃度預報的應用相對較少,且預報時多考慮氣象因素.與此同時,包括WT在內的多方法組合預報在各領域正成為一種趨勢.本研究在經典SVR方法的基礎上,綜合考慮氣象條件和包括NO、NO2、VOCs、CO在內的4種前體物,利用WT方法對O3濃度序列進行預處理,并采用多元線性回歸方法討論子序列的影響因素,以期為O3公眾預警預報提供一種改進方案與優化思路.
觀測站點位處江蘇省南京市浦口區南京信息工程大學氣象樓樓頂(32°12'N,118°42'E,海拔高度62m).站點東邊500m處為主干道寧六路和高架快速路;站點東北5km處為包括石油化工、鋼鐵廠和化工廠等在內的工業區;其西南900m處為龍王山風景區.常規氣象資料來源于距站點約1.5km的中國氣象局綜合觀測實習基地.站點具體位置見圖1.

圖1 觀測點的位置和附近環境
采用美國賽默飛世爾科技公司生產的大氣污染環境監測分析儀觀測O3、NO、NO2和CO,包括49i紫外發光O3分析儀,42i化學發光NO-NO2-NO分析儀及48i紅外吸收CO分析儀.NO-NO2-NO分析儀和CO分析儀的標定儀器為:動態氣體標準儀(Thermo 146i)與零空氣發生器(Thermo model 111),標準氣體均采用中國國家級標準物質中心制作.O3分析儀標定儀器為:49i-PS O3標定儀和零空氣發生器(Thermo model 111)儀器,采樣的時間分辨率均為5min.為保證數據的有效性和可靠性,觀測期間儀器每周進行一次校準.更詳細的儀器參數見文獻[31].
VOCs觀測采用由德國AMA公司生產的GC5000自動在線氣相色譜氫火焰離子監測系統(GC-FID)進行連續監測,檢測器均為氫火焰離子化檢測器(FID),采樣頻率為1h.儀器檢測C2~C12共計56種VOCs,包括29種烷烴、10種烯烴、16種芳香烴和1種炔烴.為了保證觀測數據的有效性和可靠性,觀測期間采用DIM200校準模塊和美國環保署認可的Linde Gas North Ameriea LLC標準氣體進行5點校準,校準時相關系數均在0. 995以上.更詳細的儀器參數可參見文獻[32].
研究時段為2016年6月1日~8月15日,期間有效數據為1436組,樣本數達到了SVR建模所需的特征量[22,33].為提高模型的泛化能力,選取各月約30%的數據作為預報集(具體為6月7~14日、7月10~13日、7月19~22日和8月5~8日),剩余時段的數據為訓練集.參與建模的氣象變量包括氣溫()、相對濕度(RH)、累積降水量()、風速()、紫外B波段輻射(UVB)和日照時數(SH),均為小時平均值.表示預報的時刻.O3及其前體物以體積分數(×10-9)表示,本文簡稱濃度.觀測的56種VOCs分成烷烴、烯烴、芳香烴和炔烴這4類進行討論,具體物種可參見文獻[34].
WT的思想始于20世紀初[35],是一種時間和頻率分析方法,可根據頻率直接分解信號.WT包括小波分解和重構2個階段.首先,原始時間序列可分解為一個近似序列和若干細節序列.然后,近似和細節序列被重構成原始序列.對于分解層數為的分解和重構:

式中:s是原始序列;an是近似序列,代表低頻部分;dj是第j層的細節序列,代表高頻部分.本質上,這是一個低頻序列隨n的增加不斷分解為低頻子序列和高頻子序列的過程(圖2).具體理論算法可參見文獻[36-37].
本研究使用MATLAB WT工具箱實現WT,其中需要設置的主要參數為小波類型和分解層數. He等[38]指出Daubechies 5(Db5)小波適用于大氣污染物的小波分解并表現出良好的性能,因此小波類型設置為Db5小波.而分解層數決定分解后線性部分和非線性部分的分離程度,若過大,會出現分解后線性程度最高的部分偏離真實值的線性特征較遠的情況,容易產生誤差的累積.本研究采用平滑測度Smooth確定分解層數.

式中:表示序列長度;表示分解層數;是原始序列;a是第層的近似序列.設置閾值,一般取0.005.當Smooth()£時,確定分解層數為.經計算, Smooth(5)=0.003,因此分解層數設置為5.
SVM是Vapnik[39]于1995年首次提出的機器學習方法,它遵循結構風險最小化原則,善于解決非線性、小樣本和高維模式識別問題,主要思想是把低維空間中的通過非線性函數映射到高維的特征空間(),在高維空間中建立線性回歸超平面,從而處理低維空間中的非線性問題.高維特征空間的線性函數可以表示為:


