許 睿,梁 爽,萬 航,文益民,沈世銘,李 建
(1.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004;2.南方海洋科學與工程廣東省實驗室(廣州),廣州 511458;3.衛星導航定位與位置服務國家地方聯合工程研究中心(桂林電子科技大學),廣西 桂林 541004)
實現經濟和環境協同發展已經成為全球關注的熱點,而大氣環境污染是目前主要的環境問題之一。造成環境污染的細顆粒物種類眾多,主要包括氮氧化物、硫氧化物、臭氧、一氧化碳等。大氣污染物濃度監測是環境治理的一個重要手段,不僅可以識別大氣中的污染物質,還能掌握其分布和擴散規律,監視大氣污染源的排放和控制情況。大氣污染物濃度預測方法特點對比如表1 所示。在眾多的污染物濃度預測方法中,基于深度學習的方法以其學習能力強、適應性強、可移植性好以及準確率高等特點被廣泛應用。本文考慮結合股票預測中廣泛使用的K 線圖技術分析方法,充分挖掘PM2.5(大氣細顆粒物污染)濃度擴散數據,以有效提取大氣污染物擴散過程特征。

表1 大氣污染物濃度預測方法特性對比Tab.1 Comparison of characteristics of air pollutant concentration prediction methods
本文提出了一種基于燭臺圖(Candlestick Chart,也稱作K 線圖)表示的卷積神經網絡(Convolutional Neural Network,CNN)提取大氣污染數值序列特征——基于燭臺圖模式匹配(Candlestick Pattern Matching,CPM)的PM2.5擴散特征提取方法,通過聚類分析網絡中燭臺圖的特征判斷將會發生的趨勢反轉情況。燭臺圖被廣泛應用在股票市場用來記錄和預測價格走勢,燭臺圖分析技術的使用解決了非線性數據龐大無章的問題,同時保留了數據的語義關系。本文在引入燭臺圖的基礎上,使用在深度學習領域廣泛應用的VGG(Visual Geometry Group)網絡提取污染物濃度變化特征,并對最終走勢進行預測。實驗結果表明:本文的預測方法可以有效提取PM2.5趨勢特征,驗證了基于CPM 的方法在預測未來污染物濃度周期變化時的有效性。
隨著當今世界經濟的發展,人們對環境污染的問題也越來越重視,PM2.5已成為大氣污染與擴散領域的重點研究對象。一個旨在預測空氣質量變化的模型,不僅要充分考慮多種復雜因素的影響,如氣候、交通、地形地貌、理化過程等,還需要充分保護數據的原始性,并考慮污染物濃度擴散的全局趨勢以及局部變化特征。因此,將單純時序數據與大氣污染物擴散過程相對應,充分提取變化特征的研究具備實用性和學術價值。
目前針對污染物濃度數據的分析中,利用傳統的物理模型以及人工神經網絡等各類方法對空氣質量指標未來走勢進行分析是大氣環境監測領域的一個重要方向。例如,Zhang 等[1]全面評估了具有在線耦合氣象-化學的三維實時空氣質量預測(3-D Real-Time Air Quality Forecasting,3-D RT-AQF)模型;李威凌等[2]分別采用高斯模型和空間插值法對空間擴散情況進行模擬;Sun 等[3]提出了一種混合深度空氣質量 預測模 型(Mixing Depth Air Quality Prediction,HDAQP)來預測空氣質量指標。現在基于人工神經網絡的預測方法中,普遍集中在將初始處理的數據預處理成各種維度的數據向量后作為神經網絡的輸入樣本。這些方法在對初始數據進行處理,或對輸入數據的維度進行確定時,都對最原始的數據進行了改變和篩選,限定了原始數據呈現特征的形式,可能損失很多隱藏信息。
在眾多的數據分析方法中,燭臺圖被認為是能夠最好保存時序數據指標的一種形式,燭臺圖模式對應數據走勢中的濃度變化。例如,Takeuchi 等[4]設計了改良的K 線;Li 等[5]將壓力模式定義為一系列燭臺圖;魏連江等[6]從K 線圖角度對瓦斯異常模式進行研究。但是,K 線圖對各類紛繁復雜的分析規則的應用主要依賴分析者個人的經驗,因此利用科學統計的方法真正抓住K 線圖中預測漲跌的特征信號顯得尤為重要。
隨著深度學習研究的日益發展,CNN 在圖片識別領域的應用取得了巨大成就。例如,Hu 等[7]將深度學習方法(卷積自動編碼器)與K 線圖分析技術相結合并應用在股票分析中;Chen 等[8]使 用CNN 和格拉 姆角場(Gramian Angular Field,GAF)圖像捕獲了8 種主要的燭臺形式;Huang 等[9]通過閱讀燭臺圖表而不是財務報告中的數值來預測價格走勢;張智軍等[10]則將含有需要識別的金融K 線形態圖像和該形態對應的坐標作為神經網絡的輸入。通過深度學習算法在K 線形態圖像識別的應用,不僅克服了現有時間序列數據量化程序難以表達分析師根據經驗得到的K 線形態特征的問題,還能自主學習那些需要被識別的K 線形態后再用于包含K 線形態特征的實時圖像識別中。
在將神經網絡應用于大氣質量預測時,現有研究多集中于采集監測站中各種維度和各種頻率的數據,然后進行插值和剔除等預處理,之后再輸入到深度神經網絡進行學習訓練[11],但少有方法能將原始數據不經破壞地保留下來。部分學者已經嘗試在各個領域將圖像分析方法和人工神經網絡相結合,但還未單獨考慮神經網絡對于燭臺圖的識別分類問題[12-14],沒有將此技術分析方法應用到大氣環境領域。因此,本文將K 線分析技術與CNN 相結合,探討由PM2.5生成的燭臺圖所包含的可以預測未來濃度變化的信息。
污染物濃度序列種類繁多,具有動態、非線性、混亂等特點,是大氣環境技術分析與量化投資領域的重要研究內容。從海量的歷史污染物時間序列數據中,表征并捕獲某種特征的擴散過程,是構建神經網絡模型的基礎[15-17]。本次研究采用桂林市大氣質量在線監測站的監測數據,如圖1 所示。桂林地處中國華南,由于桂林特有的氣象和地形條件,市區PM2.5擴散十分緩慢。燭臺圖的生成需要泄放時間較長的連續泄漏型數據,這使K 線圖像分析技術在大氣環境領域的應用變得合理。這種泄放時間較長的連續型數據恰好利于燭臺圖的生成以及變化特征的提取,為后續大氣污染物濃度的預測提供數據基礎。

圖1 桂林市大氣質量在線監測站分布Fig.1 Distribution of air quality online monitoring stations in Guilin
本文結合在股票價格預測中廣泛使用的分析方法與深度學習技術來預測PM2.5在桂林市的濃度水平變化。在傳統的燭臺圖表分析中,總會根據一些特殊燭臺圖表或趨勢反轉信號的出現來判斷趨勢變化。然而,不同的站點會有不同的濃度變化機制,當帶有趨勢反轉信號的燭臺圖出現時,當前污染物的濃度變化將會繼續或是反轉,這取決于站點對污染物濃度的擴散模式[18-20]。因此,需要找出污染物濃度的擴散模式,以幫助預測具體的濃度改變數值。
在燭臺圖聚類分析和污染物濃度擴散機制相互聯系的基礎上,基于燭臺圖模式匹配(CPM)的大氣質量預測框架如圖2 所示,主要流程包括數據采集與預處理、特征提取與燭臺圖生成、模式匹配、趨勢預測和結果分析。

圖2 基于CPM的大氣質量預測框架Fig.2 Air quality prediction framework based on CPM
PM2.5濃度K 線圖中主要包括4 類數據,即起始值(First)、最高值(Highest)、最低值(Lowest)、結束值(Last)。PM2.5濃度擴散規律也是圍繞這4 個數據進行研究。圖3 中展示了污染物1 天內的變化信息,以及PM2.5濃度的燭臺圖對應過程。

圖3 1天中PM2.5濃度變化與對應的燭臺圖Fig.3 Candlestick chart corresponding to PM2.5 concentration change in one day
為了建立一個明確的參考模型用于對未來模式研究進行合理分類,Hu 等[21]提出了103 個已知燭臺圖案的綜合形式規范。根據繪圖規則,兩種基本的燭臺形狀如圖4 所示,所有可能存在燭臺圖的形狀如圖5。

圖4 兩種基本的濃度燭臺圖形狀Fig.4 Two basic concentration candlestick charts

圖5 12種類別燭臺圖Fig.5 Twelve types of candlestick charts
每一天內的濃度波動信息都通過5 個基本特征來描述,將污染物濃度擴散過程定義為一系列的燭臺圖表,然后進行濃度匹配,預測當前污染物趨勢發生逆轉還是保持不變。
3.3.1 濃度燭臺圖的特征描述
污染物濃度燭臺圖特征向量表示為:
通過從燭臺圖中提取5 個不同且有實際意義的特征fi1,fi2,…,fi5來反映1 天內整體的濃度情況,分別對應以下特征:
1)類別特征(Category Shape):通過區分濃度的升降、實體的有無、上下影線的有無,燭臺圖被定義為12 種不同的形狀,類別特征表示為CShape∈{1,2,…,12}。
2)實體特征(Entity Features Length):在燭臺圖中,實體的長短表征著污染物濃度上升/下降的強度,較長實體的燭臺表征明顯的增加/減少的趨勢。實體特征的計算方法為:
其中:Openi為第i天起始濃度值,Closei為第i天結束濃度值。
3)上影線特征(Upper Hatch Feature Length):具有較長上影線的濃度燭臺圖表示濃度趨勢下降的幅度很明顯,甚至在下一個時間間隔內,持續下降的可能性更大。上影線的計算方法為:
其中:Highi為第i天最高濃度值。
4)下影線特征(Undercut Feature Length):具有較長下影線的濃度燭臺圖表示濃度趨勢上升的信號很強烈,這將導致下一個時間點濃度的增加。下影線的計算公式為:
其中:Lowi為第i天最低濃度值。
5)變化率特征(Rate Change):比較兩個相鄰位置的燭臺圖,計算出平均濃度變化趨勢的信息,來鎖定對當前時刻有用的污染物濃度模式。在一天當中,整體的濃度水平用平均濃度變化來表征,并以此作為濃度燭臺的中心。此項特征將通過當天與前一天的濃度水平變化來描述,即:
通過提取帶有濃度變化趨勢的燭臺圖模式特征,捕捉出反轉信號。如圖6 展示了一些帶有濃度反轉信號的燭臺圖,表征趨勢的轉折點,當過去幾天出現連續的濃度增加,而這種信號減少的燭臺圖出現時,預示未來濃度可能會降低。其中,濃度遞減燭臺圖(1~4)和具有長上影線的燭臺圖(5、6)代表具有遞減反轉信號的燭臺圖。此外,那些不具備實體的特殊形狀的燭臺圖(7~9)也可被看作是可能存在的轉折點。同樣,帶有遞增反轉信號的燭臺圖特征也是如此。

圖6 濃度增加/減少過程中可能存在轉折點的PM2.5燭臺圖Fig.6 PM2.5 candlestick charts with possible turning points in concentration increasing/decreasing process
3.3.2 污染物濃度模式匹配
1)濃度增加/減小周期:在連續的時間間隔t1,t2,…,tn,當i=2,3,…,n-1 時,如果滿 足Ci,avg>max(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的峰值;當i=2,3,…,n-1 時,如果滿 足Ci,avg<min(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的谷值。比如,Ci1,avg、Ci3,avg是兩個最近相鄰的濃度谷值,Ci2,avg是兩者之間的濃度峰值,并且i1 <i2 <i3,則濃度谷值Ci1,avg和下一個濃度峰值Ci2,avg之間的連續時間間隔被視為濃度增加周期,濃度谷值Ci2,avg和下一個濃度峰值Ci3,avg之間的連續時間間隔被視為濃度減小周期。
2)濃度模式:濃度模式是由濃度燭臺圖特征向量PCFi組成的序列,即M=在每個濃度增加或減少的周期中,K是濃度周期的長度。鑒于最近的燭臺圖能夠對未來預測提供更有用的信息,按照從后向前的順序進行匹配。定義匹配率ρ,指K組特征中有ρ組參數能夠完成匹配,并通過距離衡量兩個燭臺的特征向量的匹配率。如果匹配距離低于某一個閾值,則認為匹配成功。距離公式定義為:
其中:wi(i=1,2,…,5)是權重因子=1。本文方法的權重采用層次分析(Analytic Hierarchy Process,AHP)算法確定。距離當前天數最近的燭臺圖能夠描述更加有用的信息,因此對應的權重w1將被賦予最高的數值。對于類別特征CShape,要求匹配的準確率最高。
針對實體、上影線、下影線、變化率四個特征,本文采用Z-score 標準化對原始監測數據進行歸一化處理,以加快深度學習模型的收斂。
3.4.1 網絡模型的結構
在圖像識別和分類領域,廣泛使用CNN 處理實際問題。CNN 因具有極小的特征工程需求而被廣泛應用,這為深度學習在大氣質量領域的合理應用提供了技術支持。深度卷積神經網絡VGG(Visual Geometry Group)是CNN 的經典模型,在特征提取和分類方面均表現優秀[22-24]。基于VGG 的濃度趨勢預測框架如圖7 所示。污染過程的局部特征由卷積層提取,對應大氣污染物擴散過程。即第一天污染將對第二天和第三天污染造成的影響,此類模式的特征被卷積層捕獲;池化層進一步加強統計特征層的信息,使網絡強特征表現更明顯,弱特征作用相對較小。污染過程的全局趨勢信息由全連接層進行整合,能提高預測大氣污染變化趨勢的準確性。

圖7 基于VGG的PM2.5濃度趨勢預測框架Fig.7 PM2.5 concentration trend prediction framework
如圖7 所示,將連續3 天的PM2.5濃度數據通過K 線發生器生成污染物燭臺圖,然后通過模式匹配,輸入VGG 網絡結構中。
最后,綜合評估了網絡的效果和可用的計算機硬件條件,確定用以下CNN 結構進行研究:第一個卷積層設計32 個卷積核,第二個卷積層設計32 個卷積核,第三個卷積層設計16 個卷積核,卷積核大小為3×3。
在該網絡模型中,激活函數都采用線性整流單元(Rectified Linear Unit,ReLU),ReLU 的使用不僅可以解決梯度消失的現象,還可以有效加速模型的訓練。通過max()函數描述ReLU 的過程,并加入Dropout 層,以隨機斷開鏈接的方式防止模型過擬合。還在模型的最后一個卷積層加入Flatten 層,將多維數據壓縮成一維。
3.4.2 網絡模型的訓練準備
本文設置批次大小batch_size=200,即每輸入200 張圖片訓練后,網絡進行權重校正并完成參數迭代。在前面設計的CNN 預訓練期間,7~9 次的訓練可以使神經網絡達到最好收斂狀態,因此在所有對比實驗中設置epochs=10。
4.1.1 數據收集
本次研究采用桂林市大氣質量在線監測站的監測數據,桂林市總共配有61 個監測站負責監控大氣環境質量,其中10 個是固定站,51 個為微型站。數據庫中存儲的數據通過服務設備每5 min 記錄一次相應站點對應的污染物和氣象數據。其中,氣象數據有大氣的氣壓、降雨量、風速、風向、濕度、溫度等;污染物濃度數據包括NO2、SO2、CO、O3、PM2.5、PM10等。數據時間窗口選擇自2019 年8 月8 日—2021 年8 月7 日,共計3 年的日污染物濃度數據。本次實驗通過Hadoop引擎連接大數據系統,導出研究所用數據集。
4.1.2 數據預處理
數據的預處理分為兩部分:首先是對數據集的基本面預處理,然后是對數據進行初始分類,包括極端值或缺失值處理、Z-score 標準化處理等。為避免因不同站點的污染物濃度數據差異較大對模型預測結果產生影響,本次實驗采用Z-score 方法對歷史PM2.5濃度數據進行標準化處理。Z-score將不同量級的數據統一轉換成同一量級,并統一用計算出的Z-Score 值來衡量,以保證數據之間的可對比性。
評估分類模型的評價指標中最常見的是混淆矩陣。在本次實驗中,最終輸出結果將會展示未來污染物濃度上升還是下降,考慮到污染物濃度上升會對環境產生的不良影響,故將濃度在分類型模型中表現上升設為positive,濃度在分類型模型中表現為下降設定為negative。
準確率指模型預測正確的樣本數占樣本總數的比重,可以直觀衡量模型總體性能,如式(6)所示:
精確率指在模型預測是positive 的所有結果中,模型預測對的比重,如式(7)所示:
召回率指在預測出的分類樣本中被正確預測的比重,如式(8)所示:
F1 分數是P與R的加權平均值,計算公式如式(10):
為評價本文提出的基于CPM 的PM2.5擴散特征提取方法,對比了未考慮大氣污染擴散過程的VGG 的方法,以及在相同實驗條件下基于支持向量機(Support Vector Machine,SVM)、AlexNet 的預測方法。實驗結果表明本文方法表現出了更好的性能。
通過對圖5 中的12 種不同外觀的燭臺圖進行統計后發現,濃度燭臺形狀3 和4 最為常見,占比分別為48.74%和31.31%。圖8 是帶有濃度燭臺圖序列的大氣污染物時間序列片段。可以看出,當伴有反轉信號的燭臺圖出現時,污染物濃度的變化趨勢不會立刻反轉,因此,通過濃度擴散模式進行判斷。在獲取污染物濃度模式的過程中,跳過了沒有任何數據的時間間隔,只考慮完整的濃度循環周期。

圖8 PM2.5濃度模式匹配圖Fig.8 PM2.5 concentration pattern matching diagram
匹配率ρ被用來調控匹配時間,從時間序列片段中提取兩個濃度模式:模式1 和模式3,如圖8 所示,即代表第10~15天的污染物濃度增加模式以及第21~24 天的污染物濃度減小模式。匹配過程中,調整匹配率ρ=1 時,會無法找到這兩種模式對應的精確匹配;當設ρ=0.8 時,成功找到了歷史模式中對應的模式2 和4 與之匹配。表2 顯示了不同匹配率的預測結果,最終選擇匹配率0.8 作為本文模型的參數。

表2 匹配率變化時的預測誤差Tab.2 Prediction error when matching rate changes
分別利用SVM、AlexNet、VGG 和本文方法的改進VGG 模型進行訓練。此次實驗選用的多源數據所包含的內容信息如4.1.1 節所示,劃分其中70%的樣本作為訓練集,30%樣本用來測試,并以準確率、精確率、召回率和F1 分數作為模型評價指標。為了控制變量,均采取50 個epoch 作為每個網絡的訓練批次。
不同預測方法的準確率比較結果如表3 所示,本文方法取得了最高的準確率,為95.1%,與基于普通VGG 的方法相比,準確率提高了1.9 個百分點,也優于傳統的機器學習方法(SVM)和其他圖像識別模型(AlexNet)。這是因為,單純的VGG 沒有充分融入一天內的污染物濃度擴散過程;而后兩種方法在捕獲轉折點變化信號時,過分注重整體趨勢,往往會忽略一些小的短期濃度波動,準確率更低。

表3 不同預測方法的準確率比較 單位:%Tab.3 Accuracy comparison of different methods unit:%
污染物濃度隨著長期的濃度循環變化,短期波動也會很大,基于CPM 的卷積神經網絡預測方法可以捕捉更細粒度上的濃度變化信息。在精確率、召回率和F1 分數指標上,不同方法對PM2.5濃度上升、下降和不變情況的預測結果對比如表4 所示,本文方法同樣取得了最好的結果。SVM 模型預測精確率高于AlexNet 模型,但召回率卻較低,這是因為,SVM 在尋找重要的污染物濃度趨勢轉折點時更有效,但卻沒辦法捕獲一些小的趨勢變化信號,存在一定的滯后現象。VGG 在捕獲短期濃度變化信號時表現敏感,但會產生過擬合的現象。

表4 不同方法對PM2.5濃度變化情況的預測對比Tab.4 Comparison of different methods for predicting change of PM2.5 concentration
顯然,基于CPM 設計的卷積神經網絡模型表現出的性能明顯優于基于普通時間序列的其他網絡。因此,將股票分析中被廣泛應用的K 線圖應用到大氣污染物分析領域,不僅能完整保存數據信息,還能夠充分提取大氣污染擴散過程中污染物濃度變化過程的局部變化信息,從而為大氣污染物濃度趨勢變化提供指導。
提高大氣污染物的預測精度是大氣環境監測領域面臨的重要任務。目前,眾多的污染物濃度預測模型都未曾充分提取原始數據的變化特征,也無法融入大氣擴散機制。因此,本文提出了一種基于燭臺圖時空聚類的深度學習預測方法。實驗訓練數據集由一組時間序列數據構建而成,其中包括歷史PM2.5濃度數據、相關污染物數據以及氣象關聯參數。首先,利用燭臺圖形式化表示污染物擴散周期性變化;然后,通過濃度模式匹配融入大氣物理擴散機制;最后,結合其余情景參數,通過卷積神經網絡VGG 提取局部特征,并進行趨勢預測。
通過實驗對本文方法的整體性能進行了評估,并與基于傳統的時間預測模型(AlexNet)、普通的機器學習模型(SVM)以及不結合燭臺圖的深度學習模型(VGG)的方法進行了比較。結果表明,本文方法的準確率、精確率、召回率和F1 分數均取得了最好的結果。燭臺圖簡潔直觀、立體感強,還能夠全面透徹地觀察到污染物濃度的真正變化,將K 線分析技術應用到大氣污染領域,具有很高的實用性。
但本文方法僅預測了污染物未來的濃度水平變化,還無法預測下一個具體的濃度水平。因此,未來將進一步分析PM2.5的長期依賴特征提取,以捕捉大氣污染物的濃度變化行為。