曹 旺,王彤彤,張靜怡
(四川大學電子信息學院,成都 610065)
隨著科學技術(shù)的迅速發(fā)展,人類創(chuàng)造了空前豐富的物質(zhì)財富。但與此同時也導致自然資源的過度消耗以及污染物的大量排放,致使空氣污染的問題加劇。空氣污染對人體的身體健康有極大的危害,而空氣污染物中以PM2.5 為主。PM2.5 是指大氣中直徑小于或等于2.5 μm的顆粒物。
雖然PM2.5 只是地球大氣成分中含量很少的組分,但它對空氣質(zhì)量和能見度等有重要的影響。與較粗的大氣顆粒物相比,PM2.5 粒徑小,面積大,活性強,易附帶有毒有害物質(zhì),且在大氣中的停留時間長、輸送距離遠,因而對人體健康和大氣環(huán)境質(zhì)量的影響很大。因此,實現(xiàn)對PM2.5 濃度進行有效的預測已成為熱點研究方向。然而,空氣質(zhì)量的變化受多種復雜因素的影響,包括氣候變化、交通情況、城市空間分布等。因此,我們需要考慮相關(guān)的地理信息(如距離、海拔),大氣信息(如溫度、濕度、風向),以及有相關(guān)產(chǎn)能結(jié)構(gòu)的城市區(qū)域。
與已有的氣象預報相比,PM2.5的準確預測較為困難。近幾年。國內(nèi)外對PM2.5 的預測進行了許多嘗試。如Huang等使用基于經(jīng)驗模態(tài)分解的GRU 神經(jīng)網(wǎng)絡(luò)對地面監(jiān)測點PM2.5 濃度預測。Zhou 等利用GRU 方法對大氣污染物濃度進行預測,通過GRU模型,根據(jù)春、夏、秋、冬四個季節(jié)訓練4個模型,并利用相應的測試集評價4個模型對相應季節(jié)PM2.5的預測效果,通過反復實驗和不斷調(diào)整模型參數(shù),分析比較了模型的預測誤差和預測精度,驗證了該方法的可行性和優(yōu)越性。Tao 等利用一維卷積網(wǎng)絡(luò)和雙向GRU的深度學習模型對空氣污染進行預測,它結(jié)合了一維卷積神經(jīng)網(wǎng)絡(luò)和雙向GRU 神經(jīng)網(wǎng)絡(luò)。利用UCI機器學習庫中的北京PM2.5數(shù)據(jù)集進行了案例分析。將CBGRU 模型的預測結(jié)果與傳統(tǒng)模型進行了比較,結(jié)果表明CBGRU 模型的預測誤差更小,預測性能更好。
Xie 等利用CNN-GRU 對PM2.5 進行的預測研究,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和門控循環(huán)單元(GRU),提出一種能夠自動提取多站多模態(tài)空氣質(zhì)量數(shù)據(jù)時空特征的PM2.5 預測模型。并建立了基于該模型的PM2.5 預測系統(tǒng)。該系統(tǒng)模型首先以無錫城區(qū)不同監(jiān)測站的空氣質(zhì)量因子和天氣因子時間序列構(gòu)建的多個二維(2D)矩陣為輸入,自動提取并融合具有CNN 結(jié)構(gòu)的多站多模態(tài)數(shù)據(jù)的局部變化趨勢和空間相關(guān)特征。從CNN 得到的結(jié)果輸入到GRU 網(wǎng)絡(luò),以進一步捕獲空氣質(zhì)量數(shù)據(jù)的長期依賴特征。分析比較與傳統(tǒng)模型的預測誤差,驗證了該方法的可行性和優(yōu)越性。
然而,現(xiàn)有的預測方法存在許多不足之處。基于GRU 的方法可以考慮一定程度的時間依賴性和空間依賴性,但無法精確捕捉測試站點之間的位置關(guān)系,因而無法精準預測PM2.5 的傳輸擴散。再如CNN-GRU,它只能處理基于圖像的輸入數(shù)據(jù),不能專門對于空間依賴性建模,因而無法綜合考慮到相關(guān)的地理信息和大氣信息。
不同于以上的方法,較為有效的預測方式是利用氣象數(shù)據(jù)以及空間信息中城市的互相影響,因此建立有效的圖結(jié)構(gòu)作為輸入有著重大的意義。為了處理基于圖的數(shù)據(jù),我們構(gòu)建了圖神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合的方法,將城市間的風向表征為圖的連邊。不僅能夠利用GNN 網(wǎng)絡(luò)學習城市之間空間信息的依賴關(guān)系,在利用GNN 網(wǎng)絡(luò)對節(jié)點空間信息進行更新的基礎(chǔ)上,能夠利用GRU 網(wǎng)絡(luò)捕捉學習PM2.5 在時間維度上的長期依賴特征。結(jié)合這兩個模塊的網(wǎng)絡(luò)模型有助于對數(shù)據(jù)時序上的特征和空間上的領(lǐng)域特征信息進行訓練學習,以此實現(xiàn)有效的預測。
但注意到GRU 中的輸入和之前的狀態(tài)只在門中進行信息交互,而在進入模塊之前缺少信息溝通,這可能會導致上下文信息在一定程度上的缺失。因此本文的工作在于對于傳統(tǒng)的GRU 網(wǎng)絡(luò),將輸入與上一步隱藏層的輸出進行相互調(diào)制,使GRU 的輸入和之前的狀態(tài)在進入模塊之前迭代一定的次數(shù)進行信息交互,提升信息上下文的聯(lián)系,使GRU 的轉(zhuǎn)移函數(shù)受到上下文的影響作用,以期望加強網(wǎng)絡(luò)建模的性能以及泛化性。對于真實數(shù)據(jù)集,我們設(shè)置了改進版網(wǎng)絡(luò)與原網(wǎng)絡(luò)的比較實驗,對于真實數(shù)據(jù)集進行建模測試,證明了所提出的方法相比于先前網(wǎng)絡(luò)在預測準確度方面獲得了顯著的提升,從而證明了改進的GRU的有效性。
圖神經(jīng)網(wǎng)絡(luò)是一種直接作用于圖結(jié)構(gòu)上的神經(jīng)網(wǎng)絡(luò)。由于其可以對圖節(jié)點之間依賴關(guān)系進行建模的強大功能,得到了越來越廣泛的應用。圖網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 圖網(wǎng)絡(luò)結(jié)構(gòu)
我們使用=(,,)表示圖結(jié)構(gòu),其中表示圖結(jié)構(gòu)中的城市節(jié)點,表示城市節(jié)點之間相互作用的邊,表示城市節(jié)點之間的鄰接矩陣。我們將圖結(jié)構(gòu)的節(jié)點數(shù)據(jù)表示為∈R ,其中是圖網(wǎng)絡(luò)中的節(jié)點個數(shù),是節(jié)點的全部特征信息。包含節(jié)點的PM2.5數(shù)據(jù)和其他輔助信息,將的PM2.5 數(shù)據(jù)信息記作X∈R ,將的輔助信息記作X∈R ,所以= P+P。我們將時刻的圖數(shù)據(jù)表示為X,我們使用先前個小時的數(shù)據(jù)去預測未來個小時的數(shù)據(jù)。公式表述為:

在每次的圖結(jié)構(gòu)數(shù)據(jù)更新迭代中,每個節(jié)點通過圖結(jié)構(gòu)聚合相鄰節(jié)點的信息進行更新。通常聚合信息的方法包括求和、平均、最大值或基于注意力機制的方法。
根據(jù)圖1 的結(jié)構(gòu),網(wǎng)絡(luò)的每次迭代過程中,圖結(jié)構(gòu)中的每個節(jié)點根據(jù)其鄰居的特征信息利用聚合函數(shù)更新自身的節(jié)點信息,處理過程參考圖2。與只考慮節(jié)點信息的GCN 不同,這里我們采用GNN 來傳遞城市節(jié)點之間的信息,考慮了任意相關(guān)節(jié)點對于目標節(jié)點的影響,從而學習到了各個城市節(jié)點的PM2.5 在風向影響下的相互傳輸,得到了城市之間的PM2.5 空間水平擴散的情況。

圖2 圖神經(jīng)網(wǎng)絡(luò)節(jié)點更新示意圖
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是一種隨著時間維度方向重復調(diào)用的網(wǎng)絡(luò)結(jié)構(gòu),會記憶之前的信息,刻畫當前輸出與之前信息的依賴性。在例如語音識別,文字翻譯等領(lǐng)域具有廣泛應用。
圖3 中,表示輸入層,表示隱藏層,表示輸出層。表示隱藏層和輸出層之間的權(quán)重矩陣,表示輸入層和隱藏層之間的權(quán)重矩陣,表示前一時刻的隱藏層和當前時刻的隱藏層之間的權(quán)重矩陣。網(wǎng)絡(luò)在時刻接收到輸入x之后,隱藏層的值是s,輸出值是o。且s的值不僅僅取決于x,還取決于s。RNN 的計算方法如下:

圖3 RNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

其中,式(2)的g為隱藏層到輸出層的激活函數(shù),式(3)中的f為隱藏層到隱藏層的激活函數(shù)。
雖然RNN可以獲取并處理時間序列的全部信息,但隨著訓練層數(shù)的增加,對輸出起重要作用的還是最后輸入的信息,而更早的序列信息只能起到輔助作用,這也就是會出現(xiàn)遺忘早期信息的問題。為了解決RNN 存在的問題,人們引入了門控機制。
Hochreiter 等于1997年首次提出了長短記憶單元(long-short term memory,LSTM),LSTM解決了標準RNN 中的梯度消失以及梯度爆炸問題,并同時保留序列的長期信息,LSTM 在長期的發(fā)展中也有了不少改進,如GRU,Peephole LSTM、 BI-LSTM、 ConvLSTM 以 及 Mogrifier LSTM 等。與LSTM 門控機制相似,門控循環(huán)單元(gated recurrent unit,GRU)也是循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種門控機制,目的也在于解決RNN 的梯度消失以及梯度爆炸問題,并同時對序列信息長期記憶,是2014年由Cho 等提出的。GRU 在許多諸如語音識別的序列任務(wù)上與LSTM 相比同樣出色,不過它的參數(shù)比LSTM 少,僅包含重置門和更新門。在LSTM 的基礎(chǔ)上,減少了一個門控,在保證計算精度的同時減輕了硬件的計算量和計算時間成本。GRU 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 門控循環(huán)單元結(jié)構(gòu)
圖4中的各個關(guān)鍵點的作用如下所述:









圖5 信息交互示意圖
注意到在GRU 中,當前的輸入x是和之前的狀態(tài)h相互獨立的,它們只在門中進行交互,在這之前缺乏交互,這可能會導致上下文信息的丟失。為此,本文讓輸入和狀態(tài)首先進行交互,增強上下文信息的顯著輸入特征并減少次要特征,期望增強網(wǎng)絡(luò)建模建模的泛化能力并提升訓練效果。
主要方法是,在原始GRU 計算之前,交替地讓x和h相互調(diào)制,公式表達為

這里式(8)中,x'和h'是x和h經(jīng)過函數(shù)的信息相互調(diào)制之后得到的更新值。算法公式如下:

為了提高預測準確性,我們通過圖結(jié)構(gòu)來學習PM2.5 信息在水平方向遷移和擴散的過程。GNN 在提取數(shù)據(jù)的空間相關(guān)性上具有獨特優(yōu)勢,選取各個城市作為圖結(jié)構(gòu)的節(jié)點,利用GNN 來記錄PM2.5 從周圍城市到目標城市的空間擴散情況,匯總節(jié)點的相鄰節(jié)點對目標節(jié)點的影響來計算節(jié)點之間的信息依賴關(guān)系權(quán)重。經(jīng)過圖網(wǎng)絡(luò)不斷的迭代學習,目標節(jié)點在不斷的更新過程中學習并獲取到了其他節(jié)點的信息。而后利用信息交互的門控循環(huán)單元網(wǎng)絡(luò)在聚合圖結(jié)構(gòu)空間信息的基礎(chǔ)上模擬PM2.5 在時間維度上的擴散過程。
我們選取了全國空氣污染較為嚴重的184個城市,預測時主要利用的信息有PM2.5 歷史數(shù)據(jù),降水情況,風速,空氣濕度,城市地點信息等數(shù)據(jù),將數(shù)據(jù)抽象如圖6所示。

圖6 城市數(shù)據(jù)信息示意圖
將圖6的數(shù)據(jù)表示為具體的圖數(shù)據(jù)結(jié)構(gòu),如圖7的,,…,X所示,構(gòu)建MGRU-GNN 混合模型,網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖7所示。

圖7 信息交互的門控循環(huán)單元和圖卷積網(wǎng)絡(luò)的混合模型示意圖
在MGRU-GNN 模型中,GNN通過在迭代訓練過程中對節(jié)點之間的空間依賴關(guān)系進行訓練學習。根據(jù)學習到的節(jié)點之間的信息依賴程度設(shè)置鄰接矩陣的權(quán)重。由于MGRU模型輸入?yún)?shù)與GNN 的輸出存在差異,在GNN 網(wǎng)絡(luò)之后便設(shè)有全連接層進行特征空間變換,在保留數(shù)據(jù)特征信息的同時調(diào)整數(shù)據(jù)維度來配合MGRU 網(wǎng)絡(luò)的使用。通過MGRU與GNN的配合作用,使得MGRU在獲得空間信息的更新同時也獲得了輸入序列的長期依賴關(guān)系的學習,實現(xiàn)了PM2.5的長期預測。
國家從13年開始陸陸續(xù)續(xù)建立了在大大小小的城市建立了霧霾氣象監(jiān)測站,每隔3小時進行一次采集,提供了大量的數(shù)據(jù)。數(shù)據(jù)集由生態(tài)環(huán)境部提供,生態(tài)環(huán)境部負責建立健全生態(tài)環(huán)境基本制度,環(huán)境污染防治的監(jiān)督管理,生態(tài)環(huán)境監(jiān)測等工作;氣象數(shù)據(jù)包括風向、降雨、空氣濕度、溫度等數(shù)據(jù);空間地理信息是各個城市中監(jiān)測站的位置來表征城市的位置。
為了檢驗模型捕捉長期依賴關(guān)系的能力,本文選擇了覆蓋中國污染嚴重地區(qū)的京津冀地區(qū)的184個城市作為研究對象。構(gòu)建選取區(qū)域范圍內(nèi)2016-9-1—2017-1-31 的秋冬季真實數(shù)據(jù)集,重點關(guān)注秋冬季節(jié)的原因在于秋冬季供暖系統(tǒng)的使用會增加空氣污染的情況。在構(gòu)造圖結(jié)構(gòu)的過程中我們使用圖結(jié)構(gòu),利用風向構(gòu)建圖結(jié)構(gòu)的邊屬性,不僅關(guān)注節(jié)點的變化情況,也關(guān)注節(jié)點之間信息的流向,特別是城市之間的PM2.5 具有雙向傳輸?shù)奶攸c,因此我們使用圖結(jié)構(gòu)GNN。
我們使用了三種類型的數(shù)據(jù):PM2.5歷史數(shù)據(jù)和氣象數(shù)據(jù)和空間信息。數(shù)據(jù)集劃分為三個部分,選取50%為訓練數(shù)據(jù),25%為驗證數(shù)據(jù)、25%為測試數(shù)據(jù)。
為驗證網(wǎng)絡(luò)的有效性,我們將不同網(wǎng)絡(luò)在相同的數(shù)據(jù)集下進行對比分析。為了公平比較,我們給每個比較的模型提供相同的參數(shù)輸入和硬件環(huán)境。本文的實驗環(huán)境是在一臺操作系統(tǒng)為Ubuntu16.04 的工作站上,CPU 是一個Intel Xeon E5-1650 v4 六核處理器,主頻為3.6 GHz,內(nèi)存32 GB,GPU 為Nvidia Geforce GTX 1080 Ti,顯存11 GB。
在本文的預測模型中,我們選擇一種最常用的回歸損失函數(shù),均方誤差(),為訓練過程中的損失函數(shù),選擇自適應學習率算法RMSprop 來作為網(wǎng)絡(luò)參數(shù)的優(yōu)化器。訓練過程中的樣本數(shù)batch_size 為32,訓練次數(shù)epochs 為150 次,并且添加提前停止機制Early Stoping,若連續(xù)多次迭代時的誤差不發(fā)生變化,則提前停止訓練防止過擬合。
本文采用均方根誤差()和平均絕對誤差()兩個評價指標,和通過反映模型預測值與真值之間的誤差來衡量預測精度。計算公式如下:


在給定歷史PM2.5 濃度數(shù)據(jù)及和未來24 小時的天氣預報數(shù)據(jù)的情況下,預測未來24 小時的PM2.5 數(shù)據(jù),并計算各種模型的預測性能。我們對以下幾種網(wǎng)絡(luò)模型進行測試對比:
(1)多層感知器(multilayer perceptron,MLP),是一種前饋人工神經(jīng)網(wǎng)絡(luò)模型,典型的MLP 由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成,其將輸入的多個數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上。
(2)長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM),主要針對序列的時間維度變化進行建模。
(3)圖卷積網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(GCNLSTM),是 圖卷 積網(wǎng) 絡(luò)(graph convolutional network,GCN)和LSTM 相結(jié)合,實現(xiàn)對時間維度和空間維度的情況進行建模。但是GCN 沒有考慮到節(jié)點之間信息互相更新的過程,對PM2.5空間傳輸這一特性信息的利用受到限制。
(4)門控循環(huán)單元和全連接層(GRU-FC),在GRU 之后連接一層全連接層(fully connected layers,F(xiàn)C)。
(5)圖神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(GNNGRU),使用圖網(wǎng)絡(luò)與原始GRU 的結(jié)合,對時間維度和空間維度的情況進行建模,并且利用到了PM2.5在空間維度水平遷移的特性。
各種網(wǎng)絡(luò)模型的預測結(jié)果如表1所示。

表1 不同模型的預測結(jié)果對比
通過預測結(jié)果的對比,可以看出MLP、LSTM、GRU 的效果是并不理想的,這是由于這三種網(wǎng)絡(luò)模型本身設(shè)計結(jié)構(gòu)的瓶頸,導致在學習節(jié)點之間的空間傳輸特性方面受到限制。其中MLP 網(wǎng)絡(luò)存在學習速度慢,容易陷入局部極值的缺點,因此對于數(shù)據(jù)的學習可能會不夠充分;LSTM和GRU雖然在一定程度上緩解了梯度消失的情況,但對于太長的序列學習能力還是略顯不足,另外對于空間傳輸特性學習能力的欠缺導致預測效果不佳;GCN-LSTM 雖然能實現(xiàn)對時間維度和空間維度的特征都進行學習。但是GCN 只能抽取圖中節(jié)點的拓撲信息,對PM2.5 空間傳輸這一特性的信息使用受到限制,因此效果不佳;GRU-FC 是GRU 拼接全連接層,全連接層相當于一個特征空間變換,可以把有用的信息提取整合,再加上激活函數(shù)的非線性映射,然而由于空間信息利用的不足,效果依然不佳;對比現(xiàn)有網(wǎng)絡(luò),可以發(fā)現(xiàn)我們的MGRU-GNN 在對時間維度的特征進行長期學習記憶的同時也利用空間信息更新了城市節(jié)點的信息,通過數(shù)據(jù)可以看出預測效果最佳。
對于空間信息以及對MGRU 的利用,實驗如下:

表2 驗證改進的GRU對模型的影響
上表以和分別為均方根誤差及平均絕對誤差衡量指標,記錄不同網(wǎng)絡(luò)在相同數(shù)據(jù)集以及相同硬件環(huán)境下的預測表現(xiàn)。通過上方圖表的記錄,可以看出,加入空間信息對于預測PM2.5濃度準確性的作用。
通 過 對 比GRU 與MGRU、GRU-GNN 與MGRU-GNN 的預測結(jié)果,可以看出,相比于使用原始GRU 模塊,替換為MGRU 模塊之后,預測能力更強、誤差更小。GRU-GNN 與MGRUGNN 的結(jié)果對比可以看出,RMSE 指數(shù)有6%~7%的進步,MAE 指數(shù)5%~6%的進步。因此可以證明,本文對于GRU 網(wǎng)絡(luò)的改進相比原始網(wǎng)絡(luò)具有更好的優(yōu)越性。
本文首先利用PM2.5 歷史數(shù)據(jù)以及氣象數(shù)據(jù)和空間信息,建立門控循環(huán)單元和圖神經(jīng)網(wǎng)絡(luò)模型混合模型。然后在此基礎(chǔ)上,提出了一種基于信息交互的門控循環(huán)單元和圖卷積網(wǎng)絡(luò)的混合模型,通過使GRU 的轉(zhuǎn)移函數(shù)依賴于上下文信息提升GRU 建模的泛化能力和性能。與現(xiàn)有的方法相比,本文的模型具有更好的預測準確性。