魏 思,李欣澤,郤麗媛,劉紫君,董哲為
(1.長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064;2.陜西學(xué)前師范學(xué)院 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710100)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,城市化與工業(yè)化不斷推進(jìn),能源消耗和污染排放引發(fā)的空氣污染狀況日益引起全社會(huì)的關(guān)注,成為熱點(diǎn)話題[1]。空氣污染物主要包括一氧化碳(CO)、二氧化硫(SO2)、氮氧化物(NO2)、臭氧(O3)等氣體污染物和可吸入顆粒物(PM10)、細(xì)顆粒物(PM2.5)等顆粒態(tài)污染物[2],這些有毒有害化學(xué)物質(zhì)的暴露可導(dǎo)致呼吸系統(tǒng)和心血管系統(tǒng)等的損傷[3]。隨著國(guó)家對(duì)空氣污染治理要求的不斷提高,空氣污染的提前預(yù)報(bào)受到了多方關(guān)注,并對(duì)空氣污染預(yù)測(cè)方法進(jìn)行了深入研究[4]。
隨著機(jī)器學(xué)習(xí)的廣泛應(yīng)用,采用機(jī)器學(xué)習(xí)方法對(duì)空氣污染物濃度預(yù)測(cè)取得了很好的效果[5]。倪志偉等[6]通過(guò)采用改進(jìn)的離散型人工魚(yú)群算法,并結(jié)合分形維數(shù),提出基于人工魚(yú)群和分形維數(shù)融合支持向量機(jī)的空氣質(zhì)量預(yù)測(cè)方法。游介文等[7]基于隨機(jī)森林(Random Forest,RF)算法、融合多源地理要素開(kāi)展了近地面NO2濃度空間分布模擬研究。
對(duì)于空氣污染物濃度數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),采用深度學(xué)習(xí)方法對(duì)未來(lái)污染物濃度發(fā)展趨勢(shì)的預(yù)測(cè)更加高效。楊張婧等[8]提出一種時(shí)空特性的空氣質(zhì)量預(yù)測(cè)算法,通過(guò)長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)構(gòu)成Sequence to Sequence范式處理時(shí)間序列的變長(zhǎng)輸入與輸出,獲取本地PM2.5時(shí)間序列規(guī)律,與神經(jīng)網(wǎng)絡(luò)、回歸樹(shù)以及簡(jiǎn)單的LSTM系列模型相比,取得了更好的預(yù)測(cè)效果。Prihatno等[9]利用時(shí)間序列數(shù)據(jù)建立了單密度層雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)模型來(lái)預(yù)測(cè)室內(nèi)環(huán)境中PM2.5濃度。史學(xué)良等[10]針對(duì)傳統(tǒng)的長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)對(duì)線性數(shù)據(jù)可能產(chǎn)生過(guò)擬合現(xiàn)象,提出改進(jìn)的LSTM網(wǎng)絡(luò),提高了模型的泛化能力與預(yù)測(cè)精度。這些模型利用數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法,解決了空氣污染物濃度預(yù)測(cè)的問(wèn)題,在模型泛化、預(yù)測(cè)精度具有優(yōu)勢(shì)等。
針對(duì)目前研究沒(méi)有深入地挖掘上下文因素對(duì)空氣污染物濃度變化模式的影響,該文提出了一種上下文特征注入的空氣污染物濃度時(shí)間序列預(yù)測(cè)模型(Features Injected Gated Recurrent Unit,FI-GRU),利用深度置信網(wǎng)絡(luò)和門控循環(huán)單元(GRU)分別挖掘空氣污染物濃度數(shù)據(jù)的上下文特征和時(shí)間序列特征,并通過(guò)注入機(jī)制將上下文特征注入到時(shí)間序列特征中,生成新的融合特征。
時(shí)間序列是按照時(shí)間排序的一組隨機(jī)變量,它通常是在相等間隔的時(shí)間段內(nèi)依照給定的采樣率對(duì)某種潛在過(guò)程進(jìn)行觀測(cè)的結(jié)果。
空氣污染物數(shù)據(jù)由固定時(shí)間間隔采集而來(lái),以當(dāng)前時(shí)間點(diǎn)t為基準(zhǔn)向前回溯Lb個(gè)時(shí)間步,序列公式如下:
Xt=(xt-Lb+1,xt-Lb+2,…,xt-1)
(1)
yt=xt
(2)
式中,xt為第t個(gè)用于預(yù)測(cè)的數(shù)據(jù)序列;Lb為回溯步長(zhǎng);yt為第t個(gè)時(shí)間點(diǎn)的預(yù)測(cè)值。
伴隨著空氣污染物濃度采樣數(shù)據(jù)產(chǎn)生的屬性數(shù)據(jù)稱之為上下文因素。論文主要討論動(dòng)態(tài)上下文因素(季節(jié)、日期、星期、假日、時(shí)刻等)對(duì)空氣污染物的影響和作用,并根據(jù)動(dòng)態(tài)上下文特征進(jìn)行模型的訓(xùn)練,并對(duì)空氣污染物濃度進(jìn)行預(yù)測(cè)。
用Z表示空氣污染物上下文數(shù)據(jù),Z=(Z(1),Z(2),…,Z(M))T。當(dāng)前時(shí)間點(diǎn)t的上下文因素表示為:
(3)
(4)
式中,變量定義和常量符號(hào)與前面公式相同。
上下文特征注入的時(shí)間序列預(yù)測(cè)模型框架結(jié)構(gòu)如圖1所示。該模型由四部分組成,第一部分為時(shí)間序列特征提取模塊,使用GRU提取空氣污染物濃度數(shù)據(jù)的時(shí)間序列特征;第二部分為上下文特征提取模塊,使用深度置信網(wǎng)絡(luò)提取空氣污染物濃度的上下文特征;第三部分為特征注入機(jī)制,將提取到的上下文特征注入到時(shí)間序列特征中,生成新的融合特征;第四部分為預(yù)測(cè)器,使用單層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)對(duì)生成的融合特征進(jìn)行空氣污染物濃度預(yù)測(cè)。

圖1 上下文特征注入的時(shí)間序列預(yù)測(cè)模型框架
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)引入了時(shí)序的概念,但未解決時(shí)間序列過(guò)長(zhǎng)導(dǎo)致的梯度下降和梯度爆炸問(wèn)題,因此提出了循環(huán)神經(jīng)網(wǎng)絡(luò)的變種長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)。在循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理時(shí)間序列優(yōu)點(diǎn)的基礎(chǔ)上增加遺忘門、輸入門、輸出門三個(gè)控制單元,解決神經(jīng)網(wǎng)絡(luò)中長(zhǎng)序列依賴的問(wèn)題[11]。門控循環(huán)單元(GRU)在保留了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)效果的同時(shí)使其內(nèi)部結(jié)構(gòu)更加簡(jiǎn)單,它的效率更高。因此,該文使用GRU作為工具來(lái)挖掘空氣污染物濃度的數(shù)據(jù)的時(shí)間序列特征,其內(nèi)部結(jié)構(gòu)如圖2所示。

圖2 GRU循環(huán)單元內(nèi)部結(jié)構(gòu)
簡(jiǎn)化后的門控循環(huán)單元GRU計(jì)算公式如公式(5)~(8)所示:
zt=σ(XtWxu+Ht-1Whu+bu)
(5)
Rt=σ(xtWxr+Ht-1Whr+br)
(6)
(7)
(8)
式中,Zt為更新門;Rt為重置門;Xt為t時(shí)的輸入向量;Ht-1為上一個(gè)時(shí)間步的輸出響應(yīng);W和b分別為權(quán)重矩陣和偏置矢量;σ為sigmoid激活函數(shù);tanh為雙曲正切函數(shù)。GRU在每個(gè)時(shí)間步上都會(huì)生成一個(gè)隱藏狀態(tài)Ht,這個(gè)隱藏狀態(tài)也被看作是每一個(gè)時(shí)間步的記憶狀態(tài),允許信息沿網(wǎng)絡(luò)流動(dòng)而不會(huì)流失或爆炸。
上下文因素與空氣污染物濃度之間存在著復(fù)雜的非線性關(guān)系,而深度置信網(wǎng)絡(luò)可以挖掘這些復(fù)雜的非線性關(guān)系。該文使用深度置信網(wǎng)絡(luò)作為工具提取空氣污染物上下文特征,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其中,輸入層負(fù)責(zé)將上下文因素預(yù)處理后輸入神經(jīng)網(wǎng)絡(luò);隱藏層是整個(gè)模型的核心部分,輸入的上下文因素在這里被逐層變換,并提取隱含的模式和特征;輸出層負(fù)責(zé)將前面隱藏層學(xué)習(xí)得到的模式和特征進(jìn)行聚集和匯總,進(jìn)行非線性加權(quán)變換得到相應(yīng)的上下文特征。

圖3 深度置信網(wǎng)絡(luò)模型結(jié)構(gòu)
深度置信網(wǎng)絡(luò)預(yù)測(cè)模型的每一個(gè)輸入節(jié)點(diǎn)都對(duì)應(yīng)上下文因素向量中的一個(gè)上下文因素zi(zi∈Z),預(yù)測(cè)器的輸出節(jié)點(diǎn)對(duì)應(yīng)上下文特征θ,其深度置信網(wǎng)絡(luò)提取模型可用公式(9)表示:
θ=φ(z·Wz+bz)
(9)
式中,z為上下文因素向量,z∈Rt×M;φ為tanh激活函數(shù);Wz為權(quán)重矩陣;bz為偏置向量。zt為時(shí)間步t時(shí)刻的上下文因素;上下文特征Θ=(θ(1),θ(2),…,θ(k)),其中θ(k)為上下文因素特征的第k個(gè)元素,k為上下文因素向量的長(zhǎng)度,k∈*。
如圖1所示,通過(guò)特征注入機(jī)制將深度置信網(wǎng)絡(luò)提取的空氣污染物濃度上下文特征注入到空氣污染物濃度時(shí)間序列特征中,其注入點(diǎn)位于循環(huán)神經(jīng)網(wǎng)絡(luò)與預(yù)測(cè)器之間,這也是上下文特征注入模型中最為關(guān)鍵的地方。
將循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得來(lái)的序列特征用h表示,h=(h(1),h(2),…,h(k)),其中h(k)為序列特征向量中第k個(gè)元素,k為序列特征向量的長(zhǎng)度,k∈N*。在特征注入模型中,公式(9)所示的上下文特征向量和時(shí)間序列特征向量具有同樣的維度k,因此可通過(guò)softmax函數(shù)將上下文因素特征壓縮到(0,1)區(qū)間來(lái)度量時(shí)間序列特征的重要性,注入后生成融合特征A,如公式(10)所示:
A=softmax(Θ)°h
(10)
式中,°表示哈達(dá)瑪積;exp為自然常數(shù);exp(Θ)表示對(duì)Θ向量每一個(gè)元素分別應(yīng)用指數(shù)函數(shù);h為時(shí)間序列預(yù)測(cè)模型學(xué)習(xí)到的序列特征。融合過(guò)程完成后,新的融合特征A=(a(1),a(2),…,a(k))被送到特征注入模型的預(yù)測(cè)器中進(jìn)行預(yù)測(cè),其中a(k)為融合特征向量的組成元素,公式所示如下:
(11)

(12)
式中,σ為sigmoid激活函數(shù);Wa為權(quán)重矩陣;ba為偏置向量。
FI-GRU模型建立之后,使用優(yōu)化數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和優(yōu)化。首先,將GRU網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)看作一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)模塊;然后,梳理這些模塊之間的激勵(lì)響應(yīng)和誤差傳播關(guān)系,并使用反向傳播算法計(jì)算各個(gè)獨(dú)立模塊的前向激勵(lì)和響應(yīng)誤差,并使用計(jì)算得到的參數(shù)梯度對(duì)所有參數(shù)進(jìn)行更新;最后,將FI-GRU模型視為一個(gè)整體繼續(xù)使用反向傳播算法對(duì)其進(jìn)行參數(shù)優(yōu)化,當(dāng)整個(gè)模型的響應(yīng)誤差不再下降或者小于預(yù)先設(shè)定的最小值時(shí),所有模塊參數(shù)全部確定,FI-GRU模型隨之優(yōu)化完成。
實(shí)驗(yàn)選用了中國(guó)環(huán)境監(jiān)測(cè)總站公布的西安市2017年1月至2021年7月共55個(gè)月的PM2.5污染物濃度數(shù)據(jù),數(shù)據(jù)集涵蓋污染較為嚴(yán)重的秋冬春季節(jié)和污染較為輕微的春夏季節(jié)[12]。選取2017年1月至2019年11月共35個(gè)月的數(shù)據(jù)作為訓(xùn)練集,2019年12月-2020年11月共12個(gè)月的數(shù)據(jù)作為驗(yàn)證集,2020年12月至2021年7月共8個(gè)月的數(shù)據(jù)作為測(cè)試集。將季節(jié)、日期、星期、假日、時(shí)刻等數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后作為空氣污染物濃度的上下文特征。
所有測(cè)試模型的預(yù)測(cè)準(zhǔn)確性均通過(guò)三個(gè)指標(biāo)進(jìn)行評(píng)估,包括平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)[13]。計(jì)算公式如下所示:
(13)
(14)
(15)

預(yù)測(cè)的數(shù)據(jù)序列是由Lb個(gè)過(guò)去的數(shù)據(jù)組成的新序列,其中Lb是回溯步驟的個(gè)數(shù)。當(dāng)Lb較大時(shí),數(shù)據(jù)中包含的序列之間的依賴性增強(qiáng)。當(dāng)Lb較小時(shí),預(yù)測(cè)序列變短,序列之間的因果關(guān)系不完整,難以提取,準(zhǔn)確性較差,因此模型中需要確定一個(gè)相對(duì)最優(yōu)的回溯步長(zhǎng)[14]。采用逐步貪婪坐標(biāo)下降法搜索和評(píng)估FI-GRU模型的回溯步長(zhǎng),回溯步長(zhǎng)從1步開(kāi)始,逐漸增加到12步。將預(yù)處理后的數(shù)據(jù)序列發(fā)送到模型進(jìn)行訓(xùn)練。訓(xùn)練完成后,使用MAPE、MAE和RMSE三個(gè)誤差指標(biāo)來(lái)評(píng)價(jià)模型的預(yù)測(cè)效果。其中,采樣間隔為1小時(shí)的數(shù)據(jù)訓(xùn)練模型的預(yù)測(cè)結(jié)果如表1所示。

表1 不同回溯步長(zhǎng)下FI-GRU模型的預(yù)測(cè)誤差
由表中數(shù)據(jù)可以看出,在回溯步長(zhǎng)為9的時(shí)候各項(xiàng)誤差最小,即使用歷史9小時(shí)數(shù)據(jù)預(yù)測(cè)未來(lái)1小時(shí)的污染物濃度準(zhǔn)確度最高。因此,FI-GRU模型使用采樣間隔為1小時(shí)的數(shù)據(jù)訓(xùn)練和預(yù)測(cè)時(shí)回溯步長(zhǎng)固定為9步。
根據(jù)空氣污染物濃度數(shù)據(jù)變化情況,冬季是空氣污染主要管控季節(jié),因此選擇冬季和春季預(yù)測(cè)結(jié)果來(lái)驗(yàn)證模型。將測(cè)試集數(shù)據(jù)輸入訓(xùn)練好的FI-GRU模型中,得到2020年8月至2021年7月全部的預(yù)測(cè)結(jié)果。PM2.5污染物濃度預(yù)測(cè)結(jié)果與真實(shí)值的曲線擬合圖形如圖4所示。2020年冬季的PM2.5污染物濃度預(yù)測(cè)如圖4(a)所示,2021年春季的PM2.5污染物濃度預(yù)測(cè)結(jié)果如圖4(b)所示。

(a)2020冬季
由圖可知,冬季和夏季的PM2.5污染物濃度變化模式有著明顯的不同,但FI-GRU模型能夠精準(zhǔn)識(shí)別不同季節(jié)的變化規(guī)律和特征,并趨近真實(shí)的濃度數(shù)值。即使在發(fā)生劇烈變化的地方,也能準(zhǔn)確擬合變化趨勢(shì),表現(xiàn)出了較強(qiáng)的適應(yīng)性和有效性。
工作日出行時(shí)間相對(duì)集中,變化趨勢(shì)有明顯的時(shí)間屬性,而假日出行時(shí)間相對(duì)分散,變化趨勢(shì)的時(shí)間屬性相對(duì)減弱。分別選取2020年冬季與2021年夏季中兩天的數(shù)據(jù)作為對(duì)比節(jié)假日和工作日的預(yù)測(cè)。預(yù)測(cè)和評(píng)估結(jié)果如圖5所示,節(jié)假日的PM2.5污染物濃度預(yù)測(cè)結(jié)果如圖5(a)和(c)所示,工作日的PM2.5污染物濃度預(yù)測(cè)結(jié)果如圖5(b)和(d)所示。圖中橫軸表示每日時(shí)間;縱向分為上、下兩部分,上面部分為預(yù)測(cè)結(jié)果與真實(shí)值的曲線擬合圖形,下面部分表示為每一個(gè)時(shí)間點(diǎn)預(yù)測(cè)值和真實(shí)值的絕對(duì)誤差(AE)。

(a)冬季假期
從圖中可以看出,節(jié)假日和工作日的PM2.5污染物濃度變化趨勢(shì)不同,但FI-GRU模型能夠精準(zhǔn)識(shí)別出其發(fā)展變化的規(guī)律和特征,尤其是在6:00-22:00之間的白天時(shí)段,PM2.5濃度預(yù)測(cè)結(jié)果都緊緊圍繞真實(shí)值小幅波動(dòng),且FI-GRU模型的絕對(duì)誤差也處于合理范圍之內(nèi)。
選取長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)[15]、門控循環(huán)單元(GRU)[16]、雙向長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(BiLSTM)等模型作為對(duì)比模型,對(duì)比同一天內(nèi)各模型結(jié)果,將各模型預(yù)測(cè)結(jié)果和真實(shí)數(shù)據(jù)疊加顯示如圖6所示。節(jié)假日的PM2.5污染物濃度預(yù)測(cè)結(jié)果如圖6(a)和(c)所示,工作日的PM2.5污染物濃度預(yù)測(cè)結(jié)果如圖6(b)和(d)所示。

(a)冬季假期
從圖中可以看出,與對(duì)比模型的預(yù)測(cè)結(jié)果相比,FI-GRU模型效果最好,能夠最大程度地逼近空氣污染物濃度變化的實(shí)際狀況。對(duì)2020年8月至2021年7月全部的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,記錄MAPE、MAE和RMSE三個(gè)誤差指標(biāo)。其中,各模型的誤差指標(biāo)如表2所示。

表2 不同模型PM2.5濃度預(yù)測(cè)的誤差
從表中數(shù)據(jù)可以看出,提出的FI-GRU模型的三個(gè)誤差指標(biāo)都取得了最小的值,表明該模型的預(yù)測(cè)值更加準(zhǔn)確,能夠有效預(yù)測(cè)PM2.5濃度變化的趨勢(shì),充分說(shuō)明了FI-GRU模型的正確性、有效性和適應(yīng)性。
結(jié)合時(shí)間序列和上下文因素,該文提出了一種上下文特征注入的空氣污染物濃度預(yù)測(cè)模型,通過(guò)對(duì)空氣污染物時(shí)間序列特征和上下文特征的提取,利用特征注入融合機(jī)制將這兩種特征進(jìn)行融合,最后將融合后的新特征送入預(yù)測(cè)器,實(shí)現(xiàn)了對(duì)空氣污染物濃度的準(zhǔn)確預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果表明,提出的FI-GRU模型在不同季節(jié)、不同模式下均能準(zhǔn)確提取空氣污染物的濃度變化趨勢(shì),預(yù)測(cè)精度高于LSTM、GRU、BiLSTM等對(duì)比模型。通過(guò)上下文特征的注入融合,可有效提高預(yù)測(cè)精度,實(shí)現(xiàn)更加準(zhǔn)確的空氣污染物濃度預(yù)測(cè),對(duì)提升城市空氣質(zhì)量管理水平和優(yōu)化空氣污染治理措施具有重要的理論意義和參考價(jià)值。未來(lái)的優(yōu)化會(huì)考慮空間、氣象等其他相關(guān)因素,并對(duì)每種特征在預(yù)測(cè)中的權(quán)重進(jìn)行更深入的研究。