基于時空相關(guān)性的LSTM算法及PM2.5濃度預(yù)測應(yīng)用

2021-06-21 01:53:52趙彥明

計算機應(yīng)用與軟件 2021年6期

關(guān)鍵詞：區(qū)域

趙彥明

(河北民族師范學(xué)院數(shù)學(xué)與計算機科學(xué)學(xué)院河北承德 067000)

0 引言

空氣污染物對人類健康的威脅與日俱增。2013年，Zheng等[1]指出實時預(yù)測空氣污染物濃度信息對于控制空氣污染和防止空氣污染引起的健康問題具有重要意義。文獻[2-3]的研究工作表明，一般來說，顆粒物體積越小，水溶性越強，在呼吸系統(tǒng)的穿透力與吸附率越高，對人體的健康影響越大。因此，對PM2.5粒子濃度演進過程與預(yù)測算法的研究已成為當(dāng)前熱點。

現(xiàn)階段，空氣污染物粒子濃度演進與預(yù)測算法主要包括確定算法與統(tǒng)計算法。其中確定算法主要依據(jù)氣象學(xué)相關(guān)理論和大氣物化反應(yīng)過程等先驗知識，應(yīng)用多元統(tǒng)計學(xué)理論，實現(xiàn)大氣污染物粒子濃度演進過程模擬與濃度預(yù)測，并取得較好的研究與應(yīng)用效果。主要研究成果包括：基于特定性空氣質(zhì)量預(yù)測算法[4]、WRFChem算法[5]、在不同尺度和方向上模擬空氣污染物的時空分布特征算法[6]、區(qū)域多尺度空氣質(zhì)量(CMAQ)算法[7]。但是，該類算法是建立在一定的先驗知識基礎(chǔ)上的，并受到多維條件約束，算法不具備普適性。

為改進確定算法缺欠，僅依據(jù)多元統(tǒng)計理論的統(tǒng)計算法被提出。該類算法主要包括非神經(jīng)網(wǎng)絡(luò)算法和神經(jīng)網(wǎng)絡(luò)算法。其中絕大部分非神經(jīng)網(wǎng)絡(luò)算法以回歸方式解決確定性算法的缺欠，在研究與應(yīng)用領(lǐng)域取得較好的模擬與預(yù)測效果。代表性算法包括多元線性回歸(MLR)方法[8]、支持向量回歸(SVR)方法[9]、wavelet-ARMA/ARIMA算法[10]等。

2011年Yoon等[11]的實驗表明人工神經(jīng)網(wǎng)絡(luò)(ANN)具有非線性映射、自適應(yīng)和魯棒性較好的特征，因此在大氣污染物粒子濃度演進過程模擬與濃度預(yù)測中具有較好應(yīng)用價值。近年來，國內(nèi)外開發(fā)了各種ANN結(jié)構(gòu)來改進空氣污染物濃度的預(yù)測。人工神經(jīng)網(wǎng)絡(luò)算法包括通用神經(jīng)網(wǎng)絡(luò)算法與專用神經(jīng)網(wǎng)絡(luò)算法。通用的神經(jīng)網(wǎng)絡(luò)算法包括：基于徑向基神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測算法[12]、基于多層感知器的空氣質(zhì)量預(yù)測算法[13]、時間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)[14]、Elman神經(jīng)網(wǎng)絡(luò)[15]、基于模糊神經(jīng)網(wǎng)絡(luò)的空氣預(yù)測算法[16]。通用神經(jīng)網(wǎng)絡(luò)算法將不同類型的神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于大氣污染物粒子演進模擬與濃度預(yù)測上，具有較好的效果。但是以上研究忽視了大氣污染物粒子濃度演進過程模擬與濃度預(yù)測是一個時間序列，應(yīng)該從時間序列角度出發(fā)，學(xué)習(xí)該過程的時間依賴特征。因此，基于時間依賴特征學(xué)習(xí)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等專用神經(jīng)網(wǎng)絡(luò)被引入到大氣污染物粒子濃度演進與預(yù)測領(lǐng)域。基于RNN算法的研究主要如下：2011年Feng等[17]將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到空氣質(zhì)量預(yù)測中，取得較好的效果；2015年Ma等[18]指出循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以有效提取時間序列的時間依賴特征，并保證學(xué)習(xí)時間序列的能力。但是梯度消失或爆炸問題制約循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時間序列的長時依賴性特征。長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)可解決傳統(tǒng)RNN的梯度問題，實現(xiàn)時間序列的長期依賴性學(xué)習(xí)。

LSTM算法已經(jīng)在大氣污染物粒子濃度演進與預(yù)測領(lǐng)域取得較好的研究成果。一般LSTM算法包括LSTM method and evaluation算法[19]、ensemble-LSTM算法[20]、CNN-LSTM算法[21]、LSTM-FC算法[22]；基于空氣污染物粒子濃度特征的LSTM算法包括GC-LSTM算法[23]、spatiotemporal convolutional LSTM算法[24]；基于深度學(xué)習(xí)的LSTM算法包括DL-LSTM算法[25]、多輸出的DL-LSTM算法[26]、Deep DL-LSTM算法[27]。

綜上，與其他模擬與預(yù)測算法相比，基于LSTM的大氣污染物粒子濃度演進過程模擬與濃度預(yù)測算法具有較好效果，但是還存在如下缺欠：(1) 研究方法僅考慮大氣污染物粒子濃度演進過程的時間依賴性，而忽視該過程的空間相關(guān)性；(2) 研究方法忽視空間相關(guān)性，包括全局區(qū)域與局部區(qū)域相關(guān)性；(3) 沒有將空間相關(guān)性有效融合到LSTM算法中，實現(xiàn)集時間依賴性與空間相關(guān)性一體的LSTM大氣污染物粒子濃度演進過程模擬與濃度預(yù)測。

基于此，本文提出基于時空相關(guān)性的LSTM算法并用于PM2.5濃度預(yù)測。本文旨在研究大氣污染的演進過程，并融合自定義的空間特征與LSTM提取的時間特征，建立大氣演進算法并預(yù)測粒子濃度。本文主要創(chuàng)新包括：(1) 指出PM2.5演進過程是多元隨機過程，其中時間依賴性與空間相關(guān)性為主要響應(yīng)因素。(2) 提出全局與局部空間相關(guān)性及其計算方法，實現(xiàn)算法的普適性。(3) 實現(xiàn)局部區(qū)域空間信息相關(guān)性因子與LSTM算法的遺忘門和記憶門融合，建立基于局部地理信息的LSTM算法(LTS_LSTM)，使LSTM算法具有局部地理信息特征學(xué)習(xí)能力。(4) 以LTS_LSTM算法學(xué)習(xí)結(jié)果為輸入，融合全局空間相關(guān)性，建立基于全局地理信息的時空相關(guān)的LSTM算法(GTS_LSTM)，從地理信息的全局角度模擬空氣污染物粒子濃度演進過程，并進行離子濃度預(yù)測。

1 算法設(shè)計

大氣污染物PM2.5的離子濃度演進是一個受多元因素制約的時間序列變化過程，具有高度的時間依賴性和空間相關(guān)性，并受諸多其他因素影響。因此，具有時間與空間記憶功能的神經(jīng)網(wǎng)絡(luò)能夠更好地模擬PM2.5的演進過程，準確預(yù)測PM2.5粒子濃度。

1.1 PM2.5粒子濃度空間相關(guān)性特征

文獻[28]指出大氣污染物粒子濃度演進過程的地理相關(guān)性，并初步明確風(fēng)力、風(fēng)向和地理位置為地理相關(guān)性因素，但其忽視了地理相關(guān)性與研究區(qū)域范圍的關(guān)系。在較大的研究區(qū)域中，還存在山脈、植被等地理相關(guān)性因素。因此，根據(jù)研究區(qū)域大小，本文將研究區(qū)域劃分為全局區(qū)域與局部區(qū)域兩類。不同區(qū)域決定地理空間信息相關(guān)性的關(guān)鍵因素也不相同。基于上述分析，繪制地理相關(guān)信息圖示，如圖1所示。

(a) 觀測點分布圖 (b) 影響因素示意圖

圖1中，Pi和Pj表示兩個空氣質(zhì)量觀測近鄰站點，Cmountain表示近鄰觀測站點Pj與Pi間影響PM2.5粒子濃度的山脈影響系數(shù)，該系數(shù)由山脈的跨度、高度及與近鄰點Pj與Pi間連線的夾角決定。Cwind表示近鄰觀測站點Pj與Pi間影響PM2.5粒子濃度的風(fēng)因素影響系數(shù)，該系數(shù)由風(fēng)力和風(fēng)向與近鄰點Pj與Pi間連線的夾角決定。Cvegetation表示近鄰觀測點Pj與Pi間的植被因素影響系數(shù)，該系數(shù)由近鄰點Pj與Pi間的植被繁茂程度決定，本文采用NDVI系數(shù)表示。NDVI系數(shù)能較好地反映植被茂盛程度，且受其他條件影響較少。D(j,i)表示觀測點Pj與Pi間的距離，可以用兩點間經(jīng)緯度的歐氏距離表示。

PM2.5粒子濃度的地理空間信息τ(i,j)定義如下：

τ(i,j)=Wwind×cosθ×Mmountain×cosφ×NDVI/D(i,j)

(1)

式中：Wwind表示近鄰點Pj與Pi間該時段的平均風(fēng)力；Mmountain表示近鄰點Pj與Pi間山脈的規(guī)模。該信息表明鄰域觀測點Pj粒子濃度與被觀測點Pi粒子濃度間的相關(guān)性。山脈規(guī)模可以表示為：

Mmountain=Mlength×Mwidth×Mhigh

式中：Mlength、Mwidth、Mhigh分別為山脈的長度、寬度、高度。

τ(i,j)具有良好的慢變性和風(fēng)力實時性，是一個長時動態(tài)變化過程，區(qū)域越大穩(wěn)定性越強。

在全局區(qū)域中，風(fēng)的實時屬性(風(fēng)力和風(fēng)向)、地理位置、地域山脈、地域植被、地域溫度濕度等因素均為關(guān)鍵影響因素，并受到時間滯后性影響；而在局部區(qū)域上，觀測點之間距離較近，決定地理空間信息相關(guān)性的關(guān)鍵因素主要包括風(fēng)的實時屬性(風(fēng)力和風(fēng)向)、地理位置因素。因此，將式(1)變換為：

(2)

該算法作為局部地理相關(guān)性計算準則，完成局部區(qū)域地理信息相關(guān)性計算，生成具有實時特征的局部地理相關(guān)性向量，實現(xiàn)算法地理相關(guān)性學(xué)習(xí)。

1.2 基于時空相關(guān)性的LSTM算法

PM2.5粒子濃度演進過程是一個受多重因素影響的隨機過程，具有高度的時間依賴性，尤其是長時依賴性。PM2.5粒子濃度演進過程的時間依賴性可表示為：

ρ(θ，t)=ρ(θ,t-1,t-2,…,t-k)

(3)

式(3)表明在PM2.5粒子濃度時間序列中，樣本間存在長時依賴關(guān)系。LSTM算法通過解決RNN網(wǎng)絡(luò)的梯度消失與梯度爆炸問題實現(xiàn)長短時依賴性學(xué)習(xí)，并在大氣污染物粒子濃度演進模擬與預(yù)測中取得較好進展。但是，LSTM算法不能依據(jù)地理空間的相關(guān)性特征學(xué)習(xí)粒子濃度演進過程中的地理信息相關(guān)性。因此，本文將自定義的空間相關(guān)性方法與LSTM算法融合，提出TS_LSTM算法，該算法能夠?qū)崿F(xiàn)大氣污染物粒子濃度的時間依賴性與空間相關(guān)性學(xué)習(xí)。

1.3 LSTM算法

LSTM網(wǎng)絡(luò)是一種特殊類型的RNN，由一個輸入層、一個輸出層和一系列反復(fù)連接的隱藏層組成，并以門限的形式實現(xiàn)時間依賴性學(xué)習(xí)，其結(jié)構(gòu)圖如圖2所示。

圖2 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

在此，LSTM算法的輸入向量表示為X=(x1,x2,…,xn)，xi∈RT,i=1,2,…,n，n表示輸入向量的維數(shù)，T表示時間序列的時間滯后性，Y=(y1,y2,…,yn)表示輸出序列，LSTM學(xué)習(xí)過程描述為：

ft=σ(Wf·[ht-1,xt]+bf)

(4)

it=σ(Wi·[ht,xt]+bi)

(5)

Ct=ft*Ct-1+it*Ct

(6)

ot=σ(Wo·[ht-1,xt]+bo)

(7)

ht=ot*tanh(Ct)

(8)

式中：it、ot和ft分別表示LSTM網(wǎng)絡(luò)的輸入門、輸出門和遺忘門；Ct和ht分別表示每個神經(jīng)元細胞和記憶模塊的激活向量；W和b分別表示權(quán)重矩陣和偏置向量；*代表卷積運算。σ(·)表示激活函數(shù);tanh(·)表示雙曲正切函數(shù)tanh()。

(9)

(10)

本文采用BPTT算法和客戶定制的RTRL算法訓(xùn)練LSTM網(wǎng)絡(luò)。訓(xùn)練步驟如下：

(1) 利用BPTT算法訓(xùn)練TS_LSTM算法；(2) 按照RTRL算法訓(xùn)練TS_LSTM算法，并在每個訓(xùn)練步中，按照自定義的最佳響應(yīng)準則將BPTT的訓(xùn)練結(jié)果與本步的訓(xùn)練結(jié)果融合，實現(xiàn)網(wǎng)絡(luò)參數(shù)優(yōu)化調(diào)整。最佳響應(yīng)準則為：

w(t,i,j)=max(wBPTT(t,i,j),wRTRL(t,i,j))

(11)

式中：w(t,i,j)表示第t步的權(quán)值結(jié)果；wBPTT(t,i,j)、wRTRL(t,i,j)分別表示第t步BPTT與RTRL權(quán)值結(jié)果。

1.4 融合地理信息的LSTM算法

研究證明，LSTM網(wǎng)絡(luò)已經(jīng)能夠較好地學(xué)習(xí)PM2.5粒子濃度的時間依賴性特征。但為有效實現(xiàn)PM2.5粒子濃度的時間依賴性和空間相關(guān)性的融合學(xué)習(xí)，本文結(jié)合粒子濃度的區(qū)域分類，提出了兩步模擬與預(yù)測法：第一步改進LSTM微觀結(jié)構(gòu)，根據(jù)地理信息邏輯開關(guān)(K)，實現(xiàn)局部區(qū)域的地理信息相關(guān)性學(xué)習(xí)；第二步根據(jù)地理信息邏輯開關(guān)(K)，融合全局地理信息與LSTM網(wǎng)絡(luò)的微觀輸出，實現(xiàn)全局區(qū)域的地理信息相關(guān)性學(xué)習(xí)。經(jīng)過兩步空間相關(guān)性與時間依賴性學(xué)習(xí)，從局部和全局空間,算法實現(xiàn)時間依賴性與空間相關(guān)性融合學(xué)習(xí)。

時空相關(guān)性LSTM算法功能結(jié)構(gòu)如圖3所示。

(a)局部地理相關(guān)性改進功能圖(LTS_LSTM)

(b) 全局地理相關(guān)性改進功能圖(GTS_LSTM)(γ=sgn()×x,x表示地理信息)圖3 時空相關(guān)性LSTM算法功能圖

TS_LSTM算法步驟如下：

1) 根據(jù)地理信息邏輯開關(guān)(K)，對表示記憶與遺忘功能的式(6)改進，改進結(jié)果為Ct=ft*Ct-1*P1t+it*Ct-1*P2t，實現(xiàn)局部地理相關(guān)信息與時間依賴信息的融合學(xué)習(xí)。Pit計算方法為：地理信息加強演進進程因素為P1t=Wwind×cosθ/D(i,j)，τ(i,j)>0；地理信息減弱演進進程因素為P2t=Wwind×cosθ/D(i,j)，τ(i,j)≤0。

2) 根據(jù)地理信息邏輯開關(guān)(K)，計算局部LSTM輸出與全局地理相關(guān)性的內(nèi)積，實現(xiàn)全局地理相關(guān)性與時間依賴性的融合學(xué)習(xí)，實現(xiàn)LSTM網(wǎng)絡(luò)全局改進，并實現(xiàn)了時滯的初步學(xué)習(xí)，改進結(jié)果為：H·τ(i)。

通過上述改進，解決了LSTM網(wǎng)絡(luò)僅能實現(xiàn)時間依賴性學(xué)習(xí)，而不能學(xué)習(xí)空間相關(guān)性的問題，實現(xiàn)了全局與局部地理信息相關(guān)性與時間依賴性的融合學(xué)習(xí)，探索了時間學(xué)列中如何解決空間信息相關(guān)性的問題。

1.5 預(yù)測算法評價手段

本文使用均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分誤差(MAPE)三個評價指標實現(xiàn)算法性能評價。上述三個指標計算公式如下：

(12)

(13)

(14)

2 實驗

2.1 算法研究區(qū)域與驗證數(shù)據(jù)集

本文選用全局數(shù)據(jù)集和局部數(shù)據(jù)集實現(xiàn)算法性能研究。全局數(shù)據(jù)集限定在京津冀地區(qū)，該地區(qū)包含發(fā)展中國家的PM2.5形成的主要因素，具有良好的代表性。數(shù)據(jù)集采集自國家氣象局近七年的24小時的平均空氣粒子濃度數(shù)據(jù)；局部區(qū)域數(shù)據(jù)集限定在北京地區(qū)12個空氣監(jiān)測站點。(全局區(qū)域包括：北部新區(qū)、豐臺云崗、農(nóng)展館、承德、廊坊、保定、石家莊、邯鄲、東麗、津南、開發(fā)區(qū)和武清區(qū)；局部區(qū)域包括：北部新區(qū)、植物園、萬柳、奧體中心、農(nóng)展館、東四、觀園、古城、天壇、萬壽西宮、豐臺花園和豐臺云崗)數(shù)據(jù)集包括每小時的空氣粒子濃度數(shù)據(jù)。全局和局部區(qū)域數(shù)據(jù)均采用20∶80的比例劃分測試集與訓(xùn)練集。

(a) 北京區(qū)域空氣質(zhì)量監(jiān)測站的分布圖

(b) 京津冀空氣質(zhì)量監(jiān)測站的分布圖圖4 全局與局部研究區(qū)域圖

2.2 大氣污染物粒子濃度的空間相關(guān)

Pearson相關(guān)系數(shù)能夠準確描述數(shù)據(jù)相關(guān)性，本文采用該系數(shù)實現(xiàn)PM2.5污染物粒子濃度的空間相關(guān)性研究，計算全局(京津冀)與局部(北京)區(qū)域不同觀測站點的粒子濃度空間相關(guān)系數(shù)，并繪制空間相關(guān)性分布圖，如圖5所示。

(a) 時滯系數(shù)為1小時

(b) 時滯系數(shù)為36小時圖5 PM2.5粒子濃度的Pearson相關(guān)系數(shù)分布圖

實驗結(jié)果表明，在1小時時滯區(qū)間內(nèi)，北京城區(qū)12個空氣監(jiān)測站點PM2.5濃度的Pearson相關(guān)系數(shù)高于0.8，近鄰站點的相關(guān)系數(shù)高于0.91。因此，12個觀測站點的PM2.5濃度具有較強的空間相關(guān)性，且近鄰站點的相關(guān)性高于遠鄰站點的相關(guān)性。在36小時時滯區(qū)間內(nèi)，京津冀區(qū)域12個空氣監(jiān)測站點PM2.5濃度的Pearson相關(guān)系數(shù)高于7.7，近鄰站點的相關(guān)系數(shù)高于0.89。因此，12個觀測站點的PM2.5濃度具有較強的空間相關(guān)性，且近鄰站點的相關(guān)性高于遠鄰站點的相關(guān)性。綜上所述，在良好的時滯區(qū)間，全局與局部區(qū)域PM2.5粒子濃度近鄰間具有強相關(guān)性，全局區(qū)域相關(guān)系數(shù)低于局部區(qū)域的相關(guān)系數(shù)。

2.3 基于自相關(guān)的長期依賴性研究

自相關(guān)系數(shù)法能夠較好地分析時間序列的時間依賴性。本文采用自相關(guān)系數(shù)方法，計算全局區(qū)域和局部區(qū)域內(nèi)12個空氣監(jiān)測站點的PM2.5濃度的自相關(guān)系數(shù)，并繪制相關(guān)系數(shù)圖，如圖6所示。

(a) 局部區(qū)域時間依賴性 (b) 全局區(qū)域時間依賴性圖6 局部區(qū)域與全局區(qū)域空氣檢測站點粒子濃度的自相關(guān)系數(shù)與時間滯后的變化關(guān)系

該實驗結(jié)果表明，在局部區(qū)域中，觀測站點間的離子濃度存在長時依賴性，并且時間滯后關(guān)系清晰。在全局區(qū)域中，觀測站點間的離子濃度存在長時依賴性，并且時間滯后關(guān)系清晰。與局部區(qū)域的長時依賴性比較，宏觀區(qū)域的長時依賴性的滯后時間要長很多。

2.4 時間滯后性影響

時滯性制約了時間序列算法的學(xué)習(xí)性能，PM2.5粒子濃度演進過程受到時滯影響。因此，采用均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分誤差(MAPE)三個評價指標，針對不同區(qū)域?qū)λ惴ǖ臅r滯性進行評價，評價結(jié)果見表1。

表1 時滯預(yù)算法性能表

實驗結(jié)果表明，時滯對算法的性能具有明顯影響，全局區(qū)域的時滯影響在12小時左右，局部區(qū)域時滯的影響在6小時左右，且宏觀區(qū)域的時滯總體大于微觀區(qū)域的時滯。算法性能影響上，時滯對宏觀區(qū)域影響比微觀區(qū)域更明顯，微觀區(qū)域的時滯影響變換快。結(jié)果表明時滯與區(qū)域大小具有較強相關(guān)性。

2.5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)影響

LSTM網(wǎng)絡(luò)結(jié)構(gòu)，尤其是節(jié)點數(shù)對長時依賴性和地理信息相關(guān)性特征學(xué)習(xí)具有重要影響。因此，針對不同區(qū)域，不同網(wǎng)絡(luò)節(jié)點數(shù)目，在局部時滯1小時和全局時滯36小時條件下，采用設(shè)定的三個標準評價節(jié)點數(shù)對算法性能的影響，結(jié)果見表2。

表2 TS_LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對算法性能影響

實驗結(jié)果表明，在相同時滯和相同的數(shù)據(jù)集上，隨著本文TS-LSTM神經(jīng)網(wǎng)絡(luò)節(jié)點數(shù)目增加，算法對時間依賴性與空間相關(guān)性學(xué)習(xí)性能逐步增強，TS-LSTM算法能夠準確模擬PM2.5粒子濃度演進過程，并且準確預(yù)測PM2.5的粒子濃度。

2.6 預(yù)測值與觀測值的分布圖

在全局與局部預(yù)測與觀測數(shù)據(jù)集中個采樣1 400個樣本，繪制全局與局部PM2.5預(yù)測值與觀測值分布圖如圖7所示。

(a) 全局PM2.5預(yù)測值與觀測值分布圖 (b) 局部PM2.5預(yù)測值與觀測值分布圖圖7 全局與局部區(qū)域12個檢測站點PM2.5預(yù)測值與觀測值分布圖

實驗結(jié)果表明，本文算法的預(yù)測值與觀測值之間具有近似y=x+ε(ε為任意小正數(shù))的擬合分布。說明算法的預(yù)測結(jié)果與觀測結(jié)果來自相同的數(shù)據(jù)集，因此本文算法具有良好的預(yù)測效果。

2.7 算法預(yù)測性能比較研究

在相同訓(xùn)練和測試集、不同的輸入?yún)?shù)和不同的網(wǎng)絡(luò)構(gòu)架上，將本文的TS-LSTM算法與多元線性回歸算法(MLR)[8]、支持向量機(SVR)[9]、wavelet-ARMA/ARIMA算法[10]、模糊神經(jīng)網(wǎng)絡(luò)[16]、LSTM神經(jīng)網(wǎng)絡(luò)[19]、GC-LSTM神經(jīng)網(wǎng)絡(luò)[24]、DL-LSTM神經(jīng)網(wǎng)絡(luò)[26]算法的性能進行比較，結(jié)果如表3所示。

表3 算法性能比較表

實驗結(jié)果表明，在相同訓(xùn)練和測試集、不同的輸入?yún)?shù)和不同的網(wǎng)絡(luò)構(gòu)架上，人工神經(jīng)網(wǎng)絡(luò)算法具有非常好的非線性預(yù)測能力，與非神經(jīng)網(wǎng)絡(luò)相比具有更好的預(yù)測效果；深層神經(jīng)網(wǎng)絡(luò)的預(yù)測能力優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)；本文算法預(yù)測性能優(yōu)于其他LSTM網(wǎng)絡(luò)，且算法性能在局部區(qū)域具有優(yōu)于全局區(qū)域的性能。綜上，與其他時間序列分析算法比較，本文的TS-LSTM算法具有較好的預(yù)測能力。

3 結(jié) 語

本文提出了基于時空相關(guān)性的LSTM算法，并在PM2.5演進與濃度預(yù)測上應(yīng)用，解決了空氣污染物粒子濃度演進過程模擬與預(yù)測算法忽視了粒子濃度的空間相關(guān)性的問題，實現(xiàn)粒子濃度的時間依賴性與空間相關(guān)性融合，在全局與局部數(shù)據(jù)集上取得良好的演進模擬與預(yù)測效果。在相同數(shù)據(jù)集上，采用不同的網(wǎng)絡(luò)構(gòu)架和實驗參數(shù)，與多種經(jīng)典算法比較，本文算法具有良好的預(yù)測性能和模擬效果。研究發(fā)現(xiàn)在PM2.5粒子濃度演進模擬與數(shù)值預(yù)測上：1) 深度神經(jīng)網(wǎng)絡(luò)性能優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)；淺層神經(jīng)網(wǎng)絡(luò)優(yōu)于非神經(jīng)網(wǎng)絡(luò)。2) LSTM神經(jīng)網(wǎng)絡(luò)能夠較好地學(xué)習(xí)空氣濃度的長時依賴性，因此其具有優(yōu)于同類淺層神經(jīng)網(wǎng)絡(luò)的模擬效果與預(yù)測性能。3) 具有時空性能學(xué)習(xí)的多層深度LSTM神經(jīng)網(wǎng)絡(luò)，具有優(yōu)于傳統(tǒng)時間序列算法和神經(jīng)網(wǎng)絡(luò)算法的性能。4) 本文算法在全局與局部空氣質(zhì)量預(yù)測上均具有良好的預(yù)測性能和良好的模擬效果。