張 恒,王 偉,孫雪蓮
(大連民族大學理學院,大連 116000)
在工業化、城鎮化進程逐步加劇以及經濟高速發展的背景下,空氣質量日益引起全社會重視,大氣污染給人民群眾身體健康及生活造成嚴重影響,同時空氣質量也關系到城市發展潛力。空氣污染是指在一定時間內大氣中污染物濃度達到或超過其允許值時造成的危害。它不僅會引起人體內有害氣體含量增加,而且還會導致人體免疫功能下降。因此,空氣質量預測與可視化對于城市環境管理與可持續發展具有重要意義,空氣質量好有助于增強城市綜合競爭力[1]。
當前空氣質量的好壞主要是由空氣質量指數的大小所決定的[2]。隨著社會經濟的發展,環境問題日益突出,空氣質量成為人們關注的焦點。為準確掌握空氣環境質量狀況及變化趨勢,建立科學的空氣質量評價體系尤為重要。因此,開展空氣污染指數時空變化研究十分必要。空氣質量指數監測結果既關系到六種污染物(PM2.5,PM10,SO2,NO2,CO,O3)的濃度,也關系到溫度、氣壓和風速等氣象因素,需全面考慮[3-4]。ARIMA及其他統計模型因其簡便、靈活的特點已大量應用于時間序列的預測[5-6]。然而空氣質量指數時間序列存在著非線性特點,且常規的預測方法均為線性模型,因此在空氣質量指數時間序列建模時顯示出了一定局限性[7]。因為神經網絡有很強的非線性映射能力[8],所以近幾年基于神經網絡預測空氣質量指數被廣泛應用,LSTM等神經網絡成為人們關注的焦點[9],然而單一非線性模型對于既有線性又有非線性的時間序列無法得到最優結果[10]。
針對上述問題,本文提出了ARIMA-LSTM融合模型。首先采用ARIMA模型提取空氣質量指數時間序列線性特征,然后將預測結果和真實值相減得到殘差序列,殘差序列和空氣質量指數影響因素作為LSTM的輸入,對空氣質量指數殘差進行修正,最后將修正結果與ARIMA模型預測結果相結合得到最終的預測結果。
ARIMA全稱為差分自回歸移動平均模型[11],由Box等[12]提出,通常被記作ARIMA(p,d,q)。p表示自回歸項數,d表示時間序列平穩差分的次數,q表示移動平均項數。
ARIMA模型的數學表達式如下:
其中:xt是平穩變量,φt是自回歸項系數,wt是殘差,θt是移動平均項系數。
本文的研究對象為空氣質量指數,考慮到序列的不平穩,因此使用ARIMA(p,d,q)進行建模預測。
LSTM是一種特殊的循環神經網絡,由Hochreiter等[13]提出,對數據序列具有記憶長期依賴關系,自學習能力強,非線性擬合能力強。本文利用這一特點,建立預測模型,如圖1所示,LSTM模型結構的每個單元都有以下更新。
圖1 中,xt表示該時刻的數據信息,激活函數σ和tanh表達式通常取如下值:
ft表示遺忘門,可以濾除前序列時刻的狀態信息,并確定前序時刻在后續時刻中的租用;it表示輸入門,用于控制輸入信息在該時刻中的信息占比;ot表示輸出門,用于控制本時刻狀態信息的輸出占比,計算公式分別為
其中:Wf、Wi、WO均是權重矩陣。如以下公式所示,Ct表示本時刻狀態信息,其值由本時刻輸入信息以及上一時刻狀態信息決定:
其中:C't=tanh(WC·[ht-1,xt]+bc)。ht表示本時刻隱藏層的狀態信息:
本文提出了一個基于ARIMA與LSTM的融合模型。ARIMA-LSTM模型主要包括三個方面:首先,利用自回歸滑動平均方法建立一個非線性動態過程;然后,通過引入神經網絡結構來提高其學習能力和泛化性能;最后,采用兩種不同類型數據對模型進行驗證分析。第一部分為線性ARIMA模型,在時間序列Yt上做單步預測,其結果用L?t來表達;第二部分為ARIMA模型誤差Nt與空氣質量指數的影響因素相結合,其結果用N?t來表達,其中Nt=Yt-L?t;第三部分是將預測結果L?t和N?t進行組合,預測結果表示為Y?t。圖2給出了ARIMA-LSTM模型流程。
本文采用2021年的日平均空氣質量數據作為ARIMA模型的基礎研究數據,其中前90%數據作為訓練集,后10%數據作為測試集。
神經網絡訓練時,數據之間的量綱差別對于網絡訓練的收斂效果和預測準確性起著至關重要的作用,所以在建模之前,有必要對輸入數據做預處理,本文利用公式(9)將每一維的特征映射到[0,1]指定區間。
其中:minx(t)和maxx(t)分別為訓練數據集的最小值和最大值,將訓練輸出數據反歸一化以獲得預測值。
在模型評價方面,本研究選取了平均絕對誤差(MAPE),平均絕對百分比誤差(MAPE)以及均方根誤差(RMSE)三個指標對模型空氣質量指數時間序列的預測性能進行了評估,各指標的值越小表明預測精度越高,預測效果也就越好。這三個評價指標的表達式如下:
其中,Xt代表實際值;Ft代表預測值;N是時間序列數據集樣本數目。
2.3.1 平穩性檢驗及平穩化處理
由圖2可以看出AQI序列具有一定的趨勢,并不是始終在一個常數值附近波動,初步判定該序列是不平穩的。通過ADF檢驗和KPSS檢驗可知,ADF統計量為1,KPSS統計量也為1,ADF檢驗通過,但KPSS檢驗未通過,結合兩種檢驗的結果可知空氣質量指數序列是不平穩的。對AQI數據進行一階差分,記作DAQI,再驗證其平穩性,ADF統計量為1,KPSS統計量也為0,ADF檢驗和KPSS檢驗都通過,則可以認為DAQI為平穩時間序列。
2.3.2 模型識別及定階
通過遍歷各種參數的各種組合,采用AIC與BIC準則對最優模型進行參數選擇,得到最優模型,最后確定的模型為ARIMA(1,1,2)。
2.3.3 模型擬合及檢驗
根據擬合結果,殘差用LB檢驗法處理白噪聲,結果表明Q統計量P值在0.05以上,擬合模型已完全提取時間序列信息。最后診斷殘差分布情況,其結果見圖3。殘差分布比較正常,時序圖變化基本平穩。最后利用Durbin-Watson檢驗法,檢驗殘差是否存在回歸分析中的一階自相關性,本文中DW值為1.9982,該值越接近2說明時間序列不存在一階相關性,即通過DW檢驗。綜上,ARIMA(1,1,2)擬合效果良好,能夠很好地預測出時序的趨勢。
2.3.4 ARIMA時間序列預測
回代預測2021年后10%的數據,所得預測結果如圖4所示。其中MAE=16.6239,MAPE=0.3520,RMSE=20.2222。將獲得的預測值和實際值相減,并將獲得的殘差作為隨后LSTM模型中的一個輸入變量來校正殘差。
2.3.5 LSTM殘差修正
采用前文ARIMA模型2021年后10%AQI測試樣本得到的殘差序列,建立了考慮AQI影響因素的LSTM神經網絡模型,模型預測所得殘差修正值如圖5所示。通過對上述兩種方法得出的結果對比可知,ARIMA模型具有較高的準確性和穩定性;而基于LSTM神經網絡算法可以有效提高預測精度。本文采用MATLAB軟件編程實現了該過程。最后,將ARIMA模型所得預測值與LSTM模型殘差預測修正值進行累加,獲得最終2021年后10%的AQI預測值,所得預測值所計算的各評價指標為MAE=3.0523,MAPE=0.0706,RMSE=3.5968。
2.3.6 結果分析
為評估提出的方法,實驗選取BP神經網絡模型進行對比分析,最后的對比方法包括ARIMA、BP神 經 網 絡 模 型、LSTM模 型、ARIMA-BP模型和ARIMA-LSTM融合模型,五種模型在相同數據集上進行實驗。由上述五種方法得出的最終預測結果對比如圖6所示,由預測結果計算出來的三個評價指標值見表1。

表1 五種預測模型評價指標結果對比
由對比結果可知,ARIMA模型的整體趨勢捕捉較好,但預測精度很差;BP神經網絡和LSTM模型較ARIMA模型精度有所提升,這是因為在建立神經網絡,輸入變量時考慮了污染物指標和氣象因素;而ARIMA-LSTM融合預測模型既能抓取線性特征又能捕捉非線性特征,雖然LSTM容易出現過擬合,但這種融合預測模型的LSTM模型只校正殘差,對于其總體預測效果幾乎沒有影響。通過實驗驗證了上述結論,本文融合模型與另外四種預測模型比較,該模型預測精度是最高的。
AQI作為反映空氣質量狀況的一項重要指標,其預測結果可以為政府及有關部門及時提供大氣環境質量變化趨勢,有助于提升環保部門大氣污染風險信息預警。針對傳統單一預測模型精度不高,不能滿足實際需要的問題,提出一種基于ARIMA-LSTM融合模型的空氣質量指數預測算法,實現對大連地區未來一段時間內空氣質量狀態的準確預估。本研究利用2021年大連市空氣質量指數數據及相關氣象數據,構建ARIMA-LSTM融合模型并開展仿真實驗,仿真實驗表明,該融合模型具有較好的預測效果,能夠提高空氣質量預測準確率,對于空氣污染監測、預警及防控治理有參考價值。在下一步研究中,將考慮更加全面的影響指標,進一步提升模型的穩定性和準確性。