李艷萍,趙曉宇
(鄂爾多斯應用技術學院信息工程系,內蒙古 鄂爾多斯017000)
當今時代,隨著人類社會經濟的快速發展,環境問題逐漸引起人們的重視和關注。每到冬季,北方不少城市的空氣污染比較嚴重。為了進一步了解空氣變化趨勢并了解空氣質量的污染情況,需要及時、準確地對空氣質量指數(AQI)進行預測。當預測即將出現重污染天氣時,果斷采取應對措施,如減少污染物排放。因此,科學、準確地預測空氣質量變化,并且有效地對空氣質量進行評估,對改善空氣污染狀況,促進城市環境建設工作以及引導人們生產生活方式具有重要的指導意義。作為空氣質量的評價指標,AQI 是根據環境質量標準和各項污染物對人體健康、生態、環境的影響而將常規監測的幾種空氣污染物濃度合在一起的數值評估指標,所以AQI 可以很直觀地反映空氣受污染程度[1-3]。因此,建立精確度較高的模型來預測未來的空氣質量指數,可以為空氣污染的防治和空氣質量的提高提供良好的理論指導。
目前空氣質量模型的研究主要有機理模型和數據模型兩類。機理模型需要根據復雜的物理化學過程和外部氣象條件及污染源排放等來建立預測模型[3],而數據模型不需要復雜的機理推導,它只需歷史的污染物數據,通過數據驅動的方法建立預測模型。現在的大數據時代可為基于數據的建模方法提供海量數據,搭建模型較為方便。通過查閱相關文獻,非機理模型的數據驅動模型預測方法使用得最為廣泛。在基于數據的機器學習算法中,神經網絡模型在研究空氣質量預測方面的預測效果較好[4-5]。人工智能(AI)中的機器學習(ML)是目前最流行的實現方法,而深度學習(DL)則是機器學習(ML)的一個分支,也是當下最流行的機器學習(ML)的一種[6]。隨著深度學習理論的迅速發展,由于空氣質量監測數據屬于時序數據,通過查閱相關文獻[7-9],LSTM 在時序預測方面得到了廣泛的使用,并且都取得了很好的預測效果。因此,本文提出了一種基于LSTM 的時間序列模型來預測空氣質量的AQI 指數的方法。
循環神經網絡(RNN)常用來處理序列數據,但是RNN對于長序列處理會出現“記憶丟失”的缺點,從而產生梯度消失和梯度爆炸的問題。LSTM 是在克服了RNN 這一缺點的基礎上形成的一種RNN 變形結構,通過在LSTM 內部結構中引入門控機制,通過“門”(gate)來控制丟棄或者保留信息,使得時間序列上的記憶信息可控,從而實現遺忘或記憶的功能[10],一定程度上克服了這一問題。LSTM 的實質是上一時刻隱含層的狀態參與到了這個時刻的計算過程中,因此LSTM 對于時間上有依賴的時序數據有著優秀的預測能力,可以用來建立AQI 指數預測模型。
本文采用基于Keras 的深度學習框架,利用Python3.7編程語言來建立LSTM 的空氣質量預測模型。Keras 是一個由Python 編寫的開源人工神經網絡庫,是由純Python 編寫的基于theano/tensorflow 的深度學習框架,可以作為Tensorflow、Microsoft-CNTK 和Theano 的高階應用程序接口,進行深度學習模型的設計、調試、評估、應用和可視化[11]。預測模型用Python 實現,非常易于調試和擴展,可讀性較好。
本文數據是中國空氣質量在線監測分析平臺歷史數據庫中的歷史數據,以鄂爾多斯市2014-01-01—2019-12-31 的空氣污染物監測數據為基礎,采樣頻率為一天一次,總共包含2 192 組數據,每日的數據包括PM2.5、PM10、SO2、CO、NO2、O3、AQI 指數7 個參數指標。
由于空氣污染指數AQI 是評估空氣質量的重要指標,因此,本文所建預測模型的輸入量為PM2.5、PM10、SO2、CO、NO2、O3這6 個參數和當前時刻的AQI 指數,指標的單位均為μg/m3,輸出量為AQI 指數。輸入輸出變量的變化趨勢如圖1 所示。由圖1 可知,AQI 指數和PM2.5、PM10、SO2、CO、NO2這5 個指標變化趨勢大致相同,但是和O3指標的變化趨勢相反。因此,可以直觀地找到影響空氣質量好壞的因素,可供政府和環保相關部門制訂相關政策時作為參考依據。

圖1 輸入輸出變量趨勢圖
由于各類數據具有量綱和性質不同的特點,為避免因為輸入輸出數據量綱差別比較大而出現模型訓練速度較慢、訓練誤差較大的情形,本文采用Min-MAX 方法對輸入輸出數據進行標準化處理,將數據特征縮小到[0,1]之間,經過歸一化的數據在尋找最優解時速度最快。
將2 192 組數據劃分為1 972 組為訓練集,220 組為測試集,建立基于Kears 框架的LSTM 空氣質量預測模型。輸入數據經過標準化處理之后送入LSTM 神經網絡進行處理,經過多次迭代之后得到LSTM 神經網絡AQI 預測模型。
在訓練LSTM 模型時,由于Adam 算法可以動態調整每個輸入參數的學習速率,因此優化器采用Adam 優化算法,采用均方誤差mse 最小化為損失函數的優化目標,訓練模型的迭代次數設為50,學習率設為0.01。最后模型經過LSTM神經網絡充分訓練后,最終得到的預測值(深灰色線)與真實值(淺灰色線)對比如圖2 所示。

圖2 AQI 指標預測圖
LSTM 訓練誤差如圖3 所示。由圖3 可知,LSTM 對于時序數據具有優秀的擬合能力,可以較準確地預測AQI 指數。模型在訓練時產生的均方根誤差RMSE 為4.18,測試時產生的均方根誤差RMSE 為3.45。預測模型的訓練誤差和測試誤差經過20 次迭代之后基本在0.001 左右趨于穩定。

圖3 LSTM 訓練誤差圖
從仿真結果可知,LSTM 模型訓練的均方根誤差RMSE為4.18,LSTM 的空氣質量預測模型具有自動挖掘各個輸入信息的內在規律特征的優點,根據上一時刻神經網絡的輸出和記憶單元的狀態信息以及當前時刻的輸入,三者共同決定當前時刻記憶單元狀態信息的更新,因此LSTM 神經網絡對于AQI 指數這樣的時序數據有著更強的學習能力,此外LSTM 還可以避免RNN 在訓練過程中出現梯度消失和梯度爆炸的問題。因此,基于LSTM 的神經網絡可以對時序數據建立最優的模型。
本文采用LSTM 神經網絡對空氣質量進行建模預測。采用空氣質量在線監測分析平臺歷史數據庫有關指標參數,形成時間序列樣本集,通過構建基于Kears 的LSTM 時間循環神經網絡預測模型,用于預測AQI 指數。LSTM 神經網絡模型能夠深入挖掘并記憶輸入樣本參數自身變化與AQI 指數的相互關系,使學習更加充分,預測精度更加準確。預測模型所得結果不僅能夠幫助人們全面掌握所在地區空氣污染源的排放情況,還可以幫助人們及時掌握影響城市空氣質量的因素,為空氣質量的監測、預警與調控提供科學依據。因此,該模型的建立對城市整體的規劃與建設、環境的污染控制管理等有著重要的理論意義與一定的參考價值。