基于雙向循環神經網絡的空氣質量預測模型的實現

2022-10-21 13:44:46陳春瑋張建明賀易棟

科學技術創新 2022年28期

關鍵詞：模型

陳春瑋，張建明，賀易棟

（廣東職業技術學院，廣東佛山 528000）

概述

目前，隨著中國經濟的高速發展，工業化建設、交通規模持續擴大，中小型的加工廠的建設隨著發展的需要也越來越多，燃油車的保有量逐年增加等能源和環境問題帶來的汽車尾氣、工業污染排放、建筑顆粒揚塵、垃圾焚燒等增加大氣的污染問題。空氣污染問題日趨嚴重，也逐漸成為人民群眾日常關注的民生問題。對于空氣污染的預測很有必要，用于指導出行計劃，工業生產，環境調控等都有一定的科學依據。針對目前很多預測模型都是單向的循環神經網絡時序模型，信息利用不充分[1]。本研究結合LSTM 和GRU 雙向神經網絡為主，卷積神經網絡為輔的預測模型，從而提高模型解釋方差。

1 相關技術研究

1.1 基于傳統機器學習對空氣質量的研究

機器學習中有許多的模型可以應用到空氣質量的預測，我們主要用sklearn 進行模型的搭建于實驗。其中我們用到的模型貝葉斯、SVM、隨機森林、梯度提升樹、Bagging、KNN、極端隨機樹[2]。模型上，以被解釋方差（R2）來進行評價。其中，貝葉斯（R2 : 0.378）、SVM（R2 : 0.285）、隨機森林（R2 : 0.676）、梯度提升樹（0.576）、Bagging（R2 : 0.651）、KNN（R2 : 0.523）、極端隨機樹（R2 : 0.717）。進行了實驗以后可以看到，相對于線性模型，非線性模型的R2 會更高。對比各個模型的R2，發現最后一個極端隨機樹是最高的，其中利用集成學習模型的R2 也相對比較高。但是，傳統的機器學習還是存在一個時空問題，也就是說其實影響空氣質量指數的相關污染物，與時間的變化也是有關的，傳統的機器學習并不能有效解決這個問題。

1.2 基于循環神經網絡對空氣質量的研究

循環神經網絡的來源是為了刻畫一個序列當前的輸出與之前信息的關系。從網絡結構上，循環神經網絡會記憶之前的信息，并利用之前的信息影響后面結點的輸出。為了處理傳統機器學習中突出與時間的關系，解決長序列訓練過程中的梯度消失和梯度爆炸問題。我們使用LSTM 和GRU。具體表現LSTM 模型中R2 的CO：0.563，NO2：0.096，O3:0.51,PM2：0.549，PM10：0.567，SO2:0.525; 具體表現GRU 模型中R2 的CO：0.482，NO2：0.113，O3:0.471,PM2：0.602，PM10：0.541，SO2:0.517[3-4]。

對數據進行100 次、批次為1 000 的訓練。進行實驗后的數據，可以看到R2 的平均值在0.461，而且對與NO2的預測后的R2 尤為低。看到傳統的機器學習中的極端隨機樹的R2 有0.717，這樣來看還比不上傳統的機器學習。雖然解決了時間相關性問題，但是R2下降了。

1.3 基于BBCNN 模型對空氣質量的研究

BBCNN 模型利用了兩個雙向循環神經網絡和一個一維卷積神經網絡。雙向循環神經網絡（BRNN）的基本思想是提出每一個訓練序列向前和向后分別是兩個循環神經網絡（RNN），而且這兩個都連接著一個輸出層。這個結構提供給輸出層輸入序列中每一個點的完整的過去和未來的上下文信息。

我們進行100 次、批次為1 000 的訓練后得到的數據。具體表現為CO:0.941,NO2:0.972,O3:0.971,PM2:0.983,PM10:0.978,SO2:0.979。從中可以看到對六種污染物的R2 均值在0.977。對循環神經網絡R2 有了大幅提高，對極端隨機樹也有大幅提高，解決了兩者的問題。

2 數據描述與處理

2.1 數據的描述

數據來自2021 年華為杯研究生數學建模數據集，數據有24 個特征：

模型運行日期、預測時間、地點、近地2 m 溫度（℃）、地表溫度（K）、比濕（kg/kg）、濕度（%）、近地10 m 風速（m/s）、近地10m 風向（°）、雨量（mm）、云量、邊界層高度（m）、大氣壓（Kpa）、感熱通量（W/m2）、潛熱通量（W/m2）、長波輻射（W/m2）、短波輻射（W/m2）、地面太陽能輻射（W/m2）、SO2小時平均濃度(μg/m3)、NO2小時平均濃度(μg/m3)、PM10小時平均濃度(μg/m3)、PM2.5小時平均濃度(μg/m3)、O3小時平均濃度(μg/m3)、CO 小時平均濃度(mg/m3)。

其中，將O2小時平均濃度(μg/m3)、NO2小時平均濃度(μg/m3)、PM10小時平均濃度(μg/m3)、PM2.5小時平均濃度(μg/m3)、O3小時平均濃度(μg/m3)、CO 小時平均濃度(mg/m3)。由于空氣質量指數需要這六種污染物作為計算標準，我們將這六種作為預測目標[5]。

2.2 數據處理

先利用pandas 讀入數據，檢查數據有無確實以及格式問題。經過檢查，發現并沒有缺失等問題。我們想要將數據放入循環神經網絡，需要將數據轉化為時序數據。通過觀察“預測時間”，發現每個小時會收集一次數據，因此我們將24 h 來當作時序數據一個批的數據量。

3 模型實現與分析

3.1 構建模型的思路

構建模型的時候，發現利用單層LSTM 構建的模型訓練結果有比較大的波動；發現利用單層GRU 構建的模型訓練結果LOSS 下降的比較慢。LSTM 比GRU 下降的快，而GRU 比LSTM 穩定。為了將兩者的優點結合，模型會將兩個模型結合使用。在訓練后，預測結果出現了一個周期問題。當我們輸入正序數據時，預測結果沒有出現問題，但當輸入的數據沒有按照正序輸入的時候，發現RMSE 明顯增大，預測出來的結果也不正常。這一問題，我們利用雙向循環神經網絡解決。提高模型對數據的擬合度。為了能獲得更高的R2 以及更小的誤差，我們引入一維卷積神經網絡。為了提高模型的輸出的穩定性，最后的增加多一層的全連接神經網絡。見圖1。

圖1 模型思路圖

3.2 模型結構

數據在進入模型的后兩個輸入方向。先進入雙向循環神經網絡。雙向循環神經網絡我們利用LSTM 和GRU 混合使用。每個雙向循環神經網絡輸入接入批標準化。然后將兩個方向的數據進行拼接。之后進入兩層一維卷積神經網絡,每個輸出都接入批標準化，最后輸入全連接神經網絡。見圖2。

圖2 模型結構

3.3 模型優化

我們如果直接選擇全部特征輸入到我們寫好的模型中，那么會存在噪音。我們需要預測的有六個污染物，那么有一些特征對于所需要預測的污染物，有可能會存在負影響。這些負影響就會拉低整個模型預測這一污染物的R2,以及提高預測的誤差。為了解決這個問題，我們將每一特征單個刪除以后訓練模型，然后以訓練出來的R2 作為參照標準。見圖3。

圖3 刪除單個特征獲取R2 流程

之后我們開始訓練模型，訓練100 次、批次為1 000。我們會獲得每個污染物15 個的R2。我們可以利用R2 來進行判斷一個污染物失去了這一特征對其預測的誤差以及R2 有什么樣的影響。利用這些影響來判斷這一特征是否對污染物有著負面的影響, 若是有負面的影響,我們將這一特征刪除。

我們將各個特征的R2 進行平均以后和模型訓練的R2 進行對比。見表1。

從表1 中，可以看到只有CO 的兩者差異較大，我們對CO 進行調整。若每一特征刪除后訓練的R2 大于平均則刪除。我們在觀察以后選擇刪除，['近地2 m溫度（℃）']、['比濕（kg/kg）']、['近地10 m 風速（m/s）']、['大氣壓（Kpa）']、['潛熱通量（W/m2）']、['短波輻射（W/m2）']、['地面太陽能輻射（W/m2）']。最后，重新訓練，得到的R2 為0.9414。

表1 R2 對比

經過了優化訓練以后，我們利用RMSE、MSE、MAE、R2 對模型進行評估。見表2。

表2 各個污染物的誤差指標對比

4 結論

目前利用循環神經網絡對空氣質量進行預測不在少數，循環神經網絡用的比較多的也就是LSTM。LSTM 的記憶性能力，讓它能夠適應和應用在很多場景。單純的記憶能力能應對的是一段時間內的預測，我在對模型的構建時就想到如若可以將卷積的特性加入進去，就能提高對新數據的擬合度。對于最后的預測數據來說，是非常需要批量標準化，這一步能大大提高模型對數據的擬合度，也能大大降低模型的訓練難度。如果可以加入圖片數據（加入的數據也就是各種天氣下同一個位置的照片，以及各種環境下的照片），那么我們就可以利用二維卷積神經網絡來進行輔助判斷。能將數據和圖片一同輸入模型內進行學習，那這一模型也就能對多個場景有適應性。目前這個模型只應用在了空氣質量計算上，我們可以將它推廣到屋內裝修后的空氣質量監測，以及進行修改以后對水質的監測。