基于數據挖掘的空氣質量預測模型研究*

2021-09-15 08:34:56周凱劉萍

計算機與數字工程 2021年8期

周凱劉萍

（陸軍炮兵防空兵學院合肥 230000）

1 引言

“綠水青山就是金山銀山”，十八大以來，人們逐漸把生態文明建設放在突出位置。在各種有力措施的治理下，空氣質量作為生態文明建設的重要一環，其情況得到了有效改善。但大氣污染物對身體健康的影響還持續存在。像華北地區，進入秋冬季，霧霾便會籠罩全城，引起一系列呼吸道疾病，嚴重的造成交通事故危及生命。據世界衛生組織稱，每年因空氣污染導致疾病而死亡的人數高達700萬［1］。因此在大數據技術浪潮興起的今天，如何通過數據挖掘和分析對未來空氣質量，進行實時有效的預測預警，以避免各種災難的發生，成為一個亟待研究的課題。

數據挖掘技術在20世紀90年代得到了飛速的發展，所謂數據挖掘，顧名思義即是在大量的關系或非關系數據庫中發掘出隱含的、未知的有價值信息。它是一種決策支持過程，主要為決策者提供信息支持。主要基于機器學習、人工智能、傳統統計學等數理手段。通常由數據準備、數據挖掘和數據分析三階段組成。空氣質量數據經過數十年的積累，其隱含的價值是可觀的。空氣質量指數（AQI）是衡量一個地區此刻空氣質量水平的一個重要指標，指數越大，危害越大［2］。

空氣質量數據是典型的時序數據，主要來自地面監測、氣象衛星等采集站點。通過對空氣質量數據進行數理分析已經成為空氣質量預測的可行性途徑之一。傳統的空氣質量預測主要分為數值預測和統計學預測兩種，所謂數值預測過去幾十年主流的一種預測方式，它主要是通過已有的空氣質量數據，推導總結出一系列的物理學和化學狀態方程，這些方程通常是高階微分方程，通過導入相應參數得到未來空氣質量數值，但這種預測方式需要規模龐大的計算力，而且考慮的影響方面相當有限，比如像人力活動等，數值預測的參數就很難把握并量化。而統計學預測則是通過數學建模分析已有數據，像非線性數值分析、多元統計、灰色分析、車貝雪夫展開等，但統計學預測存在周期長，操作復雜等限制，難以及時迅速準確地提供空氣質量數據的相關信息。隨著時間的推移和空氣質量數據采集處理技術的多元發展，人們開始逐步采用機器學習等新技術進行空氣質量數據的預測以彌補傳統預測方法的不足。但傳統機器學習等預測方法一般采用的是批處理的學習和預測方式，即在一次樣本學習和預測后，便不會對新樣本進行學習，這就加大了空氣質量預測的誤差，偏離了實時預測的軌道，很難有效地應用到實際工程之中［3］。

基于空氣質量預測的實際需求，本文在前人研究的基礎之上，對比、研究和采納不同計算框架的優缺點，選取兩種分別代表不同類型架構的模型進行空氣質量預測。以尋求一種理想的空氣質量預測模型。

2 模型原理

2.1 ARIMA原理

為了對比不同模型在預測上的精度優勢，我們首先比較傳統的時間序列分析法，ARIMA（自回歸移動平均模型）是傳統統計模型最常見的時間序列預測模型。自20世紀70年代提出后，與不少算法模型組合在預測領域取得矚目的成績，其基本思想是將時序數據看成一個隨機序列，通過數學模型對其內部構造和復雜特性進行近似描述，以最小方差為目標的最佳預測［4］。時間序列的分析主要從頻域和時域兩種角度進行分析，頻域分析在此不做贅述，

在時域方面，如果時間序列特征隨時間而變化，則可說時間序列是非平穩的，反之是平穩的。如果去除均值和確定性因素的隨機過程可以用式（1）表示［5］：

則可說該過程是p階自回歸過程，其中φi是自回歸參數，lt是白噪聲，可用AR（p）表示。

如果去除均值和確定性因素的隨機過程可用上式表示，則稱該過程為q階移動平均過程，其中θi是自回歸參數，lt是白噪聲。如果去除均值和確定性因素的隨機過程由上述兩過程共同表示，就可稱其為自回歸移動平均過程［6］，表示如下：

差分過程為現實值與滯后值的差為固定值的冪，幾次冪就稱為幾次差分。如果一個隨機過程經過d次差分后變換為一個平穩的自回歸移動平均過程，則稱該過程為單積自回歸移動平均過程，ARIMA預測模型的一般形式如下：

其中，p表示預測模型中采用的時序數據本身的滯后數，d表示時序數據需要進行幾階差分化，才是穩定的，q表示需要移動平均的階數。空氣質量數據是在固定間隔的時間差采集的離散數據，其變量前后必然存在某種聯系，ARIMA預測正是尋找這種聯系對未來一定時間內的變量進行預測［7］。

2.2 GRU神經網絡原理

實現神經網絡在時序問題上的應用，繞不開對遞歸神經網絡的研究，遞歸神經網絡RNN也叫循環神經網絡，其在結構設計上與傳統的前饋式神經網絡不同，它也由輸入層、隱含層和輸出層組成。它考慮到前置樣本對當前樣本的影響，突出時序對模型預測的作用［8］，其數學表達式為

其中，V、W和U分別為輸出層權值矩陣、上一層隱含層作為這次輸入的權值矩陣、輸入層權值矩陣，f和g都為激活函數，st是隱含層狀態，xt是輸入值。

其中LSTM（長短期記憶）網絡為典型的遞歸神經網絡RNN的一種變型，標準RNN中只有一個神經元細胞，一個隱含層進行學習，這樣由于在結構上的限制就會在長期記憶方面存在一定的不足，為了實現長期記憶，LSTM在RNN的基礎上，增加了記憶單元［9］。

LSTM網絡在結構增加門單元，來控制前置信息影響力的大小，實現了對長距離數據對現時數據的有效影響。設置了三個門，這三個門分別是遺忘門、輸入門和輸出門。每個門實現不同的功能，其中遺忘門控制保留多少狀態到目前時刻；輸入門控制輸入多少當前時刻到當前狀態；輸出門控制當前時刻的輸出［10］。基本公式如下：

σ單元輸出0到1的值，可以通過權值控制每部分輸入的量。遺忘門，讀取輸入xt和前置神經元的h信息，并通過函數值確定要丟棄多少信息。

輸入門，通過控制量函數和tanh函數更新細胞狀態。

輸出門，控制舊細胞狀態，將細胞舊狀態通過權值控制，忘記需要丟棄的信息，加上新的候選值，舊細胞狀態得以更新［11］。

最后的輸出為ht，通過一個權值控制層確定哪些細胞狀態輸出出去，然后將舊細胞狀態通過tanh處理后與輸出相乘確定最終輸出。

LSTM是RNN的變體，GRU則是LSTM的變體，LSTM實現了對遠距離依賴的有效處理，GRU則實現處理速度的提升。GRU在網絡結構上與LSTM類似，但它只有兩個門，它們分別是更新門和重置門。更新門控制先前狀態的保留，其值越大，先前狀態的影響就越大。復位門控制新輸入與先前狀態的關系，其值越小，記憶先前狀態影響越小。公式如下［12］：

圖1 GRU單元結構

3 實驗與結果分析

3.1 數據準備與分析

選取北京市2014年1月1日～2014年12月31日的AQI小時數據作為各個模型的研究對象，經過數據缺失值和異常值處理后，一共得到8760條數據。選取的AQI數據是典型的時序數據，符合各時間點上數值序列的特征。本文對一年之中的AQI時間序列作二維曲線圖，XY軸分別表示測量序列及濃度值，便于形象直觀地展現出AQI的變化規律。

為了方便所選模型訓練學習，減少數據偏移、幅度縮放、線性趨勢和噪聲對后續計算的影響。對所選數據進行歸一化處理，公式如下：

3.2 基于ARIMA時序分析預測的空氣質量預測模型

基于ARIMA的空氣質量預測模型我們選取后280個樣本數據進行模型預測，其基本預測步驟可以分為以下四步。

1）首先考察空氣質量數據序列是否平穩，觀察是否具有季節性，是否為白噪聲，依據空氣質量數據的ACF（自相關）系數和PACF（偏自相關）系數我們得到圖2。

圖2 自相關與偏自相關圖

在自相關圖系數是一個衰減的趨勢，我們可以判定為拖尾，偏自相關圖在3階長的時候系數趨于零，可以看出是截尾。因此我們可以判定空氣質量時序數據是不平穩的，需要進一步作差分分析。

2）空氣質量數據平穩處理。雖然空氣質量數據受季節影響，但在圖形曲線中并沒有呈現季節性變化，我們只考慮通過差分方法使時間序列平穩，分別嘗試差分階數為1、2、3、4，繪制時序圖如圖3。

圖3 差分圖

從經過差分處理的圖中，我們發現當差分階數取4時時序數據趨于平穩。

3）確定ARIMA模型參數及類型，空氣質量時序數據平穩處理后，再次通過繪制自相關和偏自相關圖，通過下圖可知，平穩序列的自相關函數和偏自相關函數均為拖尾，因此我們選用ARIMA模型，偏自相關圖在滯后為5以后趨于零，我們暫定P參數為5；自相關系數圖中顯著不為0的自相關數為2，我們暫定q參數為2，至此我們選擇模型ARIMA（5，4，2）。

圖4 4階差分后的自相關和偏自相關圖

4）根據選定模型進行預測分析。通過模型代入，給出ARIMA殘差自相關和偏自相關函數圖，從圖中可知ACF和PACF圖皆沒有明顯拖尾和截尾，表明預測模型的選取是恰當的。

圖5 ARIMA殘差相關函數圖

將原始數據代入模型，我們得到ARIMA擬合預測圖，從圖中我們可知，擬合值與輸入值擬合效果較好。擬合度均方誤差3.664，平均絕對誤差均值1.975（如表1所示），達到了擬合的預期。然后對后12h進行預測，從結果我們可以看出在前3h置信區間較小，預測精度較高，但隨著預測時長的增長，ARIMA空氣質量模型的置信區間隨之增大，預測精度減低。如果我們需要實現長期預測，還需尋求對遠端樣本有明顯精度預測的模型。

表1 模型擬合統計

3.3 基于GRU的空氣質量預測模型

根據前文數據樣本分析，我們知道選取的AQI樣本為單純的時序樣本，所謂AQI指數是將六種主要污染物中最高的污染指數作為AQI指數，基于上述分析，AQI數據樣本的時序分析沒有其他變量可以輸入，我們選取后8000個樣本作為訓練樣本，用后48h的數據作為樣本檢測。GRU空氣質量預測模型的學習衰減率選為0.002，隱含層單元設置為9，經過訓練5000次，可得空氣質量預數據在訓練計算過程中損失函數情況［13］。

表2 GRU模型訓練損失函數值

經過樣本訓練5000次，模型損失函數值逐漸減少，當訓練5000次時損失函數值為0.3012，使用經過訓練的模型對指定48h時間步長進行預測，預測結果對比圖如圖6。

圖6 GRU空氣預測模型精度對比圖

圖中實線為實際測量，虛線為實時預測數值。可以看出，在輸入數據后得到的48h內的預測結果與實際結果較吻合，證明本文提出的預測模型有較好的預測精度，實現了短期預測的設計目的。說明本文提出的模型切實可行，到此證明了預測模型的可行性，然后將提出的兩種模型進行對比［14］。

對比方法我們采用均方根誤差法進行對比，均方根誤差法（RMSE）是通過預測值減去實際值，將差平方后累加，除以樣本個數，最后將商開方，具體公式如下：

其中y1為預測值，y2為實際值，d為樣本個數。通過均方根誤差可以很好評價一個模型預測精度的好壞，其計算值越小，預測能力越好。表3為兩種預測模型均方根誤差比較［15］。

表3 預測模型RMSE對比

通過表3，我們對兩種預測模型進行均方誤差對比，發現基于GRU網絡的預測模型在空氣質量預測方面有較突出的記憶能力和通用性，對提高空氣質量模型的預測精度有很高的學術價值。

4 結語

本文根據空氣質量時序數據的特點，分析了提高空氣質量預測精度的必要性，總結了前人經驗，先對空氣質量數據的平穩性進行了分析，隨后根據ARIMA模型建立步驟，進行時序數據平穩化，根據自相關和偏自相關圖確定ARIMA模型，進行了擬合預測；隨后從新興循環神經網絡的角度出發，提出了一種基于門控循環單元網絡的預測模型，通過樣本選擇后進行了預測。實驗很好地證明了本文提出的模型通過各種參數設置，其可行性和出色的性能是確實存在的。并計劃在將來合并更多種類的深度學習模型并應用更多最先進的機器學習算法，預測更豐富的空氣質量數據，為進一步設計出一個具有實用性的空氣質量預測系統打下了堅實的理論基礎。