潘欣玉,鄭 亮
(中國石油大學(華東)計算機科學與技術學院,青島 266580)
近年來,空氣質量成為人們越來越關心的問題,大氣污染物濃度預測對于預防地區污染具有重要的意義.區域內的污染物濃度預測,可以對區域空氣質量的微變化及時做出響應.污染物的預警對于區域可持續發展具有十分重要的作用,可為政府決策制定、環境監管[1-3]執行提供技術支持,因此研究污染物預測工作具有重要意義.
現階段對于污染物預測的研究包含數值模擬及統計計算兩部分.數值模擬[4,5]方法充分研究污染物在大氣中的遷移變化,預測的精確度較高.但在預測過程中需要收集復雜的物化數據,計算過程冗雜,且需應用氣象、物化等多學科知識,預測工作較為繁瑣; 統計計算為污染物預測工作提供了廣泛思路,可應用各種神經網絡模型進行污染物預測工作[6,7],通過對神經網絡模型的構建及統計計算可以實現簡易精確的預測.然而當前神經網絡預測模型多為前饋型神經網絡,其輸出結果僅與當前輸入有關,無法研究污染物數據前后依賴關系,因而需構建一種可以對前后依賴序列數據進行預測的模型.且由于多種污染物具有相同排放源,所以多個污染物間往往存在潛在關聯關系,使得一種污染物濃度的變化可反映出其他污染物濃度變化情況,以往預測方法中,無論數值模擬還是統計計算均未考慮應用污染物間關聯關系進行預測工作.
針對上述兩個問題,本文充分考慮LSTM神經網絡在處理時間序列數據前后依賴關系的優勢,應用待預測污染物及其敏感參數之間的關聯關系,實現區域污染物的濃度預測工作.本文將關聯規則算法[8,9]與多元回歸分析[10,11]結合應用,發現待預測污染物的敏感參數,在此基礎上構建LSTM模型,將待預測污染物及其敏感參數,全部作為LSTM預測模型的輸入變量,從而更加準確的實現對各種重點污染物濃度的預測.
當前污染物濃度分析預測方法主要有機理類與非機理類兩個方向.機理類方法中數值模擬[1,2]涉及復雜物化流程,需要建立完整的污染物擴散過程相關物化模型[12],將污染物的排放、擴散、遷移、轉化過程使用復雜的偏微分方程來解析,通過展示模式得到空氣污染物濃度的空間分布及變化趨勢.
非機理類方法對污染物排放的復雜機理過程不做過多要求,主要是基于歷史數據應用統計學方法構建神經網絡預測模型[3,4].孫寶磊等[13,14]建立BP預測模型對污染物的日均濃度進行預測,通過對模擬輸出值和期望輸出值誤差的迭代計算調整,使BP神經網絡預測輸出不斷逼近期望輸出,直至誤差滿足要求.方彥[15]構建RBF神經網絡模型,基于歷史數據作為訓練樣本構建模型并以同期數據作為測試樣本,并選取2018年同期數據作為測試樣本對區域污染物進行預測.郭曉君等[16,17]基于GM(1,1)模型、Verhulst模型和SCGM(1,1)模型建立組合灰色預測模型,運用預測有效度方法確定組合預測模型的權重系數,利用模型預測污染物排放量,通過灰色系統GM(1,1)殘差修正模型對大氣污染物濃度進行預測.支持向量機在大氣污染物濃度預測方面也有應用[18-21],在對各類影響因子進行分析的基礎上進行建模預測,利用PCA方法對輸入因子降維形成支持向量機的訓練樣本集,建立大氣污染預模型.Haewon等通過構建聚類回歸模型[22-24]進行污染物濃度預測,根據氣象要素與污染物濃度數據資料,分析天氣變化規律,挖掘若干種天氣類型,并分析各種天氣類型的典型參數,將這些參數與相應的環境質量實測數據通過回歸分析[25-27]建立定量關系,根據定量關系進行污染物濃度預測.杜續等[28]針對神經網絡算法在當前污染物濃度預測領域存在的易過擬合、網絡結構復雜、學習效率低等問題,引入隨機森林回歸算法,分析氣象條件、大氣污染物濃度和季節所包含的多項特征因素,通過調整參數的最優組合,設計出一種新的污染物濃度預測模型—RFRP模型.馬天成等[29]采用一種改進型PSO優化的模糊神經網絡,將粒子群算法與模糊神經網絡進行融合,發揮PSO算法全局尋優的特點,預測污染物濃度的變化規律.
在污染物預測領域,機理類方法預測過程較為復雜,需要綜合污染物遷移過程中各種物化因素,因此機理類方法通用性較低.在以往非機理類模型中,前饋型神經網絡未考慮時間序列依賴關系.以上兩種方法均未考慮污染物間關聯關系的影響,準確性有待提高.因此,本文充分考慮污染物間的具有關聯關系的特點,以此為基礎建立基于敏感參數發現的LSTM預測模型[30-33]的污染物預測模型,應用待預測污染物及其敏感參數的關聯關系來提高模型的預測精確度.
在現實情況中,由于污染源并非排放單一類型的污染物,多種污染物具有相同排放源,污染物間往往存在潛在關系,一種污染物的變化可能反映另一種污染物變化,所以在污染物濃度預測工作中可應用污染物間的關系進行預測,即需考慮待預測污染物敏感參數這一影響因素.基于上述問題,本文將污染物預測工作分為兩階段進行.
(1)基于關聯規則與多元回歸分析的敏感參數發現方法.在該方法中,首先應用關聯規則算法對污染物數據集進行關聯關系發現,初步挖掘出各污染物的敏感參數.再應用多元回歸分析實現各污染物間相關性分析,將各污染物的相關性分析結果與關聯性分析結果取交集,保留二者共同部分,保證敏感參數發現的完備性與準確性,并通過對比試驗驗證了敏感參數的有效性.最終實現各污染物敏感參數的發現,為后續污染物預測工作的開展奠定基礎.
(2)基于敏感參數發現的污染物預測方法.由于污染物數據存在時間序列上的前后依賴關系,將待預測污染物及其敏感參數作為預測模型特征變量,實現污染物濃度預測工作.在該部分工作中,通過對現有的LSTM預測模型的改進完成污染物濃度預測工作.
本文采用關聯規則算法進行污染物間關聯性關系發現.針對污染物參數數據,首先對污染物參數值分區間處理,依據污染物數值最小值及最大值對參數數據三等分.例如SO2用S表示,分為S1、S2、S3.S1表示SO2濃度很小,S2表示SO2濃度中等,S3表示SO2濃度大.O3用O表示,NO2用N表示,CO用C表示,PM2.5用P表示,PM10用M表示.其中,參數程度詞的等級越高代表的值越大.
(1)首先基于式(1)計算每個參數程度詞集的支持度.

(2)不斷迭代使用上一次得到的(k-1)項頻繁項集,計算頻繁項集中參數程度詞的支持度,保留滿足支持度閾值ST的參數程度集,產生新的候選k項頻繁項集Lk,直到沒有新的頻繁項集產生.
(3)獲取k項頻繁項集Lk的關聯規則Ls→Lk?s,其中,Ls表示由s個參數程度詞組成的程度詞集,Lk?s表示去掉Lk中s個參數程度詞剩余的程度詞組成的程度詞集.
(4)計算每個候選關聯規則的置信度,置信度的計算公式如式(2).

(5)設置一個置信度閾值CT,當一個項集內所有子集之間的置信度都滿足置信度閾值CT時,則認為該項集內的所有程度詞之間具有較強的關聯性,并留下這樣的項集,保留到關聯規則集中.
針對污染物指標數據,應用回歸分析中的相關系數法獲取各個污染物指標之間的相關系數,發現各個污染物指標之間的相關性程度,綜合污染物間關聯規則進一步發現污染物間關系.
回歸分析使用相關系數來度量污染物指標之間線性相關關系.其定義如式(3)所示.

求得兩污染物指標相關系數后,應用T檢驗判斷自變量X中影響因子對因變量Y的影響顯著性程度,T統計量計算公式如下:

根據t檢驗表,查得顯著水平α的臨界值tα.若t>tα,則拒絕原假設,說明兩指標間具有較強相關性; 否則,說明兩指標間相關性不強.
本文在進行污染物預測研究時充分考慮污染物敏感參數及時間序列關系,通過對LSTM預測模型進行改進,實現污染物預測工作.本文預測工作的改進主要有以下兩點:
(1)模型預測參數及輸入特征的選擇.在模型構建之前引入參數choose_target來進行待預測污染物的選擇,choose_target取值為0-5,分別代表SO2、NO2、PM10、PM2.5、O3、CO六種污染物,選擇不同參數值即對不同污染物預測,例如choose_target=3則代表此時的待預測污染物為PM2.5.設置參數needed_target來進行待預測污染物輸入特征的選擇,needed_target取值同樣為0-5.例如needed_target=[0,1,2]則代表此時預測模型輸入特征為SO2、NO2、PM10.
(2)本模型在預測過程中采用了滾動預測的方式.采用“早停止”策略判斷模型收斂性,首先將污染物輸入特征數據輸入到模型進行濃度預測,得出未來一天的污染濃度數據并記錄; 然后將實際輸出結果加入下一條樣本的污染物濃度特征中,與其他敏感參數特征共同作為訓練樣本再次預測未來一天的污染濃度數據,依次類推,得到預測結果.
基于LSTM重點污染物預測模型框架如圖1所示.

圖1 基于LSTM主要污染物預測模型框架
本文使用Keras深度框架構建LSTM模型.預測模型的構建流程包括以下4個步驟.
(1)構建模型
本預測模型包含一個LSTM神經網絡層和一個全連接層,兩層之間順序連接.首先設置LSTM神經網絡層:一種污染物具有n個敏感參數,則訓練集特征數為n+1,因此模型的輸入層特征維度設置為n+1,并設置時間步長及循環神經網絡結構內部Sigmoid層和tanh層的神經元數量,最后設置預測模型輸出層,用于輸出污染物預測結果.
(2)模型參數設置
本模型采用均方誤差作為模型的損失函數,采用Adam優化算法作為模型優化器,在模型訓練過程中設置每次迭代訓練的樣本數據量、訓練輪數、模型學習率.
(3)模型預測過程
模型采用滾動預測的方式,首先將污染物輸入特征數據輸入到模型進行濃度預測,得出未來一天的污染濃度數據并記錄; 然后將實際輸出結果加入下一條樣本的污染物濃度特征中,與其他敏感參數特征共同作為訓練樣本再次預測未來一天的污染濃度數據,依次類推,得到預測結果.
(4)模型評價
用式(5)計算各污染物指標預測數據與真實數據間均方根誤差RMS E.

其中,xi為第i個數據點污染物指標濃度的實測值,為第i個數據點污染物指標濃度的預測值,n為數據長度.
(1)對原始環保監測數據進行數據清洗、去除無用數據、數據標準化等操作得到預處理后的數據集.
(2)掃描預處理后環保監測數據集,得到滿足支持度閾值ST的k項頻繁項集,基于k項頻繁項集組合得到候選關聯規則集,將所有滿足置信度閾值CT的污染物間關聯規則加入關聯規則集.
(3)再次掃描環保監測數據集,得到污染物兩兩之間的相關系數,保留相關系數大于0.5的污染物關系,將各污染物的相關性分析結果與關聯性分析結果取交集,保留二者共同部分,實現污染物的敏感參數發現工作.
(4)綜合(2)(3)所發現的各污染物的敏感參數,以與待預測污染物及其敏感參數作為預測模型輸入變量,實現對污染物的濃度預測.
本實驗使用區域內8個環保監測點所得的環保監測數據,實驗數據共有209 340條數據.
本實驗數據預處理操作包含數據清洗及數據標準化.首先對數據進行數據清洗,去除異常數據點及空白數據、重復數據.其次,進行數據標準化操作,針對清洗后數據采用式(6)進行標準化操作.

其中,x為數據清洗后的環保監測數據,μ為所有樣本數據的均值,σ為所有樣本數據的標準差.
3.3.1 污染物間關聯分析
設置支持度5%,置信度60%,通過污染物指標間關聯規則挖掘,得到污染物指標間的關聯規則集,可初步挖掘出污染物間的關聯關系,結果如表1所示.
3.3.2 污染物間相關性分析
為進一步發現污染物指標間的相關性,對污染物指標進行相關性分析,結果如表2所示.
當相關系數大于0.5則兩種指標相關性較強,綜合表1與表2結果,污染物間關系發現結果如表3所示.

表1 重點污染物關聯規則結果表

表2 重點污染物相關系數表

表3 重點污染物關系表
3.4.1 基于敏感參數發現的LSTM污染物預測
針對關聯規則算法與多元回歸分析挖掘的污染物關系,預測模型構建時,對SO2的預測輸入變量設置為SO2; 對NO2的預測輸入變量為NO2、CO、O3; 對CO的預測輸入變量為CO、NO2、PM10、PM2.5; 對O3的預測輸入變量為O3、NO2; 對PM10的預測輸入變量為PM10、CO、PM2.5; 對PM2.5的預測輸入變量為PM2.5、CO、PM10.將數據預處理后的數據集中的后600條數據作為測試集數據,其余作為訓練集數據,并將訓練集中10%的數據作為驗證集數據.采用前24個時刻的污染物濃度數據對下一時刻污染物濃度數據進行預測,時間步長設置為24,每次迭代訓練的樣本數據量設置為96,將學習率設置為0.0001,訓練輪數次數設置為50,隱藏層神經元數量設置為256.
如果模型兩次迭代之間損失值變化已經很小,那么說明模型收斂,可以結束訓練.因此,為驗證本文模型的收斂性,引入“早停止”策略.當驗證集與訓練集上模型損失已不再變化時,無論是否達到所設置的迭代次數,均停止模型訓練.
本文模型構建之初迭代次數設置為50次,但是由圖2所知,當模型迭代次數為16次時,模型已達收斂,所以此時停止模型訓練,以減少模型損耗提高訓練性能.

圖2 模型收斂性判別圖
為檢驗和說明本文提出模型的預測性能,將本文污染物預測模型與未經敏感參數發現的LSTM模型進行對比預測.對比結果如圖3-圖12所示.

圖3 本文SO2預測結果擬合圖

圖4 未經敏感參數發現SO2預測結果擬合圖

圖5 本文NO2預測結果擬合圖
圖3-圖12中,Forecast-model1為經敏感參數發現的LSTM預測模型結果; Forecast-model2為未經敏感參數發現的預測模型結果; Real_data為污染物真實值.可以看出,本文模型預測效果優于未經敏感參數發現的對比模型,能夠較好地跟蹤各種污染物濃度變化趨勢,并響應其波動變化,實現相對精確的預測.

圖6 未經敏感參數發現NO2預測結果擬合圖

圖7 本文CO預測結果擬合圖

圖8 未經敏感參數發現CO預測結果擬合圖

圖9 本文O3預測結果擬合圖

圖10 未經敏感參數發現O3預測結果擬合圖

圖11 本文PM10預測結果擬合圖

圖12 未經敏感參數發現PM10預測結果擬合圖
3.4.2 污染物預測對比評估結果
根據SO2、NO2、CO、O3、PM10、PM2.5六種污染物預測值與真實值情況,兩種污染物預測模型誤差對比情況如表4所示.

表4 模型均方根誤差評估表
由圖3-圖14及表4所知,經污染物敏感參數發現的預測模型擬合效果與預測誤差均優于對比模型.由此,證實了本文預測模型預測效果優于未經敏感參數發現的LSTM模型.

圖13 本文PM2.5預測結果擬合圖

圖14 未經敏感參數發現PM2.5預測結果擬合圖
本文提出了一種基于敏感參數發現的區域重點污染物濃度預測方法.該方法主要包含3個模塊,即數據預處理模塊、重點污染物敏感參數發現模塊、污染物預測模塊.其中,在數據預處理模塊主要是針對將原始數據進行數據清洗、數據標準化操作.在重點污染物敏感參數發現模塊對環保監測數據應用關聯規則算法、多元回歸分析挖掘出各污染物的強相關污染物,為預測模型構建時輸入變量的設置提供依據.在污染物預測模塊構建LSTM污染物預測模型,基于挖掘所得各污染物間的敏感參數設置輸入變量,使用均方根誤差評估模型性能,證實本文模型較之以往未經污染物間關系發現的LSTM模型精確度較高.可有效實現環境污染預測完成由“滯后”到“超前”的轉變.本文雖已實現重點污染物的預測,但是重點污染物的追蹤工作同樣是環保監測的重點工作,因此,下一步將研究重點污染物的溯源追蹤工作,即依據污染物歷史數據及各行業企業排污數據查清重點污染物的排放源頭,從而與污染物預測共同為環保監測工作提供技術支撐.