馬琳 張芳 董智鶴 王偉
(中國石油集團安全環保技術研究院有限公司,北京 102200)
開展數據預警預測工作的目的,是為了通過對歷史數據中隱含的規律、相關性等信息進行挖掘分析,從而能夠對未來出現的情況進行趨勢或閾值預估,以提前作出判斷,減少可能造成的損失或增加收益[1]。就目前的污染源在線監控系統而言,對超標排放的管理仍停留在超標數據發生后由系統依據已設定的排放限值進行識別和報警,以提示工作人員進行原因排查,而缺乏通過趨勢分析進行超標預警預測的研究應用。開展污染源在線監測超標預警預測的研究,對提升環境管理水平具有十分重要的應用意義。
本文立足石油企業污染源監測領域,結合筆者多年的實際工作經驗,對污染源在線監測數據超標預警數據模型進行闡述,并對幾種預測模型的優劣進行對比分析,最后,筆者就模型的優劣方面,對今后環境管理數據監測超標預警起到一定的推動作用。
超標預警技術已廣泛應用于各個領域。寧勇采用基于相似關系的SWFCM 聚類算法,對海洋環境數據開展分析,并應用到赤潮預測預警中,提高了赤潮災害預警預測能力,為海洋經濟可持續發展助力。李晶晶研究了空間關聯規則挖掘方法,用以在海量的環境監測數據中挖掘空氣污染指數和時空時間的關聯規則。吳貴華用樸素貝葉斯分類法對多種水質監測指標進行篩選,從中找出對CODMn 的最關鍵影響因素;之后運用BP 神經網絡技術預測CODMn 第二天的數據。夏繼偉等通過分析對比幾種大氣污染預警方法,選用神經網絡研究港口大氣污染預警模型,實現了通過預警合理安排進港船舶,預防大氣污染,并在某港口得以實際應用,證實其方法的可行性[2]。時間序列法在地表水質預測中已有應用先例,它是將統計數據資料按照時間順序排列,在序列中提取主要的內在因素周期性疊加、外延,通過數學回歸的方法對未來狀態進行預測。在其他行業的在線監測數據挖掘分析方面,李子龍運用灰色關聯度算法找尋參數之間的關系,進而運用聚類算法,得到設備運行狀態規律,并在某機組應用了該數據分析方法,比人工點位檢查和生產中央控制系統更快發現生產設備隱患,實現了提前預警[3]。周茜將分類算法應用在變電站電氣設備在線監測數據的處理和預測中,取得良好效果,改變了數據分析不及時、不到位的現狀,使電氣設備的在線監測達到了真正目的。
預警技術在其他行業數據分析中的應用,為污染源在線監測超標預警預測研究提供了參考方向。
在無法獲得企業前端生產調整關鍵參數數據時,綜合考慮預測方法在各領域的應用經驗以及方法適用性,可優選時間序列方法作為超標數據的研究方法。時間序列是一種已被廣泛應用的數據挖掘分析算法[4]。它通常需要挖掘不同時間段內得到的數據樣本,并通過這些數據的變化、趨勢、走向進行分析,得到演算結論。影響時間序列變化的因素主要有趨勢性、周期性、季節性以及不規則變化,其中部分因素造成的影響是長期性、決定性的,因此時間序列的變化在某種程度上呈現出一種趨勢性,且具有一定的規律。在應用時,首先需要假設某一類數據存在一種既定的變化模式,或者存在某種組合模式,而這種趨勢或模式是會重現的,才使用時間序列進行預測[5]。因而,研究時需要先對這種模式進行識別,然后外推預測,其關鍵因素是識別變化模式,同時要求決策者所采取的行動對這個時間序列影響較小。
例如對某事物的演變過程進行觀測和記載,數據記為Yt,經過時間點t1,t2…,tn(t 為自變量,且t1<t2<tn,即隨時間推移遞增)觀察,測量得到一個集合,記為Yt1,Yt2…,…,Ytn,則稱Yt為數字離散時間序列。時間序列的研究方法主要有單變量和多變量時間序列預測。
分為隨機時間序列和傳統時間序列兩種預測方式,根據數據類型的不同,將采用不同的算法和模型進行預測。如果建立的模型設計循環變動(R)、季節變動(S)和長期趨勢(L)三個部分,可以用式(1)如下模型進行數據(D)預測:

其中:循環變動(R)表示預測值在時間周期內存在循環變動的規律;季節變動(S)表示預測值與時間季節之間存在潛在變化規律;長期趨勢(L)表示隨時間推移將呈現某種特定的變化規律,上升、下降或在某一個閾值間以某一種規律波動,或逼近于某個閾值等;error 為誤差。
搭建隨機的時間序列模型,預測未來的發展,主要有ARMA(自回歸移動平均模型)、AR(自回歸模型)[6]和MA (移動平均模型)。

本模型沒有自回歸部分,故稱為階移動模型,記為MA(m)。
通過對ARMA 模型進行差分運算,還可以得到另外一種ARIMA 模型,即Autoregressive Integrated Moving Average Model,其全稱是自回歸積分移動平均模型,進行超標數據預測。它按照原序列平穩與否、回歸所含內容不同,ARIMA 模型包括MA—移動平均過程、AR—自回歸過程、ARMA—自回歸移動平均過程及ARIMA 過程,是ARMA 模型的拓展,包含ARMA 模型的3 種形式。該模型用于隨機游走序列,能夠預測數據波動,它可以用表達式ARIMA(p,d,q)表示,其中MA 為移動平均,q 為移動平均項數,d 為時間序列平穩時的差分次數;AR 為自回歸,p 為自回歸項。即式(5):

則wt是平穩序列,于是可對wt建立ARMA(p,q)模型,所得到的模型稱為Xt~ARMA(p,d,q)模型,故ARIMA(p,d,q)模型表示為式(7):

筆者通過建立相關模型,并利用模型預測排放濃度,結合影響生產裝置外排煙氣中污染物濃度的主要因素,可建立污染物排放超標預警方法,可為生產企業的環保管理和應對預案控制提供依據,供廣大同仁在今后環境管理數據超標監測方面參考借鑒。