夏文澤,馮 驍,王 喆,*,錢志明,劉 杰,許雪喬
(1. 北京華展匯元信息技術有限公司,北京 100044;2.北京首創股份有限公司技術中心,北京 100044)
隨著工業與經濟的迅速發展,水資源短缺與經濟發展之間產生了突出的矛盾,而水環境污染使得這一矛盾更加突出,因此,提高污水處理質量日益重要[1-4]。此外,日益嚴格的環境管理標準和政策以及污染物總量削減等約束性指標實施,大量現有污水處理廠出水水質指標難以達到要求,其中,出水總氮(TN)是污水廠排放標準中的核心指標之一[5-7]。如果能夠提前預知污水廠出水TN的濃度,污水廠便可以提前做出響應,降低出水TN的濃度,達到最新國家標準的要求。因此,如何準確地預測出水TN吸引了大量學者開展研究[8-10]。


在智能模型法中,循環神經網絡RNN因具有記憶功能(可以從歷史輸入數據中提取信息)在污水廠出水水質預測中得到廣泛應用[25-26]。污水處理過程是一個復雜的強耦合系統,最終出水水質不僅與入水水質的歷史變化相關,還與中間各個處理過程的歷史變化相關。普通RNN網絡沒有充分考慮這些耦合性,無法充分地從歷史數據中提取關鍵信息,造成出水水質預測精度偏低。本文提出了一種聯合RNN神經網絡,該聯合RNN神經網絡是基于傳統RNN網絡的改進型網絡,其由一系列并排的單RNN網絡構成,每個RNN網絡的輸出不僅與本網絡的當前和歷史輸入相關,還與相鄰RNN網絡的歷史輸入相關,解決了普通RNN神經網絡無法充分地從歷史數據中提取關鍵信息的問題,并通過與常規RNN神經網絡的對比試驗,證明所提出的算法提高了出水TN的預測精度。
本文所提出的預測模型框架如圖1所示,該模型包括訓練過程和應用過程,在訓練過程中,水廠的歷史數據首先經過數據清洗,剔除不合規的數據,并做數據補償,然后通過剩余數據訓練聯合RNN神經網絡,聯合RNN神經網絡中的每個單獨的RNN網絡分別對應污水處理全流程中的一個位置。網絡的訓練過程分為兩步,首先斷開不同RNN網絡的連接,單獨訓練每一個RNN網絡,然后恢復不同RNN網絡的連接,聯合訓練所有RNN網絡。在應用過程中,實際采集的水廠數據首先經過數據清洗,剔除不合規的數據,然后將剩余數據送入早已訓練好的聯合RNN神經網絡,得到最終預測結果。

圖1 預測模型框架Fig.1 Diagram of Prediction Model
數據清洗是水質預測過程中重要的組成步驟,數據從傳感器底層上傳服務器過程中會累加各種噪聲,而這些噪聲會對后續數據分析產生干擾,為提高數據預測的準確性,需要對原始數據進行數據清洗。本文針對原始數據集的奇異值噪聲和結構型噪聲進行了清洗,分別采用了拉依達數據清洗算法[27]與盒式數據清洗算法[28]。在數據清洗以后,很多數據會被剔除,為保證數據的連貫性,被剔除的數據點由左右兩個點的均值代替。
拉依達數據清洗算法假設待檢測數據只含有隨機誤差,通過數據的標準差得到一個區間范圍,如果數據超出這個范圍,則認為該數據屬于奇異值,需要將該奇異數據予以剔除。具體如式(1)。
(1)

σ——數據x集合的標準偏差。
盒式數據清洗算法是根據數據集中位數搭建的清洗模型,通過數據集求得其下四分位數Q1、中位數Q2、和上四分位數Q3,根據這些數值可以計算出數據模型的上下限值,最終確定數據清洗范圍,將超出該范圍的數值予以剔除。具體如式(2)~式(4)。
IQR=Q3-Q1
(2)
上限=Q3+1.5×IQR
(3)
下限=Q1-1.5×IQR
(4)
其中:IQR——四分位距離。
普通神經網絡滿足輸入和輸出的一一對應性,也就是一個輸入對應著一個輸出,不同的輸入相互之間沒有關聯。RNN神經網絡不同于普通的神經網絡,它具有一種特殊的網絡結構,是根據“人的認知是基于過往的經驗和記憶”而提出的,不僅考慮網絡當前時刻的輸入,還要考慮之前所有時刻的輸入,賦予了網絡對之前所有時刻內容的一種“記憶”功能。
普通RNN網絡的結構如圖2所示,圖2(a)為真實結構圖,圖2(b)為邏輯展開圖。RNN網絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節點不再是無連接的而是有連接的,且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。自然界中很多過程都具有相似性質,因此,RNN網絡在自然語言處理、機器翻譯、語音識別和圖像描述等領域得到廣泛應用。

圖2 普通RNN神經網絡結構Fig.2 Diagram of Common RNN Structure
本文所提出的聯合RNN神經網絡如圖3所示,N個RNN神經網絡并排放置,且每個RNN網絡中間層的輸入還要同時再接收左右兩個RNN網絡中間層的輸出。即每個RNN網絡的中間層的輸入包括4部分:本網絡當前的輸入、本網絡中間層上一時刻的輸出、左邊RNN網絡中間層上一時刻的輸出和右邊RNN網絡中間層上一時刻的輸出。并且當RNN網絡在接收來自左右兩個RNN網絡的數據時還要再乘以一個高斯系數,以決定RNN網絡所要接收的來自于左右兩個RNN網絡的信息量。

圖3 聯合RNN神經網絡結構Fig.3 Diagram of Combined RNN Structure


圖4 聯合RNN神經網絡的局部結構Fig.4 Diagram of Combined RNN Local Structure

(5)

為了實現網絡的反向傳播訓練,需要得到所有可訓練參數的梯度公式,具體如式(6)~式(12)。
(6)
(7)

(8)

(9)
(10)
(11)
(12)
其中:T——訓練集數據時間長度;
t——時間序號;
N——RNN子模塊的數量;
i、j——子模塊的序號;



式(6)~式(10)為遞推公式,所以在求解過程中只能以類似于動態規劃算法按照時間從小到大依次遞推求解。
由于本聯合RNN神經網絡相比常規RNN神經網絡更加復雜,在訓練過程中極易陷入局部極小值甚至出現無法收斂的問題。因此,在網絡訓練過程中,采用分步訓練的方式,首先斷開不同RNN網絡之間的連接,分別獨自訓練,然后恢復不同RNN網絡之間的連接,進行聯合訓練。


圖5 進水TN的變化曲線Fig.5 Diagram of Influent TN
根據以上數據構建兩個網絡,分別為普通RNN神經網絡和聯合RNN神經網絡,用于對比試驗。對于普通RNN神經網絡,輸入結點數為18,對應著所采集的18維數據,輸出節點數為3,對應著輸入、輸出和好氧池3個采樣位置的TN指標,中間層包含30個神經元,訓練次數為500次。對于聯合RNN神經網絡,包含3個并排的RNN網絡,對應著3個采樣位置。對于每個RNN網絡,輸入結點數為6,對應著每個采樣位置所采集的6維數據,輸出節點數為1,對應著每個采樣位置的TN指標,中間層包含10個神經元。其訓練過程分為兩步,首先斷開不同RNN網絡的連接,單獨訓練每個RNN網絡,訓練次數為100次;然后恢復不同RNN網絡的連接,聯合訓練所有RNN網絡,訓練次數為400次。普通RNN神經網絡和聯合RNN神經網絡均通過Tensorflow深度學習框架編程獲得,并運行于英偉達RTX2080Ti顯卡之上。
需要說明的兩點:第一點,為了滿足嚴格的因果性,需要對入水、出水和好氧池的數據分別拉齊時間軸,拉齊時間軸是假定污水從水廠進水端流動到水廠出水端的時間為Δt,那么在將水質數據送入神經網絡時,水廠進水端采集的水質數據相比在水廠出水端采集的數據要沿時間軸向前平移Δt;第二點,不管是普通RNN神經網絡還是聯合RNN神經網絡或者其3個子RNN神經網絡,其輸入中包含TN指標,而預測輸出也是TN指標,那這兩個TN指標的區別就是,神經網絡輸出TN比網絡輸入TN指標晚2 h。
試驗結果如圖6、圖7和圖8所示,圖6為預測曲線圖,圖7和圖8為結果分析圖。圖6中實線為實際出水TN指標,點線為常規RNN網絡預測的出水TN指標,虛線為聯合RNN網絡預測的出水TN指標。由圖6可知,兩種網絡都成功地預測輸出了出水TN的變化,但是很難判定兩種網絡的優劣。計算兩種網絡下的相關系數R以及均方誤差E,結果如圖7和圖8所示,橫軸為實際出水TN指標,縱軸為預測出水TN指標,點描述實際出水TN和預測出水TN的對應關系,每個點對應著一個預測結果,直線為當實際出水TN和預測出水TN完全相同時的理想散點分布。理想情況下,圖中所有的點應該嚴格分布在y=x這條直線上,實際效果為所有點分布在y=x這條直線的附近。由圖7、圖8可知,在測試集中,聯合RNN網絡的效果(R=0.902,E=0.245)好于常規RNN網絡的預測效果(R=0.863,E=0.361),原因是聯合RNN網絡可以從歷史數據中學習到更加綜合的信息。所以,聯合RNN神經網絡可以提高污水廠出水TN的預測精度。

圖6 出水TN的預測曲線Fig.6 Prediction Diagram of Effluent TN

圖7 常規RNN神經網絡的分析Fig.7 Analysis of Conventional RNN

圖8 聯合RNN神經網絡的分析Fig.8 Analysis of Combined RNN
(1)本文提出一種基于聯合RNN神經網絡的出水TN預測算法,解決了普通RNN神經網絡無法充分地從歷史數據中提取關鍵信息的問題,提高了污水廠出水TN的預測精度。
(2)聯合RNN神經網絡是基于傳統RNN網絡的改進型網絡,其由一系列并排的單RNN網絡構成,每個RNN網絡的輸出不僅與本網絡的當前輸入和歷史輸入相關,還與相鄰RNN網絡的歷史輸入相關。網絡的訓練過程分為兩步,首先斷開不同RNN網絡的連接,單獨訓練每一個RNN網絡,然后恢復不同RNN網絡的連接,聯合訓練所有RNN網絡。
(3)利用來自真實水廠的水質數據與常規RNN網絡進行對比試驗,試驗結果顯示聯合RNN網絡的效果(R=0.902,E=0.245)好于常規RNN網絡的效果(R=0.863,E=0.361),其中R為相關系數,E為均方誤差,這證明所提出的算法提高了出水TN的預測精度。當前預測精度無法進一步提高的主要原因是當前水廠所能采集的數據維度無法全面反映水廠內污泥的真實生化反應過程。理論上該算法也可以推廣至其他出水指標的預測,但是實際預測效果受到所選取的輸入參量的種類的影響。