*程順健
(福州城建設計研究院有限公司 福建 350001)
水資源短缺與能源危機是人類社會發展面臨的重大挑戰。針對高濃度城市有機污水的處理,厭氧膜生物反應器(Anaerobic Membrane Bioreactor,AnMBR)將厭氧消化與膜過濾技術有機結合,在實現高質量出水的同時產出甲烷,極大降低運行成本[1]。
在將AnMBR 應用于市政污水處理的大規模工程中,膜污染問題是首要挑戰[2]。市政污水在低溫下黏度較高,因此,更易引發膜污染[3],增加系統的運行成本,而胞外聚合物是造成膜污染的主要原因[4]。傳統的膜污染控制方法包括增加膜面水力剪切作用、優化系統運行模式及化學清洗等[5],而發展膜污染原位控制技術則是重要的研究方向之一。其中,基于電化學調控方法,可實現原位控制膜污染問題[6-7],有助于改善膜污染情況,提高系統的可持續性和效率。目前,關于AnMBR 膜污染的機理和控制方法研究已經有較多報道[8-12],但在膜污染模擬預測,尤其是電化學強化AnMBR 膜污染方面的研究報道相對較少,且已報道的傳統方法與數學模型[13-14]往往難以處理龐大的數據量,也無法從中挖掘出膜污染變化的潛在特征,因此預測精度始終有限。
反向傳播神經網絡(Back Propagation Neural Network,BPNN)是一種用于挖掘數據內在關聯的算法模型。BPNN 在多層前饋人工神經網絡的基礎上,增加了誤差反向傳播算法,允許其根據目標問題的復雜需求進行建模[15]。BPNN 已被部分研究應用于常見膜污染的預測[16-18],但是尚未將BPNN 模型應用于針對城市污水處理AnMBR 膜污染電化學原位控制的研究報道。
數據集的預處理是訓練BPNN 模型的關鍵步驟。由于數據在收集過程中不可避免地存在缺失、重復等情況,若不進行預處理,將直接影響到模型的訓練[19]。膜污染的形成涉及許多變量,但并非所有變量都對預測結果具有顯著影響,因此,需要在預處理階段對數據進行分析和重構[20]。
本文構建了電化學強化AnMBR 反應體系,施加1 V 電壓構建外電場,進行原位電場驅動AnMBR 抗膜污染性能研究。反應器內消化液的pH 值、氧化還原電位(Oxidation-Reduction Potential,ORP),以及膜組件的跨膜壓差(Transmembrane Pressure,TMP)等數據,基于BPNN 構建單層多節點隱含層的膜污染預測模型。同時,通過不同數據集分割方式進行實驗測試和模型評估,討論如何通過優化數據集提高模型的預測準確性和實用性,為膜污染的預測和控制提供新的思路和方法。
本文實驗的主要目的是利用BPNN 算法對AnMBR中的膜污染情況進行預測。此外,還包含通過對數據的可視化,進行pH 值和ORP 對TMP 變化的影響分析。
如圖1 所示,采用浸沒式AnMBR 處理市政污水,實驗裝置主要包括直流電源、極板、厭氧顆粒污泥、Ni/Fe LDH@C 顆粒填料。同時啟用兩套電化學強化AnMBR 裝置,分別標記為R1#和R2#,對模擬城市污水進行連續實驗和數據采集,溫度維持在20~25 ℃。

圖1 電化學強化AnMBR 裝置
反應器的pH、ORP 和TMP 等數據通過將其連接到可編程邏輯控制器(PLC)設備的傳感器進行收集。其中,數據的采集過程以30 min 為一個周期,最終共收集7416 條數據。
本文采用單層多節點的BPNN 作為模型主體,通過數據預處理進行優化。
對TMP 列和ORP 列進行取反,以保證整體數據為正數,便于比對分析。
如表1 所示,原始數據中存在部分的缺失值(指表中數值表示為“0.00”的數據記錄)及離群值(指表中ORP 數值顯著高于“-400.0”的數據記錄,如“-227.3”),需對其進行數據清洗。

表1 部分原始數據
①缺失值處理
觀察數據整體的變化趨勢,可以發現pH 和ORP的變化具有隨機性。因此,采用隨機填充法對目標缺失值進行處理,在指定范圍內隨機生產浮點數。
②離群值處理
如圖2 所示,兩個反應器的TMP 數據都存在大量連續的離群值。針對這些離群值,采用刪除對應數據行向量的方式進行處理。

圖2 TMP 數據趨勢圖
對于表1 中R1#反應器的ORP 離群值,采取人工填寫方式,將數值統一修改為理論邊界值-400 mV。
各參數與TMP 的波動變化對比如圖3 所示,采用歸一化方法進行數據變換。其中,采用式(1)對TMP 和ORP 進行常規離差標準化;而pH 值則采用式(2)進行特殊歸一化處理。

圖3(A)pH 與TMP 波動變化對比;(B)ORP 與TMP 波動變化對比
經過數據清洗和數據變換處理后的數據,如圖4所示。為進行神經網絡的訓練,本文將整體數據以兩種不同方式分割為數據集1 和數據集2,供模型進行學習,并評估學習效果。第一種分割方式:單獨在R1#反應器產生的數據上進行,將數據的70%作為訓練集,30%作為測試集。第二種分割方式:同時在兩個反應器的數據上進行,將R1#反應器的數據作為訓練集,R2#反應器的數據作為測試集。

圖4 經過清洗和變換后的數據
通過圖4 可見,TMP 與pH 和ORP 兩個參數并未表現出顯性關聯,但卻表現出典型的時間序列數據特性,與時間節點的變化呈強關聯性。因此,本文BPNN 模型的建立主要以單一條件TMP 時間序列數據作為輸入。
(1)模型結構。BPNN 的網絡結構,如圖5 所示,主要由輸入層、隱含層和輸出層組成,其中有若干個神經元結構相互形成全連接。

圖5 BPNN 的拓撲結構
①激活函數。本文使用的激活函數是MATLAB 中的purelin 函數和tansig 函數,它們都是神經傳遞函數,負責單層神經元中由凈輸入值計算轉換出輸出值的過程。
②損失函數。本文使用MATLAB 的神經網絡構建函數net 中默認使用的均方誤差(MSE)作為目標模型的損失函數,見式(3)。
③梯度下降函數。本文使用的梯度下降函數是MATLAB 中的trainlm 函數,該函數是由Levenberg-Marquardt(L-M)算法實現的一個反向傳播神經網絡的訓練函數。
(2)參數設定。經過多次實驗并調整參數,本文在兩個數據集上的模型訓練分別設定目標誤差為1e-6和1e-10,同時設定學習率為0.01,分別設定Epoch個數為500 和1000。
訓練結果顯示(圖6)最終模型的預測誤差均能夠達到1e-4 以下,表現出良好的預測性能。

圖6 模型在不同結構的數據集上的訓練過程
對比圖6 中的訓練過程數據可以發現,不同數據集訓練的模型性能存在明顯差異。其中,數據集1 由于所使用的數據較為單一,模型并沒有充分地學習到TMP 數據的潛在特征,經過完整的6 次測試集迭代后,誤差仍只能降低至6.59e-5,遠達不到目標誤差的1e-6。數據集2 上的訓練則顯示出明顯的優越性,在經過732 個傳播周期、進行不到1 次完整測試集迭代的情況下,達到9.97e-11 的誤差,滿足了目標誤差1e-10 的要求。可見,通過兩個不同獨立反應器數據的相互驗證,能夠在擴充數據量的同時引入更多的潛在特征,訓練得到性能更好的模型。
研究通過實驗收集并建立AnMBR 反應過程數據集,在數據分析過程中剔除pH 和ORP 等非強關聯數據,并以不同的方式劃分為兩個不同的數據集,將TIME_ID 和TMP 作為輸入,建立了基于數據驅動的BPNN 時間序列預測模型,實現對AnMBR 裝置的膜污染程度進行預測。
通過多次實驗及調整參數至最佳訓練條件,最終模型的預測誤差能夠達到1e-10 以下,精準度接近100%,可應用于膜污染程度預測。