宋 留,楊 沖,張 輝,劉鴻斌,2* (.南京林業(yè)大學林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇 南京 20037;2.華南理工大學制漿造紙工程國家重點實驗室,廣東 廣州 50640)
制漿造紙工業(yè)是國民經(jīng)濟的重要支柱產(chǎn)業(yè)之一,但又是高能耗、高污染的行業(yè),是國家進行節(jié)能、節(jié)材、綜合利用、減少污染物排放的重點行業(yè).在造紙污水處理過程中由于在線測量傳感器的缺乏或者受成本,使用壽命等限制,一些與出水水質(zhì)指標相關的關鍵參數(shù)難以獲得,并且這些參數(shù)對于出水指標的控制及過程的優(yōu)化起著重要的作用,是造紙污水處理中必須監(jiān)測的變量[1].針對這個問題,軟測量技術已經(jīng)被廣泛地應用于工廠來預測關鍵的,難以測量的過程變量.目前的軟測量技術包含現(xiàn)代統(tǒng)計分析、人工神經(jīng)網(wǎng)絡、模糊邏輯、神經(jīng)模糊系統(tǒng)、遺傳算法以及它們相互融合的混合方法,這些技術在許多領域取得了較好的應用效果[2].因此,對污水處理過程進行軟測量建模,為造紙污水工藝參數(shù)或出水指標的實時檢測提供了經(jīng)濟可靠的方法.
軟測量模型是軟測量技術的核心,其建模方法按照建模機制可分為機理型與數(shù)據(jù)驅(qū)動型.但實際中即使是一般對象的反應機理都比較復雜,以及受到工況與環(huán)境的影響,機理模型難以滿足建模需要.而數(shù)據(jù)驅(qū)動模型不必研究對象的內(nèi)部規(guī)律,只需獲得足夠多的數(shù)據(jù)就可建立對象的軟測量模型.數(shù)據(jù)驅(qū)動模型有回歸分析模型、人工智能模型、統(tǒng)計學習理論模型及概率核函數(shù)模型等.回歸分析建模有多元線性回歸(MLR)[3-4],主成分回歸(PCR)[5],偏最小二乘(PLS)[6],通過建立多個變量間的函數(shù)關系建立模型,但局限于非線性較弱的對象.人工智能模型主要是人工神經(jīng)網(wǎng)絡[7-8],人工神經(jīng)網(wǎng)絡(ANN)建模憑借其優(yōu)秀的非線性擬合表現(xiàn),在污水處理中受到廣泛關注,但神經(jīng)網(wǎng)絡存在過擬合和健忘問題,并且權值不易在線調(diào)整.
基于概率核函數(shù)的高斯過程[9-12](GP)是一個隨機過程,適用于處理小樣本、非線性、高維數(shù)等復雜的回歸問題,是近些年新發(fā)展的一種機器學習方法.目前已有研究將高斯過程用于工業(yè)聚丙烯生產(chǎn)過程中熔融指數(shù)的預測[9],風電場的風速預測[13],機器人裝配過程的搜索優(yōu)化[14]以及降低機器人軌跡的跟蹤
誤差[15]等領域,但在廢水處理的軟測量建模預測上應用較少.針對造紙廢水處理過程以及各種軟測量模型的特點,采用平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)、周期性協(xié)方差函數(shù)以及這 3種協(xié)方差函數(shù)的組合函數(shù)構建了7種協(xié)方差函數(shù)的高斯過程回歸(GPR)模型對出水化學需氧量(COD)和出水懸浮固形物(SS)濃度進行回歸預測,并與3種線性回歸模型和ANN模型進行對比.
1.1 GPR建模原理
GPR是一種非參數(shù)回歸方法,該方法將一個未知的目標變量通過一個或多個已知的輸入變量的狀態(tài)函數(shù)來表示.參數(shù)回歸方法如上述的MLR、PCR等用指定的函數(shù)替換訓練數(shù)據(jù),并對其參數(shù)進行調(diào)整,從而對函數(shù)輸出進行優(yōu)化.參數(shù)化方法在獲得回歸權值之后,最初的訓練數(shù)據(jù)可能會被丟棄,輸出結果可能是一個平均值或出現(xiàn)過擬合問題.相比之下,非參數(shù)方法使用原始數(shù)據(jù)構建回歸函數(shù)的模型,通過對比測試集輸入端數(shù)據(jù)到訓練集輸入端數(shù)據(jù)的距離來估計測試點的輸出值[16].特別地,GPR模型的局部加權形式由協(xié)方差函數(shù)與在模型訓練中的超參數(shù)定義.
GPR對于建模預測的優(yōu)點:GPR模型的函數(shù)預測只和協(xié)方差函數(shù)有關,因此適用于處理變量之間的關系不能被直觀理解的高維數(shù)據(jù);GPR模型可以根據(jù)數(shù)據(jù)維度來改變局部權重函數(shù)的寬度,并通過輸入變量之間的相關性提供模型對變量的解釋能力;相較于參數(shù)模型對于變量特性的依賴,GPR更依賴于數(shù)據(jù)并且對變量特性的變化表現(xiàn)具備更好的魯棒性,這一優(yōu)點使GPR模型在造紙污水處理過程中,即使某一測量裝置發(fā)生故障時,仍能穩(wěn)定預測;GPR模型的另一個優(yōu)點是其固有的概率性質(zhì),在建模預測過程中,既能得到模型的預測輸出也能得到置信區(qū)間,置信區(qū)間可用于判斷訓練模型的預測輸出是否合理.
高斯過程是具有聯(lián)合高斯分布的任意有限數(shù)量的隨機變量集合,是由均值函數(shù) m(x)和協(xié)方差函數(shù)k(x,x′)完全決定的,當輸入值變化時,目標變量的期望值的變化由協(xié)方差函數(shù)定義.其中,均值函數(shù)與協(xié)方差函數(shù)如下所示[17]:


高斯過程定義為

為了表達的符號簡潔,通常讓均值函數(shù)為 0.對于一個訓 練 集 X ∈Rn×m和y ∈ Rn,輸入 的 樣本 數(shù) 據(jù)是m維是輸出的樣本數(shù)據(jù),考慮到含噪聲,可建立高斯過程回歸問題的一般模型:

式中ω為獨立的高斯白噪聲,均值為 0,方差為 σ2,記為得到觀測值y的先驗分布為

1.1.1 協(xié)方差函數(shù) 協(xié)方差函數(shù)是高斯過程回歸預測的關鍵,假設函數(shù) f1與 f2符合獨立的高斯先驗,則滿足f = f1+f2~GP(μ1+μ2, k1+k2),即協(xié)方差函數(shù)的性質(zhì),兩個協(xié)方差函數(shù)之和仍是一個協(xié)方差函數(shù).

該性質(zhì)可用于合并兩個及兩個以上具有不同特性的協(xié)方差函數(shù).Duvenaud指出對協(xié)方差函數(shù)進行求和操作可視為邏輯運算函數(shù)中的“或”運算[18],即兩個點取最優(yōu).即使是基本協(xié)方差函數(shù)的組合也能捕獲到數(shù)據(jù)之間的復雜關系,這是簡單的參數(shù)回歸模型所沒有的優(yōu)點,因此組合型協(xié)方差函數(shù)較單一的協(xié)方差函數(shù)有更好適應性.本文基于此特點,研究平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)和周期性協(xié)方差函數(shù)3種協(xié)方差函數(shù)的合并組合的功能,來確定最適合本實驗研究模型的協(xié)方差函數(shù)[19].其中,平方指數(shù)協(xié)方差函數(shù)的表示如下

用矩陣表示為

式中:矩陣P=diag(l2),參數(shù)l是尺度方差,為信號方差.
線性協(xié)方差函數(shù)的參數(shù)化表示為

周期性協(xié)方差函數(shù)的參數(shù)化表示為


上式(9)可表示為:

因此,式(12)用矩陣表示則為

在測試集輸入、訓練集輸入、訓練目標輸出、協(xié)方差函數(shù)以及相關的超參數(shù)確定后對GPR模型進行訓練,根據(jù)目標輸出值的條件分布,得到模型的預測輸出.均值函數(shù)和目標值的后驗分布方差將分別生成預測值和置信區(qū)間.
表1給出了上述3種協(xié)方差函數(shù)以及它們的組合形式.其中,SE表示平方指數(shù)協(xié)方差函數(shù),L表示線性協(xié)方差函數(shù),PER表示周期性協(xié)方差函數(shù),SE+L表示平方指數(shù)與線性協(xié)方差函數(shù)的組合函數(shù),SE+PER表示平方指數(shù)與周期性協(xié)方差函數(shù)的組合函數(shù),L+PER表示線性與周期性協(xié)方差函數(shù)的組合函數(shù),SE+L+PER表示3種簡單協(xié)方差函數(shù)的組合函數(shù).

表1 協(xié)方差函數(shù)的7種組合Table 1 Combinations of covariance functions
2.1 廢水數(shù)據(jù)的收集與處理
廢水數(shù)據(jù)[8]采集自廣東東莞的一家造紙廠廢水處理車間,測量數(shù)據(jù)顯示了好氧段廢水的工況.如圖 1所示,數(shù)據(jù)包含170個樣本點,8個廢水變量,右側縱坐標表示進水COD與進水SS的變量值.解釋變量分別是出水化學需氧量(COD),進水懸浮固形物(SS),溶解氧(DO),流量(Q),溫度(T),pH值;其中,輸出變量為出水COD和出水SS.在MATLAB中分析處理該170個樣本數(shù)據(jù),選取120個樣本數(shù)據(jù)作為訓練集,50個數(shù)據(jù)作為測試集.

圖1 造紙廢水處理過程數(shù)據(jù)Fig.1 Papermaking wastewater treatment process data
2.2 典型模型及其結果分析
MLR、PCR和 PLS的數(shù)據(jù)分析可以使用MATLAB的PLS Toolbox.有關 MLR、PCR、PLS和ANN的方法原理參考文獻[3-8,20-21].圖2,圖3,圖4分別是 3種線性模型 MLR,PCR,PLS對出水 COD與出水 SS的建模預測結果,3種模型對出水 COD的預測結果中,RMSE在 4.35~5.85之間,r2在0.52~0.71之間,其中MLR與PLS的結果較為接近但優(yōu)于 PCR.在對出水 SS的模型預測時,RMSE在0.73~0.97之間,r2在 0.44~0.77之間,且 3種線性模型的預測結果均較為接近.另外,由于線性模型因共線性問題要求數(shù)據(jù)樣本容量足夠大,在本案例分析中,3種模型均出現(xiàn)樣本測試集的預測效果優(yōu)于訓練集的現(xiàn)象.

圖2 MLR的預測結果Fig.2 Prediction results of MLR

圖3 PCR的預測結果Fig.3 Prediction results of PCR

圖4 PLS的預測結果Fig.4 Prediction results of PLS
2.3 非線性ANN模型本文利用多輸入單輸出的雙隱含層 BP神經(jīng)網(wǎng)絡模型分別對出水COD和出水SS進行建模預測,其中輸入層節(jié)點數(shù)為6個,輸出層節(jié)點數(shù)為1個.對于隱含層節(jié)點數(shù),參考文獻[20]根據(jù)經(jīng)驗公式式中:a和 b分別表示輸入層和輸出層節(jié)點數(shù),c表示 0~10之間的常數(shù).最終確定隱含層節(jié)點總數(shù)為 10,每個隱含層節(jié)點數(shù)為 5.圖 5是ANN模型對出水COD與出水SS的建模預測結果,可以看出非線性ANN的建模預測效果較3種線性模型效果較好,且并未出現(xiàn)測試集預測效果優(yōu)于訓練集的情況.

圖5 ANN的預測結果Fig.5 Prediction results of ANN
2.4 GPR預測模型

圖6 GPR的預測結果Fig.6 Prediction results of GPR
對于 GPR模型的構建,利用平方指數(shù)協(xié)方差函數(shù)、線性協(xié)方差函數(shù)、周期性協(xié)方差函數(shù)組合構建了高斯過程的7種模型對出水COD和出水SS預測分析,預測結果的性能數(shù)據(jù)如表4與表5所示.結果表明組合協(xié)方差函數(shù)模型對出水COD的建模預測效果比單一的協(xié)方差函數(shù)模型的預測效果好.其中線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型較單一平方指數(shù)協(xié)方差函數(shù)的 GPR模型,r2提升了17.8%,RMSE降低了18.7%.而對出水SS的預測結果表明, 含有線性協(xié)方差函數(shù)的GPR模型的預測效果均優(yōu)于含有周期性協(xié)方差函數(shù)的GPR模型.其中平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型較單一的周期性協(xié)方差函數(shù)模型,r2提高了10 %.最優(yōu)GPR模型對出水COD與出水SS的預測結果如圖6所示.
2.5 結果分析

表2 基于MLR、PCR、PLS和ANN四種模型的出水COD預測性能指標對比Table 2 Comparison of performance indices of effluent COD using MLR、PCR、PLS and ANN
本文采用均方根誤差(RMSE)和平方相關系數(shù)(r2)作為模型的評價指標,用以比較不同模型的預測精度.r2和RMSE的表達為:

表2至表5分別給出了不同模型對出水COD和出水SS兩個輸出變量的預測結果.從表2和表4中可以看出,在出水 COD的預測中,無論是對輸出變量的訓練擬合還是預測,GPR模型擬合效果均優(yōu)于非GPR模型:其中線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型與ANN相比,r2提升了0.1901,RMSE降低了1.3588.從表3和表5中可以看出,在對出水SS的預測中,平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的 GPR模型相比于 ANN模型,r2提升了 0.2213,RMSE降低了0.1907.
相較于文獻[13-14]利用平方指數(shù)協(xié)方差函數(shù)與有理二次協(xié)方差函數(shù)的組合協(xié)方差GPR模型在風電場的風速預測及機器人裝配過程的搜索優(yōu)化的應用.本文針對實際造紙污水處理過程的特點,采用7種協(xié)方差函數(shù)對出水COD與出水SS建模預測,找尋出水指標的最優(yōu)預測模型.結果表明:組合協(xié)方差函數(shù)模型對出水COD的預測較單一協(xié)方差函數(shù)模型的預測誤差小,擬合程度高.而對于出水 SS,含有線性協(xié)方差函數(shù)的GPR模型的預測效果均優(yōu)于含有周期性協(xié)方差函數(shù)的GPR模型.

表3 基于MLR、PCR、PLS和ANN四種模型的出水SS預測性能指標對比Table 3 Comparison of performance indices of effluent SS using MLR、PCR、PLS and ANN

表4 基于7種GPR模型的出水COD預測性能指標對比Table 4 Comparison of performance indices of effluent COD using seven GPR models

表5 基于7種GPR模型的出水SS預測性能指標對比Table 5 Comparison of performance indices of effluent SS using seven GPR models
3.1 本文通過建立線性回歸模型、非線性人工神經(jīng)網(wǎng)絡模型與基于概率核函數(shù)的GPR模型對造紙廢水處理過程中的重要出水指標COD和SS的建模預測結果.結果表明,線性回歸模型與人工神經(jīng)網(wǎng)絡模型的建模預測效果均不如 GPR建模方法.GPR模型的預測均方根誤差以及離散程度都較小.其中對出水COD,線性協(xié)方差函數(shù)與周期性協(xié)方差函數(shù)組合的GPR模型與ANN相比,r2提高了30.4%,RMSE降低了 27.1%.在對出水 SS的預測中,平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的 GPR模型相比于 ANN模型, r2提高了38.5%,RMSE降低了19.8%.
3.2 對比 7種組合協(xié)方差模型的預測結果 ,最終確定線性協(xié)方差與周期性協(xié)方差函數(shù)的組合協(xié)方差模型能對出水COD實現(xiàn)最優(yōu)預測;對于出水SS,線性協(xié)方差函數(shù)的GPR模型與平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型的預測結果較優(yōu),但是考慮到組合協(xié)方差函數(shù)較單一協(xié)方差函數(shù)的優(yōu)點,最終確定平方指數(shù)協(xié)方差函數(shù)與線性協(xié)方差函數(shù)組合的GPR模型對出水SS進行建模預測.