聞超垚 周 平
隨著工業化的發展和生態污染的加劇,我國水資源短缺問題日益嚴重,已經成為制約經濟社會發展的瓶頸問題.污水處理可有效緩解水資源匱乏問題并且減少環境污染[1-2].活性污泥法是目前最為常用的污水處理方法[3],其利用微生物菌群的生物特性,通過硝化、反硝化等生物化學反應,對污水中的可溶性有機物進行分解和氧化,從而使得污水得到凈化,達到排放標準.活性污泥法污水處理過程工藝示意圖如圖1 所示,污水首先經過格柵間去除較大體積的固體污染物,然后通過進水泵的作用進入初沉池,去除大部分固體懸浮物.經過初沉池的出水進入生化反應池,生化反應池是活性污泥法的核心環節,分為厭氧區和好氧區兩個部分.在厭氧區,利用厭氧菌的無氧呼吸完成反硝化反應,可以將污水中的硝態氮還原成氮氣釋放出來;在好氧區,通過硝化反應將氨氮轉化成硝酸鹽,回流到厭氧區進行反硝化反應使有機物被降解.最后,經過生化池處理的出水流入二沉池進行固液分離,上層清水從出水口排出進行消毒處理,以使水質達到排放標準.而下層沉淀后的污泥一部分繼續回流到生化池中,另一部分污泥與初沉池的污泥混合經過濃縮、消化、脫水等處理后回收利用.

圖1 污水處理過程工藝流程圖Fig.1 Wastewater treatment process flow diagram
污水處理是一個具有復雜生化反應的非線性、大滯后、強耦合典型流程工業系統,包含諸多重要的生產數據,現場操作人員會利用工業數據對某些特別關注的關鍵指標進行監測,從而調控整個生產過程,最終實現穩定生產的目標[4-6].目前,在污水處理過程中被廣泛關注的指標為出水的水質指標,主要包括生化需氧量(Biochemical oxygen demand,BOD)、化學需氧量(Chemistry oxygen demand,COD)和總懸浮物(Total suspended solid,TSS).污水水質指標不僅是用來衡量污水處理過程正常與否的重要標志,還可以反映過程內部的具體狀態變化.因此,對水質指標進行實時準確地測量可以為污水處理廠的工作人員提供操作參考.然而,污水處理過程受進水流量、微生物種群、溶解氧濃度、PH 值等的影響,使得整體過程反應機理極其復雜,內部環境惡劣,難以進行水質指標的實時在線直接檢測,通常需要進行離線檢驗.然而離線檢驗的時滯會嚴重影響污水處理操作的實效,并且容易造成二次污染[6].所以建立準確的水質指標估計模型來反映當前水質情況和預期的水質指標變化,進而為污水處理過程的操作與優化提供重要指導.
目前常見的水質指標建模方法包括機理建模和數據驅動建模兩種.機理建模需要對整體工藝機理有著深入了解,并在滿足一定假設條件的基礎上,依據大量的專家知識才能夠建立.正是因為這些假設條件和人為經驗的限制,使得機理模型的實際應用精度極低,實用性差.與機理建模方法不同,數據驅動建模不需要先驗知識和各種假設條件,只需借助于機器學習、統計學習等智能算法主動學習輸入輸出樣本數據之間的映射關系,就能夠獲得比較好的建模精度.隨著工業過程各種數據可用性的提高以及數據處理能力的增強,數據驅動水質指標智能建模方法越來越受到研究者的重視,相關文獻先后提出了偏最小二乘(Partial least squares,PLS)建模方法[7-8]、支持向量機回歸(Support vector regression,SVR)建模方法[9-10]和人工神經網絡(Artificial neural networks,ANNs)等水質指標建模方法[2,6,11-12].尤其以ANNs 為代表的數據驅動建模技術已經成為了水質建模的主要方法.文獻[2]使用前饋神經網絡建立出水氨氮和總氮濃度的預測模型,實驗表明該方法具有較好的模型精度.文獻[6]提出了一種基于類腦模塊化神經網絡的關鍵出水參數軟測量方法,通過模擬大腦皮層模塊化分區結構,構建軟測量子模型對各水質指標進行同步測量.雖然利用ANNs 建立水質指標模型取得了很大的進展,但是常規ANNs 建模算法普遍存在過擬合、易陷入局部極小的問題,并且基于批學習的網絡權值和偏差迭代算法容易造成模型訓練時間長、收斂速度慢的系列問題[13].
近十年來,隨機權神經網絡[14](Random vector functional-link networks,RVFLNs)利用簡單易實現的網絡結構,改善了現有ANNs 建模普遍存在的收斂速度慢、泛化能力不強、實用性差的問題,大大提高了模型的計算精度和計算效率.RVFLNs的建模原理是在給定訓練范圍內隨機選取輸入權值和隱含層偏置,通過最小二乘(Least squares,LS)估計求得隱含層和輸出層之間的權值.與傳統ANNs 相比,RVFLNs 可以獲得更快的訓練速度和可接受的精度.此外,RVFLNs 的萬能逼近能力在理論上也得到了證明[15-18].因此,基于RVFLNs 的數據驅動質量建模已經被廣泛應用到污水處理過程中.文獻[19]采用基于智能算法優化網絡參數的RVFLNs 實現了BOD 的在線軟測量.文獻[20]提出了一種選擇性集成RVFLNs 水質指標建模方法,并應用到某工業污水處理廠的水質測量,有效解決了傳統ANNs 水質模型測量精度低、性能不穩定的問題.但是,實際污水處理過程中,受檢測儀表等裝置的故障等不可避免的影響,測量數據中經常存在各種各樣的離群點,即由于人為或設備故障而產生的遠離其他大部分樣本的極大值或極小值[13,21].同時,RVFLNs 在實際應用中,隱含層矩陣會因為隱含層參數的選取不當造成多重共線性問題,即隱含層矩陣的列向量之間存在相關關系,使得LS 估計失效[22].為此,有學者提出用PLS 代替LS 估計求解輸出權值,并將這種網絡結構稱為偏最小二乘隨機權神經網絡(PLS-RVFLNs)[22].雖然PLS-RVFLNs可以不受多重共線性的影響,但是PLS 在計算時用到了隱含層矩陣的所有列,并且沒有考慮離群點的影響,導致利用PLS-RVFLNs 進行建模的水質模型精度不高且計算效率較低.綜上,由于實際污水處理過程的復雜動態特性和RVFLNs的結構特點,多重共線性和離群點問題必然存在,基本的RVFLNs和PLS-RVFLNs 模型不能為現場操作人員提供準確可靠的指導.
針對上述問題,本文提出一種基于稀疏偏最小二乘(Sparse partial least squares,SPLS) 和Schweppe 型廣義M 估計(Generalized M-estimation,GM-estimation)的RVFLNs 稀疏魯棒建模方法(GM-SPLS-RVFLNs),并用于污水處理過程的出水水質指標的在線魯棒估計.與現有魯棒估計方法相比,本文方法具有良好的稀疏性,可以自主地選擇與輸出變量相關的隱含層變量,有效地提高模型的計算效率.同時,所提模型不僅考慮輸入輸出樣本均含有離群點的情況,而且還考慮了輸入輸出樣本離群點之間的相互影響,可以增強模型在遇到離群數據時的泛化能力.最后,進行建模仿真實驗,并和其他幾種建模算法進行對比.結果表明,當輸入輸出數據均含有離群點時,本文方法不僅具有更高的模型精度,而且可以解決常規RVFLNs 水質指標模型存在的多重共線性問題.
為保證污水處理廠持續、穩定、高效運行,對污水處理的出水水質指標進行實時檢測及評估至關重要[6].常用的水質指標有化學性指標BOD、COD 和物理性指標TSS 等.BOD 是指水中能夠分解的有機物完全氧化分解所需要的溶解氧量.COD是指在一定的條件下,水中的有機物在強氧化劑的作用下發生氧化還原所需要的氧氣量.BOD 和COD這兩個水質指標都需要進行水質化驗才可以獲取,通常化驗的過程會花費較長的時間,導致后續操作得不到保障.物理性指標TSS 是指水中不可過濾的懸浮物,是用來檢驗在污水處理過程中過濾效果好壞的指標,由于污水處理過程的環境特性,TSS 的含量不易直接測量[23].
為了實現對關鍵水質指標BOD、COD 和TSS進行在線估計或預測,基于隨機權神經網絡(RVFLNs)的智能建模與穩健估計等技術,建立多元水質指標非線性自回歸(Nonlinear autoregressive exogenous,NARX)模型.基本RVFLNs 建模時,輸入層通過激活函數的作用映射到隱含層特征空間,而其訓練過程可以看成隱含層與輸出層之間的線性回歸問題,回歸系數就是輸出權值.基本RVFLNs 在求解輸出權值時,采用的是最小二乘(LS)估計.眾所周知,當數據滿足高斯-馬爾柯夫定理的假設條件時,LS 估計是最佳的線性無偏估計.然而,污水處理等眾多實際工業過程的運行數據往往不滿足高斯-馬爾科夫定理的基本假設,使得LS 估計出現多重共線性和魯棒性差的問題.為此,本文提出一種稀疏魯棒建模方法,建模思路及要點如下:
1)多重共線性的存在經常會導致利用LS 估計求解的回歸系數產生病態解,致使模型的輸出權值不穩定,不利于水質指標模型的建立.為了解決多重共線性的影響,本文提出采用稀疏偏最小二乘(SPLS)求解模型的輸出權值.SPLS 是偏最小二乘(PLS)的稀疏版本,繼承了PLS 可以解決多重共線性問題和可以實現高維數據降維的優點,同時在求解過程中可以進行變量選擇與約簡,直接將影響較小的變量所對應的回歸系數壓縮為0,進而增強了模型的可解釋性和計算精度.
2)為了提高模型在遇到同時含輸入輸出離群點數據時的泛化能力,本文進一步采用Schweppe型廣義M 估計對模型的魯棒性能進行改進.Schweppe 型廣義M 估計是穩健估計理論中較為常用的統計方法,這種方法不僅考慮離群點與大多數樣本點之間的關系,而且還充分考慮模型輸入輸出樣本離群點之間的關系,可以對離群點進行合理處理,降低離群點在建模過程的建模權重,有效減小離群點對建模過程的干擾,進而提高水質指標模型的泛化能力.
Pao 和Takefuji 于1992 年首次提出隨機權神經網絡(RVFLNs)[14-18],其最大特點是輸入層權值和隱含層偏置在特定范圍內隨機選取,輸出權值由Moore-Penrose 廣義逆矩陣和最小二乘(LS)估計計算得出.因此,RVFLNs 與基于梯度的學習算法不同,不需要事先設定過多參數,也不需要花費大量的時間才能使算法收斂.RVFLNs 憑借訓練速度快、泛化能力強、較少的人為干預、便于實現在線學習的優點使其在實際系統回歸、分類等建模問題中得到廣泛應用[13,19-22].
給定N組任意不同觀測樣本訓練數據集Z={(xi,yi)|xi ∈Rn,yi ∈Rm,i=1,2,···,N}, 其中xi,yi分別為n維輸入向量和m維輸出向量,則具有L個隱含層節點,且激活函數為g(x) 的RVFLNs 可以表示為:

式中,fL,i(xi) 是第i個樣本的模型輸出值,βj=[βj1,βj2,···,βjm]T是第j個隱含層節點與輸出層之間的輸出權值向量,wj,bj分別是第j個隱含層節點在給定范圍內隨機生成的輸入權值向量和隱含層偏置向量的第j個元素,wj·xi表示wj與xi的內積.
RVFLNs 學習目標是使模型輸出fL,i(xi) 和實際樣本輸出yi之間的誤差最小,即該問題等價于存在βj,wj和bj,滿足以下條件:

式中,H為隱含層輸出矩陣,β為輸出權值矩陣,Y為觀測樣本的真實輸出矩陣,分別表示如下:

一般來說,訓練集的樣本數會遠大于隱含層節點數,此時H不是方陣,那么輸出權值β就需要使用LS 估計對輸出權值矩陣進行求解:

式中,H?為隱含層輸出矩陣H的摩爾-彭若斯廣義逆矩陣,此時唯一且其范數最小.
實際工業數據中會包含大量的離群點,這些離群點既包含輸入樣本的離群點,又包含輸出樣本的離群點,直接導致水質指標估計模型的失效.當樣本數據含有離群點時,可通過選擇合適的穩健估計方法來避免離群點的影響,得出正常數據情況下的最佳估計值.因此,借助穩健估計方法來提高模型的魯棒性,最常用穩健估計方法為M 估計[24].對于給定數據集則線性回歸方程表示如下:

式中,β為回歸系數向量,r為殘差向量.
利用LS 估計求解回歸系數β的優化目標函數為:

若r符合高斯分布,則LS 估計的回歸系數βLS為最優估計量.然而,實際殘差向量r會受離群點的干擾而非高斯.在這樣的情況下,LS 估計就會失去最優性.M 估計對LS 估計的目標函數進行了改進,使其更適合數據中包含離群點的情況,改進之后的優化目標函數定義如下:

式中,ρ是M 估計的影響函數,而且通常有界非遞減.

式中,wi可以看成是殘差項ri的建模權重.如果ri過大,說明其所對應的樣本點yi是離群點,相應地建模權重wi可以比較小,進而減小該離群點對建模過程的影響.通過推導,不難看出M 估計僅僅對輸出樣本的離群點進行了權值處理,但沒有考慮輸入樣本含有離群點的情況.因此,為了改善M 估計對輸入樣本的異常數據相對敏感的問題,廣義M 估計算法相應而出[24].廣義M 估計考慮了輸入輸出樣本都存在離群點的情況,通過減小輸入輸出樣本中的異常點在建模時的權重,降低離群點對建模過程的不良影響.
為了能夠計算輸入樣本的建模權重,需要將M估計方程(9)改寫成如下形式:

式中,vi為輸入樣本點xi的建模權重.若xi偏離大部分數據,則vi較小,這樣就達到了減小輸入樣本離群點建模權重的目的.
2.3.1 SPLS-RVFLNs
RVFLNs 的輸入權值和隱含層偏置在一定范圍內任意選取之后,其訓練過程就可以轉化為隱含層矩陣H與輸出樣本矩陣Y之間的線性回歸模型.然而,隱含層矩陣H會存在多重共線性,使得LS估計求解的輸出權值不穩定.為了解決多重共線性問題,文獻[25]在偏最小二乘(PLS)的基礎上,提出了一種稀疏偏最小二乘回歸(SPLS)的計算方法,通過對標準化的輸入輸出數據進行潛變量的提取,利用提取的潛變量進行回歸求解.SPLS 在PLS 的求解過程中加入Lasso 罰約束進行變量選擇,使得模型的回歸系數具有稀疏性,只保留對輸出變量有主要影響變量的回歸系數,能夠提高模型的預測精度.本文利用SPLS 代替LS 估計求解,得到稀疏偏最小二乘隨機權神經網絡(SPLS-RVFLNs).SPLSRVFLNs 不僅可以解決隱含層矩陣H的多重共線性問題,還可以增強模型的可解釋性和計算精度.
對于N個樣本數據集Rm,i=1,2,···,N},具有L個隱含層節點,激活函數為g(x)的RVFLNs 隱含層矩陣H∈RN×L和輸出矩陣Y∈RN×m分解如下:

式中,T=[t1,t2,···,tA]∈RN×A,U=[u1,u2,···,uA]∈RN×A分別是隱含層矩陣和輸出矩陣的全部潛變量矩陣,A是潛變量個數;P=[p1,p2,···,pA]∈RL×A,Q=[q1,q2,···,qA]∈Rm×A分別是隱含層矩陣和輸出矩陣的負載矩陣;E ∈RN×L,F ∈RN×m分別是隱含層矩陣和輸出矩陣的殘差矩陣.隱含層矩陣和輸出矩陣的潛變量ti和ui的提取原則是在滿足單位正交約束和Lasso 罰約束條件下,按照ti和ui的相關性最大的原則依次提取,即:

式中,λ1,λ2分別是隱含層矩陣和輸出矩陣權重向量wi和ci的Lasso 罰參數,決定了wi和ci的稀疏程度.λ1,λ2的選取與權重向量的具體數值有關,在確定某個數值之后,可以使得權重向量中小于這一數值的分量為0.因此,為了使得權重向量wi和ci的稀疏性達到最大,可以使λ1,λ2分別為權重向量wi和ci每個分量的最大值.此外,權重向量wi和ci的計算公式分別為,wi=式中gλ1(x)=sign(x)(|x|-λ1) 和gλ2(x)=sign(x)(|x|-λ2)是軟閾值函數.
最后,推出最終隱含層矩陣和輸出矩陣之間的SPLS 回歸模型如下:

式中,βSPLS為SPLS-RVFLNs 的輸出權值,F為殘差,W=[w1,w2,···,wA]∈RL×A是隱含層矩陣的權重矩陣,B=[b1,b2,···,bA]∈RA×A是隱含層矩陣潛變量和輸出矩陣潛變量之間的回歸系數矩陣,其中
注 1.SPLS 能夠從輸入變量集與輸出變量集中分別提取出方差變化最大的潛變量,同時在滿足一定正交性和歸一化約束的條件下保證輸入輸出變量集潛變量之間協方差最大,之后利用提取出來的潛變量進行回歸求解,具體的SPLS 求解公式如式(12)所示.由于提取的潛變量不存在多重共線性問題,并可最大程度地保留原輸入輸出數據所蘊含的信息,因此可以有效解決多重共線性問題對數據建模的不利影響.
2.3.2 GM-SPLS-RVFLNs
SPLS-RVFLNs 的輸出權值由SPLS 進行求解,當輸入輸出數據中存在離群點時,SPLS 的計算效果會受到影響,使SPLS-RVFLNs 模型的建模精度變差.作為穩健估計技術的一種,廣義M 估計可以有效提高模型的建模精度,其通過對輸入輸出數據包含的離群點進行降權處理,使模型的估計值接近正常模式下的最佳估計值.但是,如果不考慮與輸入樣本異常值相應的輸出樣本對大部分數據的擬合情況,任何對輸入樣本數據的降權處理都不會有效[26].為此,Schweppe 型廣義M 估計考慮了輸入輸出樣本異常值與大部分數據之間的擬合關系,只有當殘差較大并且輸入樣本是離群點的時候,才會進行降權處理,因此可更準確地識別并處理離群點.綜上,為了減小離群點對SPLS-RVFLNs 模型造成的不良影響,利用Schweppe 型廣義M 估計(GMestimation)對SPLS-RVFLNs 進行魯棒性改進,提出一種新型的RVFLNs 稀疏魯棒建模算法(GMSPLS-RVFLNs).
首先,利用SPLS 對SPLS-RVFLNs 的輸出權值βSPLS進行求解,如下所示:

式中,r為殘差.
其次,為了能夠降低離群點對SPLS-RVFLNs的影響,利用下式計算輸入樣本的建模權重:

式中,f為穩健估計的權函數,‖·‖是歐幾里德范數,c為調諧參數,medL1(T) 是利用隱含層矩陣的潛變量{t1,···,tn}計算的L1中值.L1中值是一種具有良好統計特性的多元位置穩健估計量,它的基本原理是對于數據集X={x1,···,xn},xi ∈Rp,尋找滿足以下條件的μ,即:

簡單來講,L1中值是此點到n個給定樣本點歐氏距離之和最小的點.L1中值最大可以容忍50%樣本數量的離群點,并且滿足尺度同變性和位置不變性[27].
為了同時考慮每個樣本點在輸入輸出方向都異常的情況,采用Schweppe 型廣義M 估計,其輸出樣本建模權重不僅用到了殘差,還用到了輸入樣本的建模權重,計算公式如下:


式中,median(·)是中位數函數.
穩健估計的權函數有多種選擇,如Hampel 權函數、Tukey 雙權法權函數、Andrew 正弦法權函數等[24].一個好的權函數不但會影響模型的魯棒性能,而且還會影響模型的計算效率.一般來說,理想的權函數通常需要滿足這樣的性質:當樣本數據在分布中心時,每個樣本被給予相同的權重;當樣本數據越靠近分布兩端時,其權重越小.
本文首先利用Fair 權函數計算輸入樣本的建模權重.Fair 權函數通過選取適當的調諧參數c來滿足模型的魯棒性能和計算效率.一般來說,Fair權函數的調諧參數c=4,計算公式為:

建模權重利用標準化殘差進行計算,如果標準化殘差較小,說明此時的樣本點不是離群點.Fair權函數計算得到的權重則接近1,保留了其在建模過程中的權重.如果標準化殘差較大則說明此時的輸出樣本點是離群點,通過Fair 權函數的作用會使得其權重接近零,達到了降低離群點建模權重的目的.
然后,利用Huber 權函數計算輸出樣本的建模權重.Huber 權函數設置了參數范圍,超過這一范圍的樣本點被給予較小的權重,超過越多,其權重越小;在這個范圍之內的樣本點,代表是正常數據,直接讓建模權重為1.Huber 權函數的表達式如下:

式中,c為Huber 權函數的調諧參數,一般取值為c=1.345,這樣不僅可以保證模型能夠較好地減小離群點的影響,而且還能夠獲得類似正常情況下LS 估計結果.
最后,輸入輸出建模權重都確定之后,可以對隱含層矩陣H和輸出樣本矩陣Y進行加權處理:

利用加權后的隱含層矩陣和輸出樣本矩陣進行SPLS 計算,得到最終的輸出權值.
所提GM-SPLS-RVFLNs 算法的主要建模過程及實現步驟總結如下:
1)給定數據集Z={(xi,yi)|xi ∈Rn,yi ∈Rn,i=1,2,···,N}, 初始化網絡的隱含層節點個數L和激活函數g(x),在一定范圍內隨機選取輸入權值wj和偏置bj,并計算隱含層矩陣H;
3)根據式(15)和式(19)計算隱含層矩陣潛變量T的權重vi;
4)根據式(18)計算殘差r的穩健尺度估計,代入式(17)和式(20)計算輸出樣本Y的權重wi;
5)根據式(21)計算加權后的隱層矩陣和輸出矩陣并進行SPLS 回歸計算,得到輸出權值并返回步驟3)重復迭代計算得到直到每個參數估計值1,···,L,h=1,···,m都小于設定的迭代停止條件,則停止迭代,并且令最后一次計算的輸出權值為模型的最終輸出權值.
本文利用BSM1 (Benchmark simulation model NO.1)[3]污水處理基準仿真平臺進行數據仿真實驗.BSM1 基準仿真平臺是由國際水質協會和歐盟科學技術合作組織合作開發,能夠方便調整各種控制策略以得到較優的實施方案.并且對于不同的控制方法,還能利用相同的性能評價指標進行比較分析.BSM1 模型的結構和污水處理工藝流程相近,由生化池和二沉池兩大部分組成.此外,本文魯棒建模為了能夠更加充分地模擬不同比例離群點存在的真實工業數據情況,在BSM1 數據中人為加入了不同比例輸入輸出樣本離群點.通過分析污水處理的工藝流程可以得到出水質量與固體懸浮物的數量以及各種有機物的含量直接相關.因此,利用BOD、COD 和TSS 這3 個常用的水質指標作為建模輸出變量Y.在充分考慮污水處理過程工藝機理和基準仿真平臺特性的基礎上,確定影響出水水質指標的6 個關鍵變量作為建模輸入變量X.同時,考慮到污水處理過程具有大時滯性,為了更好地反映輸入輸出變量之間的時序關系,我們將當前時刻的輸入變量X(t)、上一時刻的輸入變量X(t-1) 和上一時刻的模型輸出變量Y(t-1) 一起作為模型的輸入量,建立污水處理出水水質指標的多元非線性自回歸(NAXR)模型.
確定模型的輸入量和輸出量之后,接下來需要確定模型的參數.基本RVFLNs 需要確定的參數有輸入權值wj、隱含層偏置bj和隱含層節點數L,其中wj和bj一定范圍內隨機選取,所以只需要確定wj和bj的選取范圍.Schmidt 等通過實驗確定了wj和bj的選取區間[-1,1][29],此區間已經成為了RVFLNs 的理論研究和實際應用的指導方針.因此,所提GM-SPLS-RVFLNs 算法也在[-1,1]區間內隨機選取輸入權值wj和隱含層偏置bj.此外,隱含層節點數L和潛變量個數A也是重要的模型參數,本文利用實驗方法確定隱含層節點數L和潛變量數A.首先,將隱含層節點數L從10 到200 依次5 個增加,潛變量個數A從1 到20 依次逐個增加,代入到模型中進行計算.其次,由于wj和bj具有隨機性,會造成每次實驗結果不唯一,因此利用每次選取的隱含層節點個數L和潛變量個數A進行30次重復計算,并計算30 次試驗建模誤差的均方根誤差(Root mean squared error,RMSE)均值,最后得到實驗結果如圖2 和表1 所示.圖2 為隱含層節點數L和潛變量數A與模型誤差的關系圖,可以看出當潛變量個數A為10 時,模型誤差開始逐漸減小.表1 為潛變量數A為10 時,不同隱含層節點數的RMSE 值,可以看出當隱含層節點數L為35 時,模型的誤差變化趨于平緩.因此,選取神經網絡隱含層節點數L為35,潛變量A的個數為10.

表1 10 個潛變量時,建模誤差與隱含層節點個數之間的關系表Table 1 The relationship between the RMSE and the number of hidden layer nodes when 10 latent variables

圖2 建模誤差與潛變量和隱含層節點數的關系圖Fig.2 The relationship between the RMSE and the number of latent variables and hidden layer nodes
為了能夠全面地驗證所提算法的魯棒性能,在BSM1 建模數據基礎上增加兩類不同的離群數據集.第一類數據集用來測試所提算法對只有輸出樣本離群點時的建模效果;第二類數據集用來測試所提算法對輸入輸出樣本均含離群點時的數據建模適用性.
首先,第一類數據集是在限定離群點最大幅值的情況下,比較所提算法對輸出樣本包含不同比例離群點時的預測精度.從建模數據中隨機挑選間隔為5%、比例依次為0%,5%,10%,···,50%的樣本點yi,Outlier,并對挑選的樣本點進行如下離群處理:

式中,ymaxmin是正常狀態下各個水質指標最大值與最小值之差.為了使得樣本數據中的離群點更加不均衡,對挑選的樣本點設定比例為2:1 的正向離群點和負向離群點,當離群點為正向時令sign=1,當離群點為負向時令sign=-1.
其次,第二類數據集是在限定離群點最大幅值的情況下,比較所提算法針對輸入輸出樣本均包含不同比例離群點時的預測精度.輸出樣本的離群點設計方法與第一組數據集的設計方法一致,輸入樣本從建模數據中隨機挑選間隔為10%、比例依次為5%,15%,25%,35%的樣本點xi,Outlier,并對挑選的樣本點進行如下離群處理:

式中,xmaxmin是輸入變量的最大值與最小值之差,并且對挑選的樣本點設定比例為2:1 的正向離群點和負向離群點.
為了驗證所提GM-SPLS-RVFLNs 方法對水質指標的建模效果,將其與基本RVFLNs、基于M估計的魯棒隨機權神經網絡(Robust RVFLNs)[13]和采用魯棒偏最小二乘回歸(Partial robust M-regression,PRM)[30]進行輸出權值求解的隨機權神經網絡(PRM RVFLNs)進行比較,如圖3~7 所示.四種方法都使用相同網絡參數設置:激活函數均為Sigmoid 函數,隱層節點數L為35 個,輸入權值wj和偏置bj的取值范圍均為[-1,1].此外,為了避免每次計算選取輸入權值wj和偏置bj的隨機性,對每一組數據集分別進行30 次的重復實驗,利用30 次仿真實驗的RMSE 對不同方法的魯棒性能進行比較.

圖3 輸入樣本無離群點輸出樣本不同比例離群點時的出水水質指標估計RMSE 箱形圖Fig.3 The box diagram of the estimation RMSE of effluent quality indices for input sample without outliers and output sample with outliers of different rates

圖4 輸入樣本含5%離群點輸出樣本不同比例離群點時的出水水質指標估計RMSE 箱形圖Fig.4 The box diagram of the estimation RMSE of effluent quality indices for input sample with 5% outliers and output sample with outliers of different rates

圖5 輸入樣本含15%離群點輸出樣本不同比例離群點時的出水水質指標估計RMSE 箱形圖Fig.5 The box diagram of the estimation RMSE of effluent quality indices for input sample with 15% outliers and output sample with outliers of different rates

圖6 輸入樣本含25%離群點輸出樣本不同比例離群點時的出水水質指標估計RMSE 箱形圖Fig.6 The box diagram of the estimation RMSE of effluent quality indices for input sample with 25% outliers and output sample with outliers of different rates

圖7 輸入樣本含35%離群點輸出樣本不同比例離群點時的出水水質指標估計RMSE 箱形圖Fig.7 The box diagram of the estimation RMSE of effluent quality indices for input sample with 35% outliers and output sample with outliers of different rates
從圖3~7 的箱形圖可以看出,當輸入輸出樣本均無離群點或離群點比例較小時,RVFLNs 和Robust RVFLNs 的水質指標估計效果相當,但是兩種方法都沒有PRM RVFLNs 和所提GM-SPLSRVFLNs 方法的估計精度高,原因在于這兩種方法都沒有考慮隱含層矩陣的多重共線性問題,導致模型的輸出權值產生病態解,進而造成模型的預測誤差較大.PRM RVFLNs 雖然利用PLS 減小了多重共線性的干擾,但是其精度也沒有所提方法高,因為所提方法利用稀疏偏最小二乘篩選了對模型有用的變量,提高了模型的精度.同時,隨著離群點比例的增加,基本RVFLNs 的水質指標模型因缺乏魯棒性,預測精度明顯下降.而Robust RVFLNs 模型利用M 估計增強了模型的魯棒性,精度好于RVFLNs模型.但是M 估計只是針對輸出樣本的離群點進行降權處理,不能同時抵擋來自輸入端和輸出端的離群點,所以當輸入樣本含有離群點時,模型崩潰,預測精度比較低.PRM RVFLNs 對輸入和輸出樣本都利用了M 估計確定建模權重,因此預測效果比Robust RVFLNs 略好一些,但是效果沒有GMSPLS-RVFLNs 明顯.只有所提GM-SPLS-RVFLNs水質指標模型利用廣義M 估計充分考慮了輸入輸出樣本之間的關系,并且根據隱含層向量在空間的位置和標準化殘差大小分別確定輸入輸出樣本的建模權重,使得模型具有更高的魯棒性,更低的建模誤差.
一個好的魯棒模型要求在實際模型與理想分布模型差別微小時,受離群點的影響較小,接近正確估值,更重要的是要求實際模型與理想分布模型差別較大時,估計值也不會受大量離群點的破壞性影響,依然能夠得到接近正常模式下的正確估計[13].因此觀察輸入輸出樣本離群點比例均為25%的多元水質指標建模與估計效果.圖8 為輸入輸出樣本均含25%離群點時的曲線擬合情況,可以看出本文所提方法的建模效果最好,能夠對水質指標進行準確估計,并且估計趨勢與實際數據基本一致.圖9為輸入輸出樣本均含25%離群點時的實際值與估計值的散點圖,可見GM-SPLS-RVFLNs 的估計值比其他方法更接近實際值.圖10 為輸入輸出樣本均含25%離群點時的不同方法水質指標測試誤差概率密度函數(Probability density function,PDF)分布曲線,可以看出所提GM-SPLS-RVFLNs 的誤差PDF 分布曲線呈現出又瘦又高的高斯分布形狀,并且整體與 “0” 縱軸基本重合,表明所提方法的估計誤差在概率意義上的均值為0,即利用所提方法建立的水質指標模型估計值與實際值之間的誤差比較小.

圖8 輸入輸出樣本均含25%離群點時,不同方法出水水質指標建模效果Fig.8 Modeling results of effluent quality indices with different methods for input and output samples with 25% outliers

圖9 輸入輸出樣本均含25%離群點時,不同方法水質指標散點圖Fig.9 The scatter plot of effluent quality indices with different methods for input and output samples with 25% outliers

圖10 輸入輸出樣本均含25%離群點時,不同方法水質指標估計誤差PDF 曲線Fig.10 The PDF curve of effluent quality indices estimation error with different methods for input and output samples with 25% outliers
由于在離群數據建模時,模型魯棒性好,建模精度就高,反之會存在較大的建模誤差.為此,進一步采用常見的建模誤差性能指標對幾種水質指標建模方法的估計誤差進行直觀比較,如表2 所示.對于均方根誤差(RMSE)指標和平均絕對百分比誤差(Mean absolute percentage error,MAPE)指標而言,其數值越小,說明模型的數據擬合能力越好,因而模型估計性能越優良,且對于離群數據的魯棒性能越高.而對于R 平方指標而言,其數值越接近1,說明模型擬合數據的能力越強,可以對水質指標進行準確估計,且對于離群數據的魯棒性越好.通過表2 各項性能指標數據的綜合對比分析可以看出,本文所提GM-SPLS-RVFLNs 水質指標建模方法的魯棒性和預測精度最高.

表2 輸入輸出樣本均含25%離群點時,不同水質指標建模方法性能指標對比Table 2 The comparison of performance indexes of effluent quality indices with different methods for input and output samples with 25% outliers
最后,為了驗證所提算法的水質參數模型的稀疏性,利用輸出權值中所含 “0” 的個數進行比較.由于PRM RVFLNs 模型是在RVFLNs 的基礎上改進的,并沒有進行稀疏化處理,所以PRM RVFLNs模型與RVFLNs 模型的稀疏性一樣,因此本文只比較PRM RVFLNs、Robust RVFLNs 和GM-SPLSRVFLNs 模型的稀疏性,結果如圖11 所示.可以看出,所提GM-SPLS-RVFLNs 模型的輸出權值中含 “0” 的個數最多,模型的稀疏性最好.PRM RVFLNs 模型的稀疏性最差,而Robust RVFLNs模型由于彈性網罰的作用有著較好的稀疏性,但是沒有所提方法的稀疏性穩定,并且輸出權值中含 “0”的個數也沒有本文方法多.這說明,本文所提方法利用SPLS 算法,可以有效地增強模型的稀疏性,使得與輸出變量無關的隱含層變量不參與計算,從而提高了模型的計算效率和泛化能力.

圖11 輸入輸出含不同比例離群點時,不同建模方法的輸出權值中所含 “0”的數量曲線Fig.11 The curve of the number of output weights with ‘0’ value with different methods for input and output samples with outliers of different rates
本文針對污水處理過程多元水質指標難以在線檢測的難題,基于稀疏偏最小二乘回歸(SPLS)和Schweppe 型廣義M 估計技術,提出一種新型的RVFLNs 稀疏魯棒建模方法,并應用到污水處理過程的水質指標在線預測中.數據實驗表明:當輸入輸出樣本數據的離群點比例較小時,所提GMSPLS-RVFLNs 水質模型因考慮了隱含層矩陣的多重共線性問題,因而比基本的RVFLNs 模型和利用彈性網罰的Robust RVFLNs 模型有著更低的建模誤差.隨著輸入輸出樣本的離群點比例增加,GMSPLS-RVFLNs 模型利用Schweppe 型廣義M 估計充分考慮了輸入輸出樣本之間的關系,對離群點進行合理處理,與RVFLNs、Robust RVFLNs 和PRM RVFLNs 方法相比有更低的預測誤差.綜上,所提GM-SPLS-RVFLNs 模型利用SPLS 和Schweppe 型廣義M 估計不僅有效解決了多重共線性和魯棒性差的問題,同時還提高了模型的計算效率和建模精度,并且為其他類似的復雜工業難建模問題提供了參考方案.