邱禹 馬興灶 吳菁
學術研究
基于時差處理的自適應多層次軟測量建模方法*
邱禹1馬興灶1吳菁2
(1.嶺南師范學院機電工程學院,廣東 湛江 524048 2.華南理工大學自動化科學與工程學院,廣東 廣州 510640)
在污水處理過程控制中,軟測量是針對難以測量變量進行有效測量的一種手段。然而,建模輸入的使用限制,使一些與預測目標相關但不易獲取的變量不宜作為輸入信息,阻礙了建模。對此,提出一種多層次軟測量建模方法。首先,利用支持向量回歸建立多個軟測量子模型,輸出與最終目標變量相關但不易獲取的子目標;然后,利用預測的子目標與原始輔助變量構造主模型的輸入變量集,增加預測所需的輸入信息,從而提高預測效果;同時,在建模中引入一種時差處理方法,增強模型的自適應能力,應對因外部干擾而導致的性能退化問題;最后,通過仿真案例對本文所提方法的有效性進行驗證。結果表明:本文所提方法相對于單模型SVR(缺少CODe信息)和單模型SVR(具有完整CODe信息),有更好的預測表現,為0.0398,為0.9987。
污水處理;軟測量;建模;多層次;自適應
在污水處理過程中,為確保過程控制系統的有效運行和出水水質的穩定,需監測諸多過程變量。然而,一些變量,如生化需氧量(biochemical oxygen demand, BOD)等,因內在屬性及經濟成本的原因存在實時測量困難的問題。對此,軟測量技術提供一種可行的解決方案[1-4]。
數據驅動軟測量技術基于系統的過程歷史數據,其核心在于建模。常用的建模方法有:線性的主元分析(principal component analysis, PCA)[5]、偏最小二乘(partial least square, PLS)[6-8]等;非線性的神經網絡[9-10]、支持向量機[11]等。建模方法的考慮在于建立合理的軟測量系統以滿足需求。其中,一個常被忽略的問題是建模出發點的偏離。軟測量要根據對象的實際情況,基于可測或易測變量的歷史數據建模。然而,輸入信息的使用局限,增加了建模難度。
輸入信息對數據模型非常重要。一些關鍵信息的缺失會導致模型預測精度下降或模型結構復雜化[12]。因此,部分研究在某些場景下不考慮實際應用的限制,而采用與目標相關但不易測的變量作為輸入。如文獻[13]在預測SVI時,采用混合液揮發性懸浮固體濃度(mixed liquid volatile suspended solids, MLVSS)作為輸入,并在實驗室550℃工況下每周測定,而不是在線實時獲取該變量;文獻[14]在預測BOD濃度時,雖然引入了一種基于互信息的特征選取方法,從22個候選變量中選取10個作為模型輸入,但仍包含同為難測變量的進水BOD濃度。以上例子都將同屬于不易測范疇的變量納為輸入信息來建立模型,這與軟測量技術的初衷相違背。因此,如何在滿足精度需求的同時,合理解決輸入端缺失的重要輸入信息,是軟測量技術應用容易忽略且有待研究的問題。多模型策略提供了一種可行的解決思路。
傳統多模型軟測量建模方法主要有加權組合和模型切換。加權組合方法是針對非線性系統的每個子系統設計相應的局部模型,再通過一種線性或非線性的關系構成對應母系統的全局模型[15-16]。模型切換方法通過一個基于某種性能指標的切換函數,在每次預測前,選擇使性能指標最小的元素模型進行輸出[17-18],保證了預測精度。
加權組合和模型切換建模方法主要針對多工況復雜非線性系統的建模或控制問題,利用多模型更好地逼近系統的動態性能,但無法解決建模輸入限制問題,即如何處理重要但不易獲取的輸入變量用于建模。針對該問題,本文提出一種多層次建模方法——自適應多層次軟測量建模。模型框架主要由主模型(primary model)和二次模型(secondary model,也稱輔助模型)2部分構成。輔助模型基于并聯形式串聯到主模型,輸出主模型輸入中缺少的重要信息,構成一種系統軟測量模型。支持向量機回歸(support vector regression, SVR)是一種非線性建模方法,已被證實在軟測量應用中是有效的[19-21]。本文采用SVR建模方法建立主次模型。同時,在系統建模中引入一種時差(time difference, TD)處理方法,用于應對外部干擾,如傳感器漂移、外界環境變化(天氣、季節)等導致的性能退化問題[22-23],增強模型自適應能力。





時差處理能夠消除外部干擾的影響,使變量內在分布規律平穩,從而提升建模效果[12],其流程如圖1所示。時差建模方法有助于維持穩定的預測精度[24-25],避免了相關問題[26]。

圖1 時差建模流程
支持向量回歸是基于支持向量機(support vector machine, SVM)的一種回歸方法,通過應用核技巧(kernel trick)將SVM用于處理非線性回歸問題。本質上,SVR是一種優化問題,其主要形式為

通過求解式(5),可構建一種具有平衡泛化能力和過擬合的回歸模型:



通過式(6)可以看出:SVR的核心在于核函數,不同的核函數將形成不同算法。實質上,通過核函數的非線性映射可將輸入空間映射到一個高維特征空間,然后在這個空間中進行線性回歸,從而取得原空間非線性回歸的效果。其中研究和應用最多的核函數是高斯核函數:

本文提出一種自適應多層次軟測量建模方法,其框架如圖2所示。

圖2 自適應多層次軟測量建模方法框架



多層次建模方法主要是為了解決輸入信息貧乏問題。影響模型預測能力的主要因素有模型解析能力和輸入信息,其中輸入信息更為重要。當輸入與輸出之間的相關性較弱時,建模難度增大。因為僅靠輸入信息已不足以對輸出變量進行準確預測,因此需要模型能夠對預測誤差進行補償。誤差越大,模型需要補償的信息就越多,模型也越復雜。而多層次建模方法能夠豐富預測目標變量時缺失的重要輸入信息,對模型解析能力無過高要求,無需構造復雜的模型結構或訓練算法,從而降低了建模難度。
自適應多層次軟測量建模流程如圖3所示。圖3(a)為系統模型的離線建模部分:首先,與預測目標相關的可測變量集的歷史過程數據經過時差處理使數據序列平穩化,目的在于將變量的變化趨勢包含其中,以便隨時間衰減的影響能得到解釋;然后,根據與預測目標的相關性程度,選擇二次模型和主模型的輸入,進行建模。圖3(b)為系統模型的在線實施部分。離線部分構建的系統軟測量模型作為核心部分用于預測,模型輸出需要進行反時差處理以恢復為原數據格式,才能作為最終預測結果。

圖3 自適應多層次軟測量建模流程
通過案例驗證基于時差處理的自適應多層次軟測量建模的有效性。首先,本文所提建模方法雖然可以建立多個輔助模型,但前提是存在多個與最終預測目標相關性高但不易獲取的變量;再者,案例研究的主要目的是驗證方法的有效性,模型規模不是主要考慮方面。因此,為使驗證過程清晰易懂,在本案例中只用到1個輔助模型進行說明。
驗證過程從2方面考慮:
1)應用性能,多層次建模考慮了不易測輸入變量的信息,為驗證本文所提方法比單模型建模具有優勢,本文所提方法與單模型SVR(缺少相關輸入信息)就單目標預測性能進行對比研究;
2)理論性能,多層次建模方法需建立多個層次模型來構造缺失的輸入信息,從而增強預測性能;在不考慮實際應用性,具有完整輸入信息的前提下,為驗證本文所提方法的性能,本文所提方法與單模型SVR(具有完整輸入信息)進行對比研究。
評價指標選用均方根誤差(root mean square error, RMSE)和相關性系數。值越小,模型的預測性能越好,其定義為

4.1.1 背景簡介
基準仿真模型1(benchmark simulation model 1, BSM1)是由國際水協會(international water association, IWA)提出的一種基準仿真環境,其提供一種無偏差的基準系統,以便比較不同的控制策略而無需參照具體設施,如圖4所示。

圖4 BSM1定義下的污水處理過程
在BSM1定義的仿真環境中,污水處理過程由5個活性污泥反應池(6000 m3)和1個二沉池(深4 m,10層,6000 m3)構成。其中,活性污泥反應池由2個缺氧池和3個好氧池組成;日平均處理污水量為20000 m3,可生物降解的化學需氧量為300 mg/L;同時涵蓋了硝化和前置反硝化過程以實現生物脫氮。1號活性污泥模型(activated sludge model no.1, ASM1)用于描述生化反應池內發生的生化反應。
4.1.2 場景定義
本案例中,選擇出水BOD5作為目標變量來驗證模型的有效性。BOD是反映水體被有機物污染程度的一種重要綜合指標。對于大多數的中小型污水處理廠而言,BOD大多通過人工化驗方式確定,即5天培養法測定BOD值,因此稱為BOD5。這種測量方式實時性較差,化驗結果大大滯后于污水的排放過程,容易造成二次污染。BOD5的實時檢測一直是污水處理軟測量研究的主要內容。本案例根據工藝機理分析,初步選取與BOD5相關的初始輔助變量,最終通過實地考察選取可(易)測量且經濟性高的初始輔助變量作為輔助變量,如表1所示。其中,CODe是出水總化學需氧量,反映水體受還原性物質污染程度的一種綜合指標,同時也是一種不易測量變量。基于現實可行性操作,不建議其作為輸入用于模型預測。因此,本案例中CODe作為二次模型的預測目標,用于補充主模型的輸入信息,而其余變量則同時作為主、次模型的輸入。

表1 輔助變量
在雨天場景下,閉環運行BSM1仿真模型2周。設定15 min采樣率,共采集1344個樣本數據。選擇雨天場景是因為惡劣天氣條件具有外部干擾等因素,能進一步考驗本文所提方法的有效性(泛化性能)。
在測試前,對軟測量模型的一些重要參數進行預定義:
1)時差間隔,時差處理需明確時差間隔,本案例將時差間隔設定為變量的采樣間隔,即15 min,時差間隔較小時,時差變量雖然可以反映更多的短期變化,但也因此包含更多噪聲;反之,時差間隔較大時,無法準確反映過程狀態的短期變動信息,因此,通常將采樣間隔設為最小可行的時差處理間隔;
2)核函數,選用高斯函數作為SVR模型的核函數,具體參照式(7);
3)模型參數,正則化參數、準確度閾值和核參數采用遺傳算法來確定,即選取代表模型性能指標的均方誤差(mean square error, MSE)作為適應度(fitness value)來迭代。
雨天場景下的進水流量圖如圖5所示。整個運行周期可分為2個階段:前5日為第一階段(晴天),此階段的進水量在10000 m3~33000 m3區間平穩波動;從第6日開始為第二階段(雨天),進水量有較大波動,可分為雨天早期、峰期和雨天后期。雨天早期因為滯后性雨量未反映到進水量,反而相對于晴天有所回落。隨著雨天的推進,雨量開始反映到進水量,在第9日左右進入峰期,進水量爆發性地增加到50000 m3以上,并在30000 m3~ 50000 m3區間劇烈波動數日,這意味著反映水體質量的參數變量也將劇烈變化,這對模型是一個挑戰,因為這需要模型在持續幾天的新狀態下給出目標變量的精準預測。隨著雨天的消除(雨天后期),進水量逐步回落,并趨于平穩。考慮現實情況,污水處理在大多處于晴天場景下連續運行,數據也在晴天場景采集的較多。基于上述分析,用第一階段采集的數據訓練模型,第二階段的數據測試模型,目的在于驗證模型的泛化性能,以更好地反映實際運行場景。訓練數據和測試輸入數據在進入模型前(時差處理后)統一進行歸一化處理。所有與輸入變量相關的傳感器在仿真運行過程中都是可靠的,以上處理方式著重于模型預測性能的變化,無需考慮其他影響因素。

圖5 雨天場景下的進水流量圖
圖6(a)為本文所提方法的二次模型基于遺傳算法技巧的參數搜尋結果。可以看出:當適應度值趨于穩定時,計算出的最佳參數= 0.7905,= 2.0180,= 0.0168。同理,圖6(b)為主模型的參數搜尋結果,計算出的最佳參數= 23.8675,= 0.1545,= 0.0101。

圖6 適應度曲線
圖7和圖8為本文所提方法的預測結果。由圖7可以看出:降雨期間目標變量CODe的預測值曲線緊密貼合實際值曲線,說明在劇烈干擾下本文所提方法能夠很好地跟蹤目標的變化趨勢,評價指標和分別為0.7709和0.9953。由圖8可以看出:基于二次模型提供的CODe信息,主模型對于BODe的預測總體上符合預期,預測值曲線不僅能夠很好地跟蹤實際值曲線的走勢,且沒有出現明顯偏差;雖然在降雨峰期有些許波動,但考慮到劇烈外部干擾等因素的影響,其結果可以接受,評價指標和分別為0.0398和0.9987。

圖7 二次模型預測結果

圖8 主模型預測結果
在缺少CODe輸入信息下的單模型SVR預測結果如圖9所示。可以看出:CODe信息的缺失對模型性能產生了負面影響,主要表現在峰期結束后的一段時間無法跟蹤到目標變化,且偏差較大;在其他時刻(峰期),預測結果也不太穩定,同樣存在波動,無法很好地貼合實際值曲線,評價指標和分別為0.0566和0.9973。

圖9 單模型SVR預測結果(缺少CODe信息)
具有實際CODe輸入信息的單模型SVR預測結果如圖10所示。可以看出:當具有確定、充足的輸入信息時,模型對目標的預測結果令人滿意,在降雨峰期以及峰期結束后的反復波動期間,都比前述2種模型表現優秀,評價指標和分別為0.0215和0.9966。

圖10 單模型SVR預測結果(具有完整CODe信息)
3種測試模型目標變量的評價指標和結果如表2所示。

表2 3種測試模型目標變量的評價指標RMSE和r結果
本文通過案例驗證了基于時差處理的自適應多層次軟測量建模的有效性。基于BSM1仿真環境,對比模型在雨天場景下進行測試。結果表明:本文所提方法考慮了不易測的輸入信息,對比缺失相關信息的單模型而言具有更好的預測表現;而對比具有完整輸入信息的單模型,性能表現差距不大。綜合結果分析有如下結論:
1)輸入信息對于模型預測性能至關重要,多層次軟測量建模方法考慮了與目標相關但不易測的重要輸入信息,提高了預測表現力,從而在實際應用中更具優勢;
2)與具有完整輸入信息的單模型相比,多層次建模方法雖然在預測結果上略有不及,且存在計算負荷稍重等問題,但該方法易實現,且經濟性高。對于大多數經費有限的中小型污水處理廠而言,在誤差允許的范圍內,以高經濟性方式獲得重要的水質參數是可行且可接受的。而完整的輸入信息在實際操作中是不可行的,一些不易測量的變量無法作為正常獲取的輸入信息用于構造模型和預測,即使可獲取也存在實現成本高昂等代價,難以在實際應用中推廣。
在污水處理過程控制中,多個難以獲取的變量阻礙軟測量建模,降低模型的預測能力。為此,本文提出基于時差處理的自適應多層次軟測量建模方法。通過建立多個輔助模型以并聯方式預測主模型建模所缺少的關鍵信息,從而有效提高主模型的預測能力。同時,采用時差建模方法,提高系統模型的自適應能力,解決模型性能退化問題。最后,通過一個仿真案例驗證了本文所提方法的有效性。多層次建模方法可以進一步拓展到多個層次,其需求在于模型輸入變量的不可獲取性。
[1] 黃道平,劉乙奇,李艷.軟測量在污水處理過程中的研究與應用[J].化工學報,2011,62(1):1-9.
[2] 曹鵬飛,羅雄麟.化工過程軟測量建模方法研究進展[J].化工學報,2013,64(3):788-800.
[3] HAIMI H, MULAS M, CORONA F, et al. Data-derived soft-sensors for biological wastewater treatment plants: an overview[J]. Environmental Modelling & Software, 2013, 47: 88-107.
[4] KADLEC P, GABRYS B, STRANDT S. Data-driven soft sensors in the process industry[J]. Computers & Chemical Engineering (S0098-1354), 2009, 33(4), 795-814.
[5] 朱群雄,張曉晗,顧祥柏,等.基于特征提取的函數連接神經網絡研究及其化工過程建模應用[J].化工學報,2018,69(3):907-912,883
[6] QIN S J. Recursive PLS algorithms for adaptive data modelling[J]. Computers & Chemical Engineering, 1998, 22(4-5): 503-514.
[7] 劉乙奇,黃道平,李艷.基于改進JIT算法的軟測量建模及其在污水處理中的應用[J].華南理工大學學報(自然科學版),2011, 39(5): 55-60,67.
[8] 王功明,李文靜,喬俊飛.基于PLSR自適應深度信念網絡的出水總磷預測[J].化工學報,2017,68(5):1987-1997.
[9] QIU Y, LIU Y, HUANG D. Date-driven soft-sensor design for biological wastewater treatment using deep neural networks and genetic algorithms[J]. Journal of Chemical Engineering of Japan, 2016, 49(10): 925-936.
[10] 韓紅桂,陳治遠,喬俊飛,等.基于區間二型模糊神經網絡的出水氨氮軟測量[J].化工學報,2017,68(3):1032-1040.
[11] VAPNIK V N, VAPNIK V. Statistical learning theory[M]. New York: Wiley, 1998.
[12] 邱禹.面向污水處理的軟測量建模研究及其應用[D].廣州:華南理工大學,2018.
[13] BAGHERI M, MIRBAGHERI S A, BAGHERI Z, et al. Modeling and optimization of activated sludge bulking for a real wastewater treatment plant using hybrid artificial neural networks-genetic algorithm approach[J]. Process Safety and Environmental Protection, 2015, 95: 12-25.
[14] 李文靜,李萌,喬俊飛.基于互信息和自組織RBF神經網絡的出水BOD軟測量方法[J].化工學報, 2019, 70(2): 687-695.
[15] HUNT K J, JOHANSEN T A. Design and analysis of gain-scheduled control using local controller networks[J]. International Journal of Control, 1997, 66(5): 619-652.
[16] 梅從立,楊銘,劉國海.基于證據合成的高斯過程回歸多模型軟測量方法[J].化工學報,2015,66(11):4555-4564.
[17] NARENDRA K S, BALAKRISHNAN J. Improving transient response of adaptive control system multiple models and switching[J]. IEEE Transactions on Automatic Control, 1994, 39(9): 1861-1866.
[18] 龐強,鄒濤,叢秋梅,等.基于高斯混合模型與主元分析的多模型切換方法[J].化工學報,2013,64(8):2938-2946.
[19] HIROMASA K, KIMITO F. Adaptive soft sensor model using online support vector regression with time variable and discussion of appropriate hyperparameter settings and window size[J]. Computers & Chemical Engineering, 2013, 58(11): 288-297.
[20] 馬建,鄧曉剛,王磊.基于深度集成支持向量機的工業過程軟測量方法[J].化工學報,2018,69(3):1121-1128.
[21] 吳菁,劉乙奇,劉堅,等.基于動態多核相關向量機的軟測量建模研究[J].化工學報,2019,70(4):1472-1484.
[22] SOUZA F, RUI A, MENDES J. Review of soft sensor methods for regression applications[J]. Chemometrics and Intelligent Laboratory Systems, 2016, 152: 69-79.
[23] KANEKO H, FUNATSU K. Classification of the degradation of soft sensor models and discussion on adaptive models[J]. AIChE Journal, 2013, 59(7): 2339-2347.
[24] KADLEC P, Grbi? R, GABRYS B. Review of adaptation mechanisms for data-driven soft sensors[J]. Computers & Chemical Engineering, 2011, 35(1): 1-24.
[25] 邱禹,劉乙奇,吳菁,等.基于深層神經網絡的多輸出自適應軟測量建模[J].化工學報,2018,69(7):3101-3113.
[26] KANEKO H, FUNATSU K. Maintenance-free soft sensor models with time difference of process variables[J]. Chemometrics and Intelligent Laboratory Systems, 2011, 107(2): 312-317.
Self-Adaptive Multilevel Soft Sensor Modeling Method Based on Time Difference Processing
Qiu Yu1Ma Xingzao1Wu Jing2
(1. College of Mechanical and Electrical Engineering, LingNan Normal University,Zhanjiang 524048, China 2. School of Automation Science and Engineering,South China University of Technology, Guangzhou 510640, China)
In the process control of wastewater treatment, soft sensing is an effective mean to measure the difficult variables. However, the limitation of modeling input makes some variables that are related to the target but not easy to obtain unsuitable as input information, hindering modeling. Therefore, a novel multiple-level of soft sensor modeling method is proposed. First, multiple soft sensor sub-models are built using support vector regression to output sub-objectives which are related to the final objective variable but are hard to acquire. Then, the sub-objectives and original secondary variables are constructed as the inputs of the primary model to increase the information needed for the prediction, thus improve the final prediction effect. Meanwhile, a time difference modeling method is introduced in the modeling to deal with the performance degradation caused by external interference. The proposed method is validated through a case study of simulation and real application. The results show that Compared with single model SVR (lack of coder information) and single model SVR (with complete coder information), the method proposed in this paper has better prediction performance.is 0.0398,is 0.9987.
wastewater treatment; soft sensor; modeling; multilevel; self-adaptive
國家自然科學基金項目(51705228);廣東省教育廳項目(2017KQNCX123)。
邱禹,男,1988年生,博士,主要研究方向:軟測量,過程控制。E-mail: qy-zq1988@163.com
馬興灶(通信作者),男,1984年生,博士,講師,主要研究方向:智能控制。E-mail: maxz@lingnan.edu.cn
吳菁,女,1988年生,博士,主要研究方向:軟測量。
TP 277
A
1674-2605(2020)05-0003-08
10.3969/j.issn.1674-2605.2020.05.003