周文君,李明河
(安徽工業大學 電氣與信息工程學院,安徽 馬鞍山 243002)
基于在線增量LSSVM的污水軟測量模型
周文君,李明河
(安徽工業大學 電氣與信息工程學院,安徽 馬鞍山 243002)
出水COD濃度的精準預測是污水處理期望實現的目標,然而現有的離線模型對大規模時變更新的水質數據,預測效果會逐漸變差.針對該情況,采用離線模型結合增量學習的思想,提出基于在線增量LSSVM污水軟測量模型,即首先建立基于LSSVM污水軟測量模型,然后針對不斷更新的增量樣本,通過誤差閾值進行篩選,有選擇地增量學習,并結合合適的剪枝操作,實現樣本長度的固定,對出水COD濃度在線預測.仿真結果表明:相較于標準LSSVM模型,本模型在預測精度、預測時間上,都具備不同程度的優勢,很好地解決了離線學習的問題,實現在線精準預測.
污水軟測量;在線增量LSSVM;出水COD濃度;誤差閾值;剪枝操作
隨著工業現代化的不斷發展,環境污染特別是工業污水問題尤為突出.污水處理是一個具有強非線性、時變性、大滯后等特點的復雜工業過程,重要水質出水COD濃度的檢測以及預判都顯得非常困難,因此軟測量技術作為傳統檢測技術的延伸和發展,應用于污水處理具有重要的現實意義.
支持向量機(support vector machine,SVM)由于其良好的非線性系統辨識能力,近年來在污水處理中取得了廣泛應用[1-3].然而其中大部分都是屬于離線模型的范疇,一旦遭遇數據大規模時變更新時,模型的離線學習方式將不能夠滿足實際需求,預測效果逐漸降低.因此,很多專家學者提出離線模型結合增量學習的思想[4-10],使模型可以隨著時間更新變化具備不斷調整的能力.由于大多數增量式算法都是基于傳統支持向量機,即在線求解凸二次規劃問題,計算效率較低,運算時間較長.為了提高運算效率,本文引入最小二乘支持向量機(LSSVM),用線性方程組取代二次規劃運算,建立基于在線增量LSSVM學習算法,并添加篩選機制和剪枝操作,使模型相較于標準LSSVM模型,在準確性和在線性都有一定的改善和提高.
最小二乘支持向量機通過引入非線性變換?:Rn?Rm,把樣本數據從低維輸入空間映射到高維特征空間,在高維特征空間中構造線性回歸函數.增量學習中,樣本數據隨著時間不斷添加,也就是樣本集隨著時刻t每次產生一個增量樣本.設更新后的樣本集表示為{(xt,yt)},其中,x(t)=[x1,x2,…xt],y(t)=[y1,y2,…yt],x(t)∈Rn,y(t)∈R.
LSSVM回歸函數表示為:

令U(t)=H(t)-1=(Qt+C-1I)-1,得到:

由式(2)可知,對矩陣U(t)的求解,本文選擇矩陣迭代的方式求逆運算.

當t+1時,添加新增樣本,相應H(t)則變成(t+1)*(t+1)的方陣:

矩陣分塊可得

式(3)是U(t+1)和U(t)之間的一個遞推公式,可知當添加增量樣本時,新矩陣求解可以根據以前存儲結果進行迭代求解,避開對大維度矩陣求解,縮短了運算時間,提高了運算效率,給大規模數據在線預測提供了可行性.
1.2.1 誤差閾值
污水處理數據是時變更新的,當大規模參數數據無差別地當作增量樣本進行學習時,模型的負擔將會加重,效率將會下降,所以一定的篩選機制實現有選擇學習,在保證準確度的前提下減少學習次數,提高學習效率[11].本文以模型訓練結果為參照,所選取樣本訓練偏差的平均值作為誤差閾值ek,即其中,n是所選訓練樣本的個數,yi是實際值,是預測值.
該方法的思想是針對每個樣本進行樣本增量之前,首先由預測模型進行預測,求偏差,當預測偏差超過誤差閾值,才對樣本進行增量學習,而對于沒有超過的樣本,則認為該類樣本對LSSVM模型的效果影響不大,沒有多余其它信息的產生,不對其進行增量學習.
1.2.2 剪枝操作
當模型面臨龐大的預測集數據時,計算機儲存的歷史結果不斷增多,矩陣維度也相繼增大,對應的迭代運算也將會變得更加復雜,所以增量學習的同時需要添加必要的剪枝操作,本文參照文獻[11]的剪枝操作,認為時變模型中原始數據包含的信息最弱,選擇剪掉最早加入的樣本數據.
假設當前模型已經學習l個樣本,然后選擇去除最早的樣本,此時迭代矩陣可以表示為:


圖1 在線增量LSSVM算法流程
其中,v=k(x1,x1)+1/C,V=[k(x1,x2)…k(x2,x1)].
由式(4)可知可以通過剪枝進行迭代求解.改進算法的流程如圖1所示.
本文基于對BAF污水處理出水COD的預測研究,實驗數據來源于某環保公司BAF項目正常運作下各儀表現場檢測,并通過PLC傳輸,在上位機顯示的實時采樣值.采樣系統定時在線采集與出水COD有著密切聯系的變量,即進水COD濃度、進水NH3-N、溶解氧(DO)濃度、進水PH、水力停留時間(HRT)、TN(總氮)、TP(總磷)等.為了保證建模的準確和便利,通過主元分析法選取部分過程變量取代之前的所有變量,并反映之前變量的所有信息,即通過SPSS軟件利用貢獻率大小對出水COD濃度影響因子進行篩選,最終選取進水COD濃度、進水NH3-N、溶解氧(DO)濃度、進水PH作為模型的輸入變量,建立出水COD濃度的污水軟測量模型.
為了驗證本文改進算法在精度上的有效性,篩選出其中的200組污水數據,其中150組作為訓練數據,且當作滑動窗口的大小,后50組作為在線預測數據.核函數選用RBF核函數,并且選用PSO算法進行參數優化,用本文改進的在線增量LSSVM算法進行訓練預測,仿真曲線如圖2和圖3所示.

圖2 在線增量LSSVM模型訓練曲線

圖3 在線增量LSSVM模型測試曲線
由圖2和圖3可以看出,在線算法的模型準確度較高,當模型遭遇大規模時變數據時,可以實現對出水COD濃度在線準確預測.為了更直觀地驗證在線模型的準確性,從選擇數據的角度進行分析,以均方根誤差作為模型優劣的評判依據,公式為.選擇在線增量LSSVM、增量LSSVM和標準LSSVM三種模型分別進行建模,并且記錄各自的均方根誤差,結果如表1所示.
由表1可知,相比于標準的LSSVM模型,增量LSSVM模型均方根根誤差為0.4979 mg/L,略有提升,即增量學習解決了離線模型面臨的問題,但對于計算精度的提升并沒有很好效果.在線增量LSSVM模型均方根誤差為0.3442mg/L,相較于以上兩者,預測精度得到一定幅度的提升.由此可見,在線算法可以避免離線學習的弊端,實現對出水COD濃度的準確預測.

表1 不同預測模型均方根誤差對比

表2 在線增量LSSVM和標準LSSVM運算時間對比
增量學習主要通過矩陣迭代代替復雜的求逆運算,縮短了運算時間,提高了效率.本文選擇標準LSSVM和在線增量LSSVM,分別記錄面對不同數量樣本情況下模型運算時間,結果如表2所示.
由表2可知,無論樣本個數是多少,在線增量LSSVM模型的運算時間都比標準LSSVM要短,且隨著樣本數量的增多,在線模型時間的增量幅度比標準LSSVM要低很多,對處理數量規模龐大樣本的優勢就更明顯,提高運算效率.
本文以LSSVM為模型算法,結合增量思想,將增量學習算法應用于出水COD濃度的預測,很好地解決了離線模型面臨大規模數據時預測效果變差的弊端,在保證預測準確度的前提下,實現了在線測量.并且,本文也添加相應的改進措施,即誤差閾值的設置以及剪枝操作對模型進行進一步的完善,是模型的稀疏性和在線性得到一定的改進和完善,更好的實現對出水COD濃度的在線精準預測.
[1] 尹先清,羅曉明,王文斌,等.基于SVM方法的含聚污水電化學處理過程控制研究[J].西安石油大學學報:自然科學版,2016(3):92-97.
[2] 程 呈.混合多模型曝氣生物濾池污水處理軟測量建模研究[D].馬鞍山:安徽工業大學,2016.
[3] 連曉峰,李曉婷,潘 峰.機理模型與補償模型相結合的污水處理工藝出水指標軟測量預測模型研究[J].計算機與應用化學,2013(10):1143-1147.
[4] 潘世超.增量支持向量機學習算法研究[D].太原:山西大學,2015.
[5] 陳沅濤,徐蔚鴻,吳佳英.一種增量向量支持向量機學習算法[J].南京理工大學學報,2012(5):873-878.
[6] 王 玲,穆志純,郭 輝.一種基于聚類的支持向量機增量學習算法[J].北京科技大學學報,2007(8):855-858.
[7] GU B,SHENG V S,WANG Z,et al.Incremental learning for v-support vector regression[J].Neural Networks,2015,67:140-150.
[8] LIANG Z,LI Y F.Incremental support vector machine learning in the primal and applications[J].Neurocomputing,2009,72(10):2249-2258.
[9] CAUWENBERGHS G,POGGIO T A.Incremental and decremental support vector machine learning[C] //NIPS.the 13th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2000:388-394.
[10] LIU X,ZHANG G,ZHAN Y,et al.An incremental feature learning algorithm based on least square support vector machine[C]//International Workshop on Frontiers in Algorithmics.Changsha:Springer Berlin Heidelberg,2008:330-338.
[11] 梅 倩.LS-SVM在時間序列預測中的理論與應用研究[D].重慶:重慶大學,2013.
[12] 劉雙印,徐龍琴,李振波,等.基于PCA-MCAFA-LSSVM的養殖水質pH值預測模型[J].農業機械學報,2014(5):239-246.
[13] 楊 柳,孫金華,馮仲科,等.基于PSO-LSSVM的森林地上生物量估測模型[J].農業機械學報,2016(8):273-279.
[14] 張浩然,汪曉東.回歸最小二乘支持向量機的增量和在線式學習算法[J].計算機學報,2006,29(3):400-406.
[15] 蘇書惠,張紹德,譚敬輝.基于支持向量機的污水處理軟測量算法的研究[J].自動化與儀器儀表,2009(6):6-9.
Wastewater Soft Sensor Modeling Based on Online Incremental LSSVM
ZHOU Wenjun,LI Minghe
(School of Electrical and Information Engineering, Anhui University of Technology, Maanshan 243002, China)
Precise prediction of COD concentration is the desired target in the wastewater treatment process.How?ever,the existing off-line soft-sensing model’s predictive effect will be gradually worse facing large-scale real-time updated water quality data.Aiming at this,it proposed a wastewater soft sensor model based on on-line in?cremental least squares support vector machine(LSSVM)was proposed in this paper.Firstly,a wastewater soft sensor model based on on-line incremental LSSVM was built up;secondly,the error threshold was set to achieve a selective incremental learning and constantly update support vectors;thirdly,the matching pruning operation was selected to achieve the size of the sample fixed.The simulation results demonstrated that the model can solve the problems of off-line learning,and can realize online precise forecasting.
wastewater soft-sensing;on-line incremental LSSVM;effluent COD concentration;error threshold value;pruning operation
X703;TP301.6
A
2095-4476(2017)11-0005-04
2017-08-02
安徽省軟科學研究計劃項目(1502052034)
周文君(1992—),女,安徽無為人,安徽工業大學電氣與信息工程學院碩士研究生.
(責任編輯:饒 超)