許云峰,馬春子,霍守亮,席北斗,錢光人*
1.上海大學(xué)環(huán)境與化學(xué)工程學(xué)院,上海 200444
2.中國環(huán)境科學(xué)研究院,北京 100012
以程海為例用支持向量機(jī)回歸算法預(yù)測葉綠素a濃度
許云峰1,馬春子1,霍守亮2,席北斗2,錢光人1*
1.上海大學(xué)環(huán)境與化學(xué)工程學(xué)院,上海 200444
2.中國環(huán)境科學(xué)研究院,北京 100012
應(yīng)用支持向量機(jī)回歸(SVR)算法預(yù)測程海富營養(yǎng)化水體葉綠素 a(Chl-a)的濃度,用留一法交叉驗(yàn)證(LOOCV)優(yōu)化SVR預(yù)測模型的參數(shù),并根據(jù)平均相對(duì)誤差(MRE),討論SVR預(yù)測模型的準(zhǔn)確性。結(jié)果表明:用徑向基核函數(shù)構(gòu)建的SVR預(yù)測模型預(yù)測結(jié)果最優(yōu);SVR預(yù)測模型的預(yù)測值和實(shí)測值具有很好的一致性,相關(guān)系數(shù)為0.938,MRE為12.30%。SVR預(yù)測模型的建模結(jié)果優(yōu)于人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)預(yù)測模型,說明SVR算法能夠準(zhǔn)確預(yù)測 Chl-a濃度。
支持向量機(jī)回歸(SVR);葉綠素a;程海;徑向基核函數(shù)
水體富營養(yǎng)化已經(jīng)成為我國大多數(shù)湖泊水質(zhì)惡化的主要問題,其主要表現(xiàn)為溶解氧濃度降低、生物多樣性減少、水體葉綠素a(Chl-a)濃度升高,爆發(fā)水華等[1-3]。氮磷等營養(yǎng)物的過量輸入是導(dǎo)致水體富營養(yǎng)化的主要原因。因此,水體富營養(yǎng)化的早期預(yù)測很有必要[4]。
近幾十年來,三維模型[5]、SALMO 確定性模型[6]等多種模型被用于水體富營養(yǎng)化的預(yù)測,其中,人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)模型因其方法簡單和預(yù)測能力相對(duì)較好,被廣泛應(yīng)用[7]。但是,BPANN模型在處理小樣本和多變量數(shù)據(jù)時(shí)容易產(chǎn)生過擬合現(xiàn)象[8],即可能產(chǎn)生很好的擬合效果卻得不到好的預(yù)測結(jié)果。
支持向量機(jī)回歸(SVR)算法[9-10]是以 Vapnik創(chuàng)立的統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)建立的數(shù)據(jù)處理新算法。該方法從嚴(yán)格的數(shù)學(xué)理論出發(fā),論證和實(shí)現(xiàn)了在小樣本情況下最大限度地提高預(yù)報(bào)的可靠性,實(shí)際應(yīng)用取得了令人滿意的研究成果。同時(shí),該方法還能避免BP-ANN模型的過擬合現(xiàn)象,具有很好的泛化能力。目前,SVR算法已應(yīng)用于化學(xué)合成[8]、材料優(yōu)化[8]、浮游植物種類預(yù)測[11]和藻類生長評(píng)價(jià)[12]等許多領(lǐng)域。
筆者以程海為例,運(yùn)用SVR算法預(yù)測富營養(yǎng)化水體的Chl-a濃度。先對(duì)SVR預(yù)測模型的參數(shù)進(jìn)行優(yōu)化,然后用SVR算法建立Chl-a濃度的預(yù)測模型,并與BP-ANN預(yù)測模型的結(jié)果進(jìn)行比較。
通過調(diào)查分析,確定程海的主要水質(zhì)指標(biāo):Chl-a濃度,μg/L;總氮(TN)濃度,mg/L;總磷(TP)濃度,mg/L;水溫(Tw),℃;透明度(SD),cm;電導(dǎo)率(γ),μS/cm;溶解氧(DO)濃度,mg/L;化學(xué)需氧量(CODCr),mg/L;高錳酸鹽指數(shù)(CODMn),mg/L。這些指標(biāo)會(huì)對(duì)程海藻類的生長產(chǎn)生直接或間接的影響,進(jìn)而影響水體中的 Chl-a 濃度[13-15]。程海的物理、化學(xué)指標(biāo)數(shù)據(jù)來自1988—2008年云南省環(huán)境監(jiān)測站的常規(guī)監(jiān)測數(shù)據(jù),以及筆者的現(xiàn)場調(diào)查。
由于程海缺少1988—2005年的Chl-a濃度監(jiān)測數(shù)據(jù),因此需采用SVR和BP-ANN分別建立定量預(yù)測模型進(jìn)行預(yù)測。
以 Chl-a 濃度為目標(biāo)變量;SD,DO 濃度,CODCr,CODMn,γ,Tw,TN 濃度和 TP濃度等變量為影響因素,以37個(gè)樣本為訓(xùn)練集,建立了SVR和BPANN預(yù)測模型。
SVR通過引入不敏感函數(shù)(ε)進(jìn)行回歸分析,可以得到較好的回歸分析結(jié)果。將實(shí)際問題通過非線性映照映射到高維特征空間,并在高維特征空間構(gòu)造線性回歸,從而取得在原始空間的非線性回歸效果[16]。
設(shè)樣本集為:(Y1,X1),…,(Yi,Xi),X ∈ Rn,Y∈R。回歸函數(shù)用下列線性方程表示:

式中,Y為目標(biāo)函數(shù);Φi(X)為輸入向量的非線性映射集;wi和B為系數(shù)。各值的大小由最小化正規(guī)化風(fēng)險(xiǎn)函數(shù)R(C)來確定。R(C)可表示為:

為了確保最優(yōu)化問題有解,引入松弛變量ζi和,回歸預(yù)測模型可表示為:

約束于

根據(jù)優(yōu)化條件可以得到支持向量回歸機(jī)的對(duì)偶問題:

在一定約束條件下

最后,得到支持向量機(jī)的回歸估計(jì)公式[17-19]:

式中,K(Xi,Xj)為核函數(shù),其值為特征空間Φ(X)中兩個(gè)結(jié)果向量 Xi和 Xj的乘積,即 K(Xi,Xj)=Φ(Xi)Φ(Xj)。核函數(shù)的優(yōu)勢在于能在不知道Φ(X)具體變換形式的情況下,用低維空間數(shù)據(jù)輸入計(jì)算高維特征空間中的點(diǎn)積[20]。在實(shí)際應(yīng)用中,常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)三種,具體形式如下。
線性核函數(shù):

多項(xiàng)式核函數(shù):

徑向基核函數(shù):

所有輸入模型的數(shù)據(jù)都進(jìn)行標(biāo)準(zhǔn)化預(yù)處理。由于數(shù)據(jù)樣本較少,故采用留一法交叉驗(yàn)證(LOOCV)[8]選擇SVR預(yù)測模型的參數(shù)。將n個(gè)樣本分成兩個(gè)不相關(guān)的子集,分別為訓(xùn)練集(n-1個(gè)樣本)和預(yù)測集(1個(gè)樣本)。n個(gè)樣本輪留作為預(yù)測集,對(duì)另外n-1個(gè)樣本建立的訓(xùn)練模型進(jìn)行驗(yàn)證,得到預(yù)測值與實(shí)際值之間的差別。用平均相對(duì)誤差(MRE)來評(píng)價(jià)模型預(yù)測能力的好壞:

式中,ei為第i個(gè)樣本的實(shí)際值;pi為第i個(gè)樣本的預(yù)測值;n為LOOCV的樣本總數(shù)。
圖1為C=10時(shí),三種核函數(shù)的MRE隨ε的變化;圖2為ε=0.01時(shí),三種核函數(shù)的MRE隨C的變化。由圖1和圖2可見,用徑向基核函數(shù)構(gòu)建的SVR預(yù)測模型得到的平均相對(duì)誤差最小。說明徑向基核函數(shù)可以對(duì)程海的Chl-a濃度進(jìn)行更好的定量預(yù)測。

圖1 C=10不敏感函數(shù)(ε)對(duì)應(yīng)的MREFig.1 MRE in LOOCV versus the ε with C=10

圖2 ε=0.01平衡因子(C)對(duì)應(yīng)的MREFig.2 MRE in LOOCV versus the C with ε=0.01
SVR預(yù)測模型預(yù)測能力的強(qiáng)弱與核函數(shù)的選擇有很大的關(guān)系,不同核函數(shù)對(duì)MRE的影響很大。同時(shí),參數(shù)ε和C也非常重要,其不僅權(quán)衡最大空白與最小訓(xùn)練誤差,也會(huì)影響訓(xùn)練和預(yù)測結(jié)果,因此,參數(shù)ε和C應(yīng)與核函數(shù)類型一起進(jìn)行優(yōu)化。通常情況下,ε和C值在建模前是不確定的,其值大小取決于數(shù)據(jù)的類型。ε值過大,算法在擬合數(shù)據(jù)過程中會(huì)出現(xiàn)壓力不足現(xiàn)象;ε值過小,訓(xùn)練數(shù)據(jù)集將會(huì)出現(xiàn)過擬合現(xiàn)象。而C的變化與ε基本相反[8]。
用徑向基核函數(shù)對(duì)程海的數(shù)據(jù)建立SVR預(yù)測模型,并采用網(wǎng)格法進(jìn)行ε和C的參數(shù)優(yōu)化。圖3表示徑向基核函數(shù)MRE隨ε(步長為0.01)和C(C=1~10時(shí)步長為1;C=10~100,步長為10)的變化趨勢。從圖3可以看出,選用徑向基核函數(shù)建立SVR預(yù)測模型對(duì)應(yīng)的平均相對(duì)誤差最低(C=10,ε =0.03,σ =1)。

圖3 徑向基核函數(shù)不同ε和C時(shí)對(duì)應(yīng)的MREFig.3 MRE in LOOCV versus C and ε with RBF kernel function
根據(jù)2.1節(jié)得到的最優(yōu)核函數(shù)及最佳ε和C的組合,使用程海的水質(zhì)指標(biāo)(SD,DO濃度,CODCr,CODMn,γ,Tw,TN 濃度和 TP 濃度)建立了 Chl-a 濃度的最佳SVR預(yù)測模型。以37個(gè)樣本點(diǎn)作為訓(xùn)練集對(duì)Chl-a濃度建立SVR預(yù)測模型,如圖4所示。

圖4 Chl-a濃度SVR建模結(jié)果Fig.4 The result of SVR model of Chl-a concentration
Chl-a濃度最佳SVR預(yù)測模型的回歸方程為:

式中,βi=表示支持向量的拉格朗日系數(shù)。根據(jù)式(13)可以得到Chl-a濃度的預(yù)測值,對(duì)預(yù)測值和實(shí)測值進(jìn)行比較,相關(guān)系數(shù)為0.938。這表明SVR預(yù)測模型的預(yù)測值與實(shí)測值具有高度的一致性。
為了評(píng)價(jià)SVR預(yù)測模型的預(yù)測和泛化能力,將其與BP-ANN預(yù)測模型進(jìn)行比較。應(yīng)用三層(輸入層、隱含層和輸出層)BP-ANN模型建模,BPANN預(yù)測模型經(jīng)過參數(shù)優(yōu)化,確定隱含層節(jié)點(diǎn)數(shù)為5。選擇Sigmoid函數(shù)為轉(zhuǎn)換函數(shù),預(yù)測誤差用MRE表示。圖5為用BP-ANN建立的Chl-a濃度預(yù)測模型。
由圖4和圖5可知,SVR對(duì)Chl-a濃度的建模結(jié)果與實(shí)際結(jié)果十分吻合,實(shí)測值和預(yù)測值的相關(guān)系數(shù)為0.938,通過公式計(jì)算得到MRE為12.30%。BP-ANN預(yù)測模型實(shí)測值和預(yù)測值的相關(guān)系數(shù)為0.933,通過公式計(jì)算得到 MRE為25.72%,高于SVR預(yù)測模型。因此得出,SVR預(yù)測模型的建模結(jié)果明顯好于BP-ANN預(yù)測模型,所以用SVR預(yù)測模型來預(yù)測程海的Chl-a濃度更加可靠。

圖5 Chl-a濃度BP-ANN建模結(jié)果Fig.5 The result of BP-ANN model of Chl-a concentration
(1)在參數(shù)優(yōu)化過程中,在合適的ε和C下選擇徑向基核函數(shù)建立SVR預(yù)測模型得到的結(jié)果平均相對(duì)誤差最小,說明徑向基核函數(shù)更適合對(duì)程海的復(fù)雜富營養(yǎng)化問題進(jìn)行預(yù)測。
(2)用SVR建模的相關(guān)性系數(shù)為0.938,說明模型的預(yù)測值與程海的實(shí)測值具有高度的一致性,表明,程海的Chl-a濃度可以用SVR預(yù)測模型來定量預(yù)測。
(3)SVR預(yù)測模型的建模結(jié)果明顯好于BPANN預(yù)測模型,說明對(duì)于Chl-a濃度的預(yù)測,SVR算法具有更高的可靠性。
(4)根據(jù)建立的SVR預(yù)測模型,對(duì)收集的程海實(shí)測數(shù)據(jù)樣本的Chl-a濃度進(jìn)行定量預(yù)測,所預(yù)測的Chl-a濃度可以為多元統(tǒng)計(jì)方法推測程海營養(yǎng)物基準(zhǔn)參照狀態(tài)提供數(shù)據(jù)。
[1]PRETTY J N,MASON C F,NEDWELL D B,et al.Environmental costs of freshwater eutrophication in England and Wales[J].Environ Sci Technol,2002,37(2):201-208.
[2]DODDS W K,BOUSKA W W,EITZMANN J L,etal.Eutrophication of US freshwaters:analysis of potential economic damages[J].Environ Sci Technol,2008,43(1):12-19.
[3]XUE X,LANDIS A E.Eutrophication potentialoffood consumption patterns[J].Environ Sci Technol,2010,44(16):6450-6456.
[4]KARUL C,SOYUPAK S,ILESIZ A F,et al.Case studies on the use of neural networks in eutrophication modeling[J].Ecological Modelling,2000,134(2/3):145-152.
[5]MAO J,CHEN Q,CHEN Y.Three-dimensional eutrophication model and application to Taihu Lake,China[J].J Environ Sci,2008,20(3):278-284.
[6]WALTER M,RECKNAGEL F,CARPENTER C,et al.Predicting eutrophication effects in the Burrinjuck Reservoir(Australia)by means of the deterministic model SALMO and the recurrent neural network model ANNA[J].Ecological Modelling,2001,146(1/2/3):97-113.
[7]JIANG Y,XU Z,YIN H.Study on improved BP artificial neural networks in eutrophication assessment of China eastern lakes[J].J Hydrodynamics:B,2006,18(3,Suppl):528-532.
[8]LIU X,LU W C,JIN S L,et al.Support vector regression applied to materials optimization of sialon ceramics[J].Chemometrics Intelligent Laboratory Systems,2006,82(1/2):8-14.
[9]VAPNIK V N.A nature of statistical learning theory[M].New York:Springer Verlag,1995.
[10]VAPNIK V N.Statistical learning theory[M].USA:A Wiley-Interscience Publication,John Wiley and Sons Inc,1998.
[11]RIBEIRO R,TORGO L.A comparative study on predicting algae blooms in Douro River,Portugal[J].Ecological Modelling,2008,212(1/2):86-91.
[12]YAN Q,WANG G.Prediction model of alga's growth based on support vector regression[C]//2009 International Conference on Environmental Science and Information Application Technology:2.Wuhan:ESIAT,2009:673-675.
[13]侯延鵬.營養(yǎng)元素及光照、溫度對(duì)銅綠微囊藻生長、越冬及復(fù)蘇的影響研究[D].南昌:南昌大學(xué),2008.
[14]王珂.不同環(huán)境條件下銅綠微囊藻和柵藻競爭能力的比較研究[D].南京:河海大學(xué),2006.
[15]蒙萬輪.重慶郊區(qū)水庫水體富營養(yǎng)化試驗(yàn)研究[D].重慶:重慶大學(xué),2005.
[16]YANG S,LU W,CHEN N,et al.Support vector regression based QSPR for the prediction of some physicochemical properties of alkyl benzenes[J].J Molecular Structure:THEOCHEM,2005,719(1/2/3):119-127.
[17]GU T,LU W,BAO X,et al.Using support vector regression for the prediction of the band gap and melting point of binary and ternary compound semiconductors[J].Solid State Sciences,2006,8(2):129-136.
[18]CHALIMOURDA A, SCHOLKOPF B, SMOLA A J.Experimentally optimal ν in support vector regression for different noise models and parameter settings[J].Neural Networks,2004,17(1):127-141.
[19]RIAHI S,POURBASHEER E,GANJALI M R,et al.Support vector machine-based quantitative structure-activity relationship study of cholesteryl ester transfer protein inhibitors[J].Chemical Biology Drug Design,2009,73(5):558-571.
[20]王宏宇,糜仲春,梁曉艷,等.一種基于支持向量機(jī)回歸的推薦算法[J].中國科學(xué)院研究生院學(xué)報(bào),2007,24(6):742-748.
Using Support Vector Regression Algorithm to Predict Chlorophyll-a Concentrations with Chenghai Lake for Example
XU Yun-feng1,MA Chun-zi1,HUO Shou-liang2,XI Bei-dou2,QIAN Guang-ren1
1.School of Environmental and Chemical Engineering,Shanghai University,Shanghai 200444,China
2.Chinese Research Academy of Environmental Sciences,Beijing 100012,China
The support vector regression(SVR)algorithm was used to predict the concentration of chlorophyll-a(Chl-a)of eutrophication water in Chenghai Lake,and the leave-one-out cross-validation(LOOCV)method was used to optimize the model parameters.Then the prediction accuracy of SVR model was discussed on the basis of the mean relative error(MRE).The results demonstrated that the SVR model built by radial basis kernel function(RBF)had the optimal predictive ability.The predicted values of SVR were in good consistency with the measured values of experiment.The correlation coefficient(R)and MRE of SVR model could reach 0.938 and 12.30%,respectively.It was found that the modeling results of SVR were better than that of back propagation artificial neural networks(BP-ANN),suggesting that SVR was a valuable tool for the prediction of Chl-a.
support vector regression(SVR);chlorophyll-a;Chenghai Lake;radial basis kernel function
X524
A
10.3969/j.issn.1674-991X.2012.03.031
1674-991X(2012)03-0207-05
2011-12-21
國家水體污染控制與治理科技重大專項(xiàng)(2009ZX07106-001)
許云峰(1971—),女,副教授,博士,主要從事水污染控制工程研究,yfxu@shu.edu.cn
*責(zé)任作者:錢光人(1960—),男,教授,博士,主要從事環(huán)境污染控制材料及廢棄物資源化的研究,grqian@shu.edu.cn