張成成,沈愛春,張曉晴,陳求穩,3,*
(1.中國科學院生態環境研究中心,北京 100085;2.太湖流域管理局水文水資源監測局,無錫 214024;3.三峽大學,宜昌 443002)
富營養化評價結果不僅可以客觀反映水環境的質量和污染狀況,而且能為富營養化防治、管理和決策提供依據和指導。從本質上講,富營養化評價是一個多指標分類問題,各指標與分類等級之間存在復雜、非線性和不確定的關系[1]。近年來,智能方法在富營養化評價方面獲得了大量應用,如模糊評價法[2-4]、灰色理論評價法[5-6]、進化算法評價法[7-8]、人工神經網絡評價法[9-10]等。這些方法對富營養化評價的發展起到了一定的促進作用,但在評價過程中尚存在不足[11]。其中,模糊評價法和灰色評價法在確定評價函數結構和評價指標權重方面存在較大的主觀性,進化算法評價法主要用于對現有評價模型進行參數的優化選取,而人工神經網絡評價法存在固有的網絡結構難以確定、容易陷入局部最優以及無法保證模型泛化性等問題。支持向量機(Support Vector Machine,SVM)是一種基于統計學習理論的新型機器學習算法[12],比較適用于解決富營養化評價這類非線性多指標分類問題[13-15]。雖然它在建模過程和形式上與人工神經網絡法相似,但理論基礎完全不同,且有效克服了人工神經網絡法收斂性和泛化性的不足,具有較好的應用前景。
目前,應用支持向量機法進行太湖富營養化評價方面的研究尚比較少,本研究采用該方法建立了太湖的富營養化評價模型,并進行了實際應用,以期為太湖的富營養化評價提供一種新的可選方法。
支持向量機(SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中[16]。其基本思想是,利用核函數(Kernel Function)將低維空間中線性不可分的點映射成高維特征空間中線性可分的點,并通過劃分超平面,使所有的點到分類超平面的距離最大化。
所謂的支持向量,指的是高維空間中那些距離分類超平面最近的點對應的低維空間點。它們來源于原始樣本,對分類超平面的位置起決定作用。換言之,就是它們支持起了分類超平面。
將向量從低維空間向高維空間映射,會使計算復雜度變大。為此,SVM中引入了核函數,從而巧妙地避免了這個問題。核函數能接受兩個低維空間向量,計算出它們在高維空間中的內積值。常用的核函數有:
線性核函數

多項式核函數

徑向基核函數(Radial Basis Function,簡稱RBF)

Sigmoid核函數

式中,K為核函數;xi、xj為兩個低維空間列向量,在本研究中,代表兩組不同的樣本,且列向量中的每一個分量對應一個輸入變量;d、γ和r為核參數。
由于RBF核函數能夠將樣本非線性地映射到更高維空間,且數值條件和參數數目相對較少,對模型選擇的復雜度影響較?。?3],一般都將其作為首選。確定核函數后,需對相應參數進行優化選取,通常采用基于交叉驗證思想的網格搜索法[17]。SVM的輸入和輸出,一般如圖1所示。
選取合適的評價標準,對于評價結果的合理性與客觀性至關重要。目前,我國廣泛使用的富營養評價方法有兩種,一是中國環境監測總站于2001年底推薦使用的綜合營養狀態指數法(簡稱TLI法)[18],二是中國水利部《地表水資源質量評價技術規程》(SL395—2007)中采用的線性插值評分法(簡稱SCO法)。在評價指標選取和營養類型劃分上,二者是一致的。本研究采用與SCO法對應的湖庫富營養化程度評價標準(表1)。

圖1 支持向量機的輸入和輸出Fig.1 The inputs and outputs of SVM

表1 湖庫富營養化程度評價標準Table 1 The eutrophication evaluation standard of lakes and reservoirs
為了消除不同量級數據對評價結果的影響,按照公式5對表1中的評價指標和太湖實測數據進行了歸一化處理:

式中,X'為數據X歸一化后的值,Xmin、Xmax分別為表1中與X對應的評價指標的最小值和最大值。
在經過歸一化處理的每個區間范圍內隨機生成100組樣本,以其中的60組作為訓練樣本,剩余的40組作為驗證樣本。共獲得訓練樣本540組,驗證樣本360組。將5種營養等級分別“標記”為{1,2,3,4,5},作為模型輸出的目標值。
研究中采用LIBSVM-3.16[19]軟件,對SVM分類算法進行了實現。首先,設置核函數為RBF,相應參數為懲罰因子 c和核參數 g(公式 3 中的 γ);然后,設置 c∈{2-10,2-9,…,210},g∈{2-10,2-9,…,210},對訓練樣本進行5折交叉驗證,得到最佳參數為c=4,g=32;接著,按最佳參數取值,代入訓練樣本進行訓練,即可建立評價模型;最后,將驗證樣本代入評價模型,得到驗證準確率為100%(360/360)。
由《2012太湖健康狀況報告》可知,太湖通常被劃分為9個湖區(圖2),各湖區富營養化狀況不同。每年的夏季和秋季,為藍藻水華發生較為嚴重的時期。為使評價結果更具代表性,選取對太湖33個監測點(圖2)2012年7—9月份的月監測數據(共99組)進行營養狀況評價。研究所采用的數據通過合作從太湖流域管理局水文水資源監測局獲得。

圖2 太湖分區及33個監測點位置Fig.2 The partitions of Taihu Lake and the locations of 33 monitoring sites
分別運用SVM評價法和SCO評價法,對99組數據進行評價,得到33個監測點7—9月的營養類型如圖3所示,評分值以及兩種方法的評價營養等級如表2所示。經統計,兩種評價法的結果一致率為78.8%(其中,7月份為100%,8月份為60.6%,9月份為75.8%),其中不一致的個例均屬于相鄰營養等級。
通過對兩種方法的評價結果進行綜合可知,2012年7—9月份,太湖水體共出現3種營養類型,分別為中營養、輕度富營養和中度富營養。其中,中營養主要分布于東太湖,輕度富營養主要分布于湖心區和東部沿岸區,中度富營養主要分布于西北部湖區,這種水質分布狀況與張曉晴等[20]的研究結果基本一致。太湖水體整體表現為輕度到中度富營養狀態。

圖3 SVM和SCO方法對太湖33個監測點7—9月營養狀態的評價結果比較Fig.3 Comparison results of Taihu Lake's 33 monitoring sites from July to September evaluated by the two methods

表2 評分值以及兩種方法的評價營養等級Table 2 Scores and the evaluated eutrophication degrees of two methods

續表
在7月份的評價結果中,SVM法得出太湖大部分水域的營養類型為輕度富營養,竺山湖為中度富營養,東太湖為中營養;SCO法得出的結果和SVM法結果一致。
在8月份的評價結果中,SVM法得出太湖大部分區域為輕富,竺山湖、梅梁湖為中富;SCO法評價結果顯示大部分區域為中富,和SVM結果差異較大。
在9月份的評價結果中,SVM法得出太湖大部分區域為輕富,竺山湖、梅梁湖為中富;SCO法評價結果顯示竺山湖、梅梁湖和少量西部湖區為中富,其余部分為輕富,總體上和SVM結果比較一致。
兩種方法評價結果存在不一致的原因主要如下:
(1)評價原理不同 在SCO評價法中,首先采用線性插值法將各評價指標濃度值轉換為相應的評分值,然后計算評分值的均值,并按其所處的區間范圍判斷營養等級;而在SVM評價法中,首先通過在評價標準各區間范圍內,隨機生成若干訓練樣本,然后利用SVM的分類算法,對樣本進行訓練,獲得相應的評價模型,最后利用模型對水體的營養類型進行評價。兩種方法評價原理的不同,會使評價結果產生差異。
(2)SVM評價法的建模過程存在隨機性 由于SVM法所用的訓練樣本是隨機產生的,而不同的訓練樣本,一般會得出不同的模型。這在一定程度上,也會對SVM評價模型的表現產生影響。
雖然兩種方法的評價結果一致率為78.8%,但以上的結果及其分析表明SVM評價法是有效的,能夠作為太湖富營養化狀態評價的一種可選的新方法。但由于SVM方法基于低維變量和小樣本數據,具有更好的泛化性;同時核函數的引入,提高了模型收斂性。
本研究根據已有的湖庫富營養化程度評價標準,建立了太湖富營養化評價的支持向量機模型,然后分別運用該模型和線性插值評分法(SCO),對太湖2012年7—9月33個站點的99組水質數據進行了評價。通過對評價結果的對比分析,得到以下結論:
(1)2012年7—9月份,太湖水體共出現3種營養類型,中營養主要分布于東太湖,輕度富營養主要分布于湖心區和東部沿岸區,中度富營養主要分布于西北部湖區,太湖水體整體表現為輕度到中度富營養狀態。
(2)本研究建立的支持向量機評價模型能夠有效應用于太湖富營養化狀態評價。實際應用表明兩種方法的評價結果一致率為78.8%,存在不一致的個例均屬于相鄰營養等級。考慮到兩種方法的評價原理不同,且建模過程存在隨機性,78.8%的一致率是可以接受的,說明運用支持向量機建立太湖富營養化評價模型是有效的,且具有更好的收斂性和泛化性。
[1]Wu M,Li ZY,Liu ZY,Li D P.Application of improved set pair analysis to assessment of lake eutrophication.Water Resources Protection,2009,25(2):5-9.
[2]Taheriyoun M,Karamouz M,Baghvand A.Development of an entropy-based fuzzy eutrophication index for reservoir water quality evaluation.Iranian Journal of Environmenal Health Science& Engineering,2010,7(1):1-14.
[3]Pappas J L.Phytoplankton assemblages,environmental influences and trophic status using canonical correspondence analysis,fuzzy relations,and linguistic translation.Ecological Informatics,2010,5(2):79-88.
[4]Zhang P,Huang Y L,Chen Y Y,Hu X L,Liu D F.Fuzzy mathematics for evaluation of eutrophication in Xiangxi Bay.Environmental Science&Technology,2012,35(6):173-179.
[5]Jiang L X,Yu SJ,Wei D B,Liu T,Zhang Z F.Grey situation decision method aplying to eutrophication evaluation for Lakes.Environmental Sciences and Management,2006,31(2):10-12.
[6]Hu L H,Pan A,Li T S,Li C Z,Wang Y H.Application of the grey clustering method to assessing the eutrophication of Shengzhong Reservoir.Journal of Agro-Environment Science,2008,27(6):2407-2412.
[7]Zou CW,Jin X C,Xiong J Q,Li Z Y.Evolutionary ant colony algorithm and its application in evaluating the eutrophic state of lake.Research of Environmental Sciences,2006,19(5):149-153.
[8]Dang Y,Li Z Y,Zou Y L.Lake eutrophic evaluation based on bee immune evolutionary algorithm.Journal of Anhui Agricultural Sciences,2010,38(16):8618-8619,8695.
[9]Lin G S,Huang X Y,Li J.Application of artificial neural network method on eutrophication assessment for Shenzhen Reservoirs.The Administration and Technique of Environmental Monitoring,2010,22(1):59-63.
[10]Cui D W.Applications of several neural network models to eutrophication evaluation of lakes and reservoirs.Water Resources Protection,2012,28(6):12-18.
[11]Zhang C L,Fang C,Huang W J.Comprehensive evaluation method of projection pursuit based on particle swarm optimization in lake Eutrophication.Journal of Anhui Agricultural Sciences,2010,38(27):14823-14825,14830.
[12]Vapnik V.The nature of statistical learning theory.New York:Springer Verlag,1995.
[13]Shi X,Xiong Q Y,Lei L N.A comparative study of eutrophication evaluation models based on SOM neural network and SVM.Journal of Chongqing University,2010,33(3):119-123.
[14]Yang D J,Wang R,Shen G.SVM and ANN applied to evaluation of lake eutrophication:A comparative study.Environmental Science&Technology,2012,35(1):173-177.
[15]Xu L,Wang JY,Zhang B,Li Z Y.A hybrid TS-SVM model for evaluation of lake eutrophication.Advanced Materials Research,2012,463-464:917-921.
[16]Liu X,Lu W.Study on the application of SVM in text classification.IT Education,2007,2:72-77.
[17]Hsu CW,Chang C C,Lin C J.A practical guide to support vector classification.http://www.csie.ntu.edu.tw/—cjlin/libsvm/index.html.
[18]Wang M C,Liu X Q,Zhang JH.Evaluate method and classification standard on lake entrophication.Environmental Monitoring in China,2002,18(5):47-49.
[19]Chang CC,Lin CJ.LIBSVM:a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.
[20]Zhang X Q,Chen Q W.Spatial-temporal characteristic of water quality in Lake Taihu and its relationship with algal bloom.Journal of Lake Sciences,2011,23(3):339-347.
參考文獻:
[1]鄔敏,李祚泳,劉智勇,李大鵬.一種改進的集對分析法在湖泊富營養化評價中的應用.水資源保護,2009,25(2):5-9.
[4]張平,黃鈺鈴,陳媛媛,胡響鈴,劉德富.模糊數學在香溪河庫灣富營養化評價中的應用.環境科學與技術,2012,35(6):173-179.
[5]蔣利鑫,于蘇俊,魏代波,劉濤,張子峰.湖泊富營養化評價中的灰色局勢決策法.環境科學與管理,2006,31(2):10-12.
[6]胡麗慧,潘安,李鐵松,李成柱,王佑漢.灰色聚類法在升鐘水庫水體富營養化評價中的應用.農業環境科學學報,2008,27(6):2407-2412.
[7]鄒長武,金相燦,熊建秋,李祚泳.進化蟻群算法及其在湖泊富營養化評價中的應用.環境科學研究,2006,19(5):149-153.
[8]黨媛,李祚泳,鄒艷玲.基于蜜蜂免疫進化算法的湖泊富營養化評價.安徽農業科學,2010,38(16):8618-8619,8695.
[9]林高松,黃曉英,李娟.人工神經網絡在深圳市水庫富營養化評價中的應用.環境監測管理與技術,2010,22(1):59-63.
[10]崔東文.幾種神經網絡模型在湖庫富營養化程度評價中的應用.水資源保護,2012,28(6):12-18.
[11]張春樂,方崇,黃偉軍.基于粒子群算法湖泊富營養化評價的投影尋蹤方法.安徽農業科學,2010,38(27):14823-14825,14830.
[13]石欣,熊慶宇,雷璐寧.SOM網絡與SVM在水質富營養化評價中的對比.重慶大學學報,2010,33(3):119-123.
[14]楊道軍,王冉,沈剛.SVM與ANN在湖泊富營養化評價中的對比研究.環境科學與技術,2012,35(1):173-177.
[16]劉霞,盧葦.SVM在文本分類中的應用研究.計算機教育,2007,2:72-77.
[18]王明翠,劉雪芹,張建輝.湖泊富營養化評價方法及分級標準.中國環境監測,2002,18(5):47-49.
[20]張曉晴,陳求穩.太湖水質時空特性及其與藍藻水華的關系.湖泊科學,2011,23(3):339-347.