劉 艷
(云南省水文水資源局文山分局,云南文山 663000)
河流健康評價的回歸支持向量機模型及應用
劉 艷
(云南省水文水資源局文山分局,云南文山 663000)
建立河流健康評價指標體系、分級標準及回歸支持向量機(SVR)河流健康評價模型,并以云南省文山州清水河健康評價為例進行研究。首先,利用層次分析法(AHP)從水文水資源、物理結構、水質、水生生物和社會服務功能5個方面遴選出13個評價指標,構建3個層次的河流健康評價指標體系和5個等級的分級標準;其次,基于SVR原理,利用隨機生成和隨機選取的方法,在等級標準閾值間構造5種不同容量大小的訓練樣本和檢驗樣本,提出5種不同容量方案的SVR河流健康評價模型,設計合理的輸出模式,并構建具有良好性能的RBF(radial basis function neural network)回歸模型作為對比模型,利用模型隨機5次運行的平均相對誤差絕對值、最大相對誤差絕對值和運行時間對各方案模型性能進行評價;最后,利用達到期望精度的SVR模型對實例進行評價分析。結果表明:①無論是訓練樣本還是檢驗樣本,5種方案的SVR模型的預測精度和泛化能力均優于RBF模型。在相同參數設置條件下,SVR模型隨著樣本容量的增加其精度和泛化能力變化不大;而RBF模型隨著樣本容量的增加其精度和泛化能力均有提高。表明SVR模型具有較高的精度和泛化能力,可以用于河流健康評價,尤其在小樣本情況下,SVR模型的精度和泛化能力是RBF模型不可比擬的。②5種方案的SVR模型對清水河2011—2012年3次調查的評價結果均為健康,但已接近于亞健康。
河流健康;指標體系;分級標準;回歸支持向量機;綜合評價;云南省
河流水系是地表水資源最重要的載體,是維系生態系統健康的主要因子,在維系地球水循環、能量平衡、氣候變化和生態良性循環中具有重要作用。近年來,隨著我國經濟社會的快速發展,以及工業化、城市化進程的持續推進,水資源開發過度、水質下降、河湖萎縮和生態環境功能退化等問題日益凸顯,河流生態安全受到嚴重威脅。開展河流健康評價對了解河流生態狀況,掌握河流健康變化規律,保障河流水生態系統健康,實現水資源的可持續利用具有重要意義[1]。河流健康狀況是多種因素綜合影響的結果,是一個涉及自然、社會、經濟和生態等多方面的龐大系統工程,其評價表現出多指標、高維、非線性等特征。人工神經網絡(artifical neural network,以下簡稱ANN)是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的數學模型。ANN依據系統的復雜程度,通過調整內部大量節點之間相互連接的關系來處理信息。在處理復雜、高維、非線性系統和不確定性問題方面,ANN有著廣泛的應用[2]。然而,由于傳統ANN算法是基于漸近理論,是當樣本容量趨向于無窮大時的解決方案,因此,在實際應用中存在著當樣本容量有限時可能出現較差的推廣能力、結構及參數選擇困難、收斂速度慢和易陷入局部極值等問題[3-4]。支持向量機(support vector machine,SVM)是20世紀90年代中后期發展起來的基于統計學習理論構建的典型神經網絡,是一種通用的前饋神經網絡,用于解決模式識別和非線性映射問題。SVM具有嚴謹的數學基礎,通過統計學習中的VC維(vapnik-chervonenkis dimension)理論和尋求結構風險最小化原理來提高泛化能力,已成為繼ANN之后機器學習領域新的研究熱點,尤其在解決小樣本容量問題時,很大程度上解決了傳統ANN在模型選擇、高維和局部極值等方面的問題,在模式識別和回歸預測中有著廣泛的應用[5-6]。將SVM引入河流健康評價主要存在著2個方面的問題:一是我國河流健康評價工作正處于試點階段,與發達國家相比還存在較大差距,主要表現在未建立統一、完善的河流健康評價指標體系和分級標準,評價方法主要以主觀賦分或賦權法為主,存在一定的缺陷;二是如何科學、合理評價河流健康評價模型的性能,以及如何解決數據樣本、樣本容量及輸出模式等問題。
筆者參考文獻[7-10],利用層次分析法(analytical hierarchy process,AHP)構建包含目標層、準則層和指標層3級的河流健康評價指標體系和“理想狀態”、“健康”、“亞健康”、“不健康”和“病態”5個等級的分級標準;基于回歸支持向量機(support vector regression,SVR)基本原理,提出基于不同樣本容量的SVR河流健康評價模型,并構建具有良好性能的RBF(radial basis function neural network,RBF)回歸模型作為對比模型,以云南省文山州清水河為例進行驗證,為即將全面開展的河流健康評價提供借鑒和參考。
自從“河流健康”概念被提出以來,其內涵至今仍存在著爭議,但由于“健康”比喻對于大眾而言易于理解,引起了人們對河流生態狀況的廣泛關注。河流健康評價在西方發達國家和一些發展中國家得到了應用,以歐盟水框架指令、美國河湖健康評價、澳大利亞河流及濕地健康評價、南非河流健康計劃等的影響最大[1,8]。我國河流健康評價正處于試點階段。從國外河流健康評價歷程來看,河湖健康評價中提出的社會背景是人類經濟社會的快速發展和水資源的過度開發嚴重威脅到河流生態系統生態服務功能的可持續提供,同時也嚴重威脅到河流生態系統所支撐維持的生物多樣性。因此,河流健康可理解為:河流自然生態狀況良好,同時具有可持續的社會服務功能。河流健康概念源于人類對河流環境退化的關注,其內涵不僅包含了河流為人類所提供的服務,還包含維持河流自身復雜特征,滿足人類需求。河流健康的主體由河流生態系統以及所支撐的經濟社會系統構成[11-12]。
我國在構建評價指標體系過程中需考慮以下制約因素:①由于我國流域內人口密集,生態用水和經濟社會用水競爭激烈,導致在健康河流評價指標上更強調維持河流自身生命及其功能的健康,更關注和突出人水關系;②在河流健康評價時,仍側重于借助化學手段以及少量生物監測手段評估河流水質狀況;③實例研究多以單條河流為主,缺乏對流域、水系、河流不同空間尺度的探討;④迄今國內尚未形成統一或公認的河流健康評價指標體系。筆者充分考慮我國河流生態系統的特征及經濟社會發展背景,遵循科學性、系統性、層次性、獨立性和指標定量性與可操作性的指標選取原則,利用AHP方法從水文水資源(HD)、物理結構(PF)、水質(WQ)、水生生物(AL)和社會服務功能(SS)5個方面遴選出13個評價指標構成河流健康評價指標體系,將河流健康評價分為目標層A、準則層B和指標層C 3個層次。
河流健康評價指標體系見表1。
按照上述所構建的河流健康評價指標體系,參考文獻[7,9-10],構建河流健康評價指標分級標準,將河流康評價分為理想狀態、健康、亞健康、不健康和病態5個等級,分別用5~1級表示,見表2。
SVM最初是為研究線性問題而提出的,其用于模式識別的基本思想是通過非線性變換將輸入空間變換到一個高維空間,在此新空間通過求解凸二次規劃問題,尋求最優線性分類超平面;而用于回歸預測時,其基本思想不再是尋找最優分類面來將樣本分開,而是尋找一個最優超平面,使得所有訓練樣本離該最優超平面距離最短,這個超平面可看作擬合好的曲線。將SVM用于逼近函數的方法稱為SVR。SVR 實現回歸預測步驟歸納如下[5,13]。
步驟1 設含有l個訓練樣本的集合{(xi,yi),i=1,2,…,l},其中,xi(xi∈Rd)是第i個訓練樣本的輸入列向量為對應輸出值。在高維特征中建立的線性回歸函數為

式中:f(x)為回歸函數返回的預測值;Φ(x)為非線性映射函數;w為超平面的權值向量,b為偏置項。
步驟2 定義ε線性不敏感損失函數為

式中:y為對應真實值;ε為不敏感損失函數所定義的誤差。

表1 河流健康評價指標體系

表2 河流健康評價指標分級標準

式中:C為懲罰因子,C越大表示對訓練誤差大于ε的樣本懲罰越大,ε規定了回歸函數的誤差要求,ε越小表示回歸函數的誤差越小。求解式(3)時,同時引入Lagrange函數,并轉換成對偶形式:

其中,只要部分參數(ai-a*i)不為0,其對應的樣本xi即為問題中的支持向量。
為了消除表2中各評價指標不同量綱及“方向”對評價結果的影響,需對評價指標數據進行歸一化和一致性處理。對于指標值越大河流健康狀態越理想的指標,按式(8)進行歸一化處理;對于指標值越小河流健康狀態越理想的指標,對其取倒數后乘以100,再按式(8)進行處理。

式中:^x為經過歸一化處理的數據;x為原始數據;為了使各評價指標具有相同的權重,這里取xmax為各評價指標上限閾值的2倍;xmin為各評價指標下限閾值的10%。經過標準化處理后,數據處于0~1范圍之內,有利于網絡訓練。
在解決小樣本回歸預測問題上,基于結構風險最小化原則的SVR比基于經驗風險最小化原則的傳統ANN有著較大優勢。為驗證不同樣本容量對SVR模型性能的影響,采用隨機生成樣本的方法在各評價等級閾值間生成5種不同容量大小的樣本方案,隨機選取樣本總量的3/5作為訓練樣本,余下的樣本作為檢驗樣本。設計各模型的輸出模式見表3。
本文基于Matlab環境和libsvm工具箱,創建SVR及RBF回歸模型對表3設計的5種方案的樣本進行訓練和檢驗,經過反復調試,SVR及RBF模型參數設置如下時,模型具有較好的預測精度(為使模型在不同樣本容量情況下具有可比性,SVR及RBF的5種模型方案除樣本容量大小不一致外,其余參數設置均相同)。

表3 5種方案的樣本及期望輸出設計
SVR模型:SVR在選定核函數條件下,模型中的懲罰因子C和核函數參數g的選取對模型的識別精度有著關鍵性影響。參考文獻[4-5,10],選擇徑向基核函數為SVR的核函數,設置懲罰因子C和核函數參數g的搜索空間均設置為2-2~26,交叉驗證折數K設置為5,g和C的步進大小均取0.5,不敏感系數ε為0.001(其他參數采用默認值),利用交叉驗證法(cross validation,CV)確定模型中的懲罰因子C和核函數參數g(由于采用隨機生成及隨機選取樣本,因此每次運行的參數可能不同)。
RBF模型:編寫循環訓練算法程序,最終確定RBF神經網絡在徑向基函數分布密度spread和期望誤差分別為1和0.0001時,模型性能達到最優。
本文以平均相對誤差絕對值、最大相對誤差絕對值和模型運行時間作為評價SVR及RBF回歸模型性能優劣的指標。由于訓練樣本和檢驗樣本是通過隨機生成和隨機選取產生,因此模型每次運行結果均不一樣。某次隨機連續5次運行的統計指標平均值見表4。

表4 SVR及RBF回歸模型誤差及運行時間
由表4可得出以下結論:①從SVR模型方案1至方案5的誤差值來看,其訓練樣本及檢驗樣本的平均相對誤差絕對值和最大相對誤差絕對值分別在1.65%~2.49%、2.26% ~3.10%和7.76% ~16.46%、9.60% ~14.52%之間,均優于對應的RBF模型,表明SVR回歸模型具有較好的預測精度和泛化能力,將其用于回歸預測評價是合理可行的。②從同一模型不同方案的誤差值來看,SVR模型隨著樣本容量的增加,其預測精度和泛化能力變化不大;RBF模型隨著樣本容量的增加,其預測精度和泛化能力均有提升,表明SVR模型對樣本容量大小不敏感,尤其在小樣本情況下,SVR模型的預測精度和泛化能力是RBF所不可比擬的。③從模型的運行時間來看,SVR模型隨著樣本容量的增加運行時間顯著增加,RBF模型隨著樣本容量的增加運行時間略有增加,表明增加樣本容量無助于提高SVR模型的預測精度和泛化能力,反而使SVR模型性能下降。
本文主要基于模型的預測精度和泛化能力考慮,選取不同樣本容量的SVR模型作為文山州清水河健康評價模型。
清水河又名北門河,位于云南省丘北縣境內,發源于丘北縣八道哨鄉五家寨西緣,自源地向東流經普者黑湖,于天星鄉小法白村匯入清水江,屬珠江流域西江水系,為南盤江的二級支流。清水河河長61.5km,落差727m,平均坡降0.77%,有清平河、舊城河、高枧槽河、碧松就河等多條支流,集水面積1533.5 km2,多年平均流量18.2m3/s,多年平均徑流量5.11億m3。清水河上游建有紅旗水庫,又稱擺龍湖,總庫容5 400萬m3;中游是普者黑湖,為河道型湖泊群,水面面積約為6 km2,水深3~4 m。近年來,隨著流域內經濟社會及旅游業的迅猛發展,清水河受到了不同程度的污染,河流生態系統結構、社會服務功能等隨之發生了變化。因此,開展清水河健康評價對了解河流生態健康狀況、掌握健康變化規律、制定流域規劃具有重要意義[1]。清水河2011—2012年3次調查評價指標數據詳見表5。

表5 清水河健康評價指標數據[1]
利用上述訓練好的5種樣本容量方案的SVR模型對清水河健康狀況進行評價,并將表2中河流健康評價分級閾值進行模擬計算,將輸出結果作為劃分河流健康等級的依據。輸出及評價結果見表6和表7。

表6 SVR模型河流評價等級臨界值輸出結果(隨機5次平均)
從表6和表7可以得出以下結論:①5種樣本容量方案的SVR模型對清水河的3次調查評價結果均為4級,即處于健康狀態,但從輸出結果來看,已接近于亞健康狀態。評價結果基本反映了目前清水河健康狀態。②從清水河健康調查評價指標值可以看出,隨著流域內水資源的開發利用和人類活動的加劇,河流在生態流量滿足程度、河岸穩定性、植被覆蓋率,以及防洪設施、公眾滿意度等方面表現較差,導致清水河目前雖處于健康狀態,但已接近亞健康狀態。

表7 SVR模型清水河健康評價結果(隨機5次平均)
河流健康是一個相對概念,具有一定的主觀性。依據《湖泊健康評估指標、標準與方法(試點工作用)》,從河流的功能屬性出發,以河流健康概念為基礎,筆者提出了包括水文完整性、物理結構完整性、化學完整性、生物完整性和服務功能完整性5個方面的河流健康評價指標體系和分級標準,構建了不同樣本容量的數據樣本,提出基于SVR回歸原理的河流健康評價模型,對清水河健康狀況進行了評價。但由于河流健康評價屬于多學科交叉綜合評價問題,其評價指標體系涉及多個領域,內容廣泛,加之制約河流健康的因素眾多,因此,本文所提出的河流健康指標體系及評價方法還有待進一步研究和完善。
[1]云南省水文水資源局.云南省文山州清水河健康評估試點報告(送審稿)[R].昆明:云南省水文水資源局,2012.
[2]田景文,高美娟.人工神經網絡算法研究及應用[M].北京:北京理工大學出版社,2006.
[3]田雨波.混合神經網絡技術[M].北京:科學出版社,2009.
[4]王雷.支持向量機在汽輪機狀態監測中的應用[M].北京:北京師范大學出版社,2012.
[5]崔東文.支持向量機在湖庫營養狀態識別中的應用研究[J].水資源保護,2013,29(4):26-30.(CUI Dongwen.Application of support vector machine to lake and reservoirtrophic statusrecognition[J].Water Resources Protection,2013,29(4):26-30.(in Chinese))
[6]張楠,夏自強,江紅.基于多因子量化指標的支持向量機徑流預測[J].水利學報,2010,41(11):1318-1323.(ZHANG Nan,XIA Ziqiang,JIANG Hong.Prediction of runoff based on the multiple quantity index of SVM[J].Journal of Hydraulic Engineering,2010,41(11):1318-1323.(in Chinese))
[7]辦資源〔2010〕484號 河流健康評估指標、標準與方法(試點工作用)[S].
[8]孫雪嵐,胡春宏.河流健康評價指標體系初探[J].泥沙研究,2007(4):21-27.(SUN Xuelan,HU Chunhong.River health evaluation index system[J].Journal of Sediment Research,2007(4):21-27.(in Chinese))
[9]崔東文.RBF與GRNN神經網絡模型在河流健康評價中的應用:以文山州區域中小河流健康評價為例[J].中國農村水利水電,2012(3):56-61.(CUI Dongwen.RBF and GRNN neural network model in the evaluation of river health[J].China Rural Water and Hydropower,2012(3):56-61.(in Chinese))
[10]崔東文,郭榮.基于GRNN模型的區域水資源可持續利用評價:以云南文山州為例[J].人民長江,2012,43(5):26-31.(CUI Dongwen,GUO Rong.Evaluation of sustainable utilization of regional water resources based on GRNN neural network model:case of Wenshan Prefecture of Yunnan Province[J].Yangtze River,2012,43(5):26-31.(in Chinese))
[11]楊文慧,嚴忠民,吳建華.河流健康評價的研究進展[J].河海大學學報:自然科學版,2005,33(6):607-611.(YANG Wenhui,YAN Zhongmin,WU Jianhua.Advances in river health assessment[J].Journal of Hohai University:Natural Sciences,2005,33(6):607-611.(in Chinese))
[12]蔡守華,胡欣.河流健康的概念及指標體系和評價方法[J].水利水電科技進展,2008,28(1):23-27.(CAI Shouhua,HU Xin.Concept of river health and index system for its evaluation[J].Advances in Science and Technology of Water Resources,2008,28(1):23-27.(in Chinese))
[13]史峰,王輝,郁磊,等.MATLAB智能算法30個案例分析[M].北京:北京航空航天大學出版社,2011.
Regression support vector machine for river health assessment and its application
LIU Yan
(Wenshan Branch of Yunnan Provincial Hydrology and Water Resources Bureau,Wenshan 663000,China)
A river health assessment index system,grading standards,and a support vector regression(SVR)river health assessment model are proposed for health assessment of the Qingshui River in Wenshan,in Yunnan Province.In this study,first,13 evaluation indices were selected with the analytic hierarchy process(AHP)in terms of hydrology and water resources,physical structure,water quality,aquatic organisms,and social services,in order to construct a three-level river health assessment index system as well as five-level grading standards.Then,based on the SVR principle,the random generation and random selection methods were used to construct five training and testing samples with different capacities in grading thresholds.Five models with different capacity solutions were developed for the SVR river’s health assessment.A reasonable output mode was designed,and the corresponding radial basis function neural network(RBF)regression model,which showed a good performance,was built as a comparison model.After the model ran five times stochastically,the absolute value of the average relative error,the absolute value of the maximum relative error,and the runtime were used to evaluate the performance of the model in each program.Finally,the SVR model that achieved the desired accuracy was evaluated and analyzed in a case study.The results are as follows:(1)For either the training sample or the testing sample,the SVR model in five programs had a higher prediction accuracy and better generalization ability than the RBF model.Under the same parameter setting conditions,as the sample size increased,the SVR model’s accuracy and generalization ability changed insignificantly,while the RBF model’s accuracy and generalization ability improved,indicating that the SVR model has higher accuracy and better generalization ability and can be used for river health assessment,especially in the cases of small samples.In this regard,the RBF model is totally uncompetitive.(2)The SVR model in the five programs was applied to the evaluation of the Qingshui River during the period from 2011 to 2012.The results of the survey carried out three times show that the river was healthy,but nearly sub-healthy.
river health;index system;grading standards;support vector regression machine;comprehensive assessment;Yunnan Province
X824
A
1004-6933(2014)03-0025-06
10.3969/j.issn.1004-6933.2014.03.006
劉艷(1966—),女,工程師,主要從事水環境監測評價及水資源保護等工作。E-mail:1464531959@QQ.com
(收稿日期:2013-08-26 編輯:彭桃英)