戴青松,王沛芳,王 超,姚 羽,俞 陽,劉佳佳,侯 俊
(1.河海大學環境學院,南京 210098;2.河海大學淺水湖泊綜合治理與資源開發教育部重點實驗室,南京 210098)
隨著經濟的發展和人口的快速增長,我國的河流湖泊受到不同程度的污染[1],湖泊富營養化發展速度加快。污染物來源復雜、危害大、處理困難,導致了水源地水質惡化難以處理,嚴重威脅著飲用水供水安全[2,3]。二河位于洪澤湖東邊,是淮安市重要的河流型水源地[4]。二河閘位于二河流域上游,是洪澤湖出湖的主要控制工程之一,其總氮(TN)、總磷(TP)作為富營養化的重要指標近年來均出現了超標情況,同時溶解氧(DO)作為指示河流污染程度的指標之一波動幅度較大,不利于水生生物的生長繁殖,因此對二河閘TN、TP和DO指標的準確預測對水源地水質管理和規劃管理十分重要。
水質預測模型主要有兩類[5,6],一類是水質機理預測模型,另一類是數據驅動水質預測模型。神經網絡模型和支持向量機模型是當前主要研究的數據驅動預測模型。研究發現,支持向量機模型,具有模型計算簡單、推廣適應能力強等優點[1,7]。劉雙印等人[8]在養殖水質預測中,利用了主成分分析、改進文化魚群算法和最小二乘支持向量機模型,得到的相對誤差小于8%。程庭莉[9]將差分自回歸移動平均模型和支持向量機結合使用,并且采用變種群的自適應遺傳算法優化SVM參數,得到了較優的結果。梁堅等人[10]將小波變換引入到支持向量機中,預測的平均絕對百分比誤差減小到了4.54%。在支持向量機模型的研究中,參數優化是模型建立的關鍵,本文提出了采用領導者策略的狼群搜索算法(wolf colony search algorithm based on the strategy of the leader,LWCA)對支持向量機模型中的參數尋優,建立了LWCA-SVM模型,對二河水源地水質進行了預測,得到了較高精度,為水源地水質預測提供了一種新方法。
支持向量機主要解決非線性問題,基于統計學的VC維理論和結構風險最小化的原則,利用核函數,通過求解二次型尋優問題,將復雜的非線性問題轉化為線性問題,獲得其最優解。支持向量機在小樣本、非線性、高維空間和過學習問題上具有獨特的優勢,同時推廣適應能力突出[6]。
支持向量機水質預測模型的基本思想是:先將輸入的向量通過一個非線性的映射將其映射到一個高維的空間中,然后在這個多維空間中進行線性回歸,最后得到一個包含了多因素最優的水質回歸函數[11]。
設訓練樣本為(xi,yi),(i=1,2,…,n),其中,xi=[xi1,xi2,…,xiD]為一個D維的輸入向量,yi為輸出向量。在高維映射中建立回歸函數:
f(x)=wφ(x)+b
式中:w,b為參數;φ(x)為非線性映射函數;f(x)為預測值。
定義不敏感損失函數:

式中:f(x)為預測值;y為真實值;ε為不敏感系數。
引入松弛變量,則問題轉化為尋找參數w,b:
式中:C為懲罰函數;ξi,ξ*i分別為控制輸出約束的松弛變量的上限和下限。
通過引入Largrange函數,轉化為對偶形式求解,最終回歸函數為:
式中:αi,α*i,w*,b*為參數;K(xi,x)為核函數。
核函數的選擇、懲罰函數C和核函數參數的確定是支持向量機模型建立的重點。其中,核函數的選擇是核心問題,一般常用的核函數有多項式核函數、徑向基核函數、Sigmoid核函數等,由于多項式核函數運算速度較慢,sigmoid核函數常常收斂效果差[1],而徑向基函數是局域核函數,將輸入樣本映射到高維空間中來解決非線性關系中多個獨立變量與因變量之間的關系,適合處理水質預測中的復雜的非線性問題,同時徑向基函數的參數只有γ,因此本文選取了徑向基核函數[10],其表達式為:
K(xi,x)=exp(-γ‖xi-x‖2)
式中:γ為參數;xi和xj是輸入樣本。
因此, LWCA-SVM數學模型表達式為:
式中:M為LWCA優化SVM的誤差;y(xj)為實測值。
網格搜索法、粒子群算法和遺傳算法是支持向量機模型中常用的參數尋優方法。但是網格搜索法[12]需要把整個空間劃分網格,參數的尋優依賴于網格的劃分,尋優時間長,誤差大;粒子群算法[13]往往得到的是局部最優結果;遺傳算法[14]需要編碼,交叉變異,計算復雜度高。因此本文提出了領導者策略的狼群搜索算法對參數進行尋優,減少了算法的復雜程度,利用優勝劣汰保證了最優解為全局最優。
領導者策略的狼群搜索優化算法是一種群體性的智能優化算法,美國著名研究專家Mesh[15]在1970年出版的專著中詳細描述了群狼的生存捕獵行為,在2007年首次提出了狼群算法[16]。狼群算法最終歸納為捕獵和遇到威脅逃跑等行為[17-19]。通過對狼群算法的改進,成功在機器人路徑規劃[20]、水電站優化調度[21]和無人機航跡規劃[22]中等得到了應用。
在捕獵過程中,部分比較強壯的狼相互競爭得到領導者,其他狼在領導者的召喚下,有組織地去包圍獵物。在捕獵的過程中,部分比較強壯的狼不斷的競爭,使得領導者不斷地更新。最后,通過優勝劣汰淘汰掉那些弱小的狼。因此,領導者策略的狼群搜索算法包括了狼群的初始化、競爭領導者、向領導者移動、包圍獵物和優勝劣汰五個步驟[19]。
(1)狼群初始化。為了滿足初始狼群在定義域內均勻地分布,將n匹狼在D維空間內進行初始化,其中,第i只狼的位置為:
Xi=(xi1,…,xid,…,xiD) 1≤i≤N,1≤d≤D
xid=xmin+rand×(xmax-xmin)
式中:rand是在[0,1]之間的隨機數;xmax和xmin分別是第i維空間下的最大值與最小值。
(2)競爭領導者。選取q匹最優的狼在h個方向周圍進行搜索,當前位置為:Pi(pi1,…,pid,…,piD)。圍繞著當前位置P0產生P1,如果當前產生的P1優于P0,則將替代,否則保留原始位置。最大搜索次數為dhmax。
競爭狼產生的h個點位置中第j個點的d維位置yjd(1≤j≤h)為:
yjd=xxid+rand×stepa
式中:rand是在[0,1]之間的隨機數;xxid是j匹狼的第d維的位置;stepa為搜索的步長。競爭狼搜索結束后,尋找出最優的狼作為領導者。
(3)向領導者移動。為了搜尋獵物,其他狼向領導者移動,這些狼在移動過程中,可能會發現其他獵物,則可能遠離領導者,第i只狼更新位置zid為:
zid=xid+rand×stepb×(xld-xid)
式中:rand是在[0,1]之間的隨機數;xid為第i只狼的d維位置;stepb為移動步長;xld為領導者d維位置。向領導者搜尋結束后,再次尋找最優的狼作為領導者。
(4)包圍獵物。領導者搜尋到食物后,通過嚎叫通知其他狼包圍獵物。首先在[0,1]內產生隨機數rm,如果比θ(預先設定的一個閾值)小,則不移動,否則,進行包圍,更新后的位置Xt+1i為:
式中:ra為包圍步長;Xl為領導者位置;Xti為迭代t次第i只狼的當前位置。
包圍后的狼,可能不在定義域內,因此需要越界處理:
隨著迭代次數的增加,越來越接近最優位置,因此包圍步長要進行不斷的減小,包圍步長的變化公式:
式中:t為迭代次數;maxt為最大迭代次數;ramax和ramin為最大最小包圍步長。
(5)優勝劣汰。根據優勝劣汰原則,在所有狼中,m匹弱小的狼需要被m匹強壯的狼進行替代,保證狼群生存下去,這種方法也避免了尋優過程中出現局部最優化的弊端,體現了狼群多樣性的特點。
基于領導者策略狼群搜索算法的支持向量機水質預測模型,如圖1所示。

圖1 LWCA-SVM模型計算圖
首先將水質理化指標與水質參數進行相關性分析,然后進行偏自相關分析,分別得到不同水質參數的滯后時間,確定支持向量機模型的輸入與輸出,即:x=(x1,x2,…,xn),n為輸入樣本的組數。輸出向量為需要預測的水質f(x)=[f(x1),f(x2),…,f(xn)]。其中,每一個輸入xi包含了其他水質參數和自身的幾組水質參數。利用基于領導者策略的狼群搜索算法對支持向量機(SVM)中參數C和γ求最優解,對領導者策略狼群搜索算法中的參數進行敏感性分析,尋找出最優的參數。將得到的最優參數代入模型中訓練,最終利用率定的模型對水質參數進行預報,并進行誤差分析。
本文選擇了均方誤差(Mean Squared Error,MSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和Pearson系數3個指標評價模型的合理性,MSE和MAPE越小,Pearson系數越大,預測效果越好。
式中:f(xi)為預測值;yi為實測值;n為樣本個數。
二河閘位于二河流域的上游,是洪澤湖出湖的主要控制工程,距洪澤湖出水口1 km左右。自1958年建成以來,二河閘發揮了泄洪、航運、灌溉、供水等重要作用,如洪澤湖可通過二河閘下泄補給二河,其附近的水質指標能在一定程度上反應“二河水功能區”的水質情況[23]。
作為洪澤湖主要出水口之一的二河,水質的好壞主要取決于洪澤湖水質狀況。近年來,洪澤湖透明度降低,TN和TP嚴重超標,導致湖體一直處于富營養化狀態,這也是二河水質TN和TP超標的主要原因[24]。二河閘周圍的農田區域農藥大規模的使用,在降雨過程中雨水沖刷土壤,營養鹽等流入水體,加劇了水體的富營養化[25]。
本文采用的水質數據來源于淮安環保局網站公布的2015年飲用水源地的水質數據,其數據是采用斷面檢測儀自動監測二河閘斷面的水質,文章選取了對水質敏感的水溫、pH、DO、TN、TP等進行分析預測,分析確定了水溫、pH和DO(TN、TP)作為輸入變量,為了保證對水質預測有一個全面的分析,同時避免水質監測過程中的偶然性,將環保部公布連續5天的數據取平均值作為一個樣本,從2015年1月1日到12月26日記錄了73組數據,對DO、TN和TP進行預測。在Matlab14a運行環境下,運用臺灣林志仁教授開發的LIBSVM工具箱[27]編程進行了仿真實驗。
通過Pearson相關性求解,得到溶解氧與pH和水溫在0.05顯著水平下的相關性為-0.724和-0.828,然后對溶解氧、pH和水溫分別求偏自相關系數,得到溶解氧、pH和水溫的滯后時間都為5 d。具體的模型輸入與輸出關系見表1。而TN與pH和水溫在0.05顯著水平下的相關性為0.082 8和0.111 5,TP與pH、水溫在0.05顯著水平的相關性分別為-0.002 4和0.000 1,相關性很低,因此,TN與TP的模型的輸入只利用自身序列數據預報。對TN和TP進行偏自相關性分析,得到TN的滯后時間為25 d,TP的滯后時間為25 d,具體輸入與輸出關系見表1。

表1 LWCA-SVM模型的輸入與輸出
表中k表示樣本的編號, 樣本中第i組預測值,s與k相差個數為溫度滯后個數加1個單位,m+與k相差個數為pH滯后個數加1個單位。DO的k、s和m都為1,TN和TP的k都為5。因此前65組樣本用作DO訓練模型,前61組樣本用作TN預測模型的訓練,前61組樣本用作TP預測模型的訓練,剩余的7組作為驗證樣本。
文獻[17]中對領導者策略的狼群搜索算法中的參數進行了初步的研究,對單峰函數和多峰函數求解都得到了很好的結果,對奔襲步長的敏感性做了分析[19],發現奔襲步長在1.5~2.5之間計算最穩定,效果最好,模型參數是否適用于支持向量機模型還需要進一步的檢驗。
由于DO的輸入輸出關系比較復雜,因此在敏感性分析時,選用了DO的輸入輸出。本文根據文獻,將參數的設置如下:迭代步數800,競爭首狼的個數為5,搜索方向為4,最大搜索次數為15,搜索步長為1.5,移動步長為0.9,最差狼為5個,參數θ為0.2。其中,初始化狼群個數是影響模型計算時間長短的重要因素,因此本文對這個參數進行了敏感性分析。在試算過程中,分別將初始化狼群個數設置為20,40,80,100,150,200,250,300。每個試算點進行20次獨立求解,最后根據MSE的平均值和標準差兩項指標進行綜合的選擇。
通過對初始狼群的敏感性分析可以得到(表2),當初始狼群的數量大于等于150時,MSE平均值和標準差趨于穩定,說明此時算法尋優比較穩定。
根據初始狼群的敏感性分析,本文選用的初始狼群為150。

表2 初始化狼群個數敏感性分析結果
對DO、TN和TP利用領導者策略的狼群搜索算法尋優得到了最優參數,領導者策略的狼群搜索算法的尋優過程以TN為例,如圖2所示。

圖2 領導者策略的狼群搜索算法參數尋優過程
利用領導者策略狼群搜索算法對支持向量機多目標函數進行參數尋優,得到DO、TN和TP的組合最優參數C和γ如表3所示,將最優參數代入模型中訓練,得到3個水質擬合圖如圖3所示。

表3 不同預測模型的最優參數

圖3 訓練實際值與擬合值的比較
樣本訓練后,可以看出預測曲線逼近實測線,具有較好的擬合性能。DO訓練樣本的MSE為0.315,MAPE為3.44%;TN訓練樣本的MSE為2.04×10-4,MAPE為0.82%;TP訓練樣本的MSE為3.83×10-5,MAPE為4.63%。擬合效果最好的DO的Pearson系數為0.957,TN次之為0.920,TP最小為0.902,表明了LWCA-SVM模型具有很好的學習能力。根據LWCA得到的最優參數,用前一天的參數代入模型中預測后一天的值,最佳參數不變,預測另外7組數據,并分析預測的相對誤差、MSE、MAPE和Pearson系數,得到的結果如表4所示。

表4 預測結果分析(DO)
模型進行驗證后顯示,DO、TN和TP的預測具有較高的精度。由于TN、TP的波動最小,DO的波動最大,因此最終DO的MSE差別較大,但誤差都很小;DO的MAPE在3個水質指標中最大,為6.7%,TN最小為0.50%。并且進行Pearson相關性分析,得到DO、TN和TP的實測值的趨勢和預測值的趨勢高度吻合。它們的相對誤差都在14.87%以內,結合MSE、MAPE、和Pearson相關系數,說明模型對富營養化指示因子TN、TP和波動幅度較大的DO具有較高的預測精度,建立LWCA-SVM模型在飲用水源地水質預測中推廣適應能力強,能夠為二河閘飲用水源地水質預測提供新途徑和方法。預測值與實測值之間仍然存在一定的誤差,主要是實測值頻次少,與實際河湖水體水質存在一定差距,同時污染源的排放和降雨量、徑流量等水文條件隨時間不斷地變化也會導致實測值與預測值之間的誤差[6],另外模型中次要參數,如:搜索步長stepa、移動步長stepb、包圍步長ra等利用經驗值具體確定,因此使得實測值與預測值也存在一定誤差。
將LWCA的全局尋優的優勢和SVM的結構風險最小化的優點結合,建立了LWCA-SVM模型,通過對初始狼群的敏感性分析,得到當初始狼群數量為150時,算法穩定,尋優能力最佳。同時,采用LWCA-SVM水質預測模型對二河閘水質的TN、TP和DO 進行了預測,預測精度高,說明模型在人為活動影響條件復雜、水體營養物含量多的河湖水域水質中能夠準確地預測,并且在短時水質預測中體現出較高的精度,為區域水污染控制系統規劃與水源地水質有效管理提供技術支持。
□
[1] 陳為國,許文杰.湖泊生態系統服務功能影響因子分析與評價研究[J].節水灌溉,2010,(12):35-37.
[2] 陳江龍,徐夢月,魏文佳,等.湖泊型水源地管理研究-以蘇州市太湖水源地為例[J].長江流域資源與環境,2012,21(7):836-842.
[3] 周曉鐵,韓寧寧,孫世群,等.安徽省河流和湖庫型飲用水水源地水質評價[J].湖泊科學,2010,22(2):176-180.
[4] 淮安水利局:http:∥slj.huaian.gov.cn/slzx/mtbd/5e38cfb851601858015165dab6fc1759.html.
[5] 袁宏林,龔 令,張瓊華,等.基于BP神經網絡的皂河水質預測方法[J].安全與環境學報, 2013,13(2):106-110.
[6] 張秀菊,安 煥,趙文榮,等.基于支持向量機的水質預測應用實例[J].中國農村水利水電,2015(1):85-89.
[7] Xu Longqin,Liu Shuangyin.Study of short-term water quality prediction model based on wavelet neural network[J]. Mathematical and Computer Modelling, 2013,58(3-4):807-813.
[8] 劉雙印,徐龍琴,李振波,等.基于PCA-MCAFA-LSSVM的養殖水質pH值預測模型[J].農業機械學報,2014,45(5):329-246.
[9] 程庭莉.基于支持向量機的三峽庫區水質預測與評價方法研究[D].重慶:重慶大學,2013.
[10] 梁 堅,何通能.基于小波變換和支持向量機的水質預測[J].計算機應用與軟件,2011,8(2):83-86.
[11] 楊會娟,粟曉玲,郭 靜.基于支持向量機的干旱區月潛在蒸發的模擬[J].中國農村水利水電,2016,(7):6-10.
[12] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]//IJCAI, 1995,14(2):1 137-1 145.
[13] Kennedy J, Eberhart R. Particle swarm optimization[C]∥Proceedings of IEEE international conference on neural networks. 1995,4(2):1 942-1 948.
[14] 王銀年.遺傳算法的研究與應用[D].江蘇無錫:江南大學,2009.
[15] Mech L D. The Wolf: the ecology and behavior of an endangered species[M]. USA: New York Natural History Press, 1970.
[16] YANG Chenguang, TU Xuyan, CHEN Jie. Algorithm of marriage in honey bees optimization based on the wolf pack search[C]∥ Proceedings of IEEE Computer Society International Conference on Intelligent Pervasive Computing. Jeju Island:[s.n.],2007:462-467.
[17] LIU Changan,YAN Xiaohu,LIN Chunyang,et al. The wolf colony algorithm and its application[J]. Chinese Journal of Electronics,2011,20(2):212-216.
[18] TANG Rui, SIMON Fong, XIN Sheyang, et al. Wolf search algorithm with ephemeral memory[C]∥ Proceedings of IEEE Digital Information Management (ICDIM) Seventh International Conference. Macau:[s.n.],2012:165-172.
[19] 周 強,周永權.一種基于領導者策略的狼群搜索算法[J].計算機應用研究,2013,30(9):2 629- 2 632.
[20] 鄢小虎.基于生物智能的移動機器人路徑規劃研究[D].河北保定:華北電力大學, 2010.
[21] 王建群,甲洋洋,肖慶元. 狼群算法在水電站水庫優化調度中的應用[J].水利水電科技進展,2015,35(3):1-4.
[22] 劉永蘭,李為民,吳虎勝,等. 基于狼群算法的無人機航跡規劃[J].系統仿真學報,2015,27(8):1 838-1 843.
[23] 薛峰,韓智,蔣明學.二河閘鋼閘門更換施工[J].水利規劃與設計,2005,(3).
[24] 李 波,濮培民.淮河流域及洪澤湖水質的演變趨勢分析[J].長江流域資源與環境,2003,12(1):67-73.
[25] 宓永寧,陳 默,張 茹.灰色拓撲法在大伙房水庫總氮預測中的應用[J].水利建設與管理,2009(3):72-73.
[26] 市區飲用水源水質:http://hbj.huaian.gov.cn/web/hbj/4924/6100/6100.shtml.
[27] 王曉云. SVM算法分析與研究[J].渝西學院學報(自然科版),2005,4(3):15-18.