康 明,王麗萍,趙璧奎,張驗科
(華北電力大學可再生能源學院,北京 102206)
水質評價是水資源管理與決策的重要組成部分,是根據已有的水質標準建立水質分類的模型,然后依據該模型對參與評價的樣本進行水質級別的評價。最基本的評價方法就是,直接對照標準規定的各個項目單因子的評價。但在實際應用中,僅僅基于單項影響指標的水質評價結果難免會不相容,因此直接對照水質評價標準表評價水體質量缺乏必要的實用性。一般情況下,水質的評價總是基于多種指標的綜合評定,因而要進行客觀嚴謹的評價就必須建立起與之對應的多因素 (多指標)評價模型。文獻[1]建立了一個基于可拓神經網絡的水質評價模型;文獻[2]將模糊數學的原理應用到水質評價中;文獻[3]提出了一個基于組合權重的水質評價模型;文獻[4]建立了一個基于投影尋蹤新算法的評價模型。這些模型都存在某些局限性。例如,在計算過程中需人為地給定參數,或者對于同一等級內的水質無法給出量化的比較,以及對影響因素的權重沒有主客觀綜合考慮。
因此,本文引入投影尋蹤動態聚類的方法,提出相應的水庫水質評價模型,一方面,可以避免在水質評價模型運算過程中需要人為給定的參數的缺點;另一方面,可以根據決策者的側重的因素進行分類并直接輸出水質綜合評價分級標準值。
投影尋蹤就是將高維數據向低維空間投影,通過低維空間研究高維數據的結構或特征。投影尋蹤聚類是根據投影尋蹤原理形成的一種聚類方法,在水質評價、洪水分類、關鍵因子識別等涉及多因素影響的問題研究中廣泛應用。然而,在實際聚類分析中,投影尋蹤聚類方法尚存在著不足之處,主要體現在兩個方面:一是在求解基于投影尋蹤聚類方法模型過程中,涉及到的唯一參數——密度窗寬取值目前還必須依靠經驗或試算來確定,缺乏相應的理論依據;另外,此類模型的運算結果需要利用其他方法進行分類處理,才能得到最終的聚類結果。
針對投影尋蹤聚類的上述問題,引入動態聚類方法[5]。動態聚類法可以將樣本數據點聚成既定數量的類,使得每一類的元素都是聚合的,并且類與類之間能夠很好地區分開來。投影尋蹤動態聚類法,通常先是利用投影降維技術將高維數據投影到低維空間 (本文實際應用為線性一維),然后利用動態聚類法對投影到低維空間的投影特征值進行聚類分析。
首先,通過生成水質樣本構造出模型所需的投影數據。按照水質標準,在各水質級別范圍內隨機產生一定量的樣本數據;將水質樣本的影響指標記為 Xij(i=1,2,…,n; j=1,2,…,m; n 為樣本個數, m為影響指標個數)。質量標準等級分為5級,在每個等級范圍內生成100個樣本,則樣本數n=500。為了與水庫水質質量標準相對應,本文規定水體受到污染的程度越嚴重,則該樣本水質的級別值越大。將污染最嚴重的水質級別記為Ⅴ,較嚴重的記為Ⅳ,依次類推,污染最輕的級別值記為Ⅰ。由于水質樣本各影響指標的量綱不盡相同或數值范圍相差較大,因此在建模之前要對各項指標數據進行無量綱化處理。對于越小越優型指標,采用式(1);對于越大越優型指標,采用式(2)

式中,Xjmax、Xjmin分別為第j個水質影響指標的樣本最大值與最小值。
所謂投影就是從不同角度觀察數據,尋找能夠最大程度反映水質樣本數據特征的最佳觀察角度,即最優投影方向[6]。本文采用線性投影,將水質樣本的多項影響指標值投影到一維空間,得到反映該水質樣本特征的數值,該數值被認為是能夠反映該水質樣本優劣程度的量化值,在模型中用投影特征值zi來表示。設為m維單位投影方向向量,記為=(a1,a2,…,am), 則水質樣本影響指標 xij的一維投影特征值zi可以表示為

投影指標是樣本數據由多維向低維投影形成聚類所遵循的原則,由于聚類分析的實質就是將待評價樣本進行合理的分類,可以根據分類指標來構造投影指標。本文應用動態聚類方法來構造模型的投影指標,通過求解投影指標函數,得到能夠反映水質樣本特征的最優投影方向,同時輸出投影特征值聚類結果,即水質綜合評價的分級標準值。構造投影指標的步驟如下:
設水質樣本投影特征值集合為 Ω={z1,z2,…,zn},任意兩個投影特征值間的距離記為s(zi,zk),即s(zi,zk)=(k=1,2,…,n)。 若將水質樣本分為 N(N≤n)類,則第h類樣本投影特征值集合可記為θh(h=1,2,…,N), 即

式中, d(Ah-zi)=, d(At-zi)=。 其中,Ah和At分別為第h類和第t類的初始聚核 (聚類的中心點)。式(4)表明了動態聚類方法中聚合分類的原則。依據動態聚類的算法,每一類的初始聚核會被上一次該類樣本投影特征值的均值所迭換,直至滿足結束條件,即分類結果趨于穩定。

式中, dh()=

為達到類類樣本充分散開、類內樣本盡量集中的聚類目的[7],根據動態聚類法構建的投影指標應為

式(7)表明,各類之間分散度越大或類內聚集程度越高,投影指標QQ()越大。
實際應用中,若決策者對水庫水質的某單項或多項影響指標存在偏好,可以通過增加模型的約束條件來實現。例如,在所有影響指標中,決策者最關心的是第二項指標,根據投影原理,即認為在a2方向上的投影值最大,因此可增加約束

上述優化問題用遺傳算法求解,參閱文獻[8]。
2012年2月深圳市供水系統中5個水庫的水質監測結果見表1。根據深圳市水源水質的特點,選擇了pH、氨氮、總氮、總磷、高錳酸鹽指數等作為水源地水庫水質影響指標。依據水源地水質要求,選擇GB 3838—2002《地表水環境質量標準》作為評價依據,結果見表2。

表1 深圳市5個供水水庫2012年2月水質監測結果

表2 水庫水質評價標準
本文在每個水質標準級別范圍內隨機生成30個樣本,而水庫水質評價標準分為5級,于是總共得到了150個水質樣本。依據生成的各級樣本數據建立起深圳市5所水庫基于投影尋蹤動態聚類方法的水質評價模型,其中n=150,m=5,N=5。

表3 水質綜合評價分級標準值及模型評價結果
可以看出,實例中的深圳市5個水庫中有2個達到地表水Ⅱ類標準,3個達到Ⅲ類標準。根據表1的監測數據,對照水庫水質評價標準,在編號為(1)的水庫中有2個指標屬于Ⅴ級、3個指標屬于Ⅰ級,編號為(2)的水庫中有1指標屬于Ⅳ級、1個指標屬于Ⅴ級、其他3個指標都屬于Ⅰ級,編號為(4)的水庫有1指標屬于Ⅳ級、1個指標屬于Ⅴ級、其他3個指標都屬于Ⅱ級。就污染程度而言,水庫(4)大于水庫(2)和(1), 而水庫(2)有 4個的指標都要比水庫(1)大, 所以綜合評價(4)>(2)>(1), 符合表 3中評價樣本特征值的大小排序。分析比較編號(3)、(5)這兩個水庫,同樣可以得出與模型評價結果相一致的結論。由此可見,基于投影尋蹤動態聚類方法的水庫水質評價模型計算出來的結果是較為合理的。
然而,不同地區的水庫由于自然環境及功能不同對水質的要求不盡相同。從深圳市近兩年的水質連續監測數據分析,總氮及總磷指標超標的頻率較高,這兩項指標對控制水體富營養化有重要的作用,因此可以假設決策者會提高這兩項指標對其決策的影響力。在模型中通過增加約束的方法來考慮決策者的這種偏好: a2>aj(j=1,3,5); a4>aj(j=1,3,5)。

表4 考慮決策者偏好的模型評價結果
由表4可以看出,這一結果與不考慮決策者偏好的結果基本相同。其主要原因是:根據投影尋蹤方法的原理,最優投影方向向量反映了各個因素的不同重要程度,而且它為單位投影方向的向量,滿足平方和為1。因而,可以將wi=(…,)作為各影響因素的權重[9]。在不考慮決策者此偏好時,總磷及總氮的所占權重已經很大,故兩次評價結果保持一致。
(1)將投影尋蹤技術和動態聚類的方法相結合,應用于水庫水質評價模型,既操作簡單,又增加了模型的客觀性,充分發揮了投影尋蹤技術在處理多因素綜合評價模型上的優勢。
(2)針對可能出現的決策者偏好的情況,本文通過增加約束條件,使得模型能夠綜合考慮客觀權重和決策者的偏好,擴大了模型的適用范圍。
(3)模型應用于深圳市5個供水水庫的實際分析結果表明,基于投影尋蹤動態聚類的方法能夠合理地對水庫水質進行綜合評價。
[1]閆英戰,楊勇,陳愛斌.可拓神經網絡在水質評價中的應用[J].人民長江, 2010, 41(15):27-30.
[2]張媛,王世真,朱秀華.模糊數學用于地表水的綜合評價[J].大連鐵道學院學報,2004,25(1):7-11.
[3]金菊良,黃慧梅,魏一鳴.基于組合權重的水質評價模型[J].水力發電學報, 2004, 23(3):3-19.
[4]張欣莉,丁晶,李祚泳,等.投影尋蹤新算法在水質評價模型中的應用[J].中國環境科學, 2000, 20(2):187-189.
[5]任若恩,王惠文.多元統計數據分析-理論、方法、實例[M].北京:國防工業出版社,1999,76-80.
[6]倪長健,崔鵬.投影尋蹤動態聚類模型[J].系統工程學報,2007, 22(6):634-638.
[7]倪長健,王順久,崔鵬.投影尋蹤動態聚類模型及其在地下水分類中的應用[J].四川大學工程學報:工程科學版,2006,38(6):29-33.
[8]王順久,張欣莉,倪長健,等.水資源優化配置原理及方法[M].北京:中國水利水電出版社,2007,226-227
[9]王麗萍,葉季平,蘇學靈,等.基于可拓學理論的防洪調度方案評價研究與應用[J].水利學報, 2009, 40(12):1425-1431.