孫天一,王晨越,劉宏偉,王 斌
(東北農業大學 水利與土木工程學院,哈爾濱 150030)
水資源是基礎性的自然資源和戰略性的經濟資源,是人類生存和經濟社會發展不可替代的基本要素,良好的水質對于實現國家和社會的可持續發展具有重要意義。當前,中國水資源面臨的形勢仍十分嚴峻,水資源短缺、水利用效率低、水生態環境惡化等問題正日益突出,已成為制約中國經濟社會可持續發展的主要瓶頸,掌握河流、湖泊等水體的水質狀況并對其進行合理評估顯得尤為重要。近年來,隨著研究方法的不斷創新,涌現出了多種水質評價方法。其中常被采用的是單因子評價法,即將實測水質指標數據與《地表水環境質量標準(GB 3838-2002)》中的基本項目標準限值進行對比,從而選取單個指標評價最差的類別作為水質最終評價結果,目前,中國環境監測總站即采用這種方法評價全國主要流域重點斷面水質狀況。單因子評價法簡便快捷,評價結果直觀,當監測數據有保障時,能夠快速對水質情況做出實時判斷。然而,這種利用多個指標進行評判、最后只選取一項指標對應類別的評價方式過于片面,沒有兼顧各個評價指標的權重,夸大了單項指標對水質的影響,且忽略了各等級間存在的界限模糊性,在應用中可能會產生與現實不符的水質評價結果。
投影尋蹤(Projection Pursuit,PP)的基本思想是將高維數據投影到低維(通常為1-3維)的子空間上,從而尋找能夠反映原高維數據的結構或特征的投影,以達到研究高維數據的目的[1]。引入投影尋蹤方法不但可以解決水質評價的多指標綜合評判問題,還可以對各種水質指標對水質評價的影響程度進行合理分析,這對于制定及校核水質等級標準具有現實意義。構造與優化投影指標函數是應用投影尋蹤方法的關鍵,這項工作較復雜,也在一定程度上限制了投影尋蹤方法的廣泛應用。在采用投影尋蹤方法評價水質時,以往學者采用過遺傳算法、蟻群算法、粒子群算法、蛙跳算法、狼群算法、蜂群算法、差分進化算法、螢火蟲算法等優化投影指標函數[2-9]。自由搜索(Free Search,FS)是KalinPenev等提出的一種基于群體的優化算法,具有參數少、編程實現簡便、尋優能力高等優點[10],文章在傳統投影尋蹤方法基礎上,建立基于自由搜索的投影尋蹤水質評價模型(Projection Pursuit Model for Assessment of Water Quality based on Free Search,PPFS模型),將水質評價的多指標問題綜合成單一指標形式,繼而建立一個簡單的、可與水質實時評價對接的回歸模型,以期為我國主要流域重點斷面水質評價工作提供參考和借鑒。
設水質標準等級值及各水質指標的樣本集分別為y和X=(x1,x2,……,xn)=(xki)q×n,其中q為水質指標的樣本數目,k=1,…2,…,q,以下同;n為水質評價指標數目,i=1,2,……,n,以下同。由于各水質評價指標的量綱及指標值的變化范圍都不盡相同,為保證評價結果的可靠性和精度,采用下式對數據進行標準化處理:
(1)
式中:xi為水質指標樣本中第i個指標的均值;si為si水質指標樣本中第i個指標的標準差。

(2)
式中:z為投影值;a(i)為投影方向分量。
為了保證投影值對因變量具有很好的解釋性,可令z的標準差Sz盡可能大,同時使z與y相關系數的絕對值|Rzy|也盡可能大,據此,投影指標函數可構造為maxF(a)=Sz|Rzy|。

設FS中動物個體每步探查行走的位置為投影方向,采用下面的數組進行編碼:
(3)
式中:T為限制步伐數,t=1,2,……,T;n為搜索空間維數,i=1,2,……,n;A為第j個動物T步探查時的位置矩陣;at為第j個動物第t步探查時的位置;m為動物群體大小,j=1,2,……,m;atij為第j個動物第t步探查時第i維的位置分量。
1.3.1 算法初始化
采用隨機化初始策略:
atij=aimin+aimax-aiminrandomij(0,1)
(4)
式中:aimin、aimax為第i維搜索空間的邊界;randomij(0,1)為介于[0,1]之間的隨機數,以下同。
1.3.2 探查
通過下式探查行走,更新動物個體位置:
atij=a0ij-atij+2?atijrandomij(0,1)
(5)
式中:atij=Rij(aimax-aimin)randomtij(0,1),Rij∈[Rmin,Rmax]。
在探查行走過程中,動物個體的行為可以表示為:
Ftj=F(atij),
Fj=max(Ftj)
(6)
信息素Pj按下式更新:
Pj=Fj/max(Fj)
(7)
敏感性Sj按下式更新:
Sj=Smin+Sj
(8)
式中:Sj=(Smax-Smin)randomj(0,1),Smin=Pmin,Smax=Pmax。
最后,選擇和決策下1次探查行走的開始位置:
(9)
式中:l=1,2,……,m。
1.3.3 算法終止
算法判斷是否滿足設定的終止條件,如果滿足說明已經搜索到可以接受的最優解,則輸出尋優結果,不滿足則繼續探查搜索。
將尋優得到的最佳投影方向的估計值a*代入式(2),得到各樣本投影值z,根據z與y的散點圖可建立相應的數學模型。
中國環境監測總站對全國主要水系(松花江、遼河、海河、淮河、黃河、長江、珠江、海南島內河流、浙閩河流、西南諸河、內陸河流、太湖、巢湖、滇池、其它大型湖泊等)的約100-150個重點斷面進行了水質自動監測,監測指標包括酸堿度(pH)、溶解氧(DO)、高錳酸鹽指數(CODMn)和氨氮(NH3-N)4項,并將水質評價結果以周報等形式發布。由于中國環境監測總站采用單因子法對水質進行分級,水質評價結果為評價時段內某單個指標所處的最高等級。文章選取2018年第52周(12月24日-12月30日))的水質監測數據進行建模與分析,由于儀器故障、河流斷流等原因,存在未監測斷面和2個缺少CODMn、NH3-N指標數據的斷面,因此,最后選取143個斷面的水質監測數據,運用PPFS模型評價水質等級。
根據《地表水環境質量標準GB3838-2002》,選擇pH、DO、CODMn、NH3-N4個水質指標的等級劃分標準,全國主要流域重點斷面水質指標的等級劃分標準,見表1。

表1 全國主要流域重點斷面水質指標的等級劃分標準
將表1每個等級區間的邊界值作為一個樣本值,在各等級區間內利用均勻隨機數隨機產生5個樣本值,構成評價指標樣本集,與對應水質等級值(即將Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類5個等級分別賦值為1、2、3、4和5)共組成31個樣本點,考慮到五類水質等級劃分的pH標準均為6-9,對水質等級的劃分結果沒有影響,因此不考慮pH的貢獻。根據PPFS建模過程前3個步驟,利用這些樣本點數據進行分析,尋優得到的最佳投影方向a*為(-0.5337,0.5931,0.6029)。由于最佳投影方向各分量絕對值的大小實際上反映了各種水質指標對水質評價的影響程度,分量絕對值越大則與之對應的水質指標的影響程度就越大,因此,最佳投影方向表明NH3-N、CODMn、DO對水質影響程度依次減小。將a*代入式(2)得到各樣本投影值的計算值z,并繪制出z與y之間的散點圖,水樣投影值z與水質等級y的散點圖,見圖1。

圖1 水樣投影值z與水質等級y的散點圖
根據z與y之間散點圖的分布趨勢性,采用三次曲線來描述投影值與水質等級之間的關系,所得水質評價的PPFS模型見下式:
y=-0.00483z3+0.0027z2+1.1144z+2.9383
(10)
將各斷面的NH3-N、CODMn、DO的實測值的投影值,將其帶入上式,即可評價個斷面的水質等級。
經統計,在所選取的143個斷面中,有63個斷面的水質評價結果與單因子評結果相同,另有80個斷面的水質結果與單因子評價結果不同。在相同和不同的評價結果中,分別選取15個斷面為例,制成2個表格:PPFS模型計算值與單因子評價值不同的結果對比,見表2;PPFS模型計算值與單因子評價值一致的結果對比,見表3。

表2 PPFS模型計算值與單因子評價值不同的結果對比

表3 PPFS模型計算值與單因子評價值一致的結果對比

續表3 PPFS模型計算值與單因子評價值一致的結果對比
從表2和表3結果可以看出,單因子評價方法的評價結果是離散的水質等級,對水質級別的分辨率較粗,即使同屬于同一級別的水質,它們對應的各水質指標值常常相差顯著,而在現實的水質評價工作中,水質等級值一般是連續的實數值。PPFS模型的評價過程不需人為干預,所得結果僅與輸入的指標監測數據有關,水質評價結果是更連續的實數值,且能夠考慮DO、CODMn、NH3-N對水質評價的綜合影響,對于制定和檢驗水質等級劃分標準也具有參考意義。
投影尋蹤方法直接面向樣本數據,并且能夠避免因高維點稀疏分布而導致的一系列問題,可以找到樣本間的內在規律,能夠在一定的程度上解決非線性的高維問題;自由搜索算法的全局搜索能力好,收斂速度較快,尋優精度較高,能夠快速精準地找到數據的最佳投影方向。因此,可以耦合投影尋蹤和自由搜索2種算法構建水質評價模型。單因子水質評價模型的計算結果大多是一些離散的水質等級值,分辨率較粗。文中提出PPFS模型對水質的評價結果為連續實數值,且根據最佳投影方向各分量的絕對值的大小可進一步分析各水質指標對水質等級影響的程度,據此可檢驗水質評價標準的合理性。實例的計算結果表明PPFS可用于評價全國主要流域重點斷面的水質。