劉玉邦 梁 川
(四川大學水電學院1) 成都 610041) (成都理工大學學術期刊編輯中心2) 成都 610059)
洪水的發生和發展具有很強的隨機性和不確定性,洪水過程受流域區的天氣變化情況、下墊面情況、人類活動等多要素的綜合影響.因此,多指標的綜合分類方法則成為目前進行洪水分類研究的主要趨勢[1-5].目前用于洪水分類的方法很多,如馬寅午[6]等、盧正波[7]等的概率方法、模糊聚類方法[8],灰色聚類法[9],王順久[10]等、董前進[11]等的投影尋蹤方法,等等.這些分類方法都在洪水分類中得到了較好的應用,但各有其缺陷和不足.
本文對傳統的主成分分析方法進行改進,即將非線性變換和主成分分析法相結合,通過擬線性化變換和降維去噪,得出多維分類指標的一維主成分值,然后通過對每一待分類樣本的一維主成分值進行聚類分析,最終得出洪水的自然分類結果.
設有n個樣品,每個樣品觀測p個指標(變量)x1,x2,…,xp,令 xij(i=1,…,n;j=1,…,p)為第i個樣本的第j個指標的值,這樣得到原始數據矩陣

用數據矩陣X的p個指標向量X1,X2,…, XP作線性組合為

滿足上述要求的綜合指標向量F1,F2,…,Fp就是主成分.對于原始指標所提供的信息總量,這p個主成分從提取出的信息量用方差來度量,主成分方差的貢獻對應原始指標相關矩陣相應的特征值λi而每個主成分的組合系數就是特征值對應的特征向量,方差貢獻率為越大,說明相應的主成分反映綜合信息的能力越強.
1)原始數據中心化 為了消除原始數據不同量綱、不同數量級差異對評價結果的影響,應首先將原始數據進行量綱一的量化處理.協方差矩陣能較好地刻畫原始數據的全部信息,即協方差矩陣的主對角元恰好為各指標的方差,而非主對角元則包含了各指標間相關系數的信息.因此,可將“均值化”方法作為量綱一的量化新方法,即用各項指標的均值去除相應的原始數據,這樣得到的新數據的協方差矩陣不僅消除了量綱和數量級的影響,還包含原始數據的全部信息.記經過量綱一的量化處理的數據矩陣為A[12].
2)核函數變換 將上述數據矩陣A中的每一數據元素進行核函數變換,變換函數為高斯核函數記經過核函數的數據矩陣為U.
3)均值化 為進一步消除數量級差異對分類評價結果的影響,可進一步對經過核函數變換后得到的矩陣U中的數據元素進行“均值化”變換.記經過均值化后的數據矩陣為B.
4)對矩陣B進行主成分分析 依據主成分分析數學模型,先求出 B′B的特征值和特征向量,依據公式計算方差貢獻率,取 lr>85%的前幾個主成分的和作為原始數據矩陣的主成分,即最后代入相應的分類樣本數據,求出各分類樣本的主成分值ti.
5)對各分類樣本的主成分值進行聚類分析
聚類方法是:(1)將每個樣本的主成分值按升序進行重新排列,t1最小,tn最大(n為樣本個數);(2)計算相鄰主成分值間的差值(i=1,2,…,n),t0=t1;(3)計算δi的累加值其中,i=1,2,…,n;(4)以累加值Y為縱坐標,樣本序號N為橫坐標繪制散點圖.最后根據散點圖分布趨勢可對樣本進行直觀分類.
若根據經驗或相關專業知識,可以預先確定分類指標標準值,可將分類指標標準的門限值作為一組樣本值代入相應的主成分分析模型,求解相應的主成分值,最后將各樣本的主成分值直接與分類標準的主成分值進行比較分類.
為便于評價結果的比較,本文選擇文獻[2]中的數據作為評價數據,其原始數據、分類標準值見表1、表2.

表1 碧流河水庫的歷史洪水樣本

表2 洪水分類指標標準值
按照相應的計算步驟,得到經過均值化、核函數變換和進一步均值化后的數據矩陣

則B′B矩陣的特征值為0.033 428.其中(大于85%),所以選擇F1第一主成分為原始數據矩陣的主成分,λ1所對應的特征向量為F1中各變量指標的系數.各樣本的第一主成分值為1.937 012,2.288 422,1.449 608,2.327 398,2. 393 906,2.582 52,2.541 853,1.254 806,2.654 418,2.537 727,2.489 044,2.383 785,1.727 012.
相應的,分類指標標準的第一主成分值為1.739 894,2.027 368,2.308 012,2.868 6.將各樣本的第一主成分值與分類標準第一主成分值進行比較,可得洪水樣本的自然分類結果(見表3),聚類效果圖見圖1.

表3 洪水過程指標符號量化及分類結果

圖1 碧流河水庫歷史洪水非線性主成分-聚類分析效果圖
依據聚類效果圖并結合主成分值的大小,碧流河13個歷史洪水樣本可分為四類,即樣本號3,8,13為特大洪水,樣本號1為大洪水,樣本號2為中洪水,樣本號4,5,6,7,9,10,11,12為小洪水.這一分類結果和應用集對分析方法所得結果基本是一致的,滿足實際應用需要.
從本文所用方法對歷史洪水樣本進行自然分類的實際來看,可以得出以下幾點結論:(1)非線性主成分-聚類分析是一種新穎的分類評價方法,同其他分類評價方法相比,該計算方法既能揭示分類指標空間到類型空間的非線性特征,又不需要復雜的計算機專業知識、優化算法知識和復雜的數學知識,原理清楚,計算簡單可行,結果客觀有效;(2)從計算過程和計算結果來看,該方法由于采用了兩次均值化計算,所以對于所給分類指標門限值變化范圍較小時,其分類效果較弱;(3)從實例分析來看,由于分類指標空間到類型空間的非線性特征的差異,不同的非線性變換形式對分類評價結果稍有影響,因而選擇適宜的非線性變換函數就較為關鍵.對于可以預先確定分類指標標準值的,可將指標標準數值判定結果和依據聚類效果圖判定的分類結果相互結合,最終得出比較符合實際的分類結果.
[1]張 靈,陳曉宏,翁 毅.人工免疫算法在洪水分類中的應用[J].中山大學學報:自然科學版,2008, 47(5):110-113.
[2]王文圣.基于集對分析的洪水分類研究[J].高原山地氣象研究,2009,29(1):51-54.
[3]康愛卿,邱 林,張 亭.基于投影尋蹤的洪水分類和識別方法研究[J].華北水利水電學報,2009, 30(2):6-8.
[4]汪麗娜,陳曉宏,李粵安.基于人工魚群算法和模糊C2均值聚類的洪水分類方法[J].水利學報,2009, 40(6):743-747.
[5]Ramze M,Lelieveldt B P F,Reiber H C.A new cluster validity index for the fuzzy c2mean[J].Pattern Recognition Letters,1998,19(3-4):237-246.
[6]馬寅午,周曉陽,尚金成.防洪系統洪水分類預測優化調度方法[J].水利學報,1997(4):1-8.
[7]盧正波,侯召成.洪水聚類有效性分析[J].南水北調與水利科技,2007,5(2):87-90.
[8]孫 倩,段春青,邱 林.基于熵權的模糊聚類模型在洪水分類中的應用[J].華北水利水電學院學報, 2007,28(5):4-6.
[9] Lu Hongjun,Chen Yinchuan.The grey clustering method of the evaluati on of flood severity[C]∥Proceedings of Internati onal Symposium on Floods and Droughts.Nanjing:HohaiUniversityPress, 1999.
[10]王順久,張欣莉,侯 玉.洪水災情投影尋蹤評估模型[J].水文,2002,22(4):1-4.
[11]董前進,王先甲,艾學山.基于投影尋蹤和粒子群優化算法的洪水分類研究[J].水文,2007,27(4):10-14.
[12]童心安,許 超.基于非線性主成分和聚類分析的綜合評價方法[J].統計與信息論壇,2008,23,(2):37-41.