琪美格
(新疆維吾爾自治區水文分析計算中心,新疆 烏魯木齊 830000)
每年年底,政府應急部門要求水文部門提供當地主要河流次年來水量年景分析成果,由于新疆水文站網稀少,水文預報因子挑選余地有限,預報精度受到影響。本文應用K-均值聚類分析和周期均值疊加分析方法,用五圣宮水文站歷年年月流量樣本建模并對其次年流量變化過程進行嘗試性的定性預報,確保符合水文站網稀少特點和預報精度要求。
K-均值聚類分析是研究某類事物“物以類聚”問題的一種統計方法,它是將一批大樣本數據按照性質上的親密程度在沒有群組特征先驗知識的情況下,通過用戶指定類別數而進行的逐步聚類分析??捎蒘PSS實現:指定聚類數(如k類);確定k個初始類中心點;根據距離最近原則進行分類;根據聚類終止條件進行迭代(迭代一次,確定新k個類中心點一次);迭代停止,得到最終分類。最后構建由各樣本所屬類型值組成的時間序列。
一個隨時間變化的等時距水文觀測樣本,可視為有限個不同周期疊加而成的過程。從樣本序列中識別周期時,可將序列分成若干組,如果組間各數據的差異顯著大于組內差異,序列就存在周期,其長度就是組間差異最大而組內差異最小的分組組數。
那么,組內差異比組間差異小到什么程度才算是顯著呢?通常用信度為α的F檢驗來判斷:F > F(α),則表明這一信度水平上差異顯著,有周期存在,對應的分組組數即為周期長度,各組的平均值即為第1周期振幅;F <= F(α),則差異不顯著。
將所識別的第1周期振幅依序從序列起始年排至終止年,構成第1周期序列,從樣本序列中剔除第1周期序列,便生成新序列,對新序列按上述步驟進行計算,可識別第2周期。其余周期的識別以此類推,直到不能識別或不想識別周期為止。最后對所識別的各周期外延疊加,即為類隸屬定性預報成果。
五圣宮水文站1980-2018年流量變化過程SPSS數據文件(僅顯示局部)見圖1?,F進行K-均值聚類分析:
步驟1:打開圖1所示數據文件。

圖1 五圣宮水文站1980-2018年流量變化過程SPSS數據文件
步驟2:依次單擊菜單“分析→分類→K-均值聚類分析”,在對話框中將“一月平均流量”至“年平均流量”選入“變量”列表框,將“年份”選入“個案標記依據”列表框;在“方法”選項組中選擇“迭代與分類”;將“聚類數”設置為3(類過多,預報易失真)。
步驟3:單擊“迭代”按鈕,在對話框中將“最大迭代次數”設置為20,“收斂性標準”設置為0.01,勾擇“使用運行均值”選項。
步驟4:單擊“迭代”按鈕,在對話框中選擇“統計量”選項組中的“初始聚類中心”和“每個個案的聚類信息”。
步驟5:單擊“保存”按鈕,在對話框中選擇“聚類成員”選項。
步驟6:單擊“確定”按鈕,執行聚類分析操作。
經分析SPSS輸出的統計表格數據,5次迭代后,3個類中心的變化均小于指定的收斂標準0.01,聚類分析結束。
聚類結果見圖1,類型值列是每個流量變化過程樣本所屬的類,即類型值序列。
五圣宮水文站1980-2018年類型值序列樣本容量n=39,最大分組組數m=(n-1)/2=19,即分組組數取值為2、3、…、m。對應每一分組組數,依次單擊類型值序列SPSS數據文件中的菜單“分析→比較均值→單因素ANOVA”,進行不同信度下的F檢驗,結果為:
僅在分組組數為11時,方差比F=2.06>F(0.1)=1.84,通過信度為0.5的F檢驗,說明存在長度為11(年)的第1周期,周期振幅依序為:2、2.5、2、2.5、2.5、2.75、3、1、1、3和2.33。
僅在分組組數為13時,方差比F=3.75>F(α)=1.81,通過信度為0.5的F檢驗,說明存在長度為13(年)的第2周期,周期振幅依序為:0.167、0.083 3、0.5、0.25、-0.5、0.083 3、0.222、-0.333、0.389、-0.667、-1.44、0.833和0.417。
僅在分組組數為15時,方差比F=2.16>F(α)=1.8,通過信度為0.5的F檢驗,說明存在長度為15(年)的第3周期,周期振幅依序為:0.444、0.111、0.481、-0.167、-0.37、0.055 6、-0.044 7、-0.111、-0.204、0.417、0.097 2、0.25、-0.375、-0.833和0.083 3。
將上述3個周期振幅分別依序從1980年排至2018年,構成3個周期序列;3個周期序列振幅的疊加值即為對應類型值的擬合值。
計算1980-2018年3個周期序列振幅疊加值與對應類型值之間的相對誤差,若其絕對值小于等于20%為合格,經計算,合格率達82.1%,說明擬合較好。
將3個周期序列外延1年,得2019年3個周期振幅依次為3、0.167和0.417,疊加值為3.58,接近類型值3,即五圣宮水文站2019年流量變化過程屬第3類,檢驗如下:
用SPSS計算各類樣本的總數和均值:
步驟1:打開圖1所示數據文件,依次單擊菜單“分析→報告→個案匯總”,在對話框中,將“一月平均流量”至“年平均流量”選入“變量”列表框,將“類型值”選入“分組變量”列表框。
步驟2:單擊“統計量”按鈕,將“均值”選入“單元格統計量”列表框。
步驟3:單擊“確定”按鈕,執行個案匯總操作。各類樣本均值詳見表1,其中,類1、2、3分別有12、3、24個流量變化過程樣本。
表1給出了2019年實測月年平均流量與各類樣本均值的類隸屬情形,可見,絕大多數實測值類隸屬為3(尤其是5、6、7、8月主汛期月平均流量和年平均流量),說明預報基本正確。

表1 2019年實測月年平均流量與各類樣本均值的類隸屬判斷
(1)應用K-均值聚類分析和周期均值疊加分析方法,用本站歷年年月流量樣本建模并對其次年流量變化過程進行定性預報,是一次成功的嘗試。
(2)預報所用樣本僅限于本站歷年年月流量資料,不需要其它水文、氣象站相關因子,適合干旱區水文站網稀少的特點。
(3)若周期振幅疊加值與類型值相對誤差的絕對值小于等于20%為合格,則1980-2018年類型值序列模擬檢驗合格率為82.1%,說明擬合較好。
(4)從2019年實測月年平均流量與各類樣本均值的類隸屬情形來判斷,絕大多數預報值接近實測值,說明該技術在長期水文定性預報方面有一定的實用價值。