黃繼文 ,陳華偉 ,郭旭維
(1.山東省水利科學研究院,山東 濟南 250014;2.山東省水利廳,山東 濟南 250014)
統計分析技術中的數據挖掘模型有相關分析、回歸分析、差異分析、聚類分析、時間序列分析等方法。本文主要采用K-均值聚類模型和差分自回歸移動平均時間序列模型(ARIMA)進行數據的統計分析、預測。
K-均值算法流程如下:
1)給定大小為n的數據集,令I=1,選取k個初始聚類中心 Zj(I),j=1,2,…,k;
2)計算每個數據對象與聚類中心的距離D(xi,Zj(I)),i=1,2,…,n,j=1,2,…,k,如果滿足

則 xi∈Wj;
3)令I=I+1,計算k個新的聚類中心和誤差平方和準則Jc的值:

4)判斷:若 Zj(I+1)≠Zj(I), j=1,2,…,k,則I=I+1,返回 2);否則算法結束。
ARIMA模型的通用表達式為:

式中:φ1,φ2, …,φP為自回歸系數;p 為回歸階次;θ1,θ2,…,θq為移動平均系數;q 為移動平均階次;{εi}為白噪聲序列。若以d表示差分階次,則常略記為 ARIMA(p,d,q)。
根據《山東省統計年鑒》(2011年)和《山東省水資源公報 (2010年)》,計算出全省及17市2010年萬元工業增加值取水量。根據萬元工業增加值取水量將17市分成6類。經聚類統計量計算結果檢驗,聚類變量在6個分類檔次中均值顯著差異,聚類結果有效。據此聚類結果,結合2015年全省萬元工業增加值下降率為25%的目標,分6個檔次初步設定各設區的市萬元工業增加值取水量下降率,詳見表1。
1)定額法預測。根據《山東省國民經濟和社會發展第十二個五年規劃綱要(2011—2015年)》以及全省各地級市國民經濟和社會發展 “十二五”規劃提出的經濟社會發展指標,綜合確定各地級市工業增長率,預測2015年工業增加值。根據初步設定的萬元工業增加值取水量下降率,推求2015年萬元工業增加值取水量,進行全省及各地級市2015年工業需水量預測。經預測,到2015年,全省工業增加值達到29 625億元,2011—2015年年均增長率9.5%。按照2015年全省萬元工業增加值取水量下降到10.67萬m3的目標,到2015年,全省工業需水量將達到316 099萬m3。

表1 山東省2010年萬元工業增加值取水量聚類結果
2)ARIMA模型預測。采用預測精度較高的ARIMA模型對非平穩序列進行差分處理,預測2015年工業需水量,進而預測2015年全省17個設區的市工業用水效率,詳見表2。

表2 ARIMA模型預測2015年全省工業需水量及用水效率
從表2可知,到2015年,全省工業需水量將達到年32.39億m3。結合全省工業增加值預測結果,可以推求出2015年萬元工業增加值取水量為10.93 m3,略大于10.67 m3。因此,隨著全省不斷推進節水型社會建設工作,到2015年,全省基本能實現2015年萬元工業增加值取水量較2010年下降25%的目標。
根據聚類結果及2015年需水預測結果,同時參考各市2010—2012年萬元工業增加值取水量下降率情況,調整全省17個設區市萬元工業增加值下降幅度初步方案,見表3。經校核計算,將全省萬元工業增加值下降率為25%的指標在全省范圍內進行分解后,17個設區的市工業需水量與全省工業需水量基本協調一致。

表3 調整后全省及17市萬元工業增加值取水量分解成果表
實踐證明,選用統計學模型算法,從大量的水資源及其相關數據中提取有用的信息,能夠為解決水資源管理領域的突出問題提供新的分析方法和科學的決策支持。