陳望琴 姚 文
(1、長(zhǎng)江下游水文水資源勘測(cè)局,江蘇 南京210011 2、南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京210000)
數(shù)據(jù)挖掘技術(shù)的分析方法主要包括分類,估計(jì),預(yù)測(cè),關(guān)聯(lián),聚類等。本文主要基于大通水文站的實(shí)際數(shù)據(jù),使用數(shù)據(jù)挖掘技術(shù)的分類、估計(jì)和預(yù)測(cè)方法,對(duì)大通水文站的降水變化進(jìn)行分類,估計(jì),并對(duì)其變化規(guī)律進(jìn)行總結(jié),預(yù)測(cè)。
本文共使用61 年的實(shí)測(cè)降水?dāng)?shù)據(jù)作為分析樣本集。通過數(shù)據(jù)預(yù)處理,取年最小雨量值789.5mm,年最大雨量值2074.9mm,步長(zhǎng)100mm,將年降水量看成一個(gè)特征。繪制出矩形分布直方圖和累積頻率圖。結(jié)果如圖1 所示:


2.1.1 降水量的年代變化
根據(jù)大通站20 世紀(jì)的50、60、70、80、90 和21 世紀(jì)00 年代的平均降水量,以1950~2010 年多年平均降水量為參考,得出大通站不同年代年降水量的豐、枯變化情況,具體如表2 所示。
2.1.2 降水量的特征值統(tǒng)計(jì)
根據(jù)大通站1950-2010 年實(shí)測(cè)降水資料,使用數(shù)據(jù)挖掘分析方法,易知該區(qū)域最大年降水2074.9mm(1999 年),是平均降水量的1.48 倍;年最小降水量是789.5mm(1978 年),為平均降水量的0.56 倍, 最大年降水量比最小年降水量多1285.4mm,極值比為2.63。
2.1.3 變差系數(shù)
通過數(shù)據(jù)過濾,找到多年平均降水量和多年汛期與非汛期、季節(jié)、月份的值,具體如表2 所示。非汛期(11-12 月、1-4 月)的Cv=0.18 與多年總平均降水量的Cv=0.21 相接近,在季節(jié)上夏季與秋季的相差最小,整體與非汛期(11-12 月、1-4 月)相差最大。挖掘出有價(jià)值的信息如下:月份上的降水量值變動(dòng)情況>季節(jié)的降水量變化情況>汛期的變化情況。
2.1.4 降水量的豐、平、枯頻次
對(duì)年降水量總體樣本按某一范圍降水量在61 年中出現(xiàn)的頻率劃分,將年降水量的豐、枯程度劃分為5 種年型。(1)平水年、偏枯水年出現(xiàn)的頻次最多占比26.2%;(2)偏豐水年占比24.6%;(3)豐水年占比11.5%;(4)枯水年占比11.5%;(5)豐水年、枯水年出現(xiàn)的頻次相同(表3)。
2.1.5 連豐、連枯期分析
(1)連豐2 年出現(xiàn)3 次是(1951-1952 年、1969-1970 年、2009-2010 年);
(2)連豐3 年出現(xiàn)1 次(1989-1991 年);
(3)連枯2 年出現(xiàn)3 次是(1958-1959 年、1997-1998 年、2000-2001 年);
(4)連枯3 年出現(xiàn)2 次是(1966-1968 年、2006-2008 年)。
再從以上數(shù)據(jù)中挖掘出有效信息即:連豐年出現(xiàn)的次數(shù)比連枯年出現(xiàn)的次數(shù)少。
使用挖掘算法,可以發(fā)現(xiàn)大通站檢測(cè)區(qū)域一年中降水主要集中在汛期(5-10 月),多年汛期平均降水量為872.3mm,占全年降水量的62.0%;多年非汛期平均降水量為534.3mm,僅占全年降水量的38.0%(見圖2)。

表1 大通站各年代平均降水量對(duì)比表

表2 大通站多年各時(shí)期的變差系數(shù)值

表3 大通站降水豐、平、枯頻次分析統(tǒng)計(jì)表

四季降水量的年內(nèi)分配如圖3 所示。

各月多年平均降水量及所占全年多年平均降水量的比例如圖4 所示。
對(duì)數(shù)據(jù)的分析結(jié)果如下: 大通站年內(nèi)各月分配呈偏胖單峰型,主峰居中。6 月份降水量最多,其次是7 月、5 月、4 月、8 月、3月、9 月,最少的是12 月。汛期中的5-7 月與其它各月之間相差較大,這可能是長(zhǎng)江流域干流在5-7 月容易發(fā)生洪水或特大洪水的主要成因之一。
差積曲線法是分析一個(gè)地區(qū)的降水量豐、平、枯變化周期的方法。即根據(jù)每年的降雨量跟多年平均降雨量分別求每年的模比系數(shù),再求其差值并逐漸依次累加繪成差積曲線[2]。
使用數(shù)據(jù)挖掘方法分析后,得出結(jié)論如下:豐水段共18 年,占總年數(shù)的29.5%,平水段14 年,占總年數(shù)的23.0%,枯水段共29 年,占總年數(shù)的47.5%,這與實(shí)際出現(xiàn)的平水段16 年(26.2%)比較接近,與枯水段23 年(37.7%),與豐水段22 年(36.1%)相差較大。這是因?yàn)樵?992-1999 年之間豐枯水段出現(xiàn)趨勢(shì)不明顯造成的差距。同時(shí)從圖5 中還可以看出,該地區(qū)一個(gè)完整的降水量豐、平、枯變化周期約在1965-1991 年(27 年),豐、枯變化周期約在1950-1968 年(19 年)和1979-1998 年(20 年)。
本文使用Kendall 秩相關(guān)系數(shù)檢驗(yàn)來判斷時(shí)間序列趨勢(shì)。對(duì)該方法簡(jiǎn)單說明如下:對(duì)時(shí)間序列X1,X2,···Xn(n 為樣本數(shù)),所有對(duì)偶觀測(cè)值(xi,xj,j>i)中xi<xj出現(xiàn)的個(gè)數(shù)為P。給定顯著水平α,其檢驗(yàn)臨界值為序列趨勢(shì)不顯著;統(tǒng)計(jì)量稱為Kendall 秩次相關(guān)系數(shù),當(dāng)增加時(shí),統(tǒng)計(jì)量收斂于標(biāo)準(zhǔn)化正態(tài)分布,給定顯著水平,其檢驗(yàn)臨界值為U1-α/2。當(dāng)|U|<U1-α/2,序列趨勢(shì)不顯著;當(dāng)|U|>U1-α/2,序列趨勢(shì)顯著;且U>0,序列呈上升趨勢(shì),U<0,序列呈下降趨勢(shì)[3]。


圖5 大通站年降水量模比系數(shù)差積曲線
取顯著水平α=0.05,查表得U1-α/2=1.96。利用檢驗(yàn)統(tǒng)計(jì)量公式,計(jì)算不同時(shí)段的年降水量的秩次相關(guān)系數(shù),沒有月份年降水量通過了Kendall 秩次相關(guān)檢驗(yàn),說明年降水量上升下降趨勢(shì)不顯著;夏季、冬季、1 月、2 月、3 月、8 月、11 月秩次相關(guān)系數(shù)為正,說明這幾個(gè)時(shí)段年降水量變化呈上升趨勢(shì)且趨勢(shì)不顯著;其余時(shí)段的年降水量Kendall 秩次相關(guān)系數(shù)均為負(fù),說明這些時(shí)段的年降水量呈下降趨勢(shì),且下降趨勢(shì)不顯著。
根據(jù)以上數(shù)據(jù)分析的結(jié)論,認(rèn)為在大通站檢測(cè)區(qū)域多年年降水量與汛期(5-10 月)降水量變化趨勢(shì)呈緩慢下降趨勢(shì)。
本文借助數(shù)據(jù)挖掘技術(shù)及其數(shù)據(jù)分析方法,分析了大通水文站檢測(cè)區(qū)域61 年的降水情況相關(guān)數(shù)據(jù),總結(jié)如下:
5.1 驗(yàn)證了大通站觀測(cè)區(qū)域的降水量雨型為P-Ⅲ型分布,符合一般水文變量服從負(fù)偏的P-Ⅲ型分布的規(guī)律。
5.2 大通站年降水量年際變化較大,多年降水量的變化<多年汛期降水量的變化<多年季節(jié)降水量的變化<多年月降水量的變化。
5.3 大通站多年年內(nèi)的降水量變化也較大。汛期與非汛期降水量各占全年降水量的62.0%和38.0%,各時(shí)期降水量分配極不均勻,汛期容易發(fā)生局部暴雨,給當(dāng)?shù)卦斐商卮蠛樗o上、下游造成洪澇災(zāi)害。
5.4 大通站降水豐、枯期變化頻繁。多年降水量豐水年與枯水年出現(xiàn)的頻次接近, 但連豐年出現(xiàn)的次數(shù)比連枯年出現(xiàn)的次數(shù)少,降水量一個(gè)完整的豐平枯變化周期約27 年,豐枯變化周期約19 年,這些結(jié)論可為長(zhǎng)江中下游經(jīng)濟(jì)建設(shè)涉水項(xiàng)目提供參考。
5.5 通過(Kendall)秩次相關(guān)檢驗(yàn)(顯著水平α=0.05),說明年降水量上升下降趨勢(shì)不顯著。這此降水規(guī)律為長(zhǎng)江大保護(hù)、長(zhǎng)江中下游防洪抗旱、水資源規(guī)劃等提供了科學(xué)依據(jù)。