王曉鵬
(遼寧省水利水電勘測設計研究院有限責任公司,遼寧 沈陽 110006)
泥沙淤積現已成為多數已建水庫正常運用的制約條件,尤其對于北方水庫,天然徑流量年內分布極不均勻,大部分來水幾乎都集中在汛期,而汛期的來沙量也占到全年來沙量的80%以上。多泥沙河流水庫的入庫沙量主要是由汛期洪水攜帶入庫,因此,入庫洪量和沙量的相關關系,對于研究發揮水庫綜合效益與排沙之間的矛盾是非常有意義的。入庫沙量的預報具有影響因素多、不確定性強等特點。由于下墊面對降雨復雜的作用機制,對于不同的下墊面條件,即使降雨量和降雨過程相同,產沙量也相差甚遠;而對于相同的下墊面條件,降雨量、降雨過程等降雨特征也直接決定了產沙量的大小。
本文通過統計分析鬧德海水庫的入庫水量、沙量資料,以鬧德海水庫所在的柳河流域為研究對象,對比分析柳河流域的不同支流流域下墊面情況,對水庫入庫沙量的影響因子進行離散化處理,利用決策樹數據挖掘技術,建立各項因素之間的關系,達到預測水庫入庫沙量的目的。
決策樹技術是一種被廣泛應用的邏輯方法,利用大數據原理,在看似不存在相關關系的樣本數據中,對數據進行分類、歸納和總結,分析出一種決策樹式的相關關系規則。決策樹技術建立了由上至下的遞歸的形式,決策樹形式中的每一個節點代表了一個屬性,該屬性以屬性增量或者遞增率作為啟發信息,對樣本數據進行離散;決策樹中的分支則表示著屬性的輸出。
決策樹技術主要包括ID3算法和C4.5算法。ID3算法是一種較為基礎的算法,目前使用較為廣泛的算法大部分以ID3算法作為基礎。C4.5算法以ID3算法為基礎,并進行了一定改進。C4.5算法與ID3算法一樣采用增量最大的屬性作為決策樹結構的結點,但是卻改善了ID3算法偏向于取值多的屬性缺點,本文中將采用較為先進的C4.5算法進行分析建模研究。
分析降雨產沙量首先需要找到影響降雨產沙量的因素,然后利用歷史降雨及產沙量資料建立模型,擬合水庫入庫水沙關系。
本次研究選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa、水庫入庫輸沙量5個因素作為模型的影響因子。降雨中心分布的差異直接體現了不同下墊面的宏觀差異,對降雨產沙量影響較大;降雨過程分布值a,反映了單次降雨的過程和降雨強度,是影響產沙量的另一個重要因素;最大3h降雨量,對于北方降雨基本可以反映單次降雨的總降雨量,宏觀上決定了水量和沙量的關系;前期影響雨量Pa,根據產流原理,蓄滿產流的前期影響雨量決定了單次降雨的徑流量。
各個影響因子有n個數據樣本,水庫入庫沙量為模型輸出因子,降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa為輸入因子。輸出因子存在m個樣本數值,定義m個Pi(i=1,2,…,m)。任意一個樣本數據的期望值為
假設輸入因子I有p個不同取值{a1,a2,…,ak},可用因子I將指定數據集合S分為P個子集合{C1,C2,…,Ck}。假設I為影響因子,則由P集合衍生的分支與該子集為對應關系。假設子集Ci中Pi的樣本數為pij,那么I子集的熵為

根據上述公式,對于特定的子集Cj的期望值為
期望值和熵值可獲得信息增率,對于輸入因子I上的分支,可以由Gain(A)=I(p1,p2,…,pm)-E(A)得到,則信息增率公式為
以該分支的集合增率繼續分解樣本,直到劃分完所有因子為止,從而得到水庫入庫沙量這個輸出因子的決策樹模型。
決策樹技術模擬單次降雨的輸沙量,需要對各項輸入因子進行離散處理,處理后的輸入因子作為決策樹的節點,并以此繼續進行向下分支,以該分支的數據對樣本進行持續劃分,直到劃分完所有因子為止(見圖1)。

圖1 決策樹分類示意圖
選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子,水庫入庫輸沙量作為模型的輸出因子,分別對各項因子進行離散處理。離散分級情況見表1。

表1 因子的離散分級情況
本文選擇遼寧省鬧德海水庫進行決策樹入庫沙量模擬,以最大3h降雨量為決策樹模型的主要輸入因子,降雨中心分布作為次要輸入因子建立決策樹模型(見圖2)。

圖2 鬧德海水庫降雨輸沙量預報決策樹模型
若最大3h降雨量為1~2級,降雨中心主要分布在石門子流域,則入庫輸沙量為1~3級,降雨過程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫輸沙量為3級;若最大3h降雨量為3級,降雨中心主要分布在石門子流域,則入庫輸沙量為2~4級,降雨過程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫輸沙量為4級;若最大3h降雨量為4級,則入庫輸沙量為6級。
以本文選擇的決策樹模型,對鬧德海水庫歷史25場洪水進行模擬預報,其中1990年的第二場洪水預報誤差偏小了4個等級,1998年、2000年、2002年、2004年洪水預報誤差偏大1~2個等級。能夠準確預報出水庫入庫輸沙量的洪水達到20場次,準確率達到80%(見表2)。

表2 分級預報入庫輸沙量結果
本文采用決策樹數據挖掘技術,以柳河流域鬧德海水庫為例,選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子,水庫入庫輸沙量作為模型的輸出因子,進行了決策樹建模和模擬。模擬的25場歷史洪水中,準確預報出水庫入庫輸沙量的為20場,準確率達到了80%,在泥沙預報領域內,屬于較高水平。利用該模型對多泥沙河流水庫的入庫沙量進行預報,對水庫水沙調度有一定的指導意義,有利于多泥沙河流水庫實現沖淤平衡,從而更好地發揮水庫綜合效益。