基于決策樹技術的鬧德海水庫入庫沙量預報

2021-02-25 08:57:56王曉鵬

水資源開發與管理 2021年1期

王曉鵬

(遼寧省水利水電勘測設計研究院有限責任公司，遼寧沈陽 110006)

1 概述

泥沙淤積現已成為多數已建水庫正常運用的制約條件，尤其對于北方水庫，天然徑流量年內分布極不均勻，大部分來水幾乎都集中在汛期，而汛期的來沙量也占到全年來沙量的80%以上。多泥沙河流水庫的入庫沙量主要是由汛期洪水攜帶入庫，因此，入庫洪量和沙量的相關關系，對于研究發揮水庫綜合效益與排沙之間的矛盾是非常有意義的。入庫沙量的預報具有影響因素多、不確定性強等特點。由于下墊面對降雨復雜的作用機制，對于不同的下墊面條件，即使降雨量和降雨過程相同，產沙量也相差甚遠；而對于相同的下墊面條件，降雨量、降雨過程等降雨特征也直接決定了產沙量的大小。

本文通過統計分析鬧德海水庫的入庫水量、沙量資料，以鬧德海水庫所在的柳河流域為研究對象，對比分析柳河流域的不同支流流域下墊面情況，對水庫入庫沙量的影響因子進行離散化處理，利用決策樹數據挖掘技術，建立各項因素之間的關系，達到預測水庫入庫沙量的目的。

2 決策樹技術的原理與方法

決策樹技術是一種被廣泛應用的邏輯方法，利用大數據原理，在看似不存在相關關系的樣本數據中，對數據進行分類、歸納和總結，分析出一種決策樹式的相關關系規則。決策樹技術建立了由上至下的遞歸的形式，決策樹形式中的每一個節點代表了一個屬性，該屬性以屬性增量或者遞增率作為啟發信息，對樣本數據進行離散；決策樹中的分支則表示著屬性的輸出。

決策樹技術主要包括ID3算法和C4.5算法。ID3算法是一種較為基礎的算法，目前使用較為廣泛的算法大部分以ID3算法作為基礎。C4.5算法以ID3算法為基礎，并進行了一定改進。C4.5算法與ID3算法一樣采用增量最大的屬性作為決策樹結構的結點，但是卻改善了ID3算法偏向于取值多的屬性缺點，本文中將采用較為先進的C4.5算法進行分析建模研究。

3 水庫入庫水沙關系分析

3.1 計算方法

分析降雨產沙量首先需要找到影響降雨產沙量的因素，然后利用歷史降雨及產沙量資料建立模型，擬合水庫入庫水沙關系。

本次研究選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa、水庫入庫輸沙量5個因素作為模型的影響因子。降雨中心分布的差異直接體現了不同下墊面的宏觀差異，對降雨產沙量影響較大；降雨過程分布值a，反映了單次降雨的過程和降雨強度，是影響產沙量的另一個重要因素；最大3h降雨量，對于北方降雨基本可以反映單次降雨的總降雨量，宏觀上決定了水量和沙量的關系；前期影響雨量Pa，根據產流原理，蓄滿產流的前期影響雨量決定了單次降雨的徑流量。

各個影響因子有n個數據樣本，水庫入庫沙量為模型輸出因子，降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa為輸入因子。輸出因子存在m個樣本數值，定義m個Pi(i=1,2,…,m)。任意一個樣本數據的期望值為

假設輸入因子I有p個不同取值{a1,a2,…,ak}，可用因子I將指定數據集合S分為P個子集合{C1,C2,…,Ck}。假設I為影響因子，則由P集合衍生的分支與該子集為對應關系。假設子集Ci中Pi的樣本數為pij，那么I子集的熵為

根據上述公式，對于特定的子集Cj的期望值為

期望值和熵值可獲得信息增率，對于輸入因子I上的分支，可以由Gain(A)=I(p1,p2,…,pm)-E(A)得到，則信息增率公式為

以該分支的集合增率繼續分解樣本，直到劃分完所有因子為止，從而得到水庫入庫沙量這個輸出因子的決策樹模型。

3.2 模型構建

決策樹技術模擬單次降雨的輸沙量，需要對各項輸入因子進行離散處理，處理后的輸入因子作為決策樹的節點，并以此繼續進行向下分支，以該分支的數據對樣本進行持續劃分，直到劃分完所有因子為止(見圖1)。

圖1 決策樹分類示意圖

選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子，水庫入庫輸沙量作為模型的輸出因子，分別對各項因子進行離散處理。離散分級情況見表1。

表1 因子的離散分級情況

4 鬧德海水庫的降雨輸沙量預報模型應用

本文選擇遼寧省鬧德海水庫進行決策樹入庫沙量模擬，以最大3h降雨量為決策樹模型的主要輸入因子，降雨中心分布作為次要輸入因子建立決策樹模型(見圖2)。

圖2 鬧德海水庫降雨輸沙量預報決策樹模型

若最大3h降雨量為1～2級，降雨中心主要分布在石門子流域，則入庫輸沙量為1～3級，降雨過程分布值a越大，輸沙量越大，若降雨中心分布屬于均勻分布，則入庫輸沙量為3級；若最大3h降雨量為3級，降雨中心主要分布在石門子流域，則入庫輸沙量為2～4級，降雨過程分布值a越大，輸沙量越大，若降雨中心分布屬于均勻分布，則入庫輸沙量為4級；若最大3h降雨量為4級，則入庫輸沙量為6級。

5 鬧德海水庫的降雨輸沙量預報結果分析

以本文選擇的決策樹模型，對鬧德海水庫歷史25場洪水進行模擬預報，其中1990年的第二場洪水預報誤差偏小了4個等級，1998年、2000年、2002年、2004年洪水預報誤差偏大1～2個等級。能夠準確預報出水庫入庫輸沙量的洪水達到20場次，準確率達到80%(見表2)。

表2 分級預報入庫輸沙量結果

6 結語

本文采用決策樹數據挖掘技術，以柳河流域鬧德海水庫為例，選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子，水庫入庫輸沙量作為模型的輸出因子，進行了決策樹建模和模擬。模擬的25場歷史洪水中，準確預報出水庫入庫輸沙量的為20場，準確率達到了80%，在泥沙預報領域內，屬于較高水平。利用該模型對多泥沙河流水庫的入庫沙量進行預報，對水庫水沙調度有一定的指導意義，有利于多泥沙河流水庫實現沖淤平衡，從而更好地發揮水庫綜合效益。

水資源開發與管理2021年1期

水資源開發與管理的其它文章: 圖說脫貧攻堅農村飲水安全貴州省龍里縣高坪村管水故事; 淮安水利樞紐水利風景區現狀分析與提升; 沈陽市河長制技術保障體系研究; 新型簡易透明度檢測裝置設計與研究; 機翼形量水槽在不同渠道結構型式中的應用分析; 基于Mann-Kendall法的房山區降水量時空分布變化趨勢分析