于紅波
(遼寧省營(yíng)口水文局,遼寧 營(yíng)口 115000)
汛期高洪水期間,測(cè)流斷面受到洪水沖刷影響,斷面形態(tài)發(fā)生較大程度的變化,影響高洪水期間測(cè)流斷面的流量精度。當(dāng)前,許多隨機(jī)統(tǒng)計(jì)學(xué)方法被廣泛用于流域洪水預(yù)報(bào)研究中[1-5],但是在測(cè)流斷面形態(tài)預(yù)測(cè)中的研究還較少。近些年來,有學(xué)者將隨機(jī)森林算法用于黃河吳堡站的測(cè)流斷面形態(tài)預(yù)測(cè)中,研究結(jié)果表明吳堡站流量在3000m3/s以下時(shí)該方式是對(duì)傳統(tǒng)流量測(cè)驗(yàn)方式的一種有力補(bǔ)充[6]。北方地區(qū)河流斷面在汛期沖刷也較為嚴(yán)重,流量測(cè)驗(yàn)精度影響也較大,為此本文引入改進(jìn)的隨機(jī)森林算法,該算法相比于傳統(tǒng)算法,節(jié)點(diǎn)平衡分類得到有效增強(qiáng),算法更為優(yōu)化[7,10],以北方某典型水文測(cè)流斷面為實(shí)例,對(duì)該測(cè)流斷面的形態(tài)進(jìn)行預(yù)測(cè),基于預(yù)測(cè)的斷面形態(tài),對(duì)流量測(cè)驗(yàn)結(jié)果進(jìn)行調(diào)整,從而提高測(cè)流斷面流量的測(cè)驗(yàn)誤差。
改進(jìn)的隨機(jī)森林算法以Gini指數(shù)來劃分每棵樹的劃分屬性,其Gini指數(shù)劃分方程為:
(1)
式中,Gini指數(shù)—各因子屬性的信息熵;t—?jiǎng)澐趾蟮墓?jié)點(diǎn)數(shù);p—樣本數(shù)占節(jié)點(diǎn)數(shù)目的比例;k—類別數(shù)。
改進(jìn)的隨機(jī)森林算法采用信息增益的方法對(duì)各因子的指數(shù)進(jìn)行計(jì)算,計(jì)算方程為:
(2)
式中,Gain—指數(shù)增益計(jì)算值;Gin(parent)—給定節(jié)點(diǎn)的Gini指數(shù);n—總節(jié)點(diǎn)指數(shù);nt—分類節(jié)點(diǎn)總數(shù)。
在此基礎(chǔ)上,對(duì)比每一個(gè)節(jié)點(diǎn)的求和項(xiàng),計(jì)算方程為:

(3)
式中,Δ—節(jié)點(diǎn)指數(shù)求和項(xiàng)。
將式(1)代入到式(3)進(jìn)行計(jì)算得到:

(4)
式(4)中變量含義同上。改進(jìn)的隨機(jī)森林算法采用數(shù)量比來代表每個(gè)節(jié)點(diǎn)的樣本量,計(jì)算方程為:
(5)
式中,Ctk—左側(cè)節(jié)點(diǎn)單元分類個(gè)數(shù);Ck—右側(cè)節(jié)點(diǎn)單元分類個(gè)數(shù);λ—調(diào)節(jié)參數(shù);qr(k|t)—數(shù)量比值。
在數(shù)量比值計(jì)算的基礎(chǔ)上,對(duì)其所以節(jié)點(diǎn)進(jìn)行平衡計(jì)算,計(jì)算方程為:
(6)
式中,qrp(k|t)—t節(jié)點(diǎn)及類別k所在樣本的節(jié)點(diǎn)內(nèi)比值;qr(k=0|t)、qr(k=1|t)—節(jié)點(diǎn)的值。
本文以遼寧中部某水文站為研究工程實(shí)例,該水文站水位測(cè)驗(yàn)?zāi)攴轂?935—1945年,1947年—至今;流量測(cè)驗(yàn)?zāi)攴轂?935—1945年,1947年—至今。測(cè)驗(yàn)河段順直長(zhǎng)度約1000m,主流靠右岸,高、中、低水都一股流,高水位在40.00m時(shí),河寬360m,兩岸為大堤控制,左岸跑灘可達(dá)150m,河床為細(xì)砂。該站水位流量關(guān)系為連時(shí)序繩套曲線。漲沖落淤,斷面沖淤變化平穩(wěn),主要受流速因素影響。在受水庫(kù)單獨(dú)來水影響時(shí),水位、流量呈梯形變化。
本文以該水文站1953—2013年流量大于1500m3/s的1654次實(shí)測(cè)大斷面作為分析的數(shù)據(jù)集,使用較為集中的1435條實(shí)測(cè)大斷面數(shù)據(jù)作為模型的訓(xùn)練樣本,構(gòu)建改進(jìn)的隨機(jī)森林模型,其他實(shí)測(cè)大斷面數(shù)據(jù)作為模型測(cè)試應(yīng)用的數(shù)據(jù)集,主要用于模型的檢驗(yàn)和精度評(píng)價(jià)。訓(xùn)練和測(cè)試樣本主要采用隨機(jī)分配的方式進(jìn)行劃定。
采用逐步篩選方法對(duì)模型的預(yù)測(cè)因子進(jìn)行選取,考慮斷面形態(tài)主要受到河道水位、斷面流速以及河流寬度3個(gè)因子的影響,因此選取這3個(gè)參數(shù)作為模型的預(yù)測(cè)因子,建立斷面面積與這3個(gè)因子的回歸模型,對(duì)測(cè)流斷面形態(tài)進(jìn)行預(yù)測(cè)。本文以初始斷面平均流速作為預(yù)測(cè)初始因子,以測(cè)流橫斷面的垂向水深作為其主要的斷面形態(tài)預(yù)測(cè)對(duì)象,各編號(hào)的參數(shù)選取回歸方程結(jié)果見表1。

表1 1#測(cè)流斷面參數(shù)篩選結(jié)果

表2 2#測(cè)流斷面參數(shù)篩選結(jié)果
從表1和表2中可看出,對(duì)同一組測(cè)深垂線下,各參數(shù)組合的回歸系數(shù)和均方差變化不相同,從回歸系數(shù)和均方差分析結(jié)果可以看出,2個(gè)斷面下左、右岸起點(diǎn)距、垂線平均流速、水位、最大流速的參數(shù)組合回歸系數(shù)以及均方差均最大,敏感程度最高,因此可選擇此參數(shù)組合進(jìn)行斷面形態(tài)的預(yù)測(cè)。
在模型進(jìn)行測(cè)流斷面預(yù)測(cè)前,需要對(duì)模型的收斂度進(jìn)行分析,分析的主要成果見表3—4。

表3 1#測(cè)流斷面模型不確定性分析

表4 2#測(cè)流斷面模型不確定性分析
從表3—4可看出,2個(gè)斷面模型在95%置信區(qū)間的最終值均在0.4以上,而最大95%置信區(qū)間的不確定度在0.5135~0.6243之間,均方誤差最低值為0.5148,可見2個(gè)斷面下,改進(jìn)的隨機(jī)森林算法下模型的不確定度可以滿足95%的置信區(qū)間范圍。模型的收斂度較高。可以用來進(jìn)行區(qū)域測(cè)流斷面形態(tài)的預(yù)測(cè)。
結(jié)合改進(jìn)的隨機(jī)森林算法對(duì)2個(gè)斷面的形態(tài)進(jìn)行預(yù)測(cè),并與實(shí)測(cè)斷面進(jìn)行對(duì)比分析,對(duì)比分析結(jié)果如圖所示1。

圖1 斷面模擬成果圖
從圖1中可看出,采用改進(jìn)的隨機(jī)森林算法模擬的測(cè)流斷面形態(tài)和實(shí)測(cè)斷面形態(tài)的吻合度較高,在高水部分,1#斷面的模擬吻合度要高于2#斷面,低水期間,2個(gè)斷面形態(tài)預(yù)測(cè)的吻合度均較高,可見,改進(jìn)的隨機(jī)森林算法在斷面形態(tài)模擬具有較好的適用性。
為定量分析不同方法下斷面形態(tài)預(yù)測(cè)精度和對(duì)整編流量精度的影響,結(jié)合水文站實(shí)測(cè)17場(chǎng)洪水?dāng)?shù)據(jù),分析改進(jìn)方法和傳統(tǒng)方法下的斷面形態(tài)預(yù)測(cè)精度及整編流量影響比例,分析結(jié)果見表5—6。
從表5中可看出,改進(jìn)的隨機(jī)森林算法相比于傳統(tǒng)算法,其斷面面積模擬值相對(duì)誤差和絕對(duì)誤差都有所降低,其中相對(duì)誤差減少的比例為3.4%~13.5%。斷面形態(tài)的誤差的有效降低,也使得各整編流量誤差有所減少,從表6中可看出,改進(jìn)隨機(jī)森林算法下,各洪水整編流量的相對(duì)誤差降低幅度約為10%。這只要是因?yàn)榫C合考慮每場(chǎng)洪水測(cè)流斷面形態(tài)的誤差后,可以有效提高場(chǎng)次洪水的整編流量精度。

表5 斷面形態(tài)預(yù)測(cè)精度分析結(jié)果

表6 斷面形態(tài)預(yù)測(cè)下整編流量精度分析結(jié)果
(1)采用改進(jìn)的隨機(jī)森林算法對(duì)測(cè)流斷面形態(tài)進(jìn)行預(yù)測(cè),從而調(diào)整測(cè)流流量,該種方式是對(duì)傳統(tǒng)水文測(cè)驗(yàn)方式的一種有效補(bǔ)充,在實(shí)際測(cè)流中可以借鑒使用。
(2)高水期間,改進(jìn)的隨機(jī)森林算法斷面誤差精度較低,在以后的實(shí)際使用中還需要對(duì)模型進(jìn)行近一步的優(yōu)化改進(jìn)。