戴領 駱光磊 周建中



摘要:
現有水庫調度模擬模型在長時段模擬時存在嚴重的誤差累積,極大影響模型模擬精度。針對上述問題,首先建立了基于隨機森林和貝葉斯優化理論的水庫調度規則提取模型,進一步引入概率性預測方法,提出了一種基于分位數回歸森林的水庫調度滾動模擬方法,以預測區間分位數為媒介將概率預測信息傳遞至下一時刻,最后以二灘水庫和觀音巖水庫為研究實例,對比分析了點預測模型滾動模擬結果以及多步模擬模型結果。研究表明:所提出的基于分位數回歸森林的水庫調度滾動模擬方法能夠有效降低模擬累積誤差,提高長時段模擬精度,相對于直接采用確定性的調度規則進行滾動模擬,該方法在同等指標要求下模擬時段延長3~5 d,在相同模擬天數情況下,各項指標均提升5%~10%。
關 鍵 詞:
水庫調度; 滾動模擬; 隨機森林; 分位數回歸森林; 貝葉斯優化
中圖法分類號: TV391
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2023.07.031
0 引 言
隨著國民經濟發展對電力需求的快速增長,水能資源開發與利用逐漸加快[1]。流域內水庫逐漸增多,梯級上下游水力聯系逐漸緊密,上游水庫出庫流量在下游水庫入庫流量中的占比增大,導致下游水庫調度運行難度增加,嚴重影響了下游水庫綜合效益發揮。為此,在目前流域大規模水庫群逐步投產運營的背景下,開展水庫調度運行模擬模型研究,在短期尺度上,下游水庫可以提前預知上游水庫出庫過程,獲得更加精確的預報入庫流量,從而提前制定更加合理的水庫蓄泄過程,提高水庫綜合效益;在中長期尺度上,可以獲知上游水庫在任意來水條件下的調蓄過程,明晰上游水庫調度運行對下游水庫入庫流量、年發電量等因素的影響。同時,對流域整體而言,有利于探索流域大規模水庫群聯合調度理論,為流域梯級水庫群聯合運行、水資源優化配置提供科學指導[2]。
目前,水庫模擬調度模型常采用調度圖方式。范繼輝[3]結合馬斯京根演進方法和水庫調度圖建立了長江上游水庫群模擬調度模型,通過設置不同的運行情景,分析了上游水庫群不同蓄水時機下三峽水庫來水發電響應過程。戴明龍[4]基于長江上游水庫群調度圖建立了上游水庫群協同“還原-模擬-演算”模型,模擬上游各梯級水庫的蓄水運行,得到不同水平年經上游水庫調節后的下游控制站徑流,進而分析了上游水庫運行對下游水文變異的影響。然而,在實際調度中,調度圖僅作為參考,調度人員會根據當前水位、來水等信息修正決策,真實調度過程往往與調度圖相差甚遠。已建水庫通過多年運行,積累了大量水文數據以及水庫歷史運行數據,這些數據中蘊藏著大量的規律性信息,反映了水庫調度人員多年人工經驗和決策智慧。而機器學習算法擅長從大量數據中挖掘隱含規律,具有極強的非線性擬合能力。因此,隨著數據挖掘理論不斷發展,基于機器學習算法的水庫調度模擬模型逐漸嶄露頭角并得到推廣。駱光磊[5]基于改進深度神經網絡,考慮水庫運行約束,構建了金沙江中游觀音巖水庫、雅礱江錦屏一級、二灘水庫群模擬調度模型,實現了庫群旬尺度年運行過程模擬。湯正陽等[6]收集了溪洛渡水電站的調度運行數據,基于RNN,LSTM,GRU3種循環神經網絡,學習電站現有調度規則,構建了溪洛渡水庫的出流量預測模型,并探究不同參數設定對模型精度和計算速度的影響,對比了3種模型的模擬性能,分析了影響水庫調度的主要因素。Chaves等[7]采用人工神經網絡模擬水庫調度系統。Zhu等[8]提出了一種基于人工智能算法和系統動力學模型的梯級水庫自適應仿真模型,所提模型可以有效地反映系統運行的動態變化,實現各種條件下系統運行和自適應調度決策的精細模擬。然而,現有研究中大多數水庫調度模擬模型均為單步模擬模型,即模型只能獲得下一個時刻模擬值,而如果要獲得長序列模擬值,即t+1,t+2,…t+n時刻模擬值,則需要進行多步模擬。目前多步模擬主要有兩種方法:① 直接利用t時刻及之前的狀態,構建n個模型,分別預測t+1,t+2,…,t+n時刻輸出值,集成n個模型實現多步模擬。該方法主要缺點是需要構建多個模型,且時段越長,輸入輸出因子間相關性會降低,模型精度無法保證;② 將t+1時刻模型預測值當做已知量代入到原模型中,預測t+2時刻輸出值,以此類推獲得t+n時刻輸出值。該方法可以實現無限制時長的預測,但是t+1時刻模型輸出誤差會代入到模型中加大t+2時刻模型預測誤差,多次滾動會使誤差累積,從而降低模型精度。
為此,本文針對第2種多步模擬方法,為降低模擬模型累積誤差,提出一種基于分位數回歸森林和貝葉斯優化理論的水庫調度滾動模擬方法,首先建立基于隨機森林和貝葉斯優化理論的調度規則提取模型作為對比模型,在此基礎上,綜合考慮上述兩種多步模擬方法,分別構建水庫調度多步模擬和基于分位數回歸森林的滾動模擬模型,最后以二灘水庫和觀音巖水庫作為研究對象進行驗證。
1 基于隨機森林和貝葉斯優化理論的水庫調度規則提取模型
1.1 隨機森林
隨機森林(Random Forests,RF)算法最早由Brieman等學者于2001年提出[9],是一種基于決策樹和自舉匯聚法(Bagging)的集成模型,適用于解決小樣本、高維度特征數據分類和回歸問題,對于存在噪聲和缺失值的觀測數據具有很好的魯棒性[10]。其主要原理是:首先通過樣本的有放回抽樣產生多組訓練集,然后根據訓練集數據隨機選擇特征生成決策樹,最后將多棵決策樹的結果進行投票選擇或取均值獲得最終結果。
1.2 貝葉斯優化
超參數優化是機器學習領域一大重難點,旨在尋找使算法在驗證集上表現性能最佳的超參數組合。超參數與一般模型參數不同,需在訓練前設置,決定模型架構,如支持向量機中的懲罰系數,神經網絡層數、節點數等[11]。隨著機器學習算法模型愈加復雜、訓練樣本逐漸增加,單次模型訓練時間成本越來越高。因此,為提高搜索效率,貝葉斯優化算法應運而生。它首先基于目標函數過去評估結果建立代理模型,進而通過采集函數尋找代理模型期望收益最大的超參數,然后將超參數與評估結果作為輸入更新代理模型,以此往復交替進行,最終獲得目標值最優的超參數。相對于隨機或網格搜索,貝葉斯優化算法使用不斷更新的代理模型,并通過推斷已有結果來“集中”更有希望的超參數,從而大大減少了調參時間[12]。
1.3 調度規則提取模型
水庫調度決策與水位、入庫流量、出庫流量、出力、負荷、預報流量等因素密切相關,考慮到水庫出力、負荷、預報流量數據難以獲取,本文選擇時段數、水庫前期水位、入庫流量、出庫流量以及當前時段入庫流量作為影響因子構成輸入因子集,考慮到時段數和水庫前一時刻狀態以及當前時段入庫流量與當前時段決策關系最為密切,因此將其作為模型輸入必選因子,對剩余因子采用互信息方法定量評估其與輸出因子間的相關性并將其作為備選因子,然后采用隨機森林算法構建調度規則提取模型,最后采用貝葉斯超參數優化算法中的樹形Parzen評估器同時優化輸入因子選擇個數與隨機森林算法超參數,尋找模型效果最優的超參數組合。模型具體步驟及流程(圖1)如下:
步驟1:從水庫調度運行數據中挑選時段數T、前期水位H、入庫流量Q、出庫流量q等特征組建模型輸入因子集,選擇當前時段末水位作為模型輸出,選擇時段數、前1時段入庫、出庫、末水位及當前時段入庫作為必選輸入因子,選擇前2~10時段入庫流量Qt-2~10、出庫流量qt-2~10、末水位Ht-2~10構成備選輸入因子集,計算備選輸入因子集中各因子與輸出變量間的互信息并排序。
步驟2:將備選輸入因子個數M與隨機森林算法超參數最大深度、最小樣本數、決策樹個數組合成超參數集。備選輸入因子個數M表示在備選因子集中選擇互信息值排序靠前的M個因子與必選輸入因子構成模型輸入。
步驟3:根據模型輸入輸出構造數據樣本并劃分訓練集和測試集,以訓練集上交叉驗證的均方根誤差均值最小為目標函數,采用樹形Parzen估計器優化模型超參數。
步驟4:選用步驟3中最優超參數重新對模型進行訓練,計算模型在測試集上的各項指標,評估模型效果。
2 基于分位數回歸森林的水庫調度滾動模擬方法
2.1 分位數回歸森林
分位數回歸森林(Quantile Regression Forests,QRF)是在隨機森林算法基礎上結合分位數回歸(Quantile Regression,QR)的改進模型[13],其不僅能夠獲得預測結果的條件均值,還能得到預測結果的條件概率分布,被廣泛應用于負荷預測、風速區間預測領域[14-16]。算法實現的主要步驟如下:
步驟1:根據隨機森林算法,生成N棵決策樹,記錄每棵決策樹每個葉子節點上所有訓練樣本;
步驟2:對于給定的新樣本X*,獲取其在隨機森林每棵樹的葉子點ln,如圖2所示,計算每棵決策樹上所有樣本的權重wi,n,公式如下:
wi,n=1/k,Xi∈R(ln)0,XiR(ln)(1)
式中:k為ln葉子節點上的訓練樣本子集R(ln)數據量,Xi為訓練樣本。
3 實例研究
本文分別以二灘水庫和觀音巖水庫為研究對象。二灘水庫位于雅礱江下游,壩址以上流域面積11.64萬km2,約占雅礱江整個流域面積的90%,壩址處多年平均流量1 670 m3/s,年徑流量52.7 km3;觀音巖水庫位于金沙江中游,位于云南省華坪縣與四川省攀枝花市的交界處,上游接魯地拉水電站,下游距攀枝花市27 km,各水庫基本信息見表1。研究分別采用2014~2019年數據為訓練數據,2020年數據作為測試數據,時間尺度為日尺度。根據第1節所提方法建立水庫調度規則提取模型(記為RF模型),圖4~5與表2分別為二灘和觀音巖水庫在測試集上各評價指標結果,由圖表可知,各水庫單步模擬精度均較高。
圖6~7分別為二灘和觀音巖水庫QRF模型在70%,80%,90%置信區間(Probability Intervals,PIs)下單步模擬結果。由圖可知,某些時段分位數預測值相同,且模擬值的區間寬度越小,分位數模擬值相同時段長度也越短。其主要原因是:這些時段水位變化幅度不大,入庫流量等其他特征區分程度不明顯,從而導致隨機森林模型將其劃分至同一葉子節點,而分位數回歸森林采用葉子節點上樣本權重作為頻率估計分位數模擬值,故其分位數相同,同時,模擬區間寬度越小,證明該時段樣本越集中,相鄰時段樣本區別越大,所在的葉子節點數不同從而其分位數預測值不同。此外,二灘水庫預測區間寬度非汛期時段較汛期小,其主要原因是水庫在高水位運行期水位基本保持不變,而汛期由于防洪調度需求,相同時段水位變化較大,需要較寬區間才能覆蓋所有樣本。相反,觀音巖水庫為周調節水庫,水庫全年無明顯的蓄水與消落時期,日間波動幅度較大,相同時段的樣本較為分散,其區間寬度較二灘水庫要大。表3為不同置信度下區間預測指標值,由表3可知,給定置信度下的PICP指標基本大于該置信度,預測結果可靠。區間覆蓋率PICP指標隨給定置信度的增大而增大,但同時區間平均寬度PINAW指標也隨之增大,95%置信度下,預測區間基本覆蓋所有實測值。總體而言,各水庫QRF模型輸出的不同置信區間很好地覆蓋了實測水位曲線,區間模擬效果較好。
進一步依托上述2個模型,設置3套模擬方案:方案一,采用二灘水庫單步模擬模型滾動模擬n個時段。方案二,分別用以后n個時段末水位為輸出,重新率定模型,直接模擬后n個時段的調度過程,并通過水庫調度計算判斷是否滿足調度基本約束(水位上下限,出庫上下限),進行水位修正。方案三,采用所提方法進行滾動模擬n個時段。上述方案中n取50,方案一和方案三分別以2020年1月1日至11月19日為起始時刻進行滾動模擬,從而獲得不同模擬時長下水位模擬值,方案二以2020年以前數據為訓練集,2020年數據為測試集,模型訓練過程與第2節相同,方案三中模擬方法預測水位分位數步長Δ=1,PINAW指標權重η=50。
圖8~9為不同方案在不同模擬時長下各水庫各指標變化圖。由圖可知:兩水庫各方案指標變化趨勢保持一致。方案一和方案三以原始單步模擬模型輸出作為下一時段單步模擬模型輸入進行滾動模擬,隨著模擬時段增加,累積誤差逐漸增大,模擬過程逐步偏離實際過程,滾動模擬效果逐漸變差;方案二各評估指標變化趨勢一致,均表現為模型效果首先急速下降,最后趨于穩定,但二灘水庫確定性系數隨模擬時長增加維持在0.85以上,而觀音巖水庫較差,隨著模擬時長增加,各項評價指標急劇下降,模型基本失效。對比3種模擬方案,在模擬時長較短時方案三模擬效果優于方案一和二,其主要原因是:水庫QRF模型在區間覆蓋率滿足要求的基礎上區間寬度較小。區間寬度越小,說明該葉子節點樣本越集中,其不同預測分位數間的差距較小,預測結果越接近真實值,同時式(8)中各輸入區別越小,則模型大部分輸出落在隨機森林相同葉子節點上,從而減少了參與分位數計算的訓練樣本數量,進一步降低了下一時刻的模擬區間寬度;在模擬時長較長時,方案二的模擬精度遠遠高于方案一和三,其主要原因是:當模擬時段較長時,時段誤差逐步累積,水位偏差逐步變大,而前期水位對RF和QRF模型輸出值影響較大,即使方案一和方案三在模擬過程中添加了后期實際入庫流量信息,也無法較大改善模擬效果。總體而言,方案二完全通過數據挖掘的方式,相對方案一和方案二,缺少了后面時段的真實入庫信息的加入,其在滾動模擬時段較短時模擬效果沒有方案一和方案二好,但隨著模擬時長增加,方案一和三時段累積誤差逐步占主導作用,此時方案二的模擬效果較好。但由于方案二模擬時采用的是純數據挖掘方式,模擬效果受數據系列影響較強,不確定性程度較大,缺少物理意義支撐,且其無法使用預報信息,使用靈活性不如方案一和三。此外,方案三模擬效果持續優于方案一,在同等指標要求下,方案三滾動模擬時段延長3~5 d,在相同模擬天數情況下,各項評價指標均提升5%~10%,表明所提方法能夠有效降低滾動模擬累積誤差,提高水庫調度長時段模擬精度。
4 結 論
本文分別以二灘水庫和觀音巖水庫為研究對象,首先建立了基于隨機森林和貝葉斯超參數優化的水庫調度規則提取模型,依據兩種不同的多步模擬策略,建立了水庫調度滾動模擬模型。在此基礎上,考慮到概率預測方法能夠獲取模型預測值更多信息,提出了一種基于分位數回歸森林的水庫調度滾動模擬方法,最后,對比分析了所提方法與兩類多步模擬模型的模擬效果。研究結果表明:基于隨機森林和貝葉斯超參數優化的水庫調度規則提取模型效果較好,精度較高;通過構建多個模型實現多步模擬方法在模擬時段較短時模擬效果較差,較長時段模擬效果較好,但該方法模擬效果受數據系列影響較強,不確定性程度較大,且使用靈活性差;本文所提基于分位數回歸森林的水庫調度滾動模擬方法能夠有效降低模擬累積誤差,提高長時段模擬精度。
本文所提方法的核心在于在水庫調度模擬中引入概率性預測方法,利用預測區間內的所有分位數作為下一時刻的輸入,從而在一定程度上減弱滾動模擬累積誤差,因此本文所提方法中的概率預測方法不局限于隨機森林算法,任意類型的概率性預測方法均可使用。此外,受研究者工程經驗、理論水平和研究時間的限制,尚存在一些研究難點需要在今后的研究工作中進一步突破,特別是需針對不同時期分別建立相應模擬模型,以進一步提高模型模擬精度,提升方法的適用性。
參考文獻:
[1] 彭才德.“十三五”水電發展及展望[J].中國電力企業管理,2019,(4):34-36.
[2] 戴領.梯級水庫群調度運行對下游水庫防洪發電影響分析[D].武漢:華中科技大學,2021.
[3] 范繼輝.梯級水庫群調度模擬及其對河流生態環境的影響:以長江上游為例[D].成都:中國科學院·水利部成都山地災害與環境研究所,2007.
[4] 戴明龍.長江上游巨型水庫群運行對流域水文情勢影響研究[D].武漢:華中科技大學,2017.
[5] 駱光磊.基于深度學習的流域水庫群調度模擬方法研究與系統實現[D].武漢:華中科技大學,2020.
[6] 湯正陽,張迪,林俊強,等.基于循環神經網絡算法的水庫調度模擬[J].水電能源科學,2021,39(5):83-86,70.
[7] CHAVES P,CHANG F J.Intelligent reservoiroperation system based on evolving artificial neural networks[J].Advances in Water Resources,2008,31(6):926-936.
[8] ZHU B,LIU J,LIN L,et al.Cascade reservoirs adaptive refined simulation model based on the mechanism-AI coupling modeling paradigm[J].Journal of Hydrology,2022,612(B):128229.
[9] BREIMAN L.Random forests[J].Machine learning,2001,1(45):5-32.
[10] LIAW A,MATTHEW W.Classification and regression by randomforest[J].Forest,2002(2/3):18-22.
[11] 浮盼盼,司琪,王鑫賽.機器學習算法的超參數優化:理論與實踐[J].電腦編程技巧與維護,2020(12):116-117.
[12] BERGSTRA J,BARDENET R,KGL B,et al.Algorithms for Hyper-Parameter Optimization[C]∥25th Annual Conference on Neural information Processing Systems.NIPS Fund.Granada:NIPS Fund,2011.
[13] ROGER K,HALLOCK K F.Quantile Regression[J].Journal of Economic Perspectives,2001,15(4):143-156.
[14] 孫國強,梁智,俞娜燕,等.基于EWT和分位數回歸森林的短期風電功率概率密度預測[J].電力自動化設備,2018,38(8):158-165.
[15] HE F F,ZHOU J Z,MO L,et al.Day-ahead short-term load probability density forecasting method with a decomposition-based quantile regression forest[J].Applied Energy,2020:262114396.
[16] HE Y Y,QIN Y,WANG S,et al.Electricity consumption probability density forecasting method based on LASSO-Quantile Regression Neural Network[J].Applied Energy,2019:233-234565-575.
[17] ABBAS K,NAHAVANDI S,CREIGHTON D,et al.Lower upper bound estimation method for construction of neural network-based prediction intervals[J].IEEE transactions on neural networks,2011,22(3),337-346.
(編輯:江 文)
Rolling simulation method of reservoir operation based on Quantile Regression Forest
DAI Ling1,LUO Guanglei2,ZHOU Jianzhong3
(1.CISPDR Corporation,Wuhan 430010,China;2.CCCC Second Harbor Consultants Co.,Ltd.,Wuhan 430061,China; 3.School of Civil and Hydraulic Engineering,Huazhong University of Science and Technology,Wuhan 430010,China)
Abstract:
It is difficult for existing reservoir operation simulation models to avoid error accumulation in multi-step simulation,which seriously affects the long-term simulation accuracy of the models.In view of the above problems,firstly,a reservoir operation rule extraction model based on random forest and Bayesian optimization theory was established.Then the probabilistic prediction method was further introduced and a rolling simulation method of reservoir operation based on Quantile Regression Forest was proposed,which used the quantile of the prediction interval as the medium to transmit the probabilistic prediction information to the next time.Finally,Ertan and Guanyinyan Reservoirs were computed by this model,and the results of the rolling simulation of the point prediction model and multi-step simulation model were compared and analyzed.The case study showed that the proposed rolling simulation method of reservoir operation based on Quantile Regression Forest could effectively reduce the cumulative error of simulation and improve the accuracy of the long-term simulation.Compared with the rolling simulation using deterministic scheduling rules directly,the proposed method could extend the simulation period by 3~5 days under the same index requirements,and all indicators could increase by 5%~10% under the same simulation days.
Key words:
reservoir operation;rolling simulation;random forest;Quantile Regression Forest;Bayesian optimization