我國水力發電站數量眾多,基本上屬于無調節能力的徑流式水電站,這種水電站具有明顯的特殊性[1],而河川徑流是由降雨形成,降雨又受到地理、氣候等不確定因素的影響,因此對水力發電站的水流量以及發電量進行預測很有必要。水電站的主要運行經濟指標是電量,其中水流量的多少將直接影響水電站的蓄水、棄水以及發電量。因此準確預測出發電站的出水量的多少,將會對發電站的經濟指標產生很大影響,準確的水位預測是水電站安全運行和增發效益的關鍵。但受諸多因素的影響,水量預測常與實際情況發生較大偏差,導致發電計劃頻繁修改,不利于水電站安全、高效、穩定地運行。
大量學者針對水電站的水流量預測和發展預測提出了諸多方法。最早采取的是比較直觀也最為簡單的回歸分析[2],后來隨著信息技術的發展,為了追求更精準的預測,有學者相繼提出了時間序列法、頻譜分析法以及隨機微分方程[3]。近年來灰色系統理論、神經網絡理論等在水流量預測中都得到了應用[4]。本文對華能旗下三個分別位于上、中、下游的水牛家、自一里、木座發電站收集了相關歷史時間序列數據,在對數據進行一定預處理之后,采取了三個預測模型分別對其水流量和發電量進行預測,并對其預測結果進行比較,從而確定最優預測模型。
本文選取了水電站數據中的水牛家(裝機容量70MW)、自一里(裝機容量130MW)、木座(裝機容量100MW)三個水電站進行屬性分析,通過建立時間序列預測模型,預測這三個水電站的發電量和來水量。通過對水電站的歷史數據進行分析之后發現,三個水電站的發電量和水流量數據缺失率低,僅自一里水電站的發電量參數有一個缺失值。其中E_AMOUNT為每天的發電量,W_AMOUNT為每天的水流量,選擇完整數據集2008~2018年,并且對2018年進行預測,2008~2017年數據為訓練集。對收集到的數據進行描述性統計(表1)。

表1 水電站數據描述性統計
時間序列指的是按照時間順序的一組數列,時間序列分析(Time-Series Analysis)是指將原來的數據分解為四部分來看——趨勢、周期、時期和不穩定因素,然后綜合這些因素提出預測[5]。對收集到的水電站的時間序列數據進行處理以便后續的模型分析(圖1、2)。

圖1 E_AMOUNT 原始時間序列圖

圖2 W_AMOUNT 原始時間序列圖
從原始的時間序列來看,三個水電站數據的時間跨度有重合的。通過對數據樣本進行統計,發現完整年數據總共10年(2008~2018年),訓練數據選擇2008~2017年9年的數據,同過機器學習算法進行預測建模,選擇最后一年2018年數據進行預測模型測試。另外,從序列圖中可以發現W_AMOUNT參數存在較多的異常值。在對數據的時間序列進行分析預測的時候,數據相對越平穩越好,剔除掉異常值就是減少特殊狀況對數據的影響,從而使得最終預測結果越準確。異常值采取先刪除,后插補的方式進行處理。
本主要數據預處理和預測建模流程如圖3,后續模型的預測選擇了三個水電站從2008~2018年的完整數據集,并且取2008~2017年為訓練集、2018為預測集進行模型的檢驗,其中作為訓練集的三個水電站各3653條數據,合計共10959條數據。
堅持模型(persistent model)基本思路是把時間序列前一時刻的值作為當前時刻的預測值,堅持型模型作為最簡單的預測模型可以作為基準線,與其他預測算法比較準確率,從而證明其他算法存在的必要性。運用堅持模型對水量和發電量的預測如圖4、5所示,文中僅以自一里水電站為例。

圖3 數據預測流程圖

圖4 自一里電量持續模型時間序列預測圖

圖5 自一里水流量持續模型時間序列預測圖
長短時記憶網絡模型。LSTM(Long Short Term Memory Network)長短期記憶網絡是一種特殊的循環神經網絡(RNN),解決長時間序列訓練過程中的梯度消失和梯度爆炸問題,在時間序列預測問題上面有廣泛的應用[6]。所有的RNN 都具有一種重復神經網絡模塊的鏈式形式。在標準RNN 中這個重復的結構模塊只有一個非常簡單的結構,例如一個tanh 層。LSTM 同樣是這樣的結構,但是重復的模塊擁有一個不同的結構。不同于單一神經網絡層,LSTM 有四個,以一種非常特殊的方式進行交互。從表2結果來看E_AMOUNT的預測誤差較大,W_AMOUNT 預測誤差較小。
極限學習機(Extreme Learning Machine,ELM)或超限學習機是一類基于前饋神經網絡(Feedforward Neuron Network,FNN)構建的機器學習系統或方法,適用于監督學習和非監督學習問題[7]。極限學習機是一種單隱層前饋神經網絡,隨機確定輸入權重和偏差,然后分析計算輸出權重。ELM的關鍵思想是將難以求解的非線性優化問題,如輸入權重、隱層偏差、輸出權重的最優化問題轉化為求解最優輸出權重以簡化運算。而這意味著只要權重的

表2 LSTM模型誤差統計表

表3 ELM模型誤差分析表

圖6 X270電量ELM時間序列預測圖

圖7 X270水量ELM時間序列預測圖
標準足夠小,用戶就不必考慮所有的輸入和隱藏層權重,只需要關注輸出權重即可。這個想法和傳統的迭代學習方法(如梯度下降學習算法)是完全不同的。
我國水電站的數量眾多,因此對水電站的流水量和發電量進行預測,保證電力系統的穩定運行至關重要。本文通過對水電站收集相關歷史時間序列數據,對數據進行一定預處理之后采用三種不同數據分析模型對其發電量和水流量進行預測,三種算法各有其優勢所在。運用數據分析模型可以提高對水電站的預測,對水電能源的充分利用和對水電站的經濟運行以及設備檢修維護具有重要意義,該研究方法還可以用于電力系統短期負荷預報具有廣闊的應用前景及實用價值。