李冰簫,張世偉,鄭舒宇,趙志帆
(四川中電啟明星信息技術有限公司,四川成都 611700)
近年來,國家新型電力系統建設與電力市場化改革發展,水電作為主力的清潔能源,在新形勢下迎來了新的挑戰與發展機遇。四川是全國水電大省,2021年水電裝機容量達到9 315 萬千瓦時,按照規劃到2030 年四川水電裝機將突破1.3 億千瓦,約占全國水電裝機容量的,水電容量大,相應的水電站發電量波動也較大,容易造成“棄水”,所以準確把握未來水情氣象信息(降雨、徑流、洪水、干旱),使用水情氣象綜合監測系統,對水電站的防洪決策和發電調度起著重要作用,還可以提高水電站經濟運行水平和災害性預警能力。所以預測其來水的功率也是非常重要的一步。
文賢馗[1]等人發明了一種考慮前池水位的小水電功率預測方法及預測系統, 主要是用到了SVM 以及BP 神經網絡。還有張晶[2]的基于大數據技術的徑流式小水電功率預測。辜庭帥[3]的小水電集群短期功率預測系統。本研究以福堂電站水機大量的歷史原始數據為對象,對功率預測方法進行了研究, 提出一種結合多元線性回歸(MLR)和整合移動平均自回歸模型(ARIMA)的水電功率預測新方法。
崔上書[4]等人先是采用主成分分析得出影響該地區空氣質量的3 大指標,再通過多元線性回歸得出空氣質量指數與3 大指標的多元線性回歸方程,最終得出空氣質量指數與空氣污染物質量濃度的多元線性回歸方程。馬旭[5]針對功率曲線擬合度差和風電功率預測準確度不高,提出了結合深度置信網絡(DBN)和多元線性回歸(MLR) 的深度學習模型對風電功率進行預測。多元線性回歸的模型方程:y=b0+b1x1+b2x2+…+bkxk+e 其中,b0為常數項,b1,b2,…bk為回歸系數。樣本與自變量的選取。
從福堂電站水機的數據中,選取2022 年1 月5日至2022 年5 月5 日的功率數據作為研究樣本。先是要對數據進行清洗操作,然后分析數據,構建訓練集與測試集,根據該數據中功率的特點,假設X1為耗水流量數據,X2為導葉開度數據,X1、X2為自變量;Y是功率數據為因變量。然后使用LinearRegression()來進行多元線性預測。
使用最小二乘法對影響因素建立多元線性回歸模型,使用Python 對以上兩個因素建立最小二乘法的模型,獲得4 臺電站水機最小二乘法的線性回歸模型:
Y=-6.245-1.181X1+0.346X2
Y=-1.125-1.449X1+0.054X2
Y=-3.085-1.710X1-0.117X2
Y=-3.878-0.430X1+0.958X2
分別將X1~X2的值代入公式后可基于多元線性回歸模型迭代計算未來的水電功率。本研究使用的是擬合優度(R2)來進行檢驗。
具體步驟為:
(1)總平方和SST(total sum of squares):

(2)回歸平方和SSR(regression sum of squares):

(3)殘差平方和SSE(error sum of squares):

確定系數:

從上列公式可以看出,SST=SSR+SSE,總變異來自兩個方面的影響,一個是來自因變量x 的影響(SSR),一個是來自無法預測的殘差干擾(SST),想要回歸直線擬合的越好,就需要讓能被回歸可解釋的部分(SSR/SST) 占比越高,無法被回歸解釋的部分(SSE/SST)占比越小。經計算后發現擬合優度均在0.85 左右,一般來說,擬合優度達到0.8 以上認為數據擬合效果好。圖1 為1F 電站預測數據。

圖1 多元線性回歸預測數據
ARIMA(p,d,q)模型全稱為差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA)。
ARIMA[6]模型的方程為:yi=θ0+φ1yt-1+φ2yt-2+…+φpyt-p+εt-θ1εt-1-θ2εt-2+…-θqεt-q其中,φi(i=1,2,…,q)表示AR 的系數,θi=(1,2,…,q)表示MA 的系數。p 表示預測模型中采用的時序數據本身的滯后數,d 表示時序數據需要進行幾階差分化,才是穩定的,q 表示預測模型中采用的預測誤差的滯后數。使用ARIMA 模型預測水電功率首先獲取水電數據的時間序列數據繪圖,觀察其是否為平穩性時間序列,對于非平穩時間序列要先進行d 階差分運算,化為平穩時間序列。再求得其自相關系數ACF 和偏自相關系數PACF,通過對自相關圖和偏自相關圖的分析,得到最佳的階層p 和階數q,d 為差分運算的次數,最后由以上得到的d、q、p,得到ARIMA 模型,然后開始對得到的模型進行模型檢驗。
數據處理:
(1) 導入數據,可視化觀察數據趨勢,并劃分測試集和訓練集。
(2) 平穩性檢驗:單位根檢驗ADF。
(3) 若不平穩,使時間序列平穩化:d 階差分。
建模預測:
計算自相關系數ACF 和偏相關系數PACF,對模型定階,如圖2 所示,為1F 電站的ACF 和PACF 圖形。AR 模型是自回歸模型,其基本假設是當前的序列值取決于它之前的值,且存在一定滯后。p 值可從PACF 圖的最大滯后點來大致判斷,q 值可從ACF 圖的最大滯后點來大致判斷,也可以遍歷搜索AIC 和BIC 最小的參數組合。AIC 和BIC 都是量統計模型擬合優良性的一種標準,且引入了對模型參數過多過復雜的懲罰項,避免過擬合(BIC 的懲罰項比AIC 的大,還考慮了樣本數量過多)最后由d,p,q 得到ARIMA模型。

圖2 自相關系數ACF 和偏相關系數PACF
多元線性回歸和ARIMA 組合模型預測步驟[7-8]:
首先,將水電站的4 臺電站水機及相關水流因素四個月的數據分為兩組,前三個月數據作為訓練集,后一個月數據作為驗證集。通過多元線性回歸預測模型得到xt,通過ARIMA 預測模型得到yt。
將多元線性回歸預測模型的結果xt與ARIMA 預測模型的結果yt進行組合,組合模型的預測結果為zt,組合的公式如下:

式中:θ+φ=1,且θ,φ∈[0,1]。通過對θ 和φ 進行循環迭代,以0.01 為標準。對模型的精度的評估選擇RMSE、MAE 和MAPE,以1F 電站水機為例,通過評估后最終取最優結果θ=0.08 和φ=0.92,多元線性回歸和ARIMA 組合模型的計算公式為:

使用最后一個月的數據即驗證集再進行一次上述步驟操作,獲得多元線性回歸模型、ARIMA 模型及其組合模型的RMSE、MAE 和MAPE 的精度評估,3個模型的誤差見表1。該表的數據明顯可以看到,本研究所使用的組合模型的RMSE、MAE 和MAPE 小于多元線性回歸模型和ARIMA 模型,即表示該組合模型在預測的精度上有所提升。

表1 3 個模型的誤差比對
實證分析:
本研究所使用的多元線性回歸-ARIMA 組合模型對水電功率進行預測,然后作出最后一個月的原始數據與該模型預測出的最后一個月的數據進行作圖分析,見圖3,其中“長線”為水電功率原始數據,“點線”為多元線性回歸-ARIMA 模型預測功率的數據。由圖3 可知,本研究所使用的多元線性回歸-ARIMA 組合模型在水電功率預測結果上較好,具有一定的使用價值。

圖3 多元線性回歸-ARIMA 組合模型預測數據
本研究對水電功率進行預測驗證,結果表明,多元線性回歸模型與ARIMA 組合模型相對于單獨的多元線性回歸或者是ARIMA 模型在水電功率預測中的有效性,可以較準確地對未來的水電功率進行短期預測。水電功率一般受天氣,環境等多種因素的影響,本研究引入了多元線性回歸模型,在一定的程度上提高了模型預測的效果。對于引入ARIMA,多元線性回歸模型在此可以預防模型的過擬合和滯后性。通過上述實證分析,該模型的擬合度在實用的環境中發揮不錯。在此工作下的長遠考慮是引入更多對水電功率影響的因素,比如一些不可避免的隨機因素,引入的因素越多,對于模型預測的準確性越強。