周 文,孟 良,楊正富,劉志恒,劉志賓
(1.國網(wǎng)河北省電力有限公司電力科學(xué)研究院,河北石家莊 050000;2.國網(wǎng)雄安思級(jí)數(shù)字科技有限公司,河北雄安 071700;3.河北大學(xué)電子信息工程學(xué)院,河北保定 071002;4.保定市風(fēng)力發(fā)電數(shù)字化智能運(yùn)維重點(diǎn)實(shí)驗(yàn)室,河北保定 071002;5.北華航天工業(yè)學(xué)院,河北廊坊 065000)
光伏能源系統(tǒng)具有很高的能源生產(chǎn)率潛力,是應(yīng)用最廣泛且可取的可再生能源技術(shù)之一。準(zhǔn)確的光伏發(fā)電出力預(yù)測對于保障高比例光伏接入后系統(tǒng)的安全穩(wěn)定與經(jīng)濟(jì)運(yùn)行具有重要意義[1]。
電池狀況、太陽電池類型、模塊電路、入射角、天氣狀況和其他參數(shù)的因素都會(huì)影響所產(chǎn)生的電能。文獻(xiàn)[2]根據(jù)天氣分類(晴天、陰天和雨天),提前選擇每天合適的架構(gòu)和訓(xùn)練參數(shù)。通過建立一種精確的神經(jīng)網(wǎng)絡(luò),估算大型并網(wǎng)光伏電站的光伏電池功率。文獻(xiàn)[3]中采用小波變換對不良光伏發(fā)電的數(shù)據(jù)過濾,結(jié)合神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)提前一小時(shí)功率預(yù)測,解決了輸入時(shí)間序列中出現(xiàn)尖峰和混沌變化不準(zhǔn)確問題。文獻(xiàn)[4]提出一種基于線空間重構(gòu)和譜特征提取的分布式光伏系統(tǒng)變負(fù)荷工況發(fā)電功率預(yù)測方法。為預(yù)測不同太陽輻射強(qiáng)度下光伏發(fā)電系統(tǒng)的發(fā)電量,文獻(xiàn)[5]構(gòu)建了以光輻射強(qiáng)度和溫度為變量的發(fā)電輸出功率模型。文獻(xiàn)[6]提出了基于實(shí)際BP 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的分層優(yōu)化方法,以減小光伏出力的預(yù)測誤差。文獻(xiàn)[7]中,混合神經(jīng)模糊用于預(yù)測風(fēng)力發(fā)電機(jī)的電力輸出,為了提高預(yù)測準(zhǔn)確性,以不同季節(jié)將數(shù)據(jù)分為四個(gè)子集。文獻(xiàn)[8]提出一種基于粒子群優(yōu)化與邊界估值理論的預(yù)測模型,用于光伏出力區(qū)間預(yù)測。通過利用粒子群算法對邊界估值理論的輸出權(quán)值進(jìn)行優(yōu)化。文獻(xiàn)[9]建立任意溫度和光強(qiáng)下光伏發(fā)電預(yù)測模型,驗(yàn)證了多晶硅的預(yù)測難度大于單晶與非晶硅電池。可見,前人研究的主要工作集中在光伏出力預(yù)測方面,沒有系統(tǒng)地比較不同方法的性能,以及不同預(yù)測時(shí)間范圍對結(jié)果的影響。
本文基于變化的預(yù)測時(shí)間范圍,對比不同時(shí)間序列的預(yù)測模型,分析統(tǒng)計(jì)(持久)方法和基于人工智能的方法對PV 輸出功率的效率。統(tǒng)計(jì)模型屬于持久性模型類別,包括自回歸移動(dòng)平均值(autoregressive moving average,ARMA)、自回歸綜合移動(dòng)平均值(autoregressive integrated moving average,ARIMA)和季節(jié)性自回歸綜合移動(dòng)平均值(seasonal autoregressive integrated moving average,SARIMA)。
分析了六種不同類型的NN 模型:雙向長期短期記憶(bidirectional long short term memory,BI-LSTM),長期短期記憶(long short term memory,LSTM),模糊c 均值聚類,層遞歸(layer recurrent,LRNN),多層感知器(multi-layer perceptron,MLP)和前饋NN。此外,本文的主要新穎之處可以歸納為:提出了一種新的深度學(xué)習(xí)BI-LSTM 算法,作為大型光伏電站的準(zhǔn)確功率預(yù)測模型;評估并比較不同NN 和統(tǒng)計(jì)方法的性能,以進(jìn)行大型光伏系統(tǒng)的時(shí)間序列預(yù)測;研究了預(yù)測模型可靠運(yùn)行的時(shí)間范圍。
基于中國南部的并網(wǎng)光伏電站數(shù)據(jù)進(jìn)行分析[3],該系統(tǒng)的最大容量為20 MW,記錄2019 年1 月13 日到2019 年10 月29 日的日期范圍內(nèi)的太陽能輸出功率。光伏設(shè)備的功率輸出在晚上8 點(diǎn)至次日早上6 點(diǎn)之間始終為0,下午7 點(diǎn)至晚上8 點(diǎn)之間的輸出功率很低,接近為0。因此,只考慮上午6 點(diǎn)到晚上7 點(diǎn)之間的功率。每15 min 記錄一次功率數(shù)據(jù),并將其轉(zhuǎn)換為每小時(shí)平均值,實(shí)現(xiàn)信號(hào)平滑,易于算法學(xué)習(xí)。以小時(shí)平均為基礎(chǔ)的時(shí)間序列對光伏發(fā)電的預(yù)測比對未來15 min 光伏發(fā)電的預(yù)測更為準(zhǔn)確。進(jìn)而將數(shù)據(jù)標(biāo)準(zhǔn)化,并使用窗口大小為14 h(最大連續(xù)日光時(shí)間范圍)的Hampel 濾波器除去異常值和缺失值。
1.2.1 建立人工神經(jīng)網(wǎng)絡(luò)模型
基于trainbr 和trainlm 兩個(gè)功能訓(xùn)練NN,trainbr(貝葉斯正則化)使平方誤差和權(quán)重的組合最小化,trainlm 使用Levenberg-Marquardt 優(yōu)化來調(diào)整偏差和權(quán)重。NN 的每個(gè)隱藏層中的層數(shù)和神經(jīng)元數(shù)均未遵循固定的理論指導(dǎo)原則,根據(jù)均方誤差(mean squared error,MSE)經(jīng)驗(yàn)選擇層和神經(jīng)元的數(shù)量作為性能指標(biāo)。用LRNN 代表Layer recurrent,表1 列出了用于互相驗(yàn)證模式的網(wǎng)絡(luò)配置。LSTM 和BI-LSTM 由Adam 求解器訓(xùn)練,最大期數(shù)設(shè)置為100。為驗(yàn)證有效性,使用相關(guān)系數(shù)R和均方根誤差RMSE指導(dǎo)預(yù)測性能。

表1 NN 的層數(shù)和神經(jīng)元數(shù)
1.2.2 搭建統(tǒng)計(jì)模型
建立ARMA,ARIMA 和SARIMA 三種統(tǒng)計(jì)模型。基于Akaike’s 的信息準(zhǔn)則(Akaike’s information criterion,AIC)優(yōu)化模型中的參數(shù)。AIC 可實(shí)現(xiàn)對模型相似性的評估。貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)是模型選擇的類似準(zhǔn)則。預(yù)測模型的AIC 和BIC 表示為:

式中:p為自回歸階數(shù);q為移動(dòng)平均階數(shù);rss為殘差方差(和平方);T為觀測值。通過設(shè)置參數(shù)的不同組合,得到最小的AIC 或BIC 值。自相關(guān)函數(shù)(auto correlation function,ACF)和部分自相關(guān)函數(shù)(partial autocorrelation function,PACF)的圖也有助于參數(shù)選取。
交叉驗(yàn)證是一種將數(shù)據(jù)分為多個(gè)訓(xùn)練和測試子集,重新采樣的過程。通過查看所有測試子集的預(yù)測準(zhǔn)確性度量來獲得預(yù)測器的總體性能,基于窗口滑動(dòng)交叉驗(yàn)證方法對預(yù)測性能進(jìn)行評估。在小數(shù)據(jù)樣本的情況下,時(shí)間序列交叉驗(yàn)證是預(yù)測模型中的關(guān)鍵驗(yàn)證步驟。交叉驗(yàn)證過程中,訓(xùn)練、驗(yàn)證和測試集的大小是固定的:其中用于訓(xùn)練的樣本容量為2 730 個(gè)(75%),用于驗(yàn)證的樣本容量為364 個(gè)(10%)和用于測試的樣本容量為546 個(gè)(15%)。測試了2 184 個(gè)不同樣本,分四次試驗(yàn)進(jìn)行(546×4),記錄每次交叉驗(yàn)證嘗試的性能指標(biāo),用于估算總體預(yù)測準(zhǔn)確性。
為了預(yù)測光伏電站的發(fā)電量,采用8 時(shí)間延遲作為NNs輸入層中的變量,分別為t-i,i={1,2,4,6,8,10,12,14},如圖1 所示。將該模型的預(yù)測結(jié)果與由4 時(shí)延的模型預(yù)測的結(jié)果進(jìn)行對比,應(yīng)用于提前1 h 的功率預(yù)測。用于訓(xùn)練和測試的8 延遲模型的輸入矩陣和相應(yīng)的輸出矩陣如式(3)所示。

圖1 前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于預(yù)測PV 功率輸出

用LM 和BR 分別代表TRAINLM 和TRAINBR,表2 和表3 中的仿真結(jié)果表明(提前1 h),第一個(gè)模型更可靠地跟蹤非線性和PV 功率。根據(jù)測試集的相關(guān)系數(shù)R降序在表中對算法進(jìn)行排序。對比了統(tǒng)計(jì)算法的平均計(jì)算時(shí)間,平均計(jì)算時(shí)間是一次驗(yàn)證所需的訓(xùn)練、測試和結(jié)果生成所需的時(shí)間。

表2 不同NN 的預(yù)測數(shù)據(jù)(模型1,8 個(gè)時(shí)延)

表3 不同NN 的預(yù)測數(shù)據(jù)(模型2,4 個(gè)時(shí)延)
相關(guān)系數(shù)R和RMSE定義如下:

式中:N為樣本數(shù);P為預(yù)測值;O為觀測值;m為平均值;s為標(biāo)準(zhǔn)偏差。通過將每次驗(yàn)證的結(jié)果分為兩列來計(jì)算總體RMSE和總體R:一列用于觀察,一列用于預(yù)測,或使用式(6)計(jì)算總體RMSE。下標(biāo)1,2…,5 代表驗(yàn)證次數(shù),MSE為均方誤差。

由表2 可知,BI-LSTM 表現(xiàn)出最高的相關(guān)系數(shù)R和最低的均方根誤差RMSE,可見模型1 中的BI-LSTM 為最準(zhǔn)確的預(yù)測算法,用于系統(tǒng)的光伏功率預(yù)測。雙向LSTM 的學(xué)習(xí)速度比單向LSTM 快,另一方面,由具備兩個(gè)訓(xùn)練功能對多層感知器(MLP)進(jìn)行訓(xùn)練的平均計(jì)算時(shí)間為1~2 s,體現(xiàn)出速度優(yōu)勢。模型1 中的不同NN,相關(guān)系數(shù)R范圍為93.4%~98%,RMSE范圍為0.791~1.25。
圖2 為基于BI-LSTM 算法對8 時(shí)延(模型1)的不同天數(shù)(晴天、陰天和雨天)的光伏功率預(yù)測,可見觀測結(jié)果與預(yù)測結(jié)果吻合良好。試驗(yàn)4 的驗(yàn)證結(jié)果如圖3 所示,可以看出,誤差主要集中在0~1 之間。

圖2 BI-LSTM預(yù)測結(jié)果與實(shí)際發(fā)電量對比圖

圖3 第4次PV 功率預(yù)測的BI-LSTM結(jié)果
光伏功率輸出的預(yù)測值小于觀測值,誤差通常為正。546 個(gè)樣本中的220 個(gè)樣本中,誤差幾乎為0。可以得出結(jié)論,BI-LSTM 顯示出強(qiáng)大的潛力,可以在提前1 h 的短期內(nèi)有效地預(yù)測PV 輸出。
為了評估中期預(yù)測的不同NN 的性能,提前2~3 h 進(jìn)行PV 預(yù)測,并將結(jié)果匯總在表4 和表5 中(8 個(gè)時(shí)延)。

表4 不同NN 的預(yù)測數(shù)據(jù)(提前2 h)

表5 不同NN 的預(yù)測數(shù)據(jù)(提前3 h)
可見BI-LSTM 的結(jié)果最準(zhǔn)確,前饋NN 與Trainbr 的最低相關(guān)系數(shù)R從93.2%變?yōu)?8.5%(請參見表2 和表4)。對于超過2 h 的時(shí)間范圍,相關(guān)系數(shù)R低于90%。因此,在不進(jìn)行額外的太陽輻照度測量或天氣狀況的情況下,不建議將神經(jīng)網(wǎng)絡(luò)用于光伏系統(tǒng)功率輸出的時(shí)間序列預(yù)測。與提前1 h 的預(yù)測相比,提前2~3 h 預(yù)測的平均計(jì)算時(shí)間長將近1 s。
樣本自相關(guān)和局部自相關(guān)函數(shù)產(chǎn)生的功率和一次差分輸出如圖4 和圖5 所示。

圖4 (a)ACF和(b)PACF的功率輸出

圖5 (a)ACF和(b)PACF的第一個(gè)差分功率輸出
由樣本自相關(guān)圖可見,數(shù)據(jù)具有季節(jié)性模式,SARIMA 模型的季節(jié)性指數(shù)的值設(shè)置為14,按每天14 h 記錄數(shù)據(jù),1 次/h。通過優(yōu)化模型參數(shù),采用具有最低AIC 值的模型實(shí)現(xiàn)預(yù)測。如圖5所示,ACF在第二次延遲之后衰減,而PACF在第三次延遲之后衰減。因此,理論上我們應(yīng)該使用SARIMA 模型的AR(2)。如圖5(b)所示,SARIMA 模型的移動(dòng)平均線的階數(shù)為1。AIC值用于選擇最合適的模型,ARIMA 和SARIMA 模型的集成度通常等于1。
基于Phillips-Perron檢驗(yàn)來獲得功率輸出一階導(dǎo)數(shù)的h值,發(fā)現(xiàn)h的值為1 時(shí)能實(shí)現(xiàn)第一次差分使數(shù)據(jù)穩(wěn)定[12]。因此,本研究中SARIMA 和ARIMA 模型的集成度設(shè)置為1。還對SARIMA 和ARIMA 進(jìn)行了一次集成度大于1 的預(yù)測,這些模型需要大量的計(jì)算時(shí)間(表6)。SARIMA 模型的殘差分布數(shù)組圖如圖6所示,殘差具有線性趨勢(p為AR順序,q為MA順序)。

圖6 SARIMA模型的殘差分布數(shù)組圖

表6 基于ARMA,ARIMA 和SARIMA 的 光伏發(fā)電預(yù)測結(jié)果(提前1 h)
這些模型的測試結(jié)果見表6 和表7,基于測試集根據(jù)相關(guān)系數(shù)R降序?qū)ζ潋?yàn)證。SARIMA 模型在提前1 和2 h 的預(yù)測中獲得了最高的相關(guān)系數(shù)R和最低的均方根誤差RMSE。

表7 基于ARMA,ARIMA 和SARIMA 模型 光伏發(fā)電預(yù)測結(jié)果(提前2~3 h)
可見,識(shí)別時(shí)間序列模式并考慮季節(jié)性會(huì)提高預(yù)測結(jié)果的準(zhǔn)確率。注意,PV 功率輸出的預(yù)測值使用SARIMA 通常要高于真實(shí)值,而BI-LSTM 模型的預(yù)測值通常低于真實(shí)值。結(jié)論是,分析的統(tǒng)計(jì)模型需要更長的計(jì)算時(shí)間,與NN 相比準(zhǔn)確性較低。相比于SARIM 模型,人工神經(jīng)網(wǎng)絡(luò)能更好地學(xué)習(xí)更復(fù)雜的時(shí)間序列數(shù)據(jù)。因此,NN 優(yōu)于分析的光伏發(fā)電時(shí)間序列預(yù)測統(tǒng)計(jì)模型。表6 中給出了提前1 h 預(yù)測的平均計(jì)算時(shí)間。而相比提前1 h 的預(yù)測,提前2 和3 h 的預(yù)測需要大約多1~2 s 才能完成。
為了避免擬合不佳或過度擬合,必須去除異常值,尤其是在異常軌跡或訓(xùn)練數(shù)據(jù)非常混亂的情況下。對于離群值檢測,使用Hampel 濾波器去除極值。表8 為針對不同的預(yù)測范圍,去除異常值對BI-LSTM 算法測試結(jié)果的相關(guān)系數(shù)R和RMSE的影響,表明提高了R值和降低了RMSE值。可見去除異常值可以改善預(yù)測結(jié)果。下標(biāo)1 和2 分別指的是除去異常值之前和之后。圖7 和圖8 為基于SARIMA 模型預(yù)測的PV功率及其誤差直方圖和回歸圖(提前了1h)。

表8 刪除異常值對BI-LSTM 準(zhǔn)確性的影響

圖7 基于SARIMA 模型的PV功率預(yù)測結(jié)果

圖8 基于SARIMA 模型的PV 功率預(yù)測誤差直方圖和回歸圖
太陽能發(fā)電量預(yù)測可有效整合大型光伏電站與公共電網(wǎng)。本文基于變化的時(shí)間預(yù)測范圍,分析大型光伏電站發(fā)電量,評估了不同神經(jīng)網(wǎng)絡(luò)和簡單統(tǒng)計(jì)模型(如ARMA,ARIMA和SARIMA)的性能。對比研究表明,基于時(shí)間序列對光伏發(fā)電量進(jìn)行預(yù)測時(shí),神經(jīng)網(wǎng)絡(luò)比實(shí)施的統(tǒng)計(jì)模型更準(zhǔn)確,并且所需的計(jì)算時(shí)間更少。NN 和統(tǒng)計(jì)模型可用于提前1 h 有效預(yù)測光伏電站的發(fā)電量,而無需訪問太陽輻照度測量值或任何天氣參數(shù)。驗(yàn)證了基于時(shí)間序列的大型光伏電站短期預(yù)測方法的可靠性。