馮沛儒, 江桂芬, 徐加銀, 葉劍橋, 李生虎*
(1.國網安徽省電力有限公司經濟技術研究院, 合肥 230061; 2.合肥工業大學電氣與自動化工程學院, 合肥 230009)
近些年,隨著光伏發電滲透率不但增大,電網的穩定性、可靠性和經濟性受到較大影響[1-2]。站在電網角度,有必要對光伏發電進行精準預測,以提高電網對光伏的調度能力和消納效率[3],增強電網的靈活性和穩定性。
目前,光伏預測模型主要可分為物理預測、統計預測和組合預測[4]。物理預測是基于天氣預報,然后根據光電轉換效率得到光伏系統輸出功率,如何建立詳細的光電轉換模型是預測的關鍵。文獻[5]對光伏物理模型進行了總結,表明物理建模需要較大的運算時間。文獻[6]比較了多種光伏物理模型,通過對輻照強度分離和轉置建模,其預測精準度有較大提升。物理預測優點在于不需大量的歷史數據,但是在物理模型中通常一些氣象因素測量難度大或無法測量,在實際工程中會存在模型適用性差、精度較低等問題。
統計預測是通過統計算法建立輸入和輸出映射模型,本質上是“擬合”過程。常見預測方法有時間序列[7]、回歸分析[8]、特征工程[9]、隨機森林[10]、神經網絡[11-12]等。通常這些方法將氣象因素作為整體輸入預測模型中,但氣象因素之間的時間尺度、影響大小是不同的,在預測中將其統一作為輸入可能會影響模型精確性[13]。
組合預測方法通過對光伏出力特征的有效分解然后對每個分量進行預測,能發掘原始數據在不同時間尺度的變化趨勢[14-15]。為此,文獻[16]提出由經驗模式分解(empirical mode decomposition,EMD),然后通過相關向量機模型來預測短期光伏功率,但EMD分解后會丟失原始序列的一些細節,導致效果精度下降。文獻[17-18]通過采用變分模式分解,對分量分別采用回聲狀態網絡和卷積神經網絡預測,但由于該分解方法需先定義分解個數,不能自適應分解,可能使預測精度降低。文獻[19]將氣象因素EMD分解后降維分析得到的主成分,然后建立LSTM預測模型,但未分析各主成分和光伏之間相關性,忽略了時間尺度的影響。文獻[20]采用相似日處理氣象數據,以達到數據降維的目的,但相似日數據量不同可能會影響預測精度。
綜上,現有組合預測方法未體現分解后光伏分量和氣象因素關系,即忽略光伏分量的時間尺度和氣象因素的時間尺度的相關性?,F提出基于互補集合經驗模態分解(complementary ensemble empirical mode decomposition,CEEMD)、雙向長短期記憶循環神經網絡(bi-directional long short-term memory,BiLSTM)和隨機森林(random forest regression,RFR)的組合算法的光伏預測模型。首先,利用CEEMD將光伏分解為具有不同時間尺度的分量,以體現出光伏的時間特性;然后對光伏分量與空氣溫度、太陽輻射度、風速、風向和空氣濕度5種氣象因素進行相關性分析,劃分強、弱相關分量,即在光伏中體現氣象因素的時間尺度;對于強相關分量采用RFR預測,而弱相關分量采用BiLSTM預測,以增加氣象因素和分量之間關聯;最后,由各個分量模型預測結果進行組合得到最后預測結果。
在短期光伏預測中,氣象因素存在一定的時間尺度,例如,溫度在幾分鐘內不會劇烈變化,而風速在短時間內可能會出現較大變化。傳統方法直接分析氣象因素和光伏序列的相關性無法體現光伏發電中的氣象因素的時間尺度。而光伏發電量在分解后可得頻率不同的分量,其各個分量的時間尺度和氣象因素時間尺度存在相關性??紤]氣象因素和各光伏分量的相關性大小,則可體現出光伏分量和氣象因素的關系,對不同光伏分量篩選不同氣象因素和使用不同預測模型,可提高預測精度與效果。同時能提高對氣象數據的利用效率。
為判斷兩個變量之間密切程度,即各個分量和氣象因素之間的相關程度,定義Pearson相關系數,表達式為
(1)
式(1)中:at為t時刻的氣象因素數值;xt為t時刻光伏出力數值;n為采樣時間點個數。相關系數R的絕對值越趨近于1,表示變量之間的相關關系越強;反之,則表示相關關系越弱。
主要考慮空氣溫度、太陽輻射度、風速、風向和空氣濕度5種氣象因素。圖1為預測主要研究思路。通過對光伏序列分解,得到光伏的不同時間尺度的分量,再分析各分量與氣象因素相關性,以此體現氣象的時間尺度對光伏分量的影響,能最大利用氣象因素數據,提高預測精度。

圖1 預測主要研究思路
根據分量的相關性,即弱相關分量受氣象因素的影響程度很小,利用光伏分量存在時間特性,采用BiLSTM模型預測。強相關分量可通過氣象因素進行回歸預測,由于神經網絡存在對多變量預測時間較長問題,利用RFR模型預測,以提高預測速度。
為體現光伏序列中的時間尺度,需要對其進行分解處理。EMD可實現自適應分解,相比其他分解算法無需指定分解層數和基函數。EMD[21]分解后原始序列可表示為
(2)
式(2)中:zi(t)為第i個t時刻本征模態函數(intrinsic mode function,IMF)分量;r(t)為殘余分量;t為采樣時刻;n為IMF的數量。但EMD由于參數設置不當,易產生模態混疊等問題。
CEEMD在原始序列加入N對正、負的白噪聲,避免模態混疊現象,處理如下。
(3)
由于弱相關分量不受氣象因素影響,可通過光伏分量本身的時間特性進行預測。而長短時記憶網絡(long short term memory,LSTM)適用于有關時間序列預測問題。LSTM結構如圖2所示。

圖2 LSTM神經網絡結構
LSTM模型共有3個輸入,分別為當前時刻狀態xt、上一時刻的短期信息ht-1和上一時刻的長期信息Ct-1。LSTM門控單元狀態值計算如下。
(4)
式(4)中:σ為sigmoid函數;ft、It、ot分別為t時刻遺忘門(f)狀態、輸入門(I)狀態和輸出門(o)狀態;W、b分別為門控單元的權重系數和偏置系數。
得到門控單元狀態后,計算長、短期信息Ct、ht狀態,公式為
(5)

BiLSTM構建前、后向LSTM雙層訓練結構如圖3所示,在時間維度上考慮到未來因素,其輸出結果由前、后向LSTM決定[22],即有

圖3 BiLSTM神經網絡結構
Ht=concat(ht,f,ht,b)
(6)
式(6)中:Ht為BiLSTM輸出;concat為矩陣拼接操作;ht,f、ht,b分別為前、后向LSTM的輸出。
利用RFR對共線性數據不敏感、算法收斂快的優點,通過氣象因素對強相關分量進行預測[23]。RFR由決策樹組成。
RFR從原始樣本集中有放回地隨機抽取訓練樣本,并訓練得到單個弱學習器,在隨機森林回歸模型中該弱學習器為回歸樹,重復這一過程生成多棵回歸樹組成隨機森林,并由所有樹的預測值的平均值決定最終預測結果,RFR流程如圖4所示。

圖4 RFR預測流程
生成決策樹的節點誤差函數為
(7)
式(7)中:Fu為節點誤差函數;M為當前節點樣本個數;S1、S2分別為左、右子節點的訓練樣本;sa1和sa2分別為左、右子節點的訓練樣本均值;s為當前節點。
CEEMD-BiLSTM-RFR預測模型如圖5所示。相比傳統組合預測方法,主要考慮了氣象因素和光伏分量之間的相關性,分析不同時間尺度分量和空氣溫度、太陽輻射度、風速、風向和空氣濕度的相關性,劃分強、弱相關分量;根據分量特性不同所采用不同預測模型。具體步驟如下。

圖5 CEEMD-BiLSTM-RFR流程
步驟1CEEMD將光伏序列分解若干個獨立的分量,其體現了時間尺度。
步驟2用Pearson相關系數分析各IMF分量與氣象因素之間的關系。
步驟3篩選與氣象因素顯著相關的強相關光伏分量,采用RFR建立預測模型;而不顯著相關的分量,可通過BiLSTM進行預測。
步驟4將預測后分量相加,重構光伏序列。
將原始光伏數據和氣象因素進行標準化處理以消除單位差異,表達式為
(8)
式(8)中:Zt為標準化后的數據。
用歸一化平均百分誤差(normalized average percentage error,MAPE)、均方根誤差(root-mean-square error,RMSE)、平均絕對誤差(mean absolute error,MAE)和判定系數(Rsquared,RS)為評價依據,判斷模型預測精度,計算公式如下。
(9)
(10)
(11)
(12)

實驗數據為安徽省蚌埠市光伏電站提供的2021年7月1—31日共31 d的出力數據,時間精度為30 min,共計1 488個采樣點,并對數據進行脫敏處理。光伏電站環境檢測儀獲取的空氣溫度、太陽輻射度、風速、風向和空氣濕度5種環境序列數據。其環境監測儀器的運行情況良好,數據來源可靠。以2021年7月1—22日數據為訓練集,2021年7月23—31日數據為驗證集。
短期預測的時間尺度在0~72 h,主要用來制定調度計劃、預測電力市場等,對過于久遠歷史數據依賴性不高。文獻[25-26]所述的訓練數據集大小和本文數據集大小相似。
設置CEEMD的噪聲標準偏差為0.2,白噪聲次數為50,最大迭代次數為200。分解結果如圖6所示。

圖6 CEEMD分解結果
由圖6可知,光伏數據分解11個IMF分量和1個余項RES,IMF1~IMF4波動頻率較高,具有很強的隨機性;IMF5和IMF6呈周期波動,幅值變化較為均勻,可能與氣象因素的時間尺度相吻合;IMF7~IMF11比較平滑,波動較小;余項呈下降趨勢,屬于長期分量。
分別計算空氣溫度(W1)、太陽輻射度(W2)、風速(W3)、風向(W4)和空氣濕度(W5)和各個光伏分量的Pearson相關系數,如表1所示。

表1 光伏分量與氣象因素Pearson相關系數
可以看出,光伏分量IMF5和IMF6和太陽輻射度、空氣溫度、空氣濕度呈較強的正相關性,可認為IMF5和IMF6時間尺度和三種氣象因素時間尺度高度相似;IMF9受風向、空氣濕度影響較大;IMF10的時間尺度和風速的時間尺度存在相關性。
用隨機搜索調整回歸樹數目、內部節點再劃分所需最小樣本數和葉子節點最少樣本數3個參數,以避免RFR過擬合。BiLSTM主要由輸入層、輸出層和隱藏層決定。模型調整后參數設置如表2所示。

表2 模型參數設置
為驗證所提算法有效性,分別建立LSTM、BiLSTM、EMD-LSTM[27]、EMD-BiLSTM、CEEMD-BiLSTM、CEEMD-RFR和本文算法共7種模型,以晴天(7月23日)和多云(7月30日)預測結果為例,計算評價指標,結果如圖7、表3、圖8、表4所示。

表4 多云(7月30日)不同算法預測結果指標對比

圖7 晴天(7月23日)預測結果對比

圖8 多云(7月30日)預測結果對比
圖7為晴天(7月23日)7種模型預測結果比,7種模型都有較好的預測結果。由表3可知,EMD-LSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標降低了24.62%、0.218和0.09,RS指標提高了0.026。同時,通過對比CEEMD-BiLSTM和CEEMD-RFR指標可知,分解后采用BiLSTM比RFR預測精度要高,故所提算法中使用BiLSTM是合理且有效的。本文算法相比其他算法MAPE、RMSE和MAE指標最低,RS指標最接近于1,其預測精度較高。
圖8為多云(7月30日)預測結果對比,由于為多云天,光伏出力波動較大,7種模型都存在預測誤差,但本文算法擬合效果最好。由表4可知,采用單一整體預測模型(LSTM和BiLSTM)由于未充分考慮光伏隨機波動性帶來的影響,導致其預測精度較差。經過EMD或者CEEMD引入,分解出了光伏不同時間尺度下的分量,其預測結果都有提高。其中, CEEMD-BiLSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標降低了5.103%、0.318和0.202,RS指標提高了0.18。本文算法由于考慮到氣象因素和分量之間的關系,相比CEEMD-BiLSTM的MAPE、RMSE和MAE指標降低了4.524%、0.276和0.177,RS指標提高了0.075。相比CEEMD-RFR的MAPE、RMSE和MAE指標降低了6.979%、0.282和0.124。對7種模型誤差指標分析,本文算法相比其余算法,由于考慮光伏分量和氣象因素的關系,對分量預測精度進一步提高,故預測效果較好。
提出了一種基于CEEMD-BiLSTM-RFR的光伏預測方法,考慮到光伏分量和氣象因素的關系,體現了氣象因素的時間尺度,提高了氣象數據利用效率和預測精度。結論如下。
(1)采用CEEMD方法自適應分解光伏序列,使光伏的時間尺度分解地更加清晰、明確。
(2)對所提模型與CEEMD-BiLSTM模型的對比分析,采用相關性劃分強、弱分量可提高模型的精度。特別地,在多云天氣,所提模型預測精度可提高18.26%。
(3)所提算法CEEMD-BiLSTM-RFR在預測精度方面要比一般的單一模型或沒有深度處理的組合模型更高。