李智, 丁津津, 陳凡, 伍駿杰, 樊磊
(1.國網安徽省電力有限公司, 合肥 230601; 2.國網安徽省電力有限公司電力科學研究院, 合肥 230601;3.安徽大學電氣工程及自動化學院, 合肥 230601)
在碳中和的目標背景下,中國能源結構需加快轉型速度。隨著碳中和的目標提出,新能源發電逐步替代一部分火力發電[1]。中國的光伏發電產業處于高速發展階段,截至2022年底,并網太陽能發電裝機容量305.98 GW。隨著光伏裝機比例不斷增高,棄光現象也不斷發生,光伏發電消納顯得尤為重要[2]。精確地光伏功率預測在電力系統調度發揮著至關重要的作用,如何提高預測功率精度,是光伏發電預測的一大難題。
目前,工程中的光伏功率預測方法分為物理方法、統計方法和基于數據驅動算法[3-5]。其中,基于數據驅動算法的光伏功率預測是主要方法。這類方法具有建模簡單、算法成熟、計算速度快等優點[6]。隨著人工智能的快速發展,數據驅動方法在光伏發電預測中得到普遍應用。文獻[7]針對各天氣分型下的波動過程和類晴空過程,建立卷積神經網絡(convolutional neural networks,CNN)和長短期記憶神經網絡(long short-term memory,LSTM)的組合預測模型,兼顧了CNN和LSTM網絡模型優點,預測效果較好。文獻[8]采用變分模態分解將歷史光伏發電功率分解成多個子模態,用LSTM分別預測光伏發電功率和誤差。然而,數據驅動的預測技術完全脫離了光伏發電的內部機理,忽略了輸入與輸出之間的自然聯系,其預測結果的可靠性受到質疑。
氣象條件是影響光伏發電量必不可少的因素。由于光伏電站的發電依賴于不確定的、間歇性的太陽輻射,因此太陽能的獲取和分配十分困難[9]。文獻[10]以溫度、輻照度等氣象數據和相似日功率數據為輸入變量,采用動量法優化反向傳播(back propagation,BP)神經網絡預測光伏功率。通常,光伏發電機理模型是時間、地點、光伏技術和當地氣象條件的函數。文獻[11]為探索太陽能與氣象條件之間的物理關系,提出解析建模方法。文獻[12]提出了一種能夠適應天氣變化的光伏組件溫度預測模型。光伏組件的工作溫度對光伏出力影響較大,環境溫度、輻照度、風速作為模型的輸入變量。
數據驅動模型一般依靠增加訓練樣本的數量來降低泛化的風險。在訓練樣本方面,獲取全面、合格的新能源發電系統數據往往成本高昂,這缺乏適用性。在有限的樣本下,要求數據驅動模型能在一定泛化誤差下保證全局最優性,這對當前數據驅動模型提出了挑戰[13]。基于機理模型和數據驅動聯合的預測方法可以有效降低對樣本數據的依賴。在數據質量和數量不理想的情況下,兼顧預測的準確性、速度和可靠性,具有較強的實用價值和廣闊的應用前景。因此,通過引入基于領域知識經驗,形成機理和數據聯合的預測模型,可以降低機器學習的泛化風險[14]。目前,在溫度預測[15]和意圖識別[16]等領域已有機制和數據融合學習的探索性研究,并取得了一定的成果。光伏發電領域內,文獻[17]在機理模型中對氣象數據進行偏移修正,數據驅動模型中引入注意力機制削弱氣象數據偏移的影響,再通過Stacking框架進行融合,實現了預測精度的提升。
基于以上條件,現提出一種Stacking模型框架下的機理模型與數據驅動模型的組合預測方法。Stacking框架可以將這兩類模型結合起來使其可以并行計算預測。通過Stacking框架融合機理驅動模型和數據驅動模型的優點,進一步提高模型的泛化性能和預測精度。
光伏發電的機理模型是根據太陽輻射和光電轉換特性來預測發電量。光伏發電的機理特性模型[18]為

(1)
式(1)中:Pc為計算的光伏功率值;c∈[0,1]為光伏板的污垢系數,光伏板表明越潔凈,c值越趨近1;T0、P0和E0分別為標準天氣條件下的基準溫度(25 ℃)、基準功率和基準輻照度(1 000 W/m2);γ為光伏系統的溫度系數;直射輻照度Ei和光伏電池溫度Ti為兩種主要天氣輸入。
光伏電池溫度可以根據周圍環境溫度的熱傳遞[19]得到,公式為

(2)
式(2)中:cTE為光伏系統吸收效率的常數因子;cW0=25 W/(m2·K)和cW1=6.84 (W/m3·s·K)分別為恒定的傳熱因子和對流換熱因子;TA為環境溫度;VW為風速。
本文中集成了LSTM、XGBoost和光伏機理模型來構建Stacking框架[20]來預測光伏功率。Stacking模型適合于數據量大且特征維度多的數據集,是優異的光伏預測模型,其中第一層對多個模型的輸出結果進行泛化,提高整體預測精度。Stacking結構如圖1所示。

圖1 Stacking集成框架Fig.1 The Stacking integration framework


圖2 一層學習器訓練過程Fig.2 Training process of first-layer
Stacking一層基模型之間要求各個模型體現出差異化,且基模型效果越好,集成后的模型預測效果越精準。綜合以上,考慮了3種不同類型的模型,分別為LSTM神經網絡、XGBoost和光伏機理模型。LSTM適用于較長的時間序列,可以較好地分析時許數據間的規律,XGBoost適用于表格數據,滿足光伏數據特征多的特點,同時具備LSTM沒有的并行學習的能力,機理模型考慮光伏發電內部機理,降低對數據樣本的過分依賴,并對數據結果進行合理約束。
由于二層學習器包含一層學習器抽取的新特征,為避免發生過擬合,二層學習器選擇簡單的線性回歸模型(linear regression, LR)。
本項研究的實現流程包括天氣歸類、數據劃分和預測,短期光伏功率預測流程圖如圖3所示。

圖3 光伏功率預測流程圖Fig.3 The flowchart of photovoltaic power prediction
(1)讀取初始數據集,選取與光伏功率強相關特征值,剔除其中的異常值點集。隨后將數據歸一化處理,構成目標數據集。
(2)基于表1中的數值天氣預報(numerical weather prediction,NWP)數值,將天氣類型歸為晴天、多云和雨天。

表1 天氣分類規則
(3)依據待測天氣類型,將對應氣象下的數據集輸入Stacking集成框架進行預測。
通過數據能夠直觀反映模型的性能。采用平均絕對百分比誤差(mean absolute percentage error,MAPE),均方根誤差(root mean squared error,RMSE)和模型擬合系數(R2)來評價。其中,MAE值,MAPE
越小和RMSE值越小,表示模型越完美,得到的預測值更趨近真實值;R2越趨近1,表示預測結果的擬合度越趨近真實值。公式定義為

(3)

(4)

(5)
式中:yi為光伏實際發電量;y′i為光伏發電預測量;n為測試樣本點。
本項實驗中利用安徽省某市光伏系統的氣象和光伏發電量數據進行驗證。實驗樣本集截取自2021整年,以天為單位,采集時間段為6:30—18:00,采集周期為15 min,其中包括輻照度、風速和溫度等特征。
挑選3種典型天氣條件下的光伏發電功率曲線對比如圖4所示。曲線整體呈現峰狀,表明光伏發電功率與當日太陽輻射量相關。晴天條件下,光伏功率曲線平滑,同時由于太陽輻射最強,發電量最多。多云天氣下,由于云層遮蔽,影響光伏場站吸收太陽輻射,光伏發電量有所下降且具有一定波動,但由于光伏場站所在地理位置太陽輻射強,仍有較好的發電量。雨天條件下,光伏發電量較低,且波動性較強。

圖4 典型天氣下的光伏功率曲線Fig.4 Photovoltaic power curve in typical weather
將分類后的樣本集輸入Stacking集成框架進行預測,同時將LSTM、XGBoost和機理模型作為對比,3種天氣下的預測結果對比如圖5~圖7所示。表2為預測指標對比。

表2 不同模型的預測評價指標

圖5 晴天條件預測效果對比Fig.5 Comparison of prediction of sunny conditions
圖5為晴天條件下的預測結果,其曲線波動平穩,各模型均有良好的預測效果,其中Stacking的預測曲線偏差值最小。其RMSE相對于LSTM、XGBoost和機理模型降低了2.0、4.3和4.8,MAPE值分別減小了1.1、2.1和2.3。
圖6為多云條件下的預測結果,光伏曲線整體仍呈現峰狀,部分時段呈現鋸齒狀,幅值相比晴天條件下有所降低。結合表,Stacking算法仍有最好的預測表現。其RMSE值相對于LSTM、XGBoost和機理模型降低了9.0、12.1和21.9,MAPE分別減小了5.6、8.2和14.4。

圖6 多云條件預測效果對比Fig.6 Comparison of prediction of cloudy conditions
圖7為雨天條件下的預測結果,其曲線波動較強,發電功率與輻射相對較少。基于Stacking的預測結果更趨近于真實值,而其余3種方法的預測結果偏差較大。其RMSE值相對于LSTM、XGBoost和機理模型降低了14.6、16.6和63.4,MAPE分別減小了9.34、18.7和70.1。證明了機理模型與數據驅動算法能有效提升雨天模型的預測精度。

圖7 雨天條件預測效果對比Fig.7 Comparison of prediction of rainy conditions
為獲取理想且可靠的光伏發電預測結果,考慮到光伏系統輸入與輸出間的自然聯系,將機理模型與數據驅動模型進行結合。通過將機理模型嵌入Stacking框架,實現規則與經驗的有機融合,可以更好地綜合兩種模型的優點。
通過安徽省某地區光伏數據作為實際案例進行計算,仿真結果證明,本文中設計模型有較好的預測效果。后續工作將采用更少的數據樣本和更簡化的機理模型,減小對數據樣本質量和數量的依賴度以及建模復雜度,保證良好的預測精度和效率,并有效提升預測結果的可靠性。