劉運超, 楊寧, 崔承剛, 岑俊
(上海電力大學自動化工程學院, 上海 200090)
光伏發電作為一種清潔能源的發電方式,對于構建清潔低碳安全高效的能源體系、實現“碳達峰、碳中和”目標至關重要[1]。國家第十四個五年規劃表明2030年太陽能發電、風電總裝機容量達到12億千瓦以上[2]。光伏發電是利用太陽能的重要方式,但受天氣變化的影響,具有很強的波動性和間歇性,其大規模并網威脅著電網的穩定性和安全性[3]。因此,提高光伏發電功率預測的準確度對于電網的統籌調度具有重大意義[4]。
目前,中外學者已經對光伏功率預測做了大量的工作。預測方法按照實現方法主要分為兩類:直接預測和間接預測[5]。直接預測是以歷史功率和氣象統計信息對光伏未來出力進行預測[6]。間接預測是根據氣象信息數據建立特定的物理模型預測光伏的出力[7]。這些方法雖然對單個電站的預測精度能夠達到要求,但是,隨著光伏發電裝機容量的提高,一定區域內出現多個電站,各個電站的發電功率受地形、組件安裝傾角和云的移動等因素的影響,電站之間存在空間和時間上的相關性[8]。文獻[9]提出了一種基于時空信息組合的分布式光伏功率預測方法,首先利用XGBoost-LSTM模型提取時序特征對目標光伏電站進行預測,然后利用LSSVM算法和相似電站建立空間預測模型。文獻[10]提出了一種基于GCN的分布式光伏功率預測方法,并結合注意力機制賦予歷史數據不同的權重來提高預測精度。文獻[11]提出了一種用于太陽輻照度預測的方法,該方法采用圖卷積神經網絡挖掘分布式光伏電站的時空相關性。文獻[12]提出了一種短期的光伏功率預測的圖模型方法,建立了由譜圖卷積和層次輸出方式組成的模型。上述研究取得一定成果,但仍有一些問題:①未充分挖掘區域分布式電站空間和時間上的相關性;②預測時僅考慮單個電站的功率預測,未考慮對區域內電站總的輸出功率進行預測。
現結合相似日聚類、信息熵分析、動態圖卷積網絡和長短期記憶網絡(long short-term memory network, LSTM)提出一種基于時空信息的區域內光伏電站總功率預測的方法。首先,基于K-means進行相似日聚類,將數據劃分為晴天、多云、陰天3種類型。其次,通過標準化互信息(normalized mutual information,NMI)分析空間上的相關性,并利用動態圖卷積提取空間特征。然后,基于LSTM網絡提取時間上的相關性,從而進行區域內光伏功率預測。最后,利用澳大利亞愛麗絲泉的光伏電站運行數據進行算例分析。
對于區域內光伏電站總功率的預測可采用先對單電站的發電功率預測,再將所有電站的預測結果累加得到總的預測功率的預測方法。但其需要分析每一個電站的特征,并為每一個電站構建一個功率預測模型,工作量較大。另外,每一個模型都有一個預測誤差,將所有電站的功率預測相加也就意味著總的預測功率會有多個誤差源。因此,采用先將區域內所有電站功率累加,再對總功率進行預測的方法。該方法所需功率預測模型較少,且預測誤差源較少。同時,在相似日聚類時直接根據區域內電站總功率進行聚類。
在不同的天氣情況下,光伏電站的日發電曲線的差異較為明顯,因此可對不同的天氣類型進行聚類、訓練相應的網絡模型參數來提高預測模型的精度[13]。K-means算法是一種基于歐式距離的聚類算法,將樣本數據聚類為k個簇,樣本距離中心值越近,相似度越大[14]。本文研究通過K-means算法將光伏電站的日發電數據劃分為晴天、多云和陰天三種天氣類型,日發電曲線的特征量可表示為
Mi=[mmax,i,mmean,i,mkurt,i,mskew,i,mstd,i]
(1)
式(1)中:mmax,i、mmean,i、mkurt,i、mskew,i、mstd,i分別為第i天電站總功率最大值、平均值、峰度、偏度和標準差。
采用K-means算法聚類得到的3種類型的功率曲線簇如圖1所示,晴天下的功率曲線簇的幅值較高,多云下的功率曲線簇的幅值降低,功率波動變大,陰天下的功率曲線簇的波動最大。在下文中將會對不同的天氣類型下的數據集建立相應的訓練集和預測模型來提高預測的精度[13,15]。

圖1 3種天氣類型的光伏發電功率曲線簇Fig.1 Power curve cluster of photovoltaic generation in three weather types
區域內光伏電站在空間上的拓撲結構可采用一個無向的加權圖G=(V,E)來描述,其中V=(v1,v2,…,vn)是區域內電站節點的集合,每個電站對應圖G中的一個節點;E是加權邊的集合。各節點間的權值關系可用鄰接矩陣A∈Rn×n表示,其中n為維度。A中的元素aij或aji表示節點vi和vj間的相關信息。
通過區域內各電站的歷史特征信息提取時空信息可進行電站總功率的預測,然而,這種方法在提取特征信息時僅提取了各電站間的時空相關信息,與電站總功率無關,致使缺少重要的特征,即電站總功率與各電站功率的時空相關信息特征。因此,構建一個假想電站節點作為電站總功率節點,其功率為區域內所有電站功率之和,則圖網絡結構的節點數變為n+1個,鄰接矩陣的階數變為n+1階,即A∈R(n+1)×(n+1)。圖網絡結構變化如圖2所示。

n+1節點為電站總功率節點圖2 圖網絡結構變化Fig.2 Graph changes in network structure
2.1.1 鄰近電站的動態空間相關性
光伏發電功率受地形、組件安裝傾角和云的移動等因素的影響,鄰近電站的出力在空間上具有相似的變化趨勢。如圖3所示,某地12個光伏電站的日出力在數值上有一定的差距,但在變化趨勢上有很強的相似性。為了挖掘空間維度中的特征信息,采用NMI來計算鄰接矩陣中各元素的值。NMI是信息論中一種對信息的衡量方法,通過信息熵來描述變量的不確定性,隨機變量的信息熵如式(2)所示,得到信息熵后,NMI可表示為式(3),其值范圍為[0,1]。該值越大,兩個隨機變量之間的相關性越強。

圖3 區域內12個電站的日發電曲線Fig.3 Daily generation curve of 12 plants in the region
(2)
(3)
式中:X、Y為兩個時間序列變量;pr(·)為概率函數。
傳統上圖卷積網絡采用一個靜態的圖網絡結構來提取空間特征,鄰近兩個電站之間的NMI值如圖4所示。圖4中可以說明兩個鄰近的電站之間的光伏輸出功率在空間維度上具有很強的相關性。而且,兩個電站的NMI值是變化的,說明空間相關性不是靜態的,而是時變的。然而,傳統的圖卷積采用靜態圖網絡結構,忽視了時變的相關性對預測精度的影響。因此,為提高功率預測的精度,圖卷積網絡采用動態的圖網絡結構。動態相關性在數學上用時變的鄰接矩陣At來表示,在T時刻及其后4個時刻的空間相關矩陣的變化如圖5所示。

圖4 兩個鄰近電站的NMI值Fig.4 NMI value of two adjacent plants

圖5 動態相關矩陣Fig.5 Dynamic correlation matrix
2.1.2 譜圖卷積
圖卷積網絡的處理對象是圖數據,可從輸入數據中挖掘數據的空間相關性,通過GCN提取空間特征一般由多層圖卷積組成,它類似于一個感知器,有一個由光譜卷積驅動的鄰域聚合步驟[16]。在數學上,一個多層的GCN通過分層規則更新所有節點特征,其傳播規則可表示為
(4)
(5)

LSTM網絡是一種時間循環神經網絡,能有效地傳遞長時間序列中的信息且不會導致有用信息被遺忘[17]。光伏發電數據是時間序列,在時間上具有一定的聯系,而GCN難以捕捉這種聯系和區別。為了挖掘光伏出力在時間維度中的特征信息,采用LSTM網絡對時間序列進行分析。LSTM網絡的運算過程中信息的傳播規則可表示為
ft=σ(Wf[ht-1,xt]+bf)
(6)
it=σ(Wi[ht-1,xt]+bi)
(7)
Ct=ft⊙Ct-1+it⊙tanh(Wc[ht-1,xt]+bc)
(8)
ot=σ(Wo[ht-1,xt]+bo)
(9)
ht=ot⊙tanh(Ct)
(10)
式中:xt為t時刻輸入值;ht-1、ht為t-1、t時刻輸出值;ft為遺忘門輸出值;it為輸入門輸出值;Ct-1、Ct為t-1、t時刻神經元狀態;ot為輸出門輸出值;Wf、Wi、Wc、Wo為網絡層權重;bf、bi、bc、bo為網絡層偏置;⊙為哈達瑪積運算符。
對于區域內光伏電站,在空間上與鄰近電站的出力有關,在時間上與歷史時刻的功率有關。在預測區域內光伏電站總功率時,將電站抽象為圖網絡結構模型,n個電站抽象為n+1節點。第n+1個電站是一個假想電站,其輸出功率為區域內所有電站功率之和。算法的預測模型的輸入和輸出可表示為
(11)
Xt,i=[xt-H+1,i,xt-H+2,i,…,xt,i]
(12)
(13)

預測模型的輸入、輸出關系可表示為
(14)
式(14)中:f(·)為GCN-LSTM算法的模型。
區域內電站之間時空信息的提取如圖6所示。在T時刻,通過NMI(XT,1,XT,2)得到電站1和電站2在空間相關性,即圖5中T時刻鄰接矩陣中電站1和電站2對應的兩個元素。區域內所有電站間的相關性構成階數為n+1的鄰接矩陣,即可表示圖5中T時刻的鄰接矩陣。兩個電站在時間上以寬度為H的窗口滑動來挖掘時間上的特征。

圖6 區域內電站時空信息特征的提取Fig.6 Extraction of spatiotemporal features of plants


圖7 預測網絡結構Fig.7 Predictive network structure
以澳大利亞愛麗絲泉12個光伏電站在2021年5月1日-2022年4月30日的光伏出力數據為實驗數據,采樣間隔為5 min。由于設備異常運行或故障檢修,存在部分數據缺失的現象,數據異常或缺失單個數據則采用前一時刻和后一刻數據的平均值進行替代,缺失嚴重的部分則將當日數據剔除。在訓練前對處理好的數據進行歸一化。
為評估預測結果,選取平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)作為預測效果的評價指標[19],計算公式可表示為
(15)
(16)

3.3.1 不同天氣類型下的預測結果
為驗證所提預測方法的有效性,利用1.2節聚類得到的晴天、多云和陰天條件下的三份數據集分別建立相應的預測模型,預測算法采用所提方法、CNN-LSTM、GCN、支持向量回歸(support vector regression,SVR)。4種預測方法在3種天氣類型下的預測結果如圖8所示,可看出在3種天氣類型下,4種預測結果都能趨近電站功率的真實值,但在晴天下的功率預測曲線比在多云和陰天下的趨近度更高,這是因為多云和陰天下存在較大的功率波動。4種預測方法在3種天氣類型下的預測誤差評價指標如表1所示,GCN-LSTM算法在晴天、多云和陰天下的MAPE、RMSE分別為1.51%、2.22%、2.00%、3.38%、2.90%和5.04%。由于功率曲線波動變大的原因,天氣條件越惡劣,預測誤差越大。但是相較于CNN-LSTM、GCN和SVR算法,GCN-LSTM算法的預測誤差較低。總的來說,GCN-LSTM算法與電站功率的真實值擬合度更高,預測精度更高。

表1 不同預測方法在3種天氣類型下的預測指標Table 1 Prediction indexes of different prediction methods under three weather types

圖8 4種預測方法在3種天氣類型下的預測結果Fig.8 Prediction results of four prediction approaches under three weather types
3.3.2 動態圖網絡結構對預測結果的影響
由于鄰近電站的NMI值是不斷變化的,為進一步挖掘電站間的空間相關性,采用了一個動態圖網絡結構。為驗證動態圖網絡結構對于功率預測的影響,在晴天條件下,與靜態圖網絡結構進行對比,評價指標如表2所示,預測結果如圖9所示,可得動態圖網絡的預測精度更高,這主要是因為動態圖網絡結構對鄰近電站空間相關信息的挖掘更加充分,對其功率趨勢變化的擬合度更高。

表2 動、靜態圖網絡的預測指標Table 2 Prediction index of dynamic and static graph network

圖9 動、靜態圖網絡預測結果比較Fig.9 Comparison of dynamic and static network prediction results
3.3.3 假想電站對預測結果的影響
為了挖掘區域內總功率與區域內電站的時空相關信息,定義一個假想電站。為驗證假想電站對預測結果的影響,在多云條件下,預測結果如圖10所示,可得在加入假想電站的情況下功率預測精度更高。而且,未加入假想電站的預測結果與電站功率真實值的擬合度大大降低,這是因為在未加入假想電站的條件下失去了挖掘空間相關信息的能力。

圖10 有無假想電站的預測結果比較Fig.10 Comparison of prediction results with and without hypothetical power stations
提出了一種基于GCN-LSTM算法的區域內光伏電站功率預測方法,得出以下結論。
(1)基于GCN-LSTM算法光伏電站預測功率的方法能夠更加充分挖掘電站間的時空相關信息,預測效果優于文中的對比算法,具有更高的預測精度。
(2)通過假想電站增加一個圖卷積網絡的特征節點,能夠減少預測模型的數量以及誤差的來源,能夠更為準確地預測區域內的電站總功率。
(3)與靜態的時空相關信息相比,動態的時空相關信息更能挖掘區域內電站總功率與各個電站之間的時空相關性,提高預測精度。