黃冬梅, 莊興科,胡安鐸,孫錦中,時帥,孫園,唐振
(1.上海電力大學電子與信息工程學院, 上海市 201306;2.上海電力大學電氣工程學院,上海市 200090;3.上海電力大學數理學院, 上海市 201306)
電力負荷預測是電力系統安全、穩定、經濟運行的保障,也是編排調度計劃、交易計劃的重要基礎[1]。目前智能電網的建設在我國逐步展開,電力系統中分布式電源的配置也隨之增長,使得負荷變得更加復雜[2]。另一方面,電動汽車的大量使用,也增大了負荷消耗的隨機性,這些都給短期電力負荷預測帶來了巨大挑戰。
短期負荷預測大致可以分為傳統方法、人工智能方法和相似日方法[3]。傳統方法可分為線性回歸、自回歸移動平均值、灰色模型[4-5]等。這些方法模型簡單、計算速度快,但是由于電力負荷具有非線性的特點,這些傳統方法并不能很好地解決非線性問題。
近些年,人工智能方法快速發展,突破了傳統方法不能很好地解決非線性問題的不足。人工智能方法主要可分為人工神經網絡[6]、支持向量機[7-9]、深度學習[10]等。隨著人工智能技術的快速發展,基于深度學習方法的負荷預測技術日益受到重視。深度學習中循環神經網絡(recurrent neural network,RNN)[11-12]通過將上一時刻神經元狀態輸入到當前時刻神經元中,實現了對時序序列的處理。但是它存在梯度爆炸或者梯度消失問題,不能有效地處理長時間序列。長短期記憶(long short-term memory,LSTM)神經網絡在RNN的基礎上做了改進,有效解決了RNN存在的問題,實現了對長時間序列的預測。文獻[13-15]均采用LSTM神經網絡實現對負荷的預測,充分發揮了LSTM神經網絡能夠處理長時間非線性時序序列的特點,取得了較好效果。
采用神經網絡的負荷預測精度會受到樣本質量的影響。采用相似日的方法可以篩選得到相關性高的訓練樣本,并且能夠有效降低數據樣本維度,從而利用較少的訓練樣本就能達到較高的預測精度。但是訓練樣本的選取是相似日方法的關鍵,其相似程度直接決定了預測算法的精度。文獻[16-17]均采用灰色關聯分析(grey relation analysis,GRA)法選取相似日,并結合各自的神經網絡模型實現負荷預測。但是灰色關聯分析法選取的相似日的負荷曲線與待預測日的負荷曲線存在較大差異。文獻[18]在灰色關聯法基礎上引入加權和投影概念,但是該改進方法所選取相似日的負荷曲線與待預測日負荷曲線形狀相似性不佳。文獻[19]結合灰色關聯分析法,提出一種綜合相似度的相似日選取方法并結合梯度提升決策樹實現負荷預測,但是該方法未考慮不同因素所衡量相似度的重要性差異,會影響所選取相似日集合的大小。文獻[20]采用聚類的方法選取相似日,并結合預測模型完成負荷預測,但是對聚類數目的選擇存在主觀性,可能導致所選取的相似日與待預測日的相似程度不高。
綜上所述,現有相似日方法中相似日的選取主要是采用灰色關聯分析或聚類,但所選取的相似日與待預測日的相似度有待進一步提升。本文針對該問題,提出一種基于灰色關聯分析和K均值聚類(GRA-K-means)選取相似日的短期負荷預測方法。該方法采用灰色關聯分析法選取相似日的粗集,然后建立綜合聚類指標,確定聚類數目,并對相似日粗集進行K-means聚類,得到最終的相似日集合,從而提升所選取的相似日與待預測日的相似度,并且降低樣本維度。最后,采用LSTM神經網絡進行負荷預測。算例表明,本文提出的采用GRA-K-means選取相似日的短期負荷預測方法能夠實現較高的負荷預測精度。
短期負荷預測模型的建立需要大量的電力負荷數據和其他外部影響因素的歷史數據。外部因素中包含了氣象因素和日期類型因素等,負荷會隨外部因素的變化而改變。常見的外部因素有溫度、節假日等。
圖1展示了某地區半年內日最高溫度與日總負荷的變化趨勢。

圖1 某地區2014年上半年最高溫度與日總負荷變化Fig.1 Variations of the maximum temperature and total daily load in a certain area in the first half of 2014
由圖1可知,溫度的變化和負荷的變化具有明顯的相關性,兩者的變化趨勢大致相同,溫度信息可以用來提升負荷預測的性能??紤]到負荷還受濕度的影響,本文采用溫濕度指數來描述溫度和濕度之間的耦合關系,計算公式為[21]:
ITH=1.8T+0.55(1-H)×(1.8T-26)
(1)
式中:ITH為溫濕度指數;T為溫度;H為相對濕度。
日期類型也是短期負荷預測中需要考慮的因素,周一到周日標記為1到7,若這一天為節假日時,則特征編碼為1,否則為0。同理可對是否為工作日進行編碼。具體如表1所示。

表1 日期類型編碼Table 1 Date type encoding
文獻[3]考慮前日負荷峰值,所選取的相似日比未考慮前日負荷峰值更接近待預測日,并且所得預測效果較好,故本文也加入這一因素。本文選取了10個外部因素作為影響因素,基于某地區2014年1月到6月的數據進行Pearson相關系數分析,結果如表2所示。

表2 相似日影響因素的相關系數Table 2 Correlation coefficients of influencing factors on similar days
從表2中可以看到,前日負荷峰值的相關性最大,相關系數的絕對值為0.898 6,日降雨量的相關性最低,相關系數的絕對值為0.103 1。本文選擇相關系數絕對值大于0.3的8個因素作為相似日的影響因素。
灰色關聯分析法是分析各因素之間相似程度的一種統計方法。該方法通過一系列的數學公式來挖掘數據之間的關系從而分析數據之間的相似程度[22]。該方法通過以下步驟,計算各個樣本的灰色關聯值。
1) 選取影響電力負荷的若干因素,則第i天樣本的特征向量可以表示為:
(2)
式中:i=1,2,…,n,n為歷史樣本總數;yim為第i個樣本的第m個因素的特征值。待預測的特征向量表示為:
(3)
式中:y0m為待預測日特征向量的第m個影響因素的特征值。
2) 構建灰色關聯判斷矩陣F,如式(4)所示:
(4)
各元素按式(5)計算:
(5)
式中:Fik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素對應的關聯系數;yik(i=1,2,…,n;k=1,2,…,m)為第i個樣本的第k個因素的特征值;y0k(k=1,2,…,m)為待預測日特征向量的第k個影響因素的特征值;ρ為分辨系數,通常取ρ=0.5。采用相關系數法確定各影響因素的權重:
(6)
(7)
式中:pk為第k個影響因素的Pearson相關系數絕對值;ωk第k個影響因素的權重,k=1,2,…,m。
3) 利用上述權重對灰色關聯判斷矩陣進行加權,得到加權灰色關聯決策陣F′:
(8)
4) 得到每個樣本的灰色關聯值:
(9)
式中:Di為第i個樣本的灰色關聯度。
5) 將每個歷史日特征向量的灰色關聯度按照數值從大到小進行排序,設置閾值,選擇滿足閾值的樣本作為相似日的粗集。本文將閾值設為0.7。
K均值聚類算法是根據距離相近的數據作為一類的原則,將數據樣本進行分類的統計分析方法,優點是實現簡單且高效[23]。
將灰色關聯分析法找到的相似日粗集的8個外部影響因素通過K均值聚類,計算待預測日與聚類中心的歐式距離,計算公式如(10)所示。當dj數值最小時,此時聚類中心所對應的一類即為最終相似日集合。
(10)
式中:xk(k=1,2,…,m)為待預測日特征向量的第k個因素的特征值;pjk(j=1,2,…,l;k=1,2,…,m)為第j組聚類中心的第k個因素所對應的值。
LSTM是一種在循環神經網絡的基礎上進行改進的神經網絡。它解決了RNN模型存在的問題,并且可以學習長時間序列中隱藏信息,充分利用歷史數據中的有用信息,具有更強的適應性。LSTM網絡基本單元如圖2所示。

圖2 LSTM神經網絡基本單元Fig.2 Basic unit of LSTM neural network
遺忘門、輸入門和輸出門3個部分共同組成了LSTM神經網絡的基本單元[24]。輸入xt和中間輸出ht-1通過sigmoid函數生成變量ft,并且與上一個狀態記憶單元St-1決定遺忘部分。輸入xt和中間輸出ht-1在輸入門中經過sigmoid函數和tanh函數后,再與遺忘門生成的遺忘部分一同決定需要保留的部分。變量St與ot決定了中間輸出ht,計算公式如下所示:
ft=σ(Wfxxt+Wfhht-1+bf)
(11)
it=σ(Wixxt+Wihht-1+bi)
(12)
gt=φ(Wgxxt+Wghht-1+bg)
(13)
ot=σ(Woxxt+Wohht-1+bo)
(14)
St=gt?it+St-1?ft
(15)
ht=φ(St)?ot
(16)
式中:ft、it、gt、ot、St分別為遺忘門、輸入門、輸入節點、輸出門和狀態單元的狀態;Wfx、Wfh、Wfh、Wix、Wih、Wgx、Wgh、Wox和Woh為相應門與變量之間的權重;bf、bi、bg、bo為偏置項;?表示元素按位相乘;σ(·)和φ(·)分別表示sigmoid函數和tanh函數。
本文在采用灰色關聯分析和K均值聚類選取了最終的相似日集合的基礎上,訓練LSTM網絡,實現短期負荷預測。這一方法的模型如圖3所示,它包括以下幾個步驟:

圖3 模型框架圖Fig.3 Diagram of the model frame
步驟1:輸入歷史負荷數據和各種外部因素,并對數據進行預處理,選取主要相似日影響因素;
步驟2:利用灰色關聯分析法,找到關聯度大于等于閾值的相似日,將這些相似日作為相似日的粗集;
步驟3:使用K均值聚類對找到的相似日粗集的外部因素進行聚類,找到待預測日與聚類中心距離最小的一類作為最終相似日集合;
步驟4:根據最終相似日集合的日期,將對應的歷史負荷數據與外部影響因素組合為輸入特征,如表3所示,模型輸入為t時刻的13個特征,輸出為t時刻的負荷值,并將輸入特征和輸出負荷值歸一化之后依次帶入模型訓練,最后得到預測結果。

表3 模型的輸入特征Table 3 Input features of the model
采用平均絕對百分比誤差MAPE和均方根誤差RMSE來評價模型的好壞,公式如下:
(17)
(18)
式中:y′i為預測值;yi為真實值。
為驗證本文所提方法的科學性和可靠性,本文實驗選取使用2016年電工數學建模競賽中2014年1月1日至2014年6月29日的負荷數據,數據的采樣周期為15 min,共180天,每天共有96組數據,共17 280條負荷數據,以2014年1月1日至2014年6月23日的數據為歷史負荷數據,預測2014年6月24日到6月29日的負荷數據。LSTM模型采用基于Python編寫的Keras深度學習框架[25],K均值采用常用的sklearn機器學習框架。
以待預測日6月24日為例,進行分析。首先使用灰色關聯分析法,計算待預測日與歷史樣本的灰色關聯度,將灰色關聯度大于等于0.7的歷史樣本作為相似日的粗集,可得到94天相似日。在相似日粗集的基礎上,將每天作為一個數據對象,每天特征維度為8,將其輸入到K均值聚類模型中。聚類個數的選擇是聚類效果重要的一環,傳統聚類個數確定的方法都是根據輪廓系數(Silhouette coefficient, SIL)[26]和戴維森堡丁指數(Davies-Bouldin Index, DBI)[27]2個指標進行決定,需要人為決定聚類個數。當SIL數值越大,DBI數值越小時,說明此時聚類的效果最好。圖4為2個聚類指標的折線圖,可以看到此時的最佳聚類數為2,但是SIL和DBI數值都隨聚類個數的變化而波動。

圖4 聚類評價指標Fig.4 evaluation index of clustering
本文將2個聚類指標進行統一,提出了綜合聚類指標,當綜合聚類指標最小時所對應的聚類個數就是最佳聚類個數,計算公式如下所示:
(19)
式中:E為綜合聚類指標;CSIL和IDB分別為SIL和DBI指標的數值。
圖5為綜合聚類指標隨聚類個數的變化情況,聚類個數可根據綜合聚類指標直接決定,不需要進行人為分析決定。故本文將待預測日(6月24日)的聚類個數選取為2。計算待預測日與各聚類中心的歐式距離,結果如表4所示,故選距離最小一類為最終相似日,共72天。

圖5 綜合聚類評價指標Fig.5 Comprehensive evaluation index of clustering

表4 聚類中心與待預測日的歐氏距離Table 4 Euclidean distance between cluster center and the day to be predicted
為比較本文方法與灰色關聯方法所選取的相似日的有效性,本文將形狀系數[25]作為比較兩者的標準。形狀系數越小,說明兩者曲線在形態方面越接近。計算公式如下所示:
xijk=xik-xjk
(20)
(21)
(22)
式中:xi、xj分別為長度為l的等長序列,分別表示為xi={xi1,xi2,…,xil},xj={xj1,xj2,…,xjl},xik表示第i序列的第k個元素,xjk表示第j序列的第k個元素;Sij為序列i和j的形狀系數。
計算兩組相似日負荷與待預測日之間的形狀系數,其測試集的形狀系數平均值的計算結果如表5所示。

表5 形狀系數平均值Table 5 Average of shape coefficient
從表5中可知,本文方法在相似日的選取上,更接近相似日,故本文方法在相似日的選取上比灰色關聯分析法效果更好。
為驗證本文相似日選取方法是否能提升精度,采用LSTM模型,對不選取相似日(LSTM)、灰色關聯選取相似日(GRA-LSTM)和基于灰色關聯分析與K均值聚類選取相似日(GRA-K-means-LSTM)3種情況進行對比分析,共同預測6月24日的負荷。LSTM模型使用2層隱藏層,神經元個數為32 100,最后使用激活函數為sigmoid的全連接層輸出預測值,神經網絡采用Adam算法優化,學習率為0.001。3種情況的誤差如表6所示。

表6 不同相似日選取方法誤差對比Table 6 Error comparison of different similar-day selection methods
從表6中可知,采用相似日的方法在MAPE這一項指標上比不選取相似日的方法均有降低,傳統的灰色關聯分析法選取相似日,在MAPE上相比未選取相似日降低了0.634%,本文的方法在MAPE上降低了1.198%。傳統的灰色關聯分析法在RMSE上效果不佳,但是本文方法卻降低了81.124 MW。由此可見,本文提出的采用GRA-K-means選取相似日方法,在誤差精度上均比傳統的灰色關聯分析法要好,也證明了方法的有效性。圖6為負荷預測曲線,從圖6中可知本文方法比未采用相似日方法和采用灰色關聯分析方法的LSTM模型更加貼合實際負荷曲線,在峰谷處本文方法比其他2種方法更接近真實值,擬合度更高,預測誤差更小。

圖6 不同相似日選取方法的預測負荷曲線Fig.6 Load forecasting curves of different similar-day search methods
為驗證本文方法模型的可行性與合理性,采用不選取相似日的LSTM模型和本文所提模型(GRA-K-means-LSTM)、XGBoost模型(GRA-K-means-XGBoost)、LightGBM模型(GRA-K-means-LightGBM)相結合的模型進行對比分析,預測6月24日到6月29日共6天的負荷數據,并對結果取平均值,結果如表7所示。XGBoost[28]與LightGBM[29]是各種競賽中常用的算法且取得了比較好的成績,將這兩者當作本文的對照模型,來驗證本文方法的有效性。這2種模型均采用sklearn框架。

表7 不同模型誤差對比Table 7 Error comparison of different models
如表7所示,本文所提出的GRA-K-means-LSTM方法與其他4種方法相比,在MAPE指標上,本文方法比LSTM、GRA-LSTM、GRA-Kmeans-XGBoost、GRA-Kmeans-LightGBM分別降低了0.911%、0.637%、0.503%、0.389%,在RMSE上本文方法比LSTM、GRA-LSTM、GRA-K-means-XGBoost分別降低了55.739、54.579和12.264 MW,與GRA-K-means-LightGBM結果相差很小。
在幾種對比模型中,本文所提出的GRA-K-means-LSTM是最優的,其原因在于采用灰色關聯分析法和K均值聚類的方法選取相似日,刪除了相似度不高的數據,提高了數據的相關性,并結合LSTM神經網絡模型,實現對負荷的短期預測,充分發揮了LSTM神經網絡能夠處理時間序列和非線性數據的特性,提高了預測精度。
1) 本文選取相似日時加入了前日負荷峰值和溫濕度指數,并使用皮爾遜相關系數法證明其與日總負荷值具有明顯的相關性,可以用于相似日的選取。
2) 在傳統的灰色關聯分析法的基礎上加入了K均值聚類,并通過綜合聚類指標選取聚類個數,解決了人工選取聚類中心的缺點。通過改進的方法得到了與待預測日相似程度更高的相似日,減少了訓練樣本的數量和差異程度,有助于提升負荷預測精度。
3) 通過將本文相似日選取方法與LSTM模型相結合,有效地提高了短期負荷預測的精度,且LSTM模型能夠更好地擬合負荷數據。
未來可以考慮更多導致電網氣象災害的因素,進一步提升短期負荷預測精度,應用于電網氣象災害預警研究。