趙越
(中國電力科學研究院有限公司,北京 100192)
隨著智能電網建設的實施和智能傳感設備的大量安裝,由此產生了超大數量的電力數據[1]。如何有效地分析、利用這些數據,為電網運營商帶來顯著的經濟效益,成為了電力系統研究的熱點問題[2]。
目前,數據分析方法已普遍應用于電力行業,例如用戶分類、負荷預測等。其中,負荷預測是大量專家學者關注的熱點問題[3]。通過對當前及未來一段時間內的負荷作出精準預測,以最大程度地保證電力系統對負載不間斷的可靠供電[4],且負荷預測支持電力需求與生產之間的平衡,能夠降低生產成本和規劃未來的產能[5]。對于負荷預測模型,主要分為統計模型和機器學習模型兩種[6-7]。而統計模型已無法適應智能電網海量電力數據的處理,基于機器學習的電力數據分析方法能夠較優地掌握負荷與環境因素的內在聯系,并實現較為理想的預測精度[8]。
由于單一機器學習算法的處理性能較差,從而提出了一種結合遺傳算法(Genetic Algorithm,GA)和長短期記憶網絡(Long Short-Term Memory,LSTM)的電力數據分析方法[9]。利用GA 改進LSTM 網絡,并通過改進后的LSTM 分析電力數據來實現精準預測。
在電力數據輸入預測模型之前,需要對其進行預處理,并將預處理后的數據集劃分成3 個集合,即訓練集、驗證集和測試集。
輸入用戶分類及負荷預測模型的數據x是預測時間前一周中,每小時的電量數據與相應的溫度、節假日等信息,輸出時標記數據為待預測時刻的實際負荷。
采用數據歸一化方法將負荷與溫度數據預處理成(1,2)之間的數值,并采用啞變量表示節假日信息。其中0代表非節假日,1則代表節假日[10]。假定歷史負荷與天氣數據集是m×n的矩陣,則X表示為:

對原始數據集矩陣每一列的數據進行歸一化處理:

LSTM 網絡是由LSTM 單元組成的深層循環神經網絡(Recurrent Neural Networks,RNN)模型,與其他現有的全連接前饋網絡不同。通過在模型中共享參數,RNN 可以被推廣到訓練過程中的不可見序列長度,其適用于建模序列問題和一些由于循環連接而獲得的信息[11]。然而,RNN 存在消失和梯度爆炸的問題。為此,采用LSTM 網絡處理電力數據,其能夠向后保留1 000 個時間步長以上的信息,且比簡單的RNN 擴展了更長的時間序列。其中LSTM 網絡的結構如圖1 所示。

圖1 LSTM網絡結構
LSTM 塊中包含了存儲單元、輸入、輸出和遺忘門,單元之間有一個反復的聯系。該單元在隨機時間間隔上傳送“狀態”值,并由單元的每個門執行寫入、讀取和復位操作[12]。除非輸入門允許,否則相關數值不能被存儲在單元格中。在時刻為t處的輸入值it和存儲單元的候選值的推導公式如下:

式中,ω是權重,u是矩陣,b是偏差。遺忘門處理狀態單元的權重,遺忘門的值計算如下:

存儲單元的狀態更新如下:

存儲單元的新狀態有助于確定輸出門的數值:

LSTM 單元的最終輸出值為:

當使用LSTM 進行負荷預測時,時間延遲、日期和溫度等相關變量的特征被用作輸入[13]。對于LSTM 模型預測而言,時滯起著較為重要的作用,層數、每層神經元數和批量大小也是LSTM 優化模型的重要因素。
GA 是一種隨機的元啟發式優化算法,其包含模仿自然遺傳與進化概念的算子,如交叉和變異[14]。GA 算法的處理流程如圖2 所示。

圖2 GA的處理流程
GA 的處理過程可分為6 個階段:初始化、計算適應度、檢查終止條件、交叉、選擇和變異。在初始化階段,搜索空間中任意選擇一條染色體,然后根據預設的適應度函數確定染色體的適應度。對于GA等優化算法,適應度函數是影響模型性能的關鍵因素。一些染色體在這一過程中被反復選擇,而有些染色體未經選擇就消失了,因為這些染色體是根據適應度函數的適應性隨機選擇產生的。這也意味著顯性染色體有更高的機會遺傳到下一代,所選擇的顯性染色體經過相似片段的交換和基因組合的改變可以產生后代。
在交叉過程中,基于現有的解決方案可以產生出新的解決方案。在突變過程中,選擇一條染色體改變一個隨機選擇的位,從而通過隨機交換將多樣性引入解決方案池[15]。通過選擇、交叉和變異,采用新生成的染色體計算模型的適應度并驗證終止準則。所提方法中,將預測模型的均方根誤差(Root Mean Square Error,RMSE)作為適應度值。
對于LSTM模型,尋找最優的時滯(超參數)值、隱藏層數、批量大小等是一個困難且不確定的多項式問題,因此從一組可能的組合中尋找超參數的最佳數目,可以看作是一個搜索和優化的問題[16]。在迄今為止的研究中,GA 是一種有效的算法,通過它可以獲得幾乎最優的超參數集。所以將GA用于優化LSTM模型,以選擇最佳的視窗大小、神經元數目與批量大小。基于GA-LSTM的負荷預測模型流程如圖3所示。

圖3 基于GA-LSTM的負荷預測模型
在所提模型中,遺傳算子開始搜索空間之前對具有可能解的種群進行初始化。其中使用的染色體編碼為二進制位,表示時間窗口大小、批量大小和神經元數量。通過一個預設的適應度函數來判斷解,選擇最小的RMSE 作為最優解。為了獲得問題的最優解,種群規模、迭代數與基因長度均起著重要作用,分別設置為100、3 和14。利用GA 尋得LSTM 網絡的最優參數,將優化后的LSTM 網絡用于電力數據處理,以得到負荷的精準預測。
文中采用Python3.7 語言作為編程平臺,進行電力數據分析。由于LSTM 網絡和GA 算法中均有大量的數據需要處理,則需要一臺功能強大的計算機。計算機的硬件配置為:Intel?Core?I78665UE處理器、16 GB RAM、1 TB 硬盤、GEFORCE GTX 1050 顯卡等。
通過計算平均絕對誤差(Mean Absolute Error,MAE)和RMSE,確定GA-LSTM 網絡的數據分析性能。MAE 定義為預測值與實際值之間絕對誤差的平均值,反映了預測值的實際誤差。RMSE是預測值與實際觀測值之差的樣本標準差。MAE和RMSE的定義分別如下:

式中,n為采樣數量,y′為模型預測值,y為實際期望值。
在負荷預測之前,采用K-means 聚類分析的方式將用戶進行分類,如此便可剔除各種用電特有性質的影響。在實施聚類算法之前,需要將負荷數據進行0-1 標準化處理。數據樣本選用764 戶的用電信息,并選取全部用戶30 天的用電量作為30 次聚類實驗的樣本數據。同時將實驗結果的均值當成最終的用戶分類輸出,3 種類型的用戶數量和用電特性見表1 所示[17]。
從表1 中可看出,種類1 的負荷特性是存在兩個用電高峰,且晚高峰比早高峰的電量高,其符合居民的生活習慣,因此為居民用戶;種類2 的負荷特性為高峰期較長,幾乎沒有低峰期,這與工業或商業生產經營時間相對吻合,因此其為工業或商業用戶;種類3 的負荷特性為高峰期,出現在上午和下午,這種用電習慣較多為政府事業單位。

表1 聚類得到的用戶數量及用電特性
在明確用戶類型的基礎上,利用所提GA-LSTM預測模型進行一天內的負荷預測。24 小時內實際和預測的電力負荷曲線如圖4 所示。

圖4 電力負荷真實值與預測值的曲線
由圖4 可知,所提方法得到的負荷預測值與真實值尤為接近。由于環境和人為因素等存在,因此無法實現零誤差的預測。但所提方法采用GA 優化后的LSTM 網絡進行負荷預測,已取得了較為理想的預測效果。
為了定量論證所提方法的電力數據分析性能,將其與文獻[7]、文獻[10]、文獻[15]進行對比。采用MAE 和RMSE 作為評價指標,結果見圖5 所示。
從圖5 中可看出,相比于其他對比方法,所提方法的誤差值最小,MAE 與RMSE 值分別為88.32 和120.01。由于所提方法采用GA 優化LSTM 的網絡參數,并利用改進后的LSTM 進行負荷預測,從而獲得高精度的預測結果。文獻[7]采用支持向量機的方法實現負荷預測,方法較為單一,預測效果較差。文獻[10]利用深度學習算法進行負荷預測,雖然預測誤差減小,但計算量巨大。文獻[15]基于GRU-NN 模型完成負荷預測,取得了良好的預測效果,但缺乏對門控循環單元(Gating Recurrent Unit,GRU)網絡的訓練,其性能有待提升。

圖5 負荷預測誤差對比
電力數據分析是電力行業的重要組成部分,為了向用戶提供穩定可靠的電力,電網運營商需要能夠高精確度地預測負荷,以滿足用戶需求。為此,文中提出了一種結合GA 和LSTM 的電力數據分析方法。在采用GA 算法優化LSTM 網絡的基礎上,利用優化后的LSTM 網絡分析電力數據,從而實現負荷可靠預測。另外,基于Python 仿真平臺對所提方法進行實驗分析。結果表明,所提方法能夠獲取負荷特性并完成用戶分類,將用戶分成了居民、商業或工業、事業政府單位3 種。同時負荷預測的結果與真實值較為接近,MAE 與RMSE 值分別為88.32和120.01,均優于其他對比方法,具有一定的應用價值。
文中在考慮批量選擇的基礎上,將LSTM 與GA相結合,為時間序列預測的研究奠定了基礎。在接下來的研究中,將嘗試通過增加隱層來提高LSTM 模型的精度,并嘗試構建LSTM 和人工神經網絡的混合模型,以進一步提高電力數據分析的精度,從而更優地服務于電力行業。