王 繁,王 果,周子軒,喬 智,牛 晨
(1.蘭州交通大學自動化與電氣工程學院,蘭州 730070;2.光電技術與智能控制教育部重點實驗室(蘭州交通大學),蘭州 730070;3.甘肅省軌道交通電氣自動化工程實驗室(蘭州交通大學),蘭州 730070)
負荷預測分為長期、中期、短期、超短期負荷預測,短期負荷預測一般預測未來一天的負荷曲線,是各級電力部門安排日調度計劃的基礎,對保證電網安全、經濟運行起著重要作用[1]。配電臺區的短期負荷預測是精細化管理和優化營商環境工作的基礎[2]。準確預測配電臺區負荷對安排檢修計劃、實現事前預警、調配搶修資源、調整運行方式有重要的指導作用[3]。配電臺區用電環境復雜,臺區差異性大,負荷數據質量差[4],某一種預測方法很難適用于所有臺區,所以配電臺區級別的負荷預測雖有多種預測方法,卻始終無法投入到實際應用中。因此預測方法的適用性研究對配電臺區負荷預測針對性建模具有一定的意義。
隨著智能配電網的建設和大數據技術的快速發展,基于配電臺區負荷預測的數據基礎和技術條件已經具備[5],近年來配電臺區的短期負荷預測問題受到學者的關注。2016 年,沈沉等[6]提出基于小波分析和聚類分析的配變短期負荷預測方法,預測精度達到85.38,但其只選擇一個臺區做實驗,缺少代表性;2018年,劉升[7]構建了時間序列模型研究日負荷峰值的短期波動特征,分析表明臺區日負荷峰值存在明顯的周期性特征;2018年,蔣瑋等[8]提出了一種基于分布式圖計算的配電臺區負荷預測技術,實現了對于大規模配電臺區負荷預測的并行化問題,使獨立對單臺配變建立模型變的可行;2019年,吳爭榮等[9]基于GIS 系統,提出了一種分類分區的空間負荷預測方法,驗證了配電網小區域短期負荷預測的必要性;2020年,孫朝輝等[10]采用LSTM預測配電臺區未來幾天的最大負荷,考慮了溫度、天氣、風力、污染情況數據,預測準確率達到90,但其僅用一個臺區作為驗證,無法驗證其適用性;2020年,呂海燦等[11]提出了將長短期記憶LSTM(long-short term memory)網絡與寬度&深度(wide&deep)模型結合的臺區短期負荷曲線預測,然而試驗依舊采用區域級配電負荷數據,不能反映單臺區預測情況。上述研究證明了LSTM和其改進算法對于某些配電臺區具有較好的預測準確率。但由于配網的復雜性,其只采用一個臺區或者區域整體負荷作為驗證對象,無法驗證預測方法的適用性。
本文基于LSTM研究其對于不同類型配電臺區短期負荷預測的適用性。以某市多個配電臺區為對象,通過K 均值聚類算法、臺區容量和用電類別對臺區進行分類,基于LSTM 構建短期負荷預測模型,分析了各類臺區的預測準確率,研究了影響預測準確率的原因,研究結果可為單配電臺區短期負荷預測建模提供一定理論依據。
由于負荷數據天生的時序性,模型必須要對時序特性具有很好的表達能力。本文選取LSTM作為建模方法,研究其對配電臺區短期負荷預測建模的適用性[12]。
LSTM 是一種特別的循環神經網絡RNN(re?current neural network),其鏈式的網絡結構決定其對處理序列數據具有天然的優勢,通過在原始RNN隱藏層增加單元狀態c來保持長期狀態,解決了RNN存在的長期依賴問題,使其對時間序列數據的處理優于其他種類的神經網絡模型。圖1為LSTM網絡展開結構的示意。圖1 中,LSTM 的輸入為當前時刻輸入值xt、上一時刻輸出值ht-1和上一時刻單元狀態ct-1,輸出單元狀態ct和輸出值ht。LSTM的關鍵在于長期狀態c的控制,通過遺忘門、輸入門、輸出門來去除或者增加信息到細胞狀態。LSTM神經網絡的細胞結構如圖2所示[13]。

圖1 LSTM 網絡展開結構Fig.1 Deployment structure of LSTM network

圖2 LSTM 神經網絡模塊Fig.2 Module of LSTM neural network


式中:bf、bi、bc、bo分別為各個門的偏置項;⊙表示向量中元素按位相乘。
為分析LSTM對配電臺區短期負荷預測的適用性,針對每個配電臺區,建立LSTM 預測模型,建模流程分為以下4個步驟:①數據獲取;②數據分析;③數據處理;④模型搭建。
由于LSTM 對數據質量的要求較高,必須進行數據分析與處理。數據分析的目的是判斷數據質量以及對異常數據進行處理,使預測效果更好。數據處理是對原始數據進行處理,得到高質量的輸入數據。建模流程如圖3所示。

圖3 建模流程Fig.3 Modeling process
收集某市所屬21 個配電臺區2017-01-01 至2019-12-26共1 088日的負荷采集數據和PSM2.0系統中配電臺區的臺賬信息。包含96點負荷采集數據(每15 min采集一次)、采集時間、所屬單位、臺區ID 等的信息。通過數據量計算,采集成功率為90.64%。采集成功率計算方法為

為充分利用負荷數據,對獲取的負荷數據進行數據分析,包括臺區分類和不良數據辨識。
2.2.1 臺區分類
臺區分類的目的是研究不同類配電臺區預測結果的差異,本次試驗通過K 均值聚類算法、臺區容量和用電類別對試驗臺區進行分類。
利用K均值聚類算法[14]對負荷曲線進行聚類分析,經過多次分類測試,發現分為4類時效果最為明顯,最終將21個臺區劃分為4類,結果如圖4所示。

圖4 負荷曲線聚類結果Fig.4 Clustering result of load curves
可以看出,4 類曲線的線型和負荷峰值都有明顯差異。類型1 如圖4(a)所示,用電高峰期為08:30—19:00,負荷峰值為200 kW;類型2如圖4(b)和圖4(c)所示,用電高峰期為06:30—14:30 和17:30—23:30,負荷曲線峰值為100 kW;類型3 如圖4(d)所示,用電高峰期為06:30—14:00 和16:30—23:30,負荷峰值為250 kW,負荷整體較高;類型4如圖4(e)所示,用電高峰期為06:00—12:30和16:30—24:00,負荷整體較小,負荷峰值為50 kW。
為分析臺區屬性對預測結果的影響,依據國網PMS系統中的臺賬數據,通過臺區容量和用電類別對配電臺區進行分類,最終結果如表1所示。

表1 配電臺區分類Tab.1 Classification of distribution station areas
2.2.2 不良數據辨識
不良數據是影響預測精度的重要因素,辨識不良數據有助于對其進行修正,使預測效果更好。此次研究的不良數據包括缺失數據和異常數據。
(1)缺失數據。缺失數據包括采集失敗數據和空值,計算公式為

21個臺區中缺失值占比最大為58.4%,最小為1.107%,詳細缺失數據見表3。
(2)異常數據。通過箱型圖的離群數據判據原則,定義w為異常數據,判據公式表示為

式中:Q1和Q3分別為第一四分位數和第三四分位數;IQR為四分位距。該班組總負荷異常數據占比為1.93%,單臺區最大為4.51%,最小為0.19%,平均為2.72%。
神經網絡對數據質量的要求較高,因而數據處理是建模流程中最重要的環節。數據處理過程包括不良數據修正、數據標準化、添加影響因素和數據重組。
2.3.1 不良數據修正
不良數據修正包括對缺失數據填補和異常數據修正。不良數據修正方法眾多,需根據實際問題選擇不同的處理方法,常見的處理方法有填充均值、中位數、眾數等。
因配電臺區的用戶相對穩定,本文采用均值進行填補缺失值和空值。對于根據式(9)篩選出的異常數據,由于配電臺區負荷數據的隨機性較強,本文并未剔除篩選出的異常數據,而將其視為正常負荷波動。
2.3.2 數據標準化
由于輸入數據量綱、范圍皆不相同,為提高預測效率,將數據做標準化處理。為消除綱量的影響,采用min-max 標準化方式和0 均值標準化方式分別為

式中:x?為標準化后的特征數據;x為標準化前的樣本數據;maxx為樣本最大值;minx為樣本最小值;meanx為樣本數據的均值;σ為樣本數據的標準差。
2.3.3 影響因素添加
研究表明,建立模型時加入先驗知識有助于提高模型預測效果[15]。由于日期類型對于電力負荷有重要的影響[16],故本文添加是否工作日和季節作為影響因素。為了讓計算機“讀懂”影響因素,對該類數據進行編碼,編碼方式如表2所示。

表2 編碼方式Tab.2 Encoding scheme
2.3.4 數據重組
數據重組是將影響因素和負荷數據組合后,重組數據結構,構建出可以用于模型訓練的數據,包括監督學習和數據拆分。
監督學習是通過標記訓練數據,根據已知的輸入和輸出關系訓練得到最優模型的過程[17]。采用監督學習構建以前7日數據預測第8日負荷的預測模式。將數據按7∶3拆分為訓練集和測試集,其中訓練集用于模型訓練,測試集用于對預測模型進行驗證。將數據結構轉換為模型可以識別的3 維結構,作為輸入數據備用。
將經過數據處理的訓練集數據輸入模型,通過訓練集迭代訓練各神經元權重,通過損失函數評價每次迭代的誤差,再通過優化器不斷糾正更新模型權重,得到最優模型[18],最后利用訓練得到的最優模型進行預測,并輸出預測結果。
2.4.1 模型結構
本文的LSTM 模型構建過程如圖5 所示,設置了一個全連接層(Dense)作為輸入層,2 個LSTM 層作為隱藏層,LSTM層的神經元數量分別為1 372和686,最后通過全連接層輸出指定格式的向量,即第8日96個時刻的預測值。

圖5 模型搭建過程Fig.5 Model construction process
2.4.2 優化器
優化器采用Adam 優化算法。Adam 的優點主要在于經過偏置校正后,每一次迭代學習率都有確定范圍,使得參數比較平穩。Adam 算法通過梯度的一階矩估計和二階矩估計動態調整學習率。計算公式[19]為

2.4.3 損失函數
負荷預測常用的損失函數有均方誤差MSE(mean squared error)和均方絕對誤差MAE(mean absolute error)。因MAE對異常點有更好的魯棒性,本文結合配電臺區負荷預測的實際需求,選用MAE作為損失函數。MAE計算方法為

式中:yi為第i次預測值;y?i為第i次實際值;m為樣本數量。
模型搭建完成后,輸入訓練數據集完成模型訓練,通過模型評估指標評價模型效果。根據評價指標分析不同分類方式下的預測精度差異,研究造成預測精度差異的原因。
因每個臺區均值不同,常用的均方根誤差yRMSE不能作為本次預測精度的評價指標。參考國家電網公司負荷預測評價指標,模型評估指標選取平均絕對百分比誤差yMAPE和每日預測精度yFA[20],分別表示為

計算測試集時間內預測結果的yMAPE和預測精度平均值yFA,avg,計算取樣配電臺區所在區域的短期負荷預測作為對比數據,結果如表3 所示。表中:異常數據占比為式(8)的計算結果;空值占比為原始數據中空值占總數據的比值;缺失值占比為空值加未采集成功數據占總數據比例;平均負荷為取樣數據負荷平均值。

表3 模型預測結果Tab.3 Forecasting results of each model
3.2.1 預測結果分類分析
計算每種分類方式下配電臺區的預測精度的平均值yFA,avg、方差yFA,var、最大值yFA,max和最小值yFA,min,結果如表4所示。

表4 預測精度分析Tab.4 Analysis of forecasting accuracy
從表4可以得出以下結論。
(1)聚類分類中各類臺區的預測精度平均值存在明顯差異,且方差隨著預測精度平均值的的減小而增大。其中類型3的精度平均值最高,且方差最小,預測精度平均值為91.63%,最高預測精度為93.4%,最低預測精度為90.5%,接近區域負荷預測精度94.4%,區域負荷預測精度如表3所示。類型1預測精度平均值僅為77.08%,且方差較大。
(2)區域容量分類中隨容量減小,預測精度平均值在逐漸下降。
(3)用電類別分類中,2類臺區平均預測精度與方差存在明顯差異。
說明LSTM 對于不同分類方式下的配電臺區,預測精度有較大差異。在本文3種分類方式中,臺區容量更易獲取,且預測精度隨容量的減小而減小,在實際應用中為最佳分類方式。
3.2.2 影響因素相關性分析
為了進一步分析造成預測精度差異的因素,采用pearson相關系數,對表3中可能對預測精度產生影響的因素進行相關性分析,分析結果如圖6所示。

圖6 相關性分析Fig.6 Correlation analysis
在圖6 中,yFA,avg與平均負荷相關系數為0.6,與缺失值占比相關系數為-0.71,表明預測精度與缺失值占比和平均負荷有較強的相關性,預測精度隨著平均負荷增大而增大,隨缺失值占比增大而減小。為了分析平均負荷和缺失值占比與預測精度之間的關系,繪制散點圖,如圖7所示。
圖7(a)中,平均負荷在40 kW以上時預測精度比較穩定,平均精度在90%以上,平均負荷小于40 kW時,部分臺區預測精度顯著降低。

圖7 平均負荷、缺失值占比與yFA,avg 關系Fig.7 Relationship between average load,ratio of missing value and yFA,avg
在圖7(b)中,缺失值占比小于20%時,與精度并沒有呈現出負相關現象;缺失值較大時預測精度明顯降低。
3.2.3 分析結果驗證
為了驗證分析結果,增加了42 個配變臺區數據建立的LSTM模型進行驗證,其中21個臺區平均負荷低于40 kW,其他21 個臺區平均負荷高于40 kW。經過數據分析、數據處理和模型構建等步驟,建立預測模型,繪制平均負荷和缺失值占比與預測精度平均值的關系,結果如圖8所示。
在圖8(a)中,在平均負荷達到40 kW 以上時,預測精度普遍達到90%以上,其平均值為92.22%;負荷均值小于40 kW之間時,預測精度隨平均負荷的下降而下降,且預測穩定性降低。證明了LSTM對于平均負荷在40 kW以上的配電臺區,預測效果較好且較為穩定;而對于平均負荷小于40 kW的微小臺區,預測效果較差。


圖8 增加樣本后平均負荷、缺失值占比與yFA,min 關系Fig.8 Relationship between average load,ratio of missing value and yFA,min after increasing the samples
在圖8(b)中,缺失值占比大于20%時,預測精度明顯下降;對于缺失值小于20%的配電臺區,本次實驗未得出相關規律。
為了研究LSTM對配電臺區短期負荷預測的適用性,針對某市某多個配電臺區構建了LSTM 短期負荷預測模型,分析了模型對不同分類方式下的預測精度及其原因,得到以下結論。
(1)在本文3 種分類方式下,各類模型預測精度差異較大,說明LSTM 對不同類型配電臺區預測精度不同。
(2)缺失值占比和平均負荷與預測精度相關系數分別為0.6和-0.71,說明缺失值占比和平均負荷對預測精度影響較大。
(3)對于平均負荷大于40 kW 的配電臺區,平均預測精度達到92.22%,最高達到96.6%,和系統級的預測接近。對于平均負荷小于40 kW 的配電臺區,預測精度隨平均負荷的下降而下降。說明LSTM適用于平均負荷大于40 kW的配電臺區負荷預測。
本文的研究結果可為配電臺區短期負荷預測建模提供一定理論依據。