李晶晶,張永敏,田桂林,崔勝勝,嚴潔
(國網青海省電力公司營銷服務中心,青海西寧 810000)
數據驅動是實現數據監測、分析、研究的重要手段,目前網絡用戶的數據量大幅度上升,數據驅動空間的負荷預測對于保證數據的安全可靠分析、降低數據分析成本、提高數據分析效率、合理規劃數據使用領域具有關鍵性作用。針對數據的數量大、種類多、隨機性強等特性,傳統的基于CNN 神經網絡的數據驅動空間負荷預測方法采用誤差傳播算法確定數據訓練層次,不斷調整數據權值,預測數據內部空間負荷。但由于缺少對采集數據的處理步驟,且計算流程復雜,導致該模型的預測精度低、速度慢,不能滿足當前社會的應用需求[1-3]。
基于以上模型的應用弊端,該文提出了基于LSTM 神經網絡的數據驅動空間負荷預測方法,在構建LSTM 神經網絡預測模型的基礎上分析處理數據,確定模型內部的輸出量,確定LSTM 神經網絡結構,從而對數據驅動空間負荷進行精準預測。經過對比實驗驗證,該方法可以提高預測能力,減小預測誤差。
神經網絡的本質是通過模擬人腦的神經元在相應的網絡架構中設置算法節點,從而利用計算機模擬人腦進行數據學習,采用不同的算法解決不同的問題。LSTM 神經網絡是以循環神經網絡為基礎進行優化改進的算法,能夠更完善地解決數據訓練中的梯度消失問題[4-5]。
利用LSTM 神經網絡建立數據驅動空間負荷預測模型的優勢在于能夠在短時間內處理序列,通過預測模型確定隱藏單元,通過多個神經元的合力分析隱藏單元之間的關系,從而確定訓練數據間隱含的映射關系,且輸入特殊的時序促使該模型具有較高的訓練速度的同時,對長周期依賴型數據也具有較好的學習能力。
針對長周期的數據驅動空間負荷數據,基于LSTM 神經網絡的預測模型采用循環機理,前一層神經元輸出的時間點保持與下一層神經元輸入的時間點相同,在預測歷史數據的同時,也能避免發生隨著時間延遲導致忘記歷史數據規律的問題[6]。各層次的神經元以鏈式結構相連接,使各神經元的分析數據能夠在網絡結構中相互傳遞,且為解決梯度下劃問題,采用特定的“門結構”保證各神經元數據傳遞的穩定性和完整性。即采用輸入門和輸出門控制數據的輸入和輸出,利用遺忘門記錄數據訓練規律,保證模型訓練的可持續性,基于LSTM 神經網絡的預測模型結構示意圖如圖1 所示。
對基于LSTM 神經網絡的數據驅動空間負荷預測方法而言,數據預處理和分析是保障數據真實性和可靠性的關鍵步驟。在數據采集過程中,由于采集設備參數錯誤或人為操作誤差,可能導致采集數據殘缺、重復等情況,一旦需要處理數據與實際數據存在一定的偏差,最終的預測結果則不具有代表性[7-8]。該文為了保證數據驅動空間負荷預測的準確性,在數據訓練前,通過數據預處理,確定內部的殘缺數據,去除重復數據。
數據驅動空間數據具有周期性特征,根據數據的此項特征,該文的數據預處理操作不僅更新了數據處理的流程,而且也擴展了數據采集的范圍。在數據采集前,需要獲取數據驅動空間負荷數據100 s 前和100 s 后兩個不同時刻的神經網絡數據。考慮到LSTM 神經網絡模型對于尺度數據具有敏感性,因此該文會將初次采集到的數據進行歸一化處理,保證采集數據的完整性,降低數據輸入輸出量選擇的難度,以提高數據驅動空間負荷預測的準確性。具體的歸一化處理公式如式(1)所示:
式(1)中,X表示初次采集到的數據驅動空間負荷數據;Xmin表示采集到網絡數據的最小值;Xmax表示原始單個數據的最大值;Xnorm表示歸一化處理后單個數據的中間值;h表示歸一化處理的尺度大小。
為了保證數據預處理操作的公平性和科學性,使數據計算的收斂速度保持穩定,該文設計的數據預處理操作頻率為10分鐘處理一個數據,并且將48個數據作為一個單位矩陣[9-10]。數據預處理操作的準備工作完成后,具體的數據預處理流程如下所示:
步驟一:將采集到的數據進行有效性檢驗,檢驗公式如式(2)所示:
式(2)中,p表示檢驗閾值;Xn,j表示采集數據時數據的修正數據;j表示數據關聯的兩個橫向負荷點;ε表示與數據相關聯的兩個日負荷點;Xˉ表示數據整體的規范平均值。
步驟二:若數據元素的計算結果不滿足式(2),則此數據不具有計算意義,拋出并重新訓練,直至全部輸出滿足式(2)的計算結果,進行步驟三。
姐姐先把消息截屏下來,再把消息刪除,然后把消息截屏發到她的手機上并刪除消息,最后再把媽手機上的截屏給刪掉,整件事看不出一點破綻。
步驟三:將完成所有檢驗的有效數據,以數據量為單位隨機分成若干組,然后進行數據量的排序。
步驟四:排序后,按照序列將所有數據變換處理為矩陣的形式,為神經網絡結構的確定奠定計算基礎[11]。
數據輸入輸出量選擇的目的是提供數據神經網絡訓練的對象,達到確定神經網絡結構的目的。數據輸入輸出量的選擇與數據的負荷值和時間曲線有關,時間曲線表現出數據的可變化性,數據的負荷值表現出數據的可用性[12-13]。
對于LSTM 數據輸入輸出量的確定,首先兩個數據必須要滿足一定的時間間隔,對于網絡數據的訓練才具有意義。輸入輸出量的選擇要經過兩個階段的選擇訓練,第一次數據的選擇通過時間序列模型進行計算,主要目的是選擇出具有時間間隔的輸入輸出變量;第二次數據的選擇通過自相關模型,借用單一維度理論思想,即僅從一個角度選擇自相關模型,以選擇出滿足負荷相關性的輸入輸出變量,LSTM 的單元結構如圖2 所示。
傳統的神經網絡結構確定方法的原理是在基礎上嵌套多個網絡完成計算,為了打破此計算模型,該文設計的兩種神經網絡結構都是在一個網絡的層次上完成計算,在保證結果準確度的基礎上,確定神經網絡結構。因為數據的格式不同,為了保證LSTM 神經網絡結構的精密度,該文根據神經網絡結構的規范,對應不同的輸入輸出變量分別采用多模型單變量預測方法和單模型多變量預測方法完成。
主要操作流程如圖3 所示。
2)確定數據輸入輸出節點的數量,根據數據節點的數據量,確定執行哪一種LSTM 神經網絡結構預測方法,提高預測的效率和準確性。
3)按照需求調用多模型單變量預測方法或者單模型多變量預測方法,經過計算確定出最終的LSTM神經網絡結構,輸出即可。其中,多模型單變量預測方法的原理是不斷地重新擬合每個數據變量的網絡,將所有數據遍歷完成后,輸出LSTM 神經網絡結構結果[14-16]。多模型單變量預測方法可以面向所有類型的數據,此方法的優點是所構建的計算網絡較小,對于參數計算的收斂速度較小,反應速度較快。單模型多變量預測方法的原理是將數據每個時刻的值作為關聯因素,確定神經網絡結構,所面向的對象是具有鮮明時刻特征的網絡數據。此方法的優點是確定過程簡單,容易分析。
為驗證該文研究的基于LSTM 神經網絡的數據驅動空間負荷預測方法的實際預測效果,選取2019年EUNIT 負荷數據競賽中競賽數據為訓練數據樣本,共計8 784(24×366)個數據樣本,根據模型運行需求設置實驗參數和實驗環境,同時采用該文研究的預測方法和傳統基于CNN 神經網絡的數據驅動空間負荷預測方法進行數據訓練,對比兩種預測方法的預測精度和預測效率。
實際數據訓練過程中,采用損失值表示兩種預測方法的預測精度。在某種程度上,數據訓練損失值等價于訓練誤差,在數值上表示預測值與真實值之間的預測均方差,實驗中,將設置的訓練數據樣本輸入兩種預測模型中進行3 000 次數據迭代訓練,隨著數據迭代訓練次數的增加,分析模型預測過程損失的數據,實驗結果如圖4 和圖5 所示。
從對兩種預測模型的損失值分析結果中可以看出,在前500 次數據迭代訓練中,兩種模型的損失值處于快速下降狀態,當數據迭代訓練達到1 000 次后,兩種模型的損失值趨于穩定狀態。對比兩種模型的損失值差異可知,傳統基于CNN 神經網絡的數據驅動空間負荷預測方法的損失值的穩定值為0.4,而該文提出的基于LSTM 神經網絡的數據驅動空間負荷預測方法的損失值的穩定值為0.2,且在預測過程中,該文提出的預測方法的預測結果與訓練數據的吻合度較高,由此可以得出結論,該文提出的預測方法的預測精度更高。原因在于,該文提出的預測方法針對采集數據進行了一系列的數據預處理,除去重復數據,保證訓練數據的完整性,控制神經元的輸入輸出量,結合相應的LSTM 神經網絡結構選擇合適的預測方法,提升預測精度。
經過預測精度對比后,對比兩種預測方法的訓練速度,得到的預測速度對比結果如圖6 所示。
從圖6 可以看出,針對該次實驗設置的8 000(20×400)個數據樣本,該文提出的基于LSTM 神經網絡的數據驅動空間負荷預測方法完成8 000 個數據迭代訓練的時間為1.23 s,而傳統基于CNN 神經網絡的數據驅動空間負荷預測方法完成8 000 個數據迭代訓練的時間為3.56 s,由此可以看出,該文提出的預測方法預測效率更高。區別在于該文提出的方法引入神經網絡,對數據模型能夠很好地進行關聯分析,具有較高的時間序列控制,且支持多種算法的融合計算,提升了數據處理能力,加快了預測速度。
為了解決現有方法針對長周期的數據驅動空間數據,在計算過程中,由于時間間隔較長,易遺忘上一步驟的預測結果,往往需要進行多次計算,導致預測時間較長的問題,該文基于LSTM 神經網絡提出了一種用于長周期數據驅動空間負荷預測方法,經過對比實驗分析,利用LSTM 神經網絡,分析內部驅動數據,提高處理性能,有效降低訓練數據的空間維度,深入挖掘數據價值,相較于對比方法,具有更好的預測性能。