黃 荷,陳 杰,李毅靖,鄭 鐘,吳元林
(1.國網福建省電力有限公司,福建 福州 350001;2.國網信通億力科技有限責任公司,福建 福州 350001)
在電力數據挖掘中,對電力系統的安全評估和電網的規劃及預測是最重要的研究方向[1]。精準的負荷預測,可以為電力企業制定合理的發電計劃,降低電力損耗,提高電網的安全,對于電力用戶來說,精準的負荷預測,能夠使用戶錯峰填谷,提高電能利用率,降低用電費用[2-3]。
隨著智能電網和大數據技術的飛速發展,近年來,電力數據挖掘方法引起了人們的廣泛關注。文獻[4]提出電力數據使智慧城市的重要成分,并分別從用電行為,負荷需求流向,區域成熟度等方面分析了數據挖掘對智慧城市的巨大作用。文獻[5]針對電力數據挖掘對電網規劃建設,安全評估,負荷預測,故障診斷等方向的作用,并對數據挖掘在智慧城市的發展上的推動作用進行了分析。文獻[6]為了提高電力數據挖掘的準確性,采用蟻群聚類優化方法對粗糙數據特征進行分類,剔除干擾信息,從而獲得準確的電力數據檢測結果。文獻[7]提出了一種基于低秩的電力數據異常檢測方法,并應用拉格朗日方法優化目標方程,能夠有效檢測出智能電網種的異常信息和有害信息。文獻[8]針對海洋電力數據挖掘問題,提出了一種基于節點動態性能值得處理方法,相比于傳統的MapReduce算法,具有更快的處理速度和更高的穩定性。
針對電網大數據挖掘的方法越來越多,但是如何在具有不同特征的數據中挖掘出更高的知識,還未見有相關研究。本文針對數據特征不同的電力數據集,采用GRU-MMD方法建立準確的數據分析模型,獲得期望輸出結果。
GRU (Gated Recurrent Unit,簡稱 GRU)是在長短期循環神經網絡的基礎上發展起來的一種神經網絡[9]。GRU的學習過程如圖1所示。

圖1 GRU單元結構
如圖1所示,GRU的實現過程如式(1)~式(7)所示。
(1)
(2)
(3)
(4)
(5)
(6)
(7)

在采用GRU對電力用戶進行短期負荷預測的時候,預測流程如圖2所示[10]。

圖2 基于GRU的短期負荷預測流程
將電力用戶每天的用電情況作為一個樣本P,每隔15 min采集一次電力負荷,每天96個數據。P的維度為96。P1是待負荷預測日7天前某天的用電情況。Dp,Wp,Tp指的是負荷預測當天的日期,氣象和溫度情況。Pp指的是負荷預測值。
對于傳統的機器學習來說,樣本的訓練數據和測試數據由同一個特征空間產生,當樣本數據不是處于同一個特征空間的時候,就需要耗費大量資源去采集合適的樣本數據。遷移學習為深度學習的深入發展提供了新思路,通過將先驗知識轉換到其他相關的任務上,以提高相關任務的處理效率和準確性[11-12]。遷移學習包括領域(Domain)和任務(Task)。
領域是學習的主體。領域包括特征空間χ和邊緣分布概率P(X),且X=(x1,x2,…,xn)∈χ。若領域不同,則特征空間或邊緣概率分布也不同。設領域D={χ,P(X)},任務T={y,P(Y|X)}。y 指的是標簽空間,P{Y|X}為條件概率,通常情況下P{Y|X}沒有具體形式。目標函數的預測函數通過樣本數據對{xi,yi}得到。
遷移學習包括源領域Ds(Source domain)及目標領域DT(Target domain)[13]。源領域包含的信息對模型預測具有重要價值,是遷移的對象[14]。目標域指的是待解決問題。任務同樣包含源領域任務TS和目標領域任務TT。 遷移學習就是通過推理學習源領域的規則,得到目標領域的輸出結果,解決目標問題。表示過程為:源領域DS和TS,當DS≠DT,TS≠TT,推理得到目標域DS≠DT的預測輸出f(·)。
圖3為遷移學習的基本示例。當遷移學習應用在圖像識別的時候,源領域包含了大量的圖像,目標領域只含有少量數據,則通過訓練源領域的數據,獲取知識后,推理出目標域的預測輸出[15]。在電力數據挖掘當中,將待挖掘的電力區域作為目標領域,將歷史數據或ita電網作為源領域。

圖3 遷移學習示例
MMD(maximum mean discrepancy, 簡稱MMD)最初是用于判斷兩個樣本的分布是否一樣。在將MMD與遷移學習相結合的時候,MMD將源領域與目標領域通過推理聯系在了一起。MMD在樣本空間確定函數f,獲取兩類樣本數據的平均值,計算兩類數據的均值差異。當確定的f能夠使均值差異最大化的時候,則將差異值作為這兩類數據的MMD。MMD越小,則認為兩類數據的分布相似度越高,相反,MMD越大,則表示兩類數據分布的相似度越小。綜上所述,MMD是用來衡量兩類數據分布的相似程度。MMD的實現過程如下所述。
設F為樣本空間連續函數,存在式(1):

設X,Y分別為p和q中采集的樣本數據。X和Y的數據量分別為m,n。則MMD的經驗估計表示為式(2):
(2)
從式(2)可以看出,只有當p,q分布相同時,MMD才等于0。當處理的數據量較大的時候,對F進行限定才能加快收斂。當F為再生核希爾伯特空間的單位球時,能夠實現MMD快速收斂。可再生核希爾伯特空間的特征,采用點積來描述f→f(x)的映射,可以表示為式(3)。
f(x)=〈f,φ(x)〉H
(3)
用up和uq替換Ep[φ(x)]和Eq[φ(x)],可得式(4)。
‖up-uq‖H
(4)
對式(4)兩邊求平方,可得式(5)。
MMD2[F,p,q]=Ep〈φ(x),φ(x′)〉H+Ep〈φ(y),φ(y′)〉H-2Ep,q〈φ(x),φ(y)〉H
(5)
采用徑向基核函數代替內積。
(6)
則MMD的求解公式可以轉換為式(7)。

(7)
從式(7)中可以看出,MMD通過距離來判斷樣本相似程度。
在采用深度學習對電網進行數據挖掘的時候,引入MMD方法后的實現過程如圖4所示。

圖4 基于深度學習和遷移學習的電力數據流程圖
在對源領域和目標領域的數據進行數據預處理之后,取源領域的數據訓練神經網絡的結構。采用MMD方法求解源領域和目標領域之間的差異值,并根據差異情況調整網絡的結構,獲取新的結構。當MMD值小于設定閾值a時,表示源領域和目標領域分布類似,則網絡的結構不用調整。當MMD的值處于設定閾值[a,b]之間的時候,則對網絡的結構進行重新調整,以提高模型的知識學習能力。若MMD的值超過b,表示源領域與目標領域的差異較大,不適合遷移學習。
基于GRU的短期負荷預測遷移學習模型如圖5所示。如果源領域與目標領域的MMD小于a的時候,采用左側網絡結構獲得輸出。若源領域與目標領域的MMD處于[a,b]之間,則采用圖5右側的經過遷移學習后的網絡結構求取輸出。采用此種結構對線路跳閘故障進行預測,降低了學習率,提高了預測精度。

圖5 短期負荷預測的遷移學習模型
為了驗證本文所提的數據挖掘學習模型的準確性,進行了算例仿真。仿真用數據來自廣東省東莞市電力局,采集時間為2016—2018年。仿真用計算機為聯想,CPU cori i5 9400,內存8G。仿真的GRU參數設置如表1所示。

表1 GRU網絡參數
本文將采用目標領域數據訓練得到的模型作為模型1。采用源領域數據訓練的模型,然后采用目標領域數據進行微調的模型作為模型2。采用源領域數據訓練得到的模型,再根據目標領域數據對網絡的所有參數進行調整的模型作為模型3。源領域和目標領域的樣本分別為36 000和9 000。選用MAPE作為評價網絡模型準確度的標準。
案例A:當目標域和源領域數據健全的情況下,建立三種預測模型的MAPE與MMD的預測關系曲線如圖6所示。

圖6 案例A的MMD與MAPE的關系曲線
案例B:當目標域數據不全的時候,建立三種預測模型的MAPE與MMD的預測關系曲線如圖7所示。

圖7 案例B的MMD與MAPE的關系曲線
由于線路共有36條線路,選取前33個作為源數據,剩余的作為目標數據。含遷移學習以及不含遷移學習的MAPE結果如圖8所示。與其他現有的負荷預測方法對比結果如表2所示,其中BP1,LSTM1,GRU為未引入遷移學習的算法,BP2,LSTM2及本文所提方法為引入遷移學習的算法。

圖8 負荷預測MAPE結果對比

表2 各種算法MAPE對比結果 %
從圖6可以看出,源領域和目標領域的MMD影響著遷移學習的結果。當MMD很小的時候,模型1高于模型2的預測精度。當MMD較大的時候,模型2的預測精度高于模型1,此時模型2能夠有效遷移模型1的知識,通過引入新的層提高網絡的學習能力。
從圖7可以看出,MMD較小的時候,模型1具有更好的預測能力。隨著MMD的增大,會出現負遷移情況。當MMD較小的時候,在網絡中引入新層會導致過擬合。當MMD≤0.24,采用模型1進行預測。當 MMD≥0.24,存在負遷移情況,需要更換源領域數據重新建立模型。
從圖8可以看出,經過遷移學習之后,提升了負荷預測的準確定,降低了訓練耗時。相比于其他現有的負荷預測方法,本文所提的方法具有最高的預測精度,說明本文所提的方法更適用于電力數據挖掘。
為了提高電力數據利用率和數據挖掘的效率,本文提出了GRU-MMD的電力數據挖掘方法。對采集的電力數據進行數據預處理,然后采用MMD方法分析源領域和目標領域的數據的差異,根據差異值決定是否調整GRU網絡模型。經過仿真實驗分析,驗證了本文所提的方法能夠提高數據挖掘的精度,有益于電力大數據的準確建模。