邢巍,伍波濤,李玥
(國家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300)
電力安全對社會生產(chǎn)和人們?nèi)粘I罹哂兄匾饬x。近年來,各類竊電事件[1-2]頻繁發(fā)生,給國家和供電公司造成了巨大的經(jīng)濟損失,擾亂了合法用電者的電力秩序。竊電造成的非法交叉連接電纜將使電網(wǎng)末端的變壓器長期過載,直接影響正常供電的穩(wěn)定性和供電公司的合理用電配置,也會帶來很大的安全風險。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)[3-5]的不斷發(fā)展,智能電網(wǎng)基于智能電表可收集大量用電數(shù)據(jù)。然而,竊電和用電數(shù)據(jù)的爆炸性增長增加了竊電調(diào)查的難度,對當前的自動竊電檢測方法提出了更高的要求。為有效處理竊電檢測問題,學(xué)者們使用機器學(xué)習算法[6]來分析用戶的日常用電模式,以檢測正常用戶和非法竊電用戶。然而,由于用戶的隨機用電行為,數(shù)據(jù)中存在大量噪聲,一般的機器學(xué)習方法對數(shù)據(jù)輸入波動的變化很敏感。一旦數(shù)據(jù)集存在錯誤數(shù)據(jù),模型將難以獲得測試集的預(yù)期數(shù)據(jù)。文獻[7]提出了一種基于熵隨機森林的電網(wǎng)用戶竊電檢測方法。該方法對用戶的原始用電量的時間序列向量進行降維,提取用戶的用電特征,然后采用數(shù)據(jù)欠采樣方法建立多個數(shù)量平衡的樣本子集,并采用改進的熵隨機森林算法計算信息增益。文獻[8]提出了一種基于聚類算法的防竊電監(jiān)測與識別方法,用于監(jiān)測與辨識用戶是否存在竊電行為。文獻[9]提出了一套基于智能表的電能信息計量采集系統(tǒng)。該系統(tǒng)是一種精密、精準、安全的基于電能計量設(shè)備的防竊電方式。然而,電力數(shù)據(jù)集中正常用戶的數(shù)據(jù)量通常很大,而竊電用戶只占很小的一部分。如果直接利用收集到的數(shù)據(jù)集用于訓(xùn)練,則少數(shù)竊電用戶可能會被累積在正常用戶的噪聲中,這使得分類結(jié)果更偏向正常用戶,導(dǎo)致竊電檢測率低。此外,由于電力數(shù)據(jù)通常是長周期數(shù)據(jù),且數(shù)據(jù)中存在大量噪聲與錯誤數(shù)據(jù),這使得傳統(tǒng)機器學(xué)習方法對數(shù)據(jù)輸入波動的變化很敏感,很難學(xué)習到預(yù)期結(jié)果。
為改善上述問題,本文提出了一種基于深度學(xué)習的能檢測竊電數(shù)據(jù)的電力用戶數(shù)據(jù)分析框架。該模型結(jié)合條件生成對抗網(wǎng)絡(luò)、疊加卷積降噪自動編碼器以及梯度提升決策樹分類器,從而可有效實現(xiàn)竊電用戶檢測。
考慮到竊電行為的可變性,即定期需要根據(jù)新的用電量數(shù)據(jù)更新竊電模型,因此快速準確的模型訓(xùn)練是整個竊電模型的重要組成部分。同時,本文在竊電檢測模型框架中還引入了一個數(shù)據(jù)預(yù)處理器,用來處理電力數(shù)據(jù)。圖1 為竊電檢測框架整體結(jié)構(gòu),按功能可劃分為:數(shù)據(jù)預(yù)處理器、特征提取器和分類器3 部分。

圖1 竊電檢測框架整體結(jié)構(gòu)Fig.1 Overall structure of electric theft detection framework
在數(shù)據(jù)預(yù)處理器中,考慮到竊電行為的特殊性,竊電用戶的數(shù)量通常比普通用戶少得多,這將導(dǎo)致數(shù)據(jù)集極不平衡。為解決該問題,數(shù)據(jù)預(yù)處理器將每日功耗向量劃分為每周數(shù)據(jù)矩陣,并使用Wasserstein 準則平衡原始樣本數(shù)據(jù)。此外,數(shù)據(jù)預(yù)處理器提取原始訓(xùn)練集數(shù)據(jù),并根據(jù)一定的采樣率訓(xùn)練生成對抗網(wǎng)絡(luò)。通過生成和對抗過程,將生成有效的竊電數(shù)據(jù)并與原始訓(xùn)練集混合,最終輸出增強數(shù)據(jù)集。
由于原始電力數(shù)據(jù)樣本量大、維數(shù)高,可進一步基于特征提取器降低原始數(shù)據(jù)的維數(shù),優(yōu)化神經(jīng)元連接方法,從而加快模型訓(xùn)練過程。為此,本文提出了一種卷積疊加功率特征提取降噪自動編碼器,將147×7 維增強數(shù)據(jù)集作為訓(xùn)練輸入,經(jīng)過歸一化白化操作和多層降噪編碼,最后輸出能夠有效重建原始數(shù)據(jù)的典型特征。
分類器(LightGBM)是基于特征提取器輸出的典型特征對用戶進行分類。分類器將特征提取器提取的電力數(shù)據(jù)特征直接劃分到離散域,同時按照具有深度限制的節(jié)點擴展模式生成子樹。當決策樹的分裂數(shù)相同時,可以有效減少過擬合問題,同時獲得更高的模型精度。
為解決竊電樣本相對較小,電力數(shù)據(jù)含噪聲且不平衡的問題,本文基于條件生成對抗網(wǎng)絡(luò)生成竊電樣本。網(wǎng)絡(luò)中使用Wasserstein 距離代替KL(Kullback-Leibler)散度評估生成數(shù)據(jù)分布和原始數(shù)據(jù)分布的條件,并設(shè)置與竊電數(shù)據(jù)特征匹配的訓(xùn)練網(wǎng)絡(luò)的目標函數(shù)。最后,網(wǎng)絡(luò)生成竊電正樣本,增加竊電數(shù)據(jù)數(shù)量,同時對負樣本進行欠采樣,從而實現(xiàn)數(shù)據(jù)集的平衡。
一般情況下,生成對抗網(wǎng)絡(luò)由生成模型G和判別模型D組成。在模型訓(xùn)練過程中,G和D交替更新,網(wǎng)絡(luò)目標函數(shù)描述為
式中:E為期望函數(shù);x為輸入數(shù)據(jù);Φr為生成數(shù)據(jù)分布函數(shù);Φg為真實數(shù)據(jù)樣本分布。需注意,判別模型D(x)的初始參數(shù)可以為任意值。此外,通過數(shù)據(jù)樣本學(xué)習目標判別模型,同時最優(yōu)判別模型D*滿足公式(2)。
當存在最優(yōu)判別模型時,最優(yōu)生成模型G*的目標定義為
生成模型在訓(xùn)練過程中的損失函數(shù)定義為
式中:Dt為原始數(shù)據(jù)集;Pk為原始電力數(shù)據(jù);為生成模型生成的電力數(shù)據(jù);‖·‖F(xiàn)為F范數(shù)。
由于竊電用戶的電力數(shù)據(jù)分布不連續(xù),因此存在最優(yōu)鑒別器D*在 Φg和Φr之間采樣數(shù)據(jù)集中的梯度為0,這將導(dǎo)致梯度近似消失問題。此時,用于評估2 個分布近似值的KL 散度趨于無窮大,JS 散度為常數(shù)。因此,在生成竊電數(shù)據(jù)時,本文利用Wasserstein 距離代替KL 散度來評估 Φg和Φr,具體公式為
式中:C為包含 Φg和Φr鄰域的最小半徑;ε為噪聲;JS(·)為JS 散度。同時,根據(jù)上確界條件,W(Φr,Φg)滿足公式(6)。
進一步通過反向傳播原理連續(xù)更新神經(jīng)網(wǎng)絡(luò)參數(shù)w,并獲得判別模型目標函數(shù)Or,為
式中:φw(x)用來近似判別模型目標函數(shù)的f(x)。同時,為了使Or滿足Lipschitz 的連續(xù)假設(shè),有必要使竊電數(shù)據(jù)中生成的神經(jīng)網(wǎng)絡(luò)每次更新的權(quán)重在一定范圍內(nèi)。此外,由于竊電數(shù)據(jù)的高度隨機性和分布不確定性,在訓(xùn)練過程中往往難以收斂。為此,在訓(xùn)練期間引入用戶分類標簽(普通用戶或竊電用戶)從而形成條件生成對抗網(wǎng)絡(luò),將傳統(tǒng)的經(jīng)典對抗生成網(wǎng)絡(luò)從自由無監(jiān)督學(xué)習轉(zhuǎn)變?yōu)橄鄬θ菀资諗康挠斜O(jiān)督學(xué)習。此時,條件生成對抗神經(jīng)網(wǎng)絡(luò)的目標函數(shù)定義為
式中:x為原始數(shù)據(jù);y為標簽信息。
考慮到不同用戶之間的用電量差異很大,且隨機性很高,正常用戶和竊電用戶的數(shù)據(jù)存在大量噪聲,本文基于疊加卷積降噪自動編碼器(stacked convolution noise reduction autoencoder,SCDAE)對電力數(shù)據(jù)進行特征提取。
自動編碼器[10](autoencoder,AE)是一種典型的3 層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入數(shù)據(jù)由隱藏層h重構(gòu),從而可識別隱含信息。堆疊式自動編碼器(stacked autoencoder,SAE)通過設(shè)置多個隱藏層hi(i=1,2,···,n)來重構(gòu)輸入數(shù)據(jù),同時在多個級別提取數(shù)據(jù)特征,特征提取過程定義為
式中:σe為編碼的激活函數(shù);xi為單個用戶的日用電量數(shù)據(jù);wi和bi為編碼器神經(jīng)網(wǎng)絡(luò)權(quán)重和偏置。
AE 網(wǎng)絡(luò)無法有效處理噪聲數(shù)據(jù),為此,本文基于SCDAE 將噪聲添加到原始電力數(shù)據(jù),從帶噪電力數(shù)據(jù)重構(gòu)原始電力數(shù)據(jù)。SCDAE 過程如公式(10)所示。
考慮到輸入電力數(shù)據(jù)為147×7 維,如果使用全連接網(wǎng)絡(luò),訓(xùn)練時間過長,且訓(xùn)練數(shù)據(jù)需求過大。為此,將卷積運算引入SAE,形成SCDAE,其編碼器公式為
式中:σe為編碼器的激活函數(shù);?為卷積算子。為了盡可能保留電力數(shù)據(jù)的內(nèi)部信息,SCDAE 中舍去了池化層。同時,為了防止過度擬合,模型中引入了隨機神經(jīng)元隱藏(dropout)操作。
需注意,在訓(xùn)練編碼器時,由于卷積運算的引入,典型對稱編碼器—解碼器的結(jié)構(gòu)不再適用,因此有必要在解碼器中進行欠采樣操作,從而保持數(shù)據(jù)結(jié)構(gòu)一致。最終特征解碼器可以表示為
訓(xùn)練SCDAE 損失函數(shù)定義為
式中:Q為防止模型過度擬合的正則化項;Xi為原始數(shù)據(jù)經(jīng)SCDAE 重構(gòu)后的數(shù)據(jù)。
當利用SCDAE 對增強電力數(shù)據(jù)集執(zhí)行特征提取后,可進一步將結(jié)果帶入LightGBM 進行訓(xùn)練,從而實現(xiàn)電力數(shù)據(jù)分類。LightGBM[11]是一種基于梯度提升決策樹(gradient boosted decision tree,GBDT)優(yōu)化的分類工具。
通過構(gòu)造寬度為d的直方圖遍歷輸入數(shù)據(jù),并根據(jù)式(14)估計方差信息增益,從而找到最佳分割點。
式中:A和B為根據(jù)梯度貢獻大小按一定百分比采樣的特征數(shù)據(jù)集;O為決策樹固定節(jié)點上的特征數(shù)據(jù)集;I為單位矩陣;a和b為固定參數(shù)。同時,分類模型鄰近誤差ε (d)的最大值計算公式為
式中:n為數(shù)據(jù)集的維數(shù);σ為概率常數(shù);D為固定參數(shù)。
為驗證所提模型有效性,本文基于中國國家電網(wǎng)公司發(fā)布的用電量數(shù)據(jù)集進行實驗。數(shù)據(jù)集包含1 035 d(2014 年1 月1 日至2016 年10 月31 日)內(nèi)42 372 名電力客戶的用電量數(shù)據(jù)。
軟件環(huán)境為pycharm 搭建算法框架,并由python 基于tensorflow 搭建基礎(chǔ)網(wǎng)絡(luò)。同時,算法運行硬件環(huán)境為酷睿i7 CPU,內(nèi)存為128 G ARM的聯(lián)想服務(wù)器,操作系統(tǒng)為Ubuntu 18.04 64 位,顯卡為 NVIDIA RTX2080Ti 11G。
首先,將電力數(shù)據(jù)整合到歷史數(shù)據(jù),對數(shù)據(jù)進行插值,從而與關(guān)于時間戳的歷史數(shù)據(jù)相連接;然后,基于條件生成對抗網(wǎng)絡(luò)生成竊電樣本,形成電力增強數(shù)據(jù)集;再次,對數(shù)據(jù)進行切片以生成數(shù)據(jù)鏈;最后,將生成的數(shù)據(jù)鏈代入基于疊加卷積降噪自動編碼器執(zhí)行特征提取,并將結(jié)果輸入LightGBM分類器,從而實現(xiàn)電力數(shù)據(jù)分類。實驗時訓(xùn)練集和測試集比例為8∶2。
訓(xùn)練時采用SGD 優(yōu)化器訓(xùn)練模型。實驗時部分參數(shù)定義如下:深度學(xué)習網(wǎng)絡(luò)中批量大小設(shè)置為32;初始學(xué)習率為10–2;學(xué)習率衰減率為10–1;學(xué)習率衰減周期設(shè)置為1 000;最大迭代次數(shù)設(shè)置為30 000。LightGBM 模型中:學(xué)習率為0.1;單個決策樹的葉數(shù)為31;單個葉的最小數(shù)據(jù)量為15。
3.3.1 數(shù)據(jù)增強策略性能分析
為了驗證所提數(shù)據(jù)增強模型生成竊電功率曲線的有效性,本節(jié)對比了基于隨機過采樣(random oversampling,ROS)、人工少數(shù)類過采樣(synthetic minority over-sampling technique,SMOTE)和生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)等數(shù)據(jù)增強算法在訓(xùn)練集中的性能。同時,選取指標準確率(Accuracy)、F1 分數(shù)(F1_score)和G均值(G-mean)用來驗證不同模型性能。其中,指標G 均值可有效評估不平衡樣本的訓(xùn)練性能。不同數(shù)據(jù)增強方法性能對比結(jié)果如表1 所示。

表1 不同數(shù)據(jù)增強方法性能對比Tab.1 Performance comparison of different data enhancement methods
可以看出:通過不同方法增加數(shù)據(jù)后,基礎(chǔ)分類器在訓(xùn)練集中的性能得到了顯著改善;ROS模型和所提模型優(yōu)于傳統(tǒng)ROS 和SMOTE 模型。分析原因:ROS 和SMOTE 可對原始數(shù)據(jù)進行填充,然而無法解決數(shù)據(jù)樣本不平衡問題;GAN 網(wǎng)絡(luò)性能有所提升,然而面對數(shù)據(jù)含噪聲且不平衡的問題時,性能提升有限;本文所提數(shù)據(jù)增強方法可以根據(jù)竊電功率曲線的實際形狀和分布特征擴展訓(xùn)練集,并且對基礎(chǔ)分類器性能改善最優(yōu)。仿真結(jié)果驗證了所提模型具有較優(yōu)的數(shù)據(jù)增強性能。
3.3.2 優(yōu)化策略性能對比分析
在測試集中,將本文所提模型與邏輯回歸(logistic regression,LR)、支持向量機(support vector machine,SVM)、長短時記憶網(wǎng)絡(luò)(long and short term memory network,LSTM)等模型進行綜合對比分析。對比指標分別選取準確率、精度、召回率和F分數(shù)。不同模型綜合對比結(jié)果如表2 所示。

表2 不同模型綜合對比結(jié)果Tab.2 Comprehensive comparison results of different models
可以看出,傳統(tǒng)機器學(xué)習方法(LR 和SVM)性能較低,LR 存在過擬合問題。分析原因,電力數(shù)據(jù)維度高,傳統(tǒng)機器學(xué)習無法更深層次理解特征與特征之間的關(guān)系。與LSTM 相比,本文所提模型在測試集中性能最優(yōu),準確率和召回率分別為89.3%和69%。分析原因:LSTM 模型輸入為原始增強數(shù)據(jù)集,沒有經(jīng)過特征提取,模型訓(xùn)練時無法學(xué)習關(guān)鍵特征,導(dǎo)致最終預(yù)測能力較低;本文所提模型可綜合特征提取、分類器模型的優(yōu)勢,有效提升提取特征之間的關(guān)鍵信息能力,從而保持了較高的測試性能。實驗結(jié)果驗證了本文所提模型的可行性和有效性。
本文對電力網(wǎng)電力用戶數(shù)據(jù)進行了研究與分析,建立了一種基于深度學(xué)習的能檢測竊電行為的電力用戶數(shù)據(jù)分析模型。首先,基于條件變分自動編碼器的數(shù)據(jù)增強,可以提高樣本多樣性和均衡性,提升了模型的準確性和訓(xùn)練效率;其次,提出了一種基于LightGBM 的竊電檢測分類模型,從而實現(xiàn)用電數(shù)據(jù)準確分類。該模型為電力數(shù)據(jù)分析及安全故障隱患的發(fā)現(xiàn)提供了一定借鑒。
未來可對電力數(shù)據(jù)安全管理領(lǐng)域進行研究,如引入?yún)^(qū)塊鏈、云計算等技術(shù)提高混合配電網(wǎng)數(shù)據(jù)交互可靠性及效率,進一步發(fā)展智能化電力故障診斷及定位方案。