孟宋萍,彭 偉,田晨璐
(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟南 250101)
隨著人們生產(chǎn)、生活對電能的依賴性增強,對于其質(zhì)量與可靠性的需求也在增長。而國內(nèi)的能源結(jié)構(gòu)及分布制約了我國相關(guān)行業(yè)的發(fā)展[1]。為了應(yīng)對發(fā)展中面臨的問題,大力發(fā)展智能電網(wǎng)成為了其中的解決方案之一。
智能電網(wǎng)的發(fā)展,使得用電過程中的問題尤其是異常用電問題暴露出來。異常用電作為一種非法行為,一直受到相關(guān)部門的控制。但是隨著智能電網(wǎng)的發(fā)展,異常用電的技術(shù)手段越來越多,越來越不易被發(fā)現(xiàn),異常用電的檢測問題日益嚴重。
在美國,每年因異常用電損失60億美元[2],而我國每年損失大概200億元[3]。異常用電行為在帶來損失的同時也給電網(wǎng)的安全、穩(wěn)定的運行帶來了一定難度[4]。智能電表的普及,一方面阻止了某些異常用電行為的發(fā)生[5],另一方面提供了大量的用電數(shù)據(jù)用于分析檢測,一定程度上降低了異常用電造成的損失。但是目前異常用電所造成的能源浪費在經(jīng)濟損失上仍占很大的比例,對于異常用電的檢測方法也存在一定的提升空間。
隨著智能電表的普及,大量的用電數(shù)據(jù)為數(shù)據(jù)驅(qū)動的異常用電檢測方法提供了數(shù)據(jù)支持。數(shù)據(jù)驅(qū)動的異常用電檢測方法主要可以分為基于聚類、基于回歸以及基于分類的三類。其中,回歸和分類屬于有監(jiān)督學(xué)習(xí)方法,聚類屬于無監(jiān)督學(xué)習(xí)方法。
基于聚類的異常用電檢測方法是將相似的用電數(shù)據(jù)通過特定算法劃分成一個類別。文獻[6]通過最優(yōu)路徑森林聚類方法實現(xiàn)對異常用電的檢測,并且與k-均值聚類和高斯混合模型等聚類方法進行了對比,驗證了該方法的優(yōu)越性。文獻[7]采用了模糊C-均值聚類來檢測用戶中的異常用電行為,并且可以根據(jù)模糊程度來判斷其異常的程度。基于聚類的異常用電檢測方法好處是不需要帶標簽的數(shù)據(jù)即可實現(xiàn)異常用電檢測。但是,其缺點是聚類方法對參數(shù)的依賴性較高,參數(shù)選取通常比較困難。
基于回歸的異常用電檢測方法是根據(jù)歷史用電數(shù)據(jù)以及各類用電影響因素對未來用電量進行預(yù)測,再根據(jù)預(yù)測量與實際用電量對比來確定是否存在異常用電行為。文獻[8]使用了差分整合移動平均自回歸模型和神經(jīng)網(wǎng)絡(luò)對天然氣的用量進行了預(yù)測并且判斷是否存在異常。文獻[9]中的作者采用基于線性回歸的方法來確定單個房屋的異常,并從房屋數(shù)據(jù)中清除此類異常,從而提供能源消耗模式的精確評估。但是,在實際生活中,用戶的用電量與各種因素相關(guān)比如溫度,天氣狀況等,并且隨機性較強,因此很難依靠基于回歸的方法實現(xiàn)較高精度的檢測。
基于分類的異常用電檢測方法可以將其分為機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。經(jīng)典的機器學(xué)習(xí)方法在異常用電檢測中發(fā)揮了重要作用。文獻[10-11]中,作者提出了基于K-近鄰(KNN,K-nearest neighbor)的算法來檢測異常用電。文獻[12-13]中,作者使用支持向量機來診斷由竊電而導(dǎo)致的異常。文獻[14]中,作者改進了決策樹模型,利用異常類和正常類的密度來檢測消費數(shù)據(jù)中的異常。集成方法也為異常用電檢測貢獻了力量。文獻[15]中,作者提出了梯度樹增強(GBT,gradient boosting tree)方法來檢測異常用電行為。文獻[16]中,作者提出了以隨機森林作為分類器的模型來檢測異常用電。
隨著深度學(xué)習(xí)進入大眾的視野,基于深度學(xué)習(xí)的方法也被成功應(yīng)用于異常用電檢測中。在文獻[17]中,作者設(shè)計了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的異常檢測系統(tǒng),該系統(tǒng)可以從數(shù)據(jù)中去除季節(jié)性因素,從而能更好地捕捉數(shù)據(jù)的真實分布。文獻[18]中,作者使用循環(huán)神經(jīng)網(wǎng)絡(luò)和K-均值的混合模型識別異常消費。文獻[19-20]中,作者提出了基于自動編碼器和長短期記憶網(wǎng)絡(luò)的方法識別用電數(shù)據(jù)中的異常。文獻[21]中,作者提出了變分循環(huán)自編碼器來檢測異常。文獻[22]中,作者將隨機森林與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合來檢測竊電行為。而在文獻[23-24]中,作者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的模型,并且將用電數(shù)據(jù)轉(zhuǎn)成二維數(shù)據(jù)來學(xué)習(xí)數(shù)據(jù)特征。
盡管異常用電檢測已經(jīng)取得了很多成果,但是仍然存在著很多問題。其中最重要的問題就是用電數(shù)據(jù)存在嚴重的非均衡性。因為用電數(shù)據(jù)涉及到用戶的隱私,所以用戶一般不會公開其用電數(shù)據(jù)。即便公開,可以得到的也是正常的用電數(shù)據(jù),異常數(shù)據(jù)幾乎沒有。如果數(shù)據(jù)集中正常數(shù)據(jù)的數(shù)量遠遠大于異常數(shù)據(jù)數(shù)量,那么在訓(xùn)練檢測模型時,模型更傾向于學(xué)習(xí)正常數(shù)據(jù),不能學(xué)到異常數(shù)據(jù)的數(shù)據(jù)特征,導(dǎo)致檢測效果較差。
合成少數(shù)類過采樣技術(shù)的廣泛應(yīng)用為解決該問題提供了思路。合成少數(shù)類過采樣技術(shù)通過線性插值合成新樣本,實現(xiàn)少數(shù)類樣本和多數(shù)類樣本數(shù)量的均衡。文獻[25]中,作者使用合成少數(shù)類過采樣技術(shù)生成巖石可灌漿性分類數(shù)據(jù)。文獻[26]中,作者使用合成少數(shù)類過采樣技術(shù)擴充冷水機組故障數(shù)據(jù)。因此,在本文,可以借助上述思想,使用邊界合成少數(shù)類過采樣技術(shù)(BSMOTE,borderline synthetic minority oversampling technique)對異常數(shù)據(jù)進行擴充,得到數(shù)據(jù)平衡的數(shù)據(jù)集,然后再用于異常用電的檢測中。
另外,由于用電數(shù)據(jù)是典型的時間序列數(shù)據(jù),因此如何選擇分類器也是一個重要問題。門控循環(huán)單元(GRU,gated recurrent units)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,通過其內(nèi)部的門結(jié)構(gòu)可以實現(xiàn)對時間序列數(shù)據(jù)長期特性的記憶,并且可以緩解梯度消失的問題。文獻[27]中,作者使用門控循環(huán)單元解決時間序列中長時間依賴問題用于手勢識別。在文獻[28]中,作者使用門控循環(huán)單元用于語音識別。受上述工作的啟發(fā),在本文,使用GRU作為用電數(shù)據(jù)的分類器,實現(xiàn)對異常用電的檢測。
為了解決上述非均衡數(shù)據(jù)以及時間序列特性問題,提出了基于門控循環(huán)單元和邊界合成少數(shù)類過采樣技術(shù)的異常用電檢測方法 (GRU-BSMOTE),本文的貢獻及創(chuàng)新點如下。
1)使用BSOMTE解決數(shù)據(jù)非均衡問題。使用BSMOTE對實現(xiàn)對少數(shù)類異常數(shù)據(jù)的有效擴充,使其數(shù)量與正常數(shù)據(jù)保持一致。該過程能夠有效緩解因異常數(shù)據(jù)不足導(dǎo)致的模型訓(xùn)練不佳的問題。
2)為了更好地捕獲用電數(shù)據(jù)的時間序列特征,使用GRU對用電數(shù)據(jù)進行分類。GRU能夠有效學(xué)習(xí)數(shù)據(jù)的時間特征,在減少訓(xùn)練時間的情況下解決長時間依賴和梯度消失的問題。
3)為了驗證該方法的有效性,基于非均衡數(shù)據(jù)集做了詳細的對比實驗。實驗結(jié)果表明,該方法能夠?qū)崿F(xiàn)在不同擴充比例情況下對數(shù)據(jù)的有效擴充,并且能以更高的準確率實現(xiàn)對異常用電的檢測。
在實際應(yīng)用中,常見的數(shù)據(jù)非均衡問題的解決方法有3種,分別是數(shù)據(jù)過采樣、欠采樣和模型算法的改進。欠采樣是指少數(shù)類樣本數(shù)量不影響模型訓(xùn)練的情況下,對多數(shù)樣本欠采樣,實現(xiàn)樣本數(shù)據(jù)的均衡。過采樣是指少數(shù)類樣本數(shù)量不足以支持模型的訓(xùn)練時,對少數(shù)類樣本過采樣,使其與多數(shù)類樣本數(shù)量保持一致。模型算法的改進主要是提升模型對于少數(shù)類樣本的學(xué)習(xí)能力。基于上述方法綜合考慮后,在本文使用過采樣技術(shù)對異常用電數(shù)據(jù)進行擴充。
在各種過采樣方法中,合成少數(shù)類過采樣技術(shù)(SMOTE,synthetic minority oversampling technique)是一種常用的方法,通過合成少數(shù)類樣本來均衡數(shù)據(jù)集中各類樣本的分布,提高非均衡數(shù)據(jù)集的分類精度。合成少數(shù)類過采樣技術(shù)的原理是在相距較近的少數(shù)類樣本之間生成新樣本,沒有充分考慮近鄰樣本的分布特點,存在一定的盲目性,非常容易造成數(shù)據(jù)類別之間的重復(fù)。而位于邊界中的樣本又對于模型進行分類決策有著重要作用。因此,本文使用邊界合成少數(shù)類過采樣技術(shù)對數(shù)據(jù)進行處理,實現(xiàn)對于非均衡數(shù)據(jù)集分類精度的提升。邊界合成少數(shù)類過采樣技術(shù)是在少數(shù)類樣本的邊界樣本中合成新樣本,可以有效避免上述問題的發(fā)生,提高生成新樣本的質(zhì)量,提高模型學(xué)習(xí)各類樣本特征的能力,其原理如圖1所示,并且詳細介紹了其步驟。

圖1 邊界合成少數(shù)類過采樣技術(shù)原理圖
步驟1:計算少數(shù)類樣本的每個樣本點pi與所有樣本的歐式距離,得到該樣本的m近鄰。

由于數(shù)據(jù)各個類別的邊界數(shù)據(jù)對于模型的訓(xùn)練分類效果有著重要的作用,因此,邊界合成少數(shù)類過采樣技術(shù)在邊界樣本中合成新樣本,合成的少數(shù)類新樣本的分布更加合理,更加有利于模型區(qū)分各類數(shù)據(jù),實現(xiàn)分類準確率及精度的提高。
長短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)作為特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),主要是為了解決長時間依賴以及梯度消失等問題。長短期記憶網(wǎng)絡(luò)擁有3個由Sigmoid和點積操作構(gòu)成的門結(jié)構(gòu),通過3個門結(jié)構(gòu)的配合實現(xiàn)對時間序列中信息的丟棄和保留。雖然長短期記憶網(wǎng)絡(luò)對于長期記憶問題非常有效,但是因為其引入了很多內(nèi)容,導(dǎo)致其參數(shù)變多,使得訓(xùn)練過程難度加大。
門控循環(huán)單元是將長短期記憶網(wǎng)絡(luò)簡化改進后的處理時間序列數(shù)據(jù)的模型。門控循環(huán)單元同樣能解決長時間依賴以及梯度消失的問題,并且與長短期記憶網(wǎng)絡(luò)不同的是,門控循環(huán)單元只有兩個門結(jié)構(gòu),在輸出時也取消了二階非線性函數(shù)。在保證學(xué)習(xí)效果的基礎(chǔ)上,門控循環(huán)單元可以有效減少訓(xùn)練時間。在本文,使用門控循環(huán)單元作為分類器實現(xiàn)對用電數(shù)據(jù)的分類。門控循環(huán)單元的原理如圖2所示,并且詳細介紹了其原理。

圖2 門控循環(huán)單元原理圖
如圖2所示,門控循環(huán)單元中的門結(jié)構(gòu)都是由點積操作和Sigmoid構(gòu)成,通過二者的配合可以實現(xiàn)對信息的丟棄和保留。門控循環(huán)單元的兩個門結(jié)構(gòu)分別是重置門和更新門。
首先,重置門rt可以表示為:
rt=Sigmoid(xtWxr+ht-1Whr+br)
(1)
其中:xt是輸入,ht-1是上一節(jié)點的隱藏狀態(tài),Wxr和Whr是權(quán)重矩陣,br是偏置。Sigmoid的取值是0~1,因此可以充當(dāng)門控信號,決定丟棄多少信息保留多少信息。
然后,更新門zt可以寫做:
zt=Sigmoid(xtWxz+ht-1Whz+bz)
(2)

(3)
其中:ht-1包含了過去的信息,rt是重置門,⊙是按元素相乘。tanh激活函數(shù)可以將數(shù)據(jù)縮放到-1~1的范圍內(nèi)。
最后,最終的隱藏狀態(tài)ht可以表示為:
(4)
其中:zt的取值是0~1,當(dāng)zt趨于1時,表示長期依賴一直存在。當(dāng)zt趨于0時,表示忘記隱藏信息中的不重要信息。門控循環(huán)單元的關(guān)鍵在于使用了同一個門控zt即可實現(xiàn)對信息的遺忘和選擇記憶。
總之,門控循環(huán)單元中的重置門決定了如何將當(dāng)前輸入信息與前面的記憶信息結(jié)合,更新門決定了前面的記憶有多少保存到當(dāng)前時間。通過上述操作,可以解決對時間序列數(shù)據(jù)長期依賴問題,并且可以緩解梯度消失。
異常用電檢測中的數(shù)據(jù)非均衡問題是指數(shù)據(jù)集中異常用電數(shù)據(jù)數(shù)量遠遠小于正常數(shù)據(jù)。在模型訓(xùn)練時,很難根據(jù)少量的異常數(shù)據(jù)學(xué)習(xí)到其特征,也就是說模型很難對異常數(shù)據(jù)進行檢測識別,導(dǎo)致異常用電檢測的效率低。
智能電表收集到的用戶用電數(shù)據(jù)是典型的時間序列數(shù)據(jù),選擇怎樣的模型對其進行分類尤為重要。循環(huán)神經(jīng)網(wǎng)絡(luò)是常用于時間序列數(shù)據(jù)分類或者預(yù)測問題的模型。雖然循環(huán)神經(jīng)網(wǎng)絡(luò)處理時序數(shù)據(jù)具有一定優(yōu)勢,但是它卻無法解決時間序列中長時間依賴關(guān)系的問題,并且存在嚴重的梯度消失問題。
在本文,為了緩解非均衡數(shù)據(jù)導(dǎo)致的模型訓(xùn)練不佳的問題,使用BSMOTE對少數(shù)類數(shù)據(jù)進行擴充,得到平衡的數(shù)據(jù)集對模型進行訓(xùn)練。然后,為了更好的發(fā)掘時間序列數(shù)據(jù)的特性,解決時間序列中長期記憶以及梯度消失的問題,使用GRU構(gòu)建用電數(shù)據(jù)與用電行為的映射關(guān)系。該方法的整體框架如圖3所示,下面介紹了該方法的詳細步驟。

圖3 非均衡數(shù)據(jù)異常用電檢測流程圖
步驟1:對數(shù)據(jù)進行清洗,去除其中的異常值并且對使用平均值來代替其中的缺失值。
步驟2:由于用電數(shù)據(jù)存在嚴重的非均衡問題,即正常用電數(shù)據(jù)的數(shù)量遠遠大于異常用電數(shù)據(jù),使用BSMOTE對少數(shù)類數(shù)據(jù)進行擴充,得到平衡數(shù)據(jù)集。
步驟3:將平衡數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。使用訓(xùn)練數(shù)據(jù)集對門控循環(huán)單元進行訓(xùn)練、更新模型參數(shù)。測試數(shù)據(jù)集用于驗證模型的訓(xùn)練效果。
值得注意的是,由于對異常用電檢測模型訓(xùn)練使用的是由BSMOTE與真實數(shù)據(jù)構(gòu)成的訓(xùn)練數(shù)據(jù)集,在測試時,一方面需要測試模型對于異常檢測的準確率,另一方面也需要測試BSMOTE合成的數(shù)據(jù)是否可以用于異常用電檢測模型的訓(xùn)練。因此,測試集數(shù)據(jù)應(yīng)該全部是由真實數(shù)據(jù)構(gòu)成,不僅可以測試模型的性能,還能夠測試合成數(shù)據(jù)是否符合真實用電數(shù)據(jù)特性。
在本文使用的數(shù)據(jù)集來自文獻[29],該數(shù)據(jù)集來自國外一家省級電力公司,其中包括了正常用電數(shù)據(jù)以及五類異常用電數(shù)據(jù)。在數(shù)據(jù)集中隨機選取正常以及五類異常數(shù)據(jù)將其繪制在圖4中。

圖4 數(shù)據(jù)展示
如圖4所示,正方形點所在的線代表了正常用電數(shù)據(jù),其余5個線條代表了五類異常數(shù)據(jù)。其中,異常1表示用電量異常減少;異常2代表用戶的主線路發(fā)生故障;異常3代表用戶的支路線路發(fā)生故障;異常4代表用戶用電量異常增加;異常5代表用戶用電量在任意時間內(nèi)異常增加。
另外,為了衡量模型應(yīng)對非均衡數(shù)據(jù)的能力,使用了準確率(Acc,accuracy),精確度(P,precision),召回率(R,recall),和F1分數(shù)(F1,F(xiàn)1-score)4個指標。
準確率是預(yù)測正確的樣本數(shù)量占總樣本數(shù)量的比值,其公式如下:
(5)
其中:TP代表樣本實際是正類,模型將其預(yù)測為正類。TN代表樣本實際是負類,模型將其預(yù)測為負類。FP代表樣本實際是負類,但是模型卻將其預(yù)測為正類。FN代表樣本實際是正類,但是模型將其預(yù)測為負類。
精確度是指所有預(yù)測為正類的樣本中,實際也為正類的概率,計算公式為:
(6)
召回率是指實際為正類樣本,預(yù)測結(jié)果也是正類的概率,計算公式為:
(7)
在應(yīng)用中,精確度和召回率都希望很高,但是實際上二者是存在矛盾的,無法做到二者都最高,因此為了衡量二者的平衡,定義了F1分數(shù)。F1分數(shù)可以同時考慮精確度和召回率,也就是說精確度和召回率的平衡點是F1分數(shù),其計算公式為:
(8)
在本文,將門控循環(huán)單元與經(jīng)典分類模型支持向量機(SVM,support vector machine)以及時間序列模型長短期記憶網(wǎng)絡(luò)做了對比。
SVM作為典型的分類模型在故障診斷[30]和功率預(yù)測[31]方面取得了成功應(yīng)用。SVM通過尋找最優(yōu)分類面實現(xiàn)對數(shù)據(jù)的分類。不僅可以對線性數(shù)據(jù)進行分類,借助核技巧將非線性數(shù)據(jù)映射到高維空間,使得SVM也可以處理非線性數(shù)據(jù)。
為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的無法學(xué)習(xí)到長期依賴以及梯度消失問題,LSTM被提出[32]。LSTM的優(yōu)點是其擁有3個門結(jié)構(gòu),分別為遺忘門,輸入門和輸出門。每個門結(jié)構(gòu)都是由一個Sigmoid層和點積操作組成。通過3個門結(jié)構(gòu)的組合可以決定信息被保留多少和被丟棄多少。
本文搭建了循環(huán)層為2的堆疊GRU用于構(gòu)建用電數(shù)據(jù)與用電行為的映射關(guān)系,其中隱藏層節(jié)點數(shù)為32,損失函數(shù)設(shè)置為交叉熵損失函數(shù),優(yōu)化器設(shè)置為Adam。在對比實驗中,構(gòu)建了一個雙向LSTM模型,隱藏層節(jié)點數(shù)設(shè)置為72。在使用非線性多維支持向量分類器對用電數(shù)據(jù)進行分類時,懲罰系數(shù)設(shè)置為1,核函數(shù)設(shè)置為高斯徑向基函數(shù)(RBF,radial basis function),參數(shù)gamma設(shè)置為‘a(chǎn)uto’。
本文的所有實驗都是在一臺標準PC機上使用Python 3.7實現(xiàn)的,CPU為Intel酷睿i7-7700HQ,運行頻率為2.80 GHz,內(nèi)存為16.0 GB。
3.3.1 驗證BSMOTE的有效性
為了驗證BSMOTE生成數(shù)據(jù)是否與真實數(shù)據(jù)相似可以用于模型的訓(xùn)練,使用生成數(shù)據(jù)作為訓(xùn)練集,真實數(shù)據(jù)作為測試集做了對比實驗。另外,為了驗證均衡數(shù)據(jù)集有利于模型的訓(xùn)練,還將擴充后的均衡數(shù)據(jù)集與非均衡數(shù)據(jù)集做了對比,并且考慮了不同數(shù)量真實數(shù)據(jù)的情況下即不同擴充比例的情況下,擴充后的均衡數(shù)據(jù)集的表現(xiàn)。擴充比例是指訓(xùn)練數(shù)據(jù)集中生成數(shù)據(jù)與真實數(shù)據(jù)的比值。實驗結(jié)果如表1所示。

表1 不同訓(xùn)練數(shù)據(jù)集異常用電檢測結(jié)果
從表1可以看出,當(dāng)測試數(shù)據(jù)是真實數(shù)據(jù)時,異常用電的檢測結(jié)果較好。當(dāng)擴充比例為11∶1時,4個指標均在99%以上;當(dāng)擴充比例為5∶1時,4個指標均為98.27%;當(dāng)擴充比例為3∶1時,檢測準確率為97.97%;當(dāng)擴充比例為2∶1時,4個指標均在98%以上;當(dāng)擴充比例為1∶1時,異常用電檢測精確度為98.59%。上述數(shù)據(jù)說明使用BSMOTE生成的數(shù)據(jù)與真實數(shù)據(jù)是非常相似的,BSMOTE在異常用電數(shù)據(jù)的擴充上是成功的。
另外,也可以看出不論生成數(shù)據(jù)與真實數(shù)據(jù)的比值是多少,與非均衡數(shù)據(jù)集相比,均衡數(shù)據(jù)集效果優(yōu)于非均衡數(shù)據(jù)集。
詳細來講,在擴充比例為11∶1時,與非均衡數(shù)據(jù)集相比,準確率提高了9.38%,精確度提高了16.85%,召回率提高了26.28%,F(xiàn)1分數(shù)提高了21.85%。在擴充比例為5∶1時,與非均衡數(shù)據(jù)集相比,準確率提高了8.56%,精確度提高了9.61%,召回率提高了12.54%,F(xiàn)1分數(shù)提高了11.10%。在擴充比例為3∶1時,與非均衡數(shù)據(jù)集相比,準確率提高了7.51%,精確度提高了7.32%,召回率提高了8.31%,F(xiàn)1分數(shù)提高了7.83%。在擴充比例為2∶1時,與非均衡數(shù)據(jù)集相比,準確率提高了6.75%,精確度提高了6.34%,召回率提高了5.91%,F(xiàn)1分數(shù)提高了6.12%。在擴充比例為1∶1時,與非均衡數(shù)據(jù)集相比,準確率提高了5.38%,精確度提高了4.72%,召回率提高了4.86%,F(xiàn)1分數(shù)提高了4.79%。
上述數(shù)據(jù)說明均衡的數(shù)據(jù)更有助于模型的訓(xùn)練,有助于模型容易學(xué)習(xí)到不同類別數(shù)據(jù)的特征,提高模型的分類精度。
3.3.2 數(shù)據(jù)生成方法對比結(jié)果
為了驗證BSMOTE方法的有效性,在不同擴充比例下將其與生成對抗網(wǎng)絡(luò)(GAN,generative adversarial networks)做了對比。GAN是一種采用對抗的思想來生成數(shù)據(jù)的方法,已經(jīng)在圖像生成等多個方面取得了成功應(yīng)用。GAN是由生成器和判別器構(gòu)成。生成器負責(zé)生成與原始數(shù)據(jù)相似的數(shù)據(jù),判別器負責(zé)判斷該數(shù)據(jù)是生成數(shù)據(jù)還是真實數(shù)據(jù)。通過生成器和判別器的博弈,可以得到與原始數(shù)據(jù)相似的生成數(shù)據(jù)。
在該實驗中,均衡數(shù)據(jù)集是由BSMOTE和GAN擴充得到的,且擴充前原始數(shù)據(jù)保持一致。并且考慮了不同擴充比例后即訓(xùn)練數(shù)據(jù)中生成數(shù)據(jù)與真實數(shù)據(jù)的比值不同的情況下的分類效果,實驗結(jié)果如表2所示。

表2 不同數(shù)據(jù)生成方法對比結(jié)果
從表2中可以看出,BSMOTE生成數(shù)據(jù)訓(xùn)練的模型檢測效果優(yōu)于GAN。當(dāng)擴充比例為11∶1時,BSMOTE與GAN相比4個指標平均提高了6.28%;當(dāng)擴充比例為5∶1時,BSMOTE與GAN相比4個指標平均提高了5.86%;當(dāng)擴充比例為3∶1時,BSMOTE與GAN相比4個指標平均提高了4.32%;當(dāng)擴充比例為2∶1時,BSMOTE與GAN相比4個指標平均提高了5.12%;當(dāng)擴充比例為1∶1時,BSMOTE與GAN相比4個指標平均提高了5.25%。
3.3.3 驗證GRU的有效性
為了驗證GRU對于用電數(shù)據(jù)分類的有效性,將其與SVM和LSTM做了對比。在該實驗中,3個模型所使用的數(shù)據(jù)集是BSMOTE擴充后的均衡數(shù)據(jù)集。實驗中訓(xùn)練與測試數(shù)據(jù)集均一致,驗證在該條件下不同方法的異常用電檢測性能。并且在該實驗中,還考慮了不同擴充比例時的分類效果,實驗結(jié)果如表3所示。

表3 不同分類方法檢測結(jié)果
從表3中可以得出,本文提出的方法的結(jié)果優(yōu)于其他方法。當(dāng)擴充比例為1∶11時,GRU與LSTM相比4個評價指標提高了3.40%~3.52%,與SVM相比提高了1.52%~3.46%。當(dāng)擴充比例為1∶5時,GRU與LSTM相比4個評價指標提高了5.4%~5.52%,與SVM相比提高了3.00%~6.49%。當(dāng)擴充比例為1∶3時,GRU與LSTM相比4個評價指標提高了4.69%~5.20%,與SVM相比提高了2.82%~6.46%。當(dāng)擴充比例為1∶2時,GRU與LSTM相比4個評價指標提高了5.64%~5.85%,與SVM相比提高了3.00%~6.77%。當(dāng)擴充比例為1∶1時,GRU與LSTM相比4個評價指標提高了5.60%~5.67%,與SVM相比提高了3.16%~7.54%。
本文提出了基于門控循環(huán)單元的非均衡數(shù)據(jù)驅(qū)動的異常用電檢測方法。使用邊界合成少數(shù)類過采樣技術(shù)解決實際應(yīng)用中異常用電數(shù)據(jù)過少導(dǎo)致的非均衡數(shù)據(jù)問題。 邊界合成過采樣技術(shù)在數(shù)據(jù)類別邊界生成數(shù)據(jù),能夠?qū)崿F(xiàn)對少數(shù)類數(shù)據(jù)的有效擴充并且能夠使得模型更容易學(xué)習(xí)不同類別數(shù)據(jù)的特征。為了更好地捕獲用電數(shù)據(jù)的時間序列特征,采用GRU實現(xiàn)對用電數(shù)據(jù)的分類。經(jīng)過詳細的實驗驗證,表明該方法能夠?qū)崿F(xiàn)不同擴充比例情況下地數(shù)據(jù)有效擴充,并且能夠以更高的準確率檢測異常用電行為。在未來的研究中,將會致力于研究如何在保證檢測準確率的基礎(chǔ)上,簡化模型,降低模型參數(shù),并且進一步減少模型的訓(xùn)練時間。