卿柏元 陳玨羽 李金瑾 蔣雯倩



摘要:針對(duì)當(dāng)前電網(wǎng)單一學(xué)習(xí)器竊電檢測(cè)方法準(zhǔn)確率低、實(shí)時(shí)性差且無(wú)特征提取的問(wèn)題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)(CNN-LG)模型的竊電行為檢測(cè)方法.通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取用戶(hù)用電數(shù)據(jù)電力特征,將提取特征輸入以決策樹(shù)為基學(xué)習(xí)器的輕梯度提升機(jī)(LG)分類(lèi)器對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,據(jù)此建立基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)模型的竊電行為檢測(cè)方法.采用基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)模型對(duì)國(guó)家電網(wǎng)和愛(ài)爾蘭智能能源徑(ISET)數(shù)據(jù)集分別進(jìn)行竊電行為檢測(cè).實(shí)驗(yàn)結(jié)果表明,本文提出方法可快速準(zhǔn)確實(shí)現(xiàn)電網(wǎng)中各類(lèi)竊電行為檢測(cè),相比于現(xiàn)有檢測(cè)方法具有更高準(zhǔn)確度、更優(yōu)泛化性能和實(shí)時(shí)性.
關(guān)鍵詞:竊電;決策樹(shù);用電數(shù)據(jù);卷積神經(jīng)網(wǎng)絡(luò);輕梯度提升機(jī)
中圖分類(lèi)號(hào):TM715文獻(xiàn)標(biāo)志碼:A
Research on Detection Method of Electricity Theft Behavior Based on CNN-LG Model
QING Boyuan,CHEN Jueyu,LI Jinjin,JIANG Wenqian
(Measurement Center of Guangxi Power Grid Co.,Ltd.,Nanning 530023,China)
Abstract:Focusing on the problems of low accuracy,poor real-time performance,and no feature extraction in the current grid single learner power-theft detection method,a power-theft behavior detection method based on the Convolutional Neural Network-Light Gradient Boosting Machine (CNN-LG)model is proposed. First,the power features of user electricity data are extracted through the Convolutional Neural Network (CNN),and the extracted features are input into the Light Gradient Boosting Machine (LightGBM,LG)classifier based on the decision tree in order to train the data. On this basis,a detection method of electricity theft based on the CNN-LG model is established. Finally,the State Grid Corporation of China and Irish Smart Energy Trail(ISET)datasets are used to conduct experiments to verify the accuracy and effectiveness of the method proposed in this paper. The experimental results show that the method proposed in this paper can quickly and accurately realize the detection of various power theft behaviors in the power grid. Compared with the existing detection methods,it has higher accuracy,better generalization performance,and real-time performance.
Key words:electricity theft;decision trees;electricity data;convolutional neural networks;Light Gradient Boosting Machine(LightGBM,LG)
電力系統(tǒng)中配電網(wǎng)的電能損失分為技術(shù)損失(Technical Loss,TL)和非技術(shù)損失(Non-technical Loss,NTL)[1],造成NTL的原因多數(shù)與用戶(hù)側(cè)竊電相關(guān).竊電用戶(hù)的竊電非法行為不僅對(duì)電力公司造成巨大的經(jīng)濟(jì)損失、擾亂電力市場(chǎng)供電秩序,而且對(duì)電網(wǎng)安全穩(wěn)定運(yùn)行造成巨大風(fēng)險(xiǎn)[2].因此,研究如何提高竊電檢測(cè)準(zhǔn)確率,降低非技術(shù)損失,對(duì)于電力公司運(yùn)營(yíng)和社會(huì)發(fā)展具有重大價(jià)值與意義.
傳統(tǒng)的竊電檢測(cè)是利用人工現(xiàn)場(chǎng)稽查的方式對(duì)可疑用戶(hù)進(jìn)行排查,需耗費(fèi)巨大人力成本且效率低. 隨著智能電網(wǎng)的發(fā)展,能源互聯(lián)網(wǎng)作為智能電網(wǎng)逐漸演變的產(chǎn)物,擁有能源和信息流雙向性的特征,而由智能電表、集中器、通信網(wǎng)絡(luò)及數(shù)據(jù)管理系統(tǒng)組成的高級(jí)量測(cè)體系(Advanced Metering Infrastructure,AMI)作為能源互聯(lián)網(wǎng)信息流的主要組成部分正逐步在電網(wǎng)建立與完善.隨著AMI的快速發(fā)展,使得利用智能電表的海量數(shù)據(jù)進(jìn)行竊電檢測(cè)成為更加高效的檢測(cè)方式[3]0在AMI下利用智能電表數(shù)據(jù)對(duì)竊電行為進(jìn)行檢測(cè)的方法可分為以下3類(lèi)[1].
第1類(lèi)為基于電網(wǎng)狀態(tài)的檢測(cè)方法.該類(lèi)方法通過(guò)分析配電網(wǎng)的拓?fù)浣Y(jié)構(gòu),結(jié)合網(wǎng)絡(luò)潮流計(jì)算、系統(tǒng)狀態(tài)等理論,計(jì)算用戶(hù)數(shù)據(jù)的理論值,再與實(shí)際量測(cè)值比較,實(shí)時(shí)檢測(cè)竊電用戶(hù)[4].文獻(xiàn)[5]提出使用電力用戶(hù)的有功和無(wú)功功率歸一化殘差檢測(cè)和定位配電網(wǎng)中的異常用電.文獻(xiàn)[6]提出基于狀態(tài)估計(jì)和電源管理單元的竊電用戶(hù)檢測(cè)和定位模型,通過(guò)分析功率和電壓的量測(cè)值偏差對(duì)竊電嫌疑用戶(hù)定位. 當(dāng)前實(shí)際電網(wǎng)結(jié)構(gòu)和設(shè)備種類(lèi)較多、數(shù)據(jù)復(fù)雜、計(jì)算難度大,電網(wǎng)完整的網(wǎng)絡(luò)拓?fù)浜蛥?shù)往往難以獲取,且在配電網(wǎng)中安裝額外設(shè)備輔助檢測(cè),不僅安裝困難且需額外設(shè)備支出[7].
第2類(lèi)為基于博弈論的檢測(cè)方法.該類(lèi)方法認(rèn)為竊電用戶(hù)與電力公司之間存在博弈,且可從博弈均衡中獲得竊電用戶(hù)和正常用戶(hù)消費(fèi)的不同分布[8].文獻(xiàn)[9]構(gòu)建納什均衡模型,建立竊電用戶(hù)集與供電企業(yè)間的Stackelberg博弈.文獻(xiàn)[10]提出使用博弈論解決新型智能家居環(huán)境下的電力市場(chǎng)模型構(gòu)建問(wèn)題,由于基于博弈論的方法側(cè)重于具有強(qiáng)大假設(shè)的理論分析,尚未得到實(shí)證的檢驗(yàn)[8].
第3類(lèi)為基于人工智能檢測(cè)方法.該類(lèi)方法是AMI下最為廣泛的竊電行為檢測(cè)方法,可基于用戶(hù)負(fù)荷曲線和用電量的特征對(duì)竊電用戶(hù)識(shí)別[11].針對(duì)無(wú)標(biāo)簽的用戶(hù)數(shù)據(jù),可采用基于聚類(lèi)等無(wú)監(jiān)督學(xué)習(xí)的方法對(duì)竊電行為檢測(cè),該類(lèi)方法通過(guò)分析用戶(hù)間的用電關(guān)系發(fā)現(xiàn)離群點(diǎn),以此作為依據(jù)對(duì)竊電行為進(jìn)行檢測(cè)[12-13].而現(xiàn)階段基于無(wú)監(jiān)督學(xué)習(xí)的竊電檢測(cè)方法因其參數(shù)難以設(shè)置,從而無(wú)法達(dá)到較高的檢測(cè)精度,且難以處理大規(guī)模的高維數(shù)據(jù)[14].為克服無(wú)監(jiān)督學(xué)習(xí)方法不足,通過(guò)采用有監(jiān)督學(xué)習(xí)對(duì)帶有標(biāo)簽的用戶(hù)歷史用電量數(shù)據(jù)進(jìn)行學(xué)習(xí),尋找異常用電模式,再對(duì)其他用戶(hù)進(jìn)行竊電檢測(cè).神經(jīng)網(wǎng)絡(luò)因其網(wǎng)絡(luò)訓(xùn)練次數(shù)過(guò)多易出現(xiàn)過(guò)擬合[15],而當(dāng)采用SVM或決策樹(shù)方法時(shí),若用電數(shù)據(jù)集中含有數(shù)據(jù)缺失等噪聲時(shí)檢測(cè)結(jié)果較差[16-18],對(duì)于用戶(hù)用電高維數(shù)據(jù),基于淺層結(jié)構(gòu)的模型無(wú)法有效檢測(cè)[19].上述基于有監(jiān)督學(xué)習(xí)方法均采用單一學(xué)習(xí)器進(jìn)行竊電檢測(cè),由于不同學(xué)習(xí)器預(yù)測(cè)結(jié)果可能存在差異,因此,基于單一學(xué)習(xí)器無(wú)法通過(guò)訓(xùn)練獲取準(zhǔn)確的檢測(cè)模型[20-21].文獻(xiàn)[22]采用XGboost集成學(xué)習(xí)方法檢測(cè)竊電行為,但是該方法在處理海量用電數(shù)據(jù)時(shí),無(wú)法實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)分類(lèi),且消耗內(nèi)存資源大,尤其在遍歷分割點(diǎn)時(shí),需進(jìn)行分裂增益計(jì)算,導(dǎo)致模型訓(xùn)練時(shí)間較長(zhǎng).
本文針對(duì)電網(wǎng)中跨類(lèi)雜糅竊電行為的快速、準(zhǔn)確檢測(cè)難題,首先,對(duì)AMI下采集的用戶(hù)原始用電數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)CNN對(duì)預(yù)處理用電數(shù)據(jù)進(jìn)行特征提取;再以決策樹(shù)為基學(xué)習(xí)器的LightGBM集成學(xué)習(xí)方法對(duì)數(shù)據(jù)訓(xùn)練獲得竊電檢測(cè)模型,據(jù)此建立基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)(Convolutional Neural Network-Light Gradient Boosting Machine,CNN-LG)模型的竊電行為檢測(cè)方法;最后通過(guò)國(guó)家電網(wǎng)數(shù)據(jù)集和愛(ài)爾蘭智能能源徑(Irish Smart Energy Trail,ISET)數(shù)據(jù)集分別對(duì)本文提出方法的準(zhǔn)確性和有效性進(jìn)行驗(yàn)證與分析.
1基于CNN-LG模型竊電行為檢測(cè)算法
1.1卷積神經(jīng)網(wǎng)絡(luò)
用戶(hù)用電數(shù)據(jù)時(shí)間序列特征的準(zhǔn)確提取是實(shí)現(xiàn)竊電用戶(hù)識(shí)別的關(guān)鍵環(huán)節(jié).卷積神經(jīng)網(wǎng)絡(luò)由輸入、卷積層、池化層、全連接層及輸出層組成[23].CNN模型框架如圖1所示.CNN擁有表征學(xué)習(xí)能力,對(duì)輸入數(shù)據(jù)能按其網(wǎng)絡(luò)結(jié)構(gòu)層層學(xué)習(xí),基于CNN提取特征效果明顯,對(duì)數(shù)據(jù)沒(méi)有額外的特征工程要求.因此,本文采用CNN對(duì)用戶(hù)用電數(shù)據(jù)特征自適應(yīng)提取.
由圖1可知,卷積層為CNN的核心組成模塊,由一組平行特征圖組成,通過(guò)卷積核對(duì)輸入特征圖進(jìn)行卷積運(yùn)算,得到輸出特征圖,該特征圖中所有元素均通過(guò)同一個(gè)卷積核計(jì)算,即權(quán)值和偏置項(xiàng)共享.卷積運(yùn)算如下:
式中:X為卷積運(yùn)算后得到的數(shù)據(jù).
池化層在CNN中用于縮小模型體積,提高計(jì)算速度,同時(shí)提高所提取特征的魯棒性,在減少冗余特征量同時(shí),保留用電行為主要特征,通過(guò)減少計(jì)算參量以達(dá)到降維效果,防止過(guò)擬合現(xiàn)象,提高模型泛化能力.實(shí)際上池化操作為一種下采樣操作,其操作包括最大池化、均值池化、隨機(jī)池化等.池化操作計(jì)算式為:
式中:a(u,v)表示池化層輸入矩陣中行列的值;p(i,j)表示池化層輸出矩陣第i行j列的值;w表示參與集合區(qū)域的邊值.
全連接層將CNN中最后一個(gè)池化層的所有神經(jīng)元進(jìn)行全連接操作,其模型可表示為:
y=wx+b(4)
式中:x為全連接層的輸入;w為權(quán)值矩陣;b為偏置向量.全連接層起到所學(xué)到的分布式特征映射到樣本標(biāo)記空間的作用.
1.2LightGBM算法
LightGBM由Ke等于2017年提出[24],該方法為Boosting算法重要成員,屬于輕量級(jí)的提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)算法,以使用決策樹(shù)為學(xué)習(xí)算法的基分類(lèi)器.LightGBM主要提升GBDT在處理高維度大數(shù)據(jù)時(shí)算法訓(xùn)練效率和準(zhǔn)確度,采用分布式的算法框架,支持高效率并行訓(xùn)練,具有訓(xùn)練速度快、內(nèi)存消耗低、準(zhǔn)確度高及支持分布式計(jì)算以達(dá)到快速處理海量用戶(hù)用電數(shù)據(jù)的優(yōu)點(diǎn).算法主要通過(guò)基于直方圖(Histogram)的決策樹(shù)算法、帶深度限制的按葉生長(zhǎng)(Leaf-wise)策略、基于梯度的單邊采樣(Gradient-based one-side Sampling,GOSS)算法以及互斥特征捆綁(Exclusive Feature Bundling,EFB)算法進(jìn)行優(yōu)化.
直方圖算法也稱(chēng)為Histogram算法,先把連續(xù)的浮點(diǎn)特征值離散化成k個(gè)整數(shù),同時(shí)構(gòu)造一個(gè)寬度為k的直方圖.直方圖算法示意圖如圖2所示.
由圖2可知,在遍歷數(shù)據(jù)時(shí),根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計(jì)量,當(dāng)遍歷一次數(shù)據(jù)后,在直方圖中累積需要的統(tǒng)計(jì)量,再根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分割點(diǎn).
LightGBM算法使用按葉生長(zhǎng)(Leaf-wise)策略,如圖3所示.每次在當(dāng)前葉子節(jié)點(diǎn)中,尋找出分裂增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂,而其他結(jié)點(diǎn)不再分裂,這樣可以提高精度,但缺點(diǎn)是可能會(huì)長(zhǎng)出較深的決策樹(shù),產(chǎn)生過(guò)擬合.為此,在Leaf-wise上增加maxdepth參數(shù)進(jìn)行限制,以控制模型的復(fù)雜度,同時(shí)防止過(guò)擬合現(xiàn)象發(fā)生.
LightGBM通過(guò)基于梯度的單邊采樣算法減少數(shù)據(jù)量和互斥特征捆綁算法減少特征量以?xún)?yōu)化模型訓(xùn)練效率.基于梯度的單邊采樣算法,通過(guò)對(duì)樣本采樣的方法減少計(jì)算目標(biāo)函數(shù)增益時(shí)的復(fù)雜度,在計(jì)算信息增益時(shí),梯度更大的樣本點(diǎn)占有更重要的作用;在對(duì)樣本進(jìn)行下采樣時(shí),保留梯度較大的樣本點(diǎn),并隨機(jī)去除梯度較小的樣本點(diǎn).具體做法:首先,將樣本按照梯度排序,選出梯度最大的a×100%個(gè)樣本;在剩下小梯度數(shù)據(jù)中隨機(jī)選取b×100%個(gè)樣本,在計(jì)算信息增益時(shí),將選出來(lái)的b×100%小梯度樣本的信息增益擴(kuò)大1-a/b的倍數(shù).互斥特征捆綁算法是將互斥特征綁在一起以減少特征維度,該算法可有效減少用于構(gòu)建直方圖的特征數(shù)量,降低計(jì)算復(fù)雜度,尤其當(dāng)特征中包含大量稀疏特征時(shí),LightGBM算法訓(xùn)練速度提升更為明顯.
針對(duì)單一卷積神經(jīng)網(wǎng)絡(luò)模型,在竊電用戶(hù)分類(lèi)預(yù)測(cè)應(yīng)用中存在功能單一導(dǎo)致準(zhǔn)確率不足的問(wèn)題,本文提出2種模型的融合算法,通過(guò)LightGBM代替卷積神經(jīng)網(wǎng)絡(luò)中的Softmax層,使網(wǎng)絡(luò)中最后一層歸一化處理,變成對(duì)用電特征集成學(xué)習(xí)分類(lèi)的優(yōu)化處理,從而實(shí)現(xiàn)竊電行為的準(zhǔn)確識(shí)別.
1.3CNN-LG竊電行為檢測(cè)
為實(shí)現(xiàn)竊電行為準(zhǔn)確檢測(cè),采用CNN提取時(shí)間序列的關(guān)聯(lián)特征,將CNN結(jié)構(gòu)中Softmax層用LightGBM代替,構(gòu)建基于CNN-LG的竊電行為檢測(cè)方法.CNN-LG竊電行為檢測(cè)模型如圖4所示,實(shí)現(xiàn)步驟如下.
1)將初始化卷積神經(jīng)網(wǎng)絡(luò)用預(yù)處理后的數(shù)據(jù)集通過(guò)兩個(gè)卷積層和兩個(gè)池化層進(jìn)行預(yù)訓(xùn)練,并將訓(xùn)練好的權(quán)重固定,保存CNN模型參數(shù).
2)將預(yù)處理后數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.
3)設(shè)置網(wǎng)絡(luò)訓(xùn)練迭代次數(shù),利用訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出每次迭代的準(zhǔn)確率,并與全局準(zhǔn)確率比較,若準(zhǔn)確率更高則更新權(quán)重,否則不更新.
4)利用已經(jīng)訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對(duì)用電數(shù)據(jù)集進(jìn)行特征提取.
5)將步驟4)中提取的特征輸入至LightGBM模型,首先初始化n棵分類(lèi)決策樹(shù),其中訓(xùn)練樣例的權(quán)重為1/n;訓(xùn)練弱分類(lèi)器f(x),根據(jù)訓(xùn)練誤差確定當(dāng)前弱分類(lèi)器f(x)的權(quán)重λ;當(dāng)達(dá)到最大迭代次數(shù),訓(xùn)練得到最終分類(lèi)器,如式(5)所示.
fn(x)=λ0f0(x)+λ1f1(x)+λ2f2(x)+…+λifi(x)+…+λnfn(x)(5)
式中:n為算法迭代次數(shù);i為第i次迭代,0≤i≤n.將測(cè)試集輸入至訓(xùn)練完成的CNN-LG模型中,以此獲得檢測(cè)結(jié)果.
本文提出的CNN-LG算法流程圖如圖5所示. 該算法有效利用卷積神經(jīng)網(wǎng)絡(luò)可自適應(yīng)提取特征,且對(duì)數(shù)據(jù)無(wú)額外特征工程要求的優(yōu)點(diǎn),結(jié)合LightGBM具有并行訓(xùn)練效率高、訓(xùn)練速度快、內(nèi)存消耗低、準(zhǔn)確度高的優(yōu)勢(shì),對(duì)國(guó)家電網(wǎng)中海量用戶(hù)用電數(shù)據(jù)進(jìn)行竊電行為檢測(cè).CNN-LG模型參數(shù)設(shè)置如表1所示.
2數(shù)據(jù)分析與預(yù)處理
2.1數(shù)據(jù)分析
采用2種不同數(shù)據(jù)集驗(yàn)證本文提出方法的有效性和準(zhǔn)確性.第1種是國(guó)家電網(wǎng)(State Grid Corporation of China,SGCC)公開(kāi)數(shù)據(jù)集,該數(shù)據(jù)集包含正常用戶(hù)和竊電用戶(hù),提供是否竊電的標(biāo)簽[25-26],第2種為ISET數(shù)據(jù)集,該數(shù)據(jù)集被認(rèn)為只包含正常用戶(hù). 本文通過(guò)篡改用電數(shù)據(jù)以模擬用戶(hù)竊電,其中選取6 種模式對(duì)正常數(shù)據(jù)進(jìn)行模擬竊電攻擊模式.
SGCC數(shù)據(jù)集由中國(guó)國(guó)家電網(wǎng)提供某地區(qū)的用戶(hù)用電數(shù)據(jù),該數(shù)據(jù)集包含從2014年1月―2016年10月,近147周42 372個(gè)用戶(hù)每天的用電量.該數(shù)據(jù)集分為正常用戶(hù)和竊電用戶(hù),其中竊電用戶(hù)為3 615 個(gè),占總用戶(hù)數(shù)的8.53%;正常用戶(hù)為38 757個(gè),占總用戶(hù)數(shù)的91.47%.
對(duì)SGCC數(shù)據(jù)集進(jìn)一步分析得到正常用戶(hù)和竊電用戶(hù)電量值分別如圖6和圖7所示.由圖6(a)和7(a)可知,很難發(fā)現(xiàn)以天為單位的正常用戶(hù)日用電量和竊電用戶(hù)日用電量的用電規(guī)律;由圖6(b)和7(b)可知,正常用戶(hù)日用電量趨勢(shì)大致相同,即第3 d用電量為峰值,第5d用電量為谷值;竊電用戶(hù)在前些周日用電量呈一定幅度的周期性波動(dòng),而從某周開(kāi)始竊電用戶(hù)的日用電量隨時(shí)間變化呈下降趨勢(shì),并維持在較低用電量水平,且該147周數(shù)據(jù)呈現(xiàn)類(lèi)似規(guī)律.進(jìn)一步提煉竊電用戶(hù)行為特征可知,竊電用戶(hù)初始用電量相比正常用戶(hù)更多(正常用戶(hù)日用電量為2~4 kWh,竊電用戶(hù)日用電量為10~40 kWh),由此可知,竊電用戶(hù)竊電行為收益更大、竊電動(dòng)機(jī)更足.
為進(jìn)一步挖掘竊電用戶(hù)和正常用戶(hù)間用電量的區(qū)別,本文采用Pearson相關(guān)系數(shù)進(jìn)行分析,計(jì)算式如下:
ISET數(shù)據(jù)集由愛(ài)爾蘭CER(The Commission for Energy Regulation)組織的Electricity Customer Behaviour Trial提供,該組織通過(guò)智能電表記錄居民和商業(yè)共5 000個(gè)用戶(hù),從2009年一2010年共533 d的用電數(shù)據(jù)[27].該數(shù)據(jù)集提供各用戶(hù)每天每半小時(shí)用電量,可用向量X=[x1,x2,…,x48]代表某個(gè)用戶(hù)一天的用電量情況,該數(shù)據(jù)集被認(rèn)為全部是正常用戶(hù)的用電量數(shù)據(jù).為了對(duì)竊電檢測(cè)模型進(jìn)行訓(xùn)練,本文采用6種攻擊模式對(duì)該數(shù)據(jù)集進(jìn)行篡改,模擬產(chǎn)生竊電行為[28].該6種篡改模式數(shù)學(xué)式如表2所示.其中,類(lèi)型1表示所有讀數(shù)乘以相同的隨機(jī)生成的參數(shù)(0.2~0.8);類(lèi)型2表示電表讀數(shù)乘以不同的隨機(jī)數(shù)αt;類(lèi)型3表示電表在t1-t2時(shí)間段內(nèi)發(fā)送其抄表數(shù),并在其他時(shí)間段發(fā)送零,t1-t2是一個(gè)隨機(jī)定義的超過(guò)6h的時(shí)間段;類(lèi)型5表示電表將當(dāng)天計(jì)量數(shù)據(jù)的平均值發(fā)送到數(shù)據(jù)管理系統(tǒng);類(lèi)型4在類(lèi)型5的基礎(chǔ)上乘以隨機(jī)因子αt;類(lèi)型6表示竊電用戶(hù)顛倒一天中的抄表順序.
對(duì)任何企圖竊電的用戶(hù)來(lái)說(shuō),其目的是減少或消除自己所需支付的電費(fèi).設(shè)在力時(shí)段,經(jīng)過(guò)篡改后電表所記錄的用戶(hù)用電量為xt,對(duì)應(yīng)時(shí)刻的單位電價(jià)為pt,而用戶(hù)實(shí)際的用電量為x*t,則
即篡改后的電費(fèi)較原來(lái)更低.
用電用戶(hù)可能會(huì)將某些時(shí)刻的電表讀數(shù)直接篡改為0,或按一定比例削減自己的用電量,也有可能在不改變總體用電量的同時(shí)對(duì)用電曲線進(jìn)行移峰,以取得如式(7)所示的效果.6種攻擊模式下產(chǎn)生的用電量曲線如圖9所示.
2.2數(shù)據(jù)預(yù)處理
智能電能表采集的用戶(hù)用電量數(shù)據(jù)中可能包含錯(cuò)誤數(shù)據(jù)或有數(shù)據(jù)缺失,因此需對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)值處理,本文采用牛頓差值法對(duì)采集數(shù)據(jù)的缺失值進(jìn)行處理.已知n個(gè)點(diǎn)對(duì)(x1,y1),(x2,y2),…,(xn,yn)的所有階差商式分別為:
聯(lián)立式(8)~式(11),建立差值多項(xiàng)式f(x),有
式中:P(x)表示牛頓差值逼近函數(shù);R(x)表示誤差函數(shù).將缺失點(diǎn)x代入f(x)求得缺失值.
針對(duì)智能電能表采集的錯(cuò)誤值(即離群點(diǎn)值),本文采用3σ定律對(duì)離群值進(jìn)行修復(fù),計(jì)算式如下:
式中:σ(Xi)為向量Xi的標(biāo)準(zhǔn)差;xi為某用戶(hù)在一個(gè)周期內(nèi)的用電量值;NaN表示xi為非數(shù)值符號(hào)或0時(shí)的情況.
為平衡樣本數(shù)據(jù),本文采用隨機(jī)過(guò)采樣方法,通過(guò)復(fù)制少數(shù)類(lèi)示例來(lái)平衡數(shù)據(jù),以消除數(shù)據(jù)不平衡帶來(lái)的影響.
3算例分析
3.1模型評(píng)價(jià)指標(biāo)構(gòu)建
竊電行為檢測(cè)本質(zhì)上為二元分類(lèi)問(wèn)題,當(dāng)算法完成對(duì)用戶(hù)的分類(lèi)后,需對(duì)檢測(cè)方法的準(zhǔn)確性進(jìn)行評(píng)估.混淆矩陣是衡量方法優(yōu)劣的重要工具,表3為竊電行為檢測(cè)中的混淆矩陣.
混淆矩陣將所有被檢測(cè)用戶(hù)按照實(shí)際歸屬和檢測(cè)歸屬分為T(mén)P、FN、FP和TN這4類(lèi),TP和TN為模型檢測(cè)下正確分類(lèi)的部分,比例越高說(shuō)明檢測(cè)效果越好.命中率TPR和誤檢率FPR計(jì)算式分別如下:
由式(14)和式(15)可知,TPR越接近1,F(xiàn)PR越接近0,說(shuō)明檢測(cè)效果越好.通過(guò)表3的混淆矩陣定義召回率(Recall)、精度(Precision)以及F1值,對(duì)應(yīng)式(16)~式(18)所示.
式中:Recall表示在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率.
式中:Precision表示被分為正例的樣本中實(shí)際為正例的比例;F1表示使用調(diào)和平均結(jié)合召回率和精度的指標(biāo).
ROC曲線下區(qū)域面積AUC(Area Under ROC Curve)可通過(guò)接收者操作特征曲線(Receiver Operating Characteristic,ROC)下的各部分面積和求得,AUC值越大越好,當(dāng)AUC=1時(shí)為理想分類(lèi)器.AUC計(jì)算式如下[25]:
式中:Ranki代表樣本,的排序值;M為正樣本的個(gè)數(shù);N為負(fù)樣本的個(gè)數(shù).
平均精度均值MAP(Mean Average Precision)用于評(píng)估模型檢測(cè)性能.MAP@N定義為在前N個(gè)嫌疑度最高的用戶(hù)中,檢測(cè)模型正確識(shí)別為竊電用戶(hù)的平均精度均值[25],即
式中:r代表在前N個(gè)嫌疑度最高的用戶(hù)中竊電用戶(hù)的數(shù)量.P@ki定義為:
3.2實(shí)驗(yàn)驗(yàn)證
為驗(yàn)證本文提出算法的有效性和準(zhǔn)確性,實(shí)驗(yàn)平臺(tái)采用64位6核心十二線程的Intel Core i7- 8750H CPU@2.20 GHz,深度學(xué)習(xí)框架采用Tensor- Flow和Keras.實(shí)驗(yàn)數(shù)據(jù)為基于中國(guó)國(guó)家電網(wǎng)(SGCC)公開(kāi)數(shù)據(jù)集和ISET公開(kāi)數(shù)據(jù)集,具體介紹詳見(jiàn)本文第2節(jié).本文通過(guò)對(duì)CNN、LightGBM(該方法簡(jiǎn)稱(chēng)LG)、CNN+隨機(jī)森林(CNN用于特征提取,隨機(jī)森林用于分類(lèi),該方法簡(jiǎn)稱(chēng)CNN-RF)[29]、CNN+XG- boost(CNN用于特征提取,XGboost用于分類(lèi),該方法簡(jiǎn)稱(chēng)CNN-XG)以及本文方法進(jìn)行比較.
針對(duì)SGCC數(shù)據(jù)集的檢測(cè)試驗(yàn),各模型輸入項(xiàng)為經(jīng)預(yù)處理后的數(shù)據(jù)集.本文隨機(jī)選取50%輸入數(shù)據(jù)作為訓(xùn)練樣本(其中40%作為訓(xùn)練集,10%作為驗(yàn)證集),余下50%數(shù)據(jù)作為測(cè)試樣本.基于SGCC數(shù)據(jù)集下不同竊電檢測(cè)方法的結(jié)果如表4所示.
由表4可知,本文采用的CNN-LG竊電行為檢測(cè)模型在SGCC數(shù)據(jù)集下各項(xiàng)指標(biāo)均優(yōu)于其他幾種方法,在CNN和LightGBM模型基礎(chǔ)上檢測(cè)精度均有一定提升,其中F1值達(dá)到0.894 17,MAP@100為0.990 29;AUC值由原CNN的0.792 08和LightGBM的0.744 77提升至0.863 33.由此可知,本文提出方法有效利用二者優(yōu)點(diǎn),實(shí)現(xiàn)竊電行為準(zhǔn)確檢測(cè),且CNN和LightGBM模型融合相比于CNN與其他兩種集成學(xué)習(xí)方法融合檢測(cè)效果更好.采用ROC曲線對(duì)所有方法的實(shí)驗(yàn)結(jié)果進(jìn)行可視化描述,如圖10所示,在ROC空間坐標(biāo)中,越靠近左上的ROC曲線意味著在同樣的檢測(cè)命中率下造成的誤檢率(FPR)越低,檢測(cè)效果越好;AUC為ROC曲線下的各部分面積和,其值為竊電檢測(cè)非常重要的評(píng)價(jià)指標(biāo),本文提出的基于CNN-LG模型的竊電行為檢測(cè)方法AUC值表現(xiàn)優(yōu)于其他方法.
竊電行為的快速檢測(cè)為電力公司現(xiàn)場(chǎng)稽查提供依據(jù).對(duì)本文提出的CNN-LG竊電行為檢測(cè)模型的實(shí)時(shí)性進(jìn)行驗(yàn)證,隨機(jī)選取SGCC數(shù)據(jù)集50%作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)與CNN-XG、CNN-RF以及CNN-LG 3種融合模型訓(xùn)練時(shí)間進(jìn)行比較,其中CNN訓(xùn)練模型的迭代次數(shù)為10.各方法的實(shí)驗(yàn)結(jié)果如圖11所示,由圖11可見(jiàn),CNN-XG模型、CNN-RF模型、CNN-LG模型訓(xùn)練時(shí)間分別為93.86 s、81.74 s、42.47 s. 由此可知,本文提出方法的模型訓(xùn)練時(shí)間遠(yuǎn)低于其他兩種方法,在實(shí)際電網(wǎng)環(huán)境下的數(shù)據(jù)集中實(shí)時(shí)性表現(xiàn)更好.
針對(duì)ISET數(shù)據(jù)集的檢測(cè)試驗(yàn),在用戶(hù)533 d的樣本中隨機(jī)選擇50%的樣本,采用表2中的6種竊電手段,隨機(jī)選擇50%數(shù)據(jù)作為訓(xùn)練集(其中40%作為訓(xùn)練集,10%作為驗(yàn)證集),剩余50%數(shù)據(jù)作為測(cè)試集,以驗(yàn)證模型的有效性.基于ISET數(shù)據(jù)集下不同竊電檢測(cè)方法的結(jié)果如表5所示.
由表5可知,本文采用的CNN-LG竊電行為檢測(cè)模型在ISET數(shù)據(jù)集下各項(xiàng)指標(biāo)均優(yōu)于其他幾種方法,在CNN和LightGBM模型基礎(chǔ)上檢測(cè)精度均有一定提升,其中F1值達(dá)到0.877 75,MAP@100為1,MAP@200為0.992 16;AUC值由原CNN的0.837 31和LightGBM的0.783 84提升至0.963 44,提升效果明顯,而CNN-RF的AUC值為0.935 25,CNN-XG 的AUC值為0.958 41,由此可知,CNN和LightGBM模型融合相比于CNN與其他兩種集成學(xué)習(xí)方法融合檢測(cè)效果更好.采用ROC曲線對(duì)所有方法的實(shí)驗(yàn)結(jié)果進(jìn)行可視化描述,如圖12所示,可明顯看出,本文提出方法的AUC值表現(xiàn)優(yōu)于其他方法.
對(duì)本文提出的基于CNN-LG模型竊電行為檢測(cè)方法的實(shí)時(shí)性進(jìn)行驗(yàn)證,隨機(jī)選擇經(jīng)篡改后的ISET數(shù)據(jù)集50%數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)與CNN-XG、CNN-RF以及CNN-LG 3種融合模型訓(xùn)練時(shí)間進(jìn)行比較,其中CNN訓(xùn)練模型的迭代次數(shù)為10.圖13為ISET數(shù)據(jù)集下不同方法的模型訓(xùn)練時(shí)間,其中CNN-XG模型訓(xùn)練時(shí)間為16.37 s,CNN-RF模型訓(xùn)練時(shí)間為14.84 s,CNN-LG模型的訓(xùn)練時(shí)間為10.76 s.由此可知,本文提出方法的模型訓(xùn)練時(shí)間遠(yuǎn)低于其他兩種方法,在ISET數(shù)據(jù)集中實(shí)時(shí)性表現(xiàn)更好.
通過(guò)上述2種不同數(shù)據(jù)集的實(shí)驗(yàn)可知,本文提出的基于CNN-LG模型竊電行為檢測(cè)方法在實(shí)際電網(wǎng)數(shù)據(jù)集下檢測(cè)準(zhǔn)確度高,相比于其他幾種方法,各項(xiàng)評(píng)價(jià)指標(biāo)均更優(yōu),表現(xiàn)出良好的泛化性能,且該融合模型相比于其他融合模型實(shí)時(shí)性更好.
4結(jié)論
本文提出基于CNN-LG模型的竊電行為檢測(cè)方法,實(shí)現(xiàn)了竊電行為的快速準(zhǔn)確檢測(cè),通過(guò)國(guó)家電網(wǎng)和ISET兩種不同實(shí)際電網(wǎng)數(shù)據(jù)集對(duì)本文所提方法進(jìn)行實(shí)驗(yàn)驗(yàn)證.結(jié)果表明,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和LightGBM的融合模型可有效利用二者優(yōu)點(diǎn)對(duì)竊電行為進(jìn)行快速準(zhǔn)確檢測(cè),該模型可從用戶(hù)用電數(shù)據(jù)準(zhǔn)確提取電力特征,避免人為特征提取的不確定性和復(fù)雜性.LightGBM用于分類(lèi)預(yù)測(cè),進(jìn)一步提高檢測(cè)準(zhǔn)確度,通過(guò)減少數(shù)據(jù)量和特征量提高檢測(cè)效率,降低內(nèi)存占用率以達(dá)到快速檢測(cè)效果,且擁有更小的計(jì)算復(fù)雜度,在保證高效率的同時(shí)防止過(guò)擬合現(xiàn)象的出現(xiàn),相比于現(xiàn)有單模型和融合模型方法,表現(xiàn)出更高準(zhǔn)確度、良好的泛化性能以及更好的實(shí)時(shí)性. 本文提出方法更適用于電網(wǎng)中各類(lèi)竊電行為檢測(cè),有助于提高電力公司稽查效率,為電力公司在對(duì)非法用戶(hù)竊電行為現(xiàn)場(chǎng)稽查取證時(shí),提供有效的依據(jù)和可靠的目標(biāo).
參考文獻(xiàn)
[1]陳啟鑫,鄭可迪,康重慶,等.異常用電的檢測(cè)方法:評(píng)述與展望[J].電力系統(tǒng)自動(dòng)化,2018,42(17):189-199.
CHEN Q X,ZHENG K D,KANG C Q,et al. Detection methods of abnormal electricity consumption behaviors:review and prospect [J]. Automation of Electric Power Systems,2018,42(17):189-199. (In Chinese)
[2]王德文,楊凱華.基于生成式對(duì)抗網(wǎng)絡(luò)的竊電檢測(cè)數(shù)據(jù)生成方法[J].電網(wǎng)技術(shù),2020,44(2):775-782.
WANG D W,YANG K H. A data generation method for electricity theft detection using generative adversarial network [J]. Power System Technology,2020,44(2):775-782. (In Chinese)
[3] ANGELOS E W S,SAAVEDRA O R,CORTES O A C,et al. Detection and identification of abnormalities in customer consumptions in power distribution systems[J]. IEEE Transactions on Power Delivery,2011,26(4):2436-2442.
[4]HUANG S C,LO Y L,LU C N. Non-technical loss detection using state estimation and analysis of variance[J]. IEEE Transactions on Power Systems,2013,28(3):2959-2966.
[5] RAGGI L M R,TRINDADE F C L,CUNHA V C,et al. Nontechnical loss identification by using data analytics and customer smart meters[J]. IEEE Transactions on Power Delivery,2020,35 (6):2700-2710.
[6]CARQUEX C,ROSENBERG C. Multi-timescale electricity theft detection and localization in distribution systems based on state estimation and PMU measurements [C]//Proceedings of the Ninth International Conference on Future Energy Systems. New York,USA:Association for Computing Machinery,2015:282-290.
[7] KRISHNA VB,GUNTER C A,SANDERS W H. Evaluating detectors on optimal attack vectors that enable electricity theft and DER fraud[J]. IEEE Journal of Selected Topics in Signal Processing,2018,12(4):790-805.
[8] AMIN S,SCHWARTZ G A,CARDENAS A A,et al. Game- theoretic models of electricity theft detection in smart utility net- works:providing new capabilities with advanced metering infrastructure [J]. IEEE Control Systems Magazine,2015,35(1):66-81
[9]CARDENAS A A,AMIN S,SCHWARTZ G,et al. A game theory model for electricity theft detection and privacy-aware control in AMI systems[C]//2012 50th Annual Allerton Conference on Communication,Control,and Computing (Allerton). Monticello,IL,USA:IEEE,2012:1830-1837.
[10] LIU Y,HU S Y,HUANG H,et al. Game-theoretic market-driven smart home scheduling considering energy balancing[J]. IEEE Systems Journal,2017,11(2):910-921
[11] ZHENG K D,CHEN Q X,WANG Y,et al. A novel combined data-driven approach for electricity theft detection [J]. IEEE Transactions on Industrial Informatics,2019,15(3):1809-1819
[12]莊池杰,張斌,胡軍,等.基于無(wú)監(jiān)督學(xué)習(xí)的電力用戶(hù)異常用電模式檢測(cè)[J].中國(guó)電機(jī)工程學(xué)報(bào),2016,36(2):379-387.
ZHUANG C J,ZHANG B,HU J,et al. Anomaly detection for power consumption patterns based on unsupervised learning[J]. Proceedings of the CSEE,2016,36(2):379-387. (In Chinese)
[13]程超,張漢敬,景志敏,等.基于離群點(diǎn)算法和用電信息采集系統(tǒng)的反竊電研究[J].電力系統(tǒng)保護(hù)與控制,2015,43(17):69-74.
CHENG C,ZHANG H J,JING Z M,et al. Study on the antielectricity stealing based on outlier algorithm and the electricity information acquisition system [J]. Power System Protection and Control,2015,43(17):69-74.(In Chinese)
[14]金晟,蘇盛,曹一家,等.基于格蘭杰歸因分析的高損臺(tái)區(qū)竊電檢測(cè)[J].電力系統(tǒng)自動(dòng)化,2020,44(23):82-89.
JIN S,SU S,CAO Y J,et al. Electricity-theft detection for high- loss distribution area based on granger causality analysis[J]. Automation of Electric Power Systems,2020,44(23):82-89. (In Chinese)
[15]李曉峰,劉剛,衛(wèi)晉,等.基于卷積神經(jīng)網(wǎng)絡(luò)與特征選擇的醫(yī)療圖像誤差預(yù)測(cè)算法[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,48 (4):90-99.
LI X F,LIU G,WEI J,et al. Error prediction algorithm of medical image based on convolution neural network and feature selection [J]. Journal of Hunan University (Natural Sciences),2021,48(4):90-99.(In Chinese)
[16] NAGI J,YAP K S,TIONG S K,et al. Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system [J]. IEEE Transactions on Power Delivery,2011,26(2):1284-1285.
[17] JINDAL A,DUA A,KAUR K,et al. Decision tree and SVM-based data analytics for theft detection in smart grid[J]. IEEE Transactions on Industrial Informatics,2016,12(3):1005-1016.
[18]李明俊,張正豪,宋曉琳,等.基于一種多分類(lèi)半監(jiān)督學(xué)習(xí)算法的駕駛風(fēng)格分類(lèi)模型[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,47(4):10-15.
LI M J,ZHANG Z H,SONG X L,et al. Driving style classification model based on a multi-label semi-supervised learning algo- rithm[J]. Journal of Hunan University(Natural Sciences),2020,47(4):10-15.(In Chinese)
[19] HU T Y,GUO Q L,SHEN X W,et al. Utilizing unlabeled data to detect electricity fraud in AMI:a semisupervised deep learning approach[J]. IEEE Transactions on Neural Networks and Learning Systems,2019,30(11):3287-3299.
[20]游文霞,申坤,楊楠,等.基于AdaBoost集成學(xué)習(xí)的竊電檢測(cè)研究[J].電力系統(tǒng)保護(hù)與控制,2020,48(19):151-159.
YOU W X,SHEN K,YANG N,et al. Research on electricity theft detection based on AdaBoost ensemble learning[J]. Power System Protection and Control,2020,48(19):151-159.(In Chinese)
[21]游文霞,申坤,楊楠,等.基于Bagging異質(zhì)集成學(xué)習(xí)的竊電檢測(cè)[J].電力系統(tǒng)自動(dòng)化,2021,45(2):105-113.
YOU W X,SHEN K,YANG N,et al. Electricity theft detection based on Bagging heterogeneous ensemble learning[J]. Automation of Electric Power Systems,2021,45(2):105-113.(In Chinese)
[22] YAN Z Z,WEN H. Electricity theft detection base on extreme gradient boosting in AMI[J]. IEEE Transactions on Instrumentation and Measurement,2021,70:1-9.
[23]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
ZHOU F Y,JIN L P,DONG J. Review of convolutional neural net- work[J]. Chinese Journal of Computers,2017,40(6):1229- 1251.(In Chinese)
[24] KE G,MENG Q,F(xiàn)INLEY T,et al. LightGBM:a highly efficient gradient boosting decision tree [C]//Advances in Neural Information Processing Systems. Long Beach,USA:Curran Associates Inc.,2017:1-9.
[25] ZHENG Z B,YANG Y T,NIU X D,et al. Wide and deep convolutional neural networks for electricity-theft detection to secure smart grids[J]. IEEE Transactions on Industrial Informatics,2018,14(4):1606-1615.
[26] TAKIDDIN A,ISMAIL M,NABIL M,et al. Detecting electricity theft cyber-attacks in AMI networks using deep vector embed- dings[J]. IEEE Systems Journal,2021,15(3):4189-4198.
[27] Irish Smart Energy Trial. Data from the commission for energy regulation (CER)-smart metering project [EB/OL]. [2012-01-13]. http://www.ucd.ie/issda/data/commissionforenergyregulationcer/.
[28] JOKAR P,ARIANPOO N,LEUNG V C M. Electricity theft detection in AMI using customers,consumption patterns [J]. IEEE Transactions on Smart Grid,2016,7(1):216-226.
[29] LI S,HAN Y H,YAO X,et al. Electricity theft detection in power grids with deep learning and random forests[J]. Journal of Electrical and Computer Engineering,2019:4136874.