基于機器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀

2019-07-19 06:03:19張紋碩

山東工業(yè)技術(shù) 2019年18期

摘要：智能電表的出現(xiàn)與普及帶來了一場用電信息采集方式的變革，在給人們帶來便利的同時，也產(chǎn)生了海量的數(shù)據(jù)，這就使得不法分子的竊電行為更不易被發(fā)現(xiàn)，給電力公司帶來巨大的經(jīng)濟損失。針對這一現(xiàn)象，國內(nèi)外很多的學(xué)者都對此進行了深入的研究，并且提出了很多異常用電檢測的手段。本文對基于機器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀進行介紹，指出了當(dāng)前研究中出現(xiàn)的一些問題，并提出了一些解決措施。

關(guān)鍵詞：智能電表;用電信息采集;異常用電檢測;機器學(xué)習(xí)

DOI：10.16640/j.cnki.37-1222/t.2019.18.170

0 引言

智能電表的普及產(chǎn)生了海量的數(shù)據(jù)，這也導(dǎo)致了異常用電的檢測變得困難。在智能電網(wǎng)的時代下，這些數(shù)據(jù)普遍具有著“3V[1]”的特點，即海量（volume）、高速（velocity）和多樣（variety）。電力損失主要分為兩種，即是技術(shù)性損失和非技術(shù)性損失。技術(shù)性損失即能量傳輸損失，這一部分損失可以使用技術(shù)或?qū)＜抑R進行解釋;非技術(shù)性損失是指電網(wǎng)輸配電損失中剔除技術(shù)性損失后剩余無法用技術(shù)解釋的部分，例如竊電行為等。近些年來隨著機器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展，使得對大規(guī)模數(shù)據(jù)集的挖掘與分析成為了可能，很多研究人員將異常用電檢測與機器學(xué)習(xí)兩個領(lǐng)域相結(jié)合，取得了不錯的成果，同時也遇到了一些難題。

1 基于機器學(xué)習(xí)的異常用電檢測

1.1 基于有監(jiān)督學(xué)習(xí)的異常用電檢測

基于機器學(xué)習(xí)的異常用電檢測算法可分為兩個類型：有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)就是我們把正確答案交給計算機讓其進行學(xué)習(xí)，以達到從新樣本中預(yù)測正確答案的目的。假設(shè)我們將數(shù)據(jù)集中的用戶分為兩類：即正常用電的用戶和疑似竊電的用戶。那么在異常用電檢測領(lǐng)域，有監(jiān)督學(xué)習(xí)的過程是我們同時給出用戶的用電數(shù)據(jù)以及用戶的標簽，對模型進行訓(xùn)練，最后達到通過用電數(shù)據(jù)預(yù)測用戶類型的目的。常用的有監(jiān)督學(xué)習(xí)算法包括線性回歸、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機SVM、決策樹、樸素貝葉斯算法等。

文獻[2]介紹了MIDAS項目開發(fā)的兩種檢測異常用電數(shù)據(jù)的方法：基于神經(jīng)網(wǎng)絡(luò)的方法和基于統(tǒng)計學(xué)的方法。在基于神經(jīng)網(wǎng)絡(luò)的方法中，作者先對用電客戶進行聚類分析，減少需要分析的樣本數(shù)目，再通過算法找到嫌疑較大的用戶。

文獻[3]介紹了基于深度學(xué)習(xí)方法的異常用電檢測，作者使用了Tensor Flow構(gòu)建深度學(xué)習(xí)框架，并將算法與長短期記憶網(wǎng)絡(luò)（LSTM）進行對比，驗證了算法的優(yōu)越性。本文還將非技術(shù)性損失模型分為三類，除了大部分文獻都提到的基于統(tǒng)計學(xué)和基于數(shù)據(jù)驅(qū)動的方法外，還提出了基于專家知識的模型。

文獻[4]作者使用了多分類SVM算法并且考慮到了電力公司與竊電者之間的博弈。作者認為使用的數(shù)據(jù)集規(guī)模越小，用戶隱私的保密程度就越強，因此采樣率的選擇就轉(zhuǎn)化成了如何在隱私保密性和算法精度上進行取舍。同時作者假定了算法分類器遭受到了最壞程度的攻擊，即假定竊電者在知曉分類算法規(guī)則的情況下進行竊電活動，此外竊電者還會通過修改數(shù)據(jù)的方式污染數(shù)據(jù)集。這樣的假設(shè)對的算法性能評估更加客觀，但是算法建立的過程難度會增大。

1.2 基于無監(jiān)督學(xué)習(xí)的異常用電檢測

與有監(jiān)督學(xué)習(xí)的過程相反，無監(jiān)督學(xué)習(xí)是我們把沒有標簽數(shù)據(jù)集交給計算機進行學(xué)習(xí)，讓計算機自己對數(shù)據(jù)進行分類的過程。在異常用電檢測中，我們只給出用戶的用電數(shù)據(jù)，在不知曉用戶標簽的情況下對用戶進行分類。常用的無監(jiān)督學(xué)習(xí)算法有：K-均值算法、主成分分析法（PCA）、DBSCAN算法、BIRCH算法、限制玻爾茲曼機等。

文獻[5]提出了一種基于兩階段k-means聚類算法的異常用電檢測模型，通過灰色關(guān)聯(lián)分析法分析溫度和濕度兩個特征對電力負荷的影響，利用k-means算法對負荷模式進行提取，最后將樣本的負荷曲線與標準負荷曲線進行比較，計算每一個時刻預(yù)測值與實際值之間的歐氏距離，將這個距離進行統(tǒng)計后從大到小排列，將排名靠前的幾個用戶列為嫌疑用戶并逐一進行排查。文中提出的算法可以縮小嫌疑用戶范圍，但是只將溫度和濕度兩個相近特征進行關(guān)聯(lián)性分析，對結(jié)果的影響有限，可以通過參考更多的特征來優(yōu)化模型。

文獻[6]使用DBSCAN聚類方法進行異常用電檢測。文中將流式計算框架與DBSCAN聚類法結(jié)合到一起。流式計算框架具有動態(tài)計算、在內(nèi)存中直接處理、在線數(shù)據(jù)處理三個特點，可以快速反映系統(tǒng)當(dāng)前的狀態(tài)。通過DBSCAN對于最近一段時間產(chǎn)生的歷史數(shù)據(jù)進行聚類分析，當(dāng)新產(chǎn)生的數(shù)據(jù)達到一定規(guī)模時，替換部分歷史數(shù)據(jù)，重新進行DBSCAN聚類分析，進而形成新的聚類，達到在線檢測的效果，其實驗結(jié)果證明，將流式計算與DBSCAN相結(jié)合具有和原始DBSCAN同樣的精度。該模型的優(yōu)勢在于可以通過分析實時性更強的數(shù)據(jù)，得到更具有參考價值的結(jié)果，也可以更快地確定嫌疑目標。

文獻[7]通過重新定義樣本之間的密度關(guān)系改進了k-means算法，使得k-means算法可以處理高維數(shù)據(jù)。使用了Hadoop平臺實現(xiàn)了云計算，利用并行處理技術(shù)可以同時處理大規(guī)模的數(shù)據(jù)。作者利用了k-means算法可以克服局部最優(yōu)解的優(yōu)勢，簡單高效地實現(xiàn)了大數(shù)據(jù)下的智能用電數(shù)據(jù)挖掘。但是仍然可以在k-means算法中的k值選擇處進行相應(yīng)的優(yōu)化，使得算法的精度和速度更優(yōu)秀。

2 異常用電檢測中出現(xiàn)的問題

2.1 數(shù)據(jù)集的不平衡

目前很多帶標簽的數(shù)據(jù)集都存在正常樣本與異常樣本的比例嚴重不平衡的情況，由于異常樣本的數(shù)量過少，對異常用電樣本進行建模就變得很困難，對于這種情況，研究者們一般采用以下三種方法：對算法改進使得可以適應(yīng)異常樣本過少的情況;只使用正常樣本進行建模，將新的樣本與得到的模型進行比較，差異較大的就是異常樣本;手動平衡樣本，通過模擬異常樣本的特征，增加異常樣本的數(shù)量。以上三種方法雖然能一定程度上減輕數(shù)據(jù)集不平衡帶來的影響，但是仍然不及對優(yōu)秀的數(shù)據(jù)集進行分析的效果更好。因此，更加平衡、高質(zhì)量的數(shù)據(jù)集在研究當(dāng)中是十分重要的一環(huán)。

2.2 用戶的消費模式改變

大多數(shù)用戶的消費模式都會隨著時間改變，工作日、周末、節(jié)假日這三個時間段用戶的生活方式會發(fā)生明顯的變化，因此這三個時間段的電力負荷也會呈現(xiàn)出不同的特征;再例如季節(jié)的改變，用戶在夏季和冬季的用電模式也會發(fā)生改變：夏天由于天氣熱，空調(diào)的使用以及熱水器的使用量會明顯增加，其用電量相比春季會提高;到了冬天，采暖設(shè)備的使用也會導(dǎo)致用戶的用電模式發(fā)生改變。以上這些變化都可以從用戶長期的用電數(shù)據(jù)中捕捉到，除了這些長期的改變，還有一些非時間因素的改變。例如用戶購置了新電器導(dǎo)致用電量發(fā)生了突變;家庭聚會導(dǎo)致某一天的用電量很大;用戶生病導(dǎo)致某幾天的用電量低于預(yù)期，這些因素都會或多或少影響著模型的搭建。

2.3 對于竊電者的分析

當(dāng)前大多數(shù)模型都是從用戶的歷史負荷數(shù)據(jù)來進行建模，這種方法的好處是能清楚的了解大多數(shù)用戶的用電習(xí)慣，從而找到異常用電的個體，但是缺點是由于數(shù)據(jù)集不平衡特征的制約，沒有辦法詳細的分析竊電者的特征。我們可以參考文獻[4]，引入對抗性學(xué)習(xí)，充分地考慮了供電公司與竊電者之間的博弈，分析竊電者攻擊方式與攻擊策略的選擇，還可以把同一區(qū)域內(nèi)用戶之間的關(guān)系引入到模型之中，這樣更加有利于判斷竊電者所在的區(qū)域。或者參考文獻[1]，搭建竊電者模型去預(yù)測竊電者的竊電時間與竊電方式。

2.4 模型的泛化能力

不同的數(shù)據(jù)集記錄的用電數(shù)據(jù)大不相同，其數(shù)據(jù)的格式、記錄的特征數(shù)目、用戶所在的地理位置、用戶生活習(xí)慣、當(dāng)?shù)氐募竟?jié)更替時間都不同，因此僅通過一個數(shù)據(jù)集得到的模型其泛化能力是極為有限的，解決這一問題有兩個方向：一是獲得更高質(zhì)量，具有代表性的數(shù)據(jù)集，使其得到的模型也具有更強的代表性;二是在使用相同的計量設(shè)備的不同地區(qū)，獲得的用電數(shù)據(jù)，通過這些數(shù)據(jù)去進行綜合性的分析。

3 結(jié)論

綜上，目前有關(guān)于異常用電行為的研究大多數(shù)聚焦于利用不同的機器學(xué)習(xí)手段從數(shù)據(jù)集中發(fā)現(xiàn)潛藏的異常用電數(shù)據(jù)。機器學(xué)習(xí)的各種算法已經(jīng)趨于成熟但是仍在不斷地有性能更強的算法出現(xiàn)，例如近些年來，在面對大數(shù)據(jù)處理時，深度學(xué)習(xí)這一領(lǐng)域的算法已經(jīng)越來越展示出在大數(shù)據(jù)下的優(yōu)越性能。因此異常用電檢測領(lǐng)域也會隨著算法的更新和更高質(zhì)量的數(shù)據(jù)集的出現(xiàn)而不斷更新。除了機器學(xué)習(xí)領(lǐng)域和統(tǒng)計學(xué)的應(yīng)用，博弈論與異常檢測的結(jié)合也會在異常用電檢測領(lǐng)域發(fā)揮更大的作用。

參考文獻：

[1]陳啟鑫，鄭可迪，康重慶，皇甫奮宇.異常用電的檢測方法：評述與展望[J].電力系統(tǒng)自動化，2018（17）：189-199

[2]??igo Monedero，F(xiàn)élix Biscarri，Carlos León，Jesús Biscarri，Rocío Millán.MIDAS： Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006，2006（05）：725-734.

[3]趙文清，沈哲吉，李剛.基于深度學(xué)習(xí)的用戶異常用電模式檢測[J].電力自動化設(shè)備，2018（09）：34-38.

[4]Daisuke Mashima，Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection，2012：210-229.

[5]張鐵峰，張靖.k_means兩階段用電異常檢測方法[J].電力科學(xué)與工程，2018（12）：25-31.

[6]王桂蘭，周國亮，趙洪山，米增強.大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動化，2016（24）：27-33.

[7]趙莉，候興哲，胡君，傅宏，孫洪亮.基于改進k_means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù)，2014（10）：2715-2720.

作者簡介：張紋碩（1995-），男，吉林長春人，研究生在讀，研究方向：機器學(xué)習(xí)在電力系統(tǒng)的應(yīng)用。