摘 要:智能電表的出現與普及帶來了一場用電信息采集方式的變革,在給人們帶來便利的同時,也產生了海量的數據,這就使得不法分子的竊電行為更不易被發現,給電力公司帶來巨大的經濟損失。針對這一現象,國內外很多的學者都對此進行了深入的研究,并且提出了很多異常用電檢測的手段。本文對基于機器學習的異常用電檢測技術的發展現狀進行介紹,指出了當前研究中出現的一些問題,并提出了一些解決措施。
關鍵詞:智能電表;用電信息采集;異常用電檢測;機器學習
DOI:10.16640/j.cnki.37-1222/t.2019.18.170
0 引言
智能電表的普及產生了海量的數據,這也導致了異常用電的檢測變得困難。在智能電網的時代下,這些數據普遍具有著“3V[1]”的特點,即海量(volume)、高速(velocity)和多樣(variety)。電力損失主要分為兩種,即是技術性損失和非技術性損失。技術性損失即能量傳輸損失,這一部分損失可以使用技術或專家知識進行解釋;非技術性損失是指電網輸配電損失中剔除技術性損失后剩余無法用技術解釋的部分,例如竊電行為等。近些年來隨著機器學習領域的蓬勃發展,使得對大規模數據集的挖掘與分析成為了可能,很多研究人員將異常用電檢測與機器學習兩個領域相結合,取得了不錯的成果,同時也遇到了一些難題。
1 基于機器學習的異常用電檢測
1.1 基于有監督學習的異常用電檢測
基于機器學習的異常用電檢測算法可分為兩個類型:有監督學習和無監督學習。有監督學習就是我們把正確答案交給計算機讓其進行學習,以達到從新樣本中預測正確答案的目的。假設我們將數據集中的用戶分為兩類:即正常用電的用戶和疑似竊電的用戶。那么在異常用電檢測領域,有監督學習的過程是我們同時給出用戶的用電數據以及用戶的標簽,對模型進行訓練,最后達到通過用電數據預測用戶類型的目的。常用的有監督學習算法包括線性回歸、邏輯回歸、人工神經網絡、支持向量機SVM、決策樹、樸素貝葉斯算法等。
文獻[2]介紹了MIDAS項目開發的兩種檢測異常用電數據的方法:基于神經網絡的方法和基于統計學的方法。在基于神經網絡的方法中,作者先對用電客戶進行聚類分析,減少需要分析的樣本數目,再通過算法找到嫌疑較大的用戶。
文獻[3]介紹了基于深度學習方法的異常用電檢測,作者使用了Tensor Flow構建深度學習框架,并將算法與長短期記憶網絡(LSTM)進行對比,驗證了算法的優越性。本文還將非技術性損失模型分為三類,除了大部分文獻都提到的基于統計學和基于數據驅動的方法外,還提出了基于專家知識的模型。
文獻[4]作者使用了多分類SVM算法并且考慮到了電力公司與竊電者之間的博弈。作者認為使用的數據集規模越小,用戶隱私的保密程度就越強,因此采樣率的選擇就轉化成了如何在隱私保密性和算法精度上進行取舍。同時作者假定了算法分類器遭受到了最壞程度的攻擊,即假定竊電者在知曉分類算法規則的情況下進行竊電活動,此外竊電者還會通過修改數據的方式污染數據集。這樣的假設對的算法性能評估更加客觀,但是算法建立的過程難度會增大。
1.2 基于無監督學習的異常用電檢測
與有監督學習的過程相反,無監督學習是我們把沒有標簽數據集交給計算機進行學習,讓計算機自己對數據進行分類的過程。在異常用電檢測中,我們只給出用戶的用電數據,在不知曉用戶標簽的情況下對用戶進行分類。常用的無監督學習算法有:K-均值算法、主成分分析法(PCA)、DBSCAN算法、BIRCH算法、限制玻爾茲曼機等。
文獻[5]提出了一種基于兩階段k-means聚類算法的異常用電檢測模型,通過灰色關聯分析法分析溫度和濕度兩個特征對電力負荷的影響,利用k-means算法對負荷模式進行提取,最后將樣本的負荷曲線與標準負荷曲線進行比較,計算每一個時刻預測值與實際值之間的歐氏距離,將這個距離進行統計后從大到小排列,將排名靠前的幾個用戶列為嫌疑用戶并逐一進行排查。文中提出的算法可以縮小嫌疑用戶范圍,但是只將溫度和濕度兩個相近特征進行關聯性分析,對結果的影響有限,可以通過參考更多的特征來優化模型。
文獻[6]使用DBSCAN聚類方法進行異常用電檢測。文中將流式計算框架與DBSCAN聚類法結合到一起。流式計算框架具有動態計算、在內存中直接處理、在線數據處理三個特點,可以快速反映系統當前的狀態。通過DBSCAN對于最近一段時間產生的歷史數據進行聚類分析,當新產生的數據達到一定規模時,替換部分歷史數據,重新進行DBSCAN聚類分析,進而形成新的聚類,達到在線檢測的效果,其實驗結果證明,將流式計算與DBSCAN相結合具有和原始DBSCAN同樣的精度。該模型的優勢在于可以通過分析實時性更強的數據,得到更具有參考價值的結果,也可以更快地確定嫌疑目標。
文獻[7]通過重新定義樣本之間的密度關系改進了k-means算法,使得k-means算法可以處理高維數據。使用了Hadoop平臺實現了云計算,利用并行處理技術可以同時處理大規模的數據。作者利用了k-means算法可以克服局部最優解的優勢,簡單高效地實現了大數據下的智能用電數據挖掘。但是仍然可以在k-means算法中的k值選擇處進行相應的優化,使得算法的精度和速度更優秀。
2 異常用電檢測中出現的問題
2.1 數據集的不平衡
目前很多帶標簽的數據集都存在正常樣本與異常樣本的比例嚴重不平衡的情況,由于異常樣本的數量過少,對異常用電樣本進行建模就變得很困難,對于這種情況,研究者們一般采用以下三種方法:對算法改進使得可以適應異常樣本過少的情況;只使用正常樣本進行建模,將新的樣本與得到的模型進行比較,差異較大的就是異常樣本;手動平衡樣本,通過模擬異常樣本的特征,增加異常樣本的數量。以上三種方法雖然能一定程度上減輕數據集不平衡帶來的影響,但是仍然不及對優秀的數據集進行分析的效果更好。因此,更加平衡、高質量的數據集在研究當中是十分重要的一環。
2.2 用戶的消費模式改變
大多數用戶的消費模式都會隨著時間改變,工作日、周末、節假日這三個時間段用戶的生活方式會發生明顯的變化,因此這三個時間段的電力負荷也會呈現出不同的特征;再例如季節的改變,用戶在夏季和冬季的用電模式也會發生改變:夏天由于天氣熱,空調的使用以及熱水器的使用量會明顯增加,其用電量相比春季會提高;到了冬天,采暖設備的使用也會導致用戶的用電模式發生改變。以上這些變化都可以從用戶長期的用電數據中捕捉到,除了這些長期的改變,還有一些非時間因素的改變。例如用戶購置了新電器導致用電量發生了突變;家庭聚會導致某一天的用電量很大;用戶生病導致某幾天的用電量低于預期,這些因素都會或多或少影響著模型的搭建。
2.3 對于竊電者的分析
當前大多數模型都是從用戶的歷史負荷數據來進行建模,這種方法的好處是能清楚的了解大多數用戶的用電習慣,從而找到異常用電的個體,但是缺點是由于數據集不平衡特征的制約,沒有辦法詳細的分析竊電者的特征。我們可以參考文獻[4],引入對抗性學習,充分地考慮了供電公司與竊電者之間的博弈,分析竊電者攻擊方式與攻擊策略的選擇,還可以把同一區域內用戶之間的關系引入到模型之中,這樣更加有利于判斷竊電者所在的區域。或者參考文獻[1],搭建竊電者模型去預測竊電者的竊電時間與竊電方式。
2.4 模型的泛化能力
不同的數據集記錄的用電數據大不相同,其數據的格式、記錄的特征數目、用戶所在的地理位置、用戶生活習慣、當地的季節更替時間都不同,因此僅通過一個數據集得到的模型其泛化能力是極為有限的,解決這一問題有兩個方向:一是獲得更高質量,具有代表性的數據集,使其得到的模型也具有更強的代表性;二是在使用相同的計量設備的不同地區,獲得的用電數據,通過這些數據去進行綜合性的分析。
3 結論
綜上,目前有關于異常用電行為的研究大多數聚焦于利用不同的機器學習手段從數據集中發現潛藏的異常用電數據。機器學習的各種算法已經趨于成熟但是仍在不斷地有性能更強的算法出現,例如近些年來,在面對大數據處理時,深度學習這一領域的算法已經越來越展示出在大數據下的優越性能。因此異常用電檢測領域也會隨著算法的更新和更高質量的數據集的出現而不斷更新。除了機器學習領域和統計學的應用,博弈論與異常檢測的結合也會在異常用電檢測領域發揮更大的作用。
參考文獻:
[1]陳啟鑫,鄭可迪,康重慶,皇甫奮宇.異常用電的檢測方法:評述與展望[J].電力系統自動化,2018(17):189-199
[2]??igo Monedero,Félix Biscarri,Carlos León,Jesús Biscarri,Rocío Millán.MIDAS: Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006,2006(05):725-734.
[3]趙文清,沈哲吉,李剛.基于深度學習的用戶異常用電模式檢測[J].電力自動化設備,2018(09):34-38.
[4]Daisuke Mashima,Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection,2012:210-229.
[5]張鐵峰,張靖.k_means兩階段用電異常檢測方法[J].電力科學與工程,2018(12):25-31.
[6]王桂蘭,周國亮,趙洪山,米增強.大規模用電數據流的快速聚類和異常檢測技術[J].電力系統自動化,2016(24):27-33.
[7]趙莉,候興哲,胡君,傅宏,孫洪亮.基于改進k_means算法的海量智能用電數據分析[J].電網技術,2014(10):2715-2720.
作者簡介:張紋碩(1995-),男,吉林長春人,研究生在讀,研究方向:機器學習在電力系統的應用。