蔡耀年 王明琪 劉建森 趙陸軍 李賢靚



摘要:針對竊電行為現場查證具有難以克服的現實困難,提出一種基于離群數據挖掘的竊電行為檢測方法。該離群算法基于密度聚類算法,采用基于用電量波動的不同方向識別不同的用電模式,基于用電頻率、離群距離以及異常規則關聯度的計算挖掘潛在離群數據點,并通過基于評價矩陣確定離群閾值對離群數據點存在竊電行為的可能性進行確定性分析,實現對竊電行為的數據化檢測。最后通過仿真測試證明該算法在針對混雜不同用電模式的用電數據的竊電檢測方面相對于其他數據挖掘算法具有更好的性能表現。
關鍵字:竊電檢測;離群算法;密度聚類;用電頻率;關聯規則;評價矩陣
中圖分類號:TP391
文獻標識碼:A
1 引言
我國10KV配電網的線損保持高位運行的重要原因之一是用電客戶的竊電行為[1]。近些年,一些高科技的竊電手法有愈演愈烈之勢,如遙控裝置竊電、預付費卡表破解充值、利用編程器對電表進行私自調較等,這導致竊電行為的現場查證難度越來越高[2-3]。居高不下的竊電行為給電力公司帶來巨大損失,據有關資料不完全統計,每年東北電網被竊電量高達20億kWh[4]。
為了提高電力企業管理水平和經濟效益,基于電力用戶用電信息采集系統積累的用戶用電信息,通過分析歷史用電數據,利用數據挖掘找出用戶用電的異常行為,從而實現對竊電行為檢測己成進一步提高電力公司防竊電診斷能力的熱點研究領域[5-6]。
文獻[7]針對用戶異常用電行為提出一種利用Storm的狀態監測算法對用戶實時用電數據流進行基于閡值判斷的檢測方法。文獻[8]則對用戶實時用電數據進行分析,提出了一種基于分層的異常用電行為檢測算法。文獻[9]結合聚類算法與粒子群算法對配電網的用電信息進行數據分析,找出用戶異常用電的規律。文獻[10]結合粒子群優化算法和向量機提出了一種基于自適應學習的異常用電行為檢測的算法。文獻[11]基于網格的聚類算法對用電行為的異常度進行計算。這些算法在基于異常數據計算的竊電行為檢測上具有一定的可行性,但是由與用戶用電模式差距較大,導致上述算法在實際進行異常檢測時容易出現誤判,需要加以人工干預才能獲得較為準確的竊電檢測結果。
基于上述研究,提出一種基于離群數據算法的用戶竊電行為檢測方法。該方法首先采用密度聚類算法對用戶的用電行為特征進行提取,然后結合對用電頻率、關聯規則關聯度以及聚類距離的計算,實現對異常用電數據點定量的離群檢測,為竊電行為的最終確定提供切實數據依據。
2 基于離群算法的竊電檢測思路
用電用戶的行業特征、氣象條件以及地域特征都會在較大程度上對用戶的用電量特征產生影響。對用電量從時間尺度上進行分段,每段區間包含一個特定的用電模式[12]。為便于進行用電數據離群檢測,對用電數據采用聚類算法進行分類,并基于用電頻率、聚類距離以及關聯規則對異常數據進行離群度計算。最后結合優化確定的離群閾值對離群數據進行確定性竊電判斷。離群數據檢測算法的思路如圖1所示。
3 離群算法的實現
由表1可以看出相鄰兩個區段的用地量波動方向相反,上一個區段結束時間與下一個區段開始時間重合。
3.2 異常用電區段內離群數據計算
用電區段有四個基本參數:持續時間、中心點位置、起始用電量以及結束用電量。由于這些參數之間具有不同的線性相關性,因此給區段內離群數據的計算帶來一定的困難。因此要把這些參數進行標準指標化處理,去掉參數自身的量綱屬性,便于后續基于離群算法的數據點分析[14]。此處的處理方法采用MIN-MAX離差標準化手法,如式4所示。
采用基于密度聚類的離群算法進行離群數據檢測。首先利用DBSCAN算法對用電區段內的用電數據進行分類[15]。DBSCAN算法有兩個基本的計算參數:鄰域半徑rps和鄰域閾值thmin。如果空間內任意兩數據點之間距離小于rps,則這兩點數據分別在對方的鄰域內。如果某個數據點鄰域內的數據點數量超過thmin,則該點被稱作核心數據點。核心數據點鄰域內的數據點為邊界數據點。既不是核心數據點也不是邊界數據點的為離群數據點。任意兩個小于rps的核心數據點可以屬于同一個聚類,任意數據核心點的所有邊界數據點也屬于同一個聚類[16]。
在不同的用戶區段中聚類的數量會有很大不同。對該數據點到聚類核心數據點的距離進行計算,并作為該數據電離群度的計算指標之一。
式5中dc是該用電區段中的一個聚類,dei是該用電區段中的一個數據點。DIS(dei,dc)是dei到dc的距離。AVR (dc)表示聚類de中邊界點到核心點的平均距離。
3.3 關聯規則的挖掘
關聯規則是兩個不相交的項集之間的潛在關系,可用關聯度l和可信度b加以評價[17]。設X和Y為不相交的項集,則關聯度l的計算方法如式5所示。
式5和式6中的σ表示關聯度計數,N表示事物的總個數。
超過關聯度閾值的項集為頻繁項集。在電力負荷離群數據的關聯規則計算中,為降低關聯規則的計算負荷,因此只對波動量大于1的用電區段中進行異常關聯規則ud的計算。在關聯規則分析中,考慮對非頻繁項集的關聯,將關聯度閾值設為0。基于給定時間間隔td關聯度1的表達式為:
3.5 離群度以及離群閾值的計算
離群度的計算指標有三個:離群距離R、關聯規則關聯度l和用電頻率f。離群度的計算公式是:
λ=Rxl×f×100%
(9)
當計算出的離群度λ小于離群閾值δ,則認為點時間點的用電數據為異常的離群數據。
在數據挖掘領域,常用基于特征曲線法的二維評價矩陣來對離群算法的正確率進行評價。二維評價矩陣的表達式如式10所示。
式10中,TP表示正常用電量被預測為正常用電量的樣本數,FN表示正常用電量被預測為異常用電量的樣本數,FP表示異常用電量被預測為正常用電量的樣本數,TN表示異常用電量被預測為異常用電量的樣本數。
評價矩陣四個重要參數:假正率FPR、真正率
離群數據檢測屬于不均衡類分布問題,基于算法準確率的統計對離群算法性能的評價不適用。為此在遵循數據挖掘算法通用評價規則的前提下,本文選擇由FPR和IPR組成的特征曲線的面積作為離群算法性能的評價指標。特征曲線面積越大表示算法的計算效果越好。
基于精度Pe和召回率Re構建調和量度θ:
調和量度θ的值越大,表明算法的效率越好,否則,算法的效率則較低。因此可以通過對θ的計算得出離群閾值δ。
3.6 算法實現
在基于用電量的離群算法進行竊電分析過程中,首先對用電量數據進行量化處理,并對用電頻率進行計算,然后基于用電量的波動構建異常關聯規則,并對關聯規則的關聯度進行計算。隨后依據用電量的波動方向進行用電區段的劃分,在用電區段內基于密度聚類算法進行離群數據的分析,得到各個區段的的異常數據的離群距離,存入用電量異常數據庫。根據離群距離、關聯度和用電頻率在異常數據庫中生成異常數據點離群度,然后基于評價矩陣的精度和召回率計算出離群閾值,最后通過比對離群度和離群閡值得出疑似竊電的時間、用戶。
4 仿真驗證
仿真測試的數據來自是針對某市用電采集系統中采集的商用電用戶戶和民用電用戶的實際用電數據。使用本文算法與基于層次聚類離群算法、基于K均值離群算法進行對比測試,以驗證本文所述算法性能的優越性。
隨機選擇4個商用電用戶和民用電用戶,采用基于特征曲線的分析方法,通過計算特征曲線面積來優化選擇離群算法主要參數的取值。在對算法參數優化的過程中,首先給定量化算子的值,然后對以特征曲線最大面積為目標值對鄰域半徑和鄰域閾值進行迭代運算,最終確定最合適的參數值。
由圖3可以看出,在鄰域半徑為0.08、鄰域閡值為9、量化算子為0.01時,特征曲線具有相對最大面積。因此在測試選用這組參數設定。基于評價矩陣對離群閾值和調和量度進行試驗的結果如圖4所示。
由圖4可知,離群閡值在5.9%時,調和量度達到最大值0.900,此時算法具有最好的離群數據檢測效率。
采用上述參數設置,基于本文所述算法和層次聚類離群算法、K均值離群算法進行對比測試,對三種算法運行效率的基于特征曲線的評價結果如圖5所示。
對圖3進行研究發現,本文的基于密度聚類的離群數據檢測算法相對與其他兩種算法,其特征曲線的面積最大,這表明在對用電數據進行離群分析上本文所述的算法具有最好的檢測效果。
這是由于基于層次聚類思想在進行聚類計算時,需要事先對層次結構和聚合策略進行定義,因此具有較低的聚類效率。由于在單個聚類中的用電量的波動具有不確定性,因此基于K均值聚類的離群算法無法有效確定同一聚類中的不同波動區段,導致算法的檢測精度受到較大局限。本文所采用的離群算法針對上述問題做出了針對不同聚類進行基于用電量波動的用電區段劃分的針對性優化,因此能夠很好的對具有不同用電模式的用電數據進行有效離群檢測。
5 結論
基于密度聚類的離群算法提出了一種竊電行為檢測的方法。該檢測方法采用離群算法對用電數據進行數據挖掘,從而實現竊電檢測。所述的離群算法是在對用電數據進行基于密度的聚類計算的基礎,通過對用電頻率、離群距離以及異常規則關聯度的計算實現離群數據的挖掘,并通過基于評價矩陣的離群閡值實現確定竊電點的功能。最后通過仿真測試證明了本文所述的離群算法相對其他數據挖掘算法在對具有不同模式的用電量數據進行竊電分析時具有更好的性能表現。
參考文獻
[l]劉鳳魁,鄧春宇,王曉蓉,等.基于改進快速密度峰值聚類算法的電力大數據異常值檢測[J].電力信息與通信技術,2017,15(06):36-41.
[2]許剛,談元鵬,戴騰輝.稀疏隨機森林下的用電側異常行為模式檢測[J/OL]電網技術,2017,41(06):1964-1973.
[3] 陳宏.基于關聯規則挖掘算法的用電負荷能效研究[J].電子設計工程,2017,25 (04):79-82+86.
[4]王桂蘭,周國亮,趙洪山,等.大規模用電數據流的快速聚類和異常檢測技術[J].電力系統自動化,2016,40 (24):27-33.
[5]王昕,田猛,趙艷峰,等.一種基于狀態估計的新型竊電方法及對策研究[J/OL].電力系統保護與控制,2016,44 (23):141- 146.
[6]武昕,王震.基于負熵估計的居民用電負荷非侵入式分解算法[J/OL].電網技術,2017,41(03):931-937.
[7]陳文瑛,陳雁,邱林,等.應用大數據技術的反竊電分析[J].電子測量與儀器學報,2016,30(10):1558-1567.
[8]李亦非,宋瑋瓊,彭放,等.基于局部異常點檢測算法的電能表飛走異常智能分析[J].電測與儀表,2016,53 (18):69-73.
[9]周寧慧,王彬,王治華,等.基于集合論估計的電網狀態辨識(四)離群點識別[J].電力系統自動化,2016,40 (08):22-28+ 50.
[1O]王衛公,牟婷婷,王蘭君,等.基于灰色分析的集抄數據異常判定[J].電網與清潔能源,2016,32 (04):6-11+16.
[11]莊池杰,張斌,胡軍,李秋碩,曾嶸.基于無監督學習的電力用戶異常用電模式檢測[J].中國電機工程學報,2016,36 (02):379-387.
[12]谷云東,張素杰,馮君淑.大用戶電力負荷的多模型模糊綜合預測[J].電工技術學報,2015,30 (23):110-115.
[13]程超,張漢敬,景志敏,等.基于離群點算法和用電信息采集系統的反竊電研究[J/OL].電力系統保護與控制,2015,43 (17): 69-74.
[14]辛潔晴,夏正侃,高亦凌,等.基于事故樹的竊電損失要因分析[J].電力系統及其自動化學報,2014,26 (03):47-51.
[15]藍敏,李朔宇,李錫祺,等.基于聚類分群的線損特征分析方法[J].電力科學與技術學報,2013,28 (04):54-58.
[16]黃海濤,張粒子,喬慧婷,等.基于變密度聚類的居民階梯分段電量制定方法[J].電網技術,2010,34 (11):111-116.
[17]楊政,李欣然,陳輝華,等.密度梯度聚類算法在負荷動特性聚類中的應用[J].電力系統及其自動化學報,2010,22 (02):41-47.