張 昕,孫 莉,許高俊
(國網江蘇省電力有限公司營銷服務中心,江蘇南京 210019)
目前,安防設備已在我國普及使用,大部分用戶家里都安裝了用電監控系統。對于大型商場、公園以及道路等場所,安裝了視頻監控,工作人員只需要觀察監控畫面,就能了解異常用電行為。然而,該方法容易造成視覺疲勞,耗費大量人力。為此,提出了兩種檢測方法,分別是基于邏輯回歸的檢測方法和基于模糊聚類的檢測方法。其中,基于邏輯回歸的檢測方法通過構建異常用電模型,就可以獲取面向全局的檢測數據,無需重新構建全局數據檢測模型,有效提高行為檢測效率[1];基于模糊聚類的檢測方法直接從智能電表中提取異常用電特征,結合模糊聚類方法判斷數據類型[2]。然而,上述兩種方法在異常用電數據增加情況下,無法及時處理全部數據,導致用電行為檢測效果較差。為此,提出了基于深度森林算法的異常用電行為檢測方法。
基于深度森林的異常用電特征采樣模型,如圖1所示。

圖1 異常用電特征采樣模型
由圖1可知,結合構建的采樣模型,設異常用電行為的正例樣本數量為P個,負例樣本數量為Ni個[3]。采用深度森林算法,收集異常用電行為樣本,采樣步驟為:
步驟一:從負例樣本中隨機選取RNi個樣本,選取的數量與正例樣本數量基本一致。由異常用電行為的正例樣本數量P和個負例樣本共同組成訓練子集
步驟二:用訓練子集Si對決策樹進行訓練,重復步驟一獲取m個分類器。在檢測階段,基于分類器的投票結果來決定數據屬于正常用電行為還是異常用電行為[5]。
步驟三:用少量的正例和相似數目的負例組成訓練子集,對決策樹模型進行訓練。
步驟四:再一次用訓練子集構造決策樹,利用決策樹構造深度森林集成學習系統,輸出新樣本決策樹結果的平均值[6-7]。
步驟五:組合多次訓練后的決策結果平均值,構造決策模型,輸出結果。
結合深度森林算法,通過異常用電行為采樣模型能夠獲取目標數據,由此設計基于深度森林算法的異常用電行為檢測流程,如圖2 所示。

圖2 異常用電行為檢測流程
在對原始樣本數據進行預處理的基礎上,排除不可避免的數據遺漏和顯著的離群點。
針對不顯著的漏失部分,用式(1)內插法補全缺失值:

式(1)中,αi表示經過預處理后的第i時刻數據;αi-1和αi+1分別表示第i-1 和i+1 時刻出現遺漏情況的補全值[8-9]。
針對顯著的漏失部分,用式(2)三西格瑪經驗法補全缺失值:

式(2)中,avg(α)表示預處理后數據的平均值;std(α)表示標準差。
通過補全原始樣本漏失部分數據,可以獲取完整目標數據,由此設計異常用電行為特征量提取流程:
步驟一:根據日、月、季三個時間段劃分異常用電行為特征,由此計算不同用戶在單位時間內的用電標準差[10]。
步驟二:依據上述序列,可將異常用電趨勢分為三類,分別是變化趨勢、波動趨勢和上升趨勢。
步驟三:建立一個數據集,包含每個用戶分為D個日、M個月、Q個季度的用電數據[11]。
步驟四:結合用電數據,確定用電量序列,分別是日用電量:xn={xnd,d=1,…,D};月用電量:yn={ynm,m=1,…,M};季度用電量:zn={znq,q=1,…,Q}。
步驟五:異常用電行為檢測方法提取的異常用電行為特征趨勢分別為:
統計上,標準差被用來評價序列中變化和波動的程度,各指標的差值越大,數值波動越大[12]。用電量標準差Sstd是電力數據波動趨勢的特征,表達式為:

式(3)中,xi表示離散系數;k表示月份/季度;ui表示設定時段內的平均用電量。
②變動趨勢
變動趨勢特征是在用戶在使用功率特性時,將某一段時間內的平均功率消耗與前一次鄰近時段的功率消耗進行比較,這一差別反映了耗電量變化的速度[13]。
③升降趨勢
升降趨勢特性是指根據用戶連續數天的耗電量,預測下一段時間的耗電量,并與實際耗電量進行比較,以確定下一段時間內耗電量的可能性。
電力數據升降趨勢是簡單移動總量的平均值,表達式為:
經觀察MBM-7革蘭氏染色陽性,桿狀(圖1A);菌落呈白色、表面光滑濕潤、中間凸起、邊緣整齊(圖1B),2.0~2.3 μm×2.1~2.5 μm。

按照各項目的時間序列,依次計算固定數量的項目,作為下一個預測值,由此獲取t時刻升降趨勢:

以式(5)為依據,如果tr<0,則說明用電趨勢下降;如果tr>0,則說明用電趨勢上升。
利用訓練樣本進行深度森林分類訓練,通過使用不同大小的窗口生成不同粒度的特征向量,從而得到更加可靠的結果。樣本訓練過程如下:
步驟一:使用不同大小滑窗掃描不同粒度,獲取粒度特征;然后與深度森林算法相結合,可以從異常用電行為采樣模型獲得目標數據,將其與粒度相結合,獲取結合后的類向量;最后將類向量作為輸入向量,輸入到下一層[14]。
步驟二:通過k-fold 交叉驗證,避免出現過擬合問題,由此產生訓練樣本。具體驗證為:將每個k-1類向量作為訓練樣本,計算出這些類矢量的平均值,將計算結果輸入到下一層[15]。
步驟三:擴充了級聯之后,可以在校驗集中得到整個級聯的性能,由此完成樣本訓練。
為獲得表征異常程度的統一參數法公式,采用深度森林算法構建異常用電量指數公式,如下所示:

式(6)中,β1表示異常用電;β2表示有異常用電嫌疑;β3表示正常用電;β(X)表示多特征融合的不確定部分。Ssc值越高,說明用戶異常用電可能性就越大,反之,則越低。
基于此,對異常用電嫌疑分類:
異常用電計量不規范,是指為了降低電費而擅自拉電纜、改變計量方式等違法行為[16]。對供電企業而言,這是一種十分危險的用電方式,詳細分類為:
1)欠壓異常用電
欠壓異常用電的主要原因是,使用者通過串聯電阻、開關的不良接觸行為改變線路連接狀態,由此出現竊電行為,引起線路故障。
2)欠流異常用電
欠流異常用電的主要原因是,使用者通過在計量回路中加限流電阻,改變了電流互感器的兩側轉化電流之間的比例,使回路短路,由此出現竊電行為,引起線路故障,達到電量使用減少的目的。
欠流異常用電的主要原因通過在計量電路中增加了限流電阻;改變電流互感器的CT 比;改變電流測量回路的正常接線方式;改變電流計量回路的正常接線方式,引起線路故障。
3)移相異常用電
移相異常用電功率異常主要是利用電容或電感對周圍電磁場和線圈產生影響,改變電壓與電流的相位關系,進而導致用電行為異常。
以省電力公司用電信息采集系統采集到的用戶日常用電數據為例,驗證提出的基于深度森林算法的異常用電行為檢測方法是否合理。選取的日期是2019-01-01 至2020-12-31,間隔15 min 采樣1 次數據,從采集的全部數據中,提取樣本共500 例,其中異常用電樣本為100 例,有異常用電嫌疑的樣本為200例,正常用電樣本為200 例。
以某一用戶異常用電情況為例,確定分時電量數據變化,如圖3 所示。

圖3 異常用電情況下分時電量數據變化
如圖3 所示,某一用戶異常用電主要有四種模式,分別是model-1、model-2、model-3、model-4,這四種模式基本都是白天高用電量,晚上低用電量。其中model-1 表示一整天都處于高負荷工作狀態,model-2、model-3 表示除了中午電量有所回落后,其余時間均處于高負荷工作狀態,model-4 表示一整天都處于低負荷工作狀態,并且均低于其他模式的電量數據值。
結合實際分析數據,分別使用邏輯回歸、模糊聚類和基于深度森林算法方法檢測異常用電情況下分時電量數據,檢測結果如圖4 所示。
由圖4 可知,使用邏輯回歸檢測方法和模糊聚類檢測方法四種模式下的分時電量數據均與實際數據不一致,而使用深度森林算法的檢測方法四種模式下的分時電量數據均與實際數據一致。

圖4 三種方法異常用電數據檢測結果
為了進一步驗證該方法的有效性,以ROC 曲線驗證指標,其橫坐標表示誤檢率,縱坐標表示檢測率,三種方法的ROC 曲線驗證結果如圖5 所示。
由圖5 可知,使用邏輯回歸檢測方法隨著誤檢率增加,異常用電行為檢測率隨之下降,當誤檢率為20%時,檢測率為55%;使用模糊聚類檢測方法隨著誤檢率增加,異常用電行為檢測率隨之下降,當誤檢率為20%時,檢測率為30%;使用深度森林算法的檢測方法隨著誤檢率增加,異常用電行為檢測率隨之下降,當誤檢率為20%時,檢測率為5%,具有精準檢測結果。

圖5 三種方法ROC曲線驗證結果
該文提出的基于深度森林算法的異常用電行為檢測方法,通過構建基于深度森林算法的檢測模型,提取特征量,結合深度森林算法對異常用電行為進行分類。檢測數據,判斷使用者的耗電量模式是否正常,否則判斷為異常。后續應從檢測準確率、召回率兩個關鍵性指標出發,進行仿真實驗分析,進一步完善異常用電行為檢測模型。