國網上海市電力公司市北供電公司 張希鵬 齊 拯 劉 杰
上海交通大學 羅 津
隨著智能電表等具備實時通訊的量測設備普及,電網公司累積了大量的用戶用電數據。利用人工智能、大數據等技術通過對海量數據的深入挖掘,可以對竊電用戶進行精準判別,有效降低竊電對電網公司收益等帶來的損害。然而,當前研究主要針對用戶是否竊電進行判斷,缺乏對用戶竊電類型的識別?;诖耍疚奶岢隽死秒S機森林算法對用戶竊電類別進行判斷,針對竊電樣本數據少且均衡性差的問題,采用基于少數類過采樣技術進行樣本擴充,提高樣本的均衡性,進而提高竊電行為類別判斷的準確性,為電網公司精準打擊竊電用戶提供技術支撐。
竊電行為的隱蔽性使得精準打擊工作非常困難,傳統依靠人工定時檢查的方法不僅費時費力,還會由于部分竊電行為及設備的隱蔽性等使得人工定時檢查難以發覺。竊電行為的發生,一方面造成了電網公司經濟效益的損失,另一方面,可能會造成設備的損壞,甚至會引起供電可靠性的問題,更嚴重地可能造成短路進而引發火災等。因此,針對竊電行為的精準打擊,不僅具有重要的經濟效益,還有更高的社會效益。
竊電行為識別不僅需關注用戶用電量特征,其使用的竊電方法也是重要的數據特征。本文基于收集到的竊電方法,將其歸類為:“表內接線或更換元件”、“進出線短路”、“繞越表計直接”、“表計打洞”、“偽造開啟封印”、“一線一地”、“其它竊電行為”等。
在用戶用電量特征方面,本文考慮總電量、平電量和谷電量不同用電時段用戶用電量的中值度、平滑度、落差度等指標。以用戶總用電量為例,給出用戶用電特征指標,如公式(1)-(3)所示。其中,(1)為總用電量的平滑度;(2)為落差度;(3)為中值度。式中,Q表示用戶用電量;表示用電量的平均值;r表示用戶編號;t表示時刻編號;Δt表示數據采樣間隔。

作為組合分類器,隨機森林算法具有優異的噪聲容忍度,本文選用隨機森林算法對用戶竊電行為進行辨識,整體流程如圖1所示。首先,對采集到的數據進行預處理,包括缺失數據補全以及異常數據剔除;其次,基于用戶用電量信息及竊電類別對電力用戶用電行為進行畫像;再次,基于少數類過采樣技術對竊電樣本數據等進行擴充增容;最后,利用擴充增容均衡后的數據代入到隨機森林分類器中進行預測,分別采用C4.5算法和Forestes-RI技術對決策樹的分裂節點和用戶特征進行選取,基于大多數投票法對用戶竊電行為進行判別。

圖1 隨機森林算法竊電行為判別流程圖
以某實際電網記錄的竊電歷史數據為例,其分布如圖2所示。根據對所有竊電行為的統計與分類,發現類型最多的為“該表表內接線或更換元件”,是隱蔽性最大的行為,竊電記錄達到了693條。而隱蔽性最小的“插U字”也比較多,記錄達到100條以上。因此,將“該表表內接線或更換元件”定義為0,“插U字”定義為0.6,其他所有竊電類型定義為0.3,正常用戶為1。原問題轉換為四分類問題,輸出結果可以得到每個類型的概率,根據每個類型對應的數字進行加權求和作為最終的分數。

圖2 竊電行為計數統計
首先分析數據均衡性問題,對比利用少數類過采樣技術前后測試集中數據的均衡性分布情況。其中,經過擴張后的數據集成績分布如圖3所示,未擴張的數據集成績分布如圖4所示。對比上述結果可以看出,經過少數類過采樣技術擴充后的樣本均衡性更好,對于各類竊電行為的劃分更加精細和明確。而在未擴充的數據集中,各類樣本的重疊度較高,難以區分不同的竊電行為。因此,擴充后的數據集更適合應用在隨機森林分類器中,對用戶竊電行為進行預測。

圖3 在經過數據擴張的驗證集上的數據分布

圖4 在未經訓練和數據擴增測試集上的成績分布
進一步地,將上述經過少數類過采樣技術擴充后的樣本集應用于隨機森林算法,對預測結果的統計如圖5所示,考慮四分類問題下概率最高的情況作為分類結果。從上述結果可以看出,樣本數量最多的“該表表內接線或更換元件”識別效果最好。同時,雖然其它竊電樣本數量偏少,但仍然具有一定的辨識能力,具備在少量竊電樣本情況下對用戶不同竊電行為進行甄別的能力。

圖5 在測試集上的分類結果
總結:竊電行為本身帶來了經濟社會效益的降低。本文利用電網公司累計的用電數據信息,結合少數類過采樣技術的隨機森林智能識別算法對竊電行為進行判別。算例結果表明,本文所用少數類過采樣技術能夠有效地提高擴充數據的均衡性,進而有效地對竊電行為進行甄別,提高竊電行為檢測的效率。
本文受到國網上海市電力公司“基于用電大數據的用戶輔助授信系統研究”資助。