












摘" 要:隨著智能電網建設的不斷發展,電力數據具備海量、多樣性、價值密度低等大數據特點,針對異常用電行為挖掘困難,提出一種基于Hadoop和局部異常因子的用電行為檢測方法,通過對用電大數據進行特征提取,根據異常用電行為規律和特征,設定異常用電行為判決條件,通過局部異常因子算法計算各用電數據點的離群性,將計算模型與Hadoop分布式大數據平臺結合應用,最終確定異常用電用戶。實驗結果表明,該方法可有效提高電力大數據異常用電行為挖掘效率。
關鍵詞:Hadoop;大數據;異常因子;數據挖掘;計算模型
中圖分類號:TP311.13" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2023)21-0073-04
Abstract: With the continuous development of smart grid construction, power data has the characteristics of magnanimity, diversity, low value density and so on. In view of the difficulties in mining abnormal power consumption behavior, a power consumption behavior detection method based on Hadoop and local abnormal factors is proposed. Through feature extraction of power consumption big data, the judgment conditions of abnormal power consumption behavior are set according to the law and characteristics of abnormal power consumption behavior. The outlier of each power consumption data point is calculated by the local anomaly factor algorithm, and the abnormal power users are finally determined by combining the calculation model with the Hadoop distributed big data platform. The experimental results show that this method can effectively improve the mining efficiency of abnormal power consumption behavior of big data.
Keywords: Hadoop; big data; abnormal factor; data mining; computing model
電力系統作為社會穩定運行的重要基礎系統,我國目前已經在該領域開展了大量相關研究。電力大數據隨著近年來智能電網的快速發展應運而生,電力大數據的采集傳輸、管理分析與服務運維迎來了歷史性的發展機遇和挑戰。因此,如何對海量用電數據涉及的異常行為進行挖掘分析,對電網系統安全、可靠運行具有重要意義。
針對電力大數據挖掘分析效率普遍不高的問題,行業相關研究學者取得了一定研究成果,文獻[1]提出一種基于分布式平臺的FP-Growth數據分割并行計算方法,該方法通過計算集群對分割算法并行化運行,實現了各計算節點負載均衡,有效提高了用電數據處理效率。文獻[2]提出一種基于Holt-Winters模型的短期用電負荷預測方法,該模型經過Spark分布式并行計算框架后可以實現1 min完成300萬戶用電單位的負荷預測。
基于現有異常用電行為挖掘分析效率不高的問題,提出一種基于Hadoop與局部異常因子的用電行為檢測方法,通過Hadoop集群多服務器并行計算模式,大幅縮減數據挖掘分析計算時間,最終有效實現異常用電行為檢測。
1" 研究方法
1.1" 電力數據提取
本方法研究數據采用開源能源數據庫Commercial and Residential Hourly Load Profiles for all TMY3 Locations in the United States中29 826個用戶整個年周期的用電負荷值數據,該地區用電信息采集系統采集頻率為每15 min一次,每天產生96條用電數據,整年產生10.4億條用電數據,符合海量大數據的5 V特性。用電數據描述見表1。
表1" 電力數據項描述
1.2" Hadoop大數據平臺
傳統的用電數據分析平臺采用的是集中式平臺架構,本方法通過搭建Hadoop大數據分布式計算集群,該集群平臺將分布式文件系統HDFS作為用電數據存儲管理組件,以分布式計算框架MapReduce作為并行計算的編程模型,該計算框架通過不同計算節點進行高效任務調度,達到有效提高計算集群的網絡帶寬利用率的目的(圖1)。
1.3" 用電數據特征提取
將單日的用電時間段分為峰時段(06:00—10:00、18:00—22:00)、平時段(10:00—18:00)和谷時段(22:00—06:00),根據不同時段的用電參量數據進行分析,統計得出各參量的分布情況,為下一步的異常檢測提供數據支撐,整個用電參量信息分析流程圖如圖2所示。
1.4" 局部異常因子
用電大數據點通常具有密集的領域特性,一般異常值會遠離鄰近點呈現為較稀疏區域,本方法首先計算用電數據集合中數據點與其他點的距離并進行排序,然后計算每個數據點的可達距離,由此計算可達密度,最后計算每個數據點的局部異常因子,作為用于判斷異常用電行為判定的重要指標,該方法常應用于網絡入侵異常檢測、圖像異常處理、保險/信用卡詐騙檢測等方面。
定義1 在用電大數據中的任意數據點q與q點最近的第k個距離稱為k-dist(q),簡稱k距離;距離q點的距離小于k距離的數據點集合稱為k距離領域。
定義2 在用電大數據中的任意數據點p、q之間的可達距離為
式中:reach-distk(q,p)為點q、p的第k可達距離,d(q,p)為兩點的歐式距離。
定義3 對用電數據中數據點q進行局部密度的度量,定義q點到其領域內最大的前k個距離平均值的倒數。
式中:Nkq=k為數據點q最近的k個數據點的個數,lrdk(q)為數據點q在其前k個最近點集合內的稀疏程度。當該值較大時,表明q點在k個點中的分布較稠密,因此為正常點;當該值較小時,表明q點在k個點中的分布較稀疏,因此數據點q為異常點。
定義4 用電數據的局部離群因子LOF體現了數據點與周圍鄰近點的相對密度,可衡量數據點離群的可能性大小。
離群因子LOF反映了數據集合的異常程度,表示數據點q與整體數據集合的一種密度差異,該比值越接近1,表面數據點q與鄰域點密度相似;該比值小于1,表面數據點q的密度高于鄰域點密度;該比值大于1,表面數據點q的密度低于鄰域點密度,可能存在異常。
2" 實驗測試與分析
2.1" 測試平臺搭建
為驗證基于Hadoop與局部異常因子的用電行為檢測方法的有效性,本方法通過搭建Hadoop大數據集群平臺環境進行測試,測試平臺由1臺中心管理服務器、3臺計算服務器組成,中心管理服務器作為集群環境的中心節點主要負責數據資源分配與任務調度,計算服務器作為任務節點主要負責用電數據的異常分析能夠負載均衡穩定運行。中心節點和任務節點的配置參數見表2。
2.2" 測試結果分析
由圖3可知,通過對谷時間段波動系數進行離群分析,當用戶夜間用電量波動系數超過60%即滿足異常用電行為判決條件,屬于夜間用電量突增異常;由圖4可知,通過對全天用電量波動系數進行分析,波動系數滿足連續多次呈增長趨勢,屬于用電量突增且波動異常;由圖5可知,該類用戶滿足用電量夜間銳減且無回升,屬于夜間異常特性。
為驗證分布式計算集群對異常分析檢測效率的影響,對不同數量節點的計算性能表現進行測試,主要包含通過串行程序計算的單點集中式計算方式和通過并行計算的分布式計算方式,由圖6可知,不同數據節點組成的計算集群性能不同,在處理相同用電數據量情況下,增加計算節點可有效縮短集群運行時間,提高處理效率。
為驗證Hadoop計算集群執行速度相對于傳統式集中式架構加速情況,對計算集群的加速比指標進行了測試,加速比是同一個計算任務在單點計算模式和并行計算模式中運行消耗的時間的比率,加速比可有效衡量分布式并行計算集群程序并行化的性能和效果。由圖7可知,對不同數量計算節點進行不同數據量加速比測試,結果表明,加速比與數據處理量大小有關;由圖8可知,加速比與計算集群的節點數量有關,計算集群的節點越多,加速比越高,集群性能越強,因此,在處理海量用電數據時可通過增加計算節點的方式提升集群的表現性能。
3" 結論
本文提出了一種基于Hadoop與局部異常因子的用電行為檢測方法,該方法針對傳統異常因子檢測方法挖掘困難、檢測效率不足的問題,通過對用電數據不同數據指標進行提取分析,將局部異常因子算法在Hadoop大數據平臺通過MapReduce模型進行并行化運行計算,結合異常用電行為規律產生的異常用電行為判決條件,確定最終的異常用電用戶。測試結果表明,本方法可有效提高電力大數據異常用電行為挖掘效率。該方法在應對維數災難時也存在一些不足,隨著業務數據量的維數增加,計算量將呈指數級倍增,下一步,本文將針對該課題進行進一步的研究。
參考文獻:
[1] 厙向陽,張玲.基于Hadoop的FP-Growth關聯規則并行改進算法[J].計算機應用研究,2018,35(1):1-6.
[2] 申狄秋,張科峰,盧雯興,等.基于Hadoop的海量電網數據安全防護系統設計[J].電子設計工程,2021,29(15):45-48,53.
[3] 崔金豹,徐永海.基于大數據挖掘的電力變壓器差異預警規則[J].科學技術與工程,2021,21(20):8481-8489.
[4] 付志揚,王濤,孔令號,等.基于AHP-TOPSIS算法的重要電力客戶用電狀態評估[J].電網技術,2022,46(10):4095-4101.
[5] 江疆,梁盈威,彭澤武,等.基于大數據的電力系統數據集成管理平臺設計[J].電子設計工程,2020,28(14):163-166.
[6] 黃蔓云,衛志農,孫國強,等.基于歷史數據挖掘的配電網態勢感知方法[J].電網技術,2017,41(4):1139-1145.
[7] 陳琦.基于Hadoop的電力大數據特征分析研究[D].北京:華北電力大學,2016.
[8] 張磊,吳穎,楊建常.基于大數據挖掘的電力通信信號異常數據提取方法[J].科技通報,2022,38(6):35-38,44.