唐取 畢圣靈



摘要:電力工程數據分析與應用,是實現大規模電力工程缺失數據篩選、進行形態分析的基礎。文章針對電力工程缺失數據篩選困難的問題,提出了一種基于密度聚類算法的分析方法,該方法通過電力工程數據收集、預處理、提取數據個性化特征以及進行密度聚類算法分析等步驟,實現了電力工程缺失數據的高速篩查和形態分析。文章通過智能儀表、智能終端數據同步性驗證,認為所提出的基于密度聚類算法的電力工程數據完整性分析方法能夠有效實現缺失數據篩查和形態分布解讀,對于全面提升電力我國電力工程數據完整性和用電情況分析具有較好的指導意義。
關鍵詞:密度聚類算法;電力工程;缺失數據篩查;特征提取
中圖分類號:TM7;TP311.13
文獻標識碼:A
文章編號:1001-5922(2020)12-0074-04
0 引言
電力工程事業的飛速發展,使我國電力事業領域逐漸積累了豐富的信息技術應用經驗、信息化系統構建和使用經驗以及電能數據資源。然而,由于我國幅員遼闊、各地區經濟發展水平參差不齊,尚存在部分電能數據收集、分析與應用水平較低、對區域性宏觀數據分析缺少智能化、精益性和實時性等問題。電能數據收集過程中的數據缺失問題,對線損、預測以及電能計費、調控等后續工作帶來了較多不變。
電力工程計量智能化系統的應用,不僅能夠有效改善我國部分地區傳統電力數據收集過程中的諸多弊端,且能夠大幅提升區域電網能耗信息獲取效率、精度,確保電力供給過程中的平穩安全。當前電力工程計量智能化技術主要面臨的挑戰有:電力工程數據完整性、數據聚合分析、電力數據不同體系間共享、海量數據存儲等[1-3]。其中電力工程數據的完整性是電力工程計量、分析與智能化應用的基礎。基于此,本文提出了一種基于密度聚類算法的電力工程數據完整性分析體系,可以從海量數據中迅速篩查電力工程系統中的數據缺失現象并進行形態分析。
1 密度聚類算法
密度聚類算法(DBSCAN)能夠根據所設置的Eps(半徑)和MinPts(樣本數)等[4],將待聚類的電力工程數據分為3類:①核心點,以該點為圓心的待聚類數據半徑為Eps的圓內至少包含MinPts個樣本點;②邊界點,以該點為圓心的待聚類數據半徑為Eps的圓內包含少于MinPts個樣本點;③噪聲點,不屬于核心點或邊界點的其他待聚類數據點。與一般聚類算法相比,密度聚類算法無需對電力工程數據聚類中心量進行事先確定,可直接判定任意形狀的簇燈[5,6]。同時,該方法可以通過密度直接判定中心點與邊界點,抗噪聲能力極強。對于某樣本1)所屬的直接密度可達與相連進行定義,到達樣本q所需要滿足的條件為:
其中,NEps (q)表示樣本p直接達到樣本q后的樣本范圍;樣本p、q之間密度相連即存在樣本滿足樣本Eps(半徑)和MinPts(樣本數)等均為密度可達[7]。
2 基于密度聚類算法電力工程數據完整性分析
2.1 數據收集
電力工程領域所產生的信息數據主要包括電力運行過程中所產生的實時海量數據、用戶檔案數據以及電力系統運行/非運行狀態下的系統報警數據等[8]。其中,電力運行過程中產生的實時數據主要包括:通信流量數據,由各類型計量終端獲取可用于判斷電力工程網絡中各計量設備的運行狀態;瞬時量數據,為電網中不同用戶提供實施電力信息;表碼數據,為電網用戶提供直觀的累積用電有/無功表碼信息。
本文利用智能終端對表碼信息數據進行收集并傳遞,數據收集間隔為t= 15min,數據傳遞間隔為t=1h。得到了表1、2所示的電力工程瞬時量數據以及表碼數據實例。
表1中瞬時量數據包括用戶的總有功功率,IⅡⅢ相有功功率、電流值以及電壓值等數據;表2中表碼數據包括用戶的累計用電信息如費率類型、正反向有功表碼、正反向無功表碼等數據,其中費率類型包含了用戶總電量、正常情況電力計費標準以及其他不同時段電力計費標準等。
2.2 預處理
對表1、2中所獲取數據進行完整性分析。對數據采集周期t=15min及傳遞周期t=1h進行充分考量后,本研究主要選擇智能終端所獲取的電力工程計量點、時間與功率等作為電力工程瞬時數據完整性分析的主要指標;選擇智能計量終端所獲取的計量點、時間及正向有功表碼等作為電力工程表碼數據完整性分析的主要指標。考慮到智能計量終端數據缺失主要來源于記錄時間不齊以及部分設備出現的網絡通信中斷等問題,本文擬主要通過分析電力工程缺失數據的形態來判定電力工程數據的完整性及出現的問題[9,10]。
本文采用二進制將智能計量終端收集數據進行去值化處理,分別用0、1表示電力工程網絡某用戶在某一時刻缺失及存在的瞬時數據及表碼數據。利用該思路進行電力工程網絡數據預處理的流程如下:
1)對獲取數據進行掃描后表碼。
2)將不同計量點按照月份(31)和時刻(24)設定為31x24組,并進行初始化處理。
3)利用程序對初始化為0后的計量點在相應數組位上的數據存在情況進行判斷,若判斷結果為“存在”且不為NULL,則給數組的相應位賦值為1,若判斷結果為“不存在”或/且為,不為NULL,則給數組的相應位賦值為0。
4)對所有缺失數據數量進行統計并記錄,代碼以ERRORNUM表示。
利用以上方法對表1、2數據進行預處理,得到表3、4所示的瞬時數據、表碼數據預處理結果,分別以SSi和BM,表示,其中i=0,1,…,23。
2.3 提取數據個性化特征
基于密度聚類算法的電力工程數據完整性分析,需要針對不同問題對表3、4中的數據進行個性化特征提取和分析,從而適應聚類算法中相應的問題與模式。本研究根據我國當前電力工程智能終端設備普遍存在的數據缺失特征,構造了不同的組合以便于對預處理后的瞬時數據和表碼數據進行有效性分析。