張海林 李琳 夏傳良



摘要:分析幾種主要線損計算方法優缺點及線損分析中數據挖掘算法應用,提出基于線損時域特征指標和改進K-means算法的饋線線損計算方法。充分利用線損信號中的時域信息,獲取線損信號中的平均線損率、線損率變異系數、線損率變化趨勢等表征線損信號的非平穩特征。使用該算法對區域889條饋線線損進行計算分析,取輪廓系數最大時對應的k值進行聚類分析,經過65次迭代得到8個聚類結果,其中第7類平均線損率高達33.5%,第5類線損率為17.8%,但線損率變化趨勢達308??梢赃M一步對該類饋線上的用電客戶負荷曲線進行跟蹤分析,確定是否存在竊漏電行為。
關鍵詞:饋線線損;改進K-means算法;聚類分析;輪廓系數
DOI:10.11907/rjd k.192203
中圖分類號:TP301 文獻標識碼:A 文章編號:1672-7800(2019)012-0022-04
0引言
用電信息采集系統可以為區域電網提供線損分析所需各類計量點電能量數據,為實現配網線損異常分析打下基礎。目前,利用數據挖掘技術分析線損特征的分析方法有:RBF神經網絡、Kohonen聚類、隨機森林算法、遺傳算法優化的BP神經網絡、粒子群聚類、基于斷面的聚類等。
K-means聚類是一種無監督學習方法,在解決小樣本問題時有獨特優勢。文獻[7]提出了以距離為準則進行海洋異常數據判斷的檢測算法;文獻[8]、文獻[9]采用K-means算法沒有解決局部尋優問題;文獻[10]利用改進的K-means算法處理了聚類中心移動規則問題,但沒有解決k值任選問題;文獻[11]沒有解決k值任選問題;文獻[12]確定每一輪迭代的聚類中心時都對評價指標Pe進行排序,算法時間復雜性增加;文獻[13]探討了電網線損統計數據的質量控制方法,建立統一的線損信息管理系統數據平臺,利用數據驗證,可追溯數據校正等方法,建立網格線損數據的控制機制;文獻[14]提出了一種基于饋線群集技術和改進XGBoost算法的配電饋線線損估計方法,該算法基于智能配電并利用系統中采集的饋線特征數據;文獻[15]提出了一種基于梯度增強決策樹(GBDT)的方法預測線損率。
本文基于線損時域特征參數和改進的K-means聚類算法,引入輪廓系數評價指標,選取輪廓系數最大時對應的k值對數據空間進行聚類分析以解決局部尋優問題,且優化了變形誤差AD的計算方法。改進后的算法充分利用線損信號中的時域信息,提取線損信號的線損率變化趨勢、線損率變異系數、平均線損率等參數表征線損信號的非平穩特征,用于識別線損異常和評價線損正常特征,為用電檢查和線損管理提供數據支撐。
1線損時域特征分析
1.1線損時域特征指標
線損率由用電信息采集系統提供的線損電量計算得出。線損電量包括從發電廠主變壓器一側至用戶電能表上的所有電能損失,線損電量不能直接計量,可以用抄表電量與實際售電量相減計算得到。線損率高就代表線路電量損耗較大,具有降損空間。對一段時間序列的線損率作算術平均,就能獲得某線路上的每日平均線損率。線損率計算公式為:
式中,LLR表示線損率,Em表示抄表電量,Es表示實際售電量。
為便于用戶竊漏電評價,運用線損特征分析對饋線、臺變、電表進行分析。這3方面的分析方法原理相同,本文以饋線線損為例進行線損計算,下面的線損均指饋線線損。
線損分析基礎數據記錄中包含有原始數據信息、線損率信息、時間變化信息等。通過對原始線損數據進行計算可得到線損率均值、線損率異動系數、線損率異動趨勢3個指標。
(1)線損率均值。代表線損率的平均水平,其計算如下:
通過表1中的相關系數,可見線損指標之間的相關系數絕對值都不大,相關性也不大,可從不同側面描述用戶線損特征,因此這3個指標可同時用于對線損指標的聚類分析。
2改進K-means聚類算法
2.1K-means聚類算法思想
K-means算法也稱K-平均值算法,是一種典型的聚類分析方法,通常要先選取聚類的k值,然后將輸入分為集合s1,...sk并使得每個數據到其所在聚類均值的距離平方之和最小。
K-means算法流程如下:①首先從數據空間中選k個數據點為初始聚類均值;②計算每個數據點到這些聚類均值的距離,然后將各數據點分配給離它最近的那個聚類;③若所有數據點不再被重新分配,則停止并保持現有聚類;③如果仍有數據點被重新分配,則重新計算均值,并返回步驟②。
該算法的第一步是隨機選擇任意k個數據點作為初始聚類中心,容易陷入局部最優值,導致分類誤差,因此本文提出改進的K-means算法。
2.2K-means聚類算法改進
2.2.1最優k值選擇
驗證聚類結果的方法包括分析、實驗、評價和舉例,本文利用輪廓系數作為線損時域特征聚類的評價指標,以解決k值的隨機選擇問題,經過計算聚類結果的總輪廓系數st選擇最優k值。作為聚類效果好壞的一種評價指標,聚類結果總的輪廓系數越大,則聚類效果越好。對于任意一個樣本點i,計算方法如式(6)所示。
2.2.2變形誤差衡量優化
本文改進的K-means聚類算法是將局部聚類中心移動至更有利于分類的位置,以解決傳統K-means聚類算法容易陷人的局部最優問題。
改進方法為:按照輪廓系數確定最優k值,取樣本中的k個對象作為初始聚類中心;將數據空間中每個對象分配給距離其最近的聚類,并且重新計算更換區別度大的聚類中心;再依照新的聚類中心重新聚類,重新評估是否應該更換聚類中心。
更換聚類中心容易引起變形誤差,變形誤差的衡量方法是:n個樣本構成一個歐式空間,可以計算某個聚類里某個對象x;與歐式空間中心Xo的距離d(Xi,Xo),也可計算聚類中心Ф到歐式空間中心Xo的距離d(Ф,xo)。如果在同一聚類中,則變更聚類中心為聚類中其它對象,更換聚類中心Ф點引起的變形誤差公式是:
△D<0代表聚類中心移動可使聚類整體的變形誤差減小。AD絕對值越大,則聚類中心越容易將聚類從整體區分出來。
為準確變更聚類中心,可以描述為:某聚類中如果更換其中至少一個對象作為新聚類中心能使變形誤差AD<0,則選其中AD絕對值最大的一個作為新聚類中心;否則保持聚類中心不變。
改進K-means聚類算法執行步驟如下:①用最大輪廓系數確定最優k值,選k個對象為初始聚類中心;②將樣本空間中每個對象分配給距離其最近的聚類,且重新計算聚類中心;③若聚類中的對象不再被重新分配,則保持現有聚類,然后轉到步驟④;④根據上述依據變形誤差AD的聚類中心移動規則,若一個聚類中心移到更好位置可減小整體變形誤差和,則將它移到更好位置,然后轉到步驟②。
3線損計算分析過程
3.1樣本數據預處理
樣本數據預處理主要包括異常值處理、缺失值處理、數據指標計算、數據分組排序等。缺失值處理:原始測量數據可能有缺失現象,此時入電量或出電量都是0,這可能是由于電表損壞或測量誤差所致,為了保證線損計算數據的有效性,這類觀測數據需要剔除。
本文異常值判別采用格拉布斯準則的統計方法進行篩選,剔除不合格數據。其判別原理是在給定包含概率p=0.99或p=0.95,也即顯著性水平為a=1-p=0.01或a=0.05時,滿足式(9),即可判定為異常值。
3.2線損計算流程
首先經過用電信息采集系統采集測量數據,然后對采集數據進行線損特征提取,最后依據數據特征指標進行聚類分析,并對用戶進行竊漏電評價。具體步驟如下:
(1)讀取線損數據。抽調一段時間、指定范圍內的饋線線損相關數據作為研究對象。
(2)線損數據預處理。采用上文方法,對參數不一致、不完整的數據進行糾正和整理。
(3)生成線損數據集。每個數據對象包括線損對象編號、起始時間、結束時間、統計抄表電量、出售電量和線損率信息等。每回觀測的起始時間與結束時間相隔1天,將數據按對象編號分組,形成初始數據集,每條數據都是一個對象。
(4)線損時域特征提取。采用上文式(2)一式(4)計算反映線損時域特征指標的線損率異動系數,線損率均值和線損率異動趨勢。
(5)計算輪廓系數,確定K-means聚類算法的最優k值。
(6)對線損時域特征指標聚類分群。采用改進的K-means聚類算法對特征指標數據空間進行聚類,獲得聚類結果。
(7)疑似竊漏電分析。
改進K-means算法的線損計算流程如圖1所示。
4線損計算算例
本文所用線損數據源自用電信息采集系統2017年7月50條線路相關數據,包括線路編號、起止時間、抄表電量、出售電量和線損率等相關信息,形成初始數據集。
本文使用某大型供電企業所轄889條饋線作為樣本,對本文設計的線損計算方法進行計算。由于樣本量巨大,不詳細列出全部樣本的全部數據,部分數據如表1所示。
由原始數據可以看出,如果平均線損率小于20%,表示該線損率正常;平均線損率大于20%或小于0時,則該線損率不正常,需進一步分析。
線損率均值、線損率異動系數和線損率異動趨勢3個指標共有8種組合方式,分別為k取值2、3、4、5、6、7、8時對數據集進行聚類,根據式(6)、式(7)計算聚類結果的總輪廓系數,如表2所示。
由表2可以看出,當k取8時聚類結果總的輪廓系數最大,因此基于改進K-means聚類算法對數據空間進行聚類分群時,對k選值8進行聚類分析,經過65次迭代,獲得8個聚類結果,如表3所示。
從聚類分析結果可以看出,對于聚類7平均線損率高達33.5%,該聚類群竊漏電嫌疑較大;聚類5類也非常特別,群內線損率為17.8%,但線損率異動趨勢高達308,這很可能是由于竊漏電具有時間性所致。
5結語
本文以區域用電信息采集系統數據為基礎,以饋線為研究對象,采用數據挖掘技術,在線損計算分析中引入K-means算法,提出了一種改進K-means聚類的線損分析算法,以解決常規K-means算法容易陷入局部最優問題;同時進行了更準確的線損率異動系數、線損率均值和線損率異動趨勢等線損時域特征指標分析,為竊漏電分析提供數據支撐,從而確??蛻艉侠硎胤ㄓ秒?。在竊漏電分析上還有繼續研究空間,可根據聚類結果進一步分析饋線上哪類客戶、哪個客戶存在竊漏電行為。另外,線損預測也是下一步研究重點。