張 殷 李 新 王俊波
(廣東電網有限責任公司佛山供電局,廣東 佛山 528000)
配電網精益化管理是實現供電企業提質增效的有效措施,其中,正確的戶變關系是開展配電網精益化管理的前提。當前低壓配電網拓撲信息主要依賴人工錄入,由于歷史記錄丟失、配變擴容與線路遷改時信息更新不及時等原因,低壓臺區檔案混亂,臺賬中戶變關系存在不少錯誤的情況,嚴重阻礙了臺區故障定位、竊電核查、線損及三相不平衡治理等臺區精益化管理工作的開展[1]。因此,研究低壓臺區戶變關系辨識方法具有理論價值與現實意義。
傳統的戶變關系辨識方法主要包括人工巡線法、瞬時停電法[2]、特征信號法和臺區識別儀法[3]。但上述方法與配電網規模日趨變大、供電可靠性要求日益提高的發展趨勢相矛盾,難以大規模常態化開展,弊端日益凸顯。隨著用電采集系統與智能電能表的普及應用,海量用戶用電數據被廣泛采集,使得利用數據挖掘方法實現低壓臺區戶變關系辨識成為可能。
文獻[4-5]指出,具有電氣連接的臺區變壓器與低壓用戶的電壓波動情況具有相似規律,提出基于Pearson相關系數的戶變關系辨識方法。
文獻[6]利用核模糊聚類算法將數據映射至高維特征空間完成用戶聚類,并基于進化算法完成聚類參數優化,以提高戶變關系辨識效果。為進一步提高戶變關系辨識有效性,部分學者嘗試在辨識分析前對量測數據進行預處理。
文獻[7]基于獨立成分分析提取電壓時序數據特征,并結合聚類算法完成戶變關系辨識。
文獻[8]利用自適應分段聚合近似法提取電壓變化特征,并基于改進DBSCAN聚類法識別戶變關系異常用戶。
綜上所述,現有戶變關系辨識方法多從整體角度衡量電壓時序數據間的特征空間距離與形態相似度,對時序數據的局部特征細化不足,未實現多分辨率特征相似度分析。
針對上述問題,本文提出了一種基于多分辨率分析的配網臺區戶變關系辨識法。首先,利用EMD將電壓量測數據分解為一系列特征互異的模態函數,并基于SE度量各子序列的復雜度,完成相關序列合并重組;然后,綜合考慮各重組分量的多尺度特征,提出多分辨率距離和相似性測度全面度量電壓時序數據的相似程度,并結合改進K-means算法完成戶變關系辨識。算例分析結果表明,所提多分辨率辨識法綜合考慮不同分量的細節特征,可實現戶變關系有效辨識。
EMD是一種基于多分辨率思想的信號分解法,可自適應分解時間序列,解耦各特征尺度信息并降低原始時序數據的復雜度,以實現對原始數據內在規律、局部特征和變化趨勢的細致刻畫[9]。考慮到EMD分解得到的各模態函數間存在相關性,采用SE度量各子序列的復雜度并完成相似序列合并重組,以強化同類序列的典型特征,并簡化后續信號分析的計算規模。
EMD是由學者Huang提出的一種基于多分辨率思想的信號分解法,可將原始信號自適應分解為一系列本征模態函數(Intrinsic Mode Function,IMF),細化表征原始信號在不同時間尺度的特性。
EMD具體步驟如下:
(1)尋找原始時序信號x(n)的所有極大值和極小值點。
(2)用曲線連接所有極大值點,經擬合構成信號的上包絡u(n);用曲線連接所有極小值點,經擬合構成信號的下包絡l(n),計算上下包絡線的平均值為y(n):
(3)令原始時序信號x(n)與平均值y(n)的差值為h(n):
(4)若h(n)不滿足本征模態函數的要求,則視h(n)為新的信號x(n),轉至步驟(1);若滿足,則令h(n)為IMF分量。其中,第i個IMF分量ci(n)表示為:
(5)將原始時序信號x(n)與ci(n)差值的剩余分量視為新的信號x(n),并轉至步驟(1),直至得到所有的分量。
由此,原始時序信號x(n)經EMD分解為K個IMF分量ci(n)和1個剩余分量r(n),則x(n)可表示為:
式中:K為IMF分量個數。
EMD分解得到的模態函數數目較多且存在一定相關性,因此,為強化同類序列的典型特征并簡化后續信號分析的計算規模,本文采用SE度量各子序列的復雜度,并將各子序列合并重構為趨勢分量、細節分量和隨機分量。
SE是由學者Richman提出的一種時序數據復雜度量化指標,其中,時序數據的樣本熵越小,表明時序數據的復雜度越小;時序數據的樣本熵越大,表明時序數據的復雜度越大[10]。
SE具體步驟如下:
(1)將經EMD分解得到的分量序列z(n)構成一組m維的向量序列Zm(1),Zm(2),…,Zm(i),…,Zm(N-m+1)。其中,Zm(i)={z(i),z(i+1),…,z(i+m-1)},1≤i≤N-m+1,N為分量序列的數據點數。
(2)定義向量Zm(i)和Zm(j)間的距離為:
式中:1≤j≤N-m+1且j≠i;0≤a≤m-1。
(3)設定相似容限t,統計向量Zm(i)和Zm(j)間距離小于t的個數與距離總數N-m的比值:
式中:num為個數統計;1≤j≤N-m+1且j≠i。
(4)求上述比值的平均值:
(5)將序列維度由m維改為m+1維,重復步驟(1)~(4),計算得到Bm+1(t)。
(6)當N為有限值時,樣本熵為:
其中,m和t常取值2和0.2std[11],std為時序標準差。
若分量的樣本熵數值接近,則表示分量相關性高、融合性好,其產生信號新模式的概率基本一致[10],由此,依據熵值數量級將各分量合并重構。其中,樣本熵為0.01數量級的分量合并為趨勢分量,樣本熵為0.1數量級的分量合并為細節分量,樣本熵為1數量級的分量合并為隨機分量。
式中:T為趨勢分量;D為細節分量;R為隨機分量。
子序列合并重構后,可強化同類序列的典型特征。其中,趨勢分量T波動平緩,反映時間序列的整體趨勢特征,具有較小的復雜度;細節分量D波動規律,反映時間序列的局部細節特征;隨機分量R波動隨機,反映時間序列的隨機波動特征,具有較大的復雜度。
由此,基于多分辨率分析將原始時序信號分解為趨勢、細節和隨機三類分量,實現從不同層次細化信號多尺度特征。
K-means聚類算法利用距離測度度量樣本間相似性,并將樣本分為k個簇。其中,簇內樣本間呈現較高的相似性,而不同簇樣本間呈現較低的相似性。K-means算法流程如下:
(1)在樣本集中隨機選取k個初始聚類中心。
(2)計算所有樣本與k個聚類中心的距離,將各樣本歸于距離最小的聚類中心所在簇。
(3)所有樣本完成分簇后,令各簇內樣本均值為新聚類中心,完成各聚類中心的更新:
式中:μi為簇Ci的聚類中心;x為樣本。
(4)重復步驟(2)(3),直至誤差函數收斂,則算法流程結束:
式中:E為聚類平方誤差。
K-means聚類算法效果受初始聚類中心的影響大,隨機設置初始聚類中心難以保證聚類結果的有效性與穩定性。此外,傳統相似性測度僅從整體上度量樣本間相似度,不具備多分辨率分析和多尺度特征刻畫能力,難以體現樣本局部細節特征的影響。針對上述問題,本文提出一種基于多分辨率分析的改進K-means聚類算法。
2.2.1 初始聚類中心設置
本文研究低壓用戶與臺變連接關系辨識,因此,可將聚類類別數設為待分析臺變數,初始聚類中心設為各臺變電壓。
2.2.2 多分辨率距離和相似性測度
令電壓序列樣本x的趨勢分量、細節分量和隨機分量分別為Tx、Dx和Rx,則重構分量矩陣Mx可表示為:
式中:Tjx、Djx和Rjx分別為Tx、Dx和Rx的第j個元素。
綜合考慮趨勢分量、細節分量和隨機分量的多尺度特征,提出多分辨率距離和多分辨率相似性測度以全面度量電壓時間序列間的相似性。
2.2.2.1 多分辨率距離測度
在計算樣本x和y的距離時,綜合考慮多分量特征計算樣本間距離,得到樣本x和y的多分辨率距離計算公式為:
式中:Tjy、Djy和Rjy分別為電壓序列樣本y的趨勢分量、細節分量和隨機分量的第j個元素。
2.2.2.2 多分辨率相似性測度
基于矩陣相似度原理[12],綜合考慮多分量特征計算樣本間的相似度,得到樣本x和y的多分辨率相似度計算公式為:
式中:rxy為樣本x和y的多分辨率相似度;Mx(i,j)和My(i,j)分別為矩陣Mx和My中i行j列的元素;Mxi和Myi分別為矩陣Mx和My中i行的平均值。
本文所提基于多分辨率分析的配網臺區戶變關系辨識法的算法流程如下:
步驟1:提取低壓用戶電能表電壓數據和臺變低壓側電壓數據,將各電壓序列樣本值減去樣本平均值,完成數據中心化處理。
步驟2:利用EMD提取電壓序列數據的IMF分量和剩余分量,并基于SE重組得到趨勢分量、細節分量和隨機分量。
步驟3:初始化改進K-means聚類算法參數,聚類類別數k取待分析臺變數,以各臺變低壓側三相電壓平均值為初始聚類中心。
步驟4:由式(15)計算出各用戶與k個聚類中心的電壓時序數據多分辨率距離,將用戶歸類于距離最小的聚類中心所在簇。
步驟5:各用戶完成類別劃分后,令各簇樣本的均值為新聚類中心,并利用EMD和SE分解重組得到新聚類中心的趨勢分量、細節分量和隨機分量。
步驟6:重復步驟4、5,直至誤差函數收斂,則算法流程結束,完成戶變關系辨識。
若采用多分辨率相似性測度,則將步驟4改為:由式(16)計算出各用戶與k個聚類中心的電壓時序數據多分辨率相似度,將用戶歸類于相似度最大的聚類中心所在簇。
本文選取廣東某地2個臺區的電壓時序數據開展算例分析。臺區A、B共有187個用戶,用戶電壓數據采樣頻率為1 h/點,選取某4周共28天數據進行臺區戶變關系辨識。
經核查,臺區A、B的戶變關系信息正確。為了驗證所提戶變關系辨識法的計算效果,隨機抽取2個臺區共10個用戶,將其臺賬檔案調整至另一臺區,并選擇8種方法分別進行配網臺區戶變關系辨識,對比不同方法的辨識效果。其中,方法1和方法2為基于K-means算法的戶變關系辨識法,分別采用歐氏距離和皮爾遜相關系數度量樣本相似性;方法3和方法4為基于自動編碼器[13]和K-means算法的戶變關系辨識法,分別采用歐氏距離和皮爾遜相關系數度量樣本相似性;方法5和方法6為基于t分布隨機近鄰嵌入[14]和K-means算法的戶變關系辨識法,分別采用歐氏距離和皮爾遜相關系數度量樣本相似性;方法7和方法8為基于多分辨率分析和K-means算法的戶變關系辨識法,分別采用多分辨率距離和多分辨率相似度度量樣本相似性。8種方法辨識結果如表1所示。

表1 不同方法的戶變關系辨識結果
觀察表1可知,方法3的辨識效果略優于方法1、2,方法4、6的辨識效果優于方法1、2,而方法7、8分別在基于距離和相似性測度的方法中辨識效果最優。結果表明,在分析前對電壓時序數據進行特征預處理有助于提升戶變關系辨識效果,且基于多分辨率分析的辨識法綜合考慮不同分量的細節特征,可實現戶變關系有效辨識。此外,由于歐氏距離關注時序數據在特征空間的絕對距離,未能有效反映時序數據曲線的形態與波動情況,因此,基于歐氏距離的戶變關系辨識法計算效果整體劣于基于相似性測度的辨識法。
為分析數據長度對戶變關系辨識效果的影響,分別抽取計算長度為1天、3天、7天、14天和21天的時序數據,基于方法7和方法8開展配網臺區戶變關系辨識。不同時段的負荷特征不同,電壓時序數據特征存在差異,因此,采用滑動窗形式重復進行戶變關系辨識,統計分析數據長度對辨識效果的影響。
以數據長度7天為例說明計算方式,設定時間窗窗寬為7×24個數據點,以固定窗寬的滑動窗隨機抽取時序數據進行戶變關系辨識,重復50次統計辨識結果的平均值,結果如表2所示。

表2 不同數據長度的辨識結果
觀察表2可知,方法7的辨識準確率隨數據長度的增加呈現先增大、后減小的特點,而方法8的辨識準確率隨數據長度的增加而提高。上述結果與高維空間距離度量失效有關[15],即多分辨率距離測度在高維空間無法準確度量樣本距離。
由表1、表2可知,基于多分辨率相似度的戶變關系辨識法計算效果優于基于多分辨率距離的戶變關系辨識法。
(1)在戶變關系分析前對電壓時序數據進行特征預處理有助于提升辨識效果,且多分辨率辨識法綜合考慮不同分量的細節特征,可實現戶變關系有效辨識。
(2)基于多分辨率相似度的戶變關系辨識法準確率隨數據長度的增加而提高,而基于多分辨率距離的戶變關系辨識法在高維空間的準確率降低。
(3)基于多分辨率相似度的戶變關系辨識法計算效果優于基于多分辨率距離的戶變關系辨識法。