葉保璇,張 娟,劉 恒,梁 杰,符芳輝,楊 銀,劉 軒
(1.海南電網有限責任公司文昌供電局,海南 文昌 571300;2.廣州市奔流電力科技有限公司,廣州 510700)
隨著生活水平的提高,用戶對用電質量、用電可靠性和用電服務都有了更高的要求[1-2]。智能電網的快速建設帶來的技術進步為電網公司提升供電服務質量提供了保障。配電臺區作為直接對接用戶的重要供電網絡,加強臺區的供電質量保障十分重要。臺區用戶相序電氣連接拓撲對于分析線損治理、三相不平衡治理、故障診斷及定位都有著重要的技術支撐,當前智能電表積累了海量的用戶數據,采用大數據分析技術直接對用戶數據的電氣特性進行挖掘分析,研究臺區用戶的物理拓撲關系已成為可能。
相序拓撲是臺區物理拓撲的一個分支,現有研究采用電表用電數據開展相序拓撲識別已有較多文獻成果。總體上可分為知識驅動和數驅動兩種路線,知識驅動是指對臺區各用戶節點的電氣量所遵循的物理規律進行機理分析和推導,總結同相用戶和異相用戶的不同規律,唐捷等[3]對此分析較為深入,還有一些研究人員是基于此理論依據開展其他方法應用或進一步方法改進的研究[4-8]。這些方法都是分析先電壓聚類后類別相序識別的問題,張麗強等[9]沒有從電壓聚類角度考慮,而是直接分析每一個用戶電壓和母線ABC相的線性回歸強弱來進行判斷識別,并在實例分析中也取得了很好的識別準確率。
知識驅動方法有嚴格的理論依據支撐,一般設計的算法普適性較好,效率高,但受數據質量影響很大,其影響的機理和靈敏性很難量化分析,該方法應用會有數據質量瓶頸,因此有研究者將目光轉移到數據驅動方式的相序識別研究。谷海彤等[10]提出了CNN-LSTM神經網絡的臺區拓撲識別方法;蔡永智等[11]提出了隨機森林算法的臺區相序識別方法;李繼東等[12]提出了Faster-RCNN的電纜相序識別方法。
以上兩種方法的共同點都是受數據質量影響很大,同時數據驅動方法的不可解釋性也帶來了模型泛化性不好、難以改進的問題。本文以知識驅動為技術背景,在電壓聚類環節首先進行標準化預處理,采用k-medoids對處理后的電壓特征向量進行聚類,改進了k-means聚類受臟數據影響太大的缺點,在實例分析中表明所提方法具有良好的應用效果。
根據相關研究成果[3,13],臺區網絡中分布于同一相線上的鄰近節點相比于異相線節點的電壓在電氣時空特性上具有更大相關性。為直觀展示臺區用戶的電壓具有這種電氣關聯特征,選取了2020年11月1日海南省文昌市某臺區分布于不同相線的4個用戶1天內的電壓數據進行分析說明。如圖1所示。
圖1 用戶24小時電壓曲線
其中,2號測量點和3號測量點用戶屬于同一相線相鄰節點,78號和93號測量點屬于不同相線且與2號測量也不屬于相同相線。根據對4個用戶的電壓曲線波動特征的分析可得到以下幾個特點。
(1)趨同性。從24 h時長跨度的曲線波動變化上看,整體上都呈現出晚間高峰,白天分時段在小高峰和峰谷間波動的特征,一個臺區內不同用戶在同一時刻的電壓偏差不大,在不同時刻的電壓變化趨勢趨同。
(2)差異性。從1個采集時刻跨度的曲線波動變化上看,一個臺區內同相線相鄰用戶的電壓波動相似,基本處于同增同減趨勢,曲線高度重合;而不同相線用戶的電壓波動差異較大,主要體現在電壓幅值和下一時刻變化方向上。
通過上文對臺區用戶電壓曲線波動特征的分析,采用歐式距離度量兩用戶電壓曲線之間的相似性,在計算歐式距離之前首先對電壓序列進行Z-Score標準化,ZScore標準化后原始數據變換為均值為0、標準差為1的序列,其分布特性保持不變。該方法的好處是可以放大兩條曲線之間的相似性或差異性,同時可以排除異常點對數據整體分布的影響,這有利于后文聚類的計算效果。Z-Score標準化如下:
式中,u*x,t為用戶x的Z-Score標準化電壓值;ux,t為用戶x的原始電壓值,t=1,2,…,T,T為電壓序列時段數。
進一步,計算兩用戶電壓曲線的歐式距離如下:
k-means聚類算法在搜索聚類中心時是計算簇類所有樣本間的平均值,以平均值作為該簇的更新質心,其質心可能是簇內不存在的虛擬點。這種方法受離群點異常數據影響很大,會因為離群點嚴重扭曲簇內均值點的分布。而k-medoids聚類算法是在簇內選出一個點,使之與簇內其他樣本對象之間的距離之和最小,是以簇內某樣本對象作為質心。這種質心確定方法對噪聲數據的魯棒性更好,可大大降低異常數據對聚類效果的影響。因此本文采用k-medoids聚類算法開展臺區用戶電壓曲線聚類進行相序識別。k-medoids聚類算法的目標函數為:
式中:E為簇Ci中所有樣本y至該簇中心樣本oi的距離平方和。
最佳聚類數評價采用戴維森堡丁指數(daviesbouldin index,DBI)指標,定義如下:
式中:yu和ou分別為聚類收斂后聚類簇Cu和Cu的聚類中心的電壓特征向量;k為聚類數。
結合臺區用戶電壓特征,采用k-medoids聚類算法的相序識別方法的步驟如下:
(1)輸入臺區所有用戶電壓序列X,X=[X1,X2,…,XM]T,XM表示臺區第M個用戶的電壓序列,XM=[XM1,XM2,…,XMT];
(2)對電壓序列X進行Z-Score標準化處理輸出Y;(3)依次設定聚類數k=3,…,c,k的初始值為1;(4)在樣本集合中隨機選取k個樣本作為簇的初始聚類中心;
(5)計算Y中各用戶電壓向量至k個聚類中心的歐式距離,將各用戶電表歸屬到與其歐式距離最小的聚類中心所對應的簇;
(6)計算簇中所有其他樣本與聚類中心樣本的歐式距離平方和,如下:
式中:i=1,2,…,k。
(7)隨機選擇一個未被選過作為聚類中心的樣本oj,計算簇中所有其他樣本與樣本oj的歐式距離平方和,如下:
(8)若ei>ej,則令ei=ej,且使樣本oj為新的聚類中心;
(9)重復步驟(6)~(8),直至所有非聚類中心的樣本都被選過;
(10)重復步驟(4)~(8),直至k個聚類中心不再變動;
(11)計算戴維森堡丁指數λDBI,再重復步驟(3)~(11);
(12)選取λDBI值最小的聚類數k作為最佳聚類數,分別計算每個聚類簇的聚類中心與配變低壓母線A、B、C相電壓特征向量之間的的歐式距離,以歐式距離最小相定為該簇的相序。
為更直觀地展示本文所提的相序識別方法,其實現過程的流程如圖2所示。
圖2 基于k-Medoids聚類算法的相序識別方法流程
本文選取海南省某農村臺區實際數據作為方法驗證的分析案例。為提高相序識別結果,選取臺區三相電壓不平衡度較大的一天數據,臺區101個用戶及三相母線電壓時序曲線如圖3~4所示。從圖3中可以看出,不同用戶電壓曲線波動有差異,但少數用戶又有很高的相似性,呈現明顯分類現象。
圖3 用戶電壓曲線
圖4 三相母線電壓曲線
對用戶電壓曲線預處理后采用k-medoids聚類,得到聚類數k與戴維森堡丁指數λDBI的對應結果如圖5所示。由圖可知λDBI隨k增大是先減小后平穩波動,而λDBI值越小反映簇內越緊密簇外越疏遠,代表聚類效果更好。因此對于此數據樣本選聚類數為20時,聚類效果最好。
圖5 不同聚類數的聚類性能評價結果
圖6 用戶的算法分析相序與實際相序分布
進一步對20個聚類簇的中心用戶計算其與配變低壓母線A、B、C相的歐式距離,得到20個聚類簇的相序,整理每個用戶的相序結算結果,并與人工勘測的實際相序作對比,為直觀表示采用散點圖進行描述,其中A相用數字1表示,B相用數字2表示,C相用數字3表示,結果如圖6所示。圖中,藍點表示用戶的算法分析相序分布,橙點表示用戶的實際相序分布,黑點表示用戶的算法相序與實際相序相同的分布。從以上結果看到,有6戶用戶的算法分析相序與實際相序不一致,總體相序準確率達到94.1%,識別結果總體可靠性較高。此外通過多天數據的分析,相序識別準確率會受三相電壓不平衡度影響,在三相電壓不平衡度更低一些的日期,相序準確率會有降低。
本文針對人工勘查相序拓撲困難的問題,提出了利用智能電表蘊藏的大數據開展相序拓撲分析,從用戶電壓電氣關聯特性出發,用k-medoids聚類算法將用戶聚成多個未知相序的電表集合,基于歐式距離最小原則確定每個電表集合的相序實現對每個用戶相序進行識別。在實驗中驗證了同相序電壓具有很高相似度的現象,相序識別準確率也達到了較好的效果,但還有改進的空間,具體如下。
電壓聚類后每一類是否嚴格屬于同一類與該聚類簇用戶電表在臺區供電線路上所處的上下游位置有關,通過多數據樣本實驗發現,靠近配電變壓器的首端用戶有將異相用戶聚為一類的現象,原因是首端用戶從配變低壓母線引出的電氣距離不遠,而母線ABC相電壓波動特征的差異不算太大,造成首端異相用戶會聚為一類。因此,下一研究階段將圍繞首端電表聚類后簇內電電表的拆分再校驗方法的研究。
此外,識別效果也會受三相電壓不平衡度的影響,為提高本方法的應用效果,分析樣本應挑選三相電壓不平衡度大的時間進行相序拓撲計算分析。