劉丁源,裴 磊,魏 炯,高華鋒,藺庚立,王 勇,郭海濤
(國網寶雞供電公司,陜西 寶雞 721004)
為有效解決電力變壓器檢修不及時或者過度檢修的問題,需要以電力變壓器健康狀態的評估為依據制定具有針對性的電力變壓器檢修計劃。狀態評估的前提是對在線監測系統或離線檢測系統所獲取的電力變壓器的觀測數據進行有效挖掘,獲取足以支撐制定科學檢修計劃的先驗知識[1-3]。隨著智能電網和泛在電力物聯網建設的普及,與電力變壓器運行狀態相關的信息已經呈現出數量大、類型多、增速快的特征,這大大增加了數據挖掘的難度[4-6]。為此本文提出使用聚類分析方法對所采集的觀測數據進行處理,實現相同健康狀態的電力變壓器的聚類分組,便于針對不同狀態的電力變壓器制定不同優先級的檢修計劃,從而提升電力變壓器檢修的針對性和合理性,降低檢修成本。
本文首先闡述拉普拉斯評分、主成分分析和模糊C均值算法三種算法原理,然后基于三種算法提出電力變壓器聚類分析方法,最后使用真實觀測數據進行仿真實驗以闡明所提方法的具體操作步驟及其有效性。

L=D-K
(1)
特征f的拉普拉斯評分按以下方式計算:

(2)

設X∈Rn×n為包含n個觀測變量的矩陣,每個觀測向量均由p個觀測變量或參數組成,因此可以視為觀測空間中的一個點。PCA的目的是探索p變量之間的聯系以及觀測變量之間的相似性[10-11]。PCA允許構建由主成分組成的歐幾里德空間,該線性空間是p個初始變量的線性組合,目的是建立具有最恰當地概括該空間數據結構特征的歐幾里德空間。通過PCA還可降低觀測向量的維度。通過計算關聯矩陣R的向量和特征值,可以獲得構成該空間軸的主成分。
(3)
式中,XT為X的轉置矩陣。
通過計算方差評估數據慣性。對于任意變量,矩陣R的特征值與變量總數之間的比率表征了該變量所提供的主成分承載的信息量。數據慣性由以下關系式計算:
(4)
式中,λi∈{1,…,p}為矩陣R的特征值。
無監督分類算法是對數據進行聚類分組而無需類別特征數據[12-15]。聚類技術用于將數據劃分為多個組,以便在一個組內數據的關聯度很高,而在不同組之間數據的關聯度很低。從相似性的標準來看,來自同一組(也稱為聚類)的觀測值比來自其他聚類的觀測值更接近彼此,即將任何觀測值分配給其更接近其中心的聚類。相似性準則通常基于距離。模糊C均值算法使用模糊邏輯來定義屬于一個類的程度。對于每個組,為每個數據點分配一個介于0和1之間的隸屬度。隸屬度表示每個數據點屬于不同組的概率。
給定多個聚類c,模糊C均值算法將針對模糊隸屬度uij和聚類中心cj最小化如式(5)所示的目標函數,將X={x1,…,xn}數據分類為c個模糊聚類。
(5)
式中,m為權重系數,稱為“模糊系數”;uij為xi對聚類j的隸屬度;xi為矩陣數據中維度為d的第i個觀測值;cj為是維數為d的聚類中心j。
隸屬度由式(6)給出:
(6)
聚類中心由式(7)給出:
(7)
模糊C均值算法流程為:①隨機初始化屬于聚類i的xi的隸屬度值uij;②計算聚類中心cj;③使用式(6)更新隸屬度;④使用式(5)計算目標函數;⑤重復步驟②至④,直到算法收斂為止。
如果式(3)所計算得出的Г值低于預定的閾值,或者已達到迭代的最大數量,則可以認為算法收斂。通過調整模糊系數可以優化聚類之間重疊的程度。
聚類分析方法的目標是從在給定的有效的觀測數據集中識別出具有相似運行狀態的電力變壓器。聚類分析方法包括4個主要步驟。
(1)評估觀測數據集中每個特征的重要性,并選擇其中最重要的特征。在模式識別和機器學習領域,已有一些得到公認的有效的特征選擇工具,如皮爾遜相關系數[16]、卡方分布[17]和拉普拉斯分數(LS)[18]等。使用這些工具可以根據特征的子集與用戶需求的相關程度或重要性展開特征選擇。在無監督分類算法中,特征選擇相對復雜,因為缺少可以指導搜索相關信息的類標簽。基于提升聚類效率、降低數據維度并提高數據的可理解性的考慮,本研究使用LS作為特征選擇工具。這種選擇帶來的另一個好處是LS的實現方式相對簡單。在完成所有特征的LS值排序后,即可獲得在聚類分析中包含最相關信息的參數的標識。一旦確定了最重要的特征,就可以刪除其余特征,然后繼續第2步。
(2)使用主成分分析(PCA)來定義一個新的觀測變量。所獲得的新觀測變量由初始觀測變量的線性組合組成。根據這些新的觀測變量,可以確定觀測數據集及其攜帶的信息量。
(3)將模糊C均值算法應用于觀測數據集實現無監督分類。所得聚類是基于數據中的內在關聯性形成的。
(4)根據專家知識對每個聚類進行解釋,并基于解釋結果來制定具有針對性的檢修計劃。
實驗數據來自國網寶雞供電公司的33臺油浸式電力變壓器,型號為SFPS7-120000/220,一次側電壓為220 kV,容量為120 000 kVA,2000年投入使用。數據采集于2019年,數據源為電力公司的電力變壓器在線監測系統。觀測參數及其含義[19-20]見表1。

表1 觀測參數
按照前述的方法,分4個步驟進行聚類分析。
(1)識別每個參數在數據結構中的相關性。各個參數的LS計算結果和排序見表2。

表2 LS的計算結果
(2)通過PCA識別參數空間的軸。在完成LS計算之后,PCA的目標是識別參數空間以及構成該空間的每個軸的重要性。PCA可以更好地造成參數差異的主要原因。
關聯矩陣R的特征值和累積方差見表3。根據等式2,基于矩陣R的值可計算得出結果見表4。

表3 軸、特征值、方差貢獻率和累積方差貢獻率

表4 軸與變量之間的關聯
由表4可知,前3個參數為數據集的主要特征。由這3個主要特征的線性組合所得出的變量為參數空間的數軸,并表征為新的觀測變量。表4給出了參數在每個數軸上的投影值。圖1顯示了相對于前2個觀測變量的參數空間分布。

圖1 變量相關性
(3)基于所確定前3個參數對觀測數據使用模糊C均值算法開展聚類分析。聚類結果是將電力變壓器分為4組,分別對應A組、B組、C組合D組。每組電力變壓器的運行狀態將使用專家知識加以解釋。在PCA所標識的特征空間中表示所得的4個聚類如圖2所示。

圖2 基于模糊C均值的聚類結果
(4)對聚類結果進行解釋。聚類1中的電力變壓器的絕緣質量已經劣化為此需要盡快對絕緣油中雜質進行檢查。聚類2中的電力變壓器的油質和絕緣性能均可接受,但是溶解氣體含量較多。聚類3中的電力變壓器的油質和絕緣性能均不理想,需要考慮盡快進行變壓器油的更換。聚類4中的電力變壓器油的絕緣性能可以接受。
電力變壓器運維過程中積累的海量觀測數據與變壓器運行狀態之間的關聯并非顯而易見,為此需要挖掘這種內在關聯性以服務電力變壓器檢修計劃的制定。本文提出的電力變壓器聚類分析方法,使用PCA方法提取觀測數據的主要特征,然后使用基于模糊C聚類算法獲取4個特征迥異的變壓器組。最后利用電力變壓器工程師的專業知識針對不同變壓器組進行解釋,為制定具有針對性的檢修計劃提供專業科學指導意見。