董 翔,趙 璧,戴瑞成,董小兵
(1.國網北京電力檢修分公司,北京 100069;2.國網陜西省電力有限公司經濟技術研究院,西安 710065)
隨著計算機技術的飛速發展,電力變壓器的故障檢測手段發生了巨大變化[1-2],已逐漸轉入計算機領域,通過建立相應的數學模型來預測變壓器內部故障,使得故障的檢測朝向智能化、信息化的方向發展[3-4]。
常用的故障檢測方法有基于人工神經網絡模型的診斷、基于模糊理論的故障診斷和基于專家系統的故障診斷。此外,其他的診斷方法如Petri網、灰色聚類及支持向量機等也運用于故障診斷中,并得到了一定程度的發展。每種方法均有優點和缺點,需要人們根據實際問題尋找最合適的辦法。按照當今的發展趨勢,人工智能的方法在故障診斷領域占據越來越重要的地位。
傳統的設備運維基本采用狀態檢修技術,根據設備的定期試驗結果并結合評價模型開展檢修策略的制訂[1-2]。現階段隨著帶電檢測、在線監測和運行數據逐步納入電力企業云平臺,為開展電力設備大數據分析、進一步提高供電可靠性奠定了基礎。而現階段積累的狀態監測和檢測數據沒有得到充分挖掘利用,造成信息資源的浪費[3-4]。
因此,非常有必要完成變壓器異常事件及其影響因子的調研、收集和相關規則庫建設,對規則庫中的海量數據開展基于大數據技術的潛在關聯探索和未來短期預測,逐步提升設備故障診斷水平,為后續生產運行和狀態評估提供決策依據。本文介紹了關聯規則挖掘的基本原理、故障狀態量的劃分及數據離散化處理方法,以此為基礎,利用SPSS Modeler 軟件平臺建立電力變壓器故障關聯規則挖掘模型,旨在采取關聯規則挖掘的方法發現狀態特征量和故障類別之間的內在聯系,對故障進行判定。
關聯規則挖掘的概念可以描述如下:設I={i1,i2,…,im}是一個項目的集合,D={d1,d2,…,dn}是事務數據庫且其中的事務都具有唯一的標識。每個事物di(i=1,2,…,n)都對應I 上的一個子集Ij(j=1,2,…,m),Ij即為由j 項I 中的元素組成的集合。關聯規則就是定義在I 和D 上,滿足一定的置信度及支持度的形如Ij→di的關系式。關聯規則挖掘的主要任務在于挖掘出支持度和置信度分別大于或等于設定的最小支持度及其最小置信度的關聯規則。
1.2.1 關聯規則挖掘流程
關聯規則挖掘流程如下:
(1)找出全部的頻繁項目集。所謂的頻繁項目集指的是支持度不小于給定的最小支持度的項目集,例如k 階頻繁項集Lk中每個元素都是由k個項組成的集合,且其中每個元素的支持度均不小于最小支持度閾值,以2 階頻繁項集為例,其形式為L2={{i1,i2},{i1,i3},{i2,i4},…}。
(2)根據頻繁項目集來生成關聯規則。這一步以置信度大于等于用戶所設定的最小置信度作為基本原則,生成所期望的強關聯規則。
在以上2 步中第(1)步的任務集中了幾乎所有的計算量,所以耗時相對較大;第(2)步在第(1)步的基礎上較容易實現,所以關聯規則挖掘算法性能主要取決于第(1)步。
1.2.2 關聯規則挖掘算法
Apriori 算法作為關聯規則挖掘的經典算法,自被提出以來就一直在關聯規則挖掘中占據重要的地位。該算法主要包含兩大步驟:挖掘得到頻繁項目集;由頻繁項目集生成關聯規則。Apriori算法是一種挖掘關聯規則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。該算法的基本原理如圖1 所示。

圖1 Apriori 算法原理
關聯規則挖掘過程的核心部分是頻繁項集的生成過程,因為頻繁項集的生成過程是影響算法的關鍵,也是計算量最大、耗時最長的過程。生成頻繁項集的過程又有2 個子步驟:
(1)連接步。為了產生頻繁k 項集的集合Lk,首先要找到候選k 項集的集合Ck,該集合可以通過頻繁(k-1)項集的集合Lk-1與自身進行連接得到。假設l1和l2均為Lk-1中的項集,lj中的第i 項用lj[i]來表示。如果它們的前(k-2)個項均相同的話,即滿足(l1[1]=l2[1]∧l1[2]=l2[2]∧…∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1])。連接l1,l2產生的結果項集即為候選k 項集:Ck={l1[1],l1[2],…,l1[k-1]l2[k-1]}。
(2)剪枝步。由于候選項集并不是所有的項集都是頻繁的,因此為了減小搜索空間,可從Ck中去掉候選k 項集的(k-1)項子集[5-7]。
1.2.3 算法程序實現
根據以上算法原理可以設想程序的實現應分為以下3 個模塊:
(1)找出滿足最低規則支持度的頻繁n 項集Ln,為此要先構建初始候選1 項集C1及頻繁1 項集L1,由連接步依次生成Cn,再在Cn中篩選出Ln。
(2)從頻繁n 項集Ln中篩選出滿足最低支持度的Qn。
(3)在Ln中找出滿足最低規則支持度和最低支持度的強規則集。
關聯規則挖掘階段主要由四大部分構成,即變壓器故障數據歸集整合、數據預處理、單變量交叉表分析和利用Apriori 算法得到關聯規則[8-10]。
變壓器在故障狀態下會生成多種氣體,本文采用基于PCA(主成分分析)的輸入參數分析方法對相關量進行優選。利用PCA 法選取診斷模型對應的最優參數,并同步剔除影響診斷正確率的冗余參量,最終取8 種氣體(CH4,C2H2,C2H4,C2H6,H,CO,CO2和總烴)作為故障特征量,即故障診斷中的條件變量,而故障類型選取過熱兼放電、低溫過熱、中溫過熱、高溫過熱、低能放電和高能放電,并標記相應的變量,如表1、表2 所示。
將故障特征與變壓器典型故障相結合,可形成關于關聯分析規則分析中的數據項集I,記為:
I={x1,x2,…,x11,y1,y2,…,y6} . (1)
以下電力變壓器故障與特征量的關聯分析,是對特征量集X={x1,x2,…,x11}與故障集Y={y1,y2,…,y6}的相關性進行分析,計算獲得X→Y 的模糊關系規則。
原始數據中存在著許多空缺值,并且關聯規則挖掘需要針對的是離散化數據,因此原始數據必須進行預處理后方可使用。對于空缺值的處理一般有平均值填充和去除2 種方法。由于本文中所處理數據量較大,并且分散性較高,所以當一個案例所有信息均空缺時對空缺值采用去除的方法,若案例的空缺信息不多,則利用Spss Modeler將其設為缺失值。數據的離散化方法有很多,如等距離劃分法、等頻率劃分法、K-means 算法、最小信息熵法、NavieScaler 離散化和模糊離散方法,方法的具體選取由數據本身決定。

表1 變壓器故障特征量

表2 變壓器典型故障類型
有關故障狀態量的離散化本文選取了布爾邏輯算法和模糊離散方法2 種方法,優先運用布爾邏輯算法。由于正常變壓器油中氫和烴類氣體的含量限值各不相同,具體注意值如表3 所示,若對所有屬性值采用相同的區間,則缺乏一定的針對性。且由對電力變壓器數據統計特征分析可知,有4 種氣體其絕大部分數據均集中在含量極小處,綜合考慮后決定離散方法如下:若離散值為0,則表示氣體含量在正常范圍內;若離散值為1,則表示氣體含量超出注意值。

表3 正常變壓器油中氫和烴類氣體的含量限值
由于國標沒有規定CO 和CO2的閾值,因此可利用現有數據的分布來確定二者具體閾值,即根據IEEE 所規定的氣體濃度極限值,通常是基于去除了破壞后的樣品的大型數據庫的90%和95%的氣體濃度來確定的。
基于關聯規則挖掘基本原理,利用SPSS Modeler 軟件平臺建立電力變壓器故障關聯規則挖掘模型。先以改進的等距離劃分算法所得離散化數據的建模過程作為重點介紹。當采用模糊的離散化方法離散時,建模過程與此相同。
其中,將能直觀表示故障特征量以及故障類型總共9 個類別量之間相關聯程度的網絡關系展示如圖2 所示。圖中,如果案例支持兩點之間存在關聯,那就在兩點之間連成一條線;如果案例不支持,兩點之間就不連線。把所有案例遍歷后,哪兩點之間的連線最多,說明這兩點之間的相關性最強。

圖2 不同鏈接數下的屬性值相關關系網絡圖
利用模糊關聯規則模型對特高壓變壓器進行異常狀態診斷及分析,流程如圖3 所示。以故障特征量為前項,以故障類型為后項,設置最小支持度和最小置信度,運用Apriori 數據挖掘經典算法挖掘出變壓器故障和故障狀態量之間的關聯規則。
以2016 年某220 kV 變壓器跳閘為例進行驗證[15]。該變壓器跳閘后的試驗結果見表4,油色譜數據見表5。
將該結構化數據與故障類型、故障部位進行關聯規則匹配,結果見表6。由表6 可知,基于模糊關聯規則的變壓器診斷結果與實際解體檢查結果(B 相低壓繞組嚴重變形,多處匝間短路,存在電弧放電)相符。

圖3 模糊關聯規則模型診斷分析流程

表4 變壓器電氣試驗結果

表5 變壓器故障油色譜數據

表6 診斷結果
本文以電力變壓器故障特征量為前項,以故障類型為后項,設置最小支持度和最小置信度,運用Apriori 數據挖掘經典算法挖掘出變壓器故障和故障狀態量之間的關聯規則。基于關聯規則挖掘基本原理,利用SPSS Modeler 軟件平臺建立電力變壓器故障關聯規則挖掘模型進行建模分析,得到以下故障診斷流程:
(1)利用PCA 法對輸入特征參量進行優選,得到優選后的特征參量。
(2)基于模糊集合理論對優選后的特征量(油色譜及電氣試驗數據)進行模糊離散處理,得到相應離散后的特征數據庫。
(3)基于離散后的特征數據庫,使用Apriori算法進行關聯規則的提取。
(4)利用所提取的關聯規則對待診斷設備進行故障判定。
該流程能夠從歷史數據中獲取潛在的診斷知識,有效解決故障診斷中知識獲取困難的問題。實際應用時,在得到相應特征參量(油色譜數據及電氣試驗)的數據后,及時轉化為結構化數據并對結構化數據進行模糊離散化處理,再將離散數據輸入到模糊關聯規則模型后即可得到變壓器異常狀態的診斷及分析情況。