張重遠,林志鋒,劉棟,黃景立
(1.華北電力大學 高電壓研究所,河北 保定 071003;2.華北電力大學 電氣與電子學院,河北 保定 071003;3.國網山西省電力公司計量中心,太原 030032)
電力變壓器是電力系統的樞紐設備,其運行狀態對電網的安全穩定運行有重要影響。隨著數據采集與監控系統(SCADA)、管理信息系統(MIS)以及在線監測系統等廣泛應用于電力系統中,油浸式變壓器的監測數據已呈爆炸性增長,傳統的統計理論方法難以在現有海量數據中挖掘出更深層次的規律,不能為變壓器的穩定運行提供快捷、可靠的決策支持[1-3]。因此,將善于在大量數據中發現潛在有價值信息和知識的數據挖掘技術[4]引入電力行業,解決“數據爆炸但知識貧乏”的現象是十分必要的。
變壓器油中溶解氣體的變化直接反映著變壓器的運行狀態,相關學者在變壓器故障診斷領域中,提出了基于油中溶解氣體分析技術(Dissolved Gas A-nalysis,DGA)的多種數據挖掘方法,如比值分析法[5]、Bayesian網絡法[6]、支持向量機法[7]、人工神經網絡法[8]等。
大多數應用于基于DGA數據進行變壓故障診斷的數據挖掘方法,存在離散時未考慮邊界數據多重屬性的問題,為解決該問題文章引入正態云模型,對定量連續的DGA數據進行定性分析與離散,使數值區域劃分更加客觀并得到更符合人認知的概念;同時,云模型的引入精簡了DGA數據庫,也提升了關聯規則挖掘的效率。應用樸素貝葉斯分類器的故障診斷方法中,各屬性值相對獨立的假設不符合變壓器油中溶解氣體密切相關的實際情況,為此,文章引入關聯規則森林表示法[9]和屬性聯合概率算法對貝葉斯分類器進行改進,并結合正態云模型,建立了基于正態云模型&改進貝葉斯分類器的模型,將其應用于基于DGA數據的變壓器故障診斷。
正態云模型是李德毅院士在概率論和模糊數學理論兩者交互的基礎之上提出的[10],通過特定的結構算法從而形成的定性概念與其定量表示之間的轉換模型。該模型在正態分布函數與正態隸屬函數基礎上,用參數期望Ex、熵En、超熵He共同表達一個定性概念,反映概念的不確定性和模糊性。
云變換是基于云模型的連續數據離散化的一種方法[11],簡單講是從連續的定量數值區間到離散的定性概念的轉換過程。文章基于無確定度逆向云發生器[11],對已有的油中溶解氣體定量數據進行云變換并概念躍升后,轉換為由3個數字特征(期望Ex、熵En、超熵He)來表征的定性云概念,使離散化連續數據得到實現。
具體云變換算法如下:
(1)歸一化采集到的變壓器DGA數據:

式中Gi表示第i種氣體歸一化后的值;gi表示第i種氣體歸一化前的值;gmax為樣本中第i種氣體最大值。
(2)歸一化DGA數據后,對數據進行分析,得到不同數值區段的頻數分布,并轉化為頻數分布曲線[12]。DGA數據頻數分布曲線的峰值往往表明數據是以該點為中心匯聚,因此選擇峰值對應橫坐標作為第i種氣體第j個云概念期望值Exij,(j=1,…,m)。
(3)選取云滴。在Exij左右兩側各取n距離(n的大小試驗取得)。以Exij的值為中心,在(Exij-n,Exij)范圍中找到首個波谷和波峰,并計算橫坐標之間的差是否大于設定閾值,如大于則將此波峰的橫坐標值記為xleft,如小于該特定值則繼續尋找下一個滿足條件的波峰;同理在右邊找到xright。比較|Exijxleft|與|xright-Exij|值的大小,取較小的那個,假設為|xright-Exij|。將[Exij-|xright-Exij|,Exij+|xright-Exij||]范圍內的數據點作為云滴Gijk,云滴數為N。
(4)

(5)計算云滴樣本方差:

(7)將樣本中與Ex^的距離過小的e樣本點 去除,轉向步驟(5);
實際計算過程中,步驟(7)中刪除樣本點的比例e是可調整的參數。實際刪除樣本點過程中,刪除越少,則保留樣本信息就越多,還原的精度也越高,但是為了計算效率,可以按照一定的比例刪除。根據經驗,當樣本點的數目小于等于100,每次刪除1個離期望最近的云滴樣本,當樣本點的數目大于100,每次刪除1%離期望最近的云滴樣本。
若經過云變換后,得到相距過近的兩個云概念,則可根據人的認知特點以及 IEC 60599:2007中技術標準[13],對其進行合并躍升,從而得到獨立的云概念。
根據該算法,離散化已收集到的變壓器油中溶解氣體數據,結果見表1。

表1 DGA數據離散后各個云概念的數字特征Tab.1 Digital features of the cloud model after DGA
關聯規則模式是數據挖掘的知識模式中非常重要的一種,Agrawal等于1993年首先提出關聯規則[14],它側重于表示數據庫中不同屬性域之間的聯系,發現數據屬性域之間有實際意義的相互關系。
關聯規則可定義為[15]:設T={t1,t2,…,tk}為事務數據庫,tk為T的第k件事務;I={i1,i2,…,ik}為數據項集;對任意k,tk∈I;X與Y為I的子集,X∩Y為空集;在T中尋找X與Y之間存在的關聯。若可由X的值推出Y的值,則關聯規則記為X→Y。X與Y分別稱為關聯規則的前件和后件。
(1)設支持度為S,S為T中包含關聯規則X→Y的概率:

(2)設置信度C,C為T中包含聯規則X→Y的數量與包含Y的數量的比值:

然而因單靠支持度和置信度得到的規則,并不能有效判別規則是否真的有實際意義,故有學者提出了前件與后件的關聯性判別方法[16]:

式中P(X∩Y)表示前件和后件同時出現的概率;P(X)×P(Y)表示前件和后件完全獨立時的概率;V表示前件和后件的相關性,V<1時,表示負相關,即規則沒實際意義,V=1時,表示前件和后件相互獨立,V>1時,表示正相關,即規則有實際意義。
挖掘關聯規則步驟如下:
(1)將頻繁項目集找出。這一階段必須從原始數據庫中,找出所有滿足最小支持度閾值的項目,組成頻繁項目集,大多算法都是針對第一階段提出的,故挖掘性能主要由這階段決定。
(2)由頻繁項目集產生需要的關聯規則。利用前一步驟的頻繁項目集,在最小置信度的條件門檻下,尋找度滿足最小置信度的規則,則稱此規則為關聯規則。
對于數值型數據,在關聯規則挖掘前,需要對其進行離散化,有兩種方法用的較多:一種是把屬性定義域劃分為離散且互不重疊的區間[17],但是這種方法可能會失去一些有意義的區間;另一種是將屬性定義域劃分為有重疊的區域[17],這種方法的邊界元素可能同時屬于兩個相鄰區域。針對硬劃分所造成的問題,文章引入云模型對數據進行離散化,解決硬劃分帶來的問題。
在關聯規則挖掘的第一階段中,文章采用的是經典的Apriori算法,具體關聯規則挖掘方法步驟如下:
(1)計算收集到的DGA數據中的各個氣體對上文所生成的對應云概念的隸屬度:

由最大隸屬度原則,得出云概念,輸出0~4中對應的數字。
(2)用云概念對收集到的故障類型定義:Cf1-低能放電,輸出1;Cf2-高能放電,輸出2;Cf3-低、中溫過熱,輸出3;Cf4-高溫過熱,輸出4。
(3)文章在WEKA平臺上,基于經典的Apriori算法對DGA數據進行關聯規則挖掘,設置最小支持度為0.005,最小置信度為0.2。得出若干條關聯規則。
計算相關性系數,綜合考慮,得出有實際意義的關聯規則。最后得出關聯規則如表2所示,以第一條關聯規則為例“1,2,5,1,1→3”,該規則表示 H2、C2H4、C2H6隸屬于云概念C1,CH4隸屬于云概念C2,C2H2隸屬于云概念C5時,變壓器發生低、中溫過熱的故障。得到的有效關聯規則將對變壓器的故障診斷有實際的參考價值。

表2 有效關聯規則Tab.2 Effective association rules
貝葉斯分類器是通過已知分類的例子集學習得到先驗概率,再利用貝葉斯分類公式計算得出后驗概率,把具有最大后驗概率的類作為該屬性的類,這種方法巧妙地把先驗概率和后驗概率聯系起來,根據先驗信息和樣本集確定分類,該方法在各個領域的數據挖掘中得到了廣泛的應用,取得了一定的成果。
設已知分類的實例集合為D,D={X1,X2,…,Xn,C}={I,C},X1,X2,…,Xn為離散后的屬性變量,取值為x1,x2,…,xn,C為類變量,取值范圍為{c1,c2,…,cm}。實例Ii={x1,x2,…,xn}屬于類cj的概率為(由貝葉斯定理得):

式中α為正則化因子;P(cj)為類cj的先驗概率,可由樣本集計算得,P(cj|x1,x2,…,xn)為類cj的后驗概率。貝葉斯分類器進行分類的最關鍵之處就在于如何求解P(x1,x2,…,xn|cj)。
基于對P(x1,x2,…,xn|cj)的不同限定條件和求法,常用的貝葉斯分類器有:樸素貝葉斯分類器(Naive Bayes Classifier,NBC)、樹擴展樸素貝葉斯分類器(Tree Augmented Naive Bayes Classifier,TAN)、增強貝葉斯網絡分類器(BN Augmented Naive Bayesian Classifier,BAN)等。
為在關聯規則森林中融入多條關聯規則,對于關聯規則森林有如下定義:
(1)關聯規則中只包含有唯一對應節點的屬性值;
(2)規則中后件的屬性值節點都是前件的子節點,稱有父節點的節點為非根節點,反之稱為根節點。
為使得到的關聯規則集合所構造的規則森林合理可用,對規則集合做如下約束:
(1)每條規則的前件和后件的屬性均不相交;
(2)為根據規則計算其屬性的聯合概率,任意兩條的關聯規則后件不相交;
(3)為避免包含屬性少的規則失去意義,任意兩條的關聯規則的所有屬性互不包含;
(4)為避免所構造的森林中出現回環,任意兩條的關聯規則至少有一組規則前件與另一規則的后件的交集為空集。
為計算關聯規則中屬性值的聯合概率,文章引入定理[9]:
設集合E為N條關聯規則包含的全部屬性值,第i條規則的置信度為Ci,構造的關聯規則森林中所包含的M個根節點對應的屬性值集合S={D1,D2,…,DM},第j個根節點Dj的概率為P(Dj),則E中包含的全部屬性值的聯合概率為:

該屬性聯合概率即是貝葉斯分類器中的P(x1,x2,…,xn|cj),表示所有屬性值在類cj中同時存在的概率。
在數據預處理階段,文章引入正態云模型,很好的解決了數據離散化劃分區域過硬的問題,同時將數據離散時的模糊性和隨機性結合起來;在分類器的選取階段,針對樸素貝葉斯分類器做出的與實際情況不相符的假設,引入關聯規則森林表示法和基于其的所有屬性聯合概率算法,對樸素貝葉斯分類器進行了改進。最終實現了基于DGA數據集的變壓器故障診斷模型。
該故障診斷模型的實現步驟如下:
(1)數據離散化。將樣本數據集進行歸一化處理,根據表1中的云模型特征參數,由公式(6)計算隸屬度,按最大隸屬度原則,得出各屬性值所屬的云概念,實現數據的離散化;
(2)進行關聯規則的挖掘。設置支持度閾值和信任度閾值,將訓練數據集按故障類別分為4組,采用經典的Apriori算法進行頻繁項的求取,關聯規則的挖掘流程如圖1。按照3.2提到的四個約束條件,對得到的關聯規則進行消除,獲得有用的關聯規則集R。這些規則有兩個特點:其一為規則的后件只包含一個非類別屬性;其二,規則的后件包含一個類別屬性和一個非類別屬性。

圖1 關聯規則挖掘流程圖Fig.1 Flow chart of mining association rules
(3)求取測試樣本各屬性在不同故障類別下的聯合概率。在當前第i類故障條件下構建關聯規則森林,設根屬性集合S,為測試樣本中包含的屬性值;非根屬性集合S′,為空集;關聯規則集合R。將出現在關聯規則后件中的屬性值,從S中去除并加到S′中,將規則前件中,不屬于S′的屬性值加到S中。計算屬性聯合概率,將S中各屬性值的條件概率與各關聯規則置信度相乘。
(4)建立改進貝葉斯分類器,并應用其對測試樣本進行故障診斷。流程如圖2所示。

圖2 變壓器故障診斷流程Fig.2 Transformer fault diagnosis process
文章共收集200個變壓器故障實例,其中70%作為訓練數據,30%作為測試數據,在規則頻繁項求取上取支持度閾值為20%,選擇關聯規則上置信度閾值60%。在WEKA平臺上,將改進貝葉斯分類器與NB分類器、TAN分類器、BAN分類器進行準確率對比,結果見表3。故障類別為2.3中所定義的4個故障類別,屬性為5種氣體和1種故障。由表3可見,文章所使用的方法在變壓器故障診斷準確率上相比其他方法有一定的提高。

表3 各分類器準確度對比Tab.3 Accuracy comparison of each classifier
實例一:
110 kV某主變(設備型號:SSZ8-50000/110),廠家:某電力變壓器廠,出廠日期:1998年1月,投運日期:1998年4月。在2014年6月份進行變壓器油更換,油更換方案采取不吊罩、熱油循環,更換后三個月的油樣持續跟蹤檢測,數據合格無異常。
表4為在2015年1月13日到2015年1月16日內,該主變油色譜在線監測系統中監測到的數據(氣體單位均為:μL/L)。

表4 在線監測系統中監測到的數據Tab.4 Monitoring data in on-line monitoring system
用三比值法,結果得到編號022,即低能放電兼過熱;樸素貝葉斯分類器輸出3,即為中低溫過熱;由文章方法,輸出4,即為高溫過熱。
2015年1月26日,吊罩檢查發現B相套管導電桿穿芯軸銷未落入瓷套固定卡槽內,其下部連接銅片的緊固螺絲松動,接觸電阻增大從而引起的過熱,高溫發熱使得氣體含量超標。現場見圖3。可見文章所用方法對變壓器故障的診斷與實際相符。

圖3 110 kV變壓器故障現場Fig.3 110 kV transformer fault scene
實例二:
某110 kV變壓器(設備型號:SZ10-40000/110),廠家:某科技股份有限公司,出廠日期:2007年3月,投運日期:2007年8月。
受臺風影響,該變電站多條線路跳閘,現場如圖4。表5為2010年7月23日到8月10日之間對1號主變跟蹤的油色譜數據(氣體單位均為:μL/L)。

表5 1號主變跟蹤的油色譜數據Tab.5 Oil chromatographic data tracked by No.1 main transformer

圖4 變壓器故障現場Fig.4 Transformer fault scene
樸素貝葉斯分類器,輸出1,即低能放電;文章方法,輸出2,即為高能放電。
現場于2015年7月26日停電,對主變進行繞組變形測試,用頻響法測試繞組變形,發現高壓繞組與交接時比較及三相之間橫向比較重合度好;但是中頻段在低壓繞組三相橫向比較中,重合度不好;Lc-a相與交接試驗波形對比中,重合度同樣不好,相關系數顯示,低壓繞組明顯變形。波形如圖5。經停電多項測試后,最終確定為低壓繞組變形引發高能放電。

圖5 低壓側三相間橫向比較波形Fig.5 Horizontal waveform comparison in low voltage side of the three phases
目前已有的基于DGA數據的大多數數據挖掘方法中,存在數據離散的邊界硬分劃問題,將樸素貝葉斯分類器應用于變壓器故障診斷中,存在各屬性間相對獨立的假設不符合實際情況的問題,針對以上兩個問題,文章建立了基于正態云模型&改進貝葉斯分類器的變壓器故障診斷模型。
(1)引入正態云模型,離散DGA數據,將邊界元素的模糊性和隨機性結合起來,形成更符合人認知的云概念和更加客觀的區間劃分,同時云模型也精簡了數據集,提高了關聯規則挖掘的效率;
(2)引入規則森林表示法和屬性聯合概率計算法,改進貝葉斯分類器,提高了對變壓器故障分類的正確率;
(3)通過與其他分類器進行對比并應用于現場實例中,證明了建立的基于正態云模型&改進貝葉斯分類器的變壓器故障診斷模型具有更高的正確率和有效性。