劉 磊,李龍飛,韓雪峰,王 冠,劉洪順
(1.國網新疆電力有限公司電力科學研究院,新疆 烏魯木齊 830011;2.新疆輸變電設備極端環境運行與檢測技術重點實驗室,新疆 烏魯木齊 830013;3.山東省特高壓輸變電技術與裝備重點實驗室(山東大學),山東 濟南 250061)
近年來,我國經濟的高速增長帶來社會對電能需求的激增,因此保證電網安全穩定地向用戶輸送電能具有重要的現實意義。變電作為輸變電過程不可或缺的一環,其關鍵部件電力變壓器的正常運行與否關系著電網能否可靠地運行,因此需要及時、準確地識別出變壓器的故障,從而制定相應的檢修計劃[1]。局部放電檢測[2]、測量絕緣電阻[3]、油中溶解氣體分析[4](dissolved gas analysis,DGA)等方法均可用于對變壓器故障進行檢測和診斷,其中DGA 憑借較為簡單的操作、完整且便于處理分析的數據以及不受外界電磁場影響等優勢被廣泛應用于電力變壓器的狀態監測與故障診斷領域[5-6]。
目前國內外基于DGA 的變壓器故障診斷技術大致可分為兩大類:傳統比值診斷法和與人工智能相結合的智能診斷技術。比值法因閾值和邊界的設定簡單而在實際應用中得以廣泛使用,然而在識別某些故障類型時,這類方法界限過于絕對、編碼不完備等問題逐漸顯露,不能全面反映變壓器的故障狀況。智能診斷技術方面,文獻[7]使用基于粒子群算法(particle swarm optimization,PSO)對數據進行處理后,結合支持向量機(support vector machine,SVM)模型利用油中溶解氣體數據來判別故障類型;文獻[8]建立了選擇性貝葉斯分類器模型對變壓器進行故障診斷,不僅保留了貝葉斯網絡處理不確定性問題較強的能力,還提升了收斂速度,在應用中取得理想效果;黃新波等[9]人采用遺傳算法對裝袋分類回歸樹組合算法進行優化,進一步提高了變壓器故障診斷模型的泛化能力;重慶大學胡青等[10]人基于核主成分分析(kernel principle component analysis,KPCA)和隨機森林算法構建一套故障診斷系統,利用KPCA將故障樣本映射到高維的核空間,使用隨機森林在高維核空間對故障分類器進行訓練,提高了抗干擾能力和診斷的正確率。這些模型雖簡單易行,但是需要大量數據支撐模型訓練[11],在處理不平衡數據集時,易偏向多數類樣本的參數更新而忽略少數類樣本的正確分類[12],從而導致變壓器故障分類的失敗。
變壓器油色譜故障數據集屬于不平衡數據集,采樣方法被廣泛應用于不平衡數據集的預處理中,主要包括欠采樣、過采樣與混合采樣。欠采樣通過減少多數類樣本的數量使其與少數類樣本達到平衡,過采樣則是增加少數類的樣本數量使數據平衡[13]。文獻[14]使用欠采樣方法使每種類型的樣本數量達到平衡,但若數據集規模不大,則可能丟失重要信息;文獻[15]通過聚類的方法盡可能提取具有代表性的少數類樣本特征,雖然包含了更全面的特征,但是欠采樣方法所具有的特征丟失缺點仍然存在;趙月愛等[16]人對簡單復制少數類樣本的隨機過采樣進行了研究,雖也可到達數據均衡的效果,但是存在明顯的過擬合問題。Chawla等[17]人提出的經典合成少數類過采樣技術(synthetic minority oversampling technique,SMOTE)算法具有改善過擬合問題的優點,受到研究學者青睞。因油色譜故障數據集中各類樣本數量較少,故不宜使用欠采樣方法對數據集進行預處理,否則可能會丟失部分潛在信息,使診斷結果不準確,故可考慮使用SMOTE 算法對數據進行擴充,但其與性能優異的隨機森林模型結合使用進行故障診斷的效果有待進一步研究。
提出SMOTE 和隨機森林相結合的診斷方法,即在使用隨機森林進行診斷之前,利用SMOTE 算法對變壓器油色譜故障數據集的少數類故障樣本進行擴充,結果表明,使用SMOTE 對不平衡變壓器油色譜故障數據集進行擴充后再進行故障診斷可以顯著提高故障診斷的準確率。
不平衡數據集是指各個類別的樣本量極不均衡的數據集。變壓器在使用過程中通常出現故障的次數較少,并且發生各類故障的頻率差異較大,導致監測設備最終檢測到的總數據較少且不同故障類型對應的數據量有明顯差別,本文使用的原變壓器油色譜故障數據集的數據分布如圖1所示。由圖1可知,在原變壓器油色譜故障數據集中,高能放電故障樣本數為48,遠遠多于其他幾類故障的樣本數,因此變壓器油色譜故障數據集滿足不平衡數據集的條件,屬于不平衡數據集。而現有的變壓器故障診斷模型大多要求輸入的數據是均衡的,故需要對變壓器油色譜故障數據集中的少數類樣本進行擴充,以平衡各類故障樣本的數量。
數據歸一化是一種通過無量綱的處理手段,將具有波函數性質的物理數值變成具有某種相對關系的相對值,縮小量值之間落差的有效方法[18]。H2、CH4、C2H6、C2H4、C2H2、CO、CO27 種氣體為變壓器油中溶解氣體的主要成分,本文選取H2、CH4、C2H6、C2H4、C2H25種特征氣體作為算法的輸入,但這幾種氣體數據量值差別較大,為了均衡隨機森林分類器對各類數據的敏感性,對收集到的數據進行歸一化處理,使各指標處于同一數量級。
為降低個別數據數值過大或過小對故障診斷結果的影響,對變壓器油色譜故障數據集進行歸一化處理,即為:
部分油色譜故障數據如表1所示。

表1 部分油色譜故障數據(體積分數)Table 1 Partial oil chromatography fault data
由表1可得,原故障中5種特征氣體的數據量值差別較大,如CH4和C2H6之間,經過歸一化處理之后,所有數據均處于(0,1)之間,各個數據指標的數量級達成一致,有利于后續的故障診斷。
SMOTE 算法增加少數類樣本的方法不是對其進行簡單復制粘貼,而是對少數類樣本進行分析,采用線性插值的方法在兩個少數類樣本間合成新的樣本添加到數據集中,以增加少數類的樣本數量,達到數據平衡的目的。擴充原理如圖2 所示。圖2 中,五角星代表變壓器少數類故障的樣本數據,搜索其最鄰近的k個少數類樣本,按照數據集的向上采樣倍率n從k個樣本中隨機抽取n個樣本,關聯xi和這n個樣本,進行隨機插值,得到圖中表示為正方形的新的少數類樣本xnew。重復以上步驟,通過多次的隨機插值實現對每一類少數樣本的多維擴充,即對每一少數故障類型的5 種特征氣體數據均進行擴充。

圖2 SMOTE算法插值說明Fig.2 Illustration of SMOTE algorithm interpolation
利用SMOTE 算法對變壓器油色譜故障數據集進行擴充的步驟如下。
1)在一個不平衡數據集中,從少數類樣本中選取一個樣本xi,該樣本便作為根樣本進行新樣本的合成。
2)根據式(3),計算每種少數類故障類型中選為根樣本的數據到相應的少數類樣本集中所有樣本的距離d,得到每個根樣本k(k一般為奇數)個鄰近的同類別的樣本。
式中:xi為每個少數類樣本集中的根樣本;yi為每個少數類樣本集中除根樣本以外的樣本;m為少數類樣本集中除根樣本以外的樣本的數量。經計算可得,本文中k=5。
3)計算變壓器油色譜故障數據集中多數類與少數類間的不平衡程度,即計算高能放電與局部放電、低能放電、中低溫過熱、高溫過熱之間的不平衡程度,根據計算出的不平衡程度,根據式(4)選取相應的向上采樣倍率n,即從xi的k個鄰近樣本中隨機選取n個樣本作為輔助樣本記為y1,y2,…,yn。
式中:f(·)為對四舍五入運算函數;IL為不平衡程度。
4)在變壓器少數類故障類型的根樣本xi和隨機選擇的輔助樣本yi之間進行隨機插值,如式(5)所示。分別合成n個對應的少數類變壓器故障樣本pi,以實現對變壓器故障類型少數類樣本的擴充,并且進行的均是多維擴充,即對每一少數故障類型的5種特征氣體數據都進行了擴充,達到數據平衡的目的。
式中:r為一個(0,1)內的隨機數。
SMOTE 算法的采樣是在少數類數據樣本點xi與其最鄰近數據樣本的連線上進行隨機插值操作,這種方法可看作是直線插值,是按照一定的數學規則有目的地進行數據構造,能夠有效避免盲目性和局限性,進而改善隨機過采樣導致的過擬合問題。SMOTE算法擴充前后變壓器油色譜故障數據集分布如圖3所示。

圖3 SMOTE擴充前后變壓器油色譜故障數據集的分布對比Fig.3 Comparison of the distribution of transformer oil chromatographic fault datasets before and after SMOTE expansion
由圖3 可知,SMOTE 擴充前的原變壓器油色譜故障數據集中,高能放電故障樣本數遠遠多于其他幾類故障的樣本數,因此變壓器油色譜故障數據集屬于不平衡數據集,高能放電故障作為多數類樣本,無須對其進行擴充,其他幾類故障類型為少數類樣本,需要進行擴充。SMOTE 擴充后,5 種故障類型的樣本數均達到48 個,各故障類型樣本數一致,達到樣本均衡,可避免因各故障類型樣本數量差距過大影響變壓器故障診斷結果。
決策樹是隨機森林的基本單元,構建合適準確的決策樹是實現隨機森林算法的基礎。常用的量化指標有信息增益、基尼指數和均方差3 種,其中信息增益、基尼指數是作為分類問題的構建指標,而均方差則是用在回歸問題中,另外本研究中選擇分類指標時應考慮原故障數據集為不平衡數據集這一特點,避免信息增益率偏好取值類別較少特征的問題[19],故將選取基尼指數這一指標作為決策樹節點分類的標準。
隨機森林是以決策樹為估計器的Bagging 算法,是多個決策樹分類模型的組合。使用隨機森林對變壓器進行故障診斷的流程如圖4 所示。具體過程為:
1)參數選取。針對研究問題選取隨機森林參數,包括決策樹數量100、節點分裂評價準則為基尼指數、葉子結點的最大數量50。
2)隨機化抽取。使用bootstrap 抽樣方法,從劃分為訓練集的變壓器油色譜故障數據集中隨機地、有放回地選取部分特征量樣本形成h個特征子樣本集,并且選取出的每個特征子樣本集的樣本容量與原訓練集相同,即若原訓練集含有N個樣本,則h個特征子樣本集中的每一個數據集所含樣本數均為N個。
分別將未經SMOTE 擴充的原變壓器油色譜故障數據集和經SMOTE 擴充后的變壓器油色譜故障數據集按照7:3 的比例劃分為訓練集和測試集,使用訓練集對隨機森林模型進行訓練,然后使用測試集驗證模型的準確率。
圖5、圖6 分別為使用未經SMOTE 擴充的原數據集作為輸入和使用經SMOTE 擴充后的數據集作為輸入的故障診斷混淆矩陣熱力圖。矩陣的每一行代表實際的類別,每一列代表預測的類別,對角線上的數字代表正確預測的結果。

圖5 使用未經SMOTE擴充的原數據集作為輸入的故障診斷混淆矩陣熱力圖Fig.5 Fault diagnosis confusion matrix thermodynamic diagram using original dataset without using expanded by SMOTE as input

圖6 使用SMOTE擴充后的原數據集作為輸入的故障診斷混淆矩陣熱力圖Fig.6 Fault diagnosis confusion matrix thermodynamic diagram using SMOTE expanded original datset as input
由圖5 可知,隨機森林對未經SMOTE 擴充的原變壓器油色譜故障數據集5 種故障類型診斷結果的準確率分別為100%、84.2%、93.9%、72.7%、76.9%,對訓練集診斷結果的總準確率為86.6%,測試集為88.6%。
由圖6 可知,隨機森林對經過SMOTE 擴充后的原變壓器油色譜故障數據集5 種故障類型診斷結果的準確率分別為100%、97.1%、97.1%、88.2%、93.9%,對訓練集診斷結果的總準確率為95.2%,測試集為93.1%。
通過對比分析可知,與未經SMOTE 擴充的原變壓器油色譜故障數據集相比,使用經SMOTE 擴充后的變壓器油色譜故障數據集作為隨機森林模型的輸入可以明顯提高各個故障類型診斷結果的準確率,因此使總體的準確率也得到大幅提升。可見,使用SMOTE 算法對不平衡的變壓器油色譜故障數據集進行擴充,達到數據平衡后再使用隨機森林模型進行故障診斷,有利于提高診斷結果的準確率。
為進一步驗證使用SMOTE 算法對不平衡的變壓器油色譜故障數據集進行擴充有利于提高變壓器故障診斷模型的準確率這一結論,同時直觀地展現使用隨機森林進行變壓器故障診斷的優勢,介紹另外幾種變壓器故障診斷的模型,并分別對未經SMOTE 擴充的原變壓器油色譜故障數據集和經SMOTE 擴充后的變壓器油色譜故障數據集進行故障的識別,然后分析和比較幾種模型的診斷結果。
2.3.1 樸素貝葉斯網絡
貝葉斯分類方法以統計學為基礎,根據已有的樣本數據實例,利用先驗信息對事件的后驗概率進行預測[20]。使用樸素貝葉斯網絡對未經SMOTE 擴充的原變壓器油色譜故障數據集和經SMOTE 擴充后的變壓器油色譜故障數據集進行故障診斷,結果如圖7所示。

圖7 樸素貝葉斯網絡故障診斷混淆矩陣熱力圖Fig.7 Fault diagnosis confusion matrix thermodynamic diagram using naive bayesian network
樸素貝葉斯網絡對未經SMOTE 擴充的原變壓器油色譜故障數據集5 種故障類型診斷結果的準確率分別為83.3%、84.2%、90.9%、81.8%、84.6%,訓練集診斷結果的總準確率為86.6%,測試集為82.9%;對經過SMOTE 擴充后的原變壓器油色譜故障數據集5 種故障類型診斷結果的準確率分別為93.9%、91.2%、88.2%、88.2%、87.9%,訓練集診斷結果的總準確率為89.9%,測試集為91.7%。
2.3.2 SVM模型
SVM 仍然是使用數學中的統計學思想對電力變壓器故障類型進行識別和判斷的一種分類器模型。使用SVM 對未經SMOTE 擴充的原變壓器油色譜故障數據集和經SMOTE 擴充后的變壓器油色譜故障數據集進行故障診斷,結果如圖8所示。


圖8 SVM故障診斷混淆矩陣熱力圖Fig.8 Fault diagnosis confusion matrix thermodynamic diagram using SVM
由圖8 可見,SVM 對未經SMOTE 擴充的原變壓器油色譜故障數據集5 種故障類型診斷結果的準確率分別為83.3%、89.5%、93.9%、72.7%、84.6%,訓練集診斷結果的總準確率為87.8%,測試集為80%;對經過SMOTE 擴充后的原變壓器油色譜故障數據集5種故障類型診斷結果的準確率分別為97%、94.1%、85.3%、91.2%、90.9%,訓練集診斷結果的總準確率為91.7%,測試集為92.4%。
使用隨機森林、樸素貝葉斯網絡、支持向量機模型對未經SMOTE 擴充的原變壓器油色譜故障數據集和擴充后的變壓器油色譜故障數據集進行故障診斷,結果如表2所示。

表2 3種模型故障診斷準確率匯總Table 2 Comparision of fault diagnosis accuracy of three models 單位:%
由表2 可知,對3 種故障診斷模型,使用經SMOTE 擴充后的變壓器油色譜故障數據集作為模型輸入所得診斷結果的準確率,無論從單個故障類型還是整體角度都比使用未經SMOTE 擴充的原數據集有較為明顯的提高,進一步驗證了使用SMOTE算法對不平衡的變壓器油色譜故障數據集進行擴充后再進行故障診斷的準確率高于擴充前。
同時可以看出,對未擴充前的不平衡數據,3 種模型診斷準確率大致相同,但是對于擴充后的平衡數據集,使用隨機森林對變壓器進行故障診斷的準確率遠高于其他兩種模型,由此可知隨機森林模型在變壓器故障診斷中具有較高的準確率。同時其又具有緩解局部最小值、過擬合等問題的優點,因此,使用隨機森林對變壓器進行故障診斷是一個較為理想的選擇。
針對現有故障診斷技術存在處理不平衡數據集過擬合、準確率低等問題,首先對原變壓器油色譜故障診斷數據集進行預處理,然后通過比較選擇一個故障診斷準確率較高的模型對變壓器的故障進行識別與診斷,并對SMOTE擴充有效性進行驗證。
1)變壓器油色譜故障診斷數據集屬于不平衡數據集,而目前所使用的基于油中溶解氣體分析的變壓器故障智能診斷技術,在處理不平衡數據集時,為了達到最高的準確率,易對數據量少的變壓器故障類型出現誤判,從而導致故障類型識別的失敗。因此采用SMOTE 算法通過隨機插值對歸一化后的變壓器油色譜故障數據中的少數類樣本進行擴充,平衡了各個故障類型樣本的數量,為故障診斷打下良好的基礎。
2)利用處理好的數據采用隨機森林分類器對變壓器進行故障診斷,通過對未經擴充的原數據和經SMOTE 擴充后的數據的診斷結果準確率的對比分析,驗證使用SMOTE 對不平衡變壓器油色譜故障數據集進行擴充后再進行故障診斷,可以顯著提高故障診斷的準確率。
3)使用其他兩種診斷模型對SMOTE 擴充有效性進行驗證,并通過與隨機森林診斷準確率的對比,確定隨機森林分類器是3 種故障診斷模型中診斷準確率最高的模型,為變壓器故障診斷提供方法選擇。