









摘要:針對傳統變壓器故障檢測準確率不高的問題,提出了改進隨機森林算法的變壓器故障檢測技術。通過對隨機森林算法的分析指出決策樹數量、決策樹深度以及特征選擇直接影響算法的性能,采用網絡搜索算法對決策樹數量及深度進行調整,同時通過主成分分析將不重要的特征去除,實現對隨機森林算法的改進。將改進的隨機森林算法應用于變壓器故障檢測中,其對變壓器故障檢測的性能明顯由于傳統隨機森林算法。這對快速、精準檢測變壓器故障,確保電網安全運行具有一定的參考價值。
關鍵詞:隨機森林算法;網絡搜索算法;主成分分析;變壓器故障檢測
中圖分類號:TM41;TP39文獻標識碼:A文章編號:1001-5922(2024)10-0153-04
Research on intelligent fault detection technology
of transformer based on improved random forest algorithm
CAI Li,WANG Zheng,LI Jingya,HE Wei,SHI Chunlin
(State Grid Information and Communication Industry Group Co.,Ltd.,Beijing 100052,China)
Abstract:Aiming at the low accuracy of traditional transformer fault detection,an improved random forest algo?rithm for transformer fault detection was proposed. Through the analysis of random forest algorithm,it was pointedout that the number of decision trees,the depth of decision trees and the selection of features directly affect the per?formance of the algorithm. The network search algorithm was used to adjust the number and depth of decision trees,and the principal component analysis was used to remove the unimportant features,so as to improve the random forestalgorithm. The improved random forest algorithm was applied to transformer fault detection,and its performance fortransformer fault detection was obviously superior to the traditional random forest algorithm. This has a certainreference value for the rapid and accurate detection of transformer faults to ensure the safe operation of the power grid.
Key words:random forest algorithm;web search algorithm;principal component analysis;transformer fault detection
對變壓器的故障檢測診斷是當前學術界關注的焦點,這對提高電力系統的可靠性與安全性極為重要[1]。采用D-S證據理論的多源信息融合故障診斷模型,并通過與支持向量機模型、卷積神經網絡模型的對比驗證了該診斷方法的有效性[2]。通過仿真試驗驗證了當變壓器出現故障時所關注的參數將發生明顯變化,而變壓器負載的變化對所關注參數沒有影響[3]。提出了基于特征氣體與比值準則的植物油變壓器故障診斷方法,能夠有效診斷植物油變壓器故障[4]。采用細菌覓食算法對支持向量機參數進行優化,提出了改進支持向量機的電力變壓器故障診斷模型,該診斷模型具有更高的故障診斷準確率和魯棒性[5]。隨機森林算法作為一種集成學習方法,具有良好的魯棒性與泛化能力,但在處理變壓器故障檢測時存在一些挑戰?;诖?,對隨機森林算法進行改進,并應用于變壓器故障檢測中,提升變壓器故障檢測準確率。
1變壓器故障檢測模型
1. 1電力變壓器故障
電力變壓器內部結構十分復雜,在服役過程中出現故障所涉及的部位往往不同[6]。由電力變壓器實際運行情況來看,電力變壓器的熱性故障與電性故障主要是絕緣劣化所導致的。變壓器運維人員要采取科學有效的方法技術精準發現潛在的故障,從而延長變壓器的服役時間。對電力變壓器的內部故障進行檢測,其往往和油中的氣體含量之間具有密切的關系。統計1 000例電力變壓器故障,共包含7種故障,分別為局部放電、低能放電、高能放電、低溫過熱、中溫過熱、高溫過熱以及其他。將C2H2、C2H4、C2H6、H2、CH4作為特征量,對電力變壓器故障進行檢測。
1. 2改進隨機森林算法
1. 2. 1隨機森林算法
隨機森林算法是一個強大、通用且易于實現的機器學習算法,其能夠提供可靠的判斷結果。隨機森林算法作為一種強大的集成學習算法,其基于決策樹構建,并通過多棵決策樹來提高模型的性能和魯棒性[7]。圖1為隨機森林示意圖。
隨機森林算法能夠引入多樣性,從而降低模型的過擬合風險。設D為包含N個樣本的數據集,即:
式中:X為第i個樣本的特征向量;y為對應類ii別標簽。
隨機森林算法的核心思想是通過隨機性來創建多樣性,在構建每棵決策樹的過程中通過隨機抽樣來創建一個子集,該子集是通過有放回抽樣得到的[8]。隨機森林算法流程如下:
(1)采用有放回抽樣隨機選擇包含m個樣本的訓練集,并隨機選擇包含n個特征的子集。(2)基于特征分層決策來構建決策樹[9]。
從數據集中選擇一個特征作為根節點,根節點特征往往是基于信息增益IG(DA)或基尼不純度Gin(iD),其數學表達式為[10]:
式中:H(D)是數據集D的信息熵;Values(A)是特征A的取值集合;|D|為特征A取值為v的子集v大?。粅D|為數據集D的大??;H(D)為特征A取v值為v的子集的信息熵;c為類別個數;p(i)為第i個類別在數據集D中的占比。
信息增益IG(DA)越大,那么特征A對數據集的劃分效果越好,其有效減少了數據的不確定性?;岵患兌菺ini(D)越小,那么數據集越純凈,樣本越容易被正確分類。依據選定的樣本和特征子集來遞歸分裂節點,直到滿足迭代終止的條件。
(3)重復上述步驟來構建多棵決策樹。
(4)采用投票的方式來確定最終的類別,不妨設隨機森林包含N棵決策樹,每一顆決策樹的預測結果均為一個類別標簽[11]。對每一顆樹的預測結果進行投票,獲得最多投票的類別就是最終的類別,即隨機森林算法最終的判別結果。
1. 2. 2算法改進
采用網格搜索算法對決策樹數量及深度進行調整,提出改進隨機森林算法,從而達到提高模型性能的目的。網格搜索算法是一種基于窮盡搜索的方法,用于尋找最佳超參數組合以最大化或最小化所選的性能指標[12]。網格搜索的核心思想是對每個超參數定義一組可能的值,然后窮舉地組合這些值,生成一個網格[13]。對每個超參數組合使用交叉驗證來評估模型的性能,選擇在交叉驗證中表現最好的超參數組合。具體為導入Python中必要的庫,如用于機器學習的scikit-learn和用于網絡搜索的GridSearchCV,加載用于訓練和驗證的數據集合。創建基本的隨機森林分類器和一個參數網格,參數網格包括要調優樹的數量和樹的深度以及可能的取值范圍。網格搜索完成后獲取最佳參數組合和對應的模型性能,使用找到的最佳參數組合來訓練最終的隨機森林模型。
采用主成分分析(PCA)來提前篩選特征,有效降低維度來提高模型的效率[14]。不妨設數據集包含n個樣本、m個特征,采用矩陣x表示。對每一個特征進行均值中心化處理,確保數據的中心位于原點,其數學表達式為[15]:
式中:μ為每一個特征的均值向量。
計算中心化后數據的協方差矩陣,其數學表達式為[16]:
對協方差矩陣C計算特征值與特征向量,特征值的大小反映了主成分的重要性,特征向量反映了數據的主成分,特征值與特征向量計算表達式為:
式中:vi為第i個主成分的特征向量;λi為主成分所對應的特征值。
根據特征值的大小來確定要保留的主成分數量,一般選擇累計貢獻率超過90%[17]。通過選擇的主成分可以將數據投影到新的低維空間,即:
式中:Y為降維后數據矩陣;X是原始數據矩陣;V是選定主成分特征向量的矩陣。
通過主成分分析將數據中不太重要的特征去除,從而提高隨機森林模型的效率[18]。
2實驗驗證
2. 1實驗平臺
選擇10 kV變壓器作為研究對象,采集振動信號數據,對變壓器運行的4種狀態進行模擬,分別為變壓器正常運行、鐵芯兩點接地、變壓器繞組螺絲松動、變壓器繞組變形[19]。每種故障狀態采集樣本150個,共采集實驗樣本數600個。圖2為變壓器故障模擬實驗裝置。
在圖2中,振動信號由加速度傳感器采集獲得,加速度傳感器的位置在2處。設置采樣頻率為2 kHz,采樣時間窗口為1 s,測試數據從湖北省某變壓器廠測試得到。
2. 2數據處理
變壓器振動信號波形是分析變壓器運行狀態與故障的數據,通過波形分析來幫助電力工程師去監測變壓器的振動特性,從而找出變壓器潛在的故障。時域波形,即時間域振動信號,根據傳感器測得的數據繪制得到。通過時域波形可以有效檢測變壓器內部的機械振動,是進行變壓器故障檢測的關鍵。圖3為測試的4種狀態下的振動原始波形。
由圖3可知,變壓器在繞組變形狀態下的測試數據和其他3種狀態的時域波形存在明顯的差異,而變壓器正常狀態、鐵芯兩點接地狀態、繞組螺絲松動狀態下的時域波形比較相似,無法通過時域波形直接判別。受到測試等多種因素的影響,實測的振動原始波形中往往包含有大量的無用成分,需要對信號進行分解,將一些無用的成分剔除。采用EMD對時域波形進行分解,獲得本征模態函數IMF(Intrinsic Mode Functions)。每個本征模態函數IMF是一個局部特征尺度下的振蕩信號,具有自適應性和本地性。采用EMD對時域波形分解,計算不同狀態下樣本的K-L散度,其數學表達式為
式中:P(i)為分布P在第i個事件上的概率;Q(i)為分布Q在第i個事件上的概率。
對變壓器正常運行、鐵芯兩點接地、變壓器繞組螺絲松動、變壓器繞組變形4種狀態經過經驗模態分解得到的IMF計算K-L散度,結果如表1所示。
為重構原振動信號,分別采用前1~3階分量,并計算重構信號和原始振動信號的相似度,結果如表2所示。
由表2可知,采用前3階分量對變壓器振動信號進行重構,其4種狀態下的相似度均在96%以上,能夠有效地表征原信號。將前3階K-L散度低的分量作為改進隨機森林的輸入,實現對變壓器的故障檢測。
2. 3結果分析
為對比隨機森林算法和改進隨機森林算法,分別采用2種模型進行變壓器故障檢測,結果如圖4所示。
由圖4可知,改進隨機森林算法的性能明顯優于傳統隨機森林算法,對變壓器故障檢測準確率明顯提升。
3結語
變壓器是電網的核心組件,先進的變壓器故障檢測技術對確保電力系統可靠性至關重要。采用網絡搜索算法對隨機森林決策樹數量、深度進行調整,采用主成分分析篩除數據中不太重要的特征,實現對傳統隨機森林算法的改進。將改進的隨機森林算法應用于變壓器故障檢測中,結果表明,相對于傳統隨機森林算法,改進隨機森林算法對變壓器故障檢測準確率明顯提升。這對確保變壓器的安全、可靠運行具有一定的參考價值。
【參考文獻】
[1]徐偉,金國忠,苗振林,等.基于紅外圖像的變壓器故障在線檢測技術分析[J].粘接,2022,49(9):193-196.
[2]詹仲強,陳文濤,郝建,等.基于模糊邏輯和D-S證據理論的變壓器故障診斷方法[J].高壓電器,2022,58(11):160-166.
[3]何先華,張遠鵬,崔桂興,等.基于回歸算法的變壓器故障檢測方法研究[J].電力系統保護與控制,2020,48(21):132-139.
[4]李強,張睿智,范曉丹,等.基于特征氣體和比值準則的RAPO植物油變壓器故障診斷方法[J].高壓電器,2023,59(9):294-303.
[5]邱海楓,蘇寧,田松林.改進支持向量機在電力變壓器故障診斷中的應用研究[J].電測與儀表,2022,59(11):48-53.
[6]苗振林,金國忠,楊靖瑋,等.基于變壓器紅外圖像的高溫區域識別方法[J].粘接,2022,49(12):125-128.
[7]鄧智廣,譚振鵬.基于機器學習的智能電網調度控制系統在線健康度評價研究[J].粘接,2021,48(12):158-161.
[8]宋世軍,樊敏.基于隨機森林算法的大數據異常檢測模型設計[J].吉林大學學報(工學版),2023,53(9):2659-2665.
[9]方愉冬,鄭燃,徐峰,等.基于集成決策樹的電力系統繼電保護故障檢測[J].高電壓技術,2023,49(S1):160-164.
[10]邱振波,李子正,尹寶良,等.基于隨機森林算法的熱軋精軋帶鋼寬展量預測[J].塑性工程學報,2023,30(8):107-114.
[11]鄧智廣,譚振鵬.基于機器學習的智能電網調度控制系統在線健康度評價研究[J].粘接,2021,48(12):158-161.
[12]劉棟財,董廣宇,杜玉紅,等.基于網格搜索算法的6-RUS并聯機器人時間最優軌跡規劃[J].中國機械工程,2023,34(13):1589-1598.
[13]王燕,郭元凱.改進的XGBoost模型在股票預測中的應用[J].計算機工程與應用,2019,55(20):202-207.
[14]梁錦濤,陳超,張自力,等.一種融合指數與主成分分量的隨機森林遙感圖像分類方法[J].自然資源遙感,2023,35(3):35-42.
[15]賈海韻,胡麗華,李夏僑,等.基于核主成分分析算法的海底管道內腐蝕風險預測[J].腐蝕與防護,2023,44(3):82-87.
[16]羅維平,曹長昕.基于支持向量機的汽油辛烷值預測研究[J].廣西大學學報(自然科學版),2022,47(1):191-199.
[17]孟昱煜,郭靜.信息熵改進主成分分析模型的鏈路預測算法[J].計算機應用,2022,42(9):2823-2829.
[18]耿明,張海滄,康麗齊,等.基于主成分分析和隨機森林回歸模型的工藝裝備軸承剩余壽命預測[J].城市軌道交通研究,2023,26(4):12-16.
[19]黃錦波,周榮生,羅龍波,等.基于BERT預訓練的電力變壓器故障預測[J].制造業自動化,2023,45(9):89-93.
[20]李夢凡,宋智勇,郭苗苗,等.基于K-L散度和深度聚類的自適應EEGNet-T分布解碼算法研究[J].信號處理,2023,39(8):1465-1477.