朱楚昱,李 川,李英娜
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
變壓器故障識別方法中,分析油中溶解氣體特征關系是提高故障診斷的關鍵,其中三比值法最具代表性。但是,三比值編碼并不完全,且三比值的邊界過于絕對,對故障的特征信息有所遺漏[1-7]。變壓器運行中出現故障時,變壓器油中的各種反應機理復雜,且不同故障情況下油中產生的不同氣體間的關聯特征存在差異[8-12]。近年來,分析氣體更多的特征的研究有了一些積累。2012 年,中南大學信息科學與工程學院唐勇波利用主成分分析計算樣本各變量的重構貢獻率作為特征量,且經過實例驗證了該特征量能夠體現一部分故障信息[8]。2017年,西南交通大學吳廣寧從增加新的數據量入手,將相關的電氣試驗等數據加入到油中溶解氣體分析[9]。2018 年,國網山東省電力公司電力科學研究院辜超選取氣體間的16 種比值作為特征量,計算出最優的9 種比值組合[10]。2019 年,中國石油大學梁永亮采用不同故障狀態下氣體間較穩定的MIC 的關聯度值作為特征量,通過最大信息系數方法(Maximal Information Coefficient,MIC)計算每兩對氣體間的關聯程度[11]。2020 年,宜春學院江風云通過對輸入樣本在相空間上重構,然后用KECA 對重構相空間提取核熵成分作為輸入[12]。
然而,在對DGA 數據特征進行提取方面,目前以全故障類型的特征分析為主,引入新的比值或是相空間重構,而沒有考慮到不同故障類型下氣體體現的故障特征的差異性,可能會造成包含故障的特征信息被忽略。因此,本文依據樣本故障信息,結合特征氣體數據和三比值,將數據集劃分為6 種不同故障類型的子集,并針對每一種故障類型子集,利用核主元分析模型提取該故障類型下的主元特征。
在智能技術應用現狀下,利用模糊聚類、神經網絡以及支持向量機等算法的變壓器故障診斷模型降低了故障的誤判,但這些機器學習算法在學習迭代上各自存在欠缺。例如,局部最優解是神經網絡經常遇到的問題,模糊聚類學習能力不足。相比之下,SVM 能在高維度、小樣本量以及非線性的數據集上具有良好的分類能力。利用哈里斯鷹搜索算法優化SVM 參數,可進一步提高SVM 的泛化能力和魯棒性[13-15]。
綜上所述,本文根據實際故障類型將樣本劃分成6 個單一的故障數據子集,采用KPCA 算法提取各個單一數據集上的故障特征,采用HHO 算法優化SVM 參數,從而對DGA 樣本進行故障識別。
本文統計了歷年來相關技術刊物上公布的變壓器油中溶解氣體分析的氣體數據,選出實際變壓器運行故障類型明確的數據1 013 條,剔除明顯異常的數據樣本,如氣體含量值為負數、樣本數據不完整等,最后得到共932 組可用的樣本數據集。
改良三比值的特征反映了主要的部分變壓器故障信息,但氣體含量也含有表征故障的信息[1]。除了考慮三比值,本文還選取氣體含量作為特征補充。具體地,將H2的氣體含量值轉換為H2占氫烴總氣體含量值的比值,將其他4 種氣體的含量值轉換為其各自占總烴含量的比值[16],如表1 所示。

表1 油中溶解氣體特征量
通過引入核主元分析(Kernel Principal Component Analysis,KPCA)方法,對氣體間的非線性關系進行處理。將樣本數據集Xm×n(X∈RD)映射到高維空間,從而在高維特征空間H上計算不同故障類型的關聯特征。大體思想是引入非線性映射函數φ,在H中對映射的數據φ(x)的協方差矩陣進行特征值分解[8]。

本文依據樣本故障信息,將選取的DGA 和三比值數值結合的數據集劃分為7 種不同故障類型的子集,分別是局放故障、低能火花、高能電弧、低溫度過熱、中溫度過熱和高溫度過熱6 種故障類型。采用高斯核主元分析,針對每一種故障類型子集,提取該故障類型的主元特征。
根據累計貢獻率大于85%來確認每種故障類型的主元個數。各故障類型的核主元個數及累計貢獻率結果,如表2 所示。經KPCA 分別提取各故障4 個主元特征量,總故障特征量共24 個。

表2 各故障類型核主元個數
支持向量機(Support Vector Machine,SVM)算法是由Vladimie 等提出的一種監督學習方法,利用統計學習理論和結構風險最小化原理對數據進行分類,原理如圖1 所示。它的中心思想是通過迭代求出盡可能使所有樣本距離該最優超平面最大的最優超平面[17-19]。

圖1 支持向量機原理示意圖
超平面可用式(10)表示,將最優分類面問題轉換成二次規劃優化問題:

式中,c為懲罰參數;ζi和ζi*為松弛變量;ε為不敏感參數。
經過非線性映射后的空間內構造的分類器模型為:

式中,αi為拉格朗日系數。
哈里斯鷹搜索算法是(Harris Hawks Optimization,HHO)是2019 年Heidar 等提出的一種元啟發式搜索算法。搜索過程主要分為探索階段、探索與開發轉換階段和開發階段[19-21]。
2.2.1 搜索階段
哈里斯鷹的初始位置由兩種策略決定。

式中,X(t+1)是下一次迭代過程中鷹的位置向量;t為迭代次數;Xrand(t)當前種群中隨機選擇的鷹的位置;Xrabbit(t)為獵物的位置,即最優適應度的個體位置;r1、r2、r3、r4和q都是[0,1]之間的隨機數,q用于隨機選擇要采用的策略;LB、UB是變量的下限和上限;Xm(t)為個體平均位置,表達式為:

式中,Xi(t)為種群中第i個個體的位置;N表示種群規模。
2.2.2 搜索與開發轉換階段
根據獵物逃逸能量的取值,鷹群選擇開發階段將開展的行為,并在不同的行為之間進行轉換。獵物的逃逸能量E為:

式中,T是最大迭代次數;E0是E的初始值,為(-1,1)內的隨機數。當|E|≥1 時,鷹群通過遍歷不同的區域尋找獵物的位置,即執行探索階段;當|E|<1,算法開始求解在探索階段時的解的鄰域,即開發階段。
2.2.3 開發階段
此階段中,根據獵物的逃逸行為和哈里斯鷹的追逐策略,提出了軟圍攻策略、硬圍攻策略、漸進式快速俯沖的軟包圍策略以及漸近式快速俯沖硬包圍策略4 種可能的策略來模擬攻擊階段。
(1)軟圍攻策略
當0.5 ≤|E|<1 且r≥0.5 時,采取軟圍攻更新位置:

式中,?X(t+1)=Xrabbit(t)-X(t)表示獵物位置與個體當前位置的差值;?X(t)為最優個體和當前個體的差值;r5為0 到1 內的隨機數;J為獵物逃跑過程中的跳躍距離,為[0,2]之間的隨機數,如:

(2)硬圍攻策略
當|E|<0.5 且r≥0.5 時,采取硬圍攻更新位置:

式中,相關變量的物理意義同上,不再贅述。
(3)漸進式快速俯沖的軟包圍策略
當0.5 ≤|E|<1 且r<0.5 時,采取漸近式快速俯沖的軟包圍更新位置。進攻前,哈里斯鷹通過以下兩個策略形成軟包圍圈。當策略一無效時,執行策略二。
第一個策略更新式為:

第二個策略更新式為:

式中,D為問題維度;S是一個D維隨機向量,其中元素為[0,1]之間的隨機數;LF(·)是萊維(Levy)飛行函數,如:

式中,l、m為[0,1]內的均勻分布的隨機數,β為1.5 的常數。因此,該階段更新策略最終為:

(4)漸近式快速俯沖硬包圍策略
當|E|<0.5 且r<0.5 時,采取漸近式快速俯沖的硬包圍更新位置。在突襲前,哈里斯鷹采用以下策略進行狩獵,形成一個硬包圍圈。

如圖2 所示,建立變壓器故障識別模型時,首先對KPCA 提取特征的特征量劃分訓練集并采用支持向量機進行訓練,其中核函數選擇徑向基函數。其次,利用哈里斯鷹搜索算法求解全局最優的懲罰參數c和核參數g,以模型訓練過程的分類準確率作為適應度函數。最后,通過測試集對模型進行驗證。

圖2 HHO-SVM 算法流程圖
將收集到的934 組變壓器故障數據經KPCA 處理提取24 個特征,并將其作為輸入。針對電力變壓器故障識別最常見的有6 種故障狀態,即局放故障、低能火花、高能電弧、低溫度過熱、中溫度過熱和高溫度過熱共6 種故障狀態作為相應的輸出。表3 為932 組變壓器故障樣本分類。
在HHO-SVM 故障識別模型中,初始化算法各項參數:種群規模50,萊維飛行函數參數1.5,迭代次數50,優化的參數范圍[0.01,10],訓練集的分割比為0.8。
采用HHO-SVM 模型進行變壓器故障識別,使用哈里斯鷹對SVM 的懲罰參數c和核函數參數g進行優化時,隨著迭代次數的增加,參數序列的最佳適應度曲線和平均最佳適應度曲線如圖3 所示。此時,求出的最優懲罰參數c的解為4.573,核函數參數g的解為0.186。
分別將最優懲罰參數和核函數參數的解帶入SVM,將故障特征量樣本作為輸入,最終得到的支持向量機的訓練集故障識別準確率為93.42%,測試集故障識別的準確率為94.17%。測試集結果與實際對比,如圖4 所示。

表3 932 組變壓器故障樣本分類

圖3 HHO 最優適應度曲線

圖4 測試集分類結果與實際結果對比
利用HHO-SVM 模型訓練樣本數據,建立電力變壓器故障診斷模型。結果表明,測試集分類準確率為94.17%。測試集各故障子集分類結果如表4所示。
為了進一步驗證HHO-SVM 故障識別模型的有效性,分別以不同方法對變壓器故障診斷的正確率進行比較,如表5 所示。單一特征組合的故障識別正確率分別為55.16%和56.15%,三比值的正確率要高于氣體含量比值。而混合特征組合的正確率比單一特征組合分別高14.36%、13.37%,說明將DGA 數據和三比值組合后包含的故障信息比單一特征組合多。同時,就DGA 數據結合三比值提取故障特征來說,KPCA 提取特征的正確率高出24.65%,明顯提高了變壓器故障診斷正確率,體現出各故障特征之間存在一定的差異。

表4 HHO-SVM 模型測試集正確率

表5 不同特征量的平均正確率
基于相同的特征組合,采用標準SVM、PSOSVM 和HHO-SVM 分別進行變壓器故障診斷的故障識別。如表6 所示,與PSO-SVM 相比,HHOSVM 的平均測試準確率高出5.72%,說明HHOSVM 算法體現出較好的局部和全局優化性能,可以提高變壓器故障診斷準確率。

表6 不同方法的平均正確率
在DGA 數據集的基礎上加上三比值數集,并劃分為6 種不同故障類型的子集,分別對每一種故障類型子集利用KPCA 提取該故障類型的主元特征,再建立HHO-SVM 變壓器故障識別模型進行故障識別,可獲得如下結論。
(1)利用KPCA 依次提取各故障類型子集特征的方法,正確率比不采用KPCA 的測試正確率分別高出39.01%、38.02%,可見所提出的DGA 數據包含三比值特征缺失的故障信息,因此DGA 數據結合三比值能更準確反映變壓器的故障。同時,就DGA 數據結合三比值提取故障特征來說,KPCA 提取特征的正確率高出24.65%,明顯提高了變壓器故障診斷正確率,體現出各故障特征之間存在一定的差異。
(2)建立了基于哈里斯鷹搜索算法優化的SVM故障識別模型,與SVM、PSO-SVM 模型相比,測試集分類準確率有一定的提高。
(3)以KPCA 分別提取的各故障組合為輸入的HHO-SVM 變壓器故障診斷模型平均正確率高達94.17%,驗證了所提方法的有效性。