馬潤澤,王龍響,余佳文,王慧芳,邱 劍
(浙江大學電氣工程學院,浙江杭州310027)
斷路器是一種容易出現缺陷的電力設備[1]。相較傳統的事后檢修或定期檢修,狀態檢修是基于運行狀態制定檢修策略,具有檢修效率高、時效性好、成本低等優點,是目前檢修的發展方向[2]。健康狀態準確評價是實施狀態檢修的前提,因此,對斷路器的狀態評價進行研究具有十分重要的意義。
目前針對斷路器的狀態評價,國網公司于2008年發布了Q/GDW 171—2008《SF6 高壓斷路器狀態評價導則》[3],作為制定狀態檢修計劃的依據。此外一些專家學者采用斷路器狀態量數據,將導則或專家意見作為斷路器狀態評價的規則,針對斷路器狀態評價模型的構建進行了探究,采用的算法主要有層次分析法[4]、人工神經網絡法[5]、模糊綜合評判法[6]、聚類分析法[7]、物元法[8]、雷達圖法[9]等,一些文獻將這些算法與證據理論[10-11]、可拓論[12]、突變理論[13]相結合,以提升算法性能。
以上研究在進行斷路器狀態評價時所采用的依據均為當前測得的狀態量運行數據,未涉及斷路器的歷史缺陷情況。斷路器的歷史缺陷情況能夠反映斷路器部件的可靠性。如果一臺斷路器在一定時間內出現多種缺陷或多次出現同一種缺陷,說明該斷路器在運行中更易出現缺陷,在進行斷路器的狀態評價時需考慮上述情況。因此,可將斷路器的歷史缺陷情況作為斷路器狀態評價的一部分。斷路器的歷史缺陷情況一般由斷路器的缺陷文本記錄。缺陷文本通常采用自然語言表述,采用機器分析具有難度。目前鮮見電網文本處理的相關研究。缺陷文本評判的核心是確定缺陷的嚴重程度,即缺陷等級。以往缺陷等級的分類一般通過運維人員經驗判斷,雖可以在大多數情況下保證分類正確性,但費時費力,且受人的主觀性影響。因此需對缺陷文本庫進行信息挖掘研究,提出缺陷等級評判方法。
本研究將斷路器的歷史缺陷情況加入到斷路器狀態評價模型之中,提出了基于斷路器運行狀態量與斷路器歷史缺陷的斷路器狀態綜合評價模型,并針對斷路器缺陷文本進行研究,提出了基于KNN 算法的缺陷文本分類方法。最后對分類方法與相應的評價模型進行了算例驗證。
Q/GDW 171—2008《SF6 高壓斷路器狀態評價導則》是國家電網公司為規范與有效開展斷路器狀態檢修而制定的。導則將斷路器分為本體、操動機構、并聯電容器、合閘電阻4 個部件,每一部件的具體狀態量視對于斷路器安全運行的影響程度,從低到高分為1 ~4共4 個權重,對于狀態量的劣化程度,從低到高分為Ⅰ、Ⅱ、Ⅲ和Ⅳ級4 個等級,分別對應基本扣分值2、4、8、10,斷路器各部件扣分值等于該部件各狀態量劣化程度扣分與權重乘積之和。根據斷路器各個部件的扣分和評價標準,可得到部件的狀態評價結果。斷路器整體評價狀態為各部件評價狀態中最嚴重的狀態。
導則是在大范圍參考其他標準并結合大量SF6 高壓斷路器缺陷分析及運行檢修管理經驗的基礎上制定的,具有清晰、明確、合理的優點,可作為評價的整體框架。因此,本研究在建立斷路器狀態評價模型時,針對斷路器運行信息,采用導則中的規則進行評價,而針對歷史缺陷信息,則在導則中添加專門針對歷史缺陷文本的規則進行評價。
斷路器的缺陷文本一般包含設備型式、電壓等級、名稱、所在變電所、廠家、出廠時間、缺陷部位、類型、具體內容、缺陷等級、消缺狀態、技術原因、處理結果,發現過程及消缺流程中的相關時間與相關責任人等信息。其中缺陷等級一般被歸為“緊急”、“嚴重”、“一般”3 類。斷路器的缺陷文本能反映斷路器曾經出現過的缺陷情況并且能提供相應的消缺記錄,是對斷路器可靠性進行判斷的有力依據,本研究將其作為斷路器狀態評價的依據之一。
待建立的狀態評價模型從數據來源看為一個綜合運行數據與歷史缺陷文本的狀態評分模型。對于斷路器運行數據,根據導則打分;對于缺陷文本,則通過中文文本處理技術將其向量化后,采用分類算法與之前建立好的缺陷文本庫對文本進行缺陷程度的分類,并根據在導則中添加的評價規則進行相應打分;最后兩部分打分合計。之后根據導則完成狀態評價的余下步驟,得到最終結果。對導則的添加內容具體為:在導則的每一個部件分類下添加狀態量描述“在評價時間范圍內含有歷史缺陷”,權重為1,根據缺陷等級不同,分別為:
(1)不扣分,判斷依據為“[0,0.4)次/年的‘一般’等級缺陷,[0,0.2)次/年的‘嚴重’與‘緊急’等級缺陷”;
(2)劣化程度為Ⅱ級,基本扣分值為4,判斷依據為“[0.2,0.4)次/年‘嚴重’等級缺陷;[0.4,0.6)次/年‘一般’等級缺陷”;
(3)劣化程度為Ⅲ級,基本扣分值為8,判斷依據為“[0.2,0.4)次/年‘緊急’等級缺陷;[0.4,0.6)次/年的缺陷,其中至少有0.2 次/年‘嚴重’等級缺陷;0.6次/年及以上(含0.6 次/年,下同)的‘一般’等級缺陷”;
(4)劣化程度為Ⅳ級,基本扣分值為10,判斷依據為“0.4 次/年及以上的缺陷,其中至少有0.2 次/年‘緊急’等級缺陷;0.6 次/年及以上的缺陷,其中至少有0.2 次/年‘嚴重’等級缺陷”。
上述評價規則可實現:在設備正常時,設備的狀態評價結果仍然為正常狀態;在設備出現缺陷時,尤其該缺陷歷史上已出現過,設備的狀態評價結果將適當嚴重化,從而在檢修中提升對該部件乃至該設備的注意程度。
對文本信息進行分類等操作無法直接進行,在進行該類操作之前,必須去除文本中的無用信息,并將文本中的有用信息轉化為向量表示。這一轉化過程被稱作文本預處理。
中文文本的預處理與英文文本有一定區別。英文文本詞與詞之間通過空格隔開,具有自然分界,中文文本則不具這一特點。一般而言,中文文本的預處理需要經過文檔分段、分句、分詞、去除停用詞、特征選擇、詞頻統計、文本向量化[14-17]幾個步驟,這樣的預處理流程適合長文本。而斷路器的缺陷文本一般為短文本,根據這一特點,其預處理僅保留分詞、詞頻統計、去除停用詞和文本向量化步驟,文本預處理流程如圖1所示。

圖1 文本預處理流程
步驟1:分詞。分詞即將文本中的字符串合理地切分成詞語序列,是中文文本信息處理必備且最為基礎的環節。
步驟2:詞頻統計。即是對文本中所有詞進行出現頻次的統計并據此排序。完整的詞頻統計結果即包括了文本中出現的所有詞,可用這些詞構成文本向量的向量空間。每個詞對應向量空間中一維。
步驟3:去除停用詞。即去除無法表征文本的詞,執行中考慮先建立停用詞表,再將詞頻統計結果和停用詞表中的詞進行對照,刪去其中的停用詞。
步驟4:文本向量化。是把經過上述處理的文本轉化為數字向量的表示結果。每一條文本對應一個特征向量,特征向量的每一維對應詞頻統計結果中的每一個詞。具體方法為根據文本向量的向量空間,再根據分詞結果,將每條文本中的詞與向量空間每一維對應的詞作對照,如果相同,則在該文本對應的特征向量中,將該詞對應的維記為1,否則為0。
對于已經向量化后的缺陷文本,需要通過文本分類的方式來對其進行歸類。通過將待歸類的單條缺陷文本與缺陷文本庫中的已歸類的缺陷文本進行對比,尋找到與缺陷文本庫中相近的文本,然后將該缺陷文本歸入最接近的一類當中。
文本庫中的缺陷文本已經過文本預處理,構建好了向量空間,缺陷等級也已按“緊急”、“嚴重”、“一般”三類分好,可認為其中大部分分類結果是正確的。為便于計算,本研究將上述缺陷等級分別量化為3、2、1。待歸類的缺陷文本則經過文本預處理后,將采用KNN 算法進行歸類。
KNN 算法又名k-最近鄰算法,其核心思想為如果一個樣本在特征空間內的若干個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性[18-19]。相比Kmeans、Adaboost 等其他分類算法,KNN 算法既不是通過在大范圍內尋找區域中心,然后判斷樣本與各區域中心的相近程度,也不是通過對所有樣本分布規律進行總結的劃分規則來進行樣本分類,它不僅適合缺陷文本在大范圍內混雜,在小范圍內聚集的特點,而且不需建立復雜的劃分規則。
采用KNN 算法進行缺陷文本歸類的操作步驟為:
(1)計算待歸類文本與文本庫中每個文本的文本相近程度。
關于兩向量化后的文本相近程度的定義,可采用以下表示的相似度公式:

式中:Sij—待求的待測文本i 與文本庫中文本j 之間的相似度;di—文本i 的特征向量;dj—文本j 的特征向量;M—向量的維數;Wil—向量di的第l 維的值;Wjl—向量dj的第l 維的值。
(2)按照文本相似度,在文本庫中選出與待歸類文本最相似的k 條文本,其中k 可設置。
(3)利用式(2)計算待歸類缺陷文本i 描述的缺陷嚴重程度yi:
接近于鮞粒邊緣處,有機質含量逐漸減少,透明度近于一致。層紋主要由方解石的不同粒度構成,但粒度差異也不大,主要為微晶-泥晶狀。說明晚期鮞粒的生長中,生物參與程度很少,泥質薄膜兩邊的方解石粒度、結構幾乎沒有差異(圖2)。

式中:yl—第l 條缺陷文本描述的缺陷嚴重程度。
(4)根據計算結果將該缺陷的嚴重程度歸類,如計算結果為yi∈(1,1.5],則歸為一般類,計算結果為yi∈(1.5,2.5),則歸為嚴重類,結果為yi∈(2.5,3],則歸為緊急類。
缺陷文本歸類后,根據1.2 節中介紹的不同缺陷等級的扣分模型進行后續狀態評價。
本研究以華東地區某電力公司的斷路器缺陷文本為例,對斷路器各部件缺陷文本的缺陷嚴重程度進行了重新分類,并與初始結果進行了比較;筆者通過對一臺斷路器進行狀態評價,驗證了本研究所提出的斷路器狀態評價方法的可行性。算例過程中的分詞步驟由ICTCLAS 完成,并復制結果于文本文檔中保存,詞頻統計由Microsoft Excel 中編寫宏程序完成,結果復制后保存于文本文檔中,其余步驟通過Matlab 完成。
ICTCLAS 是由中科院計算所開發,基于層次隱馬爾科夫模型的中文詞法分析系統,被廣泛應用于中文信息處理的各個領域。但ICTCLAS 本身無法識別電氣行業的專業詞匯,需要進行新詞添加,為此本研究首先建立了“斷路器缺陷文本詞庫”。
本研究對斷路器各部件缺陷文本進行分類計算,KNN 算法中取k=3,分類結果如圖2所示。
表1 得到的分類正確率是合理滿足要求的,可以認為通過2 中介紹的方法對缺陷文本進行分類是可行的。
某斷路器5年內的缺陷情況如表2所示,其缺陷文本分類結果也列于表2 內。

表2 某斷路器5年內的歷史缺陷情況
根據1.2 節的歷史消缺信息扣分模型,則其本體部分有0.2 次/年緊急缺陷,追加扣分值為8;操動機構部分有0.4 次/年緊急缺陷,追加扣分值為10。此時:
(1)若根據運行信息的狀態評價結果為所有部件正常,即本體、操動機構、并聯電容、合閘電阻四部件原扣分均為0,按原評價方法判定為所有部件均為正常狀態,總評為正常狀態;融入歷史缺陷信息后,四部件扣分分別為8、10、0、0,評價結果為所有部件均為正常狀態,總評為正常狀態,評價等級未發生變化;
(2)若根據運行信息的狀態評價結果,操動機構由于打壓超時信號動作,根據當前導則扣8 分,其他部件沒有扣分,按原評價方法判定為所有部件均為正常狀態,總評為正常狀態;融入歷史缺陷信息后,四部件的扣分分別為8、18、0、0,評價結果為本體、并聯電容器、合閘電阻為正常狀態,操動機構為注意狀態,總評為注意狀態,評價等級嚴重程度提升。
從以上算例可以得出,當斷路器當前狀態完全正常時,本研究所提出的評價方式不會使得評價等級惡化;當斷路器出現缺陷,且缺陷出現在歷史已出現過多次缺陷的部件中時,該部件的狀態評價結果會比原來嚴重,從而使斷路器整體評價下降,引起檢修人員注意。因此狀態評價中引入歷史缺陷信息,是既合理又可行的。
本研究在斷路器狀態評價中加入歷史缺陷信息進行綜合評判,并提出了基于KNN 算法的缺陷文本分類方法以對斷路器的缺陷文本進行分析處理,通過算例驗證后得到以下結論:
(1)引入歷史缺陷文本信息用于斷路器狀態評價,是對當前的狀態評價方法的有益補充,能促進斷路器狀態評價結果更為完善與合理。
(2)采用中文文本處理方法對缺陷文本進行處理,是一種有益的嘗試,算例結果表明,基于KNN 算法對文本進行分類以確定缺陷等級是可行的。考慮到電網中設備運行缺陷都有相應的文本記錄,在進一步研究中,可將此方法用于電網其他設備,尤其是不適合裝設狀態監測裝置的設備的狀態評價。
[1]JANSSEN A,MAKAREINIS D,S?LVER C.International surveys on circuit-breaker reliability data for substation and system studies[J].IEEE Transactions on Power Delivery,2014,29(2):808-814.
[2]ENDRENYI J,ABORESHEID S,ALLAN R N,et al.The present status of maintenance strategies and the impact of maintenance on reliability[J].IEEE Transactions on Power Systems,2001,16(4):638-646.
[3]國網電網公司.Q/GDW 171—2008,SF6 高壓斷路器狀態評價導則[S].國網電網公司,2008.
[4]LIN Xin,QI Hong-wei,TENG Yun,et al.Evaluation Method of High-Voltage Circuit Breaker Running State Based on Matter-Element Theory and AHP[C]//E-Product EService and E-Entertainment (ICEEE),2010 International Conference on :IEEE,2010:1-4.
[5]徐建源,張 彬,林 莘,等.能譜熵向量法及粒子群優化的RBF 神經網絡在高壓斷路器機械故障診斷中的應用[J].高電壓技術,2012,38(6):1299-1306.
[6]陳偉根,魏延芹,廖瑞金.高壓斷路器運行狀態的變權模糊綜合評判方法[J].高壓電器,2009,45(3):73-77.
[7]張國鋼,李 宇,湯 翔,等.模糊聚類分析用于斷路器狀態評估因素分類[J].高電壓技術,2008,34(2):350-354.
[8]陳偉根,魏延芹,王有元.帶變權的高壓斷路器狀態物元評估方法[J].重慶大學學報,2009,32(2):151-157.
[9]李海英,馮 冬,宋建成.中壓真空斷路器狀態的雷達圖法評估模型[J].電網技術,2013,37(7):2053-2059.
[10]LIN Po-chun,GU Jyh-cherng,YANG Ming-ta.Intelligent maintenance model for condition assessment of circuit breakers using fuzzy set theory and evidential reasoning[J].IET Generation,Transmission & Distribution,2014,8(7):1244-1253.
[11]魏延芹.基于物元與證據理論相結合的高壓斷路器狀態評估方法研究[D].重慶:重慶大學電氣工程學院,2008.
[12]馬國立.基于可拓理論的高壓斷路器狀態評估[D].北京:華北電力大學電氣工程學院,2009.
[13]陳偉根,吳 婭,劉 強.基于突變理論的斷路器運行狀態模糊綜合評判方法[J].高壓電器,2007,43(2):127-130.
[14]何金鳳.基于中文信息檢索的文本預處理研究[D].成都:電子科技大學計算機科學與工程學院,2008.
[15]鐘茂生.基于內容相關度計算的文本結構分析方法研究[D].上海:上海交通大學電子信息與電氣工程學院,2010.
[16]張 寧.基于語義的中文文本預處理研究[D].西安:西安電子科技大學管理學院,2011.
[17]廖一星.文本分類及其特征降維研究[D].杭州:浙江大學計算機科學與技術學院,2012.
[18]胡 元.基于區域劃分的KNN 文本快速分類算法研究[D].濟南:山東大學計算機科學與技術學院,2012.
[19]張孝飛,黃河燕.一種采用聚類技術改進的KNN 文本分類方法[J].模式識別與人工智能,2009,22(6):936-940.