覃禹銘,包義釗
(貴州電網有限責任公司遵義供電局,貴州 遵義 563000)
“調控一體化”建設是將網區所轄的變電站通過調度自動化系統實現廠站全面的、規范的中心監視和遠程控制,對電網進行全面、科學管理,最大限度地達到減員增效的效果。
“一體化”的高水平建設離不開高質量的基礎數據作為支撐。電網運行系統的基礎數據取決于廠站遠傳數據,這些數據的全面與否、規范與否至關重要。由于種種原因,變電站遠動上送的站內監測信息不能滿足“一體化”的規范要求,存在不全面、不規范等問題。對于這些廠站,調度自動化系統的建設及運維人員需要核查問題,梳理整改。對于一個地市級電網的廠站規模而言,核查的工作量大,同時需要調度、運行、保護、自動化等多方面專業知識的支持。鑒于遙信、遙測信息在電力系統中的重要地位,信號的命名、取舍均由具有專業知識及豐富經驗的人把關。對于經驗不足的人員而言,這是一個難點及痛點。顯然,此項工作具有繁瑣性、復雜性和專業性等。目前,在變電站信息梳理工作方面,未見相關論文進行研究。本文針對性地設計了基于Python的告警信息梳理平臺,利用人工智能相關技術創新性地解決了上述問題。
告警信息梳理是以規范性文件為依據,詳細約束了不同電壓等級的廠站下屬主變高中低、線路、容抗器等間隔遙測、遙信的命名規范和信息完整性要求,同時對智能站的特殊設備提出了全面性、規范性的要求。
信息梳理的對象是轄區內納入“調控一體化”的所有變電站。依照規范化文件制作各廠站規范化告警信息表,然后按照規范的要求核查各間隔的遙信遙測是否符合信號全面性、命名規范性的要求并進行相應的標注,最后匯總全站遙信遙測存在的問題形成報告,提交相關專業安排整改。
調度自動化主站工作人員梳理并匯總形成報告的難點及重復性工作主要包含以下內容。
(1)按照規范化文件核實變電站的所有間隔,并按文件形成全站應該具有的信息表,完整、規范地涵蓋該站按照文件要求需要上送的所有遙信遙測;
(2)根據信息表羅列的間隔,將主站點表的遙測、遙信信息按間隔列表分類;
(3)根據信息表,逐間隔從主站點表中查找該間隔要求的信息,并標注處理已知的問題,以規范要求的遙信、遙測的描述中包含的關鍵詞來檢索所屬間隔的主站點表;
(4)按照格式匯總報告該站存在的問題。
除了上述的重復性行為,該項工作更大的挑戰是對梳理人員的電力系統知識水平的要求。
結合調度自動化主站系統的特點,設計了如下流程。
(1)根據導出的電網間隔模型文件,自動生成規范要求的全站標準信息表;
(2)導入規范點表和主站導出的變電站點表,逐間隔查找核實主站點表情況;
(3)全站核查結果匯總并生成報告。
Python語言作為目前廣泛應用的計算機語言,在自然語言處理、人工智能等領域的運用尤其亮眼。
根據抽象出來的流程,解決信息梳理工作繁復性主要在步驟上,信息的整理標注工作上尤其耗時,這些工作通過計算機處理是簡單的,棘手的問題在于梳理工作中對專業知識的依賴。
自然語言識別技術最初適用于互聯網搜索引擎搜索結果排序,利用匹配程度進行搜索結果排序,使用戶優先瀏覽匹配較高的搜索結果。在告警信息核查過程中,以規范化告警詞條進行全站信息檢索也是一種搜索動作,但因未能進行匹配程度的排序,導致需要在大量告警描述中尋找最優結果。因此,使用自然語言識別技術不僅能更容易匹配檢索信息,還可以通過計算機判斷自動選取匹配工作。
規范化告警信息中存在某些告警信息某詞義相似的情況,如“重合閘動作”“重合閘保護動作”,或相近的情況如“裝置閉鎖”“裝置故障”。該信息在處理過程中需要大量的調度運行、保護自動化等專業知識支持,對于此類信息的判斷是一個難點。針對這一問題,本文在軟件設計中提出了機器學習的概念。程序在協助工作人員梳理過程中,記錄經驗豐富的梳理人員的梳理結果。當經驗不足的梳理人員在處理相同或者相似問題時,系統通過調取經驗匹配的方式自動給出建議。若有其他選項,在經過經驗豐富的梳理人員的許可下,可以將其填寫到匹配結果。這一流程本質上是一個半監督的機器學習。
告警信息梳理工作一般多人同時參與。為了能夠實時共享主站點表、經驗庫、標準信息表、匯總報告等文件及配置,設計了一套分布式梳理、集中式數據共享的告警信息梳理軟件,以滿足日常廠站告警信息信息規范化核查工作。通過使用機器學習和自然語言識別等技術,減輕工作人員工作壓力和技術需求,逐步形成半監督自動化處理流程,從而為告警信息識別提供相應的算法、經驗及識別功能框架。整體結構如圖1所示。

圖1 軟件整體建構圖
該軟件采用Python編譯,數據庫部分采用PostgreSQL數據庫。主程序部分包含規范文件預處理模塊、數據導入模塊和數據導出模塊,其中數據處理按告警詞條類型調用處理子程序。依照現有電網模型結構和告警信息特點,將整體廠站遙信信息部分劃分為主變、線路、母線及其他4種類型。處理流程如圖2所示。軟件采用PyQT5設計交互界面(如圖3所示),使用Listwidget、Tablewidget等控件滿足信息選取時的匹配操作。

圖2 軟件流程圖
首先比對告警信息規范化描述與實際告警描述,宜采用TF-IDF(Term Frequency-Inverse Document Frequency)計算進行詞條的相似度計算。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,互聯網上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜索結果中出現的順序。
詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數(Term Count)的歸一化,以防止它偏向長的文件(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否)。對于在某一特定文件里的詞語ti來說,它的重要性可表示為:

圖3 軟件交互主界面

其中,ni,j是該詞在文件dj中出現的次數,分母是在文件dj中所有字詞的出現次數之和。
逆向文件頻率(Inverse Document Frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取以10為底的對數得到,即:

TF-IDF實際上是在詞頻TF的基礎上加入逆文本IDF的信息,即:

通過上述計算方法,將兩個待比較的詞條逐字分解成數組,計算出TF-IDF矩陣,然后計算二者的交集大小和并集大小,作商得出告警規范化描述與實際描述的匹配度。
例如,計算“#2主變高壓側過負荷告警”規范化告警描述過程中與實際廠站告警描述的匹配結果,如表1所示。

表1 匹配值示意表
機器學習是人工智能的一個分支,該領域的主要研究方向為如何在經驗學習中改善具體算法的性能。通過記錄數據或以往的經驗,優化計算機程序或計算機算法的性能。為避免在處理過程中出現重復匹配過程,提高匹配精度,軟件在半監督處理過程中記錄人工告警信息匹配的選取過程,將該處理經驗存入經驗學習庫,在下次描述詞條處理過程中調取相關經驗處理信息,并使用經驗與詞條進行TF-IDF匹配計算。由于在實際運算過程中可能會存在無經驗情況,此時采用關鍵字匹配計算進行人工匹配工作,確保人工確認數量達到可控制范圍。機器學習處理流程,如圖4所示。

圖4 機器學習處理流程圖
單規范化詞條與1 000個廠站實際描述匹配值計算時間為5.3 s(常規工作站配置)。為解決處理時長過長的問題,軟件將所有待匹配的實際描述組按處理進程數隨機均分,實現進程之間的負載均衡。實際采用8進程進行同時處理時,單規范詞條處理時長降至1.4 s。
解決告警描述匹配閾值的選取問題,需設定訓練集進行匹配閾值的匹配驗證,控制整體算法在匹配過程中的精確程度,減少不必要的計算量。設定1 000個規范化描述與實際描述匹配的訓練集,閾值區間取值為0.7~1,以0.1為步長,最低選取匹配閾值如圖5所示。
統計結果中,閾值等于1的情況不存在參考價值,故剔除后按照95%的準確率進行重統計計算。滿足準確率95%時,閾值選取范圍為0.82。配合經驗處理后,可適當提高0.02~0.05,提高識別精度。

圖5 閾值選取分布曲線
本文將人工智能領域中自然語言識別技術、機器學習技術應用于變電站信息核查工作,結合工作的特點,創新性地建立了遙信信號命名經驗庫,并將其應用于核查算法,解決了梳理工作依賴于人員經驗的問題。在業務流程上,本文構建了分布式處理平臺,應用經驗數據庫共享、多線程技術,簡化了梳理的繁瑣流程,將人從繁復的操作中解放出來,使其專注于信號梳理,顯著提高了梳理工作的效率和準確性,同時為今后告警信息智能化識別、處理、優化提供了重要依據。