佘 俊,羅 勇,余少鋒,廖崇陽
(1.南方電網公司調峰調頻發電有限公司信息通信分公司,廣東廣州 511442;2.南方電網公司調峰調頻發電有限公司西部檢修試驗分公司,貴州興義 562400)
在現代智能電力系統中,電力數據結構復雜、類型多、存儲量大。電網大數據通常分為結構化和非結構化兩種,兩種不同結構的大數據在電網中有不同的應用價值[1]。在這種情況下,結構化數據可用于戰略制定和統計分析預測趨勢[2]。非結構化數據所占比例較大,因為其包含大量由“重要內容經常被記錄”所產生的文本數據,這些大容量、高價值密度的有用信息能夠提高企業的效率和收益[3]。對于電力企業來說,如何檢索這部分數據,將對企業的戰略部署和發展方向產生重大影響。因此,實時檢索獲取電力設備運行信息具有現實意義[4]。
在電力設備中,采用基于搜索引擎的信息檢索方法,常常會存在信息超載和詞匯不匹配的現象,使得用戶向搜索引擎提交的查詢語句往往不規范,給查詢過程造成困難。雖然基于語義相似性計算的電力設備信息檢索方法已經取得了很大的進展,但是仍然沒有從根本上提高檢索性能,對詞與詞之間的語義關系缺乏深入研究。同時,由于對語義關系的研究不受語境的限制,從而造成檢索詞的混亂。針對上述問題,該文提出了基于語義理解和AI 的電力設備信息檢索新方法。
該研究通過提取文本特征剔除多余虛詞,然后借助分詞工具依次標注電力設備信息中的分詞與詞性[5]。使用詞頻加權方法分析文檔權重,其公式為:
式(1)中,tfik表示想要檢索的電力設備信息在檢索文檔中出現的次數;N表示電力設備信息文檔數量;nk表示電力設備信息全部文檔中出現想要檢索的電力設備信息的文檔數量[6]。
通常,詞組是構成文檔的關鍵部分,一篇文章中最頻繁出現的一組詞為中心主題,通常用TF 詞頻度來衡量類似文本的特點[7]。文字出現的頻率越低,說明文本分類識別的準確率越高。因此,利用文本頻率和詞頻度的乘積可以表示特征空間的測度值,再通過調整權重的方式突出關鍵字。
基于語義理解就是發現詞和符號所表達的“意義”,根據這一思想,語義理解也需要一個以句子意義作為最終理解和表達的形式符號系統,其描述公式為:
式(2)中,CE表示語句類的表達式;S表示語義塊;C表示描述對象;f()和g()表示約束函數[8-10]。
結合上述公式,設計基于語義理解的電力設備信息處理步驟,如圖1 所示。
如圖1 所示,處理語義信息時,虛線框中的句類假設和檢測、語義塊構成等作為處理環節,輸入自然語言語句,再輸出相應的句類表示和詞描述[11-12]。
具體處理步驟:在信息預處理之后,基于句子中懷疑詞所包含的概念對可能的句型作出假設,并基于所包含的概念性知識來判斷句子的類型?;诖耍谜Z義塊來判斷詞語,假定在處理過程中未能通過上述步驟,將導致追溯,此時需要再次進行“假設”和“探測”[13]。
查詢擴展技術是語義檢索的關鍵技術,通過添加與原始查詢語言查詢語義相關的詞或概念,使查詢時間較原始查詢長,從而提高了文檔檢索效率、查全率和準確性[14]。通過對相關內容和用戶需求的比較,提取語義信息;對于知識庫中存在的詞組,使用語義詞典對語義進行擴展處理,并以表格形式展現給用戶,供用戶自行識別[15]。查詢字符串被擴展成搜索引擎查詢,查詢結果被聚類并呈現給用戶。查詢擴展流程如圖2 所示。
具體查詢擴展過程:首先應確定原始查詢串r;然后擴展查詢串R,經過分詞處理后,將原始查詢串r分解成n個檢索關鍵詞[16]。其中,關鍵詞語義相似度最為接近的同義詞數量為m1,m2,…,mn,將其擴展為r11,…,r1m1,r21,…r2m2,…,rn1…,rnmn詞組,并確定擴展查詢子串為k=m1×m2×…×mn+1 個;最終得到的各個查詢子串為:
結合式(3),可得到擴展后的查詢子串。
基于上述內容,構建基于語義理解的AI 檢索模型,如圖3 所示。
由圖3 可知,該模型主要是由四個模塊組成的,如下所示:
1)預處理模塊
為便于后續的相似度計算,在用戶查詢之前采用分詞和刪除停用詞的預處理方式,將停用詞轉換成文件矢量形式。
2)語義關系分析模塊
通過預處理模塊搭建語義知識庫,使不同詞語形成語法依賴關系。語義概念空間是一種能將語言進行量化處理的空間,通過語義判斷能夠解決概念間隱含的數據結構問題。量化機制中的事態信息量級如表1 所示。

表1 事態信息量級
3)判別信息空間模塊
在選擇信息空間時,要根據三種不同的語言信息量,通過句法依賴圖進行判斷。
4)語境分析和查詢模塊
識別出信息空間后,對文檔數據庫中的各個數據進行匹配,使得數據可以對應于文檔,然后對文檔進行排序,并返回查詢結果。
為了驗證基于語義理解和AI 的電力設備信息檢索方法的有效性,結合F 供電局供電情況進行實驗驗證分析。
F 供電局是某供電公司直屬的企業,主要負責電力供應,目前供電客戶為300 多萬戶,在2020 年該供電局最高供應負荷可達到1 500 萬千瓦。截至到目前,F 供電局共有110 kV、220 kV、500 kV 輸電線路長4 500 km 左右,主變壓器為五百多臺。F 供電局主要電力設備如表2 所示。

表2 F供電局主要電力設備
從F 供電局的變壓器、斷路器、變電站和電源開關四種設備中提取電力設備信息,構成信息集,信息集中保留了電力設備共600 條信息。
1)信息查全率
設檢索出的變壓器、斷路器、變電站和電源開關四種設備電力設備信息為a,總信息量為c,信息查全率計算公式為:
由式(4)可知,總信息量c中除了檢索到的全部信息外,還包含歷史信息庫中的信息,信息查全率越高,說明從全部信息中檢索到的變壓器、斷路器、變電站和電源開關四種設備電力設備信息就越全面。
2)信息查準率
設檢索出的變壓器、斷路器、變電站和電源開關四種設備電力設備信息為a,其余信息量為b,由此計算信息查準率:
由式(5)可知,信息查準率越高,說明從全部信息中檢索到變壓器、斷路器、變電站和電源開關四種設備電力設備信息的精度就越高。
2.4.1 信息查全率
結合表2 確定檢索到的總信息數量為7 544 條,分別使用基于搜索引擎的電力設備信息檢索方法、基于語義相似度計算的電力設備信息檢索方法和基于語義理解和AI 的電力設備信息檢索方法對信息查全率進行對比分析,結果如圖4 所示。
由圖4 可知,使用基于搜索引擎的檢索方法在前5 次計算過程中,信息查全率大于60%,在后4 次計算過程中,信息查全率大幅度下降,說明該計算過程受到了歷史信息庫中的信息影響;使用基于語義相似度計算的檢索方法在9 次計算過程中,信息查全率大于60%;使用基于語義理解和AI 的檢索方法在9 次計算過程中,信息查全率始終大于80%。
2.4.2 信息查準率
對比分析不同方法的信息查詢結果,如表3所示。
由表3可知,基于語義理解和AI的電力設備信息檢索方法的查準率接近100%,具有精準檢測結果。

表3 不同方法信息查詢結果對比分析
該文提出一種基于語義理解和AI 的電力設備信息檢索方法,有效提高了檢索查全率和查準率。
該方法的主要特點:相對于傳統檢索方法,基于語義理解擴展原始的關鍵字集合,得到新的關鍵字集合。此集合更適合于用戶希望表達的內容,因此使查詢更精確;該方法可以快速建立和優化索引,同時利用查詢擴展模塊對關鍵字集進行檢索,利用索引技術實現快速高效的檢索。