張小韜,季小龍
(1. 南瑞集團(tuán)有限公司(國網(wǎng)電力科學(xué)研究院有限公司),南京 211106;2.北京科東電力控制系統(tǒng)有限責(zé)任公司,北京 100192)
隨著新型電力系統(tǒng)的建設(shè),電網(wǎng)運行特性和運行方式也將發(fā)生變化,電網(wǎng)調(diào)控業(yè)務(wù)越來越復(fù)雜,調(diào)控人員工作強(qiáng)度也越來越大,這對調(diào)控業(yè)務(wù)的自動化、智能化提出了更高的要求[1-3]。電力調(diào)度文本中含有大量調(diào)度人員處置業(yè)務(wù)的經(jīng)驗、方法和規(guī)定,現(xiàn)行調(diào)控方式主要以人工經(jīng)驗分析為主,在處置電網(wǎng)業(yè)務(wù)過程中,調(diào)度人員沒有時間查閱復(fù)雜繁多的文本,導(dǎo)致電力調(diào)度文本利用率低、應(yīng)用效果差。因此,通過電子化電力調(diào)度文本使其能夠在線進(jìn)行檢索,有助于提高電力調(diào)度文本的利用率和調(diào)度業(yè)務(wù)處置的智能化水平。
近年來,人工智能和自然語言處理技術(shù)得到高速發(fā)展,并且在金融、醫(yī)療、教育等領(lǐng)域取得了顯著成果,知識圖譜和文本相似技術(shù)作為其重要的技術(shù)手段,被廣泛應(yīng)用到各個領(lǐng)域[4-6],在電力調(diào)控領(lǐng)域也得到了應(yīng)用和發(fā)展。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)[7-8],通過實體和實體間關(guān)系表征物理世界事物之間的聯(lián)系,以“實體-關(guān)系-實體”三元組的形式將各知識單元鏈接起來。文本相似度算法可以定量描述不同的自然語言文本間的相似度,是實現(xiàn)自然語言文本檢索和知識融合的有效手段。文獻(xiàn)[9]基于注意力的雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場建立調(diào)度規(guī)程文本知識抽取模型,為構(gòu)建電網(wǎng)調(diào)控知識庫提供知識要素。文獻(xiàn)[10]基于深度學(xué)習(xí)網(wǎng)絡(luò)識別電力設(shè)備檢修文本中設(shè)備、故障現(xiàn)象等實體,為設(shè)備檢修提供知識要素。文獻(xiàn)[11]基于混合神經(jīng)網(wǎng)絡(luò)建立電力調(diào)度文本事件抽取模型,實現(xiàn)故障處置預(yù)案的實體和實體關(guān)系的解析,可以為故障智能處置提供知識要素。文獻(xiàn)[12]基于正則表達(dá)式和文本卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了故障處置預(yù)案實體識別和操作事件語義理解,為故障處置預(yù)案在線推送提供了基礎(chǔ)。綜上所述,目前對電力調(diào)度文本的研究多集中在電力實體識別方面,難以對大規(guī)模的形式復(fù)雜的電力調(diào)度文本進(jìn)行建模。目前調(diào)度員亟需從大規(guī)模電力調(diào)度文本中快速和準(zhǔn)確地獲取關(guān)鍵信息,但缺乏對大規(guī)模電力調(diào)度文本精細(xì)化檢索方面的研究。
針對現(xiàn)行電力調(diào)度文本利用率低和應(yīng)用效果差的問題,提出基于自然語言理解的電力調(diào)度文本語義檢索方法。根據(jù)電力調(diào)度文本特點和應(yīng)用方式,基于正則表達(dá)式對電力調(diào)度文本進(jìn)行解析,提取出檢索關(guān)鍵信息以及對應(yīng)的解釋文本內(nèi)容。將顆粒化的電力調(diào)度文本信息以“實體-關(guān)系-實體”三元組形式鏈接形成電力調(diào)度文本知識圖譜,即電力調(diào)度文本語義知識庫。基于文本相似度技術(shù)計算待檢索調(diào)度信息與電力調(diào)度文本知識圖譜中實體信息的相似距離,將相似距離最近的實體信息作為檢索內(nèi)容,并通過多個區(qū)域電網(wǎng)調(diào)控中心電力調(diào)度文本驗證算法的有效性。
20世紀(jì)50年代,正則表達(dá)式作為一個簡單計算模型被提出,隨后Thompson等人將其匹配功能引入計算機(jī)主流應(yīng)用。正則表達(dá)式由一系列ASCII字符構(gòu)成,并包含一部分元字符,如點號(.)、星號(*)和垂直符號(|)等,這些元字符增強(qiáng)了正則表達(dá)式豐富的表現(xiàn)能力。正則表達(dá)式是用于描述一組字符串特征的模式,用來匹配特定的字符串。通過元字符+普通字符進(jìn)行模式描述,實現(xiàn)對文本的模糊匹配。這種工具適合處理自然語言文本,使用簡單方便,效果顯著。
電力調(diào)度文本是對調(diào)度員處置業(yè)務(wù)方法、規(guī)定、經(jīng)驗等信息的總結(jié)和提煉。文本結(jié)構(gòu)較為規(guī)范,一般以各級標(biāo)題和各級標(biāo)題所對應(yīng)的內(nèi)容的形式呈現(xiàn),適合用正則表達(dá)式定義電力調(diào)度文本結(jié)構(gòu)匹配模式,實現(xiàn)對電力調(diào)度文本關(guān)鍵標(biāo)題和對應(yīng)的內(nèi)容的解析,一般調(diào)度文本的關(guān)鍵信息均存在調(diào)度文本各章節(jié)的標(biāo)題中。在定義正則表達(dá)式匹配模式過程中,根據(jù)電力調(diào)度文本標(biāo)記數(shù)據(jù)編號和格式的特點,將標(biāo)題分為一級標(biāo)題、二級標(biāo)題、三級標(biāo)題和四級標(biāo)題等,依據(jù)各級標(biāo)題的特點定義正則表達(dá)式匹配模式。通過文本結(jié)構(gòu)解析表達(dá)式可以得到電力調(diào)度文本各級標(biāo)題以及各級標(biāo)題對應(yīng)的解釋內(nèi)容,從而得到電力調(diào)度文本關(guān)鍵信息與其對應(yīng)的解釋內(nèi)容。在對電力調(diào)度文本檢索時,使用待檢索問題模糊匹配各級標(biāo)題中的關(guān)鍵信息,將匹配程度最高的關(guān)鍵信息對應(yīng)的解釋內(nèi)容作為最佳檢索內(nèi)容推薦給調(diào)度員以供參考。
知識圖譜是一種語義知識網(wǎng)絡(luò),可以通過“實體-關(guān)系-實體”三元組的形式描述客觀事物的內(nèi)在聯(lián)系,實體和屬性用節(jié)點表示,關(guān)系用有向邊表示。知識圖譜因其在知識推理方面的優(yōu)勢,被應(yīng)用于智能搜索、對話問答等領(lǐng)域。鑒于知識圖譜這種知識表示形式和能力,可以將電力調(diào)度文本解析為顆粒化實體知識,形成電力調(diào)度文本知識圖譜,為調(diào)度文本檢索提供語義知識庫。
根據(jù)應(yīng)用需求,文中對電力調(diào)度文本知識圖譜進(jìn)行概念建模,指導(dǎo)知識圖譜構(gòu)建整個過程和建模思想。將電力調(diào)度文本信息分為五類,即運行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專業(yè)管理規(guī)程和事故應(yīng)急規(guī)程。將這五類信息作為知識圖譜的概念實體,每種概念實體包含各自對應(yīng)的電力調(diào)度文本,如運行常備規(guī)程包括:調(diào)度運行規(guī)程、調(diào)度運行細(xì)則、作業(yè)指導(dǎo)書等。每個規(guī)程包含各章節(jié)關(guān)鍵信息、關(guān)鍵信息解釋內(nèi)容等實體,同時包含規(guī)程標(biāo)識、來源、編制日期、作者、原始HTML文件等屬性信息。根據(jù)上述原理和機(jī)制可以將電力調(diào)度文本信息建立為電力調(diào)度文本知識圖譜,即電力調(diào)度文本語義知識庫。
電力調(diào)度文本知識圖譜采用自底向上的知識圖譜構(gòu)建方法,經(jīng)歷知識來源、知識抽取、知識融合、知識存儲、知識平臺、知識應(yīng)用等步驟,構(gòu)建方案如圖1所示。

圖1 電力調(diào)度文本知識圖譜構(gòu)建方案
首先,收集電力調(diào)度文本和電網(wǎng)模型數(shù)據(jù),然后對電力文本信息進(jìn)行清洗和預(yù)處理,基于正則表達(dá)式識別電力調(diào)度文本信息中檢索關(guān)鍵信息和其對應(yīng)的解釋內(nèi)容,形成“實體-關(guān)系-實體”三元組知識結(jié)構(gòu),通過實體融合后,將其存儲到數(shù)據(jù)庫中,建立電力調(diào)度文本知識圖譜,支撐電力調(diào)度文本信息的語義識別和語義檢索,具體步驟如下:
1)收集調(diào)控中心各系統(tǒng)中電力調(diào)度文本信息以及電網(wǎng)模型數(shù)據(jù)。采用文本填補(bǔ)、歸一化、標(biāo)準(zhǔn)化等方法對調(diào)度文本進(jìn)行預(yù)處理和清洗。
2)識別電力調(diào)度文本實體信息。通過正則表達(dá)式解析電力調(diào)度文本信息結(jié)構(gòu),得到電力調(diào)度文本關(guān)鍵信息及與其對應(yīng)的解釋內(nèi)容。同時根據(jù)調(diào)度經(jīng)驗和規(guī)則構(gòu)建電力調(diào)度專業(yè)術(shù)語庫,對解析后的電力調(diào)度文本關(guān)鍵信息中專業(yè)詞匯進(jìn)行泛化,得到關(guān)鍵信息的泛化表述,提高電力調(diào)度文本信息與待檢索調(diào)度文本關(guān)鍵信息的匹配程度。
3)融合電力調(diào)度文本信息實體知識。采用規(guī)則匹配、相似度計算和人工修正等方法對電力調(diào)度文本信息中含義相同表述不同的顆粒化知識進(jìn)行融合。
4)存儲電力調(diào)度文本信息顆粒化知識。將融合后的電力調(diào)度文本信息依據(jù)“實體-關(guān)系-實體”三元組形式存儲到MongDB數(shù)據(jù)庫中,構(gòu)建出電力調(diào)度文本知識圖譜。
根據(jù)上述步驟構(gòu)建電力調(diào)度文本知識圖譜,所建知識圖譜為待檢索電力調(diào)度文本信息提供語義檢索知識庫,所建部分電力調(diào)度文本知識圖譜如圖2所示。

圖2 部分電力調(diào)度文本知識圖譜
文本相似度計算可以采用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法計算不同的自然語言文本間的相似度,考慮到調(diào)度員在檢索關(guān)鍵信息時,所表達(dá)的問題描述與真實的問題描述間存在差異,因此可以采用文本相似度計算方法,計算待檢索問題在一定范圍內(nèi)的語義表達(dá),從而提升電力調(diào)度文本語義檢索準(zhǔn)確率。電力調(diào)度文本語義檢索采用文本相似度算法計算待檢索信息與電力調(diào)度文本知識圖譜中關(guān)鍵實體的相似度,通過相似度值對待檢索信息進(jìn)行語義識別,將匹配到相似度最高的關(guān)鍵實體對應(yīng)信息答案推薦出來。采用詞頻-逆文件頻率(term frequency-inverse document frequency,TF-IDF)方法生成電力調(diào)度文本特征詞的詞向量,再利用余弦相似度計算各特征詞間相似度。向量余弦值計算表達(dá)式如下:
(1)
式中:Xi表示檢索信息的特征向量;Yi表示電力調(diào)度文本知識圖譜中電力調(diào)度文本信息的特征向量。
通過式(1)可以定量描述待檢索調(diào)度專業(yè)語言文本與電力調(diào)度文本知識圖譜實體信息之間的相似度,通過判別相似度值與設(shè)定閾值間關(guān)系,檢索出知識圖譜相關(guān)內(nèi)容,將相似度值大于閾值所對應(yīng)的電力調(diào)度文本知識圖譜信息作為檢索內(nèi)容。
獲取某區(qū)域電網(wǎng)調(diào)控中心的電力調(diào)度文本作為研究對象,基于正則表達(dá)式識別53篇電力調(diào)度文本中關(guān)鍵檢索信息與其對應(yīng)的檢索內(nèi)容,生成大量的電力調(diào)度文本知識,依據(jù)其內(nèi)在聯(lián)系以“實體-關(guān)系-實體”的知識組合方式構(gòu)建電力調(diào)度文本知識圖譜,其中包含運行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專業(yè)管理規(guī)程和事故應(yīng)急規(guī)程五類知識。
采用規(guī)則和TF-IDF+規(guī)則的檢索方法驗證對電力調(diào)度文本的檢索效果,并對兩種算法的檢索準(zhǔn)確率進(jìn)行統(tǒng)計,見表1。

表1 電力調(diào)度文本檢索效果對比
其中基于規(guī)則的檢索方法是指根據(jù)電力調(diào)度文本特點定義的專業(yè)術(shù)語匹配模式,待檢索問題中含有匹配模式關(guān)鍵詞將會檢索出應(yīng)對的內(nèi)容。基于TF-IDF+規(guī)則的檢索方法是指通過計算待檢索問題詞向量與知識圖譜內(nèi)容的相似度,檢索出對應(yīng)的內(nèi)容,對于語義理解不準(zhǔn)確的,可以通過適當(dāng)?shù)囊?guī)則進(jìn)行提升。
通過對表1數(shù)據(jù)分析,電力調(diào)度文本五類知識的查準(zhǔn)率均在80%以上,其中事故應(yīng)急類知識查準(zhǔn)率在90%以上,檢索效果要遠(yuǎn)優(yōu)于基于規(guī)則的檢索方法,檢索過程耗時小于1 s,具有較高的檢索準(zhǔn)確率和檢索效率,適合實際工程應(yīng)用。
目前文中所提的電力調(diào)度文本檢索方法已經(jīng)在調(diào)控知識庫產(chǎn)品中應(yīng)用,可以部署在智能調(diào)度控制系統(tǒng)、調(diào)控云系統(tǒng)以及正在建設(shè)的新一代調(diào)度技術(shù)支持系統(tǒng)中,同時也封裝了電力調(diào)度文本智能檢索服務(wù),供其他系統(tǒng)應(yīng)用訪問,大幅度提升了電力調(diào)度文本關(guān)鍵信息的檢索準(zhǔn)確率和檢索效率,同時提升了海量電力調(diào)度文本的在線管理能力,為調(diào)度運行知識傳承和共享提供了技術(shù)支撐。
為了提升電力調(diào)度文本的在線應(yīng)用效果和輔助決策能力,提出了基于自然語言處理的電力調(diào)度文本檢索方法。基于正則表達(dá)式識別出電力調(diào)度文本中關(guān)鍵信息與其對應(yīng)的解釋內(nèi)容,采用知識圖譜構(gòu)建方法建立了電力調(diào)度文本知識圖譜。基于TF-IDF方法生成電力調(diào)度文本特征詞的詞向量,通過計算待檢索信息特征向量與電力調(diào)度文本知識圖譜實體特征向量間的相似度值,實現(xiàn)了電力調(diào)度文本信息的檢索。通過某電力調(diào)控中心文本數(shù)據(jù)的驗證,文中所提電力調(diào)度文本檢索方法具有較高的檢索效率和準(zhǔn)確率,工程實用價值較高。