張霞,徐立綱
(國網(wǎng)江蘇省電力有限公司蘇州供電分公司,江蘇 蘇州 215000)
變電站電力設(shè)備的日常巡檢和維護(hù)中,積累了大量關(guān)于設(shè)備檢修記錄和缺陷情況的記錄文本,而在檢修流程和缺陷的分級消缺等處理工作完成后,相應(yīng)的檢修和缺陷記錄往往閑置于系統(tǒng)中。在對變電站檢修的過程中,往往關(guān)注的是檢修工作的分級分類和故障的處理過程,而很少關(guān)注檢修數(shù)據(jù)的整理和歸類,這就造成檢修數(shù)據(jù)的分散、缺漏和數(shù)據(jù)記錄缺乏系統(tǒng)性。這些數(shù)據(jù)的分類和統(tǒng)計(jì)工作,往往是通過人工進(jìn)行的,不僅工作量大,而且耗時(shí)耗力,并且由于統(tǒng)計(jì)人員的經(jīng)驗(yàn)的不同和其他主觀因素,可能會(huì)造成統(tǒng)計(jì)工作的缺乏有效性。因此,需要一個(gè)更系統(tǒng)的方法對變電站檢修歷史數(shù)據(jù)進(jìn)行管理和應(yīng)用。針對這一問題,在變電站檢修系統(tǒng)中引入人工智能、知識圖譜及自然語言等技術(shù),以此構(gòu)建基于檢修歷史數(shù)據(jù)的知識圖譜,實(shí)現(xiàn)對檢修數(shù)據(jù)的整合和梳理,并進(jìn)行處理和分析,從而保證檢修數(shù)據(jù)的規(guī)范化和可視化,提高變電站的檢修效率和運(yùn)行穩(wěn)定性。
目前,在學(xué)術(shù)界對知識圖譜沒有統(tǒng)一的定義。一般來說,知識圖譜是Google公司在2012年提出的一種技術(shù)類型,用來支持從語義角度組織數(shù)據(jù)網(wǎng)絡(luò),從而提供智能搜索服務(wù)的知識庫。
互聯(lián)網(wǎng)中具有海量、復(fù)雜甚至泛濫的數(shù)據(jù),這些信息大多以非結(jié)構(gòu)的形式存儲(chǔ)和傳播,為了讓計(jì)算機(jī)能夠處理這些信息,就需要理解這些非結(jié)構(gòu)化形式數(shù)據(jù)中蘊(yùn)含的語義,分析其中的語義單元之間的關(guān)系,從而轉(zhuǎn)換成結(jié)構(gòu)化形式。圖1是一種能有效表示數(shù)據(jù)之間結(jié)構(gòu)的表達(dá)形式,因此,人們考慮把數(shù)據(jù)中蘊(yùn)含的知識用圖的結(jié)構(gòu)進(jìn)行形式化表示。因此,知識圖譜是一種比較通用的語義知識的形式化描述框架,它用節(jié)點(diǎn)表示語義符號,用邊表示符號之間的語義關(guān)系。
具體來說,知識圖譜以結(jié)構(gòu)化三元組的形式存儲(chǔ)現(xiàn)實(shí)世界中的實(shí)體以及實(shí)體之間的關(guān)系,表示為{實(shí)體,關(guān)系,實(shí)體}。三元組通常描述了一個(gè)特定領(lǐng)域中的事實(shí),由頭實(shí)體、尾實(shí)體和描述這兩個(gè)實(shí)體的關(guān)系組成。例如,{部件,出現(xiàn),缺陷},其中頭實(shí)體是“部件”,尾實(shí)體是“缺陷”,關(guān)系是“出現(xiàn)”。有時(shí),“關(guān)系”也被稱為“屬性”,相應(yīng)地,尾實(shí)體被稱為屬性值。不同的實(shí)體和屬性之間具有不同的關(guān)系,通過相互聯(lián)結(jié)的方式,形成網(wǎng)狀的知識圖譜。
知識圖譜的構(gòu)建通常分為知識抽取、知識融合、知識表示、質(zhì)量評估和知識推理五個(gè)部分,構(gòu)建流程如圖1所示。

圖1 知識圖譜構(gòu)建流程
一般情況下,電力系統(tǒng)知識圖譜構(gòu)建的方法分為三種:自頂向下(top-down)、自底向上(bottom-up)和混合法。自頂向下的方法是一種從抽象到具體的方法,是從現(xiàn)有概念到具體數(shù)據(jù)實(shí)現(xiàn)的構(gòu)建過程。自底向上的方法正好相反,是一種從具體到抽象的方法,是從具體數(shù)據(jù)實(shí)現(xiàn)抽象到概念規(guī)則的構(gòu)建過程?;旌戏ň褪亲皂斚蛳潞妥缘紫蛏蟽煞N方法的混合,相較單一的構(gòu)建方法更為復(fù)雜。本文所采用的檢修譜圖構(gòu)建方法為自底向上構(gòu)建法,即從具體數(shù)據(jù)到抽象概念規(guī)則。
電力設(shè)備檢修記錄通常以單個(gè)句子的形式存在,一般都以自然語言記錄缺陷的設(shè)備部件、現(xiàn)象、程度等內(nèi)容。由于在設(shè)備檢修具有自身的特點(diǎn),因此,在構(gòu)建檢修知識圖譜時(shí),要注意以下幾點(diǎn)具體要求:
(1)在電力設(shè)備檢修記錄中,缺陷現(xiàn)象作為缺陷部件的屬性,本身還具有缺陷程度等屬性,故除抽取實(shí)體間及實(shí)體與屬性的關(guān)系外,還要抽取屬性間關(guān)系。
(2)本文構(gòu)建的知識圖譜僅限于電力系統(tǒng)的檢修領(lǐng)域,該領(lǐng)域是一個(gè)封閉的領(lǐng)域且有明確的行業(yè)術(shù)語規(guī)范,因此,相對于開放領(lǐng)域而言,檢修知識圖譜的實(shí)體消解和共指消解相對較簡單。
(3)根據(jù)從結(jié)構(gòu)化數(shù)據(jù)中抽取的實(shí)體、關(guān)系、屬性,作為抽取三元組的樣本,以充分利用結(jié)構(gòu)化數(shù)據(jù)。
(4)知識融合步驟將從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中形成的三元組,與從結(jié)構(gòu)化數(shù)據(jù)中形成的三元組相整合,形成可視化的電力設(shè)備檢修數(shù)據(jù)知識圖譜。
本文構(gòu)建電力系統(tǒng)檢修圖譜的環(huán)節(jié)包括知識抽取、知識融合和知識表示三個(gè)環(huán)節(jié)。知識抽取就是在電力行業(yè)特定環(huán)節(jié)的文本語料中抽取實(shí)體、關(guān)系和屬性,并將其以{實(shí)體,關(guān)系,實(shí)體}或{實(shí)體,屬性,屬性值}的形式存儲(chǔ)。由于抽取后的知識是分散的和缺乏邏輯性的,因此,需要將抽取自不同數(shù)據(jù)源的知識進(jìn)行融合。最后,就是將融合后的知識按照電力行業(yè)的知識結(jié)構(gòu)和人的思維方式表示為特定的機(jī)器可處理的形式。
同互聯(lián)網(wǎng)一樣,電力系統(tǒng)中的數(shù)據(jù)也是繁多且復(fù)雜的,來源也是多種多樣。因此,有必要對構(gòu)建檢修圖譜的數(shù)據(jù)來源作出說明。
電力系統(tǒng)維護(hù)檢修數(shù)據(jù)從數(shù)據(jù)的規(guī)范程度,從高到低可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
結(jié)構(gòu)化數(shù)據(jù)一般存儲(chǔ)于系統(tǒng)的數(shù)據(jù)庫中,如變電設(shè)備缺陷管理數(shù)據(jù)庫、設(shè)備運(yùn)行數(shù)據(jù)庫以及檢修計(jì)劃管理數(shù)據(jù)庫等。半結(jié)構(gòu)化數(shù)據(jù)是指在一定程度上具有某種特征的數(shù)據(jù),如檢修工作計(jì)劃、評價(jià)報(bào)告、年報(bào)月報(bào)等。非結(jié)構(gòu)化數(shù)據(jù)是指符合自然語言規(guī)范的文本數(shù)據(jù),如設(shè)備檢修記錄和缺陷情況的記錄文本等,變電站檢修數(shù)據(jù)多數(shù)來源于這種非結(jié)構(gòu)化數(shù)據(jù)。由于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存在表述不規(guī)范和句法結(jié)構(gòu)復(fù)雜等一系列問題,因此,不能像結(jié)構(gòu)化數(shù)據(jù)那樣直接應(yīng)用于知識圖譜的構(gòu)建。因此,需要對其應(yīng)用自然語言處理(natural language processing,NLP)等技術(shù),進(jìn)行分詞、實(shí)體提取、實(shí)體消解、共指消解等操作。
構(gòu)建電力系統(tǒng)的檢修圖譜的第一步就是要在檢修記錄和缺陷情況記錄文本中抽取實(shí)體、關(guān)系和屬性。常見的實(shí)體/屬性抽取方法有隱馬爾可夫模型和BILSTM模型等。由于是在電力行業(yè)特定的檢修領(lǐng)域中,因此可直接采用電力專業(yè)詞典進(jìn)行抽取和匹配。
根據(jù)對電力專業(yè)詞典和缺陷記錄的匹配,本文共確定了8個(gè)實(shí)體、7種關(guān)系和12個(gè)屬性。檢修圖譜中的實(shí)體是指知識庫中所需要的不同的概念類別,包括設(shè)備、部件、缺陷、現(xiàn)象、原因、缺陷等級、解決方案和責(zé)任單位。關(guān)系是指實(shí)體之間的關(guān)系,包括包含、出現(xiàn)、描述、診斷、程度、措施和對應(yīng)。而屬性是實(shí)體自身所擁有的特征,不同實(shí)體可以具有相同的特征,也可以具有不同的特征,包括編號、名稱、類型、措施、故障等級、監(jiān)測方法、狀態(tài)、告警、時(shí)間、維修人員、維修活動(dòng)和位置。將實(shí)體、關(guān)系和屬性以三元組的形式存儲(chǔ),如{一次設(shè)備,包含,電子式互感器}、{合并單元,出現(xiàn),缺陷}。
在對不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行知識抽取后,可能會(huì)存在重疊現(xiàn)象,為保證所獲得知識的質(zhì)量,需要進(jìn)行實(shí)體消解和共指消解。由于本文構(gòu)建的知識圖譜僅限于電力系統(tǒng)的檢修領(lǐng)域,該領(lǐng)域是一個(gè)封閉的領(lǐng)域且有明確的行業(yè)術(shù)語規(guī)范,因此,實(shí)體消解指將具有同義屬性的實(shí)體消解為一個(gè)權(quán)重較大的實(shí)體。例如,“缺陷”“故障”“漏洞”在表示“設(shè)備狀態(tài)”時(shí),實(shí)際上表示的是同一個(gè)意思。因此,可以對各個(gè)實(shí)體設(shè)置一個(gè)權(quán)重,利用How Net知識庫計(jì)算實(shí)體對的相似度,實(shí)現(xiàn)知識的融合。
構(gòu)建電力系統(tǒng)檢修知識圖譜的主要目的就是利用節(jié)點(diǎn)和邊的形式,實(shí)現(xiàn)檢修知識的可視化。本文以8個(gè)實(shí)體為主要節(jié)點(diǎn),通過7種關(guān)系將它們相連,在將每個(gè)實(shí)體的屬性擴(kuò)展到圖上,實(shí)現(xiàn)可視化的網(wǎng)狀檢修圖譜。圖2是檢修圖譜的實(shí)體關(guān)系圖,再將各個(gè)實(shí)體的屬性添加上去,將是一個(gè)巨大的網(wǎng)狀圖。

圖2 檢修圖譜的實(shí)體關(guān)系圖
本文根據(jù)變電站檢修的特點(diǎn),結(jié)合人工智能中的知識圖譜技術(shù),構(gòu)建了變電站檢修知識圖譜。這只是變電站檢修數(shù)據(jù)治理的理論工作的第一步,還需要對檢修圖譜在檢修記錄檢索和缺陷記錄檢索等方面的應(yīng)用做進(jìn)一步的探索,以真正實(shí)現(xiàn)變電站檢修工作的數(shù)字化、智能化管理。
