999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于擴(kuò)展Span表示的電力變壓器運(yùn)維知識抽取與知識圖譜構(gòu)建

2023-09-27 01:38:04牛增賢劉海峰徐偉峰王洪濤
關(guān)鍵詞:變壓器特征文本

牛增賢, 劉海峰, 徐偉峰, 李 剛,2, 謝 慶, 王洪濤,2

(1. 華北電力大學(xué) 計(jì)算機(jī)系, 河北 保定 071003;2. 華北電力大學(xué) 復(fù)雜能源系統(tǒng)智能計(jì)算教育部工程研究中心, 河北 保定 071003;3. 華北電力大學(xué) 電力工程系, 河北 保定 071003)

變壓器作為電力能源輸送的重要中間節(jié)點(diǎn), 其健康情況直接影響整個電力系統(tǒng)的安全運(yùn)行[1-2]. 目前, 變壓器的運(yùn)維工作主要依賴于技術(shù)和管理人員的知識與經(jīng)驗(yàn), 需要工作人員熟悉變壓器運(yùn)維知識, 并對變壓器運(yùn)維的歷史數(shù)據(jù)進(jìn)行查閱、 分類和統(tǒng)計(jì). 該方法工作量大、 知識提取效率低, 且易產(chǎn)生疏忽和遺漏[3]. 雖然通過關(guān)鍵詞在傳統(tǒng)數(shù)據(jù)庫中進(jìn)行檢索的方法能提高知識提取的效率, 但傳統(tǒng)數(shù)據(jù)庫建模不靈活, 很難適用于復(fù)雜多變的變壓器運(yùn)維場景[4]. 隨著電網(wǎng)規(guī)模的不斷擴(kuò)大, 變壓器運(yùn)維工作具有數(shù)量大、 類型多、 處置難、 響應(yīng)慢等特點(diǎn), 僅靠人工積累和傳統(tǒng)數(shù)據(jù)庫檢索的方法提取可用知識效率低, 難以實(shí)現(xiàn)大量變壓器的快速有效運(yùn)維[5]. 因此, 電力系統(tǒng)亟需智能化技術(shù)提高知識提取的效率, 從而形成專業(yè)的變壓器運(yùn)維知識庫, 支撐變壓器的快速精準(zhǔn)運(yùn)維.

知識圖譜(knowledge graph)是一種將實(shí)體和屬性通過關(guān)系聯(lián)結(jié)在一起的語義網(wǎng)絡(luò)知識庫. 知識圖譜以形式化、 簡潔化的方式表示知識, 表示方式一般為〈頭實(shí)體,關(guān)系,尾實(shí)體〉[6-7]. 與傳統(tǒng)數(shù)據(jù)庫相比, 知識圖譜的知識表達(dá)形式簡潔直觀, 能有效組織復(fù)雜多樣的知識. 構(gòu)建電力變壓器運(yùn)維知識圖譜, 一方面能充分挖掘和沉淀變壓器運(yùn)維中的知識, 另一方面可為變壓器健康管理輔助決策、 變壓器缺陷故障分析等場景提供支持.

近年來, 知識圖譜在電力領(lǐng)域的應(yīng)用逐漸增多. 例如: 文獻(xiàn)[8]提出了一種電力設(shè)備知識圖譜, 用于避免電力設(shè)備信息丟失, 提高數(shù)據(jù)儲存和提取的效率; 文獻(xiàn)[9]提出了知識圖譜在設(shè)備健康管理中的應(yīng)用場景, 并分析了當(dāng)前電力領(lǐng)域?qū)χR圖譜技術(shù)的需求; 文獻(xiàn)[10]利用缺陷記錄實(shí)現(xiàn)了電力設(shè)備缺陷知識圖譜; 文獻(xiàn)[11]完成了電網(wǎng)故障處置知識圖譜的構(gòu)建, 并進(jìn)行了可視化. 雖然近幾年知識圖譜技術(shù)在電力領(lǐng)域中的應(yīng)用得到快速發(fā)展, 但這些知識圖譜中涉及到變壓器信息的節(jié)點(diǎn)數(shù)量較少, 變壓器運(yùn)維知識不全面, 尚未形成用于變壓器運(yùn)維的專業(yè)知識圖譜.

本文以電力變壓器為核心設(shè)備, 擬基于變壓器運(yùn)維文本數(shù)據(jù), 提出一個電力變壓器運(yùn)維知識圖譜的構(gòu)建框架. 首先, 根據(jù)專家經(jīng)驗(yàn)建立電力變壓器運(yùn)維知識圖譜模式層; 其次, 為解決變壓器運(yùn)維文本的實(shí)體界限模糊和語義信息理解不充分問題, 提出一種基于擴(kuò)展Span表示的深度神經(jīng)網(wǎng)絡(luò)知識抽取框架, 其中Span指句中跨度為n的某個片段, 如某句出現(xiàn)的“2號變”即為跨度為3的Span; 最后, 使用特征匹配和深度模型相融合的方法抽取實(shí)體和關(guān)系, 創(chuàng)建電力變壓器運(yùn)維知識圖譜數(shù)據(jù)層.

1 變壓器運(yùn)維文本

1.1 電力變壓器運(yùn)維文本類型

在變壓器日常運(yùn)行和維護(hù)的過程中, 工作人員積累了大量變壓器運(yùn)維相關(guān)的文本資料, 統(tǒng)稱為變壓器運(yùn)維文本. 變壓器運(yùn)維文本蘊(yùn)含著與變壓器最密切的信息, 如變壓器故障現(xiàn)象和設(shè)備質(zhì)量狀況等, 這些信息為工作人員的變壓器運(yùn)維工作提供了幫助. 變壓器運(yùn)維文本示例列于表1. 由表1可見, 變壓器運(yùn)維文本類型包括變壓器設(shè)備事故調(diào)查報告書、 設(shè)備異常分析報告等. 這些文本都是對某地區(qū)某一變壓器故障的詳細(xì)記錄, 包含變壓器、 變電站以及故障等信息.

表1 變壓器運(yùn)維文本示例Table 1 Examples of transformer operation and maintenance text

1.2 電力變壓器運(yùn)維文本的特點(diǎn)

通過對大量實(shí)際變壓器運(yùn)維文本的分析發(fā)現(xiàn), 變壓器運(yùn)維文本內(nèi)容豐富、 語義復(fù)雜, 給提取變壓器運(yùn)維知識帶來了挑戰(zhàn). 此外, 由于人為記錄的主觀性, 不同變壓器運(yùn)維文本的側(cè)重點(diǎn)也不同. 變壓器運(yùn)維文本具有以下特點(diǎn):

1) 變壓器運(yùn)維文本種類多, 文本內(nèi)容差異大, 不同類型的變壓器都會發(fā)生局部放電故障, 但由于變壓器種類和處理人員不同, 變壓器運(yùn)維文本的格式和處置方式的描述也不同;

2) 變壓器運(yùn)維文本的專業(yè)性強(qiáng), 描述清晰, 變壓器運(yùn)維文本包含大量專有名詞和專業(yè)術(shù)語, 如變壓器的型號、 故障的類型等, 都有詳細(xì)清晰的記錄;

3) 變壓器運(yùn)維文本中實(shí)體之間邊界模糊, 如“某變電站2號變局部放電故障”, 這句話包含“某變電站”、 “2號變”和“局部放電”3個實(shí)體, 且它們之間無明顯邊界詞.

本文在構(gòu)建變壓器運(yùn)維知識圖譜時, 充分考慮了上述文本特點(diǎn), 提出一種融合特征匹配和深度學(xué)習(xí)的知識抽取方法. 對特征明顯的知識, 使用特征匹配方法; 對無明顯特征的知識, 使用深度學(xué)習(xí)方法.

2 變壓器運(yùn)維知識圖譜構(gòu)建

知識圖譜可分為兩類: 領(lǐng)域知識圖譜和不限領(lǐng)域知識圖譜(通用知識圖譜)[12]. 領(lǐng)域知識圖譜面向某一領(lǐng)域, 例如醫(yī)療領(lǐng)域知識圖譜等, 是由某一領(lǐng)域?qū)I(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識庫. 不限領(lǐng)域知識圖譜面向各行各業(yè), 覆蓋面廣, 但對知識的準(zhǔn)確度要求較低, 常見的通用知識圖譜有DBpedia[13]和YAGO[14]等. 本文面向電力領(lǐng)域, 從本體設(shè)計(jì)、 模式層和數(shù)據(jù)層3個方面構(gòu)建電力變壓器運(yùn)維知識圖譜.

2.1 本體設(shè)計(jì)

領(lǐng)域知識圖譜的本體設(shè)計(jì)方法有自頂向下式、 自底向上式和混合式[15]3種. 自頂向下式能清晰地展現(xiàn)概念間的層級關(guān)系, 但人工依賴性強(qiáng), 數(shù)據(jù)質(zhì)量要求高; 自底向上式數(shù)據(jù)質(zhì)量要求較低, 適合大型知識圖譜的構(gòu)建, 但抽取到的知識噪聲較大、 準(zhǔn)確性不高; 混合式是前兩種方式的結(jié)合, 融合了這兩種方式的優(yōu)點(diǎn), 先依靠專家指導(dǎo)進(jìn)行知識圖譜的模式層構(gòu)建, 再通過知識抽取建立知識圖譜的數(shù)據(jù)層.

本文采用混合方式對電力變壓器運(yùn)維知識圖譜進(jìn)行構(gòu)建, 如圖1所示. 首先, 采用自頂向下式的構(gòu)建方法, 建立變壓器運(yùn)維的本體概念以及本體之間的關(guān)系, 完成電力變壓器運(yùn)維知識圖譜的模式層構(gòu)建. 其次, 為確保知識圖譜的完備性, 采用自底向上式的構(gòu)建方法, 對變壓器運(yùn)維文本進(jìn)行實(shí)體、 關(guān)系和屬性的抽取, 完成電力變壓器運(yùn)維知識圖譜的數(shù)據(jù)層構(gòu)建; 同時, 對抽取結(jié)果進(jìn)行歸納總結(jié), 將歸納總結(jié)出的概念映射補(bǔ)充到知識圖譜模式層中. 最后, 將構(gòu)建好的概念層與數(shù)據(jù)層知識圖譜存儲到Neo4j圖數(shù)據(jù)庫中, 完成電力變壓器運(yùn)維知識圖譜的構(gòu)建.

圖1 電力變壓器運(yùn)維知識圖譜構(gòu)建框架Fig.1 Construction framework of power transformer operation and maintenance knowledge graph

2.2 模式層構(gòu)建

模式層建立在數(shù)據(jù)層之上, 描述了實(shí)體關(guān)系和屬性關(guān)系. 本文根據(jù)電力專家的指導(dǎo)創(chuàng)建了電力變壓器運(yùn)維知識圖譜的模式層, 如圖2所示. 首先, 變壓器是本文構(gòu)建的知識圖譜中最核心的本體, 且變壓器在概念上屬于變電設(shè)備, 故定義了變壓器和變電設(shè)備本體. 其次, 為了解變壓器內(nèi)部構(gòu)件、 歷史發(fā)生故障等信息, 針對變壓器定義了部件、 故障等本體. 此外, 由于變壓器歷史故障現(xiàn)象以及故障處置方法等信息可有效輔助工作人員對變壓器故障進(jìn)行診斷, 故針對變壓器的故障定義了故障類別、 故障等級和處置措施等本體.

2.3 數(shù)據(jù)層構(gòu)建

2.3.1 數(shù)據(jù)層知識抽取框架

電力領(lǐng)域的知識抽取一般采用基于規(guī)則的方法, 通過電力專家制定規(guī)則和模板完成對模式相對固定知識的抽取[16]. 這種方法相對簡單, 對模式固定的語句抽取準(zhǔn)確率高, 缺點(diǎn)是靈活性較低, 難以適應(yīng)具有豐富語義的場景. 目前, 基于深度學(xué)習(xí)的方法已成功應(yīng)用于知識抽取問題, 并取得了很好的效果. 這種方法對專家的依賴較低, 且靈活性高.

圖3 融合規(guī)則和深度學(xué)習(xí)的知識抽取框架Fig.3 Knowledge extraction framework of fusion rules and deep learning

2.3.2 基于特征匹配的實(shí)體抽取技術(shù)

變壓器運(yùn)維文本中對于發(fā)生故障時的天氣狀況以及故障處置措施描述非常詳細(xì). 基于特征匹配抽取的實(shí)體類別和示例列于表2.

表2 基于特征匹配抽取的實(shí)體類別和示例Table 2 Entity types and examples based on feature matching extraction

由表2可見, 這兩類實(shí)體內(nèi)容廣、 字符跨度大, 深度學(xué)習(xí)方法很難捕捉實(shí)體特征, 但句式和位置相對固定, 特征明顯. 如表2中天氣實(shí)體, 有明顯實(shí)體觸發(fā)詞位于最后位置, 且存在固定單位, 使用特征匹配方法能準(zhǔn)確匹配到該實(shí)體信息.

特征匹配是指通過特征模板與文本內(nèi)容的比較, 找到文本內(nèi)容與模板相匹配的部分. 特征匹配實(shí)體抽取流程如圖4所示. 以表2中的天氣實(shí)體為例, 實(shí)體觸發(fā)詞設(shè)為“氣象條件”. 輸入文本, 發(fā)現(xiàn)文本存在“氣象條件”觸發(fā)詞; 然后鎖定觸發(fā)詞所在句, 即為表2中示例句; 通過正則表達(dá)式: “re.findall(‘(氣溫.+?℃)’, 示例句)、 re.findall(‘(濕度.+? %)’, 示例句)、 re.findall(‘(風(fēng)速.+?級)’, 示例句)”對示例句進(jìn)行特征匹配, 最后將結(jié)果拼接在一起, 完成對天氣實(shí)體的抽取. 人工記錄具有主觀性, 特征匹配的方法有時不能或不能完整地抽取知識, 所以特征匹配的模板需要定期更新. 對于不能抽取知識的情形, 由專家分析該類變壓器運(yùn)維文本, 并進(jìn)行觸發(fā)詞的更新; 對于不能完整抽取的情形, 本文將已抽取結(jié)果與原文實(shí)體所在句進(jìn)行余弦相似度匹配判斷抽取是否完整, 根據(jù)實(shí)體情形設(shè)置不同的閾值. 若匹配結(jié)果大于閾值, 則無需更新; 若匹配結(jié)果小于閾值, 則人工進(jìn)行正則表達(dá)式的更新.

圖4 基于特征匹配的實(shí)體抽取流程Fig.4 Flow chart of entity extraction based on feature matching

關(guān)系匹配技術(shù)僅用于抽取表2中兩類實(shí)體的關(guān)系, 這兩類實(shí)體通常是一段話, 使用深度學(xué)習(xí)模型抽取關(guān)系很難提取實(shí)體之間的依賴關(guān)系, 故使用關(guān)系匹配. 關(guān)系匹配將實(shí)體類型與預(yù)設(shè)關(guān)系三元組進(jìn)行匹配, 圖2中所有的邊及邊的兩個端點(diǎn)作為預(yù)設(shè)關(guān)系三元組. 如特征匹配出實(shí)體的類型是處置措施, 關(guān)系匹配后發(fā)現(xiàn)處置措施只與故障有關(guān)系, 且變壓器運(yùn)維文本通常只針對某變壓器的某一具體故障, 故處置措施與實(shí)體抽取出的故障實(shí)體建立關(guān)系.

2.3.3 基于擴(kuò)展Span表示的實(shí)體抽取技術(shù)

實(shí)體抽取也稱為命名實(shí)體識別(named entity recognition, NER), 基于深度學(xué)習(xí)的實(shí)體抽取方法主要抽取變壓器、 部件等實(shí)體, 其實(shí)體類型列于表3. 由表3可見, 這些實(shí)體成分復(fù)雜、 出現(xiàn)頻率高、 位置不固定, 基于特征匹配的方法很難靈活地抽取實(shí)體. 深度學(xué)習(xí)方法可以自動學(xué)習(xí)特征, 具有較強(qiáng)的靈活性. 但將深度學(xué)習(xí)應(yīng)用到變壓器運(yùn)維文本, 仍存在實(shí)體界限模糊和語義信息理解不充分的問題.

在諾內(nèi)特看來,“如果統(tǒng)治政權(quán)傾向于不顧被統(tǒng)治者的利益或者否認(rèn)它們的正統(tǒng)性,那么它就是壓制性的。”[2]因?yàn)椋谶@種法制模式下,最受關(guān)注的是權(quán)力的權(quán)威性及其形成的統(tǒng)治、管理秩序,為了實(shí)現(xiàn)這種秩序性核心價值,“刑法是法律官員關(guān)注的中心,是表現(xiàn)法律權(quán)威的典型方法。”[2]整體來看,中國古代歷朝法制狀況均系“言法必刑”“以刑為主”,由于其固有的強(qiáng)大威懾性,刑法成為治理手段的首選,其他的社會規(guī)范則退居其后,以致長期形成了社會治理刑法化的路徑依賴。

表3 基于深度學(xué)習(xí)抽取的實(shí)體類型和示例Table 3 Entity types and examples extracted by deep learning

為解決變壓器運(yùn)維文本的實(shí)體界限模糊和語義信息理解不充分問題, 本文提出一種使用擴(kuò)展上下文信息和BERT[17]預(yù)訓(xùn)練模型獲取擴(kuò)展Span表示的方法, 分別實(shí)現(xiàn)實(shí)體和關(guān)系抽取.

BERT預(yù)訓(xùn)練模型是一種帶有掩碼的語言模型, 通過在海量語料庫上的學(xué)習(xí)可生成單詞的特征表示, 提升下游任務(wù)的性能. 針對實(shí)體界限模糊問題, 模型對輸入進(jìn)行改進(jìn): 在訓(xùn)練時, 根據(jù)實(shí)體的位置標(biāo)注, 將每個實(shí)體的實(shí)體類型插入到原始句子中. 例如“2號變發(fā)生故障”, “2號變”為變壓器實(shí)體類型, 改進(jìn)后的句子為“〈e: 變壓器〉2號變〈/e: 變壓器〉發(fā)生故障”. 這種方法可以明確實(shí)體界限, 使模型更好學(xué)習(xí)實(shí)體的特征. 模型只學(xué)習(xí)本句信息, 可能會忽略上下文的聯(lián)系, 導(dǎo)致語義信息理解不充分. 如圖5所示, 若只輸入本句信息, 模型會很難理解2號變究竟發(fā)生了哪個具體故障, 難以建立2號變與具體故障等信息之間的依賴關(guān)系, 導(dǎo)致模型不能完整地捕獲2號變的語義特征. 針對語義信息理解不充分的問題, 模型采用合并句子上下文方式構(gòu)建更好的上下文表示: 設(shè)定擴(kuò)充上下文大小為N, 在輸入句前填充N/2個字的前文信息, 在句后添加N/2個字的下文信息.

本文采用Span-level NER[18]的方式標(biāo)注數(shù)據(jù). 基于擴(kuò)展Span表示的實(shí)體抽取模型結(jié)構(gòu)如圖5所示, 由預(yù)訓(xùn)練語言模型BERT以及帶有ReLU激活函數(shù)的兩層前向神經(jīng)網(wǎng)絡(luò)組成. 首先, 通過BERT獲得輸入句子中每個字的上下文表示Ht, 其中Et是每個字的字向量、 句子向量和位置向量之和.然后, 設(shè)置Span跨度, 以該跨度枚舉所有Span標(biāo)簽. 如圖5中, 若Span跨度設(shè)為3, “2號變”即有“2”、“2號”、“2號變”等多個Span, 且每個Span均為候選實(shí)體. 每個Span表示為

he(si)=(XSTART(i),XEND(i),Φ(si)),

(1)

其中:XSTART(i)為Span開始位置的上下文表示, 對應(yīng)圖5中綠點(diǎn);XEND(i)為Span結(jié)束位置的上下文表示, 對應(yīng)圖5中的紫點(diǎn);Φ(si)為Span跨度的特征表示, 對應(yīng)圖5中黃點(diǎn). Span跨度指包含字符的數(shù)目, 如“2”的跨度為1, “2號變”的跨度為3. 最后, 通過預(yù)測實(shí)體為類型的概率:

Pe(e|si)=Softmax[FFNN(he(si))],

(2)

其中FFNN[19]為帶有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò).

2.3.4 基于擴(kuò)展Span表示的關(guān)系抽取技術(shù)

屬性抽取和關(guān)系抽取本質(zhì)上都是抽取兩個實(shí)體之間的關(guān)系, 故本文采用統(tǒng)一的抽取方法. 實(shí)體間關(guān)系抽取(relation extraction, RE)依賴于實(shí)體抽取的結(jié)果, 兩個抽取任務(wù)相互獨(dú)立, 可以更好地學(xué)習(xí)特定任務(wù)的特征. 關(guān)系抽取仍采用基于擴(kuò)展Span表示的方法, 變壓器運(yùn)維文本中實(shí)體間的關(guān)系類型列于表4.

表4 基于深度學(xué)習(xí)抽取的關(guān)系類型Table 4 Relation types extracted by deep learning

基于擴(kuò)展Span表示的關(guān)系抽取模型結(jié)構(gòu)為: 首先, 實(shí)體邊界以及類型作為標(biāo)識符被加入到實(shí)體Span前后, 作為關(guān)系模型的輸入, 表示為

S=…〈S:ei〉,ESTART(i),…,EEND(i),〈/S:ei〉…〈O:ej〉,ESTART(j),…,EEND(j),〈/O:ej〉…,

(3)

其中〈S:ei〉表示頭實(shí)體開始位置, 〈/S:ei〉表示頭實(shí)體結(jié)束位置, 〈O:ej〉表示尾實(shí)體開始位置, 〈/O:ej〉表示尾實(shí)體結(jié)束位置; 其次, 通過BERT模型獲得填充后的實(shí)體對之間的Span表示為

hr(si,sj)=(ESTART(i),ESTART(j)),

(4)

其中ESTART(i)為頭實(shí)體開始位置的向量表示,ESTART(j)為尾實(shí)體開始位置的向量表示; 最后, 預(yù)測兩個實(shí)體之間最可能的關(guān)系為

Pr(r|si,sj)=Softmax[FFNN(hr(si,sj))].

(5)

基于擴(kuò)展Span表示的關(guān)系抽取模型利用實(shí)體模型的抽取結(jié)果以及關(guān)系標(biāo)簽信息進(jìn)行訓(xùn)練, 最終完成關(guān)系抽取任務(wù).

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)計(jì)

本文選取240份變壓器運(yùn)維文本作為變壓器運(yùn)維文本數(shù)據(jù)集. 變壓器運(yùn)維文本數(shù)據(jù)集主要來源于變壓器現(xiàn)場故障分析報告、 異常檢測報告等半結(jié)構(gòu)化文本, 其中變壓器的故障分析報告約占70%. 運(yùn)維文本的內(nèi)容包括變壓器的屬性、 變壓器故障運(yùn)維方案等, 涵蓋了電力變壓器領(lǐng)域大部分的故障類型、 故障診斷方法以及熱點(diǎn)研究內(nèi)容.

數(shù)據(jù)集經(jīng)過人工標(biāo)注后, 按8∶1∶1隨機(jī)劃分為訓(xùn)練集、 驗(yàn)證集和測試集. 表5列出了變壓器運(yùn)維文本數(shù)據(jù)集的句子統(tǒng)計(jì)數(shù)據(jù). 本文選取標(biāo)準(zhǔn)的評價方法, 模型評價指標(biāo)為準(zhǔn)確率(P)、 召回率(R)和F1值[20]. 對于實(shí)體抽取任務(wù), 如果一個實(shí)體邊界和類型的預(yù)測值與標(biāo)注信息相同, 則認(rèn)為該預(yù)測是正確的; 對于關(guān)系抽取任務(wù), 如果兩個實(shí)體邊界的預(yù)測值與關(guān)系類型的預(yù)測值均與標(biāo)注信息相同, 則認(rèn)為該關(guān)系預(yù)測正確.

表5 數(shù)據(jù)集統(tǒng)計(jì)信息Table 5 Statistical information of datasets

3.2 變壓器運(yùn)維文本實(shí)驗(yàn)與分析

實(shí)驗(yàn)數(shù)據(jù)集為本文構(gòu)建的變壓器運(yùn)維文本數(shù)據(jù)集, 實(shí)驗(yàn)環(huán)境為Visual Studio Code, 深度學(xué)習(xí)框架版本為Pytorch 1.4.0, Transformers 3.0.2, Python版本為3.7, 顯卡為Tesla K80.

3.2.1 基于特征匹配的實(shí)體抽取實(shí)驗(yàn)與分析

基于特征匹配的實(shí)體抽取方法用于抽取天氣和處置措施兩類實(shí)體, 兩類實(shí)體的最初觸發(fā)詞設(shè)置及實(shí)驗(yàn)結(jié)果列于表6, 關(guān)系匹配結(jié)果列于表7.

表6 基于特征匹配的實(shí)體抽取實(shí)驗(yàn)結(jié)果Table 6 Experimental results of entity extraction based on feature matching

表7 關(guān)系匹配實(shí)驗(yàn)結(jié)果Table 7 Experimental results of relationship matching

由表6可見, 天氣和處置措施的召回率偏低. 這是因?yàn)槿藶橛涗浘哂兄饔^性, 工作人員對變壓器運(yùn)維的描述存在差異. 例如, 對于天氣實(shí)體, 有些變壓器運(yùn)維文本存在定義的天氣實(shí)體觸發(fā)詞, 從而有利于匹配; 但有些文本中不存在定義的觸發(fā)詞, 特征匹配的方法就不能匹配到天氣信息. 此外, 實(shí)體觸發(fā)詞可能與其他信息相關(guān), 影響了抽取準(zhǔn)確率. 例如, “處置”是處置措施實(shí)體的觸發(fā)詞, 但在一些變壓器運(yùn)維文本中, “處置”一詞出現(xiàn)在變壓器部件處置情況中. 但本文基于特征匹配的實(shí)體抽取方法所用的正則表達(dá)式和觸發(fā)詞是不斷更新的, 為匹配效果的提升提供了支撐. 而關(guān)系匹配的準(zhǔn)確率依賴于天氣、 處置措施和故障3個實(shí)體是否能被準(zhǔn)確識別, 任一實(shí)體識別失敗, 都會降低某關(guān)系抽取的準(zhǔn)確度.

3.2.2 基于擴(kuò)展Span表示的實(shí)體抽取實(shí)驗(yàn)

本文基于所構(gòu)建的數(shù)據(jù)集驗(yàn)證所提方法在實(shí)體抽取上的性能, 參數(shù)設(shè)置列于表8. 基于擴(kuò)展Span表示的實(shí)體抽取模型(Extended Span)對比實(shí)驗(yàn)?zāi)P瓦x擇隱Markov模型(HMM)以及深度學(xué)習(xí)模型: BiLSTM和BiLSTM+CRF. 本文設(shè)置上下文數(shù)量N=100, 實(shí)驗(yàn)結(jié)果列于表9.

表8 實(shí)體抽取模型參數(shù)設(shè)置Table 8 Parameters setting of entity extraction model

表9 實(shí)體抽取實(shí)驗(yàn)結(jié)果Table 9 Experimental results of entity extraction

變壓器運(yùn)維文本具有描述清晰和流程性強(qiáng)的特點(diǎn), 為知識抽取任務(wù)帶來了幫助. 由表9可見, 各模型的實(shí)驗(yàn)結(jié)果均在80%以上. 其中, Extended Span模型通過跨句信息的幫助取得了最優(yōu). HMM主要學(xué)習(xí)了電力數(shù)據(jù)集的初始狀態(tài)分布, 當(dāng)文本的描述發(fā)生變化時, 會導(dǎo)致預(yù)測精度降低. 雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)具有一定的非線性擬合能力, 可以從前后兩個方向?qū)渥舆M(jìn)行建模, 捕獲長距離上下文信息, 自然語言處理(CRF)可對BiLSTM預(yù)測結(jié)果進(jìn)行優(yōu)化, 輔助提高預(yù)測精度. 與Extended Span模型相比, 對比模型的輸入沒有經(jīng)過預(yù)訓(xùn)練語言模型, 所以詞向量表示的質(zhì)量可能會下降, 影響了后續(xù)訓(xùn)練. 此外, 變壓器運(yùn)維文本數(shù)據(jù)集存在實(shí)體界限模糊的現(xiàn)象, 導(dǎo)致對比模型難以準(zhǔn)確捕獲不同實(shí)體的特征. 與對比模型相比, Extended Span模型由預(yù)訓(xùn)練模型(BERT)作為編碼器, 為模型的訓(xùn)練提供了較準(zhǔn)確的詞向量表示.

Extended Span模型通過添加實(shí)體標(biāo)簽以及合并句子上下文方式進(jìn)行了實(shí)體抽取. 為驗(yàn)證本文方法的有效性, 對本文方法進(jìn)行了消融實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果列于表10.

表10 消融實(shí)驗(yàn)結(jié)果Table 10 Results of ablation experiment

由表10可見, 添加實(shí)體標(biāo)簽的方式提升了模型的性能, 但去除上下文信息后, 模型準(zhǔn)確率和召回率明顯下降, 說明上下文信息可使模型更好地理解句子信息. 實(shí)驗(yàn)結(jié)果表明, 本文方法給實(shí)體抽取任務(wù)帶來了幫助.

3.2.3 基于擴(kuò)展Span表示的關(guān)系抽取實(shí)驗(yàn)

本文基于所構(gòu)建的數(shù)據(jù)集驗(yàn)證所提方法在關(guān)系抽取模型上的性能, 關(guān)系抽取同樣設(shè)置上下文數(shù)量N=100, 模型參數(shù)設(shè)置列于表11.

表11 關(guān)系抽取模型參數(shù)設(shè)置Table 11 Parameters setting of relationship extraction model

為驗(yàn)證本文方法的有效性, 選取SSAN[21]深度學(xué)習(xí)模型作為對比模型. SSAN模型將每篇文檔作為輸入進(jìn)行關(guān)系抽取, 充分考慮了實(shí)體之間的共指關(guān)系. 關(guān)系抽取實(shí)驗(yàn)結(jié)果列于表12. 由表12可見, Extended Span模型的各指標(biāo)均取得領(lǐng)先. 分析認(rèn)為, 變壓器運(yùn)維文本中關(guān)系種類多, 但具有共指關(guān)系的實(shí)體少, 所以影響了SSAN模型的性能. 而變壓器運(yùn)維文本中多種關(guān)系存在較明顯的關(guān)系觸發(fā)詞, 且Extended Span模型以句子作為輸入, 并融合了上下文信息, 模型可更好地學(xué)習(xí)到各關(guān)系的特征, 故抽取結(jié)果高于SSAN模型.

表12 關(guān)系抽取實(shí)驗(yàn)結(jié)果Table 12 Experimental results of relationship extraction

表4中待抽取關(guān)系類型的抽取結(jié)果列于表13. 由于變壓器運(yùn)維文本中的部件有很多別名以及代號, 且變壓器和部件之間很少有觸發(fā)詞, 如“XX變954跳閘事故報告”, 954代表某一部件, 變壓器和部件之間無關(guān)系觸發(fā)詞. 關(guān)系模型難以提取它們之間的關(guān)系, 故本文不再列出.

表13 表4中特征抽取關(guān)系類型的關(guān)系抽取實(shí)驗(yàn)結(jié)果Table 13 Experimental results of relationship extraction for types of relationships to be extracted in Table 4

由表13可見, 模型對各關(guān)系類別的抽取結(jié)果存在差異. 分析認(rèn)為, 變壓器運(yùn)維文本中多種關(guān)系存在較明顯的關(guān)系觸發(fā)詞, 為關(guān)系識別提供了幫助. 如“2號變局放故障開始時間為2021-12-03”, 模型通過“開始時間”, 可以判斷“2號變局放故障”和“2021-12-03”之間是有開始日期的關(guān)系. 型號關(guān)系識別的準(zhǔn)確率較低, 但召回率較高, 達(dá)到90%以上, 這是由于該關(guān)系觸發(fā)詞幫助了模型識別變壓器和型號的關(guān)系, 但如果實(shí)體抽取沒能正確識別出“型號”實(shí)體, 則會間接影響關(guān)系抽取.

3.3 變壓器運(yùn)維知識圖譜

本文對240份變壓器運(yùn)維文本進(jìn)行實(shí)體和關(guān)系抽取后, 共形成1 278個實(shí)體和1 653條關(guān)系. 將實(shí)體之間的關(guān)系以三元組形式存儲到Neo4j圖數(shù)據(jù)庫, 進(jìn)行了展示, 圖6為部分電力變壓器運(yùn)維知識圖譜.

圖6 部分變壓器運(yùn)維知識圖譜Fig.6 Part of transformer operation and maintenance knowledge graph

圖7為基于變壓器運(yùn)維文本構(gòu)建的電力領(lǐng)域變壓器運(yùn)維知識圖譜中有關(guān)110 kV變電站1號變壓器的知識, 當(dāng)該變壓器再次發(fā)生故障時, 知識圖譜輔助處理人員會迅速明晰變壓器運(yùn)行工況、 歷史故障等關(guān)鍵信息, 查明故障原因.

圖7 某變壓器運(yùn)維知識圖譜的部分信息Fig.7 Part of information of a transformer operation and maintenance knowledge graph

綜上所述, 本文以電力變壓器運(yùn)維文本為對象, 構(gòu)建了電力變壓器運(yùn)維知識圖譜. 首先, 搭建了電力變壓器運(yùn)維知識圖譜框架, 完整構(gòu)建了變壓器運(yùn)維知識圖譜; 其次, 為解決變壓器運(yùn)維文本中實(shí)體界限模糊、 語義信息理解不充分的問題, 提出了一種基于擴(kuò)展Span表示的知識抽取方法, 并使用特征匹配和深度模型相融合的方法抽取了實(shí)體和關(guān)系; 最后將知識抽取結(jié)果存儲到Neo4j圖數(shù)據(jù)庫, 并進(jìn)行了展示. 實(shí)驗(yàn)結(jié)果表明, 本文知識抽取方法準(zhǔn)確率較高.

猜你喜歡
變壓器特征文本
理想變壓器的“三個不變”與“三個變”
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
開關(guān)電源中高頻變壓器的設(shè)計(jì)
抓住特征巧觀察
一種不停電更換變壓器的帶電作業(yè)法
變壓器免維護(hù)吸濕器的開發(fā)與應(yīng)用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲视频免费在线| 免费看的一级毛片| 91精品国产自产91精品资源| 久操线在视频在线观看| 成人福利免费在线观看| 国产在线观看一区精品| 国产精品不卡永久免费| 国产人免费人成免费视频| 国产特一级毛片| 亚洲国产日韩在线观看| 亚洲啪啪网| 伊人成人在线视频| 91精品在线视频观看| 国产噜噜噜视频在线观看| 日本人真淫视频一区二区三区| 青青青国产免费线在| 九色综合伊人久久富二代| 777午夜精品电影免费看| 国产欧美日韩va| 日韩免费成人| 国产在线八区| 亚洲区欧美区| 无码又爽又刺激的高潮视频| 国产av一码二码三码无码| 免费看美女自慰的网站| 特级欧美视频aaaaaa| 日韩色图区| 天天色天天操综合网| 在线一级毛片| 青青草国产一区二区三区| 精品自拍视频在线观看| 亚洲精品无码不卡在线播放| 日韩小视频在线播放| 91免费国产高清观看| 国产精品亚洲精品爽爽| 午夜啪啪福利| 国产午夜看片| 亚洲国产天堂久久综合| 在线看AV天堂| 日本欧美一二三区色视频| 国产精品lululu在线观看| 亚洲AV成人一区国产精品| 欧美成人午夜视频| 国产第一福利影院| 成人免费一区二区三区| 亚洲国产欧美自拍| 精品久久久久久中文字幕女| 伊人福利视频| 久久精品这里只有国产中文精品 | 国产成人精品一区二区| 亚洲男人天堂2020| 成人久久18免费网站| 欧美亚洲日韩不卡在线在线观看| 国产无码性爱一区二区三区| 国产日韩av在线播放| 国产精品美女免费视频大全| 国产在线观看第二页| 欧美国产在线看| 亚洲网综合| 99久久精品无码专区免费| 免费看av在线网站网址| 欧美精品一区二区三区中文字幕| 國產尤物AV尤物在線觀看| 亚洲综合色婷婷| h网址在线观看| 午夜无码一区二区三区| 日本久久久久久免费网络| 乱人伦视频中文字幕在线| 久久亚洲美女精品国产精品| 亚洲无码不卡网| 亚洲婷婷丁香| 99精品一区二区免费视频| 午夜少妇精品视频小电影| 精品夜恋影院亚洲欧洲| 国产无遮挡猛进猛出免费软件| 在线视频一区二区三区不卡| 亚洲天堂视频在线观看| 国产91精品最新在线播放| 国产自无码视频在线观看| 国产日韩欧美在线播放| 亚洲区第一页| 在线免费无码视频|