999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進BERT的故障案例智能匹配方法

2022-03-11 03:13:42崔其會秦佳峰鄭文杰
山東電力技術 2022年2期
關鍵詞:案例文本故障

楊 祎,崔其會,秦佳峰,鄭文杰,喬 木

(1.國網山東省電力公司電力科學研究院,山東 濟南 250003;2.國網山東省電力公司,山東 濟南 250001)

0 引言

隨著信息化的快速發展,電網企業在電網輸變電設備故障檢修與維護環節積累了大量的電網設備缺陷、故障及檢修記錄等文本數據[1]。其中包含了設備故障及檢修的詳細內容,具有很高的專業價值,是故障診斷的寶貴經驗[2]。檢修人員可從相似案例中獲取檢修流程、技術、手段、效果的相關知識,對檢修工作具有很大參考價值[3-4]。然而,由于其體量大、內容豐富,人工查閱學習周期長,無法直接利用大量的故障案例文本的信息價值。

當前,電網領域的文本匹配技術應用研究成果較少,大多數文本匹配的方法都是通過構建卷積神經網絡、長短期記憶網絡來構建孿生網絡,預測兩個故障案例的相似度。但是,卷積神經網絡與長短期記憶網絡均忽略了海量無標簽文本數據中潛在的深層語義信息,無法準確把握每條案例的深層信息,造成對預測上準確率不高并且存在較大的誤傷。

本文從大量的電網輸變電故障案例數據出發,分析故障案例特點,提取案例過程、案例分析、經驗體會、案例名稱等關鍵信息;相似案例推送需要用戶先給出一個案例作為輸入,模型從眾多候選案例中選出與輸入案例匹配度高的案例進行推送。傳統的文本分類解決的問題是輸入一個案例,給出案例屬于哪一類,不能直接推送匹配度高的相似案例。本文為實現相似案例推送,將該問題轉換為文本中的特征句子對的二分類問題,以改進的預訓練語言模型(Bidirectional Encoder Representations from Transformers,BERT)為基礎,構建了故障案例文本匹配模型。文本匹配模型能充分提取兩個句子的特征并計算出匹配程度,根據匹配程度計算案例之間的相似程度,選擇相似度高的進行推送。通過實驗和分析,基于改進版的BERT 的故障案例匹配模型所達到的分類準確率能夠滿足案例推送需求,是具有可行性的解決方法之一。

1 文本匹配概述

文本匹配研究兩段文本之間的關系,即可以看作分類問題也可以看作回歸問題。自然語言推理、文本相似度計算、問答系統、信息檢索等,都可以看作針對不同數據和場景的文本匹配應用。文本匹配[5]一直以來是自然語言處理領域里一個重要又困難的技術,尤其是將其與各專業領域結合應用。近兩年自然語言處理技術在互聯網、金融、電商等領域發展迅速,且取得了不錯的成果,而在電網領域仍處于起步階段[6]。在國外,谷歌公司將文本匹配應用到搜索引擎[7]中,從億萬數據中檢索出用戶輸入的相關聯內容。在國內,一些電商公司將文本匹配應用到智能客服[8-9]中,先對用戶輸入的問題做相似問題匹配,并對該問題做出回答,大幅度提升工作效率,減少人工客服的投入。隨著深度學習的快速發展與計算機算力的不斷拓展,文本匹配技術取得了很大的進展。根據神經網絡的架構方式可以分為兩類,基于表示的模型和基于交互的模型[10-11]。

基于表示的模型一般是采用神經網絡分別學習句子對的分布式表示,再拼接兩個向量輸入到分類器中進行二分類任務。文獻[12]描述一種類似潛在語義空間模型,利用兩個深度前饋神經網絡將句子對投影到潛在空間中的相同長度的低維表示向量中,并利用多層感知機預測相似度。文獻[13]和文獻[14]使用卷積神經網絡和循環神經網絡來學習文本的低維語義向量,相比于使用普通的前饋神經網絡,能學習句子對的上下文信息。

基于交互的模型關注兩個句子之間的語義交互特征,生成語義交互矩陣并提取匹配特征,利用神經網絡中的全連接層預測分類結果。文獻[15]將句子對的低層文本匹配矩陣作為原始圖像,并采用卷積神經網絡,逐層抽象,捕獲豐富的匹配特征。

在基于交互模型的基礎上,并結合語言模型預訓練的文本匹配模型近來受到廣泛關注。2018年,谷歌公司人工智能團隊在國際會議上發表了一篇關于自然語言處理技術的高水平論文,提出了一種新型的語言模型預訓練方法BERT[16],該方法在大量文本語料(維基百科)上訓練了一個通用的“語言理解”模型。BERT 相比之前的文本表示方法表現得更為出色,因為它是第一個在預訓練語言模型上的使用無監督、深度雙向編碼方法[17]。無監督意味著只需要用純文本語料來訓練,不需要進行額外的人工數據標注;深度雙向編碼意味著其能提取到更豐富的語義特征及句法特征。BERT中的關鍵的特征提取方法是Attention機制[18],其擁有許多優點,包括:通過query、key、value的向量點積計算方法捕獲詞與詞之間的語義與句法特征,把模型注意力聚集到關鍵的詞語上;可以靈活的捕捉全局和局部的聯系,對長期依賴關系捕捉能力強;可以進行并行計算減少模型訓練時間,每一步計算不依賴于上一步的計算結果。

2 電網輸變電設備相似故障案例推送模型

2.1 相似故障案例檢索

在進行相似故障案例檢索過程中,案例庫數據量較大,對每一個案例與目標案例進行相似度計算將造成巨大算力浪費,時間浪費。因此,采用以下方法來避免這個問題,其流程如圖1 所示。首先根據輸入的案例,利用模糊查找技術確定其設備類別,如變壓器;然后,從數據樣本中找出所有的同類別案例樣本,即變壓器案例;接著,將輸入的故障案例文本與篩選出的樣本數據構成句子對,輸入到文本匹配模型中計算文本相似度;最后,對文本相似度的結果進行排序,按照從高到低的順序輸出。

圖1 相似故障案例檢索流程

其中,利用文本匹配模型計算相似度是核心部分,該部分計算出了文本對之間的匹配得分,可以根據得分的高低決定最后的推送結果,以下兩節將介紹電網輸變電設備相似故障案例推送過程中的文本匹配模型及其訓練方法。

2.2 基于改進版BERT的文本匹配模型

BERT是在大量通用文本上訓練的語言模型,能將其應用到自然語言處理的各個專業領域,如文本分類、文本匹配、情感分析、閱讀理解、命名實體識別、實體關系抽取等。改進版BERT 的文本匹配模型框架如圖2 所示,從下至上依次是輸入層、嵌入層、編碼層、池化層、特征拼接層、預測層。

圖2 文本匹配框架

1)輸入層。BERT 維護一個字典,該字典涵蓋了常見中文字,字典中每個字映射至一個獨特的序號(從0至N-1,N為字典的長度)。輸入層是根據字典將原始文本,映射到序號列表。原始文本包括兩個句子,模型給輸入的兩個句子添加了分類標識符(Classification,CLS)及句子對分隔標識符(Separator,SEP)。

2)嵌入層。在神經網絡中,提取特征往往需要嵌入層。嵌入層實現了字的分布式表示,將每一個字映射為一個多維向量。

3)編碼層。編碼層是文本匹配模型的關鍵部分,實現了文本的特征抽取。編碼層通過多層雙向注意力機制網絡,捕獲文本的語義、語法信息及文本之間的交互信息,完成了特征提取功能。

4)池化層。池化層是提取兩個句子的語義信息,每個句子的每一個字都對應一個向量表示其特征,通過連接一層CNN 網絡,再接入Pooling 層,得到兩個句子的各自語義信息。

5)特征拼接層。改進版BERT捕獲到的特征來自三部分,包括CLS 標識符對應的特征及兩個句子通過池化層產生的語義特征。通過將這三個特征向量拼接起來,得到最后的文本匹配模型特征向量。

6)預測層。預測層實現了模型捕獲的特征轉化為分類結果的功能。輸出層主要是一個線性層,輸入維度為3 倍的BERT 編碼維度,輸出維度為分類種類數量。歸一化后得輸出向量的每一維分別表示輸出為該類標簽的概率值,取概率值最大的一個標簽作為分類結果。

2.3 訓練與預測

基于文本匹配模型的相似案例檢索排序分為訓練階段與預測階段兩個階段。訓練階段通過不斷調整訓練參數減少誤差,提高模型準確率;測試階段使用訓練好的模型對候選匹配文本數據進行語義相似度計算。

在訓練過程中,本文中的文本匹配模型為一對文本的二分類模型,標簽為0 表示兩個文本為不相似文本對,標簽為1 表示為兩個文本為相似文本。模型使用交叉熵函數作為損失函數,計算公式為

式中:yi為樣本的標簽,可以取值0 或者1;為預測為1的概率,取值為[0,1] ;n為樣本數量;L為在該批樣本下的損失函數。在預測過程中,需要對候選文本與目標文本進行相似度計算,根據計算結果按照從高到低的順序對候選文本進行排序。簡單的標簽為0或者標簽為1 只能表示兩者是否匹配,而不能捕獲兩個文本的相似匹配程度。修改基于BERT的文本匹配模型的輸出層,取標簽為1 的概率值作為輸出結果表示兩個文本的匹配程度,替代之前的取概率值最大的一個標簽作為分類結果。

3 電網輸變電故障案例數據

3.1 電網輸變電故障案例數據內容

在對電網輸變電設備的實際運行、維護及檢修工作中,不斷地產生和積累故障設備的分析報告文檔,報告內容通常包括案例名稱、設備類別、單位名稱、技術類別、案例經過、案例分析、經驗體會等內容。案例經過描述了設備故障的一些基本情況和周邊環境信息,案例分析則從理論角度分析故障的發生原因,最后經驗體會總結了檢修工作中的詳細體會和后續設備維護的建議。報告中涵蓋了豐富的電網輸變電設備故障檢修專業指導信息,對檢修工作有很大的參考價值,因此電網輸變電故障案例匹配工作有著重要的意義。在本文中,選擇使用報告文檔中的案例名稱來作為故障案例匹配的文本數據,原因為:

1)案例名稱中覆蓋了案例數據的主要關鍵信息:故障發生地點、檢修技術方法、故障類型及故障類別,如“安徽—紅外熱像檢測發現220 kV變壓器套管接頭發熱?!?/p>

2)報告其他的內容(如案例經過、案例分析等)雖然也描述了案例的基本關鍵的信息,但是文本長度過長,均為篇章級內容,長度為1 500~2 000 字之間,不適于用作文本匹配的數據,而案例名稱長度在20~40字之間,相比之下更適于文本匹配。

3.2 電網輸變電故障案例數據分析原則和數據特點

中文文本數據可以分為通用數據及專業領域數據。目前,國內的研究學者大部分是使用通用數據展開各項任務的研究工作,這主要是因為:中文通用數據較之專業領域數據更加容易獲取,各行各業領域較多,無法一開始就將研究開展到所有的領域業務;對通用數據的研究工作應用更加廣泛,可以對通用數據的研究工作進行優化從而應用至業務領域,但是數據之間存在偏移、分布不一致的情況,導致效果具有不確定性。

電網輸變電故障案例數據研究價值體現在,利用其進行數據分析能給電網領域帶來技術提升、減少人力運維,比如輸變電設備故障自動判定、相似故障案例推送等,基于電網領域數據并結合人工智能技術能解決許多難點、痛點問題,這些針對性是基于通用數據無法獲得較好效果的。文中對基于文本數據的預訓練語言模型實現了從通用數據的文本匹配到電網領域的文本匹配的轉化,項目通用數據的訓練效果有所提升。電網輸變電故障案例數據具有以下特點:

1)故障案例數據包含大量的電網輸變電設備及其故障類型的名詞,具有強烈的領域特性。對文本分詞并抽取其中的關鍵詞,最后根據詞頻分布繪制云圖如圖3 所示,圖中詞的字體越大表示該詞在數據集中出現的頻率越高,能有效展示數據所描述的關鍵內容,同時也側面證實了數據具有強烈的領域特性,這使得對領域文本進行分析具有很大的必要性。

圖3 詞頻云圖

2)故障案例數據格式分布統一,都是由故障發生地點、檢修技術方法、故障類型及故障類別組合而成,易于進行數據分析,構建文本匹配模型。

3)故障案例數據按照設備類型可以分為8類:輸電線路、變壓器、開關設備、互感器、避雷器、電纜、開關柜和其他設備,每種類型的數據數量如表1所示。

表1 數據類型及數量

4 試驗結果與分析

4.1 試驗環境

試驗環境的硬件和軟件配置對試驗起著必要的支撐作用,本文試驗環境如表2所示。

表2 試驗環境配置

4.2 試驗數據

為研究本文構建的文本匹配模型在電網輸變電故障設備案例匹配中的效果,選取某公司2009—2016年專業電網領域人工編寫的電網輸變電故障檢修報告共1 025 篇?;诠收显O備、故障類型及檢修手段的種類,人工對檢修報告進行評估分類,將類似的檢修報告放至一個類中,最后共計有35 類數據,平均每類30條數據。

生成數據集時,采取自動標注的方法:對每個類的數據分別生成一個句子對,其標簽為1;對每個類的任意一條數據,在其他類中隨機取一條數據生成一個句子對,其標簽為0。在本論文中,樣本數據有2 000 條,其中標簽為1 的樣本數據有1 000 條,標簽為0的樣本數據有1 000條。

4.3 對比試驗

為了充分驗證改進版BERT 的文本匹配模型的有效性、增強對比性,選擇多個廣泛研究及應用的深度學習算法,設置了對比試驗組:

1)基于CNN 的文本匹配模型。卷積神經網絡(CNN)在計算機視覺領域有著廣泛的應用,同時研究人員發現將其應用到自然語言處理技術領域也有著很好的效果[19]。

2)基于LSTM的文本匹配模型。長短期記憶網絡(LSTM)的產生很好地解決了循環神經網絡(Recurrent Neural Network,RNN)中的梯度消失及梯度爆炸問題,同時LSTM在捕獲長距離依賴問題上表現也很好[20]。

3)基于雙向長短期記憶網絡(Bidirectional Long-Short Term Memory,BiLSTM)的文本匹配模型。語言學具有雙向性的特點,BiLSTM[21]分別利用LSTM 網絡從正向和反向提取語義特征。

4)基于門循環單元網絡(Gate Recurrent Unit,GRU)的文本匹配模型。GRU[22]是循環神經網絡的一種,是LSTM的精簡版,有著更少的參數及門結構,經常在性能上取得與LSTM差不多的效果。

5)基于BERT 的文本匹配模型。使用原生的BERT 作為文本匹配模型,直接使用CLS 標簽生成的向量接入分類網絡。

6)本文提出的改進版BERT模型。

4.4 參數設置

模型的參數設置對模型的性能產生直接的影響,主要的模型參數包括:學習率、隱藏層大小、隱藏層層數等。各個對比模型的參數大小設置如表3所示。

表3 試驗參數設置

4.5 評價指標

本文要解決的是一個句子對的二分類問題,其主要的評價指標包括精確率(Precision)、召回率(Recall)、F1值,其中Precision 及Recall 可以通過混淆矩陣來計算,混淆矩陣如表4 所示。其中,TP表示算法預測值為正類,真實值也是正類的個數;TN表示算法預測值為負類,真實值也是負類的個數;FN表示算法預測值為負類,真實值是正類的個數;FP表示算法預測值為正類,真實值是負類的個數。

表4 混淆矩陣

精確率、召回率及F1值的計算公式如式(2)—式(4)所示。精確率Ppr表示預測值為Positive 且預測正確的比例,召回率Pre表示真實值為Positive預測正確的數據比例。F1值是精確率和召回率的調和平均數。只有當精確率和召回率二者都非常高的時候,它們的調和平均才會高,如果其中之一很低,調和平均就會被拉低接近其中較低的數。

4.6 試驗結果分析

CNN、LSTM、BiLSTM、GRU、BERT、改進版BERT模型在電網輸變電案例數據集上的評測結果如表5所示,使用的評價指標是F1值,綜合考慮精確率和召回率的影響。

表5 電網報告數據集評測結果對比

從試驗結果中可以看出,BERT 模型的F1值比CNN 模型、LSTM 模型、BiLSTM 模型及GRU 模型的F1高。BERT 模型的性能優于CNN 模型,這是因為BERT是具有雙向的結構,能捕獲文本中各個詞之間的時序關系,而CNN 模型不具有這種特點,CNN 模型對局部特征提取能力較強,這種機制使得BERT模型能考慮到文本的上下文信息。BERT模型的性能優于LSTM 模型,這是因為相對于LSTM 模型、BiLSTM模型及GRU 模型,BERT 使用的是自注意力機制的編碼方式,而LSTM 使用的循環神經網絡的編碼方式。自注意力機制的編碼方式比循環神經網絡的編碼方式在提取文本中特征的能力強,捕獲文本詞與詞之間的依賴性也更好,模型效果更佳。

同時,改進版BERT 模型相比原生BERT 模型有了2.2%的提升,這證明了本文提出的改進版模型的有效性。改進版BERT模型針對文本匹配任務提出的優化方法,提取BERT輸出的兩個句子的向量表示作為補充特征,有效提高了文本匹配模型的F1值。

5 結語

研究電網輸變電故障設備的相似案例推送,基于推送案例挖掘出電網輸變電故障設備的故障原因、檢修方法等信息,對后續的檢修工作具有重要的輔助決策支持意義。其中,重點研究電網輸變電故障設備的相似案例的文本匹配工作,并通過試驗結果驗證本文模型的可行性和性能優點。

試驗結果表明:BERT模型的性能顯然比神經網絡中常見的CNN 模型及LSTM 模型要好;相比CNN模型使用卷積核提取特征及LSTM 模型使用長短期依賴提取特征,BERT模型使用的注意力機制提取語義特征的可解釋行更強;利用基于改進版BERT的文本匹配對下游的分類模型有較大的效果提升。

猜你喜歡
案例文本故障
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
故障一點通
在808DA上文本顯示的改善
隨機變量分布及統計案例拔高卷
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
發生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一個模擬案例引發的多重思考
中國衛生(2015年4期)2015-11-08 11:16:06
故障一點通
主站蜘蛛池模板: 人妻丰满熟妇av五码区| 亚洲欧洲国产成人综合不卡| 国产在线一区视频| 99资源在线| 伊人久久精品无码麻豆精品| 欧美性猛交一区二区三区| 久久一级电影| 国产女人18水真多毛片18精品 | 久久久久青草大香线综合精品 | 国产女人喷水视频| 日韩高清一区 | 青青极品在线| 欧美国产在线一区| 精品国产一区二区三区在线观看| 国产成人久久777777| 麻豆精品视频在线原创| 中文字幕永久在线看| h网址在线观看| 黄色福利在线| 亚洲九九视频| 日本免费精品| 亚洲AⅤ波多系列中文字幕| 精品无码一区二区三区电影| 欧美天天干| 91免费国产高清观看| 亚洲成人在线免费| 不卡午夜视频| 五月婷婷精品| 免费毛片a| 欧美国产日韩另类| 亚洲美女一区| 欧美亚洲一二三区| 国产激情在线视频| 亚洲国产91人成在线| 蜜桃视频一区二区三区| 国产精品男人的天堂| 久久鸭综合久久国产| 国产亚洲高清在线精品99| 国产福利在线观看精品| 亚洲人人视频| 国产91蝌蚪窝| 日韩精品中文字幕一区三区| 国产无码网站在线观看| 日韩av无码精品专区| 婷婷六月天激情| 久久91精品牛牛| 日韩无码白| 午夜影院a级片| 久久精品国产精品一区二区| 美美女高清毛片视频免费观看| 高清不卡毛片| 久久一级电影| 日韩麻豆小视频| 亚洲综合精品香蕉久久网| 欧美日韩一区二区三区在线视频| 嫩草在线视频| 99视频在线观看免费| 天堂成人在线视频| 一级毛片a女人刺激视频免费| 97免费在线观看视频| 91九色国产porny| 欧美综合成人| 国产成人一二三| 9999在线视频| 91av成人日本不卡三区| 国产精品美女自慰喷水| 暴力调教一区二区三区| 日本高清在线看免费观看| 狠狠亚洲婷婷综合色香| 91国内在线观看| 中文无码精品A∨在线观看不卡| 国产成人亚洲无吗淙合青草| 亚洲色图狠狠干| 亚洲精品无码AⅤ片青青在线观看| 久久中文字幕不卡一二区| 国产精品xxx| 国产乱子伦无码精品小说 | 国产欧美日韩在线一区| 欧美日韩91| 亚洲免费毛片| 手机精品福利在线观看| 99资源在线|