999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預(yù)訓(xùn)練語言模型的電力領(lǐng)域設(shè)備缺陷檢測

2022-05-06 12:29:42王宏剛紀鑫武同心楊智偉何禹德
電測與儀表 2022年5期
關(guān)鍵詞:文本實驗檢測

王宏剛, 紀鑫,2, 武同心, 楊智偉, 何禹德

(1.國家電網(wǎng)有限公司大數(shù)據(jù)中心, 北京 100031; 2.北京航空航天大學(xué), 北京 100191)

0 引 言

隨著智能電網(wǎng)的發(fā)展和新能源并網(wǎng)政策的有序化展開,對電力設(shè)備的可靠、穩(wěn)定運行提出更高要求,設(shè)備缺陷的早發(fā)現(xiàn)、早預(yù)防至關(guān)重要[1-2]。電力設(shè)備的缺陷調(diào)查工作通常會涉及到大量事故或缺陷文本的整理和分析。電網(wǎng)企業(yè)已建立了諸多與設(shè)備健康相關(guān)的標準,如分別針對輸變電設(shè)備和配電網(wǎng)設(shè)備的缺陷分類標準、設(shè)備狀態(tài)評價導(dǎo)則、狀態(tài)檢修試驗規(guī)程等,這些文本的價值密度高,是電網(wǎng)企業(yè)寶貴的數(shù)據(jù)資產(chǎn),如果能夠?qū)@些電力缺陷文本進行挖掘和分析,則能夠提取出文本中蘊含的豐富故障問題信息、故障原因及檢修方法等關(guān)鍵特征,對于指導(dǎo)設(shè)備狀態(tài)評價與運維檢修具有重要意義。

目前,針對電力領(lǐng)域的設(shè)備缺陷文本檢測,國內(nèi)外展開了大量的理論研究與試驗工作,并取得了顯著成果[3-10]。在電力專業(yè)詞匯識別的任務(wù)中,文獻[3]根據(jù)電力領(lǐng)域詞匯的語言學(xué)特征提出了一種面向電力領(lǐng)域的無監(jiān)督專業(yè)詞匯發(fā)現(xiàn)方法。文獻[4]基于依存句法分析技術(shù)和樹匹配算法提出了一種針對電力設(shè)備缺陷信息的辨識方法。而在電力領(lǐng)域缺陷文本的分類任務(wù)中,文獻[5]提出了基于注意力機制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)對電力設(shè)備缺陷文本進行分類。文獻[6]則針對缺陷描述文本的復(fù)雜語義等特點,提出了基于多頭注意力循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷分類方法。此外,針對通用領(lǐng)域事件檢測,研究人員提出了很多針對事件檢測任務(wù)的方法和模型,并取得了越來越好的檢測效果[11-17]。但是,目前大多數(shù)事件檢測的方法都基于監(jiān)督學(xué)習(xí)方式,因此對標注數(shù)據(jù)有較強的依賴,所以難以解決標注數(shù)據(jù)較少的特定領(lǐng)域事件檢測任務(wù)。

文章為實現(xiàn)基于少量標注數(shù)據(jù)的電力領(lǐng)域設(shè)備缺陷早發(fā)現(xiàn),在事件檢測模型訓(xùn)練前,在電力領(lǐng)域數(shù)據(jù)上進行了預(yù)訓(xùn)練,并基于掩碼語言模型設(shè)計了事件三元組預(yù)訓(xùn)練方式,從而讓模型在預(yù)訓(xùn)練中就學(xué)習(xí)到更多與事件相關(guān)的語義信息。此外,文中構(gòu)造電力設(shè)備缺陷檢測數(shù)據(jù)集,該數(shù)據(jù)集基于國家電網(wǎng)企業(yè)反事故措施落實情況的工作報告以及一些典型的缺陷報告文本。實驗表明,經(jīng)過預(yù)訓(xùn)練的模型能更精準發(fā)現(xiàn)電力設(shè)備缺陷,可以有效實現(xiàn)對電力領(lǐng)域缺陷報告文本的事件檢測。

1 事件三元組預(yù)訓(xùn)練模型(SPOBERT)

設(shè)計了事件三元組(SPO)預(yù)訓(xùn)練方式,通過替換和預(yù)測事件三元組以及將三元組拼接到句子頭部的方式,增強了語言模型對語料的表征能力。受預(yù)訓(xùn)練模型[18-22]啟發(fā),文中在進行事件檢測任務(wù)之前,也借鑒了掩碼語言模型的任務(wù)對模型進行了預(yù)訓(xùn)練,從而讓模型能夠更好地學(xué)習(xí)對語料的表征。對任意輸入文本S=[w1,w2,...,p,...,wn],其中n為句子長度,p為候選觸發(fā)詞。文中使用了其中的語義角色標注工具對句子進行分析[19],以觸發(fā)詞為給定謂詞,標注出施事和受事的語義角色,即觸發(fā)詞對應(yīng)的主語和賓語。將主語、謂語和賓語提取出來并組合在一起,從而構(gòu)成了事件三元組。如圖1所示。

圖1 SPOBERT預(yù)訓(xùn)練Fig.1 SPOBERT pre-trained model

圖1中對于句子“電網(wǎng)企業(yè)對刀閘器室內(nèi)收集的粉塵、燒蝕物進行成分分析”,觸發(fā)詞p為“進行”,主語s為“電網(wǎng)企業(yè)”,賓語o為“成分分析”,將它們提取出來并且組合到一起之后,就得到了事件三元組“電網(wǎng)企業(yè)進行成分分析”,抽取的事件三元組表示為:

A=(s,p,o)

(1)

完成了句子中事件三元組的解析工作后,為了增強模型在預(yù)測過程中對事件要素的注意力,將解析出的三元組拼接到了句子的前面。最終,在添加了上述內(nèi)容并將事件三元組中的詞依次使用[MASK]進行替換之后,就得到了訓(xùn)練所需的文本,再將句子輸入到BERT模型中,即可對模型進行預(yù)訓(xùn)練。因此,預(yù)訓(xùn)練語言模型的輸入可表示為:

T=[s;o;w1,w2,...,[MASK],...,wn]

(2)

式中 [MASK]是要預(yù)測的候選觸發(fā)詞。

2 SPOBERT電力缺陷設(shè)備檢測模型

文中設(shè)計的事件檢測模型分為數(shù)據(jù)預(yù)處理部分和分類器部分。數(shù)據(jù)預(yù)處理部分將輸入的句子轉(zhuǎn)化為特征向量,分類器部分則根據(jù)特征向量進行分類。事件檢測模型的示意圖如圖2所示。

圖2 電力領(lǐng)域設(shè)備缺陷檢測模型Fig.2 Device defect detection model in power field

電力領(lǐng)域設(shè)備缺陷檢測模型主要包括文本初始化表征和缺陷檢測分類器兩個模塊,具體如下:

(1)文本初始化表征。在文中定義的數(shù)據(jù)集中,存在單句多事件情況,即一個句子中存在多個候選觸發(fā)詞。為了能夠更好地解決這種情況,使句子在不同觸發(fā)詞下的特征差別更加明顯,文中首先要做的是在原文本基礎(chǔ)上拼接觸發(fā)詞(Trigger)。然后,將新得到的文本語料輸入到上一階段中已經(jīng)預(yù)訓(xùn)練好的BERT模型中,從而獲得通用的文本特征表示。之后,文中對觸發(fā)詞和原文本的特征表示分別做最大池化(Maxpooling)操作,并拼接兩部分池化后的結(jié)果,得到最終的特征向量zsent;

(2)缺陷檢測分類器。文中將上一步中得到的特征向量zsent輸入到分類器中,并由分類器識別出具體的事件類型,最終完成事件檢測的任務(wù)。模型使用的分類器為線性分類器,特征向量zsent輸入到分類器后所得到的新的結(jié)果為:

y=σ(W*zsent+b)

(3)

式中σ為sigmoid激活函數(shù),目的是為分類器提供非線性的建模能力。根據(jù)這一結(jié)果以及真實標簽t,文中使用BCE交叉熵損失函數(shù)計算模型的損失,并根據(jù)損失值更新模型參數(shù),損失函數(shù)為:

(4)

式中n是多分類的類別個數(shù)。模型訓(xùn)練過程中使用到了優(yōu)化器Adam。Adam是一種梯度下降的優(yōu)化算法,可以根據(jù)梯度的一階距估計和二階距估計更新步長。該算法簡單、計算效率高、且所需內(nèi)存較少。除此之外,文中還使用了FGM算法來對模型進行對抗訓(xùn)練,從而增強了模型的魯棒性。

3 電力設(shè)備缺陷檢測數(shù)據(jù)集構(gòu)建

3.1 基本統(tǒng)計

基于某電力公司公開的設(shè)備缺陷案例,文中構(gòu)造了一個針對電力缺陷事件檢測的數(shù)據(jù)集。這些文本總計有700余頁,從中抽取出了共5 182個事件。文中將這些事件的種類劃分為兩個層級,共計6大類21小類,具體類型如表1所示。

表1 電力領(lǐng)域缺陷事件類型Tab.1 Types of power field defect event

在數(shù)據(jù)預(yù)處理的過程中,文中將數(shù)據(jù)分為了訓(xùn)練集、驗證集和測試集三個集合。為了訓(xùn)練模型正確判斷觸發(fā)詞的能力,針對每一個句子,有30%的概率隨機選取句子中的一個非觸發(fā)詞生成負樣本,這些負樣本對應(yīng)的事件類型為“無”。訓(xùn)練集、驗證集、測試集中的正負樣本個數(shù)如表2所示。

表2 數(shù)據(jù)集統(tǒng)計信息Tab.2 Dataset statistics

3.2 事件數(shù)分布

在5 182個事件中,各種類型事件的個數(shù)如圖3所示,其中圖3(a)是6大類事件個數(shù)的統(tǒng)計圖,圖3(b)是21小類事件個數(shù)的統(tǒng)計圖。按照大類進行劃分,事件個數(shù)最多的類型為“發(fā)生”類事件,共計2 049個,占比39.54%;個數(shù)最少的事件類型為“措施”類事件,共計403個,占比7.78%。按照小類進行劃分,事件個數(shù)最多的類型為“檢查”類事件,共計743個;個數(shù)最少的事件類型為“變形”類事件,共計11個。事件個數(shù)最多的類型和個數(shù)最少的事件類型之間的差距非常大,說明21個小類的長尾現(xiàn)象較為明顯。因此模型在檢測分布最少幾個類型時會存在一定的困難。

圖3 事件類型數(shù)統(tǒng)計Fig.3 Numbers statistic of event types

表3統(tǒng)計了數(shù)據(jù)集中單句多事件的情況,即一個句子中存在多個事件。從表3中可以看出,絕大部分句子中只有一個事件,但也存在一些句子中有兩個以上的事件。對這種存在多個事件的句子進行事件檢測時,需要結(jié)合給定的觸發(fā)詞進行事件類型的判斷,并充分利用事件間的關(guān)聯(lián)。

表3 單句事件數(shù)統(tǒng)計Tab.3 Statistics of single sentence events

3.3 句子長度

電力領(lǐng)域缺陷報告中對設(shè)備的缺陷描述往往精簡口語化,這增加了設(shè)備缺陷檢測的難度。如圖4所示,統(tǒng)計數(shù)據(jù)集中句子長度頻率分布。

從圖4可以看出,數(shù)據(jù)集中句子最大長度為224,最短句子長度為6,大多數(shù)句子長度在[10,30]區(qū)間內(nèi),占數(shù)據(jù)集總量的72%。數(shù)據(jù)集句子平均長度為18.88,可以看出數(shù)據(jù)集文本長度短,有限的上下文信息增加了基于預(yù)訓(xùn)練語言模型實現(xiàn)領(lǐng)域事件檢測的難度。此外,在這些短文本中還包含大量的專業(yè)術(shù)語,增大文本語義理解的難度。

圖4 句子長度頻率分布Fig.4 Frequency distribution of sentence length

4 實驗

4.1 模型參數(shù)

在文中的預(yù)訓(xùn)練和事件檢測任務(wù)中所涉及到的主要參數(shù)以及參數(shù)介紹如表4所示。

表4 模型主要參數(shù)Tab.4 Main parameters of the model

在預(yù)訓(xùn)練任務(wù)中,評估預(yù)訓(xùn)練效果的指標為模型預(yù)測被替換單詞的準確率;在事件檢測任務(wù)中,評估任務(wù)效果的指標為精確率、召回率、以及F1值。其中,精確率是指返回的真正例占所有返回的正例的比例,召回率是指返回的真正例占所有正例的比例,F(xiàn)1值則是精確率和準確率的調(diào)和均值。

4.2 基線模型

預(yù)訓(xùn)練基線模型包括:BERT模型[22]、SpanBERT模型[23]、ERINIE模型[24]、RoBERTa模型[25]。缺陷檢測基線模型包括:CNN、DMCNN[26]、MLBiNet[27]、GCN[28]、EE-GCN[29]、BERT+CRF[30]、BERT+BiLSTM[30]和DMBERT[31]。

4.3 主實驗

與模型框架相對應(yīng),主實驗分為預(yù)訓(xùn)練實驗和事件檢測實驗兩個部分來進行。兩個實驗的步驟均為先對模型進行訓(xùn)練,然后再對模型的效果進行評估。

在預(yù)訓(xùn)練實驗中,我們比較不同預(yù)訓(xùn)練模型對電力領(lǐng)域數(shù)據(jù)的預(yù)測能力,見表5。SPOBERT預(yù)訓(xùn)練實驗是基于BERT語言模型進行的,采用SPO預(yù)訓(xùn)練任務(wù)。對預(yù)訓(xùn)練后的語言模型的評估實驗為:對數(shù)據(jù)集中的每個句子,隨機選擇30%的詞用[MASK]進行替換,然后由模型來預(yù)測被替換掉的詞,記錄預(yù)測準確率。文中模型在測試集準確率為56.59%,相比BERT、SpanBERT、ERINIE和RoBERTa模型,SPOBERT經(jīng)過SPO預(yù)訓(xùn)練模型性能最好,實驗表明通過學(xué)習(xí)事件三元組能提升預(yù)訓(xùn)練語言模型語義學(xué)習(xí)能力,增強了語言模型對電力領(lǐng)域語料的表征能力。

表5 預(yù)訓(xùn)練模型性能Tab.5 Pre-trained model performance

在缺陷檢測實驗中,模型在訓(xùn)練集上進行訓(xùn)練,在測試集上進行評估,并與缺陷檢測基線模型性能比較,缺陷檢測實驗中的評估結(jié)果如表6所示。基于SPOBERT的缺陷檢測模型在精確率、召回率和F1值都達到最優(yōu),缺陷檢測模型的F1值最高達到了80.34%,相比BERT+BiLSTM高1.72%。實驗結(jié)果表面經(jīng)過SPOBERT預(yù)訓(xùn)練的模型有更好的事件表達能力。

表6 電力設(shè)備缺陷檢測性能Tab.6 Power equipment defect detection performance

4.4 消融實驗

為了證明文中的模型確實有效,還需要進行消融實驗。使用沒有經(jīng)過預(yù)訓(xùn)練的BERT模型,以及通過隨機替換詞的方式來預(yù)訓(xùn)練的BERT模型,來進行事件檢測任務(wù)。分別評估這兩種模型在預(yù)訓(xùn)練任務(wù)和事件檢測任務(wù)上的效果,并與主實驗中的評估結(jié)果進行對比。實驗結(jié)果如表7所示。

表7中,如果使用沒有預(yù)訓(xùn)練的模型進行事件檢測任務(wù),F(xiàn)1值最高為78.23%;但在進行SPO預(yù)訓(xùn)練之后,F(xiàn)1值最高達到了80.34%。通過對這兩種消融實驗的研究,文中證明了在進行事件檢測任務(wù)之前,先執(zhí)行SPO預(yù)訓(xùn)練的方法,的確提高了模型的表征能力,使得事件檢測任務(wù)的效果更好。

表7 消融實驗Tab.7 Ablation experiments

5 結(jié)束語

文章旨在解決電力領(lǐng)域缺陷報告事件檢測的任務(wù),主要貢獻有:(1)設(shè)計了基于事件三元替換預(yù)訓(xùn)練任務(wù)的事件檢測模型。其中,事件三元組替換預(yù)訓(xùn)練任務(wù)可以有效提高模型對文本的表征能力;(2)構(gòu)造了一個電力領(lǐng)域缺陷事件檢測的數(shù)據(jù)集,該數(shù)據(jù)集可以指導(dǎo)訓(xùn)練電力相關(guān)領(lǐng)域的事件檢測模型。未來隨著電力領(lǐng)域智能化水平不斷提高,有望實現(xiàn)對電力領(lǐng)域缺陷報告的自動化檢測與分析,有效提高電力管理部門的工作效率。

猜你喜歡
文本實驗檢測
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 91免费国产高清观看| 波多野结衣一区二区三区AV| 日本欧美一二三区色视频| 国产91麻豆视频| 九色最新网址| julia中文字幕久久亚洲| 久久精品91麻豆| 亚洲成人精品久久| 91小视频在线播放| 一区二区欧美日韩高清免费| 91久久夜色精品国产网站| 亚洲成A人V欧美综合| 波多野结衣第一页| 国产成人综合在线观看| 2020精品极品国产色在线观看| 伊人成人在线| AV无码无在线观看免费| 欧美在线精品一区二区三区| 无码aⅴ精品一区二区三区| 日韩a在线观看免费观看| 日韩第一页在线| 67194亚洲无码| а∨天堂一区中文字幕| 波多野结衣视频网站| 免费一级成人毛片| 国产一区二区精品高清在线观看| 亚洲AV无码久久精品色欲 | 亚洲精品动漫| 色综合天天操| 成人无码区免费视频网站蜜臀| 亚洲天堂自拍| 久久综合丝袜长腿丝袜| 免费又黄又爽又猛大片午夜| 97se亚洲综合在线韩国专区福利| 88av在线看| 91精品啪在线观看国产| 国产一级α片| 免费啪啪网址| 亚洲动漫h| 久久国产乱子伦视频无卡顿| 91精选国产大片| 激情乱人伦| 999国内精品视频免费| 多人乱p欧美在线观看| 中文字幕有乳无码| WWW丫丫国产成人精品| 熟妇无码人妻| 操操操综合网| 国产女主播一区| 美臀人妻中出中文字幕在线| 亚洲乱码在线视频| 久久大香香蕉国产免费网站| 全部免费特黄特色大片视频| 粉嫩国产白浆在线观看| 色偷偷一区二区三区| 国产成人无码Av在线播放无广告| 欧美黄色a| 日本人妻丰满熟妇区| 欧美一级在线| 97在线免费视频| 五月激情婷婷综合| 在线观看国产精美视频| 久久久久国产精品嫩草影院| 国产精品密蕾丝视频| 日本www色视频| 99热这里只有精品在线播放| 亚洲国产成熟视频在线多多| 男女精品视频| 中国毛片网| 欧日韩在线不卡视频| 99热这里只有精品国产99| 成人综合网址| 亚洲精品无码久久久久苍井空| 久久成人免费| 国产91久久久久久| 激情综合网激情综合| 国产成人精品一区二区秒拍1o| 香蕉久久国产超碰青草| 婷婷综合在线观看丁香| 亚洲伊人久久精品影院| 免费一极毛片| 国产精品成人啪精品视频|