999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度核電質量文本故障信息語義抽取方法

2023-11-27 19:09:31吳庭偉王夢靈易樹平郭景任
中國機械工程 2023年8期

吳庭偉 王夢靈 易樹平 郭景任

摘要:提出了多尺度核電質量文本故障信息語義抽取方法,從核電質量文本描述中獲取了存在質量缺陷的故障設備與所屬階段的信息。針對故障設備與正常設備并存,以及所屬設計、采購、施工和調試的全價值鏈階段未描述的問題,提出了多尺度故障信息抽取策略。基于Transformer雙向編碼的預訓練語言模型將核電質量文本轉化為文本向量;采用注意力機制的雙向門控循環神經網絡挖掘出質量缺陷的關鍵語義特征;采用條件隨機場對關鍵語義特征進行實體預測,輸出故障設備;通過多層感知機對提取的關鍵語義特征進行微調及推理,解譯出故障設備所屬階段。最后,在真實的核電質量文本數據集上進行驗證,F1值達到94.3%,表明提出的方法具有較好可行性和有效性。

關鍵詞:多尺度;核電質量文本;語義抽取;預訓練語言模型;條件隨機場

中圖分類號:TP391.1

DOI:10.3969/j.issn.1004-132X.2023.08.012

Semantic Extraction Method of Multi-scale Nuclear Power Quality Text Fault Information

WU Tingwei1 WANG Mengling1 YI Shuping2 GUO Jingren3

Abstract: A semantic extraction method of multi-scale nuclear power quality text fault information was proposed to obtain the information of fault equipment and their stages from nuclear power quality text. The quality text included the faulty equipment and normal equipment, while the whole value chain stages of design, procurement, construction, and commissioning were not described. Firstly,

based on Transformer bidirectional encoding, the pre-trained language model were used to convert nuclear equipment quality text into text vectors. The bidirectional gated recurrent unit network with attention mechanism was introduced to mine the key semantic features of quality text defects. On the basis of those above, the conditional random field was used to predict the key semantic features and output the fault equipment. Fine-tuning the extracted key semantic features by multi-layer perceptron, the stages of fault equipment was interpreted. Finally, the experimental verification was conducted based on real nuclear power quality text datasets, and the F1 value reached 94.3%. The results show that the proposed method has good feasibility and effectiveness.

Key words: multi-scale; nuclear power quality text; semantic extraction; pre-trained language model; conditional random field

0 引言

核電設備的質量決定了核電站安全穩定的運行。根據核電設備建造的業務流程,設備在投入運營前,需歷經設計、采購、施工和調試四個基本的全價值鏈階段。根據核電設備質量缺陷的分析需求,工程師通過核電質量文本完整記錄,即包含相關設備的狀態、相關現象、可能的原因等質量缺陷信息描述質量缺陷事件。通過對質量文本的分析,得到各價值鏈階段質量缺陷的關鍵信息,并將其匯聚成經驗反饋包,以便質量管理人員分析相同型號核電設備或者類似流程可能出現的質量問題。基于經驗反饋,相關部門能及時調整檢修計劃,盡量避免質量問題造成的設備故障。

當前,從質量文本抽取關鍵信息的主要方式為人工標注。這種標注方式不僅費時費力,還需要操作人員掌握詳細的核電領域知識。此外,由于質量文本記錄了質量缺陷事件發生的全部過程,文本內容不僅涉及出現質量缺陷的設備,還包含正常設備,且沒有明確說明質量缺陷事件是在哪個階段發生的,因此工程師需要依據整段的文本描述,推斷出質量缺陷對應的階段。為簡化描述,本文將存在/出現質量缺陷的設備稱為故障設備,將出現質量缺陷對應的價值鏈階段稱為故障所屬階段。質量管理過程累積了大量的質量文本,如何采用有效的方法快速準確提取故障設備與所屬階段十分重要。采用文本挖掘技術對文本進行數據挖掘是自然語言處理及文本信息抽取領域的一個研究熱點。因此,筆者將文本挖掘技術引入核電質量文本處理,自動分析質量文本缺陷信息并抽獲取故障設備及所屬階段,輔助工程師及時分析發現類似問題并進行處理和維護,提高核電質量管理的效率。

當前,核電領域的自然語義分析研究主要圍繞智能問答系統和句法語義提取展開,通過構建高級的信息檢索系統,從給定的文本中推理出問題的答案。ZHAO等[1]采用字典與規則相結合的方法訓練因果關系抽取模型,并基于該模型構建了核電智能問答任務系統。iExtractor方法[2]通過對比當前信息與歷史狀態來發現核電設備的運行異常情況。上述研究針對具有因果關系的文本,通過識別關鍵字詞進行語義搜索,完成信息提取任務。實際的核電質量文本僅記錄缺陷產生的現象和對象,并無明確的因果關系,且沒有給定關鍵詞。

針對無因果關系的文本信息挖掘問題,WU等[3]采用雙向長短期記憶(bidirectional long short term memory,BiLSTM)網絡構建微博文本情感分類模型來自動分類微博文本。JURADO[4]使用條件隨機場(conditional random field,CRF)構建的實體抽取模型來自動提取報紙中的目標實體。文獻[5-6]采用BiLSTM模型與多層感知機(multi-layer perceptron,MLP)結合的方法,將切口信息提取轉化為分類問題,完成病例文本中的切口信息提取任務。文獻[7-8]將BiLSTM和卷積神經網絡相結合來構造實體抽取模型,通過對字向量進行特征提取,提高了模型的抽取精度。針對數據集較少的特點,采用

基于Trausformer的雙向編碼表示(bidirectional encoder representation from Transformer,BERT)與雙向門控循環單元(bidirectional gated recurrent unit,BiGRU)相結合的方法構建的實體識別模型[9-11]比BiLSTM方法的結構簡單,并且訓練速度更高。上述研究方法僅適用于單一任務的信息抽取,而從核電質量文本中提取出故障設備和故障階段則是2個不同尺度的信息提取任務。故障設備提取是運用相關標記算法對質量文本進行標記,獲取對應的故障設備;故障階段提取是融合質量文本中每個字的語義信息,綜合推斷故障所屬的階段。

因此,本文構建一個并行信息抽取模型來同時提取質量文本中的故障設備與故障階段。從核電質量文本中提取故障設備可轉化為實體抽取任務,依據整段質量文本內容推斷出故障階段可以轉化為4個階段的文本分類任務。筆者首先采用

BERT模型將質量文本轉化為文本向量,利用基于注意力機制的循環神經單元對文本向量進行缺陷特征的提取,得到關鍵語義信息特征,然后基于CRF計算得到對應的故障設備。接著采用MLP對提取的關鍵語義信息特征進行非線性微調,推斷出故障所屬階段。最后,基于實際質量管理過程的核電質量文本數據進行實驗,以驗證本文方法的有效性和準確性。

1 問題描述

表1所示為包含故障設備及所屬階段信息的2個典型質量文本樣例。

由樣例1可見,文本不僅包含出現質量缺陷的設備“汽輪機”,還包含正常設備“發電機”。樣例2中,出現質量缺陷問題的設備為“汽輪機”,這與樣例1的故障設備相同,但缺陷對應的故障階段卻不同。工程師根據2個本文描述的整體語義,分析出樣例1對應的缺陷階段為“調試”,樣例2對應的缺陷階段為“采購”。

由于質量文本存在上述特點,因此從質量文本同時抽取出故障設備和故障階段,需解決如下問題:

(1)從質量文本中提取出故障設備是實體抽取任務,依據整段質量文本的語義推斷故障設備所屬階段是文本分類任務,如何同時完成2個不同尺度的故障信息提取任務。

(2)質量文本同時存在故障設備和正常設備時,如何準確地從中提取出故障設備。

(3)如何基于整段質量文本的語義正確推斷出故障設備所屬階段。

考慮到上述問題,本文采用具有注意力機制的神經網絡提取故障設備和故障階段的共性缺陷特征信息,得到關鍵語義特征,接著分別采用不同的解譯算法對關鍵特征進行解譯,同時輸出故障設備及所屬階段。基于上述分析,本文構建故障信息抽取模型(圖1),實現多尺度核電質量文本故障信息語義的抽取。首先將質量文本轉化為文本向量,接著通過注意力(Attention)機制[12]的BiGRU提取質量文本中的語義特征信息,然后基于關鍵語義特征分別采用CRF和MLP同時進行故障設備提取與階段推斷。通過共享質量文本的關鍵語義特征信息,減少不同尺度信息的特征提取步驟,減小模型計算量并提高信息抽取的精確度。

2 多尺度故障信息抽取模型

2.1 BERT字向量轉換

BERT模型是一種對文本進行編碼的表示模型,可以將一段文本轉化為融合了文本全局語義信息的一組向量。如圖2所示,wn為質量文本的第n個字,vn1、vn2、vn3分別是wn的語義嵌入、位置嵌入、段落嵌入。語義嵌入通過字向量表將wn轉換為一個向量,位置嵌入將wn的位置信息編碼成向量,段落嵌入將wn所在句子編碼成向量。通過融合語義嵌入、位置嵌入和段落嵌入得到綜合特征向量vn后,將vn輸入到Transformer編碼器中進行編碼,得到對應字向量xn。

給定的核電質量文本描述句序列w=(w1,w2,…,wn)經BERT模型“理解”后,得到文本描述句對應向量x=(x1,x2,…,xn)。

2.2 關鍵語義特征提取

由于文本向量x包含所有質量文本的信息,因此本文采用BiGRU-Attention提取文本中設備缺陷的關鍵語義特征,縮小解譯范圍。首先將文本向量輸入BiGRU,提取文本上下文語義關系的信息,得到對應的語義信息向量。然后通過Attention機制從提取的語義信息中篩選出與設備質量缺陷相關的特征信息,輸出關鍵語義特征向量。

BiGRU是門控循環單元(gate recurrent unit,GRU)網絡輸出的正反向拼接。GRU的計算公式如下:

式中,zt為t時刻的更新向量,控制信息進入下一個時刻;xt為t時刻輸入的字向量;rt為t時刻的重置向量,決定當前時刻信息的留舍;ht為t時刻的狀態向量,包含了前t個時刻所有文本的有效信息;*表示哈達瑪積(Hadamard);Wzx、Wzh、Wrx、Wrh、Wh~x、Wh~h均為特征參數向量;bz、br為參數;I是維度與zt相同且元素全為1的向量;σ為sigmiod激活函數。

將GRU網絡輸出的ht進行正反向拼接,得到BiGRU單個字向量xt對應的特征向量:

根據式(6)計算得到預測最優序列,預測每個字對應的標簽概率。其中,最大標簽概率對應的文字組合即為所提取的故障設備。如圖4所示,經CRF計算得出“汽”與“輪”的轉移概率為0.1,“輪”與“機”的轉移概率為0.4,則關鍵語義特征向量經CRF計算調整后得到的實體預測向量(標號②)為(0.491,0.823,0.964),該向量輸出的實體為“汽輪機”,解決了實體之間的依存關系。

2.3.2 階段提取

經BERT-BiGRU-Attention提取得到的ATT保持著文本序列長度并含有豐富的語義特征信息,但僅依據ATT不能推斷所屬階段,需要對提取的ATT進行壓縮與融合。本文為簡化計算,不再單獨采用神經網絡獲取新的語義特征,而將ATT作為多層感知機(MLP)的輸入,通過MLP對現有的ATT特征進行微調,推斷故障階段。

核電業務流程包含4個階段,因此將MLP輸出變量設為1個表征4個階段可能性的四維向量,形成基于BERT-BiGRU-Attention-MLP的核電質量文本缺陷階段分類方法。MLP對提取的關鍵語義特征信息ATT進行壓縮與非線性融合,綜合考慮每個字對輸出的貢獻,輸出對應的缺陷階段。具體計算過程如下:

質量文本描述句經BERT-BiGRU-Attention計算后得到ATT,對ATT進行池化操作(Pooling),得到降維后的文本向量m=(m1,m2,…,mn),MLP對輸入m進行非線性融合,綜合推斷缺陷階段。

3 實驗與分析

3.1 實驗數據

本文采用某核電設備質量文本數據進行核電故障設備信息提取實驗。數據集包含1300條文本數據,將數據集按8∶1∶1的比例劃分為訓練集、驗證集、測試集。采用BERT-base作為文本字向量轉換模型。實體抽取任務僅提取故障設備實體,因此采用BIO標注策略(“B”表示元素屬于實體開頭,“I”表示元素屬于實體中間(非頭部),“O”表示元素不屬于實體)。將故障階段分為4類,采用2個BiGRU網絡提取數據特征,MLP網絡層數設置為3。

3.2 實驗驗證與分析

本文采用準確率P、召回率R以及F1作為評價指標來驗證提出方法的精度,針對故障設備抽取問題,與BERT-CRF模型和BERT-BiGRU-CRF模型進行對比,結果如表2所示。針對故障階段判別,將BERT-MLP模型和BERT-BiGRU-MLP模型作為參考模型進行對比,結果如表3所示。針對多任務同時抽取,將本文提出的方法與BERT-CRF+MLP、BERT-CRF+BiGRU-MLP、BERT-BiGRU-CRF+MLP和BERT-BiGRU-CRF+BiGRU-MLP進行對比,實驗結果如表4所示。

由表2可知,在BERT-CRF基礎上加入BiGRU網絡可以提取上下文語義特征信息,比BERT-CRF方法的F1值高出7.1%;在BERT-BiGRU-CRF方法中加入Attention機制進行關鍵語義信息提取,比BERT-BiGRU-CRF方法的F1值高出1.6%。由表3可知,BERT-BiGRU-Attention-MLP方法的抽取精度最高,其次是BERT-BiGRU-MLP方法,BERT-MLP方法最低,證明BiGRU-Attention在所屬階段的推斷任務中發揮了重要作用。由表4可知,在同時提取多個任務時,BERT-BiGRU-Attention-MLP的F1達到94.3%,比BERT-CRF+MLP高出10.9%,比BERT-BiGRU-CRF+MLP高出3.4%,由此可見BERT-BiGRU-Attention-MLP可以有效支持多尺度的雙任務文本并行提取問題。

3.3 結果分析

為驗證注意力機制的循環神經網絡對關鍵語義特征提取的有效性,提取表1中的2個樣例進行關鍵語義特征的展示(見表5),選取概率最高的15個字進行分析。

由表5的樣例1可知,通過對關鍵語義信息的提取,正常設備“發電機”的信息被弱化,故障設備“汽輪機”被預測出來;樣例2中的故障設備“汽輪機”可以被正確預測。MLP微調關鍵語義特征向量后,得到缺陷階段的語義特征向量,選取概率最高的10個字進行展示,如表6所示。

由表6可知,綜合樣例1中的“調” “速”“超”“過”“值”等關鍵字得到故障所屬階段為調試;根據樣例2中的“焊”“接”“資”“質”“不”“超”等關鍵字信息,分析出故障所屬階段為采購。表7給出了部分高頻故障設備和所屬階段的統計分析結果。

由表5~表7可知,本文提出的語義提取方法可從核電質量文本提取質量缺陷的故障設備和所屬階段,梳理高頻故障設備并進行歸類分析,有助于工程師充分認識當前建造過程出現質量問題的設備相關情況,輔助后續的質量缺陷根因分析和經驗反饋。

4 結語

本文提出了多尺度核電質量文本故障信息語義抽取方法,解決了傳統核電質量文本關鍵信息人工提取的問題。實際核電質量文本數據驗證表明本文方法的F1值達到94.3%。對已有數據的訓練可累積大量關鍵語義特征和高頻故障設備信息,輔助工程師及時了解設備相關情況,有效支撐后續缺陷根因分析和經驗反饋,提高核電質量管理效率。

參考文獻:

[1]ZHAO Y, DIAO X, HUANG J, et al. Automated Identification of Causal Relationships in Nuclear Power Plant Event Reports[J]. Nuclear Technology, 2019, 205(8):1021-1034.

[2]CHOI Y S, NGUYEN M D, THOMAS N K. Syntactic and Semantic Information Extraction from NPP Procedures Utilizing Natural Language Processing Integrated with Rules[J]. Nuclear Engineering and Technology, 2021, 53(3):866-878.

[3]WU P, LI X, LI C, et al. Sentiment Classification Using Attention Mechanism and Bidirectional Long Short-term Memory Network[J]. Applied Soft Computing, 2021, 112:107792.

[4]JURADO F. Journalistic Transparency Using CRFs to Identify the Reporter of Newspaper Articles in Spanish[J]. Applied Soft Computing, 2020, 95:106496.

[5]盧淑祺, 竇志成, 文繼榮. 手術病例中結構化數據抽取研究[J]. 計算機學報, 2019, 42(12):2754-2768.

LU Shuqi, DOU Zhicheng, WEN Jirong. Research on Structural Data Extraction in Surgical Cases[J]. Chinese Journal of Computers, 2019, 42(12):2754-2768.

[6]NGUYEN M, LE D, LE L. Transformers-based Information Extraction with Limited Data for Domain-specific Business Documents[J]. Engineering Applications of Artificial Intelligence, 2021, 97:104100.

[7]WANG J, XU W, FU X, et al. ASTRAL:Adversarial Trained LSTM-CNN for Named Entity Recognition[J]. Knowledge-based Systems, 2020, 197:105842.

[8]CHO M, HA J, PARK C, et al. Combinatorial Feature Embedding Based on CNN and LSTM for Biomedical Named Entity Recognition[J]. Journal of Biomedical Informatics, 2020, 103:103381.

[9]DU C, HUANG L. Text Classification Research with Attention-based Recurrent Neural Networks[J]. International Journal of Computers Communications & Control, 2018, 13(1):50-61.

[10]張靖宜, 賀光輝, 代洲, 等. 融入BERT的企業年報命名實體識別方法[J]. 上海交通大學學報, 2021, 55(2):117-123.

ZHANG Jingyi, HE Guanghui, DAI Zhou, et al. Named Entity Recognition of Enterprise Annual Report Integrated with BERT[J]. Journal of Shanghai Jiaotong University, 2021, 55(2):117-123.

[11]JIA C, SHI Y, YANG Q, et al. Entity Enhanced BERT Pre-training for Chinese NER[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP). 2020:6384-6396.

[12]VASWANI A, SHAZZER N, PARMER N, et al. Attention Is All You Need[C]∥Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, 2017:6000-6010.

(編輯 張 洋)

作者簡介:

吳庭偉,男,1998年生,碩士研究生。研究方向為文本分類、信息抽取。E-mail:y30200997@mail.ecust.edu.cn。

王夢靈(通信作者),女,1980年生,副教授。研究方向為數據挖掘、人工智能算法。發表論文30余篇。E-mail:wml_ling@ecust.edu.cn。

收稿日期:2021-08-31

修回日期:2023-01-04

基金項目:國家重點研發計劃(2020YFB1711700)

主站蜘蛛池模板: 精品视频在线一区| 91久久性奴调教国产免费| 亚洲欧美天堂网| 婷婷五月在线| 亚洲制服中文字幕一区二区| 精品视频在线观看你懂的一区| 欧美福利在线播放| 亚洲中文字幕手机在线第一页| 欧美日韩动态图| 欧美成人区| 99热这里都是国产精品| 亚洲综合色吧| 国模沟沟一区二区三区| 91人人妻人人做人人爽男同 | 亚洲国产精品VA在线看黑人| 日本人又色又爽的视频| 欧美国产在线一区| 国产亚洲日韩av在线| 日韩无码视频专区| 91高清在线视频| 91欧美亚洲国产五月天| 毛片基地视频| 99视频全部免费| 精品国产自在在线在线观看| 极品私人尤物在线精品首页| 精品福利视频导航| 亚洲人成在线精品| 国产精品深爱在线| 91麻豆精品国产高清在线 | 91香蕉国产亚洲一二三区 | 精品无码人妻一区二区| 九九九九热精品视频| 青青青国产免费线在| 国产精品免费露脸视频| 成人av专区精品无码国产| av无码一区二区三区在线| 天天操精品| 久久精品中文字幕免费| 2021国产精品自拍| 伊人91视频| 日本高清在线看免费观看| 亚洲第一中文字幕| 97青青青国产在线播放| 91在线无码精品秘九色APP| 国产成人1024精品下载| 亚洲综合激情另类专区| av一区二区人妻无码| av一区二区三区高清久久| 九九视频免费在线观看| 在线精品亚洲国产| 欧美 亚洲 日韩 国产| 国产日韩精品一区在线不卡 | 国产专区综合另类日韩一区| 91成人试看福利体验区| 中文字幕欧美日韩高清| 高清国产va日韩亚洲免费午夜电影| 一本久道久久综合多人| 久久久久亚洲av成人网人人软件 | 国产成人高精品免费视频| 欧美中日韩在线| 中文字幕66页| 小说 亚洲 无码 精品| 亚洲日韩Av中文字幕无码| 欧美高清日韩| 亚洲日韩高清无码| 色成人综合| 日本91视频| 女人18毛片一级毛片在线| 午夜小视频在线| 国产玖玖视频| 亚洲综合国产一区二区三区| 91亚洲精品国产自在现线| aⅴ免费在线观看| 国产午夜在线观看视频| 91精品亚洲| 重口调教一区二区视频| 久久久久国色AV免费观看性色| 日本一区二区三区精品国产| 在线观看免费人成视频色快速| 女人18毛片久久| 亚洲va在线观看| 高清国产在线|