999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電網故障處置預案文本中的命名實體識別研究

2021-10-11 01:45:36江葉峰孫少華仇晨光王波戴則梅李杰
電力工程技術 2021年5期
關鍵詞:文本故障模型

江葉峰,孫少華,仇晨光,王波,戴則梅,4,李杰

(1.國網江蘇省電力有限公司,江蘇 南京 210024;2.南瑞集團(國網電力科學研究院)有限公司,江蘇 南京 211106;3.國電南瑞科技股份有限公司,江蘇 南京 211106;4.南瑞集團有限公司智能電網保護和運行控制國家重點實驗室,江蘇 南京 211106)

0 引言

電網故障處置預案文本廣泛應用于指導設備故障后電網狀態監測和故障處理。故障發生后,傳統處置方式通過人工查閱預案文本,手動處置故障[1—2],難以滿足故障處置的高效性、及時性。隨著電網智能化進程的不斷推進,電網故障處置機器人[3—4]應能結合調度系統模型“閱讀”文本內容,正確理解故障預案文本,實現相關涉事設備的自我調控。而預案文本由調度員人工編寫,每條文本質量參差不齊[5]。因此,對文本進行命名實體識別(named entity recognition,NER),解析預案中關鍵信息序列,對于提升文本的機器可讀性具有重要意義。

近年來,國內外學者針對NER任務展開了大量研究,文獻[6—7]通過建立領域詞典,提升了領域內文本實體詞識別能力。文獻[8]采用統計分類方法識別實體詞。隨著詞向量技術的發展,專家學者逐漸將神經網絡引入NER任務中,文獻[9]采用拓展卷積神經網絡對文本序列建模,關注了文本局部知識與全局信息。文獻[10]分別利用循環神經網絡(recurrent neural network,RNN)以及長短期記憶網絡(long short-term memory,LSTM)標注文本,進一步提升了NER效果。在電力領域研究中,針對規范性文本淺層學習,文獻[11—12]分別以規范的告警文本、停送電計劃為研究對象,參考調度平臺數據庫匹配關鍵字符,實現了關鍵實體詞與變量的識別。文獻[13]基于專家知識庫規則自動生成工作票安全措施。對于非規范性電網缺陷文本的深層挖掘,文獻[14—17]基于準確的分詞庫或者高質量的文本數據,識別近義詞或同義詞,雖實現了文本分類,但均未詳細剖析理解文本信息。預案文本的規范性因人而異,文本匹配顯然無法滿足實體詞識別的要求。因此,預案文本中的關鍵信息學習識別亟待解決。

文中首先分析了預案文本特征,采用字向量表征文本中漢字,將注意力(attention,ATT)機制引入雙向長短期記憶網絡(bidirectional long short-term memory,BiLSTM),并結合條件隨機場(condition random filed,CRF)提出基于ATT+BiLSTM+CRF的電網故障預案文本NER方法,實現了文本中涉事電氣設備、電氣參數詞等細粒度的關鍵實體識別。之后,以F1值為評價指標,對比分析了文中模型與常用NER模型的識別效果。實驗證明,文中所構建模型對于預案文本具有更強的適用性與魯棒性。

1 電網故障處置預案文本特點

電網故障處置預案文本是電力調度人員通過離線模擬電網事故,監測故障后薄弱點狀態參數信息,并結合電網運行狀態人工制定的故障處理方案,既包含電網故障時涉事的電廠、機組等電力設備及其狀態參數,也包含設備調控、負荷投切等處置操作。圖1為預案文本及NER標注示例。

圖1 預案文本及NER標注示例Fig.1 Example of preplan text and NER annotation

根據故障處置的應用需求并結合調度系統中模型劃分的實體對象類型,文中將預案文本中電壓等級、線路、變電站、開關、母線編號、分區、電廠、機組編號、主變編號作為NER的對象,共計9類。

不難發現,預案文本中的實體類別是細粒度的。例如,變電站、電廠和分區這3類存在很大的相似性,在常規的NER任務中通常被粗粒度地劃分為“地名”類,然而粗粒度的識別并不適用于電網故障處置的實際需求。

此外,預案文本的表述存在較大的專業性和不規范性,例如電廠名的表述:“華能蘇州燃機”“中電濱海風電”等電廠實體詞,可細化為所屬發電集團、電廠所在地名、電廠類型等復合型電廠實體詞;或者在并列表達時僅采用地名代稱電廠,如“射陽、彭城等電廠”,其實體詞含義及其類別需要結合上下文來分析理解。

同樣,線路實體詞表述的結構也多種多樣,如能量管理系統中標準線路詞:“官丁2569線”,表述為“官塘-丁卯”“官丁線”。同時線路實體詞可能摻雜數字、字母以及用于表達連接的符號“-”、并列的符號“/”等,如“慶安-倪村線”“紅柳4W45/46雙線”等。

綜上可以看出,電網故障處置預案文本存在細粒度類別劃分、實體詞專業性強、語言表述不規范等特點,給NER過程帶來巨大的困難。

2 基于ATT+BiLSTM+CRF的電網故障預案文本NER

針對電網故障處置預案文本中實體對象的特點,文中采用基于ATT+BiLSTM+CRF框架的NER方法來進行故障預案文本實體詞的辨識與提取。

2.1 數據預處理及文本標注

預案樣本數據來自于某電網調度機構140個典型故障的預案文本,并根據符號分隔為4 067條短句訓練樣本。通過正則表達式匹配剔除序號、助詞等無關詞,降低NER過程中的噪聲。

預案文本中9類NER對象的標簽定義如表1所示。對所有預案文本采用“BIO”格式進行標注,標注樣例如表2所示。

表1 9類NER對象的標簽定義Table 1 Label definitions of nine NER objects

表2 BIO標注樣例Table 2 Annotated example of BIO

其中,B為實體詞起始詞,B-Line為線路名的起始字;I為實體詞非首字,I-Line為線路名的非首字;O為非實體詞。

2.2 字向量

文本所用的識別框架需要先將語料中的文字表示成向量形式作為模型的輸入,目前學術界主要有2種方式:一是詞向量形式,將句子切分成多個詞,對每個詞進行向量化;二是字向量形式,直接將句子中的每個字表示成向量。由于通用領域的分詞詞典在電力領域適用性較低,會出現明顯的分詞錯誤,進而導致模型的性能指標下降,所以文中采用字向量的方式,對語料進行向量化。

字向量化表示的方式有2種:One-Hot方式和分布式方式[18]。但是One-Hot方式生成的字向量沒有融入任何的語義信息,而且字匯表過大,會造成維度爆炸。分布式方式是將字映射為連續稠密的低維實值向量,較好地解決了One-Hot的缺陷問題,所以文中采用分布式方式對字進行向量化。

目前,基于通用語料的預訓練模型生成字向量的方式已經在多個通用領域中取得了優異的成績。但在電力系統領域,由于語料不匹配,效果并不理想。故文中使用目前在NER任務中最優的Bert預訓練模型[19],在某調度機構的大量相關電力文檔上進行訓練,得到適用于電力領域的專用預訓練模型,將字映射為768維的字向量。

字向量表征的文本可以在模型訓練中自動獲取文本的字符級特征,從而提升NER模型在工程領域文本的適用性和準確率。

2.3 ATT+BiLSTM+CRF模型

2.3.1 BiLSTM模塊

BiLSTM[20]是雙向結構在LSTM上的應用,其每個單元結構與常規LSTM的單元相同,只是整體上多了一個按照反方向處理序列的隱層。BiLSTM模型的結構示意如圖2所示。

圖2 BiLSTM結構示意Fig.2 Schematic diagram of BiLSTM

BiLSTM的訓練方法也采用通過時間的反向傳播算法,其前向與反向傳播的過程與常規的RNN類似。在t時刻,BiLSTM的正向計算過程一般遵循下式:

σ(x)=1/(1+e-x)

(1)

tanhx=(ex-e-x)/(ex+e-x)

(2)

(3)

(4)

(5)

(6)

(7)

對于序列化文本數據,BiLSTM通過引入門級控制調控序列數據傳輸,選擇性丟棄和保存前序與后序數據,用以更新神經元,有效地解決了RNN中長文本梯度彌散的問題。

2.3.2 CRF模塊

定義每一種預測序列的得分如式(8)所示。

(8)

式中:A為(k+2)×(k+2)的矩陣,加2是為了提升魯棒性,在句子首尾添加了起始狀態和終止狀態;Ayt,yt+1為類別yt到yt+1的轉移得分,代表了實體各標簽類別之間的依賴關系;y0,yn+1分別為起始狀態和終止狀態;P為BiLSTM的輸出矩陣;Ppt,yt為第t時刻的輸出向量pt與yt類對應的得分。

(9)

訓練好的模型對測試數據進行預測即可得到最佳標簽序列,其計算公式如下:

(10)

目前,BiLSTM+CRF模型在NER領域已經取得了廣泛的應用,在網絡開源語料數據集上也取得了領先的識別效果。然而電網故障處置預案文本與一般性文本存在巨大差異,具有很強的專業性,BiLSTM+CRF模型難以取得理想的識別效果。文中針對目前BiLSTM+CRF模型在電網故障處置預案文本上識別效果的不足,提出一種引入ATT機制的ATT+BiLSTM+CRF模型。通過在電網故障處置預案文本NER中對實體詞關鍵部分分配較多的注意力,從而提升電網故障處置預案的NER效果。

2.3.3 ATT機制

預案文本的部分內容具有關聯性的特征,例如:“在徐州西分區進行事故拉限電”,其中“徐州西分區”的字符間關聯性更高,“徐”和“在”字的關聯性很弱,這說明對于識別文本中的命名實體,每個字符的影響程度不同,在數學中表示為分配的權重不同。因此,文中在BiLSTM計算過程中引入ATT機制[22]。

注意力模型對BiLSTM的輸出特征向量序列P進行處理,對每個特征向量賦予不同大小的權重,相加后產生新的特征向量,包含文本全局和局部特征。

注意力模型的當前狀態ct由P中的所有特征向量加權后得到,計算如下:

(11)

式(11)中特征向量分配權重αtj通過式(12)和式(13)計算得到。

(12)

(13)

2.3.4 ATT+BiLSTM+CRF模型框架

引入ATT機制后的模型整體框架如圖3所示。

圖3 基于ATT+BiLSTM+CRF的NER流程Fig.3 The process of NER based on ATT+BiLSTM+CRF

CRF模型計及標簽之間的約束以及相關性,在所有備選標簽序列中求得標簽序列的最優解。最終識別“官丁2569單線”屬于線路“Line”。

文中模型訓練相關參數設置為:優化器為Adam;學習率取10-4;在 BiLSTM 兩端增加比例為0.2的Dropout;最大迭代次數限制在100 000次;最大容忍次數earlystop設為5;批處理大小為50。

3 實驗分析

3.1 實驗數據和評價指標

文中研究的實驗環境為 Intel(R)Core i7-8700 CPU 3.2 GHz處理器,16 GB內存,GPU NVIDIA 1080Ti,Windows10操作系統。字向量與訓練語料為某電力調度機構的各類電力工作文檔,選擇開源Bert模型作為輸入的分布式表示模型;BiLSTM網絡由Tensorflow實現。NER語料為某電網故障處置預案2015年的歷史版本,文本已分句并經人工標注,共計5 230條故障預案例句,按8∶1∶1的比例分為訓練集、驗證集、測試集。

電網故障處置預案中文NER的評價指標采用綜合考慮查準率、查全率的F1測量值。

(1)查準率。查準率P計算公式為:

P=TP/(TP+FP)

(14)

式中:TP為正確識別為正樣本的實體詞數量;FP為錯誤識別為正樣本的實體詞數量。

(2)查全率。查全率R計算公式為:

R=TP/(TP+FN)

(15)

式中:FN為正樣本中識別錯誤的實體詞數量。

(3)F1測量值。F1值計算公式為:

F1=2TP/(2TP+FP+FN)

(16)

F1值綜合考慮了查全率與查準率,能夠更加全面地分析分類效果。

3.2 不同模型實驗設計及性能對比

為了驗證文中提出的故障預案文本NER框架的優越性,分別設計了6組實驗。6組實驗使用了相同的電網故障處置預案命名實體語料、字向量輸入。實驗1為基于BiLSTM的模型;實驗2為基于人工特征提取的正則表達式添加CRF作用的模型;實驗3為將實驗2中的人工特征替換為RNN的RNN+CRF模型;實驗4為將RNN替換為LSTM的LSTM+CRF模型;實驗5為BiLSTM+CRF模型,實驗6為文中模型即基于ATT+LSTM+CRF模型。

6組實驗中的不同模型分別對電網故障處置預案中的9類實體詞進行識別,獲得的綜合評價指標F1記錄值見表3。

表3 各模型F1記錄表Table 3 Record chart of F1 of each model %

由表3分析可知:

(1)LSTM+CRF模型的NER實驗效果優于RNN+CRF模型,其中線路、變電站、電廠實體詞識別效果值提高了3.7%,2.0%,0.9%,但是兩者對線路、電壓等級、主變編號等類別的識別效果未能超過基于人工特征提取的CRF模型,沒有很好地體現自動特征提取的優勢。而BiLSTM+CRF模型在識別線路、變電站、電廠等類別的實體詞過程中較LSTM+CRF網絡模型表現更加優異,F1值分別提升了6.7%,4.9%,1.9%,并且實現了對人工特征+CRF模型的超越。這是因為BiLSTM同時考慮了前序和后序內容,結合上下文語義信息更加充分地提取了文本字符特征。

(2)單獨的BiLSTM模型取得的識別效果最差,而結合CRF模型后,識別效果顯著提升,其中線路實體詞的識別效果提升最高,F1值提高了13.6%,變電站、機組編號分別提升了12.4%,11.2%。結合具體文本內容分析,這是由于CRF模型計及了相鄰標簽關聯性約束,從而能夠更好地識別線路詞中的長距離實體詞。

(3)BiLSTM+CRF模型在電網故障處置預案文本中確實可以取得較好的識別效果,F1值可以達到90%以上,而引入了ATT機制后,實體詞識別整體效果進一步提升,模型識別線路、電廠、變電站的F1值分別提升了2.2%,2.9%,5.1%,更加符合電網處置預案的識別要求。

4 結語

文中針對電網故障處置預案文本中關鍵信息辨識的任務,搭建了基于ATT+BiLSTM+CRF的電網故障處置預案文本NER模型,實現了故障處置預案文本關鍵信息的NER。

通過采用字向量特征表征文本,規避了專業領域詞向量訓練對于人工的依賴以及專業領域詞向量表達能力差的缺陷。同時采用字向量可以更好地識別“官塘-丁卯2569單線”“官丁線”“官塘-丁卯”“官丁2569”等不同表述形式的線路實體詞,提升了模型對于含復雜實體詞電力文本的適用性。

基于ATT+BiLSTM+CRF模型可以綜合考慮電網故障處置預案文本中的實體詞長度較長,并列實體詞的簡寫表達隨意性大以及文本長距離造成信息丟失的問題,通過引入ATT機制以及BiLSTM,有所側重地、自動地學習獲取文本特征信息,降低了人工成本,提升了模型的泛化能力。算例表明文中所提模型可以滿足電網故障處置預案文本的NER任務要求,為電力文本的NER提供有效路徑。

通過故障預案文本中實體詞序列準確識別,文本內容即可實現準確切分和詞義理解,進而簡化了文本句法結構和語義分析,為機器學習非結構化故障預案文本,搭建電力故障處置預案垂直知識圖譜打下重要基礎。

猜你喜歡
文本故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
故障一點通
主站蜘蛛池模板: 久草国产在线观看| 亚洲成人77777| AV网站中文| 国产成人久久综合777777麻豆| 色吊丝av中文字幕| 亚洲成在人线av品善网好看| 亚洲国产午夜精华无码福利| 亚洲另类色| 亚洲综合片| 在线免费a视频| 国产在线一区视频| а∨天堂一区中文字幕| 伊人色天堂| 欧美第一页在线| 18禁不卡免费网站| 尤物亚洲最大AV无码网站| 国产精品一区二区在线播放| 久久综合九九亚洲一区| 四虎亚洲精品| 日本少妇又色又爽又高潮| 无码专区国产精品第一页| 亚洲色偷偷偷鲁综合| 本亚洲精品网站| 无遮挡一级毛片呦女视频| 在线播放国产99re| 欧美精品v| 国产91色在线| 国产永久免费视频m3u8| 一级毛片在线播放免费| 在线综合亚洲欧美网站| 免费国产不卡午夜福在线观看| 亚洲IV视频免费在线光看| 午夜福利视频一区| 欧美性精品不卡在线观看| 亚洲日产2021三区在线| 午夜限制老子影院888| 国产国产人成免费视频77777 | 嫩草影院在线观看精品视频| 婷婷成人综合| 波多野结衣无码AV在线| 亚洲精品自拍区在线观看| 久久综合丝袜日本网| 精品国产Av电影无码久久久| 一级做a爰片久久毛片毛片| 亚洲欧美成人在线视频| 国产精品乱偷免费视频| 午夜a级毛片| 乱色熟女综合一区二区| 999福利激情视频| 狠狠ⅴ日韩v欧美v天堂| 亚洲日韩日本中文在线| 亚洲中文字幕手机在线第一页| 午夜国产精品视频黄 | 亚洲va视频| 99久视频| 青青青视频91在线 | 中文字幕精品一区二区三区视频| 狠狠色噜噜狠狠狠狠奇米777| 亚洲综合经典在线一区二区| 国产成人一二三| 一区二区三区四区在线| 亚洲日本中文字幕天堂网| 久久中文电影| 国产精品色婷婷在线观看| 精品撒尿视频一区二区三区| 九九热精品视频在线| 日本成人精品视频| 成年免费在线观看| 亚洲色图狠狠干| 亚洲人成网站色7799在线播放 | 国产地址二永久伊甸园| 精品少妇人妻无码久久| 又爽又大又光又色的午夜视频| 国产极品美女在线观看| 亚洲欧美一区二区三区图片| 久久频这里精品99香蕉久网址| 幺女国产一级毛片| 最近最新中文字幕在线第一页| 青青青视频蜜桃一区二区| 在线观看欧美国产| AV片亚洲国产男人的天堂| 色综合色国产热无码一|