999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT 的電機領域中文命名實體識別方法

2021-08-20 04:53:46顧亦然霍建霖楊海根盧逸飛郭玉雯
計算機工程 2021年8期
關鍵詞:模型

顧亦然,霍建霖,楊海根,盧逸飛,郭玉雯

(1.南京郵電大學 自動化學院 人工智能學院,南京 210023;2.南京郵電大學寬帶無線通信技術教育部工程研究中心,南京 210003)

0 概述

自然語言處理(Nature Language Processing,NLP)是人工智能領域的熱點研究方向,廣泛應用于機器翻譯、語音識別、情感分析、問答系統、文本分類、知識圖譜等任務。命名實體識別(Named Entity Recognition,NER)作為自然語言處理的一項基本任務,旨在從非結構化文本中識別出特定意義和類型的實體[1]。深度學習模型是一種不依賴人工特征的端到端模型,利用神經網絡學習文本的特征信息,將實體識別任務當作序列標注任務[2],主要包括卷積神經網絡(Convolutional Neural Network,CNN)、長短期記憶神經(Long Short-Term Memory,LSTM)網絡、門控循環單元(Gated Recurrent Unit,GRU)、循環神經網絡(Recurrent Neural Network,RNN)等[3-5]模型。HAMMERTON 等[6]將LSTM 神經網絡用于命名實體識別任務。COLLOBERT 等[7]提出CNNCRF 神經網絡模型。LAMPLE 等[8]采用字符級的單詞表示,并利用LSTM 和CRF 提取實體。HUANG等[9]通過BiLSTM-CRF 模型識別CONNLL2003 數據集中的英文實體,F1 值達到88.83%。買買提阿依甫等[10]根據維吾爾文的特點,構建基于BiLSTM-CNNCRF 的實體識別模型。李健龍 等[11]利用CNN 對字向量進行處理,并使用融合自注意力機制的BiLSTM 模型進行軍事領域的實體識別,取得了87.38%的F1 值。李明浩等[12]使用LSTM 和CRF 相結合的方法提取中醫臨床癥狀中的實體。ZHANG等[13]提出Lattice LSTM 模型,利用改進的LSTM 獲取特征信息,在MSRA 數據集中取得了93.18%的F1 值。

為使詞語能包含豐富的語義信息及句法特征,研究人員陸續提出使用預訓練語言模型來獲取詞語的表示。PETERS 等[14]提出ELMo 模型,采用雙向LSTM 進行拼接,可在一定程度上解決模型只能學習單向信息的問題。RADFORD 等[15]提出OpenAI GPT 模型,使用Transformer 編碼代替LSTM 來捕捉長距離信息,但其只能從左到右獲取單向語義信息。DEVLIN 等[16]提出 BERT 模型,采用雙向Transformer 編碼器和自注意力機制對大規模公開數據集進行預訓練,從而得到表征能力更強的預訓練字向量。

目前,研究人員對于通用領域的命名實體識別已取得了一定的成果,F1 值可達90%以上[17],但在專業領域中由于缺乏領域標注數據,且人工標注成本高,實體識別難度大,因此利用遷移學習、遠程監督學習等方法解決專業領域的命名實體識別成為近年來的研究熱點。電機領域的實體識別與通用領域不同,具有該領域實體的特殊性。一方面,電機相關文本中涉及的術語專業性強,同時缺乏統一的規范和標準,在通用詞庫中一般不包含這些術語。另一方面,電機領域中通常存在名詞簡寫、實體之間相互包含、多層嵌套的情況,實體組成復雜,傳統方法對于這些實體的識別正確率和覆蓋率較低[18]。經統計發現,目前尚沒有有關電機領域的命名實體識別的研究,同時電機領域也沒有公開的大規模標記數據集。因此,如何有效利用小規模且具有少量標注的領域數據集提高實體識別效果并減少標注成本顯得尤為重要。

針對電機領域的專業名詞,本文設計一種基于BERT-BiLSTM-CRF 的電機領域實體識別方法,將BERT 預訓練語言模型作為特征表示層,提取實物、特性描述、問題/故障、方法/技術4 個類別實體,并在自建數據集上進行實驗驗證。

1 基于BERT-BiLSTM-CRF 的電機領域實體識別

1.1 BERT-BiLSTM-CRF 模型整體結構

BERT-BiLSTM-CRF 模型主要由BERT 特征表示層、BiLSTM 網絡層、CRF 推理層3 個部分構成。首先,將字符序列輸入到BERT 特征表示層,對每個字符進行編碼得到對應字符的字向量表示;接著,利用BiLSTM 層對字向量序列進行雙向編碼;最后,利用CRF 推理層輸出概率最大的標簽序列,并將其作為模型最終的預測標簽。BERT-BiLSTM-CRF 模型整體結構如圖1 所示,其中,電、機、的、結、構為模型輸入的字符序列,h1、h2、h3、h4、h5表示BiLSTM 隱含層的輸出,B-N、I-N、O 表示模型的輸出標簽,0.1、0.2、0.6、0.9 表示模型預測為某種標簽的概率值。

圖1 BERT-BiLSTM-CRF 模型整體結構Fig.1 The overall structure of BERT-BiLSTM-CRF model

1.2 BERT 特征表示層

在NLP 領域中,利用詞嵌入(word embedding)方式將一個詞映射到一個低維稠密的語義空間,可有效解決傳統機器學習方法存在的文本特征稀疏問題,從而使得語義空間上相似的詞具有更近的距離。利用Word2vec、GloVe 等神經網絡模型生成的詞向量多數與上下文無關或者難以學習到更多的上下文信息來表征字詞的多義性。BERT 模型在很多NLP任務中均取得了較優的效果,通過無監督方式從大規模無標簽數據集中學習得到,并充分考慮字符級、詞語級、句字級和句間的關系特征,增強字向量的語義表示,同時將這些語義知識通過遷移學習應用在數據規模和標注量較少的電機領域的命名實體識別任務上,能使模型更好地挖掘電機領域文本的特征信息。

BERT 模型使用多個Transformer 雙向編碼器對字符進行編碼。BERT 網絡結構如圖2 所示,其中,E1,E2,…,EN為模型的輸入向量,T1,T2,…,TN為模型的輸出向量,Trm 為Transformer 編碼器。

圖2 BERT 預訓練語言模型結構Fig.2 BERT pre-training language model structure

1.2.1 Transformer 結構

BERT 預訓練模型采用多層雙向Transformer 編碼結構[19],每個單元主要由自注意力機制(Self-Attention)和前饋神經網絡(Feed Forward)組成,如圖3 所示,其中,X1、X2表示輸入詞向量。

圖3 Transformer 編碼結構Fig.3 Transformer coding structure

Transformer 的關鍵部分是使用自注意力機制代替傳統CNN 和RNN,解決了NLP 長期依賴問題[20]。具體方法是將輸入句子中的每一個詞都和句中的所有詞做Attention 計算,目的是為了獲得詞與詞之間的相互關系,并捕獲句子的內部結構,在一定程度上反映了不同詞語之間存在的關聯和重要程度,計算公式如下:

其中:Q、K、V為編碼器的輸入字向量矩陣;dk為輸入向量的維度。

1.2.2 輸入表示

BERT 的輸入是由詞嵌入、句子嵌入和位置嵌入3 個部分疊加來表示一個輸入的文本序列。如圖4所示,Token Embeddings 表示詞向量,并且第一個單詞是CLS 標志,可用于后續NLP 的下游任務分類,Segment Embeddings 表示句子向量,用于區分兩個句子,Position Embeddings 表示BERT 模型所學習到的位置向量。

圖4 BERT 輸入向量表示Fig.4 BERT input vector representation

1.2.3 預訓練任務

BERT 包括Masked 語言模型和下一句預測兩個無監督預訓練任務,目標是獲取詞語級和句子級的特征表示:

1)Masked 語言模型。Masked 語言模型是為了使模型學習并融合左右兩側的上下文信息。具體方法為隨機遮蓋15%的詞,使訓練模型預測并掩蓋部分的原始詞匯,其中,80%被遮擋詞用masked token代替,10%被遮擋詞用一個隨機詞匯代替,10%被遮擋詞保持該詞不變。

2)下一句預測。下一句預測是為了使模型學習兩個句子之間的關聯關系,并在模型中預訓練一個二分類模型。在該任務中有50%的概率從語料庫中抽取上下文連續的兩句句子,然后利用模型預測抽取的兩個句子之間的關系,并用IsNext/NotNest 標簽進行標記。

1.3 BiLSTM 網絡層

在NER 任務中,通常使用RNN 來處理這類序列標注問題,但是當序列長度過長時會出現梯度消失問題[1],難以學習到中間的長期依賴特征。LSTM 對傳統RNN 作了較大改進,引入記憶單元和門限機制來捕捉長距離信息并解決了梯度消失的問題,在命名實體識別任務中取得了較好的效果。LSTM 單元結構如圖5 所示,包含了遺忘門、輸入門和輸出門3 種門結構,通過保持和更新網絡的狀態來實現長期記憶功能。

圖5 LSTM 單元結構Fig.5 LSTM unit structure

LSTM 網絡隱藏層的輸出表示如式(2)~式(6)所示:

其中:W、b分別表示連接兩層的權重矩陣和偏置向量;σ表示sigmoid 激活函數;?表示點乘運算;xt表示t時刻的輸入向量;it、ft和ot分別表示t時刻的輸入門、遺忘門和輸出門;表示t時刻的狀態;ht表示t時刻的輸出。

BiLSTM 神經網絡是由前向LSTM 和后向LSTM 組合而成,它對輸入序列分別采用順序和逆序計算后得到兩種不同的隱含層表示,然后通過向量拼接的方式得到最終的隱含層特征表示。由于BiLSTM 神經網絡能較好地捕捉雙向的語義信息,學習上下文關系,有效提升命名實體識別效果,因此在當前的序列標注任務中成為主流模型。

1.4 CRF 推理層

為使模型學習到標簽之間的約束信息,在BiLSTM 網絡層后加入了CRF 推理層。CRF 通過考慮相鄰標簽之間的關系對前面模型的輸出結果加以限制來保證預測標簽的合理性[21]。CRF 算法步驟具體如下:

1)對于輸入序列x=(x1,x2,…,xn),其對給定的標簽序列y=(y1,y2,…,yn)的評分如式(7)所示:

其中:A表示轉移得分矩陣且A∈R(k+2)×(k+2),Aij表示由標簽i轉移到標簽j的轉移得分;y0和yn+1表示句中起始和終止標簽;矩陣P為BiLSTM 層的輸出且P∈?n×k,Pij表示第i個詞在第j個標簽下的輸出得分,n表示序列長度,k表示標簽個數。

2)使用softmax 函數歸一化得到序列y標簽的最大概率,如式(8)所示:

3)利用Viterbi 算法求得所有序列上預測總得分最高的序列作為最優序列,即最終電機領域實體識別的標注結果,如式(10)所示:

2 實驗與結果分析

2.1 實驗數據預處理

采用爬蟲方式從百度學術獲取電機相關文獻,對獲取的文獻進行清洗和去重,結合領域專家意見選取500 篇文獻構成領域文本,并對文獻摘要部分做人工標注,作為實驗數據集。電機領域實體類別定義如下:

1)標志符號為N,實體類別為實物(OBJECT),類別定義為包括各種類型的電機及其內部結構,示例為流電機、永磁無刷電機、同步電動機、電樞、定子、轉子等。

2)標志符號為C,實體類別為特性描述(CHARACTERISTIC),類別定義為電機領域所涉及的特性描述,示例為漏抗、電感、渦流、感應電動勢、磁導率等。

3)標志符號為P,實體類別為問題/故障(PROBLEM),類別定義為與電機相關的故障類型,示例為小齒輪松弛、匝間短路、短路故障等。

4)標志符號為M,實體類別為方法/技術(METHOD),類別定義為解決電機領域問題的分析方法,示例為單相勵磁法、負載法、應力張量法、磁路法等。

實驗在自建數據集上進行分句處理得到1 657 個句子,將數據集按7∶3 劃分為訓練集和測試集,其中各類別實體數量統計如表1 所示。

表1 電機數據集標注實體統計Table 1 Annotated entity statistics of motor dataset

2.2 標注體系

在命名實體識別任務中,常用的標注體系有BIOES 和BIO 兩種模式。實驗中數據標注采用BIO標注模式:B(Begin)表示實體開始,I(Intermediate)表示實體中間,O(Other)表示非實體的其他部分。本文定義電機領域的4 種實體,將第1 個字符標記為“B-(實體類別)”,后續字符標記為“I-(實體類別)”,與該領域無關的其他字符統一標記為O。本文識別的電機領域文本數據標注示例如表2 所示。

表2 電機領域文本標注示例Table 2 Text annotation examples in motor field

2.3 評價指標

本文采用準確率(P)、召回率(R)以及F1 值(F)作為模型性能的評價指標,對電機領域的實體識別結果進行評估,計算公式如下:

其中:TTP表示模型正確識別出的實體個數;FFP表示模型識別出的不相關實體個數;FFN表示實際為相關實體但模型并未識別出的實體個數。

2.4 實驗環境與參數設置

本文提出的 BERT-BiLSTM-CRF 模型在Python 3.7 和Tensorflow 1.14.0 環境下進行實驗,訓練集和測試集的batch_size 為16,epoch 為50,sequence_length 為100,為防止神經網絡模型過擬合設置dropout 為0.4。由于BERT 模型的預訓練過程需要大量的算力才能實現,因此Google 使用64 塊TPU 組成16 個TPU 集群對其進行預訓練并發布了多種BERT 模型版本,其常用的兩種模型參數設置如表3 所示。本文選取BERT-Base-Chinese 模型進行實驗。

表3 BERT 模型參數設置Table 3 Setting of parameters for BERT model

2.5 結果分析

為驗證本文提出的BERT-BiLSTM-CRF 模型對于電機領域實體的識別性能,在同一實驗環境下,在實驗過程中加入BiLSTM-CRF[11]、BiLSTM-CNN[22]、BiGRU[23]3 種神經網絡模型作為對比模型,對實物、特性描述、問題/故障、方法/技術4 類實體進行識別,采用準確率、召回率以及F1 值對模型識別效果進行評估。4 種模型對不同實體的識別結果如表4所示。

表4 4 種模型對不同實體的識別結果Table 4 Recognition results of different entities by four models %

從表4 可以看出,BERT-BiLSTM-CRF 模型在對于數據集中標注數量較多的實物、特性描述類實體有較好的識別效果,實物類F1 值達到87.21%,特性描述類達到74.02%,而對于數據集中標注數量較少的問題/故障類和方法/技術類實體的識別效果稍差于上述兩類實體。在BiLSTM-CRF、BiLSTM-CNN和BiGRU 這3 種模型中,BiLSTM-CRF 模型在各項指標中均取得了較好的結果,本文在BiLSTM-CRF模型中加入BERT 預訓練模型,從實驗結果可以看出:實物類在3 項評價指標上均有一定的性能提升;問題/故障、方法/技術這2 類實體提升更為明顯,遠優于其他模型。這說明BERT 預訓練語言模型能使BERT-BiLSTM-CRF 模型具有更好的詞語表征能力,能充分學習文本的特征信息,尤其對于數據規模較小的特定領域實體,可以有效提升識別性能。

2.6 應用分析

在自建的電機領域數據集中,實物類的實體多數包含領域內的各種電機類型和電機內部零件,特性描述類主要包含領域中的電氣描述,本文自建的電機領域數據集的標注參考《GB/T 2900.1—2008 電工術語、基本術語》國家標準和相關從業人員的意見,因此具有一定的應用參考價值。對于問題/故障以及方法/技術類實體,所涉及的數量和定義還有待擴充,可根據實際電機領域的生產規范、最新學術研究成果等做進一步完善。

3 結束語

本文提出一種基于BERT-BiLSTM-CRF 的電機領域中文命名實體識別方法,將字符序列輸入到BERT 特征表示層,對每個字符進行編碼得到對應字符的字向量表示,同時利用BiLSTM 網絡層將字向量序列進行雙向編碼,通過CRF 推理層輸出概率最大的標簽序列并將其作為模型最終的預測標簽。在自制數據集上的實驗結果表明,該方法相比目前主流的實體識別方法具有更高的準確率、召回率和F1 值,且整體識別性能更優。但由于實驗在規模小且標注量較少的自制數據集上進行,模型對于數據集中標注量較多的實體類別具有更好的識別效果,而對于標注量較少的實體類別的識別能力有待提升,因此后續將拓展電機數據集規模,增加稀缺實體標注數量,并對電機領域中的實體做更細致的類別劃分,以提高模型對于稀缺實體類別的識別率。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 香蕉久人久人青草青草| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲成人在线免费观看| 国产精品视频系列专区| 黄色在线网| 亚洲综合专区| 色综合五月婷婷| 国产成人精品一区二区| 欧美综合中文字幕久久| 国产成人精品高清在线| 91视频青青草| 99久久精品无码专区免费| 色婷婷在线影院| 日日碰狠狠添天天爽| 人人妻人人澡人人爽欧美一区| 久久久久久午夜精品| 色欲色欲久久综合网| 亚洲欧洲日韩综合色天使| 无码免费试看| 美女扒开下面流白浆在线试听 | 欧美无遮挡国产欧美另类| 国产精品毛片一区视频播| 无码精品国产VA在线观看DVD | 久久久波多野结衣av一区二区| 91po国产在线精品免费观看| 波多野结衣二区| 亚洲激情区| 久久综合色天堂av| 人人澡人人爽欧美一区| 国产尤物视频网址导航| 一本二本三本不卡无码| 欧美日韩成人在线观看 | 久久夜色精品| 欧洲成人在线观看| 午夜激情福利视频| www.av男人.com| 日韩av高清无码一区二区三区| 欧美三级不卡在线观看视频| 国产丝袜啪啪| 伊人久久福利中文字幕| 青青草原国产免费av观看| 欧美成人免费一区在线播放| 天堂岛国av无码免费无禁网站| 欧美一区二区三区不卡免费| 91啪在线| 精品国产一区二区三区在线观看 | 国产一区自拍视频| 中文字幕在线不卡视频| 99国产在线视频| 日本亚洲欧美在线| 国产区在线看| 久久综合九色综合97婷婷| 国产丝袜丝视频在线观看| 特级aaaaaaaaa毛片免费视频 | 在线国产91| 亚洲一本大道在线| 在线看片国产| 4虎影视国产在线观看精品| 日本爱爱精品一区二区| 亚洲黄色片免费看| 中文字幕无线码一区| 国产手机在线观看| 福利一区三区| 久久久久青草大香线综合精品 | 欧美激情综合| 男女猛烈无遮挡午夜视频| 18禁黄无遮挡免费动漫网站| 欧美国产在线看| 在线观看91香蕉国产免费| 国产人在线成免费视频| 91蝌蚪视频在线观看| 国产精品网址在线观看你懂的| 亚洲男女天堂| 久久人人爽人人爽人人片aV东京热| 91欧洲国产日韩在线人成| 69精品在线观看| 日本一本在线视频| 日本三区视频| 国外欧美一区另类中文字幕| 亚洲精品无码专区在线观看| 亚洲大尺码专区影院| 中文字幕va|