摘要:針對電機領域命名實體識別困難、精度不高的問題,提出了一種基于BERT和多窗口門控CNN的電機領域命名實體識別模型。該模型首先利用BERT預訓練模型生成句子的字向量序列,根據電機領域文本的上下文動態微調字向量,增強字向量的語義表達;其次,構建具有全局時序特征感知單元和多窗口門控CNN單元的雙分支特征提取層,形成句子的多級語義特征表示;最后,通過CRF對字符序列進行解碼,得到每個字符對應的標簽。在小規模的自建電機領域數據集與多組模型進行的對比實驗結果表明,該模型命名實體識別性能均優于其他模型,macro-F1值達到了90.16%,驗證了該方法對電機領域實體識別的有效性。
關鍵詞:命名實體識別;電機領域;BERT模型;多窗口門控CNN;BiLSTM模型
中圖分類號:TP391.1文獻標志碼:A
文章編號:1001-3695(2023)01-018-0107-08
doi:10.19734/j.issn.1001-3695.2022.05.0278
Named entity recognition in motor field based on BERT and multi-window gated CNN
Zhang Zhiyuan1,Sun Shuihua2,Xu Shi’ao2,Xu Fan2,Liu Jianhua2
(1.Nanping Electric Power Supply Company,Nanping Fujian 353000,China;2.College of Computer Science amp; Mathematics,Fujian University of Technology,Fuzhou 350118,China)
Abstract:Aiming at the problems of difficult and low-accuracy named entity recognition in the motor field,this paper proposed a named entity recognition model in the motor field based on BERT and multi-window gated CNN.Firstly,the model used the BERT pre-training model to generate the character vector sequence of the sentence,and dynamically fine-tuned the character vector according to the context of the text in the motor field to enhance the semantic expression of the character vector;Secondly,it constructed a double-branch feature extraction layer with a global time sequential feature perception unit and a multi-window gated CNN unit to form a multi-level semantic feature representation of sentence;Finally,it used CRF to decode the character sequence to obtain the corresponding label of each character.The results of comparative experiments with multiple models on the small-scale self-built motor field data set show that the named entity recognition performance of the model is better than other models,with macro-F1 values reaching 90.16%,which verifies the effectiveness of entity recognition in motor field.
Key words:named entity recognition;motor field;BERT model;multi-window gated CNN;BiLSTM model
0引言
隨著新能源汽車、無人機、智能制造等市場的興起,電機行業得到了飛速的發展,其市場容量占比也逐漸增大。在大數據的時代背景下,互聯網中積累了大量電機領域工業技術文檔和科研文獻。為了從這些海量的非結構化數據中抽取出結構化的電機數據,實現數據可視化,提高數據檢索的準確性、智能性,完善電機領域的知識管理,使科研人員和工作人員能夠快速獲得所需的知識和信息,可以運用自然語言處理(natural language processing,NLP)技術構建電機領域知識圖譜。命名實體識別(named entity recognition,NER)任務作為知識圖譜構建過程中必不可少的任務,旨在提取非結構化文本數據中的專有名詞,是將非結構化的文本數據轉為結構化數據的重要研究方向,對實現電機領域信息化起著重要的作用,也為關系抽取[1]、事件抽?。?]、問答系統[3]等下游任務的研究提供重要的技術支持。
早期,命名實體識別方法主要有基于規則的方法和基于統計機器學習的方法。基于規則的方法是通過領域專家和語言學者手工制定的規則來識別命名實體,該方法容易實施、命名實體識別效果較好,但制定規則費時費力、領域遷移性差?;诮y計機器學習的方法通常依賴手工提取特征來保證系統的性能,該方法能夠學習特征之間的關聯性,但特征的設計需要實驗進行反復測試、調整和選擇。近年來,隨著神經網絡在圖像處理[4]和語音識別[5]領域的成功應用,深度學習的方法越來越多地被應用在自然語言處理任務中。深度學習可以自動學習句子特征,無須人工干預,實現端對端的處理,有效地提高了命名實體識別效果,但基于深度學習的命名實體識別任務模型通常需要大量的標注語料作為研究基礎,才能保證模型的性能。
通用領域命名實體識別任務已經取得不錯的效果[6],F1值大多可以達到90%以上。相較于通用領域,電機領域命名實體識別剛剛起步,只有少數學者進行有限的探索研究[7],面臨著諸多挑戰:a)沒有公開、可獲取的標注數據集資源,并且人工構造數據集費時費力,并且標注的數據集質量不高;b)通用領域的命名實體識別方法已經較為成熟,尤其是對人名、地名和組織機構名的識別效果較為理想,但針對通用領域語料設計的模型不適用于電機、電力、軍事和醫學等特定領域,例如,電機領域涉及到各種電機型號、電機特性、電機故障等實體,將通用領域技術遷移到該領域會導致識別效果不佳;c)各個領域的知識粒度不同且缺乏統一的規范性,會存在實體長度差別大、專業性強、實體間相互包含等多種情況。
如何從海量的電機領域文本中快速獲取知識,如何構建電機領域數據集并開展命名實體識別研究,引起了越來越多學者的關注。在現有的命名實體識別研究中,文獻[8,9]采用word2vec、GloVe等模型生成的靜態字向量不能根據文本上下文語境進行動態調整,導致命名實體識別模型性能不佳;文獻[10~12]在使用靜態字向量作為模型輸入時,分別通過增加詞嵌入、部首嵌入和句法信息來增強字向量的語義表示,并使用基于雙向長短期記憶網絡(bidirectional long-short term me-mory,BiLSTM)和條件隨機場(conditional random field,CRF)組合的單分支神經網絡模型學習句子的特征信息,但這些方法語義信息增強有限,且單分支神經網絡模型無法根據文本的特點學習到更多有助于分類的特征信息。
針對以上問題并結合電機文本的特點,本文在自建的小規模電機領域數據集上開展命名實體識別研究,提出了一種基于BERT(bidirectional encoder representation from transformers)和多窗口門控CNN(convolutional neural network)的電機領域命名實體識別模型。該模型主要由輸入特征層、特征提取層和預測輸出層三部分組成。輸入特征層采用BERT預訓練模型對文本中的每個字符進行編碼,得到表征能力更強的動態字向量,彌補了小規模電機文本語義信息不足的問題;特征提取層分別使用全局時序特征感知單元分支和多窗口門控CNN單元分支對全局時序特征和多粒度的局部特征進行感知,將全局時序特征和多粒度的局部特征拼接形成句子的整體特征;預測輸出層采用全連接層將整體特征映射到分類空間,并利用CRF學習前后標簽的約束信息,輸出概率最大的標簽序列,作為模型最終的預測標簽。本文的貢獻主要如下:a)從知網爬取電機領域文獻的摘要,對摘要文檔集進行去重、去噪等預處理,結合領域專家的意見確定電機領域實體類型,人工標注摘要文檔中的實體及其類型,構建小規模電機領域命名實體數據集;b)采用具有雙分支結構的特征提取層捕獲電機文本中蘊涵的不同類型特征,增強了模型的特征提取能力,提升了命名實體識別效果;c)構建了多窗口門控CNN單元,該單元分別使用不同卷積核大小的CNN、Tanh-ReLU門控單元和平均池化對局部特征進行感知和篩選,在增強局部特征語義信息的同時,緩解了梯度彌散的問題;d)在自建的小規模電機領域數據集上驗證了本文模型的性能,macro-F1值達到了90.16%。
1相關工作
由于電機領域命名實體識別任務正處于起步階段,只有少數學者進行有限的探索,研究技術還不夠成熟,所以需要參考現有通用領域和其他領域命名實體識別方法進行研究。命名實體識別最早在20世紀90年代的MUC-6會議中被提出。此后,該任務一直是自然語言處理領域研究的熱點問題。文獻[13]定義了一個種子規則集,使用未標注語料在該種子規則集上進行無監督學習得到更多規則,將擴充后的規則集用于命名實體識別,該方法對人名、地名、組織機構名的識別準確率均超過了91%。文獻[14]采用基于統計機器學習的方法進行命名實體識別,通過使用少量的標注語料,結合大量未標注語料,聯合訓練支持向量機(support vector machine,SVM)和條件隨機場(conditional random field,CRF)模型,相較于單個模型,F1值提高了10%。
基于深度學習的命名實體識別方法能自動學習句子中的隱含特征,不依賴特征工程。文獻[15]使用卷積神經網絡(convolutional neural network,CNN)自動提取句子特征并加入句子級的對數似然函數進行命名實體識別,實驗結果表明該模型性能取得較好提升;文獻[16]首次將長短期記憶神經網絡(long short-term memory,LSTM)用于命名實體識別任務中,在英文數據集和德文數據集的實驗結果表明,該方法的命名實體識別性能得到有效提升;文獻[17]在文獻[16]基礎上提出雙向長短期記憶網絡(bidirectional long short-term memory,BiLSTM),從前向和后向對句子進行分析,學習句子的上文信息和未來的下文信息,并使用CRF層增強標簽之間的約束信息,該模型解決了LSTM只能提取單向文本特征的問題,命名實體識別效果進一步提升;文獻[18]使用CNN-BiLSTM-CRF模型和電力計量領域的中文分詞模型進行聯合學習,在自建的電力計量領域數據集的實驗結果表明,該方法的命名實體識別性能優于其他模型;文獻[19]提出一種柵格LSTM-CRF的命名實體識別模型,該模型在字符級LSTM-CRF結構的基礎上結合詞語級的LSTM單元組件,有效地利用了字符級信息和文本中所有可能的詞語級信息,在多個數據集上的F1值均得到了進一步提高;文獻[20]在文獻[19]的基礎上加入帶有位置信息的多孔格子感知注意力機制,該方法能夠對數據進行批量處理,增強字符和匹配詞之間的依賴性,在四個數據集上的實驗結果表明該模型識別效果和解碼速度均得到較大提升。
隨著模型網絡層數加深,信息傳遞過程中會出現梯度彌散的現象,導致模型性能降低。文獻[21]將門控機制加入CNN中,利用多層CNN提取句子長距離依賴信息,并分別引入門控線性單元(gated linear unit,GLU)和門控雙曲正切單元(gated tanh unit,GTU)控制層次結構中信息的傳遞,減緩了梯度消失問題,加快模型的收斂速度,相較于LSTM模型,該模型的測試效果更好,訓練速度更快;文獻[22]提出一種基于門控空洞卷積的中文命名實體識別模型,該模型利用空洞卷積增加感受野范圍,捕獲多尺度上下文信息,并引入帶有殘差連接的門控機制,降低無效信息的影響,緩解了梯度消失的問題,與基于BiLSTM-CRF的命名實體識別模型相比,該模型的性能和效率有較大提升。
目前,自然語言處理領域使用較為廣泛的預訓練語言模型有word2vec、GloVe,但這些模型訓練得到的字向量為靜態字向量,字和詞的語義信息不能根據具體任務的上下文語境進行動態調整。針對此問題,谷歌團隊提出了BERT預訓練語言模型[23],該模型能夠對字符進行編碼形成字向量,并根據具體任務上下文語境動態微調字向量。文獻[24]利用BERT預訓練模型得到每個字符的動態字向量,將其作為BiLSTM-CRF模型的輸入,實驗結果表明該模型能有效提升命名實體識別性能;文獻[25]在BERT-BiLSTM-CRF模型的基礎上加入迭代膨脹卷積神經網絡(iterated dilated convolutional neural network,IDCNN),該模型能夠提取句子的全局特征和局部特征,在初等數學數據集上的實驗結果表明,該方法的命名實體識別的性能優于其他模型。
2模型介紹
本文構建了一種基于BERT和多窗口門控CNN的電機領域命名實體識別模型,該模型包括輸入特征層、特征提取層和預測輸出層三個部分,模型架構如圖1所示。
2.1輸入特征層
為了解決傳統靜態字向量無法根據具體任務的上下文語境進行動態調整的問題,本文采用BERT預訓練模型對電機文本中的每個字符進行編碼,得到表征能力更強的動態字向量。BERT模型具有很強的擴展能力,幾乎所有NLP任務都可以使用預訓練和微調兩階段的解決思路。在電機領域,BERT模型首先將從海量無標注語料中學習到的豐富的語言學知識特征進行遷移學習,解決數據低資源的問題;然后在小規模的電機領域標注數據集上進行微調,得到字向量具有強大的表征能力,能夠有效區分多義詞在不同上下文中的含義。
BERT預訓練模型由多層雙向Transformer編碼器[26]構成,該模型通過大規模無標注語料訓練得到,模型訓練分為預訓練階段和動態微調階段。預訓練階段的輸入由字向量(token embeddings)、句子向量(segment embeddings)以及位置向量(position embeddings)三部分組成,通過掩碼語言模型(masked language model)和下一句預測(nest sentence prediction)對雙向Transformer編碼器進行預訓練生成具有豐富語義特征的字向量表示;動態微調階段則根據具體任務對字向量進行動態微調,形成包含該任務文本上下文語境的動態字向量表示。本文使用BERT預訓練模型生成句子S={s1,s2,…,sn}的字向量序列,根據電機領域文本的上下文動態微調字向量,形成動態字向量矩陣X={x1,x2,…,xn}∈Euclid Math TwoRApn×dc,其中xi∈Euclid Math TwoRApdc為第i個字符的字向量,dc表示BERT預訓練模型輸出的字向量維度。
2.2特征提取層
特征提取層采用全局時序特征感知單元分支和多窗口門控CNN單元分支分別感知電機文本的全局時序特征和多粒度局部特征,形成句子的多級語義特征表示。
2.2.1全局時序特征感知單元
為捕獲句子的全局時序特征,本文利用BiLSTM和multi-head attention對句子的全局時序特征進行感知和篩選,其結構如圖1中的全局時序特征感知單元(global time series feature perception unit,GTSFPU)所示。
1)BiLSTM模塊BiLSTM相較于傳統的RNN,解決了長距離依賴問題和梯度消失問題,且能從前向和后向對字向量序列進行分析。本文將動態字向量X={x1,x2,…,xn}作為BiLSTM的輸入,經過BiLSTM的前向和后向LSTM[27]編碼后生成隱藏狀態序列={hf1,hf2,…,hfn}和={hb1,hb2,…,hbn},將和拼接得到BiLSTM的輸出,其計算如式(1)所示。
H=⊕={hf1⊕hb1,hf2⊕hb2,…,hfn⊕hbn}=
{h1,h2,…,hn}(1)
其中:全局時序特征H∈Euclid Math TwoRApn×dh;hi∈Euclid Math TwoRApdh表示第i個字符BiLSTM的輸出;dh表示BiLSTM隱藏層的維度;⊕為級聯操作。
2)multi-head attention模塊考慮到全局時序特征H中不同成分信息對模型分類結果影響不同,本文在BiLSTM層后引入multi-head attention機制對隱藏層的輸出H作進一步處理。本文使用的multi-head attention機制結構如圖2所示。首先,將全局時序特征H通過三次線性變換得到詢問矩陣Q、鍵矩陣K以及值矩陣V,其計算如式(2)~(4)所示。
Q=HWQ(2)
K=HWK(3)
V=HWV(4)
其中:Q,K,V∈Euclid Math TwoRApn×dh,WQ,WK,WV∈Euclid Math TwoRApdh×dh為權重矩陣。其次,將Q、K、V線性投影到h個不同的子空間,具體處理過程為
[Q1,Q2,…,Qh]=[QWQ1,QWQ2,…,QWQh]
[K1,K2,…,Kh]=[KWK1,KWK2,…,KWKh]
[V1,V2,…,Vh]=[VWV1,VWV2,…,VWVh](5)
其中:Qi,Ki,Vi∈Euclid Math TwoRApn×(dh/h),轉換矩陣WQi,WKi,WVi∈Euclid Math TwoRApdh×(dh/h),i=[1,2,…,h]。
最后,利用多頭注意力計算h個平行子空間的注意力權重,并將不同子空間內學習到的相關權重信息進行拼接得到具有不同權重信息的全局時序特征M,其計算為
headi=attention(Qi,Ki,Vi)=softmax(QiKTidh)Vi(6)
M=(head1⊕head2⊕…⊕headi)WM(7)
其中:WM∈Euclid Math TwoRApdh×dh為權重矩陣;headi∈Euclid Math TwoRApn×(dh/h)為第i個子空間的注意力值;M={m1,m2,…,mn}∈Euclid Math TwoRApn×dh;h表示子空間個數,即注意力頭的數量。
2.2.2多窗口門控CNN單元
電機文本中存在較多特殊情況,例如包含“轉子”的實體“轉子鐵心”和“轉子斷條”分別屬于實物類別和問題/故障類別,因此提取局部特征信息在電機領域命名實體識別任務中十分重要。本文構建多窗口門控CNN單元,用于充分提取電機文本的多粒度局部特征。該單元首先使用不同大小的卷積核來提高CNN的局部特征感知能力;其次,通過Tanh-ReLU門控單元(tanh-ReLU gated unit,T-RGU)控制特征信息傳遞的力度,緩解梯度彌散的問題,增強局部特征的語義信息;最后,采用平均池化對特征進行整合形成最終的多粒度局部特征信息。多窗口門控CNN單元(multi-window gated CNN unit,MGCNNU)結構如圖3所示。
考慮到電機文本中命名實體長度大多數為3~7個漢字,本文使用大小為3×dc、5×dc和7×dc的卷積核提取不同粒度的局部特征信息。為確保經過不同卷積核卷積后的句子長度與輸入句子長度一致,采用same padding策略[28]對輸入句子進行零向量填充。MGCNNU的輸入為動態字向量矩陣X∈Euclid Math TwoRApn×dc,使用大小相同的不同卷積核對第i個字符對應的局部特征進行提取,計算過程如式(8)所示。
aki=CNN(Xi-(k-12):i+(k-12),Wa,ba)
bki=CNN(Xi-(k-12):i+(k-12),Wb,bb) (8)
其中:aki,bki∈Euclid Math TwoRApdm,k為卷積核的窗口大小(k取值為3、5、7);Wa,Wb∈Euclid Math TwoRAp(k×dc)×dm為大小相同的不同卷積核權重矩陣,卷積核大小均為k×dc,dm為卷積核的個數;ba,bb∈Euclid Math TwoRApdm為偏置向量;Xi-(k-12):i+(k-12)∈Euclid Math TwoRApk×dc為第i-(k-12)個字符到i+(k-12)個字符的字向量序列。輸入的字向量矩陣X經過卷積后生成的局部特征矩陣Ak,Bk∈Euclid Math TwoRApn×dm如式(9)所示。
Ak={ak1,ak2,…,aki,…,akn}
Bk={bk1,bk2,…,bki,…,bkn}(9)
為了增強不同粒度局部特征的語義信息,本文構建了T-RGU對多窗口CNN輸出的特征信息Ak、Bk進行激活操作。與文獻[21]中的GLU和GTU相比,T-RGU擁有線性整流激活函數(rectified linear unit,ReLU)[29],能夠提高運算和收斂速度,使梯度更容易通過激活單元,反向傳播時梯度不會減小,解決梯度消失的問題。在相同的訓練時間下,T-RGU可以提高神經網絡預測的精度。使用GLU處理多窗口CNN輸出的特征信息可以表示為OutGLU=Aksigmoid(Bk),使用GTU可以表示為OutGTU=tanh(Ak)sigmoid(Bk),本文的T-RGU具體實現公式如式(10)所示。
Ck=ReLU(Ak)tanh(Bk)(10)
其中:為矩陣中的對應元素相乘;Ck∈Euclid Math TwoRApn×dm為T-RGU的輸出。
為了減少模型的參數數量以及整合不同粒度局部特征的語義信息,本文采用平均池化處理T-RGU的輸出。首先,將不同粒度局部特征Ck中每一個字符相應特征維度的值取平均得到每個字符最終的多粒度局部特征信息gi∈Euclid Math TwoRApdm;其次,將n個字符最終的多粒度局部特征信息進行拼接得到MGCNNU的輸出G∈Euclid Math TwoRApn×dm。圖4展示了本文使用的平均池化層結構,其計算過程如式(11)~(13)所示。
gi,j=average{c3i,j,c5i,j,…,cki,j}(11)
gi={gi,1,gi,2,…,gi,j,…,gi,dm}(12)
G={g1,g2,…,gi,…,gn}(13)
其中:cki,j表示Ck中第i個字符局部特征的第j維的值。
2.3預測輸出層
在進行標簽預測之前,將GTSFPU生成的全局時序特征M和MGCNNU生成的多粒度局部特征G進行拼接,得到用于分類的整體特征表示O∈Euclid Math TwoRApn×(dh+dm),如式(14)所示。
O=M⊕G(14)
本文利用全連接層將整體特征O映射到r個分類標簽空間,得到預測信息P,如式(15)所示。
P=OWp+bp(15)
其中:P∈Euclid Math TwoRApn×r,n為句子的長度,r為標簽集合中標簽的個數;Wp∈Euclid Math TwoRAp(dh+dm)×r為全連接層的權重矩陣,bp∈Euclid Math TwoRApr為偏置向量。
CRF能夠考慮相鄰標簽的關系,增強前后標簽的約束信息,獲得一個全局最優的標簽序列,這些約束信息可以在訓練數據時被CRF層自動學習得到。因此,本文使用CRF對預測信息P進行標簽預測,以獲得最優標簽序列。模型輸入序列為X={x1,x2,…,xn},對于一個預測標簽序列y={y1,y2,…,yn},它的概率可以表示為
S(X,y)=∑ni=1Pi,yi+∑ni=0Ayi,yi+1(16)
其中:P為狀態矩陣,Pi,yi表示第i個字符的預測標簽是yi的概率,yi為標簽集合中的一個,A為轉移矩陣,Ayi,yi+1表示由標簽yi轉移到標簽yi+1的概率,y0和yn+1表示預測句子起始和結束的標簽,A是一個大小為r+2的方陣。預測標簽序列y歸一化后的概率如式(17)所示。
p(y|X)=eS(X,y)∑∈YXeS(X,)(17)
其中:YX表示所有可能的標簽序列集合,包括不符合BIO標記規則的標簽序列,表示YX中的一個可能標簽序列。在訓練過程中,利用對數似然方法最大化正確標簽序列的似然概率p(y|X)。
log(p(y|X))=S(X,y)-log(∑∈YXeS(X,))(18)
通過式(18)可以得到有效合理的輸出序列。解碼時,使用維特比算法預測輸出整體概率最大的一組標簽序列y*,如式(19)所示。
log (p(y|X))=S(X,y)-log (∑∈YXeS(X,))(19)
3實驗與結果
3.1電機領域數據集構建
3.1.1電機領域實體類別定義
從知網爬取電機領域文獻的摘要文本,對獲取的摘要文本集進行去重、去噪處理,人工標注摘要文本中電機領域的命名實體,構建電機領域命名實體識別實驗數據集。參照文獻[7]命名實體定義方法,本文的電機領域實體類別定義如表1所示。
3.1.2電機領域實體人工標注及其策略
命名實體的標注策略有BIO、BIEO和BIOES等。本實驗采用BIO標注策略,“B”表示實體第一個字,“I”表示該實體的其余部分,“O”表示非實體。對應電機領域四種命名實體類別,將實體的第一個字符標注為“B-(實體類別)”,實體的其余字符標注為“I-(實體類別)”,非命名實體的字符均標注為“O”。實體類別使用各個類別的簡寫字母表示,標簽共有九類:B-N、I-N、B-C、I-C、B-P、I-P、B-M、I-M、O,電機領域命名實體標注示例如圖5所示。
電機領域文本中涉及的術語專業性強,標注過程中常會出現實體邊界難以界定的情況。例如,文本片段“電機轉子能夠更加穩定”可標注為“電/B-N 機/I-N 轉/I-N 子/I-N 能/O 夠/O 更/O 加/O 穩/O 定/O”,也可標注為“電/B-N 機/I-N 轉/B-N 子/I-N 能/O 夠/O 更/O 加/O 穩/O 定/O”;文本片段“實時檢測電機電流”可標注為“實/O 時/O 檢/O 測/O 電/B-C 機/I-C電/I-C 流/I-C”,也可標注為“實/O 時/O 檢/O 測/O 電/B-N 機/I-N電/B-C 流/I-C”。為了確保電機領域文本中相同實體單詞標注的一致性,需要在查閱相關資料和咨詢領域專家意見的基礎上,對電機領域命名實體進行統一標注。本文構建的電機領域命名實體數據集中共包含3 271個句子,將其按7:3劃分為訓練集和測試集,各類別實體數統計如表2所示。
3.2評測指標
本實驗采用準確率(P)、召回率(R)和F1-score(F1)三個通用的評測指標對電機領域命名實體識別模型性能進行評價。三種評測指標的具體定義如式(20)~(22)所示。
P=正確識別的實體數識別的實體總數×100%(20)
R=正確識別的實體數數據集中的實體總數×100%(21)
F1=2×P×RP+R×100%(22)
為了對模型的整體識別性能進行評價,本實驗采用宏平均(macro-averaging)評測指標計算電機領域數據集中所有實體類別的宏平均macro-P、macro-R、macro-F1值。首先通過式(20)~(22)分別計算各實體類別的P、R、F1值,然后對所有實體類別的P、R、F1值取算數平均,得到模型的宏平均macro-P、macro-R、macro-F1值,計算公式如式(23)~(25)所示。
macro-P=1n∑ni=1Pi(23)
macro-R=1n∑ni=1Ri(24)
macro-F1=2×macro-P×macro-Rmacro-P+macro-R×100%(25)
其中:n為實體類別數量。
3.3超參數設置
實驗中使用了BERT-Base的中文版本,其參數詳見文獻[23]。本文構建的電機領域命名實體識別模型的主要超參數設置如表3所示。
3.4實驗結果及分析
為了驗證本文構建的基于BERT和多窗口門控CNN的電機領域命名實體識別模型性能,在同一實驗環境下與BiLSTM-CRF、BiGRU-CRF、BERT-BiGRU-CRF和BERT-IDCNN-CRF四個命名實體識別模型進行對比實驗。在電機領域數據集上,本文模型以及對比模型的實物(N)、特性描述(C)、問題/故障(P)、方法/技術(M)四類實體識別的P、R、F1值和各模型的macro-P、macro-R、macro-F1值如表4所示,五種模型的macro-F1值隨訓練迭代次數變化曲線如圖6所示。
從表4可以看出,本文模型的實物(N)、問題/故障(P)、方法/技術(M)三類實體的P、R、F1值均高于對比模型,F1值分別達到92.90%、89.44%、88.89%。與BiLSTM-CRF和BiGRU-CRF模型相比,BERT-BiGRU-CRF模型在各類實體識別效果和整體識別效果得到大幅提升,說明BERT預訓練模型能夠根據電機領域文本的上下文動態微調字向量,增強字向量的語義表達,對于數據規模較少的特定領域實體,可有效提升識別性能。與BERT-BiGRU-CRF模型相比,BERT-IDCNN-CRF模型的識別效果也均有一定提升,這是因為IDCNN在擴大感受野的同時還能對電機文本的局部特征進行感知。相較于前四種模型,除了特性描述(C)類實體,本文模型在其他各類實體和整體的P、R、F1值均為最優,模型的macro-F1值達到90.16%,比其他四種模型分別提高了9.11%、8.2%、3.6%、1.73%,說明本文模型引入的BERT預訓練模型和雙分支特征提取層,在提升電機文本字向量表征能力的同時,還能利用GTSFPU和MGCNNU捕獲電機文本的全局時序特征和多粒度局部特征,有效提升電機領域命名實體識別性能。
從表4還可以看出,本文模型對實物(N)命名實體的識別效果較好,其原因是訓練集中實物(N)命名實體數多于其他三類命名實體數,這有助于模型學習到更多關于實物(N)命名實體的類別信息。表明隨著電機領域數據集規模的增加,本文設計的命名實體識別模型的性能將有望進一步提升。
從圖6可以看出,在剛開始的第1~4次迭代時,五種模型的macro-F1值均快速上升;在4~20次迭代時,五種模型的macro-F1值均能維持到一個穩定的數值,并在一個較小范圍上下波動;在第20次迭代后,五種模型的macro-F1值曲線更加平穩,幾乎沒有波動。從圖6還可以看出,本文模型的整體識別效果優于其他四種模型的識別效果,并在第13次迭代達到最優macro-F1值90.16%。為了進一步探討以上五種模型對命名實體識別性能的影響,本文在電機領域數據集上選取了實驗案例進行分析。各類實體的標記方式如下,其中XX表示文字,下畫線表示不同實體類別的標識。
實物(N):XXXX;特性描述(C):XXXX;
問題/故障(P):XXXX;方法/技術(M):XXXX。
BiLSTM-CRF和BiGRU-CRF的標記結果如下:
定子繞組產生匝間短路是永磁同步電機最常見的故障之一。該故障會造成三相電流不平衡。故障嚴重時,過大的電流會燒毀繞組。為了解決匝間短路故障產生的問題,課題組此前提出了一種具有故障自動容錯能力的永磁同步電機。
BERT-BiGRU-CRF的標記結果如下:
定子繞組產生匝間短路是永磁同步電機最常見的故障之一。該故障會造成三相電流不平衡。故障嚴重時,過大的電流會燒毀繞組。為了解決匝間短路故障產生的問題,課題組此前提出了一種具有故障自動容錯能力的永磁同步電機。
BERT-IDCNN-CRF的標記結果如下:
定子繞組產生匝間短路是永磁同步電機最常見的故障之一。該故障會造成三相電流不平衡。故障嚴重時,過大的電流會燒毀繞組。為了解決匝間短路故障產生的問題,課題組此前提出了一種具有故障自動容錯能力的永磁同步電機。
本文模型的標記結果如下:
定子繞組產生匝間短路是永磁同步電機最常見的故障之一。該故障會造成三相電流不平衡。故障嚴重時,過大的電流會燒毀繞組。為了解決匝間短路故障產生的問題,課題組此前提出了一種具有故障自動容錯能力的永磁同步電機。
從上述案例可以看出,BiLSTM-CRF和BiGRU-CRF模型不能準確識別實體邊界,出現了永磁同步電機(屬于實物類實體)漏識和三相電流不平衡(屬于問題/故障類實體)錯識的情況,其原因這兩種模型使用的字向量為靜態字向量,該字向量為固定值,字和詞的語義信息不能根據任務文本的上下文語境進行動態調整,使得最終的識別準確率較低;相較于BiLSTM-CRF和BiGRU-CRF,BERT-BiGRU-CRF和BERT-IDCNN-CRF的,實體邊界的識別更加準確,分別將永磁同步電機和三相電流不平衡預測錯誤;相較于其他四種模型,本文模型識別準確率最高,案例中的全部實體類別均預測正確,其原因是本文所使用的BERT預訓練模型和雙分支特征提取層對命名實體識別有積極的效果。
3.5消融分析
3.5.1不同激活操作對模型性能的影響
在MGCNNU中,本文構建了T-RGU作為激活操作。為了驗證T-RGU對模型性能的影響,在電機領域數據集上分別使用ReLU激活函數、GLU、GTU三種激活操作替換T-RGU進行對比實驗,實驗結果如圖7所示。
從圖7可以看出,在電機領域數據集上,使用T-RGU作為MGCNNU的激活操作時模型的macro-F1值高于分別使用ReLU激活函數、GLU、GTU三種激活操作時模型的macro-F1值。實驗結果表明,在MGCNNU中使用T-RGU作為激活操作時能夠有效提升模型性能,這是因為T-RGU能夠控制特征信息傳遞的力度,緩解梯度彌散的問題,增強不同粒度局部特征的語義信息。
3.5.2不同組件對模型性能的影響
本文在BERT-CRF模型的基礎上依次引入BiLSTM、multi-head attention、MGCNNU,為研究每個組件對模型性能的影響,在電機領域數據集上進行了對比實驗,實驗結果如表5所示。
從表5可以看出,BERT-CRF模型在電機領域數據集上的macro-F1值為86.55%。引入BiLSTM后,BERT-BiLSTM-CRF模型的macro-F1值提高了1.5%,表明BiLSTM捕獲的全局時序特征對模型的命名實體識別效果產生了積極的影響。在BERT-BiLSTM-CRF的基礎上添加multi-head attention模塊,BERT-BiLSTM-Attention-CRF模型比BERT-BiLSTM-CRF模型的macro-F1值提高了0.52%,其原因是multi-head attention可以增強模型對句子中關鍵字的利用,使得命名實體識別模型性能有效提高。在BERT-BiLSTM-Attention-CRF模型的基礎上再添加MGCNNU模塊,BERT-BiLSTM-Attention-MGCNNU-CRF模型比BERT-BiLSTM-Attention-CRF的macro-F1值提高了1.59%,表明在MGCNNU中使用多窗口CNN可以有效捕獲文本的多粒度局部特征信息,T-RGU激活操作能夠解決梯度彌散的問題,增強不同粒度局部特征的語義信息,從而進一步提升模型的命名實體識別效果。
3.6不同超參數設置對模型性能的影響
為了驗證超參數設置對模型性能的影響,在電機領域數據集上,分別測試不同句子長度(64、100、128和150)和不同LSTM隱藏層單元數(100、150、200和250)對本文模型macro-F1值的影響。不同句子長度對模型macro-F1值的影響如圖8所示,不同LSTM隱藏層單元數對模型macro-F1值的影響如圖9所示。從圖8可以看出,在電機領域數據集上,當其他超參數不變時,句子長度設置128時本文模型取得最高的macro-F1值。從圖9可以看出,當其他超參數不變時,LSTM隱藏層單元數設置200時本文模型取得最高的macro-F1值。由此證明,不同超參數設置會影響模型的命名實體識別性能。
3.7誤差分析
在電機領域數據集上,采用混淆矩陣將模型對各類命名實體標簽的預測結果與真實結果進行比較,如圖10所示??紤]到電機領域數據集的非實體數較多,未在混淆矩陣中列出各類標簽預測成非實體的情況。本實驗最大句子長度設置為128,當測試集中句子的字符個數超過128,模型自動忽略該句子中第128個字符之后的字符,不對這部分中實體進行預測,因此混淆矩陣中的實體個數少于數據集中的實體個數?;煜仃囍袑蔷€上數值表示各類標簽正確預測的結果,其他區域反映模型對各類標簽預測結果的誤差分布。從圖10可以看出,本文模型容易將電機領域命名實體測試集中的B-M、I-M、B-P、I-P類標簽預測錯誤,這是因為語料中M和P類實體存在較多實體相互嵌套的情況,使得命名實體邊界難以確定并導致實體類別標簽識別錯誤。例如,文本片段“以等效電流法為基礎”正確的標簽為“以/O 等/B-M 效/I-M 電/I-M 流/I-M 法/I-M 為/O 基/O 礎/O”,而本文模型錯誤預測為“以/O 等/O 效/O 電/B-C 流/I-C 法/O 為/O 基/O 礎/O”。
3.8本文模型在電機領域的先進性
經過查找文獻,僅有一位學者對電機領域中文命名實體識別進行了研究[7],并且該學者使用的數據集與本文使用的數據集為各自構建的。為了證明本文模型在電機領域命名實體識別的先進性,將本文模型和文獻[7]模型在各自自建的電機領域數據集上對各類命名實體的識別效果進行對比,對比實驗結果如表6所示。
從表6的數據可以看出,在各自自建的電機領域數據集上,本文模型對各類實體的P、R、F1值均高于文獻[7]。究其原因有以下兩點:a)相較于文獻[7]自建的電機領域數據集中實體的數量,本文自建的電機領域數據集中實體的數量更多,使得模型訓練的效果更好;b)相較于文獻[7]使用的單分支特征提取層,本文模型使用的雙分支特征提取層對動態字向量中的語義特征提取更加充分,對各類實體的識別準確率都能得到不錯的提升。
3.9模型的遷移能力
為了驗證本文提出模型的領域遷移能力,在通用領域的MSRA和人民日報數據集上與目前最先進的模型進行對比實驗。MSRA和人民日報數據集分別由微軟亞洲研究院提供和北京大學提供,這兩個數據集是基于新聞領域語料,均包含三種相同的實體類別:人名(PER)、地名(LOC)、組織機構名(ORG)。表7展示了本文提出的模型與兩個數據集上具有代表性模型的對比實驗結果。表7的數據顯示本文模型的性能優于MSRA數據集上對比模型的性能,F1值達到了95.00%。相較于以靜態詞向量作為模型輸入的Five-Stroke-CNN-BiRNN-CRF模型[30]、Radical-BiLSTM-CRF模型[31]、DEM-BiLSTM-CRF 模型[10]和Lattice LSTM模型[19],本文模型的F1值分別提高了3.33%、5.9%、4.92%和1.82%;相較于以動態詞向量作為輸入的BERT-BiLSTM-CRF[32]模型和PLTE-BERT[20]模型,本文模型的F1值分別提高0.79%和0.47%。從表7的數據還可以看出,在人民日報數據集上本文模型的性能優于其他對比模型的性能,F1值達到94.95%,與Radical-BiLSTM-CRF模型[31]和BERT-BiLSTM-CRF[32]模型相比,F1值分別提高了5.53%和0.21%。實驗結果表明,本文模型在通用領域的兩個數據集上命名實體識別性能較好、領域遷移能力較強。
4結束語
本文針對電機領域命名實體識別任務中使用傳統的靜態字向量表征語義信息能力不強以及采用單分支神經網絡特征提取不充分的問題,提出了一種基于BERT和多窗口門控CNN的電機領域命名實體識別模型。該模型首先利用BERT預訓練模塊生成契合電機領域文本的動態字向量;其次,構建GTSFPU單元和MGCNNU單元分別感知文本的全局時序特征和多粒度局部特征;最后,將全局時序特征和多粒度局部特征拼接并通過預測輸出層進行命名實體識別。在自建的小規模電機領域命名實體識別數據集上的實驗結果表明,本文模型的macro-F1值優于當前主流模型。命名實體識別性能提高可為電機領域知識圖譜的構建、信息抽取等工作提供幫助;同時,本文數據集的構建以及命名實體識別模型的搭建也為其他專業領域提供解決問題的思路。在未來的工作中,將在本文基礎上擴展電機領域數據集的規模,增加各類實體的數量,對實體類別進行更為細致的劃分,并嘗試構建能夠反映句子中各個單詞之間語法關系的依存語法樹融入模型,以進一步提升命名實體識別模型性能。
參考文獻:
[1]Liu Jin,Yang Yihe,He Huihua.Multi-level semantic representation enhancement network for relationship extraction[J].Neurocompu-ting,2020,403(11):282-293.
[2]Zhao Weizhong,Zhang Jinyong,Yang Jincai,et al.A novel joint biomedical event extraction framework via two-level modeling of documents[J].Information Sciences,2020,550:27-40.
[3]Do P,Phan T H V.Developing a BERT based triple classification model using knowledge graph embedding for question answering system[J].Applied Intelligence,2022,52:1-16.
[4]孟琭,孫霄宇,趙濱,等.基于卷積神經網絡的鐵軌路牌識別方法[J].自動化學報,2020,46(3):518-530.(Meng Lu,Sun Xiaoyu,Zhao Bin,et al.An identification method of high-speed railway sign based on convolutional neural network[J].Acta Automatica Sinica,2020,46(3):518-530.)
[5]Nassif A B,Shahin I,Attili I,et al.Speech recognition using deep neural networks:a systematic review[J].IEEE Access,2019,7:19143-19165.
[6]Zhang Zhiyuan,Sun Shuihua,Xu Shiao,et al.A multi-feature fusion method based on BiLSTM-Attention-CRF for Chinese named entity recognition[J].Journal of Network Intelligence,2021,6(3):518-534.
[7]顧亦然,霍建霖,楊海根,等.基于BERT的電機領域中文命名實體識別方法[J].計算機工程,2021,47(8):78-83,92.(Gu Yiran,Huo Jianlin,Yang Haigen,et al.Chinese named entity recognition method in motor field based on BERT[J].Computer Engineering,2021,47(8):78-83,92.)
[8]殷章志,李欣子,黃德根,等.融合字詞模型的中文命名實體識別研究[J].中文信息學報,2019,33(11):95-100,106.(Yin Zhangzhi,Li Xinzi,Huang Degen,et al.Chinese named entity recognition ensembled with character[J].Journal of Chinese Information Processing,2021,33(11):95-100,106.)
[9]李明揚,孔芳.融入自注意力機制的社交媒體命名實體識別[J].清華大學學報:自然科學版,2019,59(6):461-467.(Li Ming-yang,Kong Fang.Combined self-attention mechanism for named entity recognition in social media[J].Journal of Tsinghua University:Science and Technology,2019,59(6):461-467.)
[10]Zhang Naixin,Li Feng,Xu Guangluan,et al.Chinese NER using dynamic meta-embeddings[J].IEEE Access,2019,7:64450-64459.
[11]Dong Chuanhai,Zhang Jiajun,Zong Chengqing,et al.Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M].Berlin:Springer,2016:239-250.
[12]Lin B Y,Xu F F,Luo Zhiyi,et al.Multi-channel BiLSTM-CRF model for emerging named entity recognition in social media[C]//Proc of the 3rd Workshop on Noisy User-generated Text.2017:160-165.
[13]Collins M,Singer Y.Unsupervised models for named entity classification[C]//Proc of Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.1999:100-110.
[14]Ke Xiao,Li Shaozi.Chinese organization name recognition based on co-training algorithm[C]//Proc of the 3rd International Conference on Intelligent System and Knowledge Engineering.Piscataway,NJ:IEEE Press,2008:771-777.
[15]Collobert R,Weston J,Bottou L,et al.Natural language processing(almost) from scratch[J].Journal of Machine Learning Research,2011,12(76):2493-2537.
[16]Hammerton J.Named entity recognition with long short-term memory[C]//Proc of the 7th Conference on Natural Language Learning.Stroudsburg:ACL,2003:172-175.
[17]Lample G,Ballesteros M,Subramanian S,et al.Neural architectures for named entity recognition[EB/OL].(2016).https://arxiv.org/abs/1603.01360.
[18]肖勇,鄭楷洪,王鑫,等.基于聯合神經網絡學習的中文電力計量命名實體識別[J].浙江大學學報:理學版,2021,48(3):321-330.(Xiao Yong,Zheng Kaihong,Wang Xin,et al.Chinese named entity recognition in electric power metering domain based on neural joint learning[J].Journal of Zhejiang University:Science Edition,2021,48(3):321-330.)
[19]Zhang Yue,Yang Jie.Chinese NER using lattice LSTM[EB/OL].(2018).https://arxiv.org/abs/ 1805.02023.
[20]Xue Mengge,Yu Bowen,Liu Tingwen,et al.Porous lattice transformer encoder for Chinese NER[C]//Proc of the 28th International Confe-rence on Computational Linguistics.Stroudsburg,PA:ACL,2020:3831-3841.
[21]Dauphin Y N,Fan A,Auli M,et al.Language modeling with gated convolutional networks[C]//Proc of International Conference on Machine Learning.2017:933-941.
[22]王笑月,李茹,段菲.一種基于門控空洞卷積的高效中文命名實體識別方法[J].中文信息學報,2021,35(1):72-80.(Wang Xiaoyue,Li Ru,Duan Fei,et al.An efficient Chinese named entity recognition method based on gated-dilated convolution[J].Journal of Chinese Information Processing,2021,35(1):72-80.)
[23]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].(2018).https://arxiv.org/abs/ 1810.04805.
[24]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機科學,2019,46(S2):138-142.(Wang Ziniu,Jiang Meng,Gao Jianling,et al.Chinese named entity recognition method based on BERT[J].Computer Science,2019,46(S2):138-142.)
[25]張毅,王爽勝,何彬,等.基于BERT的初等數學文本命名實體識別方法[J].計算機應用,2022,42(2):433-439.(Zhang Yi,Wang Shuangsheng,He Bin,et al.Named entity recognition method of elementary mathematical text based on BERT[J].Journal of Computer Applications,2022,42(2):433-439.)
[26]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017,30:5998-6008.
[27]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[28]Wiranata A,Wibowo S A,Patmasari R,et al.Investigation of padding schemes for faster R-CNN on vehicle detection[C]//Proc of International Conference on Control,Electronics,Renewable Energy and Communications .Piscataway,NJ:IEEE Press,2018:208-212.
[29]Nair V,Hinton G E.Rectified linear units improve restricted Boltzmann machines[C]//Proc of the 27th International Conference on Machine Learning.[S.l.]:Omnipress,2010:807-814.
[30]Yang Fan,Zhang Jianhu,Liu Gongshen,et al.Five-stroke based CNN-BiRNN-CRF network for Chinese named entity recognition[C]//Proc of CCF International Conference on Natural Language Processing and Chinese Computing.Cham:Springer,2018:184-195.
[31]Wu Yuefei,Wei Xiao,Qin Yongbin,et al.A radical-based method for Chinese named entity recognition[C]//Proc of the 2nd International Conference on Big Data Technologies.New York:ACM Press,2019:125-130.
[32]謝騰,楊俊安,劉輝.基于BERT-BiLSTM-CRF模型的中文實體識別[J].計算機系統應用,2020,29(7):48-55.(Xie Teng,Yang Jun’an,Liu Hui.Chinese entity recognition based on BERT-BiLSTM-CRF model[J].Computer Systems amp; Applications,2020,29(7):48-55.)
收稿日期:2022-05-07;修回日期:2022-07-05基金項目:福建省自然科學基金資助項目(2019J01061137);福建工程學院發展基金資助項目(GY-Z20046)
作者簡介:張智源(1995-),男,福建南平人,碩士研究生,主要研究方向為深度學習、自然語言處理、命名實體識別;孫水華(1962-),女(通信作者),福建寧德人,教授,碩導,博士,主要研究方向為自然語言處理、數據挖掘、機器學習(shuihua.11109029@gmail.com);徐詩傲(1998-),男,湖北孝感人,碩士研究生,主要研究方向為深度學習、自然語言處理、關系抽取;徐凡(1996-),男,湖南衡陽人,碩士研究生,主要研究方向為深度學習、自然語言處理、文本分類;劉建華(1967-),男,江西吉安人,教授,碩導,博士,主要研究方向為智能計算、大數據分析、物聯網技術.