999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向時鐘領域的BERT-LCRF命名實體識別方法

2022-09-21 05:38:10唐煥玲趙紅磊竇全勝魯明羽
計算機工程與應用 2022年18期
關鍵詞:模型

唐煥玲,王 慧,隗 昊,趙紅磊,竇全勝,魯明羽

1.山東工商學院 計算機科學與技術學院,山東 煙臺264005

2.山東工商學院 信息與電子工程學院,山東 煙臺264005

3.山東省高等學校協同創新中心:未來智能計算,山東 煙臺264005

4.山東省高校智能信息處理重點實驗室(山東工商學院),山東 煙臺264005

5.大連海事大學 信息科學技術學院,遼寧 大連116026

知識圖譜(knowledge graph,KG)是一種用圖模型來描述知識和建模世間萬物之間關聯關系的技術方法,可分為通用知識圖譜和領域知識圖譜兩種。通用知識圖譜主要應用于語義搜索、推薦系統、智能問答等業務場景,并發揮著越來越重要的作用。而領域知識圖譜是基于行業數據構建,由于知識來源多、知識結構復雜、知識質量要求更高等特點,在解決行業痛點時,存在對知識圖譜利用不明晰、知識圖譜技術與行業難融合等問題。如面向時鐘領域,用戶越來越復雜,用戶無法將自己的需求用專業術語表達,進而導致需求頻繁更改、項目延期。同時,傳統售后服務不能快速識別、理解和解決用戶的售后問題。因此,迫切需要面向時鐘領域構建垂直知識圖譜,輔助語言理解和數據分析。而命名實體識別是時鐘領域知識圖譜構建過程中的基礎和關鍵環節,其目標是從海量的文本中識別出具有特定意義的實體。

主流的命名實體識別方法是基于深度學習的方法,通常是將實體識別任務轉化為序列標注任務。而目前沒有針對時鐘領域命名實體識別的研究,由于時鐘領域的標簽數據匱乏,現有的方法直接應用于時鐘領域,存在實體識別精度不高的問題。

本文針對時鐘領域實體識別中的問題,提出一種新的命名實體識別模型BERT-LCRF,該模型利用預訓練語言模型BERT能夠提取時鐘領域的文本特征,利用線性鏈條件隨機場(Linear-CRF)進一步提高實體識別的精度。在時鐘行業數據集上的實驗結果表明,該模型在各項指標上顯著優于其他命名實體識別方法。BERTLCRF 命名實體識別方法,能夠更好地獲取句子間的語義關系,并且能夠提高序列標注任務的精度,對構建時鐘領域知識圖譜有著積極的促進作用。

1 相關工作

命名實體識別發展至今,主要有基于規則和詞典的方法、基于統計的方法和基于深度學習的方法,其中基于深度學習的方法可以自動學習適合領域的特征,獲取多層次的表達,因此在命名實體識別方向有著廣泛的使用。

1.1 基于規則和字典的方法

基于規則和字典的方法主要是采用模式字符串匹配的實現方式,使用人手工構造的特征模版。該方法的不足之處在于模型的可移植性差,單一語料訓練好的特征模板不適用于任意語料;其次,構建模板時花費的時間成本較大,它依賴語言學專家書寫規則,或者需要收集整理相關詞典等資源。因此,該方法存在系統可移植性不好,代價大,系統建設周期長等問題。

1.2 基于統計的方法

基于統計的方法依賴于特征選擇,對實體識別結果有影響的各種特征需要從文本中選取,用統計的模型對選出的特征進行訓練,從而得到各模型的參數,進而對實體進行識別。有學者采用基于詞匯資源、模板的統計信息等進行上下文聚類的方式[1-3];也有學者使用少量標注的種子數據作為開始,再去無監督語料中進行訓練,迭代后發現符合規則的實體[4-7]。基于統計的方法主要是在標注訓練數據集上,利用模型來抽取數據集中的特征,對訓練數據集以外的數據進行實體抽取。常用的識別模型有馬爾可夫模型(hidden Markov model,HMM)[8]、支持向量機(support vector machine,SVM)[9]、條件隨機場(CRF)[10]等。有監督學習雖然有優勢并且能夠有效處理海量的數據,但是其不足之處在于,第一,模型的訓練需要大量的人工標注語料、代價高;第二,有監督學習的識別效果依賴特征工程選取的特征,因此如何選取反映實體特性的特征集合,對于模型來說至關重要。

1.3 基于深度學習的方法

目前,深度學習算法在自然語言處理領域已經得到了大規模的應用,在命名實體識別領域,基于深度學習的方法已經成為主流。循環神經網絡(recurrent neural networks,RNN)等時序網絡模型,在文本序列標注中表現出良好的效果,神經網絡模型的輸入分為字粒度、詞粒度和句子粒度,通過學習嵌入模型以向量的形式表示,輸入到神經網絡中進行編碼,然后通過條件隨機場模型對編碼的數據進行解碼,得到全局最優的標注序列。為了解決RNN 中梯度消失和梯度爆炸問題,研究學者又提出了一種長短期記憶網絡模型(long shortterm memory,LSTM)[11],這種改進的時序網絡模型適用于命名實體識別任務,具有較大的優勢。Huang 等人[12]提出了雙向長短期記憶網絡(bidirectional long shortterm memory,BiLSTM)和條件隨機場(CRF)架構用于自然語言處理序列標注任務,將拼寫特征、內容特征、詞向量作為神經網絡的輸入,該論文將模型用于命名實體識別任務中獲得了先進水平。2018 年,由Google 的研究人員Devlin等人[13]提出的BERT模型采用Transformer編碼和自注意力機制對大規模語料進行訓練,得到了表征能力強的預訓練字向量。李明揚等人[14]在BiLSTMCRF模型的基礎上引入自注意力機制,豐富了文本的特征,在微博語料庫中達到58.76%的效果。李博等人[15]針對中文電子病歷命名實體識別傳統模型識別效果不佳的問題,提出一種完全基于注意力機制的神經網絡模型,對Transformer模型進行訓練優化以提取文本特征;利用條件隨機場對提取到的文本特征進行分類識別,具有較好的識別效果。

楊培等人[16]利用BiLSTM 學習字符向量,隨后將詞向量和字符向量再經過另一個BiLSTM 以獲得詞的上下文表示,然后再利用Attention機制獲得詞在全文范圍下的上下文表示,最后利用CRF層得到整篇文章的標簽序列。Kuru 等人[17]提出的一種基于字符級別的命名實體識別標注模型及標注模式,該方法能更好地捕獲詞組的形態學特征,同時又可以避免出現未登陸的詞(OOV)情況。Zhang 等人[18]采用Lattice LSTM 模型進行實體識別,該模型對輸入字符序列以及與詞典匹配的所有潛在單詞進行編碼,供模型自動取用,相比于字符級的編碼,Lattice LSTM 能夠獲取更豐富的語義;相比于詞序列的編碼,Lattice LSTM能夠避免分詞錯誤帶來的影響。

但在特定的時鐘領域的實體識別方法還存在一些難點問題:(1)時鐘行業內數據類型眾多,存儲格式不統一,并且信息實體之間大部分不是直接連接的。信息實體與通用的命名實體也是不一致的,需要對概念實體進行重新定義。(2)時鐘領域缺乏足夠多的標注數據,人工標注的成本很高,需要耗費大量的時間以及精力,并且實體標注難度大。目前并無學者對時鐘領域的命名實體識別進行探索,時鐘領域也沒有公開的大規模的帶標簽的數據集。因此,本文針對時鐘領域的命名實體識別問題,提出了一種結合BERT和Linear-CRF的時鐘領域命名實體識別模型,記作BERT-LCRF。

2 BERT-LCRF時鐘領域命名實體識別模型

2.1 問題描述

面向時鐘領域的命名實體識別方法,其目標是從時鐘行業的文檔中識別出與時鐘行業相關的實體,并將他們歸類到預先定義好的實體類別中。

首先根據收集的時鐘領域的各種文檔,分析時鐘領域的專業術語和概念,預先定義時鐘領域的實體類別集合C={c1,c2,…,cm}。根據時鐘領域的文本特點和實體類別集合C,采用BIO 標注策略,定義實體標簽集合L。令B代表Beginning,標注實體的起始部分,I代表Inside,標注實體的中間部分,O 代表Outside,標注與實體無關的信息,實體標簽集合L={l1,l2,…,lk}。面向時鐘領域的命名實體識別問題可以轉換為序列標注問題,輸入句子的字序列,預測輸出其實體標簽序列。

面向時鐘領域命名實體識別任務是:

訓練階段:對給定時鐘領域訓練樣本集X和實體標簽序列空間Y,訓練生成:

其中,hBERT-LCRF是本文面向時鐘領域提出的一種基于BERT和線性鏈條件隨機場(Linear-CRF)的命名實體識別模型,框架如圖1 所示。hBERT-LCRF的目標函數是最大化如式(2)的對數似然。

測試階段:對任意句子x=(x1,x2,…,xn),預測實體標簽序列為:

其中,hBERT-LCRF是訓練好的命名實體識別訓練模型。∈L,是對x預測的實體標簽序列。

如圖1所示,BERT-LCRF的時鐘領域命名實體識別模型由BERT層、Linear-CRF層組成。其中,BERT層是特征提取層,實現特征提取的功能。Linear-CRF層是基于Linear-CRF 的序列標注層,實現序列標注的功能。BERT層和Linear-CRF層將在2.2~2.4節詳細描述。

圖1 BERT-LCRF的模型結構圖Fig.1 BERT-LCRF model structure diagram

2.2 BERT預訓練語言模型

BERT 模型[13]是從語料中學習,并充分考慮語料中句子級、詞語級和字符級之間的關系特征,增強字向量的語義表示。BERT 的結構如圖2 所示,其最大的特點是拋棄循環神經網絡(RNN)和卷積神經網絡(CNN),采用多層的Transformer結構。

圖2 BERT模型結構Fig.2 BERT model structure

如圖2所示,BERT的輸入是n個字序列,經過BERT嵌入層(embedding),表示成字編碼向量(e1,e2,…,en),輸出是(t1,t2,…,tn),表示n個字的得分概率向量。

為融合字左右兩側的上下文,BERT 采用多個雙向Transformer 作為編碼器,即圖2 中的Trm。通過Transformer 中的注意力機制將任意位置的兩個單詞的距離轉換,反映各個字之間的相關程度,從而使輸出的各個字向量都充分融合了上下文的信息,解決了一詞多義的問題。BERT 模型具有很好的并行計算能力,且能夠捕獲長距離的特征。

2.3 Linear-CRF模型

條件隨機場(condition random field,CRF)模型是一種用于標注和切分有序數據的條件概率模型,該模型結合了隱馬爾可夫和最大熵模型的優點。

假設x=(x1,x2,…,xn),y=(y1,y2,…,yn)均為線性鏈表示的隨機變量序列,如果給定隨機變量序列x,隨機變量序列y的條件概率分布Pr(y|x)構成條件隨機場,即滿足馬爾可夫性:

則稱Pr(y|x)為線性鏈條件隨機場(Linear-CRF)。

序列標注問題中,x表示輸入觀測序列,y表示對應的輸出標記序列或狀態序列,且與觀測序列具有相同的結構。因此,序列標注問題可以表示為如圖3所示的Linear-CRF。

圖3 線性鏈條件隨機場Fig.3 Linear chain conditional random field

對序列標簽的預測,通常采用softmax分類器方法,但是softmax方法沒有考慮標簽之間的依賴關系。

本文采用Linear-CRF 進行序列標簽預測,Linear-CRF能夠考慮各字標簽之間的約束關系,它利用每個字標簽的得分與字標簽之間的轉移矩陣A計算不同標簽序列的出現概率Pr(y|x),從而能夠從中選取出概率最大的序列y*作為所考慮句子的標簽序列。

2.4 BERT-LCRF模型

本文基于BERT 和Linear-CRF 提出了面向時鐘領域的BERT-LCRF命名實體識別模型。

如圖1 所示,輸入句子x=(x1,x2,…,xn),由BERT模型輸出字序列標簽的得分概率向量T=(t1,t2,…,tn),然后采用Linear-CRF 模型預測句子中的每個字xi∈x的最優標簽,從而完成時鐘領域的命名實體識別任務。

2.4.1 BERT嵌入層

BERT 嵌入層即圖1 和圖2 中的“embedding”層,由三種embedding求和而成,具體如圖4所示。

圖4 BERT嵌入層的特征嵌入表示Fig.4 Feature embedding representation of BERT embedding layer

BERT 嵌入層的輸入是字的線性序列,支持單句文本和句對文本,句首用符號[CLS]表示,句尾采用符號[SEP],斷開輸入的兩個句子。

BERT嵌入層由詞嵌入(token embeddings)、分割嵌入(segment embeddings)和位置嵌入(position embeddings)共同組成[13],其中詞嵌入是將中文字符轉為字向量,位置嵌入是指將字符的位置信息編碼成特征向量,分割嵌入用于區分兩個句子。其中,位置嵌入(position embeddings)用來加入位置信息,支持序列長度為512,利用正余弦函數對字進行位置編碼,將字的位置信息編碼成特征矩陣,其編碼如式(5)和(6)[13]。

其中,PE為二維矩陣,其維度與輸入embedding 的相同,這里行表示字,列表示字向量,pos表示字在句子中的位置,dmodel表示字向量的維度,i表示字向量的位置,a等于10 000。位置編碼的每個維度的波長形成是從2π 到a?2π 的幾何數,對于任何固定偏移k,PE(pos,k)可以表示為一個線性的位置編碼。位置編碼是通過線性變換獲取后續字符相對于當前字符的位置關系,能夠更好地表達語義關系。

輸入句子x=(x1,x2,…,xn),由BERT嵌入層的三種embedding轉換求和之后,每個字xi轉換為嵌入向量ei輸出,得到句子的嵌入表示E=(e1,e2,…,en),其中ei是對應xi的向量表示,是一個m維向量,E是一個n×m維的矩陣,每一行對應句子中一個字的向量表示,然后作為圖2中Trm層的輸入。

2.4.2 Trm層

如圖2 所示,BERT 的Trm 層由多個Transformer 編碼器(Encoder)組成,每個Encoder的結構如圖5所示。

圖5 Encoder詳細結構Fig.5 Encoder detailed structure

每個Encoder包括多頭自注意力機制層(multi-head self-attention)、全連接層(feed forward)、殘差連接和歸一化層(add&normal)。在Encoder 中最主要的模塊為multi-head self-attention[19],其核心思想是計算句子中每個字與該句子中其他所有的字的相互關系,并調整每個字的權重,獲取每個字的新的表達方式。

Encoder的輸入是BERT嵌入層的輸出E。將目標字的ei通過線性變換得到表示目標字的q向量、表示上下文各個字的k向量以及表示目標字與上下文各個字的原始v向量,然后計算q向量與各個k向量的相似度作為權重,加權融合目標字的v向量和各個上下文字的v向量,計算[19]如式(7):

其中,q表示查詢向量,k表示鍵向量,v表示值向量,d為縮放因子,其目的是使模型的梯度更穩定。采用點積的計算機制,使當前節點不只關注當前的字,而是關注整個句子,從而獲取到上下文的語義信息,在一定程度上反映出不同字符之間的關聯性和重要程度,獲得更豐富的語義特征表達。最后使用softmax進行歸一化處理。

在實際應用過程中,編碼器(encoder)中使用多頭自注意力(multi-head self-attention),利用不同的Self-Attention 模塊獲得句子中每個字在不同語義空間下的增強語義向量,并將每個字的多個增強語義向量進行拼接,再進行線性變換,從而獲得一個最終的與原始字向量長度相同的增強語義向量,作為Multi-Head Self-Attention層的結果,計算如式(8)和式(9)。表示第i個head的權重矩陣,WO表示附加的權重矩陣,在模型訓練時不斷更新。在多頭注意力層通過不同的head得到多個特征表達,將所有的特征拼接到一起,作為增強語義的向量表示。

在殘差鏈接和歸一化層(add&normal)中,利用殘差鏈接可避免在模型較深時,反向傳播過程中的梯度消失問題。當網絡進行前向傳播時,可以按照網絡層數進行逐層傳播,還可以從當前層隔一層或多層向前傳播。該層能對各特征之間的輸入進行規范化。然后將處理后的數據zi傳送給全連接層(feed forward),該層可以進行并行計算。

在全連接層(feed forward neural network),是一個兩層的全連接層,第一層的激活函數為Relu,第二層不使用激活函數,對應的公式如下:

其中,

其中,zi為殘差鏈接和歸一化層的輸出,W1,W2,b1,b2均為前饋網絡層的權值參數。

在模型結構中,每一層都會間隔一層add&normal,這是深度殘差網絡的特性,將前一層的輸入和輸出進行求和正則,得到R=(r1,r2,…,rn),并將其作為下一個Encoder 的輸入,在經過多個Encoder 編碼后,最后通過softmax 歸一化得到各個字的標簽得分概率向量T=(t1,t2,…,tn)。

使用Transformer編碼器(Encoder)能夠計算句中字與字之間的關系,使得模型能夠學習字之間的聯系以及每個字的重要程度,獲取全局特征信息。

2.4.3 基于Linear-CRF的序列標注層

給定句子x=(x1,x2,…,xn),由BERT模型得到的字序列的實體標簽得分概率T=(t1,t2,…,tn),ti是字xi的實體標簽得分,T是linear-CRF序列標注層的輸入。

linear-CRF 層的參數是一個(n+2)×(n+2)的實體標簽轉移矩陣A,Aij表示是從第i個標簽到第j標簽的轉移得分,體現的是實體標簽之間的約束關系。對一個位置進行標注時,可以利用此前已經標注過的標簽。n+2 是為句子首部添加一個起始狀態,句子尾部添加一個終止狀態。

對給定的句子x,根據每個字的實體標簽的得分ti,以及字標簽之間的轉移矩陣A,計算對x預測為不同標簽序列y的概率,取概率最大的標簽序列y*,作為該句子的標簽序列,具體過程如下:

對任意一個句子x=(x1,x2,…,xn),n是字序列長度,也是標簽序列的長度,那么BERT-LCRF模型對x預測為標簽序列y的得分計算如式(11):

其中,表示第i個字被標記為yi的概率,A為轉移矩陣,表示從yi標簽轉移到yi+1標簽的概率,n為序列長度。因此,整個字序列的得分是每個字的分數之和,而每個字的分數由兩部分組成,一部分是由上一層輸出的ti決定,另一部分則由linear-CRF的轉移矩陣A決定。最后利用softmax函數歸一化,計算Pr(y|x)如式(12)所示:

其中,y′∈Y,L是對時鐘領域的字標簽集合,y′是可能的字標簽序列,式(12)的對數似然計算如式(13):

最后在解碼階段,使用維特比算法[20]求解最優路徑,計算如式(14):

由此對于輸入字序列x=(x1,x2,…,xn),經過模型BERT-LCRF預測,得到字序列標簽

3 實驗分析

3.1 時鐘領域數據集(clock-dataset)

本文采用自建的時鐘領域語料庫(clock-dataset)對BERT-LCRF模型的有效性進行實驗評估。

(1)時鐘領域文本預處理

首先收集時鐘行業的時鐘系統建議書作為原始數據,由于原始文本數據的存儲格式不同,包含對實體識別無用的信息,經過格式轉換、過濾圖片等無用信息、分段、分句等預處理,得到初始以句子為單位的時鐘領域語料庫。

(2)領域新詞識別和自定義字典

對未分詞的語料庫,采用基于互信息和左右熵算法[21]進行領域新詞的識別。該方法首先計算詞與其右鄰接字的互信息,得到候選新詞,然后再采用鄰接熵、過濾候選新詞首尾的停用詞和過濾舊詞語等規則進行篩選,最終得到領域新詞集,并添加領域自定義詞典(clockdictionary)中。結合clock-dictionary,采用jieba 分詞對初始時鐘語料庫中的句子進行分詞,提高領域分詞結果的準確性。同時將分詞結果作為時鐘領域的先驗知識,減少人工標注審核的工作量,提高標注的效率,降低標注誤差。

(3)實體類別和實體標簽定義

根據時鐘系統建議書的領域特性,進行概念抽取,結合對領域詞匯的統計分析,定義時鐘領域的實體類別集合C={c1,c2,…,cm},其中ci∈C,可以是地域(CITY)、設備(EQU)、對象(OBJ)等,具體如表1所示。

表1 時鐘領域實體類別描述Table 1 Entity category description in clock domain

在定義了實體類別集合C后,根據時鐘領域的文本特點,采用BIO 標注策略,令B 代表Beginning,標注實體的起始部分,I代表Inside,標注實體的中間部分,O代表Outside,標注與實體無關的信息,定義實體字標簽集合L={l1,l2,…,lk},其中li∈L,具體描述如表2所示。

表2 clock-dataset的實體標簽描述Table 2 Label category description of clock-dataset

(4)語料標注

在沒有時鐘領域的標注語料時,通過設計人機交互的輔助實體標注平臺,輔助專業人士快速、高效標注高質量的訓練語料,記作時鐘領域數據集(clock-dataset)。在獲得一定數量的人工標注數據后,可以利用BERTLCRF命名實體識別方法,結合semi-supervised learning(半監督學習)、self-learning(自學習)和active learning(主動學習)等方法進行標注數據的擴充。實驗中,對標注的clock-dataset 數據集,劃分成三個數據集:訓練集、測試集和驗證集,具體表述如表3所示。

表3 clock-dataset的劃分描述Table 3 Clock-dataset division

3.2 實驗基本設置及參數設置

本文的實驗環境設置:64 位Window10 系統,AMD Ryzen 7 2700X Eight-Core Pricessor 3.70 GHz 處理器,8 GB內存,顯卡為NVIDIA GeForce GTX 1060 6 GB中進行。使用的編程語言為Python,深度學習框架Pytorch。

實驗中,設置網絡的損失函數為最大似然函數,采用BertAdam 優化方法不斷更新參數,并使損失函數最小化。為了防止模型過擬合,提高模型的泛化能力,在網絡模型中加入Dropout,將其設置為0.1。BERT 模型共12 層,768 個隱藏單元,12 個注意力頭。實驗參數設置如表4所示。

表4 實驗參數設置Table 4 Experimental parameter settings

3.3 評價指標

實驗中采用宏準確率(Macro-P),宏召回率(Macro-R)和宏F1值(Macro-F1)三個指標,對如表1所示的七類實體的識別結果進行評估,計算公式如下:

其中,TP(cj)表示屬于cj實體類別,且識別正確實體數;FN(cj)表示屬于cj實體類別,但識別不正確的實體數;FP(cj)表示不屬于cj實體類別,但被識別為cj的實體數。

3.4 實驗結果及分析

為了驗證所提BERT-LCRF模型的有效性,與HMM、CRF、LSTM、BiLSTM-CRF模型進行了命名實體識別對比實驗。

3.4.1 命名實體識別模型總體識別效果比較分析

在clock-dataset 上,BERT-LCRF 模型與BiLSTMCRF、LSTM、HMM、CRF模型的命名實體識別對比實驗結果如表5所示。

表5 不同模型的命名實體識別結果比較Table 5 Comparison of named entity recognition results of different models %

從表5 中可以看出,針對于時鐘領域的語料而言,所提BERT-LCRF模型相對于其他四種算法模型取得了較為優異的結果。如表5所示,HMM、CRF、LSTM算法的Macro-P分別為71.51%、82.84%、94.13%,BiLSTM-CRF模型為95.53%,而BERT-LCRF 的準確率為96.70%,評估指標Macro-R和Macro-F1的對比也是類似的。

分析表5中不同方法的效果對比,其中HMM、CRF算法沒有學習上下文的語義關系,因此識別效果不好。LSTM 只是單向的學習文本序列,沒有CRF,雖然可以得到句子中每個單元的正確標簽,但是不能保證標簽每次都是預測正確的。BiLSTM-CRF 模型采用雙向LSTM 和CRF,其結果優于LSTM 方法,其Macro-P 為95.53%、Macro-R 為94.98%、Macro-F1 為95.26%。而BERT-LCRF 模型的三種評估指標為96.70%、96.73%和96.71%,對比BiLSTM-CRF模型平均提升了0.9%。

原因在于,本文使用BERT預訓練語言模型來代替BiLSTM。基于BiLSTM-CRF 命名實體識別方法不能很好地利用語料中的上下文的語義關系,而BERTLCRF 模型增加了位置編碼以及注意力機制,能夠很好地利用語料中的上下文語義關系,對時鐘領域數據進行特征提取,能夠充分學習時鐘領域的特征信息,解決時鐘領域的特征表示的一詞多義問題,因此BERT-LCRF模型的識別效率相對最高。

3.4.2 時鐘領域每類實體的識別效果比較

為進一步驗證BERT-LCRF模型對每類實體的識別效果,與HMM 模型、CRF 模型和BiLSTM-CRF 模型進行了實驗對比,實驗結果如表6~9所示。

從表6~9 中可以看出,BERT-LCRF 模型在13 種實體類別上的宏準確率、宏召回率、宏F1值均比其他模型的高,說明BERT-LCRF 模型的每類實體識別效果要優于其他模型。

從表6~9中還可以看出,所有實體類別中,“B-OBJ”和“I-OBJ”對象類實體的宏準確率最高,HMM 模型為87.67%,CRF 模型為94.95%,BiLSTM-CRF 模型為97.46%,BERT-LCRF模型為97.49%。分析原因,時鐘領域數據中的對象這類實體的數量比較多,并且實體組成較為單一,邊界詞明顯,主要是以“系統”兩個字作為結尾,并且有固定的表達格式,例如“時鐘系統”“時鐘同步系統”“子母鐘系統”等,因此在識別過程中宏準確率高。功能、技術這類實體的宏準確率相對較低,功能(FUN)和技術(TEC)這類實體,實體數量相對其他實體來說,實體數量少,存在OOV 詞,因此其宏準確率會相對較低,其余的實體類別宏準確率相對而言比較平均。

表6 HMM模型實體類別識別結果Table 6 HMM model entity category recognition results %

4 結論

本文針對時鐘領域的問題,定義時鐘領域實體類別,選擇適合時鐘領域文本的標注規則,設計輔助標注平臺,構建時鐘領域數據集(clock-dataset),提出一種BERT-LCRF 的命名實體識別模型。該模型利用BERT結合時鐘領域的先驗知識,充分學習時鐘領域的特征信息,而Linear-CRF 能夠提高序列標注的準確度,從而BERT-LCRF模型能夠提高實體識別的精度。在時鐘行業數據集上的實驗結果表明,該模型在各項指標上顯著優于同類其他模型。BERT-LCRF模型是構建時鐘領域知識圖譜的基礎,時鐘領域的實體類別和標簽還有待擴充,下一步將在此基礎上結合時鐘領域先驗知識進行事件抽取,進一步構建面向時鐘領域的知識圖譜。

表7 CRF模型實體類別識別結果Table 7 CRF model entity category recognition results %

表8 BiLSTM-CRF模型實體類別識別結果Table 8 BiLSTM-CRF model entity category recognition results %

表9 BERT-LCRF模型實體類別識別結果Table 9 BERT-LCRF model entity category recognition results %

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人久久综在合线亚洲2019| 亚洲天堂日本| 色135综合网| 国产一区二区网站| 亚洲第一成年网| 国产精品一老牛影视频| 亚洲国产成人麻豆精品| 一级毛片在线播放免费| 亚洲精品国产自在现线最新| 中文无码精品A∨在线观看不卡| 巨熟乳波霸若妻中文观看免费| 91网站国产| 国产精品久久久久鬼色| 青青青视频蜜桃一区二区| 日本精品αv中文字幕| 欧美精品高清| 亚洲精品无码AⅤ片青青在线观看| 国产精品免费入口视频| 国产精品第三页在线看| 无码AV高清毛片中国一级毛片| 国产aⅴ无码专区亚洲av综合网| 99久久婷婷国产综合精| 欧美午夜视频在线| 国产成人AV大片大片在线播放 | 久久77777| 尤物亚洲最大AV无码网站| 一级毛片a女人刺激视频免费| 亚洲二区视频| 在线色国产| 国产区精品高清在线观看| 在线色国产| 国产精品成人啪精品视频| 怡红院美国分院一区二区| 成人综合久久综合| 亚洲欧美在线看片AI| 日韩无码精品人妻| 亚洲欧美自拍中文| 巨熟乳波霸若妻中文观看免费| 第九色区aⅴ天堂久久香| 四虎影视永久在线精品| 国产成人久视频免费| 欧美日韩第二页| 久久免费视频播放| 亚洲中久无码永久在线观看软件 | 天天摸天天操免费播放小视频| 亚洲人成网站18禁动漫无码| 美女亚洲一区| 夜夜操天天摸| 国产swag在线观看| 日韩美女福利视频| 国产00高中生在线播放| 2019年国产精品自拍不卡| 欧美一级在线| 久精品色妇丰满人妻| 亚洲乱码在线播放| 久精品色妇丰满人妻| 国产第八页| 欧美激情视频一区| 日本午夜网站| 美女视频黄又黄又免费高清| 国产无码网站在线观看| 日本不卡在线| 五月丁香在线视频| 老色鬼欧美精品| 四虎影视库国产精品一区| 久久综合色天堂av| 一级一级一片免费| 国产免费自拍视频| 国产91九色在线播放| 9久久伊人精品综合| 2048国产精品原创综合在线| 午夜日韩久久影院| 久久精品亚洲专区| 国产一级做美女做受视频| 国产导航在线| 蝴蝶伊人久久中文娱乐网| 四虎精品国产永久在线观看| 欧美一区二区人人喊爽| 免费人成网站在线观看欧美| 久久99热66这里只有精品一| 日本精品中文字幕在线不卡 | 国产午夜人做人免费视频中文|