999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RoBERTa的工商業領域命名實體識別方法

2023-07-07 03:10:14雷景生唐小嵐
計算機應用與軟件 2023年6期
關鍵詞:文本信息模型

顧 澤 雷景生 唐小嵐

(上海電力大學計算機科學與技術學院 上海 201300)

0 引 言

自然語言理解包括多種多樣的任務,如文本蘊含、問答、語義相似度評估和文檔分類[1]。命名實體識別是自然語言處理的基礎任務之一,主要是研究從文本中識別實體,如人名、地名、時間和組織機構名等。命名實體識別還被廣泛應用于信息提取[2]、問答系統[3]、句法分析[4]和機器翻譯[5]等應用領域,是從文本信息中自動提取潛在知識的第一步,也是信息提取和知識圖領域的重要組成部分[6-7],其研究應用范圍廣,具有重要意義。

工商業領域的迅速發展,從商業、財經類新聞文本中抽取關鍵信息,輔助分析當前經濟發展狀況和發展關系,越來越引起了廣泛關注。本文目的是識別工商業領域中重要的幾類實體,包括公司負責人(CPER)、公司名(CORG)和公司地址(CLOC)等,是統計分析商業經濟發展詳情的關鍵概念。例如:“曹萍,于2008年3月5日注冊創辦了蘇州太谷電力股份有限公司,注冊資本達6 500萬元人民幣,是一家專業致力于電力行業電能管理技術研究的專業公司,現位于蘇州工業園區……”?!疤K州太谷電力股份有限公司”是公司名,“曹萍”是公司法人,“蘇州工業園區”是公司位置。

基于神經網絡模型的中文命名實體識別(NER)依賴于單詞表征,單詞表征又依賴于單詞、字符的任意組合。根據NER任務中語料庫的特征,廣泛使用預先訓練好的單詞嵌入來提高一系列NLP任務的性能已被得到了驗證和改進。單獨使用字符嵌入會導致單詞之間的特征關系缺失,因此單詞嵌入和字符嵌入的組合使用方式被應用于NER任務。

在NER的任務中,由于中文命名實體的構詞、特殊性,同一個詞在不同的應用中有不同的含義。例如“蘋果”是一種常見水果的名稱,也是一家企業的名字,因此,獲取上下文信息是至關重要的。最近,Peters等[8]介紹了一種Embeddings from Language Model(ELMo)深語境化的詞表示模型,稱為嵌入語言模型。ELMo模型研究的重點是,根據一個字在不同句子中的特點生成對應的詞向量,且生成的詞向量與放入哪個特定環境的語義中沒有太多關聯。該模型解決了漢語中存在句法結構和語義的關鍵問題。在不考慮時間成本的情況下,其思想給了后來的研究提供了思路。

在過去幾年中,傳統的機器學習方法如條件隨機場(CRF)[9]和最大熵[10]已經被用于NER任務。CRF已被證明在自然語言處理(NLP)的許多領域是有效的,包括序列標簽任務和命名實體識別(NER)。與其他統計模型相比,CRF在主成分分析中使用了具有大量特征的觀察序列,能在特定領域的NER任務中的提取該領域的知識特征。在最近的神經網絡模型中,特別是LSTM模型,被證明對NER任務是有效的。LSTM支持自動利用正交特征,能結合上下文,提取句法特征,并且能從多層結構提取出語義特征。但是,如果訓練數據缺乏,LSTM模型也很難學習完整的標記規則,并且會導致全局序列執行不能優化處理。文獻[11]提出了單向的GPT,利用Transformer編碼器進行預訓練,獲取句子上下文信息。文獻[12]提出BERT,一種多層雙向Transformer微調的編碼器,使用了self-attention機制,能依賴于左右兩側的上下文獲取特征表示,使得模型的上下層直接全部互相連接。BERT的雙向Transformer機制在11個任務中均取得了不錯的效果。文獻[13]提出的RoBERTa模型是BERT的改進版(A Robustly Optimized BERT)。它在模型規模、算力和數據上,增強了字的語義表示,取消了下一句預測(NSP)任務,采用動態Masking,與BERT相比優勢更大。

在實際的應用中,用于學習這些特定任務的標記數據卻很少,而且很難獲得,這導致了模型難以充分運行。文獻[1]提出了一種結合無監督預訓練和監督微調的語言理解任務的半監督方法。受此啟發,本文采用半監督的訓練方法,使用標記和未標記的數據來提高工商業領域中NER的性能。

本文提出一種基于工商業領域的半監督實體識別模型ICFNER。ICFNER模型是基于雙向長短期記憶、條件隨機場組成(BiLSTM-CRF)的基本結構,并融合RoBERTa做預訓練時的特征提取,實現工商業領域實體識別。實驗表明,ICFNER模型利用較少的標記數據集,能夠更大限度地提取字與字之間的關系,更加符合識別工商業領域中實體識別任務的需求。

1 NER模型

1.1 NER的CRF模型

深度學習已經成為NER任務的一個突出應用。利用深度學習方法可以不再依賴手工制作的數據而實現自動提取復雜的特征,這些特征同時也具有更豐富的表達能力。條件隨機場(CRF)憑借在主成分中的分析的優勢已被證明在自然語言處理的許多領域是有效的,命名實體識別(NER)任務就是其中之一。

Sobhana等[14]基于條件隨機場(CRF)開發了一個應用單詞的上下文信息和單詞特征來預測各種命名實體(NER)類別的文本任務系統。

1.2 NER的LSTM模型

LSTM使用記憶細胞取代RNN的普通神經單元,實驗結果表明LSTM在處理長時間依賴效應問題上表現不錯。這也讓LSTM語言模型能結合上下文內容學習到語義更豐富的詞表征。

Limsopatham等[15]設計的NER的LSTM模型被用于解決推特上短文本的日??谡Z化的問題。Hammerton[16]提出了一種方法,應用LSTM來完成命名實體識別的任務,在實驗結果上取得了不錯的效果。

1.3 NER的BiLSTM-CRF模型

許多研究表明,不同學習系統的組合是獲得優異性能的更好方法。一種是具有序列條件隨機場的雙向長短記憶神經網絡(BiLSTM-CRF)就是一種新模型。該模型與Huang等[17]提出了一種雙向長短記憶神經網絡(BiLSTM)語境模型相似,通過該模型獲得語境特征,并利用單詞級標簽信息,較少依賴于單詞嵌入,獲得了較好的穩健性和更高的精度。類似的方式也被應用在多個領域,如:Xu等[18]的醫學領域中文實體識別,該方法模型依賴于從監督數據集訓練的字符級單詞表示來學習特征;Lample等[19]提供了一種基于LSTM和CRF的混合標記模型結構,該模型類似于文獻[17]中提出的方法,不僅能從未標記語料庫訓練的無監督單詞表示,而且能從標記語料庫訓練的字符級單詞表示。

1.4 NER的RoBERTa模型

文獻[13]提出一個改進的訓練BERT模型的方法,我們稱之為RoBERTa,RoBERTa模型包含無監督的Pre-train和有監督的Fine-tune,改進了BERT訓練不足。在整個訓練過程中,采用了更大的模型參數,嘗試了更大的bacth size和更多的訓練集。RoBERTa建立在BERT的語言掩蔽策略的基礎上,修改BERT中的關鍵超參數,刪除BERT中對結果影響不大的下一個句子預測(NSP)任務,采用動態掩碼方式訓練模型,并使用更大的bacth size進行訓練。RoBERTa也接受了比BERT多一個數量級的訓練,耗時更長。這使得RoBERTa能夠表示比BERT更加豐富的特征信息,而且能更好地推廣到下游任務中。

1.5 NER的ICFNER模型

雙向長短期記憶神經網絡(BiLSTM)模型和條件隨機場(CRF)模型的結合的優勢,已在本文的1.3節中詳細闡述。本文設計的ICFNER模型是利用RoBERTa、BiLSTM-CRF模型,結合半監督的訓練方式來完成我們的工商業領域語料庫實體提取任務,這類似于Yang等[20]提出的框架。

該模型主要包括兩個階段:無監督的Pre-train模型學習到更加普遍、更適用的表征;模型以很小的Fine-tune預訓練后的模型遷移到一些特定的有監督學習任務上。方法概述如圖1所示。

圖1 命名實體識別的模型框架

在第一階段,將大量被標記過數據被輸入到預處理的語言模型中,利用RoBERTa預訓練語言模型對預料字符進行編碼,得到單個字符對應的詞向量。在第二階段,將訓練好的詞嵌入BiLSTM層,對輸入文本進行雙向編碼,增強上下文相關的語義信息,最后將包含上下文信息的語義詞向量應用于下一輪CRF模型層中進行解碼,在CRF層中分類器中,輸出概率最大的標簽序列,并最終通過該模型獲得測試數據的實體標簽。

2 方 法

2.1 RoBERTa模型

文獻[12]中的BERT(Bidirectional Encoder Representation from Transformers),一種基于微調的多層雙向Transformer的編碼器,該模型在預訓練方法上模型提出了創新,采用掩碼語言模型和對下一句預測分別捕捉詞語和句子級別的表示特征。文獻[13]在文獻[12]的基礎上改進了模型,在訓練方法的基礎上,從以下幾個方面改進了BERT模型:(1) 去掉下一句預測Next Sentence Prediction(NSP)任務。(2) 動態掩碼(mask)。BERT 依賴隨機掩碼和預測token。RoBERTa使用了動態掩碼:每次向模型輸入一個序列時都會生成新的掩碼模式。這樣,在大量數據不斷輸入的過程中,模型會逐漸適應不同的掩碼策略,學習不同的語言表征。(3) 文本編碼。Byte-Pair Encoding(BPE)是字符級和詞級別表征的混合,支持處理自然語言語料庫中的眾多常見詞匯。

Roberta模型進一步增加詞向量模型泛化能力,采用Transformer[21]對文本中的字詞進行編碼(Encoder)和解碼(Decoder)。Transformer分別有6層Encoder層和6層Decoder層,具有更深的層數和更好的并行性,在預測詞的時候能雙向綜合地考慮上下文特征。

基于上述的改進方式使得Roberta模型獲得了更高的性能,可以通過無監督的方式學習到一些特征,再遷移到特定的有監督任務上,適用于從商業、財經類新聞中抽取實體信息。

2.1.1 輸入表示

RoBERTa模型的輸入表示能夠在一個標記序列中清楚地表示單個文本句子或一對文本句子。對于給定的詞,其輸入表示可以通過Token Embeddings、Segment Embeddings和Position Embeddings三個向量求和組成。Embedding的表述如圖2所示。

中文處理過程中可以是詞向量或是字向量,詞向量用Token Embeddings表示,CLS作為第一個詞的分類標志,常常用于分類任務。在應對兩個句子為輸入的分類任務時,Segment Embeddings常被用來區分句子之間的不同,Position Embeddings常被用來標記序列位置所屬信息。Token Embeddings、Segment Embedding和Position Embeddings三個向量組成RoBERTa模型的輸入表示方式。

2.1.2動態mask

在預處理時,靜態mask對每個樣本只會進行一次隨機mask,后續的每個訓練步都采用相同的mask,每一個序列隨機選擇15%的默認遮擋字符(以下稱為Tokens)替換成[MASK],為了消除與下游任務的不匹配,還對這15%的Tokens進行如下遮擋方法:

(1) 80%的時間替換成[MASK];

(2) 10%不變;

(3) 10%的隨機替換成其他詞。

后續的每個訓練步都采用相同的mask,之后不會再變化。在修改版靜態mask中,在預處理時將數據集拷貝10次,每次拷貝采用不同的mask。這等價于原始的數據集采用10種靜態mask來訓練。

動態mask區別于靜態mask,在一開始沒有預處理的時候就執行mask,把預訓練的數據復制10份,每一份都隨機選擇15%的Tokens進行Masking。也就是說,同樣的一句話有10種不同的mask方式,然后每份數據都訓練N/10個epoch。動態mask并沒有在預處理時執行mask,而是在每次向模型提供輸入時動態生成mask,這就相當于在這N個epoch的訓練中,每個序列被mask的Tokens是會時刻變化的,其表示方式如表1所示。

表1 動態mask方式

2.1.3Attention層

文獻[21]中Transformer模型完全拋棄了RNN和CNN等網絡結構,Attention層是RoBERTa模型重要的信息提取方式,經過編碼來獲取上下文相關的語義信息特征是Attention層主要功能任務。Attention函數可以描述為映射一個請求和一系列鍵值對到一個輸出,其可以表示為{Ki,Vi|i=1,2,…,m},其中請求向量query(Q),鍵向量key(K),值向量value(V)長度相同,都屬于輸出向量。V是所有values的加權,權重由query和key計算而來,計算方法分為三步:

第一步,計算比較Q和K的相似度,用f來表示:

f(Q,Ki)i=1,2,…,m

(1)

f函數可以用點乘方式實現,表示為:

f(Q,Ki)=QTKi

(2)

第二步,將得到的相似度進行Softmax操作,進行歸一化,表示為:

(3)

第三步,針對計算出來的權重αi,對V中所有的values進行加權求和計算,得到Attention向量,表示為:

(4)

計算流程如圖3所示。

圖3 Attention三個階段計算過程

Attention幫助解決了字符級詞語邊界區分難的問題,能夠一步到位捕捉到全局的聯系,能直接將序列進行兩兩比較,其計算量為O(n2)。

2.2 BiLSTM層

應用于序列數據的RNN是典型的神經網絡模型,是傳統前饋神經網絡的擴展。RNN包含一個循環的隱藏狀態,隱藏狀態的激活依賴于前一時間的激活。然而,梯度消失和梯度爆炸使得模型難以處理長文本。

LSTM中的門控記憶機制,能夠緩解長期依賴限制[22]。如圖3所示,LSTM單元包括三個門:一個輸入門i、一個遺忘門f和一個輸出門o。這些門包含一個sigmoid神經網絡層和一個逐點乘法運算,并被合并以可選地移除或添加信息。

在每一步時間t,LSTM的輸出被迭代以通過式(5)-式(9)計算。

it=σ(Wxixt+Whihi-1+WciCt-1+bi)

(5)

ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf)

(6)

ot=σ(Wxoxt+Whoht-1+WcoCt+bo)

(7)

Ct=ftCt-1+itanh(Wxcxt+Whcht-1+bc)

(8)

ht=ot?tanh(ct)

(9)

式中:σ表示sigmoid激活函數;?表示元素乘法;xt表示輸入向量。具有不同下標的Wt分別表示輸入xt、輸出ot、存儲單元Ct和隱藏狀態ht的權重矩陣;b是三個門的偏置矩陣;it、ft和ot分別是時間步長t處的輸入門、遺忘門和輸出門向量,它們都具有與存儲單元向量Ct和隱藏向量ht相同的大小。

雙向長短期記憶BiLSTM是由前向的LSTM與后向的LSTM結合成,其編碼過程如圖4所示。前向LSTML接收信息形成向量{hL0,hL1,hL2,…},后向LSTMR依次形成向量{hR0,hR1,hR2,…},前向和后向的隱向量拼接得到{h0,h1,h2,…}。

圖4 BiLSTM編碼過程

數據中有許多長句,文本序列中提到的每個實體都可以依賴于長距離信息文本。雙向長短期記憶(BiLSTM)學習前一時刻的輸出權重和當前時刻每個序列的輸入。此外,句子序列的過去(向后)和未來(向前)信息可以同時被BiLSTM中的前向網絡和后向網絡捕獲,從而獲得句子序列建模過程中的上下文信息。因此,該方法被用于在長句序列建模期間捕獲所有信息?;贚STM的這些特點,本文利用BiLSTM來提取文物實體的長距離相關性。

2.3 CRF層

LSTM的輸出是每個標簽的預測分數,因此可以得到句子中每個單元的預測標簽。然而,在命名實體識別任務中,不能保證每次預測的標簽都正確預測,并且獨立分類是不充分的,因為文本中句子的上下文具有許多標記約束。當單獨標記每個字符時,序列有它們自己的局限性。例如,總是有必要考慮順序標簽之間的相關性,并對輸出標簽之間的相關性建模[23]。CRF是一個判別概率無向圖模型,CRF考慮了鄰域中標簽之間的相關性[24],它更關心句子的層次,而不是單個的位置。因為在本文的任務中,并非獨立地對每個標簽進行解碼,而是將CRF層添加到BiLSTM-CRF網絡的BiLSTM層,并利用CRF對輸出標簽進行聯合建模。

BiLSTM-CRF網絡的輸入是序列X={x1,x2,…,xn},其中xi是輸入向量的第i個字,并且預測的輸出標簽序列是Y={y1,y2,…,yn},對于輸入序列X.P,大小為n×k,對應于雙向LSTM輸出的分數矩陣,其中k表示輸出標簽的數量。Pi,j表示第i個字符的第j個標記的分數,該分數定義如下:

(10)

式中:A表示大小為K+2的轉換分數的方陣;Ayi表示從標記y到標記i的轉換值。句子的開始和結束標記是y0和yn。

CRF利用一系列潛在函數來估計輸出標簽序列的條件概率分布。公式如下:

(11)

式中:φ(x,y)代表特征向量,w是參數向量。所有可能的y上P(y|x,w)的累積和是Z(w,x)。

給定的訓練集(Y,X)={xi,yi},i=1,2,…,n,用于通過最大化似然條件來訓練模型。

w=arg maxwp(Y|X,w)

(12)

給定通過上述方法訓練的輸入序列x和參數w,使模型最大化的標簽序列y是訓練的CRF的最終預測。

y*=arg maxyp(y|x,w)

(13)

CRF使用Viterbi算法,該算法可以有效地解決訓練和解碼問題,以預測標簽的最佳序列。CRF層考慮了序列之間的限制,可以通過模型訓練自動學習這些約束,使最終的實體標簽結果更加有效。

2.4 神經網絡體系結構

ICFNER模型是以RoBERTa的BiLSTM-CRF架構,將BiLSTM網絡和CRF模型結合起來,模型結構如圖5所示。

圖5 基于語言模型(RoBERTa)的模型架構

Tokens列表是模型的輸入,預測的實體類型是模型的輸出。預處理后的RoBERTa與剩余LSTM一起,用于從每個標記的字符序列中學習信息豐富的形態學表示。然后,單詞表示將被傳遞到包含前向LSTM和后向LSTM的BiLSTM層,并通過利用左右上下文信息返回一個序列。BiLSTM網絡可以給輸出層提供一個序列點完整的上下文信息,這樣的輸出被輸入到通用CRF層。最后在CRF層,標簽將被解碼和輸出??偟膩碚f,BiLSTM-CRF模型輸入的是詞向量,輸出的是每個單詞的預測的序列標注。

按照圖5的步驟,ICFNER模型具體實現過程:

第一步:輸入層輸入文本內容,向量表示層進行編碼,進入RoBERT層獲取字符序列之間的特征信息,編碼方式已在2.1.1節中詳細闡述。

第二步:進入BiLSTM層,通過學習上下文的信息,輸出每個單詞對應于每個標簽的得分概率score(BiLSTM節點的輸出得分是一個矩陣)。

第三步:第二步中的score作為CRF層的輸入,CRF層通過學習標簽之間的順序依賴信息,得到最終的預測結果。

第四步:擇優比較CRF層最終預測結果,(如圖5所示,B-PER、I-PER、I-PER、O、O的最優預測結果為0.9)得出最終預判。

3 實驗與結果分析

3.1 實驗數據及評價指標

數據集采用公開的SmoothNLP文本數據集,其公開的數據集達到8萬多條。對這些數據集中的數據文本采用IOB格式(Inside,Outside,Beginning)標記方式表示,其中,詞條是一個命名實體的開始那么就標記其為B標簽,I標簽指詞條在一個命名實體的內部,O標簽指詞條在一個命名實體的外部。標注工具采用哈工大開源的產品pyltp,該工具能提供準確的自然語言處理服務。在標注時候做好標簽類別定義(如地址、組織機構等),標記時盡量標記完全、細致。對于出現的縮略詞進行人工判斷之后直接標注,可以實現直接對應。

考慮到在工商業領域中數據集相對匱乏的問題,采用半監的訓練方式補充大量未標記的語料庫來改進訓練數據集。為了避免標記錯誤,會采用自學習算法,隨機選取少量標記數據進行預處理,逐步從非分類樣本中獲得的假設,幫助預測非分類數據,保障具有高置信度的樣本被迭代地正確分類。

采用準確率(P)、召回率(R)以及調和平均數F1值作為每一類命名實體的評價標準。定義如下:

(14)

(15)

(16)

3.2 模型搭建和參數設置

本文采用由Google開源的專門針對GPU加速的神經網絡框架Tensorflow進行搭建。在ICFNER模型中,我們不考慮不斷更新整個模型的參數模型訓練方法,而只研究采用固定RoBERTa的部分參數,更新BiLSTM-CRF的參數的方法來進行訓練測試。訓練時使用SGD(隨機梯度下降法)以0.01的學習率優化參數,以5.0為梯度的閾值。BiLSTM-CRF模型用前向和后向LSTM各一個獨立層,維度各100,并加入了剔除率為0.5的dropout,防止梯度爆炸,輸入維度seq_length和訓練集batch_size分別為128和64,具體參數如表2所示。

表2 參數設置

3.3 實驗結果

在數據集上,采用了CRF、BiLSTM、BiLSTM-CRF、BERT-BiLSTM-CRF、ICFNER模型進行性能分析。

1) CRF模型:條件隨機場通過引入自定義的特征函數,不僅可以表達觀測之間的依賴,還可表示當前觀測與前后多個狀態之間的復雜依賴。

2) BiLSTM模型:LSTM依靠神經網絡超強的非線性擬合能力,能應對處理長時間依賴效應問題。能夠自動提取觀測序列的特征,其缺點是無法學習到狀態序列之間的關系,比如B(某實體的開頭)類標注后面不會再接一個B類標注。為了正確獲得一個詞的表示,有效利用上下文信息。使用兩個LSTM網絡,首先將句子中單詞輸入第一個網絡,然后再將輸出與句子單詞反向輸入第二個網絡,即雙向LSTM,兩個網絡不同。

3) BiLSTM-CRF模型:CRF的優點就是能對隱含狀態建模,學習狀態序列的特點,但它的缺點是需要手動提取序列特征。所以在BiLSTM后面再加一層CRF,以獲得兩者的優點。

4) BERT-BiLSTM-CRF模型:BERT模型提出了較為完善的預訓練模型的概念,提高一系列NLP任務的性能。

5) ICFNER模型的實驗效果圖,包含準確率、召回率以及調和平均數F1,如圖6所示。

圖6 準確率、召回率以及調和平均數F1

可以看出,精確度、召回率和F1得分值在0和1之間較高的值表示更好的性能[25-26]。開始訓練階段,精確度、召回率和F1得分的值急劇增高,模型開始發揮其性能。經過一定次數的充分訓練,訓練次數增加到20時,模型性能得到充分發揮,其性能開始趨于飽和,精確度、召回率和F1得分值三者都開始逐漸平穩,最終在訓練次數達到100時,趨于95%。

ICFNER模型的損失函數曲線如圖7所示。

圖7 損失函數曲線

可以看出,損失函數曲線有較為明顯的階段性特征,最后趨于平緩,逼近于0到1之間,符合模型中采用了SGD[27]自動調節學習率的優化效果。將圖6與圖5的曲線圖走勢對比,整體上呈現負相關特性。從細節中可以看出,在訓練次數達到20時,loss值開始趨于平緩,當訓練次數達到100時,loss值趨于穩定,在整個訓練過程中clip參數的設置有效避免了梯度爆炸現象的出現。圖5與圖6兩者之間的曲線走勢特性也相互印證了該模型的效果。

公司法人、公司所在地和公司名三類實體準確率、召回率、F1值如表3所示。

表3 不同類型命名實體識別結果(%)

可以看出,不同類型命名實體的識別結果值都比較高。其中,公司名稱的準確率相較于其他值普遍偏低,猜想是因為機構名稱中的嵌套和簡寫(如:國網、中石化等)較多,會在一定程度上對模型的識別造成干擾。

綜上所述,該模型在命名實體識別上達到了較好的結果,顯示出了該模型的優勢。

3.4 實驗對比分析

從表4中可以看出,本文中提出的半監督訓練的ICFNER模型與其他模型相比,在中文命名實體識別上獲得了更高的平均精確度、召回率和F1得分值。

表4 模型在SmoothNLP數據集上的識別效果對比(%)

對比分析表4和圖8之間的關系可以分析出,神經網絡模型在中文命名實體中優勢比較明顯,從與CRF模型的對比中可以看出,神經網絡的模型在準確率、召回率、F1值表現性能都好于CRF模型;雙向長短記憶神經網絡BiLSTM模型能夠獲取更多的上下文信息序列的信息,學習能力更強,BiLSTM模型再結合CNN模型實現標簽分類目標,其準確率高于CRF模型;在BiLSTM-CRF模型中,若直接通過取BiLSTM輸出的標簽概率最大值作為最終預測輸出,可能會出現I開頭的詞、兩個連續的B開頭的詞、B-PER和I-LOC連在一起等情況,模型效果將會降低,因此該組合模型中的BiLSTM層充分學習上下文序列信息,CRF層可以并修正BiLSTM層的輸出,從而保證預測標簽的合理性,提升了模型性能;BERT模型充分刻畫了文本數據中字符間的關系特征,BERT與BiLSTM-CRF模型得組合,取得了92.54%的準確率,增幅大,性能優勢明顯;RoBERTa模型改進了原來的BERT模型方法訓練方法,采用動態掩碼方式,提取字符級和詞級別的信息表征,刪除了作用不大的NSP任務,RoBERTa模型在與BiLSTM-CRF的結合使用,繼承了BiLSTM-CRF的綜合優勢,相比前者在準確率性能又有了進一步的提升,可以看出本文中ICFNER模型,中文命名實體識別整體性能的提升明顯,可以做進一步研究。

圖8 不同模型的準確率、召回率和平均數F1

4 結 語

工商業領域中的命名實體識別是自然語言處理的重要組成部分??紤]到標記的文本數據集匱乏,本文提出的命名實體識別的半監督ICFNER模型,屬于以RoBERTa模型為基礎的深度學習框架。RoBERTa基于Transformer的并采用動態掩碼的方式,改進了BERT,具有很強的特征提取能力。該模型將文本數據和深層網絡模型訓練出來的預訓練模型作為輸入,緩解標記數據集稀缺的問題,挖掘BiLSTM在學習詞語的上下文信息的能力強優勢,結合CRF模型通過全局信息推斷標簽的能力,增強字符間的推理能力,使模型充分學習文本的特征信息,模型性能有了一定的提升,實驗取得了較為滿意的結果。相比于傳統的實體識別方法,ICFNER神經網絡模型的中文命名實體識別方法提升了實體識別的效果,接下來的實驗將考慮如何簡化模型大小,提升模型的效率。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 精品日韩亚洲欧美高清a | 日韩一二三区视频精品| 免费一级毛片不卡在线播放| 国产欧美日本在线观看| 亚洲国产成人麻豆精品| 国产精品女在线观看| 欧美黄网站免费观看| 手机看片1024久久精品你懂的| 国产乱人免费视频| 天天色天天操综合网| 国产精品黑色丝袜的老师| 亚洲永久视频| 91小视频在线观看免费版高清| 亚洲视频无码| 亚洲AⅤ波多系列中文字幕| 国产丝袜丝视频在线观看| 中文国产成人精品久久| 欧美精品在线看| 亚洲成网站| 女人18毛片久久| 小13箩利洗澡无码视频免费网站| 国产呦精品一区二区三区下载| 看看一级毛片| 91成人精品视频| 亚洲天堂视频网| 日韩欧美在线观看| 91综合色区亚洲熟妇p| a级毛片在线免费| 无遮挡一级毛片呦女视频| 亚洲成人在线网| 试看120秒男女啪啪免费| 亚洲制服丝袜第一页| 日韩久久精品无码aV| 免费一级全黄少妇性色生活片| 欧亚日韩Av| 精品91自产拍在线| 国产免费网址| 欧美日韩精品一区二区在线线| 国产综合网站| 99免费视频观看| AV天堂资源福利在线观看| 亚洲国产精品久久久久秋霞影院 | jizz国产在线| 日韩精品成人网页视频在线| 一级一级一片免费| 成人第一页| 国产夜色视频| 日韩在线成年视频人网站观看| 亚洲欧洲日韩久久狠狠爱| 亚洲国产精品一区二区高清无码久久| 亚洲码在线中文在线观看| 亚洲天堂网站在线| 久久窝窝国产精品午夜看片| 免费不卡在线观看av| 亚洲第一成人在线| 精品国产三级在线观看| 欧美国产综合视频| 久久这里只精品国产99热8| 97狠狠操| 国产国产人成免费视频77777| 国产肉感大码AV无码| 狠狠色成人综合首页| 综合五月天网| 亚洲成人黄色网址| 3D动漫精品啪啪一区二区下载| 亚洲国产中文在线二区三区免| 亚洲国产系列| 亚洲男人的天堂在线观看| 国产欧美专区在线观看| 欧美特级AAAAAA视频免费观看| 亚洲欧美国产高清va在线播放| 亚洲无码在线午夜电影| 伊人久久青草青青综合| 国产免费自拍视频| a欧美在线| 久久香蕉国产线| 四虎影视无码永久免费观看| 国产乱人伦精品一区二区| 沈阳少妇高潮在线| 夜夜操天天摸| 国产精品久久自在自2021| 亚洲丝袜中文字幕|