999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的警情文本命名實體識別

2020-04-09 14:49:28王孟軒
計算機應用 2020年2期
關鍵詞:語言信息模型

王 月,王孟軒,張 勝,杜 渂*

(1.迪愛斯信息技術股份有限公司,上海200032;2.電信科學技術第一研究所,上海200032)

0 引言

命名實體識別(Named Entity Recognition,NER)是自然語言處理技術(Natural Language Processing,NLP)中的一個重要領域[1],也是警情數據智能分析的關鍵。其核心內容是找出一套可有效識別并抽取文本中人名、地名、時間等實體要素的算法。近年來,基于神經網絡的命名實體識別方法被相繼提出,其主要思路是先使用卷積神經網絡(Convolutional Neural Network,CNN)、循 環 神 經 網 絡(Recurrent Neural Network,RNN)等網絡結構提取序列隱含特征,然后利用條件隨機場(Conditional Random Field,CRF)求解最優序列[2-6],這些算法較經典統計學習方法,如隱馬爾可夫模型(Hidden Markov Model,HMM)、條件隨機場模型(Conditional Random Field,CRF)等性能上有顯著提升[7]。中文命名實體與英文不同,依賴分詞的方案無法解決詞語錯分造成的誤差傳遞問題,而僅依賴傳統字符詞向量(Skip-gram、CBOW(Continuous Bag Of Words)等)的方案無法很好地解決一詞多義問題[8],部分工作開始探索新型詞向量表達方法。Peters 等[9]提出的ELMO(Embeddings from Language MOdel)學習訓練詞向量與上下文的關系函數而非詞向量的方式解決上述問題;Google[10]則提出一種新型語言模型 BERT(Bidirectional Encoder Representations from Transformers),在各類NLP 任務上均達到了目前最好的結果。

本文提出的BERT-BiLSTM-Attention-CRF模型采用BERT預訓練語言模型訓練中文詞向量,較完整地保存了文本語義信息,提升了模型的上下文雙向特征抽取能力,并較好地解決了命名實體的邊界劃分問題;使用句子級注意力機制對文本語義信息進行編碼,相比傳統的BiLSTM 模型,對語義信息的利用更為充分,提升了模型對實體的識別率,模型總體命名實體識別精確率達91%。本文的另一工作在于制定了一套與警情處理相關的命名實體識別標準規范,并依據規范在脫敏數據上標注實體,建立相應的警情語料數據集。以電信詐騙為例,該模型將識別實體類別從三類(人名、地名、機構名)拓展到目前的七類(受害人名、案發時間、相關地名、詐騙方法、轉賬途徑、損失金額、處理方法)以滿足實際場景中的業務需求。

1 BERT-BiLSTM-Attention-CRF模型

模型主要由四部分構成,分別是BERT 預訓練語言模型、BiLSTM 層、Attention 層以及CRF 層。模型首先利用BERT 預訓練語言模型對單個字符進行編碼,得到單個字符對應的詞向量;接著利用BiLSTM 層對輸入文本進行雙向編碼,在解碼前使用注意力機制增加上下文相關的語義信息;最后將包含上下文信息的語義向量輸入CRF 層進行解碼,CRF 層可以輸出概率最大的標簽序列,從而得到每個字符的類別。

為提升訓練速度,并確保詞向量編碼具有足夠豐富的表征能力,該模型使用的詞向量是在1998 人民日報語料庫上預先習得的。模型整體結構圖1 所示:其中X1,X2,…,XN表示輸入詞向量;緊接著的為BERT 預訓練語言模型層,主要由兩組Transformer 構成;H1,H2,…,HN表示BiLSTM 層的隱含向量;Uchar表示Attention 層的加權函數,用于計算兩兩單詞之間的關系權重;V 為加權后的拼接向量;接下來的部分為CRF層,用于計算每個輸入向量的實體類別標簽,如地址(LOC)、人名(NAME)等實體類別,其中“B-”表示實體開頭,“I-”表示實體除頭以外部分。

圖1 BERT-BiLSTM-Attention-CRF模型Fig.1 BERT-BiLSTM-Attention-CRF model

1.1 符號約定

本文設定wq、wk、wv分別為權值矩陣的q、k、v 維,Q、K、V為權值矩陣,W 為偏置矩陣,x、h 為輸入向量和隱向量,b 表示偏置量,P、A為轉移矩陣。

1.2 BERT預訓練語言模型

語言模型(Language Model,LM)是自然語言處理領域的一個重要概念,簡單來說,語言模型是計算任意語言序列w1,w2,…,wn出現概率p(w1,w2,…,wn)的方法,即:

神經網絡語言模型(Neural Network Language Model,NNLM)最早是Bengio等[11]于2003年提出的,它是關于計算給定序列情況下后一個詞語出現概率的方法。在由詞w1,w2,…,wT構成的句子組成的訓練集中,神經網絡語言模型的目的是學到下面的語言表征模型:

傳統語言模型是靜態的,無法根據上下文很好地表征字詞的多義性等,針對這個問題,本文采用了BERT 預訓練語言模型,結構圖如圖2 所示,E1,E2,…,EN為模型的輸入向量,T1,T2,…,TN為模型的輸出向量。

圖2 BERT預訓練語言模型Fig.2 BERT pretraining language model

BERT 預訓練語言模型采用雙向Transformer 作為特征抽取器,與傳統循環神經網絡相比,可以獲取更長的上下文信息,提升了特征抽取能力;同時,該模型改進了常見的雙向語言模型,轉而使用上下文融合語言模型,該語言模型不再是簡單地將從左到右和從右到左的句子編碼簡單拼接起來,而是隨機遮擋部分字符(默認遮擋15%字符,以下稱token),訓練中損失函數只計算被遮擋的token。遮擋方法如下:

1)80%被遮擋詞用符號masked token代替;

2)10%用隨機詞替換;

3)10%不變。

每個字符對應的詞向量由三個向量組成,分別是Token Embeddings、Segment Embeddings 和Position Embeddings。其中,Token Embeddings 為詞向量,第一個詞為cls,用于下游的分類任務;Segment Embeddings 用于區分不同句子,便于預訓練模型做句子級別分類任務;Position Embeddings 是人為給定的序列位置向量。示意圖如圖3所示。

圖3 BERT預訓練語言模型的詞向量構成Fig.3 Word vector composition of BERT pretraining language model

此外,增加了句子級別的訓練任務。該項任務是在預訓練模型中加入了一個二分類模型,學習句子之間的關系。具體做法是隨機替換部分句子,利用上一個句子對下一個句子做“是或否”的預測。

BERT 預訓練語言模型使用的Transformer 特征抽取器[12],Transformer是目前自然語言處理領域流行的網絡結構,每個單元僅由自注意力機制(self-Attention)和前饋神經網絡(Feed Forward Network)構成,單元可以連續堆疊。其結構圖如圖4所示。

Transformer 中最重要的結構是自注意力機制模塊,結構如圖5,圖中MatMul表示矩陣相乘運算。

圖4 Transformer特征抽取器結構Fig.4 Structure of feature extractor Transformer

圖5 自注意力機制示意圖Fig.5 Schematic diagram of self-attention mechanism

在自注意力機制中,每個詞對應3 個不同的向量,它們分別是Query 向量(Q)、Key 向量(K)和Value 向量(V),長度相同,由嵌入向量乘以三個不同的權值矩陣wq、wk、wv得到。

每個詞的重要度score由Query向量和Key向量相乘而得:

Attention 值通過使用SoftMax 對score作平滑而得,平滑后的結果與Value向量相乘:

實際使用中,一般先通過注意力機制計算注意力包含注意力的編碼向量Z,然后將Z 送入前饋神經網絡層,用作訓練下游任務,即:

BERT 預訓練模型使用了由多個自注意力機制構成的多頭注意力機制(multihead-attention),用于獲取句子級別的語義信息。

為解決深度神經網絡訓練困難的問題,Transformer 模塊還使用了“短路連接”[13]和“層歸一化”[14]方法,見圖4 虛線部分。“短路連接”是殘差網絡中常使用的方法,它的思路是將前一層信息無差地傳遞到下一層從而解決深度神經網絡中梯度消失問題;“層歸一化”是指對每一層的激活值進行歸一化處理,這樣可以加速模型訓練過程,使得模型盡快收斂。

1.3 BiLSTM層

循環神經網絡(RNN)[15]是神經網絡中一類重要的結構,自帶時序性的特點使得這類網絡模型在自然語言處理、序列預測等領域具有廣泛應用。

本文使用的長短期記憶(Long Short Term Memory,LSTM)神經網絡[16]結構是對傳統RNN 結構作了較大改進。LSTM 神經網絡是指一類具有記憶單元的循環神經網絡,由Schmidhuber在1997年提出。

每個LSTM 單元里最重要的是門控單元I-gate、F-gate 和O-gate,分別稱作輸入門、遺忘門和輸出門,均使用前一時刻的隱藏單元與當前時刻信號作為門控單元的輸入,利用Sigmoid函數進行非線性激活,更新方式如下:

其中:c(t)為LSTM 中的記憶信息,由兩部分組成,分別為遺忘門f 控制的歷史信息與輸入門i 控制的當前信息。更新方式為:

隱藏單元的更新由輸出門o和記憶信息c(t)決定,即:

傳統單向循環神經網絡結構只能捕捉序列的歷史信息,而序列標注等任務中每個字的標簽與上下文聯系同樣緊密。受 此 啟 發,Graves 等[17]提 出 了 雙 向 循 環 神 經 網 絡(Bidirectional RNN,BRNN)結構,該模型成功地應用于實體識別中,并取得了當時最好的結果。后續,Graves 等[18]提出了BiLSTM 這一改進模型,進一步提升了模型利用上下文信息的能力,在語音識別、詞性標注、實體識別等領域得到了大規模應用。

1.4 Attention層

Attention 層主要是用來獲取上下文相關的語義信息,經過編碼的隱向量包含豐富的上下文信息特征,然而這些特征具有相同的權重,因此區分實體種類時,存在較大誤差。Attention機制將對得到的每個詞向量xi,通過

分配權重αi,其中S 表示由x1,x2,…,xn構成的句子。在Attention 中,每個字符的距離都為1,字符之間的相關性通過權重αi體現,便于劃分詞語邊界,從而解決字符級數據集詞語邊界難以區分的問題。

1.5 CRF層

條件隨機場是序列標注任務中的一種常見算法[19],因此可以用于標注實體類別。序列標注模型中常使用的是線性鏈條件隨機場,是一種根據輸入序列預測輸出序列的判別式模型。對 于 指 定 序 列X(x1,x2,…,xn),其 對 應 標 簽 為Y(y1,y2,…,yn),若滿足下列條件:

設P(N,K)為解碼層輸出的權重矩陣,進而可以得出評估分數S(x,y),即:

其中:A為轉移矩陣,k為標簽個數,n為序列長度。

序列標簽y的最大概率可以用SoftMax函數計算,即:

訓練時一般使用極大似然法求解P(y|x)的最大后驗概率:

線性條件隨機場的訓練和解碼一般使用Viterbi算法[20]。

2 數據標注規范及評估方案

本文使用的數據集由10 萬字左右的電信詐騙相關接處警文本構成。識別的實體為:報警人姓名、報警時間、相關地點、詐騙手段、詐騙金額,詐騙途徑(包括轉賬方式等)和處理方式。

2.1 標注規范

數據的標注采用BIO 三段標記法:對于每個實體,將其第一個字標記為“B-(實體名稱)”,后續的標記為“I-(實體名稱)”,對于無關字,一律標記為O。相比BIOES 五段標記法,BIO 三段標記法最大的優點是支持逐字標記,BIOES 法需要將單字標為“S(Single)”,而這需要先對數據進行分詞處理,容易將分詞產生的誤差向下傳播,影響模型最終效果。

以電信詐騙為例,結合例子說明命名實體的標注規范。

相關人名 將警情文本中的人名信息,例如“張某某”,“冒充宋清云經理”中的“宋清云”按<相關人名>相關的人名</相關人名>方式標注。

相關時間 將警情文本中的時間信息,例如“2018年9月15日”“上午7點左右”“國慶節那天”等,按照<相關時間>相關的時間</相關時間>方式標注。

相關地點 警情文本中的地點信息較為雜亂,例如“江南造船廠附近”“光瑞路2 號”“鼓樓區”“長山花園5 號”,包括小區、各類道路、各種建筑物等名稱,按照<相關地點>相關的地點</相關地點>方式標注。

詐騙手段 詐騙手段描述較長,例如“幫忙辦理信用卡……”“以交輔導費為由,讓……”“冒充其老板向其借錢”等,均標記文本中的首句緣由部分,例如上面三個例子依次標記“辦理信用卡”“以交輔導費為由”“冒充其老板”部分。

詐騙金額 不僅要記金額數值,還需要將數值的單位標記出來,例如將“300 元”“十萬元人民幣”“一百塊錢”等按<詐騙金額>詐騙的金額</詐騙金額>方式標注。

詐騙途徑 詐騙途徑主要包括轉賬途徑一類的信息,例如將“通過中國銀行轉賬”“支付寶轉賬”“微信轉賬”等按<詐騙途徑>轉賬的途徑</詐騙途徑>的規則標注。

處理方式 將警情文本中的處理方式按<處理方式>具體處理方式</處理方式>。

標記好的數據處理后共分16 大類,分別為B-Name、I-Name、B-Time、I-Time、B-Location、I-Location、B-Reason、I-Reason、B-Money、I-Money、B-Measure、I-Measure、B-Deal、I-Deal、O 和<Padding>。為保證訓練時采用的長度一致(256×1維),額外添加了一個占位符<Padding>。

2.2 評估標準

命名實體識別的評價標準主要包括精確率(P)、召回率(R)和F 值,并定義Tp為模型識別正確的實體個數,Fp為模型識別到的不相關實體個數、Fn為模型沒有檢測到的相關實體個數。具體公式如下:

3 實驗及結果分析

3.1 實驗環境

所有實驗采用的環境如表1所示。

表1 實驗環境Tab.1 Experimental environment

3.2 參數設置

本文使用的主要參數包括:BERT預訓練語言模型默認使用12 頭注意力機制的Transformer,預訓練詞向量長度為768維;單個處警文本長度多位于160~300 字,故每次讀取的序列長度為256,每批次大小為64;優化器采用的是Adam[21],學習率設置為5×10-5,實驗結果顯示較小的學習率有助于模型找到最優解;丟棄率[22]為0.5;為緩解梯度消失和爆炸的影響,LSTM 隱含單元設為128,層數為2;還使用了梯度裁剪技術,clip 設置為5;Attention 層參數為64,即每個詞向量被壓縮為64 維;經過CRF 層的全連接層參數為16,即分為16 類,每類為16×1維的one-hot向量。

3.3 結果分析

為驗證模型的有效性,主要進行了四組對比實驗,使用的模型分別為CRF++、BiLSTM-Attention-CRF、BiLSTM-CRF 和BERT-BiLSTM-Attention-CRF。

其中,CRF++模型使用的是線性立鏈條件隨機場算法,采用單字匹配的模式,原理是利用特征函數構建特征方程,特征函數主要包括句子s、詞在句中的位置i以及前一個詞、后一個詞的標簽;使用梯度下降法訓練,解碼時使用Viterbi 動態規劃法。

BiLSTM-CRF 是深度學習領域比較有代表性的序列標注模型,實驗中采用的是基于字符標注的版本,字向量是采用CBOW 在警情語料上預先訓練好的,每個字向量為128×1維。

為了比較Attention 在句子語義編碼中的作用,本文設計了包含Attention 機制的BiLSTM-Attention-CRF 模型與BiLSTM-CRF 模型進行對比,除Attention 層以外,其他參數設置均相同。

本文設計的BERT-BiLSTM-Attention-CRF 模型采用的字符向量是利用BERT 模型在大規模中文語料上預訓練好的,字向量為128×1維。

BERT-BiLSTM-Attention-CRF 模型的損失函數曲線如圖6所示,其中:val-loss 表示驗證集交叉熵損失值;loss 為訓練集交叉熵損失值。由于采用的是Adam 優化器,它可以根據訓練過程自動地調節學習率,損失函數曲線有較為明顯的階段性特征。

圖6 驗證集與訓練集損失函數曲線Fig.6 Loss curve of validation set and training set

三組實驗的結果如表2所示。

表2 各個模型的命名實體識別結果Tab.2 Results of named entity recognition of each model

本文對比了各個模型在測試集上的具體表現,各類實體標記結果方式如下,其中XX 表示文字,下劃線用于標識各類實體。

CRF++標記結果如下:

BiLSTM-Attention-CRF標記結果如下:

BiLSTM-CRF標記結果如下:

BERT-BiLSTM-Attention-CRF標記結果如下:

由上述結果可以看出,CRF++模型無法準確抽取實體邊界信息,甚至有錯抽和誤抽的情況。這主要是由于CRF++模型的實體抽取建立在分詞基礎上,而時間、地點包括姓名一類的實體均屬于未登錄詞范疇,模型對這一類的未登錄詞識別較弱。BiLSTM-Attention-CRF 模型相比BiLSTM-CRF 和CRF++,在實體識別上準確率較高,邊界劃分也更為準確,但對于“詐騙途徑”這類實體的識別較差;本文模型對實體邊界的劃分較以上模型更為準確,例如可以將地點信息“北京”“廣州”準確抽取出來,且對“詐騙手段”的識別也較為靈活,不拘泥于部分常見詞語,而將相關的語義信息全部標記出來。

根據表2,本文提出的BERT-BiLSTM-Attention-CRF 模型準確率比CRF++的基準模型高7%,F1值高0.18,表明神經網絡在特征抽取能力上比傳統統計學模型要更強;與BiLSTMAttention-CRF 模型相比,準確率提升了7%,表明BERTBiLSTM-Attention-CRF 模型使用的BERT 詞向量預訓練模型較word2vec 訓練的一類靜態語言模型,在把握語義方面更加精準,對于實體識別等自然語言處理任務的性能提升有較大影響。

在測試集上的實驗表明,使用Attention 機制在語義編碼時效果最佳,如BERT-BiLSTM-Attention-CRF模型不僅可以準確地抽取姓名要素,對地點、時間等實體的抽取也更為靈活,“從南京到廣州”遠比“南京”“廣州”語義信息豐富,對于較復雜的原因類實體,也可以得到“運輸信息,謊稱”的字樣,比單純的“謊稱”要更為實用。

BERT-BiLSTM-Attention-CRF 模型對各類實體的識別率見表3。

表3 各類實體的識別率Tab.3 Recognition rate of different named entities

本文提出的模型對于案發時間、受害人名、詐騙金額以及處理方式這四類實體具有較高的識別率和F1 值,對相關地點、詐騙手段、轉賬途徑等實體識別率較低,這主要是因為這些實體描述方式過于多樣,難以找到通用規則表述,例如相關地點中包括住宅地址、公司名、廣場名等多種類型,找出一個通用規則的方法尚不理想。這些問題可以通過對各個實體類別作進一步細分來解決。

4 結語

基于BERT 的命名實體識別模型與傳統模型相比,在準確率、召回率和F1 值上均有較大程度的提升,對報警文本中的常見實體例如案發時間、受害人名、處理方式等具有較高的識別率,可以滿足部分業務需求。為進一步提升模型的性能,后續可以從細化、完善各類實體的標記規則和拓展語料規模等方面著手。

由于命名實體的分布數目分布不均勻,單純地使用各個實體權重相同的損失函數進行訓練效果不是很好,可以設計基于各類實體數目分布的加權損失函數進一步優化,提升部分稀疏實體的識別率。

猜你喜歡
語言信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
我有我語言
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产在线麻豆波多野结衣| 中文字幕天无码久久精品视频免费| 国产精品19p| 欧美精品在线看| 中文字幕 91| 精品综合久久久久久97超人| 伊人五月丁香综合AⅤ| 久久久久人妻一区精品| 免费AV在线播放观看18禁强制| 国产主播在线一区| 国模极品一区二区三区| 精品小视频在线观看| 极品国产在线| 久久鸭综合久久国产| 欧美精品v欧洲精品| 亚洲无码电影| 日本www在线视频| 熟妇丰满人妻av无码区| 毛片免费在线视频| 免费在线国产一区二区三区精品| 国产精品第页| 欧美一级特黄aaaaaa在线看片| 欧美日韩亚洲国产主播第一区| 中文字幕波多野不卡一区| 国产成人盗摄精品| 欧美无遮挡国产欧美另类| 国产精品第一区| 毛片一区二区在线看| 久久人妻系列无码一区| 国产精品亚洲αv天堂无码| 国产精品女人呻吟在线观看| 亚洲国产精品一区二区第一页免 | 国产精品自拍合集| 国产尤物在线播放| 欧美成人a∨视频免费观看| 成人在线视频一区| 国产精品尤物在线| 欧亚日韩Av| 国产美女主播一级成人毛片| 丁香亚洲综合五月天婷婷| 亚洲美女AV免费一区| 日韩毛片在线视频| 久操线在视频在线观看| 国产h视频在线观看视频| 久久精品无码国产一区二区三区| 日韩第一页在线| 91热爆在线| 国产精品亚洲专区一区| 国产精品漂亮美女在线观看| 亚洲午夜天堂| 毛片免费视频| 全部毛片免费看| 国产精品19p| 亚洲最大福利网站| 国产成人精品一区二区不卡| 久久精品女人天堂aaa| 亚洲天堂网站在线| 亚洲欧美另类专区| 国产成人免费高清AⅤ| 天堂网亚洲综合在线| 久久毛片基地| 亚洲av无码久久无遮挡| 免费中文字幕一级毛片| 国产精品大白天新婚身材| 亚洲人在线| 少妇露出福利视频| 国产精品原创不卡在线| 在线观看视频99| www.av男人.com| 欧美天堂久久| 在线观看视频99| 国产精品 欧美激情 在线播放| 91网址在线播放| 伊人久久久久久久久久| 1769国产精品视频免费观看| 99热这里只有免费国产精品| 一本色道久久88| AV色爱天堂网| 五月婷婷亚洲综合| 91在线播放免费不卡无毒| 午夜福利在线观看入口| 一区二区三区成人|