范鈺程,梁鳳梅,鄔志勇
(太原理工大學信息與計算機學院,山西晉中 030600)
命名實體識別的核心任務就是從文本中識別出人名、地名、機構名等實體的邊界和類別,是問答系統(tǒng)、機器翻譯、情感分析、知識圖譜等NLP 任務的關鍵[1-2]。
在新聞文本中,詞語更新速度快,且存在著大量一詞多義的現(xiàn)象[3-4],之前的方法無法在進行特征提取的同時兼顧局部特征信息和上下文含義,對同一個詞在不同上下文中的不同含義區(qū)分度較差。該文結合預訓練語言模型ALBERT(A Lite BERT)和字詞融合(Char and Word,CAW)方法,提出一種命名實體識別模型ALBERT-CAW-BiLSTM,充分利用文本的局部特征信息和上下文關聯(lián)語義,通過對比實驗證明了在新聞命名實體識別中的有效性。
文獻[5]提出的Lattice LSTM 模型,對輸入文本和潛在詞匯進行了編碼。文獻[6]中采用融合字詞BiLSTM(Bi-directional Long Short-Term Memory)的命名實體識別方法,該方法獨立處理字模型和詞模型。文獻[7]把能獲取更復雜語義的預訓練語言模型BERT 應用于實體識別。文獻[8]采用了BERT 的改進版ALBERT,在模型參數少的情況下達到了更好的效果。
文獻[9]提出了一種基于新詞的新聞命名實體識別方法,該方法借助新詞詞典提升了新詞的識別準確率,但是對詞典未覆蓋的未登錄詞基本上沒有識別能力。文獻[10]采用基于注意力機制的BiLSTM 結合條件隨機場(Conditional Random Field,CRF)模型,能獲在取局部特征的同時兼顧上下文語義,但該模型使用ngram2vec 訓練詞向量,對比于ALBERT 并沒有充分提取文本信息。
如圖1 所示,該文模型主要由四部分組成,包括ALBERT、CAW、BiLSTM 和CRF。

圖1 ALBERT-CAW-BiLSTM 模型
1)采用預訓練語言模型ALBERT 獲取文本的動態(tài)詞向量;
2)在CAW 層利用多層CNN 提取詞語局部特征,使用LSTM 獲得詞語的前后語義信息,將兩者的結果融合成包含豐富信息的動態(tài)特征;
3)在BiLSTM 層獲取CAW 層已經捕捉實體在序列中的上下文信息,獲取M維概率分布;
4)通過CRF 層進行解碼,得到實體標注信息,完成對實體邊界和類別的識別。
ALBERT 模型采用雙向transformer 提取語言特征,具體結構如圖2所示。E1,E2,…,En是輸入序列中的字符,在經過多層transformer 訓練之后得到輸出的文本特征向量T1,T2,…,Tn。模型中每個字符對應的詞向量由三個向量組成:字向量(Token Embeddings)、文本向量(Segment Embeddings)和位置向量(Position Embeddings),模型輸入為字向量、文本向量和位置向量的和。其中,文本向量代表的是全局的語義信息,且和單字的語義信息相融合;位置向量是人為給定的序列位置向量。

圖2 ALBERT模型
Transformer的結構為Encoder-Decoder,ALBERT使用的是Encoder 特征抽取器,其具體結構如圖3所示。

圖3 Transformer Encoder結構
與傳統(tǒng)神經網絡模型相比,ALBERT 能有效提取上下文信息,語義信息豐富,能較好地處理一詞多義的問題。
詞向量的獲取有基于字符和基于詞兩種方法。基于字符的方法處理的基本單位是字,不需要對輸入文本進行分詞,減少了未登錄詞的干擾,但是中文大多不是以單字作為表達語意最小單位,因此其相比基于詞存在著語義信息不足等問題。基于詞的方法首先需要對輸入文本進行分詞,分詞的效果直接影響最終命名實體識別的效果。兩者各有優(yōu)缺點,因此,該文綜合考慮后采用融合字詞語義的方式提取文本特征,其結構如圖4 所示。

圖4 CAW結構
2.2.1 CNN
CNN 的核心是卷積層,主要思想是參數共享和局部連接,特征提取依靠的是對單詞的卷積運算。將不同大小的輸入特征局部窗口與卷積核進行卷積,將結果通過非線性激活函數f處理得到輸出,公式如下:

其中,常用的f包括sigmoid、tanh 和ReLU 等,W是卷積核,X是輸入詞向量,b1是偏置。
在池化層使用最大池化的方法提取最大的特征值,計算公式為:

其中,pj是池中第j個區(qū)域內最大的特征值,cj是卷積得到的新特征。
2.2.2 Bi-LSTM
LSTM 是常用的命名實體識別模型,能解決RNN常見的梯度消失和梯度爆炸問題[13]。其結構如圖5所示。

圖5 LSTM細胞
其中,xt代表當前t時刻的輸入,ht是t時刻隱藏層輸出,ct代表t時刻細胞的記憶狀態(tài),σ是sigmoid 函數。LSTM 的3 個門控單元為輸入門it、遺忘門ft和輸出門ot,其更新公式如下:
其中,W為隱藏層權重參數矩陣,b為偏置矩陣。
LSTM 細胞的記憶狀態(tài)ct和隱藏層ht公式如下:

LSTM 能在一定程度上解決梯度消失和梯度爆炸的問題,但是在序列標注任務中,還存在著其他問題,LSTM 只能利用前向信息,無法使用對t+1 時刻的信息,因此提出了雙向LSTM(BiLSTM),結構如圖6所示。

圖6 BiLSTM結構
正向輸入LSTM 得到輸出可以理解成“歷史信息”,將序列反向輸入LSTM 得到“未來信息”,對兩者進行連接合并。需要注意的是,前向LSTM 和后向LSTM 參數并不共享。BiLSTM 模型能很好地提取上下文信息,獲得更佳的語義信息[11-13]。
2.2.3 CAW的實現(xiàn)
考慮到使用CNN 雖然能夠高效地提取文本局部特征,但是卻無法挖掘上下文信息;LSTM 能有效地使用上下文信息,但是因為自身循環(huán)遞歸的設定,網絡復雜度較大。因此該文提出字詞向量融合的方法,同時輸入字向量和詞向量,用CNN 和LSTM 分開處理字向量和詞向量,盡可能挖掘文本局部信息和上下文語義信息。
用CNN 訓練字向量的過程如下:對于字向量,按照分詞結果將其輸入CNN 來提取信息,根據CNN的窗口大小,不等長的用padding 進行填充,通過卷積操作和最大池化抽取詞語所包含的特征,得到新的詞級別的特征向量對于詞向量,使用BiLSTM提取詞向量特征的前后語義,將輸入詞向量Ew通過BiLSTM 網絡訓練,即可得到新的初步提取過語義信息的詞向量,最后將兩者進行Concat 拼接融合,獲得拼接后的詞向量Ecaw。例如,在處理“國務院總理”時,會根據分詞“國務院”“總理”將詞語的語義信息拼接到各自的動態(tài)特征中。
條件隨機場(Conditional Random Fields,CRF)是序列標注任務的概率化模型,是根據輸入序列預測輸出序列標簽的判別式模型[14]。CRF 能在給定一組輸入的條件下,給出另一組輸出變量的條件概率分布模型,可以對分詞、詞性和實體等特征進行預測。
CRF 的判別公式如下:

s(x,y)是評估分數,A為轉移矩陣,p(y|x)為輸入序列到標簽序列的對應概率,Yx是所有可能的標簽序列,最終使用維特比算法解碼獲得最可能的標簽。
該文選擇的數據來源是爬取近一年(2020年1月-2021 年1 月)的人民日報圖文數據庫(http://paper.people.com.cn/)時政新聞數據。人民日報分要聞、評論、理論、文化、國際、經濟、體育和國際等多個版塊,該實驗爬取要聞、文化、經濟、體育和國際等版塊,標注了其中3 100 篇時政新聞數據作為實驗的數據集,按照7∶3 的比例劃分訓練集和測試集。同時根據爬取的數據自建詞典,收錄近年的熱點名詞,提升了分詞的準確率。
在制定標注規(guī)則時該文考慮新聞的人物、地點、事件等要素,將實體劃分為七類。例如,人物要素可以分割成人名和職位兩類實體。數據標注均采用BIO 三段標記法,“B”代表每個實體的第一個字,“I”代表實體中除第一個字以外的字,“O”代表無關字。實體分類標注格式如表1 所示。例如,國“B-GOV”、務“I-GOV”、院“I-GOV”、總“B-POS”、理“I-POS”、李“B-PER”、克“I-PER”、強“I-PER”、近“O”、日“O”。

表1 實體分類
該文采用的評價指標為精準率P(Precision)、召回率R(Recall)和F1 值,P表示正確識別的實體占識別出實體的比例,R表示正確識別實體占應識別出實體的比例,F(xiàn)1 是綜合P和R的評價指標。具體公式如下:

其中,Tp是正確識別的實體個數,F(xiàn)p是識別出的錯誤實體個數,F(xiàn)n是沒有識別出的實體個數。
實驗環(huán)境如表2 所示。

表2 實驗環(huán)境
該文的實驗參數中預訓練模型采用ALBERTbase,優(yōu)化器為Adam,學習率初始值設置為2×10-5,迭代次數epoch 設置為40。
該文設置了4組對比實驗,分別采用Word2Vec和jieba 獲取詞向量的BiLSTM[11-13]模型,采用Word2Vec和jieba獲取詞向量的CNN模型,ALBERT-BiLSTM[15]模型和該文字向量與詞向量融合的ALBERT-CAWBiLSTM 模型。
表3 是ALBERT-CAW-BiLSTM 模型在時政新聞數據集上的P、R和F1 值。
根據表3 的實驗結果可以發(fā)現(xiàn),除了活動識別的F1 值較低,只有76.2%,其他命名實體的F1 值均高于83%,說明該模型在時政新聞數據集標簽種類較多的情況下表現(xiàn)良好。法律制度類的實體適用場景特殊,對這些實體中的未登錄詞的識別效果最好。例如,在“發(fā)布新修訂的《軍隊院校教育條例(試行)》”文本中,法律制度實體“《軍隊院校教育條例(試行)》”能被正確識別。語句“聯(lián)合國、世界衛(wèi)生組織等國際組織發(fā)出要團結、不要污名化的呼吁”中,模型識別出了“聯(lián)合國”、“世界衛(wèi)生組織”為組織機構實體。“在習近平總書記親自指揮、親自部署下”識別出“習近平”為人名實體,“總書記”為職位實體。檢查數據集中識別效果不佳的活動實體,發(fā)現(xiàn)是因為活動名稱命名沒有規(guī)律,容易出現(xiàn)未登錄詞和歧義詞,模型對活動實體的識別能力有所下降。例如在“自然資源調查監(jiān)測底圖年底將完成”語句中,僅僅識別出“調查監(jiān)測”,正確識別的活動實體應為“自然資源調查監(jiān)測”。
從表4 中的結果可以看出,該文模型在P、R和F1 值上比BiLSTM 高出9.5%、7.6%、8.5%,比CNN 模型高出13.5%、20.9%、17.7%,這是因為BiLSTM 和CNN 均是使用word2vec 來獲取靜態(tài)詞向量,雖然有較強的通用性,但是無法解決一詞多義及同義詞問題。這一結果證明了該文模型使用預訓練語言模型,在學習特征、語義抽取方面性能表現(xiàn)優(yōu)秀,能充分利用句子中的上下文信息。在特征提取的過程中,CNN 模型使用池化層對文本特征進行降維會導致語義信息損失過多,BiLSTM 只考慮到上下文的語義信息,兩者都不能充分使用文本信息。對比ALBERT-BiLSTM 模型,該文模型F1 值提高了2.9%,召回率R提高了3.7%,準確率P提高了1.9%,在自身模型已經識別效果較好的情況下,證明了引入字詞融合(CAW)的方法能更充分地利用文本中上下文語義信息和局部特征信息,有效地劃分出實體邊界,提高命名實體的識別效果。

表4 不同模型結果對比
例如文本“會澤縣城有新時代文明實踐中心”中的組織機構實體“新時代文明實踐中心”。CNN 模型標注為“O”完全無法識別出實體信息;BiLSTM 模型能利用上下文語義信息識別出一部分:實“B-ORG”、踐“I-ORG”、中“I-ORG”、心“I-ORG”;ALBERTBiLSTM 模型和ALBERT-CAW-BiLSTM 模型均能識別出新“B-ORG”、時“I-ORG”、代“I-ORG”、文“IORG”、明“I-ORG”、實“I-ORG”、踐“I-ORG”、中“IORG”、心“I-ORG”,證明充分使用了局部特征和上下文語義。在文本“全國中小學體育教學指導委員會、中國教育發(fā)展基金會、耐克體育公益部聯(lián)合舉辦”中,ALBERT-BiLSTM 模型雖然將3 個實體都識別出來了,前兩個正確識別為組織機構ORG 實體,但是錯誤地將第三個實體識別成政府部門GOV 實體,而ALBERT-CAW-BiLSTM 模型則成功識別3 個實體。
該文提出了基于ALBERT-CAW 的時政新聞領域實體識別模型,采用預訓練語言模型ALBERT 獲取文本的字詞向量,在字詞融合層利用CNN 和LSTM 初步提取的上下文語義和詞語語義,將結果融合后,通過BiLSTM 層兼顧上下文語義提取深層特征,最終輸入CRF 層進行解碼,得到實體標注信息,完成對實體邊界和類別的識別。該文設計了4 組對比實驗,經過在自建的人民日報時政新聞數據集上進行驗證,獲得了87.3%的F1 值,與傳統(tǒng)模型相比在準確率P、召回率R和F1 值上均有較大程度的提升,證明了該文模型能充分利用上下文信息,較好地解決一詞多義問題,提高了識別準確率,模型能有效地完成時政新聞命名實體識別的任務。為進一步提升模型的性能,后續(xù)可以從細化和完善各類實體的標記規(guī)則、替換為ALBERT-large 的預訓練模型、拓展語料規(guī)模和減少標注謬誤等方面著手進行優(yōu)化。