基于BERT 與融合字詞特征的中文命名實(shí)體識(shí)別方法

2021-10-10 03:55:44朱亞明

電子設(shè)計(jì)工程 2021年19期

關(guān)鍵詞：特征模型

朱亞明，易黎

（1.武漢郵電科學(xué)研究院，湖北武漢 430074；2.南京烽火天地通信科技有限公司，江蘇南京 210019）

在文本處理中，通常會(huì)重點(diǎn)關(guān)注到諸如人名、地名、組織機(jī)構(gòu)名稱等含有特定信息的文本單元，在自然語言處理（Natural Language Process,NLP）中被稱為“命名實(shí)體”，而命名實(shí)體識(shí)別（Named Entity Recognition,NER）[1]則是專門用于識(shí)別特定命名實(shí)體的NLP 基礎(chǔ)任務(wù)之一。

隨著深度學(xué)習(xí)在各個(gè)領(lǐng)域的發(fā)展，如今已廣泛應(yīng)用于NLP 各類任務(wù)中。該文以經(jīng)典模型BiLSTMCRF 為基準(zhǔn)模型進(jìn)行研究，針對(duì)中文命名實(shí)體識(shí)別的任務(wù)特性，通過引入預(yù)訓(xùn)練語言模型BERT 以及Lattice LSTM，在語義字向量表示及字詞特征融合處理上進(jìn)行改進(jìn)，提升了識(shí)別精度，取得了優(yōu)于基準(zhǔn)模型及對(duì)比模型的結(jié)果。

1 概述

近年來隨著深度學(xué)習(xí)的發(fā)展，其在計(jì)算機(jī)圖像處理以及語音識(shí)別領(lǐng)域有相當(dāng)優(yōu)異的表現(xiàn)，于是NLP 學(xué)者將其引入自然語言處理的各類任務(wù)中。2011 年Collobert 等在命名實(shí)體識(shí)別任務(wù)中引入神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)特征的自動(dòng)化提取，大大減小了傳統(tǒng)統(tǒng)計(jì)方法的特征工程工作量[2]。此后神經(jīng)網(wǎng)絡(luò)逐漸被廣泛應(yīng)用到命名實(shí)體識(shí)別研究領(lǐng)域。文獻(xiàn)[3]提出雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（Bi-directional Long Short Term Memory,BiLSTM）獲取字級(jí)特征表示，文獻(xiàn)[4]提出BiLSTM-CRF 結(jié)構(gòu)，使用了拼寫特征、內(nèi)容特征、詞語向量和詞典特征4 種特征，實(shí)驗(yàn)結(jié)果表明，加入的特征能夠提高識(shí)別率。文獻(xiàn)[5]提出迭代空洞卷積神經(jīng)網(wǎng)絡(luò)（ID-CNNs）模型作為序列標(biāo)注部分的編碼器。序列標(biāo)簽解碼常用的結(jié)構(gòu)和方法包括多層感知機(jī)和Softmax 層輸出[5]、條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)[6-7]和RNN[8]等。總的來說，使用深度學(xué)習(xí)方法處理命名實(shí)體識(shí)別任務(wù)時(shí)，RNN-CRF結(jié)構(gòu)得到了普遍應(yīng)用，尤其是BiLSTM-CRF 模型，成為命名實(shí)體識(shí)別任務(wù)深度學(xué)習(xí)方法的經(jīng)典模型。

對(duì)于中文命名實(shí)體識(shí)別，由于中文的特性，字和詞都各含有一定的信息和特征，因此有基于字級(jí)和詞級(jí)以及結(jié)合字詞特征3個(gè)方向[9]。文獻(xiàn)[10-12]對(duì)比研究了字級(jí)和詞級(jí)基于統(tǒng)計(jì)方法的表現(xiàn)，發(fā)現(xiàn)字級(jí)的命名實(shí)體識(shí)別往往表現(xiàn)得更好。同時(shí)也有研究人員嘗試在字級(jí)命名實(shí)體識(shí)別結(jié)構(gòu)中加入詞級(jí)特征進(jìn)行綜合訓(xùn)練[13-15]。其中效果最好的是文獻(xiàn)[16]中提出的Lattice LSTM，融合字級(jí)與詞級(jí)特征，在MSRA 語料上F1 值達(dá)到93.18%。

然而，前述的字級(jí)中文命名實(shí)體識(shí)別不能很好地完全提取出漢字字符所包含的信息，無法處理例如字詞多義等現(xiàn)象。BERT[17]有效地解決了這個(gè)問題，由于其在英文自然語言處理領(lǐng)域多個(gè)基礎(chǔ)任務(wù)上表現(xiàn)優(yōu)異，且具有優(yōu)秀的表義能力，從而將其引入中文命名實(shí)體識(shí)別領(lǐng)域。該文以BERT 作為預(yù)訓(xùn)練語言模型（Pre-Training Language Model,PLM），結(jié)合LSTM-CRF 基準(zhǔn)結(jié)構(gòu)，并針對(duì)中文的字級(jí)和詞級(jí)特征，使用Lattice LSTM 作為第二部分的語義編碼層，提出BERT-Lattice-CRF 模型結(jié)構(gòu)。

2 BERT-Lattice-CRF模型

BERT-Lattice-CRF 模型由字向量編碼—語義編碼—標(biāo)簽預(yù)測(cè)“三步走”的思想分為3 個(gè)部分，分別對(duì)應(yīng)結(jié)構(gòu)中的BERT、Lattice LSTM、CRF 3 個(gè)子結(jié)構(gòu)。對(duì)比傳統(tǒng)的LSTM-CRF 結(jié)構(gòu)，該文提出的模型主要在兩個(gè)方面做了調(diào)整：1）在模型頭部加入了BERT 預(yù)訓(xùn)練語言模型，用以加強(qiáng)模型的語義表征能力；2）利用Lattice LSTM 替代傳統(tǒng)的LSTM，這一點(diǎn)主要針對(duì)中文命名實(shí)體識(shí)別任務(wù)，因?yàn)長(zhǎng)attice LSTM 相較于傳統(tǒng)LSTM 考慮到了中文里字詞關(guān)系的影響，融合了字和詞的特征信息，能夠更好地進(jìn)行語義編碼。模型整體結(jié)構(gòu)如圖1 所示。

圖1 模型整體結(jié)構(gòu)

2.1 BERT預(yù)訓(xùn)練語言模型

BERT(Bidirectional Encoder Represent-ations from Transformers)是由Devlin 等人在2018 年提出的預(yù)訓(xùn)練語言模型。直觀解釋為Transformer的雙向編碼器部分，在預(yù)訓(xùn)練過程中會(huì)綜合考慮全部的上下文來調(diào)整參數(shù)，從而得到深度雙向表示。因而將其作為預(yù)處理部分整合到其他的輸出層前部，通過微調(diào)用以構(gòu)建多種任務(wù)模型。BERT 模型結(jié)構(gòu)如圖2所示。

圖2 BERT預(yù)訓(xùn)練語言模型

Transformer 有別于傳統(tǒng)的RNN 和CNN，利用Attention 機(jī)制把文本中所有單詞兩兩之間的距離映射為1，從而很好地解決了NLP 難以處理的長(zhǎng)文本依賴問題。Transformer 本質(zhì)上是一個(gè)Encoder-Decoder的結(jié)構(gòu)，BERT 只用到了Encoder的結(jié)構(gòu)，如圖3 所示。

圖3 Transformer中Encoder的結(jié)構(gòu)

在Encoder 中,數(shù)據(jù)首先經(jīng)過self-attention 模塊得到一個(gè)加權(quán)特征向量Z:

在Self-Attention 中，每個(gè)字詞對(duì)應(yīng)3 個(gè)64 維向量：Query、Key和Value，由嵌入向量x乘以3 個(gè)512×64 大小的權(quán)值矩陣WQ、WK、WV所得。

在Self-Attention 最后采用了殘差網(wǎng)絡(luò)中的Short-Cut 結(jié)構(gòu)及層歸一化，來處理模型退化問題：

由式（1）得到加權(quán)特征向量Z后，進(jìn)入Encoder的下一子結(jié)構(gòu)——前饋神經(jīng)網(wǎng)絡(luò)（Feed Forward Neural Network）。其是一個(gè)兩層的全連接網(wǎng)絡(luò)，第一層為ReLU 激活函數(shù)，第二層為線性激活函數(shù),可表示為:

為了解決捕捉順序序列的問題，將位置編碼（Position Embedding）特征信息整合到字詞向量編碼中，使得Transformer 可以對(duì)各位置的字詞進(jìn)行區(qū)分。BERT 設(shè)計(jì)的位置編碼規(guī)則為：

其中，pos表示單詞的位置，i表示單詞的維度，dmodel是位置編碼的特征向量長(zhǎng)度。

在訓(xùn)練任務(wù)上，BERT 提出一種新的訓(xùn)練任務(wù)：遮掩語言模型（Masked Language Model,MLM），隨機(jī)選擇語料中15%的單詞，用[Mask]掩碼代替原始單詞，然后讓模型正確預(yù)測(cè)被遮掩掉的單詞。而且具體設(shè)計(jì)上，被遮掩掉的單詞中80%確實(shí)被替換成了[Mask]標(biāo)記，10%被隨機(jī)替換成另一個(gè)單詞，10%不做任何處理，保持原單詞不變。除了MLM 之外，BERT 模型中還提出了一個(gè)“下一句預(yù)測(cè)”（Next Sentence Prediction）任務(wù)，可以和MLM 一起訓(xùn)練文本句子對(duì)的表示。具體為在做語言模型預(yù)訓(xùn)練時(shí)，構(gòu)建句子對(duì)中出現(xiàn)兩種情況：1）第二個(gè)句子是第一個(gè)句子的下一句；2）第二個(gè)句子為語料中隨機(jī)挑選的其他句子。而BERT 模型需要訓(xùn)練學(xué)習(xí)判斷第二個(gè)句子是否為第一個(gè)句子的下一句。

BERT的問世使得通過預(yù)訓(xùn)練語言模型得到字詞嵌入向量與下游自然語言處理任務(wù)之間的關(guān)系發(fā)生了變化，與其他語言模型相比，BERT 能夠很好地學(xué)習(xí)到字的上下文信息，獲得更好的字向量表示。

2.2 Lattice LSTM編碼層

LatticeLSTM 模型整體結(jié)構(gòu)上繼承自LSTM 結(jié)構(gòu)，在對(duì)字信息的提取上同原始結(jié)構(gòu)一樣。而對(duì)于詞信息，模型先是使用大規(guī)模自動(dòng)分詞獲得詞典，再通過重新設(shè)計(jì)cell的結(jié)構(gòu)，將句子中的詞信息加入模型中，如圖4 所示。該模型的重點(diǎn)在于cell的設(shè)計(jì)。

圖4 Lattice LSTM詞典加入模型

2.2.1 字級(jí)特征

當(dāng)詞典中不存在任何以輸入的這個(gè)字為結(jié)尾的詞時(shí)，cell 之間的傳遞與正常的LSTM 相同，即假設(shè)無任何詞典信息時(shí)，Lattice LSTM 退化為L(zhǎng)STM，其計(jì)算公式如下：

其中，cj是當(dāng)前的輸入，ec是字級(jí)別的字向量嵌入字典，就是當(dāng)前輸入的字向量，、和是輸入、遺忘和輸出門，σ表示sigmoid 函數(shù)。

2.2.2 詞級(jí)特征

詞級(jí)特征分為兩部分，以圖4 為例，假設(shè)當(dāng)前輸入的是“京”字，則它在詞典中匹配到的是“南京”這個(gè)詞，那么此時(shí)的詞級(jí)特征的輸入向量為“南京”這個(gè)詞開頭的“南”這個(gè)字在模型中的隱向量（即“南”這個(gè)字被輸入時(shí)的，記為，其中b表示這個(gè)詞開頭的字在句子中的開始位置的index）以及“南京”這個(gè)詞直接嵌入的向量（記為，其中b、e表示這個(gè)詞開頭的字在句子中的開始位置的index 和結(jié)束位置的index）。得到兩個(gè)輸入向量后，以作為正常LSTM 中的作為正常LSTM 中的進(jìn)行計(jì)算：

對(duì)詞級(jí)的特征處理不需要輸出門，因?yàn)檫@一步并非所需要的輸出，網(wǎng)絡(luò)結(jié)構(gòu)最后將字信息和詞信息融合之后由輸出門控制。而且不加輸出門可以確保這一信息會(huì)被使用，即默認(rèn)分詞信息的加入對(duì)模型有所幫助。

2.2.3 字詞級(jí)特征融合

以南京舉例，只出現(xiàn)了一個(gè)詞，但對(duì)部分字來說，可能會(huì)在詞典中匹配到很多詞，例如“橋”這個(gè)字就可以在詞典中匹配出“大橋”和“長(zhǎng)江大橋”。為了將詞、字信息融合，進(jìn)行一步類似Attention的操作：

對(duì)于匹配出的每個(gè)詞的向量都進(jìn)行如下操作，計(jì)算屬于它的輸出門：

再使用當(dāng)前字計(jì)算出的輸入門和所有詞的輸入門做歸一計(jì)算權(quán)重：

最后與通常計(jì)算Attention 特征向量相同，利用計(jì)算出的權(quán)重進(jìn)行向量加權(quán)融合：

對(duì)于及其最后輸出的計(jì)算同原來的LSTM的計(jì)算一致：

2.3 CRF標(biāo)簽預(yù)測(cè)

Lattice 不能考慮標(biāo)簽之間的關(guān)系，在命名實(shí)體識(shí)別中，有些標(biāo)簽遵循著一定的邏輯關(guān)系，CRF 能夠充分利用標(biāo)簽相互間的關(guān)系，得到全局意義上的最佳標(biāo)簽序列。

對(duì)于模型而言，CRF 層的參數(shù)是一個(gè)(k+2)×(k+2)的矩陣A，其中，k是標(biāo)注集的標(biāo)簽數(shù)，元素Aij表示的是從第i個(gè)標(biāo)簽到第j個(gè)標(biāo)簽的轉(zhuǎn)移得分，則在標(biāo)注某個(gè)位置時(shí)即可考慮其前面位置的標(biāo)簽進(jìn)行標(biāo)注。加2 是因?yàn)樾枰诰涫着c句末分別加一個(gè)表示起始和終止的標(biāo)簽。若記一個(gè)長(zhǎng)度等于句子長(zhǎng)度的標(biāo)簽序列y=(y1,y2,…,yn)，則模型計(jì)算句子x的標(biāo)簽等于y的打分為：

可以看到整個(gè)句子的打分由每個(gè)位置的LSTM層輸出Pi,yi與CRF 轉(zhuǎn)移得分Ayi-1,yi兩部分之和算得。最后用softmax 算得歸一化后輸出的概率：

模型訓(xùn)練時(shí)通過最大化對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)分析，以得到全局最優(yōu)解：

模型在預(yù)測(cè)時(shí)使用動(dòng)態(tài)規(guī)劃的Viterbi 算法來求解最優(yōu)路徑：

3 實(shí)驗(yàn)準(zhǔn)備與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

文中使用的數(shù)據(jù)集為公開數(shù)據(jù)集MSRA，該數(shù)據(jù)集是微軟亞洲研究院公開的中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)集，有3 種命名實(shí)體，分別為人名、地名、機(jī)構(gòu)名，使用nr、ns、nt 表示。數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集，訓(xùn)練集有46 364 個(gè)句子，測(cè)試集有4 365 個(gè)句子。

3.2 序列標(biāo)注方法

在命名實(shí)體識(shí)別中，有BIO、BIOS、BIOES 3 種較為常用的標(biāo)注方式。文中采用BIOES 序列標(biāo)注方式，其中B 標(biāo)識(shí)實(shí)體的開始、I 標(biāo)識(shí)實(shí)體的中間部分、E 標(biāo)識(shí)實(shí)體的結(jié)束、S 標(biāo)識(shí)只有單字的實(shí)體、O 標(biāo)識(shí)非實(shí)體的部分。人名、地名、機(jī)構(gòu)名分別標(biāo)注為PER、LOC、ORG，則共有11 個(gè)標(biāo)簽待預(yù)測(cè)：B-PER、I-PER、E-PER、B-LOC、I-LOC、E-LOC、B-ORG、I-ORG、E-ORG、S、O。

3.3 評(píng)價(jià)指標(biāo)

該實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為查準(zhǔn)率（Precision）、查全率（Recall）和F1 值。查準(zhǔn)率又叫準(zhǔn)確率，是針對(duì)預(yù)測(cè)結(jié)果而言的概念，表示的是預(yù)測(cè)為正確的樣例中有多少是真正的正確樣例；查全率又叫召回率，是針對(duì)原樣本而言的概念，表示的是樣本中的正確樣例有多少被預(yù)測(cè)正確。一般來說希望查準(zhǔn)率和查全率都很高，但實(shí)際上兩者是相矛盾的，無法做到同時(shí)很高，因此出現(xiàn)一個(gè)新的指標(biāo)F1 值。F1 值是查準(zhǔn)率和查全率的調(diào)和平均值，可以同時(shí)考慮并讓兩者同時(shí)達(dá)到最高，取得平衡。各指標(biāo)的公式為：

其中，TP表示識(shí)別為實(shí)體標(biāo)簽，實(shí)際也是實(shí)體標(biāo)簽；FP表示識(shí)別為非實(shí)體標(biāo)簽但實(shí)際為實(shí)體標(biāo)簽；FN表示識(shí)別為非實(shí)體標(biāo)簽，實(shí)際也是非實(shí)體標(biāo)簽。

3.4 參數(shù)設(shè)置

Google 以checkpoint的形式提供了預(yù)訓(xùn)練的模型，包括英語、漢語和多語言等類別模型，對(duì)于漢語只有一個(gè)版本——BERT-Base，模型詞表中包括簡(jiǎn)體字和繁體字，共12 層，768 個(gè)隱單元，12 個(gè)Attention head，110M 參數(shù)。文本長(zhǎng)度閾值設(shè)為128個(gè)字符，訓(xùn)練時(shí)的batch_size 為16，學(xué)習(xí)率為5×10-5，dropout為0.5，LSTM 模型的hidden size 設(shè)置為200。

3.5 實(shí)驗(yàn)環(huán)境

該文全部實(shí)驗(yàn)進(jìn)行的環(huán)境：操作系統(tǒng)Windows7、CPUInteli7-9700K、內(nèi)存16G、GPU Nvidia GTX 1080Ti（8 GB）、Python 3.6、Pytorch 1.2.0+cu92。

3.6 實(shí)驗(yàn)過程

BERT-Lattice-CRF 模型的訓(xùn)練有兩種方式：1）訓(xùn)練全部參數(shù)(BERT-Lattice-CRF-f)；2）只訓(xùn)練Lattice-CRF 參數(shù)而保持BERT 參數(shù)不變。實(shí)驗(yàn)中選擇以下模型進(jìn)行對(duì)比：1）LSTM-CRF 模型；2）BERTLSTM-CRF 模型；3）Lattice-LSTM-CRF 模型。

3.7 實(shí)驗(yàn)結(jié)果

兩種訓(xùn)練方式得到的結(jié)果對(duì)比如表1 所示。

表1 不同命名實(shí)體的識(shí)別結(jié)果

可以看到，相比于人名和地名，機(jī)構(gòu)名預(yù)測(cè)準(zhǔn)確率偏低，分析原因?yàn)樵跈C(jī)構(gòu)名實(shí)體中普遍存在著實(shí)體嵌套、簡(jiǎn)寫縮寫名稱、歧義表述等問題，難以進(jìn)行準(zhǔn)確預(yù)測(cè)。而訓(xùn)練全部參數(shù)得到的模型比固定BERT 層參數(shù)只訓(xùn)練Lattice-CRF 層參數(shù)得到的模型，就識(shí)別結(jié)果而言預(yù)測(cè)準(zhǔn)確率更高，這是可以預(yù)見的，因?yàn)橛?xùn)練全部參數(shù)可以針對(duì)訓(xùn)練數(shù)據(jù)集得到更能表征特征的參數(shù)集，從而得到更好的預(yù)測(cè)結(jié)果。

文中使用的模型與對(duì)比實(shí)驗(yàn)?zāi)Ｐ偷慕Y(jié)果如表2所示。

表2 不同模型的識(shí)別結(jié)果

與經(jīng)典的LSTM-CRF 序列標(biāo)注模型相比，基于BERT 預(yù)訓(xùn)練模型的BERT-LSTM-CRF 模型表現(xiàn)更好；與Lattice-LSTM-CRF 模型相比，文中提出的BERT-Lattice-CRF 模型表現(xiàn)更好，說明BERT 預(yù)訓(xùn)練語言模型能夠更好地獲取到中文字級(jí)的語義特征。同時(shí)Lattice-LSTM-CRF 相比于LSTM-CRF 模型，識(shí)別準(zhǔn)確率更高；且BERT-Lattice-CRF 相比于BERT-LSTM-CRF 模型識(shí)別準(zhǔn)確率更高，說明Lattice-LSTM 結(jié)構(gòu)相較于LSTM 結(jié)構(gòu)來說，能夠融合中文字和詞級(jí)的語義信息，對(duì)于提升識(shí)別性能是有意義的。而文中提出的將BERT 預(yù)訓(xùn)練語言模型與Lattice-LSTM 模型相結(jié)合，既能得到更深層次的中文字級(jí)語義特征，同時(shí)針對(duì)中文語言特性、融合字級(jí)和詞級(jí)特征信息，能夠得到更好的命名實(shí)體識(shí)別結(jié)果。

4 結(jié)論

由于在中文命名實(shí)體識(shí)別領(lǐng)域，傳統(tǒng)詞向量不能表示多義字詞信息，針對(duì)這個(gè)問題引入BERT 預(yù)訓(xùn)練語言模型，同時(shí)針對(duì)中文語料的特點(diǎn)，結(jié)合能夠融合字詞信息的Lattice LSTM 結(jié)構(gòu)，提出了BERTLattice-CRF 模型。BERT 基于Transformer 中的Encoder 部分構(gòu)建雙向編碼器結(jié)構(gòu)，配合Masked Language Model 和Next Sentence Prediction 兩個(gè)訓(xùn)練任務(wù)，可以得到更強(qiáng)大的字向量語義表示；而Lattice LSTM 獨(dú)特的晶格結(jié)構(gòu)融合了中文字級(jí)和詞級(jí)的特征，在中文命名實(shí)體識(shí)別任務(wù)上能有更好的表現(xiàn)。整體模型優(yōu)于當(dāng)前主流的BERT-BiLSTM-CRF 模型，提升了中文命名實(shí)體識(shí)別的識(shí)別率。

但文中提出的模型有其存在的問題。首先，BERT 模型在預(yù)訓(xùn)練時(shí)會(huì)出現(xiàn)特殊的[MASK]，但在下游的fine-tuning 中不會(huì)出現(xiàn)，則會(huì)產(chǎn)生預(yù)訓(xùn)練階段和fine-tuning 階段不一致的問題；此外Lattice LSTM 將句子的輸入形式從鏈?zhǔn)叫蛄修D(zhuǎn)換為圖，會(huì)大大增加句子建模的計(jì)算成本。因此如何解決以上問題，自然成為下一步研究的方向。