基于去噪字詞聯(lián)合模型的中文命名實(shí)體識(shí)別

2021-04-12 05:18:44楊倩，顧磊

計(jì)算機(jī)工程與應(yīng)用 2021年7期

楊倩，顧磊

南京郵電大學(xué) 計(jì)算機(jī)學(xué)院，南京 210023

隨著互聯(lián)網(wǎng)和信息科技的飛速發(fā)展，人們正處于一個(gè)大量的數(shù)據(jù)信息時(shí)代。為了應(yīng)對信息爆炸帶來的嚴(yán)峻考驗(yàn)，亟需一種自動(dòng)管理、提取文本中信息的技術(shù)，幫助人們從海量的文本信息中找到所需的關(guān)鍵信息，對命名實(shí)體識(shí)別的研究便是在這一背景下產(chǎn)生的。命名實(shí)體識(shí)別主要是從文本中識(shí)別出特定類別的實(shí)體，例如人名、地名、組織機(jī)構(gòu)名等，是自然語言處理任務(wù)中的最基礎(chǔ)的一步，可以應(yīng)用于關(guān)系抽取[1]、實(shí)體鏈接[2]、事件提取[3]、知識(shí)圖譜等一系列下游任務(wù)。因而，命名實(shí)體識(shí)別一直受到國內(nèi)外研究者的廣泛關(guān)注。

早期的命名實(shí)體識(shí)別主要采用基于規(guī)則的方法[4]，該方法主要通過語言學(xué)專家對目標(biāo)文本手工制定有效的規(guī)則識(shí)別命名實(shí)體，大多依賴知識(shí)庫和詞典的建立，需要耗費(fèi)大量的時(shí)間和精力，而且難以找到適合所有領(lǐng)域的規(guī)則模型，可遷移性較差[5]。因此，隨著技術(shù)的發(fā)展，研究人員越來越關(guān)注基于統(tǒng)計(jì)的方法來實(shí)現(xiàn)命名實(shí)體識(shí)別。基于統(tǒng)計(jì)的方法涉及的機(jī)器學(xué)習(xí)模型主要有隱馬爾科夫模型[6]（Hidden Markov Model，HMM）、最大熵模型[7]（Maximum Entropy，ME）、條件隨機(jī)場[8-9]（Conditional Random Field，CRF）、支持向量機(jī)（Support Vector Machine，SVM）等。基于統(tǒng)計(jì)的方法，主要是利用大型語料庫來訓(xùn)練，需要針對不同任務(wù)進(jìn)行大量手工特征工程來設(shè)計(jì)出合適的特征模板[5]，雖然解決了可遷移性問題，但依舊比較費(fèi)時(shí)費(fèi)力。近幾年，隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，在命名實(shí)體識(shí)別方向使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法取得了很大的進(jìn)展。Collobert 等人[10]提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型CNN-CRF，CNN（Convolutional Neural Network）用來提取字特征，CRF 預(yù)測序列標(biāo)簽，實(shí)驗(yàn)結(jié)果表明該模型表現(xiàn)優(yōu)于之前最好的統(tǒng)計(jì)模型。Chiu 等人[11]將Collobert 模型中的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化，改為使用雙向長短期記憶網(wǎng)絡(luò)（Bidirectional Long Short-Term Memory，BiLSTM）。Dong等人[12]將偏旁部首特征引入神經(jīng)網(wǎng)絡(luò)BiLSTM-CRF中，獲得更好的識(shí)別結(jié)果。Peng 等人[13]提出一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型，融入了從分詞系統(tǒng)學(xué)習(xí)到的詞邊界隱藏信息，識(shí)別效果明顯提升。He 等人[14]針對標(biāo)記語料有限的情況，提出一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型進(jìn)行中文命名實(shí)體識(shí)別。Zhang等人[15]將注意力機(jī)制[16]融入通用的BiLSTM-CRF模型，捕捉到更多的上下文特征。Cao 等人[17]利用了對抗性遷移學(xué)習(xí)聯(lián)合訓(xùn)練中文分詞任務(wù)和中文命名實(shí)體識(shí)別任務(wù)，抽取任務(wù)共享詞邊界信息，識(shí)別效果較好。Zhang 等人[18]構(gòu)建了一種字詞聯(lián)合的網(wǎng)格（Lattice）結(jié)構(gòu)，將和字典匹配到的詞信息整合進(jìn)神經(jīng)網(wǎng)絡(luò)模型，不僅避免了分詞錯(cuò)誤，同時(shí)充分利用了詞與詞的序列信息，該模型在多個(gè)數(shù)據(jù)集上有很好地表現(xiàn)。與基于規(guī)則和基于統(tǒng)計(jì)的方法相比，這些基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法獲得了更好的識(shí)別效果。

基于字詞聯(lián)合的神經(jīng)網(wǎng)絡(luò)雖然在中文命名實(shí)體識(shí)別上有著良好的表現(xiàn)，但仍存在著一定的改進(jìn)空間。本文在Zhang等人[18]字詞聯(lián)合神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，提出了一種融合Gated 去噪機(jī)制的字詞聯(lián)合網(wǎng)絡(luò)模型進(jìn)行中文命名實(shí)體識(shí)別，將該網(wǎng)絡(luò)模型簡稱Gated-Lattice，實(shí)驗(yàn)結(jié)果表明，改進(jìn)的模型可以有效地提升命名實(shí)體識(shí)別效果。

1 基于字詞聯(lián)合的BiLSTM-CRF模型

1.1 基于字詞聯(lián)合的LSTM模型

長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）是對傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）的一種改進(jìn)模型，它在原有循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，加入記憶細(xì)胞來記錄狀態(tài)信息，并引入了輸入門、遺忘門、輸出門三個(gè)門結(jié)構(gòu)，有效地解決了由于梯度爆炸和梯度消失而產(chǎn)生的長距離依賴問題[10]。因此，LSTM網(wǎng)絡(luò)模型被廣泛的應(yīng)用于序列標(biāo)注問題中。

基于字詞聯(lián)合的LSTM 模型（Lattice）[18-19]是處理中文命名實(shí)體識(shí)別任務(wù)的一種有效模型，該模型是在基于字級LSTM模型的基礎(chǔ)上集成詞信息，如圖1所示。通過加入詞，可以充分利用精確的詞序列信息，有效避免分詞錯(cuò)誤的影響[18]。

圖1 基于字詞聯(lián)合的LSTM模型

基于字詞聯(lián)合的LSTM模型的輸入包括兩個(gè)部分：字信息和詞信息。設(shè)字典Dc和詞典Dw分別是使用自動(dòng)分詞的大量原始文本構(gòu)建的字向量矩陣和詞向量矩陣，給定句子s={ }c1,c2,…,cM，輸入信息為單字序列c1,c2,…,cM和該句子與詞典Dw匹配到的所有詞wb,e，b、e是詞首字、尾字的索引。如圖1中，c1,c2,c3,c4,c5依次對應(yīng)“北京天安門”五個(gè)字，w1,2為“北京”，w3,5為“天安門”。將每一個(gè)字cj通過查找字典Dc映射為字向量xcj，并將每一個(gè)詞wb,e通過查找詞典Dw映射為詞向量xw b,e，表達(dá)式如下：

在基于字詞聯(lián)合的LSTM模型[18]中，假設(shè)輸入為字和詞xwb,e，首先計(jì)算字級xcj的LSTM 單元中的相關(guān)狀態(tài)，計(jì)算方式如下：

其中，σ表示sigmoid激活函數(shù)，icj、ocj、f jc分別表示輸入門、輸出門、遺忘門，Wc ix、Wc ih、Wcox、Wc oh、Wc fx、Wfch、WCc?x、WCc?h、bci、boc、bcf、bcC?都是模型參數(shù)，hcj-1表示上一個(gè)字隱藏層的輸出，表示當(dāng)前字xcj產(chǎn)生的狀態(tài)信息。

對于詞xwb,e采用類似的方式，用表示詞的記憶細(xì)胞狀態(tài)，記錄從句子開始詞的循環(huán)狀態(tài)信息，值的計(jì)算方法如下：

其中，iwb,e、f bw,e分別表示詞的輸入門和遺忘門。Wiwx、Wiwh、Wfwx、Wfwh、WCw?x、WCw?h、、bwC?是模型參數(shù)，hcb是cb對應(yīng)的隱藏層輸出，Cbl是從句子開始第b個(gè)字對應(yīng)的記憶細(xì)胞所記錄的字詞循環(huán)狀態(tài)。

由于聯(lián)合了字詞信息，進(jìn)入每個(gè)字詞聯(lián)合（Lattice）的記憶細(xì)胞狀態(tài)Clb的信息便有了更多的輸入源，如圖1中，Cl5的輸入源包括字xc5（門）和詞Cw3,5（天安門）。因此對于Cle的計(jì)算，要將字xce和所有詞的記憶細(xì)胞狀態(tài)Cbw,e同時(shí)考慮在內(nèi)。為了控制每個(gè)詞的記憶細(xì)胞狀態(tài)Cbw,e的輸入程度，額外地設(shè)置一個(gè)輸入門icb,e，其計(jì)算方式如下：

其中，Wxl、WCl、bl是對應(yīng)的模型參數(shù)。

為了衡量每個(gè)Cjl的各個(gè)輸入源，xcj、Cbw,j的貢獻(xiàn)，采用歸一化的方法為其分配權(quán)重：

其中，icj、ibc,j的計(jì)算方式分別采用式（3）和式（11），Aj和Ab,j是xcj、Cbw,j對應(yīng)的歸一化因子，即分配權(quán)重。再例如圖1，Cl5的輸入源：xc5和Cw3,5的權(quán)重分別是A5和A3,5。

將當(dāng)前各個(gè)輸入源的狀態(tài)信息與對應(yīng)的權(quán)重進(jìn)行加權(quán)求和，得到Clj：

由于最終要對每一個(gè)字打標(biāo)簽，體現(xiàn)在字級層面上，因此采用字級輸出門ocj控制當(dāng)前記憶細(xì)胞狀態(tài)Cjl的輸出程度。最后的隱藏層輸出向量hcj計(jì)算如下：

其中，ocj、Clj分別取自式（4）、（14）。

1.2 BiLSTM-CRF模型

單向的LSTM模型只能獲取過去的信息，不能考慮到未來的上下文信息[20]。Dyer等人[21]證明了雙向LSTM模型的有效性，BiLSTM能夠同時(shí)捕獲前向和后向的長距離信息，有利于下一階段的序列預(yù)測。因此，將前向隱藏向量hcj和后向隱藏向量hcj合并起來，得到BiLSTM模型的輸出hj，如圖2中BiLSTM層的輸出。

圖2 基于Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF模型

命名實(shí)體識(shí)別任務(wù)中，相鄰字的標(biāo)簽之間通常會(huì)有很強(qiáng)的依賴關(guān)系，例如，在BMES（B-Begin：詞首，M-Middle：詞中，E-End：詞尾，S-Single：單字）類型標(biāo)注中，標(biāo)簽M-LOC 只能在標(biāo)簽B-LOC 之后，而不能跟在B-ORG 或E-LOC 之后。因此，一般使用CRF 模型[18]直接作用在BiLSTM 層的輸出hj上，進(jìn)行合標(biāo)注，以保證標(biāo)簽的合理性與正確性。

2 融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

2.1 Gated去噪機(jī)制

本文在對輸入文本的每一個(gè)字進(jìn)行字嵌入時(shí)，使用了一個(gè)在大型原始文本上訓(xùn)練的字典矩陣Dc。該字典矩陣采用連續(xù)詞袋模型[22]，即依據(jù)中心字前后各兩個(gè)字來預(yù)測中心字向量表示，最終將所有訓(xùn)練完成的字向量組成Dc。

在實(shí)驗(yàn)過程中，將輸入文本數(shù)據(jù)與字典匹配，可以快速有效地查找到相應(yīng)的字向量。由于匹配到的字向量是在大量原始文本上訓(xùn)練得到的，因此這些字向量包含的信息含噪、不夠準(zhǔn)確。確切地說，對于一個(gè)訓(xùn)練文本中的每個(gè)字，其字向量表示是依據(jù)上下文訓(xùn)練的，但是局部區(qū)域里的字不一定每次都出現(xiàn)在一起，有的可能只出現(xiàn)少數(shù)次，導(dǎo)致提取的字特征不夠準(zhǔn)確，從而影響識(shí)別效果。針對這一缺陷，考慮加入一個(gè)Gated去噪機(jī)制，對字向量信息進(jìn)行微調(diào)，即讓每個(gè)字向量以一定概率出現(xiàn)，以過濾掉文本中一些無關(guān)的或者不重要的字信息。而對于訓(xùn)練文本與詞典Dw匹配到的詞序列，由于這些詞可以提供大量的精確的詞邊界信息，有利于提升命名實(shí)體識(shí)別的性能[18]，因此，不使用去噪機(jī)制對詞進(jìn)行處理。

Gated 去噪機(jī)制實(shí)質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)層，對輸入特征向量進(jìn)行了一次線性變換和一次非線性變換。主要由一個(gè)sigmoid 激活函數(shù)作用在原始輸入字向量上，輸出一系列0～1之間的值，然后加權(quán)到對應(yīng)的原始輸入字向量來控制輸入字信息的輸入程度，從而達(dá)到去噪的效果。

對于句子s={c1,c2,…,cM}，將每個(gè)字cj通過字典Dc映射為相應(yīng)的字向量：

將rc j作為該神經(jīng)網(wǎng)絡(luò)層的輸入，然后采用Gated去噪機(jī)制gj直接作用到原始字向量rc j上，得到微調(diào)后的字向量xc j，如圖2中虛框深藍(lán)色區(qū)域所示。xc j具體計(jì)算方式如下：

其中，Wg、bg為模型參數(shù)，⊙表示逐點(diǎn)乘積。

2.2 融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型整體框架如圖2 所示，其大致過程如下：首先將字序列和與詞典匹配到的詞序列作為輸入，經(jīng)過嵌入層分別將字和詞映射為相應(yīng)的字向量和詞向量。再將字向量經(jīng)過一個(gè)Gated去噪神經(jīng)網(wǎng)絡(luò)層進(jìn)一步處理，該神經(jīng)網(wǎng)絡(luò)層針對不同的輸入文本序列，作出相應(yīng)的文本字特征調(diào)整。然后將調(diào)整后的字向量與詞向量一同送入BiLSTM 神經(jīng)網(wǎng)絡(luò)中，得到前后兩個(gè)方向上的隱藏狀態(tài)。最后，再使用CRF模型進(jìn)行序列合理化標(biāo)注，通過將BiLSTM層輸出的隱藏狀態(tài)作為CRF層的輸入，獲得最終的全局最優(yōu)標(biāo)簽序列。

2.3 訓(xùn)練過程

本文模型的訓(xùn)練過程：

輸入：原始字序列s={c1,c2,…,cM}，與詞典Dw匹配到的所有子序列wb,j，以及真實(shí)標(biāo)簽序列：

輸出：命名實(shí)體標(biāo)簽序列：

1.rc j =Dc(cj)，xwb,e=Dw(wb,e)//字嵌入、詞嵌入

2.xcj=Gated(rc j)//Gated去噪機(jī)制

3.(xcj,xwb,e)//前向LSTM

6. 令句子級隱藏向量h=[h1,h2,…,hM]，并根據(jù)句子真實(shí)序列標(biāo)簽y，得到P(y,h)=CRF(y,h,s)

7. 利用對數(shù)似然損失函數(shù)公式（20）進(jìn)行計(jì)算，再利用反向傳播，更新參數(shù)，返回第2步重新計(jì)算

本文模型的訓(xùn)練過程如上文所示，輸入序列先經(jīng)過嵌入層，再經(jīng)過Gated 去噪層、BiLSTM 層，然后在CRF層，為了全局考慮，根據(jù)BiLSTM 層輸出的句子級隱藏向量h和真實(shí)標(biāo)簽序列y，產(chǎn)生輸入序列被標(biāo)注為y的概率P(y,h)，利用如下對數(shù)似然損失函數(shù)：

最大化正確標(biāo)簽序列的概率，最后通過反向傳播，根據(jù)梯度下降優(yōu)化算法更新模型參數(shù)，并返回到Gated去噪層重新計(jì)算。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)中使用了兩個(gè)公開數(shù)據(jù)集：Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集。Resume數(shù)據(jù)集來自新浪財(cái)經(jīng)的1 027份簡歷總結(jié)，標(biāo)注了8 種命名實(shí)體：CONT（Country）、EDU（Educational Institution）、LOC（Location）、PER（Person Name）、ORG（Organization）、PRO（Profession）、RACE（Ethnicity Background）、TITLE（Job Title）；Weibo數(shù)據(jù)集來自社交媒體網(wǎng)站，標(biāo)注了4 種命名實(shí)體：PER、ORG、LOC、GPE，包括名稱實(shí)體和名詞實(shí)體。表1列出兩個(gè)數(shù)據(jù)集的詳細(xì)信息，統(tǒng)計(jì)了其訓(xùn)練集、開發(fā)集和測試集中句子和字符的數(shù)量。

表1 數(shù)據(jù)集統(tǒng)計(jì)情況

3.2 實(shí)驗(yàn)基本設(shè)置

本文的模型（Gated-Lattice）實(shí)驗(yàn)設(shè)置：在64 位Ubuntu16.0系統(tǒng)，Intel E5-2603 v4 @ 1.70 GHz×6處理器，15.6 GB 內(nèi)存，Quadro M2000 顯卡硬件環(huán)境中進(jìn)行。本文模型是在文獻(xiàn)[18]模型的基礎(chǔ)上進(jìn)行改進(jìn)的，因此采用了與之相同的參數(shù)設(shè)置，如表2 所示。具體參數(shù)值如下：embedding 大小設(shè)置為50，LSTM 模型的隱藏層節(jié)點(diǎn)數(shù)設(shè)置為200；Dropout 丟棄率應(yīng)用于字向量和詞向量，設(shè)置值為0.5；采用隨機(jī)下降梯度（SGD）進(jìn)行模型參數(shù)優(yōu)化，設(shè)置初始學(xué)習(xí)率為0.015，衰減率為0.05。

表2 參數(shù)設(shè)置

對比模型實(shí)驗(yàn)設(shè)置：在Resume 數(shù)據(jù)集上使用的對比模型來自Zhang 等人[18]，因?yàn)楸疚牡哪Ｐ褪窃赯hang等人[18]的模型上的改進(jìn)，所以為了實(shí)驗(yàn)的公平性，Zhang等人[18]的模型和本文的模型采用如上所述一樣的實(shí)驗(yàn)設(shè)置和參數(shù)設(shè)置。在Weibo 數(shù)據(jù)集上使用的三個(gè)對比模型來自Peng等人[13]、He等人[14]和Zhang等人[18]，其中，前兩個(gè)對比模型的實(shí)驗(yàn)數(shù)據(jù)直接取自其文獻(xiàn)，而Zhang等人[18]的實(shí)驗(yàn)設(shè)置也與本文實(shí)驗(yàn)設(shè)置相同。

3.3 評價(jià)指標(biāo)

判別一個(gè)命名實(shí)體是否被正確標(biāo)注主要考慮三個(gè)方面[23]：（1）是否正確劃分出實(shí)體邊界；（2）是否正確標(biāo)注出實(shí)體標(biāo)簽類型；（3）是否按照正確標(biāo)簽順序標(biāo)注實(shí)體。為了直觀地對比預(yù)測和實(shí)際的標(biāo)注結(jié)果，本文采用準(zhǔn)確率（Precision，P）、召回率（Recall，R）和F1 值（F1-score）三個(gè)指標(biāo)來衡量模型效果。準(zhǔn)確率是正確標(biāo)注的實(shí)體數(shù)占預(yù)測標(biāo)注實(shí)體總數(shù)的比例，召回率是指正確標(biāo)注的實(shí)體數(shù)占原來標(biāo)準(zhǔn)標(biāo)注實(shí)體總數(shù)的比例，為了綜合評價(jià)模型的性能，又引入F1評價(jià)指標(biāo)，即準(zhǔn)確率和召回率的加權(quán)幾何平均值。三個(gè)評價(jià)指標(biāo)的計(jì)算公式如下：

3.4 實(shí)驗(yàn)對比分析

為了驗(yàn)證本文提出的融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型的有效性，實(shí)驗(yàn)中，使用了兩個(gè)不同領(lǐng)域的公開數(shù)據(jù)集進(jìn)行模型訓(xùn)練，并利用測試集進(jìn)行測試。

表3 給出了在Resume 測試集上的實(shí)驗(yàn)結(jié)果，并同Zhang 等人[18]的模型結(jié)果作了對比。在基于詞的BiLSTM-CRF 模型（Word baseline）上獲得了93.58%的F1 值，在此基礎(chǔ)上再加上字和雙字（Word baseline+char+bichar LSTM）后的F1 值達(dá)到了94.24%；在基于字的BiLSTM-CRF模型（Char baseline）獲得了93.48%的F1 值，在此基礎(chǔ)上再加上雙字和分詞特征（Char baseline+bichar+softword），F(xiàn)1值達(dá)到了94.41%；在基于字詞聯(lián)合的BiLSTM-CRF模型（Lattice）上，F(xiàn)1值達(dá)到了94.46%，本文提出的在這一模型基礎(chǔ)上改進(jìn)的模型相較于這一最高結(jié)果，將F1 值提高到了95.04%。而且，P值和R值較表2中最高的結(jié)果均有不同程度的提升，特別是R值提升到了95.10%。

表3 不同模型在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比%

采用的第一個(gè)數(shù)據(jù)集Resume數(shù)據(jù)集內(nèi)容取自新浪財(cái)經(jīng)網(wǎng)的簡歷，語言文本較為正式、規(guī)范，因此本文模型在其測試效果上表現(xiàn)很好。為了進(jìn)一步驗(yàn)證模型性能，將采用一個(gè)更復(fù)雜的數(shù)據(jù)集進(jìn)行訓(xùn)練測試：Weibo數(shù)據(jù)集。Weibo數(shù)據(jù)集的內(nèi)容取自社交媒體文本，具有文本長度短，語言不規(guī)范，噪聲多，詞匯新奇等特點(diǎn)，這使得對該數(shù)據(jù)集進(jìn)行命名實(shí)體的識(shí)別變得更加困難。

表4顯示了本文模型和前人模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比結(jié)果（均為F1值）。其中，NE表示只含名稱實(shí)體（Named Entity）的語料，NM 表示只含名詞實(shí)體（Nominal Mention）的語料，Overall 表示包含NE 和NM 兩部分整體語料。Peng 2015[13]是一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型，在NE、NM和Overall上分別獲得了51.96%、61.05%和56.05%的F1值。He 2017[14]是一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型，由于其采用的是半監(jiān)督，因此得到的F1 值略低。進(jìn)一步采用本文的改進(jìn)模型進(jìn)行訓(xùn)練，發(fā)現(xiàn)相較于Zhang 的結(jié)果，F(xiàn)1 值分別從52.34%、62.03%、57.72%提高到52.52%、62.07%、58.52%，超過了表4 中對比模型的結(jié)果，進(jìn)一步驗(yàn)證了模型的有效性。

表4 不同模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比%

3.5 案例分析

表5 和表6 分別顯示了在Weibo、Resume 數(shù)據(jù)集上字詞聯(lián)合Lattice 模型和本文改進(jìn)的Gated-Lattice 模型的對比案例，Golds是標(biāo)準(zhǔn)標(biāo)簽。在表5中，字詞聯(lián)合模型錯(cuò)誤地將“鄧超四”識(shí)別為人名實(shí)體，留下職業(yè)名詞“大名捕”，而改進(jìn)的模型通過學(xué)習(xí)自動(dòng)減少干擾信息，根據(jù)上下文信息正確識(shí)別出“鄧超”是人名，留下電影名“四大名捕”。表6 中，字詞聯(lián)合模型只正確識(shí)別出“國家物資局”是機(jī)構(gòu)名，而改進(jìn)的融合Gated機(jī)制的字詞聯(lián)合模型還成功地識(shí)別出了“物資部”與“國內(nèi)貿(mào)易部金屬材料流通司”機(jī)構(gòu)名實(shí)體，由此進(jìn)一步說明了改進(jìn)的模型的有效性。

表5 Weibo數(shù)據(jù)集案例

表6 Resume數(shù)據(jù)集案例

4 結(jié)束語

本文提出了一種基于字詞聯(lián)合去噪機(jī)制融合的中文命名實(shí)體識(shí)別算法，該算法的目的是利用Gated去噪神經(jīng)網(wǎng)絡(luò)對輸入字特征進(jìn)行微調(diào)，使得輸送到字詞聯(lián)合模型中的字特征表示更加準(zhǔn)確，讓模型專注于學(xué)習(xí)跟命名實(shí)體相關(guān)的特征。實(shí)驗(yàn)證明了提出的改進(jìn)算法可以有效地提高中文命名實(shí)體識(shí)別的效果。不過，從實(shí)驗(yàn)結(jié)果來看，由于Weibo數(shù)據(jù)集內(nèi)容非正式、語言不太規(guī)范，包括本文算法在內(nèi)的現(xiàn)有算法在識(shí)別效果上都不太理想，因此，這將是今后進(jìn)一步研究改進(jìn)的方向。

計(jì)算機(jī)工程與應(yīng)用2021年7期

計(jì)算機(jī)工程與應(yīng)用的其它文章: 無人機(jī)目標(biāo)檢測量子多模式識(shí)別優(yōu)化算法; 改進(jìn)Deeplab v3+網(wǎng)絡(luò)的手術(shù)器械分割方法; 多尺度殘差網(wǎng)絡(luò)的單幅圖像超分辨率重建; 基于鄰域圖的低秩投影學(xué)習(xí); 復(fù)雜場景下基于改進(jìn)YOLOv3的車牌定位檢測算法; 結(jié)合雙編碼器與對抗訓(xùn)練的圖像修復(fù)