999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于去噪字詞聯(lián)合模型的中文命名實(shí)體識(shí)別

2021-04-12 05:18:44倩,顧

楊 倩,顧 磊

南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023

隨著互聯(lián)網(wǎng)和信息科技的飛速發(fā)展,人們正處于一個(gè)大量的數(shù)據(jù)信息時(shí)代。為了應(yīng)對信息爆炸帶來的嚴(yán)峻考驗(yàn),亟需一種自動(dòng)管理、提取文本中信息的技術(shù),幫助人們從海量的文本信息中找到所需的關(guān)鍵信息,對命名實(shí)體識(shí)別的研究便是在這一背景下產(chǎn)生的。命名實(shí)體識(shí)別主要是從文本中識(shí)別出特定類別的實(shí)體,例如人名、地名、組織機(jī)構(gòu)名等,是自然語言處理任務(wù)中的最基礎(chǔ)的一步,可以應(yīng)用于關(guān)系抽取[1]、實(shí)體鏈接[2]、事件提取[3]、知識(shí)圖譜等一系列下游任務(wù)。因而,命名實(shí)體識(shí)別一直受到國內(nèi)外研究者的廣泛關(guān)注。

早期的命名實(shí)體識(shí)別主要采用基于規(guī)則的方法[4],該方法主要通過語言學(xué)專家對目標(biāo)文本手工制定有效的規(guī)則識(shí)別命名實(shí)體,大多依賴知識(shí)庫和詞典的建立,需要耗費(fèi)大量的時(shí)間和精力,而且難以找到適合所有領(lǐng)域的規(guī)則模型,可遷移性較差[5]。因此,隨著技術(shù)的發(fā)展,研究人員越來越關(guān)注基于統(tǒng)計(jì)的方法來實(shí)現(xiàn)命名實(shí)體識(shí)別。基于統(tǒng)計(jì)的方法涉及的機(jī)器學(xué)習(xí)模型主要有隱馬爾科夫模型[6](Hidden Markov Model,HMM)、最大熵模型[7](Maximum Entropy,ME)、條件隨機(jī)場[8-9](Conditional Random Field,CRF)、支持向量機(jī)(Support Vector Machine,SVM)等。基于統(tǒng)計(jì)的方法,主要是利用大型語料庫來訓(xùn)練,需要針對不同任務(wù)進(jìn)行大量手工特征工程來設(shè)計(jì)出合適的特征模板[5],雖然解決了可遷移性問題,但依舊比較費(fèi)時(shí)費(fèi)力。近幾年,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在命名實(shí)體識(shí)別方向使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法取得了很大的進(jìn)展。Collobert 等人[10]提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型CNN-CRF,CNN(Convolutional Neural Network)用來提取字特征,CRF 預(yù)測序列標(biāo)簽,實(shí)驗(yàn)結(jié)果表明該模型表現(xiàn)優(yōu)于之前最好的統(tǒng)計(jì)模型。Chiu 等人[11]將Collobert 模型中的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,改為使用雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)。Dong等人[12]將偏旁部首特征引入神經(jīng)網(wǎng)絡(luò)BiLSTM-CRF中,獲得更好的識(shí)別結(jié)果。Peng 等人[13]提出一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,融入了從分詞系統(tǒng)學(xué)習(xí)到的詞邊界隱藏信息,識(shí)別效果明顯提升。He 等人[14]針對標(biāo)記語料有限的情況,提出一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型進(jìn)行中文命名實(shí)體識(shí)別。Zhang等人[15]將注意力機(jī)制[16]融入通用的BiLSTM-CRF模型,捕捉到更多的上下文特征。Cao 等人[17]利用了對抗性遷移學(xué)習(xí)聯(lián)合訓(xùn)練中文分詞任務(wù)和中文命名實(shí)體識(shí)別任務(wù),抽取任務(wù)共享詞邊界信息,識(shí)別效果較好。Zhang 等人[18]構(gòu)建了一種字詞聯(lián)合的網(wǎng)格(Lattice)結(jié)構(gòu),將和字典匹配到的詞信息整合進(jìn)神經(jīng)網(wǎng)絡(luò)模型,不僅避免了分詞錯(cuò)誤,同時(shí)充分利用了詞與詞的序列信息,該模型在多個(gè)數(shù)據(jù)集上有很好地表現(xiàn)。與基于規(guī)則和基于統(tǒng)計(jì)的方法相比,這些基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法獲得了更好的識(shí)別效果。

基于字詞聯(lián)合的神經(jīng)網(wǎng)絡(luò)雖然在中文命名實(shí)體識(shí)別上有著良好的表現(xiàn),但仍存在著一定的改進(jìn)空間。本文在Zhang等人[18]字詞聯(lián)合神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種融合Gated 去噪機(jī)制的字詞聯(lián)合網(wǎng)絡(luò)模型進(jìn)行中文命名實(shí)體識(shí)別,將該網(wǎng)絡(luò)模型簡稱Gated-Lattice,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型可以有效地提升命名實(shí)體識(shí)別效果。

1 基于字詞聯(lián)合的BiLSTM-CRF模型

1.1 基于字詞聯(lián)合的LSTM模型

長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是對傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種改進(jìn)模型,它在原有循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入記憶細(xì)胞來記錄狀態(tài)信息,并引入了輸入門、遺忘門、輸出門三個(gè)門結(jié)構(gòu),有效地解決了由于梯度爆炸和梯度消失而產(chǎn)生的長距離依賴問題[10]。因此,LSTM網(wǎng)絡(luò)模型被廣泛的應(yīng)用于序列標(biāo)注問題中。

基于字詞聯(lián)合的LSTM 模型(Lattice)[18-19]是處理中文命名實(shí)體識(shí)別任務(wù)的一種有效模型,該模型是在基于字級LSTM模型的基礎(chǔ)上集成詞信息,如圖1所示。通過加入詞,可以充分利用精確的詞序列信息,有效避免分詞錯(cuò)誤的影響[18]。

圖1 基于字詞聯(lián)合的LSTM模型

基于字詞聯(lián)合的LSTM模型的輸入包括兩個(gè)部分:字信息和詞信息。設(shè)字典Dc和詞典Dw分別是使用自動(dòng)分詞的大量原始文本構(gòu)建的字向量矩陣和詞向量矩陣,給定句子s={ }c1,c2,…,cM,輸入信息為單字序列c1,c2,…,cM和該句子與詞典Dw匹配到的所有詞wb,e,b、e是詞首字、尾字的索引。如圖1中,c1,c2,c3,c4,c5依次對應(yīng)“北京天安門”五個(gè)字,w1,2為“北京”,w3,5為“天安門”。將每一個(gè)字cj通過查找字典Dc映射為字向量xcj,并將每一個(gè)詞wb,e通過查找詞典Dw映射為詞向量xw b,e,表達(dá)式如下:

在基于字詞聯(lián)合的LSTM模型[18]中,假設(shè)輸入為字和詞xwb,e,首先計(jì)算字級xcj的LSTM 單元中的相關(guān)狀態(tài),計(jì)算方式如下:

其中,σ表示sigmoid激活函數(shù),icj、ocj、f jc分別表示輸入門、輸出門、遺忘門,Wc ix、Wc ih、Wcox、Wc oh、Wc fx、Wfch、WCc?x、WCc?h、bci、boc、bcf、bcC?都是模型參數(shù),hcj-1表示上一個(gè)字隱藏層的輸出,表示當(dāng)前字xcj產(chǎn)生的狀態(tài)信息。

對于詞xwb,e采用類似的方式,用表示詞的記憶細(xì)胞狀態(tài),記錄從句子開始詞的循環(huán)狀態(tài)信息,值的計(jì)算方法如下:

其中,iwb,e、f bw,e分別表示詞的輸入門和遺忘門。Wiwx、Wiwh、Wfwx、Wfwh、WCw?x、WCw?h、、bwC?是模型參數(shù),hcb是cb對應(yīng)的隱藏層輸出,Cbl是從句子開始第b個(gè)字對應(yīng)的記憶細(xì)胞所記錄的字詞循環(huán)狀態(tài)。

由于聯(lián)合了字詞信息,進(jìn)入每個(gè)字詞聯(lián)合(Lattice)的記憶細(xì)胞狀態(tài)Clb的信息便有了更多的輸入源,如圖1中,Cl5的輸入源包括字xc5(門)和詞Cw3,5(天安門)。因此對于Cle的計(jì)算,要將字xce和所有詞的記憶細(xì)胞狀態(tài)Cbw,e同時(shí)考慮在內(nèi)。為了控制每個(gè)詞的記憶細(xì)胞狀態(tài)Cbw,e的輸入程度,額外地設(shè)置一個(gè)輸入門icb,e,其計(jì)算方式如下:

其中,Wxl、WCl、bl是對應(yīng)的模型參數(shù)。

為了衡量每個(gè)Cjl的各個(gè)輸入源,xcj、Cbw,j的貢獻(xiàn),采用歸一化的方法為其分配權(quán)重:

其中,icj、ibc,j的計(jì)算方式分別采用式(3)和式(11),Aj和Ab,j是xcj、Cbw,j對應(yīng)的歸一化因子,即分配權(quán)重。再例如圖1,Cl5的輸入源:xc5和Cw3,5的權(quán)重分別是A5和A3,5。

將當(dāng)前各個(gè)輸入源的狀態(tài)信息與對應(yīng)的權(quán)重進(jìn)行加權(quán)求和,得到Clj:

由于最終要對每一個(gè)字打標(biāo)簽,體現(xiàn)在字級層面上,因此采用字級輸出門ocj控制當(dāng)前記憶細(xì)胞狀態(tài)Cjl的輸出程度。最后的隱藏層輸出向量hcj計(jì)算如下:

其中,ocj、Clj分別取自式(4)、(14)。

1.2 BiLSTM-CRF模型

單向的LSTM模型只能獲取過去的信息,不能考慮到未來的上下文信息[20]。Dyer等人[21]證明了雙向LSTM模型的有效性,BiLSTM能夠同時(shí)捕獲前向和后向的長距離信息,有利于下一階段的序列預(yù)測。因此,將前向隱藏向量hcj和后向隱藏向量hcj合并起來,得到BiLSTM模型的輸出hj,如圖2中BiLSTM層的輸出。

圖2 基于Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF模型

命名實(shí)體識(shí)別任務(wù)中,相鄰字的標(biāo)簽之間通常會(huì)有很強(qiáng)的依賴關(guān)系,例如,在BMES(B-Begin:詞首,M-Middle:詞中,E-End:詞尾,S-Single:單字)類型標(biāo)注中,標(biāo)簽M-LOC 只能在標(biāo)簽B-LOC 之后,而不能跟在B-ORG 或E-LOC 之后。因此,一般使用CRF 模型[18]直接作用在BiLSTM 層的輸出hj上,進(jìn)行合標(biāo)注,以保證標(biāo)簽的合理性與正確性。

2 融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

2.1 Gated去噪機(jī)制

本文在對輸入文本的每一個(gè)字進(jìn)行字嵌入時(shí),使用了一個(gè)在大型原始文本上訓(xùn)練的字典矩陣Dc。該字典矩陣采用連續(xù)詞袋模型[22],即依據(jù)中心字前后各兩個(gè)字來預(yù)測中心字向量表示,最終將所有訓(xùn)練完成的字向量組成Dc。

在實(shí)驗(yàn)過程中,將輸入文本數(shù)據(jù)與字典匹配,可以快速有效地查找到相應(yīng)的字向量。由于匹配到的字向量是在大量原始文本上訓(xùn)練得到的,因此這些字向量包含的信息含噪、不夠準(zhǔn)確。確切地說,對于一個(gè)訓(xùn)練文本中的每個(gè)字,其字向量表示是依據(jù)上下文訓(xùn)練的,但是局部區(qū)域里的字不一定每次都出現(xiàn)在一起,有的可能只出現(xiàn)少數(shù)次,導(dǎo)致提取的字特征不夠準(zhǔn)確,從而影響識(shí)別效果。針對這一缺陷,考慮加入一個(gè)Gated去噪機(jī)制,對字向量信息進(jìn)行微調(diào),即讓每個(gè)字向量以一定概率出現(xiàn),以過濾掉文本中一些無關(guān)的或者不重要的字信息。而對于訓(xùn)練文本與詞典Dw匹配到的詞序列,由于這些詞可以提供大量的精確的詞邊界信息,有利于提升命名實(shí)體識(shí)別的性能[18],因此,不使用去噪機(jī)制對詞進(jìn)行處理。

Gated 去噪機(jī)制實(shí)質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)層,對輸入特征向量進(jìn)行了一次線性變換和一次非線性變換。主要由一個(gè)sigmoid 激活函數(shù)作用在原始輸入字向量上,輸出一系列0~1之間的值,然后加權(quán)到對應(yīng)的原始輸入字向量來控制輸入字信息的輸入程度,從而達(dá)到去噪的效果。

對于句子s={c1,c2,…,cM},將每個(gè)字cj通過字典Dc映射為相應(yīng)的字向量:

將rc j作為該神經(jīng)網(wǎng)絡(luò)層的輸入,然后采用Gated去噪機(jī)制gj直接作用到原始字向量rc j上,得到微調(diào)后的字向量xc j,如圖2中虛框深藍(lán)色區(qū)域所示。xc j具體計(jì)算方式如下:

其中,Wg、bg為模型參數(shù),⊙表示逐點(diǎn)乘積。

2.2 融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型整體框架如圖2 所示,其大致過程如下:首先將字序列和與詞典匹配到的詞序列作為輸入,經(jīng)過嵌入層分別將字和詞映射為相應(yīng)的字向量和詞向量。再將字向量經(jīng)過一個(gè)Gated去噪神經(jīng)網(wǎng)絡(luò)層進(jìn)一步處理,該神經(jīng)網(wǎng)絡(luò)層針對不同的輸入文本序列,作出相應(yīng)的文本字特征調(diào)整。然后將調(diào)整后的字向量與詞向量一同送入BiLSTM 神經(jīng)網(wǎng)絡(luò)中,得到前后兩個(gè)方向上的隱藏狀態(tài)。最后,再使用CRF模型進(jìn)行序列合理化標(biāo)注,通過將BiLSTM層輸出的隱藏狀態(tài)作為CRF層的輸入,獲得最終的全局最優(yōu)標(biāo)簽序列。

2.3 訓(xùn)練過程

本文模型的訓(xùn)練過程:

輸入:原始字序列s={c1,c2,…,cM},與詞典Dw匹配到的所有子序列wb,j,以及真實(shí)標(biāo)簽序列:

輸出:命名實(shí)體標(biāo)簽序列:

1.rc j =Dc(cj),xwb,e=Dw(wb,e)//字嵌入、詞嵌入

2.xcj=Gated(rc j)//Gated去噪機(jī)制

3.(xcj,xwb,e)//前向LSTM

6. 令句子級隱藏向量h=[h1,h2,…,hM],并根據(jù)句子真實(shí)序列標(biāo)簽y,得到P(y,h)=CRF(y,h,s)

7. 利用對數(shù)似然損失函數(shù)公式(20)進(jìn)行計(jì)算,再利用反向傳播,更新參數(shù),返回第2步重新計(jì)算

本文模型的訓(xùn)練過程如上文所示,輸入序列先經(jīng)過嵌入層,再經(jīng)過Gated 去噪層、BiLSTM 層,然后在CRF層,為了全局考慮,根據(jù)BiLSTM 層輸出的句子級隱藏向量h和真實(shí)標(biāo)簽序列y,產(chǎn)生輸入序列被標(biāo)注為y的概率P(y,h),利用如下對數(shù)似然損失函數(shù):

最大化正確標(biāo)簽序列的概率,最后通過反向傳播,根據(jù)梯度下降優(yōu)化算法更新模型參數(shù),并返回到Gated去噪層重新計(jì)算。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)中使用了兩個(gè)公開數(shù)據(jù)集:Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集。Resume數(shù)據(jù)集來自新浪財(cái)經(jīng)的1 027份簡歷總結(jié),標(biāo)注了8 種命名實(shí)體:CONT(Country)、EDU(Educational Institution)、LOC(Location)、PER(Person Name)、ORG(Organization)、PRO(Profession)、RACE(Ethnicity Background)、TITLE(Job Title);Weibo數(shù)據(jù)集來自社交媒體網(wǎng)站,標(biāo)注了4 種命名實(shí)體:PER、ORG、LOC、GPE,包括名稱實(shí)體和名詞實(shí)體。表1列出兩個(gè)數(shù)據(jù)集的詳細(xì)信息,統(tǒng)計(jì)了其訓(xùn)練集、開發(fā)集和測試集中句子和字符的數(shù)量。

表1 數(shù)據(jù)集統(tǒng)計(jì)情況

3.2 實(shí)驗(yàn)基本設(shè)置

本文的模型(Gated-Lattice)實(shí)驗(yàn)設(shè)置:在64 位Ubuntu16.0系統(tǒng),Intel E5-2603 v4 @ 1.70 GHz×6處理器,15.6 GB 內(nèi)存,Quadro M2000 顯卡硬件環(huán)境中進(jìn)行。本文模型是在文獻(xiàn)[18]模型的基礎(chǔ)上進(jìn)行改進(jìn)的,因此采用了與之相同的參數(shù)設(shè)置,如表2 所示。具體參數(shù)值如下:embedding 大小設(shè)置為50,LSTM 模型的隱藏層節(jié)點(diǎn)數(shù)設(shè)置為200;Dropout 丟棄率應(yīng)用于字向量和詞向量,設(shè)置值為0.5;采用隨機(jī)下降梯度(SGD)進(jìn)行模型參數(shù)優(yōu)化,設(shè)置初始學(xué)習(xí)率為0.015,衰減率為0.05。

表2 參數(shù)設(shè)置

對比模型實(shí)驗(yàn)設(shè)置:在Resume 數(shù)據(jù)集上使用的對比模型來自Zhang 等人[18],因?yàn)楸疚牡哪P褪窃赯hang等人[18]的模型上的改進(jìn),所以為了實(shí)驗(yàn)的公平性,Zhang等人[18]的模型和本文的模型采用如上所述一樣的實(shí)驗(yàn)設(shè)置和參數(shù)設(shè)置。在Weibo 數(shù)據(jù)集上使用的三個(gè)對比模型來自Peng等人[13]、He等人[14]和Zhang等人[18],其中,前兩個(gè)對比模型的實(shí)驗(yàn)數(shù)據(jù)直接取自其文獻(xiàn),而Zhang等人[18]的實(shí)驗(yàn)設(shè)置也與本文實(shí)驗(yàn)設(shè)置相同。

3.3 評價(jià)指標(biāo)

判別一個(gè)命名實(shí)體是否被正確標(biāo)注主要考慮三個(gè)方面[23]:(1)是否正確劃分出實(shí)體邊界;(2)是否正確標(biāo)注出實(shí)體標(biāo)簽類型;(3)是否按照正確標(biāo)簽順序標(biāo)注實(shí)體。為了直觀地對比預(yù)測和實(shí)際的標(biāo)注結(jié)果,本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-score)三個(gè)指標(biāo)來衡量模型效果。準(zhǔn)確率是正確標(biāo)注的實(shí)體數(shù)占預(yù)測標(biāo)注實(shí)體總數(shù)的比例,召回率是指正確標(biāo)注的實(shí)體數(shù)占原來標(biāo)準(zhǔn)標(biāo)注實(shí)體總數(shù)的比例,為了綜合評價(jià)模型的性能,又引入F1評價(jià)指標(biāo),即準(zhǔn)確率和召回率的加權(quán)幾何平均值。三個(gè)評價(jià)指標(biāo)的計(jì)算公式如下:

3.4 實(shí)驗(yàn)對比分析

為了驗(yàn)證本文提出的融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型的有效性,實(shí)驗(yàn)中,使用了兩個(gè)不同領(lǐng)域的公開數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并利用測試集進(jìn)行測試。

表3 給出了在Resume 測試集上的實(shí)驗(yàn)結(jié)果,并同Zhang 等人[18]的模型結(jié)果作了對比。在基于詞的BiLSTM-CRF 模型(Word baseline)上獲得了93.58%的F1 值,在此基礎(chǔ)上再加上字和雙字(Word baseline+char+bichar LSTM)后的F1 值達(dá)到了94.24%;在基于字的BiLSTM-CRF模型(Char baseline)獲得了93.48%的F1 值,在此基礎(chǔ)上再加上雙字和分詞特征(Char baseline+bichar+softword),F(xiàn)1值達(dá)到了94.41%;在基于字詞聯(lián)合的BiLSTM-CRF模型(Lattice)上,F(xiàn)1值達(dá)到了94.46%,本文提出的在這一模型基礎(chǔ)上改進(jìn)的模型相較于這一最高結(jié)果,將F1 值提高到了95.04%。而且,P值和R值較表2中最高的結(jié)果均有不同程度的提升,特別是R值提升到了95.10%。

表3 不同模型在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比%

采用的第一個(gè)數(shù)據(jù)集Resume數(shù)據(jù)集內(nèi)容取自新浪財(cái)經(jīng)網(wǎng)的簡歷,語言文本較為正式、規(guī)范,因此本文模型在其測試效果上表現(xiàn)很好。為了進(jìn)一步驗(yàn)證模型性能,將采用一個(gè)更復(fù)雜的數(shù)據(jù)集進(jìn)行訓(xùn)練測試:Weibo數(shù)據(jù)集。Weibo數(shù)據(jù)集的內(nèi)容取自社交媒體文本,具有文本長度短,語言不規(guī)范,噪聲多,詞匯新奇等特點(diǎn),這使得對該數(shù)據(jù)集進(jìn)行命名實(shí)體的識(shí)別變得更加困難。

表4顯示了本文模型和前人模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比結(jié)果(均為F1值)。其中,NE表示只含名稱實(shí)體(Named Entity)的語料,NM 表示只含名詞實(shí)體(Nominal Mention)的語料,Overall 表示包含NE 和NM 兩部分整體語料。Peng 2015[13]是一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,在NE、NM和Overall上分別獲得了51.96%、61.05%和56.05%的F1值。He 2017[14]是一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型,由于其采用的是半監(jiān)督,因此得到的F1 值略低。進(jìn)一步采用本文的改進(jìn)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)相較于Zhang 的結(jié)果,F(xiàn)1 值分別從52.34%、62.03%、57.72%提高到52.52%、62.07%、58.52%,超過了表4 中對比模型的結(jié)果,進(jìn)一步驗(yàn)證了模型的有效性。

表4 不同模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比%

3.5 案例分析

表5 和表6 分別顯示了在Weibo、Resume 數(shù)據(jù)集上字詞聯(lián)合Lattice 模型和本文改進(jìn)的Gated-Lattice 模型的對比案例,Golds是標(biāo)準(zhǔn)標(biāo)簽。在表5中,字詞聯(lián)合模型錯(cuò)誤地將“鄧超四”識(shí)別為人名實(shí)體,留下職業(yè)名詞“大名捕”,而改進(jìn)的模型通過學(xué)習(xí)自動(dòng)減少干擾信息,根據(jù)上下文信息正確識(shí)別出“鄧超”是人名,留下電影名“四大名捕”。表6 中,字詞聯(lián)合模型只正確識(shí)別出“國家物資局”是機(jī)構(gòu)名,而改進(jìn)的融合Gated機(jī)制的字詞聯(lián)合模型還成功地識(shí)別出了“物資部”與“國內(nèi)貿(mào)易部金屬材料流通司”機(jī)構(gòu)名實(shí)體,由此進(jìn)一步說明了改進(jìn)的模型的有效性。

表5 Weibo數(shù)據(jù)集案例

表6 Resume數(shù)據(jù)集案例

4 結(jié)束語

本文提出了一種基于字詞聯(lián)合去噪機(jī)制融合的中文命名實(shí)體識(shí)別算法,該算法的目的是利用Gated去噪神經(jīng)網(wǎng)絡(luò)對輸入字特征進(jìn)行微調(diào),使得輸送到字詞聯(lián)合模型中的字特征表示更加準(zhǔn)確,讓模型專注于學(xué)習(xí)跟命名實(shí)體相關(guān)的特征。實(shí)驗(yàn)證明了提出的改進(jìn)算法可以有效地提高中文命名實(shí)體識(shí)別的效果。不過,從實(shí)驗(yàn)結(jié)果來看,由于Weibo數(shù)據(jù)集內(nèi)容非正式、語言不太規(guī)范,包括本文算法在內(nèi)的現(xiàn)有算法在識(shí)別效果上都不太理想,因此,這將是今后進(jìn)一步研究改進(jìn)的方向。

主站蜘蛛池模板: 又黄又湿又爽的视频| 国产成人精品视频一区二区电影 | 三级视频中文字幕| 欧美国产综合色视频| 国产地址二永久伊甸园| 伊人网址在线| 色吊丝av中文字幕| 波多野结衣无码AV在线| 高潮毛片无遮挡高清视频播放| 一级香蕉视频在线观看| 成人午夜视频在线| 92午夜福利影院一区二区三区| 欧美精品伊人久久| 国产啪在线91| 五月婷婷精品| 色偷偷av男人的天堂不卡| 五月天久久综合国产一区二区| 妇女自拍偷自拍亚洲精品| 欧美v在线| 欧美日韩专区| 中文字幕在线播放不卡| 久久夜色精品国产嚕嚕亚洲av| 永久免费精品视频| 免费国产黄线在线观看| 亚洲福利片无码最新在线播放| 小说 亚洲 无码 精品| 无码国内精品人妻少妇蜜桃视频| 国产手机在线小视频免费观看 | 91成人在线观看视频| 欧美中文字幕在线二区| 国产午夜人做人免费视频中文| 国产迷奸在线看| 国产视频一二三区| 精品一区二区久久久久网站| 久久久噜噜噜| 日韩免费成人| 国产欧美日韩18| 91精品国产福利| 素人激情视频福利| 91精品专区| 国产精品久久久久鬼色| 亚洲伊人天堂| a在线观看免费| 高h视频在线| 日本不卡视频在线| 人妻无码一区二区视频| 亚洲欧美色中文字幕| 欧日韩在线不卡视频| 国产成人91精品免费网址在线| 搞黄网站免费观看| 日韩国产亚洲一区二区在线观看| 国产无人区一区二区三区| 狠狠色噜噜狠狠狠狠色综合久| 国产打屁股免费区网站| 亚洲一区精品视频在线| 亚洲精品免费网站| 永久天堂网Av| 日本成人不卡视频| 婷婷午夜影院| 青青青国产精品国产精品美女| 精品国产成人国产在线| 9久久伊人精品综合| 凹凸国产分类在线观看| 国产尤物视频网址导航| 青草91视频免费观看| 波多野结衣中文字幕一区二区| 自拍偷拍一区| аv天堂最新中文在线| 国产成人精品在线| 日韩少妇激情一区二区| 国产精品视频观看裸模| 91青青视频| 亚洲成人www| 亚洲欧美在线看片AI| 国产成人久久777777| 国产一二视频| 国产美女在线观看| 免费毛片全部不收费的| 一级看片免费视频| 欧美日韩北条麻妃一区二区| 重口调教一区二区视频| 男女精品视频|