999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于順序遺忘編碼和Bi-LSTM的命名實(shí)體識(shí)別算法

2020-03-11 12:51:12楊賀羽杜洪波朱立軍
關(guān)鍵詞:特征模型

楊賀羽 杜洪波 朱立軍

1(沈陽(yáng)工業(yè)大學(xué) 遼寧 沈陽(yáng) 110870)2(寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室 寧夏 銀川 750021)3(北方民族大學(xué) 寧夏 銀川 750021)

0 引 言

隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的高速發(fā)展。非結(jié)構(gòu)化的文本數(shù)據(jù)呈爆炸式的增長(zhǎng)。在這些非結(jié)構(gòu)化的文本數(shù)據(jù)中常常存在著大量的命名實(shí)體,這些實(shí)體對(duì)于理解文章語(yǔ)義以及構(gòu)建后續(xù)的相關(guān)任務(wù)都起到了至關(guān)重要的作用,其識(shí)別的性能幾乎奠定了每個(gè)自然語(yǔ)言處理任務(wù)的基礎(chǔ)。

命名實(shí)體識(shí)別旨在識(shí)別出文本中的專有名詞并加以分類。常見(jiàn)的命名實(shí)體包括人名、地名和機(jī)構(gòu)名等。隨著知識(shí)圖譜、信息檢索和智能問(wèn)答系統(tǒng)等相關(guān)技術(shù)的高速發(fā)展,各種類型的命名實(shí)體相繼涌現(xiàn)。如醫(yī)療領(lǐng)域的疾病、癥狀和身體部位等,軍事領(lǐng)域的武器、部隊(duì)和機(jī)構(gòu)等。在面對(duì)新領(lǐng)域時(shí),如何在僅有少量的相關(guān)領(lǐng)域先驗(yàn)知識(shí)的條件下,快速準(zhǔn)確地識(shí)別出各領(lǐng)域的實(shí)體及實(shí)體類型成為近年來(lái)中外學(xué)者的研究熱點(diǎn)。

傳統(tǒng)的命名實(shí)體識(shí)別方法包括基于手工編織規(guī)則的符號(hào)方法和依賴于特征工程和統(tǒng)計(jì)模型的統(tǒng)計(jì)方法。其中,統(tǒng)計(jì)方法在實(shí)現(xiàn)命名實(shí)體識(shí)別的過(guò)程中展現(xiàn)出很好的效果,常見(jiàn)的方法有條件隨機(jī)場(chǎng)[1](Conditional Random Field, CRF)、最大熵馬爾科夫模型[2](Maximum Entropy Markov Models, MEMM)、隱馬爾科夫模型[3](Hidden Markov Models,HMM)等。如Borthwick等[2]利用MEMM結(jié)合姓氏語(yǔ)料的方法來(lái)提高命名實(shí)體識(shí)別中姓名實(shí)體的準(zhǔn)確性。孫曉等[4]提出一種深層CRF方法,通過(guò)增加層次來(lái)選擇最優(yōu)特征集,并在生物醫(yī)學(xué)領(lǐng)域中取得了很好的效果。俞鴻魁等[5]利用層疊HMM分別識(shí)別中文的無(wú)嵌套和有嵌套的實(shí)體類型,有效提高了嵌套實(shí)體的準(zhǔn)確率。但統(tǒng)計(jì)方法過(guò)于依賴昂貴的手工特征和特定任務(wù)的相關(guān)資源,并且建立好的模型在面對(duì)新的任務(wù)和領(lǐng)域時(shí)泛化能力不強(qiáng)、可移植性差。為了最大限度地解決統(tǒng)計(jì)方法中需要的昂貴資源,命名實(shí)體識(shí)別開(kāi)始使用深度學(xué)習(xí)技術(shù)。如文獻(xiàn)[6]提出了一種端到端的模型,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)和LSTM兩種神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)英文單詞的字符級(jí)特征和句子級(jí)特征。文獻(xiàn)[7]使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò) (Bidirectional Long Short-Term Memory, Bi-LSTM)預(yù)訓(xùn)練一個(gè)語(yǔ)言模型,利用該語(yǔ)言模型訓(xùn)練得出的詞向量來(lái)增強(qiáng)單詞的信息表達(dá)能力。文獻(xiàn)[8]提出一種偏旁部首特征結(jié)合LSTM的中文命名實(shí)體識(shí)別方法,通過(guò)LSTM學(xué)習(xí)中文的更小級(jí)別特征。

LSTM作為深度學(xué)習(xí)的一種重要神經(jīng)網(wǎng)絡(luò),常被用來(lái)解決序列標(biāo)注問(wèn)題,但由于其在提取句子特征的過(guò)程中,對(duì)距離當(dāng)前詞較遠(yuǎn)的句子信息會(huì)出現(xiàn)獲取能力變低甚至無(wú)法獲取的問(wèn)題。針對(duì)這一問(wèn)題,本文提出一種融合順序遺忘編碼[9](Fixed-size Oradinally Forgetting Encoding, FOFE)和Bi-LSTM的命名實(shí)體識(shí)別算法,利用FOFE可以將任意長(zhǎng)度的句子編碼成固定大小表示的編碼方式來(lái)增強(qiáng)LSTM對(duì)句子特征的提取能力。該算法在僅使用少量的有標(biāo)注訓(xùn)練語(yǔ)料和未標(biāo)注語(yǔ)料的情況下,在英文的標(biāo)準(zhǔn)命名實(shí)體數(shù)據(jù)集CoNLL2003和中文的1998年《人名日?qǐng)?bào)》數(shù)據(jù)集中,F(xiàn)1值分別達(dá)到了91.30和91.65,證明了該方法的有效性和通用性。

1 融合順序遺忘編碼和循環(huán)神經(jīng)網(wǎng)絡(luò)的模型

本文提出的模型是一種多層結(jié)構(gòu)的命名實(shí)體模型,結(jié)構(gòu)如圖1所示。該模型主要分為三部分:FOFE編碼、特征提取和標(biāo)簽約束。首先對(duì)輸入句子中的每個(gè)字分別進(jìn)行向量化表示和FOFE編碼表示。然后將向量化表示的每個(gè)字輸入給Bi-LSTM進(jìn)行基于上下文信息的特征提取,將得到的特征向量與相應(yīng)的FOFE編碼相結(jié)合,將結(jié)合后的特征向量輸入給融合注意力機(jī)制的Bi-LSTM,得到包含不同重要度信息的特征向量。最后將特征向量輸入給CRF學(xué)習(xí)標(biāo)簽序列的約束。

圖1 基于FOFE的命名實(shí)體識(shí)別模型示意圖

1.1 字向量輸入層

字向量是一種可以定量地度量字與字之間關(guān)系的一種字表示方法。給定一串由n個(gè)字符組成的句子{x1,x2,…,xn},每個(gè)字符由一段固定維度大小的向量xk表示,該字向量會(huì)被預(yù)訓(xùn)練好的分布式字向量初始化。另外,對(duì)于英文可以將字符編碼和字編碼結(jié)合起來(lái),形成新的字向量。

1.2 Bi-LSTM特征提取層

為了提取依賴于句子上下文信息的特征,將得到的字向量xk作為輸入傳送給Bi-LSTM。LSTM是由Hochreiter等[10]提出的一種利用門控機(jī)制來(lái)對(duì)歷史和當(dāng)下信息進(jìn)行過(guò)濾的模型。該模型的基本單元包括一個(gè)或多個(gè)記憶單元和三個(gè)自適應(yīng)的門控單元,門控單元分別為輸入門、忘記門和輸出門,在時(shí)間t更新LSTM單元的公式為:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(1)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(2)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(3)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

(4)

ht=ottanh(ct)

(5)

1.3 FOFE層

FOFE是一種序列編碼方式,可以無(wú)損地將可變長(zhǎng)度的序列編碼成固定大小表示的編碼。Jiang等[9]通過(guò)理論和實(shí)驗(yàn)證明,該編碼幾乎可以保證任何長(zhǎng)度序列編碼的唯一性。具體的編碼方式如下:

給定一個(gè)詞表,假設(shè)詞表的大小為K,詞表中的每一個(gè)字表示為一個(gè)K維的one-hot向量e∈RK,給定一串字符S={w1,w2,…,wt},每一個(gè)字符wt都由et表示,F(xiàn)OFE將基于一個(gè)遞歸公式(z0=0)對(duì)每個(gè)部分序列進(jìn)行編碼:

(6)

式中:zt表示直到wt的部分序列FOFE編碼;α(0<α<1)是控制歷史對(duì)當(dāng)前位置影響的常數(shù)遺忘因子。

根據(jù)FOFE的編碼方式,可以通過(guò)兩個(gè)矩陣相乘的方式得到相應(yīng)的編碼。

(7)

將得到的FOFE編碼通過(guò)投影矩陣U映射到一個(gè)更低維度的空間MVU,最終的編碼向量由H=M(VU)W+b得到。

FOFE利用遺忘因子α(0<α<1)來(lái)控制歷史對(duì)當(dāng)前位置的影響程度,但這種方法僅考慮了距離對(duì)于遺忘的影響程度,并且這種影響程度是固定的。為了動(dòng)態(tài)地學(xué)習(xí)不同字對(duì)當(dāng)前字的不同影響程度以及根據(jù)字的其他特征學(xué)習(xí)歷史信息的遺忘程度,在FOFE編碼后又為其連接一個(gè)Bi-LSTM,學(xué)習(xí)基于FOFE編碼的特征向量fi。

1.4 融合Bi-LSTM和FOFE層

將基于字向量得到的特征向量h1,i和基于FOFE編碼得到的特征向量fi相連,使其形成包含全局位置特征的新的特征向量[h1,i;fi],然后通過(guò)Bi-LSTM進(jìn)一步提取特征,形成新的特征向量h2,t。

1.5 注意力機(jī)制層

為了學(xué)習(xí)每個(gè)特征向量的不同重要度,注意力機(jī)制可以使識(shí)別模型更多地關(guān)注對(duì)標(biāo)記有利的信息。根據(jù)Bi-LSTM隱層節(jié)點(diǎn)的特征H=[h1,h2,…,hn]產(chǎn)生注意力重要度矩陣α和特征表示v,具體計(jì)算過(guò)程如下:

ui=tanh(Wuhi+bu)

(8)

(9)

v=αhi

(10)

1.6 投影層

為了得到標(biāo)簽個(gè)數(shù)大小的得分矩陣,首先將得到的特征矩陣進(jìn)行非線性的映射:

y=tanh(h2,t·w1+b1)

(11)

然后將特征矩陣投影到標(biāo)簽個(gè)數(shù)大小的得分矩陣,得到每個(gè)標(biāo)簽的分?jǐn)?shù)矩陣。

g=y·w2+b2

(12)

1.7 CRF層

由于序列標(biāo)注任務(wù)中連續(xù)標(biāo)簽之間會(huì)存在依賴性,如在每句話的最開(kāi)始只可以是B、S、O標(biāo)簽,而不可以是I和E等。為此,又將得到的標(biāo)簽分?jǐn)?shù)矩陣輸入給CRF以學(xué)習(xí)連續(xù)標(biāo)簽之間的約束。CRF是一種無(wú)向的概率統(tǒng)計(jì)圖模型,線性鏈條件隨機(jī)場(chǎng)由于它的線性結(jié)構(gòu)被廣泛用來(lái)處理線性序列標(biāo)記問(wèn)題。其中CRF損失函數(shù)由真正路徑分?jǐn)?shù)和其余所有可能路徑的總分組成。并且在所有可能的路徑中,使得真正的路徑具有最高的分?jǐn)?shù),在進(jìn)行最優(yōu)路徑選擇時(shí)可以使用維特比算法。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證本文提出的命名實(shí)體識(shí)別模型有效性,做了四種模型結(jié)構(gòu)的對(duì)比實(shí)驗(yàn),分別為:(1)基線模型;(2)基線模型+注意力機(jī)制;(3)基線模型+FOFE編碼;(4)基線模型+注意力機(jī)制+FOFE編碼。其中基線模型為不包括FOFE編碼、注意力機(jī)制和L2(如圖1所示)的Bi-LSTM的模型結(jié)構(gòu)。為了驗(yàn)證該模型的通用性,在中文和英文兩種語(yǔ)言的數(shù)據(jù)集中進(jìn)行對(duì)比實(shí)驗(yàn),分別為英文的CoNLL2003命名實(shí)體數(shù)據(jù)集和中文的1998年《人民日?qǐng)?bào)》數(shù)據(jù)集。CoNLL2003數(shù)據(jù)集包含四種實(shí)體類型:人名、地名、機(jī)構(gòu)名和待定,實(shí)體分布見(jiàn)表1。《人民日?qǐng)?bào)》數(shù)據(jù)集包含三種實(shí)體類型:人名、地名和機(jī)構(gòu)名,實(shí)體分布見(jiàn)表2。兩種數(shù)據(jù)集均為新聞報(bào)道數(shù)據(jù)并且采用的標(biāo)注策略均為BIOES,分別表示為:B(Begin),實(shí)體的開(kāi)頭;I(Inside),實(shí)體的中間;E(End),實(shí)體的最后;S(Single),單個(gè)字表示的實(shí)體;O(Other),其他非實(shí)體字符。

表1 CoNLL2003實(shí)體分布

表2 《人民日?qǐng)?bào)》實(shí)體分布

采用的評(píng)價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率P、召回率R和F1值F1。具體計(jì)算公式為:

(13)

式中:T1是標(biāo)注正確的實(shí)體數(shù);T2是標(biāo)注的實(shí)體數(shù);T3是實(shí)際的實(shí)體數(shù);β是用來(lái)衡量準(zhǔn)確率和召回率的相對(duì)重要性,本文中取β=1。

2.2 訓(xùn)練及分析

(1) 英文數(shù)據(jù)集:首先將英文數(shù)據(jù)集中的所有數(shù)字都轉(zhuǎn)化成0,并且保留原字母的大小寫(xiě)。其余參數(shù)見(jiàn)表3。

表3 實(shí)驗(yàn)訓(xùn)練參數(shù)

續(xù)表3

表4中列出了不同模型結(jié)構(gòu)在CoNLL2003數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果。

表4 CoNLL2003實(shí)驗(yàn)結(jié)果

從表4中可以看到,與基線模型相比,加入注意力機(jī)制的模型結(jié)構(gòu),在識(shí)別的準(zhǔn)確率和召回率方面都有了小幅度的提升,而單獨(dú)加入FOFE結(jié)構(gòu)以后,準(zhǔn)確率有了大幅度的提升。這是因?yàn)镕OFE編碼為L(zhǎng)STM提供了全局的位置特征,在LSTM僅有前向或反向信息的情況下,提供額外的補(bǔ)充信息。而結(jié)合注意力機(jī)制和FOFE編碼的模型結(jié)構(gòu),其識(shí)別的召回率有了明顯的提升,達(dá)到92.26,并且在召回率有了很大提升的情況下,準(zhǔn)確率仍然保持很高的水平。

圖2顯示了CoNLL2003數(shù)據(jù)集在不同模型結(jié)構(gòu)的訓(xùn)練過(guò)程中F1值隨迭代次數(shù)的變化情況。

圖2 CoNLL2003不同模型F1值隨迭代次數(shù)變化情況

從圖2中可以看到,在前50輪迭代的過(guò)程中,各個(gè)模型的識(shí)別能力相差不多。經(jīng)過(guò)深層次的迭代后,基線模型相較于其他模型的識(shí)別能力明顯變?nèi)酢W⒁饬C(jī)制和FOFE的模型雖然稍好,但仍沒(méi)有升高的現(xiàn)象,甚至有下降的趨勢(shì)。在加入注意力機(jī)制和FOFE結(jié)構(gòu)之后,模型的識(shí)別能力明顯高于其他模型,并且隨著迭代次數(shù)的增加,識(shí)別能力仍舊保持在比較高的水平,但仍有下降的趨勢(shì),這是一種過(guò)擬合的現(xiàn)象。

(2) 中文數(shù)據(jù)集:實(shí)驗(yàn)中對(duì)中文數(shù)據(jù)直接采用字向量,并且將所有的數(shù)字都替換成0,所有的英文字母都替換成了對(duì)應(yīng)的小寫(xiě),其余參數(shù)與英文數(shù)據(jù)集參數(shù)一致。本文同樣對(duì)中文數(shù)據(jù)集做了上述四種模型結(jié)構(gòu)的對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果見(jiàn)表5。

表5 《人民日?qǐng)?bào)》實(shí)驗(yàn)結(jié)果

由表5可以看到,同時(shí)加入注意力機(jī)制和FOFE結(jié)構(gòu)的模型在中文數(shù)據(jù)中的表現(xiàn)與英文數(shù)據(jù)集中的表現(xiàn)正好相反。在中文數(shù)據(jù)集中,模型的準(zhǔn)確率有了很大幅度的提升,在英文數(shù)據(jù)集中,則在召回率上有了比較大的提升,而F1值在兩個(gè)數(shù)據(jù)集均有較大提升。由此可見(jiàn),F(xiàn)OFE提供的全局位置信息對(duì)于模型在識(shí)別的準(zhǔn)確率和召回率方面都有所幫助。

圖3是《人民日?qǐng)?bào)》數(shù)據(jù)集在不同模型結(jié)構(gòu)的訓(xùn)練過(guò)程中F1值隨迭代次數(shù)的變化情況。

圖3 《人民日?qǐng)?bào)》不同模型F1值隨迭代輪數(shù)變化情況

從圖3中可以看到,與英文數(shù)據(jù)集的實(shí)驗(yàn)相比。基線模型在更早的20次左右迭代時(shí)就開(kāi)始呈現(xiàn)出比較弱的識(shí)別能力。同時(shí)融合注意力機(jī)制和FOFE的模型在迭代40次左右時(shí),其識(shí)別能力已經(jīng)明顯高于其他模型。

3 結(jié) 語(yǔ)

本文針對(duì)LSTM對(duì)較遠(yuǎn)的句子信息進(jìn)行特征提取時(shí)能力會(huì)相對(duì)變低甚至無(wú)法獲取的問(wèn)題,提出一種新的命名實(shí)體識(shí)別方法,通過(guò)FOFE這種可以保留任意長(zhǎng)度句子信息的編碼方式與LSTM網(wǎng)絡(luò)相結(jié)合來(lái)增強(qiáng)其特征的提取能力。分別在中文和英文的數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,該方法是有效的且具有一定的通用性,為命名實(shí)體識(shí)別在通用領(lǐng)域中做了一定的貢獻(xiàn)。

本文提出的命名實(shí)體識(shí)別方法只是在兩種語(yǔ)言的人名、地名、機(jī)構(gòu)名這些實(shí)體中進(jìn)行了實(shí)驗(yàn)分析,對(duì)于其他領(lǐng)域的不同實(shí)體類型還沒(méi)有涉及,對(duì)于不同領(lǐng)域的不同實(shí)體類型的識(shí)別還需要進(jìn)一步驗(yàn)證。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产免费人成视频网| 国产美女人喷水在线观看| 国产免费黄| 国产精品一线天| 亚洲精品色AV无码看| 思思热精品在线8| 久久国产精品电影| 久久久精品久久久久三级| 国产香蕉一区二区在线网站| 国产又色又爽又黄| 香蕉蕉亚亚洲aav综合| 婷婷六月天激情| 亚洲国产精品人久久电影| 激情乱人伦| 国产激爽大片高清在线观看| 国产不卡在线看| 久久伊人操| 国内毛片视频| 亚洲黄色视频在线观看一区| 青青草国产在线视频| 99在线免费播放| 国产成人精品男人的天堂| 国产资源免费观看| 夜色爽爽影院18禁妓女影院| 九九久久精品免费观看| 永久天堂网Av| 丁香五月婷婷激情基地| 一本二本三本不卡无码| 粗大猛烈进出高潮视频无码| 亚洲国产一区在线观看| 欧美精品在线免费| 国产女人18毛片水真多1| 亚洲第一成人在线| 亚洲性视频网站| 亚洲一级毛片免费观看| 国产精品免费福利久久播放| 极品性荡少妇一区二区色欲 | 大香网伊人久久综合网2020| 精品伊人久久大香线蕉网站| 亚洲综合亚洲国产尤物| 亚洲区欧美区| 亚洲国产成人久久精品软件| 亚洲自拍另类| 国产小视频免费| 亚国产欧美在线人成| 精品在线免费播放| 久久精品国产亚洲麻豆| 免费国产无遮挡又黄又爽| 人妻无码一区二区视频| 97视频免费看| 欧美一级视频免费| 国产精品福利社| 欧美一级高清片欧美国产欧美| 国产91视频观看| 高清久久精品亚洲日韩Av| 97人人模人人爽人人喊小说| 精品人妻一区无码视频| 亚洲精品va| 92午夜福利影院一区二区三区| 成人亚洲国产| 欧美特黄一免在线观看| 性色一区| 色综合日本| 精品福利一区二区免费视频| 久久一级电影| 亚洲福利片无码最新在线播放| 黄色成年视频| 亚洲午夜久久久精品电影院| 国产va在线观看| 精品国产免费观看一区| 精品国产香蕉在线播出| 国产爽妇精品| 欧类av怡春院| 玖玖精品视频在线观看| 亚洲第一成年网| 国产欧美自拍视频| 日韩一区精品视频一区二区| 丁香亚洲综合五月天婷婷| 国产精品尹人在线观看| 91色爱欧美精品www| 国产国产人成免费视频77777| 无码有码中文字幕|