張 曉 李業(yè)剛* 王 棟 史樹(shù)敏
1(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 山東 淄博 255000) 2(北京理工大學(xué)計(jì)算機(jī)學(xué)院 北京 100081)
命名實(shí)體識(shí)別[1](Named Entity Recognition,NER)是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的核心基礎(chǔ)性任務(wù)之一,其主要任務(wù)是從非結(jié)構(gòu)化文本中提取特定類(lèi)型的實(shí)體,例如:人名、地名、機(jī)構(gòu)組織名和包括時(shí)間、日期、百分比在內(nèi)的數(shù)字表達(dá)式。
目前,隨著深度學(xué)習(xí)在NLP領(lǐng)域的廣泛應(yīng)用,越來(lái)越多的研究人員利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別。深度學(xué)習(xí)方法相對(duì)于機(jī)器學(xué)習(xí)方法,具有更好的泛化能力,能夠有效地避免對(duì)專(zhuān)家知識(shí)和復(fù)雜人工特征的依賴(lài)。Huang等[2]提出的BiLSTM-CRF模型能夠有效地處理NLP中的序列標(biāo)注任務(wù),在CONLL2003數(shù)據(jù)集上F1值達(dá)到90.10%。Ma等[3]提出的BiLSTM-CNNS-CRF模型通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)將字符轉(zhuǎn)化為字符級(jí)別的特征表達(dá),與預(yù)訓(xùn)練好的詞向量相拼接,作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入,在CONLL2003數(shù)據(jù)集上取得了領(lǐng)先水平。Limsopatham等[4]利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)噪聲文本進(jìn)行實(shí)體識(shí)別,提出了CambridgeLTL模型。該模型在國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)COLING2016大會(huì)組織的關(guān)于用戶(hù)生成嘈雜文本命名實(shí)體測(cè)評(píng)(WNUT)中的各項(xiàng)任務(wù)取得了十支隊(duì)伍中最好的名次。
采用深度學(xué)習(xí)方法[5]處理通用命名實(shí)體識(shí)別領(lǐng)域中表現(xiàn)出了較好的性能。在一些特定領(lǐng)域由于缺乏大規(guī)模的標(biāo)注數(shù)據(jù),其性能通常會(huì)下降,識(shí)別效果差強(qiáng)人意。如何提高特定領(lǐng)域內(nèi)命名實(shí)體識(shí)別性能成為近期研究的重點(diǎn)問(wèn)題之一[6]。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和一些社交軟件在用戶(hù)中的廣泛使用,越來(lái)越多的人通過(guò)微博、Twitter等社交平臺(tái)發(fā)表自己的觀點(diǎn)看法。從海量的網(wǎng)絡(luò)文本數(shù)據(jù)中提取突發(fā)熱點(diǎn)新聞、進(jìn)行話題追蹤、避免網(wǎng)絡(luò)攻擊和了解社會(huì)輿論等方面都離不開(kāi)命名實(shí)體識(shí)別,社交媒體中的命名實(shí)體識(shí)別對(duì)于國(guó)家部門(mén)、各大公司機(jī)構(gòu)獲取輿情信息具有重要的意義。因此,從Twitter、微博等社交媒體文本識(shí)別出命名實(shí)體成為近期研究的熱點(diǎn)[7]。
本文提出了一種融合遷移學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)模型(TL-BiLSTM-CRF)遷移學(xué)習(xí)模型。首先利用字詞結(jié)合的詞向量作為BiLSTM的輸入,得到序列的概率分布矩陣,通過(guò)CRF計(jì)算出全局最優(yōu)的標(biāo)記序列,構(gòu)建基本模型;其次在基本模型中引入適應(yīng)層,通過(guò)CCA算法彌合源域和目標(biāo)域詞向量特征空間的差異,對(duì)基本模型進(jìn)行遷移。對(duì)比實(shí)驗(yàn)表明,TL-BiLSTM-CRF遷移學(xué)習(xí)模型在Twitter數(shù)據(jù)集上獲得了較好的實(shí)驗(yàn)性能并超過(guò)了先前最好的模型。
遷移學(xué)習(xí)[8]通過(guò)利用數(shù)據(jù)、任務(wù)和模型之間的相似性,運(yùn)用已有的源域知識(shí)對(duì)目標(biāo)域問(wèn)題進(jìn)行求解,是機(jī)器學(xué)習(xí)中的前沿研究領(lǐng)域。遷移學(xué)習(xí)在自然語(yǔ)言處理[9]、計(jì)算機(jī)視覺(jué)[10]和語(yǔ)音識(shí)別[11]等領(lǐng)域得到了廣泛的研究。
根據(jù)Pan等[12]按學(xué)習(xí)方法的分類(lèi)形式可以將遷移學(xué)習(xí)分為基于實(shí)例、基于特征、基于模型和基于關(guān)系四大類(lèi)。Weiss等[13]按特征的屬性進(jìn)行分類(lèi)可以將遷移學(xué)習(xí)分為同構(gòu)遷移學(xué)習(xí)和異構(gòu)遷移學(xué)習(xí)兩大類(lèi)。
基于模型的遷移方法是指從源域和目標(biāo)域數(shù)據(jù)中找到模型之間共享的參數(shù)信息,構(gòu)建參數(shù)共享模型。近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)模型在許多領(lǐng)域都有成功的應(yīng)用,特別是計(jì)算機(jī)視覺(jué)領(lǐng)域,在網(wǎng)絡(luò)模型中進(jìn)行遷移學(xué)習(xí)取得了大量的成果。目前,通過(guò)遷移學(xué)習(xí)來(lái)提高NLP神經(jīng)網(wǎng)絡(luò)模型的可移植性得到了研究人員的關(guān)注。
Mou等[14]針對(duì)NLP任務(wù)在卷積神經(jīng)網(wǎng)絡(luò)中如何遷移給出了INIT和MULT兩種模式,并通過(guò)文本分類(lèi)任務(wù)驗(yàn)證了遷移學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)中的可行性。其中,INIT模式是指使用來(lái)自源域的標(biāo)記數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,隨后用所學(xué)習(xí)的參數(shù)初始化目標(biāo)模型,最后使用來(lái)自目標(biāo)域的標(biāo)記數(shù)據(jù)微調(diào)初始化的目標(biāo)模型。如在計(jì)算機(jī)視覺(jué)領(lǐng)域ImageNet分類(lèi)數(shù)據(jù)集中有預(yù)訓(xùn)練圖像分類(lèi)模型VGG[15]、ResNet[16]等,由于源領(lǐng)域訓(xùn)練數(shù)據(jù)規(guī)模大,可以將預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型遷移到目標(biāo)任務(wù)上,使得模型更魯棒、泛化能力更好。LSTM-CRF模型作為命名實(shí)體識(shí)別領(lǐng)域的基線模型,很多領(lǐng)域上的遷移模型也是基于LSTM-CRF模型進(jìn)行改進(jìn),對(duì)于由源領(lǐng)域預(yù)訓(xùn)練好的模型,LSTM網(wǎng)絡(luò)已經(jīng)具備特征提取能力。如Giorgi等[17]利用LSTM網(wǎng)絡(luò),在含有大量標(biāo)注的生物醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,然后將模型參數(shù)遷移到小規(guī)模的數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果與基準(zhǔn)模型相比F1值提高了9%,證明了在LSTM網(wǎng)絡(luò)中進(jìn)行領(lǐng)域間模型和參數(shù)共享的可行性。
MULT模式使用源域數(shù)據(jù)和目標(biāo)數(shù)據(jù)同時(shí)訓(xùn)練兩個(gè)模型,在學(xué)習(xí)過(guò)程中,兩個(gè)模型之間共享部分參數(shù)。Yang等[18]針對(duì)跨域遷移、跨應(yīng)用遷移和跨語(yǔ)言遷移設(shè)計(jì)了三種神經(jīng)網(wǎng)絡(luò)模型,該方法利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)同時(shí)訓(xùn)練模型,在訓(xùn)練過(guò)程中共享某些參數(shù),有效地提高了目標(biāo)域數(shù)據(jù)集F1值。通過(guò)實(shí)驗(yàn)驗(yàn)證融合遷移學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)模型能顯著提高序列標(biāo)注問(wèn)題的性能。
基于特征的遷移方式是指通過(guò)特征變換的方法來(lái)減少源域和目標(biāo)域之間的差距,將源域和目標(biāo)域的特征空間變換到統(tǒng)一的特征空間中。文獻(xiàn)[18]直接使用通用詞向量分別作用在源域和目標(biāo)域中,假設(shè)了源域和目標(biāo)域詞向量具有相同的特征空間,將其簡(jiǎn)單地作為同構(gòu)遷移學(xué)習(xí)會(huì)影響提升的效果。本文將基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了有機(jī)的結(jié)合,提出了TL-BiLSTM-CRF遷移學(xué)習(xí)模型進(jìn)行社交評(píng)論命名實(shí)體識(shí)別。該模型既能夠通過(guò)遷移學(xué)習(xí)算法緩解深度學(xué)習(xí)對(duì)少量數(shù)據(jù)學(xué)習(xí)效果不佳的問(wèn)題,又能夠通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,減少對(duì)外部字典和人工特征的依賴(lài)。
圖1給出了本文中的框架模型,模型分為四個(gè)部分:字詞結(jié)合的表示層、用于編碼單詞序列的BiLSTM層、用于解碼的CRF層和模型遷移過(guò)程中用到的詞適應(yīng)層。

圖1 TL-BiLSTM-CRF遷移學(xué)習(xí)模型
文本中的語(yǔ)義特征在命名實(shí)體識(shí)別任務(wù)中扮演著重要角色,這些語(yǔ)義特征為模型提供了上下文信息,從而使模型更好地推斷識(shí)別出實(shí)體類(lèi)型。本文利用開(kāi)源工具Glove[19]分別訓(xùn)練目標(biāo)域和源域生成具有語(yǔ)義信息的低維度稠密詞向量。
對(duì)于文本中的每個(gè)單詞w=[C1,C2,…,Cn],首先通過(guò)查詢(xún)字符向量表獲得每個(gè)字符的字符向量,由字符向量組成單詞的字符向量矩陣,利用BiLSTM獲得每個(gè)單詞的字符級(jí)別特征wchars∈Rd1,例如,每個(gè)單詞的大小寫(xiě)、拼寫(xiě)規(guī)律等。然后與詞向量wglove∈Rd2進(jìn)行拼接,最終得到字詞結(jié)合的向量表達(dá)式:w=[wglove,wchars]∈Rn,其中n=d1+d2。
LSTM通過(guò)門(mén)控機(jī)制將短期記憶和長(zhǎng)期記憶相結(jié)合,在一定程度上解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型梯度消失和梯度爆炸的問(wèn)題[20],能夠有效地提取上下文信息。LSTM單元結(jié)構(gòu)圖如圖2所示,其內(nèi)部結(jié)構(gòu)表達(dá)式為:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot?tanh(Ct)
(6)


圖2 LSTM網(wǎng)絡(luò)單元示意圖
相較于LSTM,BiLSTM能夠更加有效地提取上下文信息,可以將每個(gè)序列向前和向后表示為兩個(gè)獨(dú)立的隱藏狀態(tài),分別捕獲過(guò)去和將來(lái)的信息,其序列狀態(tài)可表示為:
(7)

CRF是一種用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)的概率化模型。對(duì)于命名實(shí)體這類(lèi)序列標(biāo)注問(wèn)題,CRF層能夠通過(guò)分析相鄰標(biāo)簽之間的關(guān)系,加強(qiáng)標(biāo)簽語(yǔ)法的合理性和約束性。本文將CRF層接入BiLSTM層之后,進(jìn)行句子級(jí)的序列標(biāo)注,計(jì)算出一個(gè)全局最優(yōu)的標(biāo)記序列。
對(duì)于給定序列x={x1,x2,…,xn}和對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列y={y1,y2,…,yn},其得分計(jì)算式表示為:
(8)
式中:矩陣P為BiLSTM層的輸出結(jié)果,其大小為n×m;n代表單詞個(gè)數(shù);m代表標(biāo)簽的種類(lèi);Pij表示句子中第i個(gè)單詞的第j個(gè)標(biāo)簽概率。矩陣A是一個(gè)(m+2)×(m+2)的轉(zhuǎn)移矩陣,Ai,j表示由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移得分。
整個(gè)序列的得分由LSTM輸出的P和CRF的轉(zhuǎn)移矩陣A兩部分決定。隨后可以通過(guò)指數(shù)函數(shù)和歸一化處理將其轉(zhuǎn)換為概率,其計(jì)算式表示為:
(9)
式中:y′代表正確的標(biāo)記值。
在訓(xùn)練過(guò)程中采取極大似然估計(jì)原理對(duì)其進(jìn)行優(yōu)化,標(biāo)記序列為如下形式:

(10)
預(yù)測(cè)過(guò)程中通過(guò)Viterbi算法來(lái)求解最優(yōu)路徑,獲取預(yù)測(cè)結(jié)果最優(yōu)值:
(11)
典型相關(guān)分析(CCA)算法是度量?jī)山M多維變量之間線性關(guān)系的多元統(tǒng)計(jì)方法,可以用來(lái)提取兩組數(shù)據(jù)間的共有特性[21]。其目標(biāo)就是為兩組觀測(cè)矩陣找到一對(duì)投影向量使得在投影空間內(nèi)的新特征空間達(dá)到最大相關(guān)程度。

a′=avb′=bw
(12)
投影向量v、w可以通過(guò)最大化相關(guān)性函數(shù)ρ(a′,b′)獲得:
(13)

(14)
得到的v、w可以線性投影整個(gè)詞匯表:
(15)
在詞適應(yīng)層中,通過(guò)CCA算法將源域和目標(biāo)域的詞向量彌合到同一空間向量中。
TL-BiLSTM-CRF遷移學(xué)習(xí)模型的訓(xùn)練過(guò)程如圖3所示。首先采用基于模型的遷移學(xué)習(xí)算法,使用源域數(shù)據(jù)訓(xùn)練構(gòu)建的基本模型,采用INIT模式參數(shù)初始化TL-BiLSTM-CRF遷移學(xué)習(xí)模型,調(diào)整并優(yōu)化所有層的權(quán)重。其次通過(guò)基于特征的遷移學(xué)習(xí)算法,構(gòu)建詞適應(yīng)層。目標(biāo)域數(shù)據(jù)通過(guò)詞適應(yīng)層彌合與源域詞向量空間差異。訓(xùn)練過(guò)程中對(duì)TL-BiLSTM-CRF進(jìn)行微調(diào)。

圖3 TL-BiLSTM-CRF遷移學(xué)習(xí)模型訓(xùn)練過(guò)程
實(shí)驗(yàn)中源域數(shù)據(jù)集選擇的是在實(shí)體識(shí)別任務(wù)廣泛使用且公開(kāi)發(fā)表的CONLL 2003數(shù)據(jù)集[22]和OntoNotes-nw數(shù)據(jù)集[23]。目標(biāo)域的社交媒體語(yǔ)料庫(kù)Twitter數(shù)據(jù)集是從Archive Team中爬取下來(lái)的Twitter內(nèi)容。數(shù)據(jù)集結(jié)構(gòu)如表1所示。

表1 數(shù)據(jù)集
實(shí)驗(yàn)將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集三個(gè)部分,其中CONLL 2003數(shù)據(jù)集中訓(xùn)練集占語(yǔ)料總數(shù)的70%,測(cè)試集和驗(yàn)證集分別占數(shù)據(jù)的15%。OntoNotes-nw數(shù)據(jù)集中訓(xùn)練集、測(cè)試集和驗(yàn)證集分別占80%、5%和15%。
Twitter數(shù)據(jù)集中訓(xùn)練集占語(yǔ)料總數(shù)的80%,測(cè)試集和驗(yàn)證集分別占10%。語(yǔ)料詳細(xì)信息情況見(jiàn)表2。

表2 Twitter數(shù)據(jù)集分布

續(xù)表2
Dai等[24]研究工作表明語(yǔ)料采用BIOES的標(biāo)記效果要優(yōu)于BIO2方式,能夠更加清楚地表示和劃分語(yǔ)料中實(shí)體的邊界,因此,實(shí)驗(yàn)中采用了BIOES標(biāo)記方式。
實(shí)驗(yàn)中采用精確率P、召回率R和F1值三種評(píng)價(jià)指標(biāo)分別進(jìn)行評(píng)價(jià)。其中,F(xiàn)1值是精確率和召回率的加權(quán)調(diào)和平均,能夠綜合評(píng)價(jià)模型整體的性能。計(jì)算式分別表示為:
(16)
本次實(shí)驗(yàn)在Linux操作系統(tǒng)下,采用TensorFlow框架的1.2版本,語(yǔ)言采用Python3.5。訓(xùn)練過(guò)程中利用隨機(jī)梯度下降法,在模型中加入Dropout層[25]來(lái)減少模型過(guò)擬合問(wèn)題。同時(shí),在驗(yàn)證集上使用early stop,當(dāng)驗(yàn)證集上的錯(cuò)誤率不再下降時(shí)提前停止迭代。詞向量維度設(shè)置為100,LSTM隱層向量維度為300,Dropout設(shè)置為0.5,early stop設(shè)置為10,學(xué)習(xí)率設(shè)置為0.005。實(shí)驗(yàn)過(guò)程中采用NVIDIA的1060Ti GPU進(jìn)行加速處理。
為了驗(yàn)證TL-BiLSTM-CRF遷移學(xué)習(xí)模型的有效性和泛化性,對(duì)所提出模型進(jìn)行了兩個(gè)維度的實(shí)驗(yàn),分析驗(yàn)證模型性能。與現(xiàn)有工作對(duì)比,評(píng)估模型的性能。
3.3.1模型性能分析
為驗(yàn)證基于模型遷移學(xué)習(xí)方法和詞適應(yīng)層對(duì)模型的影響。根據(jù)所提TL-BiLSTM-CRF遷移學(xué)習(xí)模型得到了以下幾種模型變體:
1)BiLSTM-CRF(Non-transfer)。在本文模型上去掉了遷移學(xué)習(xí)相關(guān)的算法,用BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)提取特征,接入CRF層計(jì)算全局最優(yōu)的標(biāo)記序列。作為基本模型。
2)BiLSTM-CRF+INIT。在BiLSTM-CRF的基礎(chǔ)上,加入基于模型的遷移學(xué)習(xí)方法,在模型中通過(guò)INIT模式初始化目標(biāo)模型。此實(shí)驗(yàn)將OntoNotes-nw數(shù)據(jù)集在BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)上預(yù)訓(xùn)練模型,在目標(biāo)任務(wù)Twitter數(shù)據(jù)集上復(fù)用模型LSTM網(wǎng)絡(luò)組件,對(duì)LSTM參數(shù)進(jìn)行微調(diào),最后進(jìn)入特定領(lǐng)域的CRF層進(jìn)行標(biāo)簽轉(zhuǎn)移限制的學(xué)習(xí)。
3)BiLSTM-CRF+INIT+詞適應(yīng)層。在BiLSTM-CRF+INIT的基礎(chǔ)上加入詞適應(yīng)層,即本文構(gòu)建的TL-BiLSTM-CRF遷移學(xué)習(xí)模型。
(1)源域模型性能對(duì)遷移效果的影響。此實(shí)驗(yàn)探究了源域模型的性能對(duì)目標(biāo)域模型性能的影響,分別驗(yàn)證了在不同epoch下模型對(duì)Twitter數(shù)據(jù)集提升的影響。實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同epoch下模型對(duì)Twitter數(shù)據(jù)集F1值的影響
當(dāng)源域模型訓(xùn)練為10epoch時(shí),遷移的效果最好,F(xiàn)1值達(dá)到了64.87%。在源域模型訓(xùn)練為60epoch時(shí),模型出現(xiàn)了負(fù)遷移現(xiàn)象。究其原因,源域模型性能越高,則參數(shù)與源域數(shù)據(jù)集的關(guān)聯(lián)越大,可能會(huì)造成過(guò)擬合現(xiàn)象,此時(shí)不再適合對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行知識(shí)的傳遞。源域中F1值在前8輪中迅速增長(zhǎng),后面訓(xùn)練過(guò)程則增長(zhǎng)緩慢,說(shuō)明如果直接從源域前幾輪中進(jìn)行參數(shù)學(xué)習(xí),可以節(jié)約訓(xùn)練源域的時(shí)間,同時(shí)提升目標(biāo)域中的性能。
(2)Twitter數(shù)據(jù)集大小對(duì)遷移效果的影響。此實(shí)驗(yàn)主要是評(píng)估遷移學(xué)習(xí)在模型中提高目標(biāo)域中社交媒體命名實(shí)體識(shí)別性能的程度,量化目標(biāo)數(shù)據(jù)集大小對(duì)遷移效果的影響。在迭代次數(shù)為10epoch的情況下數(shù)據(jù)集大小對(duì)遷移性能的影響如圖5所示。

圖5 Twitter數(shù)據(jù)集大小對(duì)遷移效果的影響
相較于基本模型,BiLSTM-CRF+INIT和BiLSTM-CRF+INIT+詞適應(yīng)層通過(guò)對(duì)源域知識(shí)的遷移都提高了F1值,說(shuō)明目標(biāo)域可以從源域數(shù)據(jù)集中學(xué)到的特征進(jìn)行利用以提高目標(biāo)域的性能。通過(guò)對(duì)比BiLSTM-CRF+INIT和BiLSTM-CRF+INIT+詞適應(yīng)層可以看出,加入詞適應(yīng)層后F1值在不同比例訓(xùn)練集大小上都有進(jìn)一步提高。詞適應(yīng)層能夠彌合源域和目標(biāo)域詞向量空間差異,使其具有相同的特征空間,因此可以提高模型的命名實(shí)體識(shí)別性能。
隨著目標(biāo)數(shù)據(jù)集的增大,遷移提升效果會(huì)逐漸降低。當(dāng)使用目標(biāo)數(shù)據(jù)集的30%時(shí)(此30%對(duì)應(yīng)的是Twitter訓(xùn)練集大小的比例),遷移效果最佳,比基本模型F1值提高了10.21%。如果將目標(biāo)域中的所有訓(xùn)練集都用于訓(xùn)練,F(xiàn)1值也有3.06%的提升。
3.3.2對(duì)比實(shí)驗(yàn)
(1)CRF-PRED[26]。機(jī)器學(xué)習(xí)中序列標(biāo)注最為經(jīng)典的方法。采用開(kāi)源工具包CRFsuite—0.12建立模型。
(2)Rodriguez(2018)模型[26]。Rodriguez(2018)是一種基于模型的遷移學(xué)習(xí)算法,采用Pre-training方法,在源域數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),利用訓(xùn)練好的權(quán)值初始化神經(jīng)網(wǎng)絡(luò),并對(duì)目標(biāo)域模型進(jìn)行微調(diào),在社交媒體命名實(shí)體識(shí)別中取得了較好的性能。
(3)Lample(2016)模型[27]。Lample(2016)模型采用BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在命名實(shí)體識(shí)別任務(wù)中得到了廣泛的應(yīng)用。
(4)Yang(2017)模型[18]。Yang(2017)模型采用多任務(wù)學(xué)習(xí)的方式構(gòu)建了一個(gè)融合遷移學(xué)習(xí)的深度層級(jí)網(wǎng)絡(luò)模型,能夠緩解目標(biāo)領(lǐng)域標(biāo)注和內(nèi)容數(shù)據(jù)稀缺問(wèn)題,在社交媒體命名實(shí)體識(shí)別中達(dá)到了目前最優(yōu)的性能。
(5)TL-BiLSTM-CRF遷移學(xué)習(xí)模型。本文提出的一種基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型。表3中對(duì)比了與其他主流模型在Twitter數(shù)據(jù)集上的對(duì)比情況。

表3 Twitter數(shù)據(jù)集上F1值對(duì)比
從實(shí)驗(yàn)結(jié)果可以看出,TL-BiLSTM-CRF遷移學(xué)習(xí)模型召回率遠(yuǎn)遠(yuǎn)高于CRF-PRED,能夠避免手動(dòng)構(gòu)造特征模板等不足,實(shí)現(xiàn)了端到端的訓(xùn)練。
與Rodriguez(2018)模型相比,本文的TL-BiLSTM-CRF遷移學(xué)習(xí)模型在精確率、召回率、F1值均有所提高。實(shí)驗(yàn)表明基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的TL-BiLSTM-CRF遷移學(xué)習(xí)模型比單獨(dú)基于模型的遷移學(xué)習(xí)算法的Rodriguez(2018)模型進(jìn)行社交媒體命名實(shí)體識(shí)別有更好的性能。
與Lample(2016)模型相比,TL-BiLSTM-CRF遷移學(xué)習(xí)模型在精確率、召回率、F1值均優(yōu)于Lample(2016)模型的實(shí)驗(yàn)結(jié)果,分別提升了2.56%、3.76%、3.45%。主要原因是TL-BiLSTM-CRF遷移學(xué)習(xí)模型通過(guò)遷移學(xué)習(xí)算法通過(guò)利用源域OntoNotes-nw數(shù)據(jù)集來(lái)提高模型性能,解決了目標(biāo)域數(shù)據(jù)集少的問(wèn)題。
TL-BiLSTM-CRF遷移學(xué)習(xí)模型優(yōu)于目前最好的Yang(2017)模型,F(xiàn)1值提高0.56%。Yang(2017)模型通過(guò)多任務(wù)學(xué)習(xí)的方式,每次訓(xùn)練都需要同時(shí)訓(xùn)練源域和目標(biāo)域的數(shù)據(jù)。尤其是當(dāng)源域數(shù)據(jù)很大時(shí),會(huì)額外增加訓(xùn)練的時(shí)間、消耗更多的資源。而TL-BiLSTM-CRF模型僅需在源域模型中訓(xùn)練一次,避免了Yang等的模型重復(fù)構(gòu)建模型的不足。
表4中分析了Twitter數(shù)據(jù)集中10種實(shí)體類(lèi)型的精確率、召回率、F1值情況,實(shí)驗(yàn)結(jié)果由十折交叉驗(yàn)證求取均值獲得。

表4 Twitter數(shù)據(jù)集上F1值對(duì)比不同類(lèi)型

續(xù)表4
可以看出:person類(lèi)、geo-loc類(lèi)、facility類(lèi)作為常規(guī)實(shí)體類(lèi)型其F1值相對(duì)較高;Product類(lèi)、tvshow類(lèi)、Movie類(lèi)的精確率高但召回率較低,究其原因是這類(lèi)命名實(shí)體結(jié)構(gòu)較為復(fù)雜,類(lèi)型長(zhǎng)度沒(méi)有限制、新詞更新速度較快且實(shí)體名稱(chēng)沒(méi)有統(tǒng)一的命名規(guī)范,故召回率相對(duì)較低;Musicartist類(lèi)的精確率、召回率、F1值均較低。通過(guò)分析標(biāo)注結(jié)果來(lái)看是由于Musicartist類(lèi)實(shí)體儲(chǔ)備較少且存在別名、縮略詞,例如測(cè)試集數(shù)據(jù)中的“30stm”是美國(guó)搖滾樂(lè)30 Seconds To Mars的簡(jiǎn)稱(chēng),模型未能識(shí)別。
本文利用公開(kāi)數(shù)據(jù)集WNUT16進(jìn)行實(shí)驗(yàn)驗(yàn)證模型的泛化能力。WNUT16數(shù)據(jù)集是國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)組織的關(guān)于用戶(hù)生成嘈雜文本命名實(shí)體測(cè)評(píng)數(shù)據(jù)集,數(shù)據(jù)集是從社交平臺(tái)、網(wǎng)絡(luò)論壇在線評(píng)論的嘈雜文本上整理。表5對(duì)比了提交模型中F1值前三名的CambridgeLTL模型、Talos模型、Akora模型,其F1值分別達(dá)到了52.41%、46.16%、44.77%;TL-BiLSTM-CRF模型F1值到達(dá)了53.11%,優(yōu)于CambridgeLTL。

表5 WNUT16數(shù)據(jù)集F1值對(duì)比
綜上所述,基于遷移學(xué)習(xí)的TL-BiLSTM-CRF通過(guò)INIT模式與詞適應(yīng)層的構(gòu)建,從源域數(shù)據(jù)集中學(xué)習(xí)到更多的知識(shí),提升了模型在社交評(píng)論領(lǐng)域中模型的性能。
針對(duì)社交評(píng)論命名實(shí)體任務(wù),本文提出的TL-Bi-LSTM-CRF遷移學(xué)習(xí)模型能夠充分利用BiLSTM網(wǎng)絡(luò)獲取單詞形態(tài)特征的字符向量,通過(guò)字詞結(jié)合的方式補(bǔ)充單一詞向量的不足,并且在遷移過(guò)程中加入詞適應(yīng)層,彌合了源域和目標(biāo)域詞向量空間的差異,進(jìn)一步提高了命名實(shí)體任務(wù)中社交評(píng)論實(shí)體識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,基于TL-BiLSTM-CRF遷移學(xué)習(xí)模型的命名實(shí)體識(shí)別在Twitter數(shù)據(jù)集上取得了性能上的提升,F(xiàn)1值為64.87%,優(yōu)于目前最好的模型。
TL-BiLSTM-CRF遷移學(xué)習(xí)模型在命名實(shí)體識(shí)別的處理中,通過(guò)深度學(xué)習(xí)和基于特征、模型的遷移學(xué)習(xí)算法的結(jié)合,能夠在不同的領(lǐng)域中學(xué)習(xí)構(gòu)建模型發(fā)揮重要的作用。相較于通用領(lǐng)域NER準(zhǔn)確率,特定領(lǐng)域NER還有很大的提升空間。下一步可以嘗試使用更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型并在消除目標(biāo)域與源域向量空間差異等方面開(kāi)展工作。