999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學(xué)習(xí)的社交評(píng)論命名實(shí)體識(shí)別

2022-01-28 03:00:52李業(yè)剛史樹(shù)敏
關(guān)鍵詞:模型

張 曉 李業(yè)剛* 王 棟 史樹(shù)敏

1(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 山東 淄博 255000) 2(北京理工大學(xué)計(jì)算機(jī)學(xué)院 北京 100081)

0 引 言

命名實(shí)體識(shí)別[1](Named Entity Recognition,NER)是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的核心基礎(chǔ)性任務(wù)之一,其主要任務(wù)是從非結(jié)構(gòu)化文本中提取特定類(lèi)型的實(shí)體,例如:人名、地名、機(jī)構(gòu)組織名和包括時(shí)間、日期、百分比在內(nèi)的數(shù)字表達(dá)式。

目前,隨著深度學(xué)習(xí)在NLP領(lǐng)域的廣泛應(yīng)用,越來(lái)越多的研究人員利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別。深度學(xué)習(xí)方法相對(duì)于機(jī)器學(xué)習(xí)方法,具有更好的泛化能力,能夠有效地避免對(duì)專(zhuān)家知識(shí)和復(fù)雜人工特征的依賴(lài)。Huang等[2]提出的BiLSTM-CRF模型能夠有效地處理NLP中的序列標(biāo)注任務(wù),在CONLL2003數(shù)據(jù)集上F1值達(dá)到90.10%。Ma等[3]提出的BiLSTM-CNNS-CRF模型通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)將字符轉(zhuǎn)化為字符級(jí)別的特征表達(dá),與預(yù)訓(xùn)練好的詞向量相拼接,作為網(wǎng)絡(luò)結(jié)構(gòu)的輸入,在CONLL2003數(shù)據(jù)集上取得了領(lǐng)先水平。Limsopatham等[4]利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)噪聲文本進(jìn)行實(shí)體識(shí)別,提出了CambridgeLTL模型。該模型在國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)COLING2016大會(huì)組織的關(guān)于用戶(hù)生成嘈雜文本命名實(shí)體測(cè)評(píng)(WNUT)中的各項(xiàng)任務(wù)取得了十支隊(duì)伍中最好的名次。

采用深度學(xué)習(xí)方法[5]處理通用命名實(shí)體識(shí)別領(lǐng)域中表現(xiàn)出了較好的性能。在一些特定領(lǐng)域由于缺乏大規(guī)模的標(biāo)注數(shù)據(jù),其性能通常會(huì)下降,識(shí)別效果差強(qiáng)人意。如何提高特定領(lǐng)域內(nèi)命名實(shí)體識(shí)別性能成為近期研究的重點(diǎn)問(wèn)題之一[6]。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和一些社交軟件在用戶(hù)中的廣泛使用,越來(lái)越多的人通過(guò)微博、Twitter等社交平臺(tái)發(fā)表自己的觀點(diǎn)看法。從海量的網(wǎng)絡(luò)文本數(shù)據(jù)中提取突發(fā)熱點(diǎn)新聞、進(jìn)行話題追蹤、避免網(wǎng)絡(luò)攻擊和了解社會(huì)輿論等方面都離不開(kāi)命名實(shí)體識(shí)別,社交媒體中的命名實(shí)體識(shí)別對(duì)于國(guó)家部門(mén)、各大公司機(jī)構(gòu)獲取輿情信息具有重要的意義。因此,從Twitter、微博等社交媒體文本識(shí)別出命名實(shí)體成為近期研究的熱點(diǎn)[7]。

本文提出了一種融合遷移學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)模型(TL-BiLSTM-CRF)遷移學(xué)習(xí)模型。首先利用字詞結(jié)合的詞向量作為BiLSTM的輸入,得到序列的概率分布矩陣,通過(guò)CRF計(jì)算出全局最優(yōu)的標(biāo)記序列,構(gòu)建基本模型;其次在基本模型中引入適應(yīng)層,通過(guò)CCA算法彌合源域和目標(biāo)域詞向量特征空間的差異,對(duì)基本模型進(jìn)行遷移。對(duì)比實(shí)驗(yàn)表明,TL-BiLSTM-CRF遷移學(xué)習(xí)模型在Twitter數(shù)據(jù)集上獲得了較好的實(shí)驗(yàn)性能并超過(guò)了先前最好的模型。

1 相關(guān)工作

遷移學(xué)習(xí)[8]通過(guò)利用數(shù)據(jù)、任務(wù)和模型之間的相似性,運(yùn)用已有的源域知識(shí)對(duì)目標(biāo)域問(wèn)題進(jìn)行求解,是機(jī)器學(xué)習(xí)中的前沿研究領(lǐng)域。遷移學(xué)習(xí)在自然語(yǔ)言處理[9]、計(jì)算機(jī)視覺(jué)[10]和語(yǔ)音識(shí)別[11]等領(lǐng)域得到了廣泛的研究。

根據(jù)Pan等[12]按學(xué)習(xí)方法的分類(lèi)形式可以將遷移學(xué)習(xí)分為基于實(shí)例、基于特征、基于模型和基于關(guān)系四大類(lèi)。Weiss等[13]按特征的屬性進(jìn)行分類(lèi)可以將遷移學(xué)習(xí)分為同構(gòu)遷移學(xué)習(xí)和異構(gòu)遷移學(xué)習(xí)兩大類(lèi)。

基于模型的遷移方法是指從源域和目標(biāo)域數(shù)據(jù)中找到模型之間共享的參數(shù)信息,構(gòu)建參數(shù)共享模型。近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)模型在許多領(lǐng)域都有成功的應(yīng)用,特別是計(jì)算機(jī)視覺(jué)領(lǐng)域,在網(wǎng)絡(luò)模型中進(jìn)行遷移學(xué)習(xí)取得了大量的成果。目前,通過(guò)遷移學(xué)習(xí)來(lái)提高NLP神經(jīng)網(wǎng)絡(luò)模型的可移植性得到了研究人員的關(guān)注。

Mou等[14]針對(duì)NLP任務(wù)在卷積神經(jīng)網(wǎng)絡(luò)中如何遷移給出了INIT和MULT兩種模式,并通過(guò)文本分類(lèi)任務(wù)驗(yàn)證了遷移學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)中的可行性。其中,INIT模式是指使用來(lái)自源域的標(biāo)記數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,隨后用所學(xué)習(xí)的參數(shù)初始化目標(biāo)模型,最后使用來(lái)自目標(biāo)域的標(biāo)記數(shù)據(jù)微調(diào)初始化的目標(biāo)模型。如在計(jì)算機(jī)視覺(jué)領(lǐng)域ImageNet分類(lèi)數(shù)據(jù)集中有預(yù)訓(xùn)練圖像分類(lèi)模型VGG[15]、ResNet[16]等,由于源領(lǐng)域訓(xùn)練數(shù)據(jù)規(guī)模大,可以將預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型遷移到目標(biāo)任務(wù)上,使得模型更魯棒、泛化能力更好。LSTM-CRF模型作為命名實(shí)體識(shí)別領(lǐng)域的基線模型,很多領(lǐng)域上的遷移模型也是基于LSTM-CRF模型進(jìn)行改進(jìn),對(duì)于由源領(lǐng)域預(yù)訓(xùn)練好的模型,LSTM網(wǎng)絡(luò)已經(jīng)具備特征提取能力。如Giorgi等[17]利用LSTM網(wǎng)絡(luò),在含有大量標(biāo)注的生物醫(yī)學(xué)數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,然后將模型參數(shù)遷移到小規(guī)模的數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果與基準(zhǔn)模型相比F1值提高了9%,證明了在LSTM網(wǎng)絡(luò)中進(jìn)行領(lǐng)域間模型和參數(shù)共享的可行性。

MULT模式使用源域數(shù)據(jù)和目標(biāo)數(shù)據(jù)同時(shí)訓(xùn)練兩個(gè)模型,在學(xué)習(xí)過(guò)程中,兩個(gè)模型之間共享部分參數(shù)。Yang等[18]針對(duì)跨域遷移、跨應(yīng)用遷移和跨語(yǔ)言遷移設(shè)計(jì)了三種神經(jīng)網(wǎng)絡(luò)模型,該方法利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)同時(shí)訓(xùn)練模型,在訓(xùn)練過(guò)程中共享某些參數(shù),有效地提高了目標(biāo)域數(shù)據(jù)集F1值。通過(guò)實(shí)驗(yàn)驗(yàn)證融合遷移學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)模型能顯著提高序列標(biāo)注問(wèn)題的性能。

基于特征的遷移方式是指通過(guò)特征變換的方法來(lái)減少源域和目標(biāo)域之間的差距,將源域和目標(biāo)域的特征空間變換到統(tǒng)一的特征空間中。文獻(xiàn)[18]直接使用通用詞向量分別作用在源域和目標(biāo)域中,假設(shè)了源域和目標(biāo)域詞向量具有相同的特征空間,將其簡(jiǎn)單地作為同構(gòu)遷移學(xué)習(xí)會(huì)影響提升的效果。本文將基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了有機(jī)的結(jié)合,提出了TL-BiLSTM-CRF遷移學(xué)習(xí)模型進(jìn)行社交評(píng)論命名實(shí)體識(shí)別。該模型既能夠通過(guò)遷移學(xué)習(xí)算法緩解深度學(xué)習(xí)對(duì)少量數(shù)據(jù)學(xué)習(xí)效果不佳的問(wèn)題,又能夠通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,減少對(duì)外部字典和人工特征的依賴(lài)。

2 TL-BiLSTM-CRF遷移學(xué)習(xí)模型

圖1給出了本文中的框架模型,模型分為四個(gè)部分:字詞結(jié)合的表示層、用于編碼單詞序列的BiLSTM層、用于解碼的CRF層和模型遷移過(guò)程中用到的詞適應(yīng)層。

圖1 TL-BiLSTM-CRF遷移學(xué)習(xí)模型

2.1 字詞結(jié)合的表示層

文本中的語(yǔ)義特征在命名實(shí)體識(shí)別任務(wù)中扮演著重要角色,這些語(yǔ)義特征為模型提供了上下文信息,從而使模型更好地推斷識(shí)別出實(shí)體類(lèi)型。本文利用開(kāi)源工具Glove[19]分別訓(xùn)練目標(biāo)域和源域生成具有語(yǔ)義信息的低維度稠密詞向量。

對(duì)于文本中的每個(gè)單詞w=[C1,C2,…,Cn],首先通過(guò)查詢(xún)字符向量表獲得每個(gè)字符的字符向量,由字符向量組成單詞的字符向量矩陣,利用BiLSTM獲得每個(gè)單詞的字符級(jí)別特征wchars∈Rd1,例如,每個(gè)單詞的大小寫(xiě)、拼寫(xiě)規(guī)律等。然后與詞向量wglove∈Rd2進(jìn)行拼接,最終得到字詞結(jié)合的向量表達(dá)式:w=[wglove,wchars]∈Rn,其中n=d1+d2。

2.2 BiLSTM層

LSTM通過(guò)門(mén)控機(jī)制將短期記憶和長(zhǎng)期記憶相結(jié)合,在一定程度上解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型梯度消失和梯度爆炸的問(wèn)題[20],能夠有效地提取上下文信息。LSTM單元結(jié)構(gòu)圖如圖2所示,其內(nèi)部結(jié)構(gòu)表達(dá)式為:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot?tanh(Ct)

(6)

圖2 LSTM網(wǎng)絡(luò)單元示意圖

相較于LSTM,BiLSTM能夠更加有效地提取上下文信息,可以將每個(gè)序列向前和向后表示為兩個(gè)獨(dú)立的隱藏狀態(tài),分別捕獲過(guò)去和將來(lái)的信息,其序列狀態(tài)可表示為:

(7)

2.3 CRF層

CRF是一種用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)的概率化模型。對(duì)于命名實(shí)體這類(lèi)序列標(biāo)注問(wèn)題,CRF層能夠通過(guò)分析相鄰標(biāo)簽之間的關(guān)系,加強(qiáng)標(biāo)簽語(yǔ)法的合理性和約束性。本文將CRF層接入BiLSTM層之后,進(jìn)行句子級(jí)的序列標(biāo)注,計(jì)算出一個(gè)全局最優(yōu)的標(biāo)記序列。

對(duì)于給定序列x={x1,x2,…,xn}和對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列y={y1,y2,…,yn},其得分計(jì)算式表示為:

(8)

式中:矩陣P為BiLSTM層的輸出結(jié)果,其大小為n×m;n代表單詞個(gè)數(shù);m代表標(biāo)簽的種類(lèi);Pij表示句子中第i個(gè)單詞的第j個(gè)標(biāo)簽概率。矩陣A是一個(gè)(m+2)×(m+2)的轉(zhuǎn)移矩陣,Ai,j表示由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移得分。

整個(gè)序列的得分由LSTM輸出的P和CRF的轉(zhuǎn)移矩陣A兩部分決定。隨后可以通過(guò)指數(shù)函數(shù)和歸一化處理將其轉(zhuǎn)換為概率,其計(jì)算式表示為:

(9)

式中:y′代表正確的標(biāo)記值。

在訓(xùn)練過(guò)程中采取極大似然估計(jì)原理對(duì)其進(jìn)行優(yōu)化,標(biāo)記序列為如下形式:

(10)

預(yù)測(cè)過(guò)程中通過(guò)Viterbi算法來(lái)求解最優(yōu)路徑,獲取預(yù)測(cè)結(jié)果最優(yōu)值:

(11)

2.4 詞適應(yīng)層

典型相關(guān)分析(CCA)算法是度量?jī)山M多維變量之間線性關(guān)系的多元統(tǒng)計(jì)方法,可以用來(lái)提取兩組數(shù)據(jù)間的共有特性[21]。其目標(biāo)就是為兩組觀測(cè)矩陣找到一對(duì)投影向量使得在投影空間內(nèi)的新特征空間達(dá)到最大相關(guān)程度。

a′=avb′=bw

(12)

投影向量v、w可以通過(guò)最大化相關(guān)性函數(shù)ρ(a′,b′)獲得:

(13)

(14)

得到的v、w可以線性投影整個(gè)詞匯表:

(15)

在詞適應(yīng)層中,通過(guò)CCA算法將源域和目標(biāo)域的詞向量彌合到同一空間向量中。

TL-BiLSTM-CRF遷移學(xué)習(xí)模型的訓(xùn)練過(guò)程如圖3所示。首先采用基于模型的遷移學(xué)習(xí)算法,使用源域數(shù)據(jù)訓(xùn)練構(gòu)建的基本模型,采用INIT模式參數(shù)初始化TL-BiLSTM-CRF遷移學(xué)習(xí)模型,調(diào)整并優(yōu)化所有層的權(quán)重。其次通過(guò)基于特征的遷移學(xué)習(xí)算法,構(gòu)建詞適應(yīng)層。目標(biāo)域數(shù)據(jù)通過(guò)詞適應(yīng)層彌合與源域詞向量空間差異。訓(xùn)練過(guò)程中對(duì)TL-BiLSTM-CRF進(jìn)行微調(diào)。

圖3 TL-BiLSTM-CRF遷移學(xué)習(xí)模型訓(xùn)練過(guò)程

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中源域數(shù)據(jù)集選擇的是在實(shí)體識(shí)別任務(wù)廣泛使用且公開(kāi)發(fā)表的CONLL 2003數(shù)據(jù)集[22]和OntoNotes-nw數(shù)據(jù)集[23]。目標(biāo)域的社交媒體語(yǔ)料庫(kù)Twitter數(shù)據(jù)集是從Archive Team中爬取下來(lái)的Twitter內(nèi)容。數(shù)據(jù)集結(jié)構(gòu)如表1所示。

表1 數(shù)據(jù)集

實(shí)驗(yàn)將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集三個(gè)部分,其中CONLL 2003數(shù)據(jù)集中訓(xùn)練集占語(yǔ)料總數(shù)的70%,測(cè)試集和驗(yàn)證集分別占數(shù)據(jù)的15%。OntoNotes-nw數(shù)據(jù)集中訓(xùn)練集、測(cè)試集和驗(yàn)證集分別占80%、5%和15%。

Twitter數(shù)據(jù)集中訓(xùn)練集占語(yǔ)料總數(shù)的80%,測(cè)試集和驗(yàn)證集分別占10%。語(yǔ)料詳細(xì)信息情況見(jiàn)表2。

表2 Twitter數(shù)據(jù)集分布

續(xù)表2

Dai等[24]研究工作表明語(yǔ)料采用BIOES的標(biāo)記效果要優(yōu)于BIO2方式,能夠更加清楚地表示和劃分語(yǔ)料中實(shí)體的邊界,因此,實(shí)驗(yàn)中采用了BIOES標(biāo)記方式。

實(shí)驗(yàn)中采用精確率P、召回率R和F1值三種評(píng)價(jià)指標(biāo)分別進(jìn)行評(píng)價(jià)。其中,F(xiàn)1值是精確率和召回率的加權(quán)調(diào)和平均,能夠綜合評(píng)價(jià)模型整體的性能。計(jì)算式分別表示為:

(16)

3.2 實(shí)驗(yàn)環(huán)境配置

本次實(shí)驗(yàn)在Linux操作系統(tǒng)下,采用TensorFlow框架的1.2版本,語(yǔ)言采用Python3.5。訓(xùn)練過(guò)程中利用隨機(jī)梯度下降法,在模型中加入Dropout層[25]來(lái)減少模型過(guò)擬合問(wèn)題。同時(shí),在驗(yàn)證集上使用early stop,當(dāng)驗(yàn)證集上的錯(cuò)誤率不再下降時(shí)提前停止迭代。詞向量維度設(shè)置為100,LSTM隱層向量維度為300,Dropout設(shè)置為0.5,early stop設(shè)置為10,學(xué)習(xí)率設(shè)置為0.005。實(shí)驗(yàn)過(guò)程中采用NVIDIA的1060Ti GPU進(jìn)行加速處理。

3.3 結(jié)果分析

為了驗(yàn)證TL-BiLSTM-CRF遷移學(xué)習(xí)模型的有效性和泛化性,對(duì)所提出模型進(jìn)行了兩個(gè)維度的實(shí)驗(yàn),分析驗(yàn)證模型性能。與現(xiàn)有工作對(duì)比,評(píng)估模型的性能。

3.3.1模型性能分析

為驗(yàn)證基于模型遷移學(xué)習(xí)方法和詞適應(yīng)層對(duì)模型的影響。根據(jù)所提TL-BiLSTM-CRF遷移學(xué)習(xí)模型得到了以下幾種模型變體:

1)BiLSTM-CRF(Non-transfer)。在本文模型上去掉了遷移學(xué)習(xí)相關(guān)的算法,用BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)提取特征,接入CRF層計(jì)算全局最優(yōu)的標(biāo)記序列。作為基本模型。

2)BiLSTM-CRF+INIT。在BiLSTM-CRF的基礎(chǔ)上,加入基于模型的遷移學(xué)習(xí)方法,在模型中通過(guò)INIT模式初始化目標(biāo)模型。此實(shí)驗(yàn)將OntoNotes-nw數(shù)據(jù)集在BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)上預(yù)訓(xùn)練模型,在目標(biāo)任務(wù)Twitter數(shù)據(jù)集上復(fù)用模型LSTM網(wǎng)絡(luò)組件,對(duì)LSTM參數(shù)進(jìn)行微調(diào),最后進(jìn)入特定領(lǐng)域的CRF層進(jìn)行標(biāo)簽轉(zhuǎn)移限制的學(xué)習(xí)。

3)BiLSTM-CRF+INIT+詞適應(yīng)層。在BiLSTM-CRF+INIT的基礎(chǔ)上加入詞適應(yīng)層,即本文構(gòu)建的TL-BiLSTM-CRF遷移學(xué)習(xí)模型。

(1)源域模型性能對(duì)遷移效果的影響。此實(shí)驗(yàn)探究了源域模型的性能對(duì)目標(biāo)域模型性能的影響,分別驗(yàn)證了在不同epoch下模型對(duì)Twitter數(shù)據(jù)集提升的影響。實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同epoch下模型對(duì)Twitter數(shù)據(jù)集F1值的影響

當(dāng)源域模型訓(xùn)練為10epoch時(shí),遷移的效果最好,F(xiàn)1值達(dá)到了64.87%。在源域模型訓(xùn)練為60epoch時(shí),模型出現(xiàn)了負(fù)遷移現(xiàn)象。究其原因,源域模型性能越高,則參數(shù)與源域數(shù)據(jù)集的關(guān)聯(lián)越大,可能會(huì)造成過(guò)擬合現(xiàn)象,此時(shí)不再適合對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行知識(shí)的傳遞。源域中F1值在前8輪中迅速增長(zhǎng),后面訓(xùn)練過(guò)程則增長(zhǎng)緩慢,說(shuō)明如果直接從源域前幾輪中進(jìn)行參數(shù)學(xué)習(xí),可以節(jié)約訓(xùn)練源域的時(shí)間,同時(shí)提升目標(biāo)域中的性能。

(2)Twitter數(shù)據(jù)集大小對(duì)遷移效果的影響。此實(shí)驗(yàn)主要是評(píng)估遷移學(xué)習(xí)在模型中提高目標(biāo)域中社交媒體命名實(shí)體識(shí)別性能的程度,量化目標(biāo)數(shù)據(jù)集大小對(duì)遷移效果的影響。在迭代次數(shù)為10epoch的情況下數(shù)據(jù)集大小對(duì)遷移性能的影響如圖5所示。

圖5 Twitter數(shù)據(jù)集大小對(duì)遷移效果的影響

相較于基本模型,BiLSTM-CRF+INIT和BiLSTM-CRF+INIT+詞適應(yīng)層通過(guò)對(duì)源域知識(shí)的遷移都提高了F1值,說(shuō)明目標(biāo)域可以從源域數(shù)據(jù)集中學(xué)到的特征進(jìn)行利用以提高目標(biāo)域的性能。通過(guò)對(duì)比BiLSTM-CRF+INIT和BiLSTM-CRF+INIT+詞適應(yīng)層可以看出,加入詞適應(yīng)層后F1值在不同比例訓(xùn)練集大小上都有進(jìn)一步提高。詞適應(yīng)層能夠彌合源域和目標(biāo)域詞向量空間差異,使其具有相同的特征空間,因此可以提高模型的命名實(shí)體識(shí)別性能。

隨著目標(biāo)數(shù)據(jù)集的增大,遷移提升效果會(huì)逐漸降低。當(dāng)使用目標(biāo)數(shù)據(jù)集的30%時(shí)(此30%對(duì)應(yīng)的是Twitter訓(xùn)練集大小的比例),遷移效果最佳,比基本模型F1值提高了10.21%。如果將目標(biāo)域中的所有訓(xùn)練集都用于訓(xùn)練,F(xiàn)1值也有3.06%的提升。

3.3.2對(duì)比實(shí)驗(yàn)

(1)CRF-PRED[26]。機(jī)器學(xué)習(xí)中序列標(biāo)注最為經(jīng)典的方法。采用開(kāi)源工具包CRFsuite—0.12建立模型。

(2)Rodriguez(2018)模型[26]。Rodriguez(2018)是一種基于模型的遷移學(xué)習(xí)算法,采用Pre-training方法,在源域數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),利用訓(xùn)練好的權(quán)值初始化神經(jīng)網(wǎng)絡(luò),并對(duì)目標(biāo)域模型進(jìn)行微調(diào),在社交媒體命名實(shí)體識(shí)別中取得了較好的性能。

(3)Lample(2016)模型[27]。Lample(2016)模型采用BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在命名實(shí)體識(shí)別任務(wù)中得到了廣泛的應(yīng)用。

(4)Yang(2017)模型[18]。Yang(2017)模型采用多任務(wù)學(xué)習(xí)的方式構(gòu)建了一個(gè)融合遷移學(xué)習(xí)的深度層級(jí)網(wǎng)絡(luò)模型,能夠緩解目標(biāo)領(lǐng)域標(biāo)注和內(nèi)容數(shù)據(jù)稀缺問(wèn)題,在社交媒體命名實(shí)體識(shí)別中達(dá)到了目前最優(yōu)的性能。

(5)TL-BiLSTM-CRF遷移學(xué)習(xí)模型。本文提出的一種基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型。表3中對(duì)比了與其他主流模型在Twitter數(shù)據(jù)集上的對(duì)比情況。

表3 Twitter數(shù)據(jù)集上F1值對(duì)比

從實(shí)驗(yàn)結(jié)果可以看出,TL-BiLSTM-CRF遷移學(xué)習(xí)模型召回率遠(yuǎn)遠(yuǎn)高于CRF-PRED,能夠避免手動(dòng)構(gòu)造特征模板等不足,實(shí)現(xiàn)了端到端的訓(xùn)練。

與Rodriguez(2018)模型相比,本文的TL-BiLSTM-CRF遷移學(xué)習(xí)模型在精確率、召回率、F1值均有所提高。實(shí)驗(yàn)表明基于特征、模型的遷移方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的TL-BiLSTM-CRF遷移學(xué)習(xí)模型比單獨(dú)基于模型的遷移學(xué)習(xí)算法的Rodriguez(2018)模型進(jìn)行社交媒體命名實(shí)體識(shí)別有更好的性能。

與Lample(2016)模型相比,TL-BiLSTM-CRF遷移學(xué)習(xí)模型在精確率、召回率、F1值均優(yōu)于Lample(2016)模型的實(shí)驗(yàn)結(jié)果,分別提升了2.56%、3.76%、3.45%。主要原因是TL-BiLSTM-CRF遷移學(xué)習(xí)模型通過(guò)遷移學(xué)習(xí)算法通過(guò)利用源域OntoNotes-nw數(shù)據(jù)集來(lái)提高模型性能,解決了目標(biāo)域數(shù)據(jù)集少的問(wèn)題。

TL-BiLSTM-CRF遷移學(xué)習(xí)模型優(yōu)于目前最好的Yang(2017)模型,F(xiàn)1值提高0.56%。Yang(2017)模型通過(guò)多任務(wù)學(xué)習(xí)的方式,每次訓(xùn)練都需要同時(shí)訓(xùn)練源域和目標(biāo)域的數(shù)據(jù)。尤其是當(dāng)源域數(shù)據(jù)很大時(shí),會(huì)額外增加訓(xùn)練的時(shí)間、消耗更多的資源。而TL-BiLSTM-CRF模型僅需在源域模型中訓(xùn)練一次,避免了Yang等的模型重復(fù)構(gòu)建模型的不足。

表4中分析了Twitter數(shù)據(jù)集中10種實(shí)體類(lèi)型的精確率、召回率、F1值情況,實(shí)驗(yàn)結(jié)果由十折交叉驗(yàn)證求取均值獲得。

表4 Twitter數(shù)據(jù)集上F1值對(duì)比不同類(lèi)型

續(xù)表4

可以看出:person類(lèi)、geo-loc類(lèi)、facility類(lèi)作為常規(guī)實(shí)體類(lèi)型其F1值相對(duì)較高;Product類(lèi)、tvshow類(lèi)、Movie類(lèi)的精確率高但召回率較低,究其原因是這類(lèi)命名實(shí)體結(jié)構(gòu)較為復(fù)雜,類(lèi)型長(zhǎng)度沒(méi)有限制、新詞更新速度較快且實(shí)體名稱(chēng)沒(méi)有統(tǒng)一的命名規(guī)范,故召回率相對(duì)較低;Musicartist類(lèi)的精確率、召回率、F1值均較低。通過(guò)分析標(biāo)注結(jié)果來(lái)看是由于Musicartist類(lèi)實(shí)體儲(chǔ)備較少且存在別名、縮略詞,例如測(cè)試集數(shù)據(jù)中的“30stm”是美國(guó)搖滾樂(lè)30 Seconds To Mars的簡(jiǎn)稱(chēng),模型未能識(shí)別。

本文利用公開(kāi)數(shù)據(jù)集WNUT16進(jìn)行實(shí)驗(yàn)驗(yàn)證模型的泛化能力。WNUT16數(shù)據(jù)集是國(guó)際計(jì)算語(yǔ)言學(xué)大會(huì)組織的關(guān)于用戶(hù)生成嘈雜文本命名實(shí)體測(cè)評(píng)數(shù)據(jù)集,數(shù)據(jù)集是從社交平臺(tái)、網(wǎng)絡(luò)論壇在線評(píng)論的嘈雜文本上整理。表5對(duì)比了提交模型中F1值前三名的CambridgeLTL模型、Talos模型、Akora模型,其F1值分別達(dá)到了52.41%、46.16%、44.77%;TL-BiLSTM-CRF模型F1值到達(dá)了53.11%,優(yōu)于CambridgeLTL。

表5 WNUT16數(shù)據(jù)集F1值對(duì)比

綜上所述,基于遷移學(xué)習(xí)的TL-BiLSTM-CRF通過(guò)INIT模式與詞適應(yīng)層的構(gòu)建,從源域數(shù)據(jù)集中學(xué)習(xí)到更多的知識(shí),提升了模型在社交評(píng)論領(lǐng)域中模型的性能。

4 結(jié) 語(yǔ)

針對(duì)社交評(píng)論命名實(shí)體任務(wù),本文提出的TL-Bi-LSTM-CRF遷移學(xué)習(xí)模型能夠充分利用BiLSTM網(wǎng)絡(luò)獲取單詞形態(tài)特征的字符向量,通過(guò)字詞結(jié)合的方式補(bǔ)充單一詞向量的不足,并且在遷移過(guò)程中加入詞適應(yīng)層,彌合了源域和目標(biāo)域詞向量空間的差異,進(jìn)一步提高了命名實(shí)體任務(wù)中社交評(píng)論實(shí)體識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,基于TL-BiLSTM-CRF遷移學(xué)習(xí)模型的命名實(shí)體識(shí)別在Twitter數(shù)據(jù)集上取得了性能上的提升,F(xiàn)1值為64.87%,優(yōu)于目前最好的模型。

TL-BiLSTM-CRF遷移學(xué)習(xí)模型在命名實(shí)體識(shí)別的處理中,通過(guò)深度學(xué)習(xí)和基于特征、模型的遷移學(xué)習(xí)算法的結(jié)合,能夠在不同的領(lǐng)域中學(xué)習(xí)構(gòu)建模型發(fā)揮重要的作用。相較于通用領(lǐng)域NER準(zhǔn)確率,特定領(lǐng)域NER還有很大的提升空間。下一步可以嘗試使用更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型并在消除目標(biāo)域與源域向量空間差異等方面開(kāi)展工作。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久国产精品国产自线拍| 亚洲日本一本dvd高清| 激情综合激情| 亚洲高清中文字幕| 免费三A级毛片视频| jijzzizz老师出水喷水喷出| 一区二区三区在线不卡免费| 伊人大杳蕉中文无码| 日韩欧美视频第一区在线观看| 免费在线不卡视频| 无码精品一区二区久久久| 国产精品主播| 国产日韩精品一区在线不卡| 国产浮力第一页永久地址| 国产91丝袜在线播放动漫 | 国产区人妖精品人妖精品视频| 亚洲中文字幕精品| 成人一级免费视频| 看av免费毛片手机播放| 四虎成人免费毛片| 国产一区二区免费播放| 婷婷综合在线观看丁香| 激情無極限的亚洲一区免费| 伊人激情久久综合中文字幕| 国产精品亚洲一区二区三区z| 亚洲欧美成人在线视频| 五月激情综合网| 免费观看成人久久网免费观看| 欧美成人国产| 亚洲色图在线观看| 欧美综合中文字幕久久| 国产AV毛片| 久久99热66这里只有精品一| 国产精品hd在线播放| 亚洲天堂自拍| 成人在线不卡| 少妇被粗大的猛烈进出免费视频| 免费又黄又爽又猛大片午夜| 永久免费AⅤ无码网站在线观看| 97超碰精品成人国产| 午夜久久影院| 亚洲av无码专区久久蜜芽| 欧美综合一区二区三区| 91在线播放免费不卡无毒| 日韩欧美91| 国产成人毛片| 九九热精品免费视频| 国产地址二永久伊甸园| 亚洲欧美一区二区三区图片| 国产精品一区二区久久精品无码| 午夜毛片免费看| 国产精品免费入口视频| 国产成人综合网在线观看| 色综合久久88| 精品国产福利在线| 欧洲av毛片| 欧美人在线一区二区三区| 欧美一级99在线观看国产| 91成人在线观看| 国产麻豆aⅴ精品无码| 国产黄色免费看| 久久伊伊香蕉综合精品| 狠狠色香婷婷久久亚洲精品| 亚洲啪啪网| 亚洲aⅴ天堂| 国产免费黄| 久久99国产综合精品1| 99九九成人免费视频精品| 国产在线视频欧美亚综合| 毛片免费高清免费| www亚洲天堂| 精品国产自在现线看久久| 免费在线一区| 77777亚洲午夜久久多人| …亚洲 欧洲 另类 春色| 57pao国产成视频免费播放| 国产精品永久在线| 国产又粗又猛又爽视频| 欧美亚洲一区二区三区导航| 91九色最新地址| 亚洲αv毛片| 欧美成人午夜视频免看|