999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取

2024-04-23 10:03:20吳海鵬錢育蓉冷洪勇
計(jì)算機(jī)工程 2024年4期
關(guān)鍵詞:語義模態(tài)文本

吳海鵬,錢育蓉,3,冷洪勇

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆維吾爾自治區(qū)信號檢測與處理重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊830046;3.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830046)

0 引言

關(guān)系抽取是知識圖譜構(gòu)建的基本任務(wù),也是自然語言處理(NLP)的重要任務(wù)之一,旨在從給定句子中抽取出實(shí)體間的關(guān)系。傳統(tǒng)的關(guān)系抽取方法主要是純文本的單模態(tài)方法,只利用文本信息進(jìn)行關(guān)系抽取。傳統(tǒng)關(guān)系抽取方法通常從一段文本中提取出指定的關(guān)系三元組,具體表現(xiàn)形式為三元組,其中,E1與E2分別是文本中的頭實(shí)體與尾實(shí)體,r表示頭實(shí)體與尾實(shí)體間的關(guān)系。

近些年,社交網(wǎng)絡(luò)發(fā)展迅速,單模態(tài)的關(guān)系抽取方法已經(jīng)無法滿足海量多模態(tài)數(shù)據(jù)抽取的需求,因此多模態(tài)關(guān)系抽取技術(shù)應(yīng)運(yùn)而生。多模態(tài)關(guān)系抽取任務(wù)的輸入為一個(gè)多模態(tài)實(shí)例L,它包含一個(gè)文本T和一個(gè)與文本關(guān)聯(lián)的圖像I。文本T由一個(gè)單詞序列組成,即T={w1,w2,…,wi,…,wn},其中,wi表示第i個(gè)單詞。在文本T中,有2個(gè)被標(biāo)記的實(shí)體E1和E2,任務(wù)的目標(biāo)是利用文本T以及圖像I的信息預(yù)測實(shí)體E1和E2之間的關(guān)系類型r。

現(xiàn)有的多模態(tài)關(guān)系抽取方法利用圖像數(shù)據(jù)作為文本數(shù)據(jù)的補(bǔ)充,以輔助模型進(jìn)行關(guān)系抽取,但實(shí)際上圖像中往往存在與文本無關(guān)的冗余信息,而在現(xiàn)有方法下這些冗余信息最終會(huì)影響關(guān)系抽取的結(jié)果。

為了解決這一問題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型。與僅計(jì)算圖像到文本的單向注意力的現(xiàn)有模型不同,該模型利用雙向注意力機(jī)制計(jì)算圖像到文本與文本到圖像2個(gè)方向上的注意力分布。這樣圖像中與文本更相關(guān)的物體將被賦予較高的權(quán)重,而與文本無關(guān)的冗余信息被賦予較低的權(quán)重。通過該模型可以在多模態(tài)關(guān)系抽取中削弱冗余信息的影響,從而提高抽取結(jié)果的準(zhǔn)確性,并且在公開的用于神經(jīng)關(guān)系提取的多模式數(shù)據(jù)集(MNRE)[1]上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

1 相關(guān)工作

1.1 多模態(tài)關(guān)系抽取

關(guān)系抽取作為知識圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)[2],長期以來都是學(xué)者們關(guān)注和研究的重要領(lǐng)域。早期的關(guān)系抽取方法主要是基于統(tǒng)計(jì)學(xué)[3],近年來隨著神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的興起,大量基于深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的方法開始出現(xiàn)。

基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法起初多數(shù)依賴于外部NLP工具[4],容易受到NLP工具帶來的錯(cuò)誤影響,學(xué)者們對此進(jìn)行了大量研究。WANG等[5]提出一個(gè)基于多級注意力卷積神經(jīng)網(wǎng)絡(luò)的抽取模型,該模型在不使用NLP工具的前提下依然取得了較好的效果。ZHANG等[6]提出一種基于長短期記憶(LSTM)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型可以有效地從文本中挑選相關(guān)內(nèi)容而摒棄無關(guān)內(nèi)容,從而提升了抽取效果。ZENG等[7]利用多示例學(xué)習(xí)有效地解決了抽取過程中的噪聲問題。WEI等[8]提出一個(gè)重疊式的指針網(wǎng)絡(luò)較好地解決了關(guān)系抽取中存在的實(shí)體重疊問題。SOARES等[9]通過在來自Transformer的雙向編碼器表示(BERT)預(yù)訓(xùn)練過程中額外添加匹配空白(MTB)任務(wù),有效地提升了關(guān)系抽取性能。

雖然以上方法在面向純文本的關(guān)系抽取任務(wù)上都取得了良好的效果,但面對多模態(tài)數(shù)據(jù)時(shí)卻往往因?yàn)槲谋局行畔⑷笔Ф憩F(xiàn)不佳。

已有抽取方法主要是針對純文本信息進(jìn)行抽取,一般只利用了文本的單模態(tài)信息,隨著社交平臺的盛行,面對大量的多模態(tài)信息,面向純文本的單模態(tài)抽取方法已經(jīng)無法滿足社交媒體等多模態(tài)場景下的關(guān)系抽取需求[10-12],并且多模態(tài)關(guān)系抽取數(shù)據(jù)集也極為缺乏。為此,ZHENG等[1]提出MNRE數(shù)據(jù)集以解決多模態(tài)關(guān)系抽取數(shù)據(jù)集匱乏的問題,之后ZHENG等[10]又提出高效圖對齊的多模式關(guān)系抽取(MEGA)模型。該模型將圖像信息視為對文本信息的補(bǔ)充,利用視覺信息輔助模型進(jìn)行關(guān)系抽取并利用注意力機(jī)制對齊語義,在獲得對齊后的文本表示后再進(jìn)行關(guān)系抽取。

MEGA在多模態(tài)數(shù)據(jù)集上的抽取效果明顯優(yōu)于傳統(tǒng)單模態(tài)抽取模型,然而存在信息冗余問題,圖像中與文本語義無關(guān)的物體也被學(xué)習(xí)到對齊后的文本表示中,對抽取結(jié)果造成干擾。為解決這一問題,本文利用雙向注意力機(jī)制緩解無關(guān)信息對抽取結(jié)果的干擾,進(jìn)一步提升了關(guān)系抽取效果。

1.2 雙向注意力機(jī)制

雙向注意力機(jī)制由SEO等[13]提出,之后被廣泛應(yīng)用于機(jī)器閱讀理解領(lǐng)域。傳統(tǒng)的注意力機(jī)制只通過查詢項(xiàng)(query)到鍵(key)進(jìn)行單向查詢,從而得出匯總值(value)所需的權(quán)重,建模的是查詢項(xiàng)到鍵之間的單向關(guān)系,而雙向注意力機(jī)制通過計(jì)算雙向查詢建模了查詢項(xiàng)與鍵之間的雙向關(guān)系。在很多場景下,查詢項(xiàng)與鍵往往是2種平行的數(shù)據(jù),如多模態(tài)場景中平行的圖像和文本、平行的語音和文本等,在這樣的情況下,另一個(gè)方向上的查詢,即鍵到查詢項(xiàng)的查詢也具有實(shí)際含義。近年來,學(xué)者們開始探索將雙向注意力機(jī)制應(yīng)用于相關(guān)領(lǐng)域。LI等[14]將雙向注意力機(jī)制應(yīng)用于神經(jīng)網(wǎng)絡(luò)強(qiáng)制對齊,實(shí)驗(yàn)結(jié)果表明雙向注意力機(jī)制應(yīng)用在2種平行的數(shù)據(jù)上能夠提升任務(wù)效果。黃宏展等[15]將雙向注意力機(jī)制引入多模態(tài)情感分析任務(wù),實(shí)驗(yàn)結(jié)果證明了雙向注意力機(jī)制在多模態(tài)場景下可以更充分地利用2種模態(tài)間的交互信息。

根據(jù)以上研究,本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),以緩解無關(guān)信息對抽取結(jié)果的干擾,使模型能更準(zhǔn)確地抽取關(guān)系。

2 基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型

基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型由特征表示層、多模態(tài)特征對齊層、多模態(tài)特征融合層和輸出層4個(gè)部分組成,如圖1所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。特征表示層分為語義特征表示層和結(jié)構(gòu)特征表示層,通過BERT模型和依存句法樹分別提取文本的語義特征表示和文本的結(jié)構(gòu)特征表示,并利用一個(gè)以Faster R-CNN為骨干網(wǎng)絡(luò)的場景圖生成模型同時(shí)提取圖像的語義特征與結(jié)構(gòu)特征。多模態(tài)特征對齊層分為語義特征對齊層與結(jié)構(gòu)特征對齊層,分別進(jìn)行結(jié)構(gòu)特征的對齊與語義特征的對齊。多模態(tài)特征融合層將結(jié)構(gòu)特征與語義特征整合成對齊后的視覺特征,再將文本中實(shí)體的語義表示與對齊后的視覺表示連接起來形成文本與圖像的融合特征。輸出層對融合特征計(jì)算所有關(guān)系分類的概率分?jǐn)?shù)并輸出預(yù)測關(guān)系。

圖1 基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型結(jié)構(gòu)Fig.1 Structure of multimodal relation extraction model based on bidirectional attention mechanism

2.1 特征表示層

2.1.1 語義特征表示層

MNRE數(shù)據(jù)集中每條數(shù)據(jù)都包含了一段文本描述和一張與其對應(yīng)的圖片。對數(shù)據(jù)中的文本信息,采用BERT模型作為編碼器提取特征,具體步驟如下:

1)將文本信息轉(zhuǎn)換為一個(gè)token序列s1,在序列頭部增加“[CLS]”標(biāo)記,在序列尾部增加“[SEP]”標(biāo)記。

3)通過對數(shù)據(jù)集的觀察以及對實(shí)驗(yàn)效果的權(quán)衡取n=128作為token序列的最大長度,用“[PAD]”標(biāo)記將小于最大長度n的輸入序列填充到最大長度n。

4)通過設(shè)置segment序列區(qū)分序列中的有效部分與填充部分,segment序列可以表示為s2=(1,1,…,1,…,0,0),數(shù)字“1”表示有效部分,數(shù)字“0”表示填充部分。

5)通過詞嵌入與字符嵌入相結(jié)合來表示輸入文本中的詞,以充分獲取文本特征。

(1)

為了獲取視覺信息,采用對象級視覺特征(OLVF)作為圖像信息表示[16],OLVF是一種自下而上的圖像信息表示方式,通過提取視覺對象表示獲取輸入圖像的語義特征。為了提取圖片中的視覺對象,利用以Faster R-CNN為骨干網(wǎng)絡(luò)的場景圖生成模型,將圖像輸入場景圖生成模型獲取輸入圖像的場景圖。在場景圖中包含多個(gè)節(jié)點(diǎn)以及與節(jié)點(diǎn)相關(guān)的邊,節(jié)點(diǎn)包含視覺對象的特征,而邊則表示不同視覺對象之間的視覺關(guān)系。

輸入圖像被表示為所提取的場景圖中的一組區(qū)域視覺特征,其中每個(gè)區(qū)域視覺特征代表圖像中的一個(gè)視覺對象,并以一個(gè)維度為dy的向量yi來表示。為檢測到的視覺對象設(shè)置一個(gè)置信度閾值,若大于該閾值則將其視為視覺對象,該閾值的具體取值由深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。為盡量減少圖像中無關(guān)對象對抽取結(jié)果的干擾,取置信度較大的前m個(gè)視覺對象作為圖像的視覺特征,通過對實(shí)驗(yàn)效果的觀察,在實(shí)驗(yàn)中取m=10能取得較好的效果。最后,輸入圖像被轉(zhuǎn)換為矩陣Y,若圖像中檢測到的視覺對象數(shù)量少于m,則通過零填充將矩陣Y擴(kuò)充到最大尺寸m,如式(2)所示:

Y= [y1,y2,…,ym]m×dy

(2)

2.1.2 結(jié)構(gòu)特征表示層

在以往的工作中,句子的結(jié)構(gòu)(如依存句法樹)能為關(guān)系抽取提供重要信息[17],因此利用依存句法樹和場景圖生成模型分別為輸入文本和圖像生成2個(gè)單向圖,以提供協(xié)助多模態(tài)關(guān)系抽取的結(jié)構(gòu)特征信息。

依存句法樹是一種表示詞與詞之間關(guān)系的結(jié)構(gòu),依存句法樹能夠?yàn)殛P(guān)系抽取提供重要信息,句子中2個(gè)詞之間對應(yīng)的依賴可以被表示為如式(3)所示的依存關(guān)系三元組:

Rdependency=(wg,rtype,wd)

(3)

其中:wg是支配詞;wd是從屬詞;rtype表示從屬詞對支配詞的修飾關(guān)系。使用ELMo模型[18]作為句法樹提取工具,獲取輸入文本的依存句法樹及對應(yīng)的依存關(guān)系三元組。生成的依存樹的圖表示記作G1,如式(4)所示:

G1=(V1,E1)

(4)

其中:V1是圖中點(diǎn)的集合,代表句子中的支配詞和從屬詞;E1是圖中邊的集合,代表2個(gè)詞之間的依賴關(guān)系。

通過場景圖生成模型獲取輸入圖像中的m個(gè)視覺對象以及視覺對象間的視覺關(guān)系,由于視覺對象間的關(guān)系都是單向的,因此類似于依賴樹,在圖像中的每個(gè)視覺對象也會(huì)被它的關(guān)聯(lián)對象所指向,最后獲得輸入圖像的圖表示G2。G2由圖像中檢測到的視覺對象及視覺對象間的關(guān)系組成,如式(5)所示:

G2=(V2,E2)

(5)

其中:V2是圖中點(diǎn)的集合,代表圖像中檢測到的視覺對象;E2是圖中邊的集合,代表視覺對象間的視覺關(guān)系。

通過生成圖G1和G2得到輸入文本和圖片的結(jié)構(gòu)特征信息。

2.2 多模態(tài)特征對齊層

為了充分利用文本與圖像間的交互信息,從語義和結(jié)構(gòu)2個(gè)方面對齊多模態(tài)特征,利用雙向注意力機(jī)制對齊語義特征,并利用節(jié)點(diǎn)間的相似性對圖G1和G2進(jìn)行結(jié)構(gòu)對齊。

2.2.1 語義對齊

現(xiàn)有的多模態(tài)關(guān)系抽取模型主要依賴注意力機(jī)制,實(shí)現(xiàn)圖像到文本方向的單向?qū)R,以獲取對齊后的文本語義表示。然而,實(shí)際上圖像中往往存在與文本無關(guān)的冗余信息。例如,在圖1中,輸入圖像中檢測到的視覺對象“cup”顯然與對應(yīng)文本無關(guān),但在單向?qū)R過程中,對象“cup”的信息也會(huì)被學(xué)習(xí)到對齊后的文本表示中,從而影響關(guān)系抽取的準(zhǔn)確性。

為解決這一問題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,通過同時(shí)建立圖像到文本方向和文本到圖像方向的雙向?qū)R,通過賦予圖像中冗余信息較低的權(quán)重來降低其對文本語義表示的影響。這種雙向注意力機(jī)制有助于獲取包含雙向語義信息的文本語義表示,從而提高了關(guān)系抽取的準(zhǔn)確性。

雙向注意力機(jī)制的輸入由query、key、value組成,其中,query為輸入圖像的語義表示,key和value為輸入文本的語義表示。為方便計(jì)算,將query、key和value的特征維度均設(shè)置為da,雙向注意力機(jī)制計(jì)算過程如圖2所示。

圖2 雙向注意力機(jī)制計(jì)算過程Fig.2 Calculation process of bidirectional attention mechanism

在圖2中,K1和V1為query矩陣Q∈m×da,K2為key矩陣K∈n×da,V2為value矩陣V∈n×da,m為圖像中檢測到的視覺對象的最大數(shù)量,n為文本最大長度。

首先,計(jì)算匹配矩陣A∈n×m,Ai,j表示輸入文本中第i個(gè)字與輸入圖像中第j個(gè)視覺對象間的相似性,匹配矩陣計(jì)算公式如式(6)所示:

A=Q×KT

(6)

通過匹配矩陣A計(jì)算圖像到文本方向與文本到圖像方向2個(gè)方向的注意力權(quán)重。圖像到文本方向的注意力權(quán)重W12的計(jì)算如式(7)所示:

W12=Softmax(A)

(7)

文本到圖像方向的注意力權(quán)重W21的計(jì)算如式(8)所示:

W21=Softmax(AT)

(8)

然后,計(jì)算得到圖像到文本方向上對齊后的文本語義表示O1和文本到圖像方向上對齊后的圖像語義表示O2,如式(9)所示:

(9)

其中:O1∈n×da;O2∈m×da。

最后,通過式(10)計(jì)算得到對齊后的語義權(quán)重β。

(10)

其中:da為文本語義表示O1與圖像語義表示O2的特征維度。

相較于現(xiàn)有的單向?qū)R機(jī)制,所提出的雙向?qū)R機(jī)制能夠增強(qiáng)文本語義表示的準(zhǔn)確性,從而提升模型的性能。

2.2.2 圖結(jié)構(gòu)對齊

利用節(jié)點(diǎn)信息來提取用于結(jié)構(gòu)對齊的多模態(tài)圖表示的結(jié)構(gòu)相似性。從2個(gè)圖集合G1(V1,E1)與G2(V2,E2)中提取節(jié)點(diǎn)集合V1與V2,通過計(jì)算2個(gè)圖集合間的節(jié)點(diǎn)相似性以獲取2個(gè)圖的結(jié)構(gòu)相似性。具體計(jì)算步驟如下:

1)令集合U為節(jié)點(diǎn)集合V1、V2的并集,如式(11)所示:

U=V1∪V2

(11)

2)為提取節(jié)點(diǎn)間的結(jié)構(gòu)相似性,對集合U中的每個(gè)節(jié)點(diǎn)u,計(jì)算其k跳鄰居的出度和入度,如式(12)、式(13)所示:

(12)

(13)

其中:k∈[1,K],K是圖直徑;δ∈(0,1]是折扣因子。

3)通過式(14)計(jì)算集合U中節(jié)點(diǎn)m∈V1和節(jié)點(diǎn)n∈V2之間的相似性:

(14)

4)計(jì)算2個(gè)圖之間的節(jié)點(diǎn)相似度,如式(15)所示,在計(jì)算完成后得到包含了結(jié)構(gòu)相似性特征的矩陣α。

α=(αi,j)V1×V2

(15)

其中:αi,j表示文本中第i個(gè)詞與圖片中第j個(gè)視覺對象間的結(jié)構(gòu)相似性。

采用圖結(jié)構(gòu)對齊方法來捕捉文本與圖像之間的結(jié)構(gòu)相似性。通過計(jì)算2個(gè)圖集合間的節(jié)點(diǎn)相似性,能夠獲取2個(gè)圖的結(jié)構(gòu)相似性。這種方法有助于模型更好地捕捉多模態(tài)數(shù)據(jù)中的關(guān)系信息。

2.3 多模態(tài)特征融合層

為充分利用對齊的語義信息β與結(jié)構(gòu)信息α,首先,利用式(16)整合對齊信息,以獲取對齊后的視覺特征Y*。

Y*=(αT+β)V=αTV+YS

(16)

其中:V是視覺特征表示,通過整合語義對齊信息與結(jié)構(gòu)對齊信息,由文本引導(dǎo)的視覺特征最終表示為矩陣Y*∈m×da;YS代表經(jīng)過語義對齊處理后得到的視覺特征。

然后,將視覺對象特征整合為向量表示,作為多模態(tài)信息融合的視覺信息表示,如式(17)所示:

(17)

(18)

(19)

在多模態(tài)特征融合層中,通過整合對齊的語義信息與結(jié)構(gòu)信息,得到了對齊后的視覺特征表示。將視覺對象特征整合為向量表示,并與文本中的實(shí)體表示拼接,以獲取最終的多模態(tài)特征表示。這種融合方法有效地將視覺信息和文本信息相結(jié)合,有助于捕捉多模態(tài)數(shù)據(jù)中的關(guān)聯(lián)信息,進(jìn)而提高關(guān)系抽取的準(zhǔn)確性和模型性能。

2.4 輸出層

如式(20)所示,輸出層使用一個(gè)多層感知機(jī)(MLP)作為分類器來預(yù)測關(guān)系類別,并輸出各個(gè)關(guān)系對應(yīng)的分類概率。

poutput=Softmax(MLP(z))

(20)

其中:poutput∈nr表示nr個(gè)預(yù)定義關(guān)系的分類概率。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)通過BERT模型初始化文本語義表示,特征維度dx為768,該取值是基于BERT預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)設(shè)置,已被證明在各種自然語言處理任務(wù)中能夠有效地學(xué)習(xí)文本特征。在場景圖中提取的視覺對象的特征維度dy為4 096,該取值是基于Faster R-CNN模型的設(shè)置,已被證明在各種視覺任務(wù)中能夠有效地檢測和提取目標(biāo)對象的特征。語義對齊維度da為1 536,該維度是對文本和視覺特征進(jìn)行整合的需要,使得多模態(tài)特征能夠在相同的語義空間中進(jìn)行對齊和融合。通過對數(shù)據(jù)集的觀察和實(shí)驗(yàn)效果的權(quán)衡,將token序列的最大長度n設(shè)置為128,經(jīng)實(shí)驗(yàn)驗(yàn)證,將場景圖視覺對象最大數(shù)量m設(shè)置為10能夠取得較好的效果。模型采用AdamW優(yōu)化器訓(xùn)練目標(biāo)函數(shù),經(jīng)實(shí)驗(yàn)驗(yàn)證,將初始學(xué)習(xí)率設(shè)置為0.000 02和批量大小設(shè)置為10能夠在訓(xùn)練速度和模型性能之間達(dá)到較好的平衡。本文模型在NVIDIA RTX 3060顯卡上進(jìn)行訓(xùn)練。

3.2 數(shù)據(jù)集

目前,關(guān)于多模態(tài)關(guān)系抽取任務(wù)的相關(guān)研究較少,完全公開的數(shù)據(jù)集僅有MNRE數(shù)據(jù)集,本文所有實(shí)驗(yàn)均在MNRE數(shù)據(jù)集上進(jìn)行。MNRE數(shù)據(jù)集原始數(shù)據(jù)來源于多模態(tài)命名實(shí)體識別數(shù)據(jù)集Twitter15[19]與Twitter17[20],以及一些從推特上爬取的數(shù)據(jù)。ZHENG等[1]通過人工標(biāo)記實(shí)體對間的關(guān)系并濾除原始數(shù)據(jù)中的部分錯(cuò)誤樣本,構(gòu)建了MNRE數(shù)據(jù)集。MNRE數(shù)據(jù)集包括音樂、運(yùn)動(dòng)、社會(huì)事件等主題,包含15 848個(gè)樣本、9 201張圖片與23種預(yù)定義的關(guān)系。

3.3 評價(jià)指標(biāo)

關(guān)系抽取工作的最終效果評價(jià)體系是在自動(dòng)內(nèi)容抽取(ACE)會(huì)議上提出的,以精確率(P)、召回率(R)及F1值(F1)為衡量指標(biāo),其計(jì)算公式如下:

(21)

(22)

(23)

其中:NTP表示被正確預(yù)測為關(guān)系r的樣本數(shù);NFP表示被錯(cuò)誤預(yù)測為關(guān)系r的樣本數(shù);NFN表示被錯(cuò)誤預(yù)測為其他關(guān)系的樣本數(shù)。

3.4 對比模型

為驗(yàn)證所提模型的有效性,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型進(jìn)行對比實(shí)驗(yàn),對比模型介紹如下:

1)分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)模型[7]:是一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型,利用外部知識圖自動(dòng)標(biāo)記包含相同實(shí)體的句子,利用文本信息進(jìn)行關(guān)系抽取。

2)MTB模型[9]:是一種基于BERT的預(yù)訓(xùn)練關(guān)系抽取模型,利用文本信息進(jìn)行關(guān)系抽取。

3)統(tǒng)一多模態(tài)Transformer(UMT)模型[21]:將Transformer應(yīng)用于多模態(tài)場景,利用圖文信息進(jìn)行關(guān)系抽取。

4)統(tǒng)一多模態(tài)圖融合(UMGF)模型[22]:利用圖文信息進(jìn)行關(guān)系抽取。

5)自適應(yīng)共同注意力的預(yù)訓(xùn)練關(guān)系抽取模型(AdapCoAtt-BERT)[23]:設(shè)計(jì)多模態(tài)場景下的共同注意力網(wǎng)絡(luò),利用圖文信息進(jìn)行關(guān)系抽取。

6)視覺預(yù)訓(xùn)練關(guān)系抽取模型(VisualBERT)[24]:是基于BERT預(yù)訓(xùn)練的多模態(tài)模型,利用圖文信息進(jìn)行關(guān)系抽取。

7)視覺-語言預(yù)訓(xùn)練關(guān)系抽取模型(ViLBERT)[25]:擴(kuò)展了BERT以聯(lián)合表示圖像和文本,利用圖文信息進(jìn)行關(guān)系抽取。

8)基于高效圖對齊的多模態(tài)關(guān)系抽取(MEGA)模型[1]:利用圖文信息進(jìn)行關(guān)系抽取。

3.5 結(jié)果分析

將所提模型與8個(gè)基準(zhǔn)模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

表1 在MNRE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on the MNRE dataset %

由表1的實(shí)驗(yàn)結(jié)果可以看出,多模態(tài)關(guān)系抽取模型一般優(yōu)于單模態(tài)模型,這是因?yàn)槎嗄B(tài)模型可以利用圖像信息作為文本信息的補(bǔ)充,得到更豐富的語義信息再進(jìn)行關(guān)系抽取。通過表1中標(biāo)注的最優(yōu)指標(biāo)值可以得知:所提模型較單模態(tài)關(guān)系抽取模型MTB的F1值提升了6.36個(gè)百分點(diǎn);所提模型較表現(xiàn)最好的多模態(tài)關(guān)系抽取模型MEGA的F1值提升了0.91個(gè)百分點(diǎn),這一提升歸功于所提模型采用雙向注意力機(jī)制來對齊多模態(tài)語義特征,使得模型能夠更有效地捕捉文本和圖像之間的相互依賴關(guān)系,從而提高關(guān)系抽取的準(zhǔn)確性;所提模型相較于其他多模態(tài)關(guān)系抽取模型,在捕捉圖像和文本間關(guān)聯(lián)信息方面更加準(zhǔn)確和高效。

3.6 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證雙向注意力機(jī)制的有效性,在MNRE數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),其中,-Biatt表示將所提模型中的雙向注意力機(jī)制替換為普通的單向注意力機(jī)制,-Att表示不使用注意力機(jī)制對齊圖像文本特征,只將圖像特征與文本特征直接相連作為語義特征。消融實(shí)驗(yàn)結(jié)果如表2所示,在將雙向注意力機(jī)制替換為單向注意力機(jī)制后模型表現(xiàn)明顯下降,在去掉注意力機(jī)制之后,模型表現(xiàn)進(jìn)一步下降,從而驗(yàn)證了雙向注意力機(jī)制能夠有效地捕捉圖像和文本間的關(guān)聯(lián)信息。

表2 消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment %

4 結(jié)束語

本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),利用雙向注意力機(jī)制降低了圖像中冗余信息對關(guān)系抽取的影響,進(jìn)一步提升了關(guān)系抽取效果。實(shí)驗(yàn)結(jié)果表明,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型相比,所提模型在精確率、召回率、F1值3項(xiàng)指標(biāo)上均表現(xiàn)出明顯的優(yōu)勢,驗(yàn)證了所提模型的有效性。在未來的工作中,將考慮把一些傳統(tǒng)關(guān)系抽取模型引入多模態(tài)關(guān)系抽取任務(wù)以更充分地挖掘多模態(tài)語義信息,以不斷提升多模態(tài)關(guān)系抽取的性能,為相關(guān)領(lǐng)域的研究和應(yīng)用提供有力支持。

猜你喜歡
語義模態(tài)文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
認(rèn)知范疇模糊與語義模糊
由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩免费中文字幕| 亚洲成人在线网| 亚洲免费黄色网| 精品伊人久久久久7777人| 国产视频入口| 日韩精品高清自在线| 中文字幕亚洲精品2页| 国产在线小视频| 尤物成AV人片在线观看| 22sihu国产精品视频影视资讯| 国产成人一区免费观看| 久久婷婷六月| 日韩中文无码av超清| 青青青视频蜜桃一区二区| 亚洲国产精品久久久久秋霞影院| 精品少妇人妻一区二区| 亚洲国产成人综合精品2020 | 中文字幕日韩丝袜一区| 日韩高清无码免费| 91亚洲影院| 97视频免费在线观看| 亚洲视频色图| 精品少妇三级亚洲| 国产特一级毛片| 亚洲热线99精品视频| 98超碰在线观看| 午夜电影在线观看国产1区| 婷婷亚洲视频| 亚洲高清国产拍精品26u| 久久6免费视频| 亚洲国产高清精品线久久| 久久窝窝国产精品午夜看片| 国产网友愉拍精品| 精品人妻系列无码专区久久| 欧美国产精品不卡在线观看| 一级黄色网站在线免费看| 88av在线播放| 国产人成乱码视频免费观看| 国产97公开成人免费视频| 一本大道视频精品人妻 | 一区二区三区国产精品视频| 一本大道香蕉中文日本不卡高清二区| 中文字幕资源站| 久操线在视频在线观看| 国产精品久久久久久久久久98| 亚洲无码高清视频在线观看| 欧美人在线一区二区三区| 国产精品3p视频| 国产91高跟丝袜| a欧美在线| 国产va欧美va在线观看| 91久久性奴调教国产免费| 亚洲精品久综合蜜| 成人国产精品网站在线看| 91毛片网| 国产成人一区二区| 日本午夜精品一本在线观看| 日本少妇又色又爽又高潮| 五月婷婷综合色| 人人91人人澡人人妻人人爽| 国产视频一区二区在线观看| 91精品国产自产在线观看| 亚洲精品第五页| 欧美日韩亚洲国产主播第一区| 青青久视频| 亚洲精品国产自在现线最新| 国产产在线精品亚洲aavv| 日韩欧美视频第一区在线观看| 亚洲欧洲天堂色AV| 福利在线不卡| 9啪在线视频| 国产精品亚洲专区一区| 久久久久中文字幕精品视频| 免费99精品国产自在现线| 国产免费a级片| 熟妇丰满人妻| 天天婬欲婬香婬色婬视频播放| 午夜精品久久久久久久无码软件| 天堂在线www网亚洲| 亚洲婷婷在线视频| 日韩亚洲综合在线| 亚洲国产精品日韩av专区|