999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖文語義增強(qiáng)的多模態(tài)命名實(shí)體識別方法

2024-07-31 00:00:00徐璽王海榮王彤馬赫
計算機(jī)應(yīng)用研究 2024年6期

摘 要:為了解決多模態(tài)命名實(shí)體識別方法中存在的圖文語義缺失、多模態(tài)表征語義不明確等問題,提出了一種圖文語義增強(qiáng)的多模態(tài)命名實(shí)體識別方法。其中,利用多種預(yù)訓(xùn)練模型分別提取文本特征、字符特征、區(qū)域視覺特征、圖像關(guān)鍵字和視覺標(biāo)簽,以全面描述圖文數(shù)據(jù)的語義信息;采用Transformer和跨模態(tài)注意力機(jī)制,挖掘圖文特征間的互補(bǔ)語義關(guān)系,以引導(dǎo)特征融合,從而生成語義補(bǔ)全的文本表征和語義增強(qiáng)的多模態(tài)表征;整合邊界檢測、實(shí)體類別檢測和命名實(shí)體識別任務(wù),構(gòu)建了多任務(wù)標(biāo)簽解碼器,該解碼器能對輸入特征進(jìn)行細(xì)粒度語義解碼,以提高預(yù)測特征的語義準(zhǔn)確性;使用這個解碼器對文本表征和多模態(tài)表征進(jìn)行聯(lián)合解碼,以獲得全局最優(yōu)的預(yù)測標(biāo)簽。在Twitter-2015和Twitter-2017基準(zhǔn)數(shù)據(jù)集的大量實(shí)驗結(jié)果顯示,該方法在平均F1值上分別提升了1.00%和1.41%,表明該模型具有較強(qiáng)的命名實(shí)體識別能力。

關(guān)鍵詞:多模態(tài)命名實(shí)體識別;多模態(tài)表示;多模態(tài)融合;多任務(wù)學(xué)習(xí);命名實(shí)體識別

中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A文章編號:1001-3695(2024)06-011-1679-07

doi: 10.19734/j.issn.1001-3695.2023.09.0439

Textual-visual semantics-enhanced multimodal named entity recognition method

Abstract: To address the issues of missing textual-visual semantics and unclear multimodal representation semantics in multimodal named entity recognition methods, this paper proposed a method of textual-visual semantic enhancement for multimodal named entity recognition. In this method, it used various pre-trained models to extract text features, character features, regional visual features, image keywords and visual labels, in order to comprehensively describe the semantic information of image-text data. It adopted the Transformer and cross-modal attention mechanism to mine the complementary semantic relationships between image-text features, guiding feature fusion, thereby generating semantically complete text representations and semantically enhanced multimodal representations. By integrating boundary detection, entity type detection, and named entity recognition tasks, it constructed a multi-task label decoder, which could perform fine-grained semantic decoding of input features, to improve the semantic accuracy of predicted features. It used this decoder to jointly decode text representations and multimodal representations to obtain globally optimal predicted labels. A large number of experimental results on the Twitter-2015 and Twitter-2017 benchmark datasets show that the proposed method has increased the average F1 score by 1.00% and 1.41% respectively, which indicates that the model has a strong capability for named entity recognition.

Key words:multimodal named entity recognition; multimodal representation; multimodal fusion; multi-task learning; named entity recognition

0 引言

傳統(tǒng)的命名實(shí)體識別方法從詞匯、語法等句子內(nèi)部特征或從知識圖譜、Web等外部文本數(shù)據(jù)中挖掘語義信息來支撐信息抽取。隨著多媒體技術(shù)的廣泛應(yīng)用,文本、圖片、音頻等多模態(tài)數(shù)據(jù)不斷涌現(xiàn),且這些數(shù)據(jù)蘊(yùn)涵著豐富的語義信息,也因此從多模態(tài)數(shù)據(jù)中挖掘語義信息,進(jìn)行多模態(tài)信息抽取的方法逐漸得到越來越多的關(guān)注,多模態(tài)命名實(shí)體識別(multimodal named entity recognition,MNER)作為其中一項關(guān)鍵任務(wù),已逐漸成為研究熱點(diǎn)。

自2018年Moon等人[1]首次提出MNER后,Lu等人[2]也使用注意力機(jī)制融合文本特征和區(qū)域視覺特征,實(shí)現(xiàn)多模態(tài)特征過濾和多模態(tài)特征融合。然而在這兩個方法中,文本特征和視覺特征之間存在語義不對稱的問題。這是由于使用GloVe表示單詞特征時,僅可以獲得微弱的實(shí)體語義。為此,Zhang等人[3]提出首先聚合上下文信息來增強(qiáng)文本特征語義的MNER方法。隨后,Wu等人[4,5]也使用雙向長短記憶神經(jīng)網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)來聚合文本特征中的上下文信息,以增強(qiáng)單詞的實(shí)體語義,再通過注意力機(jī)制對圖像特征與文本特征進(jìn)行融合。為了進(jìn)一步縮小文本與圖像特征的語義差距,2020年,基于Transformer的MNER方法首次被Yu等人[6]提出。隨后Chen等人[7]在這幾個MNER模型中使用BERT模型代替GloVe模型來表示文本特征,進(jìn)一步驗證了單詞語義的重要性。此后的多模態(tài)命名實(shí)體識別方法均利用BERT模型表示文本特征,并采用Transformer模型對多模態(tài)特征進(jìn)行編碼、融合或?qū)R處理,以解決文本特征和圖像特征難以挖掘語義交互關(guān)系的問題。例如,Asgari-Chenaghlu等人[8]采用Transformer模型對文本和圖像的類標(biāo)簽進(jìn)行聯(lián)合編碼來生成多模態(tài)表征。Zhang等人[9]采用基于Transformer的跨模態(tài)門控機(jī)制來引導(dǎo)對文本特征和區(qū)域視覺特征融合來輸出多模態(tài)表征。鐘維幸等人[10]堆疊跨模態(tài)注意力機(jī)制來融合圖文特征。Xu等人[11]采用跨模態(tài)注意力機(jī)制來計算圖文特征的語義對齊關(guān)系后,再利用該關(guān)系引導(dǎo)圖文特征融合,以輸出多模態(tài)表征。Wang等人[12]提出了一個精細(xì)化的注意力模型來挖掘圖文特征間的雙向語義關(guān)系,從而得到了更好的多模態(tài)特征。但這些方法由于視覺語義離散的影響,導(dǎo)致生成的多模態(tài)特征與文本特征的整體語義存在偏差。為此,引入了多任務(wù)學(xué)習(xí)的方法,通過協(xié)同處理文本特征和多模態(tài)表示上的兩個子任務(wù)來增強(qiáng)識別能力。Yu等人[6]提出在文本特征上構(gòu)建邊界檢測任務(wù)來輔助命名實(shí)體識別,從而解決視覺偏差的問題。類似的方法如Wang等人[13]和Liu等人[14]均在文本特征上構(gòu)建命名實(shí)體識別任務(wù),通過標(biāo)簽融合來解決該問題。此外也可以引入輔助任務(wù)來共同訓(xùn)練多模態(tài)表征,以提高模型的性能。例如:李曉騰等人[15]使用聚類任務(wù)統(tǒng)一特征空間促進(jìn)特征融合;Chen等人[16]使用關(guān)系抽取任務(wù)訓(xùn)練多模態(tài)表示實(shí)現(xiàn)命名實(shí)體識別;Xu等人[17]提出了一個數(shù)據(jù)鑒別器,用于確定是使用多模態(tài)命名實(shí)體識別模型還是文本模態(tài)命名實(shí)體識別模型進(jìn)行信息提取;范濤等人[18]引入遷移學(xué)習(xí)策略,在地方志多模態(tài)數(shù)據(jù)集中進(jìn)一步訓(xùn)練多模態(tài)命名實(shí)體識別方法;Jia等人[19]對多模態(tài)數(shù)據(jù)集中的視覺特征進(jìn)行細(xì)粒度的人工標(biāo)注,并構(gòu)建為視覺查詢?nèi)蝿?wù)來過濾視覺噪聲和優(yōu)化視覺特征的語義,與命名實(shí)體識別任務(wù)一起訓(xùn)練。

針對上述問題,本文提出的應(yīng)對策略如下:

a)文本語義缺失。BERT在自然語言處理領(lǐng)域表現(xiàn)出色。然而,在社交媒體中,由于用戶的書寫不規(guī)范或隨意性,存在著大量的(out of vocab, OoV)單詞,它們沒有出現(xiàn)BERT中的詞表。此時,可能導(dǎo)致該單詞語義缺失,從而導(dǎo)致預(yù)測錯誤。例如,在圖1特征提取中,將單詞“MUIP”拆分為“mu”和“##ip”,此外,網(wǎng)絡(luò)地址單詞等也會被識別為OOV單詞。而由于字符特征具有表示單詞形態(tài)的能力,為此,構(gòu)建了字符特征增強(qiáng)的跨模態(tài)注意力模塊來融合文本特征和字符特征,以生成語義補(bǔ)全的文本表征。

b)視覺語義缺失。視覺特征攜帶的語義信息量主要由采用的預(yù)訓(xùn)練視覺模型所決定。例如圖1中的圖像特征示例,視覺描述中包含“younger”等有益的單詞,但也有許多與文本語義無關(guān)的單詞,如“plates”。在視覺標(biāo)簽中包含一個重復(fù)的標(biāo)簽“person”,卻缺少了實(shí)體類型為組織(ORG)的語義信息,同時,引入了其他實(shí)體語義,如“cat”。由于區(qū)域視覺特征可視化后沒有特定形象的語義,但它著重描述視覺對象的形態(tài)信息,且與文本特征處于異構(gòu)空間,特征融合較為困難。為此,提出了多模態(tài)特征融合模塊,該模塊利用各個視覺特征來分別表達(dá)圖像中不同方面的語義,再通過協(xié)同表示來描述完整圖像語義,然后調(diào)用Transformer模型融合自然語言形式的圖文特征。針對字符特征、區(qū)域視覺特征與BERT編碼的特征空間異構(gòu)的問題,調(diào)用跨模態(tài)注意力機(jī)制來挖掘文本表示和字符特征、區(qū)域視覺特征間的語義互補(bǔ)關(guān)系,引導(dǎo)特征融合,生成圖文語義增強(qiáng)的多模態(tài)表征。

c)多模態(tài)表征細(xì)粒度語義挖掘。現(xiàn)有多模態(tài)命名實(shí)體識別方法通常僅利用一個全連接層歸納實(shí)體語義,往往導(dǎo)致邊界預(yù)測錯誤或?qū)嶓w類別預(yù)測錯誤的情況。為此,聚合命名實(shí)體識別、實(shí)體邊界檢測和實(shí)體類別檢測三個任務(wù)來分別提取細(xì)粒度的語義后,以增強(qiáng)最終預(yù)測特征的語義準(zhǔn)確性,進(jìn)而提升命名實(shí)體識別準(zhǔn)確性,并構(gòu)建為多任務(wù)標(biāo)簽解碼器。

d)為了消除多個視覺特征中復(fù)雜語義帶來的負(fù)面影響,進(jìn)一步調(diào)用多任務(wù)標(biāo)簽解碼器對文本表征和多模態(tài)表征進(jìn)行解碼,并利用標(biāo)簽對齊模塊來對齊這兩個解碼得到的預(yù)測特征,從而解決多模態(tài)表征融合錯誤的視覺語義導(dǎo)致的語義偏差問題。

綜上所述,本文提出了一種圖文語義增強(qiáng)的多模態(tài)命名實(shí)體識別方法(textual-visual semantics-enhanced multimodal named entity recognition method,TVSE),通過Transformer和跨模態(tài)注意力機(jī)制來挖掘特征間的語義互補(bǔ)關(guān)系,分別融合兩種文本中的特征和三種視覺特征,得到語義補(bǔ)全的文本表征和語義增強(qiáng)的多模態(tài)表征,并調(diào)用共享的多任務(wù)標(biāo)簽解碼器對文本表征和多模態(tài)表征進(jìn)行聯(lián)合解碼,實(shí)現(xiàn)命名實(shí)體識別。

1 TVSE方法模型

TVSE方法使用跨模態(tài)注意機(jī)制將字符特征的語義信息與文本特征進(jìn)行整合,解決文本語義缺失問題,得到語義增強(qiáng)的文本表示,并調(diào)用多任務(wù)標(biāo)簽解碼器對文本表征進(jìn)行解碼,從而得到文本表征的預(yù)測標(biāo)簽,構(gòu)成文本表征命名實(shí)體識別模塊;多模態(tài)表征命名實(shí)體識別模塊中,首先采用BERT對視覺描述、視覺標(biāo)簽、文本進(jìn)行聯(lián)合編碼,以充分融合圖文語義。再分別利用兩種跨模態(tài)注意機(jī)制逐步挖掘字符特征、區(qū)域視覺特征與多模態(tài)文本特征之間的語義交互關(guān)系,以進(jìn)一步增強(qiáng)圖文語義,生成圖文語義增強(qiáng)的多模態(tài)表征。調(diào)用多任務(wù)標(biāo)簽解碼對多模態(tài)表征進(jìn)行細(xì)粒度語義解碼,得到多模態(tài)表征的預(yù)測標(biāo)簽,這也是TVSE的最終預(yù)測標(biāo)簽序列。然而,這也加劇了多模態(tài)表征中的視覺語義偏差問題。為此,使用KL散度函數(shù)來構(gòu)建標(biāo)簽對齊模塊,將文本表征的預(yù)測向量和多模態(tài)表征的預(yù)測向量進(jìn)行對齊,從而監(jiān)督多模態(tài)表征的語義學(xué)習(xí),使其更加準(zhǔn)確,進(jìn)一步提升模型性能。

為了解決由于區(qū)域視覺特征與文本特征分屬兩個不同的特征空間導(dǎo)致的圖文語義融合困難的問題,本文引入一個對抗學(xué)習(xí)策略來對區(qū)域視覺特征的投影函數(shù)進(jìn)行優(yōu)化,使其盡可能與文本特征的語義分布相似,即優(yōu)化目標(biāo)是使得由多層感知機(jī)組成的模態(tài)分類網(wǎng)絡(luò)不能區(qū)分特征屬于文本模態(tài)特征或區(qū)域視覺特征。

TVSE模型由文本表征命名實(shí)體識別模塊、多模態(tài)表征命名實(shí)體識別模塊組成,如圖1所示。

圖1(左下)是區(qū)域視覺特征、視覺描述和視覺標(biāo)簽的示例,用紅色標(biāo)記有用的單詞;圖1(右下)是文本特征、字符特征的示例,用紅色標(biāo)識句子中的實(shí)體;圖1(左中)是多模態(tài)融合模塊,包含Transformer模型和兩個跨模態(tài)注意力機(jī)制;圖1(右中)是使用跨模態(tài)注意機(jī)制補(bǔ)全文本特征語義的過程;圖1(上)是使用共享的多任務(wù)標(biāo)簽解碼器分別對文本表征和多模態(tài)表征進(jìn)行序列標(biāo)注,并通過對齊預(yù)測特征向量的過程。預(yù)測標(biāo)簽與輸入的單詞一一對應(yīng),實(shí)體標(biāo)簽使用紅色標(biāo)識(參見電子版)。

2 文本表征命名實(shí)體識別模塊

使用語言模型BERT、CNN提取文本特征、字符特征,調(diào)用跨模態(tài)注意力機(jī)制將字符特征語義信息傳遞到文本特征上,獲得文本語義增強(qiáng)的文本表征,調(diào)用多任務(wù)標(biāo)簽解碼器挖掘文本表征中的細(xì)粒度實(shí)體語義,從而對文本表征進(jìn)行序列標(biāo)注,獲得第一個預(yù)測標(biāo)簽,并標(biāo)識為TVSE-U。

2.1 文本特征表示

對于給定的文本S′={S′0,S′1,…,S′m-1},將S′轉(zhuǎn)換為BERT編碼層的嵌入,表示為S={S0,S1,…,Sn-1} ,它是token 嵌入、position 嵌入、segment 嵌入的組合。S′i 是文本中的第i個單詞, m代表句子中單詞的長度。Si 是第i個嵌入,n是嵌入的長度。將S輸入BERT模型,文本特征表示如下:

B=BERT(S)(1)

使用自然語言處理工具包fastNLP(https://fastnlp.readthedocs.io/zh/latest/)讀取原始文本中所有句子的單詞,以構(gòu)建為詞表。調(diào)用fastNLP中的CNNCharEmbedding模型表示原始文本S′i的字符特征,來表示單詞的形態(tài)信息和語義信息,特征提取如下:

C=CNNCharEmbedding(S′)(2)

2.2 文本特征增強(qiáng)層

跨模態(tài)注意力(cross modal attention,CMT)的計算過程如式(3)~(6)所示。

使用跨模態(tài)注意力機(jī)制將字符特征中的形態(tài)信息和語義信息傳遞到文本特征中,以補(bǔ)全單詞語義,挖掘文本特征內(nèi)的語義來獲得文本語義增強(qiáng)的文本表征U,計算如下:

其中:跨模態(tài)注意力調(diào)用時,令Q=B,K=C,V=C。

2.3 多任務(wù)標(biāo)簽解碼

其中:MLD() 是多任務(wù)標(biāo)簽解碼器,將在4.1節(jié)介紹。當(dāng)損失進(jìn)行反向傳播時,多任務(wù)標(biāo)簽解碼器將引導(dǎo)文本表征學(xué)習(xí)文本的細(xì)粒度實(shí)體語義。

3 多模態(tài)表征命名實(shí)體識別模塊

多模態(tài)表征命名實(shí)體識別模塊是在文本表征命名實(shí)體識別基礎(chǔ)上進(jìn)行擴(kuò)展形成的,它使用三種不同的視覺模型來表示完備的圖像語義。針對每種視覺特征表達(dá)圖像中不同語義信息的特點(diǎn),該文分別利用Transformer和跨模態(tài)注意力機(jī)制來挖掘特定視覺特征與文本特征的語義交互關(guān)系,從而將圖像的完整語義傳遞到文本特征中,以輸出圖文語義增強(qiáng)的多模態(tài)表征。通過使用共享的多任務(wù)標(biāo)簽解碼器挖掘多模態(tài)表征中的細(xì)粒度實(shí)體語義,得到第二個預(yù)測標(biāo)簽。

3.1 圖像特征提取

為了解決單種視覺特征中的語義缺失問題,分別提取了視覺描述和視覺標(biāo)簽,它們是使用自然語言描述的視覺特征,表示不同兩種粒度的視覺對象信息。此外還提取了多層形態(tài)語義的區(qū)域視覺特征。

對于輸入的圖像特征I,視覺標(biāo)簽使用Mask R-CNN[20]提取,表示圖像全局粒度實(shí)體語義,可表示為

L=Mask-RCNN(I)(9)

其中:L={L0,L1,L2,L3},包含4個標(biāo)簽單詞的嵌入。

視覺描述,使用圖像字幕模型IC[21]提取,表示圖像細(xì)粒度實(shí)體語義,可表示為

K=IC(I)(10)

其中:K={K0,K1,…,K19},包含20個單詞的嵌入。

區(qū)域視覺特征,使用ResNet[22]提取,表示圖像特征的形態(tài)信息和隱藏的關(guān)系信息,可表示為

VR′=ResNet(I)(11)

3.2 多模態(tài)特征融合

使用BERT模型對文本、視覺描述、視覺標(biāo)簽進(jìn)行聯(lián)合編碼,挖掘文本特征S與視覺描述K、視覺標(biāo)簽L之間的語義交互關(guān)系,實(shí)現(xiàn)圖文特征的充分融合,計算公式為

[MV;MU]=BERT([K;L;S])(12)

調(diào)用跨模態(tài)注意力機(jī)制來挖掘MU與字符特征的語義互補(bǔ)關(guān)系,補(bǔ)全MT的文本語義,計算公式如下:

其中:CMT()是跨模態(tài)注意力機(jī)制;C是字符特征。

將區(qū)域視覺特征投影到MUC的特征空間后,調(diào)用跨模態(tài)注意力機(jī)制來挖掘MUC與區(qū)域視覺特征的語義交互關(guān)系,利用區(qū)域視覺特征中的形態(tài)語義或潛在的關(guān)系語義來矯正或增強(qiáng)MUC的實(shí)體語義,得到圖文語義增強(qiáng)的多模態(tài)表征,計算公式如下:

其中:σ()是投影函數(shù),將特征維度為dr的區(qū)域視覺特征VR′投影到BERT的編碼維度;n是特征長度;d是文本特征維度。

由于VR′與MUC分屬兩個不同的特征空間,不利于融合兩者間的語義。為此,使用對抗學(xué)習(xí)優(yōu)化投影函數(shù)σ(),使得投影后的特征V′與MUC分布相似。對抗學(xué)習(xí)是一個基于多層感知機(jī)的模態(tài)分類模型,其計算公式可表示為

其中:多層感知機(jī)MLP()將V′與MUC投影到分類空間。使用交叉熵函數(shù)CE()計算模態(tài)分類損失,它將MUC中的特征節(jié)點(diǎn)的標(biāo)簽設(shè)置為Ymuc=[0,…,0],V′的特征節(jié)點(diǎn)標(biāo)簽設(shè)置為Yv=[1,…,1],其標(biāo)簽掩碼是V′與MUC的特征掩碼。當(dāng)模型不能準(zhǔn)確區(qū)分V′與MUC的類別時,說明這兩個特征處于語義分布相似的特征空間中。

3.3 多任務(wù)標(biāo)簽解碼

當(dāng)損失進(jìn)行反向傳播時,多任務(wù)標(biāo)簽解碼器也將引導(dǎo)多模態(tài)表征學(xué)習(xí)圖文數(shù)據(jù)中的細(xì)粒度實(shí)體語義。

4 標(biāo)簽解碼

本章將詳細(xì)介紹多任務(wù)標(biāo)簽解碼器、標(biāo)簽對齊任務(wù)。

4.1 多任務(wù)標(biāo)簽解碼器

多任務(wù)標(biāo)簽解碼器(multitask label decoding,MLD)將命名實(shí)體識別、實(shí)體邊界檢測和實(shí)體類別檢測的預(yù)測向量聚合在一起,協(xié)同挖掘特征中的細(xì)粒度實(shí)體語義,進(jìn)而提高了條件隨機(jī)場中輸入特征的質(zhì)量,提升命名實(shí)體識別的準(zhǔn)確性。MLD模型結(jié)構(gòu)如圖2所示。

其中:dbio、dplo、dner分別是三個任務(wù)投影函數(shù)FCbio()、FCplo()、FCner()的投影維度;n是特征數(shù)量。

考慮到標(biāo)簽之間的依賴關(guān)系,使用條件隨機(jī)場來標(biāo)記Y中的預(yù)測序列y。

其中:T″yi,yi+1 是從標(biāo)簽yi到標(biāo)簽yi+1的過渡分?jǐn)?shù);E″ai,yi 是標(biāo)簽yi的發(fā)射分?jǐn)?shù);Wyi 是yi特有的權(quán)重參數(shù)。

使用最大條件似然函數(shù)損失函數(shù)計算作為多任務(wù)標(biāo)簽解碼的損失,計算公式為

使用MLD()表示多任務(wù)標(biāo)簽解碼器,則對于輸入隱藏向量H,以上公式可表示為

4.2 標(biāo)簽對齊模塊

多種視覺特征中語義更為豐富,但視覺語義和視覺噪聲也更為復(fù)雜,這可能導(dǎo)致多模態(tài)表征語義出現(xiàn)偏差,從而導(dǎo)致預(yù)測錯誤。為此,使用KL散度損失函數(shù)來最小化文本表征、多模態(tài)表征的預(yù)測向量之間的差異,以消除視覺噪聲,引導(dǎo)多模態(tài)表征學(xué)習(xí)到正確的語義,獲得最優(yōu)預(yù)測標(biāo)簽,計算公式為

其中:YU-ner、YM-ner是式(8)(17)得到的預(yù)測向量。

4.3 損失函數(shù)

使用損失求和的方法來將各個任務(wù)組合起來進(jìn)行聯(lián)合學(xué)習(xí),并得到模型的最終預(yù)測標(biāo)簽YM-ner,損失表示如下:

5 方法驗證及結(jié)果分析

利用PyTorch等技術(shù)搭建實(shí)驗環(huán)境,通過AdamW[23]優(yōu)化器調(diào)整模型參數(shù),設(shè)置epoch=30、batch size=16、learning rate=5E-5。使用F1值(F1-score)作為評價指標(biāo),在Twitter-2015和Twitter-2017公共多模態(tài)數(shù)據(jù)集上進(jìn)行實(shí)驗來驗證本文方法。

Twitter-2015[2]是從Twitter’s API提取的包含7 257個圖文對的多模態(tài)命名實(shí)體識別數(shù)據(jù)集。Twitter-2017[4]是從Twitter posts提取的包含4 819個圖文對的多模態(tài)命名實(shí)體識別數(shù)據(jù)集。數(shù)據(jù)集中每個文本僅和一張圖片進(jìn)行關(guān)聯(lián),將數(shù)據(jù)集拆分成訓(xùn)練集、驗證集、測試集,其中圖文對的數(shù)量如表1 (number of text-images)所示。此外,人名(PER)、地名(LOC)、組織名(ORG)、其他(MISC)的數(shù)據(jù)量統(tǒng)計詳情如表1所示。

5.1 TVSE-U性能評價

將文本表征命名實(shí)體識別模塊(TVSE-U)與BERT-CRF、MNER-QG-U等四種模型進(jìn)行對比實(shí)驗,結(jié)果如表2所示。

與對比模型中的最優(yōu)模型MAF-U和MNER-QG-U相比,在Twitter-2015、Twitter-2017數(shù)據(jù)集上,TVSE-U模型的F1值分別提高了0.26%、0.64%。此外在Twitter-2017數(shù)據(jù)集上,相比最優(yōu)模型MNER-QG-U,TVSE-U的PER、LOC、ORG、MISC的F1值分別提升1.2%、0.32%、1.38%、0.82%;在Twitter-2015數(shù)據(jù)集中,PER、ORG的F1值分別增長了1.19%、1.5%。其中一個原因是跨模態(tài)注意力機(jī)制將字符特征中的語義傳遞到文本特征中,補(bǔ)全了文本語義,獲得了更有效的文本表征。

使用CRF模型作為實(shí)體標(biāo)簽解碼器是有效的,但TVSE-U方法進(jìn)一步融合實(shí)體邊界檢測、單詞類屬檢測任務(wù)來挖掘特征中的語義,使得在Twitter-2017中,TVSE-U模型相比BERT-CRF,PER、LOC、ORG、MISC的F1值分別提高了2.28%、2.50%、2.00%、7.02%;相比UMT-U模型,TVSE-U的F1值在兩個數(shù)據(jù)集上均有提升,其原因之一是多任務(wù)標(biāo)簽解碼器中的實(shí)體邊界檢測、單詞類屬檢測、命名實(shí)體識別任務(wù)都可以表征挖掘細(xì)粒度語義信息,以提高CRF模型的解碼能力。

與表3中的MNER模型相比,TVSE-U仍然是先進(jìn)的。在Twitter-2015數(shù)據(jù)集上,TVSE-U相比MT、UAMNer的F1值分別高出0.88%、0.36%,與基于圖文聯(lián)合編碼的MSB、UMT、MAF模型持平(±0.05%);在Twitter-2017數(shù)據(jù)集上,TVSE-U的F1值增幅依次是MT(1.77%)、MSB(1.87%)、UAMNer (1.29%)、UMT (0.88%)、UMGF (0.68%)、MAF (-0.06%),實(shí)驗證明了字符特征能補(bǔ)全文本表征的語義,且多任務(wù)標(biāo)簽解碼模塊可以提高標(biāo)簽解碼的能力。

5.2 TVSE 方法性能評價

與近三年內(nèi)八種主流MNER模型MT、UMT、MNER-QG等進(jìn)行對比實(shí)驗,實(shí)驗結(jié)果如表3所示。

為了說明TVSE方法的有效性,與采用聯(lián)合表示編碼方法的MSB模型、采用跨模態(tài)注意力機(jī)制和聯(lián)合解碼方法的UMT、UAMNer模型進(jìn)行對比,TVSE的性能均有較好的提升,即在Twitter-2015中,TVSE的F1值相比MSB、UMT、UAMNer分別提升1.29%、1.35%、1.66%;在Twitter-2017中,TVSE的F1值分別提升2.87%、1.88%、2.29%。其中一個原因可能是,TVSE利用多種視覺特征協(xié)同表達(dá)得到了更為完整的視覺語義,并有效挖掘了文本特征與這些視覺特征間的語義交互關(guān)系,進(jìn)而獲得了圖文語義增強(qiáng)的多模態(tài)表征,而提高了命名實(shí)體識別的能力。

此外,如表3最后一行所示,是TVSE模型與八種主流MNER模型F1值的平均值差,TVSE模型均取得了更好的結(jié)果,其可能的原因是,TVSE模型有效地挖掘到了文本特征與字符特征、區(qū)域視覺特征、視覺標(biāo)簽、視覺描述間的語義互補(bǔ)性,從而得到了高質(zhì)量的多模態(tài)表征。

在Twitter-2017數(shù)據(jù)集中,TVSE的F1值為87.19%,超過其中七種模型。與MNER-QG相比,F(xiàn)1值僅降低了0.06%,而在Twitter-2015數(shù)據(jù)集,TVSE模型的F1值高于5種基準(zhǔn)模型,相比UMGF和MNER-QG的F1值僅降低了0.09%、0.18%,但TVSE在PER和LOC的F1中取得了更好的結(jié)果,導(dǎo)致該結(jié)果的原因可能是MNER-QG方法通過對圖像進(jìn)行細(xì)粒度的人工標(biāo)注,從而獲得了更加精確的視覺特征表示,進(jìn)而提高了多模態(tài)表示質(zhì)量。未來考慮在視覺特征上構(gòu)建視覺語義約束任務(wù)來約束或過濾視覺特征的語義表示。

5.3 性能對比

選擇多模態(tài)對齊模型MAF、多任務(wù)跨模態(tài)注意力模型UMT作為對比模型,選取了這些方法在Twitter-2015和Twitter-2017數(shù)據(jù)集中第2~29個epoch的F1值數(shù)據(jù)進(jìn)行可視化,F(xiàn)1值是在測試集上計算的。對比結(jié)果如圖3所示。

從圖3中可以看出,MAF模型的性能曲線稍高于UMT模型,這是因為它著重地利用視覺特征和文本特征的語義對齊關(guān)系來消除了錯誤的視覺語義。雖然UMT模型利用邊界檢測任務(wù)來輔助解碼,但事實(shí)上在兩個數(shù)據(jù)集中,基于文本特征的邊界檢測任務(wù)的F1值已經(jīng)可以達(dá)到90%以上。因此,UMT模型在一定程度上解決了視覺語義偏差問題,最終性能的提升幅度較低。

TVSE的性能在第10輪后,其評估指標(biāo)線(綠色線,參見電子版)均明顯高于UMT和MAF模型。而TVSE模型一方面利用多種圖文特征補(bǔ)全了圖文特征語義,另一方面利用多任務(wù)標(biāo)簽解碼挖掘文本表征和多模態(tài)表征中的細(xì)粒度語義來輔助解碼。因此,生成了語義增強(qiáng)的多模態(tài)表征,從而使得TVSE模型的F1值上都超過了UMT和MAF模型,實(shí)現(xiàn)了識別效果的提升。

5.4 消融實(shí)驗

為了驗證TVSE模型中各組件的有效性,進(jìn)行消融實(shí)驗。首先移除對抗學(xué)習(xí)任務(wù)(Gan);在w/o Gan基礎(chǔ)上分別移除一種引入的特征及其相關(guān)的特征融合層,組成如下對照組:字符特征(Char)、視覺標(biāo)簽和視覺描述(KL)、區(qū)域視覺特征(Reg)。

在表4的Twitter-2015、Twitter-2017數(shù)據(jù)集中,w/o Gan的F1值分別下降0.32%、0.43%,這說明失去對抗學(xué)習(xí)任務(wù)后,區(qū)域視覺特征和文本特征語義分布是不相似的,融合更為困難,從而降低了模型的實(shí)體識別能力。

繼續(xù)移除區(qū)域視覺特征(Reg)或移除視覺標(biāo)簽、圖像關(guān)鍵字(KL),即w/o Reg和w/o KL,此時模型僅融合一種圖像特征。實(shí)驗表明,在Twitter-2015數(shù)據(jù)集中,w/o Reg和w/o KL的F1值分別下降0.27%、1.99%;在Twitter-2017數(shù)據(jù)集中,w/o Reg和w/o KL的F1值分別下降0.94%、1.02%,這驗證了單視覺特征中存在語義缺失的問題,且不同的圖像特征僅能表示圖像中一個側(cè)面的語義;當(dāng)使用多種視覺特征協(xié)同表示時,將得到更全面的圖像語義。此外,本文在移除對抗學(xué)習(xí)任務(wù)(Gan)的基礎(chǔ)上對文本表征進(jìn)行消融實(shí)驗,即w/o Char,在Twitter-2015、Twitter-2017數(shù)據(jù)集中,w/o Char的F1值分別下降1.41%、0.63%,這就表明當(dāng)失去字符特征,文本特征存在語義缺失的情況,反之,語義補(bǔ)全后,文本表征和多模態(tài)表征的質(zhì)量會得到提高,從而提高模型的性能。

為了說明多任務(wù)解碼器中各個子任務(wù)對標(biāo)簽解碼的作用,進(jìn)行消融實(shí)驗如下:移除實(shí)體邊界檢測任務(wù)(bio)用于表示多任務(wù)解碼器引導(dǎo)多模態(tài)表征學(xué)習(xí)實(shí)體語義、實(shí)體類別語義時的性能;移除實(shí)體類別檢測任務(wù)(plo)用于表示僅引導(dǎo)多模態(tài)表征學(xué)習(xí)實(shí)體語義、實(shí)體邊界語義時的性能;移除兩種任務(wù)(plo bio) 用于表示僅引導(dǎo)多模態(tài)表征學(xué)習(xí)實(shí)體語義時的性能。

表4的實(shí)驗結(jié)果顯示了在Twitter-2015、Twitter-2017數(shù)據(jù)集中, w/o bio的F1值分別下降0.37%、0.75%,w/o plo的F1值分別下降0.78%、1.05%,單類F1值也有不同程度的下降。其原因在于實(shí)體邊界檢測任務(wù)能通過確定實(shí)體的邊界,來輔助識別命名實(shí)體;實(shí)體類別檢測任務(wù)能通過確定實(shí)體的類別,來輔助識別命名實(shí)體。進(jìn)一步地,移除這兩種任務(wù)(w/o plobio)后,此時多任務(wù)解碼是CRF解碼模型,在Twitter-2015、Twitter-2017數(shù)據(jù)集中, F1值分別下降0.55%、1.29%,其他指標(biāo)也進(jìn)一步下降,這表明實(shí)體邊界檢測任務(wù)、實(shí)體類別檢測任務(wù)、命名實(shí)體識別任務(wù)可以相互協(xié)作,共同提升命名實(shí)體識別的準(zhǔn)確性。

此外在Twitter-2015數(shù)據(jù)集中,w/o plobio模型相比MT、MSB、UAMNer、UMT、ITJNER、MAF等模型仍有競爭力,而在Twitter-2017數(shù)據(jù)集,F(xiàn)1值也高于MT、MSB、UAMNer、UMT、UMGF等模型,其可能的原因是TSVE方法通過圖文語義增強(qiáng),獲得了高質(zhì)量的多模態(tài)表征,從而提高了命名實(shí)體識別的解碼準(zhǔn)確性。

5.5 案例分析

在Twitter-2015的測試數(shù)據(jù)集上,選取UMT、MAF、TVSE-U、TVSE四種方法的預(yù)測結(jié)果和多模態(tài)數(shù)據(jù)進(jìn)行可視化,結(jié)果如表5所示。圖中[#1,#2,#3]分別表示單詞、預(yù)測標(biāo)簽和真實(shí)標(biāo)簽,當(dāng)預(yù)測錯誤時使用紅色字體進(jìn)行標(biāo)識, 真實(shí)標(biāo)簽使用綠色進(jìn)行標(biāo)識(參見電子版)。

從表5中可以看出,TVSE-U通過聚合字符特征和文本特征的語義信息,使其生成了相對準(zhǔn)確的文本表征,因此能準(zhǔn)確識別UMT、MAF方法無法識別的實(shí)體。例如,準(zhǔn)確預(yù)測了單詞“To”“Em”的實(shí)體標(biāo)簽。TVSE通過Transformer模型和跨模態(tài)注意力機(jī)制融合字符特征、文本特征和三種視覺特征的語義信息,以糾正單詞的形態(tài)語義和實(shí)體語義,從而得到了較高質(zhì)量的多模態(tài)文本表征。同時,引入的多任務(wù)標(biāo)簽解碼模塊進(jìn)一步輔助明確單詞的實(shí)體類別和邊界分隔。因此,TVSE能準(zhǔn)確地生成單詞“To”“Em”“Getty ”和單詞組“Mac Book pro”的多模態(tài)文本表示,并理解其中每個單詞的實(shí)體類別語義和邊界語義信息,從而正確地識別這些實(shí)體,使得TVSE模型對圖文數(shù)據(jù)具有信息抽取的能力。

6 結(jié)束語

本文提出了圖文語義增強(qiáng)的多模態(tài)命名實(shí)體識別方法,分別通過圖文模態(tài)內(nèi)特征協(xié)同來補(bǔ)全文本語義和圖像語義;分別構(gòu)建文本特征命名實(shí)體識別模塊和多模態(tài)命名實(shí)體識別模塊,來得到文本語義補(bǔ)全的文本表征、圖文語義增強(qiáng)的多模態(tài)表征;分別使用共享的多任務(wù)標(biāo)簽解碼器對文本表征和多模態(tài)表征進(jìn)行細(xì)粒度語義挖掘和細(xì)粒度實(shí)體標(biāo)注,來得到文本表征、多模態(tài)表征的預(yù)測向量,并通過最小化預(yù)測向量間的差異,引導(dǎo)多模態(tài)表征準(zhǔn)確地融合視覺語義,從而有效地識別實(shí)體。

通過在Twitter-2015、Twitter-2017數(shù)據(jù)集上進(jìn)行了實(shí)驗,與BERT-CRF、MNER-QG-U等四種模型進(jìn)行對比,文本表征命名實(shí)體識別方法的平均F1值分別提升了0.84%、1.90%;與MAF、UMT、MNER-QG等八種主流多模態(tài)命名實(shí)體識別模型對比,本文方法的平均F1值分別提升了1.00%、1.41%,實(shí)驗結(jié)果證明了TVSE能有效識別社交多模態(tài)數(shù)據(jù)中的命名實(shí)體。

在未來的工作中,針對TVSE在語義弱相關(guān)的Twitter-2015數(shù)據(jù)集中性能不足的問題:a)通過構(gòu)建視覺語義約束任務(wù),引導(dǎo)挖掘視覺特征中更為準(zhǔn)確的細(xì)粒度語義,再對多模態(tài)特征之間的語義關(guān)系進(jìn)行建模,來增強(qiáng)多模態(tài)特征的語義表示;b)利用圖文語義相似關(guān)系,消除視覺噪聲和過濾視覺特征中的無關(guān)實(shí)體語義;c)利用語音生成、圖文檢索等技術(shù)增加輸入的模態(tài)信息,提升多模態(tài)表征的語義的全面性和通用性,進(jìn)而訓(xùn)練一個更健壯的多模態(tài)命名實(shí)體識別模型。

參考文獻(xiàn):

[1]Moon S,Neves L,Carvalho V. Multimodal named entity recognition for short social media posts [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: NAACL Press,2018: 852-860.

[2]Lu Di,Neves L,Carvalho V,et al. Visual attention model for name tagging in multimodal social media [C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 1990-1999.

[3]Zhang Qi,F(xiàn)u Jinlan,Liu Xiaoyu,et al. Adaptive co-attention network for named entity recognition in tweets [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence and the 30th Innovative Applications of Artificial Intelligence Conference and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 5674-5681.

[4]Wu Zhiwei,Zheng Changmeng,Cai Yi,et al. Multimodal representation with embedded visual guiding objects for named entity recognition in social media posts [C]// Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press,2020: 1038-1046.

[5]Zheng Changmeng,Wu Zhiwei,Wang Tao,et al. Object-aware multimodal named entity recognition in social media posts with adversarial learning [J]. IEEE Trans on Multimedia,2021,23: 2520-2532

[6]Yu Jianfei,Jiang Jing,Yang Li,et al. Improving multimodal named entity recognition via entity span detection with unified multimodal transformer [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 3342-3352.

[7]Chen Shuguang,Aguilar G,Neves L,et al. Can images help recognize entities? A study of the role of images for multimodal NER [C]// Proc of the 7th Workshop on Noisy User-generated Text. Stroudsburg,PA: Association for Computational Linguistics,2021: 87-96.

[8]Asgari-Chenaghlu M,F(xiàn)eizi-derakhshi M R,F(xiàn)arzinvash L,et al. CWI: a multimodal deep learning approach for named entity recognition from social media using character,word and image features [J]. Neural Computing and Applications,2022,34(3): 1905-1922.

[9]Zhang Dong,Wei Suzhong,Li Shoushan,et al. Multi-modal graph fusion for named entity recognition with targeted visual guidance [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 14347-14355.

[10]鐘維幸,王海榮,王棟,等. 多模態(tài)語義協(xié)同交互的圖文聯(lián)合命名實(shí)體識別方法 [J]. 廣西科學(xué),2022,29(4): 681-690. (Zhong Weixing,Wang Hairong,Wang Dong,et al. Image-text joint named entity recognition method based on multi-modal semantic interaction[J]. Guangxi Sciences,2022,29(4): 681-690.)

[11]Xu Bo,Huang Shizhou,Sha Chaofeng,et al. MAF: a general matching and alignment framework for multimodal named entity recognition [C]// Proc of the 15th ACM International Conference on Web Search and Data Mining. New York:ACM Press,2022: 1215-1223.

[12]Wang Xuwu,Ye Jiabo,Li Zhixu,et al. CAT-MNER: multimodal named entity recognition with knowledge-refined cross-modal attention [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway,NJ: IEEE Press,2022: 1-6.

[13]Wang Xinyu,Min Gui,Yong Jiang,et al. ITA: image-text alignments for multi-modal named entity recognition [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2022: 3176-3189.

[14]Liu Luping,Wang Meiling,Zhang Mozhi,et al. UAMNer: uncertainty-aware multimodal named entity recognition in social media posts [J]. Applied Intelligence,2022,52(4): 4109-4125.

[15]李曉騰,張盼盼,勾智楠,等. 基于多任務(wù)學(xué)習(xí)的多模態(tài)命名實(shí)體識別方法 [J]. 計算機(jī)工程,2023,49(4): 114-119. (Li Xiaoteng,Zhang Panpan,Gou Zhinan,et al. Multimodal named entity recog-nition based on multi-task learning [J]. Computer Engineering,2023,49(4): 114-119.)

[16]Chen Xiang,Zhang Ningyu,Li Lei,et al. Good visual guidance make: a better extractor: hierarchical visual prefix for multimodal entity and relation extraction [C]// Proc of Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 1607-1618.

[17]Xu Bo,Huang Shizhou,Du Ming,et al. Different data,different modalities! Reinforced data splitting for effective multimodal information extraction from social media posts [C]// Proc of the 29th International Conference on Computational Linguistics. Stroudsburg,PA: Associa-tion for Computational Linguistics,2022: 1855-1864.

[18]范濤,王昊,陳玥彤. 基于深度遷移學(xué)習(xí)的地方志多模態(tài)命名實(shí)體識別研究 [J]. 情報學(xué)報,2022,41(4): 412-423. (Fan Tao,Wang Hao,Chen Yuetong. Research on multimodal named entity recog-nition of local history based on deep transfer learning [J]. Journal of the China Society for Scientific and Technical Information,2022,41(4): 412-423.)

[19]Jia Meihuizi,Shen Lei,Shen Xin,et al. MNER-QG: an end-to-end MRC framework for multimodal named entity recognition with query grounding [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2023: 8032-8040.

[20]He Kaiming,Gkioxari G,Dollár P,et al. Mask R-CNN [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 2980-2988.

[21]Vinyals O,Toshev A,Bengio S,et al. Show and tell: a neural image caption generator [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3156-3164.

[22]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.

[23]Loshchilov I,F(xiàn)rank H. Decoupled weight decay regularization [EB/OL]. (2019-01-04). https://arxiv.org/abs/1711.05101.

主站蜘蛛池模板: 久久精品视频亚洲| 国产精品亚欧美一区二区三区| 成人日韩视频| 色婷婷国产精品视频| 欧美一级特黄aaaaaa在线看片| 国产欧美成人不卡视频| 天堂av综合网| 最新加勒比隔壁人妻| 在线精品自拍| 在线观看国产网址你懂的| 制服丝袜 91视频| 国内丰满少妇猛烈精品播| 久久精品最新免费国产成人| 91视频区| 激情影院内射美女| 国产精品欧美日本韩免费一区二区三区不卡| 青草娱乐极品免费视频| 老熟妇喷水一区二区三区| 国产午夜看片| 日韩欧美高清视频| 最新国产你懂的在线网址| 欧美yw精品日本国产精品| 欧美无专区| 国产成人91精品| 久久精品人人做人人爽| 99在线观看视频免费| 91色老久久精品偷偷蜜臀| 亚洲欧美精品日韩欧美| 无码国产偷倩在线播放老年人| 伊在人亚洲香蕉精品播放| 精品国产免费第一区二区三区日韩| 五月天天天色| 亚洲综合色吧| 色成人亚洲| 亚洲an第二区国产精品| 久996视频精品免费观看| 久久99精品国产麻豆宅宅| 国产午夜一级毛片| 尤物成AV人片在线观看| 国产迷奸在线看| 99久久精品久久久久久婷婷| 国产在线高清一级毛片| 亚洲成人网在线播放| 久久中文字幕不卡一二区| 日本草草视频在线观看| 国产一区二区精品福利| 欧美国产成人在线| 动漫精品啪啪一区二区三区| 成人国产小视频| 国产精品分类视频分类一区| 欧美成人亚洲综合精品欧美激情| 亚洲a级毛片| 毛片基地视频| 午夜老司机永久免费看片 | 久久情精品国产品免费| 欧美一区日韩一区中文字幕页| 亚洲精品国产精品乱码不卞| 国产日韩AV高潮在线| 91黄色在线观看| 91色老久久精品偷偷蜜臀| 亚洲综合色婷婷中文字幕| 欧美精品二区| 在线观看无码a∨| 午夜福利免费视频| 又粗又大又爽又紧免费视频| 免费看a级毛片| 国产精女同一区二区三区久| 亚洲人成人无码www| 国产00高中生在线播放| 中文字幕精品一区二区三区视频 | 欧美黄色a| 另类重口100页在线播放| 亚洲色图欧美激情| 国产日韩精品欧美一区喷| 特级毛片免费视频| 亚洲中文字幕久久无码精品A| 免费无码在线观看| 黄色片中文字幕| 在线观看国产网址你懂的| 日韩av无码DVD| 日韩欧美中文字幕一本| 国产高清在线观看|