999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺語言Transformer的社交媒體命名實體識別研究

2025-09-01 00:00:00王震宇朱學(xué)芳夏思洋劉子溪
現(xiàn)代情報 2025年9期

摘 要:[目的/意義]近年來,隨著社交媒體平臺的快速發(fā)展,多模態(tài)命名實體識別(Multimodal Named Entity Recognition,MNER)成為一個備受關(guān)注的研究課題。最新研究表明,基于視覺Transformer的視覺語言模型在性能上優(yōu)于傳統(tǒng)的基于目標檢測器的方法,但目前尚缺乏對基于視覺語言Transformer的MNER模型的系統(tǒng)性研究。[方法/過程]為了解決上述問題,本文提出一種新的端到端框架,旨在深入研究如何設(shè)計和訓(xùn)練完全基于Transformer的視覺語言MNER模型。該框架充分考慮了模型設(shè)計中的所有關(guān)鍵要素,包括多模態(tài)特征提取、多模態(tài)融合模塊以及解碼架構(gòu)。[結(jié)果/結(jié)論]實驗結(jié)果表明,本文模型的表現(xiàn)優(yōu)于所有基線模型,包括基于大語言模型的方法,并在兩個數(shù)據(jù)集上取得了最佳整體指標。具體而言,該模型在Twitter-2015和Twitter-2017數(shù)據(jù)集上分別獲得了80.06%和94.27%的整體F1分數(shù),相較于目前最先進的視覺語言模型,分別提高了1.34%和3.80%。此外,該模型在跨數(shù)據(jù)集評估中表現(xiàn)出優(yōu)于基線模型的出色泛化能力。

關(guān)鍵詞:多模態(tài)命名實體識別;視覺Transformer;多模態(tài)融合;社交媒體;交叉注意力機制

DOI:10.3969/j.issn.1008-0821.2025.09.005

〔中圖分類號〕TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)09-0046-12

Research on Named Entity Recognition in Social Media

Based on Vision-and-Language Transformers

Wang Zhenyu Zhu Xuefang* Xia Siyang Liu Zixi

(School of Information Management,Nanjing University,Nanjing 210023,China)

Abstract:[Purpose/Significance]With the rapid growth of social media platforms,multimodal named entity recognition(MNER)has become a prominent research area in recent years.Although recent studies indicate that vision-and-language models using vision transformers outperform traditional methods based on object detectors,there is still a lack of systematic research on vision-and-language transformer models in MNER.[Method/Process]To address this gap,the paper introduced a novel end-to-end framework for designing and training of a fully transformer-based vision-and-language MNER model.The framework systematically explored key aspects of model design,including multimodal feature extraction,fusion modules,and decoding architectures.[Result/Conclusion]Experimental results show that the model surpasses all baseline models,including those using large language models,and achieves the highest overall metrics across two datasets.Specifically,the model achieved overall F1 scores of 80.06% on the Twitter-2015 dataset and 94.27% on the Twitter-2017 dataset,representing improvements of 1.34% and 3.80% over the state-of-the-art models,respectively.Additionally,the model demonstrates stronger generalization capabilities in cross-dataset evaluations compared to baseline models.

Key words:multimodal named entity recognition;vision transformers;multimodal fusion;social media;cross-attention mechanism

近年來,社交媒體平臺上用戶生成內(nèi)容的數(shù)量呈現(xiàn)爆炸式增長,內(nèi)容形式多為非結(jié)構(gòu)化的文本和圖像。為了從這些非結(jié)構(gòu)化數(shù)據(jù)中提取有用的信息,多模態(tài)命名實體識別(Multimodal Named Entity Recognition,MNER)逐漸成為研究熱點。MNER的目標是在帶有圖像的文本中識別并分類命名實體,具有廣泛的應(yīng)用前景,如多模態(tài)關(guān)系抽取[1]、多媒體搜索[2]等。

2025年9月第45卷第9期現(xiàn)代情報Journal of Modern InformationSep.,2025Vol.45 No.9

2025年9月第45卷第9期基于視覺語言Transformer的社交媒體命名實體識別研究

www.xdqb.net

Sep.,2025Vol.45 No.9

MNER面臨的主要挑戰(zhàn)是在單一模型中有效處理和融合多種模態(tài)信息,這需要精心設(shè)計模型結(jié)構(gòu)以確保信息處理和融合的高效性。Transformer是當(dāng)前自然語言處理領(lǐng)域的主流方法,其通過高效處理多種類型的序列數(shù)據(jù)在命名實體識別等多個任務(wù)中表現(xiàn)出色。現(xiàn)有的大多數(shù)MNER模型依賴Transformer進行文本特征提取或多模態(tài)特征融合[3-7]。然而,在圖像特征提取過程中,這些模型通常使用外部圖像處理器(如目標檢測、圖像描述生成和光學(xué)字符識別)。此外,許多研究還引入了輔助模塊以引導(dǎo)跨模態(tài)交互,如圖像文本關(guān)系預(yù)測[8-9]、輔助實體跨度檢測[5]和跨視圖對齊[4]。雖然這些圖像處理器和輔助模塊可以提升模型的性能,但它們同時也增加了模型的復(fù)雜性和不穩(wěn)定性。

最近,視覺Transformer(Vision Transformer,ViT)因其卓越的特征提取能力,在計算機視覺領(lǐng)域的研究中受到廣泛關(guān)注。在MNER任務(wù)中,CAT-MNER[3]率先采用預(yù)訓(xùn)練的視覺Transformer[10]進行視覺特征提取。具體而言,圖像被手動劃分為4×4網(wǎng)格,并直接輸入視覺Transformer,而無需額外的預(yù)處理步驟。使用統(tǒng)一的特征提取方法處理文本和圖像兩種模態(tài),有助于實現(xiàn)跨模態(tài)的特征對齊。

為了深入探討視覺Transformer在視覺語言(Vision-and-Language,VL)模型中的作用,本文提出了一種端到端的視覺語言Transformer(End-to-End VL Transformer,EVLT)框架,旨在構(gòu)建無需額外圖像處理和跨模態(tài)交互引導(dǎo)且完全基于Transforemr的視覺語言MNER模型。在此基礎(chǔ)上,本文全面分析了模型設(shè)計的各個方面,并從多個維度進行了深入研究。具體而言,本文詳細考察了視覺編碼器、文本編碼器、多模態(tài)融合模塊以及解碼架構(gòu)的設(shè)計。

本文提出了一種模塊化設(shè)計,以便在框架中對模型的多維度設(shè)計進行靈活分析。本文的研究意義在于:

1)提出了一個端到端的視覺語言MNER框架,該框架能夠統(tǒng)一且高效地處理來自不同模態(tài)的輸入。

2)基于所提框架,從多個維度深入研究了基于視覺語言Transformer的MNER模型設(shè)計。

3)通過結(jié)合框架內(nèi)最佳模型配置和后續(xù)提到的其他有效訓(xùn)練設(shè)置,成功訓(xùn)練出了在泛化能力和參數(shù)效率方面顯著提升的模型。

1 相關(guān)研究

1.1 命名實體識別

命名實體識別(Named Entity Recognition,NER)作為眾多自然語言處理任務(wù)的基礎(chǔ)步驟,長期以來吸引了研究界的廣泛關(guān)注。傳統(tǒng)的NER方法通常依賴特定領(lǐng)域知識與手工標注,并結(jié)合統(tǒng)計學(xué)習(xí)方法。然而,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,大多數(shù)NER方法已逐漸轉(zhuǎn)向深度學(xué)習(xí)。現(xiàn)有的監(jiān)督學(xué)習(xí)方法主要集中于設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以便將更多有價值的特征輸入分類器中。Hammerton J[11]首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用于命名實體識別,使用單向長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)進行序列建模,LSTM-CRF因此成為實體識別的基礎(chǔ)架構(gòu)。在此基礎(chǔ)上,Lample G等[12]提出了結(jié)合雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機場(Conditional Random Field,CRF)的神經(jīng)網(wǎng)絡(luò)模型,使模型能夠獲取上下文序列信息。Pinheiro P O等[13]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與CRF相結(jié)合,應(yīng)用于命名實體識別研究,在CoNLL-2003數(shù)據(jù)集上取得了良好效果。在化學(xué)領(lǐng)域,Luo L等[14]利用基于注意力機制的BiLSTM-CRF模型,進一步提升了實體識別的表現(xiàn)。隨著BERT模型的提出,之后研究的重點轉(zhuǎn)向了通過優(yōu)化BERT預(yù)訓(xùn)練模型來進一步提升它們在NER任務(wù)上的表現(xiàn)[15-16]。然而,這些方法多適用于正式文本中的NER任務(wù),面對社交媒體文本時效果往往不理想。為了解決該問題,研究者在NER模型輸入中加入了非文本模態(tài),從而在社交媒體文本上取得了更好的表現(xiàn)。此外,由于社交媒體中的圖文內(nèi)容占比越來越大,近年來的研究逐漸聚焦于多模態(tài)命名實體識別,利用圖像中的上下文信息來補充文本特征。

1.2 多模態(tài)命名實體識別

近年來,隨著多媒體數(shù)據(jù)資源的迅猛增長,多模態(tài)命名實體識別已成為研究熱點。現(xiàn)有研究致力于將文本和圖像等不同模態(tài)融合至統(tǒng)一模型中,以提升MNER任務(wù)的性能。然而,如何充分利用視覺信息仍是MNER面臨的關(guān)鍵挑戰(zhàn)之一。根據(jù)圖像編碼方式的不同,本文將現(xiàn)有的視覺語言MNER方法劃分為三類,如表1所示。

大多數(shù)方法采用了預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),如VGG(Visual Geometry Group CNN)、Inception和ResNet,以提取視覺特征。然而,CNN是從整幅圖像中提取特征,并在單一語義標簽上進行訓(xùn)練的,這可能導(dǎo)致MNER模型錯誤地將同一圖像中的不同實體類型識別為相同類型的實體。

為了解決這一問題,研究人員提出了多種方法來更精確地提取不同類型的實體特征。AGBAN[22]和OCSGA[23]都使用Mask RCNN[24]提取對象級別的特征,其中AGBAN從Mask RCNN的最后一個池化層中提取視覺對象特征,而OCSGA通過對象嵌入查找表將Mask RCNN識別的對象標簽映射為對應(yīng)的對象嵌入。最終,這兩種方法都通過全連接層將對象級別的特征映射到與文本特征維度一致的新向量空間中。ITA[4]通過把圖像描述、圖像標簽和光學(xué)字符識別結(jié)果與輸入文本拼接,將視覺特征對齊到文本空間中。UMGF[7]和MLNet[6]則使用外部預(yù)訓(xùn)練目標檢測器[25]和ResNet[26]來提取目標區(qū)域特征。雖然這些方法在一定程度上提升了模型性能,但代價是使計算時間顯著增加。此外,由于這些方法通常凍結(jié)預(yù)訓(xùn)練的圖像處理器,導(dǎo)致訓(xùn)練過程無法實現(xiàn)端到端優(yōu)化。最近,CAT-MNER[3]直接將圖像分割成4×4網(wǎng)格后輸入視覺Transformer,無需額外處理步驟就取得了顯著的效果。因此本文研究了視覺Transformer在完全基于Transformer的MNER模型中的表現(xiàn)。

跨模態(tài)交互在多模態(tài)融合中的作用一直是現(xiàn)有研究的核心議題。早期的研究通常采用簡單的門控注意力模塊來融合不同模態(tài)的特征,近年來,越來越多的研究開始將Transformer架構(gòu)應(yīng)用于多模態(tài)融合。其中,大多數(shù)方法通過協(xié)同注意力(Co-Attention)模塊對每種模態(tài)應(yīng)用獨立的Transformer模型進行特征融合,而RpBERT[9]和ITA[4]則采用合并注意力模塊(Merged Attention)將文本和視覺特征連接后輸入到單一的Transformer中進行處理。此外,UMGF[7]在協(xié)同注意力模塊的基礎(chǔ)上進一步結(jié)合了來自多模態(tài)圖的鄰近節(jié)點信息以增強融合效果。本文將在實驗部分對協(xié)同注意力模塊和合并注意力模塊兩種常用的多模態(tài)融合方法的效果進行評估。

大語言模型的興起為各種自然語言任務(wù)提供了統(tǒng)一的解決方案。Li J Y等[27]率先利用少樣本上下文學(xué)習(xí)讓ChatGPT生成輔助精煉知識,從而增強了模型在MNER任務(wù)中的性能。隨后,Li J Y等[28]將不同大語言模型生成的輔助精煉知識進行組合,進一步提升了模型的性能。然而,這些方法的效果高度依賴于大語言模型本身的性能,特別是其內(nèi)在的知識量。因此,使用參數(shù)較少的開源大語言模型往往難以獲得最佳性能,同時還需要消耗大量的本地計算資源。另外,通過API調(diào)用性能更強的大語言模型則會產(chǎn)生更多的計算成本,在大規(guī)模應(yīng)用中可能會產(chǎn)生顯著的經(jīng)濟壓力。當(dāng)前,基于大語言模型的方法在性能上并未顯著超越基于視覺語言Transformer架構(gòu)的最先進方法。此外,目前仍缺乏對基于視覺語言Transformer的MNER模型設(shè)計的系統(tǒng)性研究。因此,本文旨在通過實驗分析這類模型的設(shè)計,在保持較低計算成本的前提下提升模型性能。

2 視覺語言Transformer框架

通過總結(jié)現(xiàn)有模型,本文確定了視覺語言MNER模型中的幾個關(guān)鍵模塊,如圖1所示。本節(jié)首先定義了MNER任務(wù),然后介紹了EVLT框架中的各個模塊,為后續(xù)的實驗分析奠定基礎(chǔ)。

2.1 任務(wù)定義

給定一個句子S及其對應(yīng)的圖像V,MNER的目標是從句子S中識別出實體E,并將其分類為預(yù)定義的類型。MNER模型首先通過多模態(tài)編碼器提取文本特征S=(s1,s2,…,sn)和視覺特征V=(v1,v2,…,vn)。隨后,這些特征在多模態(tài)融合模塊中結(jié)合,以生成跨模態(tài)表示。最后,解碼器基于MNER數(shù)據(jù)集的預(yù)定義實體標簽集Y,為每個標記分配相應(yīng)的標簽y=(y1,y2,…,yN)。

2.2 視覺編碼器

本文重點研究了Patch特征,并探討了使用視覺Transformer作為視覺編碼器的方法。視覺Transformer是一種基于Transformer的架構(gòu),能夠?qū)D像分解為Patch序列,從而有效地捕捉全局和局部的視覺特征。近年來,CLIP[29]作為視覺語言預(yù)訓(xùn)練模型的代表,獲得了廣泛關(guān)注。CLIP將ResNet和視覺Transformer作為圖像編碼器,并結(jié)合了基于Transformer的文本編碼器,在一個包含4億圖文對的數(shù)據(jù)集上預(yù)訓(xùn)練后,CLIP在ImageNet數(shù)據(jù)集上展現(xiàn)了顯著的零樣本學(xué)習(xí)能力。相比之下,Swin Transformer[30]則采用分層設(shè)計和窗口移動機制,解決了原始視覺Transformer在處理不同尺度的視覺實體以及高計算需求方面的問題。本文將對CLIP-ViT和Swin Transformer進行比較,以全面分析視覺Transformer在EVLT框架下的應(yīng)用潛力。

2.3 文本編碼器

在EVLT框架中,文本編碼器的主要功能是處理輸入數(shù)據(jù)中的文本模態(tài),即社交媒體帖子中的文本內(nèi)容。EVLT使用基于Transformer的語言模型(Language Model,LM)作為文本編碼器。參考UMGF中的做法,本文首先利用LM的分詞器將輸入句子切分為Token序列,并針對單詞被分割為多個Token的情況重新生成Token標簽。在獲取文本嵌入后,現(xiàn)有方法通常采用以下兩種策略:一種是直接將文本嵌入與視覺特征進行融合[4,9];另一種是在融合前使用預(yù)訓(xùn)練的LM從文本嵌入中提取文本特征[3,7]。對于ITA這種將圖像對齊到文本空間中的特殊方法,可以直接將圖像相關(guān)文本與輸入文本進行拼接后再提取融合特征。然而,本文的目標并非直接將文本嵌入輸入到多模態(tài)融合模塊中,而是首先通過文本編碼器提取出更具代表性的文本特征。

盡管已有許多基于Transformer的預(yù)訓(xùn)練語言模型在各種任務(wù)中表現(xiàn)出色,但大多數(shù)MNER模型仍主要采用BERT作為文本編碼器的初始化模型[5,7,19]。為了找出最適合MNER任務(wù)的預(yù)訓(xùn)練語言模型,本文系統(tǒng)地研究了ALBERT[31]、BERT[32]、DeBERTa[33]、ELECTRA[34]和RoBERTa[35]的文本編碼性能。此外,本文還探索了直接使用BERT嵌入層輸出與視覺特征相融合的效果。

2.4 多模態(tài)融合

在多模態(tài)命名實體識別中,常用的多模態(tài)融合模塊主要分為兩類:雙流模式下的協(xié)同注意力和單流模式下的合并注意力,如圖2所示。協(xié)同注意力模塊通過兩個獨立的Transformer模型并行處理文本和視覺特征,并利用交叉注意力機制實現(xiàn)跨模態(tài)交互。相比之下,合并注意力模塊則在單個Transformer模型中融合文本和視覺特征。對于那些通過圖像標注等技術(shù)將圖像與文本空間對齊的模型,使用合并注意力或協(xié)同注意力模塊的性能差異不顯著。然而,由于合并注意力模型在處理兩種模態(tài)時使用統(tǒng)一的參數(shù)集,因此在參數(shù)效率上更具優(yōu)勢。本文評估了這兩種融合模塊在兩個公開MNER數(shù)據(jù)集上的效果。

2.5 解碼架構(gòu)

在大多數(shù)MNER模型中,最終的多模態(tài)表示通常通過CRF解碼器進行實體標注,如圖3(a)所示。CRF層不僅依賴線性層生成的實體預(yù)測標簽,還通過施加約束條件以確保預(yù)測標簽的有效性。設(shè)線性層的輸出為E=(E1,E2,…,En),其中Ei∈n表示第i個詞對應(yīng)的所有n個標簽的發(fā)射分數(shù)。接著,將E輸入CRF層,CRF層在給定輸入句子S及其對應(yīng)圖像V的情況下,計算標簽序列y出現(xiàn)的可能性,如式(1)、式(2)所示:

P(y|S,V)=exp(score(E,y))∑y′exp(score(E,y′))(1)

score(E,y)=∑ni=0Tyi,yi+1+∑ni=0Eyii(2)

其中,Tyi,yi+1表示從標簽yi到標簽yi+1的轉(zhuǎn)移分數(shù),Eyii表示第i個詞的標簽yi的發(fā)射分數(shù)。

訓(xùn)練過程中的優(yōu)化目標是最小化負對數(shù)似然估計,如式(3)所示:

LCRF=-∑ilog(P(y|S,V))(3)

近年來,基于跨度(Span)的解碼器在MNER模型中的應(yīng)用引起了廣泛關(guān)注。CAT-MNER是其中一個典型例子,它引入了一種基于跨度的解碼器以替代傳統(tǒng)的CRF解碼器,如圖3(b)所示。這種方法通過確定實體跨度的起始和結(jié)束位置,并為其分配相應(yīng)的實體標簽,重新定義了命名實體識別的過程。在CAT-MNER中,解碼器首先枚舉句子中的所有可能跨度{si}Ni=1,然后連接每個跨度si={wm,…,wn}的首尾標記,并將其輸入線性層以預(yù)測實體類型,如式(4)所示:

P(c|si)=exp(lci)∑c′

exp(lc′i)(4)

其中,lci表示實體類型c的Logit值。

基于跨度的模型訓(xùn)練目標是正確分類指定跨度的實體類型,使用交叉熵損失函數(shù)如式(5)所示:

Lspan=-∑i∑cycilog(P(c|si))(5)

其中,yci表示第i個跨度的二進制真實標簽。

本文將在后續(xù)內(nèi)容中詳細探討這兩種解碼器的優(yōu)缺點。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

為了方便對比,本文使用Twitter-2015[17]和Twitter-2017[20]兩個廣泛應(yīng)用的MNER數(shù)據(jù)集進行模型訓(xùn)練,在對Twitter-2017數(shù)據(jù)集預(yù)處理時移除了其中缺失圖像文件的樣本。表2展示了各數(shù)據(jù)集劃分中樣本數(shù)量及實體類型的概況。

3.2 模型設(shè)計研究

3.2.1 默認設(shè)置和評價指標

如圖1所示,EVLT框架中存在多種模型組合設(shè)計。為了找到最佳的模型組合,本文首先對模型設(shè)計進行了深入研究,并在3.3中介紹了使用的默認配置。默認情況下,視覺編碼器和文本編碼器分別采用CLIP-ViT-16和RoBERTa。其中,CLIP-ViT-N中的N表示Patch大小。多模態(tài)融合模塊默認使用協(xié)同注意力機制,該機制由兩組對稱的6層Transformer編碼層組成。在跨模態(tài)特征表示生成后,這些表示將默認輸入到CRF解碼器中,以生成每個Token的標簽。多模態(tài)融合模塊的隱藏層大小設(shè)為768,注意力頭數(shù)量為12。模型訓(xùn)練使用AdamW[36]優(yōu)化器,批處理大小為256,底層和頂層的學(xué)習(xí)率分別為1e-5和1e-4。所有任務(wù)均訓(xùn)練10輪,使用5個不同隨機種子運行5次,取模型在驗證集上的平均F1得分作為評價指標。

3.2.2 文本和視覺編碼器分析

由于MNER模型的目標是利用視覺模態(tài)來輔助從文本模態(tài)中提取實體,本文首先比較了在無視覺模態(tài)輸入時不同文本編碼器的性能表現(xiàn)。接著,通過枚舉不同組合的方式,探索了文本編碼器和視覺編碼器的組合效果。

表3顯示,在沒有視覺模態(tài)的情況下,不同文本編碼器的性能存在顯著差異。ALBERT和DeBERTa在默認配置下表現(xiàn)更為優(yōu)越。此外,僅使用BERT嵌入層的模型在默認配置下無法訓(xùn)練收斂,這表明在命名實體識別任務(wù)中預(yù)訓(xùn)練的文本編碼器對于模型的有效性至關(guān)重要。

本文對不同文本編碼器與視覺編碼器的組合模型進行了對比分析。基于表3的結(jié)果,文本編碼器選擇了ALBERT、BERT和DeBERTa,視覺編碼器為CLIP-ViT-32、CLIP-ViT-16和Swin Transformer。如表4所示,所有多模態(tài)組合模型的表現(xiàn)均優(yōu)于相應(yīng)的僅包含文本模態(tài)的模型,凸顯了融合視覺信息的優(yōu)勢。引入視覺模態(tài)后,文本編碼器之間的性能差異有所縮小,特別是BERT和DeBERTa在兩個數(shù)據(jù)集上的表現(xiàn)尤為出色。其中,CLIP-ViT-16與DeBERTa的組合模型在兩個數(shù)據(jù)集上均獲得了最高的F1分數(shù),分別為66.25和87.02。

3.2.3 多模態(tài)融合模塊分析

本文將按照3.2所述的默認設(shè)置對協(xié)同注意力模塊和合并注意力模塊的多模態(tài)融合效果進行評估。協(xié)同注意力模塊利用兩個包含N個編碼層的Transformer架構(gòu)分別處理不同模態(tài)特征,其中每個編碼層相較于標準編碼層都增加了一個交叉注意模塊。合并注意力模塊則使用一個包含M個標準編碼層的Transformer架構(gòu)。為了使兩個模塊的參數(shù)數(shù)量相當(dāng),設(shè)定M=12、N=6。為了增強模型區(qū)分不同模態(tài)的能力,在輸入多模態(tài)融合模塊前將一組可訓(xùn)練的模態(tài)類型嵌入與輸入特征相加。

表5是協(xié)同注意力模塊和合并注意力模塊的性能對比展示。在本文的實驗設(shè)置下,協(xié)同注意力模塊表現(xiàn)優(yōu)于合并注意力模塊,這表明為不同模態(tài)采用獨立參數(shù)集的重要性。類似的方法已在許多先前研究中得到了應(yīng)用[5-7,13]。

3.2.4 解碼架構(gòu)分析

本文對比了CRF解碼器與基于跨度的解碼器架構(gòu)。基于跨度的解碼器首先生成最大長度為8的所有可能的跨度,并過濾掉超出序列索引范圍的跨度。由于該解碼器收斂速度較慢,所有模型都進行了20輪訓(xùn)練。

從表6可以看出,在Twitter-2015數(shù)據(jù)集上基于跨度的解碼器和CRF解碼器的表現(xiàn)相當(dāng),而在Twitter-2017數(shù)據(jù)集上CRF解碼器的性能顯著優(yōu)于基于跨度的解碼器。出現(xiàn)這一差異的主要原因在于基于跨度的解碼器相對較慢的收斂速度,如圖4所示。盡管通過增加訓(xùn)練輪次可能會縮小這兩種解碼器之間的性能差距,但考慮到計算效率和訓(xùn)練穩(wěn)定性,CRF解碼器更適合本文提出的框架。

3.2.5 學(xué)習(xí)率設(shè)置分析

為探討不同學(xué)習(xí)率設(shè)置對模型性能的影響,本文首先嘗試了4種先前研究[3,5,7]中常用的學(xué)習(xí)率設(shè)置。表7的結(jié)果顯示,在某個閾值之前,增加學(xué)習(xí)率可以顯著提升模型性能。然而,進一步增加學(xué)習(xí)率會導(dǎo)致性能停滯甚至下降,在某些情況下還可能導(dǎo)致訓(xùn)練失敗。這些發(fā)現(xiàn)表明學(xué)習(xí)率與模型性能并非一直呈正相關(guān),凸顯了選擇適當(dāng)學(xué)習(xí)率的重要性。

與以往研究[4,9]類似,本文在模型的頂層和底層部分采用了不同的學(xué)習(xí)率。圖5顯示,當(dāng)頂層和底層的學(xué)習(xí)率比值從1倍增加到5倍時,模型性能有所提升。這是由于底層參數(shù)來自預(yù)訓(xùn)練模型,已經(jīng)具備了某種程度的視覺和語言知識,而頂層參數(shù)是隨機初始化的,因此需要較大的學(xué)習(xí)率進行調(diào)整。然而,當(dāng)比值從5倍增加到10倍時,模型性能卻出現(xiàn)下降,表明過高的學(xué)習(xí)率會對模型的收斂產(chǎn)生負面影響,使其難以達到最優(yōu)解。

3.3 基線模型對比實驗

3.3.1 實驗設(shè)置與評價指標

本節(jié)評估了EVLT框架中最佳模型配置的表現(xiàn):使用CLIP-ViT-16與DeBERTa的編碼器組合,并集成了協(xié)同注意力融合模塊和CRF解碼器。為了全面評估該模型,本文在公開數(shù)據(jù)集Twitter-2015和Twitter-2017上進行了實驗,并與已有研究成果進行對比。為優(yōu)化模型性能,本文針對不同數(shù)據(jù)集

圖5 不同頂層學(xué)習(xí)率與底層學(xué)習(xí)率比值對比Fig.5 Comparison of the Ratio of Different Top Learning Rates to Bottom Learning Rates

分別設(shè)置了學(xué)習(xí)率:在Twitter-2015數(shù)據(jù)集中,底層學(xué)習(xí)率為1e-4,頂層學(xué)習(xí)率為5e-4;在Twitter-2017數(shù)據(jù)集中,底層學(xué)習(xí)率為5e-5,頂層學(xué)習(xí)率為2.5e-4。為提升模型的泛化能力和訓(xùn)練穩(wěn)定性,訓(xùn)練過程中使用RandAugment[37]數(shù)據(jù)增強策略,采用10%步數(shù)的學(xué)習(xí)率預(yù)熱策略,并在預(yù)熱完成后逐步將學(xué)習(xí)率衰減至零。最終,對模型進行了50輪訓(xùn)練,并報告了測試集上每個非雜項類別的F1分數(shù),以及整體的準確率、召回率和F1分數(shù)。

3.3.2 基線模型

為驗證本文模型的有效性,選擇了多個基線模型進行對比。首先,評估了幾種具有代表性的文本命名實體識別方法。

BiLSTM-CRF:該經(jīng)典模型由一個雙向LSTM層和一個CRF層組成。

CNN-BiLSTM-CRF:在BiLSTM-CRF的基礎(chǔ)上進行改進,通過將每個單詞的詞嵌入與基于CNN的字符級詞表示拼接。

BERT-CRF:使用多層雙向Transformer編碼器,后接一個CRF解碼器。

BERT-SPAN:采用多層雙向Transformer編碼器,后接基于跨度的解碼器。

其次,對比多種多模態(tài)命名實體識別方法,這些方法的詳細配置在前文相關(guān)研究部分有描述,具體包括OCSGA、UMT、UMGF、MAF和CAT-MNER。此外,還對比了兩種最先進的基于大語言模型的方法:PGIM(Prompt ChatGPT In MNER)和RiVEG(Refined Visual Entailment and Grounding)。PGIM使用ChatGPT生成的輔助知識,RiVEG則結(jié)合了ChatGPT、Vicuna和LlaMA2生成的多源輔助知識,以提升模型性能。

為與原始方法保持一致,對于CAT-MNER-large、PGIM和RiVEG,采用Large版本的文本編碼器,而其他模型則使用Base版本。同時,本文分別訓(xùn)練了EVLT模型的Base和Large版本,以便與基線模型在不同編碼器版本下進行公平對比。

3.3.3 實驗結(jié)果分析

表8展示了本文模型與其他基線模型的性能對比,從中可以發(fā)現(xiàn)幾個關(guān)鍵結(jié)果。首先,使用Transformer提取文本特征能夠顯著提升單模態(tài)模型的性能;其次,對于多模態(tài)模型而言,基于視覺Transformer的視覺語言模型在性能上優(yōu)于傳統(tǒng)的基于目標檢測器的方法,這表明與傳統(tǒng)方法相比,視覺Transformer能夠在MNER任務(wù)中更有效地提取補充上下文信息的視覺特征;最后,本文模型在兩個數(shù)據(jù)集上的整體表現(xiàn)均優(yōu)于使用相同版本文本編碼器的其他基線模型。其中,EVLT-large在Twitter-2015和Twitter-2017數(shù)據(jù)集上分別取得了80.06%和94.27%的整體F1分數(shù),超越了目前最先進的基于視覺語言模型的方法CAT-MNER-large。此外,該模型的表現(xiàn)也優(yōu)于目前最先進的基于大語言模型的方法RiVEG,這證明視覺語言Transformer在MNER任務(wù)中具有巨大潛力,同時其避免了使用大語言模型生成輔助知識所帶來的計算成本和時間成本。

表9比較分析了本文模型與基線模型在泛化能力方面的表現(xiàn),所有模型均采用了Base版本的文本編碼器。“Twitter-2017→Twitter-2015”表示模型在Twitter-2017數(shù)據(jù)集上進行訓(xùn)練,并在Twitter-2015數(shù)據(jù)集上進行測試,反之亦然。結(jié)果表明,本文模型顯著優(yōu)于基線模型,進一步證明了其卓越的泛化能力。

3.4 案例分析

圖6展示了兩個交叉注意力可視化示例,用于說明交叉注意力機制在復(fù)雜跨模態(tài)交互中的優(yōu)勢。交叉注意力機制通過多層次逐步聚焦,使得模型能夠準確識別和關(guān)聯(lián)多模態(tài)信息。在圖6(a)中,示例涉及一個一對多實體對齊的問題。通常情況下,文本中的“Buddy”會被關(guān)聯(lián)到圖像中的人物形象,尤其是戴領(lǐng)帶的角色。然而,交叉注意力機制能夠引導(dǎo)模型將注意力集中于圖中實際的目標對象——“狗”的視覺特征,而非傳統(tǒng)理解中的“人物”,從而實現(xiàn)跨模態(tài)的精準對齊。圖6(b)展示了該機制在處理新實體時的能力,例如“GIS”這個未曾見過的概念。通過交叉注意力機制,模型能夠識別到與“GIS”相關(guān)的程序建模區(qū)域,從而實現(xiàn)跨模態(tài)知識的遷移與適應(yīng)。這一策略顯著提升了模型在未見數(shù)據(jù)上的泛化能力,使其在處理未標注、稀缺樣本時仍能有效工作。

從第一層到最終層的注意力圖變化展示了模型在逐層對特定實體區(qū)域進行更為精確的聚焦。初始層的注意力分布相對廣泛,隨著層數(shù)加深,模型通過不斷調(diào)整,最終將注意力精確鎖定到目標實體的視覺區(qū)域。這種逐層細化的過程表明,交叉注意力機制不僅在初始識別上具備優(yōu)勢,還能在深層次上優(yōu)化對跨模態(tài)實體的理解和定位。

4 結(jié) 語

本文提出了一種端到端的視覺語言Transformer框架,并深入研究了該框架下的MNER模型設(shè)計。首先,通過模型設(shè)計研究,確定了框架內(nèi)的最佳模型配置。隨后,通過與基線模型的對比實驗,證明該模型在無需額外的圖像處理或輔助模塊的情況下,顯著提升了整體性能和泛化能力。值得一提的是,當(dāng)采用Base版本的文本編碼器時,模型表現(xiàn)已接近當(dāng)前最先進的視覺語言MNER模型,而采用Large版本的文本編碼器后,該模型在兩個數(shù)據(jù)集上超過了所有基線模型,包括基于大語言模型的方法,取得了最佳整體指標。

本研究展示了如何利用端到端的深度學(xué)習(xí)模型在命名實體識別任務(wù)中有效提升性能,特別是在數(shù)據(jù)噪聲較大和信息模態(tài)多樣的社交媒體場景下具有重要意義,這為未來信息資源管理學(xué)科中多模態(tài)信息處理模型的設(shè)計和優(yōu)化提供了理論支持和實踐經(jīng)驗。然而,本研究仍存在一些不足之處。首先,由于缺乏相關(guān)的人工標注數(shù)據(jù),實驗僅在兩個公開的英文Twitter數(shù)據(jù)集上進行,這在一定程度上限制了模型的泛化性驗證。此外,本文注意到已有研究在中文多模態(tài)命名實體識別數(shù)據(jù)集構(gòu)建方面取得了進展[38]。因此,未來的研究方向是將本文提出的模型應(yīng)用于中文數(shù)據(jù)集或多語言數(shù)據(jù)集,以進一步驗證其在跨語言和跨文化背景下的適用性。

參考文獻

[1]王震宇,朱學(xué)芳,楊睿.基于多模態(tài)大語言模型的關(guān)系抽取研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2025,9(1):90-99.

[2]蔣樹強,劉青山,孫立峰,等.多媒體內(nèi)容的多維度相似性計算與搜索專題前言[J].軟件學(xué)報,2020,31(7):1931-1932.

[3]Wang X W,Ye J B,Li Z X,et al.CAT-MNER:Multimodal Named Entity Recognition with Knowledge-Refined Cross-Modal Attention[C]//2022 IEEE International Conference on Multimedia and Expo,2022:1-6.

[4]Wang X Y,Gui M,Jiang Y,et al.ITA:Image-Text Alignments for Multi-Modal Named Entity Recognition[C]//Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2022:3176-3189.

[5]Yu J F,Jiang J,Yang L,et al.Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics,2020:3342-3352.

[6]Zhai H M,Lv X J,Hou Z W,et al.MLNet:A Multi-Level Multimodal Named Entity Recognition Architecture[J].Frontiers in Neurorobotics,2023,17:1181143.

[7]Zhang D,Wei S Z,Li S S,et al.Multi-Modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(16):14347-14355.

[8]Sun L,Wang J Q,Su Y D,et al.RIVA:A Pre-Trained Tweet Multimodal Model Based on Text-Image Relation for Multimodal NER[C]//Proceedings of the 28th International Conference on Computational Linguistics,2020:1852-1862.

[9]Sun L,Wang J Q,Zhang K,et al.RpBERT:A Text-Image Relation Propagation-Based BERT Model for Multimodal NER[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(15):13860-13868.

[10]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale[EB/OL].[2024-10-15].https://arxiv.org/pdf/2010.11929.

[11]Hammerton J.Named Entity Recognition with Long Short-Term Memory[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003,2003:172-175.

[12]Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures for Named Entity Recognition[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2016:260-270.

[13]Pinheiro P O,Collobert R.Recurrent Convolutional Neural Networks for Scene Labeling[C]//International Conference on Machine Learning,2014:82-90.

[14]Luo L,Yang Z H,Yang P,et al.An Attention-Based BiLSTM-CRF Approach to Document-Level Chemical Named Entity Recognition[J].Bioinformatics,2018,34(8):1381-1388.

[15]Liu Y J,Meng F D,Zhang J C,et al.GCDT:A Global Context Enhanced Deep Transition Architecture for Sequence Labeling[EB/OL].[2024-10-15].https://arxiv.org/pdf/1906.02437.

[16]Luo Y,Xiao F S,Zhao H.Hierarchical Contextualized Representation for Named Entity Recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(5):8441-8448.

[17]Zhang Q,F(xiàn)u J L,Liu X Y,et al.Adaptive Co-Attention Network for Named Entity Recognition in Tweets[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence,2018:5674-5681.

[18]Moon S,Neves L,Carvalho V.Multimodal Named Entity Recognition for Short Social Media Posts[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2018:852-860.

[19]Liu L P,Wang M L,Zhang M Z,et al.UAMNer:Uncertainty-Aware Multimodal Named Entity Recognition in Social Media Posts[J].Applied Intelligence,2022,52(4):4109-4125.

[20]Lu D,Neves L,Carvalho V,et al.Visual Attention Model for Name Tagging in Multimodal Social Media[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018:1990-1999.

[21]Xu B,Huang S Z,Sha C F,et al.MAF:A General Matching and Alignment Framework for Multimodal Named Entity Recognition[C]//Proceedings of the 15th ACM International Conference on Web Search and Data Mining,2022:1215-1223.

[22]Zheng C M,Wu Z W,Wang T,et al.Object-Aware Multimodal Named Entity Recognition in Social Media Posts with Adversarial Learning[J].IEEE Transactions on Multimedia,2020,23:2520-2532.

[23]Wu Z W,Zheng C M,Cai Y,et al.Multimodal Representation with Embedded Visual Guiding Objects for Named Entity Recognition in Social Media Posts[C]//Proceedings of the 28th ACM International Conference on Multimedia,2020:1038-1046.

[24]He K M,Gkioxari G,Dollár P,et al.Mask R-CNN[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,42(2):386-397.

[25]Yang Z Y,Gong B Q,Wang L W,et al.A Fast and Accurate One-Stage Approach to Visual Grounding[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2019:4683-4693.

[26]He K M,Zhang X Y,Ren S Q,et al.Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.

[27]Li J Y,Li H,Pan Z,et al.Prompting ChatGPT in MNER:Enhanced Multimodal Named Entity Recognition with Auxiliary Refined Knowledge[C]//Findings of the Association for Computational Linguistics,2023:2787-2802.

[28]Li J Y,Li H,Sun D,et al.LLMs as Bridges:Reformulating Grounded Multimodal Named Entity Recognition[EB/OL].[2024-10-15].https://arxiv.org/pdf/2402.09989.

[29]Radford A,Kim J W,Hallacy C,et al.Learning Transferable Visual Models from Natural Language Supervision[C]//International Conference on Machine Learning,2021:8748-8763.

[30]Liu Z,Lin Y,Cao Y,et al.Swin Transformer:Hierarchical Vision Transformer Using Shifted Windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:10012-10022.

[31]Lan Z Z,Chen M D,Goodman S,et al.ALBERT:A Lite Bert for Self-Supervised Learning of Language Representations[EB/OL].[2024-10-15].https://arxiv.org/pdf/1909.11942.

[32]Devlin J,Chang M,Lee K,et al.BERT:Pre-Training of Deep Bidirectional Transformers for Language Understanding[EB/OL].[2024-10-15].https://arxiv.org/pdf/1810.04805.

[33]He P C,Liu X D,Gao J F,et al.DeBERTa:Decoding-Enhanced BERT with Disentangled Attention[EB/OL].[2024-10-15].https://arxiv.org/pdf/2006.03654.

[34]Clark K,Luong M T,Le Q V,et al.ELECTRA:Pre-Training Text Encoders as Discriminators Rather than Generators[EB/OL].[2024-10-15].https://arxiv.org/pdf/2003.10555.

[35]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach[EB/OL].[2024-10-15].https://arxiv.org/pdf/1907.11692.

[36]Loshchilov I,Hutter F.Decoupled Weight Decay Regularization[EB/OL].[2024-10-15].https://arxiv.org/pdf/1711.05101.

[37]Cubuk E D,Zoph B,Shlens J,et al.Randaugment:Practical Automated Data Augmentation with a Reduced Search Space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,2020:702-703.

[38]季源澤,李霏.CMNER:基于微博的中文多模態(tài)實體識別數(shù)據(jù)集[J].計算機技術(shù)與發(fā)展,2024,34(10):110-117.

(責(zé)任編輯:楊豐僑)

主站蜘蛛池模板: 久久久久国产精品熟女影院| 免费a在线观看播放| 亚洲精品视频免费| 久久中文无码精品| 青青草国产一区二区三区| 国产一区二区福利| 亚洲成年人网| 国产午夜精品鲁丝片| 四虎免费视频网站| 高h视频在线| 性色一区| 国产欧美日韩一区二区视频在线| 伊人激情久久综合中文字幕| 精品福利一区二区免费视频| 精品久久久久久中文字幕女| 亚洲V日韩V无码一区二区| 国产精品浪潮Av| 日韩精品久久久久久久电影蜜臀| 狠狠亚洲五月天| 国产黄色视频综合| 美女一级毛片无遮挡内谢| 波多野结衣爽到高潮漏水大喷| 精品乱码久久久久久久| 欧亚日韩Av| 日韩一区二区三免费高清| 国产香蕉在线视频| 国产h视频免费观看| 亚洲视频欧美不卡| 欧美色综合网站| 毛片网站在线看| 亚洲成a人片| 亚洲欧美不卡视频| 在线观看欧美国产| 最新国产你懂的在线网址| 日韩欧美网址| 国产一在线| 亚洲无码高清一区二区| 草逼视频国产| 国产成人精品一区二区秒拍1o| 亚洲成aⅴ人在线观看| 亚洲天堂区| 国产不卡国语在线| 亚洲人成网站18禁动漫无码 | 亚洲一级色| 日韩av高清无码一区二区三区| 高清无码不卡视频| 中文字幕乱码中文乱码51精品| 青青操视频在线| 四虎AV麻豆| 亚洲人成网站色7799在线播放| 综合色88| 凹凸国产熟女精品视频| 国产一区二区三区精品久久呦| 色综合激情网| 亚洲高清资源| 久久综合伊人77777| 一级香蕉视频在线观看| 精品国产自| 久操线在视频在线观看| 亚洲va在线观看| 国产丝袜无码一区二区视频| 色婷婷亚洲综合五月| 精品少妇三级亚洲| 欧美日韩高清| 亚洲无码高清一区二区| 在线观看av永久| 欧美三级自拍| a级毛片免费在线观看| 日韩福利在线观看| 波多野结衣中文字幕一区二区| 亚洲欧美不卡中文字幕| 日韩人妻无码制服丝袜视频| 青青草原国产| 亚洲欧美国产视频| 午夜不卡视频| 欧美在线黄| 影音先锋丝袜制服| 久夜色精品国产噜噜| 婷婷综合亚洲| 国产不卡一级毛片视频| 亚洲欧美日本国产综合在线| 老司国产精品视频|