關鍵詞:多模態命名實體識別;語義對齊偏差;語義增強;模態協同;注意力機制中圖分類號:TP391.1 文獻標志碼:A 文章編號:1001-3695(2025)08-019-2390-08doi:10.19734/j. issn.1001-3695.2025.01.0021
Visual-text cooperation and hierarchical fusion for multimodal named entity recognition method
Feng Guangat,Liu Tianxiangb,Yang Yanrub, Zheng Runting?,Zhong Tinga,Lin Jianzhonga,Huang Rongcan (a.SchoolofAutomation,b.SchoolofComputer Science,GuangdongUniversityofTechnology,Guangzhou51o6,China)
Abstract:MNERaimsto improve theaccuracyof named entityrecognitionbycombiningtextand image information.However,existingmethodsuderutilizethesemanticfeaturesofbothtextandimagesduetoirrgulartextexpressonsandtefocus of imagefeatureextractiononlocalinformationToaddressthisissue,thispaperproposedavisual-textcoperationandhierar chicalfusion(VTCHF)modelfornamedentityrecognition.Themodelutilized globalvisualfeatures tocomplementvisualsemanticsandfullleveragedboth imageand textfeatures throughacooperativeauto-variational encoder.Thisencodergenerated featurescontainingvisualcontextualinformation,whichsuppementedtextualsemantics.Furthermore,itdesignedaerarhicalfusionmoduletopre-fusetheimageand textfeaturesalong withtheirsemanticfeatures,enhancingthegranularityof visual semantics and mitigating alignment biases in subsequent fusion proceses.Experimental resultsonseveralpublicdatasets demonstrate that the model significantly improves the accuracy,recall,and F1 score of named entity recognition,validating the superiorperformance of the algorithm.
Key words:multimodal named entityrecognition(MNER);semantic alignment bias;semantic enhancement; modal synergy; attentionmechanism
0 引言
隨著人工智能的迅猛發展,智慧課堂作為教育信息化的產物[1],正逐步演變為跨領域知識共享與協作的重要平臺。通過社交平臺和在線學習工具,師生可以實時分享知識、探討觀點、交流學習動態,形成互動豐富的學習環境。智慧課堂參與者的表達方式多樣,涵蓋文字、圖像、視頻等多模態形式,極大地提升了學生的學習體驗與效果。在此背景下,準確提取和識別教學過程中關鍵信息(如概念、定義和理論等)的需求日益增加。而多模態命名實體識別(MNER)作為信息抽取任務的重要組成部分,旨在準確識別目標模態中所包含的實體,并將其歸類為預定義類別(如人名PER、組織ORG、位置LOC等)。
然而,現有方法在跨模態語義對齊上面臨雙重挑戰:圖文語義特征缺失與多模態融合偏差,嚴重制約教學場景中知識元素的準確提取。
早期工作如 Lu 等人[2]和 Moon 等人[3]提出利用圖像視覺線索來增強文本語義,但忽視了模態間的語義鴻溝一—當視覺線索與文本數據弱相關時,旨在提升文本語義信息的視覺線索轉變為噪聲數據,從而錯誤預測實體的準確類型。因此,隨后工作通過改進模態交互機制緩解該問題: ACN[4] 采用自適應協同注意網絡與門控機制關聯,并過濾文本和視覺相關信息和噪聲。RpBERT[5]推斷文本圖像關系,過濾不適當的視覺注意線索對文本推理產生的負面影響。UAMNer[感知量化模態信息的不確定性,動態決策最大化每個模態的貢獻。然而,這些方法僅聚焦于粗粒度特征融合(如圖像的粗粒度特征),但忽略了具體視覺對象和命名實體之間的映射關系,并不能確保視覺語義的完整性,誤導模型將不同類型的實體提取為同一類型。為此,相關研究開始關注于細粒度特征對齊:AGBAN[7]利用細粒度對象級特征捕獲視覺對象和文本實體之間的映射關系,并通過對抗性學習緩解多模態表示的分布差異。UMGF[8]使用多模態圖捕獲多模態語義單元(文本和視覺對象)之間的各種語義關系。OCSGA[9]利用細粒度對象級視覺標簽連接視覺和文本,從而緩解模態間的語義差異。然而,盡管這些方法提升了細粒度對齊能力,仍存在兩個關鍵局限:a)局部語義補充不足?,F有視覺特征提取器(如ResNet)難以捕捉圖像全局語義,無法有效補充短文本中的隱含信息(如教學圖示中的理論符號)。b)層級對齊缺失。單階段融合機制易造成模態表征的淺層混合,無法消除圖文語義偏差。
針對上述問題,本文提出了基于視覺-文本協同層級融合(VTCHF)框架,其核心設計直指現有方法的雙重局限:a)針對特征提取器導致的語義缺失問題,通過 ViT[10] 提取全局視覺特征作為視覺語義補充,并結合協同自變分編碼器,采樣生成視覺上下文感知的文本補充表示,解決短文本語義稀疏問題;b)設計層級融合模塊融合多層級語義特征,實現多粒度特征對齊,通過專家模型驅動的自適應過濾機制,逐層消除模態間的語義偏差,同步補償文本視覺特征的語義完備性。
本文的主要貢獻總結如下:a)提出一種協同挖掘文本和視覺特征語義層次的MNER方法,通過雙潛在采樣特征與對抗判別機制有效解決高噪聲短文本中的語義缺失問題。b)構建雙流層級融合架構,利用專家知識約束自適應補償文本側和圖像側的語義層次豐富性,減小多模態表征的對齊偏差。c)在兩個公開數據集Twitter-2015和Twitter-2017上進行大量實驗,消融建模性能提升的驅動因素,證明所提方法在MNER任務中優異有效。
1相關研究
1.1 多模態命名實體識別
隨著社交媒體上多模態貼子的快速增長,多模態命名實體識別任務備受關注。該任務最早由 Moon 等人[3]提出,旨在為高噪聲文本的實體識別提供語義信息支撐。Lu等人[2]認為多模態命名實體識別本質上仍為序列標注問題,文本依賴圖像輔助實體識別。這些方法均集中于通過設計各種類型的跨模態注意機制來對文本-圖像交互進行建模。隨著近年來深度學習的發展,Zhang等人[8]基于圖神經網絡,捕獲多模態語義單元之間的細粒度語義關系。Sun等人[5]認為文本無關的視覺線索會對多模態模型的學習產生不確定甚至負面的影響,提出了一種基于多任務的視覺線索提取算法,并結合軟、硬門控進行視覺線索的提取。Jia等人[1]提出整合圖像和文本信息,根據實體類型和視覺區域的先驗知識進一步增強文本和圖像的表示。在最新研究中,文獻[12]通過跨模態注意力機制融合文本、字符、區域視覺等多模態特征,利用多任務解碼器實現細粒度語義解析,同時引入KL散度標簽對齊和對抗學習策略優化模態間語義一致性。
然而,現有方法在特征對齊機制上仍存在固有局限:a)注意力機制僅實現特征空間的重加權,無法生成跨模態上下文感知的補償表示;b)多階段融合過程中粗粒度對齊誤差逐層累積,導致實體-視覺對象映射失真,最終將不相關的視覺信息傳播到文本中。因此,本文分別引入文本和圖像的語義補充特征,通過層級融合模塊分別過濾文本及圖像信息中的冗余特征,補償細粒度語義表示,對齊文本與視覺區域。
1.2生成對抗自變分編碼器
對抗自變分編碼器(AVAE)是一種結合了變分自編碼器(VAE)[13~15]和生成對抗網絡(GAN)[16,17]特性的模型,利用對抗學習來改善生成樣本的質量,同時保持變分推斷的優勢。VAE和GAN是兩種性能優異的模型,各有其優缺點。在圖像生成任務中,GAN能夠生成逼真的圖像,但常常受到模式崩潰的影響。模式崩潰(modecollapse)是生成對抗網絡中的一個常見問題,指的是生成模型在訓練過程中只學習到有限的樣本模式,忽略了其他潛在的多樣性。這導致生成的樣本過于相似,不能很好地代表真實數據的分布。另一方面,VAE沒有模式崩潰問題,但其生成的圖像往往不如GAN真實。因此,AVAE的提出旨在結合兩者的優點,克服各自的不足。
本文提出的協同自變分編碼器遵循AVAE的設計思想,以圖像和文本特征為輸入協同生成具備視覺潛在上下文的文本特征,以此彌補文本的語義特征。
2方法
VTCHF模型的整體架構如圖1所示,主要包括單模態表示學習模塊、協同自變分編碼器、層級融合模塊和模態融合與解碼模塊四個組件。另外,圖2、3分別展示了協同自變分編碼器和層級融合模塊的實現細節,模型超參數設置詳見3.1節。
在單模態表示學習模塊中,文本和視覺特征分別通過上下文學習生成。文本特征為單詞表示,視覺特征包括局部細節和全局上下文信息。協同自變分編碼器基于文本和全局視覺特征生成帶有視覺上下文的文本特征,并通過辨別器傳播以獲得對抗損失,優化生成特征與輸入文本特征的分布差異。
另外,專家自適應預融合模塊動態選擇最相關的專家和特征,優化同模態信息的融合,減小噪聲和不完整特征的影響,增強模型對復雜場景的理解。專家數量優選值及其對模型性能的影響已在3.3.3小節消融實驗中系統分析。此模塊通過預融合增強特征質量,促進后續跨模態融合。
最后,增強后的文本和視覺特征通過跨模態Transformer進行交互融合,生成單詞感知的多模態表示。 CRF[18] 解碼模塊基于該表示和文本上下文生成實體標簽。
2.1 任務概述
給定文本 T 及其相關圖像 V 作為輸人,MNER的目標是從T 中提取包含的實體,并將每個提取的實體分類為預定義類型之一。與MNER的大多數現有工作一樣,本文將該任務表述為序列標記問題。令 T=(?t1,t2,…,tn) 表示文本序列,其中 n 為文本序列中的單詞個數, Y=(y1,y2,…,yn) 為相應的標簽序列 .yi∈Y,Y 為使用BIO2標記模式定義的標簽集[19]
2.2 模態特征學習
2.2.1 文本表征
為了能在不同的語境上下文中為同一個單詞提供多樣的特征表示,采用BERT20]作為模型的文本編碼器。由于文本分詞器保留詞的大小寫信息對命名實體識別任務非常重要,所以使用預訓練BERT-base-cased模型。在預處理每個輸人文本時,在文本序列的首尾添加兩個特殊標簽(即開始標簽[CLS]和結束標簽[SEP]),以幫助模型更好地理解序列的上下文結構。在形式上,令 T′=(t0,t1,t2,…,tn+1 )為修改后的文本輸入序列,其中 t0 和 tn+1 分別表示插入的首尾特殊標簽。將文本序列 T′ 輸入到預訓練的BERT編碼器中,通過學習詞嵌入、位置嵌人和段落嵌入,得到結合了語義上下文生成的文本特征 X
X=BERT(T′)=(x0,x1,…,xn+1)
其中 ρ:xi∈Rd 是對應文本序列中 ti 的特征表示。
Fig.1Architectureof VTCHF model
2.2.2 視覺表征
由于僅采用單一視覺特征會導致視覺特征利用不充分,降低文本與視覺特征融合時的對齊顆粒度。為解決這個問題,本文的視覺特征包含局部視覺特征和全局視覺特征兩種表示。
a)局部視覺特征。使用預訓練的152層 ResNet[21] 作為局部視覺特征編碼器,它作為一種經典的卷積神經網絡(CNN),在局部感受野上捕捉圖像的細粒度低級和高級特征。首先,為了使用統一的輸入尺寸且能保留圖像中的關鍵局部特征,預處理給定輸入圖像 V ,調整大小為 224×224 像素。實質上,將每7×7 個輸入圖像劃分成相同大小的視覺塊,隨后從ResNet中獲得每個視覺塊的局部視覺特征 Vl
Vl=ResNet152(V)=(ν1l,ν2l,…,ν49l)
其中: νil 為圖像 V 的第 i 個視覺塊局部特征,每個特征均使用2048維的向量表示。另外,為確保文本和視覺特征能夠在相同特征分布空間中有效對齊并融合,借助單獨的線性層,將局部視覺特征轉換至與文本特征匹配的嵌人維度:
Vl=(?Wvl)?Vl
其中: Wvl∈R2048×d 為線性變換使用的權重矩陣。
b)全局視覺特征。采用CLIP模型中的ViT-B/32架構提取輸入圖像的全局視覺特征。為確保視覺特征提取一致性,對輸入圖像 V 進行預處理,將圖像切分為 32×32 的補丁并映射到高維特征空間。隨后,為每個補丁添加位置嵌入從而保留補丁間的空間關系。因此,第 i 個補丁的視覺嵌入 pi 表示為
其中: Ii 表示第 i 個補丁的圖像特征; Wp 為補丁的權重矩陣;Eposi 為第 i 個補丁的位置嵌入。另外,采用類別嵌入 EcLs 作為圖像的全局表示,形成輸入序列 P=[ECLS,p1,p2,…,pm] 。隨后,嵌入序列 P 根據Transformer的自注意力機制得到輸出序列 H 。
H=Transformer(P)=[hCLS,h1,h2,…,hm]
另外,通過層歸一化進一步增強了輸出的穩定性和可用性,得到充分利用了類別嵌入 EcLs 提供的全局視覺特征:
Vg=LayerNorm(hCLS)
2.3 協同自變分編碼器
為緩解文本特征的語義缺失問題,本文提出通過協同自變分編碼器,通過圖文雙潛在變量協同生成文本特征,并根據輸入文本特征對抗調整生成特征的分布空間。由于全局視覺特征對圖像的上下文理解能力較強,可以增強生成文本特征對圖像整體的語義結構,所以協同自變分編碼器接收全局視覺特征Vg 和文本特征 X 作為輸人。協同自變分編碼器由編碼器、解碼器和辨別器三個部分組成,實現細節如圖2所示。
圖2協同自變分編碼器實現細節
Fig.2Implementation details of the cooperative variational autoencoder 2.3.1雙潛在分布編碼
編碼器根據視覺特征和文本特征得到高低維雙層級潛在空間表示。首先,對輸入特征進行處理。高維特征包含更細致的語義信息,因此將 Vg 作為高維圖像特征 Ihigh 。為了充分考慮文本相鄰詞匯之間的關系,降低文本中冗余信息對生成特征的消極作用,使用卷積層和池化層對 X 編碼得到高維文本特征 Thigh 。另外,為了能夠根據雙潛空間中生成更多樣性的特征,在不同層級上學習到更復雜的特征表示,對 Vg 降維處理得到低維圖像特征 Ilow ,使得低維潛在空間更專注于圖像中的低級特征。
在得到所需高低維特征后,對高低維雙層級潛在空間分別進行編碼。通常來說,自變分編碼器中的潛在變量服從高斯分布,均值和方差分別用來控制潛在分布的中心和擴展性。另外,使用對數方差避免直接使用方差時可能出現的數值不穩定性。因此,低維潛在空間編碼通過均值 Zulow 和對數方差 Zvarlow 來定義:
Zulow=Wulow?flatten(Ilow)+bulow
Zvarlow=Wvarlow?flatten(Ilow)+bvarlow
其中: flatten(?) 是將張量轉換為一維張量的操作;
是權重矩陣; {bulow,bvarlow} 是偏置項。
為了使生成特征包含更豐富的上下文信息,高維潛在空間的編碼選擇將高維圖像和文本特征聯合作為特征嵌人,豐富高維潛在空間的復雜性,提升高維潛在變量的采樣多樣性,協同調節生成文本的語義特征。具體編碼過程如下:首先,通過多尺度膨脹卷積聯合捕捉高維圖文拼接特征間的依賴和上下文語義,并加權融合不同膨脹率得到的特征,保證有效擴大融合圖文語義的感受野,同時避免信息稀疏化過度。
其中: r∈{1,2,3} 為膨脹卷積的膨脹率; F(r)(i,j) 表示在膨脹率 r 時,位置 (i,j) 處的輸出特征值; W(r) 是膨脹卷積核在不同尺度 r 上的權重矩陣; (i+r?m,j+r?n) 表示在卷積過程中,卷積核的每個元素根據膨脹率對輸入特征圖進行偏移,達到調整感受野的目的; {α,β,γ} 為學習到的權重參數。
隨后,使用低維潛在分布的均值作為輔助信息指導高維潛在分布的構建。通過一系列的卷積層、批歸一化和LeakyReLU激活函數將融合圖文句意的高維特征和輔助信息聯合壓縮到潛在空間中。
(14)其中: Conv(?) 表示一系列卷積層的堆疊;BN(·)表示批歸一化操作; φ(?) 表示LeakyReLU激活函數; linear(?) 表示通過線性層壓縮到潛在空間; (Zuhigh,Zvarhigh )為學習到的高維潛在分布的均值和對數方差。
2.3.2 協同采樣解碼
解碼器根據編碼器計算的高低維潛在分布的均值和對數方差,從雙潛在分布中分別采樣高低維潛在變量,聯合解碼生成文本特征。由于直接從 N(μ,σ2) 中采樣會使采樣過程不可微,不能進行反向梯度傳播。而重參數化可以使采樣過程可微,它將隨機采樣過程轉換為一個可導的確定性函數,采樣得到的潛在變量 z 同樣服從高斯分布 N(μ,σ2) 。因此,可采樣得到高維潛在變量 zhigh 和低維潛在變量 zlow
其中: {ε,ω} 是從標準正態分布 N(0,12) 中采樣的噪聲,為潛在變量的采樣引入隨機性。將兩個潛在變量加權解碼成文本特征,并對齊輸入文本特征的分布維度:
Tgen=fc(α?zhigh+(1-α)?zlow)
其中: fc(?) 是指線性變換; α∈[0.8,1.0) 是學習得到的權重,保證在生成文本特征時高維潛在采樣占據主要權重。
2.3.3 對抗辨別器
在對抗學習中,判別器的目標是最大化其區分真實特征和生成特征的能力。判別器分別接收文本特征 X 和生成文本特征 Tgen ,通過一系列的計算得到一個標量,表示該文本特征為真實文本的概率。因此,判別器計算文本特征 X 會得到輸出接近1的值,計算生成文本特征得到接近0的值。其目標函數為對數似然損失。對于輸入特征 x ,判別器 D(x) 的架構如下:
D(x)=σ(W3?φ(W2?φ(W1?x+b1)+b2)+b3) 二 (18)其中: 為權重矩陣; {b1,b2,b3} 為偏置項; φ(?) 表示LeakyReLU激活函數; σ(?) 表示sigmoid激活函數。
判別器的損失函數決定了它如何區分真實樣本和生成樣本,本文采用二元交叉熵損失。為了讓判別器能夠準確地判斷真實樣本為“真”,最小化文本特征的交叉熵損失 Lreal ,不斷強化辨別器區分真實與生成樣本的能力。另外,通過最大化生成文本特征的損失 Lgen ,提升文本特征的生成質量,綜合兩個損失即為辨別器部分的總損失 Lp 。
LD=Lreal+Lgen
2.4 雙流層級預融合
為降低模態間特征存在的語義對齊偏差,提升多模態特征交互融合的性能,本文構建雙流層級融合架構,分別對文本側(原生特征 + 生成補充特征)和圖像側( ResNet 局部特征 + ViT全局特征)進行分層交互,實現細節如圖3所示。模塊將圖文特征與其對應的語義補充特征視為不同的層級特征,動態自適應地捕捉相同模態的不同層級特征間的關系。
圖3層級融合模塊實現細節
Fig.3Implementation detailsof the hierarchical fusion module
首先,劃分出原始層級 o 和補充層級 S 在預融合文本特征時,層級劃分為( O(text) (t),S(text))=(X,Tgen) ;在預融合圖像特征時,層級劃分為( O(img) , 。另外,分別根據層級特征的特性,選擇最適合的專家優化其語義粒度,減少特征冗余,豐富語義表示。具體來說,特征會在路由的指導下,針對不同的輸入特征input,計算指示哪些專家應該被激活:
Eactivate(input)=σ(Wroute?[input])
其中: input∈{O(text),S(text),O(img),S(img)} 表示不同的層級特征; σ(?) 為softmax激活函數; Wroute 為專家激活權重。
由于不同的專家將被激活處理不同的層級特征,所以將專家也劃分為原始層級和補充層級。在專家被激活后,通過多層感知機獨立地優化輸入特征的語義深度。對于特征input的第 i 個激活專家,優化后的輸出為 yi(input) 。
其中: 表示ReLU激活函數; {W1i,W2i} 為權重; {b1i,b2i}為偏置。
隨后,對所有激活專家語義優化輸出進行加權:
為降低質量冗余語義特征的影響,學習特征語義貢獻權重以融合不同層級特征,更加專注于重要的語義特征。同時,約束權重的取值范圍,更大程度上保留原始層級特征的上下文。得到預融合文本特征為 e(text) ,預融合圖像特征為 e(img) 。
其中: α∈[0.7,1.0) 和 β∈(0,0.3] 為權重系數,圖文的 α 和 β 并非共享參數。
為了緩解梯度消失和梯度爆炸問題,讓模型學習更復雜的表示而不丟失輸人的重要特征。在模塊中添加了殘差連接,允許網絡不僅僅依賴深層次的抽象特征。另外,通過層歸一化每一層的輸出,保持輸人的穩定性,從而提高訓練速度和模型的泛化能力。
其中 ?:μ? 和 σ 分別是層歸一化輸人的均值和標準差; γ 和 τ 是可學習的縮放參數和偏移參數。
2.5模態融合與解碼
為了更好地關聯與文本相關的視覺塊,將語義增強的文本特征和圖像視覺表示通過交叉模態注意力機制進行結合,利用視覺特征來增強文本特征的表征能力。該過程通過將視覺塊與文本對應的上下文進行動態加權匹配,生成具有單詞感知的視覺表示。這種表示能夠捕捉到哪些視覺信息更與當前單詞關聯,從而在視覺上下文和文本之間建立更緊密的聯系,提升模型對文本的理解。
2.5.1視覺語義對齊
首先,計算文本特征與視覺特征的關聯程度,使用視覺特征指導模型理解當前文本的語義上下文。使用文本特征 e(text) 通過線性投影獲得查詢向量,使用圖像特征 e(img) 獲得鍵和值向量。然后,在查詢和鍵值對之間進行 ?m 頭跨模態交叉注意力(CrossA)計算。
CrossA(Q,K,V)=W′?[head1,head2,…,headm]
其中: {Wqi,Wki,Wvi} 是第 i 個注意力頭的線性投影矩陣; W′ 是一個可學習的權重矩陣,用于將多個頭的輸出連接后進行線性變換;每個注意力頭headi由式(32)計算。
隨后,堆疊殘差連接、層歸一化和前饋網絡三個子層
A′ti=LN(Q+CrossA(Q,K,V))
Ati=LN(A′ti+FFN(A′ti))
其中: LN(?) 是層歸一化; FN(?) 是前饋網絡。
2.5.2 文本語義對齊
為了將每個文本與其密切相關的視覺塊對齊,為其相關或不相關的視覺塊分配高或低的注意力權重。通過線性投影將圖像特征 eimg 映射為查詢向量,將文本特征 e(text) 投影為鍵和值向量后,同樣通過 m 頭跨模態交叉注意力計算得到 Ait
Ait=LN(A′it+FFN(A′it))
由于將功能詞與任何視覺塊對齊是不合理的,所以結合視覺門g來動態控制視覺特征的貢獻,融合上述兩種語義對齊表示Ati 和 Ait ,以獲得基于多層級的圖文多模態語義對齊表示 s?°
S=G?Ait
其中: {WαT,WβT} 是權重矩陣; σ(?) 為 sigmoid激活函數。
2.5.3 MNER解碼
為了高效利用文本表示和視覺表示,聯合多模態語義對齊表示 s 和文本增強表示 e(text) 得到最終的隱藏表示 M= {Mi∣Mi∈R2d,i=0,…,n+1} 。隨后,為計算預測標簽序列 y 的概率 p ,將 M 輸入到標準的CRF層中。
其中: ψi(yi,yi+1;M) 是勢函數,定義了標簽 yi 與 yi+1 之間的轉移分數; y 是一組所有可能的標簽序列; 是CRF的參數集合,定義了勢函數和標簽間轉移的具體形式。
在模型訓練時,通過最大化條件對數似然來估計模型參數:
其中: Y 表示訓練集中的真實標簽序列; u 表示樣本的索引
在解碼階段,目標是找到一個標簽序列 y* ,使得其在給定特征 M 條件下的條件概率達到最大值:
綜上所述,訓練期間的最終損失可以表示為
3實驗
3.1 實驗環境
實驗均基于PyTorch框架構建,使用高性能NVIDIAGeForceRTX4090進行GPU計算加速。其中,訓練周期設置為65個epoch,以充分學習模型權重。訓練批量大小為32,評估批量大小為16。具體參數如表1所示。
表1模型參數設置Tab.1Model parameter settings
3.2實驗數據集
為證實本文方法準確有效,在Twitter-2015和Twitter-2017兩個公開數據集上進行實驗,數據集中的每個樣本由“文本-圖像”對組成。由于兩個數據集均存在少量圖像過小或損壞的情況,所以采用“圖像未找到”替換問題圖像。與現有工作的數據集保持一致,劃分為訓練集、驗證集和測試集三個部分,涵蓋的實體類型包括“PER”“LOC”“ORG”和“MISC”。詳細的數據集統計信息如表2所示。其中,平均長度表示每條帖子消息中的平均字符數。
表2數據集結構統計
Tab.2 Dataset structure statistics
3.3 性能評價
3.3.1基線方法
為全面驗證本文方法有效性,本文選取了性能較優的文本單模態模型及圖文多模態模型進行對比分析。首先,將所提方法與以下僅使用文本特征的單模態方法進行比較:a)BiLSTM-CRF采用BiLSTM提取特征,并通過CRF層實現序列標注,使用GloVe詞嵌人[22]將單詞轉換為連續向量表示。b)CNN-BiLSTM-CRF[23]架構結合CNN和BiLSTM,能夠自動提取字符級和單詞級表示,無須依賴大量手工特征工程,同時適用于Twitter 數據集。c) BERT[20] 是一種預訓練語言模型,旨在生成上下文相關的詞表示,并通過softmax層進行實體預測。d)BERT-CRF是BERT的一種變體模型,將softmax層替換為CRF層,以提升序列標注任務的性能。
同時,本文將提出方法與使用圖文特征的多模態方法進行對比,具體包括:
a) UMT[24] 擴展Transformer[25],提出多模態交互模塊以捕獲模態間的動態表示,同時結合輔助實體跨度檢測模塊以減輕視覺偏差。b) MAF[26] 設計跨模態對齊模塊,使文本與圖像表示更加一致;同時引人跨模態匹配模塊以確定視覺信息的保留比例。c)UMGF[8]架構利用統一多模態圖捕獲單詞與視覺對象之間的語義關系,通過堆疊多個融合層實現語義交互并學習節點表示。d) UAMNer[6] 方法通過貝葉斯神經網絡量化標簽預測的不確定性,并用高不確定性標簽優化多模態文本表示的預測結果,從而提升命名實體識別精度。e)MGCMT[27]提出多粒度跨模態表示學習框架,針對MNER任務優化圖文融合效果。f)HVPNet[28]模型采用分層視覺前綴融合網絡以增強視覺特征在實體和關系提取中的表現。g)MNER ?0G[11] 架構結合細粒度視覺語義標簽與視覺查詢任務優化視覺特征,并通過機器閱讀理解實現高效圖文特征融合。h)TVSE方法[1通過跨模態注意力融合多模態特征,并引人對抗學習和KL散度約束提升模態一致性。
3.3.2 對比分析
本文在Twitter-2015和Twitter-2017數據集上進行了廣泛的實驗,詳細報告了不同實體類型的 F1 分數,以及整體的準確率P、召回率R和 F1 分數(見表3)。本研究重點關注整體 F1 分數的表現,與現有研究一致。特別指出,在實驗數據中,加粗的值表示該指標下的最佳結果,而具有下畫線的值表示次優結果。通過對實驗結果的深入分析,本文總結了以下幾個關鍵發現:
a)基于文本的單模態方法,預訓練模型BERT顯著優于傳統神經網絡,其卓越性能得益于能夠捕獲豐富的句法和語義特征。這不僅突出了預訓練模型在命名實體識別(NER)任務中的重要性,也解釋了許多高性能方法通常以BERT為基礎的原因。此外,實驗結果表明,條件隨機場(CRF)通過建模單詞間的依賴關系,有效提升了整體性能。
b)與單模態方法相比,多模態方法展現了更優越的性能。例如,UMT利用Transformer深度建模文本序列,通過跨模態多頭注意力機制實現更強大的語義表示,同時引人實體跨度檢測輔助任務,有效減輕視覺偏差的影響,從而獨立增強實體識別效果。在整體 F1 分數上,UMT分別較單模態基線BERT-CRF提升了1.60百分點(Twitter-2015)和1.87百分點(Twitter-2017)。
c)盡管UMT顯著優于單模態基線,其性能在多個模型中并非最佳。近年來,多模態方法在圖文特征的交互與融合上進一步優化。例如,MGCMT通過多粒度跨模態表示學習框架,有效融合不同粒度的圖文特征,大幅提升了對復雜實體的識別能力,其整體 F1 分數在Twitter-2017數據集上達到 86.09% ,顯著優于UMT。同時,MNER-QG借助細粒度視覺標簽和機器閱讀理解策略增強視覺特征表征能力,在Twitter-2015和Twitter-2017數據集上的整體 F1 分數分別達到 74.7% 和 86.94% ,超越了UMT。
d)在上述發現的基礎上,本文VTCHF在兩個Twitter數據集上均取得了顯著的性能提升。具體而言,模型的整體 F1 分數分別為 76.03% (Twitter-2015)和 86.61% (Twitter-2017),較UMT分別提升了2.62百分點和1.30百分點。值得注意的是,與當前先進的TVSE相比,VTCHF在Twitter-2015上實現了1.27百分點的 F1 值提升,源于文本語義補充特征的有效性,該數據集實體可能更依賴實體識別和細粒度文本推理,VTCHF通過層級融合強化文本主導的細粒度語義補償,從而更精準地識別低視覺相關性實體。另外,VTCHF在Twitter-2017上其表現略低于TVSE,這反映出TVSE的對抗學習策略能更好地對齊包含大量需跨模態深度交互的實體與區域視覺特征,VTCHF對高視覺依賴性實體的細粒度建模存在優化空間。實驗結果表明,VTCHF通過提取兩種視覺特征,并協同生成文本的語義補充特征,在層級融合機制的作用下,成功緩解了MNER任務中圖文語義特征缺失和多模態語義對齊偏差的問題,從而顯著提高了模型的魯棒性和預測準確性。
表3單模態和多模態NER方法的性能比較。Tab.3Performance comparison of uni-modal and multi-modal approaches for NER
/%
3.3.3 消融實驗
為驗證VTCHF在MNER任務中的有效性,在Twitter-2015和Twitter-2017兩個數據集上進行了消融實驗,旨在量化評估協同自變分編碼器(CoVAE)、層級融合模塊(HF)和提取全局視覺特征(Vg)對模型性能的具體貢獻。
為確保消融實驗的公平性,參與實驗的模型均采用相同的超參數設置(見表1)。鑒于模型訓練過程中可能存在一定程度的隨機波動,為獲取更準確可靠的對比結果,每組實驗均重復運行多次,并將所得結果取平均值作為最終實驗結果。實驗結果如表4、5所示,其中“w/o\"表示移除特定模塊后的模型變體。實驗表明,刪除任何模塊都會導致模型性能顯著下降。
Tab.4Comparison of ablation experiment results on the Twitter-2O15/%
表5Twitter-2017上的消融實驗結果對比
表4Twitter-2015上的消融實驗結果對比
Tab.5Comparison of ablation experiment results on the Twitter-2O17 /%
首先,移除協同自變分編碼器后的 F1 值下降幅度最為顯著,兩個數據集的 F1 值分別下降了1.37百分點(Twitter-2015)和1.05百分點(Twitter-2017),這表明協同自變分編碼器能夠彌補文本語義豐富性。值得注意的是,移除CoVAE后,不僅整體性能下降,對復雜實體類別(如MISC)的識別能力也顯著減弱,這表明CoVAE可以應對復雜情境下的語義模糊,高效挖掘文本和圖像的核心語義信息,彌合圖像和文本間的分布偏差,使聚合的多模態特征在語義空間中具有極高的分布一致性,從而提升MNER任務的性能。另外,為探討CoVAE提升模型性能的驅動因素,本文進一步移除其內部的對抗辨別器(AD)。實驗表明(如圖4),當移除AD后,模型的召回率和 F1 分數的波動幅度顯著增大。具體來說,移除對抗辨別器后,模型對生成數據的判別能力減弱,從而導致生成的文本特征不夠精確,且與輸人文本特征之間的分布差異增大。該差異使得模型無法有效捕捉多情境下的圖文語義信息,削弱了模型對噪聲特征的敏感性,進而使其易受到噪聲擾動的影響。此現象可歸因于:AD通過對抗訓練約束生成特征的分布,抑制了噪聲引起的語義偏移,從而提升模型魯棒性。
其次,移除層級融合模塊后的模型在兩個數據集上 F1 值表現分別下降1.19和0.9百分點。這一結果表明,層級融合模塊可以高效融合圖像和文本及其語義補充信息,自適應過濾識別冗余無關特征,在某種意義上增強了特征提取利用效率,緩解圖文特征語義粒度差異、減小對齊偏差,從而提升了多模態特征融合的有效性。此外,本文測試了不同專家數量配置下的模型性能變化(見圖5)。實驗表明,當專家數量從2增至8時,Twitter-2017的 F1 值提升1.33百分點,Twitter-2015的 F1 值提升1.05百分點。提升的原因在于,當專家數量較少時,彼此共享任務貢獻最大的重要特征,使得模型能夠學習到不同層級特征之間的關聯。然而,當進一步增加專家數量時,不僅僅是模型復雜度大幅提高,模型對特征的依賴性也相應的增強,專家之間噪聲擾動的幅度上升,模型的性能在不同情境下表現不穩定, F1 值反而有所下降。這一非線性關系表明:適度的專家分工可增強特征表達能力,但過度增加會引人參數冗余與噪聲干擾,導致模型穩定性降低。
圖5專家數量對模型性能( F1 值)的影響
Fig.5Effect ofnumber of expertsonmodel performance( F1 value)
最后,移除全局視覺特征后,Twitter-2015的 F1 值下降了0.72百分點,Twitter-2017數據集的 F1 值下降了0.53百分點。這表明全局視覺特征能夠有效彌補局部視覺特征的不足,通過補充視覺語義,提升圖像的語義提取完整性。綜上所述,本文提出的協同自變分編碼器、層級融合模塊以及提取全局視覺特征均對模型性能提升起到了關鍵作用,有效地提高了多模態命名實體識別任務的魯棒性和精準性。
3.4 案例分析
為系統驗證VTCHF框架在多模態實體識別任務中的魯棒性,本文選取三類典型挑戰場景(如圖6(a)~(c)所示)進行機理分析,分別針對文本語義稀疏性、層級對齊缺失與視覺線索模糊問題,揭示模型的技術優勢與內在工作機制。
在輸入文本信息匱乏且指代模糊的案例中(如“Me asJohnLennon”),模型通過跨模態語義生成實現稀疏性補償。具體來說,ViT模塊提取人物造型的全局風格特征(圓形眼鏡、卷發輪廓),ResNet捕捉局部細節(鏡框反光等),構成多層級視覺語義表征。協同自變分編碼器(CoVAE)基于全局視覺特征生成隱含語境描述“impersonation,musician,Beatles”,通過對抗辨別器約束確保生成文本的語義一致性。CoVAE生成視覺引導的隱含語義補充文本“impersonation,musician,Beatles”。隨后,在文本側層級融合專家的作用下構建擴展語義表示“Me[角色扮演]asJohnLennon[音樂家]”,解決文本稀疏性,最終通過跨模態注意力機制將實體類型修正。
針對模型易受模態異構性干擾的問題(如“Apple\"實體歧義),VTCHF通過層級融合模塊(HF)實現層次校準對齊。文本側專家會將“Apple”泛化為歧義實體(ORG/MISC),自適應過濾抑制文本中“valuable”的金融泛化語義,綁定生成文本“technology,brand\"完成消歧。ViT提取Logo金屬質感與扁平化設計特征,ResNet捕捉高光反射細節,兩者經視覺側層級融合強化品牌屬性。
圖6模型在三種典型場景下的核心示例(示例選自Twitter-2015數據集
6Core scenarios of the model in three typical examples(examples selected from the Twiter-2015 d
最后,在視覺線索模糊的案例中(如圖6(c)),模型通過特征協同與跨模態推理補償語義。ViT模塊捕捉禮服廓形與場景燈光分布的全局模式,ResNet提取發梢波浪紋理等局部特征,兩者構成魯棒的視覺表示。CoVAE據全局視覺特征生成場景描述“afterparty,celebrity”,補償圖像中缺失的身份標識信息。隨后通過雙流層級融合架構同步關聯文本與原始實踐標簽,自適應抑制場景的視覺干擾。
本文通過三類場景的系統分析表明,VTCHF框架通過生成對抗式語義補償(CoVAE)、層次校準對齊(HF)與全局-局部特征互補( vg) ,分別攻克文本語義稀疏、層級對齊缺失與視覺線索模糊的核心挑戰。各機制間的協同作用進一步驗證了多模態深度融合的設計優越性,為細粒度實體識別任務提供了可解釋、高魯棒的解決方案。
4結束語
本文提出了圖文協同層級融合的多模態命名實體識別方法VTCHF。該方法不僅提取全局視覺特征補充圖像語義,而且提出圖文協同自變分編碼器,聯合圖文特征協同生成入微的語義特征,進一步補全文本語義,有效緩解了圖文語義特征利用不充分的問題。同時通過層級融合模塊,預融合圖文特征及其語義特征,靈活增強圖文語義粒度,緩解模態融合中存在的對齊偏差問題。在公開數據集Twitter-2015和Twitter-2017上進行實驗,驗證了本文方法的高效可行。
然而,該方法依然存在局限性。首先,協同自變分編碼器需聯合處理圖像和文本特征,導致模型計算開銷較大。另外,不同模態間的信息本質差異仍然可能導致對齊不完美。因此,未來工作將繼續研究如何降低模型計算復雜度,減少非必要的計算負擔,挖掘圖文的最本質語義信息,探索更為精細的模態對齊策略,進而提高多模態命名實體識別任務的精度。
參考文獻:
[1]李洪修,劉笑.數字化背景下高校智慧課堂建構的技術之維 [J].高校教育管理,2023,17(5):81-89,124.(LiHongxiu, Liu Xiao. The technical dimension of constructing smart classrooms in universitiesunder the digital background[J].Journal of Higher Education Management,2023,17(5):81-89,124.)
[2]Lu Di,NevesL,CarvalhoV,etal.Visual attention model for name tagginginmultimodal socialmedia[C]//Procofthe56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA:Association for Computational Linguistics,2018:1990-1999.
[3]Moon S,Neves L,Carvalho V.Multimodal named entity recognition for short social media posts[EB/OL].(2018-02-22). htps://arxiv.org/abs/1802.07862.
[4]Zhang Qi,Fu Jinlan,Liu Xiaoyu,et al.Adaptive co-attention network for named entityrecognition in tweets[C]//Proc ofAAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2018:11962.
[5]Sun Lin,Wang Jiquan,ZhangKai,et al.RpBERT:a text-image relation propagation-based BERT model formultimodal NER[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAIPress,2021:13860-13868.
[6]Liu Luping,Wang Meiling,Zhang Mozhi,etαl.UAMNer: uncertainty-awaremultimodal named entityrecognitionin social media posts[J].Applied Intelligence,2022,52(4):4109-4125.
[7]Zheng Changmeng,Wu Zhiwei,Wang Tao,et al.Object-aware multimodal named entity recognition in social media posts with adversarial learning[J]. IEEE Trans onMultimedia,2020,23:2520-2532.
[8]Zhang Dong,Wei Suzhong,Li Shoushan,et al. Multi-modal graph fusion for named entity recognition with targeted visual guidance [C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAIPress,2021:14347-14355.
[9]Wu Zhiwei, Zheng Changmeng,Cai Yi,et al.Multimodal representation with embedded visual guiding objects for named entity recognition in social media posts[C]//Proc of the 28th ACM International Conference on Multimedia.NewYork:ACMPress,202O:1038-1046.
[10]DosovitskiyA,Beyer L,Kolesnikov A,et al.An image is worth 16 ×16 words:Transformers for image recognition at scale[EB/OL]. (2020-10-22). https://arxiv.org/abs/2010.11929.
[11]JiaM,ShenLei,ShenXin,etal.MNER-QG:anend-to-end MRC framework for multimodal named entity recognition with query grounding[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2023: 8032-8040.
[12]徐璽,王海榮,王彤,等.圖文語義增強的多模態命名實體識別 方法[J].計算機應用研究,2024,41(6):1679-1685.(XuXi, Wang Hairong,Wang Tong,etal.Textual-visual semanticsenhanced multimodal named entity recognition method[J].Application Research of Computers,2024,41(6): 1679-1685.)
[13]Kingma D P,Weling M. Auto-encoding variational Bayes[EB/ OL].(2013-12-20). https://arxiv.org/abs/1312.6114.
[14]Doersch C. Tutorial on variational autoencoders [EB/OL].(2016- 07-19).https://arxiv.org/abs/1606.05908.
[15]Rezende DJ,Mohamed S,Wierstra D. Stochastic backpropagation andapproximate inference in deep generative models[EB/OL]. (2014-01-16). htps://arxiv.org/abs/1401.4082.
[16]GoodfellwIJ,Pouget-AbadieJ,Mirza M,et al.Generative adversarial networks[EB/OL]. (2014-06-10). https://arxiv.org/abs/ 1406.2661.
[17] Salimans T,Goodfellow I, Zaremba W,et al. Improved techniques for training GANs[EB/OL].(2016-06-10). https://arxiv.org/ abs/1606.03498.
[18]LaffertyJD,McCallum A,Pereira FC N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data [C]//Proc of the 18th International Conference on Machine Learning.[S.1.]:Morgan Kaufmann Publishers Inc.,2001:282-289.
[19]Sang EF,Veenstra J. Representing text chunks[C]// Proc of he 9th conference on European chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,1999:173-179.
[20]DevlinJ,Chang MW,Lee K,et al.BERT:pre-training of deep bidirectional transformers forlanguage understanding[C]//Procof Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019 : 4171-186.
[21]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press , 2016: 770-778.
[22]Pennington J, Socher R,Manning C. Glove: global vectors for word representation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.
[23]Ma Xuezhe,Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[EB/OL]. (2016-04-04). https://arxiv. org/ abs/1603.01354.
[24]Yu Jianfei,Jiang Jing,Yang Li,et al.Improving multimodal named entityrecognition via entity span detection with unified multimodal transformer[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020:3342-3352.
[25]Vaswani A, Shazeer N,Parmar N,et al. Attention is all you need [C]//Proc of the 31st International Conference on Neural InformationProcessing Systems.Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[26]Xu Bo,Huang Shizhou,Sha Chaofeng,et al. MAF:a general matchingand alignment framework for multimodal named entity recognition[C]//Proc of the 15th ACM International Conference on Web SearchandData Mining.New York:ACMPress,2022:1215-1223.
[27]Liu Peipei,Wang Gaosheng,Li Hong,et al. Multi-granularity crossmodal representation learning for named entity recognition on social media[J]. Information Processing amp; Management,2024,61 (1):103546.
[28]Chen Xiang,Zhang Ningyu,Li Lei,et al.Good visual guidance makesa better extractor:hierarchical visual prefix for multimodal entity and relation extraction[C]//Proc of Findings of the Association for Computational Linguistics : NAACL 2O22. Stroudsburg,PA: Association for Computational Linguistics,2022:1607-1618.
收稿日期:2025-01-24;修回日期:2025-03-13 基金項目:國家自然科學基金重點項目(62237001);廣東省哲學社會科學青年項目(GD23YJY08)
作者簡介:馮廣(1973—),男(通信作者),廣東廣州人,正高級實驗師,碩導,博士,主要研究方向為課堂流媒體、大數據與人工智能( von@ gdut.edu.cn);劉天翔(200—),男,山東泰安人,碩士研究生,主要研究方向為大模型應用;楊燕茹(2000—),女,廣東汕頭人,碩士研究生,主要研究方向為情感分析;鄭潤庭(2000—),男,廣東潮州人,碩士研究生,主要研究方向為大模型應用;鐘婷(200—),女,廣東湛江人,碩士研究生,主要研究方向為情感分析;林健忠(2000—),男,廣東江門人,碩士研究生,主要研究方向為大模型應用;黃榮燦(2001—),男,湖南常德人,碩士研究生,主要研究方向為情感分析.