郭 浩 李欣奕 唐九陽 郭延明 趙 翔
近年來,以三元組形式表示現實世界知識或事件的知識圖譜逐漸成為一種主流的結構化數據的表示方式,并廣泛應用于各類人工智能的下游任務,如知識問答[1]、信息抽取[2]、推薦系統[3]等.相比于傳統的知識圖譜,多模態知識圖譜[4-5]將多媒體信息融合到知識圖譜中,從而更好地滿足多種模態數據之間的交互式任務,例如圖像和視頻檢索[6]、視頻摘要[7]、視覺常識推理[8]和視覺問答[9]等,并在近年來受到了學界及工業界的廣泛關注.
現有的多模態知識圖譜往往從有限的數據源構建而來,存在信息缺失、覆蓋率低的問題,導致知識利用率不高.考慮到人工補全知識圖譜開銷大且效率低,為提高知識圖譜的覆蓋程度,一種可行的方法[10-12]是自動地整合來自其他知識圖譜的有用知識,而實體作為鏈接不同知識圖譜的樞紐,對于多模態知識圖譜融合至關重要.識別不同的多模態知識圖譜中表達同一含義的實體的過程,稱為多模態實體對齊[5,13].
與一般的實體對齊方法不同[11,14],多模態實體對齊需要利用和融合多個模態的信息.當前主流的多模態實體對齊方法[5,13]首先利用圖卷積神經網絡學習知識圖譜的結構信息表示;然后利用預訓練的圖片分類模型,生成實體的視覺信息表示(利用VGG16[15]、ResNet[16]生成多張圖片向量并加和),得到實體的視覺信息表示;最后以特定權重將這兩種模態的信息結合.不難發現,這類方法存在以下3 個明顯缺陷:
1) 圖譜結構差異性難以處理.不同知識圖譜中對等的實體通常具有相似的鄰接信息,基于這一假設,目前的主流實體對齊方法主要依賴知識圖譜的結構信息[14,17-18]來實現對齊.然而真實世界中,由于構建方式的不同,不同知識圖譜可能存在著較大結構差異,這不利于找到潛在的對齊實體.如圖1所示,實體 [The dark knight] 在 DBpedia 和 Free-Base 中鄰接實體數量存在巨大差異,雖然包含相同的實體[Nolan]、[Bale],然而在FreeBase 還包含額外6 個實體.因此,DBpedia 中的實體 [Bale]容易錯誤地匹配到 FreeBase 中的實體 [Gary oldman],因為它們都是[The dark knight]的鄰居實體且度數為 1.真實世界中不同知識圖譜的結構性差異問題比圖中的示例更為嚴峻,以數據集MMKG[5]為例,基于FreeBase 抽取得到的圖譜 (FB15K)有接近60 萬的三元組,而基于DBpedia 抽取得到的圖譜(DB15K)中三元組數量不足10 萬.以實體[Nolan]為例,在FB15K 中有成百的鄰居實體;而DB15K中其鄰居實體數量不足10 個.針對此類問題,可基于鏈接預測生成三元組以豐富結構信息.這雖然在一定程度上緩和了結構差異性,但所生成的三元組的可靠性有待考量.此外,在三元組數量相差多倍的情況下補全難度很大.

圖1 知識圖譜FreeBase 和DBpedia 的結構差異性表現Fig.1 Structural differences between knowledge graphs FreeBase and DBpedia
2) 視覺信息利用差.當前自動化構建多模態知識圖譜的方法通常基于現有知識圖譜補充其他模態的信息,為獲取視覺信息,通常利用爬蟲從互聯網爬取實體的相關圖片以獲取其視覺信息.然而獲取的結果中不可避免地存在部分相關程度較低的圖片,即噪聲圖片.現有方法[5,13,19]忽略了噪聲圖片的影響,使得基于視覺信息對齊實體的準確率受限.因此,實體的視覺信息中混有部分噪聲,進而降低了利用視覺信息進行實體對齊的準確率.
3) 多模態融合權重固定.當前的主流多模態實體對齊方法[5,13]以固定的權重結合多個模態.這類方法假設多種模態信息對實體對齊的貢獻率始終為一固定值,并多依賴于多模態知識圖譜的結構信息,然而其忽略了不同模態信息的互補性.此外,由于實體相關聯的實體數量以及實體在圖譜中分布不同,導致不同實體的結構信息有效性存在一定的差異,進一步影響不同模態信息的貢獻率權重.事實上,知識圖譜中超過半數實體都是長尾實體[20],這些實體僅有不足5 個相連的實體,結構信息相對匱乏.而實體的視覺信息卻不受結構影響,因此在結構信息匱乏的情況下應賦予視覺信息更高的權重.總而言之,以固定的權重結合多模態信息無法動態調節各個模態信息的貢獻率權重,導致大量長尾實體錯誤匹配,進一步影響實體對齊效果.
為解決上述缺陷,本文創新性地提出自適應特征融合的多模態實體對齊方法(Adaptive feature fusion for multi-modal entity alignment,AF2MEA).在不失一般性的前提下,本文從多模態知識圖譜中的結構模態和視覺模態兩方面出發: 一方面為解決缺陷 1),提出三元組篩選機制,通過無監督方法,結合關系PageRank 得分以及實體度,為三元組打分,并過濾掉無效三元組,緩和結構差異性;另一方面,針對缺陷 2),利用圖像-文本匹配模型,計算實體-圖片的相似度得分,設置相似度閾值以過濾噪聲圖片,并基于相似度賦予圖片不同權重,生成更高質量的實體視覺特征表示.此外,為捕獲結構信息動態變化的置信度并充分利用不同模態信息的互補性以應對缺陷 3),本文設計自適應特征融合機制,基于實體節點的度數以及實體與種子實體之間的距離,動態融合實體的結構信息和視覺信息.這種機制能夠有效應對長尾實體數量占比大且結構信息相對匱乏的現實問題.本文在多模態實體對齊數據集上進行了充分的實驗及分析,表明AF2MEA取得了最優的實體對齊效果并證實了提出的各個模塊的有效性.本文的主要貢獻可總結為以下3 個方面:
1) 設計創新的三元組篩選模塊,基于關系PageRank 評分和實體度生成三元組得分,過濾三元組,緩和不同知識圖譜的結構差異性;
2)針對視覺信息利用差的問題,本工作基于預訓練圖像-文本匹配模型,計算實體-圖片的相似度得分,過濾噪聲圖片,并基于相似度得分獲得更準確的實體視覺特征表示;
3)設計自適應特征融合模塊,以可變注意力融合實體的結構特征和視覺特征,充分利用不同模態信息之間的互補性,進一步提升對齊效果.
本文第1 節簡要介紹相關工作;第2 節介紹問題定義和整體框架;第3 節具體介紹本文提出的多模態實體對齊模型;第4 節明確實驗設置,進行實驗并分析結果;第5 節為結束語.
實體對齊任務旨在尋找兩個知識圖譜中描述同一真實世界對象的實體對,以便鏈接不同知識圖譜.實體對齊作為整合不同知識圖譜中知識的關鍵步驟,在近年來得到廣泛研究.
傳統的實體對齊方法[21]多依賴本體模式對齊,利用字符串相似度或者規則挖掘等復雜的特征工程方法[22]實現對齊,但在大規模數據下準確率及效率顯著下降.而當前實體對齊方法[14,17,23]大多依賴知識圖譜向量,因為向量表示具有簡潔性、通用性以及處理大規模數據的能力.基于不同知識圖譜中等效實體具有相似的鄰接結構這一假設,即等效的實體通常具有等效的鄰居實體,這些工作具有相似框架: 首先利用基于翻譯的表示學習方法 (Translating embedding,TransE)[17,24-25],圖卷積神經網絡(Graph convolutional network,GCN)[9,14]等知識圖譜表示方法編碼知識圖譜結構信息,并將不同知識圖譜中的元素投射到各自低維向量空間中.接著設計映射函數,利用已知實體對以對齊不同向量空間.考慮到GCN 在學習知識圖譜表示上存在忽略關系類型、平均聚合相鄰節點特征的缺陷,一些方法[26-27]利用基于注意力機制的圖神經網絡模型來為不同的相鄰節點分配不同的權重.文獻[28]通過學習知識圖譜的關系表示以輔助生成實體表示.
除生成并優化結構表示之外,部分方法[14,26,29]提出引入屬性信息以補充結構信息.文獻[29]提出利用屬性類型生成屬性向量;而文獻[14]則將屬性表示成最常見屬性名的One-hot 向量.這類工作均假設圖譜中存在大量屬性三元組.但文獻[30]指出,在大多數知識圖譜中,69%~ 99%的實體至少缺乏1 個同類別實體具有的屬性.這種情況限制了此類方法的通用性.
多數知識圖譜的構建工作都傾向以結構化形式來組織和發現文本知識,而很少關注網絡上的其他類型的資源[4,31].近年來,不同模態數據之間交互式任務大量涌現,如圖像和視頻檢索[6]、視頻摘要生成[7]、視覺實體消歧[8]和視覺問答[9]等.為滿足跨模態數據交互式任務的需求,知識圖譜需要融合多媒體信息,多模態知識圖譜應運而生.
為提高多模態知識圖譜的覆蓋程度,多模態實體對齊是關鍵的一步.與實體對齊相似,多模態實體對齊任務旨在識別不同的多模態知識圖譜中表達同一含義的實體對[13,19].相關的多模態知識表示方法可用于多模態實體對齊任務,其中基于圖像的知識表示模型 (Image-embodied knowledge representation learning,IKRL)[32]通過三元組和圖像學習知識表示,首先使用神經圖像編碼器為實體的所有圖像構建表示,然后通過基于注意力的方法將這些圖像表示聚合到實體基于圖像的集成表示中.文獻[33]提出一種基于多模態翻譯的方法,將知識圖譜中三元組的損失函數定義為結構表示、視覺表示和語言知識表示的子損失函數的總和.
總的來說,多模態實體對齊是一個新穎的問題,目前直接針對該任務的研究相對較少.其中,文獻[5]利用專家乘積模型 (Product of experiment,PoE),綜合結構、屬性和視覺特征的相似度得分以找到潛在對齊的實體.文獻[13]注意到歐幾里得空間中知識圖譜的結構表示存在失真問題,利用雙曲圖卷積神經網絡 (Hyperbolic graph convolutional network,HGCN) 學習實體結構特征和視覺特征,并在雙曲空間中結合不同模態特征以尋找潛在的對齊實體.文獻[19]提出一種創新的多模態知識表示方法,分別設計了多模態知識表示模塊和知識融合模塊,融合實體結構特征、屬性特征和視覺特征到同一個向量空間中以對齊實體.該模型取得較好的對齊效果,但結構設計較為復雜,視覺特征的利用率不高.
本節主要介紹多模態實體對齊任務的定義以及本文提出的整體模型框架.
多模態知識圖譜通常包含多個模態的信息.鑒于大多數知識圖譜中屬性信息的缺失[30],在不失一般性的前提下,本工作關注知識圖譜的結構信息和視覺信息.給定2 個多模態知識圖譜MG1和MG2:MG1=(E1,R1,T1,I1),MG2=(E2,R2,T2,I2).其中,E代表實體集合;R代表關系集合;T代表三元組集合,三元組表示為 〈E,R,E〉 的子集;I代表實體相關聯的圖片集合.種子實體對集合S=表示用于訓練的對齊的實體對集合.多模態實體對齊任務旨在利用種子實體對,發現潛在對齊的實體對,其中等號代表兩個實體指代真實世界中同一實體.
給定某一實體,尋找其在另一知識圖譜中對應實體的過程可視為排序問題.即在某一特征空間下,計算給定實體與另一知識圖譜中所有實體的相似程度(距離) 并給出排序,而相似程度最高(距離最小)的實體可視為對齊結果.
本工作提出的自適應特征融合的多模態實體對齊框架如圖2 所示.首先利用圖卷積神經網絡學習實體的結構向量,生成實體結構特征;設計視覺特征處理模塊,生成實體視覺特征;接著基于自適應特征融合機制,結合2 種模態的信息進行實體對齊.此外,為緩和知識圖譜的結構差異性,本工作設計三元組篩選機制,融合關系評分及實體的度,過濾部分三元組.圖2 中MG1和MG2分別表示不同的多模態知識圖譜;KG1、KG2表示知識圖譜;KG′1表示三元組篩選模塊處理后的知識圖譜.

圖2 自適應特征融合的多模態實體對齊框架Fig.2 Multi-modal entity alignment framework based on adaptive feature fusion
本節介紹提出的多模態實體對齊框架的各個子模塊,包括視覺特征處理模塊、結構特征學習模塊、三元組篩選模塊以及自適應特征融合模塊.
當前多模態知識圖譜的視覺信息圖片來源于互聯網搜索引擎,不可避免地存在噪聲圖片,不加區分地使用這些圖片信息會導致視覺信息利用率差.而圖像-文本匹配模型[34-35]可以計算圖像與文本的相似性程度.受此啟發,為解決視覺信息利用率差的問題,本工作設計了視覺特征處理模塊,為實體生成更精確的視覺特征以幫助實體對齊.圖3 詳細描述了實體視覺特征的生成過程.在缺乏監督數據的情況下,本文采用預訓練的圖像-文本匹配模型,生成圖片與實體相似度;接下來設置相似度閾值過濾噪聲圖片;最后基于相似度得分賦予圖片相應的權重,最終生成實體的視覺特征表示,具體步驟如下:

圖3 視覺特征處理模塊Fig.3 Visual feature processing module
1) 計算圖片-實體相似度得分.本步驟使用預訓練的文本圖像匹配模型-共識感知的視覺語義嵌入模型(Consensus-aware visual semantic embedding,CVSE)[36]計算實體圖片集中各個圖片的相似度得分.CVSE 模型將不同模態間共享的常識知識結合到圖像-文本匹配任務中,并在數據集MSCOCO[37]和Flickr30k[38]上進行模型訓練,取得先進的圖文匹配效果.本文基于CVSE 模型及其訓練的參數計算圖片-實體相似度得分.
視覺特征處理模塊的輸入為實體的名稱和實體相應的圖片集,見圖3 左側.首先生成實體圖片集的圖片嵌入pi ∈Rn×36×2048,n為實體對應圖片集中圖片的數量.本文利用目標檢測算法Faster RCNN[39]為每幅圖片生成36×2 048 維的特征向量.然后將實體名[Entity Name]拓展為句子{A photo of Entity Name},再送入雙向門控循環單元(Bidirectional gated recurrent unit,Bi-GRU)[40]以生成實體的文本信息ti.
接著將圖片嵌入pi和文本信息ti送入CVSE模型中,本文移除CVSE 模型的 S oftmax 層,以獲取實體圖像集中圖片的相似度得分:
其中,CVSE表示共識感知的視覺語義嵌入模型,其運算結果Rn表示圖片集與文本的相似度得分.
2)過濾噪聲圖片.考慮到實體的圖片集中存在部分相似度很低的圖片,影響視覺信息的精度.鑒于此,設置相似度閾值α,以過濾噪聲圖片:
其中,set(i) 代表初始圖片集,set′(i) 表示過濾掉噪聲圖片后的圖片集,α是相似度閾值超參數.
3)實體視覺特征表示生成.對于set′(i) 中的圖片,本文基于其相似度得分賦予權重,為實體ei生成更精確的視覺特征表示Vi:
其中,Vi ∈R2048表示實體i的視覺特征;R2048×n′為ResNet 模型生成的圖像特征,n′為去除噪聲后的圖片數量;atti表示圖片注意力權重:
本文采用圖卷積神經網絡 (GCN)[41-42]捕捉實體鄰接結構信息并生成實體結構表示向量.GCN是一種直接作用在圖結構數據上的卷積網絡,通過捕捉節點周圍的結構信息生成相應的節點結構向量:
其中,Hl,Hl+1分別表示l層和l+1 層節點的特征矩陣;Wl表示可訓練的參數;=D1/21/2表示標準化的鄰接矩陣,其中D為度矩陣;=A+I,A表示鄰接矩陣,若實體和實體之間存在關系,則Aij=1;I表示單位矩陣.激活函數σ設為 ReLU.
由于不同知識圖譜的實體結構向量并不在同一空間中,因此需要利用已知實體對集合S將不同知識圖譜中的實體映射到同一空間中.具體的訓練目標為最小化下述損失函數:
其中,(x)+=max{0,x};S′代表負樣本集合,基于已知的種子實體對 (e1,e2),以隨機實體替換e1或者e2生成.he代表實體e的結構向量,代表實體e1和e2之間的曼哈頓距離;超參數γ代表正負例樣本分隔的距離.
知識圖譜的結構特征以三元組形式表示: (h,r,t),其中,h代表頭實體,t代表尾實體,r代表關系.不同知識圖譜三元組的數量差異較大,導致基于結構信息進行實體對齊的效果大打折扣.為緩和不同知識圖譜的結構差異性,本工作設計三元組篩選模塊,評估三元組重要性,并基于重要性得分過濾部分無效三元組.篩選流程如圖4 所示,其中三元組重要性得分結合關系r的PageRank 得分,以及實體h和t的度.

圖4 三元組篩選模塊Fig.4 Triples filtering module
1)關系PageRank 評分計算.首先構建以關系為節點、實體為邊的關系-實體圖,也稱知識圖譜的關系對偶圖[43].定義知識圖譜為Ge=(V e,Ee),其中V e為實體集合,Ee為關系集合.而關系對偶圖Gr=(V r,Er)以關系為節點,若兩個不同的關系由同一個頭實體 (尾實體) 連接,則這兩個關系節點間存在一條邊.Vr為關系節點的集合,Er為邊的集合.
基于上述生成的關系對偶圖,本文使用Page-Rank[44]算法計算關系得分.PageRank 算法是圖結構數據上鏈接分析的代表性算法,屬于無監督學習方法.其基本思想是在有向圖上定義一個隨機游走模型,描述隨機游走者沿著有向圖隨機訪問各個結點的行為.在一定條件下,極限情況訪問每個結點的概率收斂到平穩分布,這時各個結點的平穩概率值就是其PageRank 值,表示結點的重要度.受該算法的啟發,基于知識圖譜關系對偶圖,計算關系的PageRank 值以表示關系的重要性:
其中,PR(r) 為關系的PageRank 評分;關系v ∈Br,Br表示關系r的鄰居關系集合;L(v) 代表與關系v連接的關系數量 (即關系節點的度數).
2)三元組評分機制.對三元組的篩選,一方面要過濾掉冗余或無效的關系;另一方面要保護知識圖譜的結構特征.由于結構信息缺乏的長尾實體僅有少量相關三元組,若基于關系重要性評分直接過濾一種關系可能會加劇長尾實體的結構信息匱乏問題.為此,本工作結合關系的PageRank 評分和頭尾實體的度,設計三元組評分函數:
其中,dh和dt分別表示頭實體和尾實體的度,即實體相關聯的邊的數量.基于三元組評分Score,并設置閾值β,保留Score(h,r,t)>β的三元組,以精化知識圖譜.值得注意的是,閾值β的取值由篩選的三元組數量決定.
多模態知識圖譜包含至少2 個模態的信息,多模態實體對齊需要融合不同模態的信息.已有的方法將不同的嵌入合并到一個統一的表示空間中[45],這需要額外的訓練來統一表示不相關的特征.更可取的策略是首先計算不同模態特征在其特定空間內的相似度,然后組合各個模態特征的相似度得分以尋找匹配的實體對[14,46].
形式上,給定結構特征向量表示S,視覺特征表示V.計算每個實體對 (e1,e2) 中實體之間的相似度得分,然后利用該相似度得分來預測潛在的對齊實體.為計算總體相似度,當前方法首先計算e1和e2之間的視覺特征向量相似度得分Simv(e1,e2)和結構特征向量的特征相似度得分Sims(e1,e2).相似度得分一般用向量的余弦相似度或曼哈頓距離表示.接下來,以固定權重結合上述相似度得分:
其中,Atts和Attv分別代表結構信息和視覺信息的貢獻率權重;Sim(e1,e2) 表示最終的實體相似度得分.
不同模態的特征從不同視角表征實體,具有一定相關性和互補性[47-49].當前多模態實體對齊方法以固定的權重結合結構信息和視覺信息,認為多種模態信息對實體對齊的貢獻率始終為一定值,忽略了不同實體之間結構信息的有效性差異.基于度感知的長尾實體對齊方法[10]首次提出動態賦予不同特征重要性權重的方法,設計了基于度感知的聯合注意力網絡,提升了長尾實體的對齊準確率.這證明實體結構信息的有效性與實體度的數量呈正相關,并且不同知識圖譜中對等的實體通常具有對等的鄰居實體,實體與種子實體關聯的密切程度與其結構特征的有效性也呈正相關.而實體的視覺信息的有效性不受此類影響,對于結構信息匱乏的實體,應更多地信任視覺信息.
基于此,為捕捉不同模態信息的貢獻率動態變化,本工作基于實體度的數量,并進一步結合實體與種子實體關聯的密切程度,設計自適應特征融合機制:
其中,K,b,a均為超參數,degree表示該實體的度數,Nhop表示實體與種子實體關聯密切程度:
其中,n1-hop和n2-hop分別表示距離種子實體1 跳和2 跳的實體數量;w1和w2為超參數.
本節首先介紹實驗的基本設置,包括參數設置、數據集、對比方法以及評價指標.接著展示在多模態實體對齊任務上的實驗結果,并進行消融分析以驗證各個模塊的有效性.此外,對各個模塊進行分析,驗證設計的合理性及有效性.
在實驗中,我們使用文獻[5]構建的多模態實體對齊數據集MMKG.數據集MMKG 從知識庫FreeBase、DBpedia 和Yago 中抽取得到,包含兩對多模態數據集FB15K-DB15K 和FB15K-Yago15K.表1 描述了數據集的詳細信息.SameAs 表示等效實體.在實驗中,等效實體以一定比例劃分,分別用于模型訓練和測試.

表1 多模態知識圖譜數據集數據統計Table 1 Statistic of the MMKGs datasets
由于數據集不提供圖片,為獲取實體相關圖片,本文基于數據集MMKG 創建URI (Uniform resource identifier)數據,并設計網絡爬蟲,解析來自圖像搜索引擎 (即Google Images、Bing Images 和Yahoo Image Search) 的查詢結果.然后,將不同搜索引擎獲取的圖片分配給不同的MMKG.為模擬真實世界多模態知識圖譜的構建過程,去除等效實體圖像集中相似度過高的圖片,并引入一定數量的噪聲圖片.
本文實驗使用Hits@k(k=1, 10) 和平均倒數排名 (Mean reciprocal rank,MRR) 作為評價指標.對于測試集中每個實體,另一個圖譜中的實體根據它們與該實體的相似度得分以降序排列.Hits@k表示前k個實體中包含正確的實體的數量占總數量的百分比;另一方面,MRR 表示正確對齊實體的倒數排序的平均值.MRR 是信息檢索領域常用的評價指標之一,表示目標實體在模型預測的實體相關性排序中排名的倒數的平均值.注意,Hits@k和 MRR數值越高表示性能越好,Hits@k的結果以百分比表示.表2 和表3 中以粗體標注最好的效果.Hits@1代表對齊的準確率,通常視為最重要的評價指標.

表2 多模態實體對齊結果Table 2 Results of multi-modal entity alignment

表3 消融實驗實體對齊結果Table 3 Entity alignment results of ablation study
實體結構特征由圖卷積神經網絡生成,負例數量設定為15,邊緣超參數γ=3,訓練400 輪,維度ds=300.視覺特征由第3.1 節中提出的視覺特征處理模塊生成,維度dv=2 048;相似度閾值α的值是基于比例確定的,對于每個實體的圖片集,保留相似度前50%的圖片,過濾其余50%的噪聲圖片.基于文獻[5,13]的實驗設置,將種子實體的比例設置為20%和50%,并且選取10%的實體作為驗證集,用于調整式(10) 和式(12) 中超參數,其中,b=1.5,a=1.參數K的取值與種子實體的比例相關,實驗中設定的種子實體比例seed不同,則K取值也不同,當seed=20% 時,K取值為0.6;當seed=50%時,K取值為0.8.式(12)中超參數w1和w2分別取0.8 和0.1.三元組篩選模塊中的閾值β也是基于驗證集調整得來,取值為0.3,將FB15K 的三元組量篩選至約30 萬.
此外,將本文提出的模型 (AF2MEA) 與以下4 種方法進行對比.
1) IKRL 方法[32].通過基于注意力的方法,將實體的圖像表示與三元組知識聚合到實體的集成表示中以對齊實體.
2) GCN-align 方法[14].利用GCN 生成實體結構和視覺特征矩陣,以固定權重結合兩種特征以對齊實體.
3) PoE 方法[5].基于提取的結構、屬性和視覺特征,綜合各個特征的相似度得分以找到潛在對齊的實體.
4) HMEA (Hyperbolic multi-modal entity alignment)方法[13].利用雙曲圖卷積神經網絡HGCN生成實體的結構和視覺特征矩陣,并在雙曲空間中以權重結合結構特征和視覺特征,進行實體對齊.
通過表2 可以明顯看出,與IKRL、GCN-align、PoE 以及HMEA 方法相比,本文提出的方法取得最好的實驗結果.在數據集FB15K-DB15K 上,本文提出的方法AF2MEA 的Hits@1 值顯著高于當前最優方法HMEA,尤其在種子實體比例為20%條件下,Hits@1 指標的提升超過5%,MRR 也取得大幅提升.此外,在各項指標上,本文所提AF2MEA均大幅領先IKRL、GCN-align 以及PoE.
在數據集FB15K-Yago15K 上,與其他4 種模型相比,AF2MEA 在全部指標上均有大幅提升,進一步驗證了本文提出的模型的有效性.其中,在種子實體比例為20%和50%的條件下,AF2MEA 的Hits@1 指標較HMEA 分別提升約11%和8%.
本文創新性地設計了模型的3 個模塊,分別是視覺特征處理模塊、三元組篩選模塊和自適應特征融合模塊.為驗證各模塊對于多模態實體對齊任務的有效性,本節進一步設計了消融實驗.其中,AF2MEA-Adaptive、AF2MEA-Visual和AF2MEA-Filter分別表示去除特征融合模塊的模型、去除視覺特征處理模塊的模型和去除三元組篩選模塊的模型,通過與本文提出的完整模型AF2MEA 進行對比來檢測各模塊的有效性.
本文消融實驗分別在數據集FB15K-DB15K和FB15K-Yago15K 上進行,并分別基于20%和50%種子實體比例進行實驗對比.表3 展示了消融實驗的結果,完整模型在所有情況下均取得最好的實體對齊效果,去除各個子模塊都使得對齊準確率出現一定程度的下降.
對表3 進行具體分析可知,三元組篩選模塊對實體對齊影響最大: 在種子實體占比20%的條件下,去除該模塊導致Hits@1 指標在數據集FB15KDB15K 和FB15K-Yago15K 上分別下降3.6%和6.8%;在種子實體占比50%的條件下,去除三元組篩選模塊導致的性能下降更多,約為7%和8%.此外,去除視覺特征處理模塊和自適應特征融合模塊也對實體對齊效果產生了一定程度的影響.在數據集FB15K-DB15K 上,去除視覺特征處理模塊和去除自適應特征融合模塊導致近似相同程度的Hits@1指標的下降,在種子實體占比為20%時下降1.5%以上,在種子實體占比為50%時下降超過3%.
1)視覺特征處理模塊.視覺特征處理模塊包含基于相似度注意力的圖片特征融合機制和基于相似度的圖片過濾機制.為驗證上述兩種機制的有效性,本節設計了對比實驗,其中Att、Filter 分別表示基于相似度注意力的圖片特征融合機制和基于相似度的圖片過濾機制.Att+Filter 表示結合兩種機制,即本文提出的視覺特征處理模塊.HMEA-v 表示文獻[13]提出的視覺特征處理方法.
由表4 可知,本文提出的基于相似度注意力的圖片特征融合機制與HMEA-v 相比,在所有指標上均有較大提升,在種子實體占比20%的情況下,Hits@1 提升超過6%,MRR 也取得很大提升.此外,兩個模塊Att、Filter 結合取得了最好的對齊效果,相比單純使用注意力模塊有了小幅的提升.

表4 實體視覺特征的對齊結果Table 4 Entity alignment results of visual feature
2)三元組篩選模塊.為驗證本文提出的三元組篩選模塊的有效性,本文對比了 FPageRank、Frandom和 Four三種篩選機制,分別代表基于PageRank 評分篩選機制、隨機篩選機制以及本文設計的篩選機制.為控制實驗變量,本實驗使用上述三種篩選機制篩選了相同數量的三元組,約30 萬,并基于圖卷積神經網絡學習結構特征,保持各參數一致.
實驗結果表明,隨機篩選 Frandom相較于保留所有三元組的基線,其Hits@1 在seed=20%和seed=50%的情況下分別提升約1.5%和2.5%,表明圖譜結構差異性對于實體對齊存在一定的影響.基于PageRank 評分的篩選機制相比于隨機篩選,在種子實體比例為50%的情況下,提升3%左右.由表5可知,本文提出的三元組篩選機制取得了最優對齊結果,在FB15K-DB15K 上與基線對比,Hits@1 指標在不同種子實體比例下分別提升約3% 和8%;在FB15K-Yago15K 上,Hits@1 指標分別提升約5%和9%.

表5 不同三元組篩選機制下實體結構特征對齊結果Table 5 Entity alignment results of structure feature in different filtering mechanism
3)自適應特征融合模塊.本文提出的自適應特征融合,結合實體度以及實體與種子實體的關聯程度,賦予不同模態信息動態的貢獻率權重.第4.4 節中消融實驗結果已證明自適應特征融合機制的有效性,為進一步驗證該機制對結構信息匱乏的實體的對齊效果,本節對比自適應特征融合機制和固定權重特征融合兩種方法.
由于結構信息的豐富程度與實體的度相關,我們按照實體度的數量將實體劃分為3 類,在這3 類實體上分別測試本文提出的自適應融合機制和固定權重機制下多模態實體對齊的準確率.本實驗種子實體比例設置為20%,分別在數據集FB15K-DB15K與FB15K-Yago15K 上進行,相關參數與第4.4 節中消融實驗保持一致.
表6 展示了自適應特征融合與固定權重融合的多模態實體對齊結果.其中Fixed 和Adaptive 分別代表固定權重融合機制和自適應特征融合機制;Group 1、Group 2 和Group 3 分別表示前1/3、中間1/3 和后1/3 部分實體,基于實體度從小到大劃分.由表6 可知,自適應特征融合機制相比固定權重融合,在各類實體上均取得更好的實體對齊效果.圖5 表示自適應特征融合與固定權重融合的實體對齊Hits@1 對比,可以清晰地看出,在Group 1 上提升顯著高于Group 2 和Group 3,證明本文提出的自適應特征融合機制可顯著提升結構信息匱乏的實體即長尾實體的對齊準確率.

表6 自適應特征融合與固定權重融合多模態實體對齊結果Table 6 Multi-modal entity alignment results of fixed feature fusion and adaptive feature fusion

圖5 自適應特征融合與固定權重融合的實體對齊Hits@1 對比Fig.5 Entity alignment Hits@1's comparison of adaptive feature fusion and fixed feature fusion
本工作旨在結合知識圖譜中普遍存在的結構信息和不同模態的視覺信息,并提升視覺信息的有效利用.MMEA (Multi-modal entity alignment)[19]模型取得了較好的實驗結果,但本文使用的數據集與其使用的數據集存在一定差異,因此沒有將MMEA 作為主實驗中的對比模型.為證明本文提出方法的有效性,我們在AF2MEA 原有的結構信息和視覺信息的基礎上,添加屬性信息,并在數據集FB15K-Yago15K 上進行對比實驗.我們對屬性信息進行簡單處理: 首先基于種子實體找到對應屬性,利用對應屬性的數值對實體對進行相似度打分.由于實體屬性值不受實體結構的影響,我們再次使用自適應特征融合模塊以融合屬性信息,尋找潛在的對齊實體.
如表7 所示,基于相同實驗條件,本文提出的模型AF2MEA 的效果顯著優于PoE 模型及MMEA模型.在種子實體比例為20%的情況下,與MMEA相比,本文提出的方法在Hits@1 指標上取得5%以上的提升.在種子實體比例為50% 的情況下,AF2MEA 的Hits@1 值達到48.25%,高出MMEA約8%.在指標Hits@10 以及MRR 上,AF2MEA也有較大的提升.這進一步證明了本文提出框架的有效性和可擴展性.

表7 補充實驗多模態實體對齊結果Table 7 Multi-modal entity alignment results of additional experiment
為解決多模態知識圖譜不完整的問題,本文提出自適應特征融合的多模態實體對齊方法AF2MEA,設計自適應特征融合機制實現多種模態信息有效融合,充分利用多模態信息間的互補性.并且,當前多模態知識圖譜中視覺信息利用率不高,本文基于預訓練的圖像-文本匹配模型,設計了視覺特征處理模塊,為實體生成更精確的視覺特征表示.此外,注意到不同知識圖譜之間存在較大的結構差異限制實體對齊的效果,本文設計三元組篩選機制,緩和結構差異.該模型在多模態實體對齊數據集上取得最好的效果,并顯著提升實體對齊準確率.
后續工作將進一步研究多模態特征聯合表示、預訓練實體對齊模型等多模態實體對齊的相關問題,構建高效可行的多模態知識圖譜融合系統.