摘 要:多模態實體對齊是知識融合過程中的關鍵一步,但異構的多模態知識圖譜擁有較大的結構差異性,并且其多模態信息存在不完全性,利用當前的多模態實體對齊方法無法取得較好的對齊效果。針對上述問題,提出了基于互信息自適應的多模態實體對齊方法。一方面通過設計自適應融合機制來減小模態差異以及依據模態信息的貢獻程度動態分配權重,另一方面引入互信息作為附加特征來強化實體的特征表示,最后利用實體相似度計算來進行實體對齊。實驗表明,在5個通用的數據集上,MAMEA相較于當前基線模型,指標hits@1最大可提升1.8%,最小可提升1.4%,指標MRR最大可提升1.4%,最小可提升0.8%,證明了該模型可有效地提升多模態實體對齊的效果。
關鍵詞:多模態知識圖譜;實體對齊;自適應特征融合;對比表示學習;互信息
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-015-0106-05
doi: 10.19734/j.issn.1001-3695.2024.06.0193
Multi-modal entity alignment method based on adaptive mutual information
Abstract: Multi-modal entity alignment is a critical step in the process of knowledge fusion. However, heterogeneous multi-modal knowledge graphs exhibit significant structural differences, and their multi-modal information is often incomplete, lea-ding to suboptimal alignment outcomes when using current multi-modal entity alignment methods. To address these issues, this paper proposed a multi-modal entity alignment method based on adaptive mutual information. On the one hand, it designed an adaptive fusion mechanism to reduce modal differences and dynamically assign weights based on the contribution of modal information. On the other hand, it introduced mutual information as an additional feature to enhance the representation of entity features. Finally, it performed entity alignment using entity similarity calculations. Experimental results on five common datasets show that the MAMEA outperforms current baseline models, with a maximum improvement of 1.8% and a minimum improvement of 1.4% in the hits@1 metric, and a maximum improvement of 1.4% and a minimum improvement of 0.8% in the MRR metric. These results demonstrate that the proposed model can effectively enhance the performance of multi-modal entity alignment.
Key words:multimodal knowledge graph; entity alignment; adaptive feature fusion; contrastive representation learning; mutual information
0 引言
自2012年Google正式提出知識圖譜的概念后,知識圖譜技術得到了快速的發展,它通過三元組的方式來展現現實世界的知識或事件,是一種揭示實體之間關系的語義網絡,其主要表現形式有兩種,即(實體、關系、實體)和(實體、屬性、屬性值)[1]。知識圖譜為組織、管理以及處理海量信息提供了一種更為有效的方式,其作為大數據時代的知識工程集大成者,是符號主義與連接主義相結合的產物,是實現認知智能的基石[2]。多模態知識圖譜通過融合和利用語言、視覺和聽覺等多種模態來源的數據將異構的知識結構化,進一步豐富了知識之間的關聯。多模態實體對齊是整合多模態數據的有效方式,可以對多模態知識圖譜進行補全,讓機器更好地處理數據及解釋現象,并實現可解釋人工智能。
目前,多模態實體對齊方法主要聚焦于嵌入向量表面,將實體的關系信息、屬性信息、結構信息和圖像信息等通過各自的編碼器嵌入到低維連續的向量空間中,再將各模態特征向量以固定權重進行模態融合,最后通過余弦相似度計算來識別要對齊的實體。但在真實世界中,異構多模態知識圖譜之間存在嚴重的結構差異,并且實體的多模態信息存在不完全性,如模態缺失、有歧義等,這嚴重影響了實體對齊的效果,不利于找到潛在的對齊實體。如圖1所示,圖(a)是源知識圖譜,圖(b)是兩目標知識圖譜。在視覺模態信息完全的情況下,圖(b)下目標知識圖譜中的實體喬丹更易于對齊源知識圖譜中的實體喬丹;在視覺模態信息不完全的情況下,即實體喬丹的視覺模態以卡通人物的形象呈現,或以運動品牌喬丹的商標呈現,甚至沒有視覺模態信息,由于圖(b)上目標知識圖譜中的實體喬丹·貝爾擁有更豐富的結構信息,更易于對齊源知識圖譜中的實體喬丹,但兩者所指并非同一真實實體。為解決上述問題,本文提出了基于互信息自適應的多模態實體對齊方法,并在5個通用的數據集上進行實驗,相比現有方法,該方法有效地提升了實體對齊的效果。
1 相關研究
1.1 知識表示學習
表示學習又稱表征學習,是面向知識庫實體和關系,通過將研究對象(如三元組)中的語義信息投影到稠密的低維向量空間,實現對實體和關系語義信息的分布式表示,能夠高效地計算實體、關系間的復雜語義關系,易于深度學習模型的集成[3]。知識表示學習技術一般可分為翻譯模型、語義匹配模型和深度模型這三種類型。
翻譯模型是基于word2vec的詞向量模型,通過學習語言間的對應關系來翻譯文本。翻譯模型通常將知識圖譜中的三元組映射到低維向量空間,并利用向量運算來保持和表示實體間的關系。
語義匹配模型主要用于在嵌入向量空間中計算和比較實體或關系的語義相似度,是將知識圖譜中的實體和關系嵌入到低維向量空間中,并通過向量運算來衡量它們之間的語義匹配度。
深度學習模型通過利用深度學習技術來進行知識表示學習,包括ConvE、R-GCN、CompGCN等。其中:ConvE可以通過卷積操作來有效地提取實體和關系間的局部特征,捕捉復雜的語義關系;R-GCN利用圖卷積網絡進行建模,通過多層傳播和聚合節點信息來學習實體和關系的嵌入表示;CompGCN結合關系的多種組合操作和GCN,對知識圖譜進行嵌入表示學習;ConvR用不同位數的一維向量表示實體嵌入和關系嵌入,三元組的得分是通過點積結合神經網絡輸出得到的[4]。
1.2 實體對齊
實體對齊任務旨在找到不同知識圖譜中表示同一事物的實體,提升目標知識圖譜的覆蓋率以及正確率[5]。知識融合是解決知識圖譜異構問題的有效途徑,實體對齊是知識融合過程中的關鍵技術,過去對于實體對齊的研究主要面向的是文本數據。近些年來,隨著多模態知識圖譜的快速發展,如何利用多模態數據進行實體對齊成為當今的研究熱點之一。
當前主流的實體對齊方法基于知識表示學習,該方法首先通過知識表示學習技術對知識圖譜進行嵌入,再根據種子實體對將異構知識圖譜的嵌入映射到同一向量空間中,最后通過實體間的相似度計算來得到實體對齊的結果,其中種子實體對是指已對齊的實體對。通常使用翻譯模型和圖神經網絡進行知識表示學習,因其魯棒性和泛化能力較強。
早期的知識圖譜實體對齊面向的是文本數據,Chen等人[6]以TransE模型為基礎提出了MTransE模型,通過將不同語言的知識圖譜嵌入到統一的向量空間,并利用已知的跨語言等價實體對進行映射,來實現多語言知識圖譜的對齊和整合。Ye等人[7]使用VR-GCN模型對圖譜中的實體和關系進行嵌入,根據種子實體對來生成更多的三元組并添加到知識圖譜中,使得嵌入更加科學,然后通過轉移矩陣映射到同一向量空間中,最后利用嵌入向量間的距離來進行實體對齊。Guan等人[8]提出了SEEA算法,該算法通過迭代機制來對嵌入向量進行迭代更新,不斷優化對齊結果,使得對齊后的知識圖譜更加一致和全面。對于多模態知識圖譜,Liu等人[9]應用了一個可學習的注意力加權方案,可給予每個模態不同的重要性。Chen等人[10]整合視覺特征來指導關系特征學習,同時為有價值的屬性分配權重以進行對齊。Lin等人[11]通過對比學習進一步增強了模態內學習,并將KL發散應用于聯合模態嵌入和單模態嵌入之間的輸出分布上,以減少模態差距。
2 方法
現給定兩個多模態知識圖譜MMKG1和MMKG2,通常將其定義為:MMKG=(E,R,A,N,V,TR,TA),其中E代表實體集合,R代表關系集合,A代表屬性集合,N代表名稱集合,V代表圖像集合,TR代表關系三元組集合,TA代表屬性三元組集合。本文還設置了一組實體對S作為訓練數據,即種子實體對。所提方法總體框架如圖2所示,MMKG1和MMKG2的模態信息送入各自的編碼器中生成特征向量,再經過自適應特征融合模塊和互信息模塊后生成實體的聯合嵌入,最后進行聯合嵌入間的實體相似度計算來判斷實體對是否對齊。
2.1 多模態知識嵌入
多模態知識圖譜利用多種模態信息來描述特征,它們之間是互補的,主要有實體的鄰域結構、屬性、關系、名稱等以及圖像特征,每種特征通過單獨的編碼器進行處理。
2.1.1 鄰域結構信息嵌入
其中:Mg表示圖的鄰接矩陣。
2.1.2 關系、屬性和名稱信息嵌入
圖注意力網絡GAT可用于無標簽圖上,但無法正確地對多關系知識圖譜中的關系信息進行建模。所以對關系信息的嵌入采用文獻[13],將實體ei的關系視為詞袋特征,并將其送入一個簡單的前饋層中以獲得關系嵌入hri。通過相同的方法可以獲得屬性嵌入hai和名稱嵌入hni。嵌入計算公式如下:
其中:Wl和bl是可學習參數;μri是詞袋關系特征;μai是詞袋屬性特征;μni是詞袋名稱特征。
2.1.3 圖像信息嵌入
對于圖像信息的嵌入,可以使用預訓練的視覺模型如ResNet-152[14]。將實體ei的圖像vi送入預訓練的視覺模型中,并使用邏輯層之前的最終層輸出作為圖像特征。該特征經過一個前饋層可得到視覺嵌入:
hvi=Wv·PVM(vi)+bv(3)
2.2 對比表示學習
本文引入了模態自適應對比表示學習來充分捕捉模態內和模態間的動態關系,同時保持語義接近性并最小化模態差異,主要分為模態內對比損失和模態間對齊損失。
2.2.1 模態內對比損失(ICL)
模態內對比損失是通過最大化同一實體在不同增強下的相似性來約束模態內部的數據表示,可以用于區分不同知識圖譜中相同實體的嵌入與每種模態中其他實體的嵌入。
將給定的種子實體對S視為正樣本,而將其他不對齊的實體對根據一對一對齊的約束慣例視為負樣本[15]。負樣本既包括源知識圖譜中的內部不對齊實體對,也包括目標知識圖譜中的跨圖不對齊實體對,這些負樣本用于約束聯合嵌入空間,使得來自同一知識圖譜的語義相似的實體相近,來自不同知識圖譜的對齊實體映射到相鄰點。定義正樣本中的第i個實體對為(ei1,ei2),它的模態m的對齊概率分布可以表示為
其中:δm(μ,)=exp(fm(μ)Tfm()/τ1); fm(·)是模態m的編碼器;τ1是一個溫度參數。由此可以將模態內對比損失表示為
由于模態的對齊概率分布具有方向性和非對稱性,所以將另一個方向的對齊概率分布定義為qm(ei2,ei1)。對每種模態都使用模態內對比損失,以此來捕獲嵌入空間中每種模態的內部動態,獲得更具辨別性的邊界。
2.2.2 模態間對齊損失
模態內對比損失僅能捕獲每種模態的內部動態,無法捕獲模態間的動態關系,所以為了減少不同模態輸出分布之間的差距,本文又引入了模態間對齊損失(IAL)。
由于經模態融合后的聯合嵌入含有更加豐富的信息,所以本文將從聯合嵌入中獲取的知識傳遞回單模態,以便單模態嵌入能夠更好地利用其他模態的互補信息,通過最小化聯合嵌入和單模態嵌入之間的雙向KL散度來實現:
其中:q′o(ei1,ei2)、q′o(ei2,ei1)、q′m(ei1,ei2)和q′m(ei2,ei1)分別表示具有兩個方向的聯合嵌入和模態m的單模態嵌入的輸出預測,計算公式類似于式(4),溫度參數為τ2。本文利用模態間對齊損失來學習每個實體內不同模態間的交互,重點是聚合不同模態的分布,減小模態差距。通過該方法可以從多模態表示的輸出預測中提取有用的知識,傳遞到單模態表示,同時保持每個模態相對特定的特征。
本文將模型的總體損失定義為
其中:M={g,r,a,n,v}表示M是包含鄰域結構、關系、屬性、名稱和圖像信息的集合;ΓICLo表示在聯合嵌入間進行模態內對比損失計算;αm和βm是平衡損失重要性的超參數。
2.3 多模態融合
本文將多模態特征進行融合以生成聯合嵌入,實體ei的聯合嵌入是將多模態特征進行L2歸一化后再通過可訓練的注意力加權方案進行拼接得到的。可表示為
由于異構知識圖譜間的差異性,模態的缺失、有歧義、噪聲都會影響實體對齊的效果,所以在模態融合過程中,根據模態的貢獻程度動態分配權重,即用ωm表示模態m的可訓練注意力權重。
2.4 互信息
互信息衡量了兩個變量共享的信息量,量化了兩個變量的相關性[16]。面對異構知識圖譜結構的差異性和模態信息的不完全性,可以利用互信息來衡量特征向量間的相關性,并將其作為一個附加特征來強化實體的特征表示,最后通過計算實體的相似度來確定實體對是否對齊。本文通過參考文獻[17],利用神經函數f(hi,hj)來計算密度比:
f(hi,hj)=exp(hTiWfhj)(9)
其中:Wf是權重矩陣,再根據密度比可計算出互信息為
與在每個維度上加權兩個向量差異的余弦相似度不同,互信息更重視高層次的相關性,特別適合實體對齊任務[18]。
3 實驗
3.1 數據集和評價指標
實體對齊所使用的數據集主要有DBP15K、FBDB15K和FBYG15K三個。DBP15K是雙語數據集,可分為三種不同語言的子版本數據集,即DBP15K(ZH-EN)、DBP15K(JA-EN)和DBP15K(FR-EN),而FBDB15K和FBYG15K是單語數據集。各數據集的數據統計信息如表1所示。
可以看出部分實體沒有圖像信息,所以參考EVA[9]模型的設置,將這些實體的視覺模態分配為隨機向量。
本文采用了hits@k(k=1,10)和MRR兩個評價指標。hits@1(H@1)是指對于每個源實體,模型預測的目標實體中是否有一個與之匹配的實體排在第一位,而hits@10(H@10)是指預測的目標實體中是否有一個與之匹配的實體出現在前10個預測結果中。MRR表示正確對齊實體的倒數排序的平均值。在此之前,需要利用聯合嵌入來計算源知識圖譜中的實體和目標知識圖譜中每個實體的相似度,并進行降序排列,相似度最高的即為對齊的實體。
3.2 參數設置和對比方法
本文將所有網絡的隱藏層維度都設置為300,將總迭代次數設置為500,批量大小設為3 500,并且采用提前停止和梯度積累策略。使用AdamW優化器,學習率為0.000 5來更新參數。超參數τ1、τ2分別設置為0.1和4.0。在處理圖像特征時,對于單語數據集,本文使用預訓練視覺模型VGG-16[19],視覺特征維度為4 096,而對于雙語數據集,本文使用ResNet-152,視覺特征維度為2 048。在利用詞袋模型對關系、屬性和名稱進行編碼時,將向量的長度固定為1 000。此外,對于雙語數據集DBP15K,本文將種子實體對的比例設置為30%,而將單語數據集FBDB15K和FBYG15K的設置為80%。
將本文方法與以下幾種先進的多模態實體對齊方法進行對比,包括MUGNN[20]、AliNet[21]、EVA[9]、MSNEA[10]、MCLEA[11]和MEAFormer[22]。
3.3 實驗結果
實驗結果如表2、3所示,可以看出本文方法取得了較好的實驗結果,無論是DBP15K的三個不同語言的子版本數據集還是FBDB15K和FBYG15K數據集,指標hits@1、hits@10和MRR均有明顯的提升。指標hits@1在FBDB15K和DBP15K(JA-EN)上上升最大,為1.8%,在FBYG15K和DBP15K(ZH-EM)上上升最小,為1.4%。指標MRR在FBDB15K上上升最大,為1.4%,在DBP15K(FR-EN)上上升最小,為0.8%。該實驗結果驗證了基于互信息自適應的多模態實體對齊方法的有效性。
3.4 消融實驗
本文模型主要由自適應特征融合模塊和互信息模塊兩個模塊組成。在自適應特征融合模塊中還包括了對比表示學習模塊和動態權重分配模塊。為了驗證各模塊對多模態實體對齊任務的影響,本文設計了消融實驗,該消融實驗分別在單語數據集和雙語數據集上進行,種子實體對的設置仍為80%和30%。如圖3所示,可以看出在僅有對比表示學習模塊時,在FBDB15K上,指標hits@1最大,約為73.5%,在FBYG15K上,指標hits@1最小,約為66.7%;而在對比表示學習模塊的基礎上,依據各模態信息的貢獻程度來動態分配權重可以有效地提升多模態實體對齊的效果,在DBP15K(FR-EN)上,指標hits@1上升最為明顯,約為5%,在FBDB15K上,指標hits@1上升最小,約為2%。最后加入互信息模塊,將互信息作為附加特征來強化實體的特征表示,從圖3可以看出,互信息模塊也略微地提升了多模態實體對齊的效果,指標hits@1在DBP15K(JA-EN)上上升最明顯,約為2%,在FBYG15K上上升最小,約為1.4%。
3.5 種子實體對比例對多模態實體對齊效果的影響
在雙語數據集和單語數據集的實驗過程中,分別將種子實體對S的比例設置為30%和80%。為了進一步驗證種子實體對比例對多模態實體對齊效果是否有影響,本文通過設置不同的種子實體對比例,在FBDB15K和FBYG15K上進行實驗。如圖4所示,將本文方法和與其內容相近且性能最好的方法MEAFormer進行對比,可以看出本文方法的指標hits@1在不同種子實體對比例下一直高于方法MEAFormer,并且種子實體對的比例越高,多模態實體對齊的效果越好。
4 結束語
針對多模態知識圖譜中的實體對齊問題,本文提出了基于互信息自適應的多模態實體對齊方法。在該方法中,通過自適應特征融合和將互信息作為附加特征來提升實體對齊的效果,并且在5個數據集上進行實驗,實驗結果表明了該方法的有效性。后續工作將進一步研究是否可以通過知識補全或其他模態信息來豐富輔助信息,以提升實體對齊的效果。
參考文獻:
[1]王昊奮, 漆桂林, 陳華鈞. 知識圖譜: 方法、實踐與應用[M]. 北京: 電子工業出版社, 2019: 40-44. (Wang Haofen, Qi Guilin, Chen Huajun. Knowledge graph: methods, practices, and applications[M]. Beijing: Electronics Industry Press, 2019: 40-44.)
[2]王萌, 王昊奮, 李博涵, 等. 新一代知識圖譜關鍵技術綜述[J]. 計算機研究與發展, 2022, 59(9): 1947-1965. (Wang Meng, Wang Haofen, Li Bohan, et al. A review of key technologies in the new generation of knowledge graphs[J]. Journal of Computer Research and Development, 2022, 59(9): 1947-1965.)
[3]田玲, 張謹川, 張晉豪, 等. 知識圖譜綜述——表示、構建、推理與知識超圖理論[J]. 計算機應用, 2021, 41(8): 2161-2186. (Tian Ling, Zhang Jinchuan, Zhang Jinhao, et al. A survey on knowledge graphs: representation, construction, reasoning, and hypergraph theory[J]. Journal of Computer Applications, 2021, 41(8): 2161-2186.)
[4]張富, 楊琳艷, 李健偉, 等. 實體對齊研究綜述[J]. 計算機學報, 2022, 45(6): 1195-1225. (Zhang Fu, Yang Linyan, Li Jianwei, et al. A survey of entity alignment research[J]. Journal of Computer Science, 2022, 45(6): 1195-1225.)
[5]郭浩, 李欣奕, 唐九陽, 等. 自適應特征融合的多模態實體對齊研究[J]. 自動化學報, 2024, 50(4): 758-770. (Guo Hao, Li Xinyi, Tang Jiuyang, et al. Research on multimodal entity alignment with adaptive feature fusion[J]. Acta Automatica Sinica, 2024, 50(4): 758-770.)
[6]Chen Muhao, Tian Yingtao, Yang Mohan, et al. Multilingual know-ledge graph embeddings for cross-lingual knowledge alignment[C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 1511-1517.
[7]Ye Rui, Li Xin, Fang Yujie, et al. A vectorized relational graph convolutional network for multi-relational network alignment[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 4135-4141.
[8]Guan Saiping, Jin Xiaolong, Wang Yuanzhuo, et al. Self-learning and embedding based entity alignment[C]// Proc of IEEE International Conference on Big Knowledge. Piscataway, NJ: IEEE Press, 2017: 33-40.
[9]Liu Fangyu, Chen Muhao, Roth D, et al. Visual pivoting for (unsupervised) entity alignment[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 4257-4266.
[10]Chen Liyi, Li Zhi, Xu Tong, et al. Multi-modal Siamese network for entity alignment[C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2022: 118-126.
[11]Lin Zhenxi, Zhang Ziheng, Wang Meng, et al. Multi-modal contrastive representation learning for entity alignment [C]// Proc of the 29th International Conference on Computational Linguistics. [S.l.]: International Committee on Computational Linguistics, 2022: 2572-2584.
[12]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks [EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.
[13]Yang H W, Zou Yanyan, Shi Peng, et al. Aligning cross-lingual entities with multi-aspect information[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4431-4441.
[14]He Kaiming, Zhang Xianyyu, Ren Shaoqing, et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[15]Sun Zequn, Hu Wei, Zhang Qingheng, et al. Bootstrapping entity alignment with knowledge graph embedding[C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4396-4402.
[16]潘理虎, 李小華, 張睿, 等. 基于互信息解決多標簽文本分類中的長尾問題[J]. 計算機應用研究, 2024, 41(9): 2664-2669. (Pan Lihu, Li Xiaohua, Zhang Rui, et al. Addressing long-tail problem in multi-label text classification based on mutual information[J]." Application Research of Computers, 2024, 41(9): 2664-2669.)
[17]Oord A V D, Li Yazhe, Vinyals O. Representation learning with contrastive predictive coding [EB/OL]. (2019-01-22). https://arxiv.org/abs/1807.03748.
[18]Guo Lingbing, Han Yyuqiang, Zhang Qiang, et al. Deep reinforcement learning for entity alignment[C]// Proc of Findings of ACL. Stroudsburg, PA: Association for Computational Linguistics, 2022: 2754-2765.
[19]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[20]Cao Yixin, Liu Zhiyuan, Li Chengjiang, et al. Multi-channel graph neural network for entity alignment[C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 1452-1461.
[21]Sun Zequn, Wang Chengming, Hu Wei, et al. Knowledge graph alignment network with gated multi-hop neighborhood aggregation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 222-229.
[22]Chen Zhuo, Chen Jiaoyan, Zhang Wen, et al. MEAFormer: multi-modal entity alignment transformer for meta modality hybrid[C]// Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 3317-3327.