















摘 要:多模態實體對齊旨在識別由結構三元組和與實體相關的圖像組成的不同的多模態知識圖譜之間的等價實體。現有的多模態實體對齊的研究主要集中在多模態融合策略,忽略了模態缺失和不同模態難以融合的問題,未能充分利用多模態信息。為了解決上述問題,提出了MACEA模型,該模型使用多模態變分自編碼方法主動補全缺失的模態信息,動態模態融合方法整合不同模態的信息并相互補充,模態間對比學習方法對模態間進行建模,這些方法有效解決了模態缺失與模態難以融合的問題。相比于當前基線模型,MACEA的hits@1和MRR指標分別提升了5.72%和6.78%,實驗結果表明,該方法可以有效地識別出對齊實體對,具有較高的準確性和實用性。
關鍵詞:實體對齊;知識圖譜;多模態;動態融合;模態缺失
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-014-0100-06
doi: 10.19734/j.issn.1001-3695.2024.05.0187
Multi-modal entity alignment model based on adaptive fusion technology
Abstract: Multi-modal entity alignment aims to identify equivalent entities between different multi-modal knowledge graphs composed of structured triples and images associated with entities. The existing research on multi-modal entity alignment mainly focuses on multi-modal fusion strategies, ignoring the problems of modal imbalance and difficulty in integrating different modalities, and fails to fully utilize multi-modal information. To solve these problems, this paper proposed the MACEA model, this model used the multi-modal variational autoencoder method to actively complete the missing modal information, the dynamic modal fusion method to integrate and complement the information of different modalities, and the inter-modal contrastive learning method to model the inter-modal relations. These methods effectively solve the problems of modal missing and the difficulty in modal fusion. Compared with the baseline model, MACEA improves the hits@1 and MRR indicators by 5.72% and 6.78%, respectively. The experimental results show that the proposed method can effectively identify aligned entity pairs, with high accuracy and practicality.
Key words:entity alignment; knowledge graph; multi-modal; dynamic fusion; modality missing
0 引言
知識圖譜(knowledge graph,KG)[1]是最常見的一種存儲知識的大型數據庫的結構化方式,其利用三元組來表示實體之間的關系和屬性信息,使實體的屬性和關系能夠清晰明了地展示出來。由于多模態數據比文本數據更具豐富性和直觀性,所以多模態知識圖譜應運而生,如MMKG[2]和RichPedia[3]。多模態知識圖譜將可視化數據整合到傳統知識圖譜中,并將其作為實體或描述性屬性進行處理,這大大增強了知識圖譜的完整性和豐富性,提高了知識圖譜的適用性。實體對齊(entity alignment,EA)[4]是知識圖譜整合與構建中的一項關鍵任務,其目的是在識別跨知識圖譜的等價實體,并解決不同命名規則、多語言和異構圖結構問題。為了利用來自互聯網的視覺內容作為實體對齊的補充信息,研究人員提出了多模態實體對齊(multi-modal entity alignment,MMEA)[5],其中每個實體都與其名稱相關的圖像相關聯。現有的多模態證據融合方法主要集中于設計合適的跨知識圖譜模態融合范式。EVA模型[6]針對模態重要性引入了模態特異性注意力權重學習;MSNEA模型[7]融合視覺特征指導關系和屬性學習;MCLEA模型[8]在聯合實體嵌入和單峰實體嵌入之間的輸出分布上應用KL散度來減小模態差距。通過調研發現,目前實體對齊方法存在以下兩方面問題:
a)模型在訓練過程中可能因為模態缺失從而影響整體性能。
b)不同的模態在嵌入時可能會出現表示不對齊和難以對模塊進行融合的情況。
基于這些觀察,本文提出了自適應對比學習的多模態實體對齊的方法MACEA模型(multimodal adaptive contrastive lear-ning for entity alignment),通過引入多尺度模態融合和模態間對比損失模塊,并使用多模態變分自編碼器補全視覺信息,緩解了其他模型的缺點。總體而言,本文的貢獻可以概括為:
a)引入了多模態變分自編碼器,可以減輕模態噪聲和模態缺失的影響,使得模型在缺失模態的情況下進行學習。
b)使用模態間對比學習技術縮小不同模態輸出分布之間的差距,使得MACEA模型能夠對模態間的交互進行建模。
實驗證明,在公共數據集上,MACEA模型的hits@1達到0.739,MRR達到0.817,與MCLEA模型相比擁有更先進的性能,體現了多模態自適應對比學習的積極作用。
1 相關工作
實體對齊[4]可以識別和對齊多個知識圖譜中的等價實體,促進知識的形成。
1.1 傳統實體對齊
實體對齊是一種對齊多源知識圖譜的方法,首先要對知識圖譜進行編碼,然后再執行多源知識圖譜的對齊操作。為了處理知識圖譜之間的異質性,實體對齊通常采用基于嵌入的方法,目前主要有兩種基于嵌入的方法可供選擇。首先是基于翻譯的實體抽取方法,其利用表示學習模型(如TransE[9])等技術捕獲三元組內的結構信息,將關系直接建模在向量空間中。其次是基于圖神經網絡(graph neural network,GNN)[10]的實體抽取方法,即利用圖卷積神經網絡(graph convolutional network,GCN)[11]和圖注意力網絡(graph attention network,GAT)[12]等技術進行鄰域實體特征聚合。這些方法將不同的知識圖譜通過表示學習的方式嵌入到低維向量空間中[13],并通過兩個實體向量之間的距離來確定它們是否匹配[14]。TGAEA[15]利用雙重圖注意力網絡對實體多信息進行加權嵌入表達。
通常情況下,在預先對齊的實體對中應用對齊目標以調整知識圖譜的語義空間。研究人員發現,可以采用一些其他方式進一步提升實體對齊的性能,比如參數共享(即在不同的知識圖譜之間共享種子對齊的實體嵌入)[16]、迭代學習(即通過逐步標記實體對作為偽種子監督來不斷改進)[3]、屬性值編碼[17]、集體穩定匹配[18]和通過本體模式來提高實體對齊[19]。
1.2 多模態實體對齊
隨著多模態學習的快速發展,將視覺模態引入實體對齊逐漸成為研究的焦點,尤其是多模態知識圖譜構建任務的引入[20],更是大大提高了視覺信息的權重。在這一背景下,一些重要模型引起了廣泛關注,MMEA模型[5]主要研究融合各種模態的知識表示,然后通過最小化對齊實體整體嵌入之間的距離來進行實體對齊。EVA模型[6]則采用可學習的注意力加權方案,賦予每個模態不同的重要性。MSNEA模型[7]整合視覺特征用于指導關系特征學習,并賦予對齊任務屬性權重,并且還通過對比學習來增強內模態學習,應用KL散度來減小聯合和單模態嵌入之間的模態差異。AF2MEA[21]采用自適應特征融合的方法,在融合時對實體的模態信息自適應生成相應的權重。這些方法為多模態實體對齊任務帶來了新的啟示。
多模態實體對齊主要關注知識圖譜領域中跨語言跨模態檢索(cross-lingual cross-modal retrieval,CCR)和知識圖譜構建兩個方面的應用。跨語言跨模態檢索是一種能夠將不同模態數據進行關聯并進行信息檢索的技術。通過多模態實體對齊,可以同時克服模態和語言之間的障礙,將文本、圖像、音頻等不同類型數據進行關聯,并在單一模型中實現跨語言跨模態檢索。例如,用戶可以通過輸入圖片來搜索與該圖片相關的文本信息或視頻片段。在知識圖譜構建過程中,在提取實體關系等信息后,需要對來自不同知識圖譜來源的知識進行融合。通過多模態實體對齊,可以匹配和關聯不同來源知識圖譜中的實體,從而構建一個規模更大、覆蓋范圍更廣泛的知識圖譜。
2 方法
2.1 預備知識
多模態知識圖譜被表示為G=(E,R,A,V,T),其中E、R、A、V、T分別代表實體、關系、屬性、圖像和三元組的集合,T=E×R×E是關系三元組的集合。給定G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2)作為待對齊的兩個知識圖譜,實體對齊的目標是找到對齊的實體對A={(e1,e2)|e1≡e2,e1∈E1,e2∈E2},本文通過將一定比例的先驗對齊實體對作為模型的訓練集,將G1和G2嵌入到相同的向量空間中進行模型訓練,這樣就可以識別其他對齊實體。
2.2 多模態知識嵌入
模型的整體架構如圖1所示。MACEA利用各模態編碼器的方法來獲取各模態的嵌入表示,然后對多模態信息進行加權聚合,生成實體的多模態聯合表示。
2.2.1 圖鄰域結構嵌入
圖注意力網絡(graph attention network,GAT)[22]可以直接處理結構化數據,獲得其原始語義信息。在多頭注意力機制中,輸入的序列數據會被劃分為多個頭,每個頭獨立地進行計算,得到不同的輸出并拼接在一起。
因此,本文利用GATv2對兩個知識圖譜的結構信息進行建模。具體而言,使用GATv2獲取實體結構嵌入的公式如下:
其中:hi是實體的原始特征;eij表示實體之間的相似系數;W是共享的權重矩陣;aT是單層前饋神經網絡;σ是激活函數;‖表示矩陣拼接;αij表示ej對實體ei的重要性; hig是通過聚合所有一跳鄰居Ni來計算ei的隱藏狀態;softmax和LeakyReLu是相應的非線性函數。
與GAT相比,GATv2在節點間關系更復雜、對不同鄰域節點排序要求不同的情況下,能夠顯著優化實體對齊任務中節點間權重的獲取,從而提升實體對齊效果。
2.2.2 關系、屬性、名稱嵌入
本文提取實體關系、屬性和實體名稱作為輔助信息,使用MCLEA模型[8]對實體關系、屬性和實體名稱建模,并將這三種類型的實體信息視為詞袋特征(bag of words)輸出到前饋層中,獲得關系嵌入hri。為了簡化MCLEA模型的方法并保持一致性,本文對實體的屬性嵌入ha i、關系嵌入hri和名稱嵌入hni采用相同的方法。因此,這些嵌入可以計算如下:
hli=Wluli+bl" l∈{r,a,n}(4)
其中:hli,l∈{r, a, n}是ei的關系、屬性和名稱嵌入;Wl和bl是偏置矩陣的可學習權重;uri是詞袋關系特征;uai是詞袋屬性特征;uni是將姓名字符串的預訓練GloVe[18]向量進行平均得到的名稱特征。
2.2.3 視覺信息嵌入
本文使用預訓練的視覺模型(PVM)作為視覺編碼器對實體的描述圖像進行編碼,例如ResNet-152[23]和CLIP[24]。PVM模型將實體ei的圖像vi輸入到預訓練的視覺模型中,使用它的最終層輸出作為圖像特征,然后將圖像特征輸入到前饋層,實現原始的視覺嵌入。具體公式如下:
hvi=WvPVM(vi)+bv(5)
其中:hvi是ei的原始視覺嵌入;Wv和bv是前饋神經網絡偏置矩陣的可學習權重;PVM為預訓練視覺模型;vi表示ei的視覺圖像。
2.3 模態融合
2.3.1 動態模態融合
為了解決不同模態之間難以融合的問題,本文提出了動態模態融合模塊(dynamic modality fusion,DMF),其通過全局的方式整合不同模態的信息,將各個模態的信息相互補充,使得每個多模態實體對都可以全局對齊。首先將實體嵌入進行串聯,然后動態調整不同模態的權重進行對齊,使得模型能夠自適應地學習多個多模態知識圖譜中各個模態的信息,這提高了實體對齊的準確性和魯棒性。本文設wm為模態m的全局權重,將實體ei的DMF聯合嵌入hDMFi規定為
其中:γm(e1i,e2j)=exp(hmiEuclid Math OneUBphnj/τ),τ 代表溫度超參數。基于度感知的長尾實體對齊方法,本文使用動態賦予不同模態權重的方法,利用共注意相似矩陣獲得兩個實體的注意。具體來說,本文將矩陣饋送到一個softmax層,得到的矩陣被一個平均層壓縮,生成注意力向量。最終將特定于特征的相似度分數與關注值相乘,得到最終的相似度分數如下:
其中:attl為模態特征相似度得分對應的權重值;sim(e1,e2), sim(e2,e1)可能有不同的權重向量。
協同注意力特征融合模型的模型復雜度很低,也可以很容易地適應更多的特征。訓練目標是最大化訓練實體對的相似度分數,可以轉換為最小化以下損失函數,如下所示。
為了考慮實體對的對齊方向,本文建立了一個雙向對齊目標,如下所示。
其中:m表示一種模態或一種嵌入類型。當使用DMF聯合嵌入時,本文將訓練目標表示為LDMF,即將γDMF(e1i,e2j)設置為exp(hDMFiEuclid Math OneUBphDMFj/τ)。
全局自適應加權使模型能夠充分利用高質量的模態,同時最小化低質量模態(如屬性/關系中的冗余信息和圖像中的噪聲)的影響,確保在一定程度上保留有價值的信息,這有助于對齊過程的穩定性。
2.3.2 模態對比學習
為了緩解模態內對齊損失模塊(intra-modal contrastive loss, ICL)因不同模態在嵌入時表示不對齊和融合模塊難以建模模態間的復雜交互的問題,本文在模態對比學習中使用了模態間對齊損失模塊(inter-modal alignment loss, IAL)。IAL的目標是在學習每個實體內部不同模態之間的交互,集中于聚合不同模態的分布,從而減少模態差距,使其能夠對模態間的交互進行建模。具體公式如下:
其中:pm(e1i,e2j)表示正樣本對(e1i,e2j)中模態m 的概率分布;δm(u,v)表示實體之間的相關概率。
由于聯合嵌入融合了多模態特征,所以本文將聯合嵌入中的知識轉移回單模態嵌入中,使得單模態嵌入能夠更好地利用其他嵌入中的互補信息。具體來說,本文最小化聯合嵌入和單模態嵌入之間輸出分布上的雙向KL散度,具體公式如下:
其中:po(e1i,e2j)、po(e2i,e1j)和pm(e1i,e2j)、pm(e2i,e1j)代表輸出分別為兩個方向的聯合嵌入和模態的單峰嵌入的預測值。
式(15)的計算與模態內對齊損失模塊類似,但是模態間對齊損失模塊具有溫度參數τ,這描述在softmax函數中的一個調節參數,用于控制概率分布的平滑度,可以調節模型輸出的多樣性和探索性,來平衡模型生成結果的多樣性和準確性。在式(14)中,可以對pm(e1i,e2j)、pm(e2i,e1j)進行回推,得到知識蒸餾的結果。
模態間對齊損失模塊旨在學習每個實體內部不同模態之間的交互,它集中于聚合不同模態的分布,減少模態差距。本文從多模態表示的輸出預測中提取有用的知識到單模態表示,同時保持每個模態相對模式特異性的特征。
2.4 損失信息補全
本文使用了學習共享表示的多模態變分自編碼器(multimodal variational autoencoder,MVAE)[25],可以主動地補全缺失的模態信息。如果某個模態在訓練過程中缺失,則刪除相應的推理網絡。具體如圖2所示。
本文通過優化重構損失和KL散度損失之和來訓練VAE模型,因此,使用分類交叉熵損失來重建文本,并使用均方誤差來重建圖像特征。通過最小化KL散度使隱空間接近高斯分布來正則化隱空間。兩個概率分布之間的KL散度簡單地衡量了它們之間的偏離程度。最小化KL散度意味著優化概率分布參數(μ和σ),使其與目標分布(正態分布)非常相似。計算公式如下:
其中:M是多模態數據的集合;nm是圖片特征的維數;nt是實體數量;nm是多模態特征的維數。本文使用Lmvae表達最小化MVAE損失,具體公式如下:
MVAE策略抑制了視覺模態在編碼過程中的過擬合現象,最大限度地保留了模態混合特征到視覺空間的知識映射,從而緩解了大部分視覺模態缺失和噪聲干擾問題。
3 實驗
3.1 數據集
在實驗中,本文采用了五個實體對齊數據集,其中包括從多語言版本的DBpedia抽取并構建的三個數據集[19],DBP15K是最為廣泛使用的跨語言實體對齊基準數據集,包含三個雙語數據集DBP15KFR-EN、DBP15KZH-EN和DBP15KJA-EN,其中每個數據集包含約40萬個三元組和15 000個預對齊的實體對。還有來自MMKG[3]的數據集FBDB15K和FBYG15K,并給出了20%、50%和80%的參考實體對齊,具體如表1所示。
3.2 實現方法
為了確保實驗公平性,本文對所有數據集進行訓練時采用以下設置:將所有網絡的隱藏層維度統一設定為300,并進行500輪訓練,如果后續使用迭代訓練策略,本文采用提前停止和梯度累加的方式進行訓練,并額外添加了500輪訓練。優化器選擇AdamW,批處理大小固定為3 500,選用CLIP[20]作為視覺編碼器,并將視覺特征維度設置為2 048。將關系、屬性和名稱以詞袋模型編碼成定長向量,在此過程中對信息進行截斷或補全以消除長尾關系或屬性的影響,得到固定長度的全零向量。同時去除了用于輸入一致性的屬性值,并擴展了迭代訓練能力。
3.3 評價指標
本文與大部分實體對齊模型一樣,使用hits@n、mean reciprocal rank (MRR)和mean rank (MR)作為評測指標,評價模型的實體對齊精度。hits@n和MRR的值越大,MR的值越小,模型的性能越好。
hits@n表示候選實體對齊可能性排名前n個項目產生正確結果的概率;MRR表示候選序列中正確排序倒數的平均值;MR表示候選對齊中的平均正確排名。
3.4 實驗實施
3.4.1 主實驗
通過表2可得, 在數據集DBP15K上,與EVA[6]、MSNEA[7]和MCLEA[8]相比,本文方法取得了很好的實驗結果。在非迭代訓練中,在不使用表面形式下,與最優方法MCLEA模型相比,hits@1,hits@10和MRR的指標取得提升。在使用表面形式下,與最優方法EVA模型相比,除了DBP15KFR-EN數據集,其余語言的hits@1、hits@10和MRR的指標取得很大提升。
通過表3可得,在數據集FBYG15K和FBDB15K上,本文將數據拆分為3個,Seed∈{0.2,0.5,0.8}。與EVA[6]、MSNEA[7]和MCLEA[8]相比,MACEA模型取得了最好的實驗結果。在Seed的所有取值中,與最優方法MCLEA模型相比,hits@1、hits@10和MRR的指標取得很大提升。
3.4.2 迭代訓練
本文采用了迭代訓練提高模型的準確性和魯棒性,它可以維護臨時緩存,存儲測試集中的實體對。具體來說,該算法在每個輪次中找出在向量空間中是相互最近鄰的跨知識圖實體對,然后將這些實體對添加到候選列表中。如果候選列表中的實體對是相互最近鄰實體對,則將這些實體對添加到訓練集中。
通過表4可得,在迭代訓練中,在使用表面形式與不使用表明形式的兩種方法中,本文提出的MACEA模型的hits@1、hits@10、MRR值基本都高于當前最優方法MCLEA,僅僅在DBP15KZH-EN數據集中略有遜色。
3.4.3 消融實驗
為了證實各模塊對于多模態實體對齊任務的有效性,本節進一步設計了消融實驗,其中,MACEA/del VAE、MACEA/del DMF和MACEA/del IAL分別表示去除動態融合模塊的模型、去除多模態變分自編碼器模塊和去除模態間對比模塊的模型,通過與本文提出的完整模型MACEA進行對比來檢測各模塊的有效性。本消融實驗分別在三個雙語數據集DBP15KFR-EN、DBP15KZH-EN和DBP15KJA-EN上進行,其中,在JA中,有64.30%的實體有圖像,在ZH中,有82.07%的實體有圖像,在FR中,有72.09%的實體有圖像,在EN中,有72.17%的實體有圖像,綜合DBP15K的所有語言數據集,模態缺失比例達到27.34%,在不進行模態補全的情況下,本模型的綜合性能下降了1.38%,證明模態缺失對結果會產生負面影響。表5展示了消融實驗的結果,完整模型在所有情況下均取得了最好的實體對齊效果,去除各個子模塊都使得對齊準確率出現一定程度的下降。
3.5 實驗結果
本文在多模態知識圖譜的實體對齊任務上將MACEA與幾種最先進的方法進行了比較。表2~5展現了MACEA模型在DBP15K、FBDB15K和FBYG15K數據集上訓練的性能,MACEA在多模態實體對齊任務上取得了最好的性能。在兩個數據集上,MACEA模型的hits@1和MRR至少提高了2.23%和1.91%,這說明本文提出的模型行之有效。在大多數情況下,多模態方法比傳統方法表現出更好的結果。與傳統方法相比,MACEA在hits@1和MRR上分別取得了至少38.35%和23.7%的提升。
MACEA模型更有效地利用多模態知識進行多模態實體對齊,MACEA在DBP15KFR-EN上的hits@1比MCLEA、EVA和MSNEA模型分別提高了5.71%、10.98%和39.59%,這說明了模態間對比學習的有效性。MACEA模型在FBYG15K和FBYG15K數據集上的表現突出,原因是動態模態融合方案很好地融合多模態知識,可以很好地處理弱模態產生的負面影響。MACEA模型使用迭代訓練機制之后,hits@1至少提升了6.99%,原因是在迭代訓練過程中產生了虛擬實體對齊對,從而迭代過濾掉了潛在的錯誤實體對。
3.6 實驗分析
與MACEA模型相比,ACK-MMEA模型通過利用屬性一致的知識圖譜表示學習方法來整合一致的對齊知識。但是在FBDB15K和FBGO15K數據集上,hits@1和MRR比MACEA模型降低了15.11%和12.09%,原因可能是研究集中于屬性信息,而忽略了關系信息和名稱信息,沒有充分有效地利用多種模態。MMEA模型可以利用多種數據源,提高對齊的準確性,并且對不同類型的數據具有較好的適應性。但是在FBDB15K和FBGO15K數據集上,hits@1和MRR比MACEA模型降低了19.39%和17.86%,原因可能是無法合理地處理多種模態的數據,并且受到數據的質量和多樣性影響較大。MEAformer模型通過動態預測模態之間的互相關系數來進行更細粒度的實體級模態融合和對齊。但是在FBDB15K和FBGO15K數據集上,hits@1和MRR比MACEA模型降低了1.28%和1.04%,原因可能是忽略了模態缺失的問題,使得實體信息和視覺信息沒有充分融合。
4 結束語
本文調查了現有的多模態實體對齊方法在處理模態信息和模態對比方面的限制,發現一些模型在模態缺失和模態融合方面存在困難。為了克服這一困難,本文提出了MACEA模型,該模型包括動態模態混合和模態間對比學習技術,并使用了變分自編碼器模型,可以根據不同模態信息的貢獻率動態地賦予不同的權重,并且可以在模態缺失的情況下進行最優訓練,從而顯著提升實體對齊準確率。該技術在智能問答、信息檢索、圖像標注等領域的應用中起到了重要作用。
在未來的多模態實體對齊的研究中,將進一步研究在視覺模態以外的模態缺失問題,探索更有效的技術來利用更詳細的視覺內容進行多模態實體對齊,從而提高模型的準確性和可靠性,滿足現實應用的需求。
參考文獻:
[1]Wang Meng, Qi Guilin, Wang Haofeng, et al. RichPedia: a comprehensive multi-modal knowledge graph [C]//Proc of the 9th Joint International Conference on Semantic Technology. Berlin:Springer-Verlag,2019: 130-145.
[2]Liu Ye, Li Hui, Garcia-Duran A, et al. MMKG: multi-modal know-ledge graphs [EB/OL]. (2019-03-13). https://arxiv.org/abs/1903.05485.
[3]Wang Meng, Wang Haofen, Qi Guilin, et al. RichPedia: a large-scale, comprehensive multi-modal knowledge graph [J]. Big Data Research, 2020, 22(10): 100-159.
[4]Guo Lingbing, Chen Zhuo, Chen Jiaoyan, et al. Revisit and outstrip entity alignment: a perspective of generative models [C] //Proc of the 12th International Conference on Learning Representations. 2024.
[5]Chen Liyi, Li Zhi, Wang Yijun, et al. MMEA: entity alignment for multi-modal knowledge graph [C]//Proc of the 13th International Conference on Knowledge Science, Engineering and Management. Berlin:Springer-Verlag, 2020:134-147.
[6]Liu Fangyu, Chen Muhao, Roth D, et al. Visual pivoting for (unsupervised) entity alignment [EB/OL]. (2020-12-17). https://arxiv.org/abs/2009.13603.
[7]Chen Liyi, Li Zhi, Xu Tong, et al. Multi-modal Siamese network for entity alignment [C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press,2022: 118-126.
[8]Lin Zhenxi, Zhang Ziheng, Wang Meng, et al. Multi-modal contrastive representation learning for entity alignment [EB/OL]. (2022-09-02). https://arxiv.org/abs/2209.00891.
[9]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data [C]// Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2013: 2787-2795.
[10]Gao Yunjun, Liu Xiaoze, Wu Junyang, et al. ClusterEA: scalable entity alignment with stochastic training and normalized mini-batch similarities [C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press, 2022: 421-431.
[11]Kipf T N, Welling M. Semi-supervised classification with graph convo-lutional networks [EB/OL]. (2017-02-22). https://arxiv.org/abs/1609.02907.
[12]Brody S, Alon U, Yahav E. How attentive are graph attention networks? [EB/OL]. (2022-01-31). https://arxiv.org/abs/2105.14491.
[13]張天成, 田雪, 孫相會, 等. 知識圖譜嵌入技術研究綜述 [J]. 軟件學報, 2023, 34(1): 277-311. (Zhang Tiancheng, Tian Xue, Sun Xianghui, et al. A review of knowledge graph embedding techniques [J]. Journal of Software, 2023, 34(1): 277-311.)
[14]馬赫, 王海榮, 周北京, 等. 基于表示學習的實體對齊方法綜述 [J]. 計算機工程與科學, 2023, 45(3): 554-564. (Ma He, Wang Hairong, Zhou Beijing, et al. Overview of the entity alignment methods based representation learning [J]. Computer Engineering and Science, 2023, 45(3): 554-564.)
[15]王鍵霖, 張浩, 張永爽, 等. 基于雙層圖注意力網絡的鄰域信息聚合實體對齊方法 [J]. 計算機應用研究, 2024, 41(6): 1686-1692. (Wang Jianlin, Zhang Hao, Zhang Yongshuang, et al. Neighborhood information aggregation entity alignment method based on double layer graph attention network [J]. Application Research of Computers, 2024, 41(6): 1686-1692.)
[16]Zhu Hao, Xie Ruobing, Liu Zhiyuan, et al. Iterative entity alignment via joint knowledge embeddings [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2017: 4258-4264.
[17]Chen Muhao, Tian Yingtao, Chang Kaiwen, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment [C]// Proc of the 27th International Joint Confe-rence on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2018:3998-4004.
[18]Zeng Wenxin, Zhao Xiang, Tang Jiuyang, et al. Collective entity alignment via adaptive features [C]// Proc of the 36th IEEE International Conference on Data Engineering. Piscataway, NJ: IEEE Press, 2020: 1870-1873.
[19]Jiang Wen, Liu Yuanna, Deng Xinjiang, et al. Fuzzy entity alignment via knowledge embedding with awareness of uncertainty measure [J]. Neurocomputing, 2022,468: 97-110.
[20]Xiang Yuejia, Zhang Ziheng, Chen Jiaoyan, et al. OntoEA: ontology-guided entity alignment via joint knowledge graph embedding [EB/OL]. (2021-05-24). https://arxiv.org/abs/2105.07688.
[21]郭浩, 李欣奕, 唐九陽, 等. 自適應特征融合的多模態實體對齊研究 [J]. 自動化學報, 2024,50(4):758-770. (Guo Hao, Li Xinyi, Tang Jiuyang, et al. Adaptive feature fusion for multi-modal entity alignment [J]. Journal of Automatica Sinica, 2024,50(4):758-770.)
[22]Khattar D, Goud J S, Gupta M, et al. MVAE: multimodal variational autoencoder for fake news detection [C]// Proc of World Wide Web Conference. New York:ACM Press,2019: 2915-2921.
[23]Pennington J, Socher R, Manning C. GloVe: global vectors for word representation[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics, 2014: 1532-1543.
[24]He Kaimng, Zhang Xiangyu, Ren Shaoping, et al. Deep residual learning for image recognition [EB/OL]. (2015-12-10). https://arxiv.org/abs/1512.03385.
[25]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [EB/OL]. (2021-02-26). https://arxiv.org/abs/2103.00020.