999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜嵌入研究綜述

2022-05-15 06:34:46徐有為張宏軍廖湘琳張紫萱
計算機工程與應用 2022年9期
關鍵詞:語義模型

徐有為,張宏軍,程 愷,廖湘琳,張紫萱,李 雷

陸軍工程大學 指揮控制工程學院,南京210007

知識表示與推理是受人類解決問題的啟發,將知識符號化,為智能系統獲取解決復雜任務的能力而進行的過程和方法,知識圖譜技術是知識表示與推理的重要研究內容。知識圖譜(knowledge graph,KG)是以圖的形式表現客觀世界中的實體(概念、人、事物)及其之間關系的知識庫,通常表示為三元組(h,r,t)的集合,其中h、t表示實體,r表示實體之間的關系,每個三元組(h,r,t)代表一條事實,即“頭實體”h和“尾實體”t之間存在有向關系r。圖1 給出了知識圖譜的一個典型示例。從圖中可以觀測到,頭實體“The Forbidden City”與尾實體“Beijing”之間存在關系“isLocatedin”,代表“紫禁城位于北京”這個事實成立。知識圖譜采取結構化的事實表示方式,具有易組織、易管理、易理解等方面的優勢,已吸引了大量來自學業界和工業界的關注性研究。

圖1 知識圖譜示例Fig.1 Example of knowledge graph

知識圖譜的研究起源于語義Web。谷歌公司于2012年正式提出知識圖譜的概念,并成功應用于搜索引擎,由此推動知識圖譜技術成為人工智能領域的重要研究內容。目前,已經涌現出一大批知識圖譜,其中具有代表性的有Freebase[1]、WordNet[2]、YAGO[3-5]、DBpedia[6]、NELL[7-8]、KnowItAll[9]、Probase[10]、CN-Probase、XLore等,這些知識圖譜從大量數據資源中抽取、組織和管理知識,希望為用戶提供能夠讀懂用戶需求的智能服務,例如理解搜索的語義,提供更精準的搜索答案。圖2繪制了自2012 年以來知識圖譜相關研究論文的檢索數量,從圖中可以看出,知識圖譜的研究成果數量正在成指數方式遞增,知識圖譜的相關研究正處于飛速發展的階段(受新冠疫情影響導致大量學術會議被擱置,因此2020年的論文數量沒有納入統計中)。

圖2 知識圖譜論文檢索新增數量逐年變化情況Fig.2 Annual changes in number of new papers retrieved on knowledge graph

在知識圖譜相關研究中,知識表示是知識應用與獲取的基礎,是貫穿知識圖譜的構建與應用全過程的關鍵[11],也是知識圖譜相關研究的熱點內容。基于知識圖譜的知識表示學習(knowledge representation learning,KRL),也稱知識圖譜嵌入(knowledge graph embedding,KGE),是對知識圖譜中的實體和關系完成分布式表示的過程,通過將實體和關系映射到低維向量空間來間接捕獲它們的語義。相較于傳統one-hot 編碼,知識圖譜嵌入在顯著提升計算效率的同時,能夠緩解數據稀疏問題,達到融合異構信息的目的,在知識推理以及整合多源知識方面就顯得尤為重要,為下游智能問答、信息檢索、系統推薦等任務發揮了必不可少的樞紐作用。表1總結了知識圖譜嵌入技術的典型應用案例。

表1 知識圖譜嵌入典型應用總結Table 1 Summary of typical applications of knowledge graph embedding

根據面向的知識圖譜數量,可將知識圖譜嵌入模型劃分為面向單個知識圖譜的嵌入模型和面向多個知識圖譜的嵌入模型。一方面,由于單個知識圖譜存在不完整性問題,因此面向單個知識圖譜的嵌入模型通常以鏈接預測(link prediction,LP)作為評測知識圖譜嵌入模型性能優劣的關鍵任務;另一方面,由于不同知識圖譜之間存在異構性問題,因此面向多個知識圖譜的嵌入模型通常以實體對齊(entity alignment,EA)作為評測知識圖譜嵌入模型性能優劣的關鍵任務。

社會各界對知識圖譜的廣泛關注,使得知識圖譜研究取得了很大的進展,有不少關于知識圖譜的綜述性文獻陸續發表。譬如,文獻[27-28]對知識圖譜的構建技術進行了綜述,文獻[29-30]分別針對知識圖譜數據管理和可視化進行了綜述;文獻[11,31-38]綜述了知識圖譜嵌入、知識表示學習、基于知識圖譜的知識推理等內容,為本文知識圖譜嵌入模型的分類提供了很多參考依據,但所述均是針對單知識圖譜的鏈接預測模型;文獻[39]綜述了知識庫上的實體對齊技術,但所述均是利用文本相似度進行匹配的算法,沒有列舉基于知識圖譜嵌入的實體對齊方法;文獻[40]重點從知識圖譜構建、知識表示學習和知識圖譜應用三個方面全方位論述了知識圖譜技術的整體架構,但是由于所述面相對較寬,導致綜述不夠聚焦,對知識圖譜嵌入這一方面總結不夠充分。

當下,知識圖譜嵌入領域已經累積了大量的研究成果,為了對現有相關文獻有一個系統、深入地梳理與總結,本文圍繞知識圖譜嵌入模型,主要完成了以下工作:

(1)提出了以面向的知識圖譜數量為依據的分類體系:根據面向的知識圖譜數量,將現有知識圖譜嵌入模型劃分成面向單個知識圖譜的鏈接預測模型和面向多個知識圖譜的實體對齊模型兩大類,其中面向單個知識圖譜的鏈接預測模型進一步劃分為距離模型、翻譯模型、語義匹配模型、神經網絡模型和幾何模型五類,面向多個知識圖譜的實體對齊模型進一步劃分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。圖3繪制了本文的分類體系,并按照時間軸展示了知識圖譜嵌入模型的發展變化。

圖3 知識圖譜嵌入模型分類Fig.3 Schematic diagram of knowledge graph embedding model classification

(2)梳理了近年來鏈接預測模型的研究進展:面向單個知識圖譜的鏈接預測模型綜述已經不少,本文在整合前人的分類體系基礎之上,補充增加了近幾年的最新研究進展,目的是給出一份較為完整詳細的相關研究清單,并圍繞最近的研究熱點和研究趨勢,對其中具有代表性的模型進行介紹。

(3)歸納了實體對齊模型的研究成果:面向多個知識圖譜的實體對齊研究是一個新興的課題,目前尚沒有文獻綜述這些方法,仍然缺乏對實體對齊模型系統、深入的總結工作。為了補充相關領域的空白,本文歸納分析了26 種實體對齊模型,并從不同的方面對它們的核心技術和特征進行了對比。

(4)展望了知識圖譜嵌入模型的未來研究方向:基于歸納梳理結果,對未來工作的幾個有前途的研究方向進行了全面的展望。

1 問題描述

知識圖譜采用多關系有向圖的結構化知識表示形式,實體和關系分別被視為多關系圖的節點和不同類型的邊。具體來說,一般將知識圖譜表示為G={E,R,T},其中E表示實體集合,R表示關系集合,R中的邊連接兩個實體形成三元組(h,r,t)∈T,代表頭實體h與尾實體t之間存在有向關系r,T?E×R×E表示知識圖譜G中的三元組集合。知識圖譜嵌入、鏈接預測和實體對齊的定義如下。

定義1 知識圖譜嵌入(KGE)也稱知識表示學習(KRL),是在編碼模型C(·)的作用下,為知識圖譜中的每個實體e∈E在低維向量空間中完成語義信息表示的過程,即C(e)=e,其中C(·)表示映射函數,e表示實體e的嵌入向量,關系一般被表示為向量空間的運算。知識表示學習得到的分布式表示可以高效地計算實體及實體之間的復雜語義關聯。

定義2 鏈接預測(link prediction,LP)也稱知識圖譜補全(knowledge graph completion,KGC),是根據知識圖譜中已有的知識,生成新知識的過程。即,給定知識圖譜G={E,R,T},鏈接預測任務通過任給三元組(h,r,t)中的其中兩元,預測最有可能的第三元,最終生成不在知識圖譜G中的三元組集合G′={(h,r,t)|h∈E,r∈R,t∈E,(h,r,t)?T}。鏈接預測根據任務的不同,可分為頭實體預測、關系預測和尾實體預測。

定義3 實體對齊(entity alignment,EA)是判斷不同知識圖譜中的多個實體是否指向真實世界同一對象的過程。不失一般性,考慮兩個KG之間的實體對齊任務,即G1={E1,R1,T1}和G2={E2,R2,T2},給定一組先驗對齊的實體對A+={(ei,ej)|ei≡ej,ei∈E1,ej∈E2}?E1×E2其中≡表示“對齊”關系,實體對齊的任務是找到新的對齊實體對集合A′,其中A′滿足A′={(ei,ej)|ei≡ej,ei∈E1,ej∈E2,(ei,ej)?A+}?E1×E2。

為了統一,本文使用加粗小寫字母x表示向量,用‖x‖p表示向量x的p 范數,加粗的大寫字母X表示矩陣,表示三維張量。接下來將從面向單個知識圖譜的鏈接預測模型和面向多個知識圖譜的實體對齊模型兩方面,分析知識圖譜嵌入領域的研究現狀。

2 面向單個知識圖譜的鏈接預測模型

面向單個知識圖譜的鏈接預測模型的典型學習過程包含三個步驟:(1)首先定義知識圖譜G中實體e∈E和關系r∈R在連續向量空間中的表示形式,一般將實體表示為向量空間的確定點,將關系表示為向量空間中的運算,不妨設h和t分別表示頭實體h與尾實體t的嵌入向量,通常由隨機初始化獲得;(2)其次定義三元組(h,r,t)的評分函數fr(h,t),并根據嵌入向量h和t來評估任意一個事實(h,r,t)成立的可能性,一般得分越高表明事實成立的可能性越大;(3)最后通過優化算法來迭代更新實體和關系的表示。在迭代更新過程中,通常會隨機替換真實事實(也稱正樣例)的頭實體或者尾實體來產生一系列的無效事實(也稱負樣例)。優化過程旨在最大限定提升真實事實的可能性,同時降低無效事實的可能性。

根據模型假設和評分函數的不同,面向單個知識圖譜的鏈接預測模型可以分為距離模型、語義匹配模型、翻譯模型、神經網絡模型和幾何模型五類。

2.1 距離模型

距離模型是最早期的知識圖譜嵌入模型,主要是受詞向量工具word2vec[41]的啟發,將事實的合理性解釋為兩個實體之間的距離。

Bordes等人[42]遵循詞嵌入的研究成果,直接使用頭實體和尾實體嵌入向量之間的距離來衡量知識圖譜中事實(h,r,t)成立的可能性,提出了知識圖譜嵌入的早期模型——UM(unstructured model)模型。UM 模型簡單直觀,但是無法區分不同的關系類型,只適用于學習僅包含單一關系類型或僅包含等價關系類型的知識圖譜嵌入情景。SE(structured embedding)模型[43]通過將每個關系r∈R建模為兩個映射矩陣,并分別用于投影事實三元組(h,r,t)中的頭實體和尾實體,來改進UM 模型。事實(h,r,t)成立的可能性由投影后的頭、尾實體嵌入向量之間的距離來衡量。

但是總體而言距離模型由于假設過于簡單,導致其鏈接預測性能較差,已經很少被提及。

2.2 翻譯模型

翻譯模型本質上也屬于距離模型,同樣是利用基于距離的評分函數來衡量事實成立的可能性。相較于距離模型,翻譯模型最大不同點是將關系建模為頭實體到尾實體的翻譯向量。

(1)TransE

TransE[44]是最具代表性的翻譯模型,它將實體和關系表示為同一空間中的向量。如圖4(a)所示。給定一個事實(h,r,t),TransE 將關系r解釋為翻譯向量r,以便嵌入實體向量h和t可以通過r以低誤差連接,即當(h,r,t)成立時,h+r≈t。評分函數定義為h+r與t之間的距離:

盡管TransE 具有簡單有效的優勢,但在處理一對多、多對一、多對多關系時存在缺陷。以一對多關系為例,若(h1,r1,t1)和(h1,r1,t2)同時成立,按照TransE 的模型假設,實體t1和實體t2對應的嵌入向量需要滿足t1≈t2的關系,這會導致模型對實體的區分能力降低。

(2)TransH

TransH[45]模型是TransE 模型的擴展。為了解決TransE在處理一對多、多對一和多對多關系類型時存在的缺陷,TransH 采取的改進措施是:允許實體在涉及不同關系時具有不同的表示形式。具體來說,TransH將每個關系r建模為一個超平面上的法向量wr和一個位于該超平面的關系向量r,在為事實三元組(h,r,t)進行打分前,需要首先將頭、尾實體的嵌入向量投影到關系r所在的超平面,即:

基于TransE 的假設,TransH 模型認為投影后的實體h⊥和t⊥可以通過r以低誤差連接,如圖4(b)所示。

(3)ManifoldE

ManifoldE[46]模型代表了TransE 模型的另外一種擴展方向,同樣為了解決TransE 在處理一對多、多對一和多對多關系類型時存在的缺陷,ManifoldE 采取的改進措施是:放寬h+r≈t的過度約束要求。具體來說,ManifoldE為每個關系r額外定義了一個超球體的半徑θr。對于每一個事實三元組(h,r,t),ManifoldE 模型認為尾實體t對應的嵌入向量t位于一個以h+r為中心,以θr為半徑的超球面上,而不是位于h+r的精確點上,如圖4(c)所示。

圖4 翻譯模型示意圖Fig.4 Schematic diagram of translational models

(4)其他翻譯模型

除了上述3種翻譯模型以外,KG2E[47]將實體和關系表示為從多變量高斯分布中提取的隨機向量來模擬實體和關系中的不確定性;TransR[48]將關系建模為實體空間到關系空間的投影矩陣;TransD[49]在TransR基礎上將投影矩陣進一步分解為兩個向量的乘積;TranSparse[50]通過在投影矩陣上實施稀疏性來簡化TransR;TransM[51]為每個關系定義權重且為一對多、多對一、多對多關系類型分配較低權重值;TransF[52]僅要求t與h+r、h與t-r處于同一方向;TransA[53]通過為每個關系r引入對稱的非負矩陣Mr實現自適應度量;TransG[54]認為關系可以具有多種語義并將其表示為高斯分布的混合體;STransE[55]是SE 和TransE 模型的簡單組合;ITransF[56]借助稀疏注意力機制獲得了發現隱藏共享概念的能力;TransAt[57]同時學習基于翻譯的嵌入和實體的關系相關類型,并利用實體屬性的層次結構提出了兩階段判別法的注意力機制。

2.3 語義匹配模型

語義匹配模型利用基于相似性的評分函數,通過匹配實體的潛在語義和向量空間表示中體現的關系來衡量事實的合理性。與上述兩類模型相比,語義匹配模型通常采用乘法算子構建實體和關系嵌入向量之間的交互關系,因此有學者也將距離模型和翻譯模型統稱為加法模型,將語義匹配模型稱為乘法模型。

(1)RESCAL

RESCAL[58]模型也稱雙線性模型,是最早的語義匹配模型,其表示學習過程一般通過張量分解完成。RESCAL將關系r建模為矩陣Mr,以捕獲實體潛在因子之間的成對相互作用。具體來說,關系矩陣Mr的各個權重捕捉頭實體向量h的第i個潛在因子hi和尾實體向量t的第j個潛在因子tj之間的相互作用量。因此給定一個事實(h,r,t),該事實成立的可能性由公式(3)衡量:

通過評分函數可以看出:RESCAL 需要捕獲h和t所有分量之間的成對交互作用。

(2)SimplE

在RESCAL 模型基礎之上,SimplE[59]將關系矩陣Mr限制為對角陣,因此關系矩陣可以簡化用向量r表示。SimplE強調:實體e在三元組中所扮演的主體角色和客體角色應該有所區分,并為每個實體e編碼了兩個嵌入向量eh和et,分別對應實體e被用作事實三元組的頭實體和尾實體。同時SimplE 模型還假設:當事實三元組(h,r,t)成立時,其反向事實三元組(t,r-1,h)也同時成立,其中r-1表示關系r的逆,因此SimplE 為每個關系r同樣編碼了兩個向量r和r-1,分別對應關系的正方向和逆方向。為了充分考慮同一實體兩個向量之間的關聯,評分函數定義為正向事實(h,r,t)及其反向事實(t,r-1,h)得分的平均值,即:

已經證明SimplE 是完全表達的,即給定任何有效的知識圖譜,在該模型的假設下至少存在一種嵌入方案,能夠將所有真實事實三元組與無效事實三元組分開。換句話說:SimplE模型在理論上有潛力正確學習任何有效的知識圖譜,而不受內在限制的阻礙。

(3)TuckER

TuckER 模型[60]將知識圖譜表示為三階二元張量,并引入了三階張量的TuckER 分解方法,通過輸出核心張量、實體及關系的向量來學習嵌入,其評分函數定義為:

其中,×k表示張量積,k表示張量積的運算維度。核心張量可以看做原始關系矩陣的共享池,隱含了實體和關系向量之間的交互程度。TuckER同樣是完全表達的,并且RESCAL和SimplE均可解釋為TuckER模型的特殊情況。此外,TuckER模型中實體嵌入和關系嵌入的維度相互獨立,可以根據實體規模和關系規模分別設置。

(4)CrossE

CrossE[61]模型認為實體和關系之間的雙向效應有助于在鏈接預測時選擇相關信息,因此CrossE除了為每個實體和關系學習通用嵌入以外,還為每個關系r學習附加嵌入cr來模擬實體和關系之間的雙向交互。對于給定事實三元組(h,r,t),CrossE定義頭實體和關系的交互嵌入如下:

其中,⊙表示Hadamard 乘積。受益于交互嵌入的CrossE 更有能力生成可靠的解釋來支持鏈接預測任務。需要說明的是,CrossE模型相對通常意義上的語義匹配模型而言具有一定的特殊性,一方面CrossE借鑒了翻譯模型的假設,讓頭實體的交互嵌入向量和關系的交互嵌入向量通過翻譯特性的加法算子連接;另一方面,CrossE也具有神經網絡模型的特征,在運算中插入了非線性激活函數。

(5)其他語義匹配模型

除了上述4 種語義匹配模型以外,SME[62]提出在語義上匹配實體關系對(h,r)和(r,t)的單獨組合;LFM[63]在RESCAL 模型基礎上將關系矩陣分解為潛在關系因子的稀疏表示;TATEC[64]不僅學習RESCAL的三向交互,還建模了兩向交互作用;TRESCAL[65]使用關系領域知識來捕獲潛在有效的事實三元組,顯著降低了RESCAL的時間復雜度和空間復雜度;DistMult[66]將關系矩陣Mr限制為對角矩陣來簡化RESCAL;HolE[67]引入了嵌入的循環相關性來學習組合表示;ComplEx[68]通過引入復數嵌入擴展了DistMult,以便更好地對非對稱關系建模;ANALOGY[69]通過限制關系矩陣Mr正交且滿足交換律來擴展RESCAL,以進一步建模實體和關系的類比屬性;HolEx[70]借助插值運算,可視為HolE 多個線性擾動副本的連接。

2.4 神經網絡模型

神經網絡具有強大的特征捕獲能力,它可以通過非線性變換將輸入數據的特征分布從原始空間轉換到另一個特征空間,并自動學習特征表示。知識圖譜嵌入模型中的神經網絡模型,就是借助神經網絡的強大學習能力,來完成實體和關系的特征表示。

(1)NTN

NTN模型[71]認為翻譯模型存在參數不交互的問題,并借鑒了語義匹配模型的張量表示,使用雙線性張量層代替標準線性神經網絡層,構建了表達性神經張量網絡,如圖5(a)所示。該雙線性張量層直接關聯了跨多個維度的實體向量,解決了翻譯模型存在的參數交互問題。其評分函數定義為:

(2)ConvE

ConvE[72]是一種基于CNN 的方法,通過將頭實體、關系對(h,r)視為特征圖來建模實體和關系之間的相互作用。具體來說,對每個事實三元組(h,r,t),首先將頭實體向量h和關系向量r重塑為2D矩陣Mh和Mr,并將拼接后的矩陣[Mh;Mr]輸入帶濾波器ω的2D 卷積層;其次將卷積層的輸出張量重塑為向量,并輸入參數矩陣為W的全連接層,其中c表示維度為m×n的2D特征圖數量;最后將全連接層的輸出向量與尾實體向量t進行內積運算,得到的數值即為ConvE 模型為事實三元組(h,r,t)的評分。圖5(b)繪制了ConvE 模型的運算過程。ConvE 通過多層非線性特征學習來表達語義信息,由卷積生成的特征映射增加了潛在特征的學習能力。ConvE還可以通過1~N評分提升運算速度,具有很高的參數效率,在建模具有高關聯度的實體時特別有效。

圖5 神經網絡模型示意圖Fig.5 Schematic diagram of neural network models

(3)CapsE

CapsE[73]模型假設不同嵌入向量在相同位置編碼同源信息,并使用膠囊神經網絡來學習實體和關系表示。不同于ConvE在前向運算時只關注(h,r)對,CapsE在輸入層整合事實三元組(h,r,t)的編碼,通過拼接頭實體、關系和尾實體的向量h、r、t得到矩陣[h;r;t];并且CapsE 沒有重塑操作,矩陣[h;r;t]將直接輸入濾波器大小固定為1×3 的卷積層來獲取特征信息。在膠囊層中,每個膠囊節點只處理相同位置的特征編碼,故單獨的膠囊節點只接收輸入事實某一個方面的信息。最終產生的向量長度即為事實三元組(h,r,t)的評分。

(4)其他神經網絡模型

除了上述3 種神經網絡模型以外,SLM[71]采用標準單層神經網絡來隱式連接實體向量;MLP[74]將事實三元組(h,r,t)在輸入層拼接成一個向量后送入全連接層,最后在線性輸出層得到該三元組的分數,SLM 和MLP均可視為NTN的特例;NAM[75]將(h,r)對的隱藏編碼與尾實體向量t進行匹配,提出了關系調制神經網絡;ProjE[76]區分輸入信息和候選實體集,提出使用共享變量神經網絡模型,實現了較小的參數空間;與CapsE一致,ConvKB[77]將三元組作為三列的矩陣輸入,并采用一維卷積模擬實體關系之間的交互,模型可視為面向事實(h,r,t)的二分類器;R-GCN[78]針對知識圖譜的高度多關系數據特性,采用關系圖卷積網絡來學習實體表示;SACN[79]由編碼器加權圖卷積網絡和解碼器Conv-TransE組成,前者獲得圖的結構信息,后者使模型可以完成鏈接預測任務;ConvR[80]在ConvE 基礎之上提出使用帶特定關系濾波器的自適應卷積;HypER[81]對超圖網絡進行關系特定的一維卷積濾波,實現多任務知識共享。

2.5 幾何模型

幾何模型將關系解釋為語義空間中的幾何變換,將經過空間幾何變換后的頭實體向量與尾實體向量t之間的距離作為事實三元組(h,r,t)的得分。嚴格從定義上來說,距離模型和翻譯模型也屬于幾何模型的范疇,本文為了與距離模型、翻譯模型進行區分,將幾何模型中涉及的幾何變換定義為除了平移變換以外的復雜變換。

(1)RotatE

RotatE[82]把實體和關系建模到復數空間,并將關系描述為復數域空間的旋轉變換,如圖6(a)所示。當事實三元組(h,r,t)成立時,RotatE 模型假定h⊙r=t,其中,并且關系向量每一維的模長被限制為1,即|ri|=1,其評分函數定義為:

已經證明,RotatE 可以正確地模擬許多關系模式,如對稱/反對稱、反轉和合成等。此外,RotatE還提出了一種新的自對抗負采樣策略來高效地訓練模型。

(2)QuatE

QuatE[83]指出:復數域的Hadamard 乘積具有交換律,導致RotatE 在建模合成關系模式時存在缺陷。不妨假設存在兩個關系r1和r2分別表示“isFatherof”和“isSpouseof”,由于RotatE 假定r1⊙r2=r2⊙r1,因此隱含的認為“父親的配偶”和“配偶的父親”表示的是同一個關系,然而這并不符合現實場景的應用需求。因此QuatE 引入了超復數表示來建模實體和關系。具體來說,QuatE 采用具有三個虛分量的四元數嵌入,關系被建模為四元數空間中的旋轉,因此頭實體向量h可以表示為h=ah+bhi+chj+dhk,ah,bh,ch,dh∈?d,h∈Hd,其中Hd表示d維四元數空間,關系向量r表示為r=ar+bri+crj+drk,ar,br,cr,dr∈?d,r∈Hd。QuatE定義評分函數如下:

其中,?表示Hamilton乘積,用來捕捉實體和關系的四維空間中潛在的相互依賴,r?表示關系r的歸一化結果,即限制關系每一維的模長為1。與只有一個旋轉平面(即復數域平面)的RotatE相比,QuatE有兩個旋轉平面,解決了RotatE 在上述合成關系模式中存在的缺陷,表達的語義更加豐富。

(3)MuRP

MuRP[84]注意到實體之間關系的層次性特點,提出在雙曲空間中對實體建模。MuRP 首先將實體向量定義在半徑為的d維龐加萊球模型中,即h,t∈;接下來使用M?bius矩陣-向量乘法將原始頭實體向量h轉換為關系適應的頭實體向量,使用M?bius 加法將原始尾實體向量t轉換為關系適應的尾實體向量t(r)=t⊕cr,其中,R∈?d×d表示歐式空間的對角關系矩陣,表示雙曲空間的關系平移向量,表示在兩個空間進行轉換的映射矩陣,借助龐加萊球模型中的距離度量dB,MuRP 定義評分函數如下:

bh和bt表示頭尾實體的偏置,用于衡量超球面判定邊界的半徑,如圖6(b)所示,距離在的尾實體均被視為正確的事實;最后MuRP用黎曼方法完成迭代優化。由于龐加萊圓盤的性質-離中心越遠,單位歐幾里德空間的線段所代表的長度越長-因此能夠建模實體間的層次性關系。

(4)HAKE

HAKE[85]同樣從研究實體之間語義層次的角度出發,考慮在極坐標系中表示實體和關系。結構上HAKE模型由模數部分和相位部分組成,以頭實體為例,hm和hp分別表示頭實體向量h=(hm,hp),hm,hp∈?d的模數向量和相位向量。模數部分旨在對層次結構中不同層級的實體進行建模,層級越高的實體模值越小,關系rm被建模為不同層級之間的尺度變換;相位部分旨在區分同一層級的不同實體,關系rp被建模為實體之間的旋轉變換,如圖6(c)所示。HAKE取模數部分分值和相位部分分值的加權和評估事實三元組(h,r,t)成立的可能性。相較于RotatE,HAKE 顯示的建模模值大小,借助極坐標系中的同心圓來感知層級關系,能獲取更豐富的語義信息。

圖6 幾何模型示意圖Fig.6 Schematic diagram of geometric models

(5)其他幾何模型

除了上述4種幾何模型以外,Poincare[86]同樣采用龐加萊球完成建模,但是沒有考慮關系在事實三元組中的作用,可視為MuRP的簡化版;TorusE[87]將實體和關系投影到環面空間中,并借助李群定義環面距離完成事實評分;DihEdral[88]采用二面體群進行旋轉,將多個二面體群組成關系對角矩陣,能從理論上解決對稱、反對稱、翻轉、組合等關系類型;ATTH[89]提出雙曲注意力機制,在雙曲空間下同時學習知識圖譜的層次性與邏輯關系。

2.6 小結

鏈接預測任務的基準數據集一般通過對現實世界中的知識圖譜進行抽樣獲得,并按照模型需求拆分為訓練集Ttrain、驗證集Tvalid和測試集Ttest。相關統計信息由表2給出。

表2 鏈接預測數據集統計信息Table 2 Statistics of datasets for link prediction task

(1)FB15k:Freebase 是一個大型跨域知識圖譜,由大約12億個三元組和超過8 000萬個實體組成。Bordes等人[44]選擇了Freebase 中所有被提及100 次以上的實體以及所有與這些實體相關的事實,構建了其子集FB15k。FB15k主要包含了描述電影、演員、獎項、體育和運動隊事實的三元組。

(2)WN18:Bordes 等人[44]通過過濾掉Wordnet 中被提及較少的實體和關系,提取了Wordnet的子集WN18,其中Wordnet是一個描述詞匯關系的知識圖譜,旨在提供自然語言處理和自動文本分析。

(3)FB15k-237:Toutanova 和Chen[90]發現FB15k存在測試泄露問題,即測試集中超過80%的三元組是訓練集中包含的三元組的逆序,并在此基礎上通過刪除逆關系,構造了更具挑戰性的FB15k-237數據集。FB15k-237本質上是FB15k的子集。

(4)WN18RR:與FB15k-237 類似,Dettmers 等人[72]發現,WN18 存在與FB15k相同的測試泄露問題,并通過同樣的處理方法刪除WN18 中的逆關系,構造了WN18RR數據集。WN18RR本質上是WN18的子集。

(5)YAGO3-10:YAGO 是一個大型知識圖譜,包含從維基百科中提取并與Wordnet對齊的事實。Dettmers等人[72]通過選擇至少有10 種不同關系的實體,構建了YAGO 的子集YAGO3-10,其中大多數三元組描述了人物的公民身份、性別和職業等屬性信息。實驗表明[72],YAGO3-10不存在測試泄露問題。

針對測試集Ttest的每一個三元組(h,r,t),鏈接預測模型隱藏頭實體并計算所有實體在該頭實體預測(?,r,t)中的得分,獲取真實頭實體h的排序rankr,t(h);并用類似的過程獲取真實尾實體t在該尾實體預測(h,r,?)中的排序rankh,r(t)。根據上述單個排序,鏈接預測模型的整體性能指標通常包括:

(1)平均排序(mean rank,MR),MR 被定義為測試集上所有三元組排序的算數平均值,即:

MR數值越小,代表模型的鏈接預測性能越好。

(2)平均倒數排序(mean reciprocal rank,MRR),MRR被定義為測試集上所有三元組排序倒數的算數平均值,即:

MRR 具有平滑性,且相較于MR,受異常值的影響更小。MRR 的取值范圍為MRR∈(0,1],數值越大,代表模型的鏈接預測性能越好。

(3)Hits@k,Hits@k表示在測試集中,單個排序位于前k的三元組比率,即:

Hits@k數值越大,代表模型的鏈接預測性能越好。k通常取1,3和10。

表3總結了上述五類鏈接預測模型的優缺點。

表3 鏈接預測模型優缺點總結Table 3 Summary of advantages and disadvantages of link prediction models

需要說明的是,受模型結構、模型超參數(例如嵌入維度和負樣本數量)和數據集大小影響,即使是相同模型也會表現出較大的性能差異,沒有哪個配置在所有數據集上表現最好,也不存在絕對性能優異的模型。實際應用中,需要根據情況在所需內存和性能之間做權衡。

表4 給出了上述所有面向單個知識圖譜的鏈接預測模型的實體表示、關系表示和評分函數。

表4 面向單個知識圖譜的鏈接預測模型總結Table 4 Summary of link prediction models oriented to single knowledge graph

此外,有大量學者認為,單一知識圖譜提供的語義信息不足以支撐高性能的鏈接預測任務,為了促進更有效的知識表示h,t∈?d,包含附加信息的知識圖譜嵌入模型將附加信息(如文本描述等)與知識圖譜本身結合在一起,通過使用額外的輔助信息來補充實體語義,加強結構嵌入,從而提升鏈接預測性能。這些附加信息主要包括:(1)文本描述:DKRL[94]通過組合結構表示和描述表示來生成實體和關系的嵌入,其中結構表示由TransE學習,描述表示由連續詞袋(CBOW)和深度卷積神經網絡模型(CNN)生成;KG-BERT[95]將知識圖中的三元組視為文本序列,以實體和關系描述為輸入,利用BERT進行微調。(2)關系路徑:PTransE[96]將關系路徑視為實體間的轉換,使用關系的組合表示關系路徑;RSNs[97]使用有偏隨機游走從訓練事實中學習關系路徑。(3)實體類型:TKRL[98]將實體類型建模為投影矩陣,并將父類的投影矩陣表示為其子類矩陣的組合,投影后的實體通過TransE 學習。(4)實體屬性:KR-EAR[99]將實體與屬性之間的相關性建模為分類任務,為屬性三元組定義了單獨的評分函數;MT-KGNN[100]和KBLRN[101]在共享的嵌入空間,同時學習結構表示和屬性編碼,其中屬性編碼通過神經網絡預測模型實現。(5)邏輯規則:UGKE[102]根據不確定關系事實的置信度得分來學習嵌入,在嵌入空間中同時保留關系事實的結構信息和不確定信息;pLogicNet[103]使用具有一階邏輯的馬爾可夫邏輯網絡來定義所有可能三元組的聯合分布,實現在知識圖譜嵌入中融入領域知識。(6)視覺信息:IKRL[104]使用圖像編碼器為多值圖像關系的每個實例生成嵌入;MKBE[105]使用CNN 對圖像三元組的向量進行編碼,并采用了DistMult的評分函數。

3 面向多個知識圖譜的實體對齊模型

面向多個知識圖譜的實體對齊模型同樣將知識圖譜中的實體映射到低維向量空間,通過向量空間的幾何結構捕捉實體的語義相關性,同時隱含的弱化不同知識圖譜之間的異構性問題。實體對齊模型一般只考慮兩個知識圖譜的任務場景,圖7描述了實體對齊模型的典型框架。

圖7 實體對齊模型典型框架Fig.7 Typical framework of entity alignment models

實體對齊模型需要預先收集兩個輸入知識圖譜之間的種子實體對,并與編碼模塊獲得的實體嵌入一起送入對齊模塊,用于發現新的實體對齊結果。編碼模塊與對齊模塊的交互方式一般有兩種:(1)編碼模塊在兩個獨立的語義空間中分別編碼兩個知識圖譜,對齊模塊借助種子實體對學習兩個語義空間之間的映射投影;(2)對齊模塊通過約束種子實體對的向量保持較高相似度,來引導編碼模塊將兩個知識圖譜編碼到同一個語義空間。此外,為了克服種子實體對不足的問題,有些模型會在學習過程中迭代地增加新的對齊實體,也有模型通過使用額外的輔助信息來補充實體語義,加強結構嵌入,提升實體對齊性能。

按照編碼模塊捕獲語義的層次,面向多個知識圖譜的實體對齊模型可以分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。

3.1 基于三元組的模型

基于三元組的模型只關注實體與實體之間的一跳關系,從三元組的視角對實體和實體之間的關系進行建模,認為不同事實三元組(h,r,t)之間相互獨立。這種視角與大多數面向單個知識圖譜的鏈接預測模型一致,因此可以很自然將鏈接預測模型作為實體對齊的編碼模塊,基于三元組的模型通常采用TransE完成編碼。

(1)MTransE

MTransE[106]是最早提出用嵌入方法解決實體對齊任務的模型。MTransE采用TransE作為編碼模塊,將每個知識圖譜的實體和關系分別編碼在相互獨立的嵌入空間中,并為種子實體對中實體的嵌入向量提供轉換函數,同時保留了單知識圖譜嵌入的功能。因此,MTransE定義損失函數為:

其中,第一項表示編碼模塊損失,第二項LA表示對齊模塊損失,α是超參數,用于衡量兩種損失之間的權重。針對對齊模塊,MTransE 提供了軸校準、平移向量和線性轉換三種策略,通過實驗得出,相較于軸校準和平移向量,選取線性轉換作為對齊模塊,在實體對齊任務上表現最佳。

(2)BootEA

BootEA[107]同樣采用TransE作為編碼模塊,在MTransE模型基礎之上,BootEA提供了“參數交換”策略,通過互相交換已對齊實體對(e1,e2):e1∈E1,e2∈E2的實體,擴充有效事實三元組。擴充的三元組包括:

在對齊模塊,BootEA 將實體對齊任務描述為一對一分類問題,對齊模塊的損失定義為來自不同知識圖譜實體分布之間的交叉熵。訓練過程中,BootEA 提出了一種實體對齊自舉方法,迭代地將可能的實體對齊標記為訓練數據用于學習面向對齊的知識圖譜嵌入,并采用對齊編輯來減少迭代過程中的誤差累積。

(3)OTEA

與上述方法的編碼模塊一樣,OTEA[108]同樣選取TransE實現實體嵌入。針對對齊模塊,OTEA認為在實體級別定義的對齊損失只能服務于已標記實體而不能匹配整個圖像,因此提出從實體級損失和組級損失兩個維度進行雙重優化,并定義組級損失函數為最佳傳輸距離下的差值。此外在實體級損失方面,OTEA還強調不同知識圖譜之間的對偶性,因此從兩個方向同時學習對齊,實體級損失定義為:

M1和M2分別表示兩個方向的轉移矩陣。OTEA還對對偶平移矩陣施加正則化以減輕變換過程中噪聲的影響。

(4)TransEdge

TransEdge[109]的改進主要針對編碼模塊,不同于上述方法以實體為中心完成嵌入,TransEdge以邊為中心,根據特定的頭-尾實體對完成關系表示,這種關系的上下文表示稱為邊嵌入,并將邊嵌入解釋為實體嵌入之間的轉換。TransEdge編碼模塊的評分函數為:

其中,ψ(hc,tc,r)表示關系的上下文運算,hc和tc表示頭實體和尾實體的交互嵌入。在對齊模塊,TransEdge提出了“參數共享”策略,即強制種子實體對齊中的一對對齊實體具有相同嵌入。TransEdge同樣采用自舉方式迭代的訓練數據,但是“參數共享”策略不對自舉的實體對施用。

(5)其他基于三元組的模型

除了上述4 種基于三元組的模型以外,JAPE[110]將兩個知識圖譜的結構聯合嵌入到一個統一的向量空間中,并利用KG 中的屬性相關性進一步細化實體嵌入;KDCoE[111]在基于翻譯的編碼模塊之上,增加了實體描述編碼模塊,兩種編碼模塊迭代聯合訓練;NTAM[112]提出了一種非平移方法,利用概率模型為對齊任務提供更魯棒的解決方案;AttrE[113]將屬性三元組納入知識圖譜嵌入中,使用統一的謂詞命名方案為關系嵌入提供一致的向量空間,利用傳遞性規則豐富實體的屬性數目,增強屬性嵌入;IMUSE[114]聲稱是一種無監督的方法,通過交替執行實體對齊和屬性對齊產生大量的高質量對齊實體對,用于訓練關系嵌入模型,通過二元回歸模型來表示實體對的最終相似性;SEA[115]和AKE[116]利用對抗式學習的思想建模實體的向量空間,為了獲得映射的自洽性,SEA采用循環一致性限制、AKE新增正交約束來利用未對齊的實體;MultiKE[117]從實體名稱、關系和屬性三個視角對實體信息進行編碼和高效集成;MMEA[118]采用ComplEx 作為編碼模型改善了實體對齊性能。

3.2 基于路徑的模型

不同于基于三元組的模型只關注知識圖譜中的單跳信息,基于路徑的模型認為單跳信息難以實現實體之間的語義傳播,只能獲取實體片面的局部的語義信息,因此著眼于挖掘實體之間的關系路徑,并捕獲實體之間的長關系依賴,其中關系路徑是一組首尾相連的關系三元組。

(1)IPTransE

IPTransE[119]最早嘗試從路徑的視角解決實體對齊任務,與MTransE 模型類似,IPTransE 同樣在相互獨立的編碼空間分別表示兩個知識圖譜的實體。不同的是,為了捕獲知識圖譜中的關系路徑,IPTransE 使用PTransE 而不是TransE 作為編碼模塊,通過推斷直接關系和多跳路徑之間的等價性來建模關系路徑。假設存在事實三元組(h,r1,e1)和(e1,r2,t),實體h到實體t的關系路徑p被編碼為其組成關系嵌入的組合,即:

其中,comb(·)是一個序列合成操作。PTransE可以通過考慮實體之間的路徑來對間接連接的實體進行建模,這些關系謂詞形成了實體之間的轉換。針對對齊模塊,IPTransE提出了平移向量、線性轉換和“參數共享”三種策略,“參數共享”策略在大量實驗中表現出最佳的對齊性能。此外,為了增加對齊實體對,并減少自舉過程中的錯誤傳播,IPTransE提出包含可靠性分數的軟對齊策略,以添加到目標函數的損失項中完成優化。

(2)RSNs

RSNs[97]使用循環跳躍網絡來有效捕捉實體的長期關系依賴,在鏈接預測和實體對齊兩個任務中均表現出了優異的性能。具體來說,知識圖譜的關系路徑通過有偏隨機抽樣產生,與MTransE只著眼于單個知識圖譜內部的關系路徑不同,RSNs 還考慮了跨知識圖譜的關系路徑。此外在抽樣過程中,RSNs 為單知識圖譜內部路徑抽樣設置了深度優先策略,為跨知識圖譜路徑抽樣設置了同圖搜索偏好,既避免了在同圖內循環重復,也避免了在種子實體對之間來回走動。有偏隨機游走旨在抽樣能夠正確描述圖形的路徑,來確保圖的所有特征都被采樣。

(3)DAT

DAT[120]提出使用名稱編碼模塊和結構編碼模塊共同表示實體信息,并采用RSNs[97]作為結構編碼模塊,采用級聯冪平均嵌入方法作為名稱編碼模塊;針對對齊模塊,設計了一個度感知協同注意網絡,將實體的度作為有效融合兩種不同信息源的重要指導,動態調整不同特征的重要性。實體對的相似度定義為結構相似度和名稱相似度的注意力加權和:

其中,atts和attt分別表示結構相似度和名稱相似度的注意力權值。對于結構信息相對缺乏的長尾實體,DAT模型一方面通過路徑學習獲得了長尾實體的長關系結構依賴,另一方面通過名稱編碼補充了實體的名稱語義,因此在處理長尾實體方面有較好的性能。

3.3 基于圖的模型

基于圖的模型同樣認為知識圖譜中的單跳信息只能獲取實體片面的語義,與基于路徑的模型不同,基于圖的模型采用了一種鄰域發現的視角,通常使用圖神經網絡作為編碼器來捕獲子圖結構。圖神經網絡本質是根據消息傳遞規則將來自鄰域的信息聚集到目標節點,讓具有相似鄰域的實體在嵌入空間中彼此靠近,在捕捉圖的全局或局部結構信息方面表現優異。

(1)GCN-Align

GCN-Align[121]是第一個提出用圖神經網絡完成實體對齊任務的模型。該模型使用兩個圖卷積網絡GCN分別處理兩個待對齊的知識圖譜,兩個GCN 通過共享權重矩陣將來自不同知識圖譜的實體嵌入到統一的向量空間中,借助實體之間的結構來傳播對齊關系。此外,GCN-Align還組合屬性信息和結構信息來共同學習實體表示,實體表示更新公式定義為:

其中,Hs(e1)表示實體e1的結構嵌入向量,ds和da分別表示結構嵌入維度和屬性嵌入維度,β用于衡量兩種嵌入的重要性。

(2)NAEA

NAEA[122]提出在編碼模塊融合知識圖譜的關系級和鄰域級信息來表示實體,關系級和鄰域級信息分別通過TransE和圖注意力網絡GAT捕獲。給定事實三元組(h,r,t),其鄰域級表示的評分函數為:

其中,Ne(·)和Nr(·)分別表示鄰域級的實體表示和關系表示。在對齊模塊,NAEA與BootEA模型類似,同樣將實體對齊任務描述為一對一分類問題,使用實體分布的交叉熵損失訓練優化。NAEA 通過不同權重組合鄰居節點信息來學習鄰域級表示,使實體不僅能夠捕捉到鄰居對自己的不同影響,而且能夠關注鄰域具有不同重要性的特征表示。

(3)RDGCN

上述兩種基于圖的模型存在著無法捕獲知識圖譜復雜關系信息的缺陷。Wu等人[123]提出了關系感知對偶圖卷積網絡RDGCN來充分利用關系信息。具體來說,RDGCN 將兩個待對齊知識圖譜編碼到同一個語義空間,通過對齊關系將G1、G2合并成原始圖Ge,并構造對偶圖Gr如下:對偶圖Gr的節點定義為Ge的邊,若Ge中的兩個邊共享相同的頭或尾實體,則在Gr相應節點之間添加邊,Gr中的邊權重表示共享頭尾實體的百分比。為了捕捉原始圖和對偶圖之間的交互,RDGCN為每個原始-對偶交互定義了一個原始注意層和一個對偶注意層組成:利用原始圖Ge的節點特征計算對偶注意層的注意力權重,利用對偶圖Gr的節點嵌入計算原始注意層的注意力權重。此外,為了控制噪聲在各層的累積,保留從交互作用中學到的有用關系信息,RDGCN在GCN 各層之間引入門機制。為了更好地利用不同KGs 中的實體名,RDGCN 使用預先訓練好的英文單詞向量構造原始圖的輸入實體表示。

(4)AliNet

AliNet[124]指出:來自不同知識圖譜的對齊實體對可能具有非同構的鄰域結構,這對以捕獲實體之間鄰域結構為核心的基于圖的模型來說是巨大的挑戰。AliNet引入遠鄰居來擴展對齊實體對鄰域結構之間的重疊,旨在以端到端的方式緩解鄰域結構的非同構問題。AliNet 首先利用GCN 學習實體的一跳表示;針對實體的遠鄰居,采用了一種類似圖注意力網絡GAT 的學習方式,以兩跳鄰居為例,其針對遠鄰居的實體表示更新公式為:

(5)其他基于圖的模型

除了上述4種基于圖的模型以外,GMNN[125]將實體對齊任務表述為一個圖匹配問題,并在引入主題實體圖概念基礎之上,使用GAT 匹配兩個主題實體圖中的所有實體,得到圖級別的匹配向量;MuGNN[126]使用AMIE+構建更密集的知識圖譜,利用注意力機制對整個圖形特征建模,從而將種子對齊信息傳播到整個圖形上;AVR-GCN[127]不同于傳統GAT 進行鄰居特征融合,而是在卷積過程中引入TransE模型的翻譯特性,將實體的不同鄰居加入對應的關系向量進行合并表示,使關系更直接地納入模型中,但是通常需要額外提供先驗的對齊關系對;為了擺脫對對齊關系對的依賴,HGCN[128]使用GCN 學習的實體嵌入來近似關系表達,并增加門機制來控制噪聲在結構中的傳播;KECG[129]通過聯合訓練一個基于GAT的交叉圖模型和一個基于TransE的知識嵌入模型來協調知識圖譜之間的結構異質性問題;HMAN[130]使用GCN和全連接網絡來分別編碼知識圖譜的結構特征、關系特征和屬性特征,同時將預訓練模型BERT納入框架,進一步提高對齊性能。

3.4 小結

實體對齊任務基準數據集的相關統計信息由表5給出。

表5 實體對齊數據集統計信息Table 5 Statistics of datasets forentity alignment task

(1)DBpedia 是一個大規模的多語言知識圖譜,包含從英文實體到其他語言實體的跨語言鏈接(interlanguage links,ILLs)。Sun 等人[110]分別從英文、中文、日文和法文中提取了至少包含4 條關系三元組的常用實體,并通過獲取相關實體的關系三元組和屬性三元組,構造了DBP15k數據集。

(2)WK31是從DBpedia的Person域中提取的,包含英文、法文、德文的三語知識圖譜,由DBpedia本體的多語言標簽和ILLs提供對齊信息。Chen等人[106]通過調整知識圖譜中包含的實體數量,構造了WK31-15k和WK31-120k兩個不同大小的數據集。

(3)DWY100k由Sun等人[107]構造,包含從DBpedia、Wikidata和YAGO3提取的兩個大規模數據集DBP-WD和DBP-YG。其中DBP-YG具有不平衡的關系數,給面向多個知識圖譜的實體對齊模型帶來了更多的挑戰。DBP15k和DWY100k中,屬性三元組占很大比例。

與鏈接預測任務類似,實體對齊模型的整體性能指標包括:(1)MRR,所有正確對齊實體的平均倒數排序;(2)Hits@k,排序位于前k的正確對齊實體的比例,k通常取1、5、10。

基于三元組的模型依賴豐富的關系三元組來對齊實體,模型效率高、直觀,但在缺乏結構信息的長尾實體上表現較差;基于路徑的模型通過將關系三元組鏈接到長關系路徑來擴展基于三元組的嵌入,由于路徑數量遠遠超過關系三元組數量,導致基于路徑的模型需要較長的訓練時間;基于圖的模型可以更充分地利用先驗對齊關系,但不能克服知識圖譜的異構性問題,且大多數基于圖的模型(例如,HGCN、RDGCN)嚴重依賴實體名稱來初始化嵌入模塊中的節點嵌入,在沒有實體名稱的情況下,會顯著影響實體對齊的準確性。

此外,模型的實體對齊性能還受種子實體對大小、是否利用輔助信息以及采用何種自舉策略的影響。AttrE和MultiKE取得了目前公布的最先進結果,即使在種子實體對較少的情況下,依然能有不俗的表現。這是因為它們充分利用了如屬性和關系謂詞等各種類型的信息。然而使用輔助信息提高實體對齊性能通常會增加訓練時間,需要平衡模型的有效性和效率。表6從編碼模塊、距離度量、附加信息和訓練方式等方面給出了上述26種實體對齊模型的對比。

表6 面向多個知識圖譜的實體對齊模型總結Table 6 Summary of entity alignment models oriented to multiple knowledge graphs

4 未來研究方向展望

知識圖譜嵌入模型的大量研究,促進了其在下游系統中的成功應用。但是現有研究中仍然存在幾個懸而未決的問題和挑戰,尚有不少充滿希望的未來研究方向。接下來將主要從三個方面展望知識圖譜嵌入研究:(1)從提升知識圖譜嵌入性能的角度,包括“長尾實體學習”“多模態知識圖譜研究”和“System I與System II融合研究”;(2)從豐富知識圖譜嵌入內容、擴充知識圖譜嵌入應用的角度,包括“時序知識圖譜研究”和“領域知識圖譜研究”;(3)從知識圖譜嵌入模型評價角度,包括“可擴展性研究”。

(1)長尾實體學習

如前分析,現有的知識圖嵌入模型往往需要大量高質量的樣本進行訓練和學習,因此長尾實體學習一直是困擾知識圖譜嵌入模型性能的關鍵問題之一。由于缺乏結構信息,大多數僅依賴于結構信息的知識圖譜嵌入方法往往存在對長尾實體表示能力不足的缺陷。一種典型的思路是通過增加輔助信息,加強語義表示。近年來,one-shot和zero-shot學習在計算機視覺、自然語言處理等領域引起了廣泛關注。未來可以設計一種新的知識圖譜嵌入框架,使之更適合于從知識圖譜中推測新的事實,并更有效幫助跨知識圖譜的實體對齊任務。

(2)多模態知識圖譜研究

盡管關系三元組作為知識圖譜的內部信息,已經被目前的知識圖譜嵌入模型很好地組織起來,然而這些模型在鏈接預測、實體對齊等實際應用中的性能還遠遠不夠。事實上,知識圖譜中的實體和關系包含著復雜的特征和豐富的語義信息,尚未得到充分的挖掘。已有的一些模型嘗試結合實體類型、關系路徑、屬性信息或者實體描述,均取得了比僅僅學習三元組完成知識表示更好的性能,這進一步驗證了多模態信息之間是互補的猜想,即:盡管模態異構,但是語義關聯。圍繞多模態知識圖譜的工作近幾年已在相繼展開。Wang等人[131]通過向文本實體分發多樣圖像并設置視覺語義關系,構建了全面的多模態知識圖譜Richpedia;Wang 等人[132]研究了包含視覺三元組的場景圖關系抽取。多模態知識圖譜也能為下游系統提供更豐富的包括文本、圖像、視頻等內容。未來可以進一步針對視覺信息,開發多模態語義融合來完成知識表示學習,以提升嵌入性能。

(3)System I與System II融合研究

System I 和System II 是認知科學中的雙通道理論,分別代表了神經學派和符號學派的研究思維。現有的大多數以學習實體分布式表示為目的的知識圖嵌入模型均屬于System I的范疇,還有一些研究通過邏輯規則(例如一階謂詞邏輯、規則庫等)實現鏈接預測和實體對齊任務,這些方法屬于System II的范疇。Rossi等人[91]在比較現有鏈接預測模型時發現:基于規則的AnyBURL模型是一個非常具有競爭力的模型,因為它被證明優于大多數面向單個知識圖譜的嵌入模型,且計算速度很快。Sun 等人[133]在比較現有實體對齊模型時也發現了近乎同樣的結論:基于規則的LogMap 模型和PARIS 模型在實體對齊性能上優于幾乎所有面向多個知識圖譜的嵌入模型。這也為知識圖譜嵌入模型提出了非常嚴峻的考驗。一個直覺的研究思路是進行System I 與System II 融合研究。Qu 等人[134]率先嘗試了這種研究思路并提出了RNNLogic模型,該模型將邏輯規則看作一個潛在變量,同時訓練規則生成器和邏輯規則的推理預測器,取得了SOTA的效果。未來研究可以進一步拓展System I與System II的融合。

(4)時序知識圖譜研究

現有的知識圖譜嵌入模型主要集中在靜態知識圖譜上,即假設事實三元組(h,r,t)不隨時間遷移而變化,然而,這種假設忽視了非常重要的時間信息。一方面,結構化的知識只在特定的時期內成立,例如(?,thePresidentOf,USA)的頭實體并不是一成不變的,每位總統都有其對應的任期,不考慮時間信息的知識表示容易導致事實之間的矛盾。另一方面,事實的演變遵循時間順序,包含時間信息的知識圖譜嵌入能夠挖掘更多的時間規律。

已有一些前期工作嘗試進行時序知識圖譜的嵌入模型研究,與以往的靜態知識圖譜不同,時序知識圖譜嵌入旨在同時學習時間嵌入和關系嵌入。Lacroix 等人[135]在原有三元組基礎上增加時間維度,將知識圖譜描述成四元組的集合,并提出了四階張量分解模型;Goel等人[136]提出了時序嵌入函數,為時序知識圖譜在任何時間點的實體提供了一個隱藏的表示,該嵌入函數可以與任何靜態知識圖譜嵌入模型相結合。但是現有模型只能學習看得見的時間戳,無法推廣到未觀測時間域。未來研究可以著眼于針對時間戳的表示,來實現面向事實的時間預測。

(5)領域知識圖譜研究

現有的模型研究都僅僅應用于通用知識圖譜上,很少有研究對領域知識圖譜嵌入進行分析。一方面由于領域知識圖譜對專業性與準確度的要求高,這也要求其必須有嚴格的本體層模式。另一方面,相對通用知識圖譜而言,領域知識圖譜中關系三元組數量較少,通用的知識圖譜嵌入方法不能很好的完成知識表示學習。此外,領域知識圖譜與通用知識圖譜的實體對齊問題尚處于空白。如何針對領域知識圖譜構建統一的嵌入空間成為亟待解決的問題。

(6)可擴展性研究

可擴展性在大規模知識圖中至關重要,隨著知識圖譜數據量日趨增大,模型的可擴展性問題顯得愈發緊迫。由于模型的計算效率和表達能力之間存在相互制約的關系,因此為了追求表達能力,目前僅有有限數量的研究將模型應用于超過100萬個實體的知識圖譜上,大多數方法都只能適應小規模知識圖譜嵌入,難以擴展到數百萬個實體和關系。所以,為了處理復雜的深層架構和日益增長的知識圖譜,需要將運算效率如時間復雜度和空間復雜度等納入模型的考量范疇。

5 總結

本文從任務驅動的角度,將現有知識圖譜嵌入研究分為面向單個知識圖譜的鏈接預測研究和面向多個知識圖譜的實體對齊研究兩大類。進一步根據知識圖譜嵌入模型的內在假設和實現方法的不同,將面向單個知識圖譜的鏈接預測模型分為距離模型、翻譯模型、語義匹配模型、神經網絡模型和幾何模型五類;根據編碼模塊捕獲語義的層次,將面向多個知識圖譜的實體對齊模型分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。本文在分別列舉分析了各類模型的優缺點基礎之上,探討了現有知識圖譜嵌入技術存在的問題,對知識圖譜嵌入模型的未來研究方向提出了展望。

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 麻豆国产精品| 欧美成人手机在线观看网址| 欧美 亚洲 日韩 国产| 国产日韩丝袜一二三区| 任我操在线视频| 18禁黄无遮挡网站| 国产精品私拍在线爆乳| 日本欧美视频在线观看| www欧美在线观看| 热99re99首页精品亚洲五月天| 91成人精品视频| 日韩一区二区在线电影| 亚洲一区二区视频在线观看| 国产香蕉国产精品偷在线观看| 911亚洲精品| 中文字幕1区2区| 国产欧美自拍视频| 性喷潮久久久久久久久| 国产精品护士| 91在线播放免费不卡无毒| 凹凸国产熟女精品视频| 欧亚日韩Av| 特级aaaaaaaaa毛片免费视频| 美女免费精品高清毛片在线视| 都市激情亚洲综合久久| 中文精品久久久久国产网址| 中文无码伦av中文字幕| 九九热视频在线免费观看| 中文成人在线| 久久99国产综合精品女同| 亚洲无卡视频| 久青草国产高清在线视频| 国产成人综合亚洲欧美在| 国产日韩AV高潮在线| 成人午夜精品一级毛片| 日韩精品无码免费专网站| 男人天堂伊人网| 日韩福利在线观看| 国产青榴视频| 欧美精品一区在线看| 看国产一级毛片| 美女无遮挡被啪啪到高潮免费| 日本尹人综合香蕉在线观看 | 伊人久热这里只有精品视频99| 国产美女91视频| 国产欧美精品一区aⅴ影院| 日韩乱码免费一区二区三区| 国产最爽的乱婬视频国语对白| a级毛片一区二区免费视频| 久久精品亚洲中文字幕乱码| 中文字幕无码av专区久久 | 伊人久久大香线蕉aⅴ色| 亚洲无卡视频| 毛片手机在线看| 亚洲福利片无码最新在线播放| 日本中文字幕久久网站| 中国国产一级毛片| 国产精品制服| 国产亚洲精久久久久久无码AV| 久久久久无码国产精品不卡| 国产人在线成免费视频| 国产成人无码AV在线播放动漫 | 91av成人日本不卡三区| 人人妻人人澡人人爽欧美一区| 91视频免费观看网站| 国产国产人成免费视频77777| 午夜福利视频一区| 亚洲精品第五页| 红杏AV在线无码| 亚洲国产中文在线二区三区免| 中文字幕在线观看日本| 日韩高清在线观看不卡一区二区 | 欧美一级高清免费a| 久久精品电影| 国产小视频a在线观看| 久久综合九色综合97婷婷| 欧美成人一级| 亚洲精品少妇熟女| 在线亚洲精品福利网址导航| 色综合狠狠操| 亚洲伊人久久精品影院| 欧美三级自拍|