舒世泰,李 松,郝曉紅,張麗平
哈爾濱理工大學 計算機科學與技術學院,哈爾濱150080
知識圖譜(knowledge graph,KG)[1]是一種用圖模型來描述知識和建模世界萬物之間關系的技術方法,屬于語義層面的知識庫(knowledge base,KB)[2],通常以網絡的形式出現。在網絡中,節點表示實體,節點之間的邊表示關系,并使用三元組(h,r,t)對知識進行表示。KG 最早應用于提升搜索引擎的能力。隨后,KG 在輔助智能問答、自然語言處理、大數據分析、推薦計算、可解釋性人工智能等方面展現出較大的應用價值[3-5]。其中,知識表示是這些應用的基礎。然而,由于知識的不斷積累,KB 的規模擴展非常快,知識形式也變得越來越多樣化[6-8]。以傳統的形式對知識進行表示的弊端越來越明顯,如實體間語義關系的推理變困難、數據稀疏性問題嚴重、計算的復雜性高、難以運用到大型KG 上等。
近年來,以知識表示為代表的知識圖譜嵌入(knowledge graph embedding,KGE)[9]技術取得了新的研究進展,提出了將稀疏的三元組(h,r,t)語義信息映射到低維稠密的向量空間,將實體與關系的推理轉變為對象間距離的計算,計算的距離越小,實體間的相似性越高[10]。同時,KGE 通過對實體和關系進行表示,能夠解決傳統表示方法面臨的數據稀疏、知識推理困難等問題,并且促進了知識獲取、實體消岐性能的不斷提升[11-13]。
根據KGE的典型特性,學者們提出了眾多KGE模型,主要分為兩類:平移距離模型[14]、語義匹配模型[15]。對于平移距離模型,比較經典的有TransE(translating embedding)[16]、TransA(translating adaptive)[17]、TransR(translating in relation space)[18]、TransH(translating on hyperplanes)[19]、TransM(translating with relational mapping)[20]、KG2E(knowledge graphs with Gaussian embedding)[21]以及SE(structured embedding)[22]模 型等,這些模型的共同點是評分函數采用距離進行衡量。對于語義匹配模型,比較有代表性的是RESCAL模型[23]、SME(semantic matching energy)模型[24]、NTN(neural tensor network)模型[25]等,這些模型的共同點是評分函數采用相似度進行衡量。然而,KGE模型仍然面臨知識圖譜補全(knowledge graph completion,KGC)完成不足、圖形結構特征未被充分利用、無法處理復雜的語義關系等問題。本文將對現有的KGE方法進行分析與研究,通過整理與歸納,總結目前研究面臨的挑戰,并對未來的研究趨勢進行展望。本文的主要貢獻如下:
(1)對KGE 方法進行了較為全面的分類,以解決問題類型作為分類依據,分為基于深度學習的方法、基于圖形特征的方法、基于翻譯模型的方法以及基于其他模型的方法。
(2)詳細闡述每種模型的算法思想,歸納并分析KGE 方法中每種算法的優點和存在的局限性;最后從方法分類、文獻發表年份、模型優缺點、所用數據集、評價指標和算法思想等角度對知識圖譜嵌入方法做了橫縱向比較。
(3)列出所述方法常用的實體關系數據集;對方法中常用評價指標進行說明;以WN18 和FB15K 數據集為例,對相關方法在該兩種數據集上的鏈接預測結果進行對比和分析。
(4)討論了當前研究的難點問題,并預測了未來的研究趨勢。
KGE 旨在將KG 中包括實體和關系的內容映射到低維連續向量空間中,也稱知識表示學習[26]。在詞向量的啟發下,考慮如何將知識圖譜中的實體和關系映射到連續向量空間中,并包含一些語義層面的信息[27-29],使得在下游任務中更充分應用知識圖譜,如智能問答、關系抽取等任務。連續向量的表達蘊含著更多的語義信息,更容易被計算機理解和操作[30-31]。
傳統的知識表示方法,如早期專家系統時代的知識表示方法都是以符號邏輯為基礎進行知識表示,其特點是易于刻畫離散、顯性的知識,具有較好的可解釋性。但仍有許多不能用符號來刻畫連續、隱形的知識,在表示過程中失去魯棒性,從而在下游任務中難以達到預期效果。通過嵌入(embedding)技術將KG 中的實體和關系映射到低維連續向量空間中,提高了知識表示的能力。該方法主要有以下特點:
(1)使用向量的表示方式可以提高應用時的計算效率。將KG 的實體和關系映射到向量空間中,實現語義相似度計算等復雜操作[32-33],計算效率顯著提高,有效解決數據稀疏等問題。
(2)增加了下游應用設計的多樣性。用向量表示后,KG 更適用于當前流行的機器學習算法,例如神經網絡等方法[34-35]。因為下游應用輸入的并不再是符號,所以可以考慮的方法也不僅限于圖算法。
(3)將KGE 作為下游應用的預訓練向量輸入,使得輸入的信息不再是孤立的不包含語義信息的符號,而是已經經過一次訓練,并且包含一定信息的向量[36-37],還可用來監督神經網絡的訓練過程。
目前,學者們的研究主要集中在基于深度學習的方法、基于圖形特征的方法、基于翻譯模型的方法三方面,少數學者的研究集中在基于其他模型的方法。這四方面雖然已經提出了一些成果,但是,很少有學者能夠在鏈接預測、三元組分類以及實體對齊任務上取得實質性的突破,提升的性能也并不是很明顯。因此,這四方面在今后很長一段時間內仍然是研究的熱點。
KGC問題是指在知識圖譜中某些鏈路往往是不完整的,即圖中缺少鏈接。例如,在Freebase 和DBpedia中,超過66%的人條目缺少出生地。先前有關KGC的工作主要集中在淺、快速的模型上,這些模型可以縮放到大型KG 上。但是,與深度多層模型相比,這些模型學習的表達功能較少,可能會限制其性能[38]。針對此問題,研究者提出若干模型,比較有代表性的是ComplEx模型[39]、ConvE模型[40]、LCPE(local combination projection embedding)模型[41]。
ComplEx 模型的核心是利用潛在因子分解和復數的嵌入。算法思想是利用復數空間嵌入的組合來處理多種二元關系,包括對稱和反對稱關系,解決鏈接預測問題。該方法首先證明了在實體之間只有單一關系的方陣情況下使用復向量嵌入方法,然后推廣到三階張量中的一組堆疊方陣,以表示多個關系。該方法還認為只要使用正確的表示方法,標準的嵌入點積可以是一個非常有效的復合函數;當使用復向量時,由于它涉及兩個向量之一的共軛轉置,點積通常被稱為Hermitian 點積,此時點積不再是對稱的,而反對稱關系可以根據所涉及實體的順序得到不同的分數。因此復向量可以有效地捕獲反對稱關系,同時保留點積的計算優勢,保證在空間和時間復雜度上都是最優的。由于只使用Hermitian 點積,與神經張量網絡等模型相比,該方法更簡單[42-44]。
嵌入的點積可很好地縮放,并且可以處理關系的對稱性和自反性,使用適當的損失函數甚至可以實現傳遞性。同時,該方法可擴展到大規模數據集上。在基于FB15K 數據集的鏈接預測實驗中,該模型性能比TransE[16]提高19.9%,具有較好的實驗效果。然而,此模型也存在一些缺陷,如預測性能偏低,生成的負采樣較少,訓練時間偏長,不能同時對所有的關系模式和復雜關系進行建模和推理[45]。
ConvE 模型的核心是使用多層卷積神經網絡。算法思想是使用2D 卷積來預測KG 中缺失的鏈接,通過卷積層和全連接層對輸入實體和關系之間的相互聯系進行建模。如圖1 所示,具體過程如下:
(1)將實體和關系嵌入進行重塑和連接;
(2)將所得矩陣作為卷積層的輸入;
(3)將所得的特征映射張量矢量化并投影到k維空間中;
(4)與所有候選對象嵌入匹配。
該模型的主要特點是得分函數由二維嵌入上的卷積定義。得分函數為:

式中,es和eo分別為頭實體s和尾實體o的嵌入表示,rr∈Rk是依賴于r的一個關系參數,W為權值矩陣,和分別表示es和rr的2D 重塑。為了訓練模型參數,該模型使用邏輯回歸函數來表示得分情況,即:

Fig.1 Process diagram of ConvE圖1 ConvE 流程圖

并最小化交叉熵損失函數,即:

式中,N表示實體數量,t表示維度為R1×1或維度為R1×N的標簽向量,判別關系是否存在,若不存在則為0。同時,該方法為更快訓練文獻[46]模型,使用修正線性單元作為非線性函數f,并在每一層之后進行批量歸一化處理,以提高收斂速度。此外,在嵌入運算和卷積運算后的特征映射和全連接層上使用了Dropout 算法及Adam 優化器,對標簽進行平滑處理,防止過擬合現象。
在WN18 和FB15K 數據集上,ConvE 性能優于ComplEx,具有較高的參數效率,在對具有高度關聯性的節點建模時也非常有效。但是,它仍然存在一些局限性,例如嵌入之間的交互次數偏低,模型卷積深度偏淺。
LCPE 模型的核心是使用參數共享的神經網絡。該模型思想是將ProjE 模型和實體相似度信息相結合,先判斷兩個實體是否有關系,后判斷該關系的具體類型,由于相似的實體嵌入向量在向量空間中距離更近,可根據實體分布稠密的局部空間來判斷實體之間的具體關系類型。如圖2 所示,該模型是由判斷兩個實體之間是否存在關系和實體之間相似度的網絡構成。
在圖2 中,Wc是由候選實體向量組成的矩陣,WE是由實體向量組成的矩陣,WR是由關系向量組成的矩陣,Ei和Ej分別是從Wc和WE中提取出的一個實體向量,R是從WR中提取出的關系向量,De和Dr分別代表組合矩陣。
該模型將ProjE 模型和實體間的相似度結合,定義如下得分函數:

Fig.2 LCPE model structure圖2 LCPE 模型結構

式中,h(e,r)i指代實體集中第i個實體的得分,f和g表示激活函數,Wc∈Rs×k表示候選實體矩陣,bp表示偏移量,e⊕r表示實體和關系的組合運算,表示實體向量e和候選實體集中第i個實體的嵌入向量的內積。用softmax 和tanh 作為激活函數替換后得到的得分函數為:

并利用listwise 方法進行訓練。LCPE 模型的損失函數定義如下:

在公開數據集WN18 中,LCPE 正例三元組的MeanRank 比ProjE 提高了11.0,而正例三元組的Hit@10 比ProjE 提升了0.20%;在FB15K 中,Mean-Rank 提前了7.5,Hits@10 平均提升了3.05%。然而,此模型也存在一些局限性,例如共享變量神經網絡層數偏淺。
無論是ComplEx,還是ConvE 與LCPE,這些都是非常新穎的嵌入模型,能夠較好地用于KGC 工作,只是每個模型的側重點不同,ComplEx 模型側重于使用Hermitian 點積,ConvE 模型側重于使用多層卷積網絡,LCPE 模型側重于將ProjE 模型和實體相似度信息相結合。除此之外,也可以考慮使用卷積神經網絡改進最先進的模型,每個三元組都表示為一個三列矩陣,其中每個列向量代表一個元素,再將此三列矩陣輸入到卷積層,在卷積層上對矩陣操作多個過濾器以生成不同的特征圖;將這些特征圖連接到一個表示輸入三元組的單個特征向量中,通過點積將特征向量與權重向量相乘以返回分數,來預測三元組是否有效。同時,也可以考慮融合稀疏的關注機制,通過共享概念探索三元組中隱藏的關系。
知識圖譜是由若干實體和關系組成的一個復雜的多關系圖形網絡結構。圖形特征問題是指當前知識圖譜嵌入方法不能很好地利用KG 中圖形結構特征。傳統的KGE 模型在學習時注重將KG 視為一組獨立的三元組,這樣會忽略圖結構中的重要信息,包括實體特征信息、三元組上下文等。為解決此問題,研究者們提出若干模型,比較有代表性的包括TCE(triple-context-based knowledge embedding)模型[47]、DPTransE 模型[48]。
TCE 模型也稱三重上下文的知識嵌入模型。算法思想是充分利用KG 中的圖形結構特征,尤其圍繞三元組的局部結構,即由鄰居上下文和路徑上下文組成的三元組上下文,在統一的框架中表示三元組及其上下文的結構信息(如圖3),這樣三元組上下文中的結構信息就可以結構化。

Fig.3 Description of triple context of triples in KG圖3 KG 中三元組的三重上下文的說明
對于鄰居上下文,給定一個實體e,實體e的鄰居上下文是一個集合:

即以e為頭實體的三元組中出現的所有關系-尾實體對。例如在圖3 中,實體h的鄰居上下文是:

對于路徑上下文,是指KG 中的一個實體到另一個實體的一組路徑。這種結構特征有利于對實體對之間的關系進行建模并捕捉到它們的信息交互。例如在圖3 中,實體h和實體t的路徑上下文是:

因此該模型可形式化表示為:

傳統模型的得分函數只與實體和關系的嵌入有關,如TransE 的得分函數為:

而該模型的得分函數是在此基礎上融合三重上下文得到的,形式化為:

式中,C(h,r,t)表示(h,r,t)的三重上下文。一個三元組得分越高,表明它在更大程度上具有不變性。但是,此模型的局限性是在基線上不如經典的翻譯模型。
DPTransE 模型的核心是利用判別路徑進行嵌入表示。算法思想是采用聯合學習機制,將基于圖像特征模型和基于潛在特征模型相結合。
對于潛在特征模型,在KG 中,多步關系和中間實體帶來了更多的交互信息,因此在多步關系和直接關系之間建立強相關性是非常必要的。為此該方法提出語義關聯假設,假設直接關系可以通過多步關系路徑的線性組合來重構,這些判別路徑可以提高多個關系之間的嵌入能力。但是,基于潛在特征模型的語義信息丟失是不可避免的,須根據上述假設,將內在損失與語義損失一起最小化,公式如下:

式中,rk=αkP(h,t)表示直接關系的語義可以通過給定相似實體對的多步關系線性組合來近似重構,P(h,t)={p1,p2,…,pn}表示多個關系路徑的集合,為歸一化因子,λ1用于平衡左右兩部分,函數得分越小,說明三元組被翻譯的效果越好。
對于圖像特征模型,為衡量每條路徑的可靠性,引入PRA-style方法,該方法不同于原始PRA,而是使用路徑作為特征來預測實體對之間的關系。在關系聚類階段,使用K-means 算法將相似的關系分成一組;在特征計算階段,基于實體相似性假設計算每條路徑特征值,相似性定義如下:

式中,z是給定實體對(hi,ti)的每條路徑的中間實體,dz表示實體z的度。
基于圖特征在發現語義相關性和為實體-關系提供更精確、更有判別性的語義嵌入方面起著關鍵作用。該模型可同時從潛在特征和圖形特征中學習,建立這兩個特征之間的相互聯系。不足之處在于基于圖形特征必須與三元組交互。
TCE 模型、DPTransE 模型都能夠較好地處理圖形特征問題。TCE 模型的核心是利用三元組上下文,雖然這種思想并不是第一次出現,但是,將其利用到評分函數中還是首次出現,改進的空間仍然很大,不足之處是在基線上不如經典的翻譯模型。DPTransE 模型的核心是利用判別路徑的嵌入,將不同的模型進行融合,互相取長補短已經成為當下研究的新常態,此模型今后的發展空間較廣闊,不足之處是基于圖的特征必須與三元組交互。
為了解決KG 中復雜關系問題,許多基于翻譯的模型將KG 中的實體和關系嵌入到連續的向量空間中,并將關系編碼為該空間中的翻譯操作,從而獲得更好的性能[49]。這些模型在表達KG 的自反性、1-N、N-1 和N-N等復雜關系時都有局限性。針對這個問題,比較有代表性的有NTransGH 模型[50]、STransH 模型[51]、TransG 模型[52]。
NTransGH 模型的核心是將神經網絡與廣義超平面的翻譯機制相結合。算法思想是首先通過廣義超平面轉換機制,將關系建模為轉換操作,使得實體在不同的關系中有不同的角色;然后設計一個神經網絡以捕獲復雜的關系模式,使用一組特殊矢量而不是TransH 中的一個法向量來確定廣義超平面[53-54]。為了表達復雜的關系,引入了兩層神經網絡來定義得分函數:

式中,W1∈Rn×n、W2∈Rn為權重參數,m=Mrh⊥+r-Mrt⊥為投影后經過平移操作得到的三元組。
NtransGH 模型可視化如圖4 所示。在模型訓練時,通過替換語義相似實體來提高生成負例的質量。該模型的損失函數為:

其中,A1、A2表示如下:

式中,C是一個用于衡量軟約束重要性的超參數,P是正例三元組的集合,N是負例三元組的集合;在式(17)、式(18)中,表示向量,ε是小標量,

Fig.4 Comparison of TransH and NTransGH models圖4 TransH 和NTransGH 模型比較
與TransH[19]相比,該模型基于FB15K 的鏈接預測實驗中,Hits@10 提高了17.1%。該模型缺陷是需要操作的參數偏多,訓練難度大。
STransH 模型的核心是分別在實體空間和關系空間中建模。算法思想是將SE 模型與TransE 模型進行結合,借鑒TransH 模型的思想,引入投影到特定關系超平面的機制。具體方法:首先將三元組中的頭實體h和尾實體t映射到給定關系的超平面wr上,分別用h⊥和t⊥表示,用關系向量r將超平面上的h⊥和t⊥聯系起來。即:

由此得到該模型的得分函數,即:

式中,Wr,1、Wr,2用于三元組中頭實體和尾實體的投影操作,g(x)為tanh 函數。實驗表明使用L1 距離效果更好。
其次采用單層神經網絡的非線性操作來刻畫實體與關系之間的語義聯系。該方法中,對負例三元組的抽樣策略進行改進,以不同的概率替換頭實體和尾實體,定義如下參數:

采用參數p的伯努利分布抽樣策略,在式(21)中,tph指每個頭實體對應的尾實體的平均數量,hpt指每個尾實體對應的頭實體的平均數量。并選擇最相近的實體進行替換,實體和關系之間的語義相似度通常使用向量之間的相似度表示。定義實體的相似度為:

式中,h和h′分別表示正例三元組和負例三元組中的頭實體。
實驗表明,該模型性能比TransH[19]提高3.4%。缺陷是沒有將關系路徑考慮在內,在今后研究中可將關系路徑考慮在內,以達到更好的表示效果。
在知識圖譜的一個三元組(h,r,t)中,一個關系可能與該三元組中多個實體存在潛在聯系,即產生多重關系語義問題。為解決該問題,研究者提出一種模型即TransG 模型。該模型的核心算法是使用高斯混合模型來刻畫三元組中頭實體h和尾實體t的聯系,并結合貝葉斯非參數無限混合嵌入模型。關系r代表的每種語義用高斯分布來描述,由此形成多個高斯分布,從而區分出正確和錯誤三元組。
下面從幾何角度解釋該思想:對于給定的三元組(h,r,t),TransE模型希望h+r≈t,即頭向量加關系向量約等于尾向量,而TransG模型將該幾何關系推廣為:

相比基于TransE 的若干模型,TransG 可根據三元組的特定語義自動選擇最佳的翻譯向量,更專注于特定的語義嵌入,避免其他不相關的語義成分帶來的干擾。缺陷是不適用于多特征關聯挖掘。
在處理復雜關系問題上,NTransGH 模型、STransH模型、TransG 模型都表現出了很大的發展潛力。NTransGH 模型的核心是將神經網絡與廣義超平面的翻譯操作相結合,當前,在KGE 方法中,將神經網絡運用于鏈接預測和三元組分類任務中仍然屬于比較熱門的研究點;同樣,將翻譯機制運用到KGE 中也屬于比較熱門的研究點,這是第一次將兩者結合在一起,具有很大的研究價值,不足之處是需要操作的參數偏多。STransH 模型的核心是分別在實體空間和關系空間建模,將兩種簡單、常見的模型融合在一起,通過特定的機制進而提升預測的性能,仍有很大的研究空間,不足之處是沒有將關系路徑考慮在內。對于TransG模型,它的核心是貝葉斯非參數無限混合嵌入,不足之處是不適用于多特征關聯挖掘。
除上述三種方法外,少數學者正在拓展其他方面的研究,如關于實體的層次類型中的豐富信息、關于實體簡潔的描述、關于三元組的相互聯系與相互依賴、關于邏輯規則的背景信息等。這些方面的研究雖然取得突破性進展的不多,但極大豐富了KGE方法的研究,擁有廣闊的研究前景。
基于翻譯模型的知識表示方法在2013 年首次被提出,研究者們針對各種問題提出了許多解決方案。現有的大多數方法集中于對三元組結構化信息的表示,忽略了層次類型中豐富的語義信息。文獻[55]利用層次實體類型的優勢,提出TKRL(typeembodied knowledge representation learning)模 型。在遵循TransE 模型的假設下,TKRL 模型首先將頭、尾實體投影到對應的類型空間,然后通過兩種類型編碼器對層次結構進行建模,最后根據得分函數優化TKRL。該模型能夠很好地利用層次類型信息,與TransE[16]、TransR[18]相比,性能分別提高11.3%、6.2%。但缺陷是只將類型信息考慮到KG 的表示學習中。在未來的研究中可將圖像和文本形式的語義信息融合到該模型中,同時融合多元知識庫信息如維基百科,以引入更深層次的內容。
表示學習旨在將實體和關系投影到連續低維空間中,大多數方法專注于表示三元組中實體和關系之間的聯系。實際上,在許多知識圖譜中,通常都有對實體的簡潔描述,而現有方法都無法很好地表示這些信息。因此,文獻[56]根據實體描述的特點提出了DKRL(description-embodied knowledge representation learning)模型。算法思想是將詞袋模型(continuous bag-of-words,CDOW)和卷積神經網絡模型(convolutional neural networks,CNN)相結合來表示語義信息。DKRL 模型對相應的三元組和實體描述的信息進行建模,并將每個三元組中的關系視為從頭實體到尾實體的轉換;同時,CNN 考慮了文本中單詞之間復雜的局部交互作用,即文本詞序。特別的,有些實體并不存在,只有其描述信息,而DKRL 模型可以根據實體的描述自動構建實體的表示。與TransE[16]模型相比,性能提升了5.3%,具有良好的泛化能力和魯棒性,可嘗試應用于大規模知識圖譜及Web 領域。此模型的局限性是僅考慮用于表示學習的實體描述,未考慮各種關系或實體類型的文本信息。
現有的大多數方法將KB 視為一組三元組,再分別學習它們的表示形式。但是,三元組是相互聯系并相互依賴的。針對此問題,文獻[57]提出一種圖感知KGE 方法,即GAKE(graph aware knowledge embedding)模型。算法思想是首先將KB 表示為有向圖,利用圖的結構信息來學習任何頂點或邊的表示形式;其次引入鄰居上下文、路徑上下文和邊緣上下文三種類型的圖上下文進行嵌入,每種類型都從不同的角度反映知識的屬性;最后提出一種注意力機制,以學習不同實體和關系的表示能力。在鏈路預測和三元組分類實驗中,GAKE 模型的性能優于TransE、TrnasH 等模型。缺陷是未使用實體描述或來源于其他文本信息來構建文本上下文。
邏輯規則包含豐富的背景信息,但往往并未得到很好的研究。針對此問題,文獻[58]將知識圖譜和邏輯規則相結合,即KALE(knowledge and logic embedding)模型,核心是將三元組和邏輯規則在統一的框架中表示和建模。算法思想是將三元組看作原子,根據TransE 模型假設對其建模;邏輯規則看作由原子與邏輯連接詞組成的公式,采用t范數模糊邏輯進行建模。通過這種方式以獲得更具預測性的實體和關系嵌入,有利于知識獲取和知識推理。與TransE[16]相比,性能提升了1.4%。該方法可以獲得更多的預測性實體嵌入,甚至可以在純邏輯推理范圍之外做出更好的預測。缺陷是未考慮合并其他類型的邏輯規則。
TKRL 模型、DKRL 模型、GAKE 模型及KALE 模型分別在處理實體的層級類型中的豐富信息、實體簡潔的描述、三元組的相互聯系與相互依賴、邏輯規則的問題時,都發揮了各自的優勢,提高了預測的效果。但是,由于這些方面的研究屬于KGE 領域的難點,研究結果并不是很理想。然而,這些模型對于實體識別、關系抽取等任務仍然具有較大的作用,因此,這些方面的探索仍具有一定的研究價值。
本章介紹了上述模型所使用的數據集,介紹了實驗中常用的評價指標,對上述模型的算法思想、模型優缺點、所用數據集及評價指標進行了總結。最后以WN18 和FB15K 數據集為例,展示了上述模型在鏈接預測上的實驗結果。
隨著人工智能和大數據技術的飛速發展,研究者已構建出多個大規模知識庫,如語言知識庫WordNet[59]和世界知識庫Freebase[60]等。以上模型所用數據集都基于這兩種知識庫,使用其中的部分子集開展實驗。為了加強對上述KGE 方法性能的評估,本文收集了比較常用的實體關系數據集,總共達11 個,每個數據集的實際數據見表1。

Table 1 Often-used data sets of entity relationships表1 實體關系常用數據集
對于KGE 算法實驗,主要的評價指標有Mean-Rank、Hits@n以及ACC。對于鏈接預測中的關系預測和實體預測,常用的評價指標為MeanRank、Hits@n;對于三元組分類效果的預測,常用的指標為ACC。
(1)MeanRank
MeanRank 表示正確實體的平均排序得分,MeanRank 值越小表示排名越靠前,實體向量化結果越好,是衡量鏈接預測的重要指標。
(2)Hits@n
Hits@n表示正確實體排在前n名的概率,該值越高表示效果越好。常見的有Hits@10、Hits@3和Hits@1。此外,在Hits@n中,將未經處理的實驗設置稱為“Raw”,將剔除了對實驗有干擾的損壞三元組的實驗設置稱為“Filt”。
(3)ACC
ACC 是評價三元組分類任務準確率的重要指標,值越高,表明模型在三元組分類這一任務上的效果越好。公式如下:

式中,Tp表示預測正確的正例三元組的數量;Tn表示預測正確的負例三元組數量;Npos和Nneg分別表示訓練集中的正例三元組和負例三元組的數量。
本文將KGE 算法分為四類,分別對比了每一種算法的分類、名稱、發表年份、數據集、評價指標、算法思想、局限性,具體的比較結果見表2。

Table 2 KGE algorithm comparison表2 KGE 算法比較

表2 (續)
為了加深對基于深度學習的方法、基于圖形特征的方法、基于翻譯模型的方法及基于其他模型的方法算法的理解,對比了每種算法在FB15K 數據集上的鏈接預測實驗,具體結果見表3。

Table 3 Experimental results of link prediction on FB15K表3 在FB15K 上鏈接預測實驗結果
從表3 可以看出,在基于深度學習的方法中,LCPE模型MeanRank(Filt)比ComplEx 和ConvE 分別低14.5、11.0,區分度明顯;ComplEx 的Hits@10 最高,為84.0%,但與后兩種算法結果差距不大,總體上,LCPE 模型的實驗效果相對較好。在基于圖形特征的方法中,TCE模型MeanRank比DPTransE低99.0,而兩者Hits@10 相差不大,綜合來講,TCE 模型略勝一籌。在基于翻譯模型的方法中,NTransGH 模型的MeanRank 最低且Hits@10最高,故NTransGH模型的效果最好。
從表4 可得,以WN18 子集做鏈接預測時,在基于深度學習的方法中,LCPE 模型的MeanRank 最低,ComplEx 的Hits@10 最高,綜合評定,LCPE 模型相對較好。在基于圖形特征的方法中,TCE 的MeanRank最低,DPTransE 的Hits@10 最高,兩者的實驗效果平分秋色。在基于翻譯模型的方法中,NTransGH 模型MeanRank 最低并且Hits@10 最高,因此,NTransGH的實驗效果最好。在今后的研究中,可嘗試將這幾種模型進行融合,以得到更好的實際應用。

Table 4 Experimental results of link prediction on WN18表4 在WN18 上鏈接預測實驗結果
本文對現階段KGE 的研究現狀進行了綜述,對目前KGE 領域已有的研究成果總結歸納。本章討論了目前研究的難點問題,并對知識圖譜嵌入技術的未來發展進行了展望。
從知識表示概念首次被提出到現在,基于距離模型、能量模型、單層神經網絡模型、雙線性模型、張量神經網絡模型、矩陣分解模型及翻譯模型等幾類模型的研究一直在持續,尤其2013 年Bordes 等人提出TransE 模型后,針對TransE 模型存在的局限性,學者們從不同角度改進該模型,但仍未得到廣泛的應用。目前該領域仍存在以下研究難點:
(1)表示空間的選擇。表示空間在編碼實體的語義信息并獲取相關屬性等方面起著關鍵作用。目前研究人員在Point-wise 空間、復向量空間、高斯分布和流形空間都取得了研究進展。在建模時,如何設計一個合適的表示空間,以提高實體和關系的表示能力并降低計算的復雜性,仍是今后研究難點。
(2)少樣本的不確定性。KG 遵循長尾分布,尤其在領域知識圖譜中,許多實體只有少量的三元組描述。在鏈接預測實驗中往往需要足夠的樣本進行訓練,顯然少量的三元組無法完成有效的模型訓練,在下游任務中難以達到預期效果。此外這些小樣本存在不確定性,實體和關系之間的語義非常模糊,導致無法準確學習到實體和關系之間的語義表示。如何解決少樣本的不確定性問題亟待研究。
隨著KGE 技術的不斷發展,越來越多的研究者開始關注此領域,未來的發展趨勢如下:
(1)基于圖卷積神經網絡的嵌入
隨著對知識圖譜研究的不斷深入,KG 得到了廣泛的應用,包括智能問答和信息檢索。研究者對知識庫和知識圖譜的創建及維護上投入了大量的精力,但即使最大的知識庫也存在知識缺失問題。針對該問題,文獻[61]首次提出將圖卷積神經網絡(graph convolutional network,GCN)應用于建模知識圖譜中多關系數據。過程如圖5 所示。

Fig.5 Entity update graph based on GCN圖5 基于GCN 的實體更新圖
具體的,在對每個實體進行表示時,和當前實體有直接關聯的所有關系分別用GCN 進行聚合,聚合后的每個結果通過激活函數生成新的實體。該方法引入了參數共享和加強稀疏約束機制,對于KG 中的其他實體,可通過共享參數實現新實體的形成。
實驗表明,該方法在鏈接預測方面比同類型方法提高29.8%,證明了該方法的有效性,可用于大規模多關系知識圖譜的建模。該方法可推廣到其他關系因子分解模型,有效地應用于關系提取和知識推理等工作。在未來的研究中,可將圖形自動編碼器模型和其他因子分解模型相結合,用一種依賴數據的注意力機制來取代該模型在鄰居節點和關系類型上的聚合操作。基于GCN 的表示學習研究方興未艾,是一個重要的研究方向。
(2)基于復雜上下文的嵌入
通過圖上下文進行知識嵌入時有以下挑戰:①在KG 中,由于三元組都有獨特的屬性結構,會有許多不同類型的圖上下文。如何設計一種框架來處理不同類型的圖上下文是未來工作的一個挑戰。②在同種類型的圖上下文中,不同實體具有不同的表示能力。可考慮將實體描述信息和本地鄰居上下文相結合形成“復合鄰居”,利用一種新的圖存儲網絡從復合鄰居中提取潛在語義信息,設計一種更有效的鄰居選擇機制,避免選擇過程中的遺漏;同時尋求其他類型的編碼器,減少實驗過程中的參數和內存開銷,更好地解決KG的稀疏性問題,具有重要的意義。
(3)基于時間模型的嵌入
KGE 是一種預測KG 缺失環節的有效方法,旨在學習實體和關系的分布式表示形式。現有的知識圖嵌入模型主要考慮頭、尾實體所在的空間具有相同的屬性。但頭、尾實體可以是不同類型的對象,不應該位于具有相同屬性的向量空間中。文獻[62]提供了一種新的研究思路。算法思想是引入時域和頻域兩個概念,將頭實體表示為時域空間的一個點,尾實體表示為頻域空間的一個點,將實體之間的轉換和實體投影到時域空間的對角投影矩陣定義為一個組合關系。
該模型性能比ComplEx 提高約1.4 個百分點,在鏈接預測任務上取得一定成效。此外,還可考慮不同關系模式下實體嵌入的多樣性分布問題,對所有關系模式如對稱/反對稱、反演和合成的關系進行建模,也是一個具有研究價值的方向。在后續的研究中,一方面可利用時間捕捉實體之間的差異,另一方面可以充分利用KG 的多模態信息(如文本、圖像等),將其與KG 的網絡結構和時間這三部分融合,以獲得更好的實驗效果。
(4)基于空間投影和復雜關系路徑的嵌入
傳統的KGE 模型在進行知識表示時往往僅關注頭、尾實體對之間直接的關系,而忽略掉了KG 中可能包含的關系路徑。PTransE 模型提供了一種簡單關系路徑推理模式,如三元組(谷歌,是,人工智能公司)和三元組(人工智能公司,屬于,高科技公司)具有潛在的關系路徑,即(谷歌,是,高科技公司)。通過這種推理模式,提高了知識表示的有效性。
而在知識圖譜中還有許多復雜的關系路徑,如三元組(姚明,出生于,上海)和三元組(姚明,是,NBA 球星)之間存在著復雜的推理關系,解決這種復雜的關系路徑,一種比較新穎的思路是對關系進行建模,并且在空間進行投影,考慮結合關系的語義信息,探索一階邏輯的分布式表示進行知識的嵌入,也是一個重要的研究方向[63]。