董永峰,劉 超,王利琴*,李英雙
(1.河北工業大學人工智能與數據科學學院,天津 300401;2.河北省大數據計算重點實驗室(河北工業大學),天津 300401;3.河北省數據驅動工業智能工程研究中心(河北工業大學),天津 300401)
知識圖譜(Knowledge Graph,KG)[1],例如YAGO、NELL和國內的百度知心等為智能問答系統、推薦系統的構建提供了十分寶貴的資源。這些知識圖譜以三元組的形式包含了數以百萬計的有關現實世界中實體與關系的事實,例如(馬云,創立,阿里巴巴)以及(蔡崇信,創立,阿里巴巴);但同時也存在著大量缺失關系的三元組,例如(馬云,?,蔡崇信)。
為了更加有效地應用知識圖譜并提高智能問答系統、推薦系統的功能性和完善性,進行實體間關系推理尤為重要。同時在進行關系推理時,需要挖掘并利用實體間多跳關系路徑中的隱含信息,這樣才能保證在推理之后得到的關系是符合現實事實且更加準確的。
關系推理首先需要將知識圖譜中現有的實體和關系嵌入到低維空間,但是目前大多數的嵌入方法只考慮了實體之間的直接關系,即直接相連兩個實體的關系,忽略了存在于實體之間的多跳關系路徑對實體間關系推理的影響。例如一組多跳關系路徑(李華,在職,清華大學,位于,北京)可以為三元組(李華,?,北京)提供了有效的推理證據,從而得到完善的三元組(李華,居住于,北京)。為了解決這個問題,Lao等[2]提出的路徑排序算法(Path Ranking Algorithm,PRA)表明了由兩個實體之間的關系類型組成的關系路徑可以有效地應用于知識圖譜的關系推理和補全任務上。PRA通過枚舉給定候選關系的所有實體對之間的路徑,利用隨機游走方式構建特征矩陣,然后在特征矩陣上訓練一個二分類方法(如邏輯回歸或決策樹)來推斷所缺失的關系。近些年,Neelakantan 等[3]將循環神經網絡(Recurrent Neural Network,RNN)應用在了基于路徑推理的方法上,通過PRA 獲取每個實體關系路徑,然后將推理路徑嵌入到低維空間并利用RNN 建模進行知識推理和補全。這些基于路徑推理方法的思想簡單來說就是實體之間關系的語義可以由連接實體的多個路徑的語義來表示。因此,可以通過對連接實體的路徑進行學習來推理兩個實體之間缺失的關系。僅使用PRA 進行推理只適用于一些規模較小的數據集,并且缺乏語義相關性。增加RNN 建模之后,雖然解決了缺乏語義相關性的問題,但是其擴展性較低,組合路徑的效率低且無法處理長期依賴問題。另外由于現有關系推理相關算法沒有十分注重嵌入方式對推理結果的影響,因此推理精度仍有很大提升空間。
針對實體間關系推理的結果平均精度較低的問題,本文提出了一種新的融合多跳關系路徑信息的關系推理方法,將卷積神經網絡(Convolutional Neural Network,CNN)[4]、雙向長短時記憶(Bidirectional Long Short-Term Memory,BiLSTM)[5]模塊以及注意力機制(Attention mechanism,Att)結合起來應用于知識圖譜的知識推理和補全任務上。
隨著知識圖譜的研究和應用,出現了許多與知識推理相關的方法,這些方法主要分為基于KG 嵌入的推理方法和基于路徑的推理方法兩大類:基于KG 嵌入的推理方法通過對KG應用低維嵌入的方法預測缺失的鏈接,其主要是將實體和關系表示為低維向量,并通過對向量進行處理來預測實體間的關系;基于路徑的推理方法主要是通過提取兩實體間多條路徑之間的局部特征,然后利用這些特征來預測實體間的關系。
目前,基于KG 嵌入的推理已經出現了多種依賴翻譯的方 法。Nickel 等[6]提出的三階張量分解算法RESCAL 和Bordes 等[7]提出的翻譯嵌入模型(Translating Embedding,TransE)是一種采用在低維空間中實體嵌入來對關系進行解釋的方法,分別通過最小化重建損失和基于邊距的等級損失來學習潛在的表示。RESCAL 是基于張量分解的交替最小二乘關系學習算法,該算法可以擴展到大型的資源描述框架(Resource Description Framework,RDF)數據集,并且在鏈接預測、實體分類任務中取得了良好的效果。
吳運兵等[8]提出使用張量神經網絡(Neural Tensor Network,NTN)模型進行知識圖譜推理,與一般的神經網絡相比,提供了一種更強大的關系信息建模方法。NTN 使用具有雙線性張量層的標準線性神經網絡層,該層直接將跨多個維度的兩個實體向量相關聯。Yang等[9]通過結合NTN和TransE提出了雙線性對角線模型DistMult,其中關系表示為對角矩陣。另外,Trouillon 等[10]提出了一種名為ComplEx 的方法,ComplEx 在實值向量之間使用標準點積,與NTN 模型相比,嵌入實體和關系的性能更好。Dettmers 等[11]將多層卷積網絡模型應用到三元組中形成了卷積嵌入模型(Convolutional Embedding,ConvE)來提高ComplEx 的性能,表明CNN 模型可以有效用于知識推理。
上述的研究主要集中在關系和實體的嵌入上,在對實體之間的語義關系建模時并不能有效地識別句子意思,沒有根據實體之間的各個關系路徑來對實體間的關系進行推理。基于路徑推理的傳統模型主要包括PRA 及其變體。在PRA 的早期研究中,路徑被視為原子特征,于是就需要單個分類器去訓練包含數百萬條不同路徑的特征矩陣。不僅如此,隨著知識圖譜中實體間關系數量的增加,分類器的壓力也會增大。為了解決這個問題,Zhao 等[12]提出Path-RNN 模型,該模型將每條路徑分解為關系序列,并將其加入到RNN 中,從而構造路徑的向量表示,然后通過路徑向量表示的點積計算路徑和候選關系的相關性。由于一個實體對之間有多條關系路徑,因此Path-RNN 使用max 運算選擇可預測性得分最高的路徑。為了改善Path-RNN 的性能,Das 等[13]提出了集中路徑組合運算,其中包括Mean、Top-K和LogSumExp,但是這些運算都有一定的缺點,例如每條路徑上都有其獨特的局部特征,然而對于這些不同的局部特征,這些運算使用了相同的RNN 對其進行建模,導致推理結果準確率偏低。另外,Lin 等[14]提出一種基于三元組的推理方法對路徑進行了優化,該方法采用實體對之間的路徑,更加注重學習使用路徑更好地表示實體和關系。
近年來,人們探索了各種擴展方式:Gardner 等[15]將文本語料庫作為補充證據加入到了推理中;之后Gardner等[16]又引入了可以生成更多的預測路徑的方案;另外,Wang 等[17]考慮了某些關系之間的關聯性。這些擴展方法在考慮到了每條路徑獨特性的同時,也減小了其稀疏性;楊瑞達等[18]通過使用強化學習(Reinforcement Learning,RL)算法中的MINERVA 模型來找到路徑,從而完成推理;Jiang 等[19]在推理過程中引入了注意力機制,使模型能夠專注于不同的路徑并組合這些路徑;但是使用點積運算來吸引注意力,使得其擴展性不強,并且在鏈接預測過程中使用的是單步推理,推理結果也較低。Zhou 等[20]提出了結合BiLSTM 和注意力機制對文本中的關系進行分類的Att-BLSTM模型。
針對目前基于神經網絡的推理方法對長序列進行排序時會發生梯度消失,且忽略了多跳關系路徑中隱含信息具有長時依賴性的問題,本文提出了結合注意力機制、卷積神經網絡以及雙向長短時記憶網絡的推理模型Att-ConvBiLSTM。
本文模型Att-ConvBiLSTM 與Att-BLSTM 相似,不同之處在于Att-BLSTM 注重于單詞級別的注意,而Att-ConvBiLSTM注重于句子級別的注意。也就是說,Att-BLSTM 注意力機制模塊在BiLSTM的單個輸出上執行,以專注于來自單詞級別上BiLSTM 隱藏單元的單詞嵌入。而在Att-ConvBiLSTM 中,在BiLSTM 中將前向LSTM 的最后一個隱藏狀態和后向LSTM 的第一個隱藏狀態連接起來,然后在句子級別上對多個句子執行注意力機制模塊,以實現對句子嵌入的集中聚合。
在知識圖譜G上給定一組實體E以及實體上的一組二元關系R,例如三元組(es,r,et)是E和R上的有序集合,es、et是頭實體和尾實體,r是它們之間的關系。關系推理的目的是完善不完整三元組中缺失的關系信息,例如,給定一個查詢三元組(es,?,et),通過對所有候選關系R進行評估,可以預測es與et之間具有關系r的概率,將具有較高合理分數關系r與缺失關系的兩個實體組合成完善的三元組,從而對知識圖譜進行補全。
基于RNN 推理路徑的方法在對長序列進行排序時會遇到梯度消失的問題。為了解決此問題,使用適合對具有長期依賴性的路徑序列建模的BiLSTM進行處理。此外,典型的基于路徑的推理方法將實體之間的路徑視為不同的特征,導致分類器必須訓練大量不同的路徑。本文所提方法Att-ConvBiLSTM 無需構造大型的特征矩陣,而是使用CNN 和BiLSTM 將路徑嵌入到低維空間中并進行特征提取,然后針對不同路徑特征進行路徑序列信息編碼。Att-ConvBiLSTM 模型的整體結構如圖1所示。

圖1 Att-ConvBiLSTM模型整體結構Fig.1 Overall structure of Att-ConvBiLSTM model
首先使用嵌入矩陣來將每個輸入實體和關系轉換為向量,令e∈Rd和r∈Rd分別表示圖中實體e和關系r的d維嵌入向量。在模型中,通過實體的類型來表示實體:一方面可以減少模型參數并防止計算瓶頸;另一方面還可以防止在測試過程中碰到無法識別類型的實體。然后使用PRA 獲取與關系r最相關的每個訓練實例(es,r,et)的關系路徑。給定知識圖譜中的三元組(es,r,et),PRA 首先在一組限定路徑長度的三元組上進行隨機游走,從頭實體開始,一直到達尾實體,同時記錄將頭實體與其尾實體連接起來的所有關系。由此就獲取到了多條關系路徑,并且每一條關系路徑p包含一系列關系{r1,r2,…,rl},加上中間實體,得到一次隨機游走的路徑π={es,r1,e1,…,rl,et},進一步將所有關系路徑p擴展為完整路徑Π。這樣就獲得了由關系r連接的兩個實體(es,et)之間的一組路徑P(es,et)={π1,π2,…,πn} ∈Π,并將其嵌入到連續向量空間中。
通過對整個知識圖譜進行隨機遍歷后可以提取到從頭實體es到尾實體et的路徑,一旦獲得兩個實體之間的路徑,就進行路徑編碼來獲取頭實體和尾實體之間的路徑的嵌入。兩個實體之間長度為l的路徑定義為π={es,r1,e1,…,rj,ej,…,rl,et},其中ej和rj分別表示路徑中的第j個實體和第j項關系,es和et分別是在位置0 和l處嵌入的實體。然后將所有的路徑序列長度都填充到l,并且l定義為路徑集中最大路徑長度。在路徑序列上使用多重一維卷積運算,讓路徑序列經過多個具有相同大小窗口的濾波器,從而生成特征。令Wk∈R3×d是窗口內核大小為3的一維濾波器,將濾波器Wk應用于每條路徑上。從頭實體開始,將濾波器從左向右一次移動一個位置,直到到達了最后一個位置,從而生成特征圖c,cj,k表示將第k個濾波器應用于路徑序列的第j個窗口之后生成的特征,如式(1)所示:

其中:b是偏置,k是濾波器的數量,f是ReLU 非線性激活函數。將從k個濾波器中獲得的特征進行橫向拼接,生成特征向量cj=[cj,1,cj,2,…,cj,k],處理完所有路徑后會獲得特征向量集{c1,c2,…,cl}。
將卷積層輸出的特征向量輸入到BiLSTM 中,表示BiLSTM 模塊中的一個時間步輸入。在每個時間步中,將路徑序列中每個項的k維嵌入輸入到LSTM,LSTM 會記住先前計算的結果并將其結果在當前計算中使用。BiLSTM 由前向LSTM 和后向LSTM 兩個部分組成,前向LSTM 從左到右讀取路徑序列中的項,后向LSTM 從右到左讀取路徑序列中的項,分別用ˉ→hj和←ˉhj表示前向LSTM 和后向LSTM 的輸出。為了匹配路徑和候選關系的嵌入,將LSTM 單元中隱藏狀態數設置成了d/2并取整。在使用BiLSTM處理路徑序列中的所有項后會獲得兩個單獨的隱藏狀態序列,例如給定一個輸入序列{c1,c2,…,cl},前向LSTM輸出的隱藏狀態序列為∈Rd/2,后向LSTM 輸出的隱藏狀態序列為,計算式如式(2)所示:

然后將BiLSTM 中前向LSTM 的最后1個隱藏狀態和后向LSTM 的第1 個隱藏狀態連接起來,生成長度為l的路徑π的最終表示形式y,如式(3)所示。最終,n條路徑生成了嵌入向量Y={y1,y2,…,yn},其中Y∈Rd×n,可以有效捕獲路徑的順序特征。

目前已有的基于路徑的推理方法基本都使用最大池化或均值運算來組合多個路徑,最大池化忽略了每條路徑可以提供不同的關系推理證據,而均值運算則沒有考慮到并不是實體間所有路徑都能代表它們之間的關系。為了衡量每條路徑對路徑組合的作用,本文采用加性注意力機制計算所有路徑的匹配分數,實現與候選關系更為相關的路徑應具有較高的權重,與候選關系相關度較低的路徑具有較低的權重。與點積相比,加性注意力機制可以有效地考慮較小的值,在計算得分方面表現出更好的性能。
首先,通過PRA 對候選關系r進行嵌入,并將其轉換為向量表示形式u(u=A(r));接下來,將嵌入的關系和路徑編碼進行匹配,計算出每條路徑yi的匹配分數來表示關系r和路徑πi之間的語義相似性;最后,使用加權和運算對路徑向量進行組合,從而生成狀態向量o,計算過程如式(4)所示:

其中:Wa∈Rd×2d是特定路徑所占的權重,Wb∈Rd是權重參數;yi是第i條路徑的路徑表示形式;αi是匹配得分,表示在響應關系r時模型對路徑πi的關注程度。加權和運算操作將來自多個路徑的基本信息組合在一起,并且在丟棄不相關路徑的同時保留想要關注的路徑的值。
當路徑表示的搜索空間很大時,組合所有的路徑并不能提供足夠的證據來推斷實體之間的關系,因此,為了縮小搜索范圍,在模型上進行了擴展,對路徑分布執行多步推理。多步推理是指對從BiLSTM 中得到的路徑向量多次使用注意力機制,將每次使用注意力機制得出的結果繼續使用注意力機制去提高推理結果的精確值。每一步推理都會生成一個新的關系嵌入向量u來表示推理證據。在每一步中,關系嵌入向量的計算方式如式(5)所示:

其中:Wo∈Rd×d表示權重參數,通過此計算方式可以在各層之間添加線性映射從而來更新uz。初始狀態u1由嵌入的關系A(r)來定義。輸出嵌入向量uz+1的更新由前一個向量uz和狀態向量oz的加權和來計算。最后,生成uz并將其通過權重矩陣Wp和非線性激活函數sigmoid 計算最終預測得分,計算方式如式(6)所示。超參數Z由實驗結果確定。

模型通過最小化交叉熵損失進行學習,使用自適應矩估計(Adam)優化,目標函數的簡化形式定義如式(7)所示:

其中:N是訓練集中三元組的數量;T+和T-分別代表正例和負例三元組;Θ代表模型中所有可學習的參數。在模型訓練將誤差降為最低的同時,給正例三元組賦予較高的值,給負例三元組賦予較低的值。調整模型的參數并將權重的標準L2范數用作約束函數,最后從所有的候選項中檢索出前k個預測。
為了評估本文所提方法,使用了四個知識圖譜數據集,分別是兩個大型數據集NELL995 和FB15k-237,以及兩個小型數據集Kinship和Countries,數據集的統計信息如表1所示。

表1 不同數據集信息統計Tab.1 Information statistics of different datasets
采用平均精確率均值(Mean Average Precision,MAP)、平均倒數排名(Mean Reciprocal Rank,MRR)、F1 值以及Hit@k評估本文方法。MAP 是對相關正確實體進行排名的準確率的平均值,計算如式(8)所示,AP是在每個正例三元組的排名位置的精確率的平均值。MRR 指的是在第i個查詢中查詢到的第一個正例三元組的排名位置,計算如式(9)所示。F1 值是綜合精確率(precision)和召回率(recall)的評估指標,其計算方式如式(10)所示。Hit@k是指推理出的關系在排名前k位所占的比例。

其中:q是推理出來的正確的實體間的關系數,Qr是所有實體間的關系數,rankq是該正確推理的排名位置
為了生成負例三元組,將數據集中三元組的頭實體或尾實體替換為隨機實體。利用負例三元組生成路徑之后,會將開頭或者末尾包含目標三元組的路徑刪掉,防止出現過度擬合的問題。例如假設存在一條從實體x到y并且經過關系temp、temp-1以及artists的路徑,即temp(x,person)&temp-1(person,x)&artists(x*,y)?artists(x,y)。當生成這樣的一條路徑時,x*和x可以是同一個人,因此x*=x。在這種情況下,測試三元組artists(x,y)是已經存在于知識圖譜中的。另外可以觀察到,連接正實體對temp(x,person)的一些關系路徑出現在了負實體對temp-1(person,x)中,但是這類路徑對預測沒有作用,因此將其排除在外。在推理中,長路徑被認為沒有短路徑可靠和有效。因此在本實驗的PRA設置中,將關系路徑限制為最多有3個關系,這樣可以有效保證在將實體類型合并到關系路徑中后,推理路徑在未填充的情況下最多包含7個單詞。除此之外,在實驗中,選擇通過隨機游走方式到達目標實體的概率得分大于0.1的關系路徑。為了使本文方法被有效評估,沒有明確路徑的實體對,不論是否正確都將其從訓練集中去掉。
在實驗中,隨機初始化所有模型參數,用Adam 優化器進行優化,調整minibatch的大小從而保證每一輪訓練中minibatch數量為64。當訓練集在最近的10 輪訓練內精確率提高不超過10-2時,停止訓練。使用網格搜索參數方法對模型中的超參數進行選擇。學習率γ設置為5個可選擇的值,分別是0.001,0.001 5,0.002,0.002 5,0.003;向量的維數k設置從{50,100}中選擇。BiLSTM 中的隱藏單元數分別設置為64 和128,濾波器數量選擇{30,40,50,60}中的值,正則化權重λ值選擇{0,0.005,0.01,0.1,0.5,1}中的值。一共設置了100輪來進行訓練。
本文模型Att-ConvBiLSTM 和路徑排序算法PRA[2]、雙線性對角線模型DistMult[9]、卷積嵌入模型ConvE[11]、基于路徑的神經網絡模型Path-RNN[12]以及強化學習模型MINERVA[18]在NELL995 和FB15k-237 數據集上的推理結果MRR、MAP 以及Hits@3 的值如表2 所示。對于這種大型數據集,由于在數據集中缺少負樣本,表中對比方法和本文方法Att-ConvBiLSTM 的Hits@10 得分是相同的,因此只列出了在Hits@1 和Hits@3 的命中得分。可以看到MINERVA 模型和Att-ConvBiLSTM 模型在NELL995 數據集上都表現出了很好的結果,但是Att-ConvBiLSTM 中各評價指標均比MINERVA提高了約0.2 個百分點。Att-ConvBiLSTM 可以更精確地預測到大型數據集上實體間缺失的關系。對比表中的其他方法,Att-ConvBiLSTM 在所有評估指標上都取得了很好的結果。ConvE 模型的MRR 和Hits@k得分與Att-ConvBiLSTM 相近,但是Att-ConvBiLSTM 在具有大量不同關系的FB15k-237 數據集上的結果優勢還是很明顯的。相反,ConvE 在具有較少關系的數據集上得出的結果略好一些,表明Att-ConvBiLSTM 更適合于大型知識圖譜的推理。

表2 不同推理方法在NELL995和FB15k-237數據集上的實驗結果對比Tab.2 Experimental results comparison of different reasoning methods on NELL995 and FB15k-237 datasets
為考察不同路徑長度對實驗結果的影響,在NELL995 數據集上引入了不同的路徑長度進行了實驗:當路徑長度低于3 時,由于路徑中可用于推理的證據不夠多,導致實驗結果并不夠好;當路徑長度大于3 時,路徑中無用單詞偏多,同樣會影響結果;當路徑長度等于3 時,可以發現實驗各項指標都處于最佳值,如表3所示。

表3 對NELL995數據集不同路徑長度下的實驗結果Tab.3 Experimental results of different lengths of paths on NELL995 dataset
當路徑較長時,PRA 會生成大量路徑,可能導致內存溢出。為了避免此問題,必須將PRA 中的路徑閾值調整到較高的值,這樣就可以將權重占比很低的一些路徑過濾掉,從而減少路徑數量;但是這樣又會導致模型整體性能不高,存在測試集中的一些實體無法被路徑連接。實驗中還發現在NELL995數據集上,較短的路徑可以比較長的路徑提供更可靠的推理依據。此外,在上述的實驗中,使用了實體類型嵌入來表示實體,但是在某些情況下,類型信息可能無法訪問或者僅部分可用。如果類型信息不可用,那么使用該實體的嵌入,而不按其類型來表示實體。因此在NELL995 數據集上,對于實體類型的覆蓋率做了實驗,在路長為3 時不同覆蓋率的實驗結果如表4所示。可以注意到當路徑長度設置為3時,如果實體類型的覆蓋率降低,性能則會有所下降。出現這種問題可能是由于測試集中的一些實體在訓練集中并不存在。

表4 對NELL995數據集不同覆蓋率下的實驗結果Tab.4 Experimental results of different coverage rates on NELL995 dataset
為了考察Att-ConvBiLSTM 的泛化能力,在小型數據集Kinship 和Countries 上進行了實驗,其實驗結果如表5 所示。由表5 可知,Att-ConvBiLSTM 在Kinship 數據集上取得了優異的結果,因為相較于其他數據集,Kinship 數據集具有更多可預測的路徑。但是對于Countries 數據集,Att-ConvBiLSTM 模型的推理結果相比其他方法略有不足。通過分析Countries數據集可知,該數據集中可用于訓練的三元組數量較少,無法有效地進行訓練,因此本文方法不適用于規模很小的知識圖譜。對于具有更多多跳關系路徑的知識圖譜,Att-ConvBiLSTM 具有相比其他方法更好的性能體現。

表5 不同推理方法在Kinship和Countries數據集上的實驗結果對比Tab.5 Comparison of experimental results of different reasoning methods on Kinship and Countries datasets
Att-ConvBiLSTM 和其他模型在大型數據集NELL995 和小型數據集Kinship 中精確率、召回率以及F1 值如圖2 所示。由圖2可知,Att-ConvBiLSTM 模型F1分數最高,并且召回率比MINERVA 高出了約10%。這意味著Att-ConvBiLSTM 在推理中可以更大概率找到正確的候選集。

圖2 Att-ConvBiLSTM與其他模型在NELL995和Kinship數據集上的實驗結果對比Fig.2 Comparison of experimental results of Att-ConvBiLSTM and other models on NELL995 and Kinship datasets
為考察推理步數對模型性能的影響,采用1~7 步推理。在NELL995 數據集上,參數采用上述實驗的最佳參數,MAP得分如圖3 所示。可以觀察到,MAP 得分一開始隨著推理步驟數量的增加而逐漸增加,在第3 步之后達到最高值,然后又有所降低。分析可知,一開始該模型中會有一些無用的路徑參與推理,從而導致MAP 得分比較低。但隨著模型到了第3步推理時,無用的路徑越來越少,從而得到了很高的預測分數。隨后由于出現過擬合,MAP得分從第4步開始逐漸減小。

圖3 NELL995數據集上采用不同推理步數的MAPFig.3 MAPs with different reasoning steps on NELL995 dataset
圖4 給出了實體間具有不同注意力權重α的關系路徑的推理路徑,通過不同的路徑可以推理出的直接關系。在原來的NELL995 數據集中,athlete 與sport 并沒有直接的關系,但是通過推理可以得到兩者之間的直接關系是plays。推理完成后,通過將推理出的關系與相應兩實體進行結合形成新的三元組(athlete,plays,sport)增加到原知識圖譜中,完成該知識圖譜的補全。

圖4 不同注意力權重的路徑以及對應推理結果Fig.4 Paths of different attention weights and corresponding reasoning results
對于本文提出的模型Att-ConvBiLSTM 中的3 個核心組件,為了評價各組件對推理結果的影響程度,在NELL995 數據集中做了以下3 組實驗來進行判斷(參數設置均為最優值),得出不同組件組合下的實驗結果如表6 所示。根據實驗結果可知,BiLSTM 對語義的長時依賴處理最大程度影響著推理結果。由于注意力機制需要捕獲候選關系與實體間的關系路徑中的語義相關性,因此也較大程度影響著推理結果。對于CNN 卷積層,雖然其對結果的影響程度較低,但多跳關系路徑中的局部特征提取是非常重要的一個環節,因此不可缺少。

表6 不同組件組合在NELL995數據集上的實驗結果Tab.6 Experimental results of different component combinations on NELL995 dataset
為了考慮到多跳關系路徑信息對知識圖譜中的關系推理結果的影響,結合CNN、BiLSTM 和注意力機制,本文提出了一種融合多跳關系路徑信息的關系推理方法。該方法在減少了計算開銷的情況下,在各數據集中的實驗結果均優于其他方法。表明本文方法對知識圖譜中實體間的關系推理具有較高的準確性,在知識圖譜領域,本文方法可作為研究實體間關系推理的參考。下一步研究將會嘗試將更多種實體類型融合到嵌入中,實體類型的多樣化對推理結果的影響程度也將是進一步研究的重點。