陳恒,王思懿,李正光,李冠宇,劉鑫
基于關系記憶的膠囊網絡知識圖譜嵌入模型
陳恒1,2*,王思懿1,李正光1,李冠宇2,劉鑫1
(1.大連外國語大學 語言智能研究中心,遼寧 大連 116044; 2.大連海事大學 信息科學技術學院,遼寧 大連 116026)( ? 通信作者電子郵箱chenheng@dlufl.edu.cn)
作為一種語義知識庫,知識圖譜(KG)使用結構化三元組的形式存儲真實世界的實體及其內在關系。為了推理知識圖譜中缺失的真實三元組,考慮關系記憶網絡較強的三元組表征能力和膠囊網絡強大的特征處理能力,提出一種基于關系記憶的膠囊網絡知識圖譜嵌入模型。首先,通過編碼實體和關系之間的潛在依賴關系和部分重要信息形成編碼嵌入向量;然后,把嵌入向量與過濾器卷積以生成不同的特征圖,再重組為對應的膠囊;最后,通過壓縮函數和動態路由指定從父膠囊到子膠囊的連接,并根據子膠囊與權重內積的得分判斷當前三元組的可信度。鏈接預測實驗的結果表明,與CapsE模型相比,在倒數平均排名(MRR)和Hit@10評價指標上,所提模型在WN18RR數據集上分別提高了7.95%和2.2個百分點,在FB15K-237數據集上分別提高了3.82%和2個百分點。實驗結果表明,所提模型可以更準確地推斷出頭實體和尾實體之間的關系。
知識圖譜;關系記憶網絡;膠囊網絡;知識圖譜嵌入;動態路由
知識圖譜(Knowledge Graph, KG)是一種揭示實體之間關系的語義網絡,可以對現實世界的事物及其相互關系進行形式化的描述[1]。知識圖譜在各個領域應用廣泛,很多大型知識圖譜,如YAGO[2]、Freebase[3]和DBpedia[4]均使用三元組的形式存儲知識庫的實體和關系。隨著人工智能的發展與應用,知識圖譜已被廣泛應用于很多領域與行業,如個性化推薦[5]、智能問答[6]、智能搜索[7]、自然語言處理[8]。盡管知識圖譜具有廣泛的應用場景,但是KG仍不完備,缺少大量有效三元組[9-12]。針對這個問題,很多嵌入表示模型被提出,例如:TransE[13]、TransH[14]和TransR[15],這些經典模型將實體和關系投影到低維稠密向量空間,然后計算和推理實體和關系之間的語義聯系。TransE模型結構簡單,適用于建模一對一關系模式,因而不適用一對多、多對一和多對多關系模式。針對此問題,TransH和TransR提出新思路,有效解決了TransE不能有效建模復雜關系模式的問題。
DistMult[16]模型和ComplEx[17]模型均使用簡單的乘法運算符表示實體和關系,因而能夠捕獲實體和關系之間的線性關聯。當前,許多神經網絡模型已被應用于知識圖譜推理任務[18-20]。作為首個將卷積神經網絡引入知識圖譜推理任務的模型,ConvE[18]將頭實體嵌入和關系嵌入的組合作為卷積神經網絡的輸入,實體和關系則通過卷積層和全連接層進行交互。ConvKB[19]模型利用卷積神經網絡(Convolutional Neural Network, CNN)編碼實體和關系,在基準數據集WN18RR和FB15K-237上獲得良好的鏈接預測結果。文獻[20]提出CapsE模型,利用一組神經元獲取圖形中的對象,然后通過動態路由算法確定從高層膠囊到低層膠囊的鏈接。與卷積神經網絡不同,膠囊網絡使用膠囊取代神經元,解決了卷積神經網絡空間不變性和編碼效率低等問題。文獻[21]提出基于注意力和卷積神經網絡的知識圖譜嵌入模型R-MeN,但仍受限于卷積神經網絡編碼效率低的弊端。為了在知識圖譜推理時對實體之間潛在的依賴關系進行有效建模,本文提出一種基于關系記憶的膠囊網絡知識圖譜嵌入模型,該模型能編碼實體間的依賴關系、捕獲三元組空間結構信息,并對實體語義編碼,從而提高三元組預測精度、尤其是三元組分類的效果。文中將多頭注意力機制引入膠囊網絡,并分析其在知識圖譜推理任務的效果,驗證了將注意力引入膠囊網絡的優越性和可行性。
近年來,注意力機制和神經網絡模型的組合受到越來越多的關注,原因在于多頭注意力機制可以用于提取不同語義空間中實體之間的潛在依賴關系。基于注意力和CNN的情緒分類模型[22]、基于注意力和膠囊網絡的文本分類模型[23]和基于注意力和CNN的知識圖譜嵌入模型[21]已經用于文本和自然語言處理任務。然而,在知識圖譜推理領域,關于多頭注意力機制和膠囊網絡結合的工作甚少,因此本文將多頭注意力機制引入膠囊網絡,以此探索優化的膠囊網絡模型在鏈接預測和三元組分類任務的新穎應用。本文將三元組記憶矩陣作為優化的膠囊網絡模型的輸入,以此捕獲實體和關系在低維空間中的聯系。為評估基于關系記憶的膠囊網絡知識圖譜嵌入模型,本文使用數據集FB13、WN11、WN18RR和FB15K-237進行事實三元組分類實驗和鏈接預測實驗。在實體預測和事實三元組分類任務中,使用多頭注意力機制的膠囊網絡知識圖譜嵌入模型優于大部分嵌入模型,預測準確度更高。


其中:、、分別代表頭實體、關系、尾實體的低維嵌入向量,表示范數。
由于TransE模型結構過于簡單,僅僅關注三元組的結構信息,因此無法很好地表征實體之間的語義關系,不能有效處理一對多、多對一和多對多關系模式。針對這些問題,TransH模型為每個關系定義一個超平面,實體空間中的兩個實體則通過關系映射矩陣投影到超平面,即不同關系下的實體應該具有不同的嵌入表示。在知識圖譜中,一個實體是多個屬性的復合體,不同的關系對應實體的不同屬性,即頭尾實體和關系可能不在同一個向量空間。為了解決這個問題,TransR模型在兩個不同的空間,即實體空間和多個關系空間(關系特定的實體空間)編碼事實三元組,并在對應的關系空間實現變換。TransH模型和TransR模型的打分函數如式(2)(3)所示:


DisMult模型使用乘法運算推理事實三元組,但是只能建模知識圖譜中存在的對稱關系,不能建模知識圖譜中其他類型的關系。針對DisMult存在的問題,出現ComplEx模型,于復數空間投影實體和關系,以此建模和推理三元組反對稱關系模式,DisMult模型和ComplEx模型采用如式(4)(5)所示的評分函數判斷三元組可信度:


一般來說,嵌入表示模型結構簡單,但僅僅關注事實三元組的結構信息,不能有效推理實體和關系之間復雜的語義聯系;另外,嵌入表示模型不能有效捕獲實體和關系嵌入向量間的深層關聯,導致擬合能力有限,并且在處理多對多復雜關系模式時性能較差。
上述傳統表示模型只計算三元組的結構信息,未能編碼實體和關系的各種特征信息,這限制了模型的表達能力[24]。為解決這個問題,Dettmers等[18]提出ConvE模型,其將頭實體嵌入和關系嵌入組合,與多個過濾器卷積生成多個特征圖矩陣,最終映射成向量和尾實體向量點積,分數用于推理三元組的真實度。ConvE模型利用卷積神經網絡可以深層次編碼頭實體、關系和尾實體,獲取實體和關系的低維嵌入表示,同時學習三元組更多的特征。ConvE模型采用式(6)所示的評分函數判斷三元組可信度。



ConvKB模型利用卷積神經網絡對三元組進行編碼表示,將實體和關系的重組矩陣作為模型輸入,以此探索CNN模型在知識圖譜推理任務中的有效性,但神經單元表征實體和關系過于簡單,且CNN存在空間不變性和編碼效率低等弊端,因此,Nguyen等[20]提出CapsE模型,使用TransE訓練生成的實體嵌入和關系嵌入作為膠囊網絡的輸入,由動態路由算法確定高層膠囊到低層膠囊的鏈接。CapsE模型使用膠囊網絡取代傳統CNN,在知識圖譜推理任務中效果顯著,其評分函數如式(8)所示:

CapsE模型利用膠囊網絡對知識庫中的實體和關系進行編碼,將實體和關系的重組矩陣作為膠囊網絡模型的輸入,在鏈接預測和三元組分類等任務中效果顯著。膠囊網絡雖能 “深層”地挖掘和建模實體和關系的特征信息,但無法有效地捕獲實體和關系之間的潛在依存關系。為此,Nguyen等[21]提出R-MeN模型,使用變換器多頭注意力機制指導內存與每個輸入向量進行交互以產生一個編碼向量。最終,R-MeN模型將三個已編碼的頭實體向量、關系向量和尾實體向量饋送到基于卷積神經網絡的解碼器,以此返回每個三元組的得分。R-MeN模型采用式(9)所示的評分函數判斷三元組可信度:

綜上,當前主流模型使用神經元編碼實體和關系,需要大量參數學習特征變量,且不能捕獲實體和關系在低維空間的聯系等問題,因此本文模型綜合考慮嵌入表示模型TransE、關系記憶網絡和膠囊神經網絡的優點,通過卷積操作生成多個特征圖,利用膠囊網絡強大的特征提取能力和特征解釋能力,充分學習網絡中的特征變量,并最大限度地保留有價值的信息。
和傳統表示模型不同,TransE模型使用較少的參數便能獲得實體和關系的低維嵌入向量,同時模型的計算復雜度較低。鑒于TransE模型結構簡單,易于擴展,在知識圖譜推理領域效果顯著等優點,本文使用由TransE訓練的實體和關系的嵌入矩陣作為關系記憶膠囊網絡模型的輸入。受word2vec的啟發,TransE模型將每個事實三元組的關系視為頭實體到尾實體的平移,在處理多種復雜關系類型方面效率較高,因此有必要探究實值嵌入的關系記憶膠囊網絡模型在知識圖譜補全中的應用效果,以推理更多的關系模式,更好地擬合實體和關系之間復雜的語義聯系。
本文模型架構如圖2所示,由2個模塊組成:關系記憶模塊,由多層感知機和記憶門控組成,用編碼實體和關系之間的潛在依賴關系和重要部分的信息形成編碼嵌入向量;膠囊網絡模塊,由五部分組成,分別為輸入層、卷積層、初級膠囊層、數字膠囊層和輸出層。在膠囊網絡模塊中,輸入層為基于關系記憶模塊輸出的3個編碼嵌入向量;隱藏層則對三元組結構信息編碼并進行分類;輸出層相當于多個并行的二分類器,區分正確或者錯誤的三元組。




圖2 所提模型整體架構






最后,本文利用膠囊網絡強大的特征提取能力和特征解釋能力,將關系記憶網絡輸出的編碼嵌入向量作為模型的輸入,以此捕獲實體和關系在低維空間中的聯系,并最大限度地保留有價值的信息,具體操作步驟如下。





最終,本文將模型的評分函數定義如下:



錯誤三元組的構建方法如下所示,即把正例三元組中的尾實體與頭實體依次使用其他實體取代,即不能同時替換。

本文利用Adam[27]優化器來訓練模型,其訓練過程見關系記憶膠囊網絡算法。在關系記憶膠囊網絡算法中,本文使用TransE模型訓練生成的實數矩陣來初始化實體和關系嵌入(分別見第3)行和第4)行)。同時,本文為每個實體和關系分別添加位置嵌入(分別見第5)行和第6)行)。在算法迭代過程中,本文采用卷積操作和內積運算來訓練矩陣。首先,本文從訓練集中抽取一個小批量數據集(見第8)行)。其次,對數據集中每個三元組,本文選取負樣本(錯誤三元組),其中負樣本從正例三元組獲取得到(見第11)行)。最后,本文對抽樣得到的小批量數據集進行分數預測和損失校正(分別見第14)行和第16)行)。
其中關系記憶膠囊網絡算法如下:
算法1 關系記憶膠囊網絡算法。
輸入 DataSet of triples=(,,),,,andrepresent entities, relations, margin, embeddings dim respectively
輸出 Entity embeddings, relation embeddings
1) //embeddings produced by TransE
2) Initialize
3)←TransE (,,,) for each∈
4)←TransE (,,,) for each∈
7) loop
8)batch←sample (,) //sample a mini batch of
9)batch←? //initialize the set of pairs of triples
10) for (,,) ∈batchdo

13) end for
15) Update loss function
17)end loop
文中使用WN18RR[18]、FB15K-237[28]、FB13[9]和WN11[9]進行鏈接預測和三元組分類實驗。參考文獻[28],由于WN18數據集含有反轉關系類型,本文將具有反轉關系的三元組去掉,得到WN18RR;同樣,由數據集FB15K可以得到FB15K-237。
所有數據集的統計情況見表1。其中:#En代表實體(數值代表實體個數),#Re代表關系(數值代表關系個數),#Va代表驗證集(數值代表三元組個數),#Tr代表訓練集,#Te代表測試集。

表1 數據集統計信息


3.3.1實驗設置
鏈接預測旨在預測知識庫中丟失的頭實體或者尾實體,給定一個缺失三元組(Shanghai,City_Of,?),本文可知,該三元組丟失了尾實體,為推理缺失三元組,本文將知識庫中的正確尾實體加入,對該三元組進行補全操作。本文參考TransE模型,將知識庫中所有實體依次取代每個事實三元組的頭實體或尾實體,然后使用式(23)所示的函數依次計算每個事實三元組的分數,最終獲得正確實體的排名。
3.3.2評估指標
文中使用平均排名(Mean Rank, MR)、倒數平均排名(Mean Reciprocal Rank, MRR)和前名百分比(Hit@)作為模型的評估指標。在鏈接預測實驗中,MR越小、MRR和Hit@越大,代表模型的擬合能力越好。其中,MR和MRR的計算公式如下所示:


3.3.3實驗分析
文中實驗環境為Windows 7 64位操作系統,1 755 MHz 24GD6 GeForce RTX 2080 Ti(GPU)。數據集WN18RR和FB15K-237在不同模型下的鏈接預測實驗結果見表2。

表2 數據集WN18RR和FB15K-237上的鏈接預測結果
由表2可知,在數據集FB15K-237上,本文模型在MRR、Hit@3和Hit@10指標上均優于其他翻譯模型;在數據集WN18RR上,本文模型在MR、Hit@3和Hit@10指標上同樣優于其他模型。這表明在膠囊網絡模型中引入多頭注意力機制能夠有效擬合實體和關系之間復雜的語義聯系,在鏈接預測實驗這種推理任務中具有顯著效果。
與傳統嵌入表示模型相比,本文模型各項指標效果較好。其中在數據集WN18RR上,與TransE模型相比,本文模型在MRR提升了98.23%,在Hit@10提升了8.1個百分點。這表明引入多頭注意力機制的膠囊網絡模型可以有效捕獲不同語義空間中實體之間的潛在依賴關系,并對一對多、多對一和多對多等復雜關系模式進行建模。
在數據集FB15K-237上,本文模型在各項指標上與CapsE模型相差較小,各有優勢,這說明在關系較多、規模較小的數據集FB15K-237上,本文模型相比CapsE并沒有明顯的提升;但在關系較少、規模較大的數據集WN18RR上,本文模型的各項指標均優于CapsE模型,其中MR提升約1.81%、MRR提升7.95%、Hit@1提升6.6個百分點、Hit@10提升2.2個百分點。這說明本文模型在引入多頭注意力機制后,可以有效過濾冗余特征信息,提升對復雜關系模式的推理能力。為了進一步驗證引入多頭注意力機制的膠囊網絡模型推理各類關系模式的能力,本文選取WN18RR中11個關系進行鏈接預測實驗。由圖3可知,本文模型在7個特定關系下均優于CapsE模型,由此證實了引入多頭注意力機制的膠囊網絡模型在建模和推理多種關系模式中的優越表示能力。
綜上,本文提出的融合多頭注意力機制的膠囊網絡模型既可以有效推理實體和關系之間復雜的語義聯系,捕獲實體和關系嵌入向量間的深層關聯;又可以利用膠囊網絡強大的特征處理能力捕獲三元組的全局特征,有效去除冗余特征信息,提升三元組的分類準確率。

圖3 每個關系的MRR
3.4.1實驗設置
三元組分類旨在判斷一個三元組是否可信,比如,給定一個三元組(Shanghai,City_Of,China),本文認為這是一個正確三元組,而(Australia,City_Of,China)是一個錯誤三元組。
3.4.2評估指標
3.4.3實驗分析
數據集WN11和FB13在不同模型下的三元組分類實驗結果見表3。由表3可知,本文模型在數據集WN11和FB13上均取得了較為理想的三元組分類實驗結果,模型分類效果與目前廣泛應用的知識圖譜嵌入模型相比依然有很強的競爭力。由表1可知,WN11和FB13關系數量接近,但FB13規模更大,實體之間存在較強的關聯,雖然本文提出的基于關系記憶的膠囊網絡知識圖譜嵌入模型在WN11分類實驗上取得了最好的結果,但在FB13數據集分類實驗中表現一般,說明本文模型在對實體間依賴關系建模、捕獲三元組空間結構信息方面還有很大的進步空間。

表3 數據集WN11和FB13上的三元組分類結果 單位:%
為了推理知識庫中缺失的事實三元組,本文以關系記憶網絡為基礎,考慮了多頭注意力機制以及膠囊神經網絡,以此對事實三元組之間的潛在依賴關系進行編碼。在基準數據集FB13、WN11、WN18RR和FB15K-237上,進行了相關的鏈接預測實驗和三元組分類實驗。實驗結果表明,與其他嵌入表示模型相比,本文模型在MRR、Hit@3和Hit@10等指標上均有顯著提升。為了提高模型的預測精確率,在未來的工作中,將重點針對知識圖譜中的動態路由優化問題展開研究。一般地,在膠囊網絡模型中,由于動態規則無法分享神經元權重,導致路由算法的迭代過程較為耗時。為了解決該問題,內聯膠囊路由協議、核密度估計等路由優化算法由此提出。因此有必要研究基于內聯膠囊路由協議或核密度估計路由協議建立高層膠囊與低層膠囊的路由關系在知識圖譜補全中的應用前景。
[1] 劉知遠,孫茂松,林衍凱,等. 知識表示學習研究進展[J]. 計算機研究與發展, 2016, 53(2): 247-261.(LIU Z Y, SUN M S, LIN Y K, et al. Knowledge representation learning: a review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261.)
[2] SUCHANEK F M, KASNECI G, WEIKUM G. YAGO: a core of semantic knowledge[C]// Proceedings of the 16th International Conference on World Wide Web. New York: ACM, 2007: 697-706.
[3] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1247-1250.
[4] LEHMANN J, ISELE R, JAKOB M, et al. DBpedia — a large-scale, multilingual knowledge base extracted from Wikipedia[J]. Semantic Web, 2015, 6(2): 167-195.
[5] ZHANG F Z, YUAN N J, LIAN D F, et al. Collaborative knowledge base embedding for recommender systems[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 353-362.
[6] HAO Y C, ZHANG Y Z, LIU K, et al. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 221-231.
[7] XIONG C Y, POWER R, CALLAN J. Explicit semantic ranking for academic search via knowledge graph embedding[C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017: 1271-1279.
[8] YANG B S, MITCHELL T. Leveraging knowledge bases in LSTMs for improving machine reading[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 1436-1446.
[9] SOCHER R, CHEN D Q, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 926-934.
[10] WEST R, GABRILOVICH E, MURPHY K, et al. Knowledge base completion via search-based question answering[C]// Proceedings of the 23rd International Conference on World Wide Web. New York: ACM, 2014: 515-526.
[11] CHEN H, WANG W W, LI G Y, et al. A quaternion-embedded capsule network model for knowledge graph completion[J]. IEEE Access, 2020, 8: 100890-100904.
[12] ZHANG Z Q, CAI J Y, ZHANG Y D, et al. Learning hierarchy-aware knowledge graph embeddings for link prediction[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 3065-3072.
[13] BORDES A, USUNIER N, GARCIA-DURáN A, et al. Translating embeddings for modeling multi-relational data[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.
[14] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes[C]// Proceedings of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2014: 1112-1119.
[15] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2181-2187.
[16] YANG B S, YIH W T, HE X D, et al. Embedding entities and relations for learning and inference in knowledge bases[EB/OL]. (2015-08-29) [2021-09-04].https://arxiv.org/pdf/1412.6575.pdf.
[17] TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 2071-2080.
[18] DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 1811-1818.
[19] NGUYEN D Q, NGUYEN T D, NGUYEN D Q, et al. A novel embedding model for knowledge base completion based on convolutional neural network[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 327-333.
[20] NGUYEN D Q, VU T, NGUYEN T D, et al. A capsule network-based embedding model for knowledge graph completion and search personalization[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 2180-2189.
[21] NGUYEN D Q, NGUYEN T D, PHUNG D. A relational memory-based embedding model for triple classification and search personalization[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 3429-3435.
[22] KIM Y, LEE H, JUNG K. AttnConvnet at SemEval-2018 task 1: attention-based convolutional neural networks for multi-label emotion classification[C]// Proceedings of the 12th International Workshop on Semantic Evaluation. Stroudsburg, PA: Association for Computational Linguistics, 2018: 141-145.
[23] 賈旭東,王莉. 基于多頭注意力膠囊網絡的文本分類模型[J]. 清華大學學報(自然科學版), 2020, 60(5):415-421.(JIA X D, WANG L. Text classification model based on multi-head attention capsule networks[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(5): 415-421.)
[24] 陳恒,李冠宇,祁瑞華,等. 膠囊網絡在知識圖譜補全中的應用[J]. 計算機工程與應用, 2020, 56(8):110-116.(CHEN H, LI G Y, QI R H, et al. Capsule Network's application in knowledge graph completion[J]. Computer Engineering and Applications, 2020, 56(8): 110-116.)
[25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[26] SANTORO A, FAULKNER R, RAPOSO D, et al. Relational recurrent neural networks[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 7310-7321.
[27] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2021-09-04].https://arxiv.org/pdf/1412.6980.pdf.
[28] TOUTANOVA K, CHEN D Q. Observed versus latent features for knowledge base and text inference[C]// Proceedings of the 3rd Workshop on Continuous Vector Space Models and their Compositionality. Stroudsburg, PA: Association for Computational Linguistics, 2015: 57-66.
[29] SUN Z Q, DENG Z H, NIE J Y, et al. RotatE: knowledge graph embedding by relational rotation in complex space[EB/OL]. (2019-02-26) [2021-09-04].https://arxiv.org/pdf/1902.10197.pdf.
[30] JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2015: 687-696.
[31] JI G L, LIU K, HE S Z, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 985-991.
[32] XIAO H, HUANG M L, ZHU X Y. TransG: a generative mixture model for knowledge graph embedding[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 2316-2325.
CHEN Heng, born in 1982, Ph. D. candidate, associate professor. His research interests include machine learning, knowledge completion.
WANG Siyi, born in 1998, M. S. candidate. Her research interests include machine learning, knowledge graph.
LI Zhengguang, born in 1980, Ph. D., lecturer. His research interests include machine learning, natural language processing.
LI Guanyu, born in 1963, Ph. D., professor. His research interests include machine learning, intelligent information processing.
LIU Xin, born in 1982, M. S., lecturer. His research interests include machine learning, natural language processing.
Capsule network knowledge graph embedding model based on relational memory
CHEN Heng1,2*, WANG Siyi1, LI Zhengguang1, LI Guanyu2, LIU Xin1
(1,,116044,;2,,116026,)
As a semantic knowledge base, Knowledge Graph (KG) uses structured triples to store real-world entities and their internal relationships. In order to infer the missing real triples in the knowledge graph, considering the strong triple representation ability of relational memory network and the powerful feature processing ability of capsule network, a knowledge graph embedding model of capsule network based on relational memory was proposed. First, the encoding embedding vectors were formed through the potential dependencies between encoding entities and relationships and some important information. Then, the embedding vectors were convolved with the filter to generate different feature maps, and the corresponding capsules were recombined. Finally, the connections from the parent capsule to the child capsule was specified through the compression function and dynamic routing, and the confidence coefficient of the current triple was estimated by the inner product score between the child capsule and the weight. Link prediction experimental results show that compared with CapsE model, on the Mean Reciprocal Rank (MRR) and Hit@10 evaluation indicators, the proposed model has the increase of 7.95% and 2.2 percentage points respectively on WN18RR dataset, and on FB15K-237 dataset, the proposed model has the increase of 3.82% and 2 percentage points respectively. Experiments results show that the proposed model can more accurately infer the relationship between the head entity and the tail entity.
Knowledge Graph (KG); relational memory network; capsule network; knowledge graph embedding; dynamic routing
This work is partially supported by National Natural Science Foundation of China (61976032), Scientific Research Funding Project of Educational Department of Liaoning Province (2020JYT03, 2020JYT17).
TP181
A
1001-9081(2022)07-1985-08
10.11772/j.issn.1001-9081.2021050764
2021?05?12;
2021?09?15;
2021?09?22。
國家自然科學基金資助項目(61976032);遼寧省教育廳科學研究經費資助項目(2020JYT03, 2020JYT17)。
陳恒(1982—),男,安徽阜陽人,副教授,博士,CCF會員,主要研究方向:機器學習、知識補全; 王思懿(1998—),女(滿),遼寧瓦房店人,碩士研究生,主要研究方向:機器學習、知識圖譜; 李正光(1980—),男,四川資陽人,講師,博士,主要研究方向:機器學習、自然語言處理; 李冠宇(1963—),男,遼寧丹東人,教授,博士,主要研究方向:機器學習、智能信息處理; 劉鑫(1982—),男,遼寧大連人,講師,碩士,主要研究方向:機器學習、自然語言處理。