



















摘 要:針對現有的知識圖譜補全方法捕獲知識圖譜結構信息能力不足的問題,提出了一種基于雙子圖和注意力機制以獲取全局結構信息完成知識圖譜自動補全的模型。該模型首先分別構建以實體和關系為中心的雙子圖,來分別捕獲實體鄰域信息和關系結構的潛在有用信息,并將雙子圖形成的信息輸入到編碼器中以更好地更新實體和關系結構信息;然后,利用注意力機制自適應地學習更新后實體和關系之間的重要交互特征;最后,將包含全局結構信息的特征向量輸入到解碼器中,通過一個評分函數,對輸入的特征邊進行打分預測,最終使用預測結果來完成知識圖譜補全任務。與基線方法的性能相比,該方法在FB15K-237和NELL995數據集上的MRR和hits@10評測指標分別取得了5.1、8.8和3.4、2.2百分點的顯著提升,同時在WN18RR數據集上,這兩個指標也分別提高了0.1和1.9百分點。實驗結果表明,所建立模型采用的結構能有效捕獲知識圖譜全局結構信息,進而顯著增強模型的表達能力和預測性能。
關鍵詞:知識圖譜補全;雙子圖;注意力機制;編碼器;解碼器
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-013-0093-07
doi: 10.19734/j.issn.1001-3695.2024.06.0186
Knowledge graph completion method based on bipartite graphs and attention mechanism
Abstract: To address the issue of existing knowledge graph completion methods’ limited capability in capturing structural information within knowledge graphs, this paper proposed a novel model that leveraged bipartite graphs and an attention mechanism to acquire global structural insights and facilitate automatic knowledge graph completion. This model firstly constructed two subgraphs centered on entities and relationships to capture potential useful information about entity neighborhood and relationship structures, and inputted the information formed by the two subgraphs into the encoder to better update entity and relationship structure information. Then, it used attention mechanisms to adaptively learn important interaction features between updated entities and relationships. Finally, it inputted the feature vectors containing global structural information into the decoder, and it actively employed a scoring function to assess and predict scores for the input feature edges, ultimately utilizing the predicted outcomes to accomplish the task of knowledge graph completion. Comparing the performance of the proposed method with the baseline method on the FB15K-237 and NELL995 datasets, the MRR and hits@10 evaluation indicators achieved significant improvements of 5.1, 8.8, and 3.4, 2.2 percentage points, respectively. At the same time, on the WN18RR dataset, these two indicators also were improved by 0.1 and 1.9 percentage points, respectively. The experimental results show that established model proactively adopts a structure that effectively captures the global structural information of the knowledge graph, thereby significantly enhancing the expression ability and predictive performance of the model.
Key words:complete knowledge graph; bipartite graph; attention mechanism; encoder; decoder
0 引言
知識圖譜(knowledge graph, KG)是一種常見的結構化映射,以三元組形式(頭實體,關系,尾實體)表達現實世界發生的事實,描述實體或概念間的關聯。KG可用于眾多下游任務,如智能問答[1]、推薦系統[2]、知識管理[3~5]、數據匹配[6~8]和信息檢索[9]等。當前已有一些大型KG,如WikiData[10]、Google KG[11]等,然而即使是這些擁有上百萬個實體和數十億個事實的大型知識圖譜也存在知識不完整性的問題[12],這會影響其在下游任務上的應用效果。因此知識圖譜補全(knowledge graph completion, KGC)技術日益受到學界的重視,進而各種補全技術被用來解決KG中的知識不完整性問題。
KGC旨在通過學習三元組中某種潛在的結構模式,推測三元組中缺失的部分,以提升知識圖譜的完整性。現有的知識圖譜補全方法主要有基于嵌入的方法和神經網絡方法兩個方向。其中,知識圖譜嵌入技術(knowledge graph embedding, KGE)因其高效性和較低的自由參數需求,已經成為知識圖譜補全的主流方法。以TransE[13]模型為代表,通過轉換關系將頭實體映射到尾實體,但它在處理如一對多或多對一等復雜關系以及多語義問題時面臨挑戰,為了克服這些限制,TransH[14]、TransR[15]、TransD[16]等改進模型相繼被提出。已經提出一些KG嵌入模型來學習實體和關系的向量表示,并定義一個分數函數,使有效三元組的分數高于無效三元組的分數,例如ComplEx[17]和QuatE[18]。然而由于編碼整個信息需要高維嵌入,這可能會導致模型過度擬合和復雜性過載。相比之下神經網絡方法將一些學到的知識存儲在模型的非嵌入自由參數中,并在整個KG中共享,減小了模型的復雜性,同時通過正則化、數據增強等方法來減少了過擬合。但是傳統的神經網絡模型大多數使用淺層或低效的結構,無法利用實體和關系之間的交互和依賴關系來提高表示的表達能力,例如在圖1中,通過已知路徑可以知道“John Wilson”、“Blake”和“Steven”的職業都是“actor”,并且“John Wilson”和“Blake”在同一家“company”,傳統的神經網絡模型無法根據各個實體與關系“occupation”和“company”的交互來預測“John Wilson”、“Blake”和“Steven”的友誼。并且傳統的神經網絡方法不能有效挖掘知識圖譜中實體的鄰域信息,而圖神經網絡(graph neural network, GNN)[19]已經被證明能夠有效挖掘實體鄰域信息。目前,一些KG補全工作已經使用編碼器-解碼器架構來適應GNN,例如R-GCN[20]和CompGCN[21],但是這些現有的基于GNN的KG嵌入模型主要考慮捕獲實體周圍的圖結構,而關系表示僅用于更新實體的嵌入表示, 因此,可能會錯過有關關系結構的潛在有用信息,例如在圖2中,只能捕獲實體“John Wilson”的“出生地”信息,以及“Sydney”的“所屬城市”信息。并且由于目前大多數基于GNN的嵌入模型在聚合鄰域信息的過程中使用靜態注意力矩陣,導致該矩陣同等對待鄰域信息,所以混合了無效信息,進而導致模型的性能下降。例如在圖1中,要預測“Evelyn”和“Marie White”誰是“John Wilson”的寵物,傳統的基于GNN的嵌入模型對“Evelyn”和“Marie White”分配同樣的權重,導致模型根本無法準確預測結果。綜上可以發現,現有的基于GNN的知識圖譜嵌入模型大多都只能捕獲實體鄰域信息而忽略了關系結構的潛在有用信息,并且無法捕獲實體和關系的交互信息,導致對知識圖譜特征信息的捕獲不完整,這就會使得到的特征向量表達性不好,從而導致補全效果不佳。
因此,本文需要一種方法能夠捕獲關系結構的潛在有用信息以及實體和關系的交互信息,以此來提高模型的表達能力。通過研究發現,構建以實體和關系為中心的雙子圖是捕獲關系結構潛在信息的有效方法,由于以關系為中心的雙子圖是以實體-關系作為一個節點,所以該方法旨在捕獲主觀關系、謂詞實體、客觀關系。例如在圖2中,對于謂詞實體“Sydney”,它的主觀關系和客觀關系分別為“born in”和“city of”,該方法可以捕獲兩個鄰里關系之間的潛在依賴,即關于“出生地”和“所在城市”之間潛在依賴關系的知識可能與預測“國籍”或“國籍國”等其他關系有關。要捕獲實體和關系的交互信息,需要通過注意力機制來獲得實體和關系的上下文信息,然后為不同的實體分配不同的權重,以此來獲取實體和關系的重要交互特征。例如在圖1中,要預測“Evelyn”和“Marie White”誰是“John Wilson”的寵物,可以通過關系“買”和“兄弟”與實體的交互為“Evelyn”和“Marie White”分配不同的權重,以此來預測誰是“John Wilson”的寵物。同時,通過“Blake”-“company”和“Steven”-“company”與“John Wilson”-“company”的交互,可以預測“John Wilson”與“Blake”和“Steven”的友誼。
為了解決傳統神經網絡在進行知識圖譜補全時存在的問題,本文提出了一種新的基于雙子圖和注意力機制以捕獲全局信息的方法(capturing global information based on bipartite and attention mechanism, CGIBAM)。
本文的主要工作如下:
a)針對現有的基于GNN的KG嵌入模型主要考慮捕獲實體的鄰域信息,而關系表示僅用于更新實體嵌入的問題,通過分別構建以實體和關系為中心的雙子圖,獲得關系結構的潛在有用信息。
b)針對淺層神經網絡模型無法利用實體和關系之間的交互和依賴關系來提高實體和關系交互表示的表達能力的問題,引入了有效捕捉實體和關系之間交互信息的多頭注意力機制,在這過程中通過對各實體分配不同的權重來獲取實體與關系的重要交互特征,從而捕捉知識圖譜的全局結構信息。
1 相關理論
1.1 知識圖譜補全模型
目前,主流的知識圖譜補全模型通常可以分為三大類別,分別是基于平移距離的模型、基于語義匹配的模型以及基于神經網絡的模型。
a)平移距離模型[22]通過平移操作將頭實體向量轉換為尾實體向量,利用向量運算來模擬實體間的關系,并通過比較這些結果與真實關系之間的差異來評估事實的合理性。以Bordes等人[13]提出的TransE模型為代表,該模型通過將三元組(h,r,t)中的實體和關系映射到低維向量空間中,利用簡單的向量運算來捕捉它們之間的語義關系。其中,h為頭實體的向量表示,r為關系的向量表示,t為尾實體的向量表示。通過不斷調整三元組使h+r≈t,這種平移操作體現了實體和關系之間的語義關聯?;谄揭凭嚯x的模型簡單且易擴展,在知識圖譜補全任務中表現出了較好的效果,但其在學習復雜關系方面仍然存在較多困難。
b)語義匹配模型[23]利用評分函數來測量實體對(h,t)和關系r的匹配程度。以Trouillon等人提出的ComplEx[16]模型為代表,該模型引入了復數空間的概念,能將知識圖譜中的實體和關系表示為復向量,從而能夠更好地建模非對稱關系。然而語義匹配模型大多都是獨立地處理三元組,因此很容易忽略掉實體的局部鄰域信息。
c)基于神經網絡的模型是以卷積神經網絡為核心來捕捉和表示三元組之間的復雜關系與特征。以Schlichtkrull等人[20]提出的R-GCN模型為代表,該模型將關系的影響融入到實體中,提升了模型的表達能力。GNN的核心是圖卷積網絡(graph convolutional network, GCN),是一種有效的圖結構建模方法,以Shang等人[24]提出的SCAN模型為代表,該模型采用編碼器-解碼器結構來獲取實體之間的關系模式,但該模型沒有深度有效地融合實體和關系之間的信息。
基于GNN的模型在實體建模方面取得了顯著的成果,能夠有效地捕獲知識圖譜中實體的豐富鄰域信息。然而,傳統的基于GNN的模型通常忽略了潛在的關系結構信息以及對實體和關系的深度融合,導致在消息傳遞過程中無法有效地捕獲知識圖譜的全局結構信息。
1.2 多頭注意力機制
注意力機制[25]在深度學習領域越來越重要,是因為它具有這樣的能力,通過對特征進行加權處理,讓學習過程能實現對關鍵信息的有效篩選和聚焦。計算注意力,本質上就是對不同特征的重要性進行量化和權衡的過程。首先通過將輸入的向量進行線性投影得到Q、K、V這三個向量。然后將所有Q向量與所有K向量進行點乘,得到相似的矩陣。
最后針對不同的映射結果并行縮放內積[26]注意力,并將結果合并到一個線性映射層進行輸出。為了得到更好的注意力分布,引入一個溫度參數,即用于縮放內積注意力機制的縮放因子,以調節內積的大小。
2 模型設計
本文提出的基于雙子圖和注意力機制的知識圖譜自動補全模型CGIBAM遵循編碼器-解碼器架構。模型整體架構如圖3所示。該模型旨在通過分別構建以實體和關系為中心的雙子圖,來分別獲得實體的鄰域信息(如圖3上面藍色部分,見電子版)和關系結構的潛在有用信息(如圖3下面綠色部分,參見電子版),并將兩個雙子圖形成的信息輸入到編碼器中,以更新實體、關系結構信息。然后再利用多頭注意力機制來捕獲更新后的實體和關系交互特征,以此來捕獲知識圖譜的全局結構信息。
該模型主要分為雙子圖模塊、編碼器模塊、解碼器模塊三個部分。首先模型基于原知識圖譜分別構建以實體和關系為中心的雙子圖,用于分別捕獲實體的鄰域信息和關系結構的潛在有用信息,然后將雙子圖形成的信息作為編碼器的輸入,以更好地更新實體和關系結構信息;編碼器模塊使兩個GNN交互,以共同從兩個圖中學習實體和關系的表示,并通過注意力機制來捕獲實體和關系之間交互的語義信息和潛在聯系,進而達到捕獲知識圖譜全局結構信息的目的;解碼器模塊通過應用評分函數,對不可見的三元組鏈接進行打分,以判斷該三元組能否成為知識圖譜中的有效邊,即實體的關系。
2.1 雙子圖
該模型將給定的KG轉換為兩個子圖,它們分別以實體和關系為中心,以捕獲實體的鄰域信息和關系結構的潛在有用信息,并將雙子圖形成的信息作為編碼器的輸入,進而更好地更新實體和關系的嵌入。雙子圖如圖4所示。
構建以實體為中心的無向圖Gef,該無向圖將實體視為節點,著重捕捉實體的鄰域信息。這里,Gef={Vef,Eef},其中,下標ef表示以實體為中心的子圖(如圖4(a)),Vef是節點的集合,Eef是邊的集合。該無向圖Gef實則是一個以實體為中心的矩陣,通過遍歷原知識圖譜中的每個三元組,將三元組中的頭實體和尾實體分別視為矩陣的行和列。如圖4(a)左邊部分,存在一個三元組(h1,r1,h2),將頭實體h1的索引和尾實體h2的索引分別加入行索引列表和列索引列表中。為了使矩陣無向,再將尾實體h2的索引添加到行索引列表中,頭實體h1的索引添加到列索引列表中,同理對其余三元組同樣的操作,由此形成圖4(a)右邊部分,即Gef。
構建以關系為中心的無向圖Grf,該無向圖將實體和關系視為節點,著重捕捉關系結構的潛在有用信息。這里,Grf={Vrf,Erf},其中,下標rf表示以關系為中心的子圖(如圖4(b)),Vrf是實體和關系節點的集合,Erf是連接實體和關系邊的集合。該無向圖Grf實則是一個以關系為中心的矩陣,通過遍歷原知識圖譜中所有三元組的所有實體,對于每個實體,查看其作為頭實體和尾實體時涉及的關系集合(如圖4(b)左邊部分所示),嘗試將每個頭關系與每個尾關系組合,形成新的三元組,形如(r1,h2,r2),由此形成圖4(b)右邊部分,即Grf。
該模型構建雙子圖是為了同時捕獲實體的鄰域信息和關系結構的潛在有用信息,從而克服傳統的基于GNN的知識圖譜補全模型僅關注實體鄰域信息的局限性。通過構建雙子圖,使模型能夠更全面地理解圖譜中的實體和關系,提高了知識圖譜補全的性能。
2.2 編碼器
2.2.1 GNN層
該編碼器包含兩個GNN,分別用于更新實體和關系的嵌入向量,使兩個GNN交互,以共同從兩個圖結構數據中學習實體和關系的表示。GNN層體系結構如圖5所示。
首先,應用第一個圖卷積層到實體的嵌入,得到實體的嵌入Xef。再應用第二個卷積層到合并的嵌入,得到關系的嵌入XRrf。然后,從合并的圖卷積結果中提取特定實體的嵌入Xrf。接著將Xef和Xrf沿著第一個維度拆分為四個部分:Xef1、Xef2、Xef3、Xef4、Xrf1、Xrf2、Xrf3、Xrf4,再將Xef和Xrf對應部分進行交替連接,形成新的嵌入矩陣X。最后,將Xrf與四元數矩陣進行矩陣乘法,并將結果與Xef進行乘法,得到了包含更多特征信息的實體向量,以達到更新實體嵌入向量的目的,同時從XRrf中提取特定關系的嵌入。具體過程如式(1)~(4)所示。
在這個過程中,不僅捕獲了實體結構信息,還捕獲了關系結構的潛在有用信息。例如在圖2中,捕獲了兩個鄰里關系之間的潛在依賴,即關于“出生地”和“所在城市”之間潛在依賴關系的知識,可能與預測“國籍”或“國籍國”等其他關系有關,因此可以預測“John Wilson”的國籍信息。
2.2.2 多頭自注意力層
多頭自注意力機制使模型能夠更精準地理解圖譜中的復雜關系,例如圖1中,要預測誰是“John Wilson”的朋友,誰是“John Wilson”的寵物,目標實體的上下文復雜多樣,要結合查詢與上下文信息,為不同的實體分配不同的注意力權重,來捕獲實體和關系交互的關鍵特征,以此增強模型捕獲知識圖譜全局結構信息的能力。例如,通過“bought”與“brother of”關系上下文,再結合查詢可以為“Evelyn”分配更高的權重。具體實現過程是,首先將得到的h(k),Qe和h(k),Qr通過水平堆疊函數進行合并得到特征邊,該特征邊包含了實體和關系的嵌入。然后對輸入的向量進行嵌入創建三個向量,三個矩陣通過線性投影得到Q、K、V這三個向量,對于每個頭,采用縮放點積注意力計算查詢向量Q和鍵向量K之間的相似度得到注意力權重,再將注意力權重與值向量V相乘,如式(5)所示。接著計算所有頭的加權求和結果,得到多頭注意力機制的輸出,如式(6)所示。
其中:KT表示鍵向量的轉置;d表示維度;Hn表示注意力頭的特征表示;n表示注意力頭個數;W0表示轉換矩陣。
2.3 解碼器
本實驗采用傳統的知識圖譜嵌入模型TuckER作為評估三元組合理性的解碼器。
TuckER模型的核心是TuckER分解,它將一個張量分解為一個核心張量和一組矩陣相乘的形式。首先將獲得的全局特征矩陣分解成源向量src_edges,然后將源向量與所有的尾實體嵌入向量進行點積運算,得出三元組的得分情況。例如在對(John Wilson, friend, ?)評分時,使有效三元組(John Wilson, friend, Blake)的得分高于無效三元組(John Wilson, friend, Australia)的得分。以三元組(h,r,t)為例,定義評分函數為
ψ(eh,rr)=f(M(eh,rr)W)et(7)
其中:eh和rr分別表示實體和關系; f(·)表示非線性激活函數;M(·)表示將各個實體和關系拼接起來的向量;W表示可學習的權重矩陣。最后該分數通過sigmoid函數作為最終得分:
P(eh,rr,et)=σ(ψ(eh,rr))(8)
在訓練的過程中,采用二元交叉熵損失函數來優化模型,目的是通過最小化加權損失函數來提升性能。損失函數可定義為
其中:V表示候選實體的個數;yt′表示第t個樣本的二元標簽值(0或1)。
3 實驗
3.1 數據集
本文實驗是在三個基準數據集上進行的:FB15K-237是從Free-base[27]中抽取的子集,其去除了逆關系,只保留了互逆關系中的一種,包含了14 541個實體和237種關系;WN18RR是從WordNet[28]中抽取的子集,它去除了關系反向傳播來避免測試數據泄露,其包含了40 943個實體和11種關系類型。NELL995是從NELL[29]數據集的第995次迭代中提取的通用知識數據集,其包含了63 917個實體和198種關系類型。三種數據集具體統計信息如表1所示。
3.2 評價指標
為了準確評估模型的性能,本文使用MRR(mean reciprocal rank)[30]和hits@k[31]作為評價指標。MRR通過計算正確實體或關系排名的倒數平均值來評估補全效果,具體計算方法如式(10)所示。hits@k則衡量前K個候選項中正確三元組的比例。本文特別關注了hits@1、hits@3、hits@10,分別對應前1名、前3名和前10名正確三元組的命中率,計算方法如式(11)所示。上述的兩個指標MRR和hits@k,其值越大越好,值越大表明正確三元組比例越大,就越符合事實情況。
其中:|T|表示三元組的數量;Ki表示第i個正確三元組的排名。
其中:|T|表示三元組的數量;|Num|表示正確三元組排前K名的次數,本實驗將K設置為1、3、10。
3.3 實驗參數設置
本文使用PyTorch實現了該模型,實驗中為了方便對比不同的模型,通過不斷微調和優化,訓練參數如下:批處理大小統一設置為1 024,嵌入維度統一設置為256,多頭注意力機制的頭數設置為64,迭代次數epoch統一設置為500,并規定從第300次開始進行驗證和測試,每迭代10次打印一次結果。所有模型使用Adam[32]作為優化器,使用Dropout[33]防止過擬合。FB15K-237、WN18RR、NELL995數據集的學習率分別設置為0.01、0.001、0.01。
3.4 基線模型
為驗證所提出模型在知識圖譜補全任務中的有效性,實驗選取了以下較為先進的基線模型進行了對比實驗:
a)TransE[13]:最早的平移距離模型,通過將實體和關系映射到低維向量空間,有效地捕捉了它們之間的語義關系。
b)CompIEx[17]:利用神經網絡結構來捕獲實體和關系的復雜交互和結構信息,同時利用注意力機制動態地調整不同部分對最終輸出的貢獻,從而提高信息提取的準確性。
c)R-GCN[20]:這是一個關系圖卷積網絡模型,它在節點的聚合操作中不僅考慮了鄰居節點,還引入了關系維度,考慮了節點間的關系。同時該模型還采用了參數共享和稀疏約束等技術,從而更有效地捕捉圖數據中的復雜結構和語義信息。
d)ConvE[34]:將實體和關系向量平鋪為二維矩陣,并經過卷積層進行特征提取,最后通過全連接層將提取的特征映射到最終的向量表示空間中。該模型參數少,并且通過1-N打分的方式加速訓練。該模型的打分函數定義為:將頭實體和關系的向量堆疊,然后重組成二維的張量,經過卷積后,得到特征映射向量。
e)TuckER[35]:是一個具有線性特征和完全表達的模型。該模型將三元組表示為一個二進制三階張量,并將其分解為核心張量和三個矩陣,核心張量表征了它們之間的交互級別。
f)ATTH[36]:引入了雙曲注意力,對知識圖譜的層次性和邏輯關系進行建模,進一步提升了模型處理復雜關系的能力。
g)SAttLE[37]:通過引入注意力機制來學習實體和關系的表示,模型能夠計算它們之間的注意力權重,進而關注與特定任務或查詢更為相關的部分,生成更準確、更有意義的嵌入表示。
3.5 實驗結果分析
3.5.1 實驗結果與基線模型對比分析
為了驗證模型的有效性,本文在不同的基線模型上對數據集FB15K-237、WN18RR、NELL995進行了實驗,并將本文模型CGIBAM與其他基線模型進行了對比分析,實驗結果如表2、3所示(粗體和下畫線分別表示最優結果和次優結果)。通過實驗結果的對比分析,本文模型在MRR、hits@1、hits@3、hits@10指標上相較于基線模型均有所提升。
在FB15K-237數據集上,本文模型與其他最好的基線模型相比,在MRR、hits@1、hits@3、hits@10評估方法上的性能分別提升了5.1、2.6、7、8.8百分點。
在WN18RR數據集上,評估指標MRR、hits@1、hits@3、hits@10分別提升了0.1、0.2、0.6、1.9百分點。
在NELL995數據集上,評估指標MRR、hits@1、hits@3、hits@10分別提升了3.4、0.9、2.4、2.2百分點。
從表2、3可以發現,CGIBAM模型在多個評估指標上都優于以往最先進的基線模型,這表明了CGIBAM模型的有效性。具體來說,CGIBAM模型利用雙子圖圖神經網絡來捕獲關系結構的潛在有用信息,并更新實體和關系的嵌入向量;同時通過多頭注意力機制來捕獲更新后實體和關系之間的重要交互特征,從而得到了包含知識圖譜全局結構信息的特征,以達到增強模型捕獲全局結構信息能力的目的。
通過分析表2、3還可以發現,CGIBAM模型在FB15K-237和NELL995數據集上補全效果提升的幅度比在WN18RR數據集上要明顯得多,主要是因為FB15K-237和NELL995數據集分別涵蓋了237、198種不同的關系類型,關系類型多樣,數據復雜,相比之下,WN18RR數據集僅包含了11種關系類型。CGIBAM模型在FB15K-237和NELL995數據集上的優異性能表明,它能夠更好地適應多關系且復雜的知識圖譜,并因此在性能上取得良好的表現。
3.5.2 實驗結果具體實例分析
本實驗通過構建雙子圖,來捕獲關系結構的潛在有用信息,然后利用多頭注意力機制,根據實體、關系上下文來為不同的實體分配不同的權重,從而獲得實體和關系的交互信息,并以此來提高知識圖譜補全任務的準確性。補全后的知識圖譜如圖6所示。
圖6中構建的以關系為中心的子圖,是以實體-關系作為一個節點,因此可以捕獲(born in, Sydney, city of)結構,從而獲得兩個關系“born in”和“city of”的潛在信息,由于它們對應的實體都是一個“城市名”,從而使模型可以根據潛在信息預測“國籍”或者“國籍國”等關系,即(nationality, Australia)為通過捕獲關系結構的潛在有用信息而獲得的關系信息。然后通過注意力機制,捕獲實體、關系的上下文信息,例如通過“company”與各個實體的交互,為更接近預測結果的實體分
配更高的權重,從而預測出“Blake”是“John Wilson”的朋友;同樣地,通過捕獲“bought”與“brother of”的上下文信息,即“Melbourne”買了“Evelyn”以及“George Smith”和“Marie White”是兄弟,再結合查詢誰是“John Wilson”的寵物,就可以預測出“Evelyn”是“John Wilson”的寵物。圖6證實了所提方法可以同時捕獲關系結構的潛在有用信息和實體關系的交互信息,能夠提高知識圖譜補全任務的準確率。
3.6 消融實驗
為了驗證CGIBAM模型各模塊的有效性,本文將去除多頭注意力機制模塊的模型標記為CGIBAM-att,使模型失去了捕獲實體關系交互信息的能力,其他部分與CGIBAM模型一致。將去除雙子圖圖神經網絡模塊的模型標記為CGIBAM-bip,使模型失去了捕獲關系結構潛在有用信息的能力,其他部分與CGIBAM模型一致。將本文設計的CGIBAM模型與它的兩個變體模型在FB15K-237、WN18RR以及NELL995數據集上進行消融實驗,結果如圖7~9所示。
分析圖7~9可以發現,橫坐標是FB15K-237、WN18RR以及NELL995數據集,縱坐標是補全效果評估指標MRR、hits@1、hits@3。去除雙子圖圖神經網絡模塊和多頭注意力機制模塊都會導致模型的性能下降,例如在圖1、2中,因沒有考慮關系結構的潛在有用信息和實體關系的交互信息,導致模型只能捕獲實體周圍的結構信息,所以知識圖譜仍然缺失,這表明它們都是模型不可或缺的部分。而去除多頭注意力機制模塊對模型性能的影響相對更顯著,在三個數據集上,MRR指標分別下降了6.3、2.5、1.7百分點,hits@1指標分別下降了3.3、0.7、1.1百分點,hits@3指標分別下降了7.7、1.8、3.6百分點。在圖6中可以發現,通過捕獲實體關系交互信息可以預測“Blake”是“John Wilson”的朋友,“Evelyn”是“John Wilson”的寵物這兩個關系,而通過捕獲關系結構的潛在有用信息只預測出了“John Wilson”的國籍是什么這一個關系,從預測出的關系個數來看,獲取重要的實體關系交互特征比單獨獲取實體和關系特征更重要,因為實體關系交互特征包含了實體和關系深度融合的特征,有助于模型實現更精確的預測。
3.7 超參數分析
學習率是深度學習中一個重要的超參數,它直接控制著模型參數在每次迭代中的更新步長。具體來說,學習率對模型目標函數能否順利收斂到局部最小值起決定性作用。因此,選取一個合適的學習率值是本文所設計模型的重點。
為了確定學習率對CGIBAM模型性能的影響,在其他參數相同的情況下,為模型設置不同的學習率,具體值分別為{0.001,0.005,0.01,0.02,0.1}。分別在數據集FB15K-237、WN18RR以及NELL995上采用MRR和hits@3評估方法進行實驗,不同學習率值的表現如圖10、11所示。
分析圖10、11可以發現,橫坐標為學習率λ,其在{0.001,0.005,0.01,0.02,0.1}范圍內變化,縱坐標是補全效果評估指標MRR、hits@3。在數據集FB15K-237和NELL995中,隨著學習率λ的增加,MRR和hits@3的值先增大后減小,在λ=0.01時達到最大值,說明模型在此時達到最好效果。這是因為隨著λ的增加,加快了模型的訓練速度,使模型迅速找到了局部最優。然而隨著學習率的持續增加,導致模型過度擬合數據,在最優解附近來回振蕩,甚至可能直接跳過最優解,從而影響模型在驗證數據集上的性能。在WN18RR數據集中,隨著λ的增加,模型的效果呈持續下降趨勢,這是因為,與FB15K-237和NELL995數據集相比,WN18RR數據集中的關系類型和三元組少,導致模型的泛化性能下降和過度依賴訓練數據,從而使模型的性能表現不佳。通過分析實驗結果可以發現,學習率對模型性能的影響是巨大的。
4 結束語
為了解決知識圖譜補全任務中傳統的基于GNN的知識圖譜補全模型所面臨的局限性,即它們往往只能捕獲實體鄰域信息而忽略了有關關系結構的潛在有用信息,并且無法同時捕獲實體和關系交互的重要特征,本文提出了一種基于雙子圖和注意力機制的知識圖譜補全方法,該方法輔助采用編碼器-解碼器架構,旨在更加全面、深入地挖掘知識圖譜中的信息。該模型首先構造兩個分別以實體和關系為中心的雙子圖,來分別捕獲實體鄰域信息和關系結構的潛在有用信息,并將雙子圖形成的信息作為輸入,輸入到編碼器中以更好地更新實體和關系嵌入。然后,利用多頭注意力機制來學習更新后實體和關系之間的重要交互特征,以此來達到捕獲知識圖譜全局結構信息的目的。最后,再將包含全局結構信息的特征向量輸入到解碼器中,并引入評分函數,對輸入的特征邊進行打分預測。實驗結果顯示:在FB15K-237、WN18RR以及NELL995數據集上,相較于基線模型,本文方法在MRR指標上分別實現了5.1、0.1、3.4百分點的顯著提升,hits@1指標則分別提高了2.6、0.2、0.9百分點,hits@3和hits@10指標也分別取得了7、0.6、2.4和8.8、1.9、2.2百分點的顯著增長,這些數據充分證明了本模型在知識圖譜補全任務中的顯著優勢。
此外,通過對學習率的細微調整可以發現:對于FB15K-237和NELL995數據集,學習率設置為0.01時模型性能最佳;而對于WN18RR數據集,0.001的學習率則帶來最優的模型表現。這些發現為后續模型優化提供了有價值的參考。在未來會繼續提升此模型的性能表現與泛化能力,以期在更廣泛的知識圖譜補全場景中發揮其潛力,同時計劃深入研究融合時序信息的知識圖譜補全模型,以探索更多可能性。
參考文獻:
[1]Xia Yi, Luo Junyong, Zhou Gang, et al. DT4KGR: decision Transformer for fast and effective multi-hop reasoning over knowledge graphs [J]. Information Processing and Management, 2024, 61(3): 103648.
[2]Xu Zihang, Chu Chiawei, Song Shiyang. An effective federated re-commendation framework with differential Privacy [J]. Electronics, 2024, 13(8): 1589.
[3]Serkan T, Fatih O. A novel framework for extracting knowledge ma-nagement from business intelligence log files in hospitals [J]. Applied Sciences, 2022, 12(11): 5621-5621.
[4]Govender L, Mearns M, Plessis D T. Knowledge management toolkit enhancement for a professional services firm [J]. SA Journal of Information Management, 2022, 24(1): e1-e11.
[5]Wells J. KM World 100 COMPANIES: that matter in knowledge ma-nagement [J]. KM World, 2022, 31(2): 16-21.
[6]Jessica F, Vinod H. Commentary: younger patients are choosing tissue valves: do the data match their fervor? [J]. The Journal of Thoracic and Cardiovascular Surgery, 2023, 165(2): 620-621.
[7]Moran F, Ariel S. Maximum matching sans maximal matching: a new approach for finding maximum matchings in the data stream model [J]. Algorithmica, 2023, 86(4): 1173-1209.
[8]Yang Can, Yue Peng, Gong Jianya, et al. Detecting road network errors from trajectory data with partial map matching and bidirectional recurrent neural network model [J]. International Journal of Geographical Information Science, 2024, 38(3): 478-502.
[9]Joel G A, Alei F, Xinran L. How much is too much?The impact of technology-facilitated information search effort on service experience [J]. Journal of Foodservice Business Research, 2024, 27(1): 40-60.
[10]Tamsin L. Response to Marcin Roszkowski 2023: modelling doctoral dissertations in Wikidata knowledge graph: selected issues [J]. The Journal of Academic Librarianship, 2023, 49(6): 123-128.
[11]Avishek C, Cosimo N, Cary O, et al. Knowledge graphs for COVID-19: an exploratory review of the current landscape [J]. Journal of Personalized Medicine, 2021, 11(4): 300-300.
[12]馬浩凱, 祁云嵩, 吳宇斌. 解糾纏鄰域信息聚合的知識圖譜補全方法 [J]. 計算機應用研究, 2024, 41(3): 772-778. (Ma Haokai, Qi Yunsong, Wu Yubin. Knowledge graph completion method for disentanglement neighborhood information aggregation [J]. Research of Computer Applications, 2024, 41(3): 772-778.)
[13]Bordes A, Usunieru N, Garcia D A, et al. Translating embeddings for modeling multi-relational data [C]// Advances in Neural Information Processing System. 2013: 2787-2795.
[14]Thanh L, Ngoc H, Bac L. Knowledge graph embedding by projection and rotation on hyperplanes for link prediction [J]. Applied Intelligence, 2022, 53(9): 10340-10364.
[15]Dai Shaozhi, Liang Yanchun, Liu Shuyan, et al. Learning entity and relation embeddings with entity description for knowledge graph completion [C]// Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press,2018:2181-2187.
[16]Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Vo-lume 1: Long Papers). Stroudsburg, PA: ACL Press, 2015: 687696.
[17]Trouillon T, Welbl J, Leili R S, et al. Complex embeddings for simple link prediction [EB/OL]. (2016-05-20). https://arxiv.org/abs/1606.06357.
[18]Zhang Shuai, Tay Yi, Yao Lina, et al. Quaternion knowledge graph embeddings [C]// Advances in Neural Information Processing Systems. 2019: 2735-2745.
[19]Lu Guangqian, Li Hui, Zhang Mei. Application of automatic completion algorithm of power professional knowledge graphs in view of convo-lutional neural network [J]. International Journal of Information Technologies and Systems Approach, 2023, 16(2): 1-14.
[20]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks [C]//Proc of the 15th International Conference on Semantic Web. Berlin:Springer International Publis-hing, 2018: 593-607.
[21]Vashishth S, Sanyal S, Nitin V, et al. Composition-based multi-relational graph convolutional networks [EB/OL]. (2019-01-18). https://arxiv.org/abs/1911. 03082.
[22]Zhang Siheng, Sun Zhengya, Zhang Wensheng. Improve the translational distance models for knowledge graph embedding [J]. Journal of Intelligent Information Systems, 2020, 55(3): 1-23.
[23]Luo Angen, Gao Sheng, Xu Yajing. Deep semantic match model for entity linking using knowledge graph and text [J]. Procedia Computer Science, 2018, 129:110-114.
[24]Shang Chao, Tang Yun, Huang Jing, et al. End-to-end structure-aware convolutional networks for knowledge base completion [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 333060-3067.
[25]劉小洋, 李慧, 張康旗, 等. 基于知識圖譜的多特征融合謠言檢測方法 [J]. 計算機應用研究, 2024, 41(5): 1362-1367. (Liu Xiaoyang, Li Hui, Zhang Kangqi, et al. Knowledge graph based multi-feature fusion rumor detection [J]. Research of Computer Applications, 2024, 41(5): 1362-1367.)
[26]Du Yongping, Pei Bingbing, Zhao Xiaozheng, et al. Deep scaled dot-product attention based domain adaptation model for biomedical question answering [J]. Methods, 2020, 173:69-74.
[27]Weeraratna C, Tang Xiaochen, Kostko O, et al. Fraction of Free-base nicotine in simulated vaping aerosol particles determined by X-ray spectroscopies [J]. The Journal of Physical Chemistry Letters, 2023, 14(5): 1279-1287.
[28]Sarnya S, Usha G. A machine learning-based technique with intelligent WordNet lemmatize for Twitter sentiment analysis [J]. Intelligent Automation Soft Computing, 2022, 36(1): 339-352.
[29]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2010: 1306-1313.
[30]Chen Luanjie, Peng Ling, Yang Lina. Improving landslide prediction: innovative modeling and evaluation of landslide scenario with knowledge graph embedding [J]. Remote Sensing, 2023, 16(1): 314-325.
[31]Li Duantengchuan, Xia Tao, Wang Jing, et al. SDFormer: a shallow-to-deep feature interaction for knowledge graph embedding [J]. Knowledge-Based Systems, 2024, 284:111253.
[32]Mora A, Prados A, Mendez A, et al. ADAM: a robotic companion for enhanced quality of life in aging populations [J]. Frontiers in Neurorobotics, 2024, 18:1337608.
[33]Bowker H, Saxon D, Delgadillo J. First impressions matter: the influence of initial assessments on psychological treatment initiation and subsequent Dropout [J]. Psychotherapy Research: Journal of the Society for Psychotherapy Research, 2024,30: 1-11.
[34]Peng Jiabin, Zhang Lijuan, Fan Mingqiu, et al. An admission-control-based dynamic query tree protocol for fast moving RFID tag identification [J]. Applied Sciences, 2023, 13(4): 2228-2228.
[35]Lin Yankai, Liu Zhiyuan, Sun Maosong. Modeling relation paths for representation learning of knowledge bases [EB/OL]. (2015-08-15). https://arxiv.org/abs/1506.00379.
[36]Jia Yan, Lin Mengqi, Wang Yue, et al. Extrapolation over temporal knowledge graph via hyperbolic embedding [J]. CAAI Trans on Intelligence Technology, 2023, 8(2): 418-429.
[37]Baghershahi P, Hosseini R, Moradi H. Self-attention presents low-dimensional knowledge graph embeddings for link prediction [J]. Knowledge-Based Systems, 2023, 260: 110124.