融合Bi-LSTM與多頭注意力的分層強化學習推理方法

2025-03-09 00:00:00李衛軍劉世俠劉雪洋丁建平蘇易礌王子怡

計算機應用研究 2025年1期

摘要：知識推理作為知識圖譜補全中一項重要任務，受到了學術界的廣泛關注。針對知識推理可解釋性差、不能利用隱藏語義信息和獎勵稀疏的問題提出了一種融合Bi-LSTM與多頭注意力機制的分層強化學習方法。將知識圖譜通過譜聚類分簇，使智能體分別在簇與實體間進行推理，利用Bi-LSTM與多頭注意力機制融合模塊對智能體的歷史信息進行處理，可以更有效地發現和利用知識圖譜隱藏的語義信息。Hight智能體通過分層策略網絡選擇目標實體所在的簇，指導Low智能體進行實體間的推理。利用強化學習智能體可以有效地解決可解釋性差的問題，并通過相互獎勵機制對兩個智能體的動作選擇以及搜索路徑給予獎勵，以解決智能體獎勵稀疏的問題。在FB15K-237、WN18RR、NELL-995三個公開數據集上的實驗結果表明，提出的方法能夠捕捉序列數據中的長期依賴關系對長路徑進行推理，并且在推理任務中的性能優于同類方法。

關鍵詞：知識推理；分層強化學習；Bi-LSTM；多頭注意力機制

中圖分類號：TP391.1"" 文獻標志碼：A"" 文章編號：1001-3695（2025）01-010-0071-07

doi： 10.19734/j.issn.1001-3695.2024.06.0197

Hierarchical reinforcement learning knowledge reasoning method integrating Bi-LSTM and multi-head attention

Abstract： Knowledge reasoning is a critical task in knowledge graph completion and has garnered significant academic attention. Addressing issues such as poor interpretability， inability to utilize hidden semantic information， and sparse rewards， this paper proposed a hierarchical reinforcement learning method integrating Bi-LSTM and multi-head attention mechanisms. The knowledge graph was clustered via spectral clustering， enabling agents to reason between clusters and entities. The Bi-LSTM and multi-head attention mechanism module processed the agent’s historical information， effectively uncovering and utilizing hidden semantic information in the knowledge graph. The high-level agent selected the cluster containing the target entity through a hierarchical policy network， guiding the low-level agent in entity reasoning. Reinforcement learning allows the agents to solve interpretability issues， and a mutual reward mechanism addresses sparse rewards by rewarding agents’ action choices and search paths. Experimental results on FB15K-237， WN18RR， and NELL-995 datasets show that the proposed method captures long-term dependencies in sequential data for long-path reasoning， outperforming similar methods in reasoning tasks.

Key words：knowledge reasoning; layered reinforcement learning; Bi-LSTM; multi-head attention mechanism

0 引言

隨著云計算、物聯網等技術的快速發展，知識圖譜（know-ledge gragh， KG）因其優異的可解釋性和強大的表達能力獲得了眾多學者的關注［1］，被廣泛應用于各個領域，產生了許多大規模知識圖譜，如FreeBase［2］、DBpedia［3］等。然而，無論是自動化還是人工構建的知識圖譜都存在著不完備的問題，這種知識圖譜的不完整性將會影響到智能問答、知識預測和智能推薦等一些基于推理的下游任務效果［4，5］。因此，需要利用已有的推理技術進一步從知識圖譜中挖掘出缺失且更深層次的實體與關系之間的聯系，進而完善知識圖譜。

知識推理是從已有的知識中推理出實體間可能存在的關系或屬性值，對知識圖譜進行補全的方法［6］。近年來，許多研究者對知識推理的相關技術進行了深入的研究，并取得了一定的進展。例如基于嵌入的推理方法TransE［7］和 ConvE［8］，它們將知識圖譜中的三元組映射到連續的向量空間中得到其向量表示，通過計算向量之間的相似度完成推理。然而基于嵌入的推理方法具有可解釋性較低和多跳推理路徑效果不佳的局限性。因此，Lao等人［9］將知識圖譜表示為有標記的有向圖，利用鄰近度量給每個邊的標簽序列給予權重，提出了使用隨機游走進行路徑尋找的路徑排序算法（path-ranking algorithm， PRA）來解決此類問題。Gardner等人［10］提出了一種PRA的變體，該變體通過計算向量空間的特征相似性來進行推理。但是上述基于路徑的推理方法未考慮路徑的可靠性計算問題，難以適用于大規模知識圖譜。為了解決多跳問題的推理需求，許多研究者提出了一系列的方法，如MultiKR［11］、SRGCN［12］、ConvHiA［13］等，通過多跳推理來尋找目標實體，并生成完整的推理路徑，增強了模型的可解釋性。在多跳推理模型中，基于強化學習的知識推理方法因其在可解釋性和性能等方面的優勢，受到了廣泛關注。DeepPath［14］和MINERVA［15］模型使用強化學習（reinforcement learning， RL）來解決知識圖譜推理中的馬爾可夫決策問題，將路徑學習過程構建為強化學習以進行復雜的多跳推理。

然而，在強化學習推理任務中，現有的方法還存在一些不足。一方面智能體在推理長路徑時往往效果不佳，不能夠很好地理解實體與關系間隱藏的語義，另一方面稀疏知識圖譜還會導致智能體獎勵稀疏的問題。為此，本文提出一種融合Bi-LSTM和多頭注意力的分層強化學習的知識推理方法（hierarchical reinforcement learning integrating Bi-LSTM and multi-head attention， HRL-BM），如圖1所示。本文的主要貢獻如下：

a）采用分層強化學習方法進行分層推理，提出了一種包含路徑信息的獎勵機制對智能體的動作選擇給予獎勵，以解決可解釋性差和獎勵稀疏的問題。

b）通過融合雙向長短期記憶網絡與多頭注意力機制，處理智能體的歷史信息，進一步提取實體與關系間隱藏的語義信息。

c）在FB15K-237、WN18RR和NELL-995公開數據集上進行了對比實驗與消融實驗。結果表明，與其他方法相比，本文方法在各項指標上均取得良好的效果，并且所提出的各個組件均對方法性能的提升具有積極作用。

1 相關工作

知識圖譜的不完整性對其實際的應用帶來了很大的阻礙，需要不斷地對其進行補充和擴展。因此需要利用知識推理技術進一步從語義網和其他相應的知識庫挖掘出缺失的和更深層次的實體與關系之間的聯系，實現知識圖譜補全和知識圖譜去噪等。現有的知識推理方法大致可以分為基于嵌入的推理方法、基于路徑的推理方法和基于強化學習的推理方法三類。

1.1 基于嵌入與路徑知識推理

基于嵌入的知識推理方法可以將實體和關系映射到連續的向量空間中，尋找最優的嵌入方法和維度，在保留實體各自特征的同時學習實體之間的關系［16］。TransE方法不能很好地處理關系的映射屬性，為了平衡模型容量和效率，Wang等人［17］提出了TransH，將關系建模為超平面，并在超平面上進行平移操作。與TransH不同的是，Trouillon等人［18］提出的ComplEx利用復雜的嵌入組合來處理知識圖譜中的二元關系。Ji等人［19］在TransE的基礎上提出的TransD同時考慮了實體和關系的多樣性，利用動態構造映射矩陣對實體和關系進行映射。但是TransD難以推理隱藏實體，因此Wang等人［20］提出的KNN-KGE根據嵌入空間的實體和知識存儲的距離來計算鄰居節點，以提高推理性能。Yao等人［21］將知識圖譜中的三元組作為文本序列，以實體描述和關系描述為輸入計算三元組的評分函數，提出了一種知識圖譜雙向編碼表示轉換器KG-BERT。但基于嵌入的知識推理技術將實體和關系轉換為單一的向量進行計算，不能利用到關系路徑和隱藏語義信息。

基于路徑的知識推理方法可以有效地從知識圖譜中獲取實體之間的關系信息，通過分析和利用路徑信息可以推理出實體之間的隱藏關系。Lao等人［22］利用路徑約束隨機游走模型解析文本與背景知識中的語義。Wang等人［23］提出的KPRN模型通過利用路徑中的順序依賴關系，對路徑進行推理。翟社平等人［24］利用采樣器在實體對之間游走，為推理器提供可靠的推理策略，推理器通過提取關系路徑的語義特征，在語義空間中推理出關系路徑。基于路徑的知識推理方法具有很好的可解釋性，但當知識圖譜稀疏時，對于路徑特征的提取效果往往不好。

1.2 基于強化學習的知識推理

強化學習由于其在可解釋性和性能等方面的優勢，迅速成為了研究知識推理領域的熱門技術。基于強化學習的推理方法是將實體之間的路徑游走建模為馬爾可夫決策過程，并使用基于策略的智能體搜索推理路徑［25］。

Xiong等人［14］首次將強化學習應用于學習知識圖譜中的關系路徑，將尋徑問題表示為一個可以用RL智能體解決的順序問題。但是由于模型簡單，訓練過程相對較為復雜，需要消耗大量的計算資源。因此，Das等人［15］提出的MINERVA模型是在輸入問題的條件下使用強化學習有效搜索圖中答案提供路徑的方法，不需要進行預訓練。與基于路徑的MINERVA模型類似，Liu等人［26］提出了一種基于強化學習的邏輯嵌入知識推理模型RKLE來提高推理路徑的整體可信度。而Shen等人［27］在DeepPath的基礎上開發了M-Walk模型，模型將循環神經網絡和蒙特卡羅樹搜索結合起來搜索目標節點。但是由于使用隨機采樣的特點，可能會導致相同路徑被多次采樣。以上三種方法都是采用單層強化學習進行推理，沒有考慮動作空間的層次結構，并且在長推理鏈上的性能不佳。Wan等人［28］提出了一種新的分層強化學習RLH模型來學習知識圖譜推理過程，使用分層機制將每個完整的動作空間劃分為更小的空間，可以學習到隱含的多重語義信息。Zhang等人［29］提出了一個雙智能體強化學習框架CURL允許智能體相互共享狀態和路徑信息，智能體之間進行協同搜索目標實體以解決長路徑推理問題。Zhu等人［30］采用了一種完全不同的分層方式來分解動作空間，將強化學習推理任務分解為關系檢測和實體推理兩個過程，提出了SBS模型，能夠很好地處理實體和關系中的一對多問題。Jiang等人［31］為了防止智能體進入探索虛假路徑，定義了一個路徑虛假度量，并設計了同時考慮答案準確性和路徑合理性的獎勵模型。

2 研究方法

從以上研究可以發現，基于嵌入和路徑的推理方法存在可解釋性差的問題，基于強化學習的知識推理方法存在不能夠利用隱藏語義信息進行推理和獎勵稀疏的問題。為此，本文提出了HRL-BM方法將知識推理看作是一個馬爾可夫序列決策過程（Markov sequence decision process，MDP）。首先使用譜聚類算法對知識圖譜進行分簇，利用Hight智能體在簇間進行游走推理找到目標實體所在的簇，并指導Low智能體在當前簇中的實體進行推理。其次，多智能體分別在簇與實體之間進行推理，并通過雙向長短期記憶網絡（bidirectional long short-term memory， Bi-LSTM）與多頭注意力融合模塊對歷史信息進行處理，Bi-LSTM生成歷史特征，再利用多頭注意力機制對歷史特征進行權重分配，以挖掘隱含的語義信息。此外，為解決獎勵稀疏問題，提出了一種包含路徑信息的相互獎勵機制，對智能體的動作給予獎勵，提高推理的準確度。

2.1 強化學習

知識圖譜中含有多個事實三元組，通常定義為一個有向圖G={（es，r，et），es，et∈Euclid Math OneEAp，r∈Euclid Math OneRAp}，Euclid Math OneEAp表示實體集合，Euclid Math OneRAp表示關系集合，其中es是源實體，et是目標實體。使用譜聚類對原始知識圖譜G劃分為N個簇，并將知識推理中智能體游走過程建模為馬爾可夫決策過程（Markov decision process， MDP），MDP主要由〈S，A，P，R〉四部分組成，下面對強化學習模塊進行詳細介紹。

由于Hight智能體是在所劃分的簇中進行游走，所以其狀態空間由原始簇以及當前訪問簇組成。Low智能體的狀態空間由源實體、查詢關系和訪問實體組成，狀態表示為st（st∈S），式（1）（2）分別表示Hight智能體和Low智能體的狀態空間。

sHt=（ct，cs）∈SH（1）

sLt=（et，（es，rq））（2）

其中：ct與cs分為當前簇與原始簇；et為當前智能體訪問實體；es與rq分別為源實體與查詢關系。

推理過程中，Hight智能體的動作空間為當前實體的鄰居簇，Low智能體在實體之間進行游走，以找到目標實體。其動作空間包含實體所有的出邊，即步驟t的可能動作集合At∈A，具體表示如式（3）（4）所示。

AHt={c′|（ct，c′）∈G}（3）

ALt={（r′，e′）|（et，r′，e′）∈G}（4）

其中：AHt為Hight智能體的動作空間；ALt為Low智能體的動作空間。由于Hight智能體在簇中的路徑通常比在實體中的路徑短，所以在AHt添加一個停止動作，使得兩個智能體同步在同一個簇中進行推理。

轉換函數δ是環境將轉移到下一個狀態的概率分布，表示如式（5）所示。

δ（st，At）=δ（et，（es，rq），At）（5）

2.2 獎勵函數

在知識推理的過程中，智能體從源實體到目標實體的路徑越短，經過的中間節點和關系越少，可以減少誤差累計，提高整體推理的效率。所以本模型通過設置路徑效率獎勵來鼓勵智能體選擇較短的路徑，路徑效率獎勵表示如式（6）所示。

在探索路徑時，由于實體與關系在向量空間中具有類似的狀態表示，智能體在游走的過程中容易反復選擇相似路徑，從而陷入局部最優。為了讓智能體在推理過程中探索更多不同的路徑，模型引入了路徑多樣性獎勵，路徑多樣性獎勵如式（7）所示。

其中：|F|是推斷出的路徑數量；p是路徑嵌入向量。Hight和Low智能體默認獎勵只考慮到了是否能到達最終目標簇或實體，在一定步數內成功到達目標簇或實體，獎勵+1，但會導致兩個智能體的路徑難以保持一致的問題，并且當知識圖譜中的信息不完整時，會導致獎勵稀疏問題。所以兩個智能體的最終獎勵由路徑效率、路徑多樣性獎勵和協作獎勵三部分組成。

R（sHt）=rH（sHT）+Φ（sHt，sLt）·rL（sLT）" t∈［1，T］（8）

R（sLt）=rL（sLT）+Φ（sLt，sHt）·rH（sHT）" t∈［1，T］（9）

RH=λ1Reff+λ2Rdiv+λ3R（sHt）（10）

RL=λ1Reff+λ2Rdiv+λ3R（sLt）（11）

其中：Φ（sHt，sLt）是一個評價函數，用來衡量兩個智能體動作的一致性；λi是權重參數∑λi=1；RH、RL分別為Hight與Low智能體的獎勵函數；rH（sHT）為Hight智能體的默認獎勵，rL（sLT）為Low智能體的默認獎勵。

2.3 Bi-LSTM與多頭注意力融合模塊

模型使用Bi-LSTM與多頭注意力融合模塊對智能體的歷史信息進行處理，理解上下文信息，捕獲其中的隱藏語義，并且在加入多頭注意力機制之后，智能體可以關注到不同的特征與關系。在Bi-LSTM與多頭注意力融合模塊中，Bi-LSTM為智能體提供細粒度的序列特征，多頭注意力機制優化全局信息的權重分配，可以充分提高知識推理的性能。

2.3.1 Bi-LSTM網絡

雙向長短期記憶網絡Bi-LSTM是長短期記憶網絡（long short-term memory， LSTM）的一種擴展，通過在序列的前向和后向上分別運行兩個獨立的LSTM來處理序列數據。在每個時間步，正向LSTM按照序列的順序處理數據，而反向LSTM按照序列的逆序處理數據，Bi-LSTM框架如圖2所示。為了提高推理的效果，在模型中分別使用兩個獨立的Bi-LSTM來編碼Hight智能體與Low智能體的歷史信息，并且允許兩個智能體之間的狀態共享。分別從正向和反向兩個方向進行迭代，生成隱藏狀態向量Hfw=（hfw1，hfw2，…，hfwL）與Hbw=（hbw1，hbw2，…，hbwL），其中ht表示如式（12）（13）所示。

hfwt=LSTM（at，WH［hfHt－1，hfLt－1］）（12）

hbwt=LSTM（at，WL［hbLt－1，hbHt－1］）（13）

其中：智能體的動作at作為LSTM的輸入；ht為隱藏狀態向量。為了兩個智能體之間可以共享路徑信息，在智能體的隱藏狀態中將另一個智能體的狀態加入，即每個隱藏狀態取決于智能體之前的隱藏狀態、另一個智能體之前的狀態、智能體之前的動作。然后利用Bi-LSTM捕捉長距離的依賴關系，隱藏層ht計算過程如下所示。

其中： ft、it、ot變量分別表示遺忘門、輸入門和輸出門;帶有相應門下標的W和b表示可學習權值和相應的偏置。然后Bi-LSTM輸出的隱藏狀態ht將hfwt和hbwt串聯起來，即ht=［hfwt，hbwt］，可以有效地捕獲輸入中的上下文信息和依賴關系。

2.3.2 多頭注意力機制

由于LSTM缺乏自適應關注特定區域的能力，可能導致學習過程中的冗余或信息丟失，不能全面地捕捉實體之間的相關性和聯系。將引入多頭注意力機制從不同的視角學習語義特征，可以幫助本文方法更準確地理解復雜的語義關系。因此，應用多頭注意力對Bi-LSTM輸出的歷史信息ht分配權重，多頭注意力中的查詢Q、鍵K、值V表達如式（20）所示。

（Q，K，V）=（WQ，WK，WV）·H（20）

其中：W為權重矩陣；H表示Bi-LSTM單元的輸出。為了檢索V中最重要的特征，采用縮放點積法對注意力進行計算：

多頭注意力框架如圖3所示，多頭注意力機制是Q、K、V經過不同的線性變換h次，在這些投影版本上并行執行注意力函數，將這些注意力權重與值進行加權求和，以得到每個頭部的輸出。最后，將所有頭部的輸出連接起來，并再次進行線性變換（投影），從而得到最終的輸出值，如式（22）（23）所示。

ht=concat（head1，…，headh）Wo（22）

headi=attention（QWQi，KWKi，VWVi） 1≤i≤h（23）

2.3.3 策略網絡

策略網絡用來指導Hight智能體和Low智能體選擇下一個簇和實體。為了預測下一個動作，本方法將狀態信息式（1）（2）與歷史信息拼接，然后通過ReLU函數與動作集合進行相乘，得到下一個動作的概率分布，智能體在其中選擇一個分數最高的動作作為下一時刻的動作選擇，低級策略網絡偽代碼如算法1所示。本方法的策略網絡計算公式如式（24）（25）所示。

πHθ（aHt|sHt）=σ（AHt×WH2ReLU （WH1［ct;hHt］））（24）

πLθ（aLt|sLt）=

σ（ALt×WL2ReLU （WL1［et;rq;hLt］））（25）

其中：πHθ與πLθ分別為高級策略網絡、低級策略網絡；ct表示簇嵌入；hHt與hLt為經過多頭注意力機制處理后的歷史信息。Hight智能體通過高級策略網絡，選擇分數最高的作為下一個動作，跳轉到相應的簇中以指導Low智能體進行推理。Low智能體通過低級策略網絡，選擇概率較高的實體作為下一個動作，最后通過相互獎勵模塊對智能體的選擇給予獎勵。

算法1 低級策略網絡

輸入：當前實體嵌入et，查詢關系rq，歷史ht，最大步長length。

輸出：智能體下一步動作選擇at。

1 begin

2" for et+1←（et，rt+1，et+1） do;

3"" Step=0，et=es;

4"" while Steplt;length and et≠etarget;

//判斷步數是否小于最大步長以及是否到達目標實體

5""" calculate ht←Bi-LSTM（et，rq，ht－1）; //利用Bi-LSTM對歷史信息進行編碼

6""" calculate ht←multi-head（ht）; //利用多頭注意力機制對編碼的歷史信息聚焦

7""" πLθ（aLt|sLt）=σ（ALt×WL2 ReLU （WL1［et;rq;hLt］））;

8""" select at at from πLθ（aLt|sLt）;

9""" step+1；

10" end while;

11 "end for；

12 end

3 實驗

3.1 環境搭建

為了保證實驗的有效性，本文利用PyTorch框架對模型的實驗環境進行搭建，并在單張NVIDIA GeForce RTX 4090GPU上進行實驗。實驗過程中使用Bi-LSTM與多頭注意力融合模塊對搜索歷史進行編碼，Bi-LSTM的隱藏維度大小設置為200，多頭注意力中的嵌入維度大小為400，頭數為8。模型具體的參數設置如下：實體與關系嵌入的維度為50；批處理大小batch_size在FB15K-237 、WN18RR和NELL-995中分別設置為256、256和128；最大路徑長度設置為3。

3.2 數據集與評價分析

本文實驗采用知識推理領域通用的三個數據集FB15K-237［7］、WN18RR［8］和NELL-995［14］來評估本方法的有效性。其中FB15K-237是FreeBase的子集，通過刪除FB15K中大量可逆關系數據創建得來，對數據集進行過濾，只保留一組反向或重復關系中的一個從而得到237個關系。WN18RR是Wordnet的一個子集，提供語義知識，通過去除可逆三元組對來減少數據冗余，消除了反向關系事實，避免了在表示任務中信息泄露的問題。NELL-995是卡內基梅隆大學開發的一個NELL系統中的第995次迭代產生的數據集，使用關系泛化或haswikipediaurl刪除三元組，選擇具有top-200關系的三元組。數據集的統計信息如表1所示。本文實驗使用ConvE對數據集進行預訓練以獲取實體的嵌入表示，將預訓練的實體嵌入進行聚類，使用實體的聚類標簽構建集群圖，以便Hight智能體進行集群級別的探索。

知識推理任務的評價方式通常是通過對鏈接預測的結果進行分析，鏈接預測是對預測三元組中缺失的部分進行預測。因此，在實驗中采用前k命中率（hits@k）和平均倒數排名（MRR）兩個評價指標對方法的性能進行評價。

前k命中率（hits@k）指標指的是前k個結果中命中的概率。式（26）為hits@k的計算公式，ranki為第i個三元組的鏈接預測排名，|N|為三元組集合個數，I為indicator函數，若條件真則函數值為1，否則為0。

平均倒數排名（MRR）常用于評估模型預測答案的排名，指的是三元組在所有候選的三元組中評分倒數排名的均值，其計算公式如式（27）所示。

3.3 實驗分析

為了驗證方法的有效性，將HRL-BM與TransE［7］、ConvE［8］、ComplEx［18］、KG-BERT［21］、PRA［9］、DeepPath［14］、MINERVA［15］、M-Walk［24］、RLH［28］、CURL［29］、A*Net［32］十一種方法在三個公開數據集上進行對比實驗，如表2所示。其中TransE、ConvE、ComplEx、KG-BERT是基于嵌入的方法，PRA是基于路徑的方法，DeepPath、MINERVA、RLH、M-Walk、CURL是基于強化學習的方法。

表2中，模型在數據集中的最優性能均以粗體標出，由表2可知，HRL-BM在三個數據集上的hits@1、hits@3、hits@10、MRR性能指標均有明顯提升。在FB15K-237數據集上MRR的值比平均排名第2的CURL高出9.5百分點。FB15K-237數據集中含有很多“多對一”和“一對多”的關系，更貼近現實生活場景，HRL-BM在其中性能有明顯提升。這表明本文方法對復雜關系有著良好的性能，并且具有較強的魯棒性。在WN18RR與NELL-995數據集中，HRL-BM大部分的性能表現均有提高，并且比CURL的性能平均高出3.3、6.4百分點。而在NELL-995中有些結果的性能要比ConvE模型低，原因是NELL-995數據集相比于其他兩個數據集路徑長度較小，而基于嵌入的模型結構較為簡單，在保證性能的同時，降低了計算復雜度，這也證明HRL-BM在長路徑推理方面的優勢，并且在短路徑推理中性能也優于大部分基于嵌入的模型。基于嵌入的模型雖然簡單，但大部分的性能指標都要比基于路徑的模型優秀。導致這種現象的原因是基于嵌入的方法通常具有更強的泛化能力，并且由于知識圖譜數據的稀疏性，某些實體之間可能沒有直接的鏈接路徑，基于路徑的方法可能無法找到有效的路徑來進行推理，而基于嵌入的方法則可以通過學習實體和關系的連續表示來彌補路徑上的切實信息，從而提高了推理性能。但由于不能提供推理路徑，此類方法的推理可解釋性較低。而基于強化學習的

知識推理方法可以記錄智能體在環境中的決策路徑，增強了可解釋性。

HRL-BM通過對知識圖譜進行聚類，使用分層強化學習進行推理，降低了智能體動作空間的大小，提高了推理效率，并且與其他基于強化學習的推理方法不同的是，本文采用了Bi-LSTM與多頭注意力融合模塊對智能體的搜索歷史進行編碼，可以學習到更復雜和隱藏的語義信息。HRL-BM在FB15K-237數據集上的性能比另外兩個數據集有顯著提升，原因是FB15K -237 數據集包含更多的1對m的關系，而HRL-BM采用Bi-LSTM與多頭注意力融合模塊可以聚焦在高度相關的關系之中，從而提高推理的準確度。

3.4 消融實驗

為了進一步分析在HRL-BM中加入Bi-LSTM與多頭注意力機制融合模塊、包含路徑信息的相互獎勵機制對推理效果的影響，在FB15K-237、WN18RR和NELL-995數據集上進行了消融實驗。表3中呈現了消融實驗的結果，其中HRL-BM表示本文模型的性能，-BM表示本文模型去除Bi-LSTM與多頭注意力融合模塊的效果;-multi-head表示HRL-BM刪除多頭注意力機制模塊；-Bi-LSTM表示HRL-BM刪除Bi-LSTM模塊；-reward表示HRL-BM刪除相互獎勵機制，采用0-1獎勵函數。

由表3可知，在原模型的基礎上分別刪除Bi-LSTM與多頭注意力融合模塊、多頭注意力模塊、Bi-LSTM模塊以及相互獎勵機制后，各項指均有所下降。因此，多頭注意力在本方法中可以更全面地捕捉實體之間的關系和特征；Bi-LSTM能夠同時考慮過去和未來的上下文信息，這意味著它在處理序列數據時，通過考慮雙向的上下文信息，Bi-LSTM能夠學習到更豐富和復雜的特征表示。這些特征對于提高推理的準確性至關重要；刪除相互獎勵機制后，性能下降最為明顯，因此，相互獎勵機制能夠鼓勵智能體選擇所需資源更少、更快到達目標實體的路徑，減少智能體在已經探索過的路徑上重復游走。綜上所述，Bi-LSTM與多頭注意力機制融合模塊和路徑獎勵模塊對模型的推理性能存在一定的影響。而在NELL-995數據集上影響最大，是因為其數據集規模較小，其中包含的關系較少，對分層策略進行關系選擇時影響較大。在WN18RR數據集中，刪除多頭注意力模塊之后，hits@3與hits@10指標下降了，而hits@1指標卻上升了，原因是多頭注意力機制允許本方法同時關注輸入的不同部分，刪除它使模型更加偏向于關注局部信息，而非全局信息。在hits@1指標上，方法更專注于最直接或最顯著的線索，會提升其性能，但隨著預測排名的增加（即hits@3和hits@10），需要更多的全局信息來作出準確的預測，這時本方法的表現會下降。在刪除各個模塊之后，模型性能雖然有所下降，但是與其他方法相比也具有一定的優勢，進一步證明了HRL-BM的有效性。

3.5 案例研究

為了證明本文模型在路徑推理上的有效性，本文對路徑對立進行了研究，如圖4所示。圖4中的例子是從NELL-995數據集中得到的，從圖4中的例子可以說明本文模型在執行各種推理任務時的路徑推理能力。并且在包含逆關系的推理過程中，智能體還可以通過逆三元組對已作出的錯誤選擇進行糾正，回到上一步的實體中重新進行推理。

短路徑推理：SteveDelanoSmithSubPartOfOrganization？

SteveDelanoSmithathleteplaysforteamMiami HeatSubPartOfOrganizationNBA

長路徑推理：Barack ObamaPersonLanguage？

Barack ObamabornInHonolululocatedInHawaiiisStateIn

United StateshasOfficialLanguageEnglish

包含逆關系的推理：LeBron JamesSubPartOfOrganization？

LeBron JamesSportGameTeam－1SportGamesSportGameTeam

Los Angeles LakersSubPartOfOrganizationNBA

3.6 迭代次數研究

為了探究本文模型使用Bi-LSTM與多頭注意力融合模塊之后的效果，在FB15K-237數據集上進行了實驗，并在同一實驗環境下與CURL模型的hits@1性能進行對比，實驗結果如圖5所示。可以看出，同CURL模型相比，本文模型在2 000次迭代之后性能即可達到最優性能，并且在后續的迭代過程中，模型的性能有所下降但逐漸趨近平穩。而CURL模型在1 500～3 000的迭代次數時，模型效果較差，在3 000迭代次數之后效果有所提升，直到5 000次迭代時，CURL模型的性能達到最優值，但仍與本文模型的性能有所差距。可以看出，本文模型在加入Bi-LSTM與多頭注意力融合模塊之后，達到最優性能所需的總訓練時間明顯少于CURL模型，并且本文模型在較少的迭代次數下即能達到最優性能，體現出較高的訓練效率和性能穩定性。

3.7 參數分析

本節通過參數實驗來驗證模型參數的有效性，分別對路徑長度與多頭注意力中的頭數兩個參數對模型的性能影響進行了實驗。

3.7.1 路徑長度實驗

在知識推理的過程中，推理路徑的長度對模型的性能會產生很大的影響。短路徑中通常包含更直接和相關的信息，模型可以更容易地利用這些信息進行連接預測，但是短路徑可能會忽略一些重要的背景知識和上下文信息。長路徑可以包含更多的信息，但是也可能導致推理過程中信息的稀疏性增加，使得智能體難以聚焦到關鍵信息上，圖6展示了HRL-BM在FB15K-237數據集中，不同路徑長度的hits@1效果。

如圖6所示，橫軸為路徑長度，縱軸為模型hits@1的值。當路徑長度為3時，模型取得最優性能，此時hits@1的值為0.642 6；當路徑長度為6時，取得次優性能，此時hits@1的值為0.638，并且在其他路徑長度中模型的性能均優于對比算法。由圖6的實驗結果可知，本文通過分層強化學習與相互獎勵機制提高了推理效果，并且在長路徑上效果表現優異，證明了HRL-BM模型中Bi-LSTM與多頭注意力融合模塊對長路徑中的隱藏語義和上下文信息提取效果良好，可以很好地解決長路徑推理的問題。

3.7.2 注意力頭數實驗

在強化學習知識推理中，本文研究了多頭注意力機制中的注意力頭數對實驗效果的影響。實驗使用FB15K-237數據集，并且推理路徑長度設為3，固定其他超參數，通過設置不同數量的注意力頭進行實驗，實驗效果如圖7所示。當注意力頭數增加時，模型的效果有所提升。這是因為增加注意力頭數可以提供更多的注意力權重組合，模型可以從中提取出實體的隱藏信息和上下文信息，有助于智能體進行推理，但是過多的注意力頭數有可能增加過擬合的風險。由圖7的實驗結果可知，當注意力頭數為8時，實驗效果最佳。

4 結束語

本文提出了一種融合Bi-LSTM與多頭注意力的分層強化學習推理方法HRL-BM。HRL-BM通過分層強化學習把知識推理分解為兩個馬爾可夫序列決策過程，通過多智能體分別進行推理。通過Bi-LSTM與多頭注意力融合模塊對智能體歷史信息進行處理，對策略網絡進行更新，提高智能體動作選擇的準確度。此外引入包含路徑信息的獎勵機制對智能體的動作選擇以及挖掘出來的路徑及時給予獎勵，避免了獎勵稀疏的問題。實驗結果表明，HRL-BM的推理性能優于同類對比方法，能夠更準確和高效地搜索答案。未來可以進一步探索如何在強化學習框架中更有效地結合LLM，以增強語義理解和推理能力。例如考慮在模型的預訓練階段通過BERT提取實體和關系的上下文表示，增強模型的語義理解能力，并通過利用LLM的多任務學習能力，使智能體能夠同時處理多種類型的推理任務，從而提高模型的泛化能力。

參考文獻：

［1］杜雪盈，劉名威，沈立煒，等. 面向鏈接預測的知識圖譜表示學習方法綜述［J］. 軟件學報， 2024， 35（1）： 87-117. （Du Xue-ying， Liu Mingwei， Shen Liwei， et al. Survey on representation lear-ning methods of knowledge graph for link prediction［J］. Journal of Software Science， 2024， 35（1）： 87-117.）

［2］Bollacker K， Evans C， Paritosh P， et al. FreeBase： a collaboratively created graph database for structuring human knowledge ［C］// Proc of ACM SIGMOD International Conference on Management of Data.New York：ACM Press， 2008： 1247-1250.

［3］Lehmann J， Isele R， Jakob M， et al. DBpedia—a large-scale， multilingual knowledge base extracted from Wikipedia ［J］. Semantic Web， 2015， 6（2）： 167-195.

［4］Wu Wenqing， Zhu Zhenfang， Qi Jiangtao， et al. A dynamic graph expansion network for multi-hop knowledge base question answering ［J］. Neurocomputing， 2023，515：37-47.

［5］Cui Hai， Peng Tao， Xiao Feng， et al. Incorporating anticipation embedding into reinforcement learning framework for multi-hop know-ledge graph question answering ［J］. Information Sciences： An International Journal， 2023，619：745-761.

［6］馬昂，于艷華，楊勝利，等. 基于強化學習的知識圖譜綜述［J］. 計算機研究與發展， 2022， 59（8）： 1694-1722. （Ma Ang， Yu Yanhua， Yang Shengli， et al. Survey of knowledge graph based on reinforcement learning ［J］. Journal of Computer Research and Development， 2022， 59（8）： 1694-1722.）

［7］Bordes A， Usunier N， Garcia-Duran A， et al. Translating embeddings for modeling multi-relational data ［C］// Advances in Neural Information Processing Systems. 2013： 2787-2795.

［8］Dettmers T， Minervini P， Stenetorp P， et al. Convolutional 2D knowledge graph embeddings ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 1811-1818.

［9］Lao Ni， Cohen W W. Relational retrieval using a combination of path-constrained random walks ［J］. Machine Learning， 2010， 81： 53-67.

［10］Gardner M， Talukdar P， Kisiel B， et al. Improving learning and inference in a large knowledge-base using latent syntactic cues ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2013： 833-838.

［11］Shang Bin， Zhao Yinliang， Wang Chenxin， et al. Multi-hop know-ledge reasoning with deep reinforcement learning ［C］// Proc of the 7th International Conference on Computational Intelligence and Applications. Piscataway，NJ：IEEE Press， 2022： 27-31.

［12］Wang Zikang， Li Linjing， Zeng D. SRGCN： graph-based multi-hop reasoning on knowledge graphs ［J］. Neurocomputing， 2021， 454： 280-290.

［13］Li Dengao， Miao Shuyi， Zhao Baofeng， et al. ConvHiA： convolutio-nal network with hierarchical attention for knowledge graph multi-hop reasoning ［J］. International Journal of Machine Learning and Cybernetics， 2023， 14（7）： 2301-2315.

［14］Xiong W， Hoang T， Wang W Y. DeepPath： a reinforcement learning method for knowledge graph reasoning ［EB/OL］. （2018-07-07）.https：//arxiv.org/abs/1707. 06690.

［15］Das R， Dhuliawala S， Zaheer M， et al. Go for a walk and arrive at the answer： reasoning over paths in knowledge bases using reinforcement learning ［EB/OL］. （2018-12-30）. https：//arxiv.org/abs/1711. 05851.

［16］Liu Xinliang， Mao Tingyu， Shi Yanyan， et al. Overview of know-ledge reasoning for knowledge graph ［J］. Neurocomputing， 2024， 585：127571.

［17］Wang Zhen， Zhang Jianwen， Feng Jianlin， et al. Knowledge graph embedding by translating on hyperplanes ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press，2014： 1112-1119.

［18］Trouillon T， Welbl J， Riedel S， et al. Complex embeddings for simple link prediction ［C］//Proc of the 33rd International Conference on Machine Learning. 2016： 2071-2080.

［19］Ji Guoliang， He Shizhu， Xu Liheng， et al. Knowledge graph embedding via dynamic mapping matrix ［C］// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing （volume 1： Long papers）. Palo Alto， CA： AAAI Press， 2015： 687-696.

［20］Wang Peng， Xie Xin， Wang Xiaohan， et al. Reasoning through memorization： nearest neighbor knowledge graph embeddings ［C］//Proc of CCF International Conference on Natural Language Processing and Chinese Computing. Cham： Springer， 2023： 111-122.

［21］Yao Liang， Mao Chengsheng， Luo Yuan. KG-BERT： BERT for knowledge graph completion ［EB/OL］. （2019-09-11）. https：//arxiv.org/abs/1909. 03193.

［22］Lao N， Subramanya A， Pereira F， et al. Reading the Web with learned syntactic-semantic inference rules ［C］// Proc of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012： 1017-1026.

［23］Wang Xiang， Wang Dingxian， Xu Canran， et al. Explainable reaso-ning over knowledge graphs for recommendation ［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2019： 5329-5336.

［24］翟社平，亢鑫年，李方怡，等. 融合關系路徑與實體鄰域信息的知識圖譜補全方法［J］. 計算機工程與應用， 2024， 60（13）： 136-142. （Zhai Sheping， Kang Xinnian， Li Fangyi， et al. Incorporating relation path and entity neighborhood information for knowledge graph completion method ［J］. Computer Engineering and Applications， 2024， 60（13）： 136-142.）

［25］劉世俠，李衛軍，劉雪洋，等. 基于強化學習的知識圖譜推理研究綜述［J］. 計算機應用研究， 2024， 41（9）： 2561-2572. （Liu Shixia， Li Weijun， Liu Xueyang， et al. Review of reinforcement learning based knowledge graph reasoning research ［J］. Application Research of Computers， 2024， 41（9）： 2561-2572.

［26］Liu Ruinan， Yin Guisheng， Liu Zechao. Learning to walk with logical embedding for knowledge reasoning ［J］. Information Sciences， 2024， 667： 120471.

［27］Shen Yelong， Chen Jianshu， Huang P S， et al. M-walk： learning to walk over graphs using Monte Carlo tree search ［C］// Advances in Neural Information Processing Systems. 2018： 6787-6798.

［28］Wan Guojia， Pan Shirui， Gong Chen， et al. Reasoning like human： hierarchical reinforcement learning for knowledge graph reasoning ［C］//Proc of International Joint Conference on Artificial Intelligence. 2021： 1926-1932.

［29］Zhang Denghui， Yuan Zixuan， Liu Hao， et al. Learning to walk with dual agents for knowledge graph reasoning ［C］// Proc of AAAI Conference on Artificial Intelligence. 2022： 5932-5941.

［30］Zhu Aanjie， Ouyang Deqiang， Liang Shuang， et al. Step by step： a hierarchical framework for multi-hop knowledge graph reasoning with reinforcement learning ［J］. Knowledge-Based Systems， 2022， 248： 108843.

［31］Jiang Chunyang， Zhu Tianchen， Zhou Haoyi， et al. Path spuriousness-aware reinforcement learning for multi-hop knowledge graph reasoning ［C］// Proc of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023： 3181-3192.

［32］Zhu Zhaocheng， Yuan Xinyu， Galkin M， et al. A*Net： a scalable path-based reasoning approach for knowledge graphs ［C］//Advances in Neural Information Processing Systems. 2024： 59323-59336.

計算機應用研究2025年1期

計算機應用研究的其它文章: 小數據集上基于語義的局部注意視覺Transformer方法; 一種基于旋轉-平移解耦優化的在線稠密重建算法; 單目RGB穿衣人體的手部精細化重建; 基于視角統一的手姿態估計優化方法; 基于互相關和旋轉約束的視覺慣性里程計在線時間校準算法; 適用于智能醫療的匿名基于身份的認證密鑰協商協議