姚章俊
(西南電子技術研究所 第四事業部,四川 成都 610036)
知識圖譜以結構化的形式描述客觀世界中概念、實體及其之間的關系,多跳推理接受實體及關系等查詢條件,根據特定算法計算出起始實體滿足關系映射的目標實體[1]。舉例說明:圖1展示部分新冠疫情知識圖譜,其中包含多個已知的事實三元組,如 ("藥物","治愈","疾病")、 ("病毒","變異","基因") 和 ("防疫方案","圈定","聚集區") 等,知識圖譜多跳推理用以推斷與“防疫方案”為“包含”關系的目標實體(在圖1中是“中藥”),與“個人”為“感染”關系的目標實體(在圖1中是“病毒”)。

圖1 新冠疫情知識圖譜多跳推理示例
在現有多跳推理方法中,文獻[2]中基于描述邏輯推理方法和基于本體規則推理方法具有規則編寫復雜、沖突消解困難、泛化能力差的缺點;文獻[3]基于分布式嵌入表示推理方法和基于神經網絡關系路徑推理方法具有可解釋性不強,返回結果可信度低,且無法在大規模知識圖譜上應用的不足。
綜合國內外文獻[4-9]可知,知識圖譜多跳推理可以被建模為有限視界的確定部分可觀測馬爾可夫決策過程,滿足強化學習試錯和延遲收益的特點:從起始實體開始,在推理智能體與知識圖譜環境不斷交互中,每一步選擇一條關系邊,以最大化收益期望為目標,不斷搜索推理路徑直至滿足查詢關系映射的答案節點。期間不需要訪問任何預計算的路徑,也不需要對候選路徑進行排序,避免在海量知識圖譜上出現維度災難問題。筆者認識到知識圖譜的圖結構即包含拓撲信息又包含語義信息,對知識圖譜拓撲信息做圖卷積操作,對比現有知識圖譜表征學習算法,能夠獲得更加豐富的意含表征。基于此筆者提出基于深度圖強化學習多跳推理算法DRL-MHR。
相較現有基于強化學習的知識圖譜多跳推理算法,DRL-MHR算法具有較多優勢:第一,DRL-MHR能力選擇可變長度路徑,對于推理鏈復雜的問題至關重要;第二,DRL-MHR算法作為一種離軌策略梯度學習算法,不需要預訓練或微調,不需要從零開始學習策略。
文獻[10-15]指出基于深度學習的知識圖譜推理技術包含基于分布式嵌入表示推理、關系路徑推理和基于深度強化學習的路徑發現等3類,核心都在于學習事實三元組的低維度嵌入和捕獲多步關系。文獻[16,17]提出的關系路徑推理在圖結構上利用路徑信息建模關系路徑,路徑排序算法在路徑約束組合下選擇關系路徑,并進行最大似然分類。相較深度學習算法,DRL-MHR通過溯源推理路徑解釋其預測結果,推理過程清晰可見,不再是不可解釋的黑盒。文獻[19]中的DeepPath將強化學習應用于關系路徑學習中,通過翻譯嵌入方法對連續空間中的狀態進行編碼,并將關系空間作為其動作空間,根據路徑多樣性和路徑效率的獎勵功能提高準確性。文獻[20]提出MINERVA算法,它通過最大化期望的獎勵,將走到正確答案實體的路徑作為一個順序優化問題。文獻[21]提出了隱性推理網,在訓練數據的嵌入神經網絡空間中,隱性推理網根據當前狀態向量和從共享內存得到的注意力向量共同產生下一個狀態,學習執行多步推理。文獻[22]提出了神經邏輯編程,該方法來自于被稱為TensorLog的可微邏輯,它將一階邏輯規則的參數學習和結構學習結合在一個端到端可微模型中,推理任務則被編譯成可微操作序列。文獻[23]使用收益塑造技術用以改善MINVERVA中的獎勵稀疏問題,本文將其作為基線模型,為了敘述方便,筆者將其簡寫為MHKGR-RS。DRL-MHR在繼承前述基于強化學習框架的基礎上,使用基于圖網絡的知識圖譜拓撲表征方法,構建出高相關性的語義鄰域,使得推理智能體能夠在較小范圍內高效搜索,平衡推理智能體探索不徹底與利用不充分之間的矛盾。
在解決高層次深度強化學習任務時,智能體只有具備交互、感知、學習、反饋、進化等能力,才能做出最優的決策。當前深度強化學習推理主要有3類算法:其一,基于記憶網絡的深度強化學習模型,通過在傳統的DRL模型中加入外部的記憶網絡部件RNN,使得模型擁有了一定的記憶和推理能力。文獻[24-26]中提出的基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法和基于可微分計算機的深度強化學習從不同角度對其優化;其二,將外部知識與深度強化學習結合起來,Lu等[27]通過添加環境特征信息和結合兩個決策源增加圖像輸入,在Microsoft Malmo平臺的3D部分可觀測環境中與單一強化學習模型相比,實驗評估表現出更高的性能和更快的學習速度;其三,將示例視為行為偏差的來源,Bougie等[28]提出了一個以人性化的方式從示例中受益的代理框架。在該框架中,智能體通過觀察建立因果模型,并根據這些知識進行推理,以分解任務,實現有效的強化學習。DRL-MHR算法也是一種離軌策略梯度學習算法,不需要預訓練或微調,從零開始學習策略。對比上述優秀算法,DRL-MHR能夠選擇可變長度路徑,這對于推理鏈復雜的問題至關重要。
為方便查找建模過程中用到的諸多符號,編撰表1便于理解建模思想。為方便使用與閱讀,所有的符號遵循這樣的規律:大寫字母表示該領域,如At表示智能體在時刻t時的動作;花體字母表示該領域的集合,如A表示智能體的行動集合;黑體字母表示對應字母的張量表示形式,如At為At的張量表示形式;小寫字母表示該領域在某一時刻的具體取值,如a表示智能體的具體動作值,其它領域符號以此類推。

表1 符號
知識圖譜工作環境被建模為一個確定的部分可觀測馬爾科夫決策過程,強化學習是一種通過交互式學習實現目標的理論框架,如圖2中顯示,推理智能體是學習及實施決策的主體,知識圖譜是推理智能體活動的環境。推理智能體根據知識圖譜環境的狀態和狀態轉移概率,決定下一時刻跳轉的行為路徑,知識圖譜環境對這些動作依據收益規則,給予推理智能體相應的收益信號,并向推理智能體呈現出新的知識圖譜子圖狀態。知識圖譜環境產生的累計收益,就是推理智能體在不斷地路徑選擇探索中需要最大化的目標。知識圖譜的強化學習環境被定義為一個五元組 (S,O,A,P,R)。

圖2 知識圖譜多跳推理強化學習架構
DRL-MHR采用策略梯度算法,建模強化學習框架只需考慮策略、環境和收益信號。
策略定義了學習智能體在特定時間的行為方式,是環境狀態到動作的映射。在時刻t=(0,1,2,…), 推理智能體和知識圖譜發生交互:推理智能體獲取觀測Ot∈O, 策略選擇動作At∈A, 作為對智能體動作的評價,智能體接收到一個數值化的收益Rt+1∈R?, 并繼續獲取新的觀測Ot+1∈O。 以此類推,推理智能體和知識圖譜環境共同得出一個交互軌跡:Ht=(O0,A0,O1,A1,…,Ot,At)。
參數化策略可以用更簡單的函數近似,且能在系統中引入理想的策略形式的先驗知識,因此本文采用策略梯度算法,直接學習參數化的策略,動作選擇也不再依賴于策略的評估和改進,不會產生上文中的離散集合,下文使用記號θ表示策略張量形式的參數。
2.2.1 狀態
狀態空間S包含所有知識圖譜節點信息的有效組合,推理智能體狀態不僅包含時刻t所處的實體節點εt, 還包括時刻t0時所處的起始實體節點εμσ和關系邊γσ, 以及最終答案節點ενσ。 因此可以定義時間步t時的狀態St=(εt,εμσ,γσ,ενσ)∈S。 初始狀態S0=(εμσ,εμσ,γσ,ενσ), 終止狀態ST=(ενσ,εμσ,γ,ενσ)。 狀態更新是解決部門可觀測性問題的核心部分,在獲取新狀態之前,推理智能體不能采取任何動作或者做出任何預測。
2.2.2 觀測
推理智能體記錄自身在時刻t所處的位置εt和輸入的查詢條件 (εμσ,γσ), 因此可以設置觀測函數Ot=O(St)=(εt,εμσ,γσ)。
2.2.3 動作
動作空間A是推理智能體處于狀態St∈S時,知識圖譜環境有效邊信息的組合。在狀態St下動作At被定義為

(1)
即在時刻t選擇的下一步實體節點不在遍歷過的歷史節點列表中。推理智能體從查詢條件σ的起始節點εμσ開始,通過策略網絡預測最有可能的路徑,不斷探索直至達到目標答案實體節點ενσ。
2.2.4 狀態轉移函數

p(St+1,Rt+1|St,At)=

(2)
在傳統的知識圖譜強化學習路徑推理中,一般采用二元收益函數
R(St)=I{εt=εν}
(3)
即只有在當前實體節點是答案節點的時候才會獲取的收益+1,否則其它時間步獲得的收益都是0。這意味著推理智能體在不斷地執行策略和策略評估后,最終只能得到很少的反饋,收益信號的延遲稀疏性不僅會導致強化學習延遲收斂,更有可能難以學習到有效的策略推理,筆者在知識圖譜推理場景中采用收益塑造技術解決收益稀疏問題。
知識圖譜Φ本質上是不完備的,二元收益方法對假陰性搜索結果的獎勵與對真陰性搜索結果的獎勵相同。為了緩解這個問題,使用模型表征相似性估算對正確性未知的目標實體的軟獎勵。在形式上,表征模型將節點集合Ε和邊集合Γ映射到張量空間,通過余弦函數評估當前狀態與下一步所選動作合并的事實三元組 (εt-1,γt-1,εt) 與知識圖譜Φ中目標事實三元組 (εμ,γ,εν) 的相似性。函數f是后續章節3.3中介紹的表征網絡,一方面余弦相似度可解釋性強,計算簡單;另一方面cos(x)∈[-1,1], 其結果既可以是對正確路徑的獎勵,也可以是對錯誤探索路徑的懲罰,得出下面的收益塑造函數
R(St)=I{εt=εν}+(1-I{εt=εν})cosf(εt-1,γt-1,εt)f(εμ,γ,εν)
(4)
如果εt是知識圖譜Φ上解軌跡Ht的目標答案節點,推理智能體獲得收益+1,如果εt不是知識圖譜Φ上解軌跡Ht的目標答案節點,會根據當前事實三元組與真實三元組的余弦相似程度,被給予適量的獎勵。
基于深度圖強化學習的知識圖譜多跳推理架構如圖3所示:圖譜層、表征層和策略層。圖譜層負責改造由事實三元組數據構建的知識圖譜,在輸入的知識圖譜中添加逆關系和自環關系,方便下游的表征和推理任務;表征層接收圖譜層生成的知識圖譜,將知識圖譜中的節點、邊從語義和拓撲兩個層面映射到統一的知識空間,便于策略層任務的矩陣計算;策略層包含一個深度強化學習結構,根據章節2.2中的建模要求組成知識圖譜環境,推理智能體與知識圖譜環境的不斷交互中,探尋到與真實答案三元組在知識空間中最為相似的目標事實三元組。

圖3 DRL-MHR模型架構
根據上述定義,知識圖譜上的多跳推理被表述為:定義查詢條件σ=(εμσ,γσ), 求解輸入為 (Φ,σ), 解為歷史軌跡Hσ=(εμσ,γμσ+1,…,ενσ-1,γνσ,ενσ) 的算法。
在知識圖譜表征學習領域,ConvE[29]算法是一種被證明有效而且被廣泛運用的算法,但是只有增加知識圖譜中節點與邊的拓撲信息,才能帶來邊際性能的增益。圖網絡學習中特有的“聚集-更新”機制無論在節點級別、邊級別甚至圖級別上的表征能力,彌補了ConvE未能充分利用知識圖譜拓撲信息的短板,因此將知識圖譜的網絡表征分為語義表征和拓撲表征,這樣最大限度利用了知識圖譜提供的原始信息。
如圖4所示,在表征層,知識圖譜被分為節點索引和邊索引的純拓撲信息,以及帶有節點和邊信息的事實三元組兩個部分。拓撲部分送入GCN訓練,學習知識圖譜中節點εi的拓撲表征εtopi=GCN(εi) 和邊γj的拓撲表征γtopj=GCN(γj); 事實三元組部分送入ConvE訓練,學習知識圖譜中節點εi的語義表征εsemi=ConvE(εi) 和邊γj的語義表征γsemj=ConvE(γj); 最終將拓撲表征張量和語義表征張量分別對應連接,得到節點εi的知識表征εi=[εsemi;εsemi] 和邊γj的知識表征γj=[γtopj;γsemj]。

圖4 DRL-MHR模型表征層網絡結構
為了避免致命3要素,即同時使用函數逼近、自舉法和離軌策略訓練,防止出現策略不穩定和發散的風險。面對海量的狀態空間和動作空間,只有利用深度神經網絡強大的對策略非線性逼近能力和端到端的學習能力才能解決高維狀態空間和動作空間的災難,因此在知識圖譜多跳推理非平穩環境中采用策略梯度算法。
圖5右上角的張量列表是3.3節表征層中實體節點ε∈d和關系邊γ∈d的嵌入表示,其中d為知識嵌入維度。為了構建知識圖譜的強化學習環境,就需要按照2.2節的建模要求,構建強化學習的各個組件:待求解關系γσ=[γtopσ;γsemσ] 即為表征層中對該關系的拓撲和語義聯合表征,動作At=(εt-1,γt,εt)∈3×2d即為知識表征后的實體節點和關系邊連接組成的稠密張量,在問答智能體與知識圖譜環境的多個時間步交互中,形成動作歷史列表。觀察Ot=(εt,εμσ,εσ)∈3×2d即為知識表征后的實體節點和關系邊連接組成的稠密張量,在問答智能體與知識圖譜環境的多個時間步交互中,形成觀察歷史列表。動作歷史列表和觀察歷史列表按照章節的定義,組成了圖5左上角的軌跡列表。圖5的下部是問答智能體的深度學習網絡,在得出下一步動作后,按照2.3節算法求解收益,本輪的收益被存入問答智能體的收益歷史列表中,并將此次動作及動作后的觀察分別記錄到動作歷史列表和觀察歷史列表中。至此完成一輪問答智能體與知識圖譜強化環境的交互。

圖5 DRL-MHR模型策略層網絡結構
為解決有限視界確定性部分可觀測馬爾可夫決策過程,收益的概率隨時間變化,歷史軌跡列表H不再將觀察歷史列表和動作歷史列表簡單地組合,而是通過Transformer編碼器將其編碼為連續的張量H∈2d。 設計了一種隨機非平穩歷史相關策略π,并使用Transformer編碼器參數化策略π=(π1,π2,…,πT-1), 其中πtHt→p(A(St)),p為2.2.4節中定義的狀態轉移概率,時間步t的歷史軌跡Ht=(Ht-1,At-1,Ot-1) 是關于曾經的觀察和行動的序列。歷史軌跡H通過堆疊3層Transformer編碼器動態更新其張量表征。
如圖6所示,首先將組成歷史軌跡H的元素分別按照2.2節中介紹的方法,得到各自的拓撲表征和語義表征,將他們連接后得到最終的嵌入表征,將嵌入表征送入頭多注意力,得到的注意力權重與嵌入表征做殘差運算,經過層正則化后,降低數據方差,加快收斂速度,再經過一層前饋神經網絡和層正則化,將結果送入下一個Transformer編碼器,如此堆疊3次,得到最終的時間步t的歷史軌跡Ht=Encoder(Ht-1,[At-1;Ot]),At-1表示在時間步t-1時的行為張量表征,Ot表示在時間步t時的觀察張量表征,[;] 表示張量連結。關系的表征對應于智能體在時間步t時選擇的邊,實體的表征對應于智能體在時間步t時選擇的節點。

圖6 推理智能體Transformer編碼器網絡結構
策略網絡根據輸入的查詢信息,在知識圖譜表征的強化學習環境中,從所有可用動作A(St) 中選擇一個動作,每個可能的操作都表示一個包含關系邊和目標實體的信息輸出邊。每一個動作表征可以被記為 [γl,εd], 堆疊所有輸出邊的表征,得到矩陣Mt。 將其作為輸入的網絡參數化為具有ReLU非線性的兩層前饋網絡,該網絡包含時間步t歷史軌跡表征Ht、 觀察表征ot和查詢關系表征γσ的嵌入形式,從采樣的離散動作中輸出可能動作的概率分布。使用數學語言表述為
πt=softmax(Mt(W2ReLU(W1[Ht;ot;γt]+b1)+b2))
(5)
采用∈-貪婪算法獲取動作結果
Mt={argmax(πt)a,(p=1-∈)random(),(p=∈)
(6)
知識圖譜Φ是非歐幾何空間,實體節點ε∈E沒有固定的順序,也沒有固定數量的邊γ∈Γ。 時間步t的動作空間矩陣Mt大小為2×|A(St)|×d, 此時的決策概率πt大小取決于 |A(St)|。 Transformer編碼層參數、兩層前饋網絡權重W1、W2及其相應的偏差b1、b2構成了策略網絡的參數。
策略梯度方法直接優化目標函數,并且在問題建立的時候就顯式地表達出來。策略梯度方法使用神經網絡的時候需要使用一些特殊的優化方法來解決一些問題。策略方法已經成為了很有競爭力的深度強化方法,主要得益于巨大的并行化潛力以及連續問題的解決能力。策略參數的學習方法都是基于某種性能指標J(θ) 的梯度,這些梯度是標量對策略參數的梯度。訓練的目標是最大化性能指標,其更新近似于J的梯度上升θt+1=θt+αJ(θ)。J(θ) 的期望是性能指標對它的參數梯度的近似。在知識圖譜多跳推理中,性能指標J(θ) 被定義為
J(θ)=(εμ,γ,εν)~D[(A1,…,AT-1)~πθ[R(ST)|S0=
(εμσ,εμσ,γσ,ενσ)]]
(7)
(εμ,γ,εν)~D是策略π下的同軌策略分布。為了解決這個優化問題,采用蒙特卡洛策略梯度算法REINFORCE。由分幕式問題策略梯度定理可知

π[∑aπ(a|St,θ)qπ(St,a)π(a|St,θ)π(a|St,θ)]=
π[qπ(St,At)π(At|St,θ)π(At|St,θ)]
(8)
根據狀態價值函數定義及2.2.4節中定義的狀態轉移函數可得目標函數梯度計算公式

(9)
在訓練的過程中,將累積收益的移動平均值作為基線,調整移動平均線的權重作為一個超參數。為了鼓勵策略在訓練時采樣路徑的多樣性,增加了∈-貪婪算法中∈的數值、降低學習率等超參數,以更好維持探索與利用之間的平衡。
本文的實驗選擇常用的5種知識圖譜數據集,涵蓋體育、經濟、政治等不同內容,容量從千級到十萬級不等,盡可能測試出基于深度圖強化學習算法的歸納偏置能力。表2中列出了UMLS[30]、KINSHIP[31]、WN18RR[32]、NELL-995[33]、FB15K-237[34]等5個數據集中關于實體、關系和事實三元組的數量統計信息。

表2 數據集信息概要
其中知識密度計算公式為:ρ=Num(Tri)/(C2Num(Ver)×Num(Edg)), 意為數據集事實三元組與理想狀態下全聯通知識圖譜事實三元組的比值,比值越高,表明知識越豐富,知識圖譜越完善。從表2可以看出UMLS數據集和KIN-SHIP數據集的知識密度較高,事實三元組較為充分,WN18RR數據集、NELL-995數據集和FB15K-237數據集的知識密度極低,意即知識圖譜中的事實三元組極為稀疏。
作為對照實驗,精選較有代表性的兩類3種算法,基于知識圖譜嵌入的ConvE、基于強化學習路徑推理的MHKGR-RS及本文所述算法。ConvE算法將源實體和關系嵌入為張量,轉換成矩陣后拼接,利用卷積核對拼接后的矩
4.2.1 命中率測試
Hits@n和平均倒數排名(mean reciprocal rank,MRR)是被用來評估多跳知識問答模型效果的指標。對于事實三元組K,Hits@n定義為[35]
Hits@n=1|K|∑|K|i=1I(ranki≤n)
(10)
|K| 為三元組集合個數,I(·) 是指示函數,即若條件真則函數值為1,否則為0,ranki指的是第個三元組的鏈接預測排名。
本文采用Hits@1和Hits@3度量指標,Hits@1是指正確答案是最終排序的第一個的占比,Hits@3是指正確答案是最終排序的第三個的占比。平均倒數排序MRR定義為
MRR=1|K|∑|K|i=11ranki
(11)
即是所有正確答案實體排名的倒數的均值。
從表3可以看出基于知識圖譜嵌入方法在命中率上依然有著較強的優勢,強化學習系列算法依然有著較大的進步空間。

表3 不同算法在數據集上命中率測試結果
4.2.2 累計收益測試
為了使測試結果更具有普適性,選擇在UMLS、KINSHIP、WN18RR、NELL-995和FB15K-237等5個數據集上做算法效果測試,驗證MHKGR-RS與DRL-MHR在累積收益方面的差異。(說明:圖7、圖8、圖9、圖10和圖11中橫坐標為智能體與環境的交互次數,縱坐標為智能體獲得的累計收益。)

圖7 MHKGR-RS與DRL-MHR在UMLS上的累積收益

圖8 MHKGR-RS與DRL-MHR在KINSHIP上的累積收益

圖9 MHKGR-RS與DRL-MHR在WN18RR上的累積收益

圖10 MHKGR-RS與DRL-MHR在NELL-995上的累積收益

圖11 MHKGR-RS與DRL-MHR在FB15K-237上的累積收益
表3列出了ConvE、MHKGR-RS和DRL-MHR等多跳知識問答方法分別在UMLS、KINSHIP、WN18RR、NELL-995和FB15k-237等5個數據集上的實驗結果,采用的評測指標有Hits@1、Hits@3和MRR。從表3可以看出:在UMLS和KINSHIP等小規模數據集上,3種算法效果并沒有太大差異,甚至還在某些評價指標方面基于強化學習的MHKGR-RS和DRL-MHR不如基于嵌入的ConvE模型,這是因為這兩個數據集事實三元組較為密集,關系路徑較為完備,不會出現較多的缺失路徑,以收益最大化為牽引的推理智能體并沒有在路徑搜索上體現優勢,相反ConvE以其更加完備的語義表征能力,在包含稠密知識的數據集中效果更佳。DRL-MHR關注于找到實體對間的路徑,并不會判斷實體對是否為正樣本,更適合處理一對多的關系類型。MHKGR-RS擅長應對帶有噪聲的推理場景,在稀疏的知識密度場景中具有更強的魯棒性。在知識密度最為稀疏的NELL-995數據集中,DRL-MHR模型的表現弱于MHKGR-RS,Hits@1效果降低了17%。在知識密度較為稠密且接近的WN18RR和FB15k-237數據集上,DRL-MHR在Hits@1單項指標方面分別比MHKGR-RS高出了10% 和11%,這是因為MHKGR-RS智能體在訓練時受到假負樣本的影響,智能體可能被假搜索軌跡誤導卻偶然地被引向了正確答案,DRL-MHR采用收益塑造技術,高質量的獎勵產生豐富的正確動作序列用于訓練,使智能體探索更廣泛的路徑集合,以抵消對虛假路徑的敏感度。
對于MHKGR-RS和DRL-MHR兩種強化學習算法,如圖8~圖12所示,兩種基于收益塑造的強化學習算法都具有明顯的“冷啟動”現象,甚至在某些節點的推理過程中會出現累積收益為負的情況,總體上DRL-MHR算法相較MHKGR-RS具有更高的累積收益,能夠探索到更有價值的路徑,獲得更優的推理路徑。但在NELL-995數據集上,MHKGR-RS算法的累計收益一直比同時間步的DRL-MHR高,這應該與NELL-995數據集中的數據有關,MHKGR-RS更擅長于處理一一映射關系,DRL-MHR算法不僅考慮到語義表征還綜合了拓撲表征,相較隨機游走和圖線性自動編碼器,對知識圖譜拓撲信息做圖卷積操作能夠獲得更加豐富的意含表征。DRL-MHR使用的收益塑造技術能夠改善報酬稀疏問題。為了實現更有效的路徑探索,使用價值函數對搜索目標進行評分,該價值函數根據歷次累積的搜索歷史進行更新。對于圖10中MHKGR-RS在WN18RR數據集上累積收益為負的情況,分析WN18RR的度均值僅為2.19,而且知識圖譜節點的出度、入度遵循冪等率,即節點的出度、入度數量變化極大,在均值極小,方差極大的場景中,智能體在有些節點上會有很大的動作空間,而在其它節點上動作空間又會很小,在動作空間很大的節點處做出錯誤決策的概率較高,這不僅影響策略梯度的收斂速度,甚至可能根本就無法收斂,是知識圖譜多跳推理的難點問題,DRL-MHR的收益塑造算法改善了這一難點。
收益塑造技術能夠緩解獎勵稀疏問題,相較于基于符號邏輯規則方法通用性更好,相較于基于分布式嵌入方法可解釋性更強,相較于之前的強化學習系列算法收益更平滑。將圖神經網絡與強化學習分別作用在算法的表征層和策略層,兩者是上下游的關系,并沒有直接發生關系。一種思路是憑借圖神經網絡提取任意圖中局部連接特征的通用性及學習有效狀態編碼的適用性,利用逐漸增大的感受野產生的卷積層的潛在特征擴展智能體的搜索路徑,使其能夠有效擴充蒙特卡洛樹搜索的“選擇-擴展-模擬-回溯”流程。另一種思路是利用Transformer具備強大的語義表征能力和高容量序列建模能力,善于捕獲超長視界的相關性,使用Transformer解碼器對狀態、動作、收益和回報等軌跡四元組進行自回歸建模,生成下一步推理動作,將知識圖譜多跳推理的序列決策問題轉化成推理路徑生成任務。當前信度通過計算自注意力得到新的信度估計值,滿足長期信度分配的自舉需求,取代基于模型的控制約束,建模軌跡三元組的分布,使用啟發式集束搜索以最大收益為目標解碼下一時間步推理軌跡。緊密融合圖神經網絡和強化學習將成為后續重點研究方向,為實現具有交互、感知、學習、反饋、進化能力的系統探索一條新的道路。