


















摘 要:動態三維迷宮是較為困難的、具有不確定性和不完全信息的強化學習任務環境,使用常規獎勵函數在此環境中訓練任務,速度緩慢甚至可能無法完成。為解決利用強化學習在動態迷宮中尋找多目標的問題,提出一種基于事件觸發的綜合獎勵方案。該方案將三維迷宮中各種行為狀態表達為各種事件,再由事件驅動獎勵。獎勵分為環境獎勵和內部獎勵,其中環境獎勵與三維迷宮任務直接相關,含有體現任務目標的節點獎勵和任務約束的約束獎勵。內部獎勵與智能體學習過程中的狀態感受相關,含有判斷獎勵和心情獎勵。在實驗中,綜合獎勵的性能均值相較于改進獎勵提升54.66%。結果表明,綜合獎勵方案在提高完成任務滿意度、增強探索能力、提升訓練效率方面具有優勢。
關鍵詞:三維迷宮;獎勵設計;強化學習;事件觸發
中圖分類號:TP391 文獻標志碼:A文章編號:1001-3695(2024)06-014-1699-05
doi: 10.19734/j.issn.1001-3695.2023.10.0440
Integrated reward design for dynamic 3D mazes
Abstract:Dynamic 3D mazes present more challenging environments for reinforcement learning due to their uncertainty and incomplete information. Conventional reward functions can lead to slow and ineffective task training. This paper proposed an event-triggered integrated rewards scheme to solve the problem of finding multiple targets in a dynamic maze using reinforcement learning. The scheme expressed the various behavioral states in the 3D maze as events, which in turn derived the rewards. This paper divided rewards into environmental rewards and internal rewards. Environmental rewards directly related to the 3D maze mission and included node rewards reflecting the mission objectives and constraint rewards reflecting the mission constraints. Internal rewards linked to the agent’s emotional state during the learning process and encompassed both judgement and mood rewards. The average performance of the integrated reward shows a 54.66% improvement compared to the upgraded reward. The results suggest that the integrated reward scheme offers benefits by increasing satisfaction with task completion, promoting exploration, and boosting training efficiency.
Key words:3D maze; reward design; reinforcement learning; event trigger
0 引言
迷宮問題是一種用于最短路徑、最優路徑、避障算法等研究的較佳環境載體,目前人工智能的發展使得強化學習成為解決迷宮這類問題的可選智能方案。部分復雜人工智能應用場景研究中,如無人機路徑規劃、目標跟蹤、機械臂避障等,可以簡化為動態三維迷宮問題。動態三維迷宮問題的求解環境從二維轉為三維,解空間急劇增大,同時由于迷宮中部分路徑障礙從靜態轉為動態,使得智能體的每一步選擇具有一定的時空局限性。面對復雜強化學習問題,Dewey[1]認為激發智能體期望行為的獎勵設計變得更加困難但更重要,因此如何合理設計獎勵函數,成為使用強化學習解決動態三維迷宮問題的關鍵。
不確定性和獎勵稀疏是復雜強化學習問題中出現學習緩慢、探索困境的重要原因,文獻[2]介紹了基于不確定性的深度強化學習探索方法,研究使用不同的思路提升探索效率,但是這些方法在復雜強化學習環境的泛化使用仍是一個挑戰。獎勵設計研究有助于解決獎勵稀疏問題,基于勢函數的獎勵塑造通過先驗信息對狀態進行先驗判斷[3],提供了密集化的獎勵,成為促進學習過程的啟發式獎勵設計主流方法,然而先驗信息可用性與具體域、場景相關[4],降低了方法的通用性。Wiewiora等人[5]在基于勢函數的獎勵塑造基礎上,將勢函數從狀態擴展到狀態和動作,提出前瞻和回溯兩種建議方法,具有一定的啟迪性。Cai等人[6]為解決強化學習應用于實際任務的安全問題,提出的新方法在獎勵塑造中結合了安全機制,克服獎勵稀疏問題的同時保持了安全探索,可惜策略級別的安全值設計也限制了方法的遷移性。內在動機(intrinsic motivation)可以提供與任務無關的一般化探索策略。Singh等人[7,8]引入內在動機,在生物進化問題中通過分析數據,發現該問題的最佳獎勵由兩部分組成,即外部的任務動機獎勵和內在動機的激勵探索獎勵,但該研究局限于生物進化類任務,對遷移學習尤其是多任務學習的意義還有待探索。Ren等人[9]為解決主要獎勵與輔助獎勵的平衡問題,以帕雷托最優解(Pareto optimal solution)的形式提出獎勵平衡迭代學習框架,相較于啟發式獎勵設計,有效平衡了獎勵關系,然而該框架是否可應用于具有大狀態和動作空間的任務仍是一個開放性的問題。近年來,對獎勵函數的研究[10~16]集中在范式結構方面,獎勵設計的研究大多與特定任務深度綁定[17~20],復雜強化學習問題的通用獎勵設計仍是一個挑戰。
上述文獻對三維迷宮的獎勵設計都有一定的參考,但因為依賴各自特定的任務場景,無法直接遷移到三維迷宮強化學習環境中。受以上研究中的各種獎勵設計方案啟發,本文提出一種新的獎勵設計思路:綜合環境獎勵與內部獎勵,設計基于事件觸發機制的獎勵函數。該思路在三維迷宮中分析出復雜環境中的各種事件,在事件觸發的基礎上,綜合考慮獎勵塑造與外在環境以及內在動機的關系,提出獎勵函數由環境獎勵和內部獎勵構成。環境獎勵依賴于三維迷宮環境任務動機,內部獎勵與智能體系統狀態聯系緊密,由此共同引導強化學習解決動態三維迷宮問題。
1 融合強化學習的動態三維迷宮環境
1.1 動態迷宮環境及其事件集
本文給出的動態三維迷宮,如圖1所示,它是一個封閉的14×14×14三維格狀空間。該迷宮環境包含固定障礙物(wall)、動態障礙物(animal)、目標物(target)和智能體(agent)四類實體,下文中使用括號內的英文時特指迷宮環境中的實體。該環境中agent的任務描述為:在固定步數條件下盡可能少碰撞障礙物、盡可能多到達target位置。其中在到達target位置后,該target將出現在其他位置,環境中始終存在2個target。三維迷宮中有多個實體類型,部分實體位置可以動態變化,是一個非常復雜的強化學習環境,為描述環境變化和設計獎勵,提出一種基于事件觸發的機制。所有基礎事件如表1所示。
根據事件對任務有無直接影響,把基礎事件集B劃分出獎勵集G。B包含了表1中的所有基礎事件,G是B一個子集,只包含能夠直接影響任務的事件,定義G中元素e3、e5、e6、e7為可觸發的節點事件。事件集定義如下:
B={e1,e2,e3,e4,e5,e6,e7,e8}G={e3,e5,e6,e7}
1.2 動態迷宮的強化學習與事件觸發機制基礎
A={up,down,left,right,forward,back,wait}(1)
式(1)是agent動作空間定義,動作集合中的元素分別表示上下左右前后移動一格,wait也視為一種動作,表示原地等待。圖2是其示意圖。
三維迷宮中的狀態信息龐雜,為了能高效獲取強化學習的信息元素,agent僅獲取合理且有限的環境信息。采用如下形式表示agent可獲得的當前狀態信息:
s=(x,y,z,vU,dU,vD,dD,vL,dL,vR,dR,vF,dF,vB,dB)(2)
其中:狀態前三項(x,y,z)是位置信息,表示當前agent的位置坐標;后續項是觀測信息,變量v表示agent碰撞某方向最近實體的預測獎勵,變量d表示某方向最近實體與agent當前位置的距離,變量下標中的大寫字母表示方向,方向集合X={U,D,L,R,F,B}中的元素是迷宮六個方向的簡稱,例如vU代表agent從當前位置到達“上”方向最近實體的預測獎勵,根據實體與任務的關系,預測獎勵值可以根據需要改變。所有狀態組合形成狀態空間S。
ETrigger(s,a,s′)a∈A,s∈S,s′∈S(3)
迷宮中事件觸發機制由觸發函數完成,式(3)中Trigger(·)是事件觸發函數,可記錄各事件及其觸發次數。參數a是智能體采取的動作,s和s′是動作前后的狀態。返回值E是集合,包含所有該次觸發中獲得的事件。動態迷宮任務使用離散時間,t=0,1,2,3,…。將其抽象為強化學習形式,如圖3所示。
t時刻智能體獲得狀態信息st,選擇一個動作at,執行后進入新狀態st+1,并通過計算得到綜合獎勵rt。動作與狀態的具體設計是強化學習獎勵設計的基礎,事件集中的各種事件及其觸發次數對智能體每一個動作之后狀態獲取的獎勵有很大影響,如表2所示。
在獎勵過程中,綜合獎勵的計算需要利用狀態和動作的具體設計并結合事件對獎勵的影響和事件觸發機制完成,綜合獎勵的設計影響三維迷宮任務的解決效率,是本文設計中的重中之重。
2 動態三維迷宮的綜合獎勵函數設計
2.1 動態三維迷宮的任務目標和綜合獎勵
動態三維迷宮的任務是“在固定步數條件下盡可能少碰撞障礙物、盡可能多到達target位置”,任務的核心在于獎勵集的節點事件,因此不宜直接以獎勵值評估獎勵設計的性能。本文使用成就值作為完成任務性能的主要評價指標。
成就值定義為該輪任務中節點事件獎勵re與其次數Ne乘積的累積和,如式(4)所示,事件觸發次數Ne可由式(3)獲得,獎勵值re已知,其直觀表示觸發節點事件時agent的即時獎勵。綜合獎勵設計中的狀態與傳統狀態意義不同。對較復雜的實際任務,信息完備的理想狀態信息很難獲得,如無人機的傳感器不能直接獲取環境完備信息。為去除冗余信息,在動態迷宮中,狀態設計為式(2)中非全感知的形式。綜合獎勵r定義為環境獎勵與內部獎勵之和:
其中:ren(·)表示環境獎勵;rin(·)表示內部獎勵;t維向量狀態跡Str表示從初始狀態s0到當前狀態st的狀態序列。
Str=(s0,s1,…,st)(6)
環境獎勵ren源于傳統稀疏獎勵設計思想;內部獎勵rin包含衡量智能體進步的判斷獎勵和改善智能體表現的心情獎勵,其中心情獎勵需要參數狀態跡。
2.2 動態三維迷宮綜合獎勵中的環境獎勵
環境獎勵表現為當前任務條件下針對三維迷宮環境的客觀獎勵,受節點事件和任務約束影響,可以細分為節點獎勵和約束獎勵,如式(7)所示。
ren(s,a,s′)=Reward(s,a,s′)+Penaltyt(Penaltyt-1,s,a,s′)(7)
其中:Reward(·)函數代表節點獎勵,是傳統稀疏獎勵設計的直接擴展;懲罰函數Penalty(·)體現任務約束,補充節點獎勵未涉及的部分,使用負獎勵描述當前時刻的緊急程度。節點獎勵如式(8)所示。
其中:Penaltyt<0,以鼓勵agent到達target位置和避免碰撞障礙物;P(·)是中間變量;pei是改變緊急程度的變化參數;pmin是函數的取值下限;pbas是函數的初始值。pmin和pbas取值為(-∞,0)。有利于任務的事件會削弱緊急程度,對應pe取值為(0,1);不利于任務的事件則會增加緊急程度,對應pe取值為(1,+∞);而其他情況則緊急程度不變,取值為1。
2.3 動態三維迷宮綜合獎勵中的內部獎勵
動態三維迷宮的內部獎勵是智能體自發產生的主觀獎勵,由內部系統結合外部環境決定,包括判斷獎勵和心情獎勵。
rin(s,s′,Str)=Judge(s,s′)+Boring(Str)(10)
式(10)中判斷獎勵由函數Judge(·)實現,該函數使用獎勵塑造勢函數的概念。心情獎勵是agent內部獎勵的另一重要部分,負責調控智能體行為以提升算法性能,為避免循環解,使用Boring(·)函數,其思想是給予最近重復行為負獎勵,心情獎勵可以進行擴充。
Judge(s,s′)=Φ(s′)-Φ(s)(11)
式(11)是判斷獎勵。Judge(·)函數值為新舊狀態勢函數的差值,表示對完成任務進步程度的判斷;Φ(·)是狀態勢函數,由agent根據狀態進行動態感知。勢函數的設計如下:
其中:μ(·)是權重系數函數;jpositive是積極權重系數;jnegative是消極權重系數,權重系數取值(0,1);vχ是式(2)狀態中的預測獎勵;χ是該項的方向;dχ是式(2)狀態中的距離;X是方向集合。給出初始環境一個平面的勢函數圖,如圖4所示。
圖4中平面坐標與動態迷宮環境一致,V軸表示勢函數的值。空白區域代表該處不可達。
其中:mboring是Boring函數的系數;loopBody(·)用于求取Str倒序中以最新狀態開始的無聊子序列的長度,無聊子序列在Str倒序中需連續重復出現;circleNum(·)用于求取無聊子序列在Str倒序中連續重復出現的次數,可以根據事件集B中的事件觸發次數獲取。
2.4 動態三維迷宮的綜合獎勵算法
動態三維迷宮綜合獎勵的單步流程如算法1所示。綜合獎勵算法是強化學習中的獎勵函數部分,整體的獎勵過程由相同的綜合獎勵單步流程構成。單步獎勵流程中首先通過事件觸發機制得到本步的觸發事件集合,觸發事件直接影響環境獎勵。接著進行內部獎勵的計算,最后根據環境獎勵和內部獎勵得出本步的綜合獎勵。
算法1 Single-step for integrated reward
3 實驗結果與分析
3.1 實驗環境
對迷宮環境建立笛卡爾坐標系,以坐標軸的正負指向定義方向X。agent與animal活動空間位于第Ⅰ象限。以實體距離原點最近的頂點坐標代表實體坐標,實體向某方向緊鄰單元移動簡化為單個坐標的平移,移動過程以一個立方體為單位。
animal移動策略: animal分為3組,第1組兩個animal從初始位置開始隨機行動;第2組animal分別關聯兩個target,當自身位置距離關聯target太近則遠離target,太遠則靠近target,在合適的空間范圍則隨機移動;第3組2個animal則分別順時針和逆時針在邊長不同、高度相同的框面中以反復螺旋方式移動。
3.2 對比方案和實驗設置
獎勵設計方案包括簡單獎勵、改進獎勵和綜合獎勵。綜合獎勵參數取值如表3所示。獎勵方案設置的區別如表4所示。
評價指標:實驗以式(4)成就值作為主要評價指標,并分析評估三種獎勵方案中,agent軌跡和狀態數目方面的表現。
強化學習算法:算法采用Q-learning,動作行為策略為常規的ε-greedy方法。探索因子ε=0.1,學習因子α=0.1,折扣因子γ=0.9。
3.3 動態三維迷宮環境下的實驗結果
考慮獎勵方案的長期及訓練中的性能表現,每萬輪記錄獎勵方案的Q表。agent軌跡可以直觀反映三種獎勵方案在動態三維迷宮任務中的表現。使用300萬輪三種獎勵方案各自的Q表,單輪agent運動軌跡如圖5所示。
圖5(a)表明,采用簡單獎勵方案的agent傾向于保守行動,出現大量重復和原地不動行為,躲避行為較少,整體軌跡單調,綠色軌跡上的1個紅點表明該輪訓練中只到達target坐標一次。圖5(b)表明,改進獎勵中,軌跡顯示agent探索到初始狀態的另一target區域,改進方案的智能體軌跡相較于簡單獎勵更為復雜,躲避animal的行為更明顯,很少出現原地不動的行為,但仍有明顯的重復行為,圖中綠色軌跡上的2個紅點代表改進獎勵方案的agent在此輪中到達target位置兩次(參見電子版)。圖5(c)采用綜合獎勵的agent表現出明顯的活躍性,很少出現重復或原地不動的行為,圖中大多數軌跡顯示出agent的目的性,即躲避animal或向target移動,軌跡上的復數紅點表明agent途徑范圍囊括了更多的target。
使用記錄的Q表,三種方案每種300共計900個Q表,對方案的成就值和獎勵值進行比較,均值由各Q表獨立訓練100次求得,結果如圖6、表5所示。圖6 (a)是三種獎勵條件下不同訓練輪數時的成就值,簡單獎勵方案中成就值較低,為-3.43~9.63,標準差3.35較大,表明簡單獎勵性能較差且不穩定;改進獎勵中分布比較密集,標準差1.59,表明其性能較為穩定;綜合獎勵的成就值在25.10~42.50,均值相較于改進獎勵提升54.66%。數據表明,綜合獎勵方案實現目標的性能優于改進獎勵和簡單獎勵。圖6 (b) 顯示三種獎勵方案對平均獎勵的影響。在平均獎勵穩定性方面,綜合獎勵方案不及改進獎勵,不過不影響綜合獎勵在實現目標方面的性能。
圖7展示了300萬輪訓練中三種獎勵方案的狀態數目變化。可以發現,簡單獎勵整體較為平緩,綜合獎勵多于改進獎勵,增長趨勢都逐漸下降。三種方案的最終狀態數目分別是34.3萬、116.1萬、137.9萬。綜合獎勵狀態數目約是改進獎勵的1.188倍,約是簡單獎勵的4倍。狀態數目與智能體的探索能力相關,在策略相同的條件下,綜合獎勵的探索能力優于改進獎勵和簡單獎勵。
最終,通過計算三種方案的平均成就值、平均獎勵值、最終狀態數目說明三種方案的比較結果,其中平均成就值體現完成任務的能力,平均獎勵的大小體現獎勵函數的塑形能力,最終狀態數目說明探索能力的強弱。以上數據與分析說明,綜合獎勵在完成任務、探索能力方面優于傳統獎勵方案和改進獎勵方案。
進一步分析綜合獎勵的組成,抽取第5 000輪時環境獎勵與內部獎勵一輪中的變化圖,如圖8所示。圖8(a)環境獎勵中,節點獎勵非零值對應獎勵集G中的節點事件,并使約束獎勵發生變化,節點獎勵中高峰值10對應e7,負值對應其他節點事件。約束獎勵后半段到達最小值,則不再因負面節點事件減小。圖8 (b)內部獎勵中判斷獎勵的正負對沖狀況十分明顯,表明此時agent出現重復行為,但在節點獎勵高峰對應的140步和222步前,判斷獎勵為4左右的正獎勵無對應負獎勵,表明判斷獎勵輔助agent到達target位置。心情獎勵的頻繁波動與判斷獎勵代表的agent重復行為相對應,觸發e1事件時,心情獎勵以鼓勵新行為的方式影響決策。
同時從圖8看出,節點獎勵與約束獎勵直接源于任務要求,獎勵值成分重,是完成任務的主要參考。判斷獎勵數量級較大,但因勢函數特性不會干擾任務目標。心情獎勵數量級遠低于節點獎勵,不會影響任務主體方向,當出現對應的不利任務行為時,心情獎勵能輔助算法作出更符合期望行為的決策,因此綜合獎勵相對于改進獎勵改善了agent的重復低效行為。
改變迷宮環境,主體障礙高度改為3,新增兩處障礙,改變動態障礙物規則,將目標物的數量增加至4,使用綜合獎勵方案運行一次,得到圖9。智能體探索行為增多,軌跡上4個紅點表示多次到達target位置。使用原環境學習后的綜合獎勵設計的Q表,在改變后的迷宮環境中仍表現出較高的性能,表明綜合獎勵設計與具體環境沒有深耦合,在同類任務遷移中具有可行的泛化能力。
4 結束語
動態三維迷宮具有動態隨機的特性,對強化學習具有挑戰性,本文提出一種基于事件觸發的綜合考慮獎勵設計思路,用于提高動態三維迷宮的強化學習效果。理論分析與實驗表明,簡單獎勵采用傳統獎勵函數中的稀疏獎勵方案,無法適應任務環境的動態特性,表現不佳且穩定性差;改進獎勵中增加的約束獎勵相關函數改善了簡單獎勵的保守策略,但對于更好地完成任務缺乏方向性;綜合獎勵方案以事件觸發為基礎,綜合了獎勵塑造和內在動機,提出環境和內部的內外獎勵思路,在性能和探索能力方面表現更好。三維迷宮中的綜合獎勵函數設計思想可應用于大型復雜的強化學習場景,例如利用機械臂在動態空間中抓取可移動的目標物,探索困難任務的學習訓練過程。
參考文獻:
[1]Dewey D. Reinforcement learning and the reward engineering principle [C]// Proc of AAAI Spring Symposium on Series. 2014.
[2]逄金輝,馮子聰. 基于不確定性的深度強化學習探索方法綜述 [J]. 計算機應用研究,2023,40(11): 3201-3210. (Pang Jinhui,Feng Zicong. Exploration approaches in deep reinforcement learning based on uncertainty: a review [J]. Application Research of Computers,2023,40(11): 3201-3210.)
[3]Ng A Y,Harada D,Russell S. Policy invariance under reward transformations: theory and application to reward shaping [C]// Proc of the 16th International Conference on Machine Learning. San Francisco,CA: Morgan Kaufmann Publishers Inc.,1999: 278-287.
[4]Riedmiller M,Hafner R,Lampe T,et al. Learning by playing solving sparse reward tasks from scratch [C]// Proc of International Confe-rence on Machine Learning. [S.l.]:PMLR,2018: 4344-4353.
[5]Wiewiora E,Cottrell G W,Elkan C. Principled methods for advising reinforcement learning agents [C]// Proc of the 20th International Confe-rence on Machine Learning. Palo Alto,CA: AAAI Press,2003: 792-799.
[6]Cai Mingyu,Xiao Shaoping,Li Junchao,et al. Safe reinforcement learning under temporal logic with reward design and quantum action selection [J]. Scientific Reports,2023,13(1): 1925.
[7]Singh S,Lewis R L,Barto A G. Where do rewards come from?[C]// Proc of Annual Conference of the Cognitive Science Society. 2009: 2601-2606.
[8]Singh S,Lewis R L,Barto A G,et al. Intrinsically motivated reinforcement learning: an evolutionary perspective [J]. IEEE Trans on Autonomous Mental Development,2010,2(2): 70-82.
[9]Ren Jinsheng,Guo Shangqi,Chen Feng. Orientation-preserving rewards’ balancing in reinforcement learning [J]. IEEE Trans on Neural Networks and Learning Systems,2021,33(11): 6458-6472.
[10]Van Seijen H,Fatemi M,Romoff J,et al. Hybrid reward architecture for reinforcement learning [EB/OL]. (2017-11-28). https://arxiv.org/abs/1706.04208.
[11]Icarte R T,Klassen T,Valenzano R,et al. Using reward machines for high-level task specification and decomposition in reinforcement lear-ning [C]// Proc of International Conference on Machine Learning. [S.l.]:PMLR,2018: 2107-2116.
[12]Camacho A,Icarte R T,Klassen T Q,et al. LTL and beyond: formal languages for reward function specification in reinforcement learning [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. 2019: 6065-6073.
[13]Li Mike,Nguyen Q D. Contextual bandit learning with reward oracles and sampling guidance in multi-agent environments [J]. IEEE Access,2021,9: 96641-96657.
[14]Icarte R T,Klassen T Q,Valenzano R,et al. Reward machines: exploiting reward function structure in reinforcement learning [J]. Journal of Artificial Intelligence Research,2022,73: 173-208.
[15]Furelos-Blanco D,Law M,Jonsson A,et al. Hierarchies of reward machines [C]//Proc of International Conference on Machine Learning. [S.l.]:PMLR,2023: 10494-10541.
[16]Huang Changxin,Wang Guangrun,Zhou Zhibo,et al. Reward-adaptive reinforcement learning: dynamic policy gradient optimization for bipedal locomotion [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(6): 7686-7695.
[17]Tang Bixia,Huang Y C,Xue Yun,et al. Heuristic reward design for deep reinforcement learning-based routing,modulation and spectrum assignment of elastic optical networks [J]. IEEE Communications Letters,2022,26(11): 2675-2679.
[18]Kvári B,Pelenczei B,Aradi S,et al. Reward design for intelligent intersection control to reduce emission [J]. IEEE Access,2022,10: 39691-39699.
[19]Goh H H,Huang Y,Lim C S,et al. An assessment of multistage reward function design for deep reinforcement learning-based microgrid energy management [J]. IEEE Trans on Smart Grid,2022,13(6): 4300-4311.
[20]Zhang Hao,Lu Guoming,Qin Ke,et al. AInvR: adaptive learning rewards for knowledge graph reasoning using agent trajectories [J]. Tsinghua Science and Technology,2023,28(6): 1101-1114.