999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)在獎勵的技能獲取和組合方法

2022-12-31 00:00:00趙英秦進
計算機應用研究 2022年12期

收稿日期:2022-04-04;修回日期:2022-06-01" 基金項目:貴州省科學技術基金資助項目(黔科合基礎[2020]1Y275);貴州省科技計劃項目(黔科合基礎[2019]1130號)

作者簡介:趙英(1995-),女,貴州遵義人,碩士,主要研究方向為強化學習(2642123704@qq.com);秦進(1978-),男,貴州黔西人,副教授,博士,主要研究方向為強化學習、智能計算.

摘 要:現(xiàn)有的內(nèi)在獎勵隨著agent不斷探索環(huán)境而逐漸消失,導致了agent無法利用內(nèi)在獎勵信號去指引agent尋找最優(yōu)策略。為了解決這個問題,提出了一種基于內(nèi)在獎勵的技能獲取和組合方法。該方法首先在agent與環(huán)境交互過程中尋找積極狀態(tài),在積極狀態(tài)中篩選子目標;其次從初始狀態(tài)到達子目標,子目標到達終止狀態(tài)所產(chǎn)生的一條軌跡中發(fā)現(xiàn)技能,對技能中出現(xiàn)一個或者兩個以上的子目標進行組合;最后用初始狀態(tài)到子目標的距離和初始狀態(tài)到子目標的累積獎勵值對技能進行評估。該方法在Mujoco環(huán)境中取得了較高的平均獎勵值,尤其是在外在獎勵延遲的情況下,也能取得較好的平均獎勵值。說明該方法提出的子目標和技能可以有效地解決內(nèi)在獎勵消失后,agent無法利用內(nèi)在獎勵信號學習最優(yōu)策略的問題。

關鍵詞:積極狀態(tài);子目標;技能;技能評估

中圖分類號:TP181"" 文獻標志碼:A

文章編號:1001-3695(2022)12-023-3678-05

doi:10.19734/j.issn.1001-3695.2022.04.0231

Intrinsic reward-based skill acquisition and combination approach

Zhao Ying,Qin Jin

(College of Computer Science amp; Technology,Guizhou University,Guiyang 550025,China)

Abstract:The existing intrinsic reward gradually disappears as the agent continues to explore the environment,which makes the agent unable to use the intrinsic reward signal to guide the agent to find the optimal strategy.This paper proposed an intrinsic reward-based skill acquisition and combination approach to address this issue.The method firstly searched for a positive state in the interaction process between the agent and the environment,and selected the subgoal in the positive state.Secondly,it found the skill from a trajectory generated by the initial state to the subgoal and the subgoal to the termination state,and combined one or two or more subgoals in the skill.Finally,it used the skill to evaluate the distance from the initial state to the subgoal and the cumulative reward value from the initial state to the subgoal.The method achieves a high average reward value in the Mujoco environment,especially when the extrinsic reward is delayed.It shows that the subgoal and skills of the proposed method can effectively solve the problem that the agent cannot use the intrinsic reward signal to learn the optimal policy after the intrinsic reward disappears.

Key words:positive state;subgoal;skill;skill assessment

0 引言

強化學習[1]的主要任務是agent不斷地與環(huán)境進行交互,從而使未來累積獎勵值達到最大值。agent在環(huán)境中不斷地從試錯中學習新的技能,然后利用所學的技能獲得最優(yōu)策略,從而使未來累積獎勵值達到最大值。近年來,內(nèi)在動機和強化學習的結(jié)合引起了研究者的廣泛關注。內(nèi)在動機來自心理學,主要描述在人類中觀察到的自發(fā)探索行為[2]。心理學家把行為分為外在動機和內(nèi)在動機。外在動機是指因某些外部提供的獎勵而做某事,而內(nèi)在動機則是指因為某件事本身具有趣味性或令人愉悅而做某事。從進化的角度來看,外在動機引導人們學習直接提高適應能力的行為,內(nèi)在動機促進人們或agent獲得本身的知識和技能,這些知識和技能幫助agent增加環(huán)境探索能力和學習最優(yōu)策略。

內(nèi)在動機的方法主要分為兩類,一類是通過各種各樣的函數(shù)定義內(nèi)在獎勵,通過內(nèi)在獎勵信號鼓勵agent探索以前不熟悉的環(huán)境,并解決沒有豐富外在獎勵信號的任務。例如,Burda等人[3]提出的好奇心內(nèi)在獎勵用于促進稀疏任務的探索或訓練策略網(wǎng)絡。觀察狀態(tài)的新穎性度量和根據(jù)agent的情感設計的內(nèi)在獎勵都利用了好奇心。通過好奇心設計的內(nèi)在獎勵會隨著agent不斷地探索環(huán)境逐漸消失,甚至內(nèi)在獎勵會趨于0。第二種內(nèi)在動機是Barto等人[4]提出的強化學習和內(nèi)在動機相結(jié)合獲得通用的、可重復的技能,并在技能中進行選擇,從而引導agent探索環(huán)境,學習環(huán)境模型,提高學習采樣能力和制定子目標。在精心設計的任務中,agent可以制造或?qū)W習各種技能,比如抓、推和組裝。之前的工作使agent能夠通過實施組合規(guī)劃[5]和分層強化學習,戰(zhàn)略性地組合這些技能來解決新的任務。但是基于特定任務設計的技能往往需要大量的時間和人力。為了減少時間和人力的消耗,研究人員從各種監(jiān)督來源獲得了可以推廣的技能。例如,如果在目標任務中給予專家示范或獎勵作為監(jiān)督,這些技能可以通過分層強化學習或變分推理來學習。盡管他們?nèi)〉昧顺晒Γ@得這種監(jiān)督可能是昂貴的,并且在某個目標任務中學習到的技能,不一定適合于其他目標任務中。

為了緩解因內(nèi)在獎勵逐漸消失,agent無法學習最優(yōu)策略的問題,本文提出了一種通過積極狀態(tài)的子目標學習技能的方法,該方法主要分為三個階段:a)從agent與環(huán)境交互的軌跡中發(fā)現(xiàn)積極狀態(tài),再從積極狀態(tài)中尋找子目標;b)根據(jù)已獲得的子目標獲取技能,并對技能進行組合;c)對獲取的技能進行評估,將評估后的技能存儲在技能緩沖區(qū)中,用于策略的更新。

1 相關工作

1.1 子目標

在大多數(shù)強化學習的研究中,鑒于環(huán)境中獎勵的稀疏性和巨大的狀態(tài)空間,在探索的過程中,agent試圖尋找更大的搜索空間以獲得更好的策略,這將帶來更高的累積獎勵值,但不一定有更高的成功率,即agent雖然在一個場景中獲得了高的累積獎勵值,但它們可能無法找到最終的目標,就像人們玩游戲追求高分,但游戲沒有通關一樣。因此,大多數(shù)研究者探索預先設定的子目標,使agent實現(xiàn)學習子目標的相應策略。子目標劃分在解決稀疏獎勵任務方面也取得了不錯的進展[6,7],最常見的子目標劃分是分層強化學習(HRL)[8]。在HRL中,一個任務被分成多個子任務,上層策略調(diào)用下層策略執(zhí)行動作來解決各自的子任務。Kulkarni等人[5]提出了一個深度分層學習框架(hDQN),其中agent采用兩層分層結(jié)構(gòu),由元控制器和控制器組成。元控制器獲取當前狀態(tài),然后從目標集合中選擇一個子目標給下一層的控制器,控制器接受元控制的子目標和當前狀態(tài),然后選擇一個動作去執(zhí)行。歐陽名三等人[9]提出一種基于子目標的分層強化學習算法,在獎勵稀疏的環(huán)境中具有較高的穩(wěn)定性和學習效率。Zhang等人[7]提出通過自我監(jiān)控尋找任務不可知內(nèi)在選項(HIDIO),從而獲得更高的任務回報和更高的樣本效率。Andrychowicz等人[10]提出了一種以訪問狀態(tài)為子目標的方法,通過重放不同子目標的軌跡來提高采樣效率,然而選擇相關的子目標并不容易。另一項研究是Florensa等人[11]提出的生成一系列距離目標越來越遠的初始狀態(tài),或?qū)⒛繕饲度霛撛诳臻g,然后對目標進行采樣[12]。Nair等人[13]提出的具有想象目標的強化學習方法(RIG),使用變分自動編碼器(VAE)[14]來獲取潛在目標,但是RIG方法中并未對目標進行區(qū)分,即agent不知道哪些目標很難實現(xiàn)。Bougie等人[15]提出了基于目標的好奇心(GoCu)新技術,提出了一種替代好奇心機制的解決方案,即基于agent所處環(huán)境的知識生成探索獎金,該方案使用目標的概念將任務分解成幾個更簡單的子任務和技能,并且設計的子目標從軌跡中選擇最后一個狀態(tài)作為子目標。相反,本文方法從兩個方面判斷當前狀態(tài)是否為積極狀態(tài)。如果是積極狀態(tài),則從積極狀態(tài)中尋找子目標。

1.2 技能

人類在發(fā)展的過程中,從最簡單的技能開始,獲得越來越復雜的能力。受此啟發(fā),劉乃軍等人[16]對機器人操作技能學習進行了綜述,即每次學習一項新技能,使agent解決復雜任務的能力在不斷地增加。最近,一些研究對在深度強化學習(DRL)的框架下學習抽象動作(也稱為技能或選項)感興趣,即技能可以通過外在動機或者內(nèi)在動機獲取。大多數(shù)研究人員使用內(nèi)在動機來獲得技能,例如Barto等人[4]提出了一種內(nèi)在動機生成技能的方法;Machado等人[17]表示當使用內(nèi)在動機學習技能時,學習過程會變成自下而上,即agent在獲得外在獎勵之前學習技能,這樣可以有效地解決外在獎勵稀疏的環(huán)境。在針對連續(xù)控制的分層強化學習中,Nieto等人[18]提出了一個分層技能的學習框架,以無監(jiān)督的方式獲取不同復雜度的技能,從而緩解了對先驗知識的需求。Farahani等人[19]提出用相對新穎折扣狀態(tài)和邊界數(shù)社區(qū)檢測算法[20]來獲取技能。Fang等人[21]提出一種通過自動生成不同任務集來發(fā)現(xiàn)可概括技能的方法(SLIDE),鼓勵技能在相同的環(huán)境中產(chǎn)生不同的結(jié)果,將每個技能與可培訓任務生成器生成的唯一任務配對。Bonarini等人[22]設計了一個學習框架SMILE,主要包括探索階段、激勵階段和技能獲取階段。在技能獲取階段,agent通過內(nèi)在獎勵學習一項技能,這將導致其在激勵階段確定agent最感興趣狀態(tài)。然而,Bonarini在使用技能時并沒有對技能進行評判。本文方法在獲得技能后,對技能進行改進和判斷,以便agent選擇合適的技能來更新策略。此外,這些技能可以用于不同的任務,強調(diào)其遷移學習的潛力[23]。這些特征使得內(nèi)在動機在持續(xù)學習的框架中具有吸引力,即agent在其一生中獲取、保留和重用所獲得的技能[24]。

2 基于子目標和技能的探索

agent與環(huán)境互動的過程中,在每個時間步t中,agent執(zhí)行一個動作并從環(huán)境中接收外在獎勵。然而,外在獎勵通常是稀疏的或延遲的,這導致agent學習緩慢,甚至無法學習最優(yōu)策略。雖然內(nèi)在獎勵可以有效地解決外在獎勵稀疏的問題,但是隨著agent的不斷探索,內(nèi)在獎勵最終會消失,以至于內(nèi)在獎勵無法引導agent學習最優(yōu)策略。因此,本文提出了一種基于內(nèi)在獎勵的技能獲取和組合的方法,允許agent在內(nèi)在獎勵消失之前發(fā)現(xiàn)技能,以便內(nèi)在獎勵消失后利用學習到的技能去學習策略。本文方法的詳細過程如圖1所示。

本文方法可分為發(fā)現(xiàn)子目標、技能的獲取和組合、技能的評估三個階段。首先,從agent與環(huán)境交互的軌跡(τ1,τ2,τ3,…)中發(fā)現(xiàn)積極狀態(tài),從積極狀態(tài)中尋找子目標,將初始狀態(tài)到子目標狀態(tài)、子目標到終止狀態(tài)所產(chǎn)生的一條軌跡存儲在目標緩沖區(qū);其次,從目標緩沖區(qū)中根據(jù)子目標來獲取技能,并對技能進行組合;最后,對獲取的技能進行評估,將評估后的技能存儲在技能緩沖區(qū)中,用于策略的更新。接下來將詳細介紹本文方法的三個階段。

2.1 子目標

在獎勵稀疏和有限時間步的情況下,agent很難達到最終目標,這就意味著agent在獎勵稀疏和有限時間步內(nèi)解決整個任務是一項挑戰(zhàn),因此,本文采用子目標的概念,將實現(xiàn)一個遙遠的最終目標的問題分解為實現(xiàn)多個子目標。由于這些子目標比最終目標更容易到達,而且相比于最終目標,遇見的頻率也會更高。在對環(huán)境不熟悉的情況下,agent在選擇子目標時通常是它在探索過程中訪問過的狀態(tài)。本文將發(fā)現(xiàn)子目標分為兩個步驟:a)對每幕中的每個狀態(tài)進行評估,再根據(jù)這個狀態(tài)評估來尋找積極狀態(tài);b)從積極狀態(tài)中篩選子目標。

狀態(tài)的評估分為兩種情形。第一種情形是在n幕之前,狀態(tài)的評估使用一幕中當前狀態(tài)的訪問次數(shù)與一幕中所有狀態(tài)的訪問次數(shù)之比。在這種情形下,狀態(tài)的評估是衡量agent對環(huán)境的熟悉程度,當狀態(tài)的評估值越高,證明agent對周圍環(huán)境越熟悉。由于agent在前期對周圍的環(huán)境進行廣泛的探索,訪問的狀態(tài)和以前訪問的狀態(tài)不相同,所以在探索前期利用agent經(jīng)常訪問的狀態(tài)作為當前狀態(tài)的評估是可行的。第二種情形是在n幕之后,狀態(tài)的評估是從當前狀態(tài)的訪問次數(shù)與一幕中所有狀態(tài)的訪問次數(shù)之比、當前狀態(tài)距離子目標的距離和當前狀態(tài)s向前和向后狀態(tài)的訪問次數(shù)進行考慮。一方面隨著agent的不斷探索,它會重復訪問之前出現(xiàn)過的狀態(tài),也就是agent在熟悉的環(huán)境中徘徊。此時,每幕中狀態(tài)的評價只使用一幕中當前狀態(tài)的訪問次數(shù)與一幕中所有狀態(tài)訪問次數(shù)之比是不合理的,所以將當前狀態(tài)前后的狀態(tài)的訪問次數(shù)也考慮進來,促使agent去探索未訪問過的環(huán)境。另一方面,agent在探索前期,當狀態(tài)離子目標越來越近的時候,可能會將該狀態(tài)作為子目標,所以將當前狀態(tài)與子目標的距離加以考慮,避免agent將子目標附近的狀態(tài)作為子目標。狀態(tài)st的評估值Evalst具體的表達式如下:

Evalst=

NstNepisodelt;n

NstN+αNst-1+ηNst-2+…+ηd-1Nst-dNst+ηNst+1+…+ηd-1Nst+d-1+β dis(st,g)episode≥n (1)

其中:N表示一幕中所有狀態(tài)的訪問次數(shù),Nst表示在t時刻狀態(tài)st在一幕中訪問的次數(shù);dis(st,g)表示在t時刻狀態(tài)st到目標g的距離;α和β表示超參數(shù);m表示幕的次數(shù);d表示從t時刻狀態(tài)st向前或是向后轉(zhuǎn)移的步數(shù);γ是折扣因子。一幕中所有的狀態(tài)都會被計算,如果一個狀態(tài)的評估值Evalst大于閾值μ,則該狀態(tài)st稱為積極狀態(tài)st_ pos,對積極狀態(tài)出現(xiàn)的次數(shù)Nst_ pos進行統(tǒng)計。如果一個積極狀態(tài)出現(xiàn)的次數(shù)Nst_ pos高于閾值ο,則該狀態(tài)稱為子目標。這里設置一個參數(shù)μ的目的是判斷當前狀態(tài)是否為積極狀態(tài),若是積極狀態(tài)則統(tǒng)計積極狀態(tài)出現(xiàn)的次數(shù)Nst_ pos。設置參數(shù)ο的目的,一是從積極狀態(tài)中篩選子目標,二是防止偶發(fā)性。有些狀態(tài)是偶然出現(xiàn)的,在之后出現(xiàn)的次數(shù)很少,為了避免將此狀態(tài)作為子目標,設置一個參數(shù)ο來防止偶發(fā)性。

2.2 技能的獲取和組合

從積極狀態(tài)中找到子目標,根據(jù)子目標來獲取技能,使得智能體利用所學技能來更新策略。本章采用技能的概念,技能表示為從初始狀態(tài)到達子目標,從子目標到達終止狀態(tài)所產(chǎn)生的一條軌跡τ={s1,a1,r1,s3,…,sn,an,rn,…,sT},其中s1、sn、sT分別表示初始狀態(tài)、子目標狀態(tài)和終止狀態(tài)。

agent在一開始的時候,先發(fā)現(xiàn)簡單的技能,在之后每發(fā)現(xiàn)一個新的技能時,它可能與之前的技能有關聯(lián),因為學習到的新技能可能會對之前所學技能進行干擾,導致agent忘記以前所學的技能,所以需要重用以前所獲得的技能,這樣有助于這些技能的組合。agent組合技能主要有三個原因:a)agent不應該在已獲得的技能上過度集中地學習,因為這會導致agent浪費時間和學習資源;b)agent要提高完成任務的概率,應該需要執(zhí)行尚未發(fā)現(xiàn)的技能,而不是關注已獲得的技能;c)agent在探索過程中,每次訪問的狀態(tài)也在不斷地變化,如果使用以前的技能來更新策略,會導致agent找到次優(yōu)策略。技能的組合主要分為三種情況:

第一種情況是不同技能之間會出現(xiàn)相同的子目標,選擇這個子目標作為交叉點,就可以產(chǎn)生一個agent沒有經(jīng)歷過的軌跡,即一個新的技能,使用這個新的技能會提高agent完成任務的概率,如圖2所示,agent在技能1和2中找到相同子目標,將子目標作為交叉點以生成新的技能(技能3)。

第二種情況是當一個技能有兩個以上的子目標時,如圖3所示。計算從初始狀態(tài)到達每個子目標所獲取的累積內(nèi)在獎勵值,并使用累積內(nèi)在獎勵值組合技能。比如嬰兒在學會走路之前先學會爬行。假設圖3中,爬行技能表示從初始狀態(tài)s1到子目標s2所產(chǎn)生的軌跡,行走技能表示從初始狀態(tài)s1到子目標s8所產(chǎn)生的軌跡。首先,智能體通過不斷地探索發(fā)現(xiàn)簡單的技能,如爬行。此時,智能體將獲得累積內(nèi)在獎勵值。如果智能體不斷重復該技能,累積內(nèi)在獎勵值將逐漸減少。當智能體基于爬行技能發(fā)現(xiàn)新技能時,比如行走,智能體將獲得行走技能。之前的爬行技能智能體不需要訓練,因為爬行技能智能體已經(jīng)掌握了,而行走技能需要多次訓練。智能體需要學習新的技能,而不是學習已經(jīng)掌握的技能。智能體應該反復使用新技能,并使用新技能來更快地學習和增強對環(huán)境的控制能力。因此,子目標的后繼狀態(tài)s3到子目標s8,子目標s8到終止狀態(tài)s15所產(chǎn)生的軌跡稱為新技能(技能2),將新技能存儲在技能緩沖區(qū)中。

第三種情況是不同技能之間出現(xiàn)相同的子目標且技能中出現(xiàn)兩個以上的子目標。首先對每條技能按照第二種情況來產(chǎn)生新的技能;然后判斷新技能之間是否有相同的子目標,如果有相同的子目標,則按照第一種情況產(chǎn)生新的技能。

2.3 技能緩沖區(qū)和目標緩沖區(qū)

目標緩沖區(qū)存儲發(fā)現(xiàn)初始狀態(tài)到達子目標,子目標到達終止狀態(tài)所產(chǎn)生的軌跡。在整個學習中,當目標緩沖區(qū)的大小超出限制時,目標緩沖區(qū)中的舊軌跡將隨機地被新軌跡所替代。agent獲取技能后,首先對該技能進行評估,技能的評估以初始狀態(tài)s到子目標的實現(xiàn)難度和初始狀態(tài)s到子目標所獲得的獎勵值來衡量,表達式如式(2)所示。然后將評估完的技能存儲在技能緩沖區(qū)中。最后從技能緩沖區(qū)中采樣來更新策略。

Evalτ=dis(s0,g)+κR(s0,g)(2)

其中:s0表示軌跡中的初始狀態(tài);R(s0,g)表示從初始狀態(tài)s0到子目標所獲得的累積內(nèi)在獎勵值;κ表示超參數(shù)。當初始狀態(tài)離子目標很近時,則表示智能體對該技能很容易掌握,即dis(s0,g)的值越低,說明技能越簡單,智能體只需稍微探索一下就能實現(xiàn)該技能。反之,當初始狀態(tài)離子目標很遠時,則表示該技能太難獲取,對于太難獲取的技能,智能體應該反復使用該技能,使得智能體能掌握該技能。

技能緩沖區(qū)的目的是為agent的學習提供多樣化的訓練以優(yōu)化全局范圍內(nèi)有用的探索行為,而不僅僅是利用局部經(jīng)驗進行探索。當技能緩沖區(qū)的大小超出限制時,技能緩沖區(qū)的刪除策略是刪除評估值低的技能,以確保agent使用組合或是發(fā)現(xiàn)新技能來更新策略,使得agent能獲得最優(yōu)策略。

3 實驗的設計與分析

3.1 實驗設置

實驗采用Mujoco控制類游戲中四個連續(xù)控制類問題來驗證本文方法的有效性。四個連續(xù)控制類問題為swimmer、hopper、walker2d和humanoid,四個環(huán)境如圖4所示。實驗使用的CPU為Intel CoreTM i5-7400,內(nèi)存為8 GB。為了驗證本文提出的子目標和改進的技能對agent改進策略有效,將其應用于SAC算法[25],得到的算法記為SAC+GS,并與基線方法SAC、SAC_PER、GoCu和SLIDE進行比較。SAC在最大化累積獎勵的基礎上引入了最大熵的概念,加入熵的目的是增強魯棒性和agent的探索能力。Wang等人[26]將SAC與優(yōu)先級經(jīng)驗算法(PER)[27]相結(jié)合形成SAC_PER算法,該算法基于時間差異(TD)誤差對數(shù)據(jù)進行優(yōu)先級排序,它可以略微提高SAC的樣本效率性能。

3.2 實驗結(jié)果與分析

本文主要研究的是針對外在獎勵稀疏的環(huán)境,因此本文對Mujoco環(huán)境中外在獎勵進行了延遲,以創(chuàng)建一個更具挑戰(zhàn)性的稀疏環(huán)境,外在獎勵分別以每20、40步進行延遲。SAC+GS和SAC、SAC_PER、GoCu、SLIDE算法的對比實驗結(jié)果如圖5和6所示。圖5和6中的橫坐標是epoch,每個epoch包含10 000步,縱坐標是過去10個epoch訓練的平均獎勵值。其中圖4是外在獎勵延遲20步的情況,圖5是外在獎勵延遲40步的情況,從結(jié)果圖中發(fā)現(xiàn)SAC+GS在環(huán)境非常稀疏的條件下能獲得更高的平均獎勵值。

針對環(huán)境稀疏情況不同,分別對延遲20步和40步的實驗結(jié)果進行分析。從圖5分析可以看出:在外在獎勵延遲20步的情況下,除了在hopper環(huán)境中GoCu方法比SAC+GS方法的平均獎勵值高以外,在其他三個環(huán)境中SAC+GS比SAC、SAC_PER、GOCU和SLIDE的方法都要好,而且在訓練后期所獲得的平均獎勵值都在大幅度增加,尤其是在swimmer環(huán)境和walker2d環(huán)境中效果更加明顯。

a)在hopper環(huán)境中,GoCu方法在訓練前期的平均獎勵值和整體的平均獎勵值都比SAC+GS好,這可能是因為GoCu方法使用多個目標來訓練agent逐漸獲得新技能,并根據(jù)每個狀態(tài)的復雜性去調(diào)整好奇心獎勵。而SAC算法相比于其他算法而言,在hopper環(huán)境中獲得的平均獎勵值不高的原因是SAC算法雖然比其他傳統(tǒng)強化學習算法有一定的探索能力,但是在環(huán)境非常稀疏的情況下,探索能力也是有一定的限制。

b)在humanoid環(huán)境中,該環(huán)境的狀態(tài)空間或動作空間更加復雜。SAC算法在這種環(huán)境下的性能很差,這說明了SAC算法在獎勵稀疏的情況下探索能力差的問題。相反,SAC+GS在humanoid環(huán)境中的性能是最佳的,這可能是因為agent有足夠的能力去探索未訪問過的環(huán)境區(qū)域,也有可能是找到適合的子目標來幫助agent學習有用的技能,使得agent能完成任務。

c)在swimmer環(huán)境中,SAC+GS和其他四種算法在訓練前期曲線波動性很大,這可能是swimmer環(huán)境不僅獎勵稀疏,而且環(huán)境提供給agent的外在獎勵還是負值,這導致agent在前期大部分是隨機探索。甚至SLIDE方法在訓練前期的曲線呈下降趨勢,這主要是因為SLIDE方法在訓練前期去尋找與任務配對的技能,由于swimmer環(huán)境很稀疏導致agent前期學習的技能不能很好地解決任務。而在后期曲線呈上升趨勢是因為SLIDE利用學習的技能能成功地使agent解決看不見的目標任務。而SAC_PER比SAC算法的性能還要差主要是因為SAC_PER算法對經(jīng)驗緩沖區(qū)中的數(shù)據(jù)進行小批量更新時,使用數(shù)據(jù)的絕對TD誤差作為優(yōu)先級的度量,優(yōu)先級較高的數(shù)據(jù)被采樣的幾率較高。然而swimmer環(huán)境提供的外在獎勵是負值且稀疏的,導致了經(jīng)驗緩沖區(qū)中的數(shù)據(jù)不能很好地指引agent去學習好的策略。

d)在walker2d環(huán)境中,不使用任何技能和內(nèi)在獎勵的SAC算法在訓練初期比其他四種算法的學習速度稍快,這可能是因為SAC有一個更簡單的策略網(wǎng)絡進行訓練,并且只關注agent行為的單一模式。然而,在訓練后期并沒有發(fā)現(xiàn)完成目標任務所需要的行為。SAC+GS方法相比其他四種方法學習速度快,能在訓練前期獲得較高的平均獎勵值,因為SAC+GS在前期找到合適的技能。

在外在獎勵延遲40步的更為稀疏的環(huán)境,在hopper、swimmer和walker2d三個環(huán)境中能取得高的平均獎勵值,尤其是在walker2d環(huán)境中獲取的平均獎勵值比在外在獎勵延遲20步所獲得的平均獎勵值高。然而在humanoid環(huán)境中平均獎勵值比GoCu的平均獎勵值低。從圖6分析可以看出:在外在獎勵延遲40步的情況下,agent在中后期的平均獎勵值上升趨勢明顯。

a)在hopper環(huán)境中,SLIDE和SAC算法的性能相比SAC+GS的性能要差,這可能是因為SAC在環(huán)境很稀疏的情況下,沒有足夠的探索能力去探索未訪問的環(huán)境。在訓練中后期的時候,SAC+GS的平均獎勵值比GoCu方法的平均獎勵值更高,這說明本文所學習到的技能比GoCu所學習到的技能對agent更新策略更加有用。SAC_PER方法的學習速度比SAC+GS慢體現(xiàn)了SAC+GS利用之前所學的技能加速agent完成任務的能力,而SAC_PER可能沒有發(fā)現(xiàn)適合完成任務的行為,使agent學習到一個次優(yōu)策略。

b)在humanoid環(huán)境中,SAC+GS和GoCu方法相比其他兩個算法而言,它們的學習過程更加穩(wěn)定。humanoid環(huán)境狀態(tài)、動作空間更加復雜,SLIDE在復雜的環(huán)境中為每個任務尋找合適的技能有一定的難度,甚至可能學習到一個次優(yōu)的技能,導致agent的探索能力變差。而SAC和SAC_PER在沒有技能的情況下學習到的行為對完成任務沒有幫助。GoCu的平均獎勵值比SAC+GS高,這可能是因為GoCu方法從多個目標的角度來評估技能,使agent能學習到有用的技能。GoCu方法中使用預測網(wǎng)絡預測從當前狀態(tài)s實現(xiàn)每個目標g的概率,也就是它預測一個目標被掌握的概率并計算基于好奇心的獎勵。

c)在swimmer環(huán)境中,在agent訓練50個epoch之前,SAC+GS和其他四個算法的波動性比外在獎勵延遲20步的波動性更大,這是因為外在獎勵延遲40步,導致agent在前期獲取的信號很少。大約在7個epoch的時候,SAC+GS的平均獎勵值達到整個曲線中的最大值,這可能是因為存在agent偶爾遇到的積極狀態(tài),然而,本文將偶然出現(xiàn)的積極狀態(tài)不視為子目標,導致agent后期錯失這個偶爾出現(xiàn)的積極狀態(tài)。在中后期,SAC、GoCu和SLIDE方法的曲線是先下降后上升,而SAC+GS基本都是上升趨勢,這說明SAC+GS適合獎勵稀疏且負值的環(huán)境。

d)在walker2d環(huán)境中,SAC+GS的學習速度和平均獎勵值比其他四種方法更快和更高,甚至相比于外在獎勵延遲20步的情況下,平均獎勵值也提高了。

通過實驗對比發(fā)現(xiàn),SAC+GS相比SAC、SAC_PER、GoCu和SLIDE這四種算法來說,在多數(shù)環(huán)境中能取得較高的平均獎勵值,說明SAC+GS能夠解決外在獎勵稀疏的問題。當內(nèi)在獎勵消失之后,agent利用所學技能來鼓勵agent探索環(huán)境和學習最優(yōu)策略。從表1中可以看出,隨著外在獎勵越來越稀疏,SAC+GS、SAC、SAC_PER、GoCu和SLIDE方法的平均獎勵值在逐漸下降。然而,SAC+GS在walker2d環(huán)境中平均獎勵值提升,這說明SAC+GS適合獎勵更加稀疏的環(huán)境。在humanoid環(huán)境中,GoCu隨著獎勵稀疏增加平均獎勵值下降速度緩慢,這可能是因為從humanoid環(huán)境的復雜性和使用多個目標來評估技能,使agent學習更多有用的技能。在外在獎勵延遲20步的情況下,雖然hopper環(huán)境中的平均獎勵值比SAC+GS稍好,但是GoCu在獎勵更加稀疏的環(huán)境中表現(xiàn)的結(jié)果比SAC+GS差,可以清晰地從表1中發(fā)現(xiàn),GoCu隨著獎勵稀疏增加,平均獎勵值下降。SAC+GS在大部分環(huán)境中也能夠獲取較高的平均獎勵值,表明SAC+GS能夠解決內(nèi)在獎勵逐漸消失,agent無法學習最優(yōu)策略的問題。

本文除了使用未來的累積獎勵值來評價算法的性能外,另一個重要的評價指標是時間復雜度。本文使用算法的總運行時間評估時間復雜度。表2顯示了SAC、SAC_PER、GoCu、SLIDE和SAC+GS的時間復雜度。從表2可以看出,本文方法付出的時間成本較少,表明其的性能優(yōu)于其他算法。

4 結(jié)束語

為了解決強化學習中內(nèi)在獎勵消失導致agent不能繼續(xù)探索的問題,本文提出了一種通過積極狀態(tài)的子目標學習技能的方法,將該方法加入到SAC算法當中,得到SAC+GS方法。在Mujoco基準測試任務中驗證了SAC+GS方法的有效性,實驗結(jié)果均表明SAC+GS能夠使agent在外在獎勵稀疏的環(huán)境下獲得較高的平均獎勵值,也表明本文學習到的技能有利于agent尋找最優(yōu)策略。考慮多個子目標可能會促使agent學習速度變快,下一步的工作將從多個子目標角度進行考慮,并對本文中偶然出現(xiàn)的積極狀態(tài)進一步地分析,從而篩選出更有價值的子目標。

參考文獻:

[1]Sutton R S,Barto A G.Reinforcement learning:an introduction[M].[S.l.]:MIT Press,2018.

[2]Ettlinger G.Conflict,arousal and curiosity[J].Journal of Mental Science,1962,108(452):109-110.

[3]Burda Y,Edwards H,Pathak D,et al.Large-scale study of curiosity-driven learning[C]//Proc of the 7th International Conference on Learning Representations.2019:1-17.

[4]Barto A G,Singh S,Chentanez N.Intrinsically motivated learning of hierarchical collections of skills[C]//Proc of the 3rd International Conference on Development and Learning.2004:112-19.

[5]Kulkarni T D,Narasimhan K R,Saeedi A,et al.Hierarchical deep reinforcement learning:integrating temporal abstraction and intrinsic motivation[C]//Proc of the 30th Advances in Neural Information Processing Systems.2016:3682-3690.

[6]Gehring J,Synnaeve G,Krause A,et al.Hierarchical skills for efficient exploration[C]//Advances in Neural Information Processing Systems.2021:11553-11564.

[7]Zhang J,Yu Haoran,Xu Wei.Hierarchical reinforcement learning by discovering intrinsic options[C]//Proc of International Conference on Learning Representations.2020.

[8]Pateria S,Subagdja B,Tan A,et al.Hierarchical reinforcement lear-ning:a comprehensive survey[J].ACM Computing Surveys,2021,54(5):1-35.

[9]歐陽名三,馮舒心.稀疏獎勵環(huán)境中的分層強化學習[J].佳木斯大學學報:自然科學版,2022,40(2):54-57.(Ouyang Mingsan,F(xiàn)eng Shuxin.Hierarchical reinforcement learning in sparse reward environment[J].Journal of Jiamusi University:Natural Science,2022,40(2):54-57.)

[10]Andrychowicz M,Wolski F,Ray A,et al.Hindsight experience replay[C]//Advances in Neural Information Processing Systems.2017:5055-5065.

[11]Florensa C,Held D,Wulfmeier M,et al.Reverse curriculum generation for reinforcement learning[C]//Proc of Conference on Robot Learning.2017:482-495.

[12]Florensa C,Held D,Geng Xinyang,et al.Automatic goal generation for reinforcement learning agents[C]//Proc of International Conference on Machine Learning.2018:1515-1528.

[13]Nair A V,Pong V,Dalal M,et al.Visual reinforcement learning with imagined goals[C]//Advances in Neural Information Processing Systems.2018:9209-9220.

[14]Kingma D P,Welling M.Auto-encoding variational Bayes[EB/OL].(2013-12-20).https://arxiv.org/abs/1312.6114.

[15]Bougie N,Ichise R.Skill-based curiosity for intrinsically motivated reinforcement learning[J].Machine Learning,2020,109(3):493-512.

[16]劉乃軍,魯濤,蔡瑩皓,等.機器人操作技能學習方法綜述[J].自動化學報,2019,45(3):458-470.(Liu Naijun,Lu Tao,Cai Yinghao,et al.A review of learning methods for robot operation skills[J].Chinese Journal of Automation,2019,45(3):458-470.)

[17]Machado M C,Bellemare M G,Bowling M.A Laplacian framework for option discovery in reinforcement learning[C]//Proc of International Conference on Machine Learning.2017:2295-2304.

[18]Nieto J J,Castanyer R C,Giro-i-Nieto X.Unsupervised skill-discovery and skill-learning in Minecraft[C]//Proc of International Conference on Machine Learning.2021.

[19]Farahani D M,Mozayani N.Acquiring reusable skills in intrinsically motivated reinforcement learning[J].Journal of Intelligent Manufacturing,2021,32(8):2147-2168.

[20]Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2):026113.

[21]Fang Kuan,Zhu Yuke,Savarese S,et al.Discovering generalizable skills via automated generation of diverse tasks[EB/OL].(2021).https://arxiv.org/abs/2106.13935.

[22]Bonarini A,Lazaric A,Restelli M.Incremental skill acquisition for self-motivated learning animats[C]//Proc of International Conference on Simulation of Adaptive Behavior.Berlin:Springer,2006:357-368.

[23]Taylor M E,Stone P.Transfer learning for reinforcement learning domains:a survey[J].Journal of Machine Learning Research,2009,10(7):1633-1685.

[24]Thrun S.Is learning the n-th thing any easier than learning the first?[C]//Advances in Neural Information Processing Systems.1995:640-646.

[25]Haarnoja T,Zhou A,Abbeel P,et al.Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of International Conference on Machine Learning.2018:1861-1870.

[26]Wang Che,Ross K W.Boosting soft actor-critic:emphasizing recent experience without forgetting the past[EB/OL].(2019).https://arxiv.org/abs/1906.04009.

[27]Schaul T,Quan J,Antonoglou I,et al.Prioritized experience replay[EB/OL].(2015).https://arxiv.org/abs/ 1511.05952.

主站蜘蛛池模板: 伊人成人在线| 日韩人妻无码制服丝袜视频| 99热这里只有精品在线观看| 青青草a国产免费观看| 免费一级全黄少妇性色生活片| 国产激情国语对白普通话| 98精品全国免费观看视频| 无码免费视频| av一区二区三区高清久久| 国产精品观看视频免费完整版| 亚洲国产日韩视频观看| 毛片手机在线看| 国内精自线i品一区202| 亚洲成人精品| 久久综合九九亚洲一区| 自慰网址在线观看| 国产99视频精品免费观看9e| 亚洲男人天堂久久| 国产色网站| 日韩在线永久免费播放| 亚洲成人在线免费观看| 国产主播福利在线观看| 免费人成又黄又爽的视频网站| 国产91在线免费视频| 91成人免费观看在线观看| 国产精品久久久久久久伊一| 亚洲va在线∨a天堂va欧美va| 手机看片1024久久精品你懂的| 成人国产免费| 青青国产成人免费精品视频| 国产主播喷水| 都市激情亚洲综合久久| 欧美成人手机在线观看网址| 国产精品蜜芽在线观看| 久草视频福利在线观看| 精品夜恋影院亚洲欧洲| 欧美亚洲第一页| yjizz视频最新网站在线| 久久精品人妻中文系列| 国产99视频精品免费视频7| 欧美精品影院| 中文字幕有乳无码| 在线视频精品一区| 日韩视频精品在线| 欧美在线国产| 午夜精品区| 久996视频精品免费观看| 免费人成网站在线观看欧美| 亚洲第一成人在线| 茄子视频毛片免费观看| 青青草原国产| 国产成人资源| swag国产精品| 国产欧美亚洲精品第3页在线| 亚洲国产av无码综合原创国产| 青青草a国产免费观看| 国产成人1024精品下载| 91精品网站| 国产精品欧美在线观看| 亚洲精品大秀视频| 国产凹凸视频在线观看| 国产H片无码不卡在线视频| 欧美丝袜高跟鞋一区二区| 亚洲欧美日韩成人高清在线一区| 亚洲成a人片| 亚洲成人动漫在线观看| 国产打屁股免费区网站| 欧美精品影院| 国产爽爽视频| 人妻91无码色偷偷色噜噜噜| 在线欧美一区| 国产丝袜无码精品| 久久久久青草大香线综合精品 | 免费欧美一级| 91精品啪在线观看国产60岁 | 91青青视频| 中文字幕人妻无码系列第三区| 五月天福利视频| 日韩午夜片| 国产成人亚洲毛片| 爽爽影院十八禁在线观看| 99精品视频九九精品|