999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于獎(jiǎng)勵(lì)預(yù)測誤差的內(nèi)在好奇心方法

2022-07-05 08:42:26譚慶李輝吳昊霖王壯鄧書超
計(jì)算機(jī)應(yīng)用 2022年6期
關(guān)鍵詞:智能環(huán)境實(shí)驗(yàn)

譚慶,李輝,吳昊霖,王壯,鄧書超

基于獎(jiǎng)勵(lì)預(yù)測誤差的內(nèi)在好奇心方法

譚慶1,李輝1,2*,吳昊霖1,王壯1,鄧書超1

(1.四川大學(xué) 計(jì)算機(jī)學(xué)院(軟件學(xué)院),成都 610065; 2.視覺合成圖形圖像技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室(四川大學(xué)),成都 610065)(*通信作者電子郵箱lihuib@scu.edu.cn)

針對狀態(tài)預(yù)測誤差直接作為內(nèi)在好奇心獎(jiǎng)勵(lì),在狀態(tài)新穎性與獎(jiǎng)勵(lì)相關(guān)度低的任務(wù)中強(qiáng)化學(xué)習(xí)智能體不能有效探索環(huán)境的問題,提出一種基于獎(jiǎng)勵(lì)預(yù)測誤差的內(nèi)在好奇心模塊(RPE-ICM)。RPE-ICM利用獎(jiǎng)勵(lì)預(yù)測誤差網(wǎng)絡(luò)(RPE-Network)學(xué)習(xí)并修正狀態(tài)預(yù)測誤差獎(jiǎng)勵(lì),并將獎(jiǎng)勵(lì)預(yù)測誤差(RPE)模型的輸出作為一種內(nèi)在獎(jiǎng)勵(lì)信號(hào)去平衡探索過度與探索不足,使得智能體能夠更有效地探索環(huán)境并利用獎(jiǎng)勵(lì)去學(xué)習(xí)技能,從而達(dá)到更好的學(xué)習(xí)效果。在不同的MuJoCo環(huán)境中使用RPE-ICM、內(nèi)在好奇心模塊(ICM)、隨機(jī)蒸餾網(wǎng)絡(luò)(RND)以及傳統(tǒng)的深度確定性策略梯度(DDPG)算法進(jìn)行對比實(shí)驗(yàn)。結(jié)果表明,相較于傳統(tǒng)DDPG、ICM-DDPG以及RND-DDPG,基于RPE-ICM的DDPG算法的平均性能在Hopper環(huán)境中分別提高了13.85%、13.34%和20.80%。

強(qiáng)化學(xué)習(xí);探索;內(nèi)在好奇心獎(jiǎng)勵(lì);狀態(tài)新穎性;深度確定性策略梯度

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種智能體通過與環(huán)境交互的同時(shí)最大化環(huán)境返回的獎(jiǎng)勵(lì)值來學(xué)習(xí)最優(yōu)策略的機(jī)器學(xué)習(xí)方法[1]。在許多RL場景中,智能體的外在獎(jiǎng)勵(lì)稀疏,難以正確地更新其策略。人類可以在獎(jiǎng)勵(lì)稀少的情況下對環(huán)境進(jìn)行探索,其動(dòng)機(jī)主要源于人類內(nèi)在的好奇心。類似地,可以將這種好奇心賦予智能體,使智能體在外在獎(jiǎng)勵(lì)稀疏時(shí)增加探索。

目前內(nèi)在好奇心獎(jiǎng)勵(lì)的設(shè)計(jì)方法主要分為兩種:第一種是基于狀態(tài)新穎性,例如訪問狀態(tài)計(jì)數(shù)[2],這種方法可以對以前訪問過的狀態(tài)進(jìn)行統(tǒng)計(jì),并給予訪問新狀態(tài)的智能體額外的獎(jiǎng)勵(lì);另一種方法是基于神經(jīng)網(wǎng)絡(luò)模型預(yù)測的下一狀態(tài)與實(shí)際的下一狀態(tài)之間的誤差。使用狀態(tài)預(yù)測誤差作為好奇心獎(jiǎng)勵(lì)可以理解為將沒有經(jīng)歷過的狀態(tài)作為一種獎(jiǎng)勵(lì)信號(hào)去觸發(fā)智能體的好奇心。例如內(nèi)在好奇心模塊(Intrinsic Curiosity Module, ICM)[3]和基于隨機(jī)網(wǎng)絡(luò)蒸餾(Random Network Distillation, RND)方法[4],兩者利用狀態(tài)新穎性作為內(nèi)在好奇心獎(jiǎng)勵(lì),能夠讓智能體更好地探索到之前沒有經(jīng)歷過的狀態(tài)。

但基于訪問計(jì)數(shù)的方法難以應(yīng)用在具有高維度的狀態(tài)空間的場景;而狀態(tài)預(yù)測誤差過度關(guān)注于智能體對最新狀態(tài)的探索,導(dǎo)致智能體在狀態(tài)與外在獎(jiǎng)勵(lì)低相關(guān)的任務(wù)中出現(xiàn)過度探索[5],從而不能有效利用內(nèi)在獎(jiǎng)勵(lì)去解決問題。

本文提出的基于獎(jiǎng)勵(lì)預(yù)測誤差的內(nèi)在好奇心獎(jiǎng)勵(lì)模塊(Intrinsic Curiosity Module with Reward Prediction Error, RPE-ICM)將狀態(tài)預(yù)測誤差獎(jiǎng)勵(lì)作為獎(jiǎng)勵(lì)預(yù)測誤差網(wǎng)絡(luò)(Reward Prediction Error Network, RPE-Network)的輸入,通過訓(xùn)練獎(jiǎng)勵(lì)預(yù)測誤差網(wǎng)絡(luò)去學(xué)習(xí)修正狀態(tài)誤差獎(jiǎng)勵(lì),將最終網(wǎng)絡(luò)輸出的獎(jiǎng)勵(lì)作為內(nèi)在好奇心獎(jiǎng)勵(lì)以引導(dǎo)智能體探索環(huán)境。深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法[6]是一個(gè)確定性動(dòng)作算法,存在探索不足的問題。本文首先將RPE-ICM(前向模型與RPE-Network)和ICM模塊(前向模型與逆向模型)分別與DDPG算法結(jié)合,在四種MuJoCo(Multi-Joint dynamics with Contact)環(huán)境中進(jìn)行對比實(shí)驗(yàn),結(jié)果表明:ICM對傳統(tǒng)DDPG的性能有所提升,但是存在探索過度,方差較大的情況;而RPE-ICM能夠平衡探索不足與探索過度,在穩(wěn)定性與得分有更好的表現(xiàn)。然后比較了僅使用前向模型的DDPG智能體與RPE模塊與前向模型結(jié)合的DDPG智能體,實(shí)驗(yàn)結(jié)果表明在前向模型基礎(chǔ)之上加入獎(jiǎng)勵(lì)預(yù)測誤差(Reward Prediction Error, RPE)模型對其性能提升有重要作用。

1 相關(guān)研究

1.1 強(qiáng)化學(xué)習(xí)

RL是機(jī)器學(xué)習(xí)方法的一大分支,是研究智能體在外在環(huán)境中進(jìn)行交互和學(xué)習(xí)的理論與方法。RL模型的定義如圖1所示。智能體根據(jù)自身的策略與環(huán)境進(jìn)行交互,環(huán)境進(jìn)入下一狀態(tài)并將獎(jiǎng)勵(lì)信號(hào)反饋給智能體。

圖1 強(qiáng)化學(xué)習(xí)智能體與環(huán)境交互

1.2 DDPG算法

傳統(tǒng)的RL方法如Q學(xué)習(xí)(Q-learning)[7]等表格類方法都無法處理復(fù)雜的狀態(tài)和動(dòng)作維度。針對這類問題,RL和深度學(xué)習(xí)[8]結(jié)合而成的深度強(qiáng)化學(xué)習(xí)方法應(yīng)運(yùn)而生,例如采用神經(jīng)網(wǎng)絡(luò)估計(jì)值函數(shù)的深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Network, DQN)[9]算法。在后續(xù)研究中,許多DQN的改進(jìn)算法以及使用神經(jīng)網(wǎng)絡(luò)的策略梯度算法迅速發(fā)展。DDPG算法是確定性策略梯度(Deterministic Policy Gradient, DPG)[10]算法的改進(jìn)算法,同時(shí)結(jié)合了行動(dòng)器-評(píng)判器(Actor-Critic, AC)算法[11-12]、目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)池的優(yōu)點(diǎn)。

Actor網(wǎng)絡(luò)根據(jù)策略梯度更新網(wǎng)絡(luò)參數(shù),即式(3):

2 內(nèi)在好奇心獎(jiǎng)勵(lì)模塊

RL的外在動(dòng)機(jī)是智能體需要最大化與環(huán)境交互過程中出現(xiàn)的外在獎(jiǎng)勵(lì),例如Atari視頻游戲中的分?jǐn)?shù)。在外在獎(jiǎng)勵(lì)稀疏的情況下,智能體單純依靠外在動(dòng)機(jī)無法有效學(xué)習(xí)。而內(nèi)在動(dòng)機(jī)或者好奇心可以促使智能體在沒有明確外在獎(jiǎng)勵(lì)的情況下進(jìn)行好奇心驅(qū)動(dòng)的探索,這種內(nèi)在驅(qū)動(dòng)或者好奇心有利于提高智能體在外在獎(jiǎng)勵(lì)稀疏環(huán)境中解決任務(wù)、學(xué)習(xí)技能和提高任務(wù)泛化的能力,因此內(nèi)在獎(jiǎng)勵(lì)或者好奇心驅(qū)動(dòng)能解決稀疏獎(jiǎng)勵(lì)問題帶來的稀疏性和不可靠性問題[13]。

獎(jiǎng)勵(lì)稀疏性問題在三維視頻游戲場景中較為突出,智能體在三維視頻游戲場景中可能在持續(xù)較長的時(shí)間序列內(nèi)都難以獲得環(huán)境獎(jiǎng)勵(lì)反饋[14]。在這類三維場景中,深度強(qiáng)化學(xué)習(xí)算法需要依據(jù)包含獎(jiǎng)勵(lì)值信號(hào)的數(shù)據(jù)元組樣本進(jìn)行智能體行動(dòng)策略的迭代和更新,缺乏獎(jiǎng)勵(lì)信號(hào)將導(dǎo)致智能體難以學(xué)習(xí)到有效的行動(dòng)策略。而好奇心驅(qū)動(dòng)是一類使用內(nèi)在獎(jiǎng)勵(lì)引導(dǎo)智能體探索環(huán)境的方法,高效的探索能夠更快地獲得外在獎(jiǎng)勵(lì)[15],同時(shí)能夠降低環(huán)境的獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移的不確定性,平衡探索與利用[16]。

2.1 狀態(tài)預(yù)測誤差內(nèi)在好奇心模塊

圖2 ICM原理

2.2 獎(jiǎng)勵(lì)預(yù)測誤差的內(nèi)在好奇心模塊

ICM在前向模型基礎(chǔ)上增加了逆向模型提取對智能體選擇動(dòng)作有影響的特征去更新前向模型,但好奇心獎(jiǎng)勵(lì)仍然是一個(gè)狀態(tài)差異值預(yù)測[20],因此同樣存在對內(nèi)在獎(jiǎng)勵(lì)值過高估計(jì)的問題。文獻(xiàn)[18]的實(shí)驗(yàn)結(jié)果表明,在很多強(qiáng)化學(xué)習(xí)環(huán)境中,并不是越新的狀態(tài)和動(dòng)作對智能體的學(xué)習(xí)越有效,在狀態(tài)多樣性與獎(jiǎng)勵(lì)低相關(guān)的游戲任務(wù)中ICM方法與普通強(qiáng)化學(xué)習(xí)算法相比沒有改進(jìn),例如MuJoCo環(huán)境中的Ant、Walker2d等。

為了解決狀態(tài)預(yù)測誤差獎(jiǎng)勵(lì)所存在的好奇心獎(jiǎng)勵(lì)高估問題,本文提出的RPE-ICM方法在前向模型基礎(chǔ)上增加了獎(jiǎng)勵(lì)預(yù)測網(wǎng)絡(luò)(RPE-Network)。利用外在獎(jiǎng)勵(lì)和狀態(tài)預(yù)測誤差獎(jiǎng)勵(lì)對RPE-Network進(jìn)行訓(xùn)練,然后用訓(xùn)練的RPE-Network評(píng)估狀態(tài)預(yù)測誤差獎(jiǎng)勵(lì),從而不斷對前向模型的預(yù)測狀態(tài)誤差獎(jiǎng)勵(lì)進(jìn)行修正。在RPE-Network與前向模型結(jié)合的方法中,強(qiáng)化學(xué)習(xí)智能體能夠?qū)W到合適的好奇心獎(jiǎng)勵(lì),因此RPE-ICM能夠平衡探索不足與探索過度。

2.2.1 RPE-ICM方法

圖3 RPE-ICM方法架構(gòu)

RPE-ICM中前向網(wǎng)絡(luò)模型定義如式(6):

除了前向模型,本文還需要訓(xùn)練一個(gè)RPE-Network,計(jì)算公式如下:

最后通過式(11)最小化RPE-ICM模塊中的損失函數(shù)。

2.2.2 算法流程

綜上所述,RPE-ICM-DDPG算法整體流程如下:

3)初始化經(jīng)驗(yàn)池(Replay Memory, RM);

8) 根據(jù)當(dāng)前策略和探索噪聲選擇動(dòng)作

9) End for

16) End for

RPE?ICM前向網(wǎng)絡(luò)和RPE?Network參數(shù);

Critic網(wǎng)絡(luò)參數(shù);

19) 式(3)使用策略梯度算法更新Actor網(wǎng)絡(luò);

20) End for

21) End for

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)平臺(tái)和實(shí)驗(yàn)介紹

本文采用OpenAI公司開發(fā)的Gym平臺(tái)MuJoCo中的4個(gè)連續(xù)控制任務(wù)作為實(shí)驗(yàn)環(huán)境。Gym平臺(tái)是一個(gè)開源強(qiáng)化學(xué)習(xí)環(huán)境,也是一個(gè)開發(fā)和對比強(qiáng)化學(xué)習(xí)算法的工具箱。MuJoCo環(huán)境是一個(gè)物理引擎,意在促進(jìn)機(jī)器人、生物力學(xué)、圖形和動(dòng)畫以及其他需要快速準(zhǔn)確模擬的領(lǐng)域的研究和開發(fā)[22]。本文進(jìn)行實(shí)驗(yàn)的4個(gè)連續(xù)控制任務(wù)如下:

1)Walker2d實(shí)驗(yàn)環(huán)境如圖4(a)所示,此任務(wù)是使二維兩足機(jī)器人盡可能地向前行走。

2)Hopper實(shí)驗(yàn)環(huán)境如圖4(b)所示,此任務(wù)是讓一個(gè)三維單腿機(jī)器人盡可能地快速向前跳躍。

3)Swimmer實(shí)驗(yàn)環(huán)境如圖4(c)所示,是在粘性流體中的三連桿游泳機(jī)器人,此任務(wù)是通過驅(qū)動(dòng)兩個(gè)關(guān)節(jié)使其盡可能快地向前游。

4)Ant實(shí)驗(yàn)環(huán)境如圖4(d)所示,此任務(wù)使3D四足螞蟻形態(tài)的機(jī)器人學(xué)會(huì)快速向前走。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

在深度強(qiáng)化學(xué)習(xí)算法中參數(shù)的設(shè)計(jì)對網(wǎng)絡(luò)訓(xùn)練結(jié)果有著較大影響。本文DPPG中評(píng)判器網(wǎng)絡(luò)、行動(dòng)器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)、ICM和RPE-ICM模塊網(wǎng)絡(luò)中的具體超參數(shù)如表1。其中,學(xué)習(xí)率控制網(wǎng)絡(luò)中權(quán)重更新幅度的大小:學(xué)習(xí)率太高會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練過程不穩(wěn)定,從而導(dǎo)致最終學(xué)習(xí)效果不好;而學(xué)習(xí)率太低則會(huì)導(dǎo)致學(xué)習(xí)過程緩慢,需要極長時(shí)間才能夠收斂。訓(xùn)練批次大小是每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),大批次可以使網(wǎng)絡(luò)訓(xùn)練速度變快,但批次過大對硬件設(shè)備配置要求高,本文實(shí)驗(yàn)中批次大小設(shè)為64。在每個(gè)MuJoCo任務(wù)環(huán)境中的總步數(shù)是400萬。Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)沿用DDPG論文中的設(shè)置,RPE-ICM中前向模型與RPE-Network結(jié)構(gòu)如表2。

圖4 實(shí)驗(yàn)環(huán)境

表1 實(shí)驗(yàn)超參數(shù)

表2 RPE-ICM網(wǎng)絡(luò)結(jié)構(gòu)

3.3 實(shí)驗(yàn)結(jié)果與分析

深度強(qiáng)化學(xué)習(xí)中算法效果主要由最終平均獎(jiǎng)勵(lì)決定,網(wǎng)絡(luò)在設(shè)定的迭代次數(shù)結(jié)束后,平均獎(jiǎng)勵(lì)越大說明該算法性能越好。本文首先比較了RPE-ICM-DDPG、ICM-DDPG、RND-DDPG和傳統(tǒng)DDPG在MuJoCo的4個(gè)連續(xù)任務(wù)環(huán)境上的性能(平均回報(bào));然后將RPE模型和前向模型結(jié)合的方法與僅使用前向模型的方法進(jìn)行對比,進(jìn)一步驗(yàn)證在前向模型基礎(chǔ)之上加入RPE-Network的作用。

3.3.1 對比不同算法的性能

為了減少隨機(jī)因素對實(shí)驗(yàn)的影響,驗(yàn)證算法有效性,本文對每個(gè)環(huán)境進(jìn)行了5次對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖5所示,橫坐標(biāo)為實(shí)驗(yàn)步數(shù)(Steps),縱坐標(biāo)為平均回報(bào)值。圖中實(shí)線表示多次訓(xùn)練過程回報(bào)的平均值,陰影表示方差。

在Walker2d和Swimmer環(huán)境中,如圖5(a)、5(c)所示,DDPG、ICM-DDPG、RND-DDPG與RPE-ICM-DDPG算法在前100萬步時(shí),四種算法的平均回報(bào)都處于上升階段。而在實(shí)驗(yàn)進(jìn)行100萬步之后,RPE-ICM-DDPG平均回報(bào)優(yōu)于其他三種算法,在Walker2d環(huán)境中,RPE-ICM-DDPG與RND-DDPG相比,性能提升明顯。同時(shí)RPE-ICM-DDPG的曲線陰影面積相較于另外三種算法要小,這表示其方差更小,即算法更加穩(wěn)定。在Hopper中,如圖5(b)所示,在實(shí)驗(yàn)前期,RPE-ICM-DDPG算法的表現(xiàn)略差于DDPG,原因之一是RPE-ICM-DDPG算法增加了神經(jīng)網(wǎng)絡(luò)模塊,所以學(xué)習(xí)所需的樣本量大于DDPG算法。另外一個(gè)更重要的原因是DDPG是確定性動(dòng)作算法,由于沒有好奇心獎(jiǎng)勵(lì)模塊,智能體更加偏向于利用而忽略探索。這會(huì)使智能體在前期能夠獲得比較高的獎(jiǎng)勵(lì)值,從而得到一個(gè)次優(yōu)策略,但是在后期由于缺乏探索導(dǎo)致智能體學(xué)習(xí)效果不佳。本文增加RPE-ICM模塊后,雖然前期需要增加訓(xùn)練的樣本,但這也使得智能體在陌生的環(huán)境中有更多的內(nèi)在好奇心獎(jiǎng)勵(lì),從而激勵(lì)智能體探索環(huán)境。智能體在整個(gè)學(xué)習(xí)過程中能夠更好地平衡探索與利用,從而得到更好的學(xué)習(xí)效果。在實(shí)驗(yàn)進(jìn)行50萬步之后,DDPG和ICM-DDPG上升趨勢趨于平穩(wěn)甚至有所下降,而RPE-ICM-DDPG算法的表現(xiàn)明顯優(yōu)于其他三種算法。在Ant環(huán)境中,如圖5(d)所示,四種算法雖然都在波動(dòng)上升,但在實(shí)驗(yàn)后期,RPE-ICM-DDPG的性能表現(xiàn)始終優(yōu)于DDPG和ICM-DDPG,最終的平均回報(bào)也在較高值。RPE-ICM-DDPG與RND-DDPG算法在Ant環(huán)境中的性能差距不明顯,但是可以明顯看出后者波動(dòng)相對較大,即方差更大。RPE-ICM對比三種算法性能分?jǐn)?shù)情況如表3所示,其中1、2和3分別表示RPE-ICM-DDPG相對于DDPG、ICM-DDPG和RND-DDPG的性能提升。可以看到,對比傳統(tǒng)DDPG算法,RPE-ICM-DDPG在Walker2d環(huán)境中提升了9.54%,在Ant環(huán)境中提升達(dá)到了173.27%;對比ICM-DDPG,在RPE-ICM-DDPG在Walker2d中提升7.05%,在Ant中達(dá)到了83.49%;對比RND-DDPG,RPE-ICM-DDPG在Walker2d中提升5.0%,在Hopper中提升了20.8%。

圖5 四種算法在不同任務(wù)中的性能對比

表3 不同實(shí)驗(yàn)環(huán)境中算法的性能對比

實(shí)驗(yàn)結(jié)果表明,由于DDPG的探索策略主要是隨機(jī)噪聲,在三維視頻環(huán)境中難以學(xué)習(xí)到有效策略。ICM通過狀態(tài)預(yù)測誤差的好奇心獎(jiǎng)勵(lì)驅(qū)動(dòng)智能體獲取更多有用的狀態(tài),使得在某些環(huán)境中探索程度有所提高;但同時(shí),ICM算法會(huì)面臨好奇心陷阱,即過度探索新狀態(tài),這在狀態(tài)新穎性與獎(jiǎng)勵(lì)低相關(guān)環(huán)境中不利于智能體神經(jīng)網(wǎng)絡(luò)的收斂,因此可以看到ICM算法中方差較大,導(dǎo)致實(shí)際性能表現(xiàn)也并不是特別理想。如圖5所示,RPE-ICM-DDPG算法方差比其他兩者算法更小。在利用好奇心獎(jiǎng)勵(lì)引導(dǎo)智能體探索的同時(shí),獎(jiǎng)勵(lì)誤差預(yù)測模塊也讓智能體學(xué)會(huì)“克制”自己的好奇心,能夠平衡智能體的探索不足與探索過度。

3.3.2 RPE-Network與前向模型

為了進(jìn)一步驗(yàn)證本文提出的RPE-Network對前向模型性能提升的重要作用,本節(jié)實(shí)驗(yàn)將僅前向模型的方法(Only Forward)與RPE-Network結(jié)合前向模型的方法(RPE-ICM)進(jìn)行了對比。由于在上節(jié)實(shí)驗(yàn)中,RPE-ICM的性能提升在Hopper和Swimmer兩個(gè)環(huán)境中處于所有環(huán)境中的中間水平,故實(shí)驗(yàn)環(huán)境最終選擇Hopper和Swimmer。實(shí)驗(yàn)結(jié)果分別如圖6、7所示,實(shí)線表示5次訓(xùn)練過程回報(bào)的平均值,陰影部分表示方差。如圖6、7所示,在實(shí)驗(yàn)前前期,兩種方法的平均回報(bào)都處于上升趨勢;隨著訓(xùn)練的進(jìn)行,Only Forward方法的智能體的平均回報(bào)明顯要低于RPE-ICM方法的智能體。同時(shí)從圖中的陰影面積可以看出,在兩個(gè)任務(wù)環(huán)境中RPE-ICM智能體在多次實(shí)驗(yàn)中得到回報(bào)的方差與Only Forward智能體相比要小。實(shí)驗(yàn)結(jié)果表明RPE與前向模型結(jié)合的方法的性能和穩(wěn)定性比僅使用前向模型的方法更好,這進(jìn)一步驗(yàn)證了RPE-Network對前向模型的性能與穩(wěn)定性的提升起著重要作用。

圖6 Hopper環(huán)境中兩種方法的平均回報(bào)

圖7 Swimmer環(huán)境中兩種方法的平均回報(bào)

4 結(jié)語

智能體探索一直是深度強(qiáng)化學(xué)習(xí)的一個(gè)重要研究方向,以內(nèi)在好奇心獎(jiǎng)勵(lì)鼓勵(lì)智能體探索是重要方法之一。本文針對ICM在實(shí)際環(huán)境中的過度探索問題,提出了基于預(yù)測獎(jiǎng)勵(lì)誤差方法,通過RPE-Network修正狀態(tài)誤差獎(jiǎng)勵(lì),從而使智能體能夠更加合理地利用內(nèi)在好奇心獎(jiǎng)勵(lì)。然后將RPE-ICM-DDPG與傳統(tǒng)的DDPG算法、ICM-DDPG算法以及內(nèi)在好奇心方法RND-DDPG算法進(jìn)行了實(shí)驗(yàn)對比,結(jié)果表明RPE-ICM-DDPG方法相較于傳統(tǒng)DDPG、ICM-DDPG和RND-DDPG算法有更好的穩(wěn)定性以及更高的平均獎(jiǎng)勵(lì)回報(bào)值。在四個(gè)實(shí)驗(yàn)任務(wù)中,RPE-ICM-DDPG智能體的平均回報(bào)對比其他三種算法提升了5%~173%。但本文研究也有一定的不足,獎(jiǎng)勵(lì)誤差預(yù)測增加了神經(jīng)網(wǎng)絡(luò),這增加了智能體的訓(xùn)練難度。在未來,為了減小網(wǎng)絡(luò)訓(xùn)練難度,提升獎(jiǎng)勵(lì)預(yù)測好奇心模塊的效果,可以使用經(jīng)驗(yàn)池?cái)?shù)據(jù)對RPE-ICM模型進(jìn)行預(yù)訓(xùn)練,再通過遷移學(xué)習(xí)等方法將訓(xùn)練的好奇心模型結(jié)合深度強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。

[1] 劉全,翟建偉,章宗長,等. 深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(1): 1-27.(LIU Q, ZHAI J W, ZHANG Z Z, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1-27.)

[2] BELLEMARE M G, SRINIVASAN S, OSTROVSKI G, et al. Unifying count-based exploration and intrinsic motivation[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 1479-1487.

[3] PATHAK D, AGRAWAL P, EFROS A A, et al. Curiosity-driven exploration by self-supervised prediction[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 2778-2787.

[4] BURDA Y, EDWARDS H, STORKEY A, et al. Exploration by random network distillation[EB/OL]. (2018-10-30)[2021-02-21].https://arxiv.org/pdf/1810.12894.pdf.

[5] AGRAWAL P, NAIR A, ABBEEL P, et al. Learning to poke by poking: experiential learning of intuitive physics[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016:5092-5100.

[6] LILLICRAP T P, HUNT J J, PRITZEL A,et al. Continuous control with deep reinforcement learning[EB/OL]. (2019-07-05)[2021-02-21].https://arxiv.org/pdf/1509.02971.pdf.

[7] WATKINS C J C H. Learning from delayed rewards[D]. Cambridge: University of Cambridge, King’s College, 1989:44-46.

[8] GOODFELLOW I, BENGIO Y, COURVILLE A, et al. Deep Learning[M]. Cambridge: MIT Press, 2016:143-144.

[9] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning[EB/OL]. (2013-12-19)[2021-02-21].https://arxiv.org/pdf/1312.5602.pdf.

[10] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]// Proceedings of the 31st International Conference on Machine Learning. New York: JMLR.org, 2014: 387-395.

[11] SUTTON R S, McALLESTER D, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]// Proceedings of the 12th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 1999:1057-1063.

[12] KAKADE S. A natural policy gradient[C]// Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic. Cambridge: MIT Press, 2001:1531-1538.

[13] 時(shí)圣苗,劉全. 采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度方法[J/OL]. 自動(dòng)化學(xué)報(bào). (2019-10-17)[2021-02-21]. https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.16383/j.aas.c190406.(SHI S M, LIU Q. Deep deterministic policy gradient with classified experience replay[J/OL]. Acta Automatica Sinica. (2019-10-17)[2021-02-21]. https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.16383/j.aas.c190406.)

[14] 楊瑞,嚴(yán)江鵬,李秀. 強(qiáng)化學(xué)習(xí)稀疏獎(jiǎng)勵(lì)算法研究——理論與實(shí)驗(yàn)[J].智能系統(tǒng)學(xué)報(bào), 2020, 15(5):888-899.(YANG R, YAN J P, LI X. Survey of sparse reward algorithms in reinforcement learning - theory and experiment[J]. CAAI Transactions on Intelligent Systems, 2020, 15(5):888-899.)

[15] ACHIAM J, SASTRY S. Surprise-based intrinsic motivation for deep reinforcement learning[EB/OL]. (2017-03-06)[2021-02-21].https://arxiv.org/pdf/1703.01732.pdf.

[16] SCHMIDHUBER J. Formal theory of creativity, fun, and intrinsic motivation (1990-2010)[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(3): 230-247.

[17] BURDA Y, EDWARDS H, PATHAK D, et al. Large-scale study of curiosity-driven learning[EB/OL]. (2018-08-13)[2021-02-21].https://arxiv.org/pdf/1808.04355.pdf.

[18] SCHMIDHUBER J. A possibility for implementing curiosity and boredom in model-building neural controllers[C]// Proceedings of the 1st International Conference on Simulation of Adaptive Behavior: From Animals to Animats. Cambridge: MIT Press, 1991: 222-227.

[19] AGRAWAL P, CARREIRA J, MALIK J. Learning to see by moving[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 37-45.

[20] TA?GA A A, FEDUS W, MACHADO M C, et al. On bonus based exploration methods in the arcade learning environment[EB/OL]. (2021-09-22)[2021-11-21].https://arxiv.org/pdf/2109.11052.pdf.

[21] SCHMIDHUBER J. Formal theory of creativity, fun, and intrinsic motivation [J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(3): 230-247.

[22] TODOROV E, EREZ T, TASSA Y. MuJoCo: a physics engine for model-based control[C]// Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway: IEEE, 2012: 5026-5033.

Intrinsic curiosity method based on reward prediction error

TAN Qing1, LI Hui1,2*, WU Haolin1, WANG Zhuang1, DENG Shuchao1

(1(),,610065,;2(),610065,)

Concerning the problem that when the state prediction error is directly used as the intrinsic curiosity reward, the reinforcement learning agent cannot effectively explore the environment in the task with low correlation between state novelty and reward, an Intrinsic Curiosity Module with Reward Prediction Error (RPE-ICM) was proposed. In RPE-ICM, the Reward Prediction Error Network (RPE-Network) model was used to learn and correct the state prediction error reward, and the output of the Reward Prediction Error (RPE) model was used as an intrinsic reward signal to balance over-exploration and under-exploration, so that the agent was able to explore the environment more effectively and use the reward to learn skills to achieve better learning effect. In different MuJoCo (Multi-Joint dynamics with Contact) environments, comparative experiments were conducted on RPE-ICM, Intrinsic Curiosity Module (ICM), Random Network Distillation (RND) and traditional Deep Deterministic Strategy Gradient (DDPG) algorithm. The results show that compared with traditional DDPG, ICM-DDPG and RND-DDPG, the DDPG algorithm based on RPE-ICM has the average performance improved by 13.85%, 13.34% and 20.80% respectively in Hopper environment.

reinforcement learning; exploration; intrinsic curiosity reward; state novelty; Deep Deterministic Policy Gradient (DDPG)

This work is partially supported by Army-Wide Equipment Pre-Research Project (31505550302).

TAN Qing, born in 1996, M. S. candidate. His research interests include deep reinforcement learning.

LI Hui, born in 1970, Ph. D., professor. His research interests include computational intelligence, battlefield simulation, virtual reality.

WU Haolin, born in 1990, Ph. D. candidate. His research interests include deep reinforcement learning.

WANG Zhuang, born in 1987, Ph. D. candidate. His research interests include military artificial intelligence, deep reinforcement learning.

DENG Shuchao, born in 1999. His research interests include deep reinforcement learning.

TP181

A

1001-9081(2022)06-1822-07

10.11772/j.issn.1001-9081.2021040552

2021?04?12;

2021?06?17;

2021?06?23。

武器裝備預(yù)研基金資助項(xiàng)目(31505550302)。

譚慶(1996—),男,重慶人,碩士研究生,主要研究方向:深度強(qiáng)化學(xué)習(xí);李輝(1970—),男,四川成都人,教授,博士,主要研究方向:計(jì)算智能、戰(zhàn)場仿真、虛擬現(xiàn)實(shí);吳昊霖(1990—),男,山東臨沂人,博士研究生,主要研究方向:深度強(qiáng)化學(xué)習(xí);王壯(1987—),男,吉林白城人,博士研究生,主要研究方向:軍事人工智能、深度強(qiáng)化學(xué)習(xí);鄧書超(1999—),男,貴州綏陽人,主要研究方向:深度強(qiáng)化學(xué)習(xí)。

猜你喜歡
智能環(huán)境實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
做個(gè)怪怪長實(shí)驗(yàn)
環(huán)境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
主站蜘蛛池模板: 全部无卡免费的毛片在线看| 黄色免费在线网址| 在线色国产| 亚洲无码视频喷水| 色久综合在线| 欧美视频在线不卡| 日本在线亚洲| 国产成人高清精品免费5388| 毛片三级在线观看| 亚洲天堂久久久| 亚洲国产日韩在线成人蜜芽| 亚洲日韩每日更新| 欧美第九页| 人妻出轨无码中文一区二区| 亚洲综合激情另类专区| 毛片久久久| 欧美、日韩、国产综合一区| 国产日韩久久久久无码精品| 亚洲精品午夜天堂网页| 国产精品漂亮美女在线观看| 丁香五月婷婷激情基地| 99偷拍视频精品一区二区| 又大又硬又爽免费视频| 精品国产成人三级在线观看| 亚洲码在线中文在线观看| 成AV人片一区二区三区久久| 免费播放毛片| 亚洲精品第一页不卡| 日韩精品视频久久| 无码人妻热线精品视频| 国产精品美乳| 久久久噜噜噜| 国产91蝌蚪窝| 亚洲视频欧美不卡| 91麻豆精品国产91久久久久| 无码乱人伦一区二区亚洲一| 99久久99这里只有免费的精品| 久久精品无码国产一区二区三区| 一级爆乳无码av| 亚洲欧美日本国产专区一区| 国产真实自在自线免费精品| 中文字幕天无码久久精品视频免费| 农村乱人伦一区二区| 亚洲最猛黑人xxxx黑人猛交| 五月婷婷综合网| 亚洲va欧美va国产综合下载| 欧美日韩亚洲国产| 欧美五月婷婷| 国产微拍一区| 亚洲aⅴ天堂| 污视频日本| 尤物亚洲最大AV无码网站| 日韩欧美在线观看| 亚洲欧洲自拍拍偷午夜色无码| 热99精品视频| 女人18一级毛片免费观看| 亚洲91在线精品| 亚洲第一天堂无码专区| 国产乱人伦偷精品视频AAA| 亚洲AV永久无码精品古装片| 国产女人在线观看| 亚洲人成日本在线观看| 久久伊人操| 九色视频线上播放| 99在线视频免费| 国产人妖视频一区在线观看| 亚洲va视频| 狼友av永久网站免费观看| 亚洲浓毛av| 国产成人精品一区二区三区| 国产精品永久在线| 黄色网址免费在线| 22sihu国产精品视频影视资讯| 日本91视频| 久久人妻xunleige无码| 国产精品成人第一区| 在线免费观看AV| 国内精品久久久久鸭| 久久综合九色综合97婷婷| 成人亚洲国产| 成人福利视频网| 日韩在线播放中文字幕|