999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

稀疏獎(jiǎng)勵(lì)場景下深度強(qiáng)化學(xué)習(xí)算法研究

2021-12-27 01:39:02周國明
科學(xué)與信息化 2021年12期
關(guān)鍵詞:機(jī)制智能信號(hào)

周國明

四川大學(xué) 電子信息學(xué)院 四川 成都 610000

引言

深度強(qiáng)化學(xué)習(xí)[1](deep reinforcement learning ,DRL)是機(jī)器學(xué)習(xí)[2]的重要分支,它是在與環(huán)境交互中尋找最優(yōu)策略的一類方法。DRL中智能體的目標(biāo)是獲得最大獎(jiǎng)勵(lì),環(huán)境可以提供密集的獎(jiǎng)勵(lì)信號(hào)時(shí)DRL可以工作得很好,然而在許多實(shí)際問題中,獎(jiǎng)勵(lì)是稀疏的,稀疏獎(jiǎng)勵(lì)導(dǎo)致智能體無法有效的學(xué)習(xí)。實(shí)際上稀疏獎(jiǎng)勵(lì)問題會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)算法迭代緩慢、難以收斂,甚至根本無法進(jìn)行學(xué)習(xí)[3]。因此,如何解決稀疏獎(jiǎng)勵(lì)帶來的負(fù)面影響,研究稀疏獎(jiǎng)勵(lì)環(huán)境下的強(qiáng)化學(xué)習(xí)算法,至關(guān)重要。本文提出了一個(gè)使用智能體相鄰兩個(gè)狀態(tài)之間的距離來作為智能體的內(nèi)在獎(jiǎng)勵(lì)以驅(qū)動(dòng)智能體對環(huán)境進(jìn)行探索的方

1 基于內(nèi)在激勵(lì)機(jī)制的算法化

1.1 內(nèi)在激勵(lì)機(jī)制

由此可見,獎(jiǎng)勵(lì)在強(qiáng)化學(xué)習(xí)中起著非常重要的作用,它指導(dǎo)著智能體的學(xué)習(xí)。然而,在許多實(shí)際生活場景中,獎(jiǎng)勵(lì)是稀疏的,這意味著智能體很難獲得獎(jiǎng)勵(lì),甚至需要正確執(zhí)行很長序列的動(dòng)作才能得到環(huán)境的反饋,導(dǎo)致智能體很難學(xué)到解決目標(biāo)任務(wù)所需要做的動(dòng)作,無法學(xué)習(xí)到給定的任務(wù)。另一方面,由于缺少獎(jiǎng)勵(lì)信號(hào),智能體需要與環(huán)境做大量的交互,獲取足夠多的樣本數(shù)據(jù),這會(huì)導(dǎo)致算法訓(xùn)練的非常緩慢,甚至無法收斂。因此,本文考慮如何為智能體提供額外的獎(jiǎng)勵(lì)信號(hào)來源,稱之為內(nèi)在獎(jiǎng)勵(lì)[1]。

1.2 基于狀態(tài)距離的內(nèi)在獎(jiǎng)勵(lì)生成算法

特征提取模塊中使用的是不進(jìn)行參數(shù)更新的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò)模型,專門用于處理具有相似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)。卷積是圖像處理中一種有效的特征提取方法,而我們的實(shí)驗(yàn)環(huán)境為Atari視頻游戲,它的表現(xiàn)形式是一幀幀的圖像,所以我們使用卷積神經(jīng)網(wǎng)絡(luò)提取狀態(tài)的特征。不進(jìn)行參數(shù)更新的原因在于,首先我們需要穩(wěn)定的內(nèi)在獎(jiǎng)勵(lì)項(xiàng),由于卷積神經(jīng)網(wǎng)絡(luò)是固定的,所以在整個(gè)訓(xùn)練過程中,提取到的所有狀態(tài)的特征向量都是通過同一個(gè)范式得到的,保證了用特征向量做差得到的內(nèi)在獎(jiǎng)勵(lì)項(xiàng)是穩(wěn)定的;其次,如果要訓(xùn)練特征提取模塊中使用的卷積神經(jīng)網(wǎng)絡(luò),是比較困難的,雖然我們可以采取ICM模型[5],但這會(huì)大大增加模型的量。

2 實(shí)驗(yàn)

為了測試本文提出的基于內(nèi)在獎(jiǎng)勵(lì)機(jī)制的算法的有效性,必須要有一個(gè)合適的環(huán)境來進(jìn)行測試。由于我們的算法是稀疏獎(jiǎng)勵(lì)相關(guān)的,我們需要外在獎(jiǎng)勵(lì)稀少的場景。本文從Open AI Gym工具包中選擇了Atari視頻游戲中的Space Invaders和Freeway。

Space Invaders提供的是一個(gè)具有相對密集的獎(jiǎng)勵(lì)反饋的環(huán)境,而Freeway則提供的是一個(gè)智能體進(jìn)行需要搜索才能得到獎(jiǎng)勵(lì)的稀疏獎(jiǎng)勵(lì)環(huán)境[6]。我們選擇這兩個(gè)環(huán)境,一個(gè)獎(jiǎng)勵(lì)信號(hào)相對密集,另一個(gè)獎(jiǎng)勵(lì)信號(hào)稀疏,可以更好地看到本文所提出的內(nèi)在獎(jiǎng)勵(lì)生成算法在稀疏獎(jiǎng)勵(lì)環(huán)境下的優(yōu)越性。

選擇的基礎(chǔ)強(qiáng)化學(xué)習(xí)算法為A2C,它是在Actor-Critic算法的基礎(chǔ)上,使用優(yōu)勢函數(shù)代替Critic網(wǎng)絡(luò)中的原始回報(bào)[7]。比較原始A2C算法與添加了內(nèi)在獎(jiǎng)勵(lì)機(jī)制的A2C算法(稱之為IBA2C算法),分別在Space Invaders和Freeway下的表現(xiàn)效果。需要注意的是,由于智能體的目標(biāo)是最大化來自環(huán)境的獎(jiǎng)勵(lì)信號(hào)值,所以在實(shí)驗(yàn)結(jié)果對比中,只使用了外在獎(jiǎng)勵(lì)值,內(nèi)在獎(jiǎng)勵(lì)項(xiàng)是沒有使用的。

從實(shí)驗(yàn)結(jié)果可看出,在Space Invaders場景中,A2C算法IBA2C算法基本上有相同的性能表現(xiàn),IBA2C算法的表現(xiàn)稍稍優(yōu)于A2C算法,兩者都能夠很快地到達(dá)一個(gè)很好的收斂。這表明,在外在獎(jiǎng)勵(lì)密集的場景下,智能體無須做很多的探索,僅僅依靠外在獎(jiǎng)勵(lì)信號(hào)的指導(dǎo),就能夠?qū)W會(huì)完成目標(biāo)任務(wù)。在外在獎(jiǎng)勵(lì)稀疏的Freeway場景中, A2C算法的表現(xiàn)很糟糕,智能體基本上無法獲得任何的外在獎(jiǎng)勵(lì),而IBA2C算法表現(xiàn)優(yōu)異,在經(jīng)過大約2.4e7個(gè)時(shí)間步的訓(xùn)練后,可以快速得到一個(gè)很好的效果。實(shí)驗(yàn)結(jié)果表明,本文提出的內(nèi)在獎(jiǎng)勵(lì)機(jī)制在稀疏獎(jiǎng)勵(lì)場景下可以顯著提高性能。

3 結(jié)束語

本文針對稀疏獎(jiǎng)勵(lì)場景下的內(nèi)在獎(jiǎng)勵(lì)機(jī)制進(jìn)行了研究。引入內(nèi)在激勵(lì)機(jī)制,提出了一種新的內(nèi)在獎(jiǎng)勵(lì)生成算法。本文提出的內(nèi)在獎(jiǎng)勵(lì)生成算法利用一個(gè)固定的卷積神經(jīng)網(wǎng)絡(luò)提取狀態(tài)的特征向量,把相鄰的兩個(gè)狀態(tài)的狀態(tài)特征向量的歐式距離作為內(nèi)在獎(jiǎng)勵(lì)項(xiàng)。將內(nèi)在獎(jiǎng)勵(lì)與外在獎(jiǎng)勵(lì)合成為一個(gè)獎(jiǎng)勵(lì),使用這個(gè)合成的獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)智能體的學(xué)習(xí)。最后,把提出的內(nèi)在獎(jiǎng)勵(lì)生成算法與A2C算法結(jié)合在一起,在Atari視頻游戲場景Space Invaders和Freeway中進(jìn)行了對比試驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的內(nèi)在獎(jiǎng)勵(lì)生成算法可以顯著地提高智能體在稀疏獎(jiǎng)勵(lì)環(huán)境下的表現(xiàn)。

猜你喜歡
機(jī)制智能信號(hào)
信號(hào)
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:42
基于LabVIEW的力加載信號(hào)采集與PID控制
破除舊機(jī)制要分步推進(jìn)
主站蜘蛛池模板: 国产福利在线观看精品| 日韩欧美国产中文| 无码AV日韩一二三区| www.亚洲天堂| 色综合久久88| 欧日韩在线不卡视频| 熟妇丰满人妻| 国产欧美网站| 六月婷婷激情综合| 热思思久久免费视频| 色视频久久| 精品久久久久久中文字幕女| 热99re99首页精品亚洲五月天| 成人国产精品视频频| 亚洲有无码中文网| 国产日产欧美精品| 亚洲国产精品不卡在线| 一级毛片在线播放免费观看| 在线观看无码a∨| 国产精品美女免费视频大全| 亚洲一区波多野结衣二区三区| 亚洲熟妇AV日韩熟妇在线| 亚洲色图欧美在线| 亚洲愉拍一区二区精品| 亚欧美国产综合| 亚洲一级无毛片无码在线免费视频 | 精品在线免费播放| 国产成人精品2021欧美日韩| 色欲色欲久久综合网| 情侣午夜国产在线一区无码| 日韩二区三区| 国产人妖视频一区在线观看| 国产H片无码不卡在线视频| www.亚洲天堂| 国产综合亚洲欧洲区精品无码| 综合色婷婷| 美女一区二区在线观看| 国产成人狂喷潮在线观看2345| 国产一区成人| 91青青草视频在线观看的| 污污网站在线观看| 欧美日韩一区二区在线播放| 久久成人国产精品免费软件 | Aⅴ无码专区在线观看| 91国内视频在线观看| 亚洲一区二区三区国产精华液| 国产午夜无码专区喷水| 这里只有精品在线| 99久久国产综合精品2020| 国产精品永久不卡免费视频 | 毛片大全免费观看| 精品福利国产| 国产在线观看91精品亚瑟| 国产网站免费| 日韩精品高清自在线| 亚洲综合色婷婷| 永久免费AⅤ无码网站在线观看| 黄色网站在线观看无码| 2021国产乱人伦在线播放| 制服丝袜无码每日更新| 青青久视频| 国产人成乱码视频免费观看| 国产欧美日韩综合在线第一| 色婷婷色丁香| 欧美日韩亚洲国产主播第一区| 九色视频在线免费观看| 刘亦菲一区二区在线观看| 最新亚洲人成无码网站欣赏网| 91免费精品国偷自产在线在线| a级毛片免费看| 色综合天天综合| 国产成人做受免费视频| 久久成人18免费| 国产理论一区| 日韩精品一区二区三区swag| 欧美亚洲一二三区| 亚洲天堂在线视频| 亚洲人成网18禁| 国产久草视频| 亚洲成a∧人片在线观看无码| 无码精品国产dvd在线观看9久 | 亚洲日本韩在线观看|