999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優(yōu)先共享經(jīng)驗重放的多智能體深度強化學(xué)習(xí)方法概述

2021-05-16 02:04:36羅偉
科學(xué)與信息化 2021年12期
關(guān)鍵詞:經(jīng)驗價值智能

羅偉

四川大學(xué) 電子信息學(xué)院 四川 成都 610065

引言

多智能體環(huán)境中,智能體之間既有策略之間的交互,還有經(jīng)驗之間的交流,經(jīng)驗數(shù)量的多少、質(zhì)量的好壞、經(jīng)驗處理方式等,從不同角度、不同程度的影響著智能體最終的訓(xùn)練學(xué)習(xí)效果。智能體與環(huán)境交互學(xué)習(xí)時,動態(tài)環(huán)境探索困難與經(jīng)驗數(shù)據(jù)利用效率低的問題不但影響智能體的訓(xùn)練學(xué)習(xí)效率還會影響智能體的策略性能。很多經(jīng)典的強化學(xué)習(xí)方法如DQN、DDPG都需要智能體與環(huán)境進行大量的探索交互,得到大量的經(jīng)驗數(shù)據(jù)來優(yōu)化策略網(wǎng)絡(luò),這種方式學(xué)習(xí)效率極低。多智能體強化學(xué)習(xí)需要不斷探索智能體間的聯(lián)合動作-狀態(tài)空間,但隨著智能體數(shù)量的增多,聯(lián)合動作-狀態(tài)空間呈現(xiàn)指數(shù)級增長。

因此,提出的優(yōu)先共享經(jīng)驗重放(PSER)從經(jīng)驗的獲得性與經(jīng)驗數(shù)據(jù)的處理使用兩個層面著手,首先通過優(yōu)先經(jīng)驗重放最大限度地挖掘經(jīng)驗數(shù)據(jù)對于智能體策略學(xué)習(xí)的價值,提升智能體訓(xùn)練學(xué)習(xí)的速度;然后通過多智能體之間的經(jīng)驗分享,促進多智能體集群實現(xiàn)更快的動態(tài)環(huán)境探索。基于MADDPG[1]的中心化訓(xùn)練-分布式執(zhí)行的多智能體訓(xùn)練架構(gòu)實現(xiàn)了PSER方法,環(huán)境中智能體在進行Actor-Critic網(wǎng)絡(luò)參數(shù)更新的時候,聯(lián)合了通過智能體自身的經(jīng)驗計算而來的梯度與通過其他智能體經(jīng)驗計算而來的梯度。在多智能體合作場景中進行了仿真實驗,驗證了PSER算法的有效性。

1 優(yōu)先共享經(jīng)驗重放方法

實現(xiàn)PSER方法需要解決兩個重要問題:一是多智能體之間分享彼此的哪些經(jīng)驗,二是如何實現(xiàn)多智能體之間的經(jīng)驗分享。

本文通過優(yōu)先經(jīng)驗重放[2](PER)解決第一個問題。現(xiàn)有的方法中,大多數(shù)實現(xiàn)是從每個智能體的經(jīng)驗緩存中隨機選擇一部分經(jīng)驗分享給彼此以實現(xiàn)智能體之間經(jīng)驗分享,被選擇的這部分經(jīng)驗可能對于智能體自身和其他智能體來說都沒有很高的學(xué)習(xí)價值。因此,將PER方法擴展到多智能體環(huán)境,使用優(yōu)先經(jīng)驗重放從每個智能體的經(jīng)驗緩存中更頻繁地選擇更重要的經(jīng)驗來進行分享。因此,智能體自身采樣得到的經(jīng)驗和從其他智能體分享得到的經(jīng)驗都具有很高的學(xué)習(xí)價值,使用這些經(jīng)驗來進行學(xué)習(xí)更新無疑是很有吸引力的。

經(jīng)驗分享就是在多個智能體之間實現(xiàn)經(jīng)驗的搜集與分享傳輸。具體地,在PSER中每個智能體擁有獨立的重放緩存,但是使用了PER對各自的經(jīng)驗進行重要性價值的排序并采樣得到采樣批。每個智能體更新學(xué)習(xí)時所需要的采樣批大部分來自于自身重放緩存的PER采樣,另一部分來自群體中其他智能體的PER采樣與經(jīng)驗分享,各自所占比例由權(quán)重與給定。為了保證整個訓(xùn)練學(xué)習(xí)過程的穩(wěn)定,增強智能體學(xué)習(xí)策略的魯棒性,提出漸變式分享權(quán)重設(shè)計:初始權(quán)重并隨著訓(xùn)練過程逐漸增加減少,直到訓(xùn)練結(jié)束時達到。漸變式權(quán)重保證在訓(xùn)練初期通過經(jīng)驗分享加快智能體集群的環(huán)境探索速度,但在訓(xùn)練后期智能體對環(huán)境的認(rèn)知逐漸完整、策略更加優(yōu)化,不再需要其他智能體分享經(jīng)驗。因此,N個智能體的系統(tǒng)中,智能體更新學(xué)習(xí)所需的采樣批表示如下:

通過智能體之間的這種經(jīng)驗分享與信息反饋,促進智能體集群實現(xiàn)共同探索環(huán)境、協(xié)同訓(xùn)練優(yōu)化的效果。全新的多智能體優(yōu)先共享經(jīng)驗重放(PSER)方法就是PER與經(jīng)驗分享機制的有機結(jié)合。每一個環(huán)境步,每個智能體通過策略動作與環(huán)境交互產(chǎn)生一條經(jīng)驗數(shù)據(jù),并通過PER方法存儲于自身的優(yōu)先緩存中,然后使用PSER機制獲得其他智能體的高價值經(jīng)驗,聯(lián)合智能體自身的PER采樣組成采樣批mini-batch并進行智能體Actor-Critic網(wǎng)絡(luò)參數(shù)的更新。

2 仿真結(jié)果

仿真場景定義:基于多智能體粒子[3]中的Simple場景(見圖1),場景中智能體數(shù)為3,1個隨機移動目標(biāo)。智能體到達目標(biāo)的定義就是智能體達到目標(biāo)周圍一定距離以內(nèi),并根據(jù)設(shè)置了難度不同的兩個場景變體,分別簡記為Trace(a)與Trace(b)。

基于以上環(huán)境,在MADDPG算法上將PSER與PER、均勻經(jīng)驗重放(UER)進行了對比,實驗結(jié)果如圖1所示。在Trace(a)中,PSER與PER表現(xiàn)差不多,但是前者還是在數(shù)據(jù)效率與最終回報方面表現(xiàn)更好。相比之下,UER在更多的探索回合下卻收斂到了不穩(wěn)定的次優(yōu)策略。令人驚訝的是,在任務(wù)更困難的場景Trace(b)中,只有使用PSER的智能體能繼續(xù)學(xué)會如何追蹤移動目標(biāo),而使用其他技術(shù)的智能體都失敗了,獲得了接近0的平均獎勵回報。

本文認(rèn)為PSER優(yōu)于其他算法的原因如下:①對經(jīng)驗進行重要性排序與過濾,總能從海量經(jīng)驗數(shù)據(jù)中挖掘出最有價值的信息,進而為智能體提供最快的梯度學(xué)習(xí)方向;②通過智能體間的經(jīng)驗分享,每個智能體可以使用其他智能體嘗試的動作、觀測的狀態(tài)、探索的經(jīng)驗,聯(lián)合自身的學(xué)習(xí)經(jīng)驗,能提供給智能體自身一個很強的梯度學(xué)習(xí)方向,導(dǎo)致其不用親自進行完全的環(huán)境探索就能學(xué)習(xí)到良好的策略。

3 結(jié)束語

在多智能體強化學(xué)習(xí)中,優(yōu)先共享經(jīng)驗重放機制通過經(jīng)驗分享使智能體可以同時使用自身的高價值經(jīng)驗與其他智能體的高價值經(jīng)驗進行策略學(xué)習(xí),加速智能體集群對環(huán)境的探索認(rèn)知,進而極大地提高智能體經(jīng)驗數(shù)據(jù)的使用效率與學(xué)習(xí)速度。仿真實驗表明,PSER方法優(yōu)于既有的方法(包括PER、UER),使智能體以近乎完美的探索能力與數(shù)據(jù)效率學(xué)習(xí)到了更好的策略并獲得了更多的獎勵回報。

圖1 Simple場景兩個變體中各種算法的學(xué)習(xí)收斂性能對比

猜你喜歡
經(jīng)驗價值智能
2021年第20期“最值得推廣的經(jīng)驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
經(jīng)驗
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
2018年第20期“最值得推廣的經(jīng)驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
一粒米的價值
“給”的價值
當(dāng)你遇見了“零經(jīng)驗”的他
都市麗人(2015年4期)2015-03-20 13:33:22
主站蜘蛛池模板: 国产精品99久久久| 国产激情第一页| 2021无码专区人妻系列日韩| 欧美一区二区人人喊爽| 无遮挡一级毛片呦女视频| 久久久精品无码一二三区| 亚洲区欧美区| 亚洲色图欧美一区| 中文国产成人精品久久一| 国产一区二区三区免费观看| 91在线无码精品秘九色APP| 国产精品永久久久久| 日韩一区精品视频一区二区| 91小视频版在线观看www| 青青草91视频| a国产精品| 日韩高清在线观看不卡一区二区| 久久伊人操| 婷五月综合| 国产91视频免费观看| 在线看AV天堂| 国产91精品调教在线播放| 特级aaaaaaaaa毛片免费视频 | 国产永久在线观看| 欧美另类视频一区二区三区| 亚洲欧洲美色一区二区三区| 亚洲最大福利网站| 久久精品中文无码资源站| 亚洲av无码久久无遮挡| 中国丰满人妻无码束缚啪啪| 亚洲欧美精品日韩欧美| 人人澡人人爽欧美一区| 蜜桃臀无码内射一区二区三区| 91网在线| 国模极品一区二区三区| 亚洲无码熟妇人妻AV在线| av午夜福利一片免费看| 欧美在线伊人| 国产中文在线亚洲精品官网| 欧美特黄一级大黄录像| 五月婷婷综合色| 国产欧美日韩资源在线观看| 久久精品视频亚洲| 91毛片网| 天天色天天操综合网| 手机在线免费不卡一区二| 欧美成人免费一区在线播放| 高清不卡一区二区三区香蕉| 欧美成人aⅴ| a级毛片一区二区免费视频| 国产成人综合亚洲欧洲色就色| 国产一级一级毛片永久| 二级特黄绝大片免费视频大片| 色老二精品视频在线观看| 亚洲免费毛片| 亚洲AⅤ波多系列中文字幕| 五月天久久婷婷| 国产精品美女网站| 国产福利免费在线观看| 人妻丰满熟妇啪啪| 日韩毛片免费| 999国内精品久久免费视频| 亚洲无码A视频在线| 精品视频在线一区| 久久夜色撩人精品国产| 国产成人综合亚洲欧美在| 国产精品永久免费嫩草研究院| 日韩毛片基地| 国产微拍精品| 欧美成人第一页| 99er这里只有精品| 国产爽妇精品| 久久久亚洲色| 国产高清免费午夜在线视频| 美女潮喷出白浆在线观看视频| 亚洲欧美一区二区三区蜜芽| 人妻精品全国免费视频| 亚洲成人www| 亚洲免费人成影院| 国产一区二区网站| 91视频首页| 亚洲人成网站日本片|