基于優(yōu)先共享經(jīng)驗重放的多智能體深度強化學(xué)習(xí)方法概述

2021-05-16 02:04:36羅偉

科學(xué)與信息化 2021年12期

羅偉

四川大學(xué) 電子信息學(xué)院四川成都 610065

引言

多智能體環(huán)境中，智能體之間既有策略之間的交互，還有經(jīng)驗之間的交流，經(jīng)驗數(shù)量的多少、質(zhì)量的好壞、經(jīng)驗處理方式等，從不同角度、不同程度的影響著智能體最終的訓(xùn)練學(xué)習(xí)效果。智能體與環(huán)境交互學(xué)習(xí)時，動態(tài)環(huán)境探索困難與經(jīng)驗數(shù)據(jù)利用效率低的問題不但影響智能體的訓(xùn)練學(xué)習(xí)效率還會影響智能體的策略性能。很多經(jīng)典的強化學(xué)習(xí)方法如DQN、DDPG都需要智能體與環(huán)境進行大量的探索交互，得到大量的經(jīng)驗數(shù)據(jù)來優(yōu)化策略網(wǎng)絡(luò)，這種方式學(xué)習(xí)效率極低。多智能體強化學(xué)習(xí)需要不斷探索智能體間的聯(lián)合動作-狀態(tài)空間，但隨著智能體數(shù)量的增多，聯(lián)合動作-狀態(tài)空間呈現(xiàn)指數(shù)級增長。

因此，提出的優(yōu)先共享經(jīng)驗重放（PSER）從經(jīng)驗的獲得性與經(jīng)驗數(shù)據(jù)的處理使用兩個層面著手，首先通過優(yōu)先經(jīng)驗重放最大限度地挖掘經(jīng)驗數(shù)據(jù)對于智能體策略學(xué)習(xí)的價值，提升智能體訓(xùn)練學(xué)習(xí)的速度；然后通過多智能體之間的經(jīng)驗分享，促進多智能體集群實現(xiàn)更快的動態(tài)環(huán)境探索。基于MADDPG[1]的中心化訓(xùn)練-分布式執(zhí)行的多智能體訓(xùn)練架構(gòu)實現(xiàn)了PSER方法，環(huán)境中智能體在進行Actor-Critic網(wǎng)絡(luò)參數(shù)更新的時候，聯(lián)合了通過智能體自身的經(jīng)驗計算而來的梯度與通過其他智能體經(jīng)驗計算而來的梯度。在多智能體合作場景中進行了仿真實驗，驗證了PSER算法的有效性。

1 優(yōu)先共享經(jīng)驗重放方法

實現(xiàn)PSER方法需要解決兩個重要問題：一是多智能體之間分享彼此的哪些經(jīng)驗，二是如何實現(xiàn)多智能體之間的經(jīng)驗分享。

本文通過優(yōu)先經(jīng)驗重放[2]（PER）解決第一個問題。現(xiàn)有的方法中，大多數(shù)實現(xiàn)是從每個智能體的經(jīng)驗緩存中隨機選擇一部分經(jīng)驗分享給彼此以實現(xiàn)智能體之間經(jīng)驗分享，被選擇的這部分經(jīng)驗可能對于智能體自身和其他智能體來說都沒有很高的學(xué)習(xí)價值。因此，將PER方法擴展到多智能體環(huán)境，使用優(yōu)先經(jīng)驗重放從每個智能體的經(jīng)驗緩存中更頻繁地選擇更重要的經(jīng)驗來進行分享。因此，智能體自身采樣得到的經(jīng)驗和從其他智能體分享得到的經(jīng)驗都具有很高的學(xué)習(xí)價值，使用這些經(jīng)驗來進行學(xué)習(xí)更新無疑是很有吸引力的。

經(jīng)驗分享就是在多個智能體之間實現(xiàn)經(jīng)驗的搜集與分享傳輸。具體地，在PSER中每個智能體擁有獨立的重放緩存，但是使用了PER對各自的經(jīng)驗進行重要性價值的排序并采樣得到采樣批。每個智能體更新學(xué)習(xí)時所需要的采樣批大部分來自于自身重放緩存的PER采樣，另一部分來自群體中其他智能體的PER采樣與經(jīng)驗分享，各自所占比例由權(quán)重與給定。為了保證整個訓(xùn)練學(xué)習(xí)過程的穩(wěn)定，增強智能體學(xué)習(xí)策略的魯棒性，提出漸變式分享權(quán)重設(shè)計：初始權(quán)重并隨著訓(xùn)練過程逐漸增加減少，直到訓(xùn)練結(jié)束時達到。漸變式權(quán)重保證在訓(xùn)練初期通過經(jīng)驗分享加快智能體集群的環(huán)境探索速度，但在訓(xùn)練后期智能體對環(huán)境的認(rèn)知逐漸完整、策略更加優(yōu)化，不再需要其他智能體分享經(jīng)驗。因此，N個智能體的系統(tǒng)中，智能體更新學(xué)習(xí)所需的采樣批表示如下：

通過智能體之間的這種經(jīng)驗分享與信息反饋，促進智能體集群實現(xiàn)共同探索環(huán)境、協(xié)同訓(xùn)練優(yōu)化的效果。全新的多智能體優(yōu)先共享經(jīng)驗重放（PSER）方法就是PER與經(jīng)驗分享機制的有機結(jié)合。每一個環(huán)境步，每個智能體通過策略動作與環(huán)境交互產(chǎn)生一條經(jīng)驗數(shù)據(jù)，并通過PER方法存儲于自身的優(yōu)先緩存中，然后使用PSER機制獲得其他智能體的高價值經(jīng)驗，聯(lián)合智能體自身的PER采樣組成采樣批mini-batch并進行智能體Actor-Critic網(wǎng)絡(luò)參數(shù)的更新。

2 仿真結(jié)果

仿真場景定義：基于多智能體粒子[3]中的Simple場景（見圖1），場景中智能體數(shù)為3，1個隨機移動目標(biāo)。智能體到達目標(biāo)的定義就是智能體達到目標(biāo)周圍一定距離以內(nèi)，并根據(jù)設(shè)置了難度不同的兩個場景變體，分別簡記為Trace（a）與Trace（b）。

基于以上環(huán)境，在MADDPG算法上將PSER與PER、均勻經(jīng)驗重放（UER）進行了對比，實驗結(jié)果如圖1所示。在Trace(a)中，PSER與PER表現(xiàn)差不多，但是前者還是在數(shù)據(jù)效率與最終回報方面表現(xiàn)更好。相比之下，UER在更多的探索回合下卻收斂到了不穩(wěn)定的次優(yōu)策略。令人驚訝的是，在任務(wù)更困難的場景Trace(b)中，只有使用PSER的智能體能繼續(xù)學(xué)會如何追蹤移動目標(biāo)，而使用其他技術(shù)的智能體都失敗了，獲得了接近0的平均獎勵回報。

本文認(rèn)為PSER優(yōu)于其他算法的原因如下：①對經(jīng)驗進行重要性排序與過濾，總能從海量經(jīng)驗數(shù)據(jù)中挖掘出最有價值的信息，進而為智能體提供最快的梯度學(xué)習(xí)方向；②通過智能體間的經(jīng)驗分享，每個智能體可以使用其他智能體嘗試的動作、觀測的狀態(tài)、探索的經(jīng)驗，聯(lián)合自身的學(xué)習(xí)經(jīng)驗，能提供給智能體自身一個很強的梯度學(xué)習(xí)方向，導(dǎo)致其不用親自進行完全的環(huán)境探索就能學(xué)習(xí)到良好的策略。

3 結(jié)束語

在多智能體強化學(xué)習(xí)中，優(yōu)先共享經(jīng)驗重放機制通過經(jīng)驗分享使智能體可以同時使用自身的高價值經(jīng)驗與其他智能體的高價值經(jīng)驗進行策略學(xué)習(xí)，加速智能體集群對環(huán)境的探索認(rèn)知，進而極大地提高智能體經(jīng)驗數(shù)據(jù)的使用效率與學(xué)習(xí)速度。仿真實驗表明，PSER方法優(yōu)于既有的方法（包括PER、UER），使智能體以近乎完美的探索能力與數(shù)據(jù)效率學(xué)習(xí)到了更好的策略并獲得了更多的獎勵回報。

圖1 Simple場景兩個變體中各種算法的學(xué)習(xí)收斂性能對比