羅偉
四川大學(xué) 電子信息學(xué)院 四川 成都 610065
多智能體環(huán)境中,智能體之間既有策略之間的交互,還有經(jīng)驗之間的交流,經(jīng)驗數(shù)量的多少、質(zhì)量的好壞、經(jīng)驗處理方式等,從不同角度、不同程度的影響著智能體最終的訓(xùn)練學(xué)習(xí)效果。智能體與環(huán)境交互學(xué)習(xí)時,動態(tài)環(huán)境探索困難與經(jīng)驗數(shù)據(jù)利用效率低的問題不但影響智能體的訓(xùn)練學(xué)習(xí)效率還會影響智能體的策略性能。很多經(jīng)典的強化學(xué)習(xí)方法如DQN、DDPG都需要智能體與環(huán)境進行大量的探索交互,得到大量的經(jīng)驗數(shù)據(jù)來優(yōu)化策略網(wǎng)絡(luò),這種方式學(xué)習(xí)效率極低。多智能體強化學(xué)習(xí)需要不斷探索智能體間的聯(lián)合動作-狀態(tài)空間,但隨著智能體數(shù)量的增多,聯(lián)合動作-狀態(tài)空間呈現(xiàn)指數(shù)級增長。
因此,提出的優(yōu)先共享經(jīng)驗重放(PSER)從經(jīng)驗的獲得性與經(jīng)驗數(shù)據(jù)的處理使用兩個層面著手,首先通過優(yōu)先經(jīng)驗重放最大限度地挖掘經(jīng)驗數(shù)據(jù)對于智能體策略學(xué)習(xí)的價值,提升智能體訓(xùn)練學(xué)習(xí)的速度;然后通過多智能體之間的經(jīng)驗分享,促進多智能體集群實現(xiàn)更快的動態(tài)環(huán)境探索。基于MADDPG[1]的中心化訓(xùn)練-分布式執(zhí)行的多智能體訓(xùn)練架構(gòu)實現(xiàn)了PSER方法,環(huán)境中智能體在進行Actor-Critic網(wǎng)絡(luò)參數(shù)更新的時候,聯(lián)合了通過智能體自身的經(jīng)驗計算而來的梯度與通過其他智能體經(jīng)驗計算而來的梯度。在多智能體合作場景中進行了仿真實驗,驗證了PSER算法的有效性。
實現(xiàn)PSER方法需要解決兩個重要問題:一是多智能體之間分享彼此的哪些經(jīng)驗,二是如何實現(xiàn)多智能體之間的經(jīng)驗分享。
本文通過優(yōu)先經(jīng)驗重放[2](PER)解決第一個問題。現(xiàn)有的方法中,大多數(shù)實現(xiàn)是從每個智能體的經(jīng)驗緩存中隨機選擇一部分經(jīng)驗分享給彼此以實現(xiàn)智能體之間經(jīng)驗分享,被選擇的這部分經(jīng)驗可能對于智能體自身和其他智能體來說都沒有很高的學(xué)習(xí)價值。因此,將PER方法擴展到多智能體環(huán)境,使用優(yōu)先經(jīng)驗重放從每個智能體的經(jīng)驗緩存中更頻繁地選擇更重要的經(jīng)驗來進行分享。因此,智能體自身采樣得到的經(jīng)驗和從其他智能體分享得到的經(jīng)驗都具有很高的學(xué)習(xí)價值,使用這些經(jīng)驗來進行學(xué)習(xí)更新無疑是很有吸引力的。
經(jīng)驗分享就是在多個智能體之間實現(xiàn)經(jīng)驗的搜集與分享傳輸。具體地,在PSER中每個智能體擁有獨立的重放緩存,但是使用了PER對各自的經(jīng)驗進行重要性價值的排序并采樣得到采樣批。每個智能體更新學(xué)習(xí)時所需要的采樣批大部分來自于自身重放緩存的PER采樣,另一部分來自群體中其他智能體的PER采樣與經(jīng)驗分享,各自所占比例由權(quán)重與給定。為了保證整個訓(xùn)練學(xué)習(xí)過程的穩(wěn)定,增強智能體學(xué)習(xí)策略的魯棒性,提出漸變式分享權(quán)重設(shè)計:初始權(quán)重并隨著訓(xùn)練過程逐漸增加減少,直到訓(xùn)練結(jié)束時達到。漸變式權(quán)重保證在訓(xùn)練初期通過經(jīng)驗分享加快智能體集群的環(huán)境探索速度,但在訓(xùn)練后期智能體對環(huán)境的認(rèn)知逐漸完整、策略更加優(yōu)化,不再需要其他智能體分享經(jīng)驗。因此,N個智能體的系統(tǒng)中,智能體更新學(xué)習(xí)所需的采樣批表示如下:

通過智能體之間的這種經(jīng)驗分享與信息反饋,促進智能體集群實現(xiàn)共同探索環(huán)境、協(xié)同訓(xùn)練優(yōu)化的效果。全新的多智能體優(yōu)先共享經(jīng)驗重放(PSER)方法就是PER與經(jīng)驗分享機制的有機結(jié)合。每一個環(huán)境步,每個智能體通過策略動作與環(huán)境交互產(chǎn)生一條經(jīng)驗數(shù)據(jù),并通過PER方法存儲于自身的優(yōu)先緩存中,然后使用PSER機制獲得其他智能體的高價值經(jīng)驗,聯(lián)合智能體自身的PER采樣組成采樣批mini-batch并進行智能體Actor-Critic網(wǎng)絡(luò)參數(shù)的更新。
仿真場景定義:基于多智能體粒子[3]中的Simple場景(見圖1),場景中智能體數(shù)為3,1個隨機移動目標(biāo)。智能體到達目標(biāo)的定義就是智能體達到目標(biāo)周圍一定距離以內(nèi),并根據(jù)設(shè)置了難度不同的兩個場景變體,分別簡記為Trace(a)與Trace(b)。
基于以上環(huán)境,在MADDPG算法上將PSER與PER、均勻經(jīng)驗重放(UER)進行了對比,實驗結(jié)果如圖1所示。在Trace(a)中,PSER與PER表現(xiàn)差不多,但是前者還是在數(shù)據(jù)效率與最終回報方面表現(xiàn)更好。相比之下,UER在更多的探索回合下卻收斂到了不穩(wěn)定的次優(yōu)策略。令人驚訝的是,在任務(wù)更困難的場景Trace(b)中,只有使用PSER的智能體能繼續(xù)學(xué)會如何追蹤移動目標(biāo),而使用其他技術(shù)的智能體都失敗了,獲得了接近0的平均獎勵回報。
本文認(rèn)為PSER優(yōu)于其他算法的原因如下:①對經(jīng)驗進行重要性排序與過濾,總能從海量經(jīng)驗數(shù)據(jù)中挖掘出最有價值的信息,進而為智能體提供最快的梯度學(xué)習(xí)方向;②通過智能體間的經(jīng)驗分享,每個智能體可以使用其他智能體嘗試的動作、觀測的狀態(tài)、探索的經(jīng)驗,聯(lián)合自身的學(xué)習(xí)經(jīng)驗,能提供給智能體自身一個很強的梯度學(xué)習(xí)方向,導(dǎo)致其不用親自進行完全的環(huán)境探索就能學(xué)習(xí)到良好的策略。
在多智能體強化學(xué)習(xí)中,優(yōu)先共享經(jīng)驗重放機制通過經(jīng)驗分享使智能體可以同時使用自身的高價值經(jīng)驗與其他智能體的高價值經(jīng)驗進行策略學(xué)習(xí),加速智能體集群對環(huán)境的探索認(rèn)知,進而極大地提高智能體經(jīng)驗數(shù)據(jù)的使用效率與學(xué)習(xí)速度。仿真實驗表明,PSER方法優(yōu)于既有的方法(包括PER、UER),使智能體以近乎完美的探索能力與數(shù)據(jù)效率學(xué)習(xí)到了更好的策略并獲得了更多的獎勵回報。

圖1 Simple場景兩個變體中各種算法的學(xué)習(xí)收斂性能對比