999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多智能體深度確定性策略梯度算法研究與改進?

2023-12-02 08:31:50勞天成劉義范文慧
關鍵詞:智能策略方法

勞天成,劉義,范文慧

(清華大學自動化系,北京 100084)

0 引言

多智能體深度強化學習是人工智能領域機器學習方向的研究熱點,廣泛應用于工業智能、自主智能、群體智能等實際領域,具有極其重要的研究意義和實際應用價值.在強化學習的應用中,可以與環境交互,并在交互過程中學習策略的個體被稱為智能體.它以自身觀察(在完全可觀條件下,等同于環境狀態)作為輸入,基于策略做出動作,然后得到環境的反饋(稱之為獎勵或回報)以及新的觀察.強化學習算法可以分為三類,分別是策略梯度法、基于值函數的方法和基于actor-critic結構的方法[1].

策略梯度法以累積回報為目標函數,通過梯度上升法來逼近最優策略.其中最經典的方法是REINFORCE算法[2].此外,為了避免在梯度上升過程中,策略參數變化過大導致的振蕩、難以收斂的問題,TRPO算法[3]和P-PO算法[4]相繼被提出,它們都對每次迭代時策略參數的變化作了限制.基于值函數的方法則是估計在任意觀察下各個動作的價值,通過選擇價值最大的動作就可以導出策略.DQN算法[5]在Q-learning方法[6]的基礎上通過引入深度網絡解決了狀態空間無窮的問題.而當動作空間無限時,DDPG方法[7]作為actor-critic結構算法的代表,通過引入用于選擇動作的新網絡解決了動作選取問題,其中actor負責動作的選取,critic負責動作價值的評估.

而在多智能體的設定下,情況會更加復雜,依據獎勵函數設置不同,多智能體場景可以分為完全合作型、完全競爭型和混合型[8].本文將要討論的MADDPG算法[9]全稱為multi-agent deep deterministic policy gradient,中文名為多智能體深度確定性策略梯度算法,是美國OpenAI公司在2017年提出的,是通用于各種多智能體場景的算法,是DDPG算法在多智能體情景下的拓展.

MADDPG算法在多種場景下都有不錯的表現,但在部分可觀察的環境下,由于智能體獲得信息的不足,往往只能學習到次優的策略.本文通過對歷史信息的利用來擴展智能體所獲得的信息,從而令智能體可以習得更優的策略.面對稀疏獎勵場景時,MADDPG算法下智能體往往由于成功經驗不足,難以探索到最優策略,本文引入HER方法[10],相較原算法在合作通訊場景和合作導航場景都取得了明顯的提升.已有學者將HER方法與MADDPG算法結合[11]并驗證了有效性,本文將更進一步地說明HER方法如何應用于具體場景,并對它的價值作了更多分析.

1 MADDPG算法

MADDPG算法采用了actor-critic結構,每個智能體都有一個獨立的中心化的critic和一個分布式的actor.此外,MADDPG不假設環境是完全可觀察的,記智能體i的觀察為oi,動作為ai.以智能體i為例,為了有利于收斂,其actor和critic各自有兩套網絡:actor當前網絡,記為μi(oi),參數為θi;actor目標網絡,記為,參數為當前網絡,記為aN);critic目標網絡,記為其中x代表狀態信息,如果獲得全局的狀態信息比較困難,可令x=(o1,···,oN).算法框架如圖1所示.

圖1 MADDPG算法框架概覽[9]

MADDPG算法的策略網絡(actor)的優化目標是最大化其梯度為:

其中D表示經驗回放池,經驗元組記為(x,x′,a1,···,aN,r1,···,rN).注意到x,a是一并從經驗回放池中采樣的,在代入Q函數時,只有ai是重新計算的,這樣足以使得梯度流動到智能體i的策略網絡;當然,如果能獲知當前所有智能體最新的策略網絡,也可以嘗試將所有智能體動作都重新計算,但這也會增大訓練的開銷.

而critic網絡的更新與DQN類似,只是其中a′的選取由actor目標網絡完成,其優化目標是減小下述的損失函數值:

實際中深度網絡使用的是多層感知機(MLP).在多智能體強化學習中,所有智能體的策略都在同時迭代,如果每個智能體單獨訓練,在使用經驗回放時,(o,a,r,o′)與(o,a,r′,o′′)可能會在經驗回放池并存,即面對相同的觀察做出了相同的動作卻有不同的獎勵和新的觀察,這種不穩定性對智能體的訓練是有害的;而且critic只利用本地觀察(即智能體自身的觀察)進行訓練也容易因為沒有考慮其它智能體的動作,習得的策略不夠好.采用中心化的critic,不僅解決了經驗回放的沖突問題,也解決了訓練時critic網絡無法直接關注到其它智能體的問題;而在訓練完畢之后,則因actor網絡只需要本地觀察,仍便于實際應用.

2 算法改進

2.1 觀察疊加法和引入LSTM網絡法

在實際中,智能體往往很難獲知環境的全部狀態,而只能擁有對環境的觀察,此時問題可以建模為部分可觀察馬爾科夫決策過程(POMDP),用六元組(S,A,R,P,?,O)表示,其中:S為觀察空間,A為動作空間,R為回報,P為狀態轉移方程,?為觀察空間,o∈?,且o~O(s).圖2是對POMDP的示意.

圖2 部分可觀察馬爾科夫決策過程示意

在部分可觀察的情況下,智能體需要在不知道真實狀態的情況下進行決策;這也容易使得算法的收斂更為困難.

本文的思路是通過挖掘歷史信息來增強智能體對當前狀態的了解,最簡單的方法是觀察疊加,即t時刻智能體的觀察輸入由(ot-k,···,ot)疊加而成,記單次觀察的維度為m,則拼接后的觀察維度為m(k+1).事實上在利用DQN算法玩Atari游戲時同樣使用了幀疊加的技巧[5].為了更好地編碼歷史信息,本文也使用了LSTM網絡.這個做法借鑒了DRQN算法[12],它在DQN的基礎上引入了LSTM層,在對每幀圖片做隨機遮擋的Pong游戲上取得了不錯的表現.LSTM是循環神經網絡(RNN)的一種,能夠利用序列數據中存在的前后依賴性.LSTM通過精心設計的門機制較好地解決了長依賴的問題[13].

不同于DRQN中將一層全連接替換為LSTM層的做法,本文在現有網絡中增加了一層LSTM.此外,在DRQN中,只有一個深度網絡,即Q網絡;而MADDPG算法中包括critic網絡和actor網絡,均為多層感知機,本文的做法是將actor網絡和critic網絡做相同的架構改動.具體而言,原先的深度網絡結構為:輸入-全連接-ReLU[14]-全連接-ReLU-全連接-輸出.引入LSTM層之后的結構為:輸入-全連接-ReLU-LSTM-全連接-ReLU-全連接-輸出.后續將做如此修改的MADDPG算法稱為MADRDPG.訓練時使用隨機更新的方法:每批次訓練,從經驗回放池隨機采樣批次大小的固定時間步(超參數T)的經驗.

2.2 引入HER方法

本文通過引入后驗經驗回放(HER)方法,增強了MADDPG算法在稀疏獎勵場景下的表現.稀疏獎勵場景是指智能體在其中長時間只能獲得0的回報.解決這個問題有兩個典型的思路,分別是依賴模型的方法和依賴數據的方法.前者主要指分層強化學習方法,通過分層弱化了對持續獎勵的依賴;而依賴數據的方法常常能夠嵌入多種模型,適合作為對已有模型的加強,這里提到的HER方法就是其中的典型代表.

鑒于在稀疏獎勵的場景下,智能體很難獲得有價值的經驗.HER的想法是,是否有可能將失敗的經驗轉為成功的經驗,從而加速智能體學習呢?HER的提出借鑒了UVFA[15]的做法(兩者強調的內容有所差異,UVFA的提出是針對多目標情形,HER強調對稀疏獎勵問題的有效性),將智能體的觀察拆解為目標和狀態,在特定狀態下,目標達成.

具體的,用o表示智能體的觀察,s表示智能體的狀態,g表示智能體的目標,則o可表示為g||s,||表示拼接.以導航問題為例,g為每回合給定的目標地點,自身坐標則包含在狀態中.回合結束后,將該回合放入經驗回放池.HER所做的關鍵是,重新給定一個目標g′,并假設該回合的目標為g′,重新計算該回合中智能體的觀察(o′=g′||s)與獎勵,得到新的一個回合的經驗,并放入經驗回放池.當重新給定多個目標時,則新增多個回合的經驗.這么做的前提是使用異策略方法,此時原理上對生成經驗的策略沒有限制.特別的,若將回合末智能體狀態對應的目標作為重新給定的目標,比如在導航問題中以智能體最后到達的位置作為給定的目標點,那么智能體就獲得了高價值的成功經驗.

當智能體處于某一狀態時,目標達成,這樣的對應關系記為gs=f(s).表現不錯的新目標選取方法[10]包括:1)以回合末對應的智能體狀態對應的目標作為g′;2)以回合將來的k個時刻的智能體狀態對應的目標作為g′,此時g′有k個;3)從當前回合中隨機抽取k個時刻的智能體狀態,取其對應目標.第一種方法最為直觀,也是本文所采用的.

本文將HER方法的應用擴展到多智能體情形,其擴展的關鍵在于不同場景下如何確定狀態與目標的對應關系;后續的實驗中也對HER方法的價值做了更深入的分析.

3 實驗

3.1 實驗場景

帶遮蔽區的捕食者-獵物場景[9]:包括3個速度較慢的捕食者(紅方)和1個速度較快的獵物(綠方)以及2個障礙物.此外本實驗引入了兩個遮蔽區,用于構建部分可觀察屬性.圖3為各場景示意圖,對應本場景,其中較小的圓為智能體,較大的綠色圓為遮蔽區,灰色圓為障礙物.獎勵設置上,紅方采用合作性獎勵.紅綠雙方碰撞,則紅方正獎勵,綠方負獎勵,紅方有較小的引導性的基于與綠方的最短距離的獎勵;且綠方會因為離開場景邊界受到懲罰.

圖3 實驗場景示意圖

合作通訊場景[9]:包括3個不同顏色的地標,一位說者,一位聽者.當聽者到達目標地標,任務完成.說者與聽者是合作關系,說者的觀察為需要抵達的地標的顏色,聽者只能知道3個地標的相對位置.說者不能移動,但可以對聽者發出通訊信息,聽者和說者的獎勵相同.圖3(b)是任務完成時的示意圖,小圓為地標,灰色為說者,淺藍色為聽者.這里設置為稀疏獎勵:聽者到達目標地標指定范圍內得到正獎勵,否則獎勵為0.

合作導航場景[9]:包括3個合作者和3個地標,合作者們需在避免互相碰撞的情況下到達這3個地標,我們希望地標均被占據(與智能體相交即判為被占據).圖3(c)為獎勵最大化時的場景,小圓為地標,大圓為智能體.獎勵設置上,若有n個地標被占據,則給予獎勵n.同時,若當前智能體與其它合作者碰撞,則會受到懲罰.

3.2 實驗結果

在捕食者-獵物場景對觀察疊加法和引入LSTM層方法進行了效果驗證.場景中,遮蔽區內外的智能體不能互相觀察到,這對于捕食者構成了更大的挑戰,在追逐獵物時可能會因為獵物跑入或跑出遮蔽區而喪失追蹤目標.實驗中也發現,加入遮蔽區后,捕食者的回合獎勵大幅下降.實驗中,僅對捕食者應用這兩個方法,并比較了應用前后捕食者獎勵的變化.

觀察疊加法的效果如圖4所示,橫軸為訓練時的回合數,縱軸是每1 000回合智能體的平均回合獎勵(下同).t時刻智能體的觀察由k+1幀組成,圖中k=0即表示沒有做觀察疊加.由圖4左圖可知,采用觀察疊加的方法,確實可以使得捕食者獎勵增加,對緩解部分可觀察問題是有效的.從捕食者動作觀察來看,在追逐過程中,當獵物進入遮蔽區而丟失視野時,捕食者仍能大致向著獵物的方向前進.圖4右圖對不同k的情形作了對比.k從1增加到4的過程中,捕食者學習效果先升后降,k=3時最佳.后續的下降可能是因為觀察輸入維度過高,critic和actor都需要從更高維度的輸入中獲取信息(相對而言冗余信息也會更多),增大了學習難度.

圖4 觀察疊加法對于捕食者獎勵值的影響

MADRDPG的效果如圖5所示,T為選定的時間步.由圖5左圖可知,在當前場景,選擇時間步為8與觀察疊加法中k=3的結果是較為接近的.相比之下,MADRDPG方法訓練會更為耗時;優勢在于,訓練完成后,測試時MADRDPG算法下智能體每個時間步只需要當前幀的觀察作為輸入(歷史信息存儲在LSTM層的細胞狀態和隱層狀態中).圖5右圖展示了選取不同時間步對獎勵值的影響,就訓練60 000回合的數據曲線而言,末尾時間步為8和12的曲線均值接近,高于時間步為4的情形;考慮到訓練時增加時間步會增加訓練時間,若在訓練效果與訓練時間中取平衡,這里可取時間步為8.

之后是對引入HER方法效果的驗證,在合作通訊場景下,效果如圖6所示.新目標地標的選取方法是:回合末說者通訊動作(3維)中第i維最大,則選擇第i個地標作為新的目標地標,且其位置更改為回合末聽者的位置.圖6(a)展示了方法的有效性.此外,觀察發現,不使用HER方法,測試時每次聽者都會奔向同一個顏色的目標.這是由于探索的偶然性,聽者在訓練初期較多地成功碰到該顏色地標并獲得獎勵,便習得了到達該顏色地標的策略,獎勵的稀疏性使得很難跳出這樣的局部最優.而引入HER方法之后,成功經驗增加,引導智能體習得了正確的策略.

圖6 引入HER方法在合作通訊場景下的效果

上述新目標選取方法記為方法1.同時實驗中還對比了另一種新目標選取方法的效果,記為方法2,其中目標地標仍為該回合原定地標,只將其位置更改為回合末聽者的位置.事實上圖6(a)展示的是典型情況,由于通訊合作任務的困難和實驗的隨機性,每次訓練可能會收斂到不同的策略.對每種方法(包括原MADDPG算法)重復進行了12次實驗,每次訓練40 000回合;結果是在方法1下,智能體有10次學到了正確策略(平均回合獎勵可達30),方法2為兩次,而原方法為0次.相比方法2,方法1更好地引導了通訊動作的學習(相當于給定了通訊規則),從而使得整個合作任務的學習更為順利.

考慮在學習到的錯誤策略中,智能體會到達錯誤的地標,于是在獎勵中加入了碰撞非目標地標的懲罰項,結果如圖6(b)所示.在這樣的獎勵設置下,不使用HER方法,聽者習得的策略是不碰撞任何地標;而使用HER方法后仍然能習得正確策略.同樣重復進行了12次實驗,HER方法下(使用方法1選取新目標),智能體有11次學習到了正確策略,原方法下為0次(偶爾能學習到在某1或2個特定目標下成功的次優解).

圖7則展示了引入HER方法在合作導航場景下的效果.新目標的選取方法是:對于1號合作者,找到離它最近的地標,將該地標的位置改為1號合作者回合末的位置;對于2號合作者則在剩下的地標中找離它最近的,以此類推.由圖7(a)可知,在稀疏獎勵設置下,HER方法能夠加速收斂,最終收斂時的獎勵值也稍高.觀察發現,若不使用HER方法,則合作者的策略不夠靈活,比如每個合作者每次都會去向固定顏色的地標.相比之下,使用HER方法時每個合作者每次占據的地標不是固定的,能夠根據每次初始化后的實際情況選擇去占據的地標,更為靈活的策略使得合作者們的碰撞減少,以及更快地占據3個地標.此外,基于對HER方法的認識,在非稀疏獎勵下增加成功經驗也應當是有效的.圖7(b)對應的實驗中,將占據地標的獎勵改為了基于每個智能體與最近的地標的距離持續給出的獎勵,為負值.結果驗證了在非稀疏獎勵下的有效性,但效果不如在稀疏獎勵情形下顯著.

圖7 引入HER方法在合作導航場景下的效果

4 結論

本文研究了多智能體深度確定性策略梯度算法(MADDPG),采用了觀察疊加和引入LSTM層的方法增強了MADDPG在部分可觀察場景下的表現.觀察疊加法實現簡單,但會因疊加后智能體輸入的觀察維度的過度提升而增加其決策的困難;引入LSTM層的方法同樣有效,但同時會大幅增加訓練時間;兩種方法可根據實際情況選用.引入后驗經驗回放方法增強了MADDPG在稀疏獎勵下的表現,在多智能體合作通訊場景中原算法下智能體難以達成任務目標,引入HER方法緩解了這一問題,使得智能體能夠較快地習得正確策略;在多智能體合作導航場景下原算法也能完成任務,而引入HER方法后智能體可以學習到更優的策略,同時進一步驗證了在非稀疏獎勵場景下引入HER方法是有效的.

本文雖然在MADDPG改進研究方面取得了一些有效的成果,但是也存在一些不足.在引入LSTM網絡的方法上,可以考慮別的形式,比如增加一個單獨的LSTM網絡,以actor為例,可將智能體自身歷史觀察、歷史動作作為LSTM網絡的輸入,而其輸出則與智能體當前觀察拼接,這樣也能做到對歷史信息的利用.此外,在HER方法的使用上也存在一些限制,比如對于追逐場景,獵物(也是智能體)的位置一直在變化,很難在不更改智能體狀態的情況下使用HER方法.后續可以借鑒分層的思想,在團隊協作任務中,以指揮者為上層、小組成員為下層,嘗試解決稀疏獎勵和長期獎勵的問題.

猜你喜歡
智能策略方法
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 97免费在线观看视频| 欧美亚洲欧美区| 中文字幕精品一区二区三区视频 | 国产丰满成熟女性性满足视频 | 第一页亚洲| 色悠久久综合| 午夜免费视频网站| 国产污视频在线观看| 亚洲欧美激情小说另类| 久久精品国产999大香线焦| 欧美精品色视频| 欧美成人亚洲综合精品欧美激情| 国产视频大全| 原味小视频在线www国产| 亚洲最大综合网| 欧美一区二区福利视频| 72种姿势欧美久久久大黄蕉| 国产成人精品一区二区免费看京| 欧美精品1区| 中国精品久久| 精品国产免费观看| 久久国产高清视频| 亚洲 日韩 激情 无码 中出| 国产特一级毛片| 直接黄91麻豆网站| 亚洲天堂成人| 中文字幕在线观| 性激烈欧美三级在线播放| 成人久久18免费网站| 午夜国产在线观看| 在线色综合| 日韩精品无码免费专网站| 亚洲日韩国产精品综合在线观看| 美女无遮挡免费视频网站| 日本a级免费| 国产成人成人一区二区| 中文字幕66页| 岛国精品一区免费视频在线观看| 爽爽影院十八禁在线观看| 国产欧美综合在线观看第七页| 精品欧美日韩国产日漫一区不卡| 97青草最新免费精品视频| 国产美女主播一级成人毛片| 99精品伊人久久久大香线蕉 | 二级毛片免费观看全程| 999精品色在线观看| 在线精品视频成人网| 亚洲AV无码不卡无码| 国产成人精品一区二区免费看京| 高清欧美性猛交XXXX黑人猛交 | 亚洲日韩图片专区第1页| 国产成人乱码一区二区三区在线| 色综合天天视频在线观看| 国产丰满大乳无码免费播放| 亚洲v日韩v欧美在线观看| a色毛片免费视频| 在线观看国产精品第一区免费| 国产精品亚洲一区二区三区z| 伊人福利视频| 亚洲三级a| 国产导航在线| 国产成人精品免费视频大全五级| 91人人妻人人做人人爽男同| 国产免费黄| 国产永久在线视频| 国产特级毛片aaaaaa| 中文字幕第4页| 99青青青精品视频在线| 亚洲天堂首页| 国产在线视频欧美亚综合| 国产成人精品在线| 五月天在线网站| 国产又粗又猛又爽视频| 欧美在线伊人| 99热这里只有免费国产精品| 精品无码国产一区二区三区AV| 久久婷婷人人澡人人爱91| 亚洲男人天堂2018| 国产高颜值露脸在线观看| 精品无码国产自产野外拍在线| 国产精品三级专区| 亚洲人成高清|