999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于稀疏雙向選擇通信的多智能體協作方法

2023-12-29 00:00:00張梓淇李智
科技創新與應用 2023年12期

摘" 要:在貼近現實場景的多智能體協作任務中,往往面臨環境不穩定、狀態信息部分可觀察等難點,導致多智能體行為極端的不協調并收斂到次優的策略,而傳統的通信方案并不能完全解決這些問題,反而會因為策略空間增大和冗余信息過多增加學習的復雜度。因此,該文設計一種新的多智能體通信機制,其通過智能體建模允許智能體學習分析隊友行為、交換信息,并通過稀疏雙向選擇通信減少通信消耗的資源、增強智能體對關鍵特征信息的關注利用能力。用該架構在星際爭霸Ⅱ多智能體挑戰環境中進行實驗,取得顯著的性能提升。

關鍵詞:深度強化學習;多智能體系統;部分可觀察;注意力機制;稀疏通信

中圖分類號:TP18" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2023)12-0032-04

Abstract: In the cooperative task of multi-agents close to the real scene, they often face difficulties such as unstable environment and observable state information, which leads to the extreme incongruity of multi-agents' behavior and converging to the second-best strategy. However, traditional communication schemes cannot completely solve these problems, but will increase the learning complexity due to the expansion of strategy space and excessive redundant information. Therefore, a new multi-agent communication mechanism is designed in this paper, which allows agents to learn and analyze teammate behaviors and exchange information through agents modeling, and reduces resources consumed by communication through sparse bidirectional selection communication and enhances agents' ability to focus on and utilize key feature information. The proposed architecture has been tested in the StarCraft II multi-agents challenge environment and achieved significant performance improvement.

Keywords: deep reinforcement learning; multi-agent systems; partially observable; attention mechanism; sparse communication

隨著橫空出世的AlphaGo擊敗人類頂尖棋手,AlphaStar和OpenAI Five又在復雜的大型游戲中連敗職業玩家,其背后的強化學習方法開始成為研究熱點。這一領域中對單智能體的研究興起較早,且理論和實踐均已較為完備,但多智能體部分仍有很多問題待解決,更不幸的是,在單智能體強化學習中的成功經驗很難直接遷移到多智能體上,這之中最大的不同來自于環境整體的狀態轉移是由多個智能體共同決定的,即對某個智能體來說自身所處的環境是動態非平穩的[1],其最優策略會隨著其他智能體策略的變化而不斷變化。

處理這種非平穩性的一個主流方法是采用集中式訓練分布式執行的架構。2017年,MADDPG[1]首先在多智能體系統中使用該架構,集中式的價值網絡可以接觸到所有智能體的觀察和行動,而每個智能體相應的策略網絡則是分布式的,因為在訓練過程中每個智能體都依賴于其他所有智能體的觀察值和動作值,故可認為處于一個穩定的環境中。2021年,MAPPO[2]將單智能體領域中表現最優異的PPO算法通過這一框架引入多智能體系統,取得了目前最高水平的性能表現。雖然這種架構的出現緩解了多智能體系統的環境不平穩問題,但其策略網絡在決策時仍是完全去中心化的,故仍要在并不確定其他智能體是基于何種狀態下選取何種動作這一前提下作出決策。此外,在真實的多智能體系統中,很多情況下任務的狀態信息往往是不完整甚至帶有噪聲的,這種局面大大提高了多智能體博弈和協作的難度。

解決上述挑戰的一個有效機制是允許多智能體之間的通信,通過溝通可以減少僅憑局部觀察決策的不確定性。2016年,CommNet[3]通過一個共享參數的大型網絡架構來學習多智能體之間的通信協議,但是其平等看待來自所有智能體隱藏層輸出這一方式會導致信息語義丟失。2017年,BiCNet[4]通過一個基于雙向遞歸神經網絡的架構來隱式學習多智能體之間的通信。上述方法需要向所有隊友發送信息,不可避免地造成帶寬浪費,因此近期的工作集中于討論何時和誰通信什么這些現實約束。2019年的IC3Net[5]學習了一種門機制以同時決定向所有智能體或根本不向任何智能體發送消息。2020年,ETCNet[6]進一步地為每個智能體使用一個門來控制是否通信,并以通信的總概率通過懲罰項進行正則化來減少消耗。同年的I2C[7]使多智能體通過因果推理學習來學習彼此之間行為的影響程度,以此標記通信的必要性。智能體還可為消息添加簽名來告知其重要性,相應接收方的智能體也需根據不同簽名來為消息分配權重,如2019年的TarMAC[8]使用注意力機制、2021年的IMMAC[9]使用Softmax。

但是上述傳統方法大多僅僅是多智能體之間單純地交換了各自局部觀察的編碼或者是共享神經網絡的某些隱藏層,而很少考慮到研究隊友的行為在輔助通信消息生成上的作用。因此智能體仍有受廣播式交流下冗余信息迷惑的風險,并被迫在大幅增加的策略空間中學習。本文在MAPPO基礎上,研究一種新的應用于不完整觀察下大規模復雜場景的智能體建模和溝通方法,其允許智能體學習人類分析隊友行為、交換信息的行為,并通過基于注意力機制的稀疏雙向選擇通信減少通信消耗、增強智能體對關鍵特征信息的關注利用;最后在星際爭霸多智能體挑戰環境中對各個部分進行消融實驗并就表現進行了分析,證明其將有助于多智能體在現實場景協作任務中更好聯合策略的涌現。

1" 本文算法

目前,單智能體強化學習最高效的實現是PPO[10]算法,其通過重要性采樣和策略裁剪解決了傳統策略梯度類算法樣本效率低下和難以確定更新步長的問題。而MAPPO則是其在多智能體系統中的變體,筆者針對多智能體系統的非平穩性問題而引入集中式訓練分布式執行框架,同時也集成了多個針對PPO算法實現技巧[11]的研究。在此基礎上,本文通過引入基于智能體建模的稀疏雙向選擇通信機制而設計出Comm MAPPO(通信多智能體近端策略優化算法),其訓練架構如圖1所示。

圖1中,策略網絡是以智能體i的視角繪制的,其中中間部分為原MAPPO算法的策略網絡;右下方部分為新增的智能體建模網絡;左側和右上方部分為新增的稀疏雙向選擇網絡,包括右邊的消息生成網絡和左邊的采信度生成網絡2部分。

具體地,以i的視角來看,其智能體建模網絡使用了策略網絡中GRU層的輸出hi和建模目標智能體j的ID編碼dj,其既利用到了對過去狀態的記憶信息來增強觀察又避免了重復的特征提取過程;對于學到的隊友行為使用一個多元高斯分布Nij(μij,σij)來建模,模塊的輸出是這個分布的均值和標準差,而真正的表示則是從這個分布中采樣得到向量Mij。為了使通過這個隊友建模機制得到的向量能夠為決策提供正確的幫助,其應該與目標j在這一時刻執行的動作有關,為此使用互信息來對二者進行約束

I(Mij,aj|hi,dj)=H(Mij|hi,dj)-H(Mij|hi,aj,dj)。(1)

最大化此互信息等價于最小化以i的局部觀察為條件學習隊友模型的不確定性,在集中式訓練階段,這種根據歷史特征和所有隊友執行動作來學習建模表示的方式,在某種程度上也可視為構建一個輔助模型,在分布式執行階段用來預測隊友動作,只是這種預測是隱式的。

消息生成網絡中通信消息的生成依賴于h和之前對j的建模表示Mij,經過全連接層后輸出表示i對于j所生成通信信息的vij。因為對每個隊友生成的建模表示Mij不一樣,所以vij也是不一樣的,這樣的vij已經可以作為通信所傳遞的信息使用。但這相當于i要無差別地向所有隊友發送消息,事實上,一種合適的行為應該是像人類一樣,基于自己的局部觀察去推測最應該與哪些隊友進行通信。其具體實現則是分別用hi和建模表示Mij,通過簡單線性層來計算注意力網絡的Query和Key,各記作qi和kij,那么對于智能體i而言,其對于向j發送消息這一行為的通信意向權重aij可以通過點積和Softmax來計算

aij= 。(2)

進一步地,一種更好的理想結果是這個通信權重是稀疏的,以減少冗余的信息傳遞帶來的通信資源浪費,因此還需要通過最小化一個aij所構成分布的熵作為損失項對其進行正則化,即減小構成分布的不確定性,實現向少量特定隊友通信的目的。

對于消息的接收,可以直接對所接收到的所有通信信息進行簡單的求和計算。但是本文希望,智能體作為消息的接收方時也可以選擇是否接收來自某個隊友的消息,即這種對消息的發送和接收都是雙向選擇的。首先通過計算在僅由局部觀察構建的策略分布中,最大概率被選中的動作其所占的權重來決定是否接受消息;其次引入一個i對來自j消息采信度的概念,以a 表示,其直接通過將hi和dj輸入全連接層并歸一化輸出到[0,1]生成。最終,對于i其最終所接收到的消息可以表示為

。(3)

最終這個m 將會與策略網絡原本的輸出相疊加后,共同建構最后動作選擇的分類分布,即每個智能體都希望自己的建議能夠直接影響到通信目標最終不同決策動作的選擇概率。值得注意的是,在這里并沒有選擇很多傳統通信算法中,將通信消息以拼接到原始輸入或者是隱藏層特征的形式來影響智能體決策,可以看出,這種方法固定了策略網絡中關于通信行為的輸入尺寸,使其不會因為系統中智能體數量的增多而擴大每個智能體的策略空間。

另外,式(3)中的假設是基于完美通信得到的,事實上這樣的通信是不可能存在的,實際情況中不可避免地存在各種噪聲和消息丟失。對此,本文選擇在策略網絡的集中式訓練階段中為通信信息添加隨機高斯噪聲,而在分布式執行時去除這個噪聲,以此來避免策略網絡的過度擬合并增強其在真實環境中的魯棒性。此時訓練階段的m 通過下式得到

(4)

同時,每個智能體不同的噪聲ni可驅動多智能體策略朝著不同軌跡探索,即也提升了算法整體的探索能力,或者說避免了收斂到某種局部最優。

2" 仿真實驗

在星際爭霸多智能體挑戰環境中分別被認定為簡單、困難和極難的3s_vs_3z、2c_vs_64zg和MMM2地圖上進行對比實驗。

從圖2的結果可以看出,Comm MAPPO在所有難度的地圖上都展現出了超越原MAPPO的性能,其中難度越高相對的優勢也越大,證明了本文設計的機制可以有效地提升在不完整觀察下大規模復雜場景中的算法表現。

為了更直觀地展示并分析其性能提升來源,選擇在最高難度的MMM2地圖上進行消融實驗。如圖3所示,在這個復雜異構非對稱協同對抗場景中,己方的1個醫療船、2個劫掠者和7個陸戰隊需要對抗AI操控下的1個醫療船、3個劫掠者和8個陸戰隊。

針對本文內容特點對各部分進行消融實驗,設計多組對照實驗:其一是不使用互信息將隊友建模的結果與真正執行的動作建立相關性;其二是不經過注意力權重和采信度的選擇,直接將對其他智能體生成的通信信息無差別地發送與無差別地接收;其三是不對注意力網絡生成的通信權重進行稀疏正則化。

現就圖4的結果進行分析:對于對照實驗一,在初期表現出了極差的性能,這是因為此時通信交互的都是毫無意義的信息,但隨著進一步更新,由于隊友建模網絡將會和策略網絡一起進行梯度更新,這種更新會鼓勵智能體學會生成并傳遞一些有用的信息,在后期反而因此有較好的表現;對于對照實驗二,由于缺少了對于通信注意力權重和采信度的學習,智能體將會均等地收到所有其他智能體發送的消息,這可能削弱了關鍵性特征的作用,降低了智能體找到最佳決策動作的能力;對于對照實驗三,稀疏正則化的加入使得通信權重較低的鏈路被切斷,這可能導致消息的豐富程度降低,影響到了智能體決策依賴的可觀察程度,注意這并不代表稀疏正則化沒有作用,這一操作的目的是減少實際中寶貴的通信資源消耗。

3" 結論

本文針對多智能體部分可觀察環境下,智能體在面對不完整決策信息時導致收斂到次優策略的問題,設計了基于智能體建模的多智能體稀疏雙向選擇通信機制來應對這種環境的不平穩。其可以為智能體生成稀疏的通信消息并動態地選擇通信的對象,緩解了傳統的通信方案有效性和針對性差的弱點,避免了策略空間擴大和冗余消息帶來的學習復雜度提升。最后,在星際爭霸環境中多種難度的地圖上對其進行驗證,結果證明了本文所提出算法的顯著優勢。

參考文獻:

[1] LOWE R,WU Y, TAMAR A, et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[J]." 2017.

[2] YU C, VELU A, VINITSKY E, et al. The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games[J].2021.

[3] SUKHBAATAR S, SZLAM A, FERGUS R. Learning Multiagent Communication with Backpropagation[J].2016.

[4] PENG P, WEN Y, YANG Y, et al. Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games[J]. arXiv e-prints, 2017:1703.10069.

[5] SINGH A, JAIN T, SUKHBAATAR S. Learning when to Communicate at Scale in Multiagent Cooperative and Competitive Tasks[C]//International Conference on Learning Representations,2018.

[6] HU G, ZHU Y, ZHAO D, et al. Event-Triggered Multi-agent Reinforcement Learning with Communication under Limited-bandwidth Constraint[J]. 2020.

[7] DING Z, HUANG T, LU Z. Learning Individually Inferred Communication for Multi-Agent Cooperation[J].2020.

[8] DAS A, GERVET T,ROMOFF J, et al. TarMAC: Targeted Multi-Agent Communication[J]. 2018.

[9] SUN C, WU B, WANG R, et al. Intrinsic Motivated Multi-Agent Communication[J].2021.

[10] SCHULMAN J,WOLSKI F ,DHARIWAL P,et al. Proximal Policy Optimization Algorithms[J]. 2017.

[11] ENGSTROM L, ILYAS A, SANTURKAR S, et al. Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO[J]." 2020.

主站蜘蛛池模板: 在线无码av一区二区三区| 在线观看亚洲人成网站| 国产精品性| 国产综合在线观看视频| 久久精品国产精品青草app| 国产免费黄| 欧美日韩亚洲综合在线观看| 精品国产自在现线看久久| 国产人成午夜免费看| 日本高清免费不卡视频| 国产91色在线| 亚洲无码37.| 国产精品尤物在线| 亚洲av无码专区久久蜜芽| 国产美女主播一级成人毛片| 国产日韩精品欧美一区灰| 欧美精品H在线播放| 尤物国产在线| 真实国产乱子伦视频| 久草热视频在线| 人妻无码一区二区视频| 亚洲动漫h| 狠狠干欧美| 成人在线观看不卡| 国产精品成人一区二区不卡| 99在线视频免费| 久久国产高清视频| 四虎影视无码永久免费观看| 成人蜜桃网| 在线国产你懂的| 18禁不卡免费网站| 伊人久久精品无码麻豆精品| 思思99热精品在线| 国产三级毛片| 91久久偷偷做嫩草影院| 国产精选自拍| 欧美亚洲一区二区三区在线| 黄色免费在线网址| 亚洲欧美综合在线观看| 在线观看无码a∨| 欧洲日本亚洲中文字幕| 亚洲午夜国产片在线观看| 精品人妻系列无码专区久久| 国产免费久久精品99re不卡| 亚洲国产精品VA在线看黑人| 色国产视频| 无码丝袜人妻| 国内嫩模私拍精品视频| 666精品国产精品亚洲| 福利视频久久| 国产一级一级毛片永久| 国产免费好大好硬视频| 青青草原国产精品啪啪视频| 2024av在线无码中文最新| 欧美特级AAAAAA视频免费观看| 999国内精品久久免费视频| 高清色本在线www| 午夜精品久久久久久久99热下载 | 在线观看精品自拍视频| 婷婷综合在线观看丁香| 一级毛片不卡片免费观看| 在线播放精品一区二区啪视频| 好吊色妇女免费视频免费| 国产欧美视频综合二区| 国产精品美女免费视频大全| 亚洲国产看片基地久久1024| 欧美在线视频不卡| 五月婷婷中文字幕| 五月婷婷综合色| 思思热在线视频精品| 波多野结衣第一页| 免费人成视网站在线不卡| 911亚洲精品| 国产精彩视频在线观看| 国内自拍久第一页| www.av男人.com| 99久久免费精品特色大片| 亚洲福利视频一区二区| 国产麻豆va精品视频| 亚国产欧美在线人成| 91精品国产福利| 国产全黄a一级毛片|