摘 要:合作馬爾可夫博弈中,每個智能體不僅要實現(xiàn)共同的目標,還需要保證聯(lián)合動作能夠滿足設(shè)定的約束條件。為此提出了安全約束下的合作型多智能體TD3算法MACTD3 (multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,結(jié)合注意力機制對各個智能體采取的動作與決策過程約束條件進行了協(xié)調(diào)。然后利用拉格朗日乘子構(gòu)造了修正的代價函數(shù)。進而為保證算法的收斂性,保證每一個智能體能夠滿足預(yù)先設(shè)定的約束條件,設(shè)計了不同時間尺度分學(xué)習(xí)策略:在短時間尺度上執(zhí)行Actor-Critic網(wǎng)絡(luò)的梯度下降,在長時間尺度上對拉格朗日參數(shù)進行迭代。最后在異質(zhì)和同質(zhì)的合作型多智能體環(huán)境下進行實驗。實驗結(jié)果表明,與其他算法相比,提出的MACTD3算法始終能夠獲得最小的懲罰成本;通過數(shù)量的擴展性實驗表明了MACTD3在不同數(shù)量智能體的情況下仍然能夠滿足約束條件,證明了算法的有效性與擴展性。
關(guān)鍵詞:安全強化學(xué)習(xí);多智能體;拉格朗日乘子法
中圖分類號:TP18 文獻標志碼:A 文章編號:1001-3695(2023)06-014-1692-05
doi: 10.19734/j.issn.1001-3695.2022.08.0549
Cooperative multi-agent TD3 algorithm under security constraints
Hao Yuzhe, Wang Zhenlei
(Key Laboratory of Smart Manufacturing in Energy Chemical Process, East China University of Science amp; Technology, Shanghai 200237, China)
Abstract:In a cooperative Markov game, each intelligence not only has to achieve a common goal, but also needs to ensure that the joint actions can satisfy the set constraints. Therefore, this paper proposed a cooperative multi-agent TD3 algorithm (MACTD3) under security constraints. Firstly, it used the attention mechanism to coordinate the actions of individual intelligences with the decision process constraints. Then it constructed a modified cost function using Lagrange multipliers. Further, in order to ensure the convergence of the algorithm, it was ensured that each intelligent body could satisfy the pre-defined constraints with different time-scale sub-learning policies. The parameters of the Actor-Critic network perform gradient descent while Lagrangian parameters on the long time scale. Finally, experimental results in heterogeneous and homogeneous cooperative multi-intelligent environments show that the MACTD3 algorithm can always obtain the minimum penalty cost compared with other algorithms. The scalability experiments by number show that MACTD3 can still satisfy the constraints with different numbers of intelligences, proving the effectiveness and scalability of the algorithm.
Key words:safe reinforcement learning; multi-agent; Lagrangian multipliers
0 引言
多智能體強化學(xué)習(xí)(multi-agent reinforcement learning,MARL)的興起[1,2],為群體智能問題帶來了新的解決思路。由于在現(xiàn)實世界里,多個智能體與環(huán)境進行交互的場景廣泛存在,而單智能體獨立決策的情況相對較少。所以,MARL的研究逐漸成為熱點。在合作型的多智能體強化學(xué)習(xí)問題中,多個智能體為完成一個共同的任務(wù)而行動,每個智能體根據(jù)所有智能體的行為獲得相同的獎勵。一般來說,這個共同的目標是根據(jù)獎勵函數(shù)來實現(xiàn)獎勵最大化或者與環(huán)境交互的代價最小化。在很多現(xiàn)實環(huán)境中,智能體的行動通常還要滿足多種約束。例如在機器人任務(wù)中,為延長機器人關(guān)節(jié)的使用壽命,關(guān)節(jié)的轉(zhuǎn)動角度通常要在約束范圍內(nèi)[3]。在多智能體導(dǎo)航的任務(wù)中,為保證安全,應(yīng)盡量降低智能體之間的碰撞次數(shù)。與強化學(xué)習(xí)中的Q函數(shù)類似,通常將約束條件用折扣期望懲罰來表示。智能體不僅需要滿足交互代價最小化的這個共同目標,還需要滿足約束條件。Altman[4]將其定義為約束馬爾可夫決策過程(CMDP)。為便于區(qū)分,將約束馬爾可夫過程中的目標定義為最小化交互代價,約束則定義為最小化懲罰成本。CMDP框架下,安全策略是指通過將總懲罰保持在一定閾值以下來安全探索環(huán)境的策略。
可以將解決CMDP的方法分為兩大類。第一類算法是Achiam等人[5]提出的信任區(qū)域策略約束優(yōu)化方法,策略每一步的更新都要滿足信任區(qū)域的約束,從而在滿足懲罰成本約束的條件下,最小化交互代價。而Gu等人[6]將信任區(qū)域策略約束優(yōu)化方法拓展到多智能體領(lǐng)域,對多智能體安全約束問題進行了求解。然而這類方法的缺點是具有很高的計算成本,每一次迭代都要對優(yōu)化問題進行求解和線搜索。另一類解決方法則是在原有Actor-Critic架構(gòu)上結(jié)合拉格朗日乘子法對策略進行優(yōu)化[7],可以在滿足懲罰約束的情況下實現(xiàn)智能體的累積收益最大化。其中具有代表性的算法是TRPO-拉格朗日方法[8]。此外,趙恒軍等人[9]為解決CPS的智能控制,基于增廣拉格朗日乘子法設(shè)計提出了一種新型安全強化學(xué)習(xí)算法。朱斐等人[10]結(jié)合Sarsa算法和拉格朗日乘子法在保證狀態(tài)—動作值函數(shù)和約束函數(shù)具有可微性的前提下,將安全強化學(xué)習(xí)模型轉(zhuǎn)換為凸模型,避免了陷入局部最優(yōu)的問題。但由于這類方法每次迭代中,都要求解一次優(yōu)化問題以獲得對偶參數(shù),求解非常復(fù)雜。
近年在基于Actor-Critic結(jié)構(gòu)的多智能體學(xué)習(xí)算法上有很多研究成果。2017年,伯克利大學(xué)的Ryan Lowe團隊基于Actor-Critic結(jié)構(gòu)提出了多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法[11],每個智能體都擁有自己的Actor與Critic,通過Actor接受局部信息執(zhí)行動作,通過Critic接受全局信息對當(dāng)前環(huán)境進行評估。清華大學(xué)的Yu等人[12]通過對多智能體近端策略優(yōu)化(multi-agent proximal policy optimization,MAPPO)進行了調(diào)整,在多個任務(wù)中取得了領(lǐng)先的算法精度。Zhang等人[13]提出了一種新的多智能體TD3算法,通過雙Critic、群目標網(wǎng)絡(luò)平滑和延遲策略更新,降低了神經(jīng)網(wǎng)絡(luò)逼近的高估誤差和估計結(jié)果的方差。
在多個智能體決策過程中,各個智能體之間的信息不能充分利用,缺乏智能體之間的協(xié)調(diào)。注意力機制可以有效地解決這一問題[14]。文獻[15]結(jié)合了多頭自注意力機制與Soft Actor-Critic算法[16],將不同智能體的觀測信息進行編碼,提出了MAAC(multi-actor-attention-critic)算法,但是仍然沒有解決強化學(xué)習(xí)中存在的Q值高估問題。解決多智能體之間整合通信信息,實現(xiàn)高效溝通的問題,北京大學(xué)的Jiang等人[17]提出了基于注意力的通信模型,解決了何時需要通信以及如何整合共享的信息。文獻[18~20]在MADDPG算法的基礎(chǔ)上,結(jié)合注意力機制,提出了基于注意力機制的Critic網(wǎng)絡(luò)結(jié)構(gòu)。
為解決合作型多智能體的約束優(yōu)化問題,本文算法有三個特點:a)基于多智能體TD3算法,采用雙網(wǎng)絡(luò)結(jié)構(gòu)緩解Q值高估帶來的影響;b)結(jié)合注意力機制為每個智能體分別設(shè)計Critic網(wǎng)絡(luò),每個智能體采用各自的Critic網(wǎng)絡(luò)來計算修正代價與懲罰成本的Q值,通過注意力機制實現(xiàn)不同智能體之間的通信與協(xié)調(diào);c)利用原始代價和懲罰成本的線性組合來構(gòu)造修正的代價函數(shù),無須求解對偶優(yōu)化問題,避免過于高昂的計算負擔(dān)。為保證算法的收斂性能,Actor-Critic的參數(shù)以及拉格朗日參數(shù)在不同時間尺度上進行更新,能夠使智能體在滿足安全約束的條件下實現(xiàn)目標。
1 理論基礎(chǔ)
1.1 約束馬爾可夫博弈
1.2 多智能體強化學(xué)習(xí)算法
2 安全約束下合作型多智能體TD3算法
2.1 拉格朗日乘子法
2.2 TD3算法
2.3 安全約束下合作型多智能體TD3算法
3 實驗數(shù)據(jù)及分析
本章主要對比了提出的MACTD3算法在異質(zhì)和同質(zhì)環(huán)境中的實驗效果,通過數(shù)量的擴展性實驗,表明了本文算法具有良好的擴展性,并分析了結(jié)果。實驗環(huán)境參考文獻[20],分別是合作導(dǎo)航任務(wù)的約束版本以及合作寶藏收集的約束版本,實驗中將約束條件設(shè)定為多個智能體之間的碰撞次數(shù),具體的環(huán)境設(shè)置如表2和圖5所示。如果當(dāng)智能體之間產(chǎn)生碰撞的時候,智能體會收到+1的懲罰量,目標是最小化代價的情況下,滿足碰撞次數(shù)的約束。本文主要對比了MACTD3、文獻[5]的MAPPO-L算法、文獻[6]中SAC-L算法的多智能體版本MASAC-L,以及約束版本的MADDPG-L算法。
3.1 約束合作導(dǎo)航
該環(huán)境為完全合作的訓(xùn)練環(huán)境,包含5個同類導(dǎo)航智能體與5個地標。在每一回合的開始, 5個智能體和5個地標重新生成。所有智能體的目標是分別學(xué)會導(dǎo)航到自己目標位置的策略。然而當(dāng)智能體之間發(fā)生碰撞時,智能體收到+1的懲罰。懲罰閾值α被設(shè)置為3。這意味著在每一個回合中,智能體的預(yù)期總碰撞次數(shù)必須小于或等于3。在圖6中,本文展示了算法在訓(xùn)練階段的性能,在表3中,本文對比了算法在訓(xùn)練結(jié)束后最終的性能。在每一時刻中,通過收集者智能體與食物之間的距離塑造獎勵引導(dǎo)訓(xùn)練,距離食物的距離越近,獲得的代價越小。下面對四種算法的性能進行說明:
a)MADDPG-L。在圖6(a)展示訓(xùn)練代價的圖中,MADDPG-L的訓(xùn)練代價首先出現(xiàn)了下降,然后出現(xiàn)了上升,表明在前期拉格朗日乘子并沒有很好地起到約束的作用。這一點也可以從圖6(b)中得到體現(xiàn),因為懲罰量的下降趨勢也是從第5 000個訓(xùn)練回合開始的,這也印證了拉格朗日乘子在5 000個訓(xùn)練回合開始起到了約束的作用。
b)MASAC-L。從訓(xùn)練代價來看,MASAC-L表現(xiàn)并不好,但是懲罰成本能夠相對較快地收斂,達到設(shè)定的約束條件。但是由于智能體之間無法協(xié)調(diào),從而導(dǎo)致了訓(xùn)練代價的上升。
c)MAPPO-L。由于將約束條件加入策略的優(yōu)化目標,在每一次的更新時考慮了約束條件,所以可以看到圖6(b)中,MAPPO-L的懲罰成本比較穩(wěn)定,而圖6(b)的交互代價呈現(xiàn)上升趨勢,這是該方法的缺點。
d)MACTD3。與上面算法都不同,MACTD3的訓(xùn)練代價始終呈現(xiàn)一個微弱的下降趨勢。在訓(xùn)練的前期,由于MADDPG的拉格朗日乘子未很好地發(fā)揮約束作用, MACTD3所獲得的代價較MADDPG-L更低,說明MACTD3擁有很強的保守性。而從圖6(b)中看到,MACTD3更注重于滿足約束條件,不僅在訓(xùn)練末期滿足了約束閾值α=3的約束,而且還在整個訓(xùn)練過程中滿足了約束條件,能夠在保證代價最小化的目標下,對懲罰成本進行進一步的優(yōu)化。MADDPG-L不僅在代價上高于MACTD3,所獲得的懲罰成本也遠低于MACTD3。
3.2 約束寶藏收集
約束合作寶藏收集環(huán)境描述:總共有8個智能體,包含6個收集者,2個倉庫,6個寶藏,收集者通過獲取收集彩色的寶藏,將存放在正確顏色的倉庫。希望智能體能避免相互之間的碰撞,及時地收集到寶藏并將其存入倉庫。在該環(huán)境中,智能體需要根據(jù)當(dāng)前的情況,選擇不同的注意力模式,例如在沒有獲取到寶藏的時候,收集者的目標就是找到離它最近的寶藏;在成功獲取寶藏的時候,就無須關(guān)心其他的寶藏,只需要根據(jù)寶藏的顏色,找到對應(yīng)的倉庫,將其存入即可,這個任務(wù)更具有挑戰(zhàn)性,因此每一回合擁有100步。這個實驗中,考慮了兩個約束,分別是收集者和倉庫的兩個懲罰約束,對收集者α1的懲罰閾值設(shè)置為12,對倉庫α2的懲罰閾值設(shè)置為0.2。約束寶藏收集對比圖及具體數(shù)值如圖7和表4所示。
a)MADDPG-L。在圖7(a)展示代價的圖中,雖然四種算法都可以收斂,但可以看到MADDPG-L的代價低于MACTD3。對于懲罰項1來說,MADDPG-L擁有較慢的收斂速度,只在訓(xùn)練末期滿足了約束條件,拉格朗日乘子在訓(xùn)練中期開始起到了約束作用,但是MADDPG-L卻無法很好地滿足第二個約束。
b)MASAC-L/MAPPO-L。從圖7(b)中可以看到,這兩種算法的懲罰成本都嚴格滿足了約束條件,然而它們的交互代價都遠遠高于MADDPG-L和MACTD3,因此不能在實際中應(yīng)用。
c)MACTD3。雖然 MACTD3的代價高于MADDPG-L,但是可以看到,MACTD3能滿足兩個設(shè)定的條件,并且有很強的保守性,不僅滿足了約束閾值,所獲得的兩個懲罰均滿足約束,獲得了很小的懲罰成本。
根據(jù)實驗結(jié)果表明,MACTD3不僅能夠在訓(xùn)練末期滿足約束條件,還能在整個訓(xùn)練過程中滿足約束條件,并且具有很小的交互代價。這一點對于現(xiàn)實環(huán)境中的應(yīng)用尤其重要。
3.3 擴展性實驗
一個好的多智能體強化學(xué)習(xí)算法應(yīng)當(dāng)具有良好的擴展性,當(dāng)智能體數(shù)量增多時,仍然能夠完成預(yù)定的任務(wù)。將約束合作導(dǎo)航的將智能體數(shù)量從5個擴展到8個再擴展到12個,保證約束閾值不變,來對算法的擴展性進行評估。由于MASAC-L和MAPPO-L在計算代價上均表現(xiàn)較差,這里只對比MADDPG-L與MACTD3兩種算法。圖8展示了隨著智能體數(shù)量的增長,算法評估的條形圖。圖8中,MACTD3算法隨著數(shù)量的增長,在5智能體和8智能體的時候始終能夠滿足約束的閾值,保持與環(huán)境交互代價的穩(wěn)定,雖然在12智能體的時候獲得了3.6的懲罰量,略微超出了約束閾值,但是仍然是表現(xiàn)最好的算法。MADDPG-L算法雖然在5智能體的情況下代價和懲罰成本穩(wěn)定,而擴展到8智能體和12智能體時,無法保證懲罰成本仍然滿足約束條件,因此隨著智能體數(shù)量的增多,無法擴展下去。
4 結(jié)束語
本文考慮了在約束情況下多智能體的強化學(xué)習(xí)問題,其中智能體需要在滿足最小約束懲罰項的前提下學(xué)習(xí)最優(yōu)的行動,以滿足對安全要求下的約束。算法中,Critic采用了注意力機制的結(jié)構(gòu),能夠通過對各個智能體的編碼后的觀測數(shù)據(jù)進行選擇性關(guān)注,有效地提高算法的性能。通過保證拉格朗日乘子更新步長遠小于Actor網(wǎng)絡(luò)的學(xué)習(xí)率,能夠?qū)崿F(xiàn)拉格朗日參數(shù)以及最優(yōu)策略的收斂。在兩個連續(xù)空間下異質(zhì)和同質(zhì)的實驗環(huán)境進行的實驗結(jié)果表明,該算法適用于同質(zhì)或者異質(zhì)的環(huán)境中并具有良好的擴展性,能夠在保證安全性的前提下找到一個滿足約束條件的近似最優(yōu)解。今后考慮將算法拓展到大規(guī)模的強化學(xué)習(xí)問題中,更加貼近真實環(huán)境中的應(yīng)用。
參考文獻:
[1]Silver D,Huang A,Maddison C,et al. Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529:484-489.
[2]Schrittwieser J,Antonoglou I,Hubert T,et al. Mastering Atari,Go,chess and shogi by planning with a learned model[J]. Nature,2020,588: 604-609.
[3]Xu Haoran,Zhan Xianyuan,Zhu Xiangyu. Constraints penalized Q-learning for safe offline reinforcement learning [C]// Proc of AAAI Conference on Artificial Intelligence. 2022: 8753-8760.
[4]Altman E. Constrained Markov decision processes [D].[S.l.]: INRIA,1995.
[5]Achiam J,Held D,Tamar A,et al. Constrained policy optimization [C]// Proc of the 34th International Conference on Machine Lear-ning. [S.l.]:JMLR.org,2017: 22-31.
[6]Gu Shangding,Kuba J G,Wen Muning,et al. Multi-agent constrained policy optimisation [EB/OL]. (2021-10-06). https://arxiv.org/abs/2110.02793.
[7]Ha S,Xu Peng,Tan Zhenyu,et al. Learning to walk in the real world with minimal human effort [C]// Proc of Conference on Robot Lear-ning. [S.l.]:PMLR,2021: 1110-1120.
[8]Ray A,Achiam J,Amodei D. Benchmarking safe exploration in deep reinforcement learning [EB/OL]. (2019-10-01). https://cdn. openai. com/safexp-short. pdf.
[9]趙恒軍,李權(quán)忠,曾霞,等. 安全強化學(xué)習(xí)算法及其在CPS智能控制中的應(yīng)用 [J]. 軟件學(xué)報,2022,33(7): 2538-2561. (Zhao Hengjun,Li Quanzhong,Zeng Xia,et al. Safe reinforcement learning algorithm and its application in intelligent control for CPS[J]. Journal of Software,2022,33(7): 2538-2561.)
[10]朱斐,葛洋洋,凌興宏,等. 基于受限MDP的無模型安全強化學(xué)習(xí)方法 [J]. 軟件學(xué)報,2022,33(8): 3086-3102. (Zhu Fei,Ge Yangyang,Ling Xinghong,et al. Model-free safe reinforcement lear-ning method based on constrained Markov decision processes[J]. Journal of Software,2022,33(8): 3086-3102.)
[11]Lowe R,Wu Yi,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017:6382-6393.
[12]Yu Chao,Velu A,Vinitsky E,et al. The surprising effectiveness of PPO in cooperative,multi-agent games [EB/OL]. (2021-03-02). https://arxiv. org/abs/2103. 01955.
[13]Zhang Fengjiao,Li Jie,Li Zhi. A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment [J]. Neurocomputing,2020,411: 206-215.
[14]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6000-6010.
[15]Iqbal S,Sha F. Actor-attention-critic for multi-agent reinforcement learning [C]// Proc of International Conference on Machine Lear-ning. 2019: 2961-2970.
[16]Haarnoja T,Zhou A,Abbeel P,et al.Soft Actor-Critic:off-policy maxi-mum entropy deep reinforcement learning with a stochastic actor [C] // Proc of International Conference on Machine Learning.2018:1861-1870.
[17]Jiang Jiechuan,Lu Zongqing. Learning attentional communication for multi-agent cooperation[C]// Proc of the 32nd International Confe-rence on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2018:7265-7275.
[18]Mao Hangyu,Zhang Zhengchao,Xiao Zhen,et al. Modelling the dynamic joint policy of teammates with attention multi-agent DDPG [C]// Proc of the 18th International Conference on Autonomous Agents and Multiagent Systems. Richland,SC:International Foundation for Autonomous Agents and Multiagent Systems,2019:1108-1116.
[19]Long Qian,Zhou Zihan,Gupta A,et al. Evolutionary population curriculum for scaling multi-agent reinforcement learning [EB/OL]. (2020-03-23). https://arxiv. org/abs/2003. 10423.
[20]Parnika P,Diddigi R,Danda S,et al.Attention Actor-Critic algorithm for multi-agent constrained co-operative reinforcement learning [C]// Proc of the 20th International Conference on Autonomous Agents and Multiagent Systems. Richland,SC: International Foundation for Autonomous Agents and Multiagent Systems,2021: 1616-1618.
[21]Borkar V S. Stochastic approximation: a dynamical systems viewpoint [M]. Berlin: Springer,2009.