協作多智能體深度強化學習研究綜述

2022-12-29 09:54:00鄒啟杰蔣亞軍李文雪張汝波

航空兵器 2022年6期

鄒啟杰，蔣亞軍，高兵*，李文雪，張汝波

(1.大連大學信息工程學院，遼寧大連 116000；2.大連民族大學機電工程學院，遼寧大連 116000)

0 引言

多智能體系統(Multi-Agent System, MAS)是由多個智能體與環境交互組成的分布式決策系統[1]。20世紀70年代以來，研究者在MAS領域展開了眾多的研究，目的在于建立一個擁有特定自主等級和自主學習能力的群體智能決策系統[2]。MAS信息共享、分布式計算和協同執行的特點在現實生活中有著廣泛的應用需求，如在軍事、工業、交通運輸等眾多領域[3]，MAS可以高效地完成群體性自主決策任務[4]。此外，資源調度、商業競爭、金融分析、群體心理學等一些復雜的社會性問題同樣可以抽象為多智能體模型，進而解決其智能優化問題。

最初的群體智能算法靈感源自仿生學，如蟻群算法、粒子群算法等啟發式算法。然而，仿生集群智能方法中單個智能體智能決策水平十分有限，智能體集群執行協同任務較為單一，不能更好地適應復雜未知任務[5]。在決策優化問題中，強化學習(Reinforcement Learning, RL)可以有效解決序貫決策問題[6-7]，因此，多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)成為廣大MAS研究者重點關注的領域，極大推動了MARL模型不斷優化[8]。

隨著研究的不斷深入，MARL一方面提升了群體智能決策水平，另一方面也豐富了多智能體執行任務的類型。目前，根據多智能體的優化目標不同，可以將MARL中智能體的學習任務分為三種類型：完全協作、完全競爭和混合環境[9-10]。多智能體合作往往在實際生產和作業過程中具有更廣泛的應用價值，其中狹義的學習合作指智能體僅通過局部觀測來學習協同，以達成共同目標。另外，盡管多智能體通信機制可以更好地促進協作策略的高效率執行，但是一方面顯式通信交流是以無通信下的協作策略研究為基礎，另一方面通信占據一定的計算成本和資源，使得大部分應用場景并不適用。因此，無通信環境下的協作多智能體應用前景廣泛。由于MARL在無通信環境下可以通過狀態-動作信息參數共享等方式獲取全局信息，本文將這種智能體之間無直接通信的環境稱為隱式通信環境。本文對MARL領域中隱式通信下的協作型多智能體強化學習研究成果進行歸納，側重于學習合作場景，同時不涉及額外的顯式通信。

1 多智能體強化學習

MARL是指小規模或大規模具有自主控制能力和自主決策等級的智能體集合，通過RL方法解決序貫決策問題，使得MAS達到任務需求最優均衡狀態[11]。由于多智能體強化學習往往涉及大量的特征信息，通常采用深度學習的神經網絡逼近目標函數，因此多智能體強化學習一般指多智能體深度強化學習，簡稱采用MARL，本文沿用此習慣。

圖1 MARL結構圖

MARL聯合值函數表示為

(1)

聯合策略就是組成聯合值函數的動作集合，即

(2)

在無通信的任務場景中，MARL遵循以馬爾科夫決策過程(Markov Decision Process, MDP)為基礎的隨機博弈理論。在學習決策過程中，每個智能體僅能感知周圍環境，并不能覆蓋整體環境。因此，MARL問題遵循分布式部分可觀測馬爾科夫決策過程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP)的模型，可以描述為一個七元組(S,A,P,O,Ω,γ,R)。其中，智能體：i∈I={1, 2, …,N}；狀態：s∈S；動作：ai∈A，a∈AN；轉移函數：P(s’|s,a)；獎勵：R(s,a)；觀測：oi∈Ω；觀測函數：oi∈Ω～O(s,i)。

2 MARL研究進展

在多智能體學習合作的研究領域，本文將深度強化學習研究方法分為三個類別：基于價值分解(Value Decomposition, VD)的方法、基于Actor-Critic(AC)的方法和基于經驗回放(Experience Replay, ER)的方法，如表1所示。

表1 MARL研究分類

2.1 基于價值分解的方法

初期的MARL方法中，智能體的學習方式主要是完全分布式學習和完全集中式學習。在完全分布式學習方法中，每個智能體學習自己的值函數，并根據局部觀測oi輸出Q值。分布式學習方式面臨的問題是環境對系統的聯合獎勵無法合理有效地分配到每個智能體，致使智能體的學習環境不穩定，收斂性也得不到保證。完全集中式學習方法則是把MAS看作統一的智能體集合進行學習，聯合網絡把所有智能體觀測歷史O作為輸入，輸出聯合Q值，即Qtot。這將面臨學習規模嚴重受限問題，即使采用神經網絡進行值函數擬合，也無法解決隨著智能體數量增多，智能體狀態S和動作A空間會呈現指數級增長困難的問題，因此單純的集中式或分布式學習無法進行智能體數量的大規模擴展。

近來，價值函數分解方法采取集中訓練、分散執行(Centralized Training and Decentralized Execution, CTDE)的范式，學習一個集中但可分解的Q值函數。價值分解方法通過維護聯合行為價值函數，一方面可以避免完全集中式學習過程中由智能體增加而出現的特征維數爆炸問題，以及完全分散式學習的協同性低下問題，因此價值分解的方法在擴展性方面具有結構性優勢；另一方面，智能體保留各自的Q值，使得獎勵可以按照Q值進行分配，從而達到有效的信度分配。因此，價值分解方法在擴展性和信度分配問題上具備天然的結構性優勢。最新的價值分解方法研究進展，如圖2所示。

圖2 價值分解方法研究進展

為了保證多智能體Q學習的CTDE范式的有效性，聯合貪婪動作應該等同于各智能體的個體貪婪動作的集合，被稱為IGM(Individual-Global-Max)原則[12]，即

(3)

初期，VDN將聯合動作價值函數轉化為單個動作價值函數的加性分解[13]，其基本思想是中心化地訓練一個聯合的Q網絡，這個聯合的網絡是由所有智能體局部的Qi網絡求和得到

Q((h1,h2, …,hN),(a1,a2, …,aN))≈

(4)

然而，VDN可加性的約束條件必然使得其在大部分非可加性的情況下無法正常收斂。

QMIX方法是對VDN的改進，采用Mixing Network以非線性的方式將局部值進行組合，使得聯合動作價值函數表示為一個單調函數的形式，如圖3所示。每個智能體學習一個局部Q值函數Qi，訓練時通過Mixing Network聯合生成一個網絡輸出Qtot。分布式執行時，智能體去除Mixing Network，僅保留自己的值函數網絡，并通過值函數網絡進行動作的選擇，并輸出到環境進行交互。

圖3 價值分解方法結構圖

(5)

由于QMIX方法的Mixing Network是一個非線性網絡，其表達能力因而超過VDN。實際上，這個約束條件使得Mixing Network關于每一個Qi的權重必須非負，因此，單調性的限制條件使得QMIX方法無法擬合復雜收斂場景。

上述方法采用Qi近似得到Qtot的思路，但是擬合后的Qtot仍和真實的Qtot存在偏差，因此另外一個途徑是從真實的Qtot分解為局部的Qi。

圖4 QTRAN結構圖

最近，QTRAN方法的研究團隊對其進行改進，提出QTRAN++方法，增加優化約束條件，明確地指定了最優動作組成的Qtot，當前最大Qtot，以及得到的近似Qtot之間的大小關系[15]，如圖5所示。改進后的QTRAN++方法深度分析了最優動作序列的關系，明確了Q函數的更新目標，減輕了Qtot和Qi的訓練壓力。

圖5 QTRAN++結構圖

Qatten方法提出了一種基于多頭注意力機制(Multi-Head Attention)的Q值混合網絡來近似Qtot值和分解Qi值[16]，如圖6所示。Qatten方法從理論上系統推導出了全局分解為局部的過程，為價值分解方法提供了充實的理論依據，彌補了QMIX和VDN等方法在理論上的不足。

圖6 Qatten結構圖

ROMA方法將多智能體協同過程的智能個體的任務差異性加入MARL方法之中，通過“角色”來描述，智能體的價值函數或策略依賴于學習的“角色”，不同“角色”負責執行不同的子任務，并實現智能體之間的自適應共享學習機制[17]，如圖7所示。

圖7 ROMA結構圖

綜上，相較于其他MARL方法，價值分解的方法近年來取得了較多的研究成果并日趨成熟。基于價值分解的MARL方法具有明顯優勢：一方面，價值分解的方法在智能體數據的擴展性方面具有結構性優勢，避免了完全集中式學習過程中因智能體增加而出現的特征維數爆炸問題，以及完全分散式學習的協同性低下問題；另一方面，采用效用函數細化值函數的方式，簡化聯合行為價值函數的訓練方式，同時具備針對性，可以有效解決多智能體信度分配問題。

然而，價值分解的方法也有其明顯的不足之處。首先，價值分解的方法在處理環境非平穩性問題上的表現不盡如人意；其次，受限于離散的動作空間，價值分解方法無法在連續的動作空間中有效地學習；另外，價值分解方法無法同時滿足off-policy學習、值函數近似和自舉學習，缺乏穩定性；最后，一些方法假定的約束條件使得這些方法在大部分情況下無法有效收斂。

2.2 基于Actor-Critic的方法

MARL的現有研究中，通常采用集中Critic網絡和分散Actor網絡(Centralized Critic Decentralized Actor, CCDA)結構，如圖8所示。CCDA方式屬于CTDE范式的一種，可以通過學習中心化Critic網絡將所有智能體的動作-狀態信息作為輸入，輸出全局Q值；同時每個智能體學習獨立的Actor網絡進行分散式的執行。因此，這種結構擁有突出的抗環境非平穩性的能力。

圖8 CCDA結構圖

然而，集中式的Critic網絡輸入網絡的同時，動作-狀態空間維度呈指數級上升，當智能體數量增大時，過高的維度空間提升了函數擬合難度，因此系統可擴展性較差；Critic網絡輸入全局狀態信息，無法將聯合獎勵按信度分配到每個智能體上，因此, 缺乏較好的信度分配機制。

OpenAI首先提出將DDPG方法擴展到多智能體領域并進行改進，提出最初的MADDPG算法，如圖9所示。MADDPG 算法假定每一個智能體擁有獨立Actor網絡以及Critic網絡，并假定智能體個體可以根據任務需求設計特有的回報函數，這使得MADDPG算法可以同時解決協作環境、競爭環境以及混合環境下的多智能體問題[18]。MADDPG算法學習連續動作空間中的確定性策略，并使用以下更新策略的梯度：

圖9 MADDPG結構圖

(6)

從MADDPG算法的網絡結構和梯度更新策略來看，每個Critic網絡可將其余所有智能體的局部觀察以及動作作為輸入，以消除環境非平穩性，有效地縮小方差。從每個智能體的Critic網絡輸入環境觀察數據不難發現，每個智能體實質仍然屬于中心化訓練，因此MADDPG算法并非完全分布式的訓練。

盡管MADDPG算法實現了連續動作空間中高效的學習，卻沒能解決針對完全合作環境下的“信用分配”(Credit Assignment)問題。COMA方法的顯著特點是提出反事實基線以解決“信度分配”問題，防止智能個體學習的惰性?；€計算通過邊緣化當前智能體的行動，同時保持其他智能體的行動不變[19-20]。而后，通過優勢函數計算當前Q值和反事實基線的差異，作為智能體當前貢獻度[21-22]。

MAAC算法引入注意力機制，求解其他智能體對于該智能體的貢獻，從而選擇性地輸入其他智能體的信息[23-24]。MAAC算法既解決了Critic網絡信息維度指數級增長問題，又使得智能體之間相互影響的差異性得以體現，如圖10所示。

圖10 MAAC結構圖

DOP(Off-Policy Multi-Agent Decomposed Policy Gradient)方法將基于價值分解的思想引入，定義一個線性分解的Critic網絡，將集中式的Critic網絡抽象分解成多個Critic網絡，再通過類似VDN的方式累加得到Qtot[25]，如圖11所示。

圖11 DOP結構圖

綜上，Actor-Critic方法簇建立一個獨立或共享的Critic網絡，利用輸入的全局觀測信息和聯合策略解決其訓練問題。這樣能夠有效地解決多智能體學習的非平穩性問題，突破了價值分解理論在離散動作空間的局限性，可以在多智能體連續動作空間發揮作用。

相較于價值分解的方法，基于Actor-Critic的方法利用Actor-Critic結構優勢，分散式的Actor網絡可以直接根據智能體自身觀測輸出策略，有利于隱式通信下多智能體分布式的執行。另外，由于基于價值的強化學習方法在處理高維度動作空間面臨困境，甚至癱瘓，而多智能體中數量增加導致的維數爆炸更甚，因此Actor-Critic的結構優勢在未來MARL的研究中將具有很好的前景。

然而，由于集中式輸入的Critic網絡面臨由狀態數量劇增、梯度下降方向正確率大幅降低而引起的維度爆炸問題，因此Actor-Critic方法無法有效地擴展到復雜任務或大規模的多智體系統中。同時，此類方法缺少信度分配機制，無法對爆炸的信息實施有效過濾，而全局Critic指導個體策略梯度存在困難，多智能體學習難以收斂?，F有信度分配的解決方案中，盡管利用優勢函數等方法求解智能體貢獻，如COMA，然而實際表現不佳。最后，盡管多智能體Actor-Critic方法擁有良好的結構性優勢，但是目前的研究相較于價值分解方法不夠成熟，實驗表現略遜，因此Actor-Critic方法存在較大的研究空間。

2.3 基于經驗回放的方法

獨立Q學習(Independent Q-learning, IQL)是MARL方法中最初的方法，指每個智能體都獨立地學習自己的策略，而將其他智能體視為環境的一部分[26]。然而，單純的IQL方式面臨環境非平穩性問題，致使MAS的收斂性能無法得到保證。隨著深度強化學習的發展，經驗回放機制在傳統強化學習處理環境非平穩和稀疏等困難中得到較好效果，于是眾多研究者將經驗回放機制引入MARL方法中，以克服環境非平穩帶來的狀態轉移連續性問題，智能體之間通過經驗共享而實現協同目標。

經驗回放方法是將系統探索環境得到的數據存儲起來，然后通過隨機采樣更新深度神經網絡參數。深度強化學習中的神經網絡作為監督學習模型，需要數據滿足獨立同分布。另外，由于強化學習在馬爾科夫決策過程中產生的探索數據是前后關聯的，經驗回放方法通過數據的存儲和隨機采樣訓練，打破了數據相關性，并且提升重要數據的利用率，降低參數更新的方差。如隨機優先采樣保證在一個轉移優先中的采樣概率是單一的，轉移i的采樣概率為

(7)

式中：α為確定使用的優先級，當α=0時，為均勻采樣。

文獻[27]提出的穩定經驗回放算法，將重要性采樣(Importance Sampling)和指紋(Fingerprint)引入MARL方法中，解決IQL與深度學習的經驗回放兼容性問題。重要性采樣自然衰減過時的數據，根據指紋調節每個智能體的值函數，消除時間引起的數據歧義性。

盡管穩定經驗回放方法將經驗共享的思想引入MARL并取得較好的成果，但其前提條件是所有動作更新頻率相等，Q-learning中的動作值是異步更新的，因此動作值更新函數的導數與實際相差一個因子，頻率調整Q學習(Frequency Adjusted Q-learning，FAQ)方法可以融合進化模型，其動作值更新的權重與動作被選中的概率成反比，從而模擬同步更新[28]。

Bloembergen等[28]利用FAQ的同步更新優勢提出“寬大(Lenient)”的概念，對于智能體初始學習性能低下問題，給予更多的寬恕處理。在學習過程開始時提高智能個體對搜索空間投影的準確性，從而增強了隨機回報的魯棒性。從理論角度看，通過調節“寬大”的程度，能夠使得多智能體學習收斂到帕累托最優。當聯合空間中的次最優納什均衡優于最優納什均衡時，會出現相對過度泛化，如圖12所示。因為當與協作智能體的任意動作匹配時，每個代理在次最優均衡中的行動是更好的選擇。

強化學習中，深度神經網絡的強大函數擬合能力使Q學習的計算性能得以提升，因此Palmer等將寬大概念引入DQN方法中，提出L-DQN(Lenient-Deep Q-Networks)，在原有溫度控制的動作選擇的基礎上，增加寬大處理函數[29]。

寬大經驗共享機制同時帶來了相對的過度概括病態[30-31]，隨后產生的分布式Q學習[32]和滯后Q學習[33]，旨在克服這種過度概括：

l(s,t)=1-e-k×T(φ(s), a)

(8)

式中：每條寬大經驗映射一個溫度值T，通過預先計算溫度衰減計劃計算溫度指數值，從而對寬大經驗進行衰減處理，防止策略經驗過早冷卻[34]。

盡管經驗回放的方法可以通過改進訓練數據回放機制來促進MARL的協作策略學習，然而在大規模智能體的擴展過程中穩定效率低下，無法較好地提高擴展性能，于是Gupta等[35]提出了參數共享作為一種改進同構多智能體環境中學習的方法。智能體之間采樣經驗樣本匯總來更新模型，實現參數共享，以提高算法可擴展性。同時，參數共享的方式將局部觀察和自身索引輸入模型，避免智能體因參數共享引起的策略缺乏差異性的弊端，從智能體中獲得的一批軌跡用來計算優勢值。

在多智能體顯式通信領域，Foerster提出的RIAL和DIAL算法也采用參數共享的方法，通過在智能體之間共享參數來進行集中化學習，參數可以極大地減少學習所必須的通信參數數量，從而提升學習速度[36]。RIAL方法如圖13所示。

圖13 RIAL結構圖

參數共享的方法通過智能體之間的參數傳遞，可以有效減低MARL學習過程中參數學習的復雜度，從而提升學習效率，在價值分解和Actor-Critic方法中也被廣泛采用，如VDN，QMIX和MADDPG等[37-38]。由于參數共享是基于智能體部分觀察的場景，因此智能體最終的學習動作會存在差異性[39]。

綜上，在基于經驗回放的方法中，MARL方法通過經驗和參數共享的方法提升數據利用率，增加了共享模型的魯棒性，從而提升了算法對于訓練經驗處理機制的實用性，為價值分解和Actor-Critic等眾多MARL方法提供了更高的經驗處理思路。然而，基于經驗回放的方法缺乏智能體之間的關聯性和協同性，因此無法較好地適應高效的協同策略訓練場景。

3 協作多智能體深度強化學習的挑戰

因深度強化學習發展迅速而得到廣泛關注。盡管MARL在圖像或語音識別的模式識別領域和圍棋撲克等決策任務中表現優異，但是從特定環境到復雜現實任務的過渡仍存在眾多困境，單智能體強化學習存在的問題在多智能體擴展中得到進一步惡化，如維數爆炸問題和模型泛化問題等。

(1)維數爆炸問題

得益于計算性能的提高與算法的不斷優化，單智能體在處理高維度信息時不再困難，然而在向多智能體擴展過程中，動作-狀態信息呈指數級增長，所需的計算成本不斷提高，增大了函數擬合的困難。

(2)模型泛化問題

強化學習的模型泛化對于同一個領域中的同一個任務，強化學習模型在訓練環境訓練，在測試環境驗證模型的性能。由于強化學習的數據是在模型與環境交互過程中產生的，所以普遍認為強化學習中的泛化能力弱，模型較容易過擬合到當前的訓練環境。MARL中，智能體的增加增大了學習難度和模型復雜度，進一步加劇了模型泛化的困境。

另外，由于分布式計算智能和環境動態的特性，MARL仍然面臨諸多問題亟待解決。

(1)現實環境的非平穩性問題

多智能體系統中，單智能體的觀測oi僅為環境整體狀態的一部分，即對于智能體來說環境是部分可觀測的[40]。多個智能體的并行訓練導致每個智能體所面臨的環境動態變化，這是指某個智能體采取的行動會影響其他智能體回報及全局環境的改變，而導致智能體在相同狀態下執行相同動作后，由于其他智能體干擾，致使環境狀態轉移不再具備連續性[26，41]，這有違于強化學習馬爾科夫的基本假設。

價值分解和Actor-Critic方法憑借CTDE的學習范式，一定程度上緩解了非平穩環境帶來的收斂困難問題。而在獨立Q學習中，盡管一些方法試圖通過經驗回放、指紋算法和寬恕/滯回處理等方式來解決非平穩性問題，卻仍然由于智能體個體和其他智能體的策略訓練之間缺乏關聯性，導致獨立Q學習的方式缺乏根本性的解決方案。

(2)多智能體稀疏獎勵問題

獎勵稀疏是RL在復雜問題中學習困難的重要原因。目前RL方法中，智能體無法得到正確的監督或協作信號以得到期望的目標或獎勵收益，導致學習緩慢甚至無法有效學習。在MARL中，每個智能體任務不同，但是彼此之間又相互耦合影響，獎勵設計的優劣直接影響策略的好壞。

解決獎勵稀疏問題有三個主要途徑：一是利用內部或外部數據進行獎勵學習或重塑，利用專家經驗或良好軌跡來學習最佳獎勵信號，包括模仿學習和課程學習等，通過雙水平優化獎勵參數自動地添加獎勵修正，引導強化學習智能體獲得優異的學習策略，最大化真實環境下的獎勵；或者利用已有內部數據產生內在的獎勵，以鼓勵更好的探索，包括好奇心驅動和優先/事后經驗回放。二是在時間和空間角度進行信度分配，時間角度是將稀疏的終止獎勵分解到以前的時間步，空間角度是根據智能體個體的貢獻將全局獎勵分解到個體智能體上，而空間上的信度分配是MARL的一大難題。三是任務層次化分解，將原始任務分解為離散或連續的子任務，高層遵循半馬爾科夫決策過程，底層從高層分解的子目標中接收獎勵反饋并完成子目標。

(3)智能體個體的信度分配問題

在協作多智能體Dec-POMDP問題中，環境的反饋信號(即獎勵)由所有智能體的聯合動作所決定，個體的獎勵難以準確描述，智能體在不同狀態做出的相同動作對于整個團隊的貢獻未知[42-43]；同樣地，當智能體探索到最優策略序列中的自身策略時，由于整個團隊的策略對于環境的影響較差，導致智能體對該最優策略的誤判[44]。因此，多智能體面臨信度分配問題，即求解單智能體的策略對MAS聯合策略的貢獻度。

在競爭或混合任務場景中，通常采用差異獎勵的方式來促進MAS中智能體對各自任務的差異化策略訓練。然而，協作多智能體系統中智能體貢獻無法衡量，目前主要的方式是采取貴族效用的方式，來衡量智能體實際行為和平均行為間的差異，計算優勢函數來求解智能體貢獻度。另外，借助RL學習過程中的軌跡，可以按照時序分配獎勵。

(4)大規模集群智能的擴展性問題

隨著智能體數量的增加，聯合動作空間維數呈指數級增長，使得現有的小規模智能體協作策略算法擴展到大規模集群時，收斂效率大幅降低，甚至陷入資源沖突、無有效可行解狀態。因此，對于大規模集群性強化學習算法需要特殊考慮算法處理指數級任務空間求解優化問題[45-46]。

現有的研究集中在采用課程學習或專家經驗來訓練協同策略行為，使智能體由小規模到大規模地進行學習訓練。另外，模型共享的機制通過為所有同構智能體群組學習一個共享的模型結構，從而成為一種解決優化大規?？臻g收斂難的途徑。

(5)多種優化目標難以平衡問題

MARL模糊的學習目標主要歸結為均衡議程和AI議程。均衡議程指收斂到某一個博弈納什均衡點，AI議程指最佳學習策略，即學習最優反饋信號下的策略序列[47-48]。博弈均衡理論(Game Equilibrium Theory)可以協調多智能體優化目標。在均衡學習范式中，智能體策略訓練目標是在其他智能體策略未知的情況下，智能體試圖至少學習到納什均衡狀態的收益，即收益下限。因此，通過博弈均衡目標的優化，可以使得MAS收斂到納什均衡狀態，從而緩解多場景下多目標平衡矛盾。

(6)信息結構復雜性

信息結構復雜性主要有兩個方面：一方面是信息內容不同，即智能體在訓練和執行階段所需信息是不同的，也是未知的。另一方面是信息基于局部策略，尤其競爭環境下無法獲得對手策略和獎勵信息。

4 MARL的應用領域

MARL最前沿的研究一直致力于在復雜環境中使得多智能體具有更強的環境適應能力，以及學習更好的協作策略，從而替代人類完成一些高?；蛭粗娜蝿?。

(1)多機器人協作

MARL在工業[49-51]、農業[52]、軍事[53]和醫療[54]等領域多機器人協作任務中具有廣泛的用途，如機械臂、無人機、自動駕駛和物聯網等。在現實生活中，隱式通信的多機器人通過協作來提升MAS的任務效率，移動機器人底層的決策和規劃成為多智能體協同控制的關鍵技術，其中多機器人之間的自主避障和導航是多機器人協同的重點。

(2)資源調度

另外，MARL在資源調度領域的應用具有無可比擬的優勢，MARL可以解決資源供需不平衡導致的資源利用率低下等問題，如5G網絡優化-多頻段參數優化、供應鏈優化、芯片3D-IO布線優化和電網調度等場景[55]。由于任務的復雜性和多智能體必需的協同決策，資源調度任務并不能簡單歸類為運籌學問題或者機器人規劃問題。因此，MARL可以根據實際任務將復雜問題歸類為決策、規劃以及組合優化問題，通過智能體協同進而提升資源利用效率。

(3)虛擬互聯網場景

在虛擬互聯網場景中，MARL憑借用戶的實時反饋和長期累積獎勵，成功在搜索系統、推薦系統和廣告推送等領域廣泛使用。在互聯網搜索領域，MARL可以訓練多個智能體來代替通用智能體模型，有效地學習各種查詢重構[56-57]。另外，在推薦系統的訓練學習中，MARL可以捕獲不同場景之間的順序相關性并聯合優化多個推薦策略，來減少訓練數據需求并執行更準確的策略更新[58]。在互聯網廣告推送方面，MARL可以將印象分配問題定義為一個拍賣問題，為出版商在不穩定環境下最大限度實現目標提供合作策略[59]。

(4)游戲AI

在游戲AI領域，MARL取得眾多進展，如德國撲克、國際象棋和圍棋等分步回合制對抗游戲，以及星際爭霸、DOTA和王者榮耀等即時戰略游戲[60]。智能體可以通過自我博弈、協作對抗等方式學會有效信息并不斷增強策略學習能力。多智能體游戲AI，由于游戲復雜性、動作狀態維度過高和獲取信息局限性等因素影響，使得模型訓練難度加大，MARL學習更加困難。

(5)群體博弈

博弈均衡理論可以有效地協調多智能體優化目標。博弈是指在一定的游戲規則約束下，基于直接相互作用的環境條件，參與者依據所掌握的信息，選擇各自的策略(行動)，以實現利益最大化的過程[61]。在經典博弈論中，智能體通過策略選擇使得自身回報最大化，最終進化為納什均衡狀態[62]。

MARL可以理解為一個隨機博弈過程，將每個狀態的階段博弈的納什均衡結合為動態環境中的智能體策略，并不斷與環境交互，更新每個狀態的階段博弈中的Q函數。而對于傳統的納什均衡，每個智能體都希望優化到一個不動點，這對于個體智能體是最優的，而協作多智能體是一個非零和博弈過程，是基于聯合的最優策略序列作為優化目標。

5 總結與展望

目前，在基于價值分解的多智能體強化學習方法中，MAS通過建立了一個集中的混合網絡，將個體值函數聯合，并通過全局值函數進行訓練。為了適應動態環境和MAS的協作性能，以及考慮每個智能體的局部優化，需遵循IGM原則。基于Actor-Critic的方法通常用于學習MAS的獨立或共享的Critic網絡，以指導分布式Actor網絡的梯度更新，即CCDA結構。經驗回放方法在數據采樣及參數共享訓練中可以有效提高數據利用率，然而單獨優化經驗回放采樣方法無法有效提升MARL方法效率。因此，MARL方法的研究可以引入經驗回放方法，進一步提升算法收斂效率。

目前，盡管價值分解方法的實驗性能略優于Actor-Critic方法，但其結構在對抗環境非平穩問題方面存在明顯的弱點。集中Critic是通過輸入全局行動和狀態信息來處理非平穩環境的有效手段，因此Actor-Critic方法在多智能體強化學習研究中前景廣闊。然而，在現有的Actor-Critic框架的MARL方法中，由于集中的Critic和智能體數量的增加而導致的信用分配，在指導分布式智能體策略梯度方面效率低下，智能體在團隊中的貢獻不能得到有效表達，因此收斂效率變得緩慢。此外，全局最優動作與個體的最優動作組合的一致性不能得到保證，全局貪婪動作的選擇不能與局部最優動作相匹配。這些問題使得MARL方法的收斂效率和穩定性無法提高。因此，Actor-Critic方法尚需進一步展開研究。

在未來，由于動態環境獎勵稀疏性，將任務層次化的劃分[63]，以及多目標、多任務學習[63]，將使得智能體學習分工協作成為重點研究的方向。從算法的角度來看，采用課程學習進行策略遷移的思想可以更好地引入MARL之中[64]，使得MAS在任務的完成過程中實現由易到難的學習，并且使得小規模到大規模智能體得到平穩擴展。另外，將模仿學習[65]等方法的專家經驗與MARL融合可以解決較為復雜智能體行為問題，如自動駕駛、機械臂裝卸等。最后，智能體劃域和圖卷積網絡[66-67]的方法在解決大規模智能體問題上也是一個重要的趨勢。