基于觀測空間關系提取的多智能體強化學習

2022-12-31 00:00:00許書卿臧傳治王鑫劉鼎劉玉奇曾鵬

計算機應用研究 2022年10期

摘要：針對多智能體系統(tǒng)（multi-agent systems，MAS）中環(huán)境具有不穩(wěn)定性、智能體決策相互影響所導致的策略學習困難的問題，提出了一種名為觀測空間關系提取（observation relation extraction，ORE）的方法，該方法使用一個完全圖來建模MAS中智能體觀測空間不同部分之間的關系，并使用注意力機制來計算智能體觀測空間不同部分之間關系的重要程度。通過將該方法應用在基于值分解的多智能體強化學習算法上，提出了基于觀測空間關系提取的多智能體強化學習算法。在星際爭霸微觀場景（StarCraft multi-agent challenge，SMAC）上的實驗結果表明，與原始算法相比，帶有ORE結構的值分解多智能體算法在收斂速度和最終性能方面都有更好的性能。

關鍵詞：多智能體；強化學習；注意力機制；觀測空間

中圖分類號：TP301文獻標志碼：A

文章編號：1001-3695（2022）10-010-2957-05

doi：10.19734/j.issn.1001-3695.2022.03.0138

Multi-agent reinforcement learning based on observation relation extraction

Xu Shuqing1，2，3，4，Zang Chuanzhi5，Wang Xin1，2，3，Liu Ding1，2，3，4，Liu Yuqi1，2，3，Zeng Peng1，2，3

（1.State Key Laboratory of Robotics，Shenyang Institute of Automation，Chinese Academy of Sciences，Shenyang 110016，China；2.Key Laboratory of Networked Control Systems，Chinese Academy of Sciences，Shenyang 110016，China；3.Innovation Institute of Robotics amp; Intelligent Manufacturing，Chinese Academy of Sciences，Shenyang 110016，China；4.University of Chinese Academy of Sciences，Beijing 100049，China；5.Shenyang University of Technology，Shenyang 110023，China）

Abstract：In order to overcome the challenges of policy learning in MAS，such as the unstable environment and the interaction of agent decisions，this paper proposed a method named ORE，which used a complete graph to model the relationship between different parts of each agent’s observation，and took advantage of the attention mechanism to calculate the importance of the relationship between different parts of each agent’s observation.By applying the above method to multi-agent reinforcement learning algorithms based on value decomposition，this paper proposed multi-agent reinforcement learning algorithms based on observation relation extraction.Experimental results on SMAC show the proposed algorithms with ORE leads to better perfor-mance than the original algorithms in terms of both convergence speed and final performance.

Key words：multi-agent；reinforcement learning；attention mechanism；observation

0引言

多智能體強化學習已經(jīng)成為解決許多現(xiàn)實問題的有效工具，例如群體機器人協(xié)同［1］和自動駕駛［2］等。但是，多智能體強化學習及其在真實場景中的應用依然存在很多挑戰(zhàn)，因為在多智能體系統(tǒng)中，智能體的行為相互影響，環(huán)境具有更多的不確定性［3］。

近年來，許多多智能體深度強化學習方法被提出用來解決復雜的多智能體問題［4］。一種簡單的思想是讓單個智能體根據(jù)全局獎勵進行學習，但由于多智能體系統(tǒng)的不確定性，智能體容易錯誤地更新它們的策略。為了減緩這一問題，可以使用集中式訓練分布式執(zhí)行（centralized training with decentralized execution，CTDE）的形式，CTDE根據(jù)聯(lián)合動作和狀態(tài)信息學習出一個完全集中的價值函數(shù)，然后使用這個價值函數(shù)來指導分布式策略的優(yōu)化，文獻［5，6］使用了這種方式。與上述方法不同的一類工作側重于設計特定的網(wǎng)絡結構來解決多智能體問題。VDN［7］假設多智能體系統(tǒng)的聯(lián)合動作價值函數(shù)可以由每個智能體的動作價值函數(shù)線性累加而成，設計了一個值分解網(wǎng)絡從團隊的獎勵信號學習系統(tǒng)的最優(yōu)線性價值分解。QMIX［8］放寬了VDN中的累加假設，提出聯(lián)合動作價值函數(shù)和個體的動作價值函數(shù)的關系可以是單調的，使用一個混合網(wǎng)絡來學習聯(lián)合動作價值函數(shù)與個體動作價值函數(shù)之間復雜的非線性關系。QTRAN［9］將多智能體系統(tǒng)的策略學習問題表述成具有線性約束的優(yōu)化問題，并且引入L2懲罰來放松約束。MAVEN［3］證明了QMIX中單調性約束會導致策略學習的過程缺乏探索，并且采用 Bootstrapped DQN ［10］的方法引入一個層次化控制的潛在空間以確定策略學習過程中的探索模式，在遵循單調性約束的同時實現(xiàn)了探索。

另一類工作專注于設計多智能體間通信的網(wǎng)絡結構。CommNet［11］為每個智能體提供一個通信通道，每個智能體從通信通道上接收到其他智能體隱藏狀態(tài)的平均值。IC3Net［12］認為智能體間的通信有時是不必需的，通過引入門控機制可以學習何時需要通信，門控機制允許智能體選擇斷開或重新連接通信。MAAC［13］使用注意力機制使得每個智能體學會在每個時間步上選擇性地接收來自其他智能體的信息。

上述的方法都沒有明確地考慮智能體觀測空間內的不同觀測部分之間的關系，筆者認為這是一個可以用來促進多智能體協(xié)調機制的關鍵因素。具體說來，多智能體系統(tǒng)中每個智能體的觀測空間內的信息可以按照信息的來源不同劃分成不同的部分，例如與環(huán)境相關的信息、與自己相關的信息以及與系統(tǒng)中其他智能體相關的信息等。當智能體進行決策時，應當考慮各部分信息之間的關系，以幫助智能做出更好的選擇。為此，本文提出一種觀測空間關系提取方法（observation relationship extraction，ORE），用于學習智能體觀測信息各部分之間的關聯(lián)。本文使用完全圖來建模多智能體系統(tǒng)中智能體觀測信息之間的關系，并使用注意力機制來學習各部分間關系的重要程度；ORE可以靈活地與以值分解為基礎的多智能體算法相結合，筆者在SMAC［14］上進行實驗，結果表明使用ORE結構的算法能獲得更好的性能。

1隨機博弈

隨機博弈（stochastic games，SG［15］）是馬爾可夫決策過程在多智能體系統(tǒng)領域上的一個擴展，它模擬了多個智能體與環(huán)境之間的動態(tài)交互。考慮到多智能體環(huán)境下智能體往往不能觀察到所有的環(huán)境信息，筆者根據(jù)之前的工作將多智能體學習問題建模成部分可觀測隨機博弈（partially observable stochastic games，POSGs［16］）。

一個部分可觀測隨機博弈可以由元組〈N，S，{Ai}Ni=1，T，{Ri}Ni=1，{Oi}Ni=1〉所定義，其中N是智能體的集合；S是狀態(tài)的集合；Ai（i=1，…，n）是智能體i可執(zhí)行的動作集合，系統(tǒng)聯(lián)合動作A=A1×A2×…×AN；T是狀態(tài)轉移方程，定義了該多智能體系統(tǒng)下一步全局狀態(tài)的概率分布：

T：S×A1×…×AN→P（S）∈［0，1］（1）

Ri是智能體i的獎勵函數(shù)，每個智能體的獎勵函數(shù)由系統(tǒng)的全局狀態(tài)、該智能體的動作以及系統(tǒng)內其他智能體的動作決定：

Ri：S×A1×…×AN→Euclid Math TwoRAp（2）

oi是智能體i觀測的集合，每個智能體從全局狀態(tài)S中提取出自己的觀測：Zi（S）→Oi。一般來說，系統(tǒng)中的一個智能體i在時刻t的觀測可以分解成如下部分［17］：

oit={oi，envt，mit，oi，1t，…，oi，i-1t，oi，i+1t，…，oi，nt}（3）

其中：oi，envt是觀察到的環(huán)境信息；mit是i本身的屬性，例如，在無人機系統(tǒng)中，mit包括智能體i自己的位置坐標、各個零件的健康情況、電池電量等，其余部分是智能體i對環(huán)境中其他智能體的觀察結果，例如在無人機系統(tǒng)中，oi，i-1t包括智能體i觀察到的自身與智能體i-1之間的相對距離。每個智能體學習自己的策略πi：Oi→P（Ai）∈［0，1］，該策略將每個智能體的觀測映射成其動作集的概率分布，策略學習的目標是最大化當前智能體的期望折扣回報Ji（πi）：

Ji（πi）=Ea1～π1，…，aN～πN，s～T［∑∞t=0γtrit（st，a1t，…，aNt）］（4）

其中：γ是折扣因子，γ∈［0，1］。如果所有的智能體獲得的回報相等（R1=R2=…=RN=R），該隨機博弈變成完全合作型隨機博弈，即一個智能體的最大利益動作［18］也是其他智能體的最大利益動作。當智能體做決策時，智能體i的歷史觀測τi經(jīng)常被用來代替它的當前觀測oi，因此，循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）往往被添加在智能體的局部策略或者Q值函數(shù)中。

2注意力機制

近年來，注意力機制被廣泛應用到各種研究領域中，不少工作將注意力機制應用在了多智能體系統(tǒng)上。例如，QMIX-A［19］使用注意力機制學習不同時刻上觀測空間的重要性權重，MAAC［13］使用自注意力機制來學習每個智能體關注其他智能體觀測信息的比重，TarMAC［20］通過使用注意力機制和多輪協(xié)作通信實現(xiàn)了智能體間有目的性的連續(xù)通信，Qatten［21］使用多頭注意力機制學習系統(tǒng)整體價值函數(shù)Qtot與個體價值Qi之間的關系。注意力機制可以理解為從一個查詢query和一組鍵值對key-value到輸出的映射。具體來說，當前智能體根據(jù)自身query查詢其他智能體的key，得到其他智能體對于它本身的權重wj，計算出其他智能體value的加權和，wj用于表示其他智能體對當前智能體的重要程度，其中權重wj由查詢和鍵通過式（5）給出的評分函數(shù)計算：

wj=exp（f（VQ，VjK））∑kexp（f（VQ，VkK））（5）

其中：查詢VQ、鍵VjK都是向量形式；f是可選擇的評分函數(shù)，評分函數(shù)用來度量相應值的重要性程度。例如，點積函數(shù)就是一個常見的評分函數(shù)。

3基于觀測空間關系提取的多智能體學習方法

在多智能體系統(tǒng)中，多個智能體同時和環(huán)境進行相互作用，增加了環(huán)境的隨機性和不確定性，使得每個智能體很難學習到全局最優(yōu)策略。目前的多智能體算法都沒有明確地考慮智能體觀測空間內的不同觀測部分之間的關系，本文認為這是一個可以用來促進多智能體協(xié)調機制的關鍵因素。

在自然語言處理領域中，文獻［22］使用注意力機制計算輸入文本元素之間的關系，利用獲得的關系對文本進行再表示，得到新的輸入文本。新的文本因為捕捉到了文本內部的聯(lián)系，在機器翻譯等任務中取得了更好的效果。本文受到該工作的啟發(fā)，希望使用注意力機制提取智能體觀測空間內不同觀測部分之間的關系，從而生成新的觀測以利于智能體進行決策。

為此，本文提出了一種名為觀測空間關系提取的全新網(wǎng)絡結構，該網(wǎng)絡結構能夠提取到不同觀測部分之間的關系，以提高動作價值的評估精度，該結構可以與現(xiàn)有的多智能體強化學習算法相結合，具體內容介紹如下。

3.1觀測空間關系提取

本文將智能體觀測空間每個部分之間的關系建立成一個圖的形式，其中每個節(jié)點代表一個觀測部分，默認觀測空間的每個部分之間都有聯(lián)系，即圖中每兩個點間都存在邊。本文將該圖定義成觀測空間協(xié)調圖。

定義1觀測空間協(xié)調圖。觀測空間中每部分觀測的關系可以定義成一個無向圖G=（V，E），包括|V|個節(jié)點和|E|條邊。每個節(jié)點代表一部分觀測信息，每條邊代表兩部分相鄰觀測信息之間的關系。

考慮一個部分可觀測的環(huán)境，在每個時間步t，第i個智能體可以得到一個部分觀測oit，oit可以根據(jù)特性分為不同的部分oi，1t，…，oi，mt。例如，可以根據(jù)觀測來源的不同將其分為與環(huán)境有關的觀測部分oi，envt，與第i個智能體本身有關的觀測部分oi，selft，以及與其他智能體有關的觀測部分oi，othert等，觀測空間中第k部分觀測oi，kt通過多層感知機（multilayer perceptron，MLP）編碼成特征向量hi，kt，這代表了觀測空間協(xié)調圖G中第k個節(jié)點的特征。然后，在hi，kt上通過注意力機制學習圖中不同觀測部分之間的關系。觀測空間協(xié)調圖G是一個完全圖，即圖中每兩個不同節(jié)點之間都有邊相連，本文從該完全圖上提取每個子圖Gj（1≤j≤|V|），圖Gj包含了觀測空間協(xié)調圖G中所有的節(jié)點以及所有與節(jié)點j相連的邊。本文通過訓練一個注意力機制模型來學習各個子圖每條邊上的權重。對于任一子圖Gj，Gj上每條邊的權重表示對第j觀測部分觀測來說，該邊上另一觀測部分的重要程度，不同子圖的相同邊上權重互不影響。

使用注意力機制來學習子圖Gj邊上權重的過程如下：注意力權重wj，li為使用評分函數(shù)計算得到的編碼向量hi，jt，hi，lt之間的關系關聯(lián)度，m代表將觀測空間一共分為m個部分，1≤l≤m，l≠j，使用點積形式的評分函數(shù)。為了方便，將hi，jt，hi，lt簡寫成hj，hl。然后將相似度評分傳遞到softmax函數(shù)中，得出這條邊上的權重：

wj，l∝exp （hTlWTkWqhj）（6）

其中：Wk將hl線性變換成鍵（key）；Wq將hj線性變換成查詢（query）。鍵和查詢通過點積得到兩向量的關聯(lián)程度，最終經(jīng)過softmax函數(shù)得到子圖Gj上節(jié)點l與節(jié)點j相連邊上的權重。

圖1給出一個示例以說明觀測空間關系的提取過程，左側的完全圖G表示一個由MAS中某個智能體的四部分觀測組成的觀測空間，每個節(jié)點代表一部分觀測的特征。圖中所有節(jié)點之間都存在邊，即每部分觀測間都存在關系。接著，分別對圖中的四個節(jié)點進行子圖提取，并計算各個子圖邊上的權重。例如圖中通過對紅色節(jié)點進行子圖提取，得到觀測空間協(xié)調子圖G1，G1包括所有的節(jié)點以及所有與紅色節(jié)點相連的邊。最后，使用注意力機制計算每張子圖上邊的權重，得到不同觀測部分與其他觀測部分的關聯(lián)程度。觀測空間關系提取網(wǎng)絡結構可以和其他多智能體算法相結合，相關內容將在下一節(jié)進行討論。

3.2觀測空間關系提取與多智能體算法結合

通過觀測空間關系提取，可以為智能體的每部分觀測都獲得一個觀測空間協(xié)調子圖，其中該部分觀測（節(jié)點）與其他部分觀測（節(jié)點）都有邊相連，其他部分觀測（節(jié)點）兩兩之間沒有邊。圖神經(jīng)網(wǎng)絡（GNN）有強大的編碼能力，如果子圖Gj上每個節(jié)點代表每部分觀測的編碼向量，可以使用GNN處理子圖Gj獲得一個聯(lián)合編碼Xj，這個聯(lián)合編碼表示其他部分觀測對當前部分觀測的貢獻。有了聯(lián)合編碼向量，可以做出更好的評估。如圖2所示，將圖1中得到的子圖G1送入GNN得到聯(lián)合編碼X1，分別代表其余部分觀測對當前部分觀測的貢獻。

除此之外，本文提出的結構具有很強的靈活性，可以應用在以值分解為基礎的多智能體強化學習算法上，目前，許多的相關工作將多智能體系統(tǒng)的整體聯(lián)合動作價值評估分解為每個個體的動作價值評估，如VDN［7］、QMIX［8］、QTRAN［9］。然而，這些算法都將智能體的觀測直接輸入神經(jīng)網(wǎng)絡使用，沒有關注智能體觀測空間中各部分觀測之間的關系。本文把觀測空間關系提取方法與值分解多智能體算法相結合，提出了新的基于觀測空間關系提取的值分解多智能體算法。

觀測空間關系提取方法與基于值分解的多智能體強化學習算法的結合方式是相似的，在這里以QMIX為例。圖3代表了QMIX-ORE的網(wǎng)絡結構，其中，對于每個智能體，本文使用ORE代替了普通的價值評估網(wǎng)絡。如圖3所示，oit代表了第t時刻智能體i的觀測，oi，1t，…，oi，mt分別代表oit的不同部分，本文按照ORE經(jīng)過注意力機制計算出每個觀測部分oi，jt與除了oi，jt以外其他觀測部分的重要性權重wj，Wj=wj，1，wj，2…，wj，j-1，wj，j+1，…，wj，m，然后，經(jīng)過GNN得到其他部分觀測對當前部分觀測的貢獻Xj，Xj是所有其他觀測部分的加權和：

xj=∑l≠jWj，lhl（7）

最后，經(jīng)過循環(huán)神經(jīng)網(wǎng)絡（GRU）得出智能體i的動作價值評估

Qi（oit，ait）=f（concatnate（H，X））（8）

其中：H=（h1，…，hk），X=（x1，…，xk）。混合網(wǎng)絡將所有智能體網(wǎng)絡的輸出非線性地累加起來，輸出聯(lián)合動作價值Qtot（st，at）。混合網(wǎng)絡的權值由圖中紅色的超網(wǎng)絡生成，超網(wǎng)絡以全局狀態(tài)st作為輸入，輸出混合網(wǎng)絡的權值。QMIX-ORE的訓練目標為最小化如下?lián)p失函數(shù)：

L（θ）=∑Bb=1［（ybtot-Qtot（s，a；θ））2］（9）

ybtot=rb+γ maxaQtot（s′，a′；θ-）（10）

其中：B是網(wǎng)絡每次訓練時訓練樣本的數(shù)量；θ-是DQN［23］中目標網(wǎng)絡的參數(shù)。

4實驗

4.1實驗環(huán)境

星際爭霸Ⅱ是一款受到廣大玩家喜愛的實時策略游戲，該游戲提供多種地圖，在每個地圖中玩家需要控制一個或者多個作戰(zhàn)單位與游戲的內置敵人進行戰(zhàn)斗。本文研究分布式的多智能體控制，分別由每個可訓練的智能體控制一個單獨的作戰(zhàn)單位。每個智能體的觀測范圍是以其本身為圓心的一個圓，該圓的半徑為定值。在每個時間步上，每個智能體只能觀測到部分信息，包括在它的視線范圍內的以下信息，即其他智能體與之相對距離、絕對距離、智能體的類型、環(huán)境信息以及自身的特性，且選擇一個動作執(zhí)行，可執(zhí)行的動作包括向上、下、左、右移動、進攻攻擊范圍中的敵人，停止動作或者什么也不做。一方的多個智能體在每個時間步獲得相同的回報，回報等于己對敵方單位造成的所有傷害的大小。除此之外，每當殺死一個敵方單位，可以獲得額外的10點回報，當殺死所有敵方單位后可以獲得200點回報。當有一方作戰(zhàn)單位全部死亡或者達到游戲時間的上限時，這一輪游戲結束。

為了驗證本文提出算法的有效性，選擇兩個不同的地圖進行實驗，分別為3 m（敵我雙方都是3個海軍）、5 m vs 6 m（我方是5個海軍，敵方6個海軍）。

4.2實驗設置

1）環(huán)境建模

本文使用POSG［15］對該游戲問題進行建模，將我方控制的多個作戰(zhàn)單位建模成智能體。全局狀態(tài)包含所有作戰(zhàn)單位的信息，并且只在訓練過程中使用全局狀態(tài)。在圖4中，將每個智能體的觀測信息按信息來源不同分成不同的部分，給定作戰(zhàn)單位1的觀測o1t，圖中NN是普通的網(wǎng)絡，包含一個全連接層和一個GRU層，將觀測信息中與該作戰(zhàn)單位本身性質有關部分（m1t）以及與環(huán)境相關部分（o1，envt）作為NN的輸入，將觀測信息中與其他作戰(zhàn)單位有關部分（o1，2t，…，o1，8t）輸入到ORE網(wǎng)絡中，接下來將兩部分網(wǎng)絡的輸出連接輸入到另一個GRU層，最終的輸出是該作戰(zhàn)單位的動作估值函數(shù)Q。

2）對比算法及評估標準

為了驗證本文提出的ORE方法的性能，在VDN和QMIX兩種基于值分解的多智能體強化學習算法上進行擴展（VDN-ORE和QMIX-ORE），并在兩種星際爭霸游戲場景下進行實驗，以游戲勝率和獲得的回報為評價指標，驗證本文所提出算法的有效性。

VDN［7］：VDN假設多智能體系統(tǒng)的聯(lián)合價值Qtot由系統(tǒng)中每個智能體動作價值Qi線性累加而成，設計一個值分解網(wǎng)絡并根據(jù)系統(tǒng)全局獎勵信號學習系統(tǒng)的最優(yōu)線性價值分解。

QMIX［8］：QMIX放寬了VDN中的線性累加假設，提出多智能體系統(tǒng)的聯(lián)合價值Qtot可分解為單個Qi的單調非線性加和，QMIX使用一個混合網(wǎng)絡來學習聯(lián)合價值與個體價值之間復雜的非線性關系，并在訓練過程中使用了系統(tǒng)的全局信息。

5實驗結果與分析

圖5和6是不同算法在不同的地圖上獲得回報與勝率的對比結果，為了使結果更加清晰，本文對所有曲線進行了平滑處理，下面對實驗結果進行分析。

其中圖5是3m地圖上獲得回報與勝率的對比結果。從圖中可以看出，VDN與QMIX都可以學習到勝率極高的游戲策略。相比之下，QMIX與VDN在前期的表現(xiàn)相差不大，但是QMIX在后期的表現(xiàn)略差于VDN。將ORE結構應用在這兩種方法上均可以取得更高的平均勝率和平均回報，并且收斂速度明顯快于兩種基礎方法。這是因為ORE結構通過對劃分智能體的觀測空間，使智能體能夠學習到視野中敵人與隊友之間的關系，并幫助智能體選擇正確的時機配合隊友進攻敵人，以最大限度地增加對敵人的總傷害。從圖中可以看出，在收斂速度方面，原始VDN、QMIX算法分別在100、120個訓練周期后達到收斂，而使用ORE結構的算法分別在50個訓練周期后即可收斂。

接著，本文考慮一個更加復雜的場景：5 m vs 6 m。圖6是該地圖上不同算法獲得回報與勝率的對比結果。在該場景下，由于己方智能體數(shù)量比敵方少一個，獲勝的難度大大增加，VDN與QMIX學習到的策略的最終勝率都低于50%，并且QMIX相比VDN更加有效。由勝率對比曲線可以發(fā)現(xiàn)，將ORE應用在VDN與QMIX上均可以獲得性能的提升。VDN在訓練400個周期后獲得的平均勝率接近0.2，而VDN-ORE可以獲得接近0.4的平均勝率。同時在整個訓練過程中，VDN-ORE相比VDN可以獲得更多的回報，這是因為在經(jīng)過狀態(tài)空間劃分后，系統(tǒng)中的智能體學習到了如何綜合考慮視野中的信息，并且做出正確的行動以對敵人產生更大的傷害。本文的ORE結構應用在QMIX上能獲得相似的效果，在這個地圖上ORE-QMIX獲得了最高的60%以上的勝率。

從兩個場景的實驗結果對比中可以看出，在基礎算法上使用本文的ORE網(wǎng)絡結構能夠獲得更好的結果，這是因為ORE考慮到了觀測空間中不同部分之間的聯(lián)系，可以幫助多智能體環(huán)境中的智能體獲得更加豐富的信息，以此選擇更加合適的動作。具體的模型勝率與獎勵值的中位數(shù)值統(tǒng)計如表1所示。

6結束語

本文提出了名為觀測空間關系提取的方法，該方法通過顯式地考慮多智能體系統(tǒng)中智能體觀測空間不同部分之間的關系的重要性來幫助智能體學習到有效的策略。觀測空間提取方法可以靈活地與各種以值分解為基礎的多智能體算法相結合。實驗結果表明，觀測空間提取網(wǎng)絡結構提升了QMIX、VDN兩種值分解多智能體算法的性能。目前，默認MAS中智能體的觀測空間的各個部分均存在聯(lián)系，并且使用注意力機制來計算關系的重要性，未來筆者將研究如何設定不同觀測部分之間存在聯(lián)系的條件，以及使用其他方式計算觀測空間不同部分關系的重要性。

參考文獻：

［1］Nguyen H T，Nguyen T D，Garratt M，et al.A deep hierarchical reinforcement learner for aerial shepherding of ground swarms［C］//Proc of the 26th International Conference on Neural Information Processing of the Asia-Pacific-Neural-Network-Society.2019：658-669.

［2］Cao Yongcan，Yu Wenwu，Wei Ren，et al.An overview of recent progress in the study of distributed multi-agent coordination［J］.IEEE Trans on Industrial Informatics，2013，9（1）：427-438.

［3］Mahajan A，Rashid T，Samvelyan M，et al.MAVEN：multi-agent variational exploration［C］//Proc of the 33rd Conference on Neural Information Processing Systems.2019.

［4］孫彧，曹雷，陳希亮，等.多智能體深度強化學習研究綜述［J］.計算機工程與應用，2020，56（5）：13-24.（Sun Yu，Cao Lei，Chen Xiliang，et al.Overview of multiagent deep reinforcement learning［J］.Computer Engineering and Applications，2020，56（5）：13-24.）

［5］Foerster J N，F(xiàn)arquhar G，Afouras T，et al.Counterfactual multi-agent policy gradients［C］//Proc of the 32nd AAAI Conference on Artificial Intelligence.2018：2974-2982.

［6］Gupta J K，Egorov M，Kochenderfer M.Cooperative multi-agent control using deep reinforcement learning［C］//Proc of the 16th International Conference on Autonomous Agents and Multi-Agent Systems.2017：66-83.

［7］Sunehag P，Lever G，Gruslys A，et al.Value-decomposition networks for cooperative multi-agent learning based on team reward［C］//Proc of the 17th International Conference on Autonomous Agents and Multiagent Systems.2018：2085-2087.

［8］Rashid T，Samvelyan M，De Witt C S，et al.QMIX：monotonic value function factorisation for deep multi-agent reinforcement learning［C］//Proc of International Conference on Machine Learning.2018：4295-4304.

［9］Son K，Kim D，Kang W J，et al.QTRAN：learning to factorize with transformation for cooperative multi-agent reinforcement learning［C］//Proc of the 36th International Conference on Machine Lear-ning.2019：5887-5896.

［10］Osband I，Blundell C，Pritzel A，et al.Deep exploration via bootstrapped DQN［C］//Proc of the 30th Conference on Neural Information Processing Systems.2016：4033-4041.

［11］Sukhbaatar S，Szlam A，F(xiàn)ergus R.Learning multiagent communication with backpropagation［C］//Proc of the 30th International Conference on Neural Information Processing Systems.2016：2252-2260.

［12］Singh A，Jain T，Sukhbaatar S.Learning when to communicate at scale in multiagent cooperative and competitive tasks［C］//Proc of International Conference on Learning Representations.2018.

［13］Iqbal S，Sha Fei.Actor-attention-critic for multi-agent reinforcement learning［C］//Proc of the 36th International Conference on Machine Learning.2019：2961-2970.

［14］Samvelyan M，Rashid T，De Witt C S，et al.The StarCraft multi-agent challenge［C］//Proc of the 18th International Conference on Autonomous Agents and MultiAgent Systems.2019：2186-2188.

［15］Littman M L.Markov games as a framework for multi-agent reinforcement learning［M］//Machine Learning Proceedings.［S.l.］：Morgan Kaufmann Publishers Inc.，1994：157-163.

［16］Hansen E A，Bernstein D S，Zilberstein S，et al.Dynamic programming for partially observable stochastic games［C］//Proc of the 19th National Conference on Artificial Intelligence/16th Conference on Innovative Applications of Artificial Intelligence.2004：709-715.

［17］Wang Weixun，Yang Tianpei，Liu Yong，et al.Action semantics network：considering the effects of actions in multiagent systems［EB/OL］.（2019-07-26）.https：//arxiv.org/abs/1907.11461.

［18］Matignon L，Laurent G，Le Fort-Piat N，et al.Independent reinforcement learners in cooperative Markov games：a survey regarding coordination problems［J］.The Knowledge Engineering Review，2012，27（1）：1-31.

［19］方星辰，崔鵬，王慶領.SC2LE 場景下基于QMIX算法的多智能體協(xié)同控制［J］.指揮信息系統(tǒng)與技術，2021，12（2）：21-26.（Fang Xingchen，Cui Peng，Wang Qingling.Multi-agent cooperative control based on QMIX algorithm in SC2LE environment［J］.Command Information System and Technology，2021，12（2）：21-26.）

［20］Das A，Gervet T，Romoff J，et al.TarMAC：targeted multi-agent communication［C］//Proc of International Conference on Machine Lear-ning.2019：1538-1546.

［21］Yang Yaodong，Hao Jianye，Ben liao，et al.Qatten：a general framework for cooperative multiagent reinforcement learning［EB/OL］.（2020-02-10）［2022-03-02］.https：//arxiv.org/abs/2002.03939.

［22］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［J］.Advances in Neural Information Processing Systems，2017，30：6000-6010.

［23］Mnih V，Kavukcuoglu K，Silver D，et al.Human-level control through deep reinforcement learning［J］.Nature，2015，518（7540）：529-533.

收稿日期：2022-03-02；修回日期：2022-05-01基金項目：國家自然科學基金資助項目（92067205）；遼寧省自然科學基金資助項目（2020-KF-11-02）；機器人學國家重點實驗室開放課題（2020-Z11）

作者簡介：許書卿（1998-），男，江蘇南通人，碩士研究生，主要研究方向為多智能體系統(tǒng)、強化學習；臧傳治（1977-），男（通信作者），江蘇連云港人，副教授，碩導，博士，主要研究方向為強化學習與電力系統(tǒng)優(yōu)化調度（zcz1@sina.com）；王鑫（1992-），男，遼寧阜新人，助理研究員，碩士，主要研究方向為強化學習與智能集群系統(tǒng)；劉鼎（1992-），男，山東菏澤人，博士研究生，主要研究方向為智能電網(wǎng)、微電網(wǎng)、強化學習；劉玉奇（1991-），男，吉林長春人，助理研究員，碩士，主要研究方向為強化學習與最優(yōu)控制；曾鵬，男，研究員，博導，博士，主要研究方向為無線傳感器網(wǎng)絡和工業(yè)無線通信技術.

計算機應用研究2022年10期

計算機應用研究的其它文章: 應用于材料圖像分割的Graph-UNet; 基于Transformer的圖像分類網(wǎng)絡MultiFormer; 基于群智感知的街景變化檢測方法; 基于多尺度殘差網(wǎng)絡的單應估計方法; 融合IMU去除運動模糊的改進光流匹配算法; 面向WSI的乳腺病理亞型分類研究