基于組合訓練的規則嵌入多智能體強化學習方法

2022-01-01 00:00:00李淵徐新海

計算機應用研究 2022年3期

摘要：多智能體強化學習方法在仿真模擬、游戲對抗、推薦系統等許多方面取得了突出的進展。然而，現實世界的復雜問題使得強化學習方法存在無效探索多、訓練速度慢、學習能力難以持續提升等問題。該研究嵌入規則的多智能體強化學習技術，提出基于組合訓練的規則與學習結合的方式，分別設計融合規則的多智能體強化學習模型與規則選擇模型，通過組合訓練將兩者有機結合，能夠根據當前態勢決定使用強化學習決策還是使用規則決策，有效解決在學習中使用哪些規則以及規則使用時機的問題。依托中國電子科技集團發布的多智能體對抗平臺，對提出的方法進行實驗分析和驗證。通過與內置對手對抗，嵌入規則的方法經過約1.4萬局訓練就收斂到60%的勝率，而沒有嵌入規則的算法需要約1.7萬局的時候收斂到50%的勝率，結果表明嵌入規則的方法能夠有效提升學習的收斂速度和最終效果。

關鍵詞：多智能體強化學習；嵌入規則；規則選擇模型；組合訓練

中圖分類號：TP183 文獻標志碼：A

文章編號：1001-3695（2022）03-027-0802-05

doi：10.19734/j.issn.1001-3695.2021.09.0351

作者簡介：李淵（1986-），男，山西永濟人，助理研究員，博士，主要研究方向為多智能體強化學習；徐新海（1984-），男（通信作者），江蘇鎮江人，副研究員，碩導，博士，主要研究方向為系統仿真與人工智能（xuxinhai_nudt@163.com）.

Embedding rules into multiagent reinforcement learning based on iterative training

Li Yuan， Xu Xinhai?

（Academy of Military Sciences， Beijing 100190， China）

Abstract：Multi-agent reinforcement learning methods have been made great progress in simulation， game， recommendation systems and so on. However， the complex problems in the real word bring great difficulties for reinforcement learning， such as many useless explorations， slow converging speed and poor performance of the learning. This paper studied the problem of multi-agent reinforcement learning with embedded rules and proposed a method to combine rules and the learning method based on an iterative training mechanism. This method designed a multi-agent reinforcement learning method with embedded rules， and a rule selection model. This paper introduced an iterative training mechanism to combine the two methods together. The proposed method could decide whether to use the result of a reinforcement learning or the result of a rule based on the real-time game state. It could effectively solve the problem that which rule should be selected and when it would be used. Finally， it made an experiment on a multi-agent combat platform which was published by the China Electronics Technology Group. By fighting with the built-in opponent in the platform， it found that the method with rules could achieve 60% win rate with 14 thousand rounds while achieve 50% win rate with 17 thousand rounds for the method without rules. The results show that the proposed method can effectively improve the converging speed and the performance of multi-agent reinforcement learning.

Key words：multi-agent reinforcement learning; rule embedding; rule selection model; iterative training

0 引言

自2016年Alpha Go在圍棋中擊敗人類頂級選手，強化學習技術引起了廣泛的關注，已經在仿真模擬、游戲對抗、推薦系統等許多方面取得了突出的進展^[1]。現實世界問題的復雜性促使強化學習從單智能體領域拓展到多智能體領域。多智能體系統不是多個單智能體的簡單疊加，而是通過多智能體之間的競爭與合作關系形成整體的能力^[2]。一方面，智能體數量的增加將極大地擴展多智能體狀態—動作空間，導致多智能體問題求解難度急劇增大。另一方面，多智能體強化學習不僅需要每個智能體與環境進行大量試錯交互而且需要多智能體的協作，這使得多智能體強化學習變得非常困難^[^3]。在傳統的從零開始學習的方法中，智能體在龐大的策略空間中進行隨機探索導致大量的無效探索，探索效率不高，智能體沒有初始經驗，訓練周期長以及智能體訓練需要大量的數據，訓練效果難以實現。這些問題導致強化學習方法在很多實際問題中陷入局部解，表現不太理想^[^4]。

針對大多數多智能體的學習問題，往往存在一些先前積累的經驗或知識。這些經驗知識如果以一定方式融入到學習過程來指導智能體的探索，可以避免許多無效的探索，使得智能體訓練速度更快、效果更好。一個典型的例子是在2018年的星際爭霸智能體對抗賽中，得益于韓國電子競技選手的指導，基于規則的多智能體系統獲得了冠軍^[5]。傳統的基于人類知識經驗的技術途徑如專家系統，將大量的經驗知識有效地組織起來，用于實際問題的分析求解。然而人類的知識經驗繁雜眾多，很難建立一個完善的、適應性強、智能性高的專家系統^[^6]。

基于人類經驗知識的方式與基于數據學習的方式各有優劣，將兩者結合起來是高效求解多智能體問題的一個有效手段。當前針對知識與學習的結合方式的研究還處于比較初級的狀態。最常見的是將知識經驗以規則形式表達進而與學習直接耦合的結合方法。這種方法在使用中一旦有規則匹配到，優先使用規則。當沒有規則匹配時，就使用強化學習進行探索^[7]。這種方式的缺陷在于規則一直優先使用，無法對無效規則進行篩選。而在實際問題中，往往存在著大量積累的規則，在使用中，哪些規則是有效的，有效的規則什么時候被使用都是沒有被考慮的問題。因此，規則與學習的有效結合是多智能體強化學習應用的一個重要問題^[8]。

1 相關工作

多智能體通過相互之間的通信交流以及與環境之間的交互實現聯合學習。多智能體聯合學習行為也可以由馬爾可夫模型來刻畫。一個面向多智能體學習的馬爾可夫模型可以用（n，S₁，…，Sn，A₁，…，An，P，R）表示^[9]。其中，n表示多智能體系統中智能體的數量；每個智能體i從環境中獲取各自的觀測狀態Si，所有智能體的聯合狀態為（S₁，S₂，…，Sn）；每個智能體與環境交互的動作同樣可以用聯合動作來表示，（A₁，A₂…，An）為聯合動作向量；P為狀態轉移函數，表示從一個聯合狀態和聯合動作轉移到下一個聯合狀態的概率，即P：S×A₁×A₂×…×An×S′→[0，1]，S′表示下一步的聯合狀態；R為聯合獎勵函數，即Ri： S×A₁×A₂×…×An×S′→R。用πi表示智能體i的策略，π={π₁，π₂，…，πn}表示多智能體的聯合策略，多智能體尋求最優解的過程就是找到一個最佳的聯合策略π使得整體的性能達到最優。每個智能體i在策略π下的狀態—值函數表示為Q^πi（S，A）=Eπ{∑∞t=0γ^tR^ti}。R^ti表示在t時刻智能體i獲得的獎勵值。

多智能體的協同訓練可通過對每個智能體神經網絡的輸出進行綜合處理后進而指導各個智能體神經網絡的訓練，代表性的方法是基于值分解的方法VDN^[10]，其基本假設是所有智能體聯合的函數Qtot等價于每個智能體評估函數Qi的求和，如式（1）所示。

VDN分別為每個智能體訓練一個Q網絡，對所有智能體評估網絡輸出的Qi加和后得到Qtot，再分別指導每個智能體網絡的訓練。這種處理模式解耦了智能體之間復雜的相互關系，能夠通過中心化的訓練緩解多智能體學習給環境帶來的不穩定性。然而，該方法將全局Q值Qtot表示為單智能體Qi的和，這種線性關系并不能很好地表達智能體之間的協同關系。2018年，文獻[11]提出了QMIX算法，用一個混合神經網絡來表達Qtot與Qi之間的關系，增強了多智能體協同關系的表達。關于Qtot與Qi之間的非線性關系表示在后續QTRAN^[12]、QLPEX^[13]、Weight QMIX^[14]等算法中進行了廣泛的研究。

針對人類經驗知識與強化學習的結合，一些工作考慮通過嵌入外部知識將知識融入強化學習過程。文獻[15]提出了用知識圖譜來表示實體間的關系并用于強化學習。文獻[16]利用一些已有的環境預測模型來改進策略網絡的狀態表示。人類經驗知識也可以抽象成樣本，用于訓練強化學習模型的初始參數，文獻[17]提供了一種對抗訓練機制，通過生成器與判別器的迭代訓練實現對有效專家經驗的學習。人類知識的另一種表達形式是邏輯規則，代表性工作是專家系統。然而專家系統不具備學習能力，并不能解決復雜問題。文獻[18]給出了一種規則與強化學習結合的方法，利用規則通過將狀態空間劃分為幾個模式來減小狀態空間的大小。然而，對所有狀態進行分類是低效的，而且這種方法只適用于狀態空間極小的問題。文獻[19] 提出基于概率衰減方式使用規則，在訓練初期優先使用規則，隨著訓練進行逐步減少使用規則的概率，然而這種方法并不能區分有利和不利的規則。

本文提出一種規則與多智能體強化學習結合的方法。針對多智能體強化學習方法，將每個智能體動作空間分解為直接動作和間接動作。直接動作對應于多智能體問題的原始動作，間接動作為新引入的動作，對應規則類型的選擇。這里每種規則類型是一個單獨的規則庫。每個規則庫是一組用于解決問題的規則集合。在智能體訓練時，實時根據態勢變化切換不同的規則庫。根據間接動作選定規則庫后，設計強化學習算法從對應的規則庫中選擇合適的規則，完成從規則到智能體直接動作的解析，進而交由環境去執行。對于規則庫選擇強化學習算法與規則選擇強化學習算法兩種不同的算法，設計實現組合訓練機制，實現兩種算法的有效融合。本文方法能夠有效應對大規模規則系統與強化學習結合的問題，在學習中能夠有效將不同類型規則庫與學習進行融合。

2 基于組合訓練的規則與學習結合方法

本章先介紹融合規則庫選擇的多智能體強化學習模型，然后設計了面向規則選擇的強化學習算法，最后給出了組合訓練算法，實現規則與學習的高效融合。

2.1 融合規則的多智能強化學習算法

本文考慮一個部分可觀測的多智能體對抗環境，每個智能體的部分觀測量由觀測函數O（s，a）：S×A→R給出。融合規則的多智能體強化學習方法如圖1所示。多智能體環境用于實時接收多智能體的行為動作，并將環境狀態反饋給多智能體強化學習模型。每個智能體i接收到各自的觀測狀態oⁱ，計算出下一步的動作uⁱ∈A。每個智能體的動作空間包含兩個部分：a）根據環境定義的智能體動作行為并且能夠在環境中直接執行，稱為直接動作ǔ；b）表示智能體使用哪個規則庫，稱為間接動作。對于智能體選擇的下一步動作，若屬于直接動作集合，則可以直接作用于環境;若屬于間接動作集合，則要由規則選擇模塊從相應的規則庫中選擇合適的規則進行解析形成直接動作。

該方法采用的是中心式訓練—分布式執行架構，每個智能體的行為決策由一個智能體神經網絡來決定，混合網絡用于協調各個智能體之間的行為。訓練時，每個智能體網絡的輸入為自己的部分觀測狀態o，輸出為狀態—動作的評估值Q（o，u）。每個智能體按照-greedy方法選擇動作，然后進行動作類型判斷，如果是直接動作，交由環境執行，如果是間接動作，交由規則選擇模塊，從規則庫中選擇合適的規則，根據規則產生環境可識別的直接動作。混合網絡將所有智能體的評估值作為輸入，結合全局態勢S，計算得到一個全局的評估值Qtot（s，u），根據該評估值計算隨時函數，如式（2）所示。其中，b代表一次訓練樣本的數量；y^tot=r+γ maxu′Q（o′，u′），o′表示下一步的觀測狀態。

根據計算出的損失值loss更新混合網絡和各個智能體網絡。通過聯合訓練促進各個智能體之間的協同。執行時，每個智能體加載各自的神經網絡模型，根據自己的觀測狀態計算下一步的動作輸出，實現多智能體分布式執行。

融合規則的多智能體強化學習方法如算法1所示。輸入是一個規則選擇強化學習模型以及隨機初始化的智能體網絡和混合網絡。輸出是訓練好的多智能體強化學習模型。在算法中，訓練對抗局數為L，每局訓練最多對抗T步。對于每步對抗，獲取環境全局狀態和智能體局部觀測狀態（行3）。然后，行4～8給出智能體根據狀態計算下一步的動作，這里動作要進行直接動作和間接動作的區分，前文已經進行了詳細描述。行9～11描述了智能體動作由環境進行執行，收集樣本并進行智能體網絡訓練。最后，經過L次訓練得到多智能體強化學習模型。

算法1 融合規則的多智能體強化學習算法

輸入：加載規則選擇強化學習模型Ω、隨機初始化智能體網絡參數θ、混合網絡參數。

輸出：多智能體強化學習模型Φ。

1 for多智能體任務運行次數l=1，2，…，L do

2 for 每個任務運行步數t=1，2，…，T do

3 環境返回當前環境狀態st和智能體的觀測狀態ot

4 每個智能體按照-greedy方法選擇動作

u′t=隨機選擇一個動作 if隨機概率lt;

argmaxutQ（ot，ut;θ）otherwise

5 if ut′是間接動作

6 ǔt= Ω（u′t）

7 else

8 ǔt= u′t

9 在多智能體環境中執行動作ǔt，并得到回報值rt和下一步狀態ot+1， st+1

10 將樣本（ot，st，ǔt，rt，ot+1，st+1）存到樣本庫D

11 從D取一定數量樣本訓練智能體網絡和混合網絡

12 生成多智能體強化學習模型Φ

2.2 規則選擇強化學習算法

規則選擇強化學習模型用于智能體根據當前態勢從相應規則庫中選擇合理的規則，解析后生成直接動作驅動下一步的行為。該模型包括規則庫模塊、規則選擇強化學習模型和規則解析模塊，如圖2所示。

規則庫模塊用來存儲智能體對應的規則。現實的問題中，每個智能體對應著大量的規則。這些規則組織成不同類型的規則庫。這里用Li來表示智能體i的第個規則庫。智能體神經網絡輸出的間接動作指明了使用哪個規則庫。根據實時態勢，從指定的規則庫中選擇合適規則的功能由規則選擇強化學習模型來完成。

規則選擇強化學習模型采用經典的DQN算法^[19]來完成。在該DQN算法中，動作空間表示指定規則庫中的規則集合。狀態空間采用與對應智能體相同的數據表示。當前值網絡和目標值網絡的神經網絡結構是一樣的，都采用多層感知機神經網絡結構。目標值網絡的神經網絡參數定期從當前值網絡復制得到，與當前值網絡一起用于DQN誤差函數的計算。該模型根據當前狀態o∈O計算出動作v∈V， V表示智能體對應規則庫中規則的數量，即V=|L^ui|。動作v指定了規則庫中的具體規則。

規則解析模塊根據DQN模型輸出的動作，從相應規則庫中選擇規則，并解析成為多智能體運行環境所能識別的直接動作，即智能體行為，驅動環境運行。

該模型根據當前狀態o∈O計算出動作v∈V，V表示智能體對應規則庫中規則的數量，即V=|L^ui|。動作v指定了規則庫中的具體規則L^uvi。DQN模型通過與多智能體環境的大量交互，產生大量的樣本（o，v，o′，r）并存儲到樣本庫。o′是動作執行之后的下一個狀態，r表示動作執行之后的回報值。DQN模型訓練時從樣本庫中取出一定數量的樣本，根據當前值網絡計算當前狀態—動作評估值Q（o，v），根據目標值網絡計算下一個狀態—動作最大可能的評估值maxv′Q（o′，v′）。根據這兩個評估值以及DQN誤差函數計算誤差函數的梯度并對當前值網絡進行訓練更新。

算法2給出了基于DQN的規則選擇算法。下面結合如圖2所示的模型原理，對算法2進行詳細闡述。算法輸入為多智能體強化學習模型Φ，輸出為訓練好的規則選擇強化學習模型Ω。該模型訓練次數為L′，每局對抗步數為T。行3首先獲取智能體當前觀測態勢，然后行4根據多智能體強化學習模型計算智能體間接動作，根據該動作找到對應的規則庫Li，同時計算該規則庫包含的規則數目V。行5按照-greedy策略計算下一步的動作vt。行6、7用于和仿真交互產生訓練樣本并存儲到記憶回放單元D中。行8）根據D中樣本進行神經網絡更新，更新的具體方法如圖2所示。從樣本庫中隨機選擇一批樣本（o，v，o′，r），其中o′是動作執行之后的下一個狀態，r表示動作執行之后的回報值。DQN模型訓練時將當前狀態和動作（o，v）輸入到當前之網絡，計算評估值Q（o，v）。將下一步的狀態o′輸入目標之網絡并計算得到下一步最大可能的評估值maxv′Q（o′，v′），損失值按照式（3）進行計算，b代表一次訓練樣本的數量。計算得到損失值后對當前值網絡進行更新。

算法2 基于DQN的規則選擇算法

輸入：多智能體強化學習模型Φ。

輸出：規則選擇強化學習模型Ω。

1 for多智能體任務運行次數l=1，2，…，L′ do

2 for 每個回合中對每個時間步t=1，2，…，T do

3 獲取仿真對抗環境中當前智能體的觀測狀態ot

4 = Φ（ot）， V=|Li|

5 采用-greedy策略選取動作，即

vt=rand（V） plt;εargmaxvQ（ot，v）p≥ε

6 執行動作vt后獲得當前動作獎勵rt和下一個狀態ot+1

7 將對抗樣本（ot， vt， rt， ot+1）存儲到記憶回放單元D中

8 從D中隨機采樣小批量樣本訓練智能體神經網絡

2.3 組合訓練方法

多智能體強化學習算法和規則選擇算法采用的是兩種不同類型的強化學習方法。兩個模型的訓練涉及到混合網絡、智能體網絡以及每個智能體對應的規則選擇網絡。由于兩種模型處理不同的任務，需要設計特殊的訓練機制實現兩種算法的有效融合。本文提出一種針對不同類型強化學習模型融合的組合訓練方法，通過兩種模型的迭代訓練實現組合后的效果。該組合訓練方法如算法3所示。

在算法運行前，需要明確每個智能體的規則庫。首先隨機初始化規則選擇模型Ω，固定模型Ω去訓練多智能體強化學習模型Φ。模型Φ訓練好之后，固定模型Φ去訓練模型Ω，這樣迭代訓練K次。對于模型Φ的訓練，模擬運行多智能體任務L次，每個任務最大運行T步，每步與環境的交互會產生相應的樣本并放入樣本庫中。模型訓練時需要從樣本庫中取出一定數量的樣本。模型Ω的訓練模式與模型Φ類似，運行L′次多智能體任務，每次任務最多執行T回合。通過迭代訓練產生得到訓練好的兩個模型。

算法3 組合訓練算法

輸入：所有智能體的規則庫集合{L^ui，i=1，2，…，N}。

輸出：多智能體強化學習模型Φ，規則選擇強化學習模型Ω。

1 隨機初始化規則選擇強化學習模型Ω

2 for 組合迭代次數k=1，2，…，K do

3 根據算法1訓練生成多智能體強化學習模型Φ

4 根據算法2訓練生成規則選擇模型Ω

3 實驗設計與分析

本章對嵌入規則的多智能體強化學習方法進行實驗設計和分析。采用的實驗環境是中國電子科技集團發布的紅藍智能體對抗平臺MACA^[20]。

3.1 實驗環境與設置

本文考慮一個10v10紅藍智能體對抗問題。對抗場景為1 000×1 000矩形的二維平面空間，如圖3所示（見電子版）。紅藍雙方擁有10個同構智能體。每個智能體都具有偵察、探測、干擾、打擊的功能，可模擬多頻段干擾設備進行干擾，支持多頻點切換。智能體攻擊包括遠程攻擊和近程攻擊。智能體的探測范圍為沿著機頭方向一定距離內的扇形區域。智能體對敵方構成射擊的條件為敵方在其探測范圍和射程范圍內。智能體的航向取值為0～359中的離散值。智能體進行攻擊時，具有一定的命中概率。每個智能體雷達和干擾設備設置開關機功能，分別設置10個探測頻點[1，10]和11個干擾頻點[1，11]。智能體會對處于其干擾范圍內的敵方造成干擾。干擾頻點11表示阻塞干擾，會對敵方每個探測頻點造成干擾，減弱偵察距離。其余的干擾頻點也會對探測造成干擾，干擾頻點與對手探測頻點越接近，干擾作用就越大。例如紅方智能體干擾頻點為5，藍方探測頻點為5并且處于紅方的干擾范圍內，藍方的探測距離會被壓縮到最小。

當一輪對戰結束后，如果一方智能體全部摧毀，則另一方完勝。如果雙方彈藥存量為0，則存活作戰單元數量多的獲勝。如果對戰達到最大步數，則剩余單元數量多的獲勝。如果最終雙方單元全都被擊毀（即紅藍雙方智能體全部死亡），或者雙方彈藥存量為 0 且雙方存活單元數量相等，則為平局。

3.2 實驗規則設計

智能體在對抗場景中可使用如下規則：

規則1 當探測器發現目標時，根據歐氏距離對敵方單位進行排序，調整航向為向最近敵人飛去。

規則2 若該敵方目標進入射程且未被任何友方單位鎖定，執行發射動作，否則暫緩攻擊以節省彈藥。

規則3 使用遠程武器對遠處敵人進行攻擊，但在射程允許的前提下優先使用短程武器。

規則4 我方攻擊單元的探測頻點隨機變化。

規則5 我方攻擊單元干擾頻點的設置主要包括數據積累過程和預測過程兩個過程。干擾頻點的數據積累過程在第一局對抗中進行，針對敵方探測頻點為周期規律變化的情況，通過收集連續三個時間點內某架敵機的探測頻點變化樣本，將前兩個頻點的組合作為特征，預測第三個頻點的概率分布，并將分布存儲在預測模塊的表格對象中。在預測階段，首先驗證學習過程中生成的概率分布表格是否真實有效，驗證過程在第二局對抗中進行，具體方法為累計預測發生總次數和預測錯誤總次數，然后計算預測錯誤率，最后根據預先設定的錯誤率閾值（默認0.01）判斷預測模塊是否有效，并決定在后面進行的對抗中是否啟用預測功能。如果發現預測錯誤率高于閾值，那么判定為敵方探測頻點變化規律與學習到的規律不一致，立即關閉預測功能，并將干擾頻點設置為11；如果低于閾值，表示驗證通過，那么根據學習到的概率分布進行攻擊單元干擾頻點設置。

3.3 實驗結果分析

本文實驗對紅方智能體進行訓練，藍方智能體采用平臺內置的方案。將上節所述的規則分為三個規則庫，分別包含規則1～5。實驗中的每個紅方智能體神經網絡對應一個RNN。每個RNN有三個間接動作，用來決定當前選擇哪個規則庫。規則選擇模型選擇一個三層的感知機神經網絡模型。輸入實時態勢，選擇對應規則庫中的規則。

本文所采取的多智能體強化學習算法為QMIX算法^[11]。這里將嵌入規則的多智能體模型定義為R-QMIX，規則選擇模型為DQN。R-QMIX與DQN模型采用組合訓練的方式進行。在訓練中，R-QMIX和DQN設置最大的訓練局數為10萬局（L=100 000）和1萬局（L′=10 000）。每局對抗步數為T=5 000，兩個算法分別對應一個記憶回放單元，分別可存儲10萬個樣本和1萬個樣本，一次訓練的樣本數量batch size為64，設定折扣因子γ=0.9，=0.95。

組合迭代一次的訓練效果如圖4所示。紅線表示嵌入規則的多智能體強化學習算法R-QMIX，藍線表示沒有嵌入規則的算法MARL（見電子版）。橫軸表示訓練的對抗局數，縱軸分別表示訓練的勝率和回報值。從圖中可以看出，沒有嵌入規則的算法在大約1.7萬局的時候收斂到50%的勝率，而嵌入規則在大約1.4萬局就收斂到60%的勝率。嵌入規則的算法最終回報值在20左右，而沒有嵌入規則只有大約14。可以看出，嵌入規則的算法在收斂速度和收斂效果均顯著優于沒有嵌入規則的算法。

為了驗證組合訓練算法的效果，分別設置組合訓練次數K=2，3，4。圖5給出不同迭代次數下的訓練勝率和回報值。迭代2～4次的最后收斂的勝率分別是70%、80%、85%。可以看出，隨著迭代次數的增加，算法的訓練效果在不斷提升。值得注意的是，K值的增大不是一直都能夠帶來勝率的提升。K=4收斂后的勝率與K=3相比，提升不是特別明顯，而且在收斂的回報值上基本差異不大。K值越大，就需要越長的時間，因此要選擇一個合適的K值。

4 結束語

本文提出了一種嵌入規則的多智能體強化學習方法。針對多智能體強化學習方法如何利用現存大量規則系統的問題，設計實現了融合規則選擇的多智能體強化學習方法，將規則庫的選擇作為強化學習動作空間的一部分，在學習中切換不同的規則庫。同時，針對規則庫中哪些規則有效的問題，設計實現了基于DQN模型的規則選擇方法，從規則庫中選擇合適的規則。最后，通過組合訓練機制將兩種方法有效融合，實現在學習中的有效規則選擇。本文算法在中國電子科技集團的多智能體平臺上進行應用，并在第一屆多智能體對抗博弈挑戰賽的同構組比賽中取得了第一名的成績。本文方法適用于其他更為復雜的博弈對抗場景，結合更多博弈對抗場景對該方法進行推廣應用是未來值得研究的方向。

參考文獻：

[1]劉全，翟建偉，章宗長，等.深度強化學習綜述[J].計算機學報，2018，40（1）：1-27.（Liu Quan， Zhai Jianwei， Zhang Zongchang， et al. A survey on deep reinforcement learning[J].Chinese Journal of Computers，2018，40（1）：1-27.）

[2]杜威，丁世飛.多智能體強化學習綜述[J].計算機科學，2019，46（8）：1-8.（Du Wei， Ding Shifei. A survey on multi-agent reinforcement learning[J].Computer Science，2019，46（8）：1-8.）

[3]Carlos G， Daphne K， Ronald P. Multi-agent planning with factored MDPs[C]//Advances in Neural Information Processing Systems.2001：1523-1530.

[4]Paine T， Gulcehre C， Shahriari B， et al. Making efficient use of demonstrations to solve hard exploration problems[C]//Proc of International Conference on Learning Representations.2020.

[5]Samvelyan M， Rashid T， Witt C， et al. The StarCraft multi-agent challenge[C]//Proc of International Conference on Autonomous Agents and Multi-Agent Systems. 2019.

[6]Moreno D， Regueiro C， Iglesias R， et al. Using prior knowledge to improve reinforcement learning in mobile robotics[M]//Towards Autonomous Robotics Systems.Berlin：Springer，2004.

[7]Zhang Guanyu， Li Yuan， Xu Xinhai， et al. Efficient training techniques for multi-agent reinforcement learning in combat tasks[J].IEEE Access，2019，7：109301-109310.

[8]Wang Zhaodong， Taylor M E. Interactive reinforcement learning with dynamic reuse of prior knowledge from human and agent demonstrations[C]//Proc of International Joint Conference on Artificial Intelligence.2019.

[9]Zhou Meng， Liu Ziyu， Sui Pengwei， et al. Learning implicit credit assignment for cooperative multi-agent reinforcement learning[C]//Advances in Neural Information Processing Systems.2020.

[10]Sunehag P， Lever G， Gruslys A， et al. Value-decomposition networks for cooperative multiagent learning based on team reward[C]//Proc of the 17th International Conference on Autonomous Agents and Multiagent Systems. Richland， SC ： International Foundation for Autonomous Agents and Multiagent Systems，2018：2085-2087.

[11]Rashid T， Samvelyan M， Witt C D， et al. QMIX： monotonic value function factorisation for deep multi-agent reinforcement learning[C]//Proc of International Conference on Machine Learning.2018.

[12]Son K， Kim D， Wan W J， et al. QTRAN： learning to factorize with transformation for cooperative multi-agent reinforcement learning[C]//Proc of International Conference on Machine Learning.2019.

[13]Wang Jianhao， Ren Zhizhou， Liu T， et al. QPLEX： duplex dueling multi-agent Q-learning[C]//Proc of International Conference on Learning Representation.2021.

[14]Rashid T， Farquhar G， Peng Bei， et al. Weighted QMIX： expanding monotonic value function factorization for deep multi-agent reinforcement learning[C]//Advances in Neural Information Processing Systems.2020.

[15]Bougie N， Ichise R. Rule-based reinforcement learning augmented by external knowledge[C]//Proc of Joint Workshop on Architectures and Evaluation for Generality Autonomy and Progress in AI.2018.

[16]Hester T， Vecerik M， Pietquin O， et al. Deep Q-learning from demonstrations[C]//Proc of AAAI Conference on Artificial Intelligence.2018.

[17]Ho J， Ermon S. Generative adversarial imitation learning[C]//Advances in Neural Information Processing Systems.2016.

[18]Zhang Haodi， Gao Zihang， Zhou Yi， et al. Faster and safer training by embedding high-level knowledge into deep reinforcement learning[EB/OL].（2019-10-22）.https：//arxiv.org/abs/1910.09986.

[19]Mnih V， Kavukcuoglu K， Silver D， et al. Human-level control through deep reinforcement learning[J].Nature，2019，518（7540）：529-533.

[20]中國電子科技集團.Multi-agent combat arena（MACA）[EB/OL].（2021）[2021-03-17].https：//github.com/cetc-tfai/maca.

計算機應用研究2022年3期

計算機應用研究的其它文章: 下期要目; 點線融合雙目定位與建圖多維提升方法; 基于QBFM矩和三維結構的圖像哈希算法; 基于語義分割不確定性的特征點選擇算法; 基于可重疊混淆樹的卷積神經網絡; 基于多級深度網絡架構的群體行為分析模型研究