基于DE-MADDPG的多無人機協同追捕策略

2022-07-04 02:27:56符小衛王輝徐哲

航空學報 2022年5期

符小衛，王輝，徐哲

西北工業大學電子信息學院，西安 710129

未來空戰對抗的主要模式之一是無人機集群體系對抗，集群中的多無人機如何通過協同決策對單一逃逸無人機進行協作追捕，力求在最短的時間內捕獲逃逸無人機，對于增強多無人機協同空戰對抗能力具有關鍵作用，因此無人機集群空戰對抗中多無人機追捕對抗問題研究具有非常重要的實踐意義。

文獻[2-7]分別研究了多機器人追逃對抗中追捕策略與逃逸策略的機動建模，包括基于微分對策、最優控制等方法的求解模型和基于雙方對抗條件和運動機制分析的追捕任務和逃逸任務成功必要條件、不同速度約束下的雙方機動策略、連續系統模型和棋盤環境柵格離散模型下的機動決策。但是目前圍捕問題場景中大多都是設定追捕無人機速度優于逃逸無人機，而針對追捕無人機速度相對于逃逸無人機處于劣勢的場景還是研究比較少。需要研究更為復雜和精確的模型，能夠基于集群智能的優勢，處理這種非同等運動參數條件下的追捕問題，即就是追捕無人機的速度相比逃逸無人機處于劣勢時，如何通過多無人機數量的優勢和相互有效合作完成對高速目標的追捕任務。

在傳統的方法中，基于數學模型的方法設計的無人機控制策略，對敵方運動往往作了假定約束或者需要知道對方的控制策略，但是在戰場環境下己方很難獲知敵方的控制策略，同時基于數學模型設置的控制器參數往往是人工設定或者需要借助其他算法進行優化，一旦環境模型發生改變，原來舊的控制器參數可能就不是最優的，具有一定的局限性。基于無模型的強化學習則可以讓無人機在環境中自主學習控制策略，而不用完全獲取敵方的控制策略。

多無人機協同智能追捕可以驗證多無人機的學習策略能力優劣。多智能體強化學習(Multi Agent Reinforcement Learning, MARL)結合了對策論和馬爾可夫決策過程，研究隨機框架下的對抗、合作和非完全合作系統中的學習，提供了一種可行的多無人機協同追捕對抗機動決策求解模型和方法。本文基于多智能體強化學習方法針對現有研究存在的問題設計多無人機的協同追捕策略。

本文研究作戰空域存在4個追捕無人機與一個逃逸無人機，逃逸無人機的速度上限和追捕無人機不同，追捕無人機與逃逸者的移動范圍不可超出作戰空域(為了簡化問題研究難度，設定對戰空域)，基于解耦多智能體深度確定性策略梯度算法DE-MADDPG設計了多無人機的協同追捕對抗策略。

1 問題描述與建模

1.1 多無人機追逃對抗問題

多對一追捕對抗場景中，不僅雙方無人機之間要對抗，而且多無人機之間需要任務協同，場景更加復雜、對抗性更強。多無人機的追捕對抗場景研究作戰空域內無人機多對一空戰的情況，對抗場景可以描述如下：作戰空域內存在多個追捕無人機和逃逸無人機，兩方無人機具有相反的戰術目的，追捕無人機要追擊捕獲逃逸無人機，而逃逸無人機要躲避遠離追捕無人機。多無人機的追逃對抗場景如圖1所示。

圖1 多無人機追捕對抗場景Fig.1 Pursuit-evasion game of multi pursuit-UAVs and single evasion-UAV

考慮二維平面區域的追逃博弈，構造笛卡爾直角坐標系，表示追捕無人機和逃逸無人機運動狀態，數學幾何模型如圖2所示。

圖2 二維平面追逃博弈幾何模型Fig.2 Geometric model of two-dimensional plane pursuit-evasion game

追捕無人機的目標是以最短的時間捕獲目標，逃逸無人機的目標是遠離追捕無人機，避免在預設的作戰時間段被捕獲或者最大化延遲被追捕無人機捕獲的時間，追逃博弈標準微分博弈數學描述為。

追捕無人機的最優化控制目標為

(1)

逃逸無人機的最優化控制目標為

(2)

式中：(=1,2,…,)為追捕無人機到逃逸無人機的距離；為追捕無人機捕獲逃逸無人機的時刻。

1.2 無人機運動學模型

無人機的運動學方程為

(3)

式中：=p,e;為追捕無人機或逃逸無人機的角速度的大小；為追捕無人機或逃逸無人機的速度大小，是一個固定的值，即在飛行過程中不改變。

無人機的運動控制變量約束為

(4)

式中：、分別為追捕無人機和逃逸無人機的最大角速度，其計算方程為

(5)

式中：=p,e;Δ為仿真的時間步長；為轉彎半徑；min為最小轉彎半徑；Δ為Δ時間內的航向角最大轉彎角；max為無人機的最大側向過載。因此，由式(5)可得最大角速度的確定公式為

max=arcsin(Δmax(2))Δ

(6)

捕獲條件為式(7)，即敵我距離在追捕無人機的捕獲半徑范圍內，捕獲半徑可以是無人機的載荷作用范圍或者武器攻擊范圍。

(7)

由于本文假定追捕問題是在有限的二維平面內進行的，因此無人機在設定的環境邊界內運動需要滿足式(8):

(8)

式中：=1,2,3,4;、分別為環境邊界的最小橫坐標和最大橫坐標；、分別為環境邊界的最小縱坐標和最大縱坐標。

在研究中，定義速度比為追捕無人機的最大速度和逃逸無人機最大速度之比:

(9)

雙方無人機各占優勢，追捕無人機數量多于逃逸無人機，逃逸無人機的最大速度大于追捕無人機。文獻[3]基于阿波羅奧尼斯圓(Apollonius Circle)和幾何規律研究了多追捕者-單逃跑者追逃問題實現成功捕獲的約束條件，即速度比

∈[sin(π),1)

(10)

2 DE-MADDPG算法

2.1 多智能體強化學習算法

多智能體強化學習是多無人機協同控制優化的一種求解模型框架，每個環境實體的策略輸出都有各自的神經網絡控制。它是一種多智能體系統研究領域的分布式計算技術，結合了強化學習技術與博弈論技術，可以使多個智能體在高維、動態的真實環境下通過通信交互和協同決策完成錯綜復雜的任務，具有自主性、分布性、協調性的特點，具備學習能力、推理能力、自組織能力，是分布式人工智能的演變。

多智能體強化學習算法是以馬爾可夫決策過程為基礎的隨機博弈框架，可以表示為式(11)的高維度元組。

(11)

式中：為馬爾可夫決策過程模型的狀態集；為智能體的數量；=××…×，為所有智能體聯合動作集；為每個智能體的獎勵回報，××→；狀態轉移函數:××→[0,1]；為累計折扣獎勵的衰減系數。

多智能體系統中，狀態轉移是所有智能體共同執行行動的結果，獲得的獎勵取決于聯合策略，聯合策略：(|)=∏∈(|)為所有智能體的聯合決策策略和，×→,每個智能體的獎勵為

(12)

狀態值函數和狀態-動作值函數在多智能體下的貝爾曼方程如式(13)和式(14)所示:

(13)

(14)

一般來說，根據多智能體強化學習要完成的任務類型，可分為完全合作、完全競爭和混合類型，本文的多追捕無人機協同決策屬于完全合作類型。完全合作類型各智能體的目標就是最大化共同回報，所有智能體的獎勵函數都是相同的。其他類型情況下，獎勵函數通常不同且相關，獨立最大化的難度比較大。因此完全合作類型智能體的獎勵函數，很適合做MARL的目標，此時學習目標可以表述為

+1(,)=(,)+[+1+

(15)

式中：為學習率參數。

2.2 MADDPG算法

MADDPG是DDPG(Deep Deterministic Policy Gradient)在MARL的擴展，各智能體都采用DDPG框架，各智能體策略參數為=(,,…,),聯合策略為:=((),(),…,())。它的核心思想是通過集中訓練、分布執行的框架來尋找最優聯合策略，可以解決MARL環境的非平穩性及經驗回放(Experience Replay, ER)方法失效的問題。MADDPG能解決環境不穩定性的原因在于如果已知所有智能體策略，即使智能體的策略發生變化了，環境的穩定性不受影響。多智能體系統動力學模型為

(′|,,,…,,,,…,)=(′|,

,,…,)=(′|,,,…,,′,

′,…,′)

(16)

因為≠′時，式(16)仍然成立，所以環境仍然是穩定的。

MADDPG的經驗池設計為

(17)

所謂“集中訓練，分散執行”，指的是中心化訓練、去中心化執行，即通過訓練學習得到的最優策略，應用的時候僅需要利用智能體的觀測信息-局部信息就能輸出最優動作。集中訓練時，在基礎DDPG算法上疊加一些額外的信息得到更準確的Q值計算，反饋Actor網絡，這些值可以是其他智能體的狀態、動作，每個智能體不僅根據自己的觀測值、動作，還根據其他智能體的動作來評估當前Actor輸出動作的價值。值計算為

=(,,,…,,)

(18)

式中：為Critic網絡的網絡參數。

每個智能體的Critic網絡輸入相同，損失函數計算為

(19)

相當于建立了一個中心化的Critic網絡，并給出對應的值函數，也一定程度緩解環境不穩定的問題。但是Actor僅需要局部信息，實現了分布式控制。

Actor網絡的參數更新為

(20)

分散執行指訓練完成后，每個Actor可以根據自己的觀測值采取合適動作，不需要其他智能體的動作。MADDPG算法中的Actor網絡和Critic網絡協同配合如圖3所示，每個智能體使用獨自的Actor，輸出確定的動作，但是Critic網絡輸入除過自身的觀測狀態信息、動作信息外，還包括其他智能體的動作信息。每個智能體對應一個中心化Critic網絡,該網絡同時接受所有智能體Actor網絡產生的數據。

圖3 MADDPG的中心化訓練和去中心化執行Fig.3 Centralized training and decentralized execution of MADDPG

基礎的MADDPG算法框架圖如圖4所示。訓練過程中，每個智能體依靠自身策略得到當前時刻狀態對應的動作，然后執行動作與環境進行交互，獲得經驗后存入公眾經驗池。當所有智能體都和環境進行交互后，每個智能體從公眾經驗池中隨機抽取批數據訓練神經網絡。MADDPG通過全局的值更新局部的策略，但是需要全局的狀態信息和所有智能體的動作信息。OpenAI將MADDPG算法放在游戲場景中進行驗證，游戲決策中狀態和動作是離散的，實際的問題一般狀態和動作是連續的，本文研究將MADDPG應用于較為接近真實的多無人機追逃對抗場景中，所用環境模型充分考慮了無人機的動力學特性和物理特性，相比較理想的游戲環境更為復雜。

圖4 MADPPG基本框架示意圖Fig.4 Basic framework of MADDPG

2.3 DE-MADDPG算法

DE-MADDPG算法是一種MADDPG的改進算法，能夠同時以解耦的方式最大化全局獎勵和局部獎勵，而不用在每個智能體的獎勵設計中考慮全局獎勵和局部獎勵。從MADDPG算法的介紹可以看出，MADDPG是通過全局的中心化Critic網絡實現集中訓練，DE-MADDPG算法則改進了網絡架構，除了一個全局的Critic網絡，還同時為每個智能體構建了一個局部的Critic網絡，如圖5所示。全局Critic網絡的作用是最大化全局獎勵，局部Critic網絡的作用是最大化局部獎勵。

圖5 DE-MADDPG的中心化訓練和去中心化執行[21]Fig.5 Centralized training and decentralized execution of DE-MADDPG[21]

DE-MADDPG算法的創新之處在于結合了MADDPG算法和DDPG算法，同時也是一個“集中訓練，分散執行”的架構，僅在訓練階段需要額外的其他智能體狀態和動作信息，應用執行時只需要智能體自身的狀態就可以輸出策略動作。MADDPG算法中，智能體的策略梯度為

)|=()]

(21)

DE-MADDPG引進了局部的critic網絡，智能體的策略梯度計算會變為

(22)

(23)

式中：的定義為

(24)

式中：′={′,′,…,′}為網絡參數′={′,′,…,′}定義的目標策略。

(25)

式中：的定義為

(26)

3 多無人機協同追捕策略設計

多無人機協同追捕問題是控制每個無人機協同去完成同一個任務，所以存在無人機的整體目標與個體目標，很適合用DE-MADDPG算法來進行多無人機的協同追捕策略訓練。本文從多無人機的具體追捕任務出發，設置了解耦型獎勵回報函數，然后基于DE-MADDPG算法對多無人機進行了訓練。

3.1 解耦型獎勵回報函數設計

獎勵函數設計采用引導性獎勵和稀疏獎勵相結合的方式，主要考慮無人機的協同要求和目標任務要求，具體來說就是2個要求，一是各無人機之間要考慮避碰，即無人機之間不能互相碰撞，二是要協同以最快時間追捕逃逸無人機。多追捕無人機的任務目標，是追求任一架追捕無人機成功捕獲逃逸無人機，因此獎勵函數的設計中，主要考慮距離因素。

解耦性獎勵函數需要設計全局獎勵函數和局部獎勵函數。對于多追捕無人機的協同追捕對抗策略訓練，全局獎勵考慮多無人機的任務目標，即追求最快讓多無人機中某一架無人機完成追捕捕獲任務；局部獎勵中完成對每個無人機的避碰控制和任務目標控制。這樣的全局獎勵函數和局部獎勵函數相結合的方式，會很快引導無人機的決策網絡更新到較優參數。

3.1.1 全局獎勵函數設計

追捕無人機的整體獎勵設計為

(27)

式中：和為控制獎勵幅度的系數；為與逃逸無人機位置(,)距離最近的追捕無人機到逃逸無人機的距離；的確定方式為

(28)

3.1.2 局部獎勵函數設計

無人機的局部獎勵函數設計，分為以下3個模塊。

1) 定義無人機互相碰撞的懲罰回報獎勵為

(29)

式中：為無人機之間的最近安全距離；為第架追捕無人機與第架追捕無人機之間的距離。

2) 當追捕無人機編隊成功捕獲逃逸無人機時，給予正獎勵回報。

(30)

式中:(=1,2,…,)為追捕無人機到逃逸無人機的距離;為獎賞值。

3) 定義任務引導獎勵為

p=-

(31)

所以，每個無人機的獎勵為上述3個獎勵函數的加權和:

=p+c+f

(32)

式中：、、為加權系數，并且滿足++=1。

3.2 訓練算法流程

基于DE-MADDPG的多無人機協同追捕對抗策略訓練算法流程如算法1所示。

算法1 基于DE-MADDPG的多追捕無人機協同追捕策略訓練算法Algorithm 1 Multi-UAVs cooperative pursuit strategy using DE-MADDPG

為了方便算法的實現和使用，這里將訓練算法中間用到的超參數及其物理意義做下介紹，訓練算法參數表如表1所示。

表1 訓練算法參數Table 1 Training algorithm parameter

4 仿真驗證

4.1 實驗設置

實驗采用圖1場景想定，同時采用常見的紅藍對抗作戰法，設定紅方為追捕無人機，藍方為逃逸無人機。仿真環境全部基于Python語言編寫，利用Pycharm Community 2020.2和Anaconda3平臺，深度學習環境采用Tensorflow 1.14.0，計算機配置為CPU Inter i7-9700F@3.00 GHz，內存16 GB。

無人機通過觀察環境狀態，根據設定的控制策略得到控制量，再利用環境的反饋調整控制策略，形成一個閉環訓練過程。實驗設定的訓練參數表如表2所示。

表2 訓練超參Table 2 Training hyperparameters

對多追捕無人機單逃逸無人機追逃對抗仿真實驗設置作以下說明：

1) 所有的追捕無人機為同構無人機，即追捕無人機的性能參數完全相同，并且追捕無人機之間采用全連通通信網絡。

2) 為了增加研究的難度，設定追捕無人機和逃逸無人機的運動性能不同，即研究多低速追捕無人機和高速逃逸無人機的追逃對抗。

3) 這種場景下追逃博弈的結果與初始時追捕無人機的初始陣位、逃逸無人機的位置緊密相關，同時考慮深度強化學習算法的應用特點，設置多無人機協同追逃對抗實驗處在二維有限的正方形區域內，即[-700,700] m×[-700,700] m，該環境包括4個追捕無人機和1個逃逸無人機。

4) 為了進行有效的高速訓練，設定逃逸無人機的初始位置為原點(0,0),4個追捕無人機的位置分別位于[-200,200] m×[-200,200] m的4個象限，如圖6所示，其中紅色的是追捕無人機，藍色的是逃逸無人機。

圖6 多追捕無人機單逃逸無人機追逃對抗初始狀態Fig.6 Initial state of pursuit-evasion game with multi pursuit-UAVs and single evasion-UAV

5) 實驗中環境參數設置如表3所示。

表3 多無人機追逃對抗環境實驗參數Table 3 Initial parameters of simulation experiment of multi-UAVs pursuit-evasion game

4.2 方法有效性實驗

為了驗證DE-MADDPG的訓練效果，將DE-MADDPG算法同MADDPG算法、IL-DDPG(Independent Learning-DDPG, IL-DDPG)算法進行對比，同時應用3種算法于多追捕無人機的協同追捕對抗策略，觀察對比3種算法的訓練效果。其中，IL-DDPG指各追捕無人機的訓練學習和控制過程都用獨自的DDPG網絡，每個無人機僅能獲得自己的信息和逃逸無人機的信息，擁有一套Actor網絡和Critic網絡，使用基本的DDPG網絡訓練。MADDPG算法的網絡結構如圖7(a)所示，DE-MADDPG算法的網絡結構如圖7(b) 所示。

圖7 MADDPG和DE-MADDPG網絡結構Fig.7 Network architecture of MADDPG and DE-MADDPG

訓練時逃逸無人機的運動控制策略根據具體對抗場景而定。設定敵機運動控制策略為隨機運動策略控制方式時，4架無人機在3種算法下的平均獎勵曲線如圖8所示。

圖8 無人機的平均獎勵曲線Fig.8 Average reward curves of UAVs

根據實驗數據觀測，所有無人機的平均獎勵都取得收斂效果，訓練之初無人機的總獎勵比較小且是負獎勵，這說明訓練之初無人機采取的策略是不合法的，隨后的訓練學習中無人機逐漸學到了提高總獎勵的策略。對比DE-MADDPG、MADDPG、IL-DDPG算法的訓練效果，可以得到2個結論，一個是基于多智能體強化學習(DE-MADDPG、MADDPG)算法相比單智能體強化學習(IL-DDPG)算法取得了更好的收斂效果；另外一個是DE-MADDPG算法相比MADDPG算法取得了更快的收斂效果，從訓練曲線證明了DE-MADDPG算法的優勢。另外一方面，部分無人機的DE-MADDPG算法收斂穩定性比MA-DDPG算法差，這是由于DE-MADDPG算法同時要兼顧整體目標與個體目標，而MADDPG算法只考慮個體目標，導致的DE-MADDPG算法收斂穩定性相對較差。

為了驗證基于DE-MADDPG算法的追捕無人機協同追捕策略的優劣，設置3種對抗場景來驗證設計的協同追捕策略訓練算法。

多追捕無人機圍捕隨機運動逃逸無人機

設置逃逸無人機采用隨機運動策略控制方式。對應的仿真實驗結果如圖9所示。

圖9 場景1：DE-MADDPG vs隨機運動策略Fig.9 Scene 1: DE-MADDPG vs random strategy

場景1仿真結果表明，這是一個典型的成功實驗樣本，逃逸無人機并不具備對抗策略，只是隨機選擇運動方向，逃逸無人機在14.78 s時被4號追捕無人機所抓捕，由于采用隨機運動策略的逃逸無人機具有隨機機動性并且不可預測，所以花費的時間還是相對較多。通過第一種場景的訓練測試表明了所設計算法的有效性。

多追捕無人機圍捕靈活逃逸策略的逃逸無人機

逃逸無人機采用如下的靈活逃逸對抗策略，即將對戰態勢綜合簡單考慮，當被追捕無人機包圍的時候，逃逸無人機向著追捕無人機構成的多邊形所有邊長中點中最遠距離的中點逃逸，如圖10(a)所示方向，為、、、中距離最遠的點；當沒被逃逸無人機包圍時，采取人工勢場法的思想，向所有追捕無人機給予的斥力矢量綜合后的斥力方向逃逸，即圖10(b) 所示,其中綜合斥力矢量的方向計算如式(33)所示

圖10 逃逸策略示意圖Fig.10 Schematic of escape strategy

方向,為斥力、、和的矢量合力方向。

(33)

圖11 場景2：DE-MADDPG vs靈活逃逸策略Fig.11 Scene2: DE-MADDPG vs flexible escape strategy

場景2仿真結果表明，逃逸無人機采用圖10中的逃逸方向進行逃跑，先機動變化航向至3號和4號追捕無人機的中心，但面臨圍堵后進行快速機動，再快速逃逸，最后在21.66 s被1號無人機抓捕。通過第2種場景的訓練測試表明了所設計算法的有效性。

多追捕無人機圍捕轉義策略的逃逸無人機設置逃逸無人機采用訓練出來的逃逸策略，也稱為轉義逃逸策略，逃逸策略的訓練算法參考文獻[27]。對應的仿真實驗結果如圖12所示。

圖12 場景3：DE-MADDPG vs轉義逃逸策略Fig.12 Scene 3: DE-MADDPG vs learned strategy

場景3仿真結果表明，訓練出來的轉義策略通過初始的狀態和條件判斷，右上方應該為自己的首先逃逸方向，但是追捕無人機也通過自己的態勢感知快速地進行圍堵，隊形收縮，在逃逸無人機連續逃脫3號、4號、1號無人機的圍堵后，1號無人機和2號無人機的相互協作，成功在29.10 s圍堵抓捕逃逸無人機。通過場景3的訓練測試表明了所設計算法的有效性。

從以上仿真可以得出結論，訓練出來的協同追捕策略具有明顯的合作行為，追捕無人機不僅簡單地跟蹤逃逸無人機，而且表現出一些高級的協同行為，極大地提高了追捕任務的執行效率，同時所設計訓練算法對于不同逃逸策略的快速逃逸無人機也能夠較好地適用。為了驗證所設計訓練算法得到的多無人機協同追捕策略實際使用時的穩定性和魯棒性，將DE-MADDPG、MADDPG、IL-DDPG算法訓練得到的多無人機協同追捕策略分別在3種逃逸無人機智能程度不同的場景中進行10 000次的蒙特卡洛仿真，統計最終的成功率，如圖13所示(場景1、場景2、場景3)。蒙特卡洛仿真中每次追捕無人機的初始位置和初始航向、逃逸無人機的初始位置和初始航向都采用隨機生成方式。

圖13 多無人機協同追捕逃逸訓練效果成功率Fig.13 Success rate of training result of multi-UAVs cooperative pursuit-evasion strategy

從圖13可以看出，隨著敵機逃逸無人機智能程度的提高，對戰場景的復雜程度提高，無論是基于哪種強化學習算法，訓練效果的成功率都會隨之降低；DE-MADDPG訓練算法相比MADDPG、ILDDPG能得到更高的追捕對抗任務成功率，IL-DDPG由于是無人機獨立地進行學習，學習訓練階段沒有多無人機的協同，取得的追捕任務成功率最低。對戰是否成功不僅取決于訓練效果的好壞，同時取決于追捕無人機和逃逸無人機的初始態勢，有些態勢下再好的訓練效果也無法讓多追捕無人機成功完成追捕任務。本文所設計的多追捕無人機協同追捕策略是針對固定數量的4架追捕無人機，如果對抗場景中有更多的追捕無人機或者速度比設定更大，則取得的任務成功率會更高。

綜上所述，仿真實驗驗證了所提出的方法在多追捕無人機對快速的單逃逸無人機追逃對抗中的有效性和計算效率。不同于其他微分對策或者基于幾何的控制律方法，不需要針對對戰過程進行精確的物理建模和推導，只需要對多無人機的作戰任務進行獎勵函數設計，在多智能體深度強化學習框架下進行足夠的訓練，就可以得到接近于傳統控制方法的控制效果，同時神經網絡的參數可以提前訓練學習，運行時直接端到端執行就可以，算法的運行時間也有所提高。本文所用DE-MADDPG算法具有廣泛的使用場景，針對其他多無人機協同控制任務，稍微修改后就可以進行實際的使用。

5 結論

本文圍繞面向快速目標的多無人機協同追捕問題，提出了一種基于解耦型的多智能體強化學習算法，使得多無人機具有較強的協同圍捕能力，主要結論如下：

1) 提出了多無人機任務學習的局部獎勵函數和全局獎勵函數設計方法，使得無人機將個體和總體的獎勵目標得以解耦，從而讓無人機向更明確的任務進行訓練學習。

2) 提出了基于DE-MADDPG算法的多無人機協同追捕策略，能夠通過協同決策完成對快速目標的捕獲。

3) 設計逃逸無人機的多種逃逸控制策略并進行算法測試，實驗結果表明本文提出基于DE-MADDPG的多無人機協同追捕策略有著不錯的應用效果，相比IL-DDPG、MADDPG算法的應用效果有著更好的訓練表現。

在進一步的研究工作中，可以將本文的算法拓展到三維環境的多無人機追逃博弈問題中，能夠更接近真實空戰狀況。