基于PER-MATD3的多無人機攻防對抗機動決策

2023-06-28 09:12:28符小衛徐哲朱金冬王楠

航空學報 2023年7期

符小衛，徐哲，朱金冬，王楠

1.西北工業大學電子信息學院，西安 710129

2.西安應用光學研究所，西安 710065

3.航空工業沈陽飛機設計研究所體系部，沈陽 110035

自主空戰對抗決策是無人機（Unmanned Aerial Vehicle， UAV）走向智能化必須研究的課題［1］。雙方無人機根據觀測的態勢信息，如何快速做出有利于自身的機動動作以使得在對抗過程中盡量保存自己和消滅目標，是提升無人機智能化對抗水平的關鍵［2］。多無人機間攻防對抗將成為未來無人機間智能作戰的主要模式之一，對其進行研究具有深刻的現實意義和必要性。多無人機對抗是指攻防雙方進行多對一或多對多的對抗，本文選取多架防守無人機和單架具有高機動性能力的進攻無人機的對抗場景，研究并設計多架防守無人機協同攔截進攻無人機的機動策略。

學者針對多無人機間對抗過程提出了各種不同的研究方法來解決其機動決策問題。在傳統決策方法中，主要包括比例導引法、人工勢場法、幾何學法、微分博弈法等。文獻［3］為了避免無人機導引到敵機攻擊范圍內，提出一種基于數據鏈的變結構對抗導引方式。比例導引實現容易，計算速度快，但其數學模型方法不能適應于有障礙及威脅的復雜強對抗環境中，并且一般需已知目標運動方式，擴展性比較差。文獻［4］將目標和障礙物的速度引入人工勢場法中，使得無人機在動態環境下實現避障及目標跟蹤。人工勢場需提前了解環境信息，且一般容易陷入局部最優。文獻［5］利用阿波羅尼斯圓法來研究不同對抗條件下多追捕者追捕單逃逸者的成功捕獲條件。幾何學法一般假定對抗雙方能夠獲取所有對抗信息，且雙方初始狀態對機動決策影響極大。文獻［6］通過構建微分博弈模型研究多無人機捕獲單一目標的機動決策算法。微分博弈方法以數學公式形式描述對抗模型，有著嚴格的推導過程，然而求解過程隨著對象數量增加變得十分困難。上述方法在實際條件中存在各自的局限性問題，與實際條件很難對應，無法在多機對抗的復雜高動態場景下取得較好的應用效果。

智能優化算法的發展使得學者們嘗試將其引入多無人機對抗問題研究過程中，如仿生學［7］、群體智能算法［8］以及強化學習等。多智能體強化學習作為一種新型的人工智能算法，具有模型簡單、自學性強、魯棒性高等特點，近年來有不少利用該方法研究多無人機對抗領域的相關問題，展現較好的應用前景。文獻［9］提出了一種基于強化學習和追逃雙方運動規劃策略的層次化框架方法，該方法可以使追捕者有效避開障礙物捕獲移動目標；文獻［10］基于多智能體強化學習算法，研究了多無人機的協同攻防對抗決策方法；文獻［11］設計了3種不同的實驗場景，利用多智能體深度確定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient， MADDPG）算法訓練機器人實現了對目標的圍捕；文獻［12］對MADDPG算法在獎勵函數及網絡結構上做出改進，提出了解耦多智能體深度確定性策略梯度（DEcomposed Multi-Agent Deep Deterministic Policy Gradient， DE-MADDP）算法用來解決多無人機協同圍捕快速目標的追逃問題；文獻［13］提出了一種基于 MADDPG 的多無人機協同任務決策方法；文獻［14］提出了一種基于雙延遲深度確定性策略梯度（Twin-Delayed Deep Deterministic policy gradient， TD3）的無人機近距空戰格斗自主決策模型，并設計了基于價值的樣本優先度排序方法，提升算法的收斂速度；文獻［15］提出了一種相關經驗學習的DDPG算法以解決拒止環境下無人機運動規劃問題；文獻［16］設計了基于TD3的無人機機動決策算法；文獻［17］基于TD3的算法以解決無人機在有多個動態障礙物環境下的路徑規劃問題；文獻［18］提出了一種基于改進TD3的無人機反追擊機動決策算法。以上文獻均利用強化學習算法對各自提出的問題進行研究及改進，然而針對復雜真實環境下的多無人機對抗研究較少，并未考慮無人機的避障探測能力和火力打擊能力，在多智能體算法的性能方面還有值得研究的內容，例如如何在已有的訓練算法基礎上繼續改進完善，使得算法的收斂性更快、穩定性更好。

本文主要針對存在障礙物的復雜環境下多無人機攻防對抗問題，在考慮無人機雷達探測范圍和火力打擊范圍的情況下，利用深度強化學習算法開展無人機攻防對抗機動決策方法的研究。主要是針對現有較流行的MADDPG算法中存在值函數高估問題，將單智能體TD3算法擴展到多智能體領域，提出了多智能體雙延遲深度確定性策略梯度（Multi-Agent Twin Delayed Deep Deterministic policy gradient， MATD3）算法，緩解了值函數高估問題，從而提高了算法收斂速度；為了進一步加快算法的收斂速度、提升算法的穩定性，提出了優先經驗回放多智能體雙延遲深度確定性策略梯度（Prioritized Experience Replay Multi-Agent Twin Delayed Deep Deterministic policy gradient， PER-MATD3）算法。

1 問題描述與建模

1.1 多無人機攻防對抗

如圖1所示，多無人機攻防對抗場景可以描述為在有限平面區域內，存在1架藍方進攻無人機和3架紅方防守無人機，進攻無人機的任務是從初始位置（左上角）突破防守無人機的阻攔到達紅方基地區域（右下角圓形小旗區域）；而防守無人機的任務是從初始位置（右下角圓形小旗區域）去攔截并擊毀進攻無人機。無人機通過機載激光雷達探測環境中隨機分布的大量圓形障礙物，無法提前獲知障礙物信息。假設防守無人機均載有通信數據鏈，并通過己方雷達站能夠實時檢測敵機的位置信息及友機的狀態信息，具有一定的協同能力；假設進攻無人機提前知道地面目標區域位置，并通過攜帶的GPS和電子陀螺儀獲取自身狀態信息，但無法提前鎖定防守無人機的位置信息，只能通過激光雷達觀測獲取防守無人機的相對位置。本研究的假設條件可以更好的貼近實際攻防對抗場景。

圖1 多無人機攻防對抗場景Fig.1 Multi-UAVs attack-defence confrontation scenario

圖1中，a和dn(n=1，2，3)分別代表進攻無人機和防守無人機；sip=(xip，yip)(i=a，dn)表示雙方無人機的位置坐標；sid=ψi(i=a，dn)表示雙方無人機的航向角；siv=vi(i=a，dn)表示雙方無人機的速度大小；stp=(xtp，ytp)表示目標區域中心點的位置；表示第k個障礙物中心點的位置。

1.2 無人機運動學模型

為了開展對攻防雙方無人機對抗機動決策的研究，規定無人機的運動學方程為

式中：ai和ωi作為無人機的控制量，分別表示無人機的加速度大小和角速度大小；i=a，dn。

無人機的運動需要滿足一定的運動約束，因此其狀態量及控制量分別滿足式（2）和式（3）：

式中：xmin和xmax分別為戰場邊界的最小橫坐標和最大橫坐標；ymin和ymax分別為戰場邊界的最小縱坐標和最大縱坐標；vimax為無人機的最大速度；aimax為無人機的最大加速度；ωimax為無人機最大角速度。

假設無人機當前時刻t的狀態信息為在仿真步長ΔT內，在加速度大小ai及動作量ωi的作用下，其自身狀態量會發生改變，下一時刻t+1的狀態由狀態轉移方程確定為

1.3 雷達探測模型

假設雙方無人機均裝置激光雷達，其探測情況如圖2所示。

圖2 無人機雷達探測模型Fig.2 UAV radar detection model

由圖2可知，第k類圓形障礙物的半徑為Rko(k=1，2，…，Nt)，其中Nt為圓形障礙物類型數量；第k類障礙物的數量為Nk，障礙物的位置為(k=1，2，…，No)，其中，No為障礙物的總數量；無人機雷達探測的角度范圍為θi(i=a，dn)；無人機雷達的最大探測距離為Ri(i=a，dn)。為了更好地描述無人機對環境的感知，將無人機雷達探測角度范圍等間隔地離散化為（ll=7）個方向，在圖中用7條射線表示，每條射線長度為Dm(m=1，2，…，l)。最長射線的長度為無人機雷達的最大探測距離，其他射線的長度為無人機在相應方向上探測到的與障礙物或邊界的相對距離。定義xmio(i=a，dn；m=1，2，…，l)為Dm與無人機雷達最大探測距離的比值，若該值越接近1，則表明無人機在該方向距離障礙物或邊界越遠；反之該值越接近0，則在該方向距離障礙物或邊界越近。即無人機對障礙物的探測狀態量可表示為

進攻無人機a在執行任務前，有一個已知的目標位置[xtp，ytp]，為了簡化無人機輸入狀態維度，可將目標的位置信息合并到無人機的雷達探測信息中。具體地，在sao中找出狀態量(m=1，2，…，l)最大值所對應的方向（可能存在多個，如圖2中3個最長射線方向），然后在這些方向中選擇與無人機-目標視線方向夾角最小的那個方向記為最優航向ψopti（如圖2中射線方向），將該方向上的探測狀態量記為這樣就可將目標的位置信息合并到無人機的雷達探測信息中，后續可以利用合并后的信息使得無人機避障及靠近目標。

2 基于多智能體強化學習的多機攻防對抗

2.1 多智能體強化學習算法

在多智能體強化學習領域中，由于每個智能體均在環境中不斷學習改善自身策略，從每個智能體的角度看，不清楚其他智能體的動作策略，而這些智能體的動作會對環境帶來變化，導致環境變得不穩定，因此多智能體強化學習的難點在于不僅需要了解每個智能體與環境的交互過程，還需要考慮到其他智能體對環境的影響，使得問題變得較為復雜［19-20］。

在多智能體領域中，每個智能體與環境的交互過程被定義為馬爾可夫博弈［21］（Markov Game），也被稱為隨機博弈（Stochastic Game）。假設環境中存在N個智能體，馬爾可夫博弈可用多元組{N，S，A，O，R，P，γ}表示。其中，S為環境狀態空間，用s∈S表示環境狀態；O={O1，O2，…，ON}為智能體對于環境的觀測量空間，其中Oi表示智能體i的觀測量空間，用oi∈Oi表示智能體i的觀測量，用o={o1，o2，…，oN}表示所有智能體的聯合觀測量；A={A1，A2，…，AN}為智能體的聯合動作空間，其中Ai表示智能體i的動作空間，用ai∈Ai表示智能體i的動作，用a={a1，a2，…，aN}表示所有智能體聯合動作；R={R1，R2，…，RN}為智能體獎勵函數集合，其中Ri：S×A→R表示智能體i的獎勵函數，所有智能體在環境狀態s采用聯合動作a后所獲得的獎勵用ri表示，其中ri=Ri(s，a)。可以看到智能體i的獎勵不僅跟自身動作策略有關，還受到其他智能體策略的影響。狀態轉移概率P為指定智能體i在聯合狀態s及聯合動作a時，環境狀態改變到下一個環境狀態s′的概率分布，可用P：S×A×S→[0，1]來表示，γ為累積獎勵衰減因子。強化學習中多智能體與環境交互的過程如圖3所示。

圖3 強化學習多智能體與環境交互過程Fig.3 Reinforcement learning process of interaction between multi-agent and environment

定義智能體i的策略概率密度函數為

式中：μ為智能體策略網絡；θi為智能體i的策略網絡參數。

定義智能體i的累積獎勵函數為

式中：π-i表示除智能體i以外其他所有智能體的聯合策略。根據智能體之間獎勵函數的不同，可以分為不同的場景任務，即若所有智能體獎勵函數相同，目標一致，稱為完全合作型；若智能體間獎勵函數相反，通常為兩方零和博弈，一方收益是另一方的損失，稱為完全競爭型；若智能體間既有競爭，也有合作，多為一般博弈，稱為混合關系型。

本文多無人機攻防對抗問題屬于混合博弈，所有智能體學習的目標可以表述為

式中：π*i為智能體i的最優策略。

2.2 MADDPG算法

MADDPG算法［22］是一種經典的多智能體強化學習算法，采用“集中式訓練、分布式執行”的方式，能夠適用于環境不穩定的情況，可應用在合作、競爭及混合合作競爭的多智能體環境。假設有個N智能體，對于每個智能體均有各自獨立的Actor策略網絡和Critic評價網絡，設定Actor當前網絡和目標網絡的參數分別為θ={θ1，θ2，…，θN}、θ′={θ′1，θ′2，…，θ′N}，Critic當前網絡和目標網絡的參數分別為w={w1，w2，…，wN}、w′={w′1，w′2，…，w′N}，由于每個智能體的Critic網絡不僅輸入自己的觀測狀態及動作信息，也包括其他智能體的狀態及動作信息，因此對于MADDPG算法第i個智能體的Actor策略網絡和Critic值函數網絡輸入輸出關系如式（9）和式（10）：

每個智能體的Critic網絡輸入相同，MADDPG算法的網絡結構設計如圖4所示。

圖4 智能體i的Actor和Critic網絡Fig.4 Actor and Critic network of Agent i

從經驗池D中隨機抽取出m條訓練樣本，第j條訓練樣本為(oj，aj，rj，o′j)，其中和o′j=分別表示該條經驗所有智能體的狀態量、動作、獎勵和下一刻的狀態量。

定義MADDPG算法智能體i的Critic動作值函數的損失函數為J(wi)，它的梯度計算公式為

智能體i的策略梯度計算公式為

因此Critic當前網絡參數w={w1，w2，…，wN}和目標網絡參數w′={w′1，w′2，…，w′N}的更新公式可以表示為式（14）和式（15）：

Actor當前網絡參數θ={θ1，θ2，…，θN}和目標網絡參數θ′={θ′1，θ′2，…，θ′N}的更新公式可以表示為式（16）和式（17）：

式中：αC、αA、τ分別為Critic網絡學習率、Actor網絡學習率以及軟更新參數。

2.3 PER-MATD3算法

TD3算法［23］將動作值函數進行解耦，使用2個Q網絡來近似動作選擇和動作評估，能夠有效解決高估問題，在單智能體中相較DDPG算法一般表現出更好的效果。MADDPG算法是DDPG算法在多智能體領域的擴展，它并沒有改變動作值函數高估問題固有的特性［24］，智能體i在策略評估及改善過程中依然存在以下高估誤差：

借鑒TD3算法的實現過程，利用MADDPG算法中“集中式評判、分布式學習”的網絡框架，提出MATD3算法。MATD3算法有以下幾個特點：一是每個智能體不僅有各自的當前策略網絡及對應的目標策略網絡，還有2個中心化的獨立評估網絡及對應的目標網絡，通過選擇較小的Q值從而接近真實Q值以緩解高估問題；二是為了適用于環境不穩定的情況，采用中心訓練分布執行的架構；三是使用策略延遲更新方式，即評估網絡在更新一定步數之后再對策略網絡進行更新。MATD3網絡結構設計如圖5所示。

圖5 MATD3算法網絡結構設計Fig.5 Design of MATD3 algorithm network structure

圖5中，每個智能體i包括6個網絡，分別為：當前策略網絡μ(oi；θi)；目標策略網絡μ(oi；θi′)；當前評估網絡1：q(o，a；wi，1)；目標評估網絡1：q(o，a；w′i，1)；當前評估網絡2：q(o，a；wi，2)；目標評估網絡2：q(o，a；w′i，2)。策略網絡仍采用分布式執行方式，輸入自身的狀態信息，輸出決策的動作；2個Critic網絡采用集中式訓練方式，不僅輸入自身局部的狀態和動作，還包括其他智能體的狀態和動作信息，輸出的是2個近似真值的Q值。在計算目標Q值時，為了緩解高估問題，同單智能體方式一樣，選擇較小的目標Q值來指導策略網絡的參數更新。

經驗回放機制［25］是在深度Q網絡（DeepQNetwork， DQN）算法中首次提出的，在經驗回放時候，不是簡單地隨機采樣，而是依照每個樣本的重要程度對其優先級排序，在抽樣時能夠更多次的訪問重要程度較高的樣本，從而能夠有效的學習。而樣本的重要程度可以利用時間差分法中的TD-error進行衡量，TD-error較大的樣本被賦予較高的優先級，相反，TD-error較小的樣本被賦予較低的優先級［26］。PER方法在單智能體領域表現出色，而在多智能體中依然是一個研究熱點。因此本研究將PER方法擴展到多智能體領域中，并與前文的MATD3算法進行結合，提出了PER-MATD3算法。

TD-error為估計Q值與目標Q值的差。而在MATD3算法中，假設經驗池D中第j個樣本為(oj，aj，rj，o′j)，結合中心化訓練和TD3方法中緩解過估計的問題，智能體i的目標Q值定義為

為了打破隨機抽樣準則，定義智能體i抽取第j個樣本的概率為

式中：m為當前經驗池中樣本數為樣本的優先級；α為一個0～1的數，用來控制隨機采樣和貪婪采樣的調節系數。用和分別表示智能體i的第j個樣本采用評估網絡1和評估網絡2的TD-error，則由和中的較大值決定。選擇2個估計Q值與目標Q值差較大的值的絕對值作為TD-error，定義為

Q網絡的學習過程就是不斷減小每個智能體TD-error的過程。由于智能體在與環境的交互中不斷存儲新的數據，若在訓練階段每次都要對經驗池的樣本按照優先級從大到小的排序，是非常耗費計算時間的。可利用數據結構中的SumTree的樹形結構，在葉子節點上存儲每個樣本的數據和優先級，而父節點只需存儲2個分叉子節點優先級之和，因此樹的根節點就是所有樣本的優先級之和，采用這種數據結構可以使得時間復雜度變為Olog10n，大大簡化計算過程。

由于在使用了優先經驗回放方法時會有偏的帶來樣本分布的變化，因此還需加入重要性采樣方法，這樣既保證每個樣本被選到的概率是不同的，從而加快訓練速度，又可以使得在訓練時每個樣本在梯度下降時的影響是相同的，從而保證收斂的結果，重要性采樣的權重定義為

式中：cji為智能體i對第j個樣本的采樣權重；m為當前經驗池中的樣本數；β為抵消優先經驗回放方法對收斂結果的影響程度。

一般在程序中需要進行歸一化處理，即將每個樣本權重除以最大的權重，推導公式為

式中：k為樣本權重最大的那個樣本序號。因此相較之前的MATD3的Cirtic損失函數，現在考慮加入樣本優先級的新的Critic1和Critic2的損失函數J(wi，1)和J(wi，2)分別為式（24）和式（25）：

式中：yji為式（19）中的目標Q值；q(oj，a；wi，1)和q(oj，a；wi，2)分別為Critic1和Critic2網絡的估計Q值。

3 基于PER-MATD3算法的多無人機攻防對抗機動決策設計

3.1 狀態空間

進攻無人機的狀態信息包括無人機自身的位置、航向角、速度大小、無人機對障礙物及邊界的探測信息和目標方向信息。為了使得進攻方更具智能性，進攻無人機能夠通過激光雷達載荷探測到各架防守無人機位置，從而可提前規避。因此進攻無人機的狀態空間總共包含11維數據，定義為

對于第n架防守無人機，狀態信息除了自身的位置信息、航向角、速度大小、無人機對障礙物及邊界的探測信息、進攻目標的方向信息以外，而且能夠通過地面雷達實時了解到其他2架無人機與自身的距離信息，記為sdnm。因此每架防守無人機的狀態信息變為13維數據，定義第n架防守無人機為

用代表防守無人機n與防守無人機m1的距離，在上式中dnm1的定義為

3.2 動作空間

動作空間表征為加速度和角速度，如式（29）所示：

3.3 獎勵函數

為了解決稀疏獎勵所帶來的樣本訓練效率低下的問題，本實驗中獎勵函數采用引導型獎勵和稀疏獎勵相結合的方式。在無人機與環境交互過程中，如果碰撞邊界、或者碰撞障礙物、或完成任務，則采用稀疏獎勵；這3種情況均不發生的時候，采用引導型獎勵。

設計引導型獎勵Rg為

式中：α1、α2、α3、α4、α5為加權系數。

Rg的各種引導獎勵的定義如式（31）所示：

式中：dt-1和dt為無人機上一時刻和當前時刻距離目標的相對距離；Rdis為無人機上一時刻和當前時刻與目標的相對距離的變化量；Rr為無人機的每個探測傳感器狀態量相對于1的值；Rv為無人機當前速度大小所帶來的獎勵量；Rc為無人機當前航向ψi與最優航向ψopti的偏差。

對于防守無人機，考慮加入防守無人機之間碰撞懲罰Rne，僅當防守無人機之間距離較近時才給予懲罰，定義為

設計稀疏獎勵Rs的公式為

式中：R1為無人機碰撞戰場邊界的懲罰；Rko為第k種障礙物的半徑；dis(·)為二維空間的歐式距離；R2為無人機碰撞障礙物的懲罰；Rt為目標區域的半徑；Rf為防守無人機的火力打擊距離；R3為無人機完成任務的獎勵或任務失敗的懲罰，對于進攻無人機到達目標區域則為任務成功，被防守無人機擊毀為任務失敗，對于防守無人機則相反。

3.4 訓練算法設計流程

基于PER-MATD3的多無人機攻防對抗算法流程如算法1所示。

算法 1 基于PER-MATD3的多無人機攻防對抗機動決策算法1 2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.初始化每個無人機i的網絡參數θi、wi，2和wi，2及對應目標網絡參數，經驗回放樹SumTree的默認數據結構，其葉子節點的優先級pj設為1，批樣本數m，調節系數α，采樣權重系數β，衰減因子γ，評估網絡相對策略網絡更新頻率C，軟更新系數τ，高斯噪聲σ For episode=1 to MaxEpisode do獲取雙方無人機各自的觀測狀態o1，1，o1，2，…，o1，N For t=1 to MaxStepdo For i=1 to N do對于無人機i，執行動作at，i=fclip(μ(ot，i；θi)+N)，其中fclip表示無人機的限制動作上下限的函數，得到對應的獎勵值rt，i，及下一時刻的狀態o(t+1)，i End For將樣本數據{ot，1，ot，2，…，ot，N，at，1，at，2，…，at，N，rt，1，rt，2，…，rt，N，o(t+1)，1，o(t+1)，2，…，o(t+1)，N}存儲到SumTree中If StartTrain do根據式（20）得到m數量樣本數據(o，a，r，o′)，并根據公式（22）計算oi，j For i=1 to N do根據式（24）和式（25）計算J(wi，1)和J(wi，2)根據式（20）和式（21）更新樣本的優先級更新參數wi，1和wi，2每隔C步根據式（13）計算▽θiJ(θi)，根據式（16）更新參數θi根據式（15）和式（17）更新參數w′i，1，w′i，2和θ′i End For End If End For End For

4 仿真實驗

4.1 實驗環境及參數設置

實驗的軟件采用Pycharm 2020.1和Anaconda3平臺，實驗的程序是基于Python語言，針對設定的對抗場景如圖1，采用python標準的GUI編寫庫Tkinter構建二維戰場環境，神經網絡的構建采用Pytorch模塊，版本為1.3.1。

本次實驗將利用多智能體強化學習算法研究多無人機攻防對抗場景的問題，首先需要構建仿真環境，環境初始化具體參數設置如表1。

本實驗分別采用基于模仿學習的深度確定性策略梯度算法（Imitation Learning based Deep Deterministic Policy Gradient algorithm，ILDDPG）［27］、MADDPG算法、MATD3算法及改進的PER-MATD3算法對上述構建的多機攻防對抗場景智能決策問題展開研究，由于4種算法均采用分布式執行的設計框架，因此各個算法針對智能體i的Actor網絡均設計為圖6的網絡結構。

圖6 智能體i的Actor網絡結構Fig.6 Actor network structure of Agent i

而各個算法具體的Critic網絡結構設計如表2所示。Critic網絡的激活函數均采用Relu函數，并采用Adma優化算法進行反向傳播更新網絡的參數，算法的超參數設置如表3所示。將智能體與環境交互產生的數據樣本存入經驗池中，本文設定一旦樣本數量達到經驗池容量一半后才開始訓練。對于MATD3和PER-MATD3算法，設置的策略延遲更新頻率系數為10，而對于PER-MATD3算法，式（20）和式（22）的參數α和β分別為0.6和0.5。

表2 智能體i的Critic網絡結構Table 2 Critic network structure of Agent i

表3 超參數設置Table 3 Hyperparameter settings

4.2 訓練過程

強化學習算法的目的是訓練智能體的策略使得它的累積獎勵的期望達到最大，訓練結果的評價指標一般可用回合的平均獎勵值來衡量。回合的平均獎勵值是智能體最近回合所得獎勵的平均值，它是智能體訓練所得的獎勵值隨回合變化的曲線圖，獎勵值上升越快，獎勵值收斂時越平穩且越高，則證明訓練的效果越好［28］。在本實驗中使用最近100回合的平均獎勵作為最終的回合平均獎勵值，若在開始訓練時不夠100回合就僅使用已有回合的平均獎勵值。針對圖1構建的多無人機攻防對抗場景的機動決策問題，分別利用上述四種不同的多智能體強化學習算法進行訓練，等待無人機訓練2 000回合的過程完成，分別將4種算法所有無人機平均獎勵總和曲線繪制在同一個坐標軸內，如圖7所示。

圖7 4種算法的平均獎勵Fig.7 Average reward of four algorithms

在圖7中，橫坐標代表訓練的回合數，縱坐標代表4架無人機在最近100回合內平均獎勵的總和。在起始階段，4種算法均是無人機與環境交互產生訓練樣本的過程，回合獎勵很低，無人機并不清楚自身要做什么。在樣本數達到經驗池容量一半時開始進行訓練，隨著回合獎勵曲線逐漸上升，各架無人機逐漸開始學習到更為智能的策略，并都最終達到了收斂的結果，但是相比之下4種算法在性能表現上有所差異。經過比較，可以得到4種算法中PER-MATD3算法收斂的速度最快，在收斂后的平均獎勵最高，同時，PER-MATD3和MATD3算法在收斂后均保持有較好的穩定性能，ILDDPG算法的穩定性很差，這是由于智能體所觀測環境具有不穩定性造成的。

表4 4種算法訓練過程數據對比Table 4 Comparison of four algorithm training process data

將4種算法訓練過程的重要參考數據進行統計分析，這些數據有利于直接表現各個算法的性能優劣。主要包括開始訓練的回合數、在1 000回合時的獎勵值、1 000～2 000回合的平均獎勵值、訓練時獎勵所達到的峰值。表4結合圖7對以上指標參數進行統計分析。

從表4中可以得到，PER-MATD3算法在訓練階段其訓練速度非常快，可從1 000回合的獎勵值來得到；在達到收斂后的獎勵結果較高，穩定性也較好，表現更好的性能優勢，驗證所提出的PERMATD3算法相較其他多智能體算法的有效性。

4.3 測試結果

為了研究4種算法在收斂后的表現，進一步驗證基于PER-MATD3算法的多機攻防對抗機動決策的優勢，可利用4種算法在2 000回合收斂后的網絡參數進行對抗測試分析，將進行對抗結果測試分析，利用訓練好的網絡進行10 000次蒙特卡洛實驗，具體方法是將2 000回合的一架進攻無人機和3架防守無人機的Actor當前網絡參數單獨拿出來，作為生成無人機動作的網絡參數。根據環境的初始設置輸入各架無人機所觀測環境的狀態量，利用動作網絡生成決策動作，與環境進行交互。

一次回合終止條件具體分為2種，一種是無人機與環境交互的時間達到每回合設置的最大時間。另外一種是回合提前結束，其中，防守失敗包括3種情況：① 防守無人機碰撞邊界，此時獎勵函數采用稀疏獎勵，對應式（33）中稀疏獎勵Rs=R1；② 防守無人機碰撞障礙物，此時獎勵函數采用稀疏獎勵，對應式（33）中稀疏獎勵Rs=R2；③ 進攻無人機成功完成任務，即防守失敗，對防守無人機來說，式（33）中Rs=R3，這時的R3是一個懲罰項，取負值。防守成功時，防守無人機擊毀進攻無人機，這時的R3是一個獎勵，取正值。

將4種算法在雙方無人機上的表現進行分析，這里僅站在防守方角度來對成功、失敗及其他情況進行統計，而進攻方的結果剛好與其相反。雙方對抗結果情況如圖8所示，其中綠線表示防守方的失敗次數、紅線表示防守方的成功次數，藍線表示其他情況的次數，即無人機碰撞邊界或障礙物的次數。

圖8 雙方對抗結果統計Fig.8 Statistics of results of confrontation between two sides

通過柱狀圖8，可以得到以下結論：首先，統計結果表明，通過設計的4種不同算法所訓練的雙方無人機，無論是在避免碰撞邊界或障礙物方面還是在完成自身規定任務方面的表現，均具有一定的智能性，在圖中可看出其他情況的次數相對非常少；其次，在同一張柱狀圖內，進攻方采用的是之前訓練2 000回合的同一種算法的策略網絡，而防守方分別采用4種不同的算法，相比之下PER-MATD3算法相較其他3種算法能夠使得防守方獲得更高的成功率，而ILDDPG算法在訓練期間評估網絡并沒有觀測到全局狀態信息，因此其策略網絡使得防守方的訓練效果表現最差；最后，在不同的柱狀圖之間，進攻方采用PERMATD3算法同樣也比其他3種算法具有更高的成功率，進一步驗證所提出的PER-MATD3算法具有更好的性能。

由于4種算法所訓練的環境一樣，將PERMATD3算法進行測試，最終仿真對抗的測試效果圖如圖9所示。

圖9 PER-MATD3算法訓練效果測試Fig.9 Test of training effect of PER-MATD3 algorithm

5 結論

本文主要圍繞多無人機攻防對抗問題進行了具體研究，建立1對3的環境模型，然后介紹了多智能體強化學習算法的理論推導與設計過程，具體包括MADDPG算法及MATD3算法，并在此基礎上詳細介紹了基于優先經驗回放機制所設計的PER-MATD3算法，將算法與問題相結合使得無人機在環境交互中進行學習。最終仿真實驗結果表明，多智能體強化學習算法在多無人機攻防對抗問題上有不錯的效果，并且通過4種算法在攻防雙方上應用時橫向及縱向的實驗對比，驗證所提出的PER-MATD3算法相較其他3種算法具有更好的訓練表現。

后面可嘗試將本文的算法應用在三維場景的多機攻防對抗問題中，并考慮雙方不同機動參數對對抗結果的影響。