基于Actor-Critic算法的多無人機協同空戰目標重分配方法

2022-06-29 05:06:14陳宇軒王國強馬瀅瀅

無線電工程 2022年7期

關鍵詞：分配

陳宇軒，王國強*，羅賀，馬瀅瀅

(1.合肥工業大學管理學院，安徽合肥 230009；2.過程優化與智能決策教育部重點實驗室，安徽合肥 230009；3.智能互聯系統安徽省實驗室，安徽合肥 230009)

0 引言

隨著無人化、自動化和人工智能等技術的飛速發展，現代空戰無人機間的交互需求不斷提高，多無人機協同作戰逐漸成為空戰的主要形式[1-2]。無人機間通過自主協同，將單個無人機優勢轉化為編隊的整體優勢，實現“1+1>2”的空中作戰效果[3]。多無人機協同目標分配能夠利用分散的單機作戰資源，合理有序地分配目標進行打擊，是提升打擊效能與作戰能力的有效途徑之一[4]。

近年來，大量學者主要對空戰中給定雙方態勢下的靜態目標分配問題展開研究[5-14]，僅考慮單次目標分配，然而真實空戰瞬息萬變，作戰前的目標分配方案可能隨著對抗時間的進行而不再適用當前環境，對此，決策者需要根據復雜、動態變化的戰場環境找準改變當前決策的關鍵時機，及時更改初始決策以達到整體作戰收益最大或作戰代價最小的目的。因此，有效的目標重分配將成為對抗過程中改變局勢、由劣轉優和有效增強我方優勢的重大舉措。

目前，針對空戰過程中目標重分配問題的研究文獻較少。其中，龔陽等[15]將目標數量變化作為決策觸發依據，并采用高斯分量權值方法進行目標重分配；張陽等[16]和劉振等[17]通過設計簡單的規則得到決策觸發時機，并運用基于協議規則的算法模擬無人機目標分配；楊尚君等[18]同時考慮固定周期和突發事件作為重分配觸發規則，并采用混合細菌覓食算法進行任務重分配。綜上，當前對于多無人機協同目標重分配的研究多注重于重決策結果本身，而決策觸發時機的選取大多都是基于規則或通過閾值來設定的，這類方法原理簡單、易于實現，但忽視了空戰場景中的對抗性。同時，在這種不確定信息下的求解存在搜索空間大、參數變化大等特點，用常規算法求解具有很大的局限性，這就對目標重分配觸發時機的求解方法與求解質量提出了更高的要求。

隨著人工智能技術的飛速發展，深度學習和強化學習在智能決策方面取得了重大突破。目前，在重部署[19]、重調度[20]和重規劃[21-22]等方面均有大量的研究。這些研究對本文以強化學習方法求解目標重分配問題具有一定的啟發。基于上述分析，首先定義了多無人機協同空戰目標重分配問題，并建立了多無人機協同空戰目標重分配總體框架，以所有無人機的狀態信息作為輸入得到目標重分配時機；然后，針對稀疏獎勵難題，結合雙方無人機態勢優勢，設計了雙層獎勵回報方法，加快策略網絡收斂速度；最后，基于VR-Forces的多無人機協同空戰仿真平臺，驗證了本文方法的有效性。

1 問題描述

本文研究的多無人機協同空戰目標重分配問題可以描述為：在超視距環境中，紅方無人機探測到藍方無人機，并根據空戰態勢優勢、自身作戰能力以及對手能力威脅等因素，判斷出需要重決策的關鍵時刻T，在T時刻進行目標重分配，每架無人機按照目標重分配方案向新目標飛行并進行后續對抗，從而在對抗過程中占據優勢，重復上述過程直至對抗結束。

多無人機目標重分配過程如圖1所示。環境中包括紅方無人機和藍方無人機，其中，T時刻紅方無人機根據敵我雙方的態勢信息判斷是否觸發目標重分配。

圖1 多無人機目標重分配過程Fig.1 Multi UAV target re-assignment process

假定紅方無人機數量為M，藍方無人機數量為N，每架無人機搭載的武器數量為Z，z∈Z，最大探測距離為DRmax，最大攻擊距離為DMmax，且每枚導彈對目標的毀傷概率已知，當無人機的探測范圍內出現對方無人機時，進行首次目標分配，目標分配后無人機會向被分配的目標方向飛行，設DRiBj表示紅方i無人機與藍方j無人機之間的距離，滿足DRiBj≤DMmax時，發射一枚導彈，每個無人機執行目標分配方案時只能攻擊一個目標，當z=0時，不再執行目標分配方案。

設紅方的目標重分配的觸發結果為at∈{0,1}，其中，at=0表示紅方無人機在t時刻不改變當前目標分配方案，at=1表示紅方無人機在t時刻進行目標重分配，目標重分配結果包括以下4種：

① 紅方1號無人機攻擊藍方1號無人機，紅方2號無人機攻擊藍方1號無人機；

② 紅方1號無人機攻擊藍方2號無人機，紅方2號無人機攻擊藍方1號無人機；

③ 紅方1號無人機攻擊藍方1號無人機，紅方2號無人機攻擊藍方2號無人機；

④ 紅方1號無人機攻擊藍方2號無人機，紅方2號無人機攻擊藍方2號無人機。

無人機狀態示意圖如圖2所示。對于對抗過程中的每一個無人機，可獲取到的狀態參數用X表示，X=(x,y,z,v,θ,φ)，其中，(x,y,z)表示無人機的三維坐標，v表示無人機的速度，θ表示無人機的俯仰角，φ表示無人機的航向角。

圖2 無人機狀態示意Fig.2 Schematic diagram of UAV status

以最大化摧毀藍方目標數量和最小化紅方損失作為目標函數，則目標函數F為：

F=max(∑nj-∑mi),nj∈{0,1}，mi∈{0,1}

i=1,2,…,M，j=1,2,…,N，

(1)

式中，nj=1表示藍方無人機j被摧毀，nj=0表示藍方無人機j存活；mi=1表示紅方無人機i被摧毀，mi=0表示紅方無人機i存活。

2 求解方法

2.1 總體框架

多無人機協同空戰目標重分配方法的總體框架如圖3所示。

圖3 多無人機目標重分配總體框架Fig.3 General framework of multi-UAV target re-assignment

該框架包含多無人機協同目標重分配過程和Actor-Critic強化學習框架2大部分，其中，多無人機協同目標重分配全過程表示：設計出一個目標重分配觸發機制，通過無人機傳感器獲取到的信息，實時解算出目標重分配的觸發時刻T，并在時刻T通過調用現有目標分配模塊的方式求解目標分配方案，最后根據更新后的目標分配方案進行后續對抗。Actor-Critic強化學習框架表示：智能體根據環境得到狀態信息s，s∈S，輸入到Actor網絡中求解出相應動作a，a∈A，環境會根據輸出的動作產生改變，并計算出一個獎勵回報R反饋給Critic網絡，同時，Critic網絡會根據環境給予的獎勵回報R計算TD誤差修正Critic網絡和Actor網絡，最后不斷循環以上過程。綜上，本文采用訓練好的Actor網絡作為目標重分配觸發機制來解決多無人機協同空戰目標重分配問題。因此，結合Actor-Critic框架對多無人機協同空戰目標重分配過程構建馬爾科夫決策過程(MDP)。

MDP簡單說就是一個智能體(agent)采取行動(action)從而改變自己的狀態(state)獲得獎勵(reward)與環境(environment)發生交互的循環過程。可以由公式M=表示：

①S：有限狀態集合，為雙方所有無人機的狀態數據X=(x,y,z,v,θ,φ)，包括4架無人機的位置坐標(x,y,z)，俯仰角θ，航向角φ和速度v等參數，共24維輸入數據；

②A：有限動作集合，目標重分配的觸發結果at∈{0,1}，觸發結果包括目標分配at=1和維持不變at=0兩種，共2維輸出數據；當觸發結果為目標分配時，無人機會根據新的目標分配結果，朝目標飛機方向飛行，當目標達到我方無人機的攻擊范圍內時發射一枚空空導彈；

③T(S,a,S′)～Pr(s′|s,a)：根據當前狀態s和動作a預測下一個狀態s′，Pr表示從狀態s采取行動a轉移到s′的概率；

④ 獎勵回報R：R(s,a)=E[Rt+1|s,a]，表示agent采取某個動作后的即時獎勵。

采用強化學習方法進行學習的過程就是使獲得累計獎勵回報最大化的過程，即：

(2)

多無人機協同空戰目標重分配方法的運行過程偽代碼如下：

2.2 網絡結構

基于2.1節多無人機協同空戰目標重分配方法的總體框架，下面對總體框架中的Critic網絡和Actor網絡進行詳細設計。

2.2.1 Critic網絡

在多無人機協同空戰的過程中，Critic網絡輸入的是雙方無人機的狀態信息，輸出為對當前局勢的評判值，即狀態值函數。神經網絡可以對非線性函數無限逼近，因此，建立了一個多層神經網絡來擬合狀態值函數。通過Critic網絡分別計算當前的狀態值函數V(st)=E[Rt+1+γV(St+1)|St=s]和下一時刻的狀態值函數V(st+1)，同時計算二者間的時間差分誤差(TD誤差)，得到Loss函數，最后采用函數優化器更新Critic網絡參數，即：

FLoss=V(st)φ(t)，

(3)

w′←w+β·FLoss，

(4)

式中，β為Critic網絡學習率；φ(t)為TD誤差，計算公式為：

φ(t)=rt+1+γV(st+1)-V(st)。

(5)

為了擬合狀態值函數，采用含有2層隱藏層的全連接神經網絡，隱藏層神經元取25，激活函數采用Relu函數，如圖4所示。通過隨機梯度下降優化損失函數，更新網絡參數。

圖4 Critic網絡設計Fig.4 Critic network design

2.2.2 Actor網絡

在多無人機協同空戰的過程中，Actor網絡輸入的是雙方無人機的狀態信息，輸出目標重分配的觸發結果。用參數化的行為策略Pθ表示紅方無人機選擇的動作，θ是策略的參數，即Pθ(s|a)表示在策略θ參數下，紅方無人機處于狀態s執行動作a的概率。同時結合在Critic網絡得到的TD誤差φ(t)計算Loss函數值，進而更新Actor網絡參數，即：

θ′←θ+α·(rt+1+γVπ(st+1)-Vπ(st))lnPθ(at|st)。

(6)

Actor網絡結構如圖5所示，與Critic網絡結構相似，采用含有2層隱藏層的全連接神經網絡，隱藏層神經元取25，隱藏層激活函數采用Relu函數，輸出層激活函數采用softmax函數，通過隨機梯度下降優化損失函數，更新網絡參數。

圖5 Actor網絡設計Fig.5 Actor network design

2.3 獎勵回報

在多無人機協同空戰的場景下，采用強化學習方法往往存在稀疏獎勵問題，僅有對抗雙方無人機的損毀才可以得到明確的獎勵，對抗中不能立刻得到客觀的回報，這就導致獎勵回報難以人為設計且存在主觀性和經驗性，進而影響模型的訓練效率。因此，針對此問題，設計了全局和局部2部分相結合的雙層獎勵回報，如圖6所示。

圖6 獎勵回報設計思路Fig.6 Reward design ideas

本文獎勵回報的設計遵循以下2個原則：

① 以最大化摧毀藍方無人機數量和最小化紅方損失作為主要目標。

② 紅方在對抗過程中盡量增大對抗優勢。

因此，獎勵回報的設計主要考慮無人機存活情況以及態勢優勢，設計如下所示：

r=r0+r1，

(7)

式中，r為獎勵回報；r0為全局獎勵回報；r1為局部獎勵回報。

(1) 全局獎勵回報

全局獎勵回報具體設計如下：

r0=k*(N-p)+(-k)*(M-q)，

(8)

式(8)表示當發生藍方無人機損毀時，獲得k獎勵回報；同理，發生紅方無人機損毀，獲得-k獎勵回報。r0為全局獎勵回報；M為紅方無人機初始數量；N為藍方無人機初始數量；q為紅方無人機存活數量；p為藍方無人機存活數量。

(2) 局部獎勵回報

局部獎勵回報又稱引導型獎勵回報，由距離獎勵回報、角度獎勵回報以及速度獎勵回報3部分組成，具體設計如下：

r1=r11+r12+r13，

(9)

式中，r1為局部獎勵回報；r11為距離獎勵回報；r12為角度獎勵回報；r13為速度獎勵回報。

① 距離獎勵回報r11

(10)

(11)

(12)

式中，DRmax為最大搜索距離；DMmax為最大攻擊距離；DRiBj為紅方無人機i到藍方無人機j的距離；DLmax為紅方無人機i與藍方無人機j的初始距離；m為距離系數。

② 角度獎勵回報r12

(13)

(14)

③ 速度獎勵回報r13

(15)

(16)

(17)

式中，v0為最佳攻擊速度；vRi為紅方無人機i速度；vBj為藍方無人機j速度；vmax為無人機最大速度。

3 實驗分析

基于多無人機協同空戰目標重分配問題的典型案例，詳細說明了驗證本文方法的仿真環境；對所提出方法進行參數敏感性分析，分析本文方法的最優超參數；針對所設計的獎勵回報，分析出超參數k的最佳取值；在多種典型對抗場景進行仿真實驗，分析方法有效性；針對本文所設計的全局獎勵回報和局部獎勵回報，設計消融實驗，分別研究全局獎勵回報和局部獎勵回報對算法性能的影響。

3.1 實驗環境與實驗設定

3.1.1 基于VR-Forces開發的仿真環境

本文基于VR-Forces環境搭建了多無人機協同空戰目標分配仿真平臺[28]，該平臺由紅方子系統、藍方子系統、白方子系統以及強化學習算法子系統4部分組成，并在同一局域網下進行通信。

多無人機協同對抗仿真系統如圖7所示。該仿真系統包括紅方子系統、白方子系統、藍方子系統和目標分配子系統，采用分布式架構部署在4臺機器上，紅方加載本文方法與藍方基線觸發規則進行對抗，同時紅藍雙方均布有目標分配算法，白方通過加載批處理模塊和數據記錄模塊進行訓練和結果顯示。

圖7 多無人機協同對抗仿真系統Fig.7 Multi-UAV cooperative confrontation simulation system

其中，紅方子系統作為客戶端，目標重分配子系統作為服務端，通過采用websockets協議實現子系統間的通信，進行數據的交互，發送的數據使用json格式進行封裝。目標重分配子系統接收到數據后，需要進行數據轉換、數據補全和數據歸一化等預處理再輸入到算法中進行仿真訓練。仿真系統的軟硬件參數如表1所示，目標重分配觸發機制參數如表2所示。

表1 軟硬件環境參數Tab.1 Software and hardware environment parameters

表2 目標重分配觸發機制參數Tab.2 Target re-assignment trigger mechanism parameters

3.1.2 實驗場景介紹

2對2典型對抗場景示意圖如圖8所示。仿真對抗區域為50 km×80 km的矩形區域，共有4架無人機，其中2架藍方無人機，2架紅方無人機，每個無人機的武器數量為4個，每個無人機具有相同的毀傷概率，對抗仿真時長取3 min為一局。

圖8 2對2典型對抗場景示意Fig.8 Schematic diagram of 2V2 typical confrontation scenario

(1) 評價指標定義

在仿真單局對抗結束時，根據對抗雙方無人機的剩余數量，定義了3種仿真實驗結果，具體如下：

① 紅方獲勝：單局仿真結束時，紅方剩余的無人機數量多于藍方；

② 紅方平局：單局仿真結束時，紅方和藍方剩余的無人機數量相同；

③ 紅方失敗：單局仿真結束時，紅方剩余的無人機數量少于藍方。

在分析仿真對抗勝率變化時，采用Li等[25]提出的獲勝率和失敗率，具體計算如下：

對抗勝率 = 勝場 /(勝場 + 敗場)×100%，

失敗率 = 敗場 /(勝場 + 敗場)×100%。

(2) 典型對抗場景設計

在多無人機協同對抗過程中，對抗雙方之間的優劣勢主要和對抗雙方無人機的數量、性能以及相對態勢有關。當雙方無人機的數量、性能相同時，對抗雙方之間的優劣勢主要和雙方無人機的相對態勢有關[26-27]。對此，通過調整對抗雙方無人機的位置、角度，分別設計了紅方優勢、紅方劣勢和雙方均勢情形下的典型對抗場景。

(3) 基線觸發規則

參考張陽等[16]設定的決策觸發規則作為目標重分配基線觸發規則，包括：

① 當雙方無人機數量變化；

② 當對方無人機進入探測范圍。

(4) 目標分配算法

進行仿真實驗時，雙方無人機的目標分配算法均采用馬瀅瀅等[4]提出的基于混合整數規劃轉換的雙矩陣博弈目標分配算法。

(5) 實驗組與對照組

在同一典型對抗場景下分別進行實驗組和對照組2類實驗，通過對比多個典型對抗場景下實驗組和對照組的數據進行實驗分析。

① 實驗組

紅方：基于Actor-Critic算法的多無人機協同空戰目標重分配方法，目標分配算法；

藍方：基線觸發規則，目標分配算法。

② 對照組

紅方：基線觸發規則，目標分配算法；

藍方：基線觸發規則，目標分配算法。

3.2 參數敏感性分析

在參數敏感性分析實驗中，通過調整Critic網絡學習率β，比較在同一場景下對抗的獲勝場次、平局場次和失敗場次，分析出學習率變化對仿真對抗的影響。只需要改變Critic網絡學習率就可以調整網絡的更新幅度，因此無需對Actor網絡參數進行敏感性分析。

學習率分別取10-1，10-2，10-3，10-4和10-5，并在不同場景下進行400場仿真對抗，不同學習率下的實驗結果如表3所示。

表3 參數敏感性分析仿真實驗結果Tab.3 Experimental results of parameter sensitivity analysis

由表3可知，在獲勝場次上，當學習率取10-3時，獲勝場次最高160場，其次是學習率取10-2，10-4時，獲勝場次高于140場；在失敗場次上，當學習率取10-3時，失敗場次最少，為110場，其次是學習率取10-1，10-4時，失敗場次低于130場。因此，在參數敏感性分析實驗中，學習率的最佳取值為10-3。

3.3 獎勵回報設計實驗

在獎勵回報設計實驗中，通過改變全局獎勵回報超參數k，來調整全局獎勵回報和局部獎勵回報間的占比關系，從而分析獎勵回報取值變化對對抗勝率的影響，超參數k分別取1，3，5，7和9，并進行400場仿真對抗，不同全局獎勵回報超參數k下的對抗勝率如圖9所示。

由圖9可知，當超參數k=1，k=3和k=5時，對抗勝率隨著場數的增加而增加，k=5時對抗勝率增長幅度最大，k=1時對抗勝率增長幅度最小，由此可見，當k=1和k=3時，由于全局獎勵回報的占比過少，導致對抗勝率增長緩慢；當超參數k=7時，在001～100場、101～200場的訓練中，對抗勝率最高、提升的最快，然而，在201～300場的訓練中發生了大幅度的下降，由此可見，全局獎勵回報的占比過高時，淡化了局部獎勵回報的作用，造成了訓練的不穩定；超參數k=9時，在101～200場的訓練中發生了大幅度的下降，后續對抗勝率持續升高，最終略高于k=3和k=7時的對抗勝率。綜上，當k=5時訓練可以穩定提升對抗勝率，因此，在后續實驗中超參數k=5。

3.4 方法有效性實驗

為了本文方法的有效性，在每個場景下分別做400次仿真對抗實驗，與對照組實驗進行對比，分析該方法的有效性。均勢場景下對抗結果如圖10所示，優勢場景下對抗結果如圖11所示，劣勢場景下對抗結果如圖12所示。

圖10 均勢場景下對抗結果Fig.10 Confrontation results under power-balanced scenarios

圖11 優勢場景下對抗結果Fig.11 Confrontation results under advantageous scenario

圖12 劣勢場景下對抗結果Fig.12 Confrontation results under disadvantageous scenario

從實驗可以看出，在3種典型對抗場景下，采用本文方法的效果均不同程度地優于基線方法。由圖10可以看出，在均勢場景中采用本文方法，平局場數增加7局，失敗場數降低38局，獲勝場次增加31局；由圖11可以看出，優勢場景中實驗組比對照組的獲勝場次增加39局，失敗場次減少6局，可以看出在優勢場景下采用本文方法可以增大優勢，對抗勝率；由圖12可以看出，劣勢場景中實驗組比對照組的獲勝場次增加23局，失敗場次減少55局，可以看出在劣勢場景下采用本文方法可以改變劣勢，從而提高勝率。

在3種不同的典型對抗場景下的勝率變化如圖13、圖14和圖15所示。

圖13 均勢場景下勝率變化Fig.13 Change of winning rate under power-balanced scenario

圖14 優勢場景下勝率變化Fig.14 Change of winning rate under advantageous scenario

圖15 劣勢場景下勝率變化Fig.15 Change of winning rate under disadvantageous scenario

由圖13可以看出，在均勢場景中采用本文方法，對抗勝率持續上升，與訓練次數成正比關系。同時，由圖14和圖15可以看出，在優勢場景、劣勢場景下對抗勝率隨訓練次數的增加均有不同程度的上升。綜上可見，本文所提出的多無人機協同空戰目標重分配方法能夠有效地提升空戰對抗的勝率。

3.5 消融實驗

本文所設計的獎勵回報包含全局獎勵回報和局部獎勵回報2部分，為分析全局獎勵回報和局部獎勵回報對算法性能的影響，設計消融實驗，實驗設置如表4所示。

表4 消融實驗設置Tab.4 Setting of ablation experiment

其中，AC-全局表示僅包含全局獎勵回報；AC-局部表示僅包含局部獎勵回報。本文算法、AC-全局和AC-局部算法隨著對抗場數的增加，對抗勝率的變化情況如圖16所示。

圖16 消融實驗勝率變化Fig.16 Change of winning rate of ablation experiment

可以看出，僅采用局部獎勵回報的AC-局部算法隨著訓練次數的增加，對抗勝率持續上升，然而相比于本文算法，對抗勝率上升緩慢；僅采用全局獎勵回報的AC-全局算法訓練時，對抗勝率變化上下浮動較大，在101～200場和301～400場的訓練中對抗勝率發生了大幅度的下降，缺乏一定的穩定性。由此可見，本文算法在穩定性和有效性上均優于單一采用全局獎勵回報或局部獎勵回報的算法，驗證了本文雙層獎勵回報的必要性。

4 結束語

多無人機協同空戰中存在許多不確定性、實時性等特點，給目標重分配問題帶來了許多新的變化，基于強化學習的思想，設計了基于Actor-Critic算法的多無人機協同空戰目標重分配框架，并結合空戰場景的需求構建了Actor網絡和Critic網絡模型，設計了解決空戰稀疏獎勵問題的雙層回報函數。實驗結果表明，本文求解方法的有效性。在后續工作中，一方面將進一步考慮空戰中的分布式作戰特點，基于多智能體強化學習對多無人機協同空戰目標重分配問題進行了研究；另一方面，目標重分配屬于空戰重決策問題之一，在未來的工作中可以嘗試對戰術決策、角色分配等環節進行重決策。