一種無人機集群對抗多耦合任務智能決策方法

2021-05-24 07:31:58文永明石曉榮黃雪梅

宇航學報 2021年4期

關鍵詞：策略

文永明，石曉榮，黃雪梅，余躍

(北京控制與電子技術研究所，北京100038)

0 引言

隨著集群技術和人工智能的發展，基于群體智能的集群協同技術逐漸發展為未來智能化戰爭的發展方向[1-3]。無人機集群利用低成本、大規模和分布式的優勢，協同偵查作戰可以體現出顯著的靈活性和智能性。無人機集群協同偵查在線決策主要包括協同目標分配和突防軌跡規劃等多個相互耦合的任務，無人機集群需要根據戰場態勢和作戰任務決策出每架無人機的偵查目標和突防軌跡，以最大化集群對抗效能。隨著對抗環境愈加復雜動態，對抗手段愈加多樣智能，無人機集群對抗在線決策存在耦合任務多、決策空間大和場景不確定難題，導致傳統基于專家知識和現代優化算法的決策方法難以同時滿足在線決策的實時性、最優性和泛化性。

隨著人工智能技術的發展與突破[4]，尤其是深度強化學習在智能決策等方面得到了廣泛關注與研究[5-7]。深度強化學習是深度學習和強化學習的有機結合，深度學習善于擬合，可通過深層神經網絡表征復雜空間的非線性和泛化性，強化學習善于決策，可通過迭代學習使累計獎勵最大化來獲得高性能策略。深度強化學習基于大量離線訓練得到智能策略網絡，進行快速在線決策，可彌補無人機集群對抗程序化策略帶來的局限性，提升應對復雜飛行環境和突發事件的適應能力[8]。

在深度強化學習架構方面，當決策問題由單個任務或少數簡單任務構成時，通常采用集中式深度強化學習架構來解決。如圖1所示，集中式架構的多耦合任務使用同一套策略網絡、獎勵函數和經驗池，進行集中式耦合訓練，在決策時一次同時輸出各個任務的動作。集中式架構建模簡單，并且在理論上可保證存在全局最優解。

圖1 集中式架構Fig.1 Centralized architecture

文獻[9]基于DDPG集中式架構優化一類變體飛行器外形，因其決策空間較小，故可以快速收斂到最優變外形策略。文獻[10]采用DQN(Deep Q-Network)算法對多個Atari小游戲(比如“乒乓球”、“打磚塊”等)進行建模和訓練，最終在多款游戲上的表現超越了人類玩家。然而，在“蒙特祖瑪的復仇”這款游戲中，DQN算法的勝率為0%[11]，其原因是這款游戲的任務較多且相互耦合(比如爬樓梯、躲避敵人、拿鑰匙等)，策略空間巨大，集中式架構在有限計算資源下難以收斂。為了解決多個耦合復雜任務所帶來的決策空間爆炸等問題，分層式深度強化學習架構被提出[12]。如圖2所示，分層式架構的多耦合任務使用多套對應的策略網絡、獎勵函數和經驗池，按照任務間的邏輯關系進行分層單獨訓練，在決策時輸出各自的動作進行組合來完成整個決策問題。分層式架構將多耦合任務進行解耦建模與分層單獨訓練，可以縮小整個決策問題的策略空間，使得各個任務的策略網絡收斂速度加快。

圖2 分層式架構Fig.2 Hierarchical architecture

文獻[13]采用分層深度強化學習架構將“蒙特祖瑪的復仇”抽象成多個不同層次的子任務進行建模，AI可以完成游戲任務。文獻[14]采用分層深度強化學習架構對一款籃球游戲建模，基于下層已熟練掌握的籃球技巧，智能體學到了上層的有效策略。文獻[15]基于高斯過程回歸與深度強化學習的分層人機協作控制方法,并以人機協作控制球桿系統為例檢驗該方法的高效性。然而，分層式架構的各個子任務的策略網絡分離，即使各個子任務都收斂到各自的全局最優解，但是將它們組合后，得到的結果很可能不是整個任務的全局最優解。例如在無人機集群對抗中，目標分配結果是軌跡規劃的輸入，而軌跡規劃性能是目標分配的依據，分層式架構將這兩個子任務分開訓練，沒有充分考慮它們之間固有的耦合關系，因此多耦合任務間的協同性無法充分體現，集群對抗效能無法充分發揮。本文針對無人機集群對抗中耦合任務多和決策空間大難題，結合集中式和分層式架構的優點，設計了面向多耦合任務的混合式深度強化學習架構，通過構建多套相關聯的多耦合任務分層策略網絡進行集中耦合訓練，可提升多耦合任務間的協同性和集群對抗效能。

在深度強化學習獎勵函數設計方面，序貫動作導致的稀疏獎勵問題是指在多步強化學習中，往往只在最后一步存在明確獎勵，而中間過程的即時獎勵函數難以人為設計且存在主觀性和經驗性。例如無人機集群對抗的多步軌跡規劃只在結束時才能得到是否被攔截或者偵查目標的結果，而中間過程很難根據當前的位置和速度等信息設計合適的即時獎勵函數來引導突防和偵查目標。強化學習是求累計獎勵期望最大時的最優策略，獎勵函數不同將直接影響策略的性能，如果沒有合適的即時獎勵，稀疏獎勵問題會導致策略網絡難以快速且穩定收斂[16]。為了解決稀疏獎勵問題，文獻[17]提出逆向強化學習方法，即專家在完成某項任務時，其決策往往是最優或接近最優，可以假設，當所有的策略所產生的累積獎勵期望都不比專家策略所產生的累積獎勵期望大時，所對應的獎勵函數就是根據示例學到的獎勵函數。為了使逆向強化學習可以很好地擴展到具有大量狀態的系統，將其與深度學習相結合，在神經網絡中學習狀態動作對的獎勵，如基于最大邊際法的深度逆向強化學習[18]和基于深度Q網絡的深度學徒學習[19]等。然而，逆向強化學習和深度逆向強化學習都是從專家示例中學習獎勵函數，在復雜場景下無人機集群對抗問題中難以獲取足夠的專家示例來支撐上述方法。本文針對軌跡規劃序貫決策的稀疏獎勵難題，設計了基于軌跡構造的一步式動作空間設計方法，回避了多步決策的中間過程，從而避免了稀疏獎勵問題，可使策略網絡穩定快速收斂。

在深度強化學習的泛化性研究方面，泛化性是指訓練好的智能策略網絡在未見過的場景中也具有一定的適應能力，其體現在深度神經網絡對獨立同分布數據強大的擬合和預測能力。因此，在深度強化學習訓練過程中，使策略網絡探索到盡可能大的決策空間，增加數據的多樣性，是提升其泛化性的有效途徑。2017年，DeepMind團隊在《Nature》上推出了圍棋人工智能AlphaZero[20]，AlphaZero不需要人類專家知識，只使用純粹的深度強化學習和蒙特卡洛樹搜索，經過3天的自我博弈就以100比0的成績完敗了AlphaGo，AlphaZero強大的搜索能力和泛化性得益于海量且多樣的自我博弈數據。文獻[21]指出，AlphaZero智能化方法框架可以啟發人工智能在智能指揮決策等領域的應用。本文針對強對抗條件下的場景不確定難題，基于無人機集群紅藍對抗仿真平臺，設計了基于多隨機場景的紅藍博弈訓練方法，通過隨機變化對抗雙方的初始位置和速度等，來設置每局的對抗態勢，從而得到多樣化的對抗訓練數據；通過設計藍方AI，采用紅藍博弈的方式獲得更加智能的藍方策略作為紅方AI的陪練，從而可以進一步提升紅方AI的泛化性。

本文的主要創新點和貢獻：1)針對無人機集群對抗中耦合任務多和決策空間大難題，設計了面向多耦合任務的混合式深度強化學習架構，可提升多耦合任務間的協同性和集群對抗效能；2)針對軌跡規劃序貫決策的稀疏獎勵難題，設計了基于軌跡構造的一步式動作空間設計方法，可加快策略網絡收斂速度；3)針對強對抗條件下的場景不確定難題，設計了基于多隨機場景的紅藍博弈訓練方法，可增強策略網絡的泛化性。

1 混合式深度強化學習架構

混合式架構將集中式架構和分層式架構進行結合。多耦合任務使用多套與子任務對應的執行者-評估者(Actor-Critic, AC)神經網絡與獎勵函數分層構建網絡，且多個經驗池中的經驗相互關聯。在策略網絡訓練控制器的調度下，多個策略網絡按照多任務間的分層關系進行集中耦合訓練。在訓練過程中，每個評估者(Critic)網絡收集所有任務的狀態和動作信息作為評價的輸入，從而為策略更新提供準確且穩定的信號，更充分的狀態和動作信息有助于提高耦合任務間的協同性；在策略執行過程中，各任務只需根據自己的狀態和執行者(Actor)網絡，進行決策控制，如圖3所示。

圖3 混合式架構Fig.3 Hybrid architecture

混合式架構保留了集中式和分層式架構的主要優點，又克服了它們的突出缺點，既保證了各個耦合任務之間相對穩定的訓練環境，有利于得到多任務協同下的全局最優解，又使得策略空間規模可接受，有利于策略網絡快速收斂。三種深度強化學習架構特點對比如表1所示。

混合式深度強化學習架構主要由多任務策略網絡和策略網絡訓練控制器組成，多任務策略網絡利用多套相關聯的AC網絡對子任務進行建模并分層，策略網絡訓練控制器按照多任務間的分層關系進行集中耦合訓練?；旌鲜郊軜嫷慕：陀柧毩鞒倘鐖D4所示。

表1 三種架構特點對比Table 1 Comparison of three architectures

圖4 混合式架構建模與訓練流程圖Fig.4 Hybrid architecture modeling and training flow chart

1.1 多任務策略網絡

多耦合任務M由N個子任務mi組成，即M={mi}(i表示子任務編號且i=1,2,…,N)，根據多耦合任務之間的邏輯關系，將N個子任務進行分層。任務mi基于AC架構構建執行者(Actor)神經網絡Ai和評估者(Critic)神經網絡Ci。任務mi的狀態空間為si，動作空間為ai，獎勵值為ri。任務mi的經驗池設計為：

ei={s1,s2,…,sN,a1,a2,…,aN,

s′1,s′2,…,s′N,ri,d1,d2,…,dN}

(1)

式中：s′i為任務mi下一步的狀態，di為任務mi結束標志，且當任務mi結束時，di=1，反之，di=0。

任務mi的評估者神經網絡Ci的輸入層為所有任務的狀態S={s1,s2,…,sN}和所有任務的動作A={a1,a2,…,aN}，Ci的輸出層為1維的全局評估值。任務mi的執行者神經網絡Ai的輸入層為任務mi的狀態si，Ai的輸出層為任務mi的動作ai。

1.2 策略網絡訓練控制器

為了多耦合任務M的整個策略網絡能夠快速穩定收斂，下層任務需要給上層任務創造良好的學習環境基礎，故策略網絡訓練控制器設計為先訓練下層任務，達到設計指標后，再耦合訓練上一層任務，即上下層集中訓練。

策略網絡訓練控制器設計訓練流程如下：

1)初始化：設置多任務策略網絡和策略網絡訓練控制器參數；

2)生成下層動作：根據下層執行者神經網絡Ai的策略生成動作：

ai=Ai(si)+δi

(2)

3)生成上層動作：上層任務隨機生成動作：

ai=ξi

(3)

式中：ξi為服從均勻分布的隨機數；

4)與仿真環境交互：將得到動作集合A={a1,a2,…,aN}在仿真環境中執行，得到獎勵值集合R={r1,r2,…,rN}，下一個狀態集合S′={s′1,s′2,…,s′N}和任務是否結束標志集合D={d1,d2,…,dN}；

5)保存經驗：將經驗

ei={S,A,S′,ri,D}={s1,s2,…,sN,a1,a2,…,

aN,s′1,s′2,…,s′N,ri,d1,d2,…,dN}

(4)

存入任務mi的經驗池Ei；

6)策略網絡訓練：當任務mi的經驗池Ei總經驗數達到開始訓練的條件時，開始對任務mi的策略網絡進行訓練：

(2)定義累計獎勵函數：令任務mi的累計獎勵為：

(5)

(3)定義損失函數：令任務mi的損失函數為：

(6)

式中：Ci(·)為任務mi在神經網絡參數為θCi下的評估者神經網絡價值函數。通過求L(θCi)的極小值來更新θCi；

(4)定義采樣策略梯度函數：令任務mi的采樣策略梯度為：

(7)

(5)更新策略網絡參數：根據式(7)估計的策略梯度通過深度學習優化器來更新任務mi的執行者神經網絡參數θAi；

(6)更新目標網絡參數：滿足一定條件時，按照式(8)來更新任務mi的目標執行者神經網絡參數θ′Ai和目標評估者神經網絡參數θ′Ci：

(8)

式中：τi為神經網絡參數更新頻率，“←”表示賦值。

(7)測試與訓練層級遞進：訓練一定次數后，測試當前層對應的所有任務是否都達到設計指標，如果是，則開始上一層任務的訓練；否則，繼續本層任務的訓練；

(8)循環：重復流程(1)至流程(8)，直至多耦合任務M訓練結束，且測試達到預定指標。

1.3 無人機集群對抗混合式架構建模

1) 多任務策略網絡。上層：協同目標分配，決策紅方無人機集群中每架無人機的偵查目標，以最大化集群對抗效能(偵查總得分)；下層：突防軌跡規劃，決策紅方無人機的突防和偵查軌跡，既要進行躲避機動又要保留足夠的機動能力對目標進行偵查，以最大化突防概率(突防成功的紅方無人機數量除以紅方無人機總數量)和偵查成功率(偵查成功的紅方無人機數量除以紅方無人機總數量)。

2)狀態空間。目標分配策略網絡的狀態主要包括：紅方無人機數量、位置、速度和藍方待偵查目標數量、位置、價值等；軌跡規劃策略網絡的狀態主要包括：紅方無人機位置、速度和藍方待偵查目標位置等。

3)動作空間。目標分配策略網絡的動作為：紅方無人機偵查目標的編號；軌跡規劃策略網絡的動作為：紅方無人機軌跡構造函數的參數。

4)獎勵函數。確定3個元獎勵分別為突防元獎勵ro_tf、偵查元獎勵ro_zc和效能元獎勵ro_xn。紅方無人機突防成功，則ro_tf=1，否則ro_tf=-1；紅方無人機成功偵查目標，則ro_zc=1，否則ro_zc=-1；集群對抗效能歸一化作為效能元獎勵ro_xn。為了進一步體現各個耦合任務之間的協同性，采用元獎勵加權的方式使目標分配和軌跡規劃的獎勵函數相互關聯。根據目標分配對各個元獎勵的影響確定目標分配的突防權重wo_tf_mb、偵查權重wo_zc_mb和效能權重wo_xn_mb，且滿足wo_tf_mb+wo_zc_mb+wo_xn_mb=1。同理，根據軌跡規劃對各個元獎勵的影響確定軌跡規劃的突防權重wo_tf_gj、偵查權重wo_zc_gj和效能權重wo_xn_gj，且滿足wo_tf_gj+wo_zc_gj+wo_xn_gj=1。則目標分配獎勵函數為：

rmb=wo_tf_mbro_tf+wo_zc_mbro_zc+wo_xn_mbro_xn

(9)

軌跡規劃的獎勵函數為：

rgj=wo_tf_gjro_tf+wo_zc_gjro_zc+wo_xn_gjro_xn

(10)

5)策略網絡訓練控制器。先訓練下層軌跡規劃策略網絡。當突防概率和偵查成功率達到指標要求后，再訓練上層目標分配策略網絡，兩個任務進行集中耦合訓練，直至突防概率、偵查成功率和集群對抗效能達到指標要求后，訓練完畢。

2 基于軌跡構造的一步式動作空間設計方法

在突防軌跡規劃中，紅方無人機通過在線生成機動指令來達到躲避攔截和偵查目標的目的。通常采用多步序貫決策方式會帶來稀疏獎勵問題，它是指在每個決策周期都生成無人機的機動指令，但只在最后一步存在明確的獎勵，而過程獎勵難以設計，會導致策略網絡難以快速穩定收斂。針對上述問題，設計了基于軌跡構造的一步式動作空間設計方法。

根據紅方無人機機動特性和藍方攔截無人機的攔截特點確定突防軌跡構造函數表示為：

nc(t)=F(P,t)+a0(t)

(11)

式中：nc(t)表示t時刻無人機的機動指令。a0(t)表示t時刻無人機的比例導引指令，引導無人機飛向目標。F(P,t)表示t時刻無人機的附加機動指令函數，控制機動突防，P為函數參數集合。F(P,t)的具體表達形式可以根據無人機的機動特性和攔截無人機的攔截特點確定，比如無人機的動態性能良好且藍方攔截策略簡單，F(P,t)可確定為方波函數；無人機的動態性能一般且藍方攔截策略簡單，F(P,t)可確定為正弦函數；藍方攔截策略復雜，F(P,t)可確定為多項式函數。

從函數參數集合P中確定待優化的參數，表示為：

P=C∪X

(12)

式中：C={c1,c2,…,cm}表示m個常值參數集合，X={x1,x2,…,xn}表示n個待優化參數集合。

確定深度強化學習的動作空間表示為：

A=[x1,x2,…,xn]T(ximin≤xi≤ximax,i=1,2,…,n)

(13)

式中：ximin表示待優化參數xi的最小值，ximax表示待優化參數xi的最大值。

基于軌跡構造的一步式動作空間設計方法只需決策一次突防軌跡構造函數的參數就可以規劃出完整的軌跡，對抗仿真后即可得到一次明確的獎勵，即一個動作對應一個獎勵，因此避免了序貫動作的稀疏獎勵問題，使收斂速度和穩定性有效提升。

3 基于多隨機場景的紅藍博弈訓練方法

針對強對抗條件下的場景不確定難題，基于無人機集群紅藍對抗仿真平臺，設計基于多隨機場景的紅藍博弈訓練方法。

紅方無人機集群的作戰任務為最大化偵查覆蓋藍方目標編隊，紅方無人機在飛行過程中會受到藍方攔截無人機的攔截，在紅方無人機突防后，需要飛到待偵查目標附近且保留一定的機動能力進行偵查。如圖5所示，無人機集群紅藍對抗的主要場景及設計要素如下：1)紅方偵查無人機集群：由NH架偵查無人機組成；2)藍方待偵查目標編隊：由NL個待偵查目標組成，五角星表示主要待偵查目標(需要3架紅方無人機偵查保證覆蓋目標)，三角形表示次要目標(需要2架紅方無人機偵查保證覆蓋目標)；3)藍方攔截無人機：針對1架紅方無人機最多可用2架藍方無人機進行攔截；4)集群對抗效能：1架紅方無人機成功偵查目標得1分，成功偵查主要目標最多得3分，成功偵查次要目標最多得2分，所得總分即為集群對抗效能；5)集群對抗效能比：為了對比不同想定之間的效能，定義集群對抗效能比為集群對抗效能除以理論最大效能。想定的名稱用“NHV NL”表示。

圖5 典型對抗場景示意圖Fig.5 Typical confrontation scenarios

設置多個典型無人機集群對抗想定(如8V5、8V7、12V10、18V12、18V14等)訓練策略網絡，設定紅藍對抗雙方的初始位置和速度等參數的合理變化范圍，每一局對抗訓練隨機選取一個想定和一組參數來設置對抗態勢，則通過大量對抗仿真可得到多樣化的對抗訓練數據。

藍方的對抗模型和策略通常采用基于專家知識的方式進行建模，然后進行紅藍對抗仿真對紅方策略網絡進行單方面訓練，而基于藍方單一策略對紅方策略網絡進行訓練容易過擬合，導致紅方策略單一且對藍方策略的變化缺乏泛化性，難以適應高動態的實際戰場環境。

設計藍方策略網絡，智能決策藍方攔截無人機的攔截目標和起飛時機，紅藍策略網絡在無人機集群紅藍對抗仿真平臺上采用紅藍博弈方式進行訓練。紅藍博弈訓練方法流程如圖6所示，在每個并行的博弈環境中，紅藍策略網絡視對方為環境進行學習。為增強博弈訓練中策略學習的穩定性，在每個博弈周期的訓練中，固定紅藍雙方中一方的策略，訓練另一方。在每一個博弈周期結束后，根據紅藍方策略的表現進行優勝劣汰，將實力相當的紅藍策略網絡配對，進行下一周期的博弈，如此往復，不斷提升紅方策略網絡對不同藍方策略的泛化性。

多平臺分布式紅藍博弈訓練場景如圖7所示。

圖6 紅藍博弈訓練流程Fig.6 Red blue game training process

圖7 多平臺分布式紅藍博弈訓練場景Fig.7 Multi platform distributed red blue game training scenario

4 仿真校驗

4.1 有效性校驗

采用基于多隨機場景的紅藍博弈訓練方法對紅方和藍方策略網絡進行訓練，得到最優的紅方策略網絡(紅AI)，以18架無人機集群偵查14個藍方目標編隊(18V14)為例來闡述仿真與測試結果。紅方按照遺傳算法決策，得到的典型紅藍對抗平面軌跡如圖8(a)所示；紅方按照策略網絡決策，得到的典型紅藍對抗平面軌跡如圖8(b)所示。

圖8 典型平面軌跡Fig.8 Typical plane trajectory

圖8中，軌跡末端“×”表示紅方無人機被藍方無人機攔截或機動能力不足導致偵查失敗。由圖8可得遺傳算法的突防概率為8÷18=44%，集群對抗效能比為7÷18=39%；紅AI的突防概率為16÷18=89%，集群對抗效能比為15÷18=83%。通過對比可知：紅AI可以為紅方無人機集群分配合理的偵查目標和規劃有效的突防和成功偵查目標軌跡，有效提高了集群對抗效能。

紅AI訓練過程曲線如圖9所示。

圖9 集群對抗效能訓練曲線Fig.9 Efficiency training curve of group confrontation

圖9中的訓練曲線為單平臺訓練過程，仿真次數為200時，紅AI收斂。采用60個無人機集群紅藍對抗仿真平臺進行多平臺分布式紅藍博弈訓練，因此紅AI的訓練收斂次數約為200×60=12000次。

遺傳算法和紅AI測試得到的性能對比如表2所示。由表2可得，紅AI相比基于遺傳算法在集群對抗效能上提升了約95%，說明了本文方法的有效性。

表2 遺傳算法與紅AI性能對比Table 2 Performance comparison between genetic algorithm and red AI

4.2 泛化性校驗

通過對12V10、18V14等場景進行隨機訓練，得到的策略網絡在未訓練過的場景上(13V10、17V15)進行泛化性測試，得到的結果如表3所示。由表3可得，策略網絡在未訓練過場景上的適應性平均大于90%，說明紅AI具有一定的泛化性。

表3 泛化性測試Table 3 Generalization testing

4.3 先進性校驗

將集中式架構訓練得到的集中式AI、分層式架構訓練得到的分層式AI分別在無人機集群紅藍對抗仿真平臺測試，得到的性能對比結果如表4所示。

從表4中可以得到以下結論：1)集中式AI在有限計算資源條件下難以收斂；2)分層式AI多任務迭代訓練耗時大，且未得到全任務最優策略；3)混合式AI學到了多耦合任務間的協同能力，得到了全任務最優策略，相比分層式AI在集群對抗效能上提升了約31%；混合式AI策略網絡收斂速度較快，相比分層式AI收斂速度提升567%。上述結果表明：在多耦合任務決策問題上，混合式深度強化學習架構相比集中式和分層式架構，具有較強的先進性。

表4 三種架構性能對比Table 4 Performance comparison of three architectures

5 結論

本文針對復雜場景下無人機集群對抗中協同目標分配和突防軌跡規劃等多耦合任務的決策問題，提出了一種集群對抗多耦合任務智能決策方法。設計了面向多耦合任務的混合式深度強化學習架構、基于軌跡構造的一步式動作空間設計方法和基于多隨機場景的紅藍博弈訓練方法，解決了無人機集群對抗在線決策耦合任務多、決策空間大和場景不確定等難題，增強了策略網絡的收斂性能和泛化性，提升了無人機集群對抗多耦合任務間的協同性、集群對抗效能。通過與傳統方法、集中式架構方法和分層式架構方法進行對比，驗證了本文提出方法的有效性和先進性。