基于EAS+MADRL的多無人車體系效能評估方法研究

2021-11-29 05:54:16郭齊勝董志明楊紹卿

系統工程與電子技術 2021年12期

高昂, 郭齊勝,*, 董志明, 楊紹卿

(1. 陸軍裝甲兵學院演訓中心, 北京 100072; 2. 國防科技創新研究院, 北京 100071)

0 引言

無人作戰系統通過優異的戰場表現獲得了巨大的發展動力,無人作戰開始步入戰爭舞臺[1]。美陸軍首套下一代戰車由6臺試驗原型機組成,于2019年底交付,2020年初開始試驗,2028～2035年之間實現下一代戰車的正式應用[2]。美國陸軍認為,下一代戰車在與實力相當的對手開展的近戰中必須具有優勢和決定性殺傷力。為達到這一目的,美軍開始運用人工智能技術發展戰車自主能力,不僅要求作戰人員遙控駕駛戰車向目標實施火力打擊,同時要求戰車具備優秀的自主作戰能力。多無人車(multi unmanned ground vehicle,MUGV) 協同作戰具有增加信息感知量、提高任務完成率、縮短任務完成時間等優勢,將成為未來作戰的主要樣式[3]。效能是武器裝備體系在特定作戰約束條件(包括作戰環境、作戰條件、作戰威脅等)下,完成規定作戰使命任務效果的度量,對應的是其能力的匹配程度。能力描述的是體系固有的本領,是靜態的概念,效能是能力發揮出來的效果。體系效能與作戰過程有關,具有整體性、動態性、對抗性,是體系在對抗條件下完成具體任務的效能[4-5]。武器裝備需求論證是為裝備發展提供決策依據的研究工作,研究對象是未來要發展的裝備要求,輸入是作戰單元的使命任務,輸出是滿足使命任務需求的裝備需求方案。武器裝備體系效能評估是基于對抗進行武器裝備體系論證研究的核心問題。本文基于未來作戰場景設想,開展近戰場景下的MUGV要點奪控、定點清剿等進攻戰斗任務體系效能評估問題研究。

1 相關工作

體系效能評估方法包括分為數學解析、不確定性推理、復雜網絡、作戰環、探索性分析、建模仿真等方法[6],表1為6類典型評估方法對比。近戰場景下的MUGV要點奪控、定點清剿等進攻戰斗任務屬于高動態、交互復雜、狀態空間與動作空間維度高的體系對抗問題,以上方法難以適用。

表1 體系效能評估方法對比

探索性分析仿真(exploratory analysis simulation,EAS)是將探索性分析與建模仿真相結合的方法,是基于計算機仿真實驗最大限度的模擬體系作戰對抗狀態,利用大樣本空間和定性/定量分析方法探索裝備體系作戰效能的方法[7],為MUGV體系效能評估提供了可行途徑。虛擬實體行為建模方法可分為兩大類,一是將戰術對抗復雜系統運行規律的理解模型化,并使用公式將各種因素綜合權衡的傳統方法[8-9],二是直接對戰術對抗復雜系統運行規律的認知進行建模的自主學習方法,該方法以多智能體深度強化學習類(multi agent deep reinforcement learning,MADRL)方法為代表,構建認知智能體,讓智能體自動學習和獲取復雜系統深層次的規律,相較于傳統方法更能體現體系的整體性、動態性、對抗性等特點[10]。

體系效能的發揮不僅與裝備性能和裝備在作戰環境中的可用性、可靠性相關,而且與裝備作戰過程中使用的策略、完成使命任務所涉及的作戰環境、作戰對手密切相關,作戰對手又包括敵方兵力部署、裝備性能、作戰使用的策略等。MADRL方法是將MUGV作戰過程看作為多個智能體在多種狀態下進行的動態博弈,將MUGV體系置于作戰仿真環境中,使用隨機博弈(stochastic game,SG)框架來形式化多智能體與環境的交互。由于戰爭的不可重復性,不同的作戰過程、體系效能會有所變化,智能體通過與環境交互探索,演化出大量不同的作戰過程,從中學習MUGV最優聯合策略,最大化多智能體累積聯合獎勵,探索體系能夠發揮出的最大效能。

如圖1所示,本文基于探索性仿真分析框架,以自主學習方法為基礎,提出EAS+MADRL的MUGV體系效能評估方法。該方法以MUGV最大體系效能為學習對象,以體系效能度量因素確定條件下,MUGV最優聯合策略為學習目標,最大化累積聯合獎勵。通過設計獎勵函數,使最大化累積聯合獎勵與體系效能成正相關關系,考察在輸入因素不確定條件下體系效能的變化情況,發現體系效能與輸入因素之間的重要關系,探索滿足約束條件時各因素的變化情況,探索MUGV最大體系效能。

圖1 ESA+MADRL方法思路圖Fig.1 Thought diagram of ESA+MADRL method

EAS+MADRL方法步驟如圖2所示,從待評估的武器裝備體系入手,明確問題背景,武器裝備具體應用,建立體系效能指標,構建探索性分析模型,進行仿真實驗與探索計算,最后對仿真數據分析,得出高價值評估結論,建立更可信、可用的體系效能評估方法。

圖2 ESA+MADRL方法框架Fig.2 ESA+MADRL method framework

2 基于零和隨機博弈的MUGV探索性分析建模

圖3 隨機博弈過程示意圖Fig.3 Schematic diagram of stochastic game process

S為當前博弈的狀態空間;Ai為藍方UGVi的動作空間,A=A1×A2×…×Am表示藍方m個UGV聯合動作空間,i∈[1,m];Bi為紅方UGVi的動作空間,B=Bm+1×Bm+2×…×Bn表示紅方n-m個UGV聯合動作空間,i∈[m+1,n];動作是指UGV在戰斗行動中,為完成任務而在一段時間內持續進行的最小操作,是UGV狀態轉換中分辨率最高、最基本的行為要素。這里動作均指戰術動作?？臻g是由向量組成的一個非空集合。動作空間是一個用來表示UGV戰術動作的向量的集合,通過向量間的組合,可以表示出UGV的任何戰術動作。聯合動作空間是一個用來表示MUGV聯合戰術動作的向量的集合,通過向量間的組合,可以表示出MUGV的任何聯合戰術動作。

P∶S×A×B→Δ(S),為狀態轉移函數,決定了給定任意聯合動作a∈A,b∈B,從任意狀態s∈S到任意狀態s′∈S的狀態轉移概率。在對抗過程中,P是未知的;ri∶S×A×B→R,為UGVi的獎勵函數,定義了當UGV在狀態s下,藍方UGV執行動作a,紅方UGV執行動作b,狀態s被轉換為s′時,獲得的瞬時獎勵。在t時刻,UGVi根據狀態st執行動作ai,t(i∈[1,m])或bi,t(i∈[m+1,n]),系統狀態轉移至st+1,UGVi獲得獎勵值ri(st,a(t),b(t)),a(t)=(a1t,a2t,…,ant),b(t)=(bm+1,t,bm+2,t,…,bn,t)。UGVi的目標都是通過找到一個策略πi∶S→Δ(Ai),即ai,t～πi(·|st),來最優化自己的長期獎勵。隨機博弈中的多個UGV需要選擇動作,形成聯合動作,并且下一個狀態和獎勵取決于該聯合動作,每輛UGV有自己獨立的獎勵函數。

2.1 狀態空間設計

MUGV的聯合狀態空間S應包括戰場環境、紅藍雙方兵力數量、狀態等信息,需要從中選擇有限維數的關鍵狀態作為S的元素。MUGV保持較好的位置關系并根據對方情況適時進行隊形變換、進攻、防御,隨時保持在相對于對方最佳的位置進行戰斗,方能發揮體系的最大作戰效能。因此,將S分為共享狀態空間Sshared和局部狀態空間Slocal兩部分,即S={Sshared,Slocal}。Sshared在UGVS間共享,使得每輛UGV具有全局視野,具體包含表2所示信息。

表2 MUGV共享狀態空間設計

Slocal通過UGV探測感知得到,輔助UGV具體動作實施、調整,以UGVi為例,包含表3所示信息。其中,i=1,2,…,m,j=1,2,…,n。

表3 MUGV局部狀態空間設計

以上元素值需要進一步規范化,使得聯合狀態值在合理范圍內變動。

2.2 動作空間設計

UGV的動作主要是機動和射擊兩類,細化為單位時間步長內機動的方向和距離,射擊瞄準點的方向和距離。因此,UGV動作空間采用[-1,1]的連續實數變量描述,Ai={p,θ,ρ},p表示執行攻擊或移動動作的概率,θ,ρ分別表示執行動作的角度和距離,θ,ρ用極坐標形式表示,用來描述UGV從當前位置執行射擊或機動動作的目標點,如圖4所示。

圖4 動作空間設計思路圖Fig.4 Action space design idea diagram

以UGVi為例,具體表述如表4所示。

表4 UGV動作空間設計

在執行攻擊動作時,選擇離目標點最近的紅方UGV作為藍方UGV的攻擊目標進行攻擊。MUGV聯合戰術動作包括隊形展開、發起沖擊、集火射擊等,為了避免動作空間過大,動作空間設計的原則是用盡可能少的向量參數,表示出盡可能多的戰術動作。圖5(a)所示為MUGV隊形展開戰術動作,ρ1,ρ2,ρ3均小于1,說明MUGV此時處于一個較小的范圍內;p1,p2,p3均小于0,說明UGV處于機動狀態;θ1=30°,θ2=90°,θ3=150°表示車體角度為3個不同的方向。因此,聯合動作(a1,a2,a3)表示MUGV正在隊形展開。同理可知圖5(b)所示為MUGV集火射擊動作。

圖5 聯合戰術動作空間設計思路圖Fig.5 Diagram of joint tactical action space design

2.3 獎勵函數設計

定義藍方時變全局獎勵函數如下所示：

(1)

3 面向MUGV體系效能評估的探索性算法

本節分別對MUGV作戰效能評估探索性算法原理進行分析和設計。

3.1 算法原理

(2)

式中：π-i=[π1,…,πi-1,πi+1,…,πn]表示除去i之外的UGV的聯合策略。在NE,每個UGV的策略是其他UGV聯合策略下的最優策略。MUGV控制本質上可以看作是尋找對整個體系的最優控制策略。通過探索不同紅方MUGV規模條件下,藍方MUGV ZSG模型的NE解,以及分析NE條件下參戰雙方戰損比、作戰時長等約束,完成MUGV體系效能評估,圖6所示為體系效能評估探索性算法步驟圖。

圖6 體系效能評估探索性算法步驟圖Fig.6 Exploratory algorithm step diagram for system effectiveness evaluation

零和隨機博弈屬于隨機博弈,同時,零和隨機博弈的所有狀態必須定義為一個零和矩陣博弈。隨機博弈的解,可以描述為一組關聯特定狀態矩陣博弈中的NE策略,零和博弈的NE是一種最大化值函數策略。因此,在每個特定狀態矩陣博弈的NE策略的集合為零和隨機博弈最優策略[14-15]。圖7所示為零和隨機博弈最優策略求解思路圖,通過強化學習方法架起多智能體系統與尋找NE的橋梁。

圖7 零和隨機博弈最優策略求解思路圖Fig.7 Optimal strategy solution diagram of zero sum stochastic game

(3)

(4)

3.2 算法設計

步驟 1初始化紅方UGVS規模,藍方UGVS Actor網絡θ和Critic網絡ξ,目標Actor網絡θ′←θ和Critic網絡ξ′←ξ,經驗緩存池D。設置最大探索批次(maxepoch),每批次(epoch)包括N次作戰過程演化,每次作戰過程最大仿真步長T。

步驟 2針對每次作戰過程演化,執行以下操作:

步驟 2.2初始化隨機過程μ用于動作探索;

步驟 2.3接收初始觀察空間s1;

步驟 2.4針對每個仿真步長t,執行以下操作:

步驟 2.4.1針對每輛UGV,選擇和執行動作ai,t=ai,θ(st)+μt;

步驟 2.4.4從D中隨機采樣M個狀態轉換過程;

步驟 2.4.5使用雙向循環神經網絡計算每個轉換過程中每個智能體的目標值,對M個狀態轉換過程,執行下式操作:

(5)

步驟 2.5計算UGVCritic網絡梯度估計,如下所示:

(6)

步驟 2.6計算UGV Actor網絡梯度估計,并采用Critic網絡梯度估計代替Q值,如下所示:

(7)

步驟 2.7采用Δξ,Δθ梯度估計和Adam方法更新UGV Actor、Critic網絡。

步驟 2.8更新UGV目標網絡,如下所示:

ξ′=γξ+(1-γ)ξ′,θ′=γθ+(1-γ)θ′

(8)

步驟 3紅方UGVS是否被完全擊毀,如果是,轉入步驟4,否則,調整UGVS規模,轉入步驟1。

步驟 4輸出作戰效能指標。

4 應用示例

如圖8所示,場景設想在2030年,美俄爭霸在敘利亞地區沖突再起,雙方將大量新型武器投入戰場。在美國的支援下,反政府武裝(藍軍)占領了敘利亞政府廣場,宣告勝利,并操控無人戰車(6臺)組成了嚴密的火力網。政府軍(紅方)在俄羅斯的支援下,決定整建制使用自主作戰無人戰車連進行攻堅戰,目的是消滅藍軍戰車,奪回藍軍占領要點。現要求論證紅方無人戰車連在未來場景設想下的UGV規模。

圖8 MUGV對抗場景示意圖Fig.8 Schematic diagram of MUGV confrontation scene

4.1 實驗設置

(9)

表 5 UAV屬性值設置

圖9 距離要素量化示意圖Fig.9 Distance element quantification schematic diagram

體系效能是針對對手裝備體系及其采用的策略μ來說的,是一個相對量。設置藍方的策略μ為“就近攻擊”,即在每次行動決策時,總是操控UGV選擇離其最近的目標先敵開火,單位時間步長內最多可同時控制6臺UGV。

4.2 實驗結果與分析

由epoch=150,N=20可知,總共進行了3 000次作戰過程的演化探索,其中圖10～圖12所示分別為紅方體系效能區間分布、紅方勝率區間分布、紅方最大體系效能值隨其UGV規模變化情況。通過對實驗結果分析,可得出以下結論。

(1) 體系效能更可能服從一個分布,而不是一個固定值。復雜系統結構動態可變,過程涌現不可預測,結果不重復,但又表現出總體的規律性,不以人的意志為轉移。給體系效能指標一個最終量化值可能無法完全概括體系的性能,或者無法完全說明問題,體系效能的指標量化更有可能是從推演產生的數據中得出的一個概率分布。由于基于自主學習的虛擬實體具有作戰能力等級,并且產生的行動序列具有多樣性,因此可以模擬出復雜系統的適應性、涌現性、不確定性,進而產生的數據更貼近復雜系統運行規律?；谝巹t的虛擬實體生成方法,作戰行動序列較為固定,能力等級不明確,因此,產生的數據無法很好反應復雜系統規律。

(2) 體系中并是不裝備的數量越多越好,隨著裝備數量的增加,體系能力增強,同時也意味著更多戰損,指控難度增加。由圖10可以看出,當UGV數量為6時,釋放的體系效能值大部分在[20,30)區間,當UGV數量為7時,釋放的體系效能值大部分在[0,10)區間。同時,由圖11可知,當UGV數量為6時,落在[0.8,1]勝率區間有80個批次,UGV數量為7時有50個批次,圖10與圖11相互印證。

圖10 紅方體系效能區間分布圖Fig.10 Distribution diagram of efficiency interval of the red side

圖11 紅方勝率區間分布圖Fig.11 Distribution diagram of winning rate interval of the red side

(3) 最大體系效能值隨UGV數量呈非線性變化,當UGV達到一定數量時,釋放的最大體系效能會發生由量變到質變的變化。由圖12可知,當UGV數量由4輛增加至5輛時,釋放的最大體系效能增加4.27,當UGV數量由5輛增加至6輛時,釋放的最大體系效能增加25.57,此時,最大體系效能發生了驟增,1輛UGV之差,最大體系效能增加至約是原來的3.12倍。當UGV數量由6輛增加至7輛時,釋放的最大體系效能增加1.87,最大體系效能達到了“瓶頸期”,沒有發生太大變化。

圖12 紅方最大體系效能變化圖Fig.12 Changes of maximum system efficacy of the red side

圖13為UGV數量為5時的一些典型戰斗場景,圖13(a)為MUGV集火攻擊戰術場景,圖13(b)為MUGV邊打邊撤的游擊戰術場景,無論哪種戰術,釋放的體系效能都無法戰勝對手MUGV體系。這與圖10紅方勝率區間分布圖中,UGV數量為5時,勝率分布全部在[0,0.2)區間相互印證。圖14為UGV數量為6時的集火攻擊戰術典型戰斗場景,圖15為UGV數量為7時的包圍戰術典型戰斗場景,可以看出,此時釋放的體系效能完全可以戰勝對手MUGV體系。

圖13 UGV數量為5時的戰斗場景Fig.13 Combat scene when UGV number is 5

圖14 UGV數量為6時的集火攻擊戰術戰斗場景Fig.14 Concentrated fire attack tactical combat scene when UGV number is 6

圖15 UGV數量為7時的包圍戰術Fig.15 Surrounding tactical combat scene when UGV number is 7

綜上分析可知,紅方UGV連在未來場景設想中,藍軍遙控遠程6輛M型UGV,采用矩陣隊形進攻,以及就近攻擊策略條件下,規模為6輛M型UGV。

5 結論

本文針對MUGV體系效能評估問題,建立了一套以自主學習方法為基礎的探索性仿真分析方法。由于方法以零和隨機博弈模型為基礎,雙方UGV為完全競爭對抗關系,因此,方法適用于未來UGV要點奪控、定點清剿等進攻戰斗近戰場景下的體系效能評估問題。通過探索不同UGV規模條件下,模型一方的NE解,以及分析納什均衡條件下參戰雙方戰損比,作戰時長等約束,完成MUGV體系效能分析。由于是探索模型一方的NE解,因此,假想敵一方的策略需要服從固定分布。這要求在裝備體系論證過程中,對假想敵UGV的技術路線、作戰條令等有所了解,從而對策略做出合理假設,例如假想敵的UGV采用就近攻擊、先敵開火的作戰條令原則,或UGV是采用了某種算法。由于實際作戰過程是非完全信息博弈,本文采用的模型假設作戰過程是完全信息博弈,雙方裝備對抗體系已知,因此,方法主要面向裝備論證領域,不適用于實際作戰領域。