面向LVC訓練的藍方虛擬實體近距空戰決策建模

2021-05-31 13:49:30董志明郭齊勝

系統工程與電子技術 2021年6期

關鍵詞：優化

高昂, 董志明,*, 李亮, 段莉, 郭齊勝

(1. 陸軍裝甲兵學院演訓中心, 北京 100072; 2. 中國人民解放軍61516部隊, 北京 100076)

0 引言

真實-虛擬-構造(live-virtual-constructive, LVC)源自美軍訓練模擬領域專業術語,特指實物模擬系統、虛擬模擬系統和推演模擬系統集成形成的綜合模擬訓練系統環境,提供了一種可擴展、高保真、多領域仿真能力,解決了目前實裝訓練面臨的經費、地域、演習頻率、實時評估限制等難題[1]。目前,LVC戰術對抗訓練中,虛擬實體主要通過對人類作戰行為建模,對仿真戰場環境中的事件和狀態作出機動、射擊等決策,與人在環的模擬器交互,構建完善的裝備對抗體系。其決策模型直接影響人員和裝備在環境中的狀態和所能反饋信息的種類和質量,進而對訓練效果產生影響。臨近空間是未來實現空天進攻突襲的新戰場,近距空戰是未來戰爭主要樣式之一,也是軍事訓練的重要課題[2]。目前,世界主流戰機的高空最大速度為2～2.2馬赫,即飛行員需要以約2 450～2 695 km/h的速度在高空中飛行。兼顧到戰機的機動性、導彈武器的發射以及規避對方的攻擊,實際近距空戰中,戰機速度大多都是在0.8～0.9馬赫高亞音速區。瞬息萬變的近距空戰態勢,使得飛行員需要綜合運用身體、技能和直覺操縱高速戰機完成所有動作,一個細小的失誤將帶來高昂的代價,每個瞬間的決斷都至關重要。因此,針對具體訓練需求設計虛擬實體決策模型,對提升訓練效果具有重要意義。

1 需求分析及相關工作

LVC近距離空戰對抗訓練如圖1所示。紅藍雙方戰機分別由操作模擬器的飛行員與虛擬實體所控制,同在一個虛擬作戰空間中。虛擬實體作為LVC訓練系統中的重要組成元素,主要通過提供“真實的戰斗行動”與操作模擬器的訓練人員交互。如果虛擬實體藍方能夠學習到作戰對手紅方的主要作戰特點,那么藍方在一定程度上便成為了紅方的“化身”,主要體現為:① 虛擬實體擁有了紅方的作戰能力水平，不同對手會有作戰能力水平的差別,戰機性能相同的情況下,作戰能力強的對手能夠準確判斷態勢,抓住戰機,迅速機動至最佳位置,作戰能力弱的對手則容易被動挨打。② 虛擬實體擁有了紅方的作戰風格，不同對手即使作戰能力水平相同,作戰風格也會存在較大差異,例如相同態勢下的攻擊行為,有些對手擅長緊盯對方6點鐘方向,達到射程便開火,有些則擅長迅速爬升戰機,從對方頭頂、背部發起攻擊。由于近距空戰高動態、強對抗的特點,每個戰術動作的實施都直接影響整個空戰進程。軍事訓練遵循由易到難,由簡到繁的循序漸進原則,具有特定作戰特點的決策模型可達到按需訓練,循序漸進提升訓練效果等目的。例如,根據某特級戰機飛行員red_1的對抗訓練數據,學習出具有red_1作戰特點的虛擬實體blue_1。那么,便會有任意多的特級戰機飛行員blue_1分別作為任意多紅方訓練人員red的“陪練”在任意時間、任意地域對抗。根據紅方訓練人員red_2在時間T的對抗訓練數據,學習出具有T時間段red_2作戰特點的藍方虛擬實體blue_2_T。那么,訓練人員red_2便可以和從前的“自己”blue_2_T對抗來檢驗這段時間的訓練效果。

圖1 人機近距空戰對抗示意圖Fig.1 Schematic diagram of close-range air combat between man and machine

空戰智能決策方法的適用性隨所研究虛擬實體的數量、屬性(同構/異構)、任務、作戰場景的不同而有所區別。按虛擬實體數量,將空戰智能決策分為戰斗級、分隊級、集群級3個層面[3-8]。空戰決策方法可歸納4大類:基于知識、推理、規劃方法,基于問題求解方法,基于不確定知識推理方法,基于自主學習方法,如圖2所示。

圖2 空戰智能決策方法分類Fig.2 Classification of air combat intelligent decision methods

近年來,國內外學者對基于自主學習、智能優化類方法的空戰研究較多[8-13]。基于自主學習方法的空戰研究集中在戰斗級虛擬實體近距空戰機動決策[13-19]。仿生優化類方法集中在分隊級中距空戰火力決策[20-25]。另外,戰斗級虛擬實體近距空戰機動決策還有基于博弈論[26]、近似動態規劃[27]、數學求解[28]、貝葉斯[29-30]、模糊理論與其他方法結合[31-32]等方法。自主學習方法的研究熱點又集中在深度強化學習(deep reinforcement learning, DRL)方面。DRL遵循馬爾可夫決策過程(Markov decision process, MDP)或馬爾可夫博弈過程(Markov game process, MGP),是使用MDP或MGP框架來形式化智能體與環境交互,并從與環境交互的經驗中學習最優策略,從而最大化智能體累積期望獎勵的一類方法,為空戰決策建模提供了一種新途徑。相關空戰文獻研究均是針對空戰對手求解最優對抗策略,取得了較大進展,具有重要的軍事意義。

本文試圖構建適用于特定訓練人員實際訓練需求的藍方虛擬實體決策模型,所建模型具有“虛擬陪練”的作用,沒有從求解對手最優對抗策略的角度開展問題研究。目前,智能優化方法主要包括:遺傳算法(genetic algorithm, GA)、人工免疫系統(artificial immune system, AIS)、模擬退火算法(simulated annealing algorithm, SA)、多目標進化算法(multi objective evolutionary algorithm, MOEA)等進化算法;粒子群優化(particle swarm optimization, PSO)、蟻群優化(ant colony optimization, ACO)、人工蜂群算法(artificial bee colony algorithm, ABC)等群體智能算法(swarm intelligence algorithm, SIA)。這類方法可以在解空間內搜索全局最優解,并且可以對多個目標函數同時進行優化,輸出一組非支配的帕累托解集,有效地求解多目標問題,具有良好的全局優化性和魯棒性。由于智能優化類方法可以通過適應度函數來定義所求解問題的目標,進而尋找滿意解,而不僅是局限于求解空戰對手的最優策略問題,同時考慮到神經網絡較強的擬合能力,本文將智能優化方法與神經網絡結合,根據具體訓練需求,構建適應度函數,通過神經網絡實現端到端感知決策,從智能優化理論的角度對神經網絡的權值空間和結構空間進行定義,最終實現能夠滿足適應度函數的神經網絡端到端感知決策,即實現滿足特定訓練人員訓練需求的藍方戰機近距空戰決策。

2 模型構建與求解

藍方虛擬實體決策模型構建思路如圖3所示。虛擬實體由一個權值可以被智能優化算法優化的神經網絡控制,將影響戰斗結果的關鍵飛行狀態數據X={x1,x2,…,xn}作為神經網絡的輸入,戰機的動作空間A={a1,a2,…,am}分布作為神經網絡的輸出,實現虛擬實體端對端的感知與決策控制。將神經網絡權值矩陣W控制的虛擬實體建模為智能優化算法群體中的個體,并初始化為規模為M的群體。針對決策建模需求,構造智能優化算法適應度函數,通過統計固定時間內對抗雙方的戰斗得分,保留得分差距小的個體,淘汰比分差距大的個體,并通過虛擬實體神經網絡權值的不斷迭代尋優,最終達到與訓練人員作戰能力、作戰風格相當的水平,成為該訓練人員的“化身”。

圖3 決策模型構建示意圖Fig.3 Schematic diagram of decision model construction

2.1 關鍵飛行狀態

圖4展示了1對1紅藍近距空戰場景,假定戰機t時刻以固定速度在x-y平面上機動,藍方虛擬實體的目標是學習一種策略來控制戰機機動并保持對對手的位置優勢,進而在射程內發起攻擊。

圖4 飛行運動示意圖Fig.4 Flight motion diagram

將優勢位置[33]定義為

(1)

2.2 飛行動作空間

分析戰機的運動模型,設計戰機飛行動作空間,飛行器的運動方程為

(2)

式中,(x,y,z)表示戰機的坐標;v,γ,φ分別表示戰機的速度、航跡角、偏航角。飛機的動力學方程為

(3)

式中,m,g,L,D,T,α,φ分別表示戰機的質量、重力加速度、升力、牽引阻力、推力、攻擊角度、傾斜角。實際近距空戰中,戰機的速度是一個在高亞音速區連續變化的值,本文在不影響驗證方法有效性的條件下,將問題簡化為戰機在水平面上以固定速度v飛行,v∈[980 km/h,1 102.5 km/k],戰機運動方程簡化為

(4)

2.3 適應度函數

圖5為決策模型求解示意圖,將智能優化算法中個體q建模為權值矩陣為由Wq的神經網絡控制的藍方虛擬實體,假設q在T時間內與訓練人員red進行了K場戰斗。

圖5 決策模型求解示意圖Fig.5 Schematic diagram of decision making model solution

k=1,2,…,K

(5)

紅藍戰機采用空空導彈攻擊對方,導彈數量為1枚,每場戰斗中,紅藍雙方個體勝負的評判標準為

(6)

當出現一方勝利或判斷為平局時,戰斗結束。

(7)

(8)

(9)

定義適應度函數為

(10)

3 基于遺傳神經網絡的模型構建與求解示例

示例設計思路是使戰機飛行員red_x在每次訓練過程中與特定虛擬實體blue_x對抗。blue_x在對抗過程中利用對抗數據優化自身的神經網絡權值,并在每次訓練完畢保存最新神經網絡模型π。當red_x再次進行對抗訓練時,blue_x首先在初始化時加載模型π,并在此基礎上繼續優化模型。雖然隨著訓練時間的增加,red_x的戰技水平在提升,但算法控制的blue_x提升速度要遠超過red_x,最終通過迭代進化與red_x的作戰水平和作戰風格相當。此時,其他飛行員red_y與blue_x對抗,就相當于和戰機飛行員red_x對抗。考慮到LVC訓練系統在建設過程中以及真實對抗數據的敏感性,本文采用具有學習能力的遺傳神經網絡代替真實飛行員red_x,分析訓練迭代過程中blue_x的適應度函數變化、每代擊毀對手所用平均時間變化、每代優化所用時間變化、虛擬實體勝率變化以及對比分析模型收斂后red_x和blue_x在L次對抗過程中的飛行動作序列相似度,驗證藍方虛擬實體學習效果的有效性。

3.1 構建與求解

本節采用經典GA作為優化神經網絡權值的算法,給出藍方戰機決策模型及其求解示例,如圖6所示。

圖6 基于遺傳神經網絡的藍方戰機決策模型構建與求解示例Fig.6 Construction and solution example of blue fighter decision making model based on genetic neural network

輸出最優神經網絡權值。

步驟 1將神經網絡權值W轉換為染色體結構空間。

步驟 2Gen=0,隨機產生M個初始個體Wq,q=1,2,…,M。

步驟 3開啟M個進程,進程q運行個體Wq,如果f(Wq)>M,解碼,輸出最優神經網絡權值,結束尋優;否則,進入步驟4。

步驟 4選擇操作,根據適應度,按照一定的規則,從第Gen代群體中選擇出下一代優良的個體遺傳到Gen+1代群體中:

步驟 4.1j=0;

步驟 4.3執行復制;

步驟 4.4將復制的個體添入新群體中;

步驟 4.5j=j+1;

步驟 4.6如果j=M,執行步驟5;否則執行步驟4.2;

步驟 5交叉操作,將第Gen代群體內的各個個體隨機搭配成對,對每一對個體,以交叉概率pc遵循某一規則交換其部分染色體:

步驟 5.1j=0;

步驟 5.2選擇兩個交叉個體;

步驟 5.3執行交叉;

步驟 5.4將交叉后的兩個新個體添入新群體中;

步驟 5.5j=j+2;

步驟 5.6如果j=pcM執行步驟6;否則執行步驟5.2。

步驟 6變異操作,對第Gen代群體的每一個個體,以變異概率pm改變某一個或某一些染色體基因座上基因值為其他的等位基因:

步驟 6.1j=0;

步驟 6.2選擇基因變異點;

步驟 6.3執行變異;

步驟 6.4將變異后的兩個新個體添入新群體中;

步驟 6.5j=j+1;

步驟 6.6如果j=pmLM,產生下一代群體,執行步驟3;否則執行步驟6.2。

3.2 結果分析

圖7為適應度函數變化曲線,隨著迭代次數的增加,曲線趨于平穩,說明藍方虛擬實體與紅方的戰斗得分差值在減小。

圖7 適應度函數變化曲線Fig.7 Variation curve of fitness function

統計虛擬實體每訓練N輪的標準偏差為

i∈(episode,episode+N-1)

(11)

圖8(a)為藍方虛擬實體每代擊毀對手所用的平均時間步長變化曲線,計算公式為

(12)

可以看出,曲線隨著世代數的增長,呈快速下降趨勢,并逐漸趨于平穩。這說明藍方虛擬實體的作戰能力在增加。圖8(b)為每代優先所用時間變化曲線,計算公式為

(13)

可以看出,由于藍方虛擬實體作戰能力的增加,使得每代擊毀對手所用的平均時間步長減少,導致每代尋優所用時間減少,圖8(a)和圖8(b)相互印證。雖然圖8(b)曲線呈現快速下降,并逐漸趨于平穩的趨勢,但是大致在460代時出現了峰值。結合圖5決策模型求解示意圖以及式(11)可知,導致上述現象的可能原因有:群體交叉、變異產生新的少數個體延長了一代的整體優化時間;紅藍雙方在每場戰斗開始時,位置隨機初始化,并在格斗過程中相互追逐、糾纏,空戰態勢的不確定性導致整體優化時間的波動。

圖8 時間變化統計(以步長為單位)Fig.8 Time change statistics (in steps)

圖9為藍方虛擬實體的勝率隨世代數的變化曲線,計算公式為

圖9 虛擬實體勝率曲線Fig.9 Winning rate curve of virtual entity

(14)

如果個體q勝利,則countq=1;否則,countq=0。可以看出,藍方虛擬實體的勝率在50%上下波動,結合圖7分析可知,雖然藍方虛擬實體的作戰能力在增加,但是勝率并沒有增加,這說明紅藍對抗雙方均在學習如何作戰,用神經網絡模擬的人類飛行員與真實飛行員的差別在于神經網絡的學習速度遠高于人類。

圖10 紅藍方飛行動作序列獲取示意圖Fig.10 Schematic diagram of flight action sequence acquisition of red and blue

為進一步驗證藍方戰機可實現通過與對手對抗來學習對手作戰特點的能力,定義B和R的相似度D計算公式為

(15)

式中,len(B)和len(R)分別表示序列B和序列R的長度;min(len(B),len(R))分別表示序列B和序列R長度的最小值;MCOSS(B,R)為B和R的最長公共作戰行動子序列(maximum common operational sub-sequence,MCOSS)。值得注意的是,子序列是有序的,但不一定是連續的。用動態規劃方法計算MCOSS(B,R)為

MCOSS(B,R)=

(16)

式中,序列B=(b1,b2,…,bT),R=(r1,r2,…,rT)中,head(B)表示b1,rest(B)表示(b2,b3,…,bT),head(R)表示r1,rest(R)表示(r2,r3,…,rT),ε為判斷閾值。使用極坐標(ρ,θ)表示戰機的位置,ρ和θ分別表示戰機質心的極徑和極角。戰機的飛行動作序列可進一步用(ρ,θ,φ,f)四元組表示,f表示是否開火(f=1開火,f=0未開火),即bi=(ρi,θi,φi,fi),rj=(ρj,θj,φj,fj),只有當bi-rj<ε時,才認為元素bi=rj,ε=(Δρ,Δθ,Δφ,Δf),即

1對1近距空戰是雙方戰機相互搶占優勢位置,擺脫劣勢位置,并在構成開火條件時,先對方命中目標的過程。一方戰機位置的優勢與劣勢是相對于對方戰機的距離、角度來說的。因此,戰機在追逐,盤旋格斗過程中,作戰能力水平相當的雙方戰機,會在作戰行動序列上呈現一定的相似性。采集L=10場戰斗的紅藍戰機飛行動作序列B和R,設置戰機位置誤差Δρ=100 m,Δθ=10°,根據格斗導彈構成開火條件的離軸角范圍,設置Δφ=30°,Δf=0.5來判斷戰機的射擊動作是否相同。使用式(14)對飛行動作序列相似度進行統計,如表1所示,飛行動作序列平均相似度為0.68,該值會隨Δρ,Δθ,Δφ的設定而有所變化。算法試圖從近距空戰的制勝原理出發,將關鍵飛行狀態作為輸入,目標函數僅是淘汰比分差距大的個體,保留比分差距小的個體,并沒有淘汰作戰行動序列相似度低的個體,保留作戰行動序列相似度高的個體。這是因為戰機的優勢、劣勢位置并不是單一的,對戰雙方的策略也不是單一的,這也在一定程度上避免了神經網絡的過擬合。戰斗得分小于某一閾值,可以認為戰機的作戰能力是相當的。在此基礎上,飛行動作序列平均相似度超過0.5,可以說明作戰能力水平相當的雙方戰機,作戰行動序列會在空戰過程中呈現一定的相似性。圖11為紅藍雙方飛行動作序列軌跡的極軸-偏航角坐標可視化表示。其中,紅色軌跡為紅方戰機的飛行動作序列,藍色軌跡為藍方戰機的飛行動作序列。從圖11中可以看出,紅藍雙方的飛行運動軌跡具有一定的相似性,與式(14)的計算結果相互印證,進一步說明了藍方戰機可實現通過對抗數據來學習對手作戰特點的功能。

表1 飛行動作序列相似度統計

圖11 紅藍雙方飛行動作序列圖Fig.11 Sequence diagram of actions for red and blue flight

表2 紅方作戰行動序列相似度矩陣

表3 藍方作戰行動序列相似度矩陣

(17)

可以看出,紅、藍方作戰行動序列間的平均差異度分別為0.19和0.21,數值均較小,說明各方策略差異均較大,具有多樣性。

4 結論

本文針對LVC近距離空戰對抗訓練對藍方虛擬實體決策建模需求,提出基于智能優化算法的神經網絡進化方法構建決策模型,通過實驗數據分析,藍方虛擬實體可實現通過與對手對抗來學習對手作戰特點的功能。這使得藍方虛擬實體通過加載訓練好的模型可滿足任意多紅方訓練人員在任意時間、任意地域與“特定作戰對手的化身”或者“以前的自己”展開對抗訓練,從而達到提升訓練水平、降低訓練成本的目的,同時為智能藍軍建設提供了有效技術支撐。所提方法對目前智能優化類算法及其改進類型,以及不同結構的神經網絡具有通用性。

本文不足之處在于由于目前不具備人類飛行員與虛擬實體對抗的條件,所以暫且使用了具有學習能力的神經網絡來模擬紅方訓練人員,下一步會將方法應用于實際LVC訓練系統中,從實際應用角度進行綜合驗證和分析。