基于深度強化學習的艦艇空中威脅行為建模

2020-11-26 07:41:56房霄曾賁宋祥祥賈正軒

現代防御技術 2020年5期

房霄,曾賁,宋祥祥,賈正軒

(北京電子工程總體研究所，北京 100854)

0 引言

在空中、水面、水下等方面作戰中，空中威脅是當前海軍艦艇作戰所面臨的最為嚴重的威脅，快速機動的各式作戰飛機以及低空掠海反艦導彈能夠為整個作戰編隊帶來毀滅性的打擊，因此海軍艦艇對空方面作戰是海軍遠海作戰的基礎和保障。

隨著海戰場作戰樣式和武器裝備越來越復雜，海軍艦艇對空方面作戰無論從指揮訓練還是對抗操作訓練都面臨極大挑戰。這里面最為核心的就是對空中威脅場景的構建。當前主要的方式是對抗樣式預先設計和規劃好，在執行過程中不能根據戰場條件變化進行實時調整，與實戰狀態下的空中威脅相差甚遠，無法為我海軍艦艇防空作戰提供足夠的訓練支撐。

同時近些年智能化的快速發展，AI智能越來越多的出現在美軍的訓練過程中，美軍模擬訓練正向實戰化、智能化、體系化發展。其中智能化的訓練是其實現實戰化訓練的重要手段和標志。特別是，智能化不僅為未來戰場帶來了徹底的顛覆，也為在智能化條件下的部隊訓練帶來巨大挑戰。NVIDA公共事務部副總裁安托尼羅賓就指出：“AI將在創建合成環境，模擬對手軍隊，創建挑戰性想定，等等模擬和訓練的各個方面大顯身手，能夠有效推動戰斗人員學習更多新技能”。

本文就是在這樣的背景下，利用深度強化學習技術開展了對于海軍艦艇空中威脅行為建模的方法研究，構建了攻防對抗場景并進行了單機突防的仿真驗證，初步驗證了深度強化學習方法在空中威脅行為構建場景的可行性，為后續深入開展編隊聯合防空訓練場景構建提供支撐。

1 艦艇空中威脅場景分析

1.1 空襲體系的隱蔽與突襲戰術

空襲體系攻擊的隱蔽性包括廣泛利用現代空襲兵器的低空飛行性能，利用地形和地物的遮擋繞過預警雷達場，從而使防空方的指控中心、防空導彈和高炮來不及作好戰斗準備，防空殲擊機來不及起飛迎敵。

為了對抗隱蔽飛行的空襲兵器和高速飛行的空襲武器，客觀上要求防空體系指控中心和防空兵器進一步縮短戰斗準備時間。

由于現代巡航導彈的隱身性能和應用地形匹配技術，被攻擊方在沒有準備的情況下發現它們的概率很低，即使個別被發現，甚至被擊毀，也不會影響大批巡航導彈飛向擬攻擊的目標。

1.2 對防空體系的火力壓制戰術

現代空襲體系突防的基本戰術已不是逃避攻擊，而是首先摧毀防空方的防空體系和防空兵器，用硬殺傷的方法奪出制電磁權和制空權。

攜帶空地反輻射導彈的防空壓制飛機，投放空地反輻射導彈有2種方法：一是按預先測定的防空雷達所在位置的坐標和輻射電磁波的頻率，或者按預警機或偵察機臨時測定的參數，從視線外發射空艦反輻導彈進行打擊；二是在沒有預先給定的防空雷達坐標和輻射頻率時，由載機自行探測目標，在防空雷達視線內捕獲目標并發射空艦反輻射導彈，由空艦反輻射導彈的導引頭自行跟蹤目標，載機迅速轉彎、降高退出防空雷達的視線。

1.3 大規模高密度攻擊戰術

對于海上大型艦船編隊(如航母編隊)和戰區中心地帶，現代空襲一次出動約100～300架飛機，并配以數百架無人機，再加上從地面、艦艇上發射的巡航導彈，可能達到2 000個以上的空襲兵器(含飛機上發射的空艦導彈)，一次空襲作戰過程只有10～15 min。時間短，空中目標多，從而形成多層次的飽和攻擊。防空體系面臨提高火力強度(單位時間射擊目標數)的強烈要求[1]。

2 典型的空中威脅建模方法

2.1 典型方法

對于海軍艦艇空中威脅的模擬，一般從4個方面考慮，分別為平臺運動特征模擬、探測能力模擬、決策能力模擬以及武器能力模擬。

(1) 平臺運動特征模擬

平臺運動特征模擬典型的方法為點跡建航法和六自由度建模法。點跡建航法主要思路為將空襲平臺抽象為一個質點，通過構建質點運動約束實現質點的運動模擬，考慮的約束一般包括平臺升限、速度、轉彎半徑等條件。六自由度建模相比點跡建航法，能夠更加精細地實現對飛行器運動特征的模擬[2]。

(2) 探測能力模擬

探測能力模擬主要模擬機載平臺探測雷達威力。分為雷達威力包絡模擬以及信號注入模擬等。在航空兵仿真模擬中應用較多，在防空模擬訓練中應用較少。

(3) 決策能力模擬

決策能力模擬主要模擬作戰中的指揮決策過程，往往體現了戰役的戰術意圖以及飛行員或指揮員的戰斗意志，在某些場景下往往采用博弈論或者優化算法對指揮決策行為進行建模。比較典型的方法為應用粒子群優化算法尋找最優突防路徑以模擬飛行員突防尋優過程。但隨著艦艇數量及飛機數量的遞增，該優化問題的求解空間將逐漸增大至不可求解，而且極大消耗計算資源，很難適用于計算資源有限的武器裝備模擬訓練中。

(4) 武器能力模擬

武器能力模擬則較為常用，一般也會采用點跡建航法和六自由度建模法進行建模。和飛行器不同的是，大部分打擊武器的軌跡具備有較為明顯的彈道特征，比如TBM類武器，ARM武器，在進行建模時，會采用彈道擬合法，通過數據模型與實際靶彈數據進行擬合，抽象出彈道擬合公式進行彈道的模擬[2]。

2.2 存在問題

艦艇編隊防空作戰模擬訓練的主要目的是作為實戰訓練的補充在優化訓練成本的基礎上實現常態化、實戰化的作戰訓練。然而隨著防空武器的信息化程度的快速發展，原有的目標威脅建模方法已經很難滿足部隊實戰化訓練需求，主要表現在：

(1) 威脅建模方法不足，隨著場景的復雜化，已經無法通過常規手段建立可靠、好用的模型；

(2) 對抗實戰程度不高,在防空訓練過程中，假想敵往往由于對藍軍進攻戰術戰法和兵器的不了解而模擬的比較簡單；

(3) 對抗過程不夠完善,沒有考慮敵方進攻條件下的對抗過程，比如對于敵方反輻射導彈攻擊下的要地防衛，或者在復雜干擾環境下的電磁對抗等。

3 面向艦艇空中威脅行為建模的智能設計技術

近年來，在大數據、云計算、機器視覺等技術突飛猛進的基礎上，人工智能的應用前景得到了空前的發展，并逐步向著自主學習、數據驅動、虛實融合的方向演化，進而逐漸在應對多維度的復雜設計問題上實現了顛覆性的突破，甚至在一些領域上超越了人類，如面向圍棋/中國象棋/國際象棋、DOTA2/星際爭霸II等博弈對抗的系統設計上已經完美超越人類。

特別地，DeepMind公司推出基于深度強化學習、聯盟學習等新一代人工智能技術的AlphaStar智能體，在DOTA2/星際爭霸II這類博弈對抗游戲中，通過保持資源要素的合理調配、作戰單元的臨機決策為前提，短期、長期的目標規劃，最終以精妙的戰術規劃、靈巧的進攻方式擊敗對手。類比到艦艇編隊模擬訓練場景中，諸如不完備信息條件下的對抗博弈，長遠規劃策略學習以及大規模交戰及決策空間求解等問題已經在AlphaStar智能體上有所突破[3]。

因此，本文采用基于深度強化學習的方法，擬突破典型的空中威脅建模方法的約束，驗證人工智能技術在軍事模擬領域的可行性。

3.1 場景定義

為簡化問題求解，本文考慮的作戰場景為單機突防單艦防御的場景，在該場景下，單機按特定策略飛行靠近艦艇、飛抵可投彈區域、完成投彈并成功脫離戰場。而艦艇則以發現來襲敵機，并對其進行防空打擊為作戰任務。

在此設定下，所需解決的問題可以抽象為在考慮飛機模型、艦艇模型以及交戰條件模型約束下，對單機突防任務的策略進行尋優。

3.1.1 飛機模型

為進一步簡化問題求解，本文將飛機模型考慮為質點模型。此外，考慮飛機飛行性能以及投彈能力的限制，本文對于飛機運動及投彈過程采取如下限制：

(1) 運動特征模型

飛機采用點跡模擬法，飛機最小轉彎半徑限制，設為Rmin，即任意時刻飛機的轉彎半徑R須滿足R≥Rmin。飛機飛行高度約束為H∈[Hmax,Hmin]。飛機加速度約束為單軸加速度ax,ay,az必須滿足ax,ay,az∈[amax,amin]，運動坐標系為北天東坐標系。飛行合速度限制在v∈[vmax,vmin]范圍內。

(2) 投彈能力模型

設定飛機在投彈過程中需沿當前速度方向繼續飛行ts以保持發射過程穩定，且與艦艇間的夾角θ滿足θ∈[θfire,θmin]方可完成投彈動作。

3.1.2 艦艇模型

對艦艇模型從探測模型、防御模型2個方面進行描述。

探測模型主要用于模擬艦艇配備探測制導雷達發現跟蹤空中威脅目標的能力。在艦艇北天東坐標系下，考慮雷達探測半徑約束，雷達探測范圍描述為

(1)

(2) 防御模型

在本文中，艦艇防空打擊采用簡單策略實現：探測到來襲目標，則艦艇即發射防空導彈對目標進行攔截，攔截導彈預計飛行時間按導彈平均飛行速度以及目標首次被探測到時艦艇與目標距離進行折算，記作tintercept，該值即為預計防空攔截時間。通過該時間的計算以及交戰條件模型中的突防成功條件的比較，實現對目標的防空攔截。

3.1.3 交戰條件模型

交戰條件模型主要涉及如下幾個方面：

(1) 飛機投彈條件

設計基于多維疲勞量表(MFI-20)的問卷，并分發給在船船員，取得了有效問卷370份，將其數據用于分析海員疲勞。將MFI-20和NASA-TLX(NASA任務負載)運用于海員疲勞研究中，數據分析結果表明：船員的MFI-20五維平均疲勞度均大于常用閾值，任務平均值負擔和主觀感覺也較普通人的數值大。為深入探究海員疲勞，進行探索性因子分析(Exploratory Factor Analysis, EFA)。基于EFA，通過使用AMOS軟件程序建立結構方程模型(Structural Equation Modeling, SEM)，確定了MFI/TLX與其影響因素之間的6個意義因果關系路徑。

飛機距艦的距離記作Dplane-ship，滿足Dplane-ship≤Dfire的條件，距海滿足H∈[Hmax,Hfire]，且需滿足飛機速度方向的矢量與飛機和艦艇位置的夾角θ∈[θfire,θmin]的條件下方可執行投彈動作。

(2) 飛機突防成功條件

基于艦艇模型中的防御模型，考慮飛機的生存時間以其第一次被雷達檢測到的位置與艦艇位置之間的距離除以導彈飛行速度進行近似。飛機被雷達探測到以后，記作tdetected。飛機突防任務成功的條件為完成投彈動作以后，需在滿足tdetected≤tintercept的前提下，脫離雷達的探測范圍。

3.2 智能體建模方法

采用深度強化學習、聯盟學習等新一代智能技術，構建空中威脅智能體自學習的決策模型，并面向并行突防場景，充分生成不同初始狀態下的作戰場景，讓空中威脅智能體并行地對抗不同作戰場景下的艦艇，進而認知足夠多的對抗樣式，從而尋找不同對抗場景下的防御突破點，形成滿足各對抗條件下的最優決策集合，建模架構如圖1所示[4]。

圖1 智能體建模架構Fig.1 Frame diagram of the agent modeling

3.2.1 基于空中威脅的臨機決策建模技術

本文采用深度強化學習算法完成空中威脅智能體的建模過程，提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過在環境中不斷地探索生成動作、感知狀態和獲得回報，從大數據中獲得復雜因素的關聯性和問題處理的完備性，加強其對復雜關聯關系的擬合能力。

在本文中，考慮常規強化學習的配置，其中空中威脅智能體會與對抗場景產生互動。在每一個仿真間隔t，空中威脅智能體都會觀測到一組態勢信息st∈S，分析判斷之后，讓空中威脅做出一組動作at∈A，然后會收到環境反饋的獎勵值r(st,at)∈R，經過一段時間的迭代訓練，智能體會形成一個決策集合π∶S→A[6]。

其中，每一個態勢信息都對應空中威脅的一組動作。這樣的一個態勢信息與動作的映射函數反映出一種期望回饋，即依據每次獲取到的態勢信息st∈S，從策略π中尋找最優的決策，直至對抗結束所產生的所有累計獎勵的值函數。

(2)

式中：γ∈[0,1]為衰減因子。

同樣地，這個預期回饋也可以評估一個策略π。因此，可以使用Qπ得到一種對π的更新方式。目標為使J(θ)最大化。

J(θ)=E[Qπ(s,πθ(s))].

(3)

根據確定型策略梯度算法[7-8]可得策略πθ的參數更新算法為

(4)

進而規定πθ的更新方向，從而就能確定策略集合π的最終形態，既扮演決策執行者的身份[9]，也稱之為actor網絡。同時，為了更好地評價其πθ的演進方向與真實疊加產生的Qπ(s,a)之間的關系，可以設置一位評價者(critic網絡)[10-12]，通過其觀測、評估actor的決策質量，校正actor的演化方向。使用Bellman方程[13]。

(τπQ)(s,a)=r(s,a)+λE[Qπ(s′,π(s′))]，

(5)

式中：s′為下一次的態勢信息。

通過最小化TD誤差[5]的方式，修正值函數與Bellman方程推導出來的期望值之間的誤差，即二者標準差。

L(w)=E[(Qw(s,a)-(τπθ′Qw′)(s,a))2].

(6)

依據Bellman方程的更新方式，確實能夠找到最優解，但事實上這種建模方式不夠合理，單純利用期望值進行迭代，從某種程度上來說損失了Qπ作為分布的信息，因此，采用N-Step的分布Bellman方程[14]。

λNZ(sN,π(sN))|s0,a0],

(7)

式中：Z(s,a)表示在狀態s下執行動作a之后回報形成隨機變量，具有概率分布的特性，則上述推導出來的更新的方程修改為

(8)

式中：d表示分部之間的距離度量，采用交叉熵[15]求取。

3.2.2 基于并行作戰場景的分布式建模技術

本文采用Ring-AllReduce[9]分布式架構，所有智能體組成單向環形架構，既第N-1個智能體的梯度傳輸給第N個智能體，當所有智能體在其負責交互的仿真環境中收斂達到穩定，即可實現分布式訓練，如圖3所示。

3.3 算法流程

根據并行作戰場景構建和智能體建模，選取了速度、距離、發射角度、是否被探測等數據作為每時刻獲取的態勢信息。

st={vx,vy,vz,ax,ay,az,H,θfire,
detected,tdetected,approch,fire,back},

(9)

式中：(vx,vy,vz)為飛機的速度；(ax,ay,az)為飛機的加速度;H為飛機距海平面的高度;θfire為飛機投彈的夾角;tdetected為飛機被探測的時間總長且滿足tdetected≤tintercept的條件；approch為飛機是否達到投彈的條件；detected,fire,back均為標記變量，分別表示飛機是否被探測、飛機是否完成投彈，以及飛機是否脫離探測區域。具體算法流程如圖4所示。

4 結果分析

在初始飛機位置、投彈條件等可隨機設置情況下，開展訓練任務。在訓練過程中，智能體通過每一時刻收獲的態勢信息，在未輸入任何先驗知識的情況下，經過回饋函數的動態指導，動態調整其自身認知決策的能力。

經過一段時間的訓練，得到空中威脅智能體的收斂模型，為更方便地檢驗算法的穩定性，隨機選取投彈條件

(10)

不同智能體隨機抽取的14條飛行軌跡如圖5，6所示。其中綠色軌跡表示在智能體能夠完成任務時所生成的軌跡，其余各顏色的軌跡表示智能體訓練不充分時決策出的飛行軌跡。從圖6中可以看出，智能體存在逐步進化的現象。

對最終收斂結果進行詳細分析，能夠清楚看到飛機自行迭代出的投彈策略，在飛機滿足對艦攻擊條件后盡早投彈，在完成投彈后迅速降高逃逸，以避免防空導彈打擊。通過表1逃出探測區時間與生存時間的對比，可以看出序號14逃逸的時間占比最少，也相對合理。

通過智能體飛行決策軌跡趨勢能夠直觀看出智能體能夠通過降低高度躲避雷達跟蹤并盡量深入到武器發射區內執行投彈過程。同時由于投彈限制，為了確保生存，智能體在投彈結束后會盡快降低高度以躲避艦艇防空導彈打擊。學習的結果收斂且基本滿足預期。

圖3 Ring-allreduce分布式架構示意圖Fig.3 Distributed architecture of ring-allreduce

圖6 飛行軌跡對比圖2(雷達坐標系RH圖)Fig.6 Flight path comparison chart 2(RH view of Radar coordinate system)

表1 逃出探測區時間與生存時間對比表Table 1 Comparison of escape time and survival time

5 結束語

隨著深度強化學習、聯盟學習等一大批新型智能技術發展，其在解決不完備信息條件下的對抗博弈，長遠規劃策略學習以及大規模交戰及決策空間等問題的能力正在逐步得到認可。而在軍事模擬訓練領域，復雜程度雖然遠遠高于棋類游戲，但是人工智能技術依然成為了解決戰爭決策問題的一把金鑰匙。

本文就在在這樣的背景下，基于海軍艦艇防空訓練問題，構建了單機單艦的突防場景并開展了并行分布式場景仿真和空中威脅模型的迭代學習。通過大量學習并得到了相對收斂的結果。同時結果也基本符合單機單艦的突防過程，證明了基于深度學習的方法在海軍艦艇防空模擬訓練的可行性。

然而在開展驗證過程中，也發現了一些問題，比如學習收斂速度在復雜場景條件下的急劇降低還有在多智能體的協同問題。后續的主要工作一方面將集中在優化并行仿真架構，提升學習的收斂速度。另一方面將主要開展多智能體的建模，利用人工智能架構實現多機編隊攻擊場景以及復雜對抗場景的學習和實現。