基于強化學(xué)習(xí)的多發(fā)導(dǎo)彈協(xié)同攻擊智能制導(dǎo)律

2021-09-23 09:14:46陳中原韋文書陳萬春

兵工學(xué)報 2021年8期

關(guān)鍵詞：設(shè)計

陳中原，韋文書，陳萬春

(1.北京航空航天大學(xué) 宇航學(xué)院，北京 100191； 2.中國運載火箭技術(shù)研究院，北京 100076)

0 引言

近年來，為提升打擊效能，協(xié)同制導(dǎo)技術(shù)得到越來越多的關(guān)注[1-5]。協(xié)同制導(dǎo)的多發(fā)導(dǎo)彈可以看作是僅基于簡單控制律即可相互協(xié)作以實現(xiàn)任務(wù)目標的多智能體系統(tǒng)[6]。多發(fā)導(dǎo)彈協(xié)同作戰(zhàn)在效能上要優(yōu)于單個高技術(shù)和高成本的飛行器。此外，多發(fā)導(dǎo)彈構(gòu)成的多智能體系統(tǒng)也會比單個飛行器具有更強的作戰(zhàn)能力[7]。其中，多發(fā)處于不同初始條件的導(dǎo)彈實現(xiàn)對目標的同時打擊是一個極具挑戰(zhàn)的問題[8-9]。

目前，多彈同時攻擊協(xié)同制導(dǎo)律可以分為兩類：

1) 第1類是為協(xié)同制導(dǎo)系統(tǒng)指定期望的攻擊時間。Cho等[10]提出了一種非奇異滑模制導(dǎo)律使導(dǎo)彈在指定的時間打擊目標；Liu等[11]基于自適應(yīng)滑模設(shè)計了一種指定攻擊時間和攻擊角度的制導(dǎo)律。然而，為處于不同初始條件下的多發(fā)導(dǎo)彈指定同一個攻擊時間顯然是有困難的。此外，各發(fā)導(dǎo)彈間沒有交互，降低了多彈協(xié)同制導(dǎo)系統(tǒng)對環(huán)境的感知能力。

2) 另一類是由系統(tǒng)中的各發(fā)導(dǎo)彈相互協(xié)調(diào)，對齊攻擊時間。Jeon等[7]對比例導(dǎo)引制導(dǎo)律(簡稱PN制導(dǎo)律)進行拓展，設(shè)計了多彈協(xié)同攻擊制導(dǎo)律。然而，該制導(dǎo)律要求每發(fā)導(dǎo)彈都要有整個系統(tǒng)的全局信息，為集中式控制，通訊負擔(dān)較重。此后，Zhou等[12]基于李雅普諾夫理論設(shè)計了有限時間收斂的分布式協(xié)同攻擊制導(dǎo)律。Sinha等[13]設(shè)計了一種超螺旋滑模制導(dǎo)律，使制導(dǎo)指令更加平滑。李文等[14]基于一致性理論，選取飛行器與目標的相對距離和接近速度為協(xié)調(diào)變量，設(shè)計了無動力飛行器在速度時變情況下的分布式時間協(xié)同三維制導(dǎo)方法。

在導(dǎo)彈制導(dǎo)方面，Cottrell等[17]設(shè)計了神經(jīng)網(wǎng)絡(luò)最優(yōu)攔截制導(dǎo)律，減小了燃料消耗，有利于實現(xiàn)攔截器的小型化。然而，基于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)網(wǎng)絡(luò)[18]的制導(dǎo)律需要最優(yōu)化樣本進行訓(xùn)練，樣本數(shù)量一定程度上決定了智能制導(dǎo)律可應(yīng)用的交戰(zhàn)環(huán)境，即某些不在樣本中的交戰(zhàn)環(huán)境可能使制導(dǎo)律失效。

為了簡化制導(dǎo)律設(shè)計，提高制導(dǎo)律魯棒性，Gaudet等[19]基于元強化學(xué)習(xí)設(shè)計了攔截器末制導(dǎo)律。南英等[20]對傳統(tǒng)深度Q網(wǎng)絡(luò)(DQN)的記憶池生成方法進行改進，提出了一種基于Markov決策過程的彈道導(dǎo)彈中段突防控制模型。強化學(xué)習(xí)技術(shù)不需要深度學(xué)習(xí)所需要的樣本，也無需設(shè)計控制器的結(jié)構(gòu)，可自主探索實現(xiàn)獎勵值最大的動作。然而，上述智能制導(dǎo)律僅針對單個彈，而不是“彈群”。胡仕友等[21]總結(jié)了導(dǎo)彈武器智能精確制導(dǎo)技術(shù)的發(fā)展現(xiàn)狀并對發(fā)展趨勢做了分析，指出開展多彈間信息交互與協(xié)同處理技術(shù)研究，實現(xiàn)群體的分布式智能化協(xié)作，是未來導(dǎo)彈武器智能精確制導(dǎo)技術(shù)發(fā)展的重要方向。

基于深度確定性策略梯度(DDPG)的強化學(xué)習(xí)算法，引入Actor和Critic神經(jīng)網(wǎng)絡(luò)用于動作的選取和獎勵值的逼近，用于解決復(fù)雜連續(xù)的控制問題[22-23]。本文基于DDPG設(shè)計了多彈同時攻擊協(xié)同制導(dǎo)律。為了降低協(xié)同制導(dǎo)系統(tǒng)的通訊負擔(dān)，利用多智能體思想，使協(xié)同制導(dǎo)系統(tǒng)中的每發(fā)導(dǎo)彈只需與自己的鄰居進行通訊，實現(xiàn)了分布式協(xié)同制導(dǎo)。此外，本文方法不再假設(shè)初始航向角誤差為小角度[7,10]，因而具有更廣的應(yīng)用范圍。

1 問題描述

1.1 平面交戰(zhàn)幾何模型

考慮如圖1所示的n發(fā)導(dǎo)彈和一個靜止目標間的平面交戰(zhàn)幾何關(guān)系，圖1中：vmi為第i發(fā)導(dǎo)彈的速度；θi為彈道傾角；ri為第i為導(dǎo)彈和目標的相對距離；λi為彈目視線角；σi為第i發(fā)導(dǎo)彈的航向角誤差；ami為導(dǎo)彈指令加速度。系統(tǒng)的非線性交戰(zhàn)動力學(xué)方程為

圖1 多彈協(xié)同制導(dǎo)平面交戰(zhàn)幾何關(guān)系Fig.1 Planar engagement geometry

(1)

需要說明的是，這里假設(shè)各發(fā)導(dǎo)彈的速度大小為常值，導(dǎo)彈加速度的方向垂直于導(dǎo)彈速度。

由于本文所研究的是氣動控制的導(dǎo)彈，也就是只有速度方向可被氣動力控制，而導(dǎo)彈的軸向速度是不可控的。因此，制導(dǎo)指令垂直于速度方向。另外，導(dǎo)彈末制導(dǎo)階段飛行距離和制導(dǎo)時間較短，目標為靜止目標，可忽略導(dǎo)彈速度大小變化，因此導(dǎo)彈速度假設(shè)為常值。

(2)

(3)

式中：Ni為比例導(dǎo)引常數(shù)。然而小角度假設(shè)不能夠接近實際，因此本文中考慮初始航向角誤差較大時，剩余飛行時間由(4)式估計，即

(4)

1.2 圖論

隨著協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈數(shù)量的增加,圖論成為描述導(dǎo)彈間信息交互關(guān)系的有力工具。考慮一個有n發(fā)導(dǎo)彈的協(xié)同制導(dǎo)系統(tǒng)，系統(tǒng)拓撲可以表達為Gs=(Vs,Es,As)，其中：Vs={1,2,…,n}為拓撲圖形中頂點的集合，代表每發(fā)導(dǎo)彈的位置；Es?Vs×Vs拓撲圖形中邊的集合；As=[aij]是拓撲圖形Gs的鄰接矩陣[24]。頂點i和頂點j的邊由(j,i)∈Es來表達，代表第i發(fā)導(dǎo)彈可以獲取第j發(fā)導(dǎo)彈的信息。鄰接矩陣As定義為：當(dāng)且僅當(dāng)(j,i)∈Es時，aij=1，如果(j,i)?Es則aij=0.此外，鄰居的集合定義為Ni={j∶(j,i)∈Es}.第i個頂點的自由度由di來表示，di為第i發(fā)導(dǎo)彈鄰居的個數(shù)。拓撲圖形Gs的自由度矩陣可以表達為Δ=diag{di}，i∈[1,2,…，n].拓撲圖形Gs的拉普拉斯矩陣La定義為

La=Δ-As，

(5)

La代表了多彈協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈間的信息交互關(guān)系。

根據(jù)文獻[25-27]：若多導(dǎo)彈協(xié)同制導(dǎo)拓撲的基礎(chǔ)圖是固定且無向的，當(dāng)且僅當(dāng)拓撲圖連通時，多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致；若拓撲的基礎(chǔ)圖為有向圖，當(dāng)且僅當(dāng)拓撲圖含有一個生成樹時，利用強化學(xué)習(xí)算法，多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致。

1.3 擬解決的問題

針對多導(dǎo)彈協(xié)同制導(dǎo)系統(tǒng), 需設(shè)計一個分布式協(xié)同制導(dǎo)方案，使多發(fā)導(dǎo)彈在不同初始條件下實現(xiàn)同時打擊目標。根據(jù)(2)式，若各發(fā)導(dǎo)彈的剩余飛行時間達到一致，那么多發(fā)導(dǎo)彈即可實現(xiàn)對目標的同時打擊。定義剩余飛行時間估計的一致性誤差為

(6)

即第i發(fā)導(dǎo)彈與其鄰居間估計剩余飛行時間的誤差。

因此，需要設(shè)計一個協(xié)同制導(dǎo)律來實現(xiàn)下面3個目標：

1) 所有導(dǎo)彈都要擊中目標，即脫靶量為0 m；

2) 所有導(dǎo)彈剩余飛行時間估計的一致性誤差要變?yōu)? s，實現(xiàn)同時攻擊；

3) 當(dāng)剩余飛行時間估計的一致性誤差為0 s時，各發(fā)導(dǎo)彈可利用簡單的制導(dǎo)律繼續(xù)飛行，當(dāng)有剩余飛行時間誤差時，繼續(xù)進行調(diào)整。

由于傳統(tǒng)方法在設(shè)計制導(dǎo)律時需要仔細調(diào)整制導(dǎo)律中的各個參數(shù)，來實現(xiàn)期望的性能。本文將嘗試應(yīng)用強化學(xué)習(xí)技術(shù)來設(shè)計制導(dǎo)律，無需關(guān)心制導(dǎo)律結(jié)構(gòu)及參數(shù)設(shè)計，實現(xiàn)智能協(xié)同制導(dǎo)。

2 協(xié)同攻擊制導(dǎo)律設(shè)計

2.1 協(xié)同制導(dǎo)律的結(jié)構(gòu)

受文獻[25]的啟發(fā)，協(xié)同制導(dǎo)律的結(jié)構(gòu)設(shè)計為

(7)

(8)

2.2 基于強化學(xué)習(xí)的協(xié)同制導(dǎo)律

如1.1節(jié)所述，剩余飛行時間的估計表達式為

(9)

其對時間的1階導(dǎo)數(shù)為

(10)

那么多彈協(xié)同制導(dǎo)系統(tǒng)剩余飛行時間一致性誤差對時間的導(dǎo)數(shù)可等效為如(11)式所示的非線性系統(tǒng)：

(11)

(12)

式中：q(x(t))為脫靶量和一致性誤差的函數(shù)。

本文目標就是尋找一個狀態(tài)反饋控制器u*=Φ(x)，使得非線性系統(tǒng)式的性能指標式達到最小化。求解該問題的一種常用方法就是將該最優(yōu)控制問題轉(zhuǎn)化為Hamilton-Jacobi-Bellman方程，即

(13)

式中：J*(x)為一個值函數(shù)，其表達式為

(14)

若求解出Hamilton-Jacobi-Bellman方程，則最優(yōu)控制量的表達式為

(15)

然而，對于非線性系統(tǒng)，得到Hamilton-Jacobi-Bellman方程的解析解是極其困難的，尤其是問題的維度比較高時[28-29]。隨著人工智能技術(shù)的發(fā)展，上述問題的性能指標函數(shù)可采用策略梯度法進行優(yōu)化[30]。

本文采用的是基于策略梯度下降的深度神經(jīng)網(wǎng)絡(luò)DDPG強化學(xué)習(xí)算法，該算法是一個不基于模型、在線、異步策略的強化學(xué)習(xí)方法。DDPG算法利用Actor-Critic神經(jīng)網(wǎng)絡(luò)來生成使長期回報最大化的最優(yōu)動作。Actor網(wǎng)絡(luò)基于當(dāng)前的觀測給出最佳動作，Critic網(wǎng)絡(luò)基于當(dāng)前的觀測和動作給出獎勵值估計。DDPG的觀測量可以為連續(xù)或離散的，而動作空間是連續(xù)的。Critic網(wǎng)絡(luò)并不需要評價所有動作來選出最佳動作，只關(guān)注當(dāng)前Actor網(wǎng)絡(luò)生成的動作。

圖2 DDPG算法的結(jié)構(gòu)Fig.2 Structure of DDPG algorithm

2.2.1 狀態(tài)空間設(shè)計

為實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同打擊，各發(fā)導(dǎo)彈的脫靶量要盡量小，且每發(fā)導(dǎo)彈的攻擊時間要一致。因此，強化學(xué)習(xí)算法的狀態(tài)空間設(shè)計為

S=[r1…ri…rnξ1…ξi…ξn]T.

(16)

2.2.2 動作空間設(shè)計

動作空間定義為制導(dǎo)律(7)式中的協(xié)同控制項，即

(17)

2.2.3 獎勵函數(shù)設(shè)計

如1.3節(jié)所述，需要讓脫靶量和剩余飛行時間的誤差盡量小。當(dāng)脫靶量小于1 m時，獎勵值加10；且當(dāng)剩余飛行時間誤差小于0.02 s時，獎勵值加10.因此，獎勵函數(shù)設(shè)計為

(18)

2.2.4 行為策略設(shè)計

如圖2所示，DDPG算法中包含了4個函數(shù)估計器，即：

1) Actor網(wǎng)絡(luò)μ(S)：輸入為觀測S，輸出為使長期回報最大化的動作。

2) 目標Actor網(wǎng)絡(luò)μ′(S′)：為了提高優(yōu)化的穩(wěn)定性，算法基于最新的Actor網(wǎng)絡(luò)參數(shù)值周期性地更新目標Actor網(wǎng)絡(luò)。

3) Critic網(wǎng)絡(luò)Q(S,A)：輸入為觀測S和動作A，輸出相應(yīng)的長期回報的期望。

4) 目標Critic網(wǎng)絡(luò)Q′(S′,A′)：為了提高優(yōu)化的穩(wěn)定性，算法基于最新的Critic網(wǎng)絡(luò)參數(shù)值周期性地更新目標Critic網(wǎng)絡(luò)。

需要指出的是，μ(S)和μ′(S′)有相同的結(jié)構(gòu)和參數(shù)，Q(S,A)和Q′(S,A)有相同的結(jié)構(gòu)和參數(shù)。當(dāng)訓(xùn)練結(jié)束時，訓(xùn)練好的最優(yōu)策略存儲于Actor網(wǎng)絡(luò)μ(S)中。

DDPG算法的訓(xùn)練過程中會在每個步長都更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)，具體算法如下：

1) 用隨機參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(S,A)，并用同樣的參數(shù)初始化目標Critic網(wǎng)絡(luò)Q′(S′,A′)，即θQ=θQ′.

2) 用隨機參數(shù)θμ初始化Actor網(wǎng)絡(luò)μ(S)，并用同樣的參數(shù)初始化目標Actor網(wǎng)絡(luò)μ′(S′)，即θμ=θμ′.

3) 對于訓(xùn)練中的每個步長：

(1) 對于當(dāng)前的觀測S，選擇動作A=μ(S)+w，其中w為噪聲模型中的隨機噪聲。

(2) 執(zhí)行動作A.觀測獎勵R及后續(xù)的觀測S′.

(3) 在經(jīng)驗池中存儲經(jīng)驗(S,A,R,S′)。

(4) 從經(jīng)驗池中隨機取出一小批M個經(jīng)驗(Sk,Ak,Rk,S′k)，k=1，2，3，…，M.

(5) 如果S′k是最終狀態(tài)，則設(shè)置值函數(shù)目標yi=Ri.否則，

yi=Ri+γQ′(S′k,μ′(S′k|θμ)|θQ′)。

(19)

值函數(shù)目標是經(jīng)驗獎勵Rk和折扣未來回報的和。為了計算累計獎勵，DDPG算法首先將后續(xù)的觀測S′k從經(jīng)驗池中傳到目標Actor網(wǎng)絡(luò)來生成下一步的動作。然后算法將下一步的動作傳到目標Critic網(wǎng)絡(luò)得出累計獎勵。

(6) 通過使經(jīng)驗值損失L最小化更新Critic網(wǎng)絡(luò)參數(shù)：

(20)

(7) 利用下面的采樣策略梯度使期望的折扣獎勵最大化來更新Actor網(wǎng)絡(luò)參數(shù)：

(21)

(22)

(23)

式中：Gai為Critic網(wǎng)絡(luò)相對于Actor網(wǎng)絡(luò)輸出動作的梯度；Gμi為Actor網(wǎng)絡(luò)輸出動作相對于Actor網(wǎng)絡(luò)參數(shù)的梯度。本文中，采用隨機梯度下降法進行梯度更新。

(8) 基于如下目標網(wǎng)絡(luò)參數(shù)更新方法來更新Actor和Critic網(wǎng)絡(luò)參數(shù)：

① 平滑：每個時間步長利用平滑因子τ來更新目標網(wǎng)絡(luò)參數(shù)，即：

目標Critic網(wǎng)絡(luò)參數(shù)更新

θQ′=τθQ+(1-τ)θQ′；

(24)

目標Actor網(wǎng)絡(luò)參數(shù)更新

θμ′=τθμ+(1-τ)θμ′.

(25)

② 周期性更新：不進行平滑處理時周期性地更新目標參數(shù)，即平滑因子τ=1.

③ 周期性平滑：周期性地更新目標參數(shù)，并進行平滑處理。

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)在完成訓(xùn)練后，實際在線使用時，輸入為彈目相對距離和剩余飛行時間估計的一致性誤差，輸出為2.1節(jié)(7)式中所涉及的協(xié)同控制項，從而實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同制導(dǎo)。

3 仿真實驗

3.1 決策優(yōu)化

考慮交戰(zhàn)場景中有2發(fā)不同初始條件的導(dǎo)彈和一個靜止目標，決策優(yōu)化過程中，交戰(zhàn)場景的初始條件設(shè)置如表1所示。

如表1所示，導(dǎo)彈1和導(dǎo)彈2的初始位置和速度均不相同，目標垂直位置坐標隨機從1 000 m、1 500 m、2 000 m中隨機選取，這樣導(dǎo)彈初始的航向角誤差也會隨著變化，使DDPG算法不會僅僅學(xué)習(xí)一條彈道，能夠適應(yīng)更廣范圍的交戰(zhàn)初始條件。

表1 決策優(yōu)化的初始條件Tab.1 Initial conditions for policy optimation

DDPG算法訓(xùn)練過程中的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別設(shè)置為α1=0.000 1和α2=0.001，折算因子設(shè)置為γ=0.99.訓(xùn)練停止條件設(shè)置為訓(xùn)練次數(shù)達到915次。

訓(xùn)練過程中每次仿真的獎勵值及最近5次仿真獎勵值的平均值如圖3所示。從圖3中可以看到，隨著訓(xùn)練的進行，獎勵值波動上升，訓(xùn)練500次后，獎勵值穩(wěn)定在500左右，勵值期望也在逐漸收斂。

圖3 DDPG算法策略優(yōu)化訓(xùn)練過程Fig.3 Training progress of policy optimation of DDPG algorithm

3.2 決策測試

算法測試過程中目標初始垂直坐標取為1 000～1 500 m，以0.5 m為間隔，進行1 000次仿真，統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差，評價強化學(xué)習(xí)協(xié)同制導(dǎo)律的制導(dǎo)效果。

以目標垂直坐標為1 500 m為例，比例導(dǎo)引系數(shù)N=4，PN制導(dǎo)律、傳統(tǒng)協(xié)同比例(CPN)制導(dǎo)律[7]、強化學(xué)習(xí)協(xié)同比例導(dǎo)引(RL-CPN)制導(dǎo)律的彈道如圖4所示。由圖4可見：PN制導(dǎo)律的彈道比較平滑，但是2發(fā)導(dǎo)彈的攻擊時間分別為5.26 s和5.36 s，有0.1 s的差別，即未實現(xiàn)同時攻擊；CPN制導(dǎo)律實現(xiàn)了2發(fā)導(dǎo)彈的同時攻擊，攻擊時間均為5.35 s，但彈道轉(zhuǎn)彎次數(shù)較多，說明導(dǎo)彈在交戰(zhàn)過程中不斷調(diào)整制導(dǎo)指令來對齊剩余飛行時間；RL-CPN制導(dǎo)律為了實現(xiàn)同時打擊，相應(yīng)的彈道在制導(dǎo)初期開始進行必要的機動來對齊剩余飛行時間，轉(zhuǎn)彎機動次數(shù)較少，最終2發(fā)導(dǎo)彈均在5.35 s實現(xiàn)了對目標的同時攻擊。RL-CPN和CPN制導(dǎo)律的指令加速度如圖 5所示，可見在交戰(zhàn)結(jié)束時，制導(dǎo)指令并沒有飽和，因此導(dǎo)彈有能力精確命中目標。但本文中獎勵函數(shù)未考慮燃料消耗，因此RL-CPN制導(dǎo)律的制導(dǎo)指令幅值較大，在后續(xù)工作中需要進一步探索燃料最優(yōu)的RL-CPN制導(dǎo)律。

圖4 二維協(xié)同打擊的彈道對比Fig.4 Comparative trajectories of 2-D engagement

圖5 RL-CPN和CPN制導(dǎo)律的導(dǎo)彈指令加速度Fig.5 Commands acceleration of CPN and RL-CPN

1 000次仿真的統(tǒng)計結(jié)果如表2所示。從表2中可以看出：RL-CPN制導(dǎo)律的攻擊時間誤差平均值為0.001 s，而PN制導(dǎo)律的攻擊時間誤差為0.101 219 8 s，二者相差了兩個數(shù)量級；與CPN制導(dǎo)律相比，RL-CPN制導(dǎo)律的脫靶量和攻擊時間誤差也相對較小，也就是說，RL-CPN制導(dǎo)律的制導(dǎo)精度更高。

表2 制導(dǎo)律性能的對比Tab.2 Comparation of guidance laws

3.3 拓展交戰(zhàn)場景下的決策測試

為了進一步驗證RL-CPN制導(dǎo)律的有效性，本文一些未在訓(xùn)練中使用的數(shù)據(jù)將用來進行測試。設(shè)置目標垂直位置2 000～2 500 m，以0.5 m為間隔，進行1 000次仿真，統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差，評價RL-CPN制導(dǎo)律的制導(dǎo)效果。

仿真結(jié)果如表3所示，從中可見RL-CPN制導(dǎo)律的脫靶量依然小于PN制導(dǎo)律和CPN制導(dǎo)律的脫靶量。此外，RL-CPN制導(dǎo)律的脫靶量標準差也比PN制導(dǎo)律和CPN制導(dǎo)律的小，說明RL-CPN制導(dǎo)律的性能更加穩(wěn)定。RL-CPN制導(dǎo)律的攻擊時間誤差為0.006 239 s，依然較PN制導(dǎo)律的小一個量級。盡管RL-CPN制導(dǎo)律的攻擊時間誤差在本仿真場景中略大于CPN制導(dǎo)律，但是其脫靶量僅為CPN制導(dǎo)律的約1/3，對于同時打擊而言更具有實戰(zhàn)意義。

表3 拓展交戰(zhàn)場景進行制導(dǎo)律性能的對比Tab.3 Comparation of guidance laws in extended engagement scenarios

圖6、圖7、圖8分別為對RL-CPN制導(dǎo)律、CPN制導(dǎo)律和PN制導(dǎo)律的脫靶量進行了直方圖統(tǒng)計。由圖6、圖7、圖8可以看出：RL-CPN制導(dǎo)律脫靶量集中在0～1 m；而PN制導(dǎo)律的分布則比較均勻，出現(xiàn)較大脫靶量的次數(shù)更多；CPN制導(dǎo)律的脫靶量在3.5～4.0 m區(qū)間出現(xiàn)的頻次則更多，這也說明了RL-CPN制導(dǎo)律的制導(dǎo)精度更高。這是因為本文所考慮的是非線性交戰(zhàn)動力學(xué)模型，剩余飛行時間的估計和制導(dǎo)律的設(shè)計不再基于文獻[7]所考慮小角度假設(shè)下的線性動力學(xué)模型。強化學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何非線性函數(shù)，因此本文制導(dǎo)律可獲得較高的制導(dǎo)精度。

圖6 RL-CPN制導(dǎo)律的統(tǒng)計直方圖Fig.6 Miss distance histogram of RL-CPN

圖7 CPN制導(dǎo)律的統(tǒng)計直方圖Fig.7 Miss distance histogram of CPN

圖8 PN制導(dǎo)律的統(tǒng)計直方圖Fig.8 Miss distance histogram of PN

另外，考慮目標運動狀態(tài)的不確定性也是一項值得研究的工作。若考慮目標機動的不確定性，強化學(xué)習(xí)算法在訓(xùn)練時就要給定一些目標機動的場景，如目標做常值機動、Bang-Bang機動、正弦機動等，隨機選取機動幅值的大小和頻率來構(gòu)造訓(xùn)練環(huán)境，算法收斂后，令目標執(zhí)行一些訓(xùn)練未遇到的機動幅度大小和頻率，對算法進行測試。最后，結(jié)合仿真結(jié)果來評價考慮目標機動的不確定性時強化學(xué)習(xí)協(xié)同制導(dǎo)律的效果。

4 結(jié)論

本文設(shè)計了一種基于強化學(xué)習(xí)算法的協(xié)同制導(dǎo)律，可以實現(xiàn)多發(fā)導(dǎo)彈對目標的同時打擊。通過仿真實驗，得出主要結(jié)論如下：

1) RL-CPN制導(dǎo)律實現(xiàn)了分布式協(xié)同，不再需要提前指定某攻擊時刻，而是各發(fā)導(dǎo)彈根據(jù)剩余飛行時間誤差這一協(xié)調(diào)變量生成制導(dǎo)指令，進而實現(xiàn)剩余飛行時間的一致性，達到同時打擊的目的。利用圖論理論，各發(fā)導(dǎo)彈不需要“彈群”的全局信息，只需與其鄰居進行通訊，降低了通訊負擔(dān)。

2) RL-CPN制導(dǎo)律脫靶量較小，各發(fā)導(dǎo)彈之間的剩余飛行時間誤差較小，制導(dǎo)精度高，能夠適應(yīng)線下學(xué)習(xí)未訓(xùn)練的交戰(zhàn)場景。

3) 基于強化學(xué)習(xí)算法設(shè)計制導(dǎo)律，極大簡化了制導(dǎo)律設(shè)計過程，無需考慮控制器的結(jié)構(gòu)，也免去了控制器的調(diào)參過程，縮短了制導(dǎo)律的設(shè)計周期。

4) 由于未考慮導(dǎo)彈的燃料消耗因素，RL-CPN制導(dǎo)律燃料消耗較大，在后續(xù)工作中可以進一步優(yōu)化。

本文后續(xù)工作可進一步拓展智能協(xié)同制導(dǎo)的應(yīng)用場景，考慮導(dǎo)彈速度是時變的以及導(dǎo)彈軸向速度可控的情況，以提高多彈同時攻擊的制導(dǎo)精度。此外，可將本文方法擴展為三維協(xié)同制導(dǎo)，除考慮燃料消耗最優(yōu)需求外，也可考慮攻擊角度約束及避障、避撞等約束，實現(xiàn)多發(fā)導(dǎo)彈在多約束條件下的智能協(xié)同制導(dǎo)。