王因翰,范世鵬,*,吳廣,王江,何紹溟
1.北京理工大學 宇航學院,北京 100081
2.北京航天自動控制研究所,北京 100854
近幾十年來,防御體系不斷完善,我方飛行器在飛行過程中所面臨的生存壓力不斷增大,如何有效避開敵方攔截彈的攻擊是飛行器研發(fā)過程中的一項重要課題。目前飛行器規(guī)避攔截的主要策略有基于微分對策的規(guī)避策略和隨機機動規(guī)避策略。無論采用哪種博弈策略,為更好地規(guī)避攔截,都需要利用我方飛行器探測到的與敵方攔截彈相對運動信息,對其所用制導律及制導參數(shù)進行在線辨識。與單純基于運動學的傳統(tǒng)軌跡預測及規(guī)避策略相比,基于制導律辨識的規(guī)避策略能夠更準確地預測敵方攔截彈飛行路線,制定針對性更強的規(guī)避方案。
然而,研究制導律辨識的文獻數(shù)量較少。攔截彈制導律辨識是一個復雜動態(tài)問題,若對攔截彈制導律辨識僅依靠某一時刻運動學信息,則辨識結(jié)果具有片面性。傳統(tǒng)辨識方法以卡爾曼濾波器為基礎,通過將所測到的敵方導彈運動信息與卡爾曼濾波器的預測信息進行對比,不斷調(diào)整卡爾曼濾波器輸出數(shù)值直至測量值與真實值相近。文獻[13-14]設計了基于非線性多模自適應卡爾曼濾波器的制導律辨識方法,設置多個卡爾曼濾波器并行運行,每個濾波器代表一種可能的敵方攔截彈制導律;文獻[15]在海戰(zhàn)防空攔截背景下對交互卡爾曼濾波進行了改進,利用改進交互卡爾曼濾波器對敵方反艦導彈所用制導律進行辨識。基于卡爾曼濾波器的制導律辨識方法通常通過與其他方法相結(jié)合來增強模型的適應性和準確度,這類辨識方法存在以下問題:對獲取信息的連續(xù)性要求高,使工程應用價值大打折扣,同時,也限制了我方飛行器的機動性;辨識過渡過程較長,在1 s以上,不能滿足強對抗條件下的快速性要求。
神經(jīng)網(wǎng)絡因其強大的自主學習能力,可從大量數(shù)據(jù)中提煉基本規(guī)律,在諸多問題上都得到了廣泛的應用。其中,長短時記憶神經(jīng)網(wǎng)絡(LSTM)因其可模擬人類長期和短期記憶篩選能力,在解決動態(tài)問題上大放異彩。文獻[24]使用LSTM 網(wǎng)絡提出了一種時變結(jié)構(gòu)振動觀測模型,建立了時變結(jié)構(gòu)動力特性與振動間關(guān)系,能夠?qū)崿F(xiàn)對時變結(jié)構(gòu)模型的在線分析。文獻[25]針對空間機器人系統(tǒng)慣性張量測量問題,利用LSTM 神經(jīng)網(wǎng)絡建立了慣性張量在軌辨識模型。文獻[26]建立了基于LSTM 的戰(zhàn)場意圖識別模型,通過綜合分析戰(zhàn)場傳感器獲得的多源信息,實現(xiàn)對敵方目標粗粒度戰(zhàn)術(shù)意圖的識別。文獻[27]應用門循環(huán)單元(GRU)神經(jīng)網(wǎng)絡對航空發(fā)動機的剩余壽命進行預測,辨識依據(jù)為航空發(fā)動機內(nèi)部多個位置處的速度、維度和壓力。LSTM 網(wǎng)絡初步實現(xiàn)了動態(tài)問題數(shù)據(jù)快速分析,然而,由于其規(guī)模龐大,導致訓練時間過長,為此,GRU 網(wǎng)絡在LSTM 網(wǎng)絡結(jié)構(gòu)上進行了簡化,在幾乎不影響網(wǎng)絡性能的條件下,有效地提升了網(wǎng)絡的訓練速度。
針對強對抗條件下的敵方攔截彈制導律辨識問題,考慮到GRU 網(wǎng)絡的優(yōu)勢,本文提出了一種基于GRU 網(wǎng)絡的制導律快速辨識方法。建立相對運動學模型,以一段時間內(nèi)的敵我運動學信息作為樣本輸入,將所使用的攔截彈制導律參數(shù)作為類型標簽,為該網(wǎng)絡構(gòu)建大量的多樣化樣本庫;其次,給定損失參數(shù),采用Adam 算法對GRU 網(wǎng)絡進行訓練,使網(wǎng)絡參數(shù)達到最優(yōu),利用完成訓練的GRU 網(wǎng)絡,即可實現(xiàn)對敵方攔截彈制導律的在線快速辨識,在噪聲較大的條件下,辨識準確度仍保持較高的水準。
在慣性坐標系下建立我方飛行器與敵方攔截彈(導彈)的運動學模型。導彈初始位置位于坐標系原點,豎直向上,垂直于指向目標,按照右手定則確定,如圖1所示。

圖1 敵方攔截彈攔截我方飛行器示意圖Fig.1 Schematic view of an aircraft intercepted by an enemy missile
敵方攔截彈運動學可描述為

式中:、、為攔截彈在慣性系中的坐標;、為攔截彈速度傾角和速度偏角;()為攔截彈質(zhì)量;()為導彈推力;為攔截彈所受阻力;n 、n 分別為的攔截彈俯仰和偏航加速度。
比例導引(PN)制導律是目前應用最為廣泛的制導律,在攻擊目標過程中,導彈需用過載與相對速度和彈目視線角的乘積成正比;增強比例導引(APN)在PN 基礎上增加了目標機動補償項,從而降低在命中點附近的彈道需用法向過載。2種制導律生成的加速度指令分別為

式中:為制導參數(shù);為目標加速度。
在我方飛行器攻擊末段,可近似認為敵方攔截彈速度大小是不變的,即

我方飛行器在三維空間中按照一定規(guī)律進行機動,敵方可精確制導的攔截彈對我方飛行器進行攔截。在飛行過程中,我方飛行器可通過機載或彈載雷達實時獲取敵方攔截彈運動學信息,包括相對距離、彈目視線傾角q 和彈目視線偏角q 。在敵我相對運動模型中,其各自計算表達式為

敵方攔截彈以我方飛行器為目標,采用不同的制導律或制導參數(shù),都會控制攔截彈產(chǎn)生不同的加速度,進而使其沿著不同運動路線飛行,如圖2所示。

圖2 使用不同制導律導彈沿不同軌跡接近飛行器Fig.2 Missiles with different guidance laws approaching aircraft along different trajectories


圖3 信息獲取及辨識過程Fig.3 Process of information acquisition and guidance law identification
LSTM網(wǎng)絡是循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種,其通過“門”的設計實現(xiàn)對長期記憶的保留,解決了原始RNN 網(wǎng)絡在模型訓練過程中存在的“梯度爆炸”或“梯度消失”問題。GRU 網(wǎng)絡將LSTM 神經(jīng)元結(jié)構(gòu)合并簡化,在保證準確率的同時,加快訓練速度,并減少存儲空間。
神經(jīng)網(wǎng)絡由大量神經(jīng)元組成,GRU 神經(jīng)元內(nèi)部結(jié)構(gòu)如圖4所示。

圖4 GRU 神經(jīng)元內(nèi)部結(jié)構(gòu)Fig.4 Inner structure of GRU
GRU 神經(jīng)元由以下幾部分組成:
1)兩個輸入:上一時刻的神經(jīng)元輸出h 和上一層的神經(jīng)元輸出x ,用來傳承上一時刻神經(jīng)元的輸出和接收上一層神經(jīng)元的輸出。
2)兩個門:重置門r ,用于計算之前的記憶需要保留多少;更新門z ,用于計算當前時刻的更新內(nèi)容,計算方法為



4)一個輸出:最終輸出h ,根據(jù)當前的輸入和內(nèi)部狀態(tài)計算輸出,計算方法為

式(5)~式(7)中:表 示sigmoid函 數(shù);表 示 權(quán)重矩陣;表示偏置量;計算符號·表示矩陣乘,計算符號⊙表示按元素乘。

GRU 網(wǎng)絡輸入端為

式中:size(input)表示輸入端矩陣大小;表示輸入維度;表示輸入步長。輸入數(shù)據(jù)為二維矩陣形式,相比于一維輸入的BP 網(wǎng)絡,GRU 網(wǎng)絡可快速識別發(fā)現(xiàn)不同特征量在不同時間點變化。
使用GRU 網(wǎng)絡建立制導律辨識模型如圖5所示,包含輸入層、3個隱含層、輸出層,其中為隱含層神經(jīng)元數(shù)量。

圖5 基于GRU 制導律辨識模型Fig.5 Guidance law identification model based on GRU
輸入層輸入數(shù)據(jù)為敵我雙方運動學信息,采用tanh函數(shù)作為激活函數(shù),將時刻的輸入加權(quán)并壓縮到[-1,1]區(qū)間內(nèi),計算公式為

式中:h 為輸入層傳遞到隱含層的信息;w 為權(quán)重矩陣;x 為時刻輸入信息。
假設制導律及制導參數(shù)屬于給定集合,輸出層輸出為不同制導律的概率,輸出層計算公式為


輸出層激活函數(shù)為softmax,使GRU 網(wǎng)絡的輸出結(jié)果滿足:

本文采用監(jiān)督學習的方式對網(wǎng)絡進行訓練,基于前述運動學模型進行數(shù)學仿真提取數(shù)據(jù)建立樣本庫,對網(wǎng)絡進行訓練。
網(wǎng)絡訓練是指網(wǎng)絡不斷調(diào)整各參數(shù)值以適應訓練樣本輸入輸出的過程,用于訓練的樣本對網(wǎng)絡的優(yōu)化效果至關(guān)重要。為了盡可能覆蓋樣本空間,本文通過不同的敵我雙方初始狀態(tài)、我方目標運動軌跡等方式使訓練樣本多樣化。
樣本輸入形式為

式中:a 表示第時刻的輸入向量,上標T 表示我方飛行器運動學信息,上標M 表示敵方攔截彈運動學信息,上標TM 表示敵我雙方相對運動學信息;為輸入步數(shù)。
為加快模型收斂,在輸入數(shù)據(jù)前需將原始數(shù)據(jù)轉(zhuǎn)化為區(qū)間相同的、無量綱的數(shù)值,即對其進行標準化和歸一化處理,消除不同指標之間因?qū)傩圆煌鴰淼挠绊憽.斍皬V泛應用的處理方法有最大最小線性變化、Logistics/Softmax 變化、反正切函數(shù)變化、Z-score規(guī)范化和對數(shù)變換等。本文采用的是最大最小線性變化,將數(shù)據(jù)縮放到[0,1]區(qū)間內(nèi),計算公式為


采用one-hot方法為樣本添加標簽,標簽與制導律映射關(guān)系如圖6所示。

圖6 標簽與制導律映射關(guān)系Fig.6 Mapping relationship between tags and guidance laws
采用滑動時窗方式生成樣本以最大限度利用數(shù)據(jù),如圖7所示。為保證網(wǎng)絡適應性及廣泛性,在從敵我雙方相對運動模型提取數(shù)據(jù)過程中。

圖7 樣本生成方法Fig.7 Method of sample generation
基于Adam 算法對GRU 網(wǎng)絡進行訓練,該算法將Momentum 算法與RMSprop算法相結(jié)合,加入動量并使參數(shù)自適應訓練。與BP 算法相比,Adam 算法能夠有效避免網(wǎng)絡陷入局部最優(yōu)點,加速網(wǎng)絡收斂,提高算法魯棒性。
選取交叉熵函數(shù)作為損失函數(shù),其計算公式為


首先,計算各參數(shù)對目標函數(shù)的梯度:

式中:為損失函數(shù);為所需訓練參數(shù),包括權(quán)重和偏置。權(quán)重與偏置訓練方式相同,下面推導以權(quán)重w 為例進行。
根據(jù)GRU 基本神經(jīng)元內(nèi)部結(jié)構(gòu),式(15)可化為




對于其他層之前時刻神經(jīng)元,其神經(jīng)元內(nèi)部誤差傳遞項均為


1)沿時間反向傳播



2)沿層反向傳播


由此式(21)可化為



由式(16)、式(18)、式(20)、式(23),可計算得要訓練的參數(shù),∈{,}目標函數(shù)的梯度g 。
對于和中的某一具體元素,基于Adam算法的參數(shù)更新公式為

式中:θ為更新前參數(shù);θ為更新后參數(shù);k為所訓練參數(shù)在梯度矩陣g 中對應梯度元素;為學習率;為平滑項,防止被零除;m'為一階矩估計,v'為二階矩估計;m為梯度一階矩;v 為梯度二階矩。
網(wǎng)絡流程如圖8 所示。建立好樣本庫及GRU 網(wǎng)絡后,分批次從訓練樣本庫中抽取樣本輸入GRU 網(wǎng)絡中,計算訓練集準確度、損失函數(shù)值及訓練時間;而后對網(wǎng)絡進行訓練,訓練完成后將測試樣本集輸入網(wǎng)絡進行測試,得到測試集準確度和損失函數(shù)值;不斷重復直至訓練次數(shù)或損失函數(shù)達到預設值。

圖8 神經(jīng)網(wǎng)絡訓練流程Fig.8 Training process of neural network
為驗證所提方法準確度和有效性,進行了三部分對比實驗。神經(jīng)網(wǎng)絡類型直接影響模型辨識準確度,為了驗證GRU 神經(jīng)網(wǎng)絡相較其他網(wǎng)絡的優(yōu)勢,首先進行噪聲影響下不同類型網(wǎng)絡辨識準確度對比仿真驗證;采用不同輸入步長對制導律辨識的效果不同,第2部分實驗對比輸入步長對模型的影響;神經(jīng)網(wǎng)絡通過隱含層來學習數(shù)據(jù)中信息,第3部分實驗探究隱含層神經(jīng)元數(shù)量對最終結(jié)果的影響。
設置相對運動學模型仿真步長為0.001 s,我方飛行器對攔截彈運動學信息測量更新頻率為50 Hz,輸入步長包括10、15、20、25、30五種情況,對應的時間跨度分別為0.2 s、0.3 s、0.4 s、0.5 s、0.6 s。最終提取到訓練樣本160 000個,每種時間跨度樣本各占20%,10種不同制導律各所占比例均為10%,提取到的樣本中隨機抽取10%用于測試,其余用于訓練。在網(wǎng)絡訓練參數(shù)中,dropout失效率為5%,批處理數(shù)量為3 000,每次實驗迭代次數(shù)為2 000次,網(wǎng)絡初始學習率為0.000 25,每100次迭代學習率衰減率為0.85。
選取輸入步長為15,隱含層數(shù)為3,每個隱含層神經(jīng)元數(shù)量=81時不同類型神經(jīng)網(wǎng)絡作為對比,不同類型網(wǎng)絡的訓練效果、辨識準確率如圖9和圖10所示。

圖9 不同類型神經(jīng)網(wǎng)絡類型損失函數(shù)Fig.9 Loss of different types of neural network

圖10 不同類型神經(jīng)網(wǎng)絡類型準確度Fig.10 Accuracy of different types of neural network
LSTM 網(wǎng)絡與GRU 網(wǎng)絡識別準確率分別為92.78%和95.88%,較RNN 網(wǎng)絡89.33%提升3.45%和6.55%,較BP 網(wǎng)絡提升1.44%和4.547 2%。證明LSTM 與GRU 與BP 相比,在處理與時序有關(guān)問題時具有較大優(yōu)勢。
我方飛行器在對敵方攔截彈運動學信息進行測量時會存在誤差,相對運動模型構(gòu)建與真實模型之間也會存在偏差,這兩者對模型輸入量的影響均可視為高斯白噪聲。設定各輸入?yún)?shù)噪聲標準差如表1所示,其中,噪聲水平一表示我方飛行器上傳感器正常工作且構(gòu)建模型與實際情況偏差較小,噪聲水平二表示傳感器因環(huán)境或構(gòu)建模型與實際情形而存在較大測量偏差,辨識準確率變化如圖11所示。

表1 輸入?yún)?shù)高斯白噪聲標準差Table 1 Standard deviation of white Gaussian noise of input parameters

圖11 噪聲對不同類型網(wǎng)絡影響Fig.11 Influence of noise on different types of neural network
各類型網(wǎng)絡受噪聲水平一影響后準確度變?yōu)?8.15% (BP)、85.26% (RNN)、92.37%(LSTM)和95.44% (GRU),分別下降3.19%(BP)、4.06% (RNN)、0.41% (LSTM)和0.44%(GRU),證明較低噪聲水平對除RNN 網(wǎng)絡外網(wǎng)絡的影響都較小。隨著噪聲的增大,各類型網(wǎng)絡準確度都有所下降,BP網(wǎng)絡準確率受噪聲影響最大,準確度從無噪聲時91.34%下降到76.57%,GRU 網(wǎng)絡受噪聲影響最小,準確度從無噪聲時95.88%下降到86.32%。
輸入片段時間跨度影響辨識效果。圖12和圖13對比了隱含層數(shù)量為3、每個隱含層神經(jīng)元數(shù)量=81和=100兩種情況下采用不同時間跨度對制導律進行辨識時網(wǎng)絡訓練效果及辨識準確度。

圖12 不同輸入步長下神經(jīng)網(wǎng)絡的損失函數(shù)Fig.12 Loss of neural network with different input steps

圖13 不同輸入步長下神經(jīng)網(wǎng)絡的辨識準確度Fig.13 Accuracy of neural network with different input steps
由圖12和圖13中可得,網(wǎng)絡損失度隨迭代次數(shù)增加不斷下降,最終損失度最大值為0.330 9,所有模型最后均能夠收斂。時間跨度為0.3 s和0.5 s時識別效果較好,但時間跨度為0.3 s時輸入步長更少,所需計算量更小。
傳統(tǒng)基于濾波器的制導律辨識方法辨識所用時間在1 s以上,而基于GRU 網(wǎng)絡的制導律辨識網(wǎng)絡在完成訓練后,實際使用中僅需將設定時間跨度內(nèi)的運動學信息片段輸入到網(wǎng)絡中即可,辨識所用時間在0.5 s內(nèi),相比于前者所用時間縮短50%以上。且前者要求我方飛行器滿足實時對攔截彈進行測量,限制了飛行器機動行,后者對測量連續(xù)性要求更低,在整個飛行過程中只需有一段時間片段滿足時間跨度要求即可。
每個隱含層都是在上一隱含層學習到特征基礎上繼續(xù)進行學習,隱含層神經(jīng)元數(shù)量越多,該隱含層所能提取到的信息越充分。但神經(jīng)元數(shù)量增多會使訓練參數(shù)數(shù)量增多,導致訓練速度下降。圖14和圖15為時間跨度為0.3 s時,不同隱含層神經(jīng)元數(shù)量的GRU 網(wǎng)絡訓練及辨識效果。

圖14 不同神經(jīng)元數(shù)量下神經(jīng)網(wǎng)絡的損失函數(shù)Fig.14 Loss of neural network with different number of neurons

圖15 不同神經(jīng)元數(shù)量下神經(jīng)網(wǎng)絡的準確度Fig.15 Accuracy of neural network with different number of neurons
當神經(jīng)元數(shù)量較少時,網(wǎng)絡對樣本學習不充分,辨識準確率較低;隨著神經(jīng)元數(shù)量增加,網(wǎng)絡辨識準確度整體呈現(xiàn)上升趨勢。但神經(jīng)元數(shù)量越多,對我方飛行器上計算機計算能力要求越高。當神經(jīng)元數(shù)量=81時,準確度為95.88%,能夠較好地平衡辨識準確率和計算量。
與對意圖進行識別相比,對制導律進行辨識所需神經(jīng)網(wǎng)絡結(jié)構(gòu)更復雜。前者偏向定性計算,不同意圖間輸入差異性強;后者偏向定量計算,不同制導律對應各輸入?yún)?shù)間差異性不明顯,對網(wǎng)絡的數(shù)據(jù)挖掘能力要求更高。
1)本文將神經(jīng)網(wǎng)絡應用到制導律辨識上,提出了一種基于GRU 的導彈制導律辨識方法。首先建立導彈-目標運動學模型,從中提取數(shù)據(jù)建立訓練樣本集和測試樣本集,對神經(jīng)網(wǎng)絡模型進行訓練和測試。
2)對比了不同條件下不同隱含層神經(jīng)元數(shù)量、不同類型模型的制導律辨識效果。結(jié)果表明,本文所提方法相比于其他方法具有更快的辨識速度和更高的準確度。
3)探究了噪聲對神經(jīng)網(wǎng)絡辨識效果的影響。仿真顯示,噪聲較小時對網(wǎng)絡辨識準確度影響不大,噪聲較高時,網(wǎng)絡辨識準確度有所下降,但GRU 網(wǎng)絡模型相對于其他類型模型具有更好的抗干擾能力。
然而,由于未考慮敵我飛行器的動力學,將影響本文所提出方法辨識的準確性,后續(xù)將開展敵方攔截彈制導律與動力學環(huán)節(jié)一體化辨識方面的理論研究。