陳劭博, 嚴佳民, 卜奎晨
(1. 中國運載火箭技術研究院戰術武器事業部, 北京 100076; 2. 南京航空航天大學航空宇航學院, 江蘇 南京 210016)
隨著攔截武器技術的迅猛發展,尤其是“薩德”“愛國者-3”等一批先進攔截系統的入役,高速滑翔式飛行器的末端生存問題愈發凸顯,如何提高其末段生存概率逐漸成為學界關心的焦點和熱點,而利用空氣動力進行規避機動則是提高末段生存概率的一個主要的技術方向。
對于大多數現役導彈而言,由于其搭載的探測設備難以實時對攔截器的運動狀態進行觀測,其規避機動的形式通常是離線設計的簡單擺動式機動,如正弦機動[1]、方波機動[2]等。擺動式機動雖然能一定程度上提升攔截脫靶量,提高攔截難度,但對于特定的攻防情景缺乏針對性,實際攔截脫靶量一定程度上依賴隨機因素;另一方面,由于攔截器發射的時機未知,飛行器必須在可能被攔截的整個飛行區間內持續進行擺動機動,然而長時間的機動往往會使得飛行器消耗大量的能量,從而降低其機動性和終端落速。
隨著技術的發展,越來越多的學者開始把注意力轉向研究在能對攔截器進行實時觀測的前提下,如何設計出更有針對性的機動策略。在現有的相關研究中,根據攔截器最終產生脫靶的機理不同,對飛行器機動策略的研究路徑可以大致分為以下兩種:利用攔截器過載指令和實際過載之間的延遲;利用攔截器可用過載的有限性,通過機動迫使攔截器進入過載飽和區間。
對于第一種研究思路,Shinar等[3]將突防模型二維線性化,利用最優控制理論,證明了目標飛行器的最優躲避策略是Bang-Bang型的,且Bang-Bang控制的切換點選擇取決于實時攔截脫靶量對時間的導數;王亞帆等[4]建立了基于脫靶量級數解的攻防對抗模型,探討了對于比例導引攔截彈的最優機動策略,同時分析了攔截器導引比和對剩余飛行時間估計的誤差對攔截器脫靶量產生的影響。然而,利用這種思路實現反攔截往往需要我方飛行器的姿控系統具有足夠優異的動態特性,并且對攔截方的動態特性也具有準確的了解,在工程實踐中難度頗大。
針對第二種思路,Imado等[5-6]利用梯度法求解了飛機的最優躲避機動;李靜琳等[7]基于Radau多段偽譜法,針對高超飛行器的再入突防問題,利用約束漸強,循環優化的方法離線設計了飛行器的最優突防彈道,該彈道相比已有方法的攔截脫靶量提高了一個數量級,且對攔截彈的發射時機不敏感; Zhang等[8]基于彈目視角的導數給出了三維條件下的微分對策制導律,并分析了攻防雙方的最優機動策略。第二種思路雖然不必考慮攻防雙方的姿控特性,但其較高的計算代價和復雜的機動形式限制了其在線應用的發展。
神經網絡是近年來受到廣泛關注和研究的一類智能算法,此前被廣泛的應用于語音識別、圖像識別、故障診斷等領域,近年來,許多學者開始進行神經網絡技術在飛行器制導與控制等相關方面的應用研究,但整體仍處于起步階段。程林等[9]從飛行器動力學模型,最優控制和任務決策規劃3個角度綜述了深度神經網絡在飛行器動力學與控制中的應用;文獻[10-15]基于深度學習,利用離線獲得的大量飛行彈道作為制導模板訓練神經網絡,之后利用其作為制導律實現了在線的次優制導;文獻[16-19]利用強化學習研究了飛行器的制導問題,通過大量仿真讓智能體(飛行器)不斷試錯,并基于獎勵函數對結果進行評價,最終形成具有一定自主性的智能制導方法。
在眾多神經網絡中,長短期記憶(long short-term memory,LSTM)網絡因其模擬人腦對長期和短期記憶的篩選過程,可以將時序數據中不同時間切面的信息關聯起來,從中提取規律,非常適合解決動態過程的分類,預測等問題[20-23]。
文獻[3-8]從不同的角度提出了飛行器的機動規避策略,其最終目的都是得到盡可能大的攔截脫靶量。事實上對于現役的許多攔截系統,其攔截器的殺傷半徑往往十分有限,通常在10 m以下,對于直接碰撞殺傷攔截器而言,其殺傷范圍僅在m級。對于反攔截任務而言,只要攔截脫靶量大于攔截彈的殺傷半徑,則任務成功,更大的攔截脫靶量往往會使得飛行器消耗更多的能量,從而降低其最終落速。鑒于以上原因,本文提出了基于攔截脫靶量實時預測的飛行器反攔截機動方法,該方法的核心思想是:事先規定飛行器作規避機動的形式,將機動問題簡化為機動開始時機的選擇問題。之后利用LSTM實時預測當前時刻開始執行規避機動所能達成的最終攔截脫靶量,同時根據該預測值決策飛行器機動的時機和方向。本文所給出的方法機動形式簡單,姿控上容易實現,可以將規避機動的時機“受控”后延,減少機動的持續時間,降低能量消耗,以較少的能量代價實現突防效果。同時,采用LSTM預訓練神經網絡作為計算手段可以降低彈載計算機的計算壓力,能夠滿足在線快速計算的要求。
本文選擇LSTM的根本原因是其在解決時間序列問題上展現出來的良好性能。在飛行器和攔截器的攻防博弈過程中,除雙方的位置、速度等情況外,攔截器的導引律、有效導引比等同樣對最終的攔截效果有重要的影響。然而這些信息難以通過單個時間切面內的攻防狀態得到,需要通過對多個時間切面內攔截彈狀態進行綜合分析,而LSTM是解決時間序列問題的一個典型模型。相比于只能分析單一時間切面的神經網絡,LSTM可以從狀態隨時間的變化中發掘出更多的信息并加以分析,最終提高預測的準確性;
另一方面,由于飛行器搭載的探測設備性能限制,只能獲取攻防雙方的部分狀態信息,利用傳統方法無法唯一確定雙方的完整運動狀態信息,而以LSTM為代表的神經網絡技術的一大特點就是可以結合從大量訓練得到的先驗經驗(盡管這些經驗往往僅在數值層面上有意義),利用不完整的數據間的潛在關聯對目標參數進行回歸和分類。
首先定義坐標系統。假設地球為均質圓球,不考慮地球自轉,定義目標系O-XYZ為北天東慣性坐標系,其坐標原點與目標重合,X軸指向正北,Y軸垂直于地面指向天,Z軸指向正東,定義X軸方向為航向,Z軸方向為橫向,Y軸方向為縱向。
定義飛行器彈道系O1-X1Y1Z1,其原點O1與飛行器質心重合,O1X1軸與速度方向重合,O1Y1軸位于彈道平面內,與O1X1軸垂直并指向天,O1Z1與前兩者呈右手坐標系。類似的定義攔截器彈道系O2-X2Y2Z2,如圖1所示。
由于本文提出的方法是通過將攔截器拖入過載飽和來實現反攔截的,不需要考慮攻防雙方的姿態動力學特性,故建立攻防雙方的三自由度動力學模型即可,考慮飛行器和攔截器的控制形式都為側滑轉向(skid to turn,STT),飛行器三自由度動力學方程如下所示:
(1)
式中:x,y,z分別為飛行器在目標系中的位置坐標;v為飛行器的速度;m為質量;θ和φ分別是速度傾角和航跡偏航角;D、L、C分別為阻力、升力、側向力;Gx1,Gy1,Gz1分別為飛行器所受地球引力沿飛行器彈道系O1X1,O1Y1,O1Z1軸的分量。類似的,攔截器三自由度動力學方程如下:
(2)
式中:xD,yD,zD分別為攔截器在目標系中的位置坐標;vD為攔截器的速度;mD為質量;θD和φD分別是速度傾角和航向角;DD、LD、CD,分別為阻力、升力、側向力;Gx2,Gy2,Gz2分別為攔截器所受地球引力沿攔截器彈道系O2X2,O2Y2,O2Z2的分量;Px2,Py2,Pz2分別為發動機推力沿攔截器彈道系O2X2,O2Y2,O2Z2的分量。
定義攔截器—飛行器之間的相對速度為V1,攔截器對飛行器的視線俯仰角和偏航角分別為q1,q2,考慮攔截器的導引律為理想比例導引(ideal proportional navigation, IPN),其俯仰和偏航通道的指令加速度為
(3)
(4)
式中:N為有效導引比,在工程中通常取3~6。在仿真中,攔截器通過導引律給出的指令加速度調整其攻角和側滑角,進而調整其所受的升力和側向力,使得其攔截器的運動保持對導引信號的跟蹤,即:
(5)
在飛行器和攔截器的飛行過程中,主要考慮的約束為攻角約束、側滑角約束以及過載限制,對于飛行器而言,其法向、側向過載約束均為15,對于攔截器而言其法向、側向過載約束均為35。

由于飛行器對攔截器的探測距離有限,從發現攔截器到雙方交匯的時間通常不超過3~4 s,對于瞬時機動能力明顯差于攔截器的飛行器而言,實時跟蹤利用博弈理論生成的復雜規避指令在技術上難以實現;此外,由于空氣密度的變化會很大程度上影響飛行器的機動性能,以縱向機動為主的機動方式會改變飛行器的彈道高度,影響飛行器的過載能力,最終影響飛行器以規定的速度和姿態精確攻擊目標。
基于以上原因,在本文中,將機動的具體形式確定為“俯仰通道不機動,偏航通道作最大過載機動”。顯然,這種機動方式有兩個機動方向,即“向靠近攔截器一側機動”和“向遠離攔截器一側機動”兩種形式,分別利用這兩種形式在相同初始條件和機動時機下進行了10 000組打靶,在其中的9 280組中,向遠離攔截器一側機動獲得了更大的脫靶量,因此本文將“向遠離攔截器一側機動”確定為飛行器的機動方式,如圖2所示。

圖2 飛行器機動方式示意圖Fig.2 Schematic diagram of aircraft maneuver mode
前期大量的仿真結果表明,對于比例導引律而言,在其他條件相同的情況下,飛行器作躲避機動的持續時間越長,則攔截器最終的攔截脫靶量越大,同時飛行器機動所消耗的能量也越大。本文的機動時機選擇方法的思想就是對這個規律的逆用。通過對飛行器機動造成的攔截脫靶量進行實時預測,在保證飛行器高生存概率的同時,將機動時機受控后延,以盡量短的機動時間,盡可能小的能量消耗和彈道改變擺脫攔截器的攔截,從而更好地實現對目標的精確打擊。
基于脫靶量實時預測的機動躲避流程如圖3所示。

圖3 基于脫靶量預測的機動躲避流程Fig.3 Maneuver avoidance process based on miss distance prediction

在本文中,設定飛行器在未發現攔截器的情況下按照如下方式進行導引:在其與地面目標距離大于40 km時,縱向導引按標準彈道導引,橫向導引律為比例導引;待與目標距離小于40 km時,縱向導引律為帶落角約束的比例導引,橫向導引律仍為比例導引。
LSTM神經網絡是從傳統的循環神經網絡(recurrent neural network,RNN)的基礎上改進得來的一種神經網絡,解決了傳統的RNN網絡面對長序列數據出現的“梯度消失”和“梯度爆炸”問題,可以更好地應用于長序列數據的分析,回歸和預測等工作, LSTM神經網絡結構如圖4和圖5所示。

圖4 LSTM元胞的內部結構Fig.4 Internal structure of LSTM cells

圖5 LSTM神經網絡的結構Fig.5 Structure of LSTM neural network
2.3.1 LSTM元胞的結構
如圖4 所示,不同于傳統的神經網絡,LSTM以“元胞(cell)”作為構建的基本單位,每個元胞有3個輸入、3個輸出、4個“門結構”。“門結構”是LSTM區別于RNN的最主要特征,其出現解決了RNN的長期依賴性不佳的問題,這些門結構被統一稱為隱含層。
LSTM的實現對時序LSTM功能的核心是元胞狀態Ct-1→Ct的傳遞通路,這個通路實現了長期記憶的篩選和更新,其具體數學表達為
(6)

ft=σ(Wf[ht-1,xt]+bi)
(7)

it=σ(Wi[ht-1,xt]+bi)
(8)
(9)
式中:tanh表示雙曲正切激活函數;Wi,Wc,bi,bc分別為這兩個門的權重矩陣和偏置向量。
當元胞狀態更新完畢后,最后利用輸出門ot和單元狀態Ct給出當前元胞的輸出ht,其數學表達為
ht=ottanh(Ct)
(10)
其中:
ot=σ(Wo[ht-1,xt]+bo)
(11)
輸出門ot通過對上一元胞輸出和當前輸入狀態的處理實現了對短期記憶的應用;ht則通過ot與Ct的耦合實現了對于LSTM憶的綜合運用。
2.3.2 LSTM神經網絡模型的結構
將LSTM網絡沿輸入時序橫向展開后,整體結構如圖5所示。
按照信息的流向順序,LSTM神經網絡由下到上分別為輸入層、數個LSTM層和輸出層,其中輸入層和輸出層的激活函數都為tanh函數,LSTM層的個數由外部指定,本文中取LSTM層的個數為5層。
攔截脫靶量預測網絡的訓練分為兩個步驟,一是訓練集的生成,二是網絡的訓練。
2.4.1 訓練集的生成
本文中,脫靶量預測網絡的作用是通過當前時刻的狀態時間序列來預測當前條件下的機動脫靶量;生成訓練集的目的則是幫助網絡建立狀態時間序列與脫靶量之間映射,即“以當前時刻作為結束時刻的一段固定長度的狀態時間序列”與“下一時刻開始進行躲避機動最終形成的攔截脫靶量”之間的非線性映射關系。鑒于此,本文設計了如圖6所示的訓練集生成方式。

圖6 訓練集生成方式示意圖Fig.6 Schematic diagram of training set generation mode

E={E1,E2,…,En-1,En}
攻防雙方初始條件參數及其取值范圍如表1所示。

表1 攻防雙方初始條件隨機參數及其取值范圍Table 1 Random parameters of initial conditions of attack and defense sides and their value range
在上述參數范圍內隨機選擇彈目雙方的初始條件,導引比和機動時機,進行大量蒙特卡羅打靶來構建訓練集,本文中構建的單個訓練集的大小為12 000個樣本。
2.4.2 LSTM模型的訓練
訓練集在輸入LSTM網絡訓練之前,需要經過歸一化處理,本文中采用的歸一化函數定義為
(12)

將歸一化后的訓練集輸入LSTM神經網絡進行訓練,訓練過程中的損失函數定義為
(13)

(14)
LSTM模型的訓練采用Adams算法[24],初始學習率設置為0.02,每1 500次迭代學習率降低為原來的50%,批量訓練的最大批量長度“miniBatchSize”設置為3000,最大迭代次數設為10 000。
通過上述方法對LSTM神經網絡進行訓練,訓練完成后的網絡即可用作對當前狀態下的脫靶量的實時預測。
為驗證本文所提出的基于脫靶量實時預測的反攔截機動方法,本章通過對比仿真驗證該方法的可行性和優越性。對比仿真分為4個方面:與擺動式機動方法進行對比,旨在證明本文提出方法相較于傳統的正弦、方波等擺動式機動方式的優越性;不同輸入時間序列長度之間的對比,旨在探明不同輸入時間序列長度對LSTM預測網絡的影響;不同神經元個數的對比,旨在探明不同隱含層神經元個數對LSTM預測網絡的影響;測量噪聲對LSTM預測網絡的影響,通過對不同隱含層神經元個數,不同輸入時間序列長度的預測網絡施加不同水平的噪聲,探究噪聲對網絡預測精度的影響,同時討論不同神經元個數和時間序列長度對網絡抗噪性能的影響。


表2 不同機動方式的仿真結果Table 2 Simulation results of different maneuver modes

圖7 不同機動形式的彈道在OXZ面內的投影Fig.7 Projection of trajectories of different maneuver forms in OXZ plane
觀察表2可以發現,不同機動形式的生存概率有著顯著差別。在傳統的正弦、方波機動下,飛行器的生存概率僅為6.7%和13.6%,而基于脫靶量預測的機動形式則能夠達到超過98%的生存概率。在單次飛行過程中幾乎不會被攔截,這說明該機動形式相較于傳統的機動形式在生存概率上具有明顯優勢;另一方面,觀察不同機動方式擊中目標時的脫靶量,可以看到不同機動方式之間并無顯著差異,這是由于飛行器在最終打擊目標時采用了比例導引律,可以消除突防機動對打擊目標精度的影響。
從最終落速方面看,基于脫靶量預測的機動形式相比于正弦、方波的機動形式亦有所提高。觀察圖7,可以發現,基于脫靶量預測的飛行器機動幅度和機動時長明顯小于正弦、方波機動,相應的其能量消耗也明顯低于前者。最終反映到落速上,相比于不機動而言,基于脫靶量預測機動的飛行器平均落速僅減少了約14 m/s,而正弦機動和方波機動的落速分別減少了約88 m/s和約169 m/s。總而言之,本文所提出的基于脫靶量預測的機動形式在生存概率和能量消耗兩方面相比傳統的正弦、方波等擺動式機動具有顯著優勢。
輸入脫靶量預測網絡的狀態時間序列長度對LSTM的脫靶量預測效果有影響。本節中對具有不同輸入序列長度,隱含層神經元個數為28的不同脫靶量預測網絡分別進行了訓練和蒙特卡羅打靶仿真,結果如表3和圖8所示。

表3 不同輸入序列長度的仿真結果Table.3 Simulation results of different input sequence lengths

圖8 不同輸入時間序列長度下訓練損失函數Fig.8 Training loss function of different input steps
觀察圖8,不論輸入時間序列長度為多少,損失函數均隨著迭代次數的增加而降低,最終收斂,并且輸入時間序列長度越大的網絡其收斂后的網絡損失越小;觀察表3,整體來看,隨著輸入時間序列長度增大,實際攔截脫靶量的標準差逐漸減小,生存概率逐漸提升。
由于飛行器采取躲避機動的時機是通過脫靶量預測網絡的預測值確定的,所以實際的攔截脫靶量與目標攔截脫靶量之間的差值是脫靶量預測網絡對脫靶量預測準確度的評價標準。可以看出,輸入時間序列長度的增加有利于提升網絡對攔截脫靶量的預測準確度,但是從生存概率和平均落速上來看,不同輸入時間序列長度下脫靶量預測網絡的效果區別不大,都能以極高的概率突破對方攔截器的攔截。
本節討論隱含層中包含的神經元個數n對LSTM預測網絡預測性能的影響。分別對具有不同隱含層神經元數量,輸入序列長度均為 20的LSTM網絡分別進行了訓練和蒙特卡羅打靶仿真,結果如表4和圖9所示。

表4 不同隱含層神經元數量的仿真結果Table 4 Simulation results of the number of neurons in different hidden layers
觀察圖9可見,不同神經元數量的網絡都能隨著迭代次數的增加逐漸收斂,同時神經元個數越多的網絡其損失函數的收斂值越小;觀察表4,攔截脫靶量的標準差隨神經元個數的增加大體呈下降趨勢,說明脫靶量預測網絡的預測值的集中程度隨神經元個數的增加而提高,即預測精度隨神經元個數增加而提高。
用于進行實時脫靶量預測的彈目狀態信息都是通過飛行器上搭載的雷達等傳感組件獲得的,其測量過程必然存在一定的測量噪聲,這些噪聲可以被認為是高斯白噪聲[25],為模擬飛行時測量系統的噪聲。本文設定了兩個不同的噪聲水平,其對應的各狀態量噪聲的標準差如表5所示。

表5 各噪聲水平下個噪聲分量的標準差Table 5 Standard deviation of noise components at each noise level
3.4.1 神經元個數對網絡抗噪能力的影響
下面分別為不同隱含層神經元個數、輸入時間序列長度為20的LSTM網絡施加噪聲并進行蒙特卡羅打靶仿真,仿真結果如表6所示。

表6 噪聲對不同神經元個數的神經網絡的影響Table 6 Influence of noise on neural networks with different number of neurons
觀察表6可以發現,對于噪聲水平1,各LSTM網絡的攔截脫靶量預測效果都出現了一定的下降,其中n=21的網絡脫靶量預測標準差略大,其他3個網絡則基本持平,飛行器生存概率亦有小幅度下降,但均維持在98%以上;對于噪聲水平2,各網絡的脫靶量標準差進一步增加,生存概率進一步下降,但除n=21的網絡以外,其余網絡的生存概率仍維持在96%以上。
3.4.2 輸入時間序列長度對網絡預測性能的影響
分別為輸入時間序列長度不同、但隱含層神經元個數均為28的不同脫靶量預測網絡施加噪聲并進行蒙特卡羅打靶仿真,仿真結果如表7所示。

表7 噪聲對不同輸入時間序列長度的神經網絡的影響Table 7 Influence of noise on neural networks with different input time series length
觀察表7可以發現,各LSTM網絡在受噪聲影響后攔截脫靶量的標準差都出現了一定程度的增加,生存概率也受到了影響。總體而言,輸入時間序列長度較長的網絡具有更好的預測精度。然而隨著輸入時間序列長度的提升,獲得時間序列所需時間也隨之增加,對探測器的性能也有更高要求。
另一方面,注意到在噪聲條件下,各網絡的平均攔截脫靶量均較目標脫靶量15 m有一定上移,且標準差越大,攔截脫靶量提高幅度越大。這是本文中機動時機的確定方法導致的。


圖10 噪聲下脫靶量上移機理的示意圖Fig.10 Schematic diagram of up shift mechanism of miss distance under noise
當u=5時,飛行器的生存概率雖依然維持在大于90%的高位,但由于平均攔截脫靶量的上移,其能量消耗相對增加,平均落速相較于u分別為20和40的情況會有些許下降;u=40時,脫靶量的預測精度較之前3種情況更高,但同時也受限于較高的預測精度,其平均脫靶量的上移不明顯,導致其生存概率不如u=20的情況;u=20時,其在噪聲水平2的干擾下仍能獲得96.9%的生存概率,是4種序列長度中最高的,同時其平均脫靶量升高不多,可以較好地平衡生存概率、末端落速和傳感器性能要求。
本文提出了一種基于脫靶量實時預測的飛行器反攔截機動方法,該方法通過對彈目狀態的實時觀測后利用LSTM神經網絡進行實時脫靶量預測,根據預測結果來實時決策機動時機。對比了本文提出的方法與正弦、方波等傳統機動方法的效果,結果表明,本文提出的方法在生存概率和能量消耗兩方面相較正弦、方波等機動方法具有顯著優勢。探究了不同隱層神經元個數、不同輸入時間序列長度對本文所提方法實施效果的影響。結果表明,在不考慮噪聲的情況下,隱層神經元個數越多,輸入時間序列越長,則LSTM網絡對攔截脫靶量的預測效果越好,機動效果亦越好。探究了不同噪聲水平對本文所提方法實施效果的影響。結果表明,增加隱含層神經元個數、增加輸入時間序列長度都能提升網絡的預測效果,但由于噪聲條件下平均攔截脫靶量前移現象的存在,網絡對攔截脫靶量的預測效果與生存概率間并非線性關系,具體選擇何種時間序列長度還需結合實際綜合判斷。