王子瑤, 唐勝景, 郭杰, 閻宏磊, 葛健豪
(北京理工大學 宇航學院, 北京 100081)
高超聲速飛行器具有飛行速度快、可自主博弈機動等突出特點,其作為進攻性武器具有很強的突防能力,現有防空反導系統對高超聲速目標的攔截效能較低,不具優勢[1]。2018年,美國國防高級研究計劃局探究新型作戰空天攔截方案,啟動“滑翔破壞者”項目,旨在使用高超聲速滑翔飛行器(HGV)遠距離精確攔截高超聲速目標,并于2021年完成了項目技術演示的關鍵設計審查和飛行試驗的可行性研究[2-3]。使用HGV作為高超聲速攔截器對高超聲速目標進行攔截具有以下優勢:
1)HGV在速度和機動性方面與高超聲速目標相當甚至更具優勢,可以避免采用多攔一的攔截策略,提高效費比。
2)HGV具備遠程制導攔截的能力,可在遠離我方陣地處對高超聲速目標進行有效毀傷,避免了攔截后的附加傷害。
3)高超聲速目標飛行軌跡位于現有防空反導系統的攔截“盲區”高度[4],使用HGV再入攔截可以彌補這一空窗高度。
4)HGV可以自上而下再入攔截高超聲速目標,有利于增加導引頭探測距離,創造更大的攔截窗口[5]。
本文以HGV作為高超聲速攔截器,其攔截高超聲速目標的作戰流程示意圖如圖1所示。在探測到高超聲速目標后,攔截器經過助推段開始無動力滑翔再入,在初始下降段和滑翔段依靠衛星進行目標探測,進入末制導段后依靠自身導引頭探測目標并實施最終打擊。本文在末制導段為HGV設計可精確攔截高超聲速目標的先進制導律。

圖1 HGV攔截高超聲速目標的作戰流程示意圖
而高超聲速目標能夠進行主動機動,面對攔截可以采取智能的躲避策略,所以進行高超聲速攻防博弈制導律研究是十分必要的[6]。攻防博弈即攻防雙方在已知信息和約束的基礎上利用各自能力展開博弈,以獲取各自的最大利益[7]。現有攻防博弈研究對象主要集中在無人機對抗[8]、傳統戰術彈攻防[9]、航天器交會[10]等,關于高超聲速飛行器攻防博弈的研究較少。文獻[11]中針對吸氣式高超聲速飛行器與從同一方向連續來襲攔截彈之間的博弈問題,在過載約束下設計了躲避攔截的最優制導律。文獻[12]在戰術彈攔截吸氣式高超聲速巡航目標的末制導問題中基于直覺模糊的動態博弈模型,結合多屬性評估方法和支付矩陣直覺模糊表示,求解博弈雙方動態策略。
攻防博弈問題是一個典型的雙邊最優問題,當前對該問題的求解方法集中在了微分對策理論,即考慮攻防博弈雙方的最優策略[13]。微分對策理論最早由Issacs[14]提出,后續Friedman[15]嚴格證明了微分對策值與鞍點的存在形式,從而奠定了微分對策堅實的理論基礎。文獻[16]證明了高超聲速目標采用微分對策制導律相比正弦機動等傳統策略更容易躲避攔截。文獻[17]對高超聲速彈頭躲避動能攔截器的二人零和微分博弈問題,基于微分對策理論構建最優策略集,得出彈頭的最優規避策略。文獻[18]對導彈在大氣層外攔截高超聲速目標進行分段小擾動線性化,通過求解Riccati微分方程設計了微分對策制導律。文獻[19]為有效攔截高超聲速飛行器目標,以非線性模型預測控制為框架,采用梯度下降法求解攔截彈的有限時域微分對策三維制導律。
微分對策制導的核心是求解Hamilton-Jacobi-Isaacs(HJI)方程,但HJI方程一般為形式復雜的偏微分方程,無法直接獲得解析解。而自適應動態規劃(ADP)利用神經網絡估計代價函數,并且具有求解速度快、計算精度高等優點,能夠很好地應用于攻防博弈制導律求解過程。目前,ADP在飛行器制導領域的應用成果較少,研究主要針對低速導彈[20]。文獻[21]采用策略迭代ADP算法,求解了攻防博弈系統模型未知情況下的近似最優策略。文獻[22]對存在不確定項的導彈攻防零和微分對策問題,利用ADP算法提出了魯棒自適應最優控制方案。文獻[23]則利用ADP算法設計了輸入飽和條件下的有限時間微分對策制導律。ADP算法在高超聲速攻防博弈問題上的應用比較少見。文獻[24]對高超聲速目標攔截問題進行了微分對策建模,并基于雙啟發式的ADP算法求取了納什均衡解。但其建立在攻防雙方速度不變的假設上,未考慮高超聲速飛行器真實的動態特性。
本文將HGV作為攻防博弈的雙方,在末制導段設計了基于ADP算法的高超聲速攻防博弈自適應微分對策三維制導律。根據HGV制導特性,將高超聲速攻防博弈三維制導問題分解到縱向平面和側向平面內。在不忽略高超聲速動態特性的前提下,建立縱向二人零和微分博弈問題模型,設計非二次型代價函數保證攻防博弈雙方控制量在約束內,引入評價神經網絡擬合最優代價函數并求解HJI方程,得到微分對策傾側角幅值指令。側向制導則基于平行接近法得到航向角參考指令,并設計傾側角反轉邏輯對參考指令進行跟蹤。最后通過HGV攻防博弈仿真算例驗證所設計制導律的有效性和優越性。
本文考慮高超聲速飛行器三維攻防博弈問題,攔截器試圖攔截目標,而目標試圖躲避攔截器,博弈雙方均以HGV為研究對象,攻防博弈幾何關系如圖2所示。忽略地球曲率及其自轉效應,HGV在東北天坐標系Oxyh中的運動方程為

圖2 攻防博弈幾何關系
(1)

(2)
ρ為高度決定的大氣密度,ρ=ρ0exp (-h/hs),ρ0為海平面處的大氣密度,hs為標準高度,CL和CD分別為攻角α和馬赫數Ma確定的升力系數和阻力系數,Sref為HGV的特征面積。圖2中,為區分攻防博弈雙方,高超聲速攔截器相關變量帶有右下標I,高超聲速目標相關變量帶有右下標T,r為攔截器和目標之間的相對距離,q為縱向視線角,ψLOS為側向視線角,以正北方向順時針方向為正。
首先建立視線坐標系OLxLyLhL,如圖2中所示。視線坐標系原點OL取在攔截器處;OLxL軸與彈目視線重合,指向目標為正;OLyL軸在水平面內與OLxL軸垂直,從攔截器向目標方向看,指向左側為正;OLyL軸垂直與OLxLyL平面,方向按右手直角坐標系確定。東北天坐標系Oxyh到視線坐標系OLxLyLhL的轉換矩陣為
(3)
則高超聲速攔截器速度在視線坐標系中的投影VIx、VIy、VIh為
(4)
同樣地,高超聲速目標速度在視線坐標系中的投影VTx、VTy、VTh為
(5)
則高超聲速攔截器和目標的相對運動關系為
(6)
由于HGV無動力滑翔再入過程速度不斷下降,在滑翔段速度下降到一定值后開始采用最大升阻比攻角飛行,可以達到較大航程[25],實現遠程攔截效果,所以假設本文中高超聲速攔截器與目標均采用常值最大升阻比攻角飛行,即αI=αIL/D、αT=αTL/D。高超聲速攔截器和目標分別通過控制傾側角σI和σT的幅值進行縱向機動,通過傾側角反轉改變傾側角符號進行側向機動。本文將分別設計攻防博弈雙方的縱向自適應微分對策制導律和側向平行接近傾側角反轉邏輯,實現高超聲速攔截器對靈活機動躲避打擊的高超聲速目標的精準攔截。
首先引入零控脫靶量的概念,即高超聲速攔截方和目標均不再發生機動時的最小距離[26],表達式為
(7)


(8)
選取高超聲速攔截器的縱向法向加速度u和目標的縱向法向加速度v作為高超聲速攻防博弈系統的虛擬控制輸入,其表達式為
(9)
于是式(8)可整理為
(10)
式中:
在高超聲速攻防博弈過程中,為了能夠成功攔截目標,攔截方會通過選擇控制策略u最小化零控脫靶量,而目標會調整自己的控制策略v最大化零控脫靶量,試圖逃逸[22]。則高超聲速攻防博弈系統式(10)為二人零和微分博弈問題,即博弈其中一方試圖最小化設計的代價函數,而另一方使其最大[27]。
假設1假設式(10)中g(ω)和h(ω)均有上界,即存在兩個正常數gm和hm,使得|g(ω)|≤gm、|h(ω)|≤hm成立。
為避免彈目距離趨近于0 m引起的高超聲速攻防博弈雙方終端狀態和控制量發散,當高超聲速攔截器與高超聲速目標相對距離小于距離rf時,不再進行機動,制導策略采取零值,因此有|g(ω)|≤1/rf、|h(ω)|≤1/rf,故假設1成立。
基于高超聲速攻防博弈系統的二人零和微分博弈問題式(10)建立合適的代價函數,求取納什均衡解。高超聲速攔截器的控制輸入目的是最小化代價函數,而目標的控制輸入則試圖最大化代價函數。由式(9)可知,當高超聲速攔截器和目標的傾側角為0°時,博弈雙方的升力全部用來提供縱向法向加速度,法向加速度達到最大值。當法向加速度超過最大值時,將造成傾側角幅值無解的情況。為了保證博弈雙方傾側角幅值始終有解,設計二人零和微分博弈問題式(10)的代價函數[28]為非二次型形式:

(11)
式中:Q為代價函數權重,為一正常數;UJ(u)、VJ(v)均為處理控制約束的非二次型泛函,設計為
(12)
R1、R2為代價函數權重,λ1、λ2為控制增益,均為正常數,φ(·)為滿足φ(·)≤1、φ(0)=0的一一映射連續有界Cε(ε≥1)類函數,且其為1階導數有界的單調奇函數[29],φ-1(·)代表φ(·)的反函數。函數φ(·)可映射施加的控制約束,并且已被證明此類函數能滿足最優解在控制約束內[30]。由于雙曲正切函數滿足要求且積分形式簡單,選擇φ(·)=tanh (·),則式(12)可表達為
(13)
對式(13)求積分,可得
(14)
為求取代價函數式(11)的最優控制策略,建立二人零和微分博弈問題式(10)的Hamilton函數為
(15)

根據Nash-Pontryagin極大極小值原理,Hamilton函數式(15)的納什均衡解(u*,v*)存在的必要條件[31]為
H(u*,v)≤H(u*,v*)≤H(u,v*)
(16)
二人零和微分博弈問題式(10)的最優代價函數J*滿足如下關系式:
(17)
可通過求解Hamilton-Jacobi-Isaacs(HJI)方程得到,即
(18)
為使HJI方程式(18)的解存在且唯一,利用最優控制必要條件?H(u,v)/?u=0和?H(u,v)/?v=0,可得到攻防博弈雙方的納什均衡解為
(19)

將最優控制策略式(19)代入式(14),可得攻防博弈雙方的非二次型泛函為
(20)
進一步,將攻防博弈雙方的最優控制策略式(19)和非二次型泛函式(20)代入HJI方程式(18)中,整理可得
(21)
由此可見,HJI方程式(21)為關于最優代價函數J*的非線性偏微分方程,難以得到解析解。為解決這一問題,通過ADP方法,利用神經網絡的非線性逼近能力[29],構建權值在線更新的評價神經網絡對最優代價函數J*進行逼近。
評價神經網絡為反向傳播(BP)神經網絡,其結構圖如圖3所示,僅采用一層隱藏層。BP神經網絡的輸入僅為縱向視線角速率ω,輸出即為最優代價函數J*的估計值,其存在一個理想評價神經網絡,即

圖3 評價神經網絡結構圖
(22)

ΦC(ω)=[φC1(ω),…,φCi(ω),…,φCN(ω)]T
(23)

(24)


將式(24)代入最優控制策略式(19),可得
(25)
式中:

(26)

(27)
式中:εHJI為由評價神經網絡逼近誤差引起的殘余誤差,其表達式為
(28)

根據文獻[29],隨著神經元個數N的不斷增加,剩余殘差εHJI逐漸收斂到0。即對于一個任意正數εHJIm>0,總是存在一個正數N′,使得當N>N′時,|εHJI|≤εHJIm。
但是估計最優代價函數J*的理想評價神經網絡是未知的,只能利用神經網絡擬合逼近最優代價函數,即
(29)
式中:WC為評價神經網絡的估計權值向量,WC=[wC1,wC2,…,wCN]T∈RN。式(29)對縱向視線角速率ω的偏導數為
(30)
于是可得估計的微分對策控制策略為
(31)
式中:
將式(31)代入Hamilton函數式(15),可得到估計的Hamilton函數為
(32)

(33)
式中:αC、αW為學習率,αC,αW>0。式(33)中等號右邊第1項由梯度下降法得到,可使估計的Hamilton函數最小化,第2項為權值反饋項,有利于權值向量更快地收斂。令β=?eC/?g(ω)+h(ω)],則評價神經網絡估計誤差的變化率為
(34)
評價神經網絡無需進行離線訓練,其權值向量進行在線更新。評價神經網絡的輸入僅為縱向視線角速度ω,權值更新律式(33)亦為與縱向視線角速度ω有關的函數。縱向視線角速度ω通過攔截器的導引頭即可測得,具有一定的工程實現性。

證明選擇Lyapunov函數為
(35)

(36)
針對式(36)等號右側第1項:
(37)
由HJI方程式(27),可得
(38)
式中:
基于假設條件,易得ε1是有界的,即存在常數ε1m滿足|ε1|≤ε1m。
(39)
式中:
(40)
針對式(36)等號右側第2項:
(41)
由HJI方程式(27),可得
(42)
由泰勒展開式
(43)
式中:

(44)

(45)
進一步,式(36)可變換為
(46)

(47)

于是由式(9)和式(31)可得高超聲速博弈雙方的傾側角幅值指令為
(48)
側向制導律采用航向角走廊方法[33-34]確定傾側角符號。首先通過平行接近法確定博弈雙方的參考航向角,然后在參考航向角兩側建立寬度為Δψ的航向角走廊。當HGV的航向角超出航向角走廊時,傾側角反轉改變符號;當航向角未超出航向角走廊,保持傾側角符號不變[35]。
對于高超聲速攔截器,為使攻防博弈雙方在側向平面內滿足平行接近關系,需博弈雙方速度滿足
VIy=VTy
(49)
代入式(3)~式(5)可得高超聲速攔截器的參考航向角為
(50)
則高超聲速攔截器的傾側角反轉邏輯為
(51)
式中:σ′I為上一時刻高超聲速攔截器的傾側角;Δψ為航向角走廊寬度,其表達式為
Δψ=(Δψ2-Δψ1)r/r0+Δψ1
(52)
Δψ1和Δψ2為常值系數,且0<Δψ1≤Δψ2,r0為初始彈目距離。航向角走廊寬度隨著彈目距離減小而不斷減小。
對高超聲速目標來說,為使博弈雙方側向速度保持平行但相互遠離,博弈雙方速度需滿足
VIy=-VTy
(53)
由式(3)~式(5)可得,高超聲速目標的參考航向角為
(54)
同樣地,高超聲速目標的傾側角反轉邏輯為
(55)
式中:σ′T為上一時刻高超聲速目標的傾側角。
以高超聲速攔截器對來襲高超聲速目標進行攔截為背景進行仿真,高超聲速攔截器和目標均以美國通用航空器CAV-H[36]為仿真對象,雙方最大升阻比攻角αIL/D=αTL/D=20°。為驗證本文所設計制導律的有效性,設計3個高超聲速目標攔截任務進行仿真,分別記作任務1~任務3。在各攔截任務中,高超聲速攔截器初始狀態不變,高超聲速目標的初始位置和初始速度相同,但初始航跡角和航向角不同。雙方初始狀態如表1所示。為了提現本文所設計微分對策制導律的優越性,將比例導引制導律作為對比方法,對比方法中縱向制導利用比例導引律確定傾側角幅值,比例導引系數為3,側向制導采用本文提出的平行接近傾側角反轉制導律,高超聲速目標仍然按照微分對策制導指令飛行。

表1 攻防博弈雙方的初始狀態
縱向自適應微分對策制導中,代價函數權重選取為Q=10、R1=0.003、R2=0.001,控制增益選取為λ1=0.4、λ2=0.4,評價神經網絡為BP神經網絡,激勵函數選取為ΦC(ω)=[ω,ω2,ω3,ω4]T,初始的估計權值向量選取為WC=[-100,-100,-100,-100]T,評價神經網絡學習率αC=1×108、αW=0.01。當博弈雙方相對距離小于rf=1 km時,開始采取零值法向加速度。側向平行接近傾側角反轉制導中,航向角走廊寬度系數選取為Δψ1=0.5°和Δψ2=3°。
仿真結果如圖4~圖12所示。由圖4所示的攻防博弈雙方三維軌跡曲線可以直觀地看到各任務中,本文所設計的微分對策制導律和比例導引制導律均能夠使高超聲速攔截器成功命中高超聲速目標。但在圖5所示的縱向法向加速度曲線中,高超聲速攔截器采用微分對策制導律所需法向加速度明顯小于比例導引律。圖6展示了ADP算法估計的Hamilton函數值,值并未逐漸減小是由評價神經網絡權值更新律包括權值反饋項導致的,但 Hamilton函數值始終保持在零值附近,驗證了評價神經網絡對最優代價函數逼近的正確性。各攔截任務中的評價神經網絡權值如圖7所示,可見權值wC1最終穩定于零值。由于權值wC2、wC3、wC4更新律中包含縱向視線角速率ω的高次冪,而由圖8(c)所示的縱向彈目視線角速率曲線可以看出,各攔截任務中縱向視線角速率基本都保持在0 rad/s,所以權值wC2、wC3、wC4的更新律受到ω的影響較小,變化趨勢主要由權值反饋項決定。圖8(a)展示了微分對策制導下,高超聲速攔截器和目標的相對距離曲線,顯示出在本文所提出的制導律作用下,攔截器能夠在目標機動的情況下不斷接近目標,各任務中攻防博弈雙方的最終距離分別為6.78 m、7.77 m、4.18 m,均達到了米級精度,實現了精確打擊。圖8(b)為縱向彈目視線角曲線,可見縱向視線角基本上都保持恒定,直到最后時刻彈目距離很小時才發散。高超聲速攔截器和目標的速度如圖9所示,由于阻力的存在,攻防博弈雙方速度均大幅度減小。圖10為高超聲速攔截器和目標的航跡角,最后時刻為了避免由于相對距離趨近于0 m而引起的神經網絡權值發散問題,縱向法向加速度采取零值,所以最后時刻攻防博弈雙方的航跡角保持不變。圖11展示了高超聲速攔截器和目標的航向角曲線,攔截器通過不斷改變傾側角符號進行側向制導逼近目標,而目標航向角未超出其航向角走廊邊界,一直力求朝著遠離攔截器的方向飛行。圖12為攻防博弈雙方的傾側角,可見雙方傾側角在博弈過程中始終有解,故滿足控制約束。隨著彈目距離減小,航向角走廊寬度也逐漸減小,高超聲速攔截器的傾側角反轉頻率逐漸加快。高超聲速目標的傾側角幅值是逐漸減小的,這是由于隨著彈目距離不斷減小,目標采取減小傾側角策略而得到更大的升力,進而得到更大的縱向、法向加速度以躲避攔截器,但攔截器最終仍能夠成功命中目標。

圖4 攻防博弈雙方的三維軌跡

圖5 攻防博弈雙方的縱向法向加速度

圖6 ADP算法估計的Hamilton函數值

圖7 ADP算法評價神經網絡權值

圖8 微分對策制導下攻防博弈雙方的相對關系

圖9 微分對策制導下攻防博弈雙方的速度

圖10 微分對策制導下攻防博弈雙方的航跡角

圖11 微分對策制導下攻防博弈雙方的航向角

圖12 微分對策制導下攻防博弈雙方的傾側角
各攔截任務的仿真是在配有Intel(R) Core(TM) i5-8265U CPU @ 1.60 GHz、8.00 GB內存的仿真計算機上進行,仿真計算用時分別為2.83 s、2.95 s、3.48 s,可以滿足在線制導的實時性要求。
本文基于ADP算法對高超聲速攔截器打擊高超聲速機動目標的攻防博弈系統進行自適應微分對策三維制導律設計。在縱向平面內建立了高超聲速二人零和微分博弈問題模型,設計了非二次型代價函數,并通過求解HJI方程,引入評價神經網絡逼近最優代價函數,得到了高超聲速攔截器和目標的微分對策制導指令。在側向平面內,通過平行接近制導法為攻防博弈雙方提供參考航向角指令,并基于傾側角反轉邏輯實現了側向制導。得出的主要結論如下:
1)本文以HGV為攻防博弈雙方對象,在攻防博弈三維制導律設計中考慮了高超聲速飛行器動態特征,在不忽略攻防博弈雙方速度變化率的前提下建立了高超聲速二人零和微分博弈問題。
2)相比于比例導引制導律,本文提出的微分對策制導律所需要的法向加速度更小,且能夠實現高超聲速攔截器對機動躲避攔截的高超聲速目標的精準打擊。
3)設計了非二次型代價函數保證攻防博弈雙方滿足控制約束,使得攻防博弈雙方的傾側角指令始終有解。
本文后續工作可進一步拓展微分對策制導的應用場景,應用于HGV滑翔段等多個飛行階段,并針對高超聲速巡航目標等多種機動目標進行攔截制導。此外,可在本方法基礎上考慮攻擊角度約束及障礙約束,實現多約束條件下的高超聲速攻防博弈制導。