蔣慶吉,王小剛,白瑜亮,李 瑜
(1. 哈爾濱工業大學航天學院,哈爾濱 150001;2. 北京空天技術研究所,北京 100074)
再入滑翔飛行器(Reentry glide vehicle,RGV)憑借其特殊的飛行速域和空域正成為當前航空航天領域的研究熱點[1-4]。與此同時,以愛國者-3為代表的各類典型防空反導攔截系統正在升級換代以應對高超聲速武器的威脅,應對再入滑翔飛行器的攔截方法也在不斷更新[5-8]。高超聲速武器打擊的戰略價值目標周圍通常布有嚴密的防空攔截系統,如何在規避攔截器的前提下仍能精確命中既定目標成為當前亟待解決的問題。
再入滑翔飛行器的機動策略一般包括程序式機動[9-10]、基于最優控制理論等的解析機動[11-12]與彈道優化[13]等方法。近年來,許多學者針對再入滑翔飛行器俯沖段的機動策略進行了廣泛研究。Shen等[3]將考慮終端目標的軌跡優化問題依次轉化為非凸最優控制問題和二階錐規劃問題,提出一種可變信賴域的連續二階錐優化方法,在時間消耗和最優性之間取得平衡。王洋等[11]通過制導誤差與法向機動速度構造滑模面,提出了一種新型機動制導律,在保證導彈末段打擊精度的同時提高了機動能力。Sun等[12]基于微分博弈理論研究了包含攻擊者、目標和防御者的最優制導律。朱建文等[14]在俯沖平面及轉彎平面內分別設計了正弦形式的視線角參考運動,以落速最大為性能指標,利用最優控制對其進行跟蹤,機動突防最優制導方法,能夠實現機動飛行,且能夠高精度地滿足終端落角及落點約束。李靜琳等[15]針對再入滑翔飛行器再入末段機動與精確打擊問題,從最優控制角度出發,提出了一種考慮攔截彈動力學特性的最優機動突防彈道優化方法,獲得了再入滑翔飛行器的最大機動能力。再入滑翔飛行器在俯沖段面臨各種攔截器威脅從而無法精確命中目標,因此有必要開展俯沖段博弈機動研究以規避攔截并完成打擊任務。
現有文獻通常假定攔截器模型已知,在特定場景條件下進行突防制導律推導,所得結果往往具有一定局限性。在實際博弈機動中面臨的問題有:1)攔截器發射窗口未知,再入滑翔飛行器完成對攔截器的機動之后不一定具備修正落點偏差至零的能力;2)由于探測設備約束,再入滑翔飛行器較難連續不間斷獲取攔截器信息,信息更新具有一定周期性;3)攔截器未建模動態和實際飛行差異帶來的不確定性問題:在解析方法中通常假設攔截器以固定導引系數對再入滑翔飛行器進行攔截,然而在真實戰場環境下,往往難以獲取對方制導律參數,這將使解析方法存在建模偏差,造成實際飛行的反攔截任務失敗;4)計算效率問題,作戰環境瞬息萬變,需要再入滑翔飛行器在較短時間內即給出機動參數,傳統優化方法難以完成在線實時輸出最優解。
深度強化學習算法是近年來發展迅速的一類人工智能算法,其在處理序貫決策問題方面具備天然優勢。深度強化學習算法在機械臂控制[16-17]、導彈攔截制導設計[18-19]、無人機航跡規劃[20-21]、航天器姿態控制[22]等領域得到廣泛應用,對解決傳統優化算法計算耗時長、局部收斂等問題上取得較好效果。深度強化學習算法將決策問題描述為馬爾科夫決策過程,智能體根據觀測到的環境狀態輸出決策動作,動作作用于環境模型產生獎勵和狀態更新[23]。其中,應用于連續狀態空間、離散動作空間的經典算法是深度Q學習(Deep Q-learning,DQN)算法[24],應用于連續狀態空間、連續動作空間的是深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法[25-26]。為解決稀疏獎勵問題,Schaul等[27]基于DQN算法提出優先經驗回放(Prioritized experie-nce replay,PER)方法。PER大大改善了樣本利用效率,在自動駕駛[28]、船舶避障[29]、無人機空投決策[30]等問題上取得較好效果。
為借助深度神經網絡解決復雜狀態空間序貫決策問題,將再入滑翔飛行器在俯沖段的機動飛行過程建模為馬爾科夫過程,對狀態、動作、獎勵等基本要素進行適應性設計。針對連續狀態空間和動作空間的特點,選取DDPG算法對飛行器的智能機動參數進行訓練。由于再入滑翔飛行器在被攔截或命中目標點之前缺乏獎勵信號,深度強化學習算法的訓練面臨稀疏獎勵問題。在傳統DDPG算法的基礎上進行多項改進,結合優先經驗回放方法對時序差分絕對值較高的樣本經驗進行優先回放,對高價值樣本進行多次利用,從而提高樣本利用效率,實現決策網絡的快速收斂。仿真表明,收斂后的機動決策網絡能夠輸出穩定有效的機動參數,在典型場景完成對攔截器規避后精確到達目標點,并且調用決策網絡時間較短,能滿足彈載計算機實時要求。
不考慮地球自轉,再入滑翔飛行器在俯沖段的動力學方程如下:

(1)
式中:V為速度;D為阻力;m為質量;g為引力加速度;γ為路徑角;L為升力;σ為傾側角;r為地心距離;ψ為航向角;θ為經度;φ為地心緯度。在速度、高度確定的情況下,D,L的大小取決于當前時刻攻角α。
飛行器的剩余航程RL計算為
RL=Rearccos(sinφsinφtar+cosθcosθtarcos(θ-θtar))
(2)
式中:θtar和φtar為目標經度和緯度;Re為地球半徑。
在發射坐標系(慣性系)和彈道坐標系下,攔截飛行器運動學與動力學方程如下:
(3)
式中:XI,YI,ZI為攔截器的位置在發射系下的直角坐標分量;VI為速度大小;θI為彈道傾角;ψI為彈道偏角;ny,nz為彈道系下的過載分量。
攔截器采用比例導引律對再入滑翔飛行器進行攔截,制導律的形式為
(4)

在碰撞時刻,攔截器的零控脫靶量計算如下:
(5)
式中:Rrel,Vrel為相對位置和相對速度矢量。
約束模型:考慮攔截器的單通道最大過載約束為NImax,實際過載應滿足
(6)
式中:ny為彈道系下法向過載,nz為彈道系下橫向過載,滿足aI=[ny,nz]T;NImax取為20。
首先對再入滑翔飛行器與攔截器的博弈機動飛行場景作如下假設:
1)再入滑翔飛行器航向角偏差為0,在不機動飛行且無攔截器時可在射面內導引命中目標點;
2)攔截器發射位置分布在再入滑翔飛行器目標點周邊,且第一次被再入滑翔飛行器探測到時已完成主動段飛行,位于一定高度位置;
3)再入滑翔飛行器在碰撞前10 s開始進行機動飛行,且獲取攔截器準確探測數據周期為1 s。
建立如圖1所示的博弈機動飛行場景模型。

圖1 對抗作戰場景示意圖
如圖1所示,任務場景可以描述為再入滑翔飛行器自M點出發,朝向目標點O進行俯沖段導引飛行。在無攔截器攔截情況下,其將沿M,M1,M2,O到達目標;在有攔截且自身不進行機動的情況下,其飛行經歷時間tzk后至M1點,首次探測到位于T點的攔截器,之后攔截器經T1,T2,C1點命中目標,其中M2和T2點為兩飛行器在碰撞前10 s的位置。為模擬并簡化攔截器的指控系統,對攔截器的發射時間和初始位置、速度進行隨機化建模。設M點在地面的投影點為M′。以O點為原點,OM′為X軸,垂直于X軸指向上為Y軸建立攔截器的發射坐標系。設T1點的坐標(XI0,YI0,ZI0)隨機產生區域如圖2所示,滿足:

圖2 攔截器初始位置分布
(7)
設攔截器在T1點時的速度大小為VI0,此時再入滑翔飛行器位于M1點的坐標為(XH0,YH0,ZH0),二者距離為r0。假設攔截器的速度指向為再入滑翔飛行器-攔截器連線方向,則可得攔截器速度方向為
(8)
式中:θI0和ψI0為初始彈道傾角和彈道偏角。
在機動飛行場景中,再入滑翔飛行器在M2點通過獲取的態勢信息進行首次機動,飛行一個決策步長時間后到達M3點,此時攔截器的導引彈道改變到達T3點。然后再入滑翔飛行器繼續根據新的態勢信息進行機動參數解算,依次飛過M4,M5等點。攔截器經過T4,T5等點后在C2點脫靶自毀,再入滑翔飛行器繼續對目標點O導引。
考慮到再入滑翔飛行器在每個決策時刻對機動參數進行計算,則俯沖段機動問題可以被轉化為一個序列決策問題:在一定的初始態勢下,飛行器如何在連續的多個決策時間點輸出機動參數。
其中,再入滑翔飛行器的場景(M點)隨機變量有初始速度V0、初始路徑角γ0、初始高度H0、射程RL;攔截器的場景(T1點)隨機變量有首次被探測時間tzk、初始速度大小VI0、發射系下初始位置坐標(XI0,YI0,ZI0)和導引系數K。
強化學習問題是建立在馬爾科夫決策過程(Markov decision process,MDP)上的,MDP是一種通過交互式學習來實現目標的理論框架。實施決策及進行學習的主體(再入滑翔飛行器)被稱為智能體,智能體之外所有與其相互作用的事物(攔截器、既定目標等)都被稱為環境。這些事物持續進行交互,智能體選擇動作,環境對動作做出相應響應,并向智能體呈現新的狀態。環境也會產生一個獎勵信號,即是智能體在動作選擇過程中想要累積最大化的目標,交互過程如圖3所示。

圖3 馬爾科夫決策過程中的交互
在每個離散時刻(再入滑翔飛行器俯沖段的決策步)t=0,1,2,3,…,智能體觀測到所在環境狀態的特征表達(或特征)St∈S,并且在此基礎上選擇一個動作At∈A(S)。下一時刻,作為其動作的結果,智能體接收到一個數值化的收益Rt∈R?R,并進入一個新的狀態St+1。從而,智能體所處的MDP會給出如下序列:S0,A0,R1,S1,R2,S2,A2,R3,…,直到仿真交互結束。智能體的優化目標是最大化所獲取的累積獎勵G0:
(9)
式中:λ為折扣因子;Ri為第i步的獎勵。
基于深度強化學習算法研究俯沖段博弈機動問題,首先需要對其馬爾科夫決策過程進行建模,即選取和設計刻畫俯沖段博弈機動決策過程的狀態、動作和獎勵規范。
1) 狀態空間:強化學習的策略學習依賴于“狀態”的概念,因為它既作為策略和價值函數的輸入,同時又作為仿真模型的輸入與輸出。對于再入滑翔飛行器,狀態變量應反映出其飛行狀態與機動飛行任務,并盡可能降低數據維度、減少信息冗余。假設攔截器運動信息被有效探測,狀態變量定義為
St=[Ht,RLt,Vt,σt,Δψt,HIt,RIt,VIt,σIt,ΔψIt]
(10)
式中:前5項依次代表再入滑翔飛行器在t時刻的高度、剩余航程、速度、路徑角、航向角偏差,后5項依次為攔截器在t時刻的高度、已飛航程(相對O點)、速度、路徑角、航向角偏差(相對O點)。
2) 動作空間:動作反映了控制變量對于模型狀態的改變能力,是決策網絡的輸出值。
根據再入滑翔飛行器動力學方程,在飛行過程中,能夠控制其每一時刻受力情況的是攻角和傾側角。然而,直接將攻角、傾側角的大小作為決策量有可能出現控制量突變的情況,將無法滿足控制系統要求。因此選取攻角變化率和傾側角變化率作為決策的動作變量,其大小范圍可通過動作變量的歸一化進行限幅控制。因此動作變量定義如下:
(11)

3) 獎勵規范:實時獎勵函數(收益信號)定義了強化學習問題中的目標,其設計準則應與俯沖段博弈機動目的(規避攔截器與到達目標點)對應。再入滑翔飛行器終止時刻落點偏差記為Lf,滿足:
(12)
式中:RLf為仿真終止時刻的剩余航程;Hf為仿真終止時刻的高度。
設計連續的分段線性獎勵函數如下:
RL=
(13)
(14)
式中:R為實際設計的總獎勵函數;RL為與落點相關的獎勵函數;L0為攔截器殺傷距離,根據經驗取為10 m。當LZEM>L0時認為規避成功,此時總獎勵由落點偏差決定。
由于規避威脅是一個需首先滿足的強約束,故和脫靶量相關的獎勵項呈現出如式(14)所示的二元形式。而由于落點偏差變化范圍大,采取式(13)所示的連續形式獎勵則利于策略根據梯度收斂。
如圖4所示,首先給出傳統DDPG算法的架構,然后基于優先經驗回放(Prioritized experience replay,PER)[27]方法給出DDPG算法的改進項,最后給出基于改進的PER-DDPG算法對博弈機動策略網絡進行訓練的流程。

圖4 算法實現框架
考慮到本文研究的再入滑翔飛行器俯沖段機動決策過程中,狀態空間和動作空間連續變化,使用DDPG算法對機動參數決策求解具備天然優勢。DDPG算法基于Actor-Critic(AC)架構,其核心是4個神經網絡,分別是:在線決策(Actor)網絡π(s|θπ),負責根據狀態變量輸出決策動作;在線評價(Critic)網絡Q(s,a|θQ),負責對狀態-動作值函數進行估計;目標決策網絡π(s|θπ′),作為在線策略網絡的學習目標;目標評價網絡Q(s,a|θQ′),作為在線評價網絡的學習目標。DDPG算法策略提升的本質是根據時序差分(TD)進行策略的學習訓練。
在AC框架下,算法通過對“狀態-動作”值函數Q(s,a)的估計優化實現對策略π的迭代更新。其中,Q(s,a)表征的是策略在當前狀態s下采取動作a后能夠獲取的累積回報的期望值:
(15)
對于最優的Q(s,a),其滿足如下貝爾曼方程:
(16)
相應地,狀態值函數V(s)表征在當前狀態s下按照策略π繼續決策能獲取的累積回報期望值:
V(st)=E[Gt|st]
(17)
依據確定性策略梯度,可對參數θπ更新如下:
(18)

考慮到再入滑翔飛行器面臨探索空間大、有效樣本少的困難,基于PER方法對DDPG進行改進:
1)建立自適應動作噪聲方法
傳統DDPG算法在訓練過程中使用一個OU噪聲[25]對策略進行探索,但在實際應用中噪聲參數需要根據訓練效果進行調節,否則容易出現訓練低收益階段探索不足、高收益階段利用不足的問題。為解決此問題,采取自適應方差的高斯噪聲設計。定義最近任務成功率Srate為其在最近100個仿真回合中飛行任務成功的比率。建立均值為0的自適應高斯噪聲Na~N(0,δ),方差δ隨最近任務成功率變化:
δ=10-2×(1-Srate)
(19)
2)使用時序差分誤差優先經驗回放方法
在標準DDPG算法中,算法采用無差別采樣方法對數據進行訓練,這對于獎勵信號豐富的任務能夠較快收斂,但對于可行解稀少、獎勵稀疏的任務,有效樣本利用效率非常低而難以獲取策略梯度,因此根據TD誤差進行優先經驗回放。對每個樣本,計算TD誤差如下:
ei=Ri+λQ′(Si+1,π′(Si+1|θπ′)|θQ′)-Q(Si,Ai|θQ)
(20)
當基礎經驗回放池填滿之后,按照TD誤差的絕對值對所有樣本進行優先級計算:
pi=|ei|+ε
(21)
式中:pi為優先級;ε為一極小正值。
對基礎經驗池中的每條樣本計算采樣概率:
(22)
式中:υ表示使用優先級的程度,取為0.7[27]。
然而,若按照上述概率對回放池中的樣本進行采樣,將造成采樣數據分布與實際仿真交互數據分布不一致,使得神經網絡對數據的刻畫具有一定偏差,從而無法完成最終的收斂任務。因此,需要采取重要性采樣方法對不同采樣概率的樣本進行采樣,第i個樣本的重要性采樣權重定義為
(23)
式中:N為經驗池中的數據樣本數量;β是調節權重的因子,取值范圍為0~1,當其取1時表示對優先級采樣概率進行完全修正,仿真中取為0.5[27]。
考慮重要性采樣權重后,則Critic網絡的損失函數的計算如下:
(24)
式中:NS為批量樣本個數。
3)使用成功樣本優先經驗回放方法
除了采用TD優先經驗回放方法外,考慮到策略探索前期成功樣本極少、策略網絡梯度難以產生有效梯度對策略進行改善,使用成功樣本優先經驗回放方法。即在策略網絡訓練的前期,構造一個成功樣本經驗庫,維護100組成功樣本。在對DDPG算法進行一步參數更新前,從成功樣本庫隨機取出若干樣本放到經驗回放池。
4)對終端收斂性能進行局部調整。為保證DDPG算法在進行到任務較高成功率的訓練后期仍具備較好的參數更新性能,使用修正的單輪訓練方法。在訓練前期,每回合對Actor網絡進行更新的次數為Nupdate,在Srate>90%時調整為N′update=0.2Nupdate。
基于改進PER-DDPG的算法步驟為
1) 使用隨機參數θπ初始化Actor網絡π(s|θπ),使用隨機參數θQ初始化Critic網絡Q(s,a|θQ);
2) 將在線網絡參數拷貝給對應的目標網絡,即θπ′←θπ,θQ′←θQ;
3) 初始化基礎經驗回放池RB(容量3000)和成功樣本經驗回放池RS(容量100);確定批量采樣容量大小BS;
4) 對于每一次俯沖段博弈機動飛行仿真:
a. 初始化自適應探索噪聲N的方差δ;
b. 初始化仿真交互環境,即對再入滑翔飛行器的初始射程、飛行高度、速度大小、飛行路徑角進行隨機,攔截器的首次被探測時間、初始位置、速度等進行隨機,確定模型積分仿真時間步長tstep1=0.01 s和決策時間步長tstep2=2 s,獲取到再入滑翔飛行器智能體的初始觀測S0;
c. 對于每一個決策步長(t=0,1,2,…):
i)將觀測的狀態量輸入策略網絡再加上探索噪聲得到當前決策動作輸出:At=π(St|θπ)+Na;
ii)決策動作傳遞到仿真交互環境中,再入滑翔飛行器在當前飛行時刻tsim對決策動作At進行解析,得到每個積分步長下的當前攻角和當前傾側角:
(25)
式中:αi和σi分別為當前積分步長的攻角和傾側角,αi-1和σi-1為上一積分步長的攻角和傾側角。
攔截器對再入滑翔飛行器進行導引飛行直至時刻tsim+tstep2或到達脫靶時刻(命中或脫靶);
智能體通過一個決策步長的仿真過程獲取到新的狀態St+1和即時獎勵Rt;
iii)將元組
d. 從經驗池中采樣學習(執行Nupdate次)
采取SumTree的形式對基礎經驗池中的樣本進行BS次數據采樣,獲取到BS條訓練數據。
采用均勻隨機方法,從成功樣本經驗池中獲取到SS條訓練數據。令NS=BS+SS,則以上共得到NS個
ii)對NS個樣本分別計算
yi=Ri+λQ′(Si+1,π′(Si+1|θπ′)|θQ′)
(26)
iii)計算NS個樣本的平均損失函數
(27)
使用Adam優化器進行參數θQ的更新;
vii)計算Actor網絡的平均策略梯度
(28)
使用Adam優化器進行參數θπ的更新;
viii)使用如下公式對目標網絡參數軟更新:
(29)
式中:τ為神經網絡軟更新系數,取為0.005;
e. 若再入滑翔飛行器完成對攔截器的機動且落點精度滿足指標,此回合樣本序列為成功樣本,則將整回合狀態轉移元組存儲到RS中;
f. 計算連續成功概率,根據式(19)更新δ。
仿真初始條件設置如下:
1)對抗場景初始運動參數范圍。
2)神經網絡結構以及超參數設置。參考經典DDPG確定兩類神經網絡的結構參數和超參數。

使用DDPG算法和改進PER-DDPG算法分別對俯沖段機動決策模型進行訓練,訓練過程的相關結果如圖5和圖6所示。

圖5 平均累積回報值隨回合數變化曲線

圖6 最近100回合成功次數
從圖5和圖6可以看出,改進的PER-DDPG算法在訓練到達2 631個仿真回合后收斂,在訓練末期任務成功率穩定達到95%以上水平;相比而言,傳統DDPG算法的收斂性較差,最高任務成功率不足70%。算法訓練過程中,兩個神經網絡的損失函數變化曲線如圖7和圖8所示。

圖7 Actor網絡的損失函數

圖8 Critic網絡的損失函數
隨著訓練進行,Critic網絡的損失函數逐漸降低,Actor網絡的損失函數逐漸逼近最大期望回報的負值。在本文提出的動態噪聲方差下,近100回合平均累積回報不斷上升,策略的確得到了持續提升。直至訓練收斂,近100回合成功次數由訓練前的不足30躍升為95以上,說明算法實現了既定效果。
為了校驗決策神經網絡在典型場景中的有效性,根據表1范圍進行參數隨機生成如表3所示。表4給出了4種仿真場景下的統計結果。

表1 場景設置參數

表2 神經網絡結構參數

表3 4種場景下的初始參數

表4 不同場景的校驗結果
從圖9~圖12可以看出,決策網絡訓練完成后,其輸出的再入滑翔飛行器俯沖段博弈機動軌跡均可規避攔截器的攔截,且能夠準確到達目標點;飛行路徑角、攻角、傾側角變化較為平滑,能夠滿足控制系統要求;飛行過程中的最大總過載也在其能力范圍內(<20),這表明剖面機動軌跡設計能夠滿足飛行能力要求。從圖13和圖14可以看出,攔截器在飛行前期能夠依據導引飛行鎖定再入滑翔飛行器,但經過后者的多次機動后,攔截需用過載均在飛行末段達到可用過載閾值(20),導引彈道無法完成對再入滑翔飛行器的攔截。

圖9 攔截器發射系X-Z平面對抗彈道

圖10 攔截器發射系X-Y平面對抗彈道

圖11 再入滑翔飛行器的法向過載隨時間變化曲線

圖12 再入滑翔飛行器的橫向過載隨時間變化曲線

圖13 攔截器的法向過載隨時間變化曲線

圖14 攔截器的橫向過載隨時間變化曲線
綜上,在校驗的4個場景中,決策網絡可以完成機動飛行任務。
使用深度強化學習方法進行智能在線決策的優勢在于將在線計算壓力轉移到離線訓練中。在線使用時,彈載計算機只需在每個制導決策周期將觀測的狀態量數組輸入給決策神經網絡,即可得到機動參數,從而實現智能博弈機動,完成既定任務。
為對決策網絡有效性進行評估,開展統計校驗。使用表1所示范圍的場景參數進行1000次仿真校驗。計算平臺CPU為Intel(R) Core(TM) i7-8700U,內存8 GB,決策網絡每1 000次的調用時間為0.361~0.403 s,平均單次調用時間小于0.5 ms,具備較好的實時性。經統計,同時滿足再入滑翔飛行器落點偏差小于10 m且攔截器脫靶量大于10 m的樣本個數為927,即說明決策網絡輸出的策略成功率大于90%。仿真校驗的脫靶量分布結果如圖15所示。

圖15 攔截器脫靶量樣本分布
仿真校驗的落點偏差分布結果如圖16所示。

圖16 落點偏差樣本分布
針對攔截器的未知特性,對場景初始參數進行調整,得到決策網絡在攔截器不同未知特性下的結果如表5所示。

表5 攔截器未知特性下的校驗結果
從校驗結果可知,決策神經網絡具備較好的泛化能力,在攔截器不同未知特性下仍能保持較高的任務成功率,相較于訓練過程末期的任務成功率最高降低不到5%,表明所提出的智能博弈機動策略對未知參數的抗干擾能力較強。
面向再入滑翔飛行器,針對其俯沖段博弈機動問題進行深入研究,取得以下成果:首先,將俯沖段博弈機動問題建模為馬爾科夫決策過程,定義了狀態、動作與獎勵函數;然后,針對傳統DDPG算法進行改進,對經驗回放機制和探索噪聲設計進行優化,提出了基于改進PER-DDPG的俯沖段博弈機動決策算法,提高了訓練初期的尋優能力和后期的收斂性能。最后,在多場景飛行仿真校驗和大規模泛化能力校驗中,統計數據驗證了決策算法在進行機動決策上的有效性。針對不同場景,算法具備較強的泛化性,可為再入滑翔飛行器的俯沖段智能博弈機動飛行提供參考。