摘 要:考慮飛行器在執行任務過程中存在諸多不可預知的威脅或障礙,為保障飛行器的安全性,本文進行飛行器面向威脅目標的自主規避決策方法研究。首先綜合考慮飛行器與威脅目標行為之間的相互影響,提出了基于深度長短期記憶(LSTM)神經網絡的軌跡預測算法,實現對威脅目標未來軌跡的預測;然后結合預測信息構建攔截場景下規避機動的馬爾可夫決策過程,設計了基于改進雙延遲深度確定性策略梯度(P-TD3)的飛行器規避決策方法,以最大化規避過程的總收益為優化目標,實現飛行器自主規避決策。最后通過在虛擬仿真交互平臺的試驗驗證,本文的決策方法提升了網絡的收斂速度,具有84%的規避成功率,提高了飛行器對潛在威脅的成功規避概率,有利于增強飛行器的自主性與安全性。
關鍵詞:高超聲速飛行器; 強化學習; 雙延遲深度確定性策略梯度; 自主規避; 機動決策
中圖分類號:V249 文獻標識碼:A DOI:10.19452/j.issn1007-5453.2024.06.012
基金項目: 國家自然科學基金(62373268,61903349,62073234);航空科學基金(20170748003)
高超聲速飛行器通常具有經濟性、高效性、安全性、強機動性等特點,已逐漸成為未來空間攻防對抗、應對潛在空間沖突、維護國家安全等方面不可或缺的戰略裝備,是世界各國航空航天系統的重要研究方向[1-4]。然而,隨著飛行器任務與飛行環境的日益復雜,飛行器在執行任務過程中存在諸多不可預知的威脅或障礙,如雷達探測系統及其他飛行器的跟蹤、攔截等。因此,研究飛行器自主規避決策方法,對保障飛行器的高效安全飛行、增強飛行器自主能力具有十分重要的意義[5]。
目前飛行器自主機動決策的方法主要分為基于數學模型的傳統方法和基于強化學習的人工智能方法。基于數學模型的傳統方法包含微分對策法、影響圖法、矩陣對策法等[6-10]。楊濤等[11]基于微分對策理論,以飛行器能量為指標,以初始時刻的機動狀態、初始位置和速度作為參數建立解析表達式,仿真驗證了飛行器的規避效果。Bardhan等[12]根據飛行器與威脅目標攻防模型設計了基于狀態方程方法的微分對策制導律,得到了優于經典微分對策理論的規避效能。上述研究均建立在離線規劃數學模型的基礎上,在實際復雜的飛行環境中,由于無法獲得威脅目標的參數信息,飛行器無法在短時間內推導出威脅目標的彈道和制導方式,因此無法自主應對威脅目標的實時跟蹤和攔截。
隨著人工智能的發展,基于強化學習的人工智能方法可用于求解無模型非線性規劃問題,具有求解速度比傳統數學算法快的優勢,逐漸成為飛行器自主決策領域的研究重點[13-17]。蔣亮等[18]考慮二維平面內向上和向下的推進點火決策,提出了一種基于深度神經網絡架構競爭雙深度Q網絡的飛行器中段突防決策模型,通過引入競爭架構和目標網絡架構加快了深度神經網絡的收斂速度、增強訓練過程中的穩定性。孔維仁等[19]采用狀態對抗深度確定性策略梯度算法(SA-DDPG)和逆強化學習算法設計了飛行器自主機動策略生成算法,該算法基于最大熵逆強化學習算法生成獎勵,提高了飛行器自主機動策略生成算法的效率。趙宇等[20]將飛行器和多個威脅目標作為多智能體系統,以相對距離和總機動時間為變量設計評價函數,提出了基于多智能體深度確定性策略梯度算法的自主智能決策方法,該方法通過訓練實現了飛行器的自主規避脈沖機動。目前的決策理論研究大多集中在無人機等無人系統上,針對飛行器自主規避決策技術的研究還較少。

因此,本文考慮飛行器面臨的飛行安全問題,給出了飛行器規避機動場景的任務描述,構建了攔截場景下規避機動的馬爾可夫決策過程,提出基于改進雙延遲深度確定性策略梯度(P-TD3)的飛行器規避決策方法。通過考慮威脅目標的行為對飛行器決策的影響,在自主規避決策方法中加入了軌跡預測網絡,依據獲得的預測信息進行規避決策。通過仿真試驗,本文的決策方法實現了飛行器的主動規避,有效提高了飛行器對潛在威脅的成功規避概率,對飛行器自主規避技術研究具有一定的參考價值。
1 飛行器模型
1.1 飛行器動力學模型


2 威脅目標軌跡預測
在飛行器規避過程中,飛行器與威脅目標之間的行為耦合相關,提前獲取威脅目標的未來軌跡可以為飛行器的機動決策過程提供依據,使其盡早規避威脅。由此,本文基于深度長短期記憶(LSTM)網絡設計如圖2所示的威脅目標預測網絡,該網絡以飛行器與威脅目標的歷史狀態信息為輸入,通過數據處理、特征提取以及雙層LSTM網絡的時序分析,最終在網絡輸出層輸出預測的威脅目標未來軌跡。
(1)數據處理層



(2)特征提取層
考慮神經網絡在擬合非線性關系中的優勢,預測網絡利用一個全連接網絡作為特征提取層,將輸入數據映射到新的空間,以便于預測網絡在擬合過程中探索狀態信息間隱含的相關性。
(3)LSTM網絡層
預測網絡利用LSTM網絡的特殊結構學習基于雙方歷史信息的時間序列數據之間的關系,通過其中的遺忘門輸出對前一時刻信息的取舍概率以控制是否丟棄,通過輸入門確定要添加到當前時刻的新信息,通過輸出門計算當前時刻的隱藏狀態,并依據時間順序循環計算,最終獲得與前序數據相關的當前時刻的隱藏狀態。
(4)網絡輸出層


通過威脅目標預測網絡輸出的預測信息,可以輔助飛行器感知威脅目標的未來運動趨勢,為飛行器的規避決策奠定基礎。
3 飛行器自主規避決策方法
針對飛行器自主規避決策問題,本文首先基于飛行器運動模型,考慮威脅目標的行為對飛行器決策的影響,綜合飛行器的機動能力、雙方的狀態信息以及第2節中的預測信息,建立了面向飛行器規避任務的馬爾可夫決策過程;然后設計了基于改進雙延遲深度確定性策略梯度的飛行器自主規避決策方法(P-TD3),其結構如圖3所示,利用該算法求解最優策略;最終通過迭代不斷更新決策網絡與評價網絡的權值,實現飛行器智能自主規避。
3.1 飛行器自主規避馬爾可夫決策過程
面向飛行器自主規避決策任務,本文參考飛行器運動模型,綜合考慮飛行器的機動能力和雙方的狀態信息,建立了面向飛行器規避任務的馬爾可夫決策過程,其各個要素空間的定義如下。
(1)狀態空間S:考慮規避任務需求,將飛行器的狀態信息、威脅目標的狀態信息以及對威脅目標的預測信息作為飛行器面向規避任務的狀態s,即式(5)。其中,根據上述飛行器運動模型,考慮飛行器與威脅目標的相對運動,飛行器與威脅目標的狀態信息包含各自的位置、速度、航跡角和航向角。


(2)動作空間A:本文考慮飛行器常用機動方式,飛行器的控制量一般為迎角、傾側角以及推力。本文為減少飛行器燃料消耗,將推力F設置為0,并將飛行器迎角、傾側角作為動作空間,即a=[αβ]?A。
(3)狀態轉移函數P:將飛行器的運動學方程式(1)作為飛行器的狀態轉移函數。

3.2 飛行器自主規避決策求解方法
為了求解3.1節中面向規避決策任務的策略,實現任務收益的最大化,本文提出基于預測信息的改進雙延遲深度確定性策略梯度算法,其網絡結構如圖3所示,包含威脅目標預測網絡、飛行器決策網絡、目標決策網絡、飛行器評價網絡1、飛行器評價網絡2、目標評價網絡1和目標評價網絡2。其中威脅目標預測網絡的結構如圖2所示,其余網絡均由三層全連接網絡組成。威脅目標預測網絡通過歷史狀態數據獲取威脅目標的預測信息,飛行器決策網絡輸入飛行器的狀態信息、威脅目標的狀態信息以及對威脅目標的預測信息,依據確定性策略輸出飛行器機動動作,即迎角和傾側角。飛行器評價網絡接收動態環境的狀態信息和飛行器的機動動作信息,輸出飛行器在該狀態下采取此機動動作可能獲得的總收益值,用來評估該動作的好壞,從而指導決策網絡的改進。



圖7顯示了飛行器決策過程,紅線分別是飛行器在隨機機動、無機動或P-TD3策略時的軌跡,藍線表示在飛行器的不同策略下威脅目標根據其制導律產生的軌跡變化。圖8為飛行器在不同策略下的控制量輸出,圖9是飛行器在隨機機動、無機動或P-TD3策略時,威脅目標根據其制導律產生的過載量變化。可以看出,通過訓練,飛行器在接近威脅目標時通過拉大過載自主規避威脅,并且在規避過程中有效消耗了威脅目標的過載量。仿真在不同測試環境下統計了算法的規避脫靶量見表3,與隨機機動策略相比,所提出的算法規避脫DokVv/85kWpS/isE8Wdl9G5qfz9hZ7UzKsMjmZjvUzA=靶量平均增加了41.4m,成功率提升了22%,與普通TD3算法相比,本文算法的規避性能也有所提升,驗證了本文算法的有效性與優勢。

5 結束語
本文針對飛行器面臨的飛行安全問題,首先考慮到威脅目標的行為對飛行器決策的影響,設計了基于LSTM神經網絡的軌跡預測算法,預測威脅目標未來軌跡;然后綜合預測信息與馬爾可夫決策過程理論將飛行器面向威脅目標的規避任務轉化為馬爾可夫決策過程,依據飛行器運動模型,建立面向飛行器規避任務的馬爾可夫決策過程;最終設計了基于改進雙延遲深度確定性策略梯度的飛行器自主規避決策方法求解最優策略,通過迭代更新決策網絡與評價網絡的權值,實現飛行器自主規避決策。試驗表明,考慮預測信息的飛行器決策方法有利于網絡訓練的收斂,可以實現飛行器的智能自主規避,并有效提升了飛行器規避威脅目標的成功率,可以為保障飛行器安全自主飛行提供支撐。



參考文獻
[1]張秀云,李智禹,宗群,等. 復雜環境影響下空天飛行器智能決策與控制方法發展分析[J]. 空天技術,2022, 1(1):39-53+82. Zhang Xiuyun, Li Zhiyu, Zong Qun, et al. Analysis of the development of intelligent flight control methods for aerospace vehicle under the influence of complex environment[J]. Aerospace Technology, 2022, 1 (1):39-53+82.(in Chinese)
[2]王長青. 空天飛行技術創新與發展展望[J]. 宇航學報,2021, 42(7): 807-819. Wang Changqing. Technological innovation and development prospect of aerospace vehicle[J]. Journal of Astronautics, 2021, 42(7): 807-819. (in Chinese)
[3]竇立謙,唐藝璠,張秀云. 執行器故障下臨近空間飛行器容錯控制重構[J]. 天津大學學報(自然科學與工程技術版),2023, 56(2):160-168. Dou Liqian, Tang Yifan, Zhang Xiuyun. Fault-tolerant control reconstruction of near space vehicle under actuator faults[J]. Journal of Tianjin University (Science and Technology), 2023, 56(2):160-168.(in Chinese)
[4]宋慶國. 百年未有之大變局下的航空科技發展[J].航空科學技術,2021, 32(3):1-5. Song Qingguo.The development of aviation science and tech‐nology under changes unseen in a century[J]. Aeronautical Sci‐ence & Technology, 2021, 32(3):1-5.(in Chinese)
[5]符小衛,吳迪,支辰元. 基于改進向量場直方圖算法的無人機動態避障策略[J]. 航空科學技術,2023, 34(9):100-109. Fu Xiaowei, Wu Di, Zhi Chenyuan. Dynamic obstacle avoid‐ance of UAV based on improved vector field histogram algo‐rithm[J]. Aeronautical Science & Technology, 2023, 34(9):100-109.(in Chinese)
[6]Shen Zhipeng,Yu Jianglong,Dong Xiwang,et al. Deep neural network-based penetration trajectory generation for hypersonic gliding vehicles encountering two interceptors[C]. 2022 41st Chinese Control Conference(CCC), 2022:3392-3397.
[7]Mishley A, Shaferman V. Linear quadratic guidance laws with intercept angle constraints and varying speed adversaries[J]. Journal of Guidance Control and Dynamics, 2022, 45(11): 2091-2106.
[8]Shen Zhipeng, Yu Jianglong, Dong Xiwang, et al. Penetration trajectory optimization for the hypersonic gliding vehicle encountering two interceptors[J]. Aerospace Science and Technology, 2022, 121(2): 107363.
[9]Turetsky V, Weiss M, Shima T. A combined Linear Quadratic/ Bounded control differential game guidance law[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 57(5): 3452-3462.
[10]Wang Yaokun, Zhao Kun, Guirao J L G, et al. Online intelligent maneuvering penetration methods of missile with respect to un‐known intercepting strategies based on reinforcement learning[J]. Electronic Research Archive, 2022, 30(12):4366-4381.
[11]Yang Tao, Geng Lina, Duan Mingkuan, et al. Research on the evasive strategy of missile based on the theory of differential game[C].34th Chinese Control Conference (CCC) , 2015: 5182-5187.
[12]Bardhan R, Ghose D. Nonlinear differential games-based impact-angle-constrained guidance law[J]. Journal of Guidance, Control, and Dynamics, 2015, 38(3):384-402.
[13]崔雅萌,王會霞,鄭春勝,等. 高速飛行器追逃博弈決策技術[J].指揮與控制學報,2021, 7(4):403-414. Cui Yameng, Wang Huixia, Zheng Chunsheng, et al. Pursuit-eva‐sion game decision technology of high speed vehicles[J]. Joural of Command and Control, 2021, 7(4):403-414.(in Chinese)
[14]朱雅萌,張海瑞,周國峰,等. 一種基于深度強化學習的機動博弈制導律設計方法[J]. 航天控制,2022, 40(3): 28-36. Zhu Yameng, Zhang Hairui, Zhou Guofeng, et al. A design method of maneuvering game guidance law based on deep reinforcement learning[J]. Aerospace Control, 2022, 40(3):28-36.(in Chinese)
[15]Huang Hongji, Yang Yuchun, Wang Hong, et al. Deep reinforcement learning for UAV navigation through massive MIMO technique[J]. IEEE Transactions on Vehicular Technology, 2020, 69(1):1117-1121.
[16]Ouahouah S, Bagaa M, Prados-Garzon J, et al. Deep-reinforce‐ment-learning-based collision avoidance in UAV environment[J]. IEEE Internet of Things Journal, 2022, 9(6):4015-4030.
[17]Kong Xue, Ning Guodong, Yang Ming, et al. A maneuvering penetration strategy via integrated flight/propulsion guidance and control method for air-breathing hypersonic vehicle[C]. 2018 IEEE CSAA Guidance, Navigation and Control Confer‐ence (CGNCC), 2018:1-6.
[18]Jiang Liang, Nan Ying, Li Zhihan. Realizing midcourse pene‐tration with deep reinforcement learning[J]. IEEE Access, 2021, 9: 89812-89822.
[19]Kong Weiren, Zhou Deyun, Zhen Yang, et al. UAV autono‐mous aerial combat maneuver strategy generation with observa‐tion error based on state-adversarial deep deterministic policy gradient and inverse reinforcement learning[J]. Electronics, 2020, 9(7):1121.
[20]Zhao Yu, Zhou Ding, Bai Chengchao, et al. Reinforcement learning based spacecraft autonomous evasive maneuvers method against multi-interceptors[C]. 2020 3rd International Conference on Unmanned Systems (ICUS) , 2020:1108-1113.
Autonomous Avoidance Decision Method for Aircraft Using Reinforcement Learning
Dou Liqian, Ren Mengyuan, Zhang Xiuyun, Zong Qun
Tianjin University,Tianjin 300072,China
Abstract: There are many unpredictable threats or obstacles in the course of the mission of the aircraft. In order to solve the problem of autonomous avoidance decision of aircraft facing threat targets, firstly, a trajectory prediction algorithm based on deep Long Short-Term Memory (LSTM) neural network is proposed to predict the future trajectory of threat targets by considering the interaction between aircraft and threat targets. Secondly, the Markov decision process of evasive maneuver in the interception scenario was constructed combined with the prediction information . Then, the avoidance decision method based on progressed double delay depth deterministic strategy gradient (P-TD3) was proposed to maximize the benefits of the circumvention process to achieve intelligent autonomous avoidance decisions for the aircraft. Finally, the simulation experiments verify that the decision-making method improves the convergence speed of the network and has an 84% success rate of avoidance, which improves the probability of successful avoidance of potential threats and enhances the autonomy and safety of the aircraft.
Key Words: hypersonic aircraft; reinforcement learning; double delay depth deterministic strategy gradient; autonomous avoidance; maneuver decision