袁利,耿遠卓,湯亮,黃煌
航天器軌道追逃博弈多階段強化學習訓練方法
袁利1,2,耿遠卓1,2,湯亮1,2,黃煌1,2
(1.北京控制工程研究所,北京 100094;2.空間智能控制技術重點實驗室,北京 100094)
針對航天器軌道追逃博弈問題,提出一種多階段學習訓練賦能方法,使得追蹤星在終端時刻抵近逃逸星的特定區域,而逃逸星需要通過軌道機動規避追蹤星。首先,構建兩星的訓練策略集,基于邏輯規則設計追蹤星和逃逸星的機動策略,通過實時預測對方的終端位置,設計己方的期望位置和脈沖策略,顯式給出追逃策略的解析表達式,用于訓練賦能;其次,為提升航天器的訓練賦能效率及應對未知環境的博弈能力,提出一種基于強化學習技術多模式、分階段的學習訓練方法,先使追蹤星和逃逸星分別應對上述邏輯規則引導下的逃逸星和追蹤星,完成預訓練;再次,開展二次訓練,兩星都采用鄰近策略優化(PPO)策略進行追逃博弈,在博弈中不斷調整網絡權值,提升決策能力;最后,在仿真環境中驗證提出的訓練方法的有效性,經過二次訓練后,追蹤星和逃逸星可有效應對不同策略驅動下的對手,提升追逃成功率。
軌道追逃;博弈決策;強化學習;訓練賦能;多階段學習
隨著航天技術的發展,各國航天器智能化程度不斷增加,在傳統制導、導航與控制(Guidance, Navigation, and Control, GNC)技術基礎上,逐漸朝向智能感知、類人決策、精準控制的方向發展。同時,太空環境日益復雜,在軌航天器數量指數增長且能力大幅提升,傳統依靠地面指控的模式難以應對時敏空間任務[1]。此外,目前星上GNC系統主要面向確定性任務場景,智能化水平較弱,在強不確定性的博弈態勢下中缺乏自主決策能力,而智能決策依賴于前期大規模地面訓練及星上二次訓練。因此,提升訓練效率對于航天器智能化發展至關重要,可有效降低研制周期,節省計算資源。本文將針對軌道追逃博弈提出一種高效的訓練賦能方法。
航天器追逃作為太空博弈的典型場景,充分體現了軌道運動特性,諸如交會對接、在軌操控等任務皆可抽象為軌道追逃問題,因此吸引了眾多學者研究[3]。追逃任務中,追蹤星和逃逸星的目標相反,追蹤星旨在盡快抵近到逃逸星的特定區域,而逃逸星需要躲避追蹤星。目前,對于追逃問題的研究主要集中在飛機、導彈[4]、無人機[5]等近地領域,例如空戰博弈Alpha Dog Fight[6]。而對于太空中的航天器追逃問題,由于受到地球引力約束和自身燃料約束,其側重點及求解思路和方法有所不同,需要充分利用軌道動力學特性,保證燃料高效完成追逃任務。
針對航天器追逃的賦能問題,主要分為3種方法:
1)賦能方法立足于軌道動力學,通過深入分析航天器軌道運動規律,根據航天器當前速度,實時解算和預測航天器未來的軌跡,計算雙方的可達域,在此基礎上設計脈沖策略。該方法的賦能過程本質就是基于人的知識進行軌道設計,能夠顯式給出雙方運行軌跡表達式,邏輯清晰,可解釋性較強。但是目前研究中脈沖次數一般較少,對于多脈沖變軌,決策空間過大,難以準確預測對方未來的可達域,軌道設計難度大[3,7-9]。同時,該方法的訓練效率和賦能效果依賴于人的知識儲備和經驗,當博弈任務變化后需要重新進行賦能算法設計,因此具有一定的局限性。
2)賦能方法是在第一種方法的基礎上,將追逃博弈問題轉化為雙邊最優規劃問題,然后基于微分對策理論設計軌道機動策略,其本質是人通過將現有的知識輸入給航天器,使航天器具備最優軌跡解算的能力。采用微分對策的目的是求解博弈雙方的鞍點(博弈均衡態),在鞍點處,追蹤星和逃逸星以各自的最優策略機動,最大化各自的指標函數。采用該方法賦能的航天器可應對雙方意圖明確、動力學參數已知情況下的追逃問題。但是,對于實際的追逃任務,對方的準確意圖及參數難以獲取,且對方可采取欺騙、偽裝等行為迷惑對手,其自身的指標函數難以獲取,因此基于微分對策設計的賦能方法難以應對強博弈態勢下的追逃任務[10]。此外,目前關于微分對策軌道追逃博弈的研究主要集中于連續推力航天器[11-13],對于脈沖推力,由于連續系統+離散控制的最優理論不完備,因此研究成果較少[14-16]。
3)賦能方法基于利用深度學習和強化學習技術。其中深度學習依靠大量樣本數據訓練神經網絡,建立當前狀態和機動策略的映射關系。但是其面臨樣本數據難以獲取的問題,需要人為設計雙方的機動策略并收集軌跡數據,其本質上是將多種邏輯規則融合為一套決策網絡,決策能力取決于訓練樣本和實際情況的匹配程度[17]。強化學習從統計學的角度出發,將人的決策思維和計算機的算力融合,構建人工神經網絡作為決策載體,通過多回合訓練,航天器與環境不斷交互,收集數據和獎勵,實時調整策略,最終具有一定的學習和決策能力,能夠在未知環境中應對未知任務[18]。該賦能方法不依賴于人的經驗和軌道設計水平,且無需知道精確的動力學模型、環境參數等先驗信息,更符合人類的學習過程,在嘗試中形成記憶和經驗[19],與上述2種方法相比適應性更強,因此強化學習近年來在航天領取獲得廣泛關注,取得大量研究成果[20-23]。但是,基于強化學習的訓練面臨可解釋性差、理論證明難、可靠性不高等問題,訓練好的決策模型缺乏解析表達式,僅能通過仿真打靶驗證其決策的正確性,且缺乏高效的訓練賦能方法,航天器通常需要博弈上萬回合才能學習到最優追逃策略。
針對航天器追逃博弈訓練賦能問題,充分考慮現有方法的不足,將上述3種賦能方法相融合,提出多階段、逐層遞進的訓練賦能方法。采用強化學習技術,對追蹤星和逃逸星的神經網絡進行預訓練,預訓練分為2步:第1步使追蹤星采用強化學習中的鄰近策略優化(Proximal Policy Optimization,PPO)算法[24],逃逸星采用基于邏輯規則的策略,開展訓練,直至追蹤星神經網絡收斂;第2步,使逃逸星采用PPO算法而追蹤星采用邏輯規則開展博弈,直至逃逸星網絡收斂。然后,在預訓練的基礎上開展二次訓練,使兩星同時采用PPO算法,左右互搏,協同進化,最終提升各自的追逃能力。其中,基于邏輯規則的策略充分利用了軌道動力學等先驗知識,因此提出的訓練方法相當于先利用人的經驗知識對航天器一次賦能,再基于強化學習進行二次賦能。
追蹤星需要通過軌道機動抵近到逃逸星的 錐形安全接近走廊(捕獲區),而逃逸星旨在通過軌道機動規避追蹤星,使追蹤星在規定時間內無法進入該區域。同時,逃逸星為了維持原有通信、遙感等業務,其姿態和軌道變化需要滿足一定約束。如圖1所示,捕獲區為圖中的錐形區域,該區域與逃逸星位置相關,且在整個博弈過程始終保持對地指向。
采用CW方程描述兩者的相對軌道運動:

對于式(1)的線性系統,狀態方程可顯式求解,得到狀態隨時間的變化方程:
對于脈沖推力發動機,在進行軌道遞推時,可認為速度增量是瞬間產生的,因此式(2)可寫為

本章將基于邏輯規則分別設計追逃星和逃逸星的追逃策略,使其作為兩星追逃的初級策略,建立策略集,用于訓練算法。
在CW方程描述的相對軌道運動學框架下,采用基于軌跡預測的方法,通過設計每步的速度增量,實現追蹤星在f時刻抵近目標的期望位置。追蹤策略流程如圖2所示。其中,將安全接近走廊中心線上的點作為f時刻追蹤星的期望位置,如圖3所示。
逃逸星需要在一定的范圍內(如圖4中的陰影區域所示)運動,為躲避追蹤星的抵近,設計了一種基于軌跡預測的逃逸方式,旨在實現在約束包絡內,以較少燃料完成逃逸。算法流程如圖5所示。
為了應對對方決策周期、最大推力、機動頻率等未知情況下的追逃博弈場景,在基于邏輯規則設計的追逃策略集基礎上,提出一種基于強化學習的訓練賦能方法,采用多輪訓練模式,由簡單到復雜,使追蹤星和逃逸星逐步、高效地提升博弈能力。
首先追蹤星采用強化學習中的PPO算法生成追蹤策略,而逃逸星采用2.2節設計的策略進行規避,經過多回合博弈,追蹤星的決策網絡得到一組最優的權值;其次,令逃逸星采用PPO算法,而追蹤星采用2.1節的策略,經多輪博弈后,逃逸星得到最優網絡權值,如圖6所示。
上述過程分別針對追蹤星和逃逸星進行了預訓練,其博弈對手的能力相對較弱,網絡權值較容易收斂。在此基礎上,兩星都采用PPO算法進行決策,加載上述得到的網絡權值,繼承已習得的知識和策略,并在此基礎上進行博弈,協同進化,提升各自的追擊或逃逸能力。
訓練過程采用了PPO算法,PPO是2017年由John Schulman提出的一種基于直接策略搜索的強化學習算法,由于其學習架構清晰、應用簡單、適應性強,在圍棋博弈、運動體控制、游戲對戰等眾多領域得到廣泛應用,且表現出優異的性能。PPO算法包含訓練架構設計、數據采集和網絡訓練。
首先,根據任務使命設計合理的獎勵函數,建立任務和獎勵的映射關系,引導航天器朝向獎勵最大化的方向學習。
追蹤星獎勵函數設計如下:

逃逸星獎勵函數設計如下:


在此基礎上,設計神經網絡的結構,確定網絡的層數、激活函數類型、連接方式等信息,并設計網絡權值更新方法。在數據采集階段,航天器利用網絡模型進行決策,產生軌道機動指令,驅動航天器軌道運動,存儲相應的速度、位置、獎勵等數據。然后,利用這些數據對動作網絡和價值網絡訓練。其中,動作網絡輸出各個動作(推力)的概率,價值網絡輸出各狀態的價值函數。在訓練過程中,先計算價值網絡和動作網絡的殘差,基于梯度下降法更新網絡權值,利用新的網絡再進行數據采集,以此循環,直至網絡權值收斂。PPO算法的流程如圖7所示。
PPO算法的核心在于動作網絡的殘差(優化指標)計算,其綜合考慮了網絡前后兩次更新的差異度,并對該差異進行限制,提升學習的穩定性。PPO算法的優化指標為
在文獻[24]提出的PPO算法架構基礎上,著重設計了航天器與環境交互的數據結構和動作空間分布,以及利用PPO算法進行賦能的多階段訓練方法。對于航天器軌道博弈問題,PPO算法中的交叉熵系數2應比價值函數誤差項系數1小1~2個量級,航天器軌道博弈狀態維數多、時間跨度廣、動作空間大,航天器的決策網絡難以訓練,若交叉熵過大,雖然能夠鼓勵航天器探索最優解,但是會進一步降低網絡收斂速度,甚至無法收斂。相反,對于規模較小的博弈問題,交叉熵可以有效避免算法陷入局部最優解。

本章將針對追逃博弈問題,采用如圖6所示的賦能流程,基于Python搭建訓練環境,完成對追蹤星和逃逸星的訓練,并分階段展示神經網絡的訓練過程。仿真參數見表1。

表1 追逃任務輸贏條件相關參數
追蹤星采用PPO算法,逃逸星采用2.2節基于邏輯規則的逃逸策略(Rules-based Escape Policy,REP)進行追逃博弈。在兩星博弈過程中,追蹤星的策略網絡及動作網絡權值自適應調整,逐漸增加自身的收益,如圖8(a)所示。訓練3 000回合后,收益收斂到最大值,追蹤星在終端時刻抵近到逃逸星的捕獲區,相對距離小于50 km(如圖8(b)所示),相對角度小于30°(如圖8(c)所示)。
在訓練過程中,逃逸星采用PPO算法,追蹤星采用2.1節設計的基于邏輯規則的追蹤策略(Rules-based Pursuit Policy,RPP)。逃逸星的決策網絡逐漸更新,自身收益隨著訓練局數而不斷增加,如圖9(a)所示。逃逸星在訓練700回合后,可成功躲避追蹤星,終端時刻逃逸星與追蹤星的相對距離和角度在捕獲區之外,如圖9(b)和圖9(c)所示。
在上述訓練的基礎上,追蹤星和逃逸星分別能夠應對邏輯規則驅動下的對手,各自決策網絡收斂到最優權值。在此基礎上開展二次訓練,以預訓練得到的網絡權值為各自決策網絡的初始值,采用PPO算法訓練,訓練結果如圖10所示。
由于兩星都具備智能博弈能力,且都經過前期的訓練,因此兩星展現出激烈的博弈態勢,雙方的收益起伏不定。追蹤星無法抵近到逃逸星的捕獲區。需要說明的是,由于兩星博弈過程中,都是采用PPO算法,且機動能力相同,獎勵函數設計相對公平,所以追蹤星難以取勝。但是在訓練過程中,追蹤星和逃逸星的博弈能力都得到提升。
兩星二次訓練之后,進行1 000局打靶驗證,選擇其中一局進行展示,如圖11所示。從圖11(a)可知,追蹤星最終成功抵近到逃逸星的安全接近區內,兩星終端相對距離小于50 km,相對角度小于30°。雖然在博弈過程中,兩星的燃料都耗盡,但是由于在訓練過程中兩星也會遇到燃料耗盡的工況,且一方耗盡燃料則意味著失去博弈能力,因此兩星會盡可能耗盡對方燃料,從而最大化取勝概率。
為了說明二次訓練后的追蹤星和逃逸星博弈能力提升,使兩星采用不同的機動策略,進行1 000局打靶驗證,追蹤星的追擊成功率見表2。若追蹤星采用二次訓練得到的決策網絡,而逃逸星采用REP,則追蹤星的獲勝率高達98.2%;反之,若逃逸星采用二次訓練得到的決策網絡,而追蹤星采用RPP,則追蹤星的獲勝率僅有19.6%。從而說明采用二次訓練可有效提升航天器的追逃博弈能力。

表2 不同追逃策略下追蹤星的追蹤成功率
針對航天器在軌追逃博弈問題,提出了一種多模復合分階段學習賦能方法。充分利用軌道動力學信息,遞推對方的軌位,并分別針對追蹤星和逃逸星設計了基于邏輯規則的博弈策略,以此作為兩星的初級決策模式。該策略具有解析表達式,邏輯清晰、形式簡單,具有較強的可解釋性和通用性。在此基礎上提出了一種高效的訓練賦能方法,基于強化學習中的PPO方法,采用預訓練與二次訓練相結合的方式,有效提升了航天器的訓練效率和博弈能力。通過仿真分析,驗證了本文提出的訓練算法的有效性,經過二次訓練的航天器能夠應對多種策略驅動下的對手,提升了博弈適應性。
[1] 宮經剛,寧宇,呂楠.美國高軌天基態勢感知技術發展與啟示[J].空間控制技術與應用,2021,47(1):1-7.
[2] 袁利.面向不確定環境的航天器智能自主控制技術[J].宇航學報,2021,42(7):839-849.
[3] OYLER D W, KABAMBA P T, GIRARD A R. Pursuit?evasion games in the presence of obstacles[J]. Automatica, 2016, 65: 1-11.
[4] PERELMAN A, SHIMA T, RUSNAK I. Cooperative differential games strategies for active aircraft protection from a homing missile[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(3): 761-773.
[5] 祁圣君.美軍低成本可消耗無人機技術發展綜述[J].飛航導彈,2021(11):6-11.
[6] 孫智孝,楊晟琦,樸海音,等.未來智能空戰發展綜述[J].航空學報,2021,42(8):35-49.
[7] PANG B, WEN C. Reachable set of spacecraft with finite thrust based on grid method[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 2021: 3138373.
[8] LI W. A dynamics perspective of pursuit-evasion: capturing and escaping when the pursuer runs faster than the agile evader[J]. IEEE Transactions on Automatic Control, 2016, 62(1): 451-457.
[9] YAN R, SHI Z, ZHONG Y. Guarding a subspace in high-dimensional space with two defenders and one attacker[J]. IEEE Transactions on Cybernetics, 2022 ,52(5):3998-4011.
[10] YE D, TANG X, SUN Z, et al. Multiple model adaptive intercept strategy of spacecraft for an incomplete-information game[J]. Acta Astronautica, 2021, 180: 340-349.
[11] SHEN H X, CASALINO L. Revisit of the three-dimensional orbital pursuit-evasion game[J]. Journal of Guidance, Control, and Dynamics, 2018, 41(8): 1823-1831.
[12] LI Z, ZHU H, YANG Z, et al. A dimension-reduction solution of free-time differential games for spacecraft pursuit-evasion[J]. Acta Astronautica, 2019, 163: 201-210.
[13] TANG X, YE D, HUANG L, et al. Pursuit-evasion game switching strategies for spacecraft with incomplete-information[J]. Aerospace Science and Technology, 2021, 119: 107-112.
[14] YANG B, LIU P, FENG J, et al. Two-stage pursuit strategy for incomplete-information impulsive space pursuit-evasion mission using reinforcement learning[J]. Aerospace, 2021, 8(10): 299.
[15] VENIGALLA C, SCHEERES D J. Delta-V-based analysis of spacecraft pursuit-evasion games[J]. Journal of Guidance, Control, and Dynamics, 2021, 44(11): 1961-1971.
[16] 于大騰.空間飛行器安全防護規避機動方法研究[D].長沙:國防科技大學,2017.
[17] CHENG L, WANG Z, JIANG F, et al. Real-time optimal control for spacecraft orbit transfer via multiscale deep neural networks[J]. IEEE Transactions on Aerospace and Electronic Systems, 2018, 55(5): 2436-2450.
[18] WANG X, SHI P, SCHWARTZ H, et al. An algorithm of pretrained fuzzy actor-critic learning applying in fixed-time space differential game[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering, 2021, 235(14): 2095-2112.
[19] WANG Y, DONG L, SUN C. Cooperative control for multi-player pursuit-evasion games with reinforcement learning[J]. Neurocomputing, 2020, 412: 101-114.
[20] GAUDET B, LINARES R, FURFARO R. Adaptive guidance and integrated navigation with reinforcement meta-learning[J]. Acta Astronautica, 2020, 169: 180-190.
[21] GAUDET B, LINARES R, FURFARO R. Deep reinforcement learning for six degree-of-freedom planetary landing[J]. Advances in Space Research, 2020, 65(7): 1723-1741.
[22] HOVELL K, ULRICH S. Deep reinforcement learning for spacecraft proximity operations guidance[J]. Journal of Spacecraft and Rockets, 2021, 58(2): 254-264.
[23] ZAVOLI A, FEDERICI L. Reinforcement learning for robust trajectory design of interplanetary missions[J]. Journal of Guidance, Control, and Dynamics, 2021, 44(8): 1440-1453.
[24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017-07-20)[2022-04-01]. https://arxiv.org/pdf/1707.06347.pdf.
Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts
YUANLi1,2, GENGYuanzhuo1,2, TANGLiang1,2, HUANGHuang1,2
(1.Beijing Institute of Control Engineering, Beijing 100094, China; 2.Science and Technology on Space Intelligent Control Laboratory, Beijing 100094, China)
An enabled training method based on multi-phase reinforcement learning is proposed to solve the problem of orbital pursuit-evasion of two spacecrafts, so that the pursuer reaches a specific region adjacent to the evader at the terminal moment while the evader attempts to avoid being chased by means of orbital maneuvering. First, a training set of the pursuer and chaser is constructed. The two rules-based pursuing and evasion policies are proposed for the pursuer and evader, respectively, in which the expected position and pulse policy are analytically designed based on the prediction of the terminal position of the other spacecraft. Second, a multi-mode training method based on reinforcement learning is proposed to enhance the training efficiency and the ability to confront with uncertain adversaries. Third, the spacecraft is pre-trained by confronting with the other spacecraft endowed with the rules-based policies. Based on the pre-trained network, the network is re-trained in which both the spacecrafts are driven by the proximal policy optimization (PPO) scheme where the network weights are updated gradually. Finally, simulations are conducted to evaluate the effectiveness of the proposed training approach. The results show that the spacecraft with re-trained network could enhance the success rates of pursuit and escape.
orbital pursuit-evasion; game decision making; reinforcement learning; enabled training; multi-stage learning
2022?04?26;
2022?06?14
袁利(1974—),男,博士,研究員,主要研究方向為航天器建模與仿真、智能控制、高精度控制和魯棒容錯控制技術。
TN 911.73; TP 391.9
A
10.19328/j.cnki.2096?8655.2022.04.003