信息非完備下多航天器軌道博弈強化學習方法

2023-11-23 13:00:34王英杰耿遠卓

宇航學報 2023年10期

關鍵詞：信息

王英杰，袁利，湯亮，3，黃煌，3，耿遠卓，3

(1. 北京控制工程研究所，北京 100094；2. 中國空間技術研究院，北京 100094；3. 空間智能控制技術重點實驗室，北京 100094)

0 引言

隨著空間任務日趨復雜,航天器智能水平的需求也日益增長。傳統的航天控制技術通常采用“地面測定軌+遙測下傳→情況判定→決策規劃→上注指令→在軌執行”的天地大回路工作模式。當面向具有高不確定性和強實時性的空間軌道博弈任務時,傳統航天控制技術缺乏實時性與自主性,難以有效適應任務需求[1-2]。因此,航天器亟需面向不確定空間軌道博弈場景的在軌自主博弈決策技術。

隨著航天技術的不斷發展,小衛星憑借研制周期短、性價比高、適合批量化發射等特點展現出了極高的經濟價值。另一方面,微小衛星集群協同的任務模式具有高效、強魯棒等特點,能夠實現超越大型平臺的功用。21世紀以來,在天文觀測、深空探測和對地勘測等方面,美國國家航空航天局、歐洲空間局等機構相繼提出并逐漸實施各式各樣的航天器集群計劃。航天器正朝著小型化、協同化和集群化的方向快速發展。航天器集群化的發展趨勢,給空間軌道博弈提出了多航天器分布式協同博弈的新挑戰。

微分對策理論基于雙邊最優控制理論,可描述連續時間系統內受微分方程約束的博弈競爭問題,目前已廣泛應用于軌道追逃[3-4]、姿態接管[5]等典型場景中。微分對策的優點是在任務要求較為簡單的博弈場景中,能夠精確地求解出最優策略。然而,當面對復雜空間軌道博弈任務時,由于微分博弈對成本函數的約束,難以設計出符合任務需求的運動策略[6]。另一方面,由于哈密頓雅可比方程的非線性和耦合性,微分對策通常很難求得解析解[5]。

不同于依賴標簽數據的深度學習,強化學習[7]通過智能體在環境中不斷試錯,使智能體具備在特定環境下進行自主決策的能力。近年來深度強化學習已在博弈問題中取得了令人矚目的成就。由DeepMind公司研發的人工智能算法AlphaGo先后戰勝了圍棋世界冠軍李世石、柯潔,成為了第一個戰勝圍棋世界冠軍的人工智能機器人[8]。AlphaStar在即時策略游戲星際爭霸Ⅱ中展現出超過99.8%人類玩家的大師級游戲水平[9]。在美國DARPA AlphaDogfight挑戰賽的人機大戰中,強化學習算法PHANG-MAN在虛擬空戰中以5:0的壓倒性優勢擊敗了F-16飛行教官Banger[10]。針對傳統程序式機動對多攔截器規避成功率低的問題,文獻[11]采用基于逆值法的稀疏獎勵強化學習方法,有效提升了航天器編隊的協同自主規避能力。針對共面軌道攔截問題,文獻[12]采用基于經驗的深度確定性策略梯度(EBDDPG)算法,通過引入先驗知識,有效提升了強化學習算法在該問題中的收斂性。

在真實物理環境的應用中,智能體系統的敏感器通常無法感知環境中的所有信息,該問題在空間環境中尤為突出。非合作目標的位置速度信息獲取需要測距測速雷達的支持,但雷達的探測范圍有限。若非合作目標超過雷達探測范圍,則只能通過光學敏感器獲得其方位信息。在信息非完備的約束下,深度強化學習僅憑單步輸入通常難以取得滿意的控制效果。因此,學者們通過引入具有記憶功能的循環神經網絡,彌補部分可觀測的缺陷。深度Q網絡(DQN)算法[13]在進行Atari等游戲時,常常將最近的4幀畫面組成一個狀態作為神經網絡輸入,這是因為僅憑1幀畫面難以判斷物體運動方向、速度等信息。深度循環Q網絡(DRQN)算法[14]將LSTM[15]和DQN算法相結合,在僅使用1幀畫面作為輸入的條件下,通過LSTM網絡進行歷史信息的凝練壓縮,達到預測速度的效果,進而實現信息非完備約束下的高性能表現。文獻[16]將LSTM與多智能體深度確定性梯度(MADDPG)算法[17]相結合提出了深度循環多智能體演員-評論家框架(R-MADDPG)。文獻[16]在部分信息可見、通訊受限的多智能體協作場景下進行實驗,實驗結果表明,價值網絡采用循環神經網絡結構十分重要,能夠使得R-MADDPG具有應對信息非完備約束的能力。

本文首先根據空間軌道博弈特點,進行了軌道博弈動力學與信息非完備約束建模。其次,依據分布式系統架構,進行了網絡輸入輸出結構設計,并引入具有記憶功能的LSTM網絡,根據航天器運動在時間、空間連續的屬性,補償位置、速度測量信息的非完備性。另一方面,為增強決策模型的泛化性能,同構航天器之間共享權值參數。然后采用紅藍左右互搏的訓練模式,利用PPO算法[18]開展學習訓練,以增強決策模型應對各類策略的泛化性能。最后,在多航天器軌道追逃場景和多航天器協同觀測場景中,進行了三組對比訓練實驗,驗證了算法的有效性。

1 問題描述

空間軌道博弈是指在天體引力場內受軌道動力學約束的兩個(含)以上運動體在各自允許的控制能力和可獲得的信息支持下,主動施加控制行動,追求相反、矛盾或不一致的相對位姿狀態所形成的軌道演化過程及其結果[6]。根據任務場景和任務目標的不同,其包含上千公里距離的軌道潛伏、軌道偽裝,百公里尺度的軌道追逃、軌道攔截以及米級的軌道附著、軌道接管。本文的研究范圍是地球同步軌道(Geosynchronous orbit, GEO)百公里尺度的局部空間軌道博弈任務。

1.1 軌道博弈動力學建模

各航天器按照一定的決策頻率進行軌道控制,且均采用脈沖式推力:

(1)

各航天器的運動由C-W相對運動方程描述,其軌道面內運動和面外運動如式(2)所示:

(2)

式中:n為坐標原點的軌道角速度;T為步長;cnT和snT分別為cos(nT)和sin(nT)的簡寫。

1.2 信息非完備約束建模

信息非完備約束在空間環境中主要體現在兩方面:①測距測速雷達探測范圍約束,②合作航天器之間的通訊時刻約束。

設各航天器的雷達探測范圍為dr。當第i個航天器與第j個航天器的相對距離dij不大于dr時,第i個航天器可通過雷達和光學敏感器信息融合獲得第j個航天器的相對位置信息rj-ri+δr和相對速度信息vj-vi+δv;否則就需要通過星間通訊或光學敏感器獲得其信息。

空間環境中獲取其他航天器信息的詳細流程如圖1所示。

圖1 空間環境中信息獲取流程圖

2 基于強化學習的軌道博弈決策方法

2.1 學習訓練方法

在軌道博弈任務中,藍方決策模型可采用基于專家知識的方式進行建模,然后固定藍方策略對紅方策略進行單方面訓練。然而該種訓練方式容易導致紅方策略過擬合、應對其他藍方策略泛化性差的情況[19]。因此,本文采用紅藍左右互博方式進行學習訓練,以增強決策模型應對各類策略的泛化性能。訓練算法采用PPO算法。

在前向推理階段,AC方法僅通過策略網絡輸出最優動作(或動作分布)。在學習訓練階段,價值網絡和策略網絡同時進行訓練。價值網絡的目標函數梯度為:

▽LVF(φ)=δt▽φV(st,φ)

(3)

價值網絡的輸出將作為策略網絡梯度的一部分,輔助其進行訓練:

▽L(θ)=δt▽θlnπ(at|st,θ)

(4)

式中:L(θ)代表策略網絡的目標函數。

相較于傳統的AC方法,PPO算法將價值網絡和策略網絡相結合。除輸出層外,策略網絡和價值網絡共享相同的網絡結構與權值。因此,其目標函數同時包含了策略網絡和價值網絡的優化指標:

c2S[π(at|st,θ)]]

(5)

(6)

其中,Tmax為單局最大仿真步長,Imax為最大訓練步數,αlr為學習率。

2.2 LSTM網絡

循環神經網絡(RNN)[21]通過引入隱藏單元,使神經網絡具有一定的記憶功能,具備處理序列數據的能力,目前已在自然語言處理[22]、語音識別[23]等領域得到了廣泛的應用。

針對一般RNN存在的長期依賴問題,LSTM通過引入門控單元,使神經網絡學會決定何時清除狀態,而不是手動決定,有效解決了梯度爆炸或者消失的問題。

LSTM一共包含三個門控單元:遺忘門ft、輸入門it和輸出門ot:

(7)

(8)

(9)

式中:⊙代表哈達瑪積,即相同維數向量(矩陣)間逐元素相乘。

最終,LSTM網絡根據輸出門ot和網絡狀態ct輸出ht:

ht:=ot⊙tanh(ct)

(10)

2.3 網絡結構設計

在集中式系統架構中,中央處理器需要在每個決策時刻對所有航天器進行動作量分配,給航天器星間通訊帶來了很大的負擔。因此,本文采用分布式系統架構,即每一個智能體根據環境輸入信息輸出單一航天器的動作量。

圖3 網絡結構設計

為有效提升智能體的泛化性能,本文中的同構航天器采用相同的網絡模型(網絡結構和權值均相同)。不同的航天器只需調整網絡輸入向量的順序即可獲得相應的動作量。

3 仿真校驗

3.1 實驗場景

本文將在兩個場景中驗證所提出方法的有效性。第一個場景為多航天器軌道追逃場景。3個同構主動星從100 km外3個不同方向對非合作目標實施追捕,1個非合作目標在不遠離初始軌位100 km的條件下進行逃逸。當任一主動星抵近非合作目標5 km之內,判定主動星完成追捕任務。主動星x,y,z單軸單次最大速度增量為4 m/s,非合作目標x,y,z單軸單次最大速度增量為4.4 m/s,為主動星的1.1倍。3個主動星需要通過相互協作構建合適的圍捕構型來彌補機動能力上的劣勢。主動星和非合作目標的決策周期均為10分鐘,主動星星間通訊周期為1小時。測距測速雷達探測范圍為50 km。

(11)

(12)

第二個場景為多航天器協同觀測場景。3個同構主動星從100 km外抵近非合作目標50 km內,以近似等邊三角形構型進行協同觀測任務,并確保有1個主動星占據非合作目標的逆光區,對其進行順光觀測,非合作目標的逆光區定義如圖4所示。非合作目標需要在不遠離其初始軌位100 km的條件下,通過軌道博弈機動盡量增加其與主動星的相對距離。非合作目標和主動星的x,y,z單軸單次最大速度增量為4.8 m/s,且非合作目標速度增量上限為100 m/s。主動星和非合作目標的決策周期均為10分鐘,主動星星間通訊周期為1小時。測距測速雷達探測范圍為50 km。

圖4 非合作目標逆光區

(13)

(14)

3.2 訓練參數設計

設置非合作目標的初始軌道為GEO。設置非合作目標的初始位置為相對軌道坐標系的原點Oo,三個主動星的初始位置根據式(15)隨機生成。設置仿真步長為10分鐘,單回合最大仿真步數為72。

(15)

式中:U(a,b)代表均勻分布。R的單位為km。

采用PPO算法對主動星和非合作目標開展紅藍左右互搏式訓練,學習訓練的超參數如表1所示。為了充分驗證算法的優越性,進行三組對比訓練實驗:①信息全可見采用全連接網絡:主動星采用全連接網絡,且信息全可見,即可實時獲得其他星的位置速度信息;②信息非完備采用全連接網絡:主動星采用全連接網絡,但需考慮信息非完備約束;③信息非完備采用LSTM網絡:主動星采用LSTM網絡,并考慮信息非完備約束。為確保驗證的有效性,三組實驗均采用如3.1節所述獎勵函數,三組實驗下的非合作目標均采用全連接網絡,且信息全可見。LSTM網絡的架構如圖3所示,全連接網絡的架構只需將LSTM網絡架構中隱藏層中的LSTM層替換為全連接層即可。全連接網絡和LSTM網絡的具體網絡參數如表2所示。

表1 訓練參數

表2 全連接網絡和LSTM網絡參數

本文實驗平臺:CPU為Intel Xeon Gold 6240R,顯卡為Nvidia GeForce RTX 3090。

3.3 結果分析

(1)多航天器軌道追逃場景

主動星在多航天器軌道追逃場景的訓練曲線如圖5所示,選取三組實驗中訓練步驟為20 000的主動星與非合作目標決策模型分別進行1 000局蒙特卡洛模擬,三組實驗的優化指標如表3所示。

表3 多航天器追逃場景中主動星的優化指標

圖5 多航天器追逃場景中主動星訓練曲線

當面對信息非完備約束時,使用全連接網絡的主動星追捕成功率僅為25%,且燃料消耗為224 m/s;使用LSTM網絡的主動星追捕成功率為64%,燃料消耗為193 m/s。通過對比分析可知,全連接網絡難以適應信息非完備約束,而LSTM網絡通過補償位置、速度測量信息的非完備性,既防止了追捕成功率的大幅下滑,且燃料消耗并未增長許多。

選取信息非完備采用LSTM網絡實驗中訓練步驟為20 000的主動星、非合作目標決策模型進行打靶仿真,雙方的運動軌跡如圖6所示。三個主動星始終保持對非合作目標的合圍之勢,以彌補自身的機動能力劣勢。最終在第460分鐘,主動星1成功抵近非合作目標5 km之內,追捕成功。

圖6 多航天器追逃場景中主動星和非合作目標運動軌跡

表4 多航天器追逃場景中主動星的單步平均燃料消耗

圖7 主動星1和非合作目標的相對距離

圖9 多航天器追逃場景中主動星1累積燃料消耗

(2)多航天器協同觀測場景

主動星在多航天器協同觀測場景的訓練曲線如圖10所示,其中子圖(a)中順光觀測時間代表著主動星占據非合作目標逆光區的累積時長,子圖(c)中隊型模糊隸屬度代表ΔABC隸屬于等邊三角形的模糊隸屬度μE(t)。選取三組實驗中訓練步驟為20 000的主動星與非合作目標決策模型分別進行1 000局蒙特卡洛模擬,三組實驗的優化指標如表5所示。通過對比分析可知:當面對信息非完備約束時,簡單的全連接網絡難以有效適應,各項指標均下降了許多,且曲線收斂過程中也有很多震蕩,訓練不平穩。而具有記憶功能的LSTM網絡,通過補償位置、速度測量信息的非完備性,有效應對了信息非完備強約束,各項指標下降不大,且訓練過程很平穩。

表5 多航天器協同觀測場景中主動星的優化指標

圖10 多航天器協同觀測場景中主動星訓練曲線

選取信息非完備采用LSTM網絡實驗中訓練步驟為20 000的主動星、非合作目標決策模型進行打靶仿真,雙方的運動軌跡如圖11所示。仿真初期,在僅有非合作目標測角信息的條件下,三個主動星能夠迅速抵近目標。仿真中期,非合作目標通過頻繁的軌道機動企圖破壞主動星的觀測條件,三個主動星能夠通過相應的軌道機動,占據非合作目標逆光區進行順光觀測。在僅有其他主動星測角信息且星間通訊周期為1小時的條件下,三個主動星能夠保持合適的觀測構型。仿真后期,非合作目標燃料消耗殆盡,處于“漂星”狀態。三個主動星能夠以較小的燃料代價,繼續保持合適的觀測構型。

圖11 多航天器協同觀測場景中主動星和非合作目標的運動軌跡

圖12 主動星1門控單元輸出值

4 結論

針對信息非完備約束下的多航天器軌道博弈自主決策問題,本文首先進行了軌道博弈動力學建模和信息非完備約束建模,然后依據分布式系統架構進行了網絡輸入輸出結構設計,并引入具有記憶能力的LSTM網絡,以應對信息非完備約束所帶來的負面影響。采用紅藍左右互搏的訓練模式,利用PPO算法開展學習訓練。最后,本文在多航天器軌道追逃場景和多航天器協同觀測場景中,進行了三組對比訓練實驗。

實驗結果表明,全連接網絡難以適應信息非完備約束,各項優化指標均呈現出較大程度的下滑,且訓練曲線收斂過程中也有很多震蕩,學習訓練過程不平穩。本文所提出的算法利用LSTM網絡的記憶功能,補償了位置、速度測量信息的非完備性,有效應對了信息非完備約束,各項指標下降不大,且訓練過程很平穩。最后利用信息非完備約束下的決策模型進行打靶仿真,驗證了決策模型的實用性。

本文中的星間通訊采用固定周期方式,缺乏靈活性。針對上述問題,未來研究方向為通訊周期自調整的航天器協同決策方法。