韓楠,羅建軍,馬衛華,*
1. 西北工業大學 航天學院,西安 710072 2. 西北工業大學 航天飛行動力技術重點實驗室,西安 710072
接管控制技術為空間失效衛星有效載荷的再利用提供了新途徑。微小衛星具有研制成本低、研制周期短、發射方便的優點[1],是實施失效衛星姿態接管控制的新思路。近年來,針對空間資源再利用和新衛星在軌組裝任務,以鳳凰計劃、iBOSS計劃為代表的模塊化衛星項目被陸續提出。其所構想的輔助連接裝置及標準化接口[2-4],可滿足模塊化衛星之間及模塊化衛星與失效衛星之間的連接需求,是實現微小衛星與失效衛星相互連接的有效途徑。當多顆微小衛星與失效衛星互連形成組合體后,便可通過互相協同為失效衛星的姿態運動接管和操作提供控制。
由于微小衛星與失效衛星所形成的組合體可近似視為一剛性航天器,因此可利用傳統航天器姿態控制及控制分配方法計算各顆微小衛星的控制力矩[5-8]。然而,這種方法需要中央處理單元進行微小衛星控制力矩的計算,當微小衛星數量過多時,中央處理單元會面臨較大的計算負擔。為了將計算負擔分散在各顆微小衛星之間,文獻[9]研究了微小衛星的分布式控制分配問題,然而,微小衛星的控制約束沒有得到考慮。
微分博弈研究了多個體的決策互動問題,其中各個體通過局部目標函數的優化獲得控制策略[10-11],這為通過多顆微小衛星接管控制失效衛星的姿態運動提供了新思路。文獻[12-13]針對失效衛星的姿態接管控制問題,設計了微小衛星的非零和微分博弈控制器。所設計的控制器能夠在避免進行微小衛星控制分配的情況下,通過各顆微小衛星獨立優化各自局部性能指標函數的方式獲得控制策略。由于非零和博弈為非合作博弈,因此文獻[12-13]實現的是對各顆微小衛星局部性能指標函數的優化。為實現對所有微小衛星全局性能指標函數的優化,文獻[14]設計了微小衛星的合作博弈控制器,與文獻[12-13]中的研究相比,提高了微小衛星性能指標函數的優化程度。但由于僅獲得了微小衛星合作博弈的開環控制策略,難以實現對控制誤差的補償。
本文在文獻[12-14]研究的基礎上,考慮并設計能夠滿足微小衛星控制約束的閉環合作博弈控制方法。所設計的方法通過過去與當前時刻數據的并行使用,放松了微小衛星合作博弈策略學習對持續激勵條件的要求,避免了系統抖振的發生。所獲得的合作博弈方法可有效滿足微小衛星控制約束,且能夠在避免進行控制分配的情況下獲得各微小衛星的控制策略,計算復雜度低。
利用微小衛星進行失效衛星的姿態接管控制需要多顆微小衛星通過互相協同提供失效衛星姿態運動所需的控制力矩。圖1給出了失效衛星姿態接管控制示意圖。
假設:
(1) 各微小衛星固連于失效衛星,且相對于失效衛星的方位保持不變。
(2) 失效衛星與微小衛星所形成的組合體可視為剛體。
(3) 失效衛星姿態運動所需的控制力矩完全由微小衛星提供。

圖1 失效衛星姿態接管示意圖Fig.1 Shetch of attitude takeover of failed satellite
本文在考慮微小衛星控制約束的情況下,設計多星閉環合作博弈控制器。首先,通過組合體動力學模型的建立及考慮微小衛星控制約束的性能指標函數的設計,建立微小衛星合作博弈模型;其次,面向協同優化微小衛星全局性能指標函數的需求,設計微小衛星合作博弈帕累托最優策略學習方法,以進行微小衛星閉環合作博弈策略的學習;最后,根據學習到的合作博弈策略進行微小衛星的閉環協同控制,并基于此實現對失效衛星姿態運動的接管控制。
本文所使用的坐標系定義如下:



文獻[12]為實現微小衛星控制策略的獨立計算,將失效衛星姿態接管控制問題建模為非合作博弈問題,所實現的是各顆微小衛星局部性能指標函數的優化,且未考慮微小衛星的控制約束。為實現對所有微小衛星全局性能指標函數的優化,本節首先在考慮微小衛星控制約束的情況下,將失效衛星姿態接管控制問題建模為微小衛星的合作博弈問題。
本文通過修正羅德里格斯參數(Modified Rodrigues Parameter, MRP)進行組合體姿態運動的描述,相應的組合體姿態運動學方程為

(1)

(2)
其中:I為單位陣;σ×為σ=[σ1,σ2,σ3]T的反對稱矩陣,σ×=[0,-σ3,σ2;σ3,0,-σ1;-σ2,σ1,0]T。
組合體姿態動力學方程為
(3)

定義組合體狀態變量為x=[σT,ωT]T,根據式(1)與式(3),可得組合體姿態運動方程為
(4)
式中:
(5)
為通過多顆微小衛星的互相協同實現對失效衛星姿態運動的接管控制,為微小衛星設計如下的性能指標函數:

(6)
式中:ri(x,ui)=xTQix+φi(ui);Qi為一對稱正定矩陣;x0為組合體狀態變量初值;t0為接管控制初始時刻。
為了處理微小衛星的控制約束,φi(ui)定義為[16]
(7)



(8)
當微小衛星的合作博弈策略達到帕累托最優時,任意的策略改變至少會使一顆微小衛星性能指標函數的最優性受到損失。因此,通過使用微小衛星合作博弈的帕累托最優策略,能夠在優化微小衛星全局性能指標函數的情況下,實現對失效衛星的姿態接管控制。
帕累托最優策略可通過優化各顆微小衛星局部性能指標函數的加權組合來獲得,即
(9)

在考慮組合體動力學約束、微小衛星控制約束的情況下,微小衛星合作博弈可描述為
(10)




(11)
將V(x(t+Δt))通過泰勒級數展開,可得
(12)
由于在控制策略u作用下,式(4)中標稱系統為一定常系統,因此?V/?t=0。將式(12)代入式(11)中,并以Δt除之,當Δt→0時,可得
(13)

定義哈密爾頓函數為
(14)
令?H/?ui=0,可得微小衛星i最優控制顯式表達式為
(15)

注1由于tanh函數的值域為(-1,1),因此,當微小衛星采取式(15)中的控制策略時,微小衛星控制約束將能夠得到滿足。
(16)

將式(16)代入式(13)中,可得HJB方程為
(17)


(18)
將式(18)代入式(17)中,HJB方程可改寫為
(19)
本節通過過去與當前時刻數據的并行使用,設計能夠進行微小衛星合作博弈策略學習的策略迭代方法,并在此基礎上進行微小衛星合作博弈帕累托最優策略數值解的學習。

V*(x)=WTφ(x)+εV(x)
(20)
式中:W為神經網絡理想權值矢量;φ(x)=[φ1(x),φ2(x),…,φK(x)]為激活函數矢量;K為隱藏層神經元數量;εV(x)為逼近誤差。
最優值函數關于x的微分為
(21)

微小衛星合作博弈策略為
(22)
式中:εu*為合作博弈策略逼近誤差。
將式(21)代入HJB方程(19)中,可得
(23)

定義HJB方程逼近誤差為
(24)
式(23)可改寫為
(25)

(26)
最優值函數關于x的微分的逼近值為
(27)
微小衛星合作博弈策略逼近值為

(28)

將式(27)代入式(19)中,可得
(29)
式中:
(30)
定義:

(31)
式(30)可改寫為[19]
(32)
式中:
(33)
為了進行式(19)數值解的學習,文獻[19]通過優化如下僅依賴于當前時刻系統狀態的誤差范數進行神經網絡權值矢量的學習:
(34)
然而,通過優化誤差范數(34)進行神經網絡權值矢量的學習要求信號θ滿足如下持續激勵條件:

(35)
式中:t為當前時刻;T為神經網絡權值矢量學習過程中的動力學積分步長;κ1與κ2均為正數。
持續激勵條件一般通過引入噪聲來得到滿足[12,19],然而,這會造成系統狀態持續不斷的抖振,從而對系統的穩定性甚至安全性產生不利影響。文獻[20]中的研究表明,通過對當前與過去時刻數據的并行使用,可放松參數辨識方法對持續激勵條件的要求。本文通過并行學習思想進行無需持續激勵條件的神經網絡權值矢量更新律的設計。為此,考慮如下的誤差范數:
(36)
式中:ek為e在過去時刻系統狀態變量xk處的取值;p為使用的過去時刻系統狀態變量的數量。
無需持續激勵條件的神經網絡權值矢量更新律可設計為
(37)
式中:θk與βk分別為θ與β在過去時刻系統狀態變量xk處的取值。


證明:定義如下的Lyapunov函數:
(38)
其導數為
(39)

(40)
記:
(41)
則有:
(42)


(43)

微小衛星合作博弈策略可通過基于并行學習的策略迭代方法進行計算。具體執行步驟如下:



(44)

注3式(44)中的合作博弈策略具有反饋控制形式,當擾動存在并造成失效衛星的姿態接管控制誤差時,反饋控制策略(44)能夠通過對微小衛星合作博弈策略的調整進行誤差的實時補償,以實現對失效衛星姿態運動的閉環控制。
本節通過數值仿真對所設計的微小衛星合作博弈控制方法的有效性,及其與現有研究相比在放松持續激勵條件、處理微小衛星控制約束及抑制擾動方面的優勢進行驗證。
不失一般性,假設有4顆微小衛星參與進行失效衛星的姿態接管控制。失效衛星與微小衛星所形成的組合體的轉動慣量為
4顆微小衛星本體坐標系到組合體本體坐標系的轉換矩陣分別為

仿真分2個階段,第1個階段通過并行學習策略迭代方法進行神經網絡權值矢量的學習,以獲得微小衛星的合作博弈策略。第2個階段根據獲得的合作博弈策略進行微小衛星的閉環協同控制,以實現對失效衛星姿態運動的接管控制。
仿真中使用50個過去時刻數據與當前時刻數據進行神經網絡權值矢量的并行學習。組合體初始姿態MRPσ0=[1.307 6,1.216 4,0.465 9]T,初始姿態角速度ω0=[0.002 2,0.012 0,0.059 5]Trad·s-1。


圖2 組合體姿態MRP隨時間變化曲線(神經網絡權值矢量學習階段)Fig.2 Variation of attitude MRP of combination (NN weights learning stage)

圖3 組合體姿態角速度隨時間變化曲線(神經網絡權值矢量學習階段)Fig.3 Variation of attitude angular velocity of combination (NN weights learning stage)

圖4 神經網絡(NN)權值矢量估值隨時間變化曲線Fig.4 Variation of NN weight estimations
獲得神經網絡權值矢量估值之后,便可根據式(44)直接計算各顆微小衛星的合作博弈策略,以進行失效衛星的姿態接管控制。假設在姿態接管控制階段,組合體初始姿態MRP及角速度分別為σ0=[-0.455 3,0.355 0,0.122 5]T及ω0=[0.015 0,0.006 0,-0.008 6]Trad·s-1。期望姿態MRP及角速度分別為σf=[0,0,0]T及ωf=[0,0,0]Trad·s-1。
圖5與圖6分別給出了組合體姿態MRP及角速度隨時間變化的曲線,可以看出,在多顆微小衛星的合作博弈控制下,組合體的姿態MRP與角速度均得到了有效控制。
圖7給出了4顆微小衛星控制力矩隨時間變化的曲線,其中藍綠色實線為文獻[12]方法所得的微小衛星控制力矩曲線,綠色虛線表示微小衛星的控制約束。可以看出,與文獻[12]方法相比,本文方法能夠在整個姿態接管控制過程中,使微小衛星的控制約束得到滿足。

圖5 組合體姿態MRP隨時間變化曲線(姿態接管控制階段)Fig.5 Variation of attitude MRP of combination (attitude takeover control stage)

圖6 組合體姿態角速度隨時間變化曲線(姿態接管控制階段)Fig.6 Variation of attitude angular velocity of combination (attitude takeover control stage)


圖7 微小衛星控制力矩隨時間變化曲線(姿態接管控制階段)Fig.7 Variation of control torque of microsatellites (attitude takeover control stage)
為驗證所獲得的閉環合作博弈策略對擾動引起的姿態控制誤差的補償能力,在姿態接管控制過程中引入如下的干擾力矩:

組合體初始姿態MRP 及角速度分別為σ0=[-0.355 3,-0.205 0,0.082 5]T,ω0=[-0.015 3,0.040 0,-0.048 6]Trad·s-1。期望姿態MRP及角速度為σf=[0,0,0]T,ωf=[0,0,0]Trad·s-1。
圖8與圖9分別給出了組合體姿態MRP及角速度隨時間變化的曲線,其中藍綠色實線為文獻[14]方法所得的姿態MRP及角速度曲線。由于文獻[14]主要關注微小衛星開環合作博弈策略的確定,因而難以實現對擾動所造成的失效衛星姿態控制誤差的補償。本文方法得到了微小衛星的閉環合作博弈策略,能夠在擾動存在的情況下,實現對組合體姿態MRP與角速度的有效控制。

圖8 組合體姿態MRP隨時間變化曲線Fig.8 Variation of attitude MRP of combination

圖9 組合體姿態角速度隨時間變化Fig.9 Variation of attitude angular velocity of combination
1) 針對多顆微小衛星接管控制失效衛星姿態運動的問題,提出了一種能夠處理微小衛星控制約束的并行學習合作博弈控制方法。該方法通過過去與當前時刻數據的并行使用,放松了微小衛星合作博弈策略的學習對持續激勵條件的要求,有效避免了博弈策略學習過程中系統抖振的發生。
2) 所獲得的微小衛星合作博弈策略具有反饋控制形式,一旦完成博弈策略的學習,各顆微小衛星便能通過控制策略的獨立計算實現對失效衛星姿態運動的閉環控制,以實現對控制誤差的補償。