失效衛(wèi)星姿態(tài)接管的并行學(xué)習(xí)合作博弈控制

2021-03-27 04:50:02韓楠羅建軍馬衛(wèi)華

航空學(xué)報(bào) 2021年3期

關(guān)鍵詞：策略

韓楠，羅建軍，馬衛(wèi)華,*

1. 西北工業(yè)大學(xué) 航天學(xué)院，西安 710072 2. 西北工業(yè)大學(xué) 航天飛行動(dòng)力技術(shù)重點(diǎn)實(shí)驗(yàn)室，西安 710072

接管控制技術(shù)為空間失效衛(wèi)星有效載荷的再利用提供了新途徑。微小衛(wèi)星具有研制成本低、研制周期短、發(fā)射方便的優(yōu)點(diǎn)[1]，是實(shí)施失效衛(wèi)星姿態(tài)接管控制的新思路。近年來，針對(duì)空間資源再利用和新衛(wèi)星在軌組裝任務(wù)，以鳳凰計(jì)劃、iBOSS計(jì)劃為代表的模塊化衛(wèi)星項(xiàng)目被陸續(xù)提出。其所構(gòu)想的輔助連接裝置及標(biāo)準(zhǔn)化接口[2-4]，可滿足模塊化衛(wèi)星之間及模塊化衛(wèi)星與失效衛(wèi)星之間的連接需求，是實(shí)現(xiàn)微小衛(wèi)星與失效衛(wèi)星相互連接的有效途徑。當(dāng)多顆微小衛(wèi)星與失效衛(wèi)星互連形成組合體后，便可通過互相協(xié)同為失效衛(wèi)星的姿態(tài)運(yùn)動(dòng)接管和操作提供控制。

由于微小衛(wèi)星與失效衛(wèi)星所形成的組合體可近似視為一剛性航天器，因此可利用傳統(tǒng)航天器姿態(tài)控制及控制分配方法計(jì)算各顆微小衛(wèi)星的控制力矩[5-8]。然而，這種方法需要中央處理單元進(jìn)行微小衛(wèi)星控制力矩的計(jì)算，當(dāng)微小衛(wèi)星數(shù)量過多時(shí)，中央處理單元會(huì)面臨較大的計(jì)算負(fù)擔(dān)。為了將計(jì)算負(fù)擔(dān)分散在各顆微小衛(wèi)星之間，文獻(xiàn)[9]研究了微小衛(wèi)星的分布式控制分配問題，然而，微小衛(wèi)星的控制約束沒有得到考慮。

微分博弈研究了多個(gè)體的決策互動(dòng)問題，其中各個(gè)體通過局部目標(biāo)函數(shù)的優(yōu)化獲得控制策略[10-11]，這為通過多顆微小衛(wèi)星接管控制失效衛(wèi)星的姿態(tài)運(yùn)動(dòng)提供了新思路。文獻(xiàn)[12-13]針對(duì)失效衛(wèi)星的姿態(tài)接管控制問題，設(shè)計(jì)了微小衛(wèi)星的非零和微分博弈控制器。所設(shè)計(jì)的控制器能夠在避免進(jìn)行微小衛(wèi)星控制分配的情況下，通過各顆微小衛(wèi)星獨(dú)立優(yōu)化各自局部性能指標(biāo)函數(shù)的方式獲得控制策略。由于非零和博弈為非合作博弈，因此文獻(xiàn)[12-13]實(shí)現(xiàn)的是對(duì)各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的優(yōu)化。為實(shí)現(xiàn)對(duì)所有微小衛(wèi)星全局性能指標(biāo)函數(shù)的優(yōu)化，文獻(xiàn)[14]設(shè)計(jì)了微小衛(wèi)星的合作博弈控制器，與文獻(xiàn)[12-13]中的研究相比，提高了微小衛(wèi)星性能指標(biāo)函數(shù)的優(yōu)化程度。但由于僅獲得了微小衛(wèi)星合作博弈的開環(huán)控制策略，難以實(shí)現(xiàn)對(duì)控制誤差的補(bǔ)償。

本文在文獻(xiàn)[12-14]研究的基礎(chǔ)上，考慮并設(shè)計(jì)能夠滿足微小衛(wèi)星控制約束的閉環(huán)合作博弈控制方法。所設(shè)計(jì)的方法通過過去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用，放松了微小衛(wèi)星合作博弈策略學(xué)習(xí)對(duì)持續(xù)激勵(lì)條件的要求，避免了系統(tǒng)抖振的發(fā)生。所獲得的合作博弈方法可有效滿足微小衛(wèi)星控制約束，且能夠在避免進(jìn)行控制分配的情況下獲得各微小衛(wèi)星的控制策略，計(jì)算復(fù)雜度低。

1 問題描述

利用微小衛(wèi)星進(jìn)行失效衛(wèi)星的姿態(tài)接管控制需要多顆微小衛(wèi)星通過互相協(xié)同提供失效衛(wèi)星姿態(tài)運(yùn)動(dòng)所需的控制力矩。圖1給出了失效衛(wèi)星姿態(tài)接管控制示意圖。

假設(shè)：

(1) 各微小衛(wèi)星固連于失效衛(wèi)星，且相對(duì)于失效衛(wèi)星的方位保持不變。

(2) 失效衛(wèi)星與微小衛(wèi)星所形成的組合體可視為剛體。

(3) 失效衛(wèi)星姿態(tài)運(yùn)動(dòng)所需的控制力矩完全由微小衛(wèi)星提供。

圖1 失效衛(wèi)星姿態(tài)接管示意圖Fig.1 Shetch of attitude takeover of failed satellite

本文在考慮微小衛(wèi)星控制約束的情況下，設(shè)計(jì)多星閉環(huán)合作博弈控制器。首先，通過組合體動(dòng)力學(xué)模型的建立及考慮微小衛(wèi)星控制約束的性能指標(biāo)函數(shù)的設(shè)計(jì)，建立微小衛(wèi)星合作博弈模型；其次，面向協(xié)同優(yōu)化微小衛(wèi)星全局性能指標(biāo)函數(shù)的需求，設(shè)計(jì)微小衛(wèi)星合作博弈帕累托最優(yōu)策略學(xué)習(xí)方法，以進(jìn)行微小衛(wèi)星閉環(huán)合作博弈策略的學(xué)習(xí)；最后，根據(jù)學(xué)習(xí)到的合作博弈策略進(jìn)行微小衛(wèi)星的閉環(huán)協(xié)同控制，并基于此實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制。

本文所使用的坐標(biāo)系定義如下：

2 微小衛(wèi)星合作博弈模型

文獻(xiàn)[12]為實(shí)現(xiàn)微小衛(wèi)星控制策略的獨(dú)立計(jì)算，將失效衛(wèi)星姿態(tài)接管控制問題建模為非合作博弈問題，所實(shí)現(xiàn)的是各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的優(yōu)化，且未考慮微小衛(wèi)星的控制約束。為實(shí)現(xiàn)對(duì)所有微小衛(wèi)星全局性能指標(biāo)函數(shù)的優(yōu)化，本節(jié)首先在考慮微小衛(wèi)星控制約束的情況下，將失效衛(wèi)星姿態(tài)接管控制問題建模為微小衛(wèi)星的合作博弈問題。

2.1 組合體姿態(tài)運(yùn)動(dòng)模型

本文通過修正羅德里格斯參數(shù)(Modified Rodrigues Parameter, MRP)進(jìn)行組合體姿態(tài)運(yùn)動(dòng)的描述，相應(yīng)的組合體姿態(tài)運(yùn)動(dòng)學(xué)方程為

(1)

(2)

其中：I為單位陣;σ×為σ=[σ1,σ2,σ3]T的反對(duì)稱矩陣，σ×=[0,-σ3,σ2;σ3,0,-σ1;-σ2,σ1,0]T。

組合體姿態(tài)動(dòng)力學(xué)方程為

(3)

定義組合體狀態(tài)變量為x=[σT,ωT]T，根據(jù)式(1)與式(3)，可得組合體姿態(tài)運(yùn)動(dòng)方程為

(4)

式中：

(5)

2.2 微小衛(wèi)星合作博弈建模

為通過多顆微小衛(wèi)星的互相協(xié)同實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制，為微小衛(wèi)星設(shè)計(jì)如下的性能指標(biāo)函數(shù)：

(6)

式中：ri(x,ui)=xTQix+φi(ui)；Qi為一對(duì)稱正定矩陣；x0為組合體狀態(tài)變量初值；t0為接管控制初始時(shí)刻。

為了處理微小衛(wèi)星的控制約束，φi(ui)定義為[16]

(7)

(8)

當(dāng)微小衛(wèi)星的合作博弈策略達(dá)到帕累托最優(yōu)時(shí)，任意的策略改變至少會(huì)使一顆微小衛(wèi)星性能指標(biāo)函數(shù)的最優(yōu)性受到損失。因此，通過使用微小衛(wèi)星合作博弈的帕累托最優(yōu)策略，能夠在優(yōu)化微小衛(wèi)星全局性能指標(biāo)函數(shù)的情況下，實(shí)現(xiàn)對(duì)失效衛(wèi)星的姿態(tài)接管控制。

帕累托最優(yōu)策略可通過優(yōu)化各顆微小衛(wèi)星局部性能指標(biāo)函數(shù)的加權(quán)組合來獲得，即

(9)

在考慮組合體動(dòng)力學(xué)約束、微小衛(wèi)星控制約束的情況下，微小衛(wèi)星合作博弈可描述為

(10)

3 微小衛(wèi)星合作博弈策略顯式表達(dá)式

(11)

將V(x(t+Δt))通過泰勒級(jí)數(shù)展開，可得

(12)

由于在控制策略u(píng)作用下，式(4)中標(biāo)稱系統(tǒng)為一定常系統(tǒng)，因此?V/?t=0。將式(12)代入式(11)中，并以Δt除之，當(dāng)Δt→0時(shí)，可得

(13)

定義哈密爾頓函數(shù)為

(14)

令?H/?ui=0，可得微小衛(wèi)星i最優(yōu)控制顯式表達(dá)式為

(15)

注1由于tanh函數(shù)的值域?yàn)?-1,1)，因此，當(dāng)微小衛(wèi)星采取式(15)中的控制策略時(shí)，微小衛(wèi)星控制約束將能夠得到滿足。

(16)

將式(16)代入式(13)中，可得HJB方程為

(17)

(18)

將式(18)代入式(17)中，HJB方程可改寫為

(19)

4 微小衛(wèi)星并行學(xué)習(xí)合作博弈控制方法

本節(jié)通過過去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用，設(shè)計(jì)能夠進(jìn)行微小衛(wèi)星合作博弈策略學(xué)習(xí)的策略迭代方法，并在此基礎(chǔ)上進(jìn)行微小衛(wèi)星合作博弈帕累托最優(yōu)策略數(shù)值解的學(xué)習(xí)。

4.1 神經(jīng)網(wǎng)絡(luò)權(quán)值矢量更新律設(shè)計(jì)

V*(x)=WTφ(x)+εV(x)

(20)

式中：W為神經(jīng)網(wǎng)絡(luò)理想權(quán)值矢量；φ(x)=[φ1(x),φ2(x),…,φK(x)]為激活函數(shù)矢量；K為隱藏層神經(jīng)元數(shù)量；εV(x)為逼近誤差。

最優(yōu)值函數(shù)關(guān)于x的微分為

(21)

微小衛(wèi)星合作博弈策略為

(22)

式中：εu*為合作博弈策略逼近誤差。

將式(21)代入HJB方程(19)中，可得

(23)

定義HJB方程逼近誤差為

(24)

式(23)可改寫為

(25)

(26)

最優(yōu)值函數(shù)關(guān)于x的微分的逼近值為

(27)

微小衛(wèi)星合作博弈策略逼近值為

(28)

將式(27)代入式(19)中，可得

(29)

式中：

(30)

定義：

(31)

式(30)可改寫為[19]

(32)

式中：

(33)

為了進(jìn)行式(19)數(shù)值解的學(xué)習(xí)，文獻(xiàn)[19]通過優(yōu)化如下僅依賴于當(dāng)前時(shí)刻系統(tǒng)狀態(tài)的誤差范數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí)：

(34)

然而，通過優(yōu)化誤差范數(shù)(34)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí)要求信號(hào)θ滿足如下持續(xù)激勵(lì)條件：

(35)

式中：t為當(dāng)前時(shí)刻；T為神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)過程中的動(dòng)力學(xué)積分步長；κ1與κ2均為正數(shù)。

持續(xù)激勵(lì)條件一般通過引入噪聲來得到滿足[12,19]，然而，這會(huì)造成系統(tǒng)狀態(tài)持續(xù)不斷的抖振，從而對(duì)系統(tǒng)的穩(wěn)定性甚至安全性產(chǎn)生不利影響。文獻(xiàn)[20]中的研究表明，通過對(duì)當(dāng)前與過去時(shí)刻數(shù)據(jù)的并行使用，可放松參數(shù)辨識(shí)方法對(duì)持續(xù)激勵(lì)條件的要求。本文通過并行學(xué)習(xí)思想進(jìn)行無需持續(xù)激勵(lì)條件的神經(jīng)網(wǎng)絡(luò)權(quán)值矢量更新律的設(shè)計(jì)。為此，考慮如下的誤差范數(shù)：

(36)

式中：ek為e在過去時(shí)刻系統(tǒng)狀態(tài)變量xk處的取值；p為使用的過去時(shí)刻系統(tǒng)狀態(tài)變量的數(shù)量。

無需持續(xù)激勵(lì)條件的神經(jīng)網(wǎng)絡(luò)權(quán)值矢量更新律可設(shè)計(jì)為

(37)

式中：θk與βk分別為θ與β在過去時(shí)刻系統(tǒng)狀態(tài)變量xk處的取值。

證明：定義如下的Lyapunov函數(shù)：

(38)

其導(dǎo)數(shù)為

(39)

(40)

記：

(41)

則有：

(42)

(43)

4.2 基于并行學(xué)習(xí)的策略迭代方法

微小衛(wèi)星合作博弈策略可通過基于并行學(xué)習(xí)的策略迭代方法進(jìn)行計(jì)算。具體執(zhí)行步驟如下：

(44)

注3式(44)中的合作博弈策略具有反饋控制形式，當(dāng)擾動(dòng)存在并造成失效衛(wèi)星的姿態(tài)接管控制誤差時(shí)，反饋控制策略(44)能夠通過對(duì)微小衛(wèi)星合作博弈策略的調(diào)整進(jìn)行誤差的實(shí)時(shí)補(bǔ)償，以實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的閉環(huán)控制。

5 仿真校驗(yàn)

本節(jié)通過數(shù)值仿真對(duì)所設(shè)計(jì)的微小衛(wèi)星合作博弈控制方法的有效性，及其與現(xiàn)有研究相比在放松持續(xù)激勵(lì)條件、處理微小衛(wèi)星控制約束及抑制擾動(dòng)方面的優(yōu)勢(shì)進(jìn)行驗(yàn)證。

不失一般性，假設(shè)有4顆微小衛(wèi)星參與進(jìn)行失效衛(wèi)星的姿態(tài)接管控制。失效衛(wèi)星與微小衛(wèi)星所形成的組合體的轉(zhuǎn)動(dòng)慣量為

4顆微小衛(wèi)星本體坐標(biāo)系到組合體本體坐標(biāo)系的轉(zhuǎn)換矩陣分別為

仿真分2個(gè)階段，第1個(gè)階段通過并行學(xué)習(xí)策略迭代方法進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的學(xué)習(xí)，以獲得微小衛(wèi)星的合作博弈策略。第2個(gè)階段根據(jù)獲得的合作博弈策略進(jìn)行微小衛(wèi)星的閉環(huán)協(xié)同控制，以實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的接管控制。

5.1 神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)

仿真中使用50個(gè)過去時(shí)刻數(shù)據(jù)與當(dāng)前時(shí)刻數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)權(quán)值矢量的并行學(xué)習(xí)。組合體初始姿態(tài)MRPσ0=[1.307 6,1.216 4,0.465 9]T,初始姿態(tài)角速度ω0=[0.002 2,0.012 0,0.059 5]Trad·s-1。

圖2 組合體姿態(tài)MRP隨時(shí)間變化曲線(神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)階段)Fig.2 Variation of attitude MRP of combination (NN weights learning stage)

圖3 組合體姿態(tài)角速度隨時(shí)間變化曲線(神經(jīng)網(wǎng)絡(luò)權(quán)值矢量學(xué)習(xí)階段)Fig.3 Variation of attitude angular velocity of combination (NN weights learning stage)

圖4 神經(jīng)網(wǎng)絡(luò)(NN)權(quán)值矢量估值隨時(shí)間變化曲線Fig.4 Variation of NN weight estimations

5.2 失效衛(wèi)星姿態(tài)接管控制

獲得神經(jīng)網(wǎng)絡(luò)權(quán)值矢量估值之后，便可根據(jù)式(44)直接計(jì)算各顆微小衛(wèi)星的合作博弈策略，以進(jìn)行失效衛(wèi)星的姿態(tài)接管控制。假設(shè)在姿態(tài)接管控制階段，組合體初始姿態(tài)MRP及角速度分別為σ0=[-0.455 3,0.355 0,0.122 5]T及ω0=[0.015 0,0.006 0,-0.008 6]Trad·s-1。期望姿態(tài)MRP及角速度分別為σf=[0,0,0]T及ωf=[0,0,0]Trad·s-1。

圖5與圖6分別給出了組合體姿態(tài)MRP及角速度隨時(shí)間變化的曲線，可以看出，在多顆微小衛(wèi)星的合作博弈控制下，組合體的姿態(tài)MRP與角速度均得到了有效控制。

圖7給出了4顆微小衛(wèi)星控制力矩隨時(shí)間變化的曲線，其中藍(lán)綠色實(shí)線為文獻(xiàn)[12]方法所得的微小衛(wèi)星控制力矩曲線，綠色虛線表示微小衛(wèi)星的控制約束。可以看出，與文獻(xiàn)[12]方法相比，本文方法能夠在整個(gè)姿態(tài)接管控制過程中，使微小衛(wèi)星的控制約束得到滿足。

圖5 組合體姿態(tài)MRP隨時(shí)間變化曲線(姿態(tài)接管控制階段)Fig.5 Variation of attitude MRP of combination (attitude takeover control stage)

圖6 組合體姿態(tài)角速度隨時(shí)間變化曲線(姿態(tài)接管控制階段)Fig.6 Variation of attitude angular velocity of combination (attitude takeover control stage)

圖7 微小衛(wèi)星控制力矩隨時(shí)間變化曲線(姿態(tài)接管控制階段)Fig.7 Variation of control torque of microsatellites (attitude takeover control stage)

5.3 擾動(dòng)存在情況下的失效衛(wèi)星姿態(tài)接管控制

為驗(yàn)證所獲得的閉環(huán)合作博弈策略對(duì)擾動(dòng)引起的姿態(tài)控制誤差的補(bǔ)償能力，在姿態(tài)接管控制過程中引入如下的干擾力矩：

組合體初始姿態(tài)MRP 及角速度分別為σ0=[-0.355 3,-0.205 0,0.082 5]T，ω0=[-0.015 3,0.040 0,-0.048 6]Trad·s-1。期望姿態(tài)MRP及角速度為σf=[0,0,0]T，ωf=[0,0,0]Trad·s-1。

圖8與圖9分別給出了組合體姿態(tài)MRP及角速度隨時(shí)間變化的曲線，其中藍(lán)綠色實(shí)線為文獻(xiàn)[14]方法所得的姿態(tài)MRP及角速度曲線。由于文獻(xiàn)[14]主要關(guān)注微小衛(wèi)星開環(huán)合作博弈策略的確定，因而難以實(shí)現(xiàn)對(duì)擾動(dòng)所造成的失效衛(wèi)星姿態(tài)控制誤差的補(bǔ)償。本文方法得到了微小衛(wèi)星的閉環(huán)合作博弈策略，能夠在擾動(dòng)存在的情況下，實(shí)現(xiàn)對(duì)組合體姿態(tài)MRP與角速度的有效控制。

圖8 組合體姿態(tài)MRP隨時(shí)間變化曲線Fig.8 Variation of attitude MRP of combination

圖9 組合體姿態(tài)角速度隨時(shí)間變化Fig.9 Variation of attitude angular velocity of combination

6 結(jié) 論

1) 針對(duì)多顆微小衛(wèi)星接管控制失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的問題，提出了一種能夠處理微小衛(wèi)星控制約束的并行學(xué)習(xí)合作博弈控制方法。該方法通過過去與當(dāng)前時(shí)刻數(shù)據(jù)的并行使用，放松了微小衛(wèi)星合作博弈策略的學(xué)習(xí)對(duì)持續(xù)激勵(lì)條件的要求，有效避免了博弈策略學(xué)習(xí)過程中系統(tǒng)抖振的發(fā)生。

2) 所獲得的微小衛(wèi)星合作博弈策略具有反饋控制形式，一旦完成博弈策略的學(xué)習(xí)，各顆微小衛(wèi)星便能通過控制策略的獨(dú)立計(jì)算實(shí)現(xiàn)對(duì)失效衛(wèi)星姿態(tài)運(yùn)動(dòng)的閉環(huán)控制，以實(shí)現(xiàn)對(duì)控制誤差的補(bǔ)償。