999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

失效衛星姿態接管的并行學習合作博弈控制

2021-03-27 04:50:02韓楠羅建軍馬衛華
航空學報 2021年3期
關鍵詞:策略

韓楠,羅建軍,馬衛華,*

1. 西北工業大學 航天學院,西安 710072 2. 西北工業大學 航天飛行動力技術重點實驗室,西安 710072

接管控制技術為空間失效衛星有效載荷的再利用提供了新途徑。微小衛星具有研制成本低、研制周期短、發射方便的優點[1],是實施失效衛星姿態接管控制的新思路。近年來,針對空間資源再利用和新衛星在軌組裝任務,以鳳凰計劃、iBOSS計劃為代表的模塊化衛星項目被陸續提出。其所構想的輔助連接裝置及標準化接口[2-4],可滿足模塊化衛星之間及模塊化衛星與失效衛星之間的連接需求,是實現微小衛星與失效衛星相互連接的有效途徑。當多顆微小衛星與失效衛星互連形成組合體后,便可通過互相協同為失效衛星的姿態運動接管和操作提供控制。

由于微小衛星與失效衛星所形成的組合體可近似視為一剛性航天器,因此可利用傳統航天器姿態控制及控制分配方法計算各顆微小衛星的控制力矩[5-8]。然而,這種方法需要中央處理單元進行微小衛星控制力矩的計算,當微小衛星數量過多時,中央處理單元會面臨較大的計算負擔。為了將計算負擔分散在各顆微小衛星之間,文獻[9]研究了微小衛星的分布式控制分配問題,然而,微小衛星的控制約束沒有得到考慮。

微分博弈研究了多個體的決策互動問題,其中各個體通過局部目標函數的優化獲得控制策略[10-11],這為通過多顆微小衛星接管控制失效衛星的姿態運動提供了新思路。文獻[12-13]針對失效衛星的姿態接管控制問題,設計了微小衛星的非零和微分博弈控制器。所設計的控制器能夠在避免進行微小衛星控制分配的情況下,通過各顆微小衛星獨立優化各自局部性能指標函數的方式獲得控制策略。由于非零和博弈為非合作博弈,因此文獻[12-13]實現的是對各顆微小衛星局部性能指標函數的優化。為實現對所有微小衛星全局性能指標函數的優化,文獻[14]設計了微小衛星的合作博弈控制器,與文獻[12-13]中的研究相比,提高了微小衛星性能指標函數的優化程度。但由于僅獲得了微小衛星合作博弈的開環控制策略,難以實現對控制誤差的補償。

本文在文獻[12-14]研究的基礎上,考慮并設計能夠滿足微小衛星控制約束的閉環合作博弈控制方法。所設計的方法通過過去與當前時刻數據的并行使用,放松了微小衛星合作博弈策略學習對持續激勵條件的要求,避免了系統抖振的發生。所獲得的合作博弈方法可有效滿足微小衛星控制約束,且能夠在避免進行控制分配的情況下獲得各微小衛星的控制策略,計算復雜度低。

1 問題描述

利用微小衛星進行失效衛星的姿態接管控制需要多顆微小衛星通過互相協同提供失效衛星姿態運動所需的控制力矩。圖1給出了失效衛星姿態接管控制示意圖。

假設:

(1) 各微小衛星固連于失效衛星,且相對于失效衛星的方位保持不變。

(2) 失效衛星與微小衛星所形成的組合體可視為剛體。

(3) 失效衛星姿態運動所需的控制力矩完全由微小衛星提供。

圖1 失效衛星姿態接管示意圖Fig.1 Shetch of attitude takeover of failed satellite

本文在考慮微小衛星控制約束的情況下,設計多星閉環合作博弈控制器。首先,通過組合體動力學模型的建立及考慮微小衛星控制約束的性能指標函數的設計,建立微小衛星合作博弈模型;其次,面向協同優化微小衛星全局性能指標函數的需求,設計微小衛星合作博弈帕累托最優策略學習方法,以進行微小衛星閉環合作博弈策略的學習;最后,根據學習到的合作博弈策略進行微小衛星的閉環協同控制,并基于此實現對失效衛星姿態運動的接管控制。

本文所使用的坐標系定義如下:

2 微小衛星合作博弈模型

文獻[12]為實現微小衛星控制策略的獨立計算,將失效衛星姿態接管控制問題建模為非合作博弈問題,所實現的是各顆微小衛星局部性能指標函數的優化,且未考慮微小衛星的控制約束。為實現對所有微小衛星全局性能指標函數的優化,本節首先在考慮微小衛星控制約束的情況下,將失效衛星姿態接管控制問題建模為微小衛星的合作博弈問題。

2.1 組合體姿態運動模型

本文通過修正羅德里格斯參數(Modified Rodrigues Parameter, MRP)進行組合體姿態運動的描述,相應的組合體姿態運動學方程為

(1)

(2)

其中:I為單位陣;σ×為σ=[σ1,σ2,σ3]T的反對稱矩陣,σ×=[0,-σ3,σ2;σ3,0,-σ1;-σ2,σ1,0]T。

組合體姿態動力學方程為

(3)

定義組合體狀態變量為x=[σT,ωT]T,根據式(1)與式(3),可得組合體姿態運動方程為

(4)

式中:

(5)

2.2 微小衛星合作博弈建模

為通過多顆微小衛星的互相協同實現對失效衛星姿態運動的接管控制,為微小衛星設計如下的性能指標函數:

(6)

式中:ri(x,ui)=xTQix+φi(ui);Qi為一對稱正定矩陣;x0為組合體狀態變量初值;t0為接管控制初始時刻。

為了處理微小衛星的控制約束,φi(ui)定義為[16]

(7)

(8)

當微小衛星的合作博弈策略達到帕累托最優時,任意的策略改變至少會使一顆微小衛星性能指標函數的最優性受到損失。因此,通過使用微小衛星合作博弈的帕累托最優策略,能夠在優化微小衛星全局性能指標函數的情況下,實現對失效衛星的姿態接管控制。

帕累托最優策略可通過優化各顆微小衛星局部性能指標函數的加權組合來獲得,即

(9)

在考慮組合體動力學約束、微小衛星控制約束的情況下,微小衛星合作博弈可描述為

(10)

3 微小衛星合作博弈策略顯式表達式

(11)

將V(x(t+Δt))通過泰勒級數展開,可得

(12)

由于在控制策略u作用下,式(4)中標稱系統為一定常系統,因此?V/?t=0。將式(12)代入式(11)中,并以Δt除之,當Δt→0時,可得

(13)

定義哈密爾頓函數為

(14)

令?H/?ui=0,可得微小衛星i最優控制顯式表達式為

(15)

注1由于tanh函數的值域為(-1,1),因此,當微小衛星采取式(15)中的控制策略時,微小衛星控制約束將能夠得到滿足。

(16)

將式(16)代入式(13)中,可得HJB方程為

(17)

(18)

將式(18)代入式(17)中,HJB方程可改寫為

(19)

4 微小衛星并行學習合作博弈控制方法

本節通過過去與當前時刻數據的并行使用,設計能夠進行微小衛星合作博弈策略學習的策略迭代方法,并在此基礎上進行微小衛星合作博弈帕累托最優策略數值解的學習。

4.1 神經網絡權值矢量更新律設計

V*(x)=WTφ(x)+εV(x)

(20)

式中:W為神經網絡理想權值矢量;φ(x)=[φ1(x),φ2(x),…,φK(x)]為激活函數矢量;K為隱藏層神經元數量;εV(x)為逼近誤差。

最優值函數關于x的微分為

(21)

微小衛星合作博弈策略為

(22)

式中:εu*為合作博弈策略逼近誤差。

將式(21)代入HJB方程(19)中,可得

(23)

定義HJB方程逼近誤差為

(24)

式(23)可改寫為

(25)

(26)

最優值函數關于x的微分的逼近值為

(27)

微小衛星合作博弈策略逼近值為

(28)

將式(27)代入式(19)中,可得

(29)

式中:

(30)

定義:

(31)

式(30)可改寫為[19]

(32)

式中:

(33)

為了進行式(19)數值解的學習,文獻[19]通過優化如下僅依賴于當前時刻系統狀態的誤差范數進行神經網絡權值矢量的學習:

(34)

然而,通過優化誤差范數(34)進行神經網絡權值矢量的學習要求信號θ滿足如下持續激勵條件:

(35)

式中:t為當前時刻;T為神經網絡權值矢量學習過程中的動力學積分步長;κ1與κ2均為正數。

持續激勵條件一般通過引入噪聲來得到滿足[12,19],然而,這會造成系統狀態持續不斷的抖振,從而對系統的穩定性甚至安全性產生不利影響。文獻[20]中的研究表明,通過對當前與過去時刻數據的并行使用,可放松參數辨識方法對持續激勵條件的要求。本文通過并行學習思想進行無需持續激勵條件的神經網絡權值矢量更新律的設計。為此,考慮如下的誤差范數:

(36)

式中:ek為e在過去時刻系統狀態變量xk處的取值;p為使用的過去時刻系統狀態變量的數量。

無需持續激勵條件的神經網絡權值矢量更新律可設計為

(37)

式中:θk與βk分別為θ與β在過去時刻系統狀態變量xk處的取值。

證明:定義如下的Lyapunov函數:

(38)

其導數為

(39)

(40)

記:

(41)

則有:

(42)

(43)

4.2 基于并行學習的策略迭代方法

微小衛星合作博弈策略可通過基于并行學習的策略迭代方法進行計算。具體執行步驟如下:

(44)

注3式(44)中的合作博弈策略具有反饋控制形式,當擾動存在并造成失效衛星的姿態接管控制誤差時,反饋控制策略(44)能夠通過對微小衛星合作博弈策略的調整進行誤差的實時補償,以實現對失效衛星姿態運動的閉環控制。

5 仿真校驗

本節通過數值仿真對所設計的微小衛星合作博弈控制方法的有效性,及其與現有研究相比在放松持續激勵條件、處理微小衛星控制約束及抑制擾動方面的優勢進行驗證。

不失一般性,假設有4顆微小衛星參與進行失效衛星的姿態接管控制。失效衛星與微小衛星所形成的組合體的轉動慣量為

4顆微小衛星本體坐標系到組合體本體坐標系的轉換矩陣分別為

仿真分2個階段,第1個階段通過并行學習策略迭代方法進行神經網絡權值矢量的學習,以獲得微小衛星的合作博弈策略。第2個階段根據獲得的合作博弈策略進行微小衛星的閉環協同控制,以實現對失效衛星姿態運動的接管控制。

5.1 神經網絡權值矢量學習

仿真中使用50個過去時刻數據與當前時刻數據進行神經網絡權值矢量的并行學習。組合體初始姿態MRPσ0=[1.307 6,1.216 4,0.465 9]T,初始姿態角速度ω0=[0.002 2,0.012 0,0.059 5]Trad·s-1。

圖2 組合體姿態MRP隨時間變化曲線(神經網絡權值矢量學習階段)Fig.2 Variation of attitude MRP of combination (NN weights learning stage)

圖3 組合體姿態角速度隨時間變化曲線(神經網絡權值矢量學習階段)Fig.3 Variation of attitude angular velocity of combination (NN weights learning stage)

圖4 神經網絡(NN)權值矢量估值隨時間變化曲線Fig.4 Variation of NN weight estimations

5.2 失效衛星姿態接管控制

獲得神經網絡權值矢量估值之后,便可根據式(44)直接計算各顆微小衛星的合作博弈策略,以進行失效衛星的姿態接管控制。假設在姿態接管控制階段,組合體初始姿態MRP及角速度分別為σ0=[-0.455 3,0.355 0,0.122 5]T及ω0=[0.015 0,0.006 0,-0.008 6]Trad·s-1。期望姿態MRP及角速度分別為σf=[0,0,0]T及ωf=[0,0,0]Trad·s-1。

圖5與圖6分別給出了組合體姿態MRP及角速度隨時間變化的曲線,可以看出,在多顆微小衛星的合作博弈控制下,組合體的姿態MRP與角速度均得到了有效控制。

圖7給出了4顆微小衛星控制力矩隨時間變化的曲線,其中藍綠色實線為文獻[12]方法所得的微小衛星控制力矩曲線,綠色虛線表示微小衛星的控制約束。可以看出,與文獻[12]方法相比,本文方法能夠在整個姿態接管控制過程中,使微小衛星的控制約束得到滿足。

圖5 組合體姿態MRP隨時間變化曲線(姿態接管控制階段)Fig.5 Variation of attitude MRP of combination (attitude takeover control stage)

圖6 組合體姿態角速度隨時間變化曲線(姿態接管控制階段)Fig.6 Variation of attitude angular velocity of combination (attitude takeover control stage)

圖7 微小衛星控制力矩隨時間變化曲線(姿態接管控制階段)Fig.7 Variation of control torque of microsatellites (attitude takeover control stage)

5.3 擾動存在情況下的失效衛星姿態接管控制

為驗證所獲得的閉環合作博弈策略對擾動引起的姿態控制誤差的補償能力,在姿態接管控制過程中引入如下的干擾力矩:

組合體初始姿態MRP 及角速度分別為σ0=[-0.355 3,-0.205 0,0.082 5]T,ω0=[-0.015 3,0.040 0,-0.048 6]Trad·s-1。期望姿態MRP及角速度為σf=[0,0,0]T,ωf=[0,0,0]Trad·s-1。

圖8與圖9分別給出了組合體姿態MRP及角速度隨時間變化的曲線,其中藍綠色實線為文獻[14]方法所得的姿態MRP及角速度曲線。由于文獻[14]主要關注微小衛星開環合作博弈策略的確定,因而難以實現對擾動所造成的失效衛星姿態控制誤差的補償。本文方法得到了微小衛星的閉環合作博弈策略,能夠在擾動存在的情況下,實現對組合體姿態MRP與角速度的有效控制。

圖8 組合體姿態MRP隨時間變化曲線Fig.8 Variation of attitude MRP of combination

圖9 組合體姿態角速度隨時間變化Fig.9 Variation of attitude angular velocity of combination

6 結 論

1) 針對多顆微小衛星接管控制失效衛星姿態運動的問題,提出了一種能夠處理微小衛星控制約束的并行學習合作博弈控制方法。該方法通過過去與當前時刻數據的并行使用,放松了微小衛星合作博弈策略的學習對持續激勵條件的要求,有效避免了博弈策略學習過程中系統抖振的發生。

2) 所獲得的微小衛星合作博弈策略具有反饋控制形式,一旦完成博弈策略的學習,各顆微小衛星便能通過控制策略的獨立計算實現對失效衛星姿態運動的閉環控制,以實現對控制誤差的補償。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 国产网站一区二区三区| 囯产av无码片毛片一级| 国产精品视频白浆免费视频| 国产交换配偶在线视频| 尤物亚洲最大AV无码网站| 午夜国产在线观看| 国产黄视频网站| 毛片国产精品完整版| 亚洲成人在线网| 999在线免费视频| 久996视频精品免费观看| 永久免费精品视频| 91精品最新国内在线播放| 免费观看精品视频999| 青青操视频在线| 国产成人一区在线播放| 国产电话自拍伊人| 国产91全国探花系列在线播放| 伊人久综合| 99久久精品美女高潮喷水| 亚洲色无码专线精品观看| 97国产精品视频自在拍| 欧洲亚洲欧美国产日本高清| 欧美日本二区| 中文字幕日韩视频欧美一区| 欧美日韩va| 欧美在线观看不卡| 91免费精品国偷自产在线在线| 亚洲一区二区黄色| 亚洲黄网在线| 亚洲国产精品久久久久秋霞影院| 免费国产高清精品一区在线| 幺女国产一级毛片| 国产九九精品视频| 欧美啪啪网| 91久久性奴调教国产免费| 成人福利免费在线观看| 亚洲另类第一页| 国内精品久久九九国产精品| 国产资源免费观看| 少妇精品网站| 亚洲av无码片一区二区三区| 综合成人国产| 国产尤物视频网址导航| 久久久久人妻一区精品| 国产人成在线视频| 波多野结衣在线se| 天堂网国产| 欧美激情综合| 性欧美久久| 萌白酱国产一区二区| 久久无码高潮喷水| 亚洲日韩在线满18点击进入| 国产精品一线天| 国产视频一二三区| 国产免费高清无需播放器| 国产精品无码一区二区桃花视频| 欧美va亚洲va香蕉在线| 日本草草视频在线观看| 亚洲欧美成人影院| 国产一级α片| 国产SUV精品一区二区6| 亚洲国产成人在线| 中文字幕无码av专区久久| 国产精品无码制服丝袜| 91精品情国产情侣高潮对白蜜| 亚洲人成在线免费观看| 午夜毛片免费看| 无遮挡国产高潮视频免费观看 | 日韩在线播放欧美字幕| 青青操国产视频| 国产精品污视频| 免费看美女毛片| 色哟哟色院91精品网站| 精品视频第一页| 国产91av在线| 国产精品久久久久久搜索| 午夜视频免费一区二区在线看| 99久视频| 丁香六月激情综合| 国产无码性爱一区二区三区| 国产00高中生在线播放|