999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的在軌目標逼近*

2021-12-07 03:10:46郭繼峰陳宇燊白成超
航天控制 2021年5期
關鍵詞:服務模型

郭繼峰 陳宇燊 白成超

哈爾濱工業大學智能感知與自主規劃實驗室, 哈爾濱 150001

0 引 言

隨著人類對太空的探索和開發,為保證航天器更加持久地在軌運行、提高航天器的自主運行能力的智能化在軌服務技術研究具有重大意義,也是目前國際關注的熱點。

在軌服務過程中,提供在軌服務的航天器需要與目標逼近,以便對目標進行抓取和維修等操作,而逼近過程涉及航天器相對運動,包含受控個體的局部運動以及耦合關聯的整體非線性運動,并且需要考慮包括安全速度限制和服務航天器敏感器指向約束等諸多約束,這些約束直接導致接近過程中制導、控制難以實現。為了滿足日益增長的在軌服務需求,研究給定目標下的在軌逼近問題,對構建通用化在軌服務基礎技術體系有重要價值。

根據服務航天器與目標航天器的距離,在軌目標逼近過程大致可以分為遠距離導引段、中距離尋的逼近段和近距離末端逼近段,其中近距離末端逼近段起始于與目標距離幾百米到幾千米的位置,是在軌逼近過程的核心階段,受到相關研究者的廣泛關注。目前末端逼近的研究方式一般是將控制系統分為導航、制導和控制3部分,對每部分單獨研究,本文研究的是在導航信息已知情況下的末端逼近制導與控制。

制導方式根據控制力施加方式不同,在軌逼近過程相對制導方法可以分為脈沖制導和連續推力制導。

脈沖制導控制力施加的形式是速度脈沖,通過短期的速度增量改變服務航天器的軌道運動狀態,雙脈沖制導是比較經典的一種脈沖制導方式,通過2次速度脈沖實現軌道轉移,可以分別通過相對運動方程[1]和線性化的Guass運動方程[2]2種方法計算脈沖施加位置和大小,2種計算方式描述的都是同一個問題,區別是基于線性化的Guass運動方程求解可以避免奇異,但只適用于近圓軌道。此外,相關學者基于主矢量理論研究多脈沖轉移問題,Sgubini等[3]通過研究同軌道面和異軌道面的轉移,指出最優轉移次數最大為3。Broucke等[4]以燃料消耗為優化目標,研究N脈沖最優問題,給出了圓-圓、圓橢圓、橢圓-橢圓情況下多脈沖最優求解方法。

連續推力制導是指在逼近過程中服務航天器發動機不關機,持續產生推力的制導方式。經典的連續推力制導主要有LQR[5]和線性規劃[6],兩者都是線性化設計方法,LQR設計思路清晰但涉及求解復雜的Raccati方程,線性規劃可以在諸多約束的情況下求解最優解,缺點是需要針對問題設計專門的數值求解算法,且不利于工程實現。

此外,相關學者直接研究非線性方程,通過自適應算法、遺傳算法和模糊控制等[7]算法進行制導算法設計,相比于線性化的算法,消耗的燃料較少,但算法復雜且計算量大,難以直接應用于工程。

在軌目標逼近不僅需要控制服務航天器與目標航天器的相對位置,還需要控制相對姿態保證對接和敏感器對目標的觀測等需求,因此相關的研究分為相對軌道控制、相對姿態控制和姿軌耦合控制,其中相對軌道控制常采用基于線性化的LQR[8]和線性規劃[9]方法進行軌道機動和保持,需要針對近圓軌道和橢圓軌道設計控制算法,近圓軌道算法僅適用于離心率小的情況,在大離心率的情況下控制精度效果差且易發散;針對橢圓情況的算法以線性時變方程為控制模型,因此為保證控制性能,需要在周期重新計算控制參數,運算量大。此外還有研究者直接以非線性方程為控制模型,采用自適應控制和魯棒控制等控制算法,在存在系統參數變化和攝動等干擾的情況下仍保證控制精度和系統穩定性。

強化學習(Reinforcement Learning,RL)是機器學習領域內的研究熱點,是目前應用效果最為出色的智能算法之一,通過與環境的交互來獲取獎勵(Reward),同時不斷優化策略(Policy),直到獲得最優的策略,是解決序列決策問題的有效途徑。RL算法在動力學未知或受到嚴重不確定性影響時,通過學習可以有效地找到系統的最佳控制器。深度強化學習(Deep Reinforcement Learning,DRL)將深度學習的感知能力與強化學習的決策能力相結合,將傳統GNC系統的制導與控制合并,直接感知環境信息然后輸出控制量,是一種端對端(end-to-end)的感知與控制系統,適合解決復雜系統的決策規劃問題。

由于強化學習在處理復雜系統和序列決策上的優勢,人們對基于強化學習的智能控制進行了廣泛的研究。Zhang等[10]基于DQN設計了一種機械臂控制算法,該算法僅以相機采集的原始圖像為輸入,在沒有任何先驗信息的情況下通過學習就實現了三關節機械臂的控制,展現了DRL處理高維狀態空間的強大能力。MIT的Linares等[11]對行星表面軟著陸問題進行研究,利用強化學習設計了一種整合制導與控制的控制算法,實現由導航輸入直接到推力器輸出的端到端的控制器。該算法通過獎勵函數的形式對約束建模,經過訓練使著陸器在著陸過程中滿足安全姿態角和姿態角速度的約束,且能優化燃料消耗。Sallab等[12]基于強化學習提出了一種自動駕駛框架,該算法采用循環神經網絡整合信息,使得模型能應對信息部分可觀測的情況,在仿真環境下能在多彎道路下行駛良好,并且可以與其他車輛進行簡單交互。Won等[13]針對機器人參與冰壺運動的場景,對標準的深度強化學習框架進行改進,基于瞬時特征信息對冰壺運動中不可避免的不確定性進行補償,在現實世界的比賽中以3:1的成績戰勝人類職業隊伍,縮小了強化學習訓練成果從虛擬訓練環境遷移到現實物理世界的鴻溝。在DARPA組織舉行的“阿爾法狗斗”模擬飛行對抗賽中,蒼鷺系統公司基于強化學習框架設計的人工智能程序以5比0的大比分擊敗了美國空軍駕駛F-16戰機的王牌飛行員。此外強化學習還被應用于電網控制[14]、通信安全[15]和無人機編隊控制[16]等領域,這些成果表明了在求解復雜非線性控制問題中強化學習有著巨大的潛力和優勢。本文針對在軌服務航天器對在軌目標逼近問題開展研究,結合強化學習和控制理論的相關技術知識,設計了一種端到端的整合制導與控制的在軌目標逼近算法,通過仿真對算法有效性進行驗證。

1 在軌逼近數學模型

(1)

則服務航天器相對于目標航天器的位置矢量ρ在地心慣性坐標系下滿足

(2)

根據矢量求導法則,服務航天器與目標航天器的相對動力學方程在目標航天器軌道坐標系下的形式為

(3)

(4)

進一步整理為

(5)

(6)

2 基于RL的在軌目標逼近

2.1 算法框架選擇

強化學習算法可以分為基于值的、基于策略的和Actor-Critic三類。DQN是經典的基于值的算法,該算法是Q-learning擴展到連續狀態空間的結果,通過值函數網絡評估動作的好壞,適用于連續的狀態空間。該算法引入了經驗回放機制和目標網絡,極大的提高了訓練過程的穩定性,缺點是不能輸出連續的動作,若要輸出一個區間上的動作,需要將該區間離散化,對控制效果有影響?;诓呗缘乃惴ú恍枰S護一個值函數網絡判斷動作的好壞,而是直接對策略參數進行優化,適用于高維和連續動作空間,可以學到隨機策略。Actor-Critic算法結合了前兩者的思想,包括Actor和Critic兩個網絡,Actor網絡根據Critic的評判采取行動,Critic網絡根據環境的反饋對Actor的行為做評估,借助Critic的反饋,不用等到回合結束,可以單步更新。

DeepMind團隊將Actor-Critic與DQN結合提出了DDPG算法,相比于Actor-Critic,DDPG輸出動作不是概率分布而是一個確定的值,可以降低在連續空間中探索的成本;相比于DQN,DDPG可以輸出連續的動作,在智能控制研究中廣泛應用,因此采取DDPG作為空間目標逼近問題的RL算法框架。

2.2 模型設定

相對位置控制的目標是通過觀察服務航天器的位置速度等信息,控制發動機推力,使服務航天器向期望位置運動,實現服務航天器對目標的逼近。在確定選取DDPG的算法框架后,需要設計的內容包括觀測值、動作、獎勵、網絡4部分:

1)觀測值

觀測量的選取應該保證對反映逼近效果的狀態量的可觀性,從而確保智能體能根據觀測的狀態輸出正確的控制指令。相對位置控制中相對位置和速度是反映逼近情況的關鍵指標,因此選取的觀測量為s=[rv],r和v分別為服務航天器相對于目標的位置和速度矢量,通過在其體坐標系下的三軸分量表示,這樣的狀態設置能保證智能體可以獲取足夠的關于逼近狀態的信息,保證逼近控制的性能。

2)動作

智能體的動作a=[Fx,Fy,Fz]T,其中Fx,Fy和Fz為三軸發動機推力,考慮硬件實際情況,推力應該滿足限幅條件,即

Fx,Fy,Fz∈[-Flim,Flim]

3)獎勵值

獎勵是智能體判斷自身動作好壞的唯一信息來源,好的獎勵函數能加快模型收斂,提高策略控制性能。在軌逼近過程中,狀態值包括相對位置和速度,由于逼近段起始于km量級,加上速度項,智能體的狀態空間很大,獎勵稀疏,如果僅在到達目標點時給獎勵,模型很難收斂,因此需要設計輔助任務引導模型收斂。此外考慮安全相對速度等限制,相對速度需要隨著相對距離縮短而降低,因此輔助任務為跟蹤參考速度

(7)

(8)

在智能體的控制下,服務航天器需要盡可能與參考速度一致。此外發動機工作消耗燃料,在實現逼近目標的前提下應盡可能降低燃料消耗,因此獎勵函數需要包含燃料消耗帶來的懲罰,對應獎勵函數形式為

(9)

式中:α為跟蹤參考速度精度的獎勵評估系數,Isp為燃料比沖,gref為計算比沖所參考的重力加速度,g(·)為速度偏差獎勵計算函數,形式為

(10)

式中:β是對燃料消耗速率的獎勵系數,這樣的獎勵函數能使模型盡可能的跟蹤參考速度實現目標逼近,同時優化燃料消耗率。

4)網絡設計

DDPG算法包括Actor和Critic兩個網絡,Actor網絡輸入是六維觀測狀態,輸出是三軸發動機推力;Critic網絡輸入是由觀測值和動作組成的九維向量。如表1所示,Actor和Critic網絡都包括3個中間層,采用Relu作為激活函數,為實現推力限幅,策略網絡輸出層采用Tanh將輸出歸一化到-1~1之間,結合發動機推力限制經過一個比例放大輸出發動機推力。

表1 Actor和Critic網絡結構

3 仿真校驗

按前述設計方式搭建仿真環境,模型參數設置如表2

表2 相對位置控制DDPG網絡設置

為保證訓練結果的魯棒性,初始狀態在目標點附近一定范圍內隨機選擇,在MATLAB下搭建仿真環境如圖1。

圖1 RL逼近控制Simulink框圖

其中模塊生成觀測值,計算獎勵值,判斷回合是否終止,智能體,為服務航天器動力學模型,接受agent輸出的動作,即服務航天器三軸發動機推力,輸出服務航天器位置姿態信息。

訓練過程每個回合獎勵、平均獎勵如圖2,隨著訓練的進行,每個回合獲得的總的獎勵逐漸上升,經過約1000回合的訓練模型基本收斂,停止訓練。

圖2 RL位置控制模型訓練過程

設置初始狀態s1:

[x0,y0,z0]=[600,500,400]m
[vx0,vy0,vz0]=[0,0,0]m/s,

和s2:

[x0,y0,z0]=[-700,600,200]m
[vx0,vy0,vz0]=[0,0,0]m/s

在訓練得到的智能體控制下,服務航天器逼近過程軌跡如圖3(a)和圖4(a),可以看到服務航天器最終到達目標點并穩定在該處,圖3(b)和圖4(b)為相對位置的分量。從圖3(c)和圖4(c)相對速度分量可以看到,在距離較遠的時候,服務航天器以較快的速度逼近目標點,但隨著與目標點距離越來越近,服務航天器的相對速度逐漸降低,到達目標點后趨近于零,滿足逼近過程的安全要求。可以看到經過訓練,服務航天器能逼近目標,最終穩定在目標點附近,并且隨著相對距離減小,相對速度也逐漸降低,滿足逼近過程的安全性要求。

圖3 初始狀態s1下逼近過程

圖4 初始狀態s2下逼近過程

在狀態s1下,分別基于RL和LQR的逼近過程燃料消耗曲線如下

圖5 初始狀態s1下RL控制燃料消耗情況

圖6 初始狀態s1下LQR控制燃料消耗

可以看到基于RL的算法和基于LQR的逼近控制分別消耗燃料質量57.82kg和64.59kg。兩者的燃料有一半消耗在前100s內,這是因為服務航天器由初始的相對靜止到逼近所需一定的相對速度,需要發動機推力加速,消耗了末端逼近的大部分燃料。

設初始狀態x0,y0∈[-1000,-600]∪[600,1000]m,z0∈[-300,300]m,通過300次實驗,對比相同初始狀態下基于RL的方法和基于LQR的控制方法所消耗燃料的質量,其中118次基于RL的方法燃料消耗率低于基于LQR的方法,其他情況下基于LQR更省燃料,即兩種算法相比另一種優勢并不明顯,這是因為基于強化學習引入了參考速度,因此本質上學習得到的是一種控制算法,而引入的參考速度是制導信號,制導方案對燃料的影響較大,因此基于RL的方法在燃料消耗上的優勢并不明顯。由于問題特點,為保證逼近過程的安全性要求,參考速度是必要的。

4 結 論

針對在軌目標逼近問題進行了研究。首先介紹了在軌目標逼近過程和基于強化學習的控制研究現狀,然后對在軌相對運動進行建模,接著基于DDPG強化學習框架設計了端到端的逼近控制方法,通過引入參考速度解決了獎勵稀疏和安全性問題,最后通過仿真實驗,將基于強化學習的逼近算法與基于模型的LQR逼近控制方法進行對比,基于強化學習的逼近控制算法不依賴模型,可以在沒有系統模型或模型復雜的情況下,通過學習實現在軌目標逼近;由于引入了參考速度,在燃料消耗方面,相比于LQR控制算法,基于強化學習算法的優勢并不始終保持。

猜你喜歡
服務模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
服務在身邊 健康每一天
今日農業(2019年14期)2019-09-18 01:21:54
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年15期)2019-01-03 12:11:33
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
3D打印中的模型分割與打包
主站蜘蛛池模板: 国内熟女少妇一线天| 尤物在线观看乱码| 午夜免费视频网站| 香蕉eeww99国产在线观看| 狠狠干综合| 九九香蕉视频| 日本91视频| 国产精品久线在线观看| 亚洲综合婷婷激情| av天堂最新版在线| 国产91精品调教在线播放| 色噜噜狠狠狠综合曰曰曰| 国产91精品最新在线播放| 久久久久久国产精品mv| 精品久久久久久久久久久| 新SSS无码手机在线观看| 九色视频一区| 波多野结衣视频网站| 高清大学生毛片一级| 亚洲综合色区在线播放2019| 色综合手机在线| 日韩大乳视频中文字幕| 国产在线视频自拍| 亚洲综合专区| 一级毛片免费播放视频| 国产97区一区二区三区无码| 色综合久久88色综合天天提莫| 亚洲天天更新| 996免费视频国产在线播放| 国产精品极品美女自在线看免费一区二区 | 国产成人亚洲欧美激情| 二级特黄绝大片免费视频大片| 亚洲天堂视频在线播放| 97一区二区在线播放| 亚洲a级在线观看| 成人毛片免费在线观看| 久久99国产综合精品女同| 一级爆乳无码av| 在线看国产精品| 青青操国产视频| 99在线视频免费| 国产成人精品日本亚洲77美色| 自慰网址在线观看| 国产一区二区影院| 日本午夜三级| 中文字幕欧美日韩高清| 亚洲人成电影在线播放| 国产av剧情无码精品色午夜| 欧美特黄一级大黄录像| 亚洲综合色婷婷| 亚洲国产综合精品中文第一| 青青久久91| 欧美国产精品不卡在线观看 | 欧美一道本| 国外欧美一区另类中文字幕| 五月天婷婷网亚洲综合在线| 91精品专区| 欧美亚洲网| www成人国产在线观看网站| 亚洲中文字幕av无码区| 久久永久免费人妻精品| 亚洲天堂网在线观看视频| 亚洲成在人线av品善网好看| 在线另类稀缺国产呦| 久久久久国产一级毛片高清板| 中文字幕日韩丝袜一区| 亚洲精品图区| av尤物免费在线观看| 亚洲欧美另类视频| 日本高清免费一本在线观看 | 国产综合色在线视频播放线视| 久久6免费视频| 国产精品夜夜嗨视频免费视频| 亚洲第一成人在线| 伊人婷婷色香五月综合缴缴情| a级毛片在线免费| 国产中文一区a级毛片视频| 国产第一页免费浮力影院| 日韩色图区| 2021亚洲精品不卡a| 中文字幕永久在线看| 一本久道热中字伊人|