999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向在軌加注的組合體姿態SAC智能控制

2023-08-22 04:49:24鄭鶴鳴孫一勇
宇航學報 2023年7期
關鍵詞:智能策略

鄭鶴鳴,翟 光,孫一勇

(北京理工大學宇航學院,北京 100081)

0 引 言

衛星在軌加注技術可以有效延長科學衛星、戰略衛星等高價值衛星的在軌運行壽命,從而得到了廣泛的關注和研究。美國DARPA提出并執行的“軌道快車”計劃[1-2]中,服務星AETRO利用攜帶的電動泵和高壓氣瓶作為燃料傳輸動力,成功向目標星NextSat衛星進行了燃料加注。美國NASA、歐空局還計劃建設空間“加油站”,實現實時、高效地對需要燃料補給的衛星進行在軌加注。

在軌加注任務成功的關鍵在于加注過程中保持服務星和目標星組成的在軌加注組合體的姿態穩定。但是,燃料由服務星向目標星進行傳輸,導致在軌加注組合體的轉動慣量發生實時變化[3]。并且,隨著航天技術的發展,衛星呈現大規模化和小型化趨勢,大規模的小型衛星在軌加注任務一般使用增壓氣體對服務星中的加注儲箱進行增壓驅動液體燃料轉移[4]。由于儲箱內氣液混合,液體燃料會產生晃動,并與質量轉移形成復雜的耦合運動,從而給姿態帶來隨機擾動,甚至會導致任務失敗[5]。Lee等[6]利用計算流體力學(CFD)數值仿真的方法研究了微重力環境下儲箱內部燃料質量變化時的液體運動規律。文獻[7-8]利用彈簧阻尼模型和球形單擺模型模擬了衛星儲箱中的液體燃料運動。目前,針對在軌加注過程中復雜液體運動的動力學建模還不夠充分,使得姿態控制器的設計缺乏依據。

已有很多研究提出了針對具有轉動慣量時變特點的衛星的姿態控制方法[9-11]。但是,在軌運行過程中,同一個服務星需要連續且高效地對多顆質量、轉動慣量、儲箱結構等參數不同的目標星進行加注。并且,目標星的這些關鍵參數可能是未知或無法進行精確測量的,這也導致無法對儲箱中液體燃料的運動進行預測。在軌加注組合體是結構參數可變、未知且具有隨機性的系統,文獻[9-11]提出的經典控制方法很難針對這些特點有效地控制在軌加注組合體的姿態。基于深度強化學習方法的智能控制器通過不斷和控制環境進行交互,根據對環境狀態的測量和系統反饋的獎勵值更新策略,最終達到理想的控制效果[12-13]。該方法不依賴于系統的模型,可以有效應對在軌加注組合體系統參數未知且隨機變化的特點。深度強化學習方法在航空航天領域的導彈制導[14-15]、飛行器姿態控制[16]、深空探測器自主導航[17]、航天器機械臂路徑規劃[18]等領域得到了廣泛的應用。

深度強化學習算法之一的SAC算法基于隨機性策略,并通過引入信息熵來提高策略尋優的魯棒性。該算法能夠有效應對加注過程中由液體晃動-轉移耦合運動引起的姿態隨機擾動,彌補傳統控制方法在此方面的不足。SAC算法的有效性已在一些自動化系統的應用中得到了驗證。文獻[19]基于SAC算法開發了無人機自主空戰策略,實現無人機自主分析空戰態勢,率先鎖定并攻擊敵方目標。針對工作區域內的復雜地形環境,文獻[20]提出了一種基于SAC算法的多臂機器人自主路徑規劃方法,實現機器人自主躲避工作區域中固定和移動的障礙物。文獻[21]針對海洋環境存在無法建模的復雜外擾動的特點,應用SAC算法設計了自動水下潛艇的導航和控制方法。上述文獻中,空戰、障礙工作區和水下的背景環境均具有強隨機性的特點,而SAC算法均采用了有效的策略克服了環境的隨機性,達到了預期效果。

本文通過對SAC算法進行改進提出了在軌加注組合體的姿態智能控制方法。主要創新點有:構建了液體燃料晃動-轉移耦合運動的等效模型和在軌加注組合體變慣量姿態動力學環境,與智能控制器進行交互訓練。改進了SAC算法的動作輸出方式,基于此設計的SAC姿態智能控制器,相較于TD3算法,在應對時變系統的隨機擾動時魯棒性較強。提出的SAC加注壓強智能控制器在保證加注效率的同時,通過調節加注壓強,減緩加注對姿態產生的擾動作用,使姿態的收斂更加平穩。

1 在軌加注組合體變慣量姿態動力學

智能控制器需要通過大量的訓練來得到最優的控制策略。為了提高效率和可操作性并降低成本,智能控制器的訓練在仿真環境中進行。訓練完成后,將訓練好的智能控制策略部署到真實的在軌加注服務星的星載計算機中并在實際任務中應用。為了保證智能控制器在實際任務中實現理想的控制效果,在仿真系統中對智能控制器進行訓練時,要建立并采用高精度的姿態動力學環境。

在軌加注組合體的結構模型如圖1所示。假設服務星和目標星各攜帶一個和衛星平臺固連的燃料儲箱;衛星對接后兩個儲箱的軸向重合。

圖1 在軌加注組合體示意圖

分別建立地球慣性坐標系、軌道坐標系和本體坐標系。Oxyz代表的地球慣性坐標系是一個原點固連在地球質心、無旋轉的坐標系。Oxoyozo代表的軌道坐標系,其原點位于在軌加注組合體結構平臺的質心,Oxo軸與軌道速度矢量重合,Ozo軸與從組合體質心指向地球質心的矢量重合。Oyo軸符合右手定則。本體坐標系由Oxbybzb表示,原點位于組合體結構平臺質心,Oxb軸與儲箱軸向重合并指向目標星,Oyb軸平行于主對稱平面并垂直于Oxb軸,而Ozb軸符合右手定則。

服務星通過對加注儲箱進行加壓驅動液體燃料向受注儲箱轉移,在達到預定的加注質量后停止加壓。將服務星對加注儲箱內施加的加注壓強表示為

(1)

式中:Pc為加注過程中加壓控制裝置輸出的加注壓強;mt和maim分別為轉移液體的質量和加注的目標質量。液體的質量流率與加注壓強的關系可以表示為[3]

(2)

(3)

加注過程中,儲箱中的液體燃料會分散成液滴,分散的液滴會發生晃動,并與質量轉移形成復雜的耦合運動,從而給在軌加注組合體的慣量帶來隨機的變化。通過確定液體燃料相對自身慣量主軸的慣量和質心的運動來衡量液體燃料晃動-轉移耦合運動對在軌加注組合體整體的影響。文獻[5]中提出了在軌加注過程中儲箱內液體燃料晃動-轉移耦合運動的等效動力學模型,并通過與CFD模型進行仿真對比,驗證了該等效模型能夠精確地模擬在軌加注過程中形狀復雜的燃料液滴的慣量變化和整體質心運動。對于分散液滴的慣量采用等效橢圓柱模型來進行描述。將第i(i=1,2)個儲箱中液體相對自身慣量主軸的轉動慣量表示為一個等效橢圓柱的慣量[5]:

(4)

式中:mi是任意時刻儲箱中液體燃料的質量;li,ai,bi分別是液體等效橢圓柱的三個特征長度,特征長度的值及導數通過下式確定:

(5)

式中:lsi為液體燃料不發生晃動時的特征長度[5]。

第i個(i=1,2)儲箱中液體相對自身慣量主軸的轉動慣量的導數為

(6)

第i個儲箱中液體燃料的質心在本體坐標系內的位置和速度可以表示為

(7)

(8)

式中:ω=[ωx,ωy,ωz]T為慣性坐標系下組合體絕對姿態角速度。

在軌加注組合體相對于自身慣量主軸的慣量由剛性平臺和液體慣量兩部分構成。儲箱內液體晃動-轉移耦合運動通過式(4)至式(8)所描述的液體自身轉動慣量的變化和質心的運動來影響在軌加注組合體整體的慣量變化。將在軌加注組合體的轉動慣量表示為[3]

(9)

式中:Jl(t)為液體燃料相對于在軌加注組合體慣量主軸的轉動慣量;E代表3×3的單位矩陣。將在軌加注組合體轉動慣量的時間導數表示為

(10)

將在軌加注組合體的變慣量姿態動力學表示為

(11)

式中:ω×為ω的反對稱叉乘矩陣。將x=[x1,x2,x3]T的反對稱叉乘矩陣定義為

(12)

采用姿態四元數Qatt=[q0,q]T=[q0,q1,q2,q3]T描述在軌加注組合體的姿態運動學。姿態四元數方法通過使本體坐標系繞一固定軸η旋轉一定角度ξ與軌道坐標系重合來表示本體坐標系相對于軌道坐標系的姿態,姿態四元數可以表示為

(13)

將基于姿態四元數的姿態運動學的微分方程表示為

(14)

式中:ωb為本體坐標系相對于軌道坐標系的姿態角速度,滿足:

ωb=ω-Tbo(Qatt)ωo

(15)

式中:ωo為組合體的軌道角速度;Tbo(Qatt)為姿態四元數表示的姿態轉換矩陣:

Tbo(Qatt)=

(16)

2 改進的深度強化學習SAC算法

2.1 在軌加注組合體的強化學習智能控制系統

在軌加注組合體的深度強化學習控制包含智能控制器(agent)和動力學環境(environment)兩個部分,基本結構如圖2所示。智能控制器具有學習和決策的能力。動力學環境就是上一節中由式(11)和式(14)確定的在軌加注組合體變慣量姿態動力學。

圖2 在軌加注組合體的強化學習智能控制系統

智能控制器通過和動力學環境的不斷交互從而對控制策略進行學習,最終得到實現控制目標的最優控制策略,這個過程就是對智能控制器的訓練。訓練的過程采用馬爾科夫決策過程(MDP)進行描述[12]。MDP通常由一個四元組構成,表示為:,其中,S表示環境狀態的集合,A表示智能控制器動作的集合,P為環境的狀態轉移概率,而R表示獎勵函數。在訓練過程中的任意t時刻,智能控制器感知環境的狀態St∈S,并通過一個動作At∈A,使環境按照概率P轉移到下一個狀態St+1∈S,并得到環境的一個潛在獎勵Rt。

(17)

式中:γ∈[0, 1]為折扣因子。

智能控制器中評估的功能就是通過對當前策略能夠獲得的長期累積獎勵進行估計從而評價當前策略的質量并對策略進行更新。深度強化學習在強化學習的基礎上利用兩個命名為Actor和Critic的神經網絡分別代替智能控制器中的策略和評價,這種方法也稱為Actor-Critic算法。兩個神經網絡均由輸入層、一個及以上的隱含層和輸出層構成。Actor網絡輸入層的輸入是環境的狀態,通過隱含層的擬合,輸出層輸出的是策略;對于確定性算法,網絡將直接給出動作的值;對于隨機性策略,Actor將輸出一個概率分布,再根據概率分布采樣得到動作。Critic網絡輸入層的輸入是環境的狀態以及動作執行后獲得的獎勵值,輸出層輸出的是通過隱含層擬合得到的Q函數的值。Actor網絡和Critic網絡的參數分別用φ,θ表示。

2.2 改進的SAC算法

SAC算法是深度強化學習中的一種基于隨機性策略的算法,它的基本原理是在智能控制器訓練的過程中,希望長期的累加獎勵值和策略的信息熵都達到最大,也稱為最大熵強化學習[13]。該算法長期累加獎勵的表達式為

(18)

式中:H(Π(·|St))為策略的信息熵,定義為策略中所有動作的平均不確定性:

H(Π(·|St))=E(-lgP(At|St))=

(19)

動作的產生是一個信息熵減的過程,所以信息熵為負值。通過最大化策略的信息熵,增加策略的隨機性,使每個動作產生的概率盡可能分散,而不是集中于一個動作,從而增強訓練過程中策略的探索并提高控制的魯棒性。α為熵權重系數。

SAC智能控制器中Critic神經網絡的代價函數為[13]

(20)

(21)

式中:DKL(X|Y) 代表KL散度函數,Qsoft(St,At)為Critic神經網絡的柔性貝爾曼方程(Soft Bellman equation)。

在SAC智能控制器的訓練過程中,由于獎勵值在不斷變化,固定的熵權重系數會導致訓練過程不穩定,所以需要對熵權重系數進行實時調節。熵權重系數的調節基于優化的思想,設置代價函數,并通過梯度下降法求解最優值。熵權重系數調節過程中使用的代價函數為

Jα(θ)=EAt+1~Πφ(-αlgΠφ(At|St)-αH0)

(22)

SAC算法的流程如圖3所示。

圖3 SAC算法流程圖

本文針對在軌加注組合體姿態具有隨機擾動的特點,對SAC算法輸出動作的方式進行了改進。在訓練過程中,SAC算法輸出的是一個代表策略的高斯分布Πφ~N(μ,δ)的均值μt和方差δt,智能控制器通過高斯分布進行采樣輸出動作,具體采樣方式如下所示:

At=μt+rand(0,1)δt

(23)

式中:rand(0,1)代表0到1之間的隨機數。訓練時輸出的動作具有隨機性,這樣可以使策略快速適應系統中的隨機擾動,從而提高策略尋優的效率。但是,在實際任務中,隨機的控制輸出會給執行機構帶來很大的負擔,甚至無法達到控制目的。所以將智能控制器部署到服務星星載計算機時,將智能控制器的輸出進行改進,消除由概率分布方差引起的隨機項。改進后的控制力矩輸出為

(24)

實際任務中,根據式(24)輸出確定性的控制指令,可以有效提高控制的穩定性。

3 SAC姿態和加注壓強智能控制器設計

基于上述改進的SAC算法進行智能控制器的設計。首先,為了能夠在加注過程中保持衛星組合體姿態的穩定,需要對姿態智能控制器進行設計和訓練。然后,姿態擾動的慣量變化是加注過程中液體質量重新分布導致的;由式(2)和式(3)不難發現,加注壓強直接決定液體的質量流率,很大程度上影響了液體質量的重新分布過程。對加注壓強進行控制,可以調節液體的質量流率,從而減小隨機擾動對姿態的影響;所以在訓練并部署好姿態智能控制器的基礎上,對加注壓強智能控制器進行設計和訓練。

3.1 SAC姿態智能控制器設計

(25)

將SAC姿態智能控制器的獎勵函數設計為

(26)

式中:

(27)

SAC姿態智能控制器中,兩個Critic網絡具有相同的結構,每個網絡首先分別有狀態路徑和動作路徑兩條支路,每條支路具有若干個隱含層,兩個支路通過一條具有若干個隱含層的公共路徑連接,并最終輸出Q值。Actor網絡首先有一條具有若干隱含層的公共路徑,然后分出兩條具有若干隱含層的支路分別來擬合策略概率分布的均值和方差。

(28)

(29)

由式(14)和式(29),易得:

(30)

設組合體姿態的狀態向量為

(31)

選取李雅普諾夫函數:

(32)

對李雅普諾夫函數求導,并根據式(30),能夠得到:

(33)

所以組合體姿態具有穩定性。

3.2 SAC加注壓強智能控制器設計

在完成對姿態智能控制器的訓練后,將訓練好的SAC姿態智能控制器部署到閉環的控制系統中,再對SAC加注壓強智能控制器進行設計和訓練。

(34)

將SAC加注壓強智能控制器的獎勵函數設計為

(35)

式中:

(36)

獎勵函數分為狀態相關的獎勵值和懲罰項兩部分。由于希望更高效地完成加注任務,需要液體的質量流率盡量大,所以賦予質量流率以正值的權重;同時希望隨機擾動盡量小,所以賦予加注壓強模的平方以負值的權重;由于減小隨機擾動的優先級大于高效完成加注任務,所以質量流率權重的絕對值小于隨機擾動模的平方值權重的絕對值;同時賦予時間和任務結束時間的比值以負值獎勵,同樣是為了促進高效的加注。懲罰項中,Ptri為加注管理系統給加壓系統的開關機信號,當其值為0時,加壓機構根據指令加注壓強進行加壓,其值為1時,加壓機構關機結束加注。當任務結束時如果還未結束加注,則說明加注未能成功完成,給出較大的懲罰值。當加注結束或達到任務結束時間,自動退出此輪訓練。

SAC加注壓強智能控制器中Actor和Critic網絡的結構與SAC姿態智能控制器中的神經網絡結構保持一致。基于SAC加注壓強智能控制給出:

定理 2.當SAC加注壓強智能控制器的策略得到最優解Πφp*,則加注擾動和加注總時間均有界且最小。

證.若SAC姿態智能控制器的策略得到最優解Πφp*,則采用Πφp*時,獎勵值隨著時間增加且獎勵值總和最大,即:

(37)

(38)

即加注擾動有界且最小。

ttot→min

(39)

即總加注時間ttot有界且最小。

4 仿真分析

根據上述變慣量姿態動力學模型和設計的智能控制器,在仿真環境中建立在軌加注組合體姿態智能控制系統。首先對SAC姿態智能控制器進行訓練,并通過仿真算例驗證了SAC姿態智能控制器部署到實際加注任務中的有效性。通過與TD3算法進行對比,驗證了改進的SAC算法的優勢。然后在部署好SAC姿態智能控制器的條件下,對SAC加注壓強智能控制器進行訓練,驗證了SAC加注壓強智能控制對姿態控制效果的改善。

仿真算例中,根據目前的小型衛星試驗平臺設計了組合體相關參數[5],可為將來針對小型化衛星在軌加注技術的空間試驗驗證提供仿真參考。在所有仿真算例中,任務的時間均設置為tf=300 s,時間步長設置為ts=0.1 s;假設在軌加注組合體運行在軌道高度h=400 km的圓形地球軌道上且加注的液體燃料為偏二甲肼,密度為ρ=1 011 kg/m3。

4.1 SAC姿態智能控制器訓練和部署仿真

首先,對SAC姿態智能控制器進行訓練,并對訓練的效果進行分析。訓練時選取的組合體參數要盡量與任務中實際的組合體參數接近或保持同一量級。在該算例中,在軌加注組合體的相關參數見表1。

表1 姿態智能控制器訓練算例在軌加注組合體參數

SAC姿態智能控制器中Actor和Critic網絡的具體參數如圖4所示。兩個Critic網絡中,狀態路徑和動作路徑兩條支路各具有兩個隱含層,每個隱含層具有64個神經元,兩個支路通過一個具有64個神經元的公共隱含層連接。Actor網絡具有一個64個神經元的公共隱含層,均值路徑和方差路徑兩條支路各具有一個64個神經元的隱含層和一個輸出層。

圖4 SAC姿態智能控制器神經網絡參數示意圖

SAC姿態智能控制器的關鍵訓練參數見表2。

表2 SAC姿態智能控制器的關鍵訓練參數

為了驗證基于隨機性策略的SAC算法在控制在軌加注組合體姿態方面的優勢,利用深度強化學習方法中基于確定性策略的TD3算法[22]作為對比。TD3算法采用延遲學習的思想,使兩個Critic網絡的更新頻率比Actor網絡的更新頻率要大,促進評估和策略的穩定收斂。并且基于確定性策略:At=Π(St|θπ),訓練過程中對Actor網絡給出的動作加入噪聲,從而促進探索。

基于TD3算法設計了姿態智能控制器,用于與SAC姿態智能控制器對比。兩個姿態智能控制器具有相同的輸入輸出參數和獎勵函數。TD3姿態智能控制器中Actor和Critic網絡的結構和參數如圖5所示。兩個Critic網絡與SAC姿態智能控制器中的Critic網絡結構相同。Actor網絡較為簡單,通過兩個具有64個神經元的隱含層來給出確定性的動作。

圖5 TD3姿態智能控制器神經網絡參數示意圖

TD3姿態智能控制器的關鍵訓練參數見表3。

表3 TD3姿態智能控制器的關鍵訓練參數

對兩個姿態智能控制器進行訓練,訓練過程中兩個姿態智能控制器獲得的獎勵值曲線如圖6所示。兩個姿態智能控制器均經歷了150輪訓練。初始時,SAC姿態智能控制器的獎勵值從-2 150快速攀升。由于SAC算法的決策具有隨機性,會不斷嘗試不同的策略,獎勵值在訓練中途產生了大幅下降,這是SAC算法不斷試錯的結果。在嘗試出現錯誤后,SAC算法也能夠快速糾錯。獎勵值在4輪訓練下降后迅速回升,說明已經找到策略更新最優的方向。最終,獎勵值于第70輪訓練平穩收斂到-50。TD3姿態智能控制器的初始得分為-1 200,在經歷120輪訓練的波動攀升后,獎勵值平穩收斂到-80。在訓練的過程中,SAC算法獎勵值變化的范圍和幅度比TD3算法都大,說明SAC算法對策略的嘗試更多,基于SAC算法的隨機性策略比基于TD3算法的確定性策略對環境的探索范圍更大。所以SAC算法獎勵值的收斂也就更快,訓練尋優的效率也就更高。同時SAC算法收斂后的獎勵值也比TD3算法高,這說明SAC姿態智能控制器具有更好的控制效果。

圖6 姿態智能控制器訓練獎勵值曲線

圖7所示的是訓練完成的SAC姿態智能控制器輸出的控制力矩。該控制力矩在三軸均產生高頻且高幅的振動現象。根據式(23),這種現象的發生是因為訓練過程中姿態智能控制器輸出的是通過概率分布采樣得到的隨機控制力矩,這可以有效增加尋優效率,但該隨機的控制信號無法直接輸入到實際的執行機構中。

圖7 訓練后SAC控制力矩曲線

實際任務中,將SAC姿態智能控制器部署到服務星,連續對一系列目標星進行加注。這些目標星的結構參數存在未知的差異,且轉移燃料質量的加注需求也不盡相同。在該仿真算例中,對組合體參數做出調整,以模擬實際中同一任務的目標星與訓練中的目標星可能存在的最大差異,從而驗證SAC姿態智能控制器部署后的魯棒性。將在軌加注組合體平臺慣量修改為Jr=diag(10,10,10) kg·m2,目標星中儲箱尺寸修改為L2=0.4 m,R2=0.1 m,目標填充率修改為50%。同時,由于液體晃動-轉移耦合運動存在未建模的模態,等效模型和液體真實運動之間存在細微的差距,真實的液體運動對姿態會產生復雜的隨機擾動,隨機擾動產生影響的直接體現就是真實的在軌加注組合體慣量產生隨機的變化。為了模擬實際任務中在軌加注組合體慣量真實的隨機變化,在式(9)的基礎上引入一個正弦形式變化的慣量隨機項:

Jreal(t)=J(t)+0.5rand(0,1)·

sin(0.02πt)1(3,3)

(40)

式中:1(3,3)為元素全為1的3×3矩陣。初始姿態改變為:姿態角Φ=[30°, 30°, 30°]T,姿態角速度ωb=[0.1, 0.1, 0.1]Trad/s。

利用上述參數設置進行仿真,兩個姿態智能控制器輸出的控制力矩、在軌加注組合體的姿態角速度和姿態角的控制效果分別如圖8~10所示。根據式(24)改進動作輸出方式后,SAC姿態智能控制器輸出的三軸控制力矩沒有出現高頻高幅的振動現象,且最大幅值為0.1 N·m,說明改進后的SAC姿態智能控制器可以有效部署到實際的任務中。TD3算法輸出三軸控制力矩的最大幅值為0.3 N·m,是SAC姿態智能控制器輸出控制力矩最大幅值的3倍。且TD3算法輸出的控制力矩在收斂前出現了高頻高幅的震動現象,SAC姿態智能控制器輸出的控制力矩并沒有出現此現象。相應地,TD3算法控制的姿態角速度的波動次數、頻率和幅值均高于SAC姿態智能控制器控制的姿態角速度。姿態角控制效果方面,為了直觀展示姿態的變化,將姿態四元數轉化為三軸的姿態角:滾轉角、俯仰角和偏航角。TD3算法控制的三軸姿態角最大幅值為73°,小于SAC姿態智能控制器的88°;但是TD3算法控制的三軸姿態角的收斂過程相較于SAC姿態智能控制器仍產生了更多的波動,不如SAC姿態智能控制器的控制效果平穩。綜上,兩個姿態控制器雖然均能實現姿態穩定控制;但相較于TD3算法,SAC姿態智能控制器可以實現利用更小幅值和更穩定的控制力矩使在軌加注組合體的姿態更加平穩地收斂,證明了SAC姿態智能控制器部署到實際的在軌加注任務后,應對結構參數和加注需求完全不同的目標星時,能夠實現姿態控制的魯棒性要求。

圖8 姿態智能控制器部署后的控制力矩曲線

圖9 姿態智能控制器部署后的姿態角速度曲線

圖10 姿態智能控制器部署后的姿態角曲線

4.2 SAC加注壓強智能控制器訓練和部署仿真

將SAC姿態智能控制器部署到在軌加注組合體的姿態控制系統中,進一步對SAC加注壓強智能控制器進行訓練和部署。在對加注壓強智能控制器的訓練中,在軌加注組合體的相關參數見表4。

表4 加注壓強智能控制器訓練算例在軌加注組合體參數

SAC加注壓強智能控制器的關鍵訓練參數見表5。Actor和Critic網絡參數與SAC姿態智能控制器保持一致,如圖4所示。

表5 SAC加注壓強智能控制器的關鍵訓練參數

對SAC加注壓強智能控制器進行訓練。訓練過程中,SAC加注壓強智能控制器獲得獎勵值的曲線如圖11所示。SAC加注壓強智能控制器共進行120輪訓練。前60輪訓練獎勵值逐步攀升,說明SAC加注壓強智能控制器不斷對策略做出優化。后60輪訓練,獎勵值趨于穩定,在波動中有小幅提高,說明加注壓強智能控制器已經得到最優控制策略并對最優控制策略做出小幅的調整。

圖11 加注壓強智能控制器訓練獎勵值曲線

在部署完成訓練的SAC加注壓強智能控制器時,仍需按照式(24)對動作的輸出進行調整。調整動作輸出后,SAC加注壓強智能控制器輸出的加注壓強如圖12所示。在加注過程的前35 s,由于SAC姿態智能控制器還未控制姿態達到穩定,仍存在隨機擾動作用,所以,加注壓強進行了自主的波動調整,盡量減小隨機擾動對姿態的影響。在姿態逐漸穩定之后,加注壓強保持在0.095 Pa,從而盡可能高效地完成加注任務。在140 s時,加注的液體質量達到任務要求,加注管理系統給加壓系統關機信號,加注壓強歸零。采用與未采用加注壓強智能控制條件下,隨機擾動的模如圖13所示。在采用加注壓強智能控制后,隨機擾動的最大幅值相較于未采用加注壓強智能控制時減小了4倍;并且,在整個加注過程中,采用加注壓強智能控制時的隨機擾動也均小于未采用加注壓強智能控制時的隨機擾動。觀察加注壓強的曲線發現,當隨機擾動出現較高峰值時,SAC加注壓強智能控制器都相應地降低了加注壓強的輸出;這說明,SAC加注壓強智能控制器可以自主地根據隨機擾動調節加注壓強,從而有效地減小液體加注對姿態產生的影響。

圖12 加注壓強智能控制器輸出曲線

圖13 采用與未采用加注壓器智能控制的隨機擾動對比

5 結 論

本文針對在軌加注任務中,由液體復雜運動引起組合體姿態隨機擾動,以及“一對多”加注過程中組合體慣量參數不確定的問題,通過改進深度強化學習SAC算法,設計了SAC姿態智能控制器和SAC加注壓強智能控制器。SAC姿態智能控制器以小幅值的控制力矩使組合體姿態平穩收斂,避免了控制力矩和姿態大幅波動的現象,在應對不同結構目標星和系統隨機擾動方面具有很強的魯棒性。SAC加注壓強智能控制器可以根據隨機擾動智能地調節輸出的加注壓強,在高效完成加注任務的同時,有效地減小液體燃料加注對姿態產生的擾動。通過仿真算例對上述結論進行了對比驗證。

猜你喜歡
智能策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
主站蜘蛛池模板: 成人亚洲视频| 538国产在线| 国产一二三区视频| 日韩欧美国产综合| 亚洲国产欧美国产综合久久| 国产亚洲欧美在线视频| 青青青国产免费线在| 欧美视频在线不卡| 日韩精品一区二区三区免费在线观看| 无码高潮喷水专区久久| 亚洲黄色成人| 国产第二十一页| AV色爱天堂网| 久久无码av三级| 小说区 亚洲 自拍 另类| 午夜老司机永久免费看片| 欧美日韩第二页| 亚洲中文无码av永久伊人| 精品少妇人妻无码久久| 婷五月综合| 久久公开视频| 国产免费精彩视频| 国产丝袜丝视频在线观看| 久久影院一区二区h| 四虎成人免费毛片| 九九九国产| 综合亚洲网| 欧美性精品| 亚洲精品午夜天堂网页| 欧美全免费aaaaaa特黄在线| 久久无码免费束人妻| 中文国产成人久久精品小说| 亚洲综合天堂网| 国产女人18毛片水真多1| 亚洲免费福利视频| 国产成人永久免费视频| 日韩区欧美区| 国产色图在线观看| 国产青榴视频| 国产成人福利在线视老湿机| 色综合中文| 69国产精品视频免费| 免费一级无码在线网站| 亚洲国产无码有码| 亚欧美国产综合| 亚洲狼网站狼狼鲁亚洲下载| 亚洲人成亚洲精品| 天天摸夜夜操| 精品国产一区二区三区在线观看| 日本成人精品视频| 久久久久久午夜精品| 亚洲中文无码h在线观看| av在线手机播放| 亚洲九九视频| 国产美女视频黄a视频全免费网站| 久久久久国产精品免费免费不卡| 国产精品一区在线麻豆| 动漫精品中文字幕无码| 91免费国产在线观看尤物| 亚洲最大福利视频网| 看国产毛片| 国产精品蜜臀| 亚洲中文字幕无码爆乳| 国内精品久久久久鸭| 久久国产精品夜色| 亚洲视频色图| 麻豆AV网站免费进入| 老司机精品一区在线视频| 久久青草视频| 蜜臀AV在线播放| 国产又黄又硬又粗| 亚洲欧美不卡| 欧美激情网址| 亚洲视频在线青青| 草逼视频国产| 亚洲综合色区在线播放2019| 国产伦精品一区二区三区视频优播 | 国产精品久久精品| 欧美综合中文字幕久久| 黄色网站在线观看无码| 久久综合成人| 黄色网址免费在线|