基于深度強化學習算法的空間漂浮基機械臂抓捕控制策略

2020-02-01 01:39:02王耀兵杜德嵩齊乃明

載人航天 2020年6期

孫康，王耀兵，杜德嵩，齊乃明

(1. 哈爾濱工業大學航天工程系，哈爾濱 150001； 2. 北京空間飛行器總體設計部，北京 100094)

1 引言

隨著人類航天活動的逐年增加，空間飛行器的數量呈現快速增長趨勢[1]。在軌航天器由于使用壽命有限，零部件故障或意外碰撞等原因而無法正常運行，從而形成非合作的失效航天器或稱太空垃圾，通常還帶有一定程度的翻滾特性[2]。失效航天器的及時捕獲、接管、修復或清理等對于正常在軌運行航天器的安全以及軌道資源再回收等有重大意義。

空間機械臂因其具有質量輕、靈活性高、操控性強等優勢，在空間失效目標的捕獲任務中具有廣泛的應用前景[3-4]。為實現抓捕過程的穩定可靠，應使空間機械臂在接近目標抓捕位置時平穩，且相對速度應盡可能小，從而減小抓捕碰撞力。國內外學者針對抓捕過程空間機械臂的控制策略進行了諸多研究。Yoshida等[5-7]研究了針對空間機械臂的在軌動力學與控制問題，并在ETS-VII任務中進行了實際應用；Matsumoto等[8-9]對捕獲空間失效航天器的路徑規劃和捕獲過程的動力學進行了研究；Angel等[10-11]針對空間翻滾目標的抓捕任務，通過控制空間機械臂的接近速度，使其與目標的相對速度通過抓捕系統的質心，實現了基座姿態擾動最優；Yu等[12]針對帶有柔性帆板的空間漂浮機械臂的動力學建模和非合作目標的抓捕任務進行了研究；Xu等[13]針對空間機械臂的運動學、動力學和末端執行器存在的不確定性問題，提出一種改進的自適應反步控制器 (Backstepping Controller)，保證了傳統動態曲面控制方法跟蹤誤差的漸近收斂性。上述針對空間機械臂的抓捕控制均基于多體系統動力學模型來實現，而多體系統的動力學模型很難被精確建立，特別是針對帶有柔性帆板、柔性臂桿等結構的航天器，嚴格按照動力學模型實現抓捕控制會產生較大的位置和速度偏差，從而產生抓捕逃逸或碰撞力過大等問題。

強化學習(Reinforcement Learning，RL)算法在機器人系統控制中的應用近年來逐漸興起，并取得了較好的應用[14]。Smrui[15]基于深度強化學習算法(Deep Reinforcement Learning, DRL)對機械手臂的多種操作任務進行了研究，同時介紹了DRL針對高維狀態空間的目標逼近策略的實驗室級的應用；Wang等[16]基于深度強化學習算法對輪式機器人在斜坡路面上的動態路徑規劃進行了研究，并與傳統的依靠動力學模型的D*規劃算法作對比，仿真結果證明了深度強化學習算法能在保證精度的前提下較快地實現動態路徑規劃。

DRL算法具有不依賴系統運動學或動力學模型的特點，通過設定獎賞函數實現機器人系統的運動軌跡及驅動力矩控制，對于空間非合作目標的多自由度機械臂抓捕問題有較好的適用性。本文基于DRL算法提出一種深度確定性規則策略(Deep Deterministic Policy Algorithm, DDPG)，將空間非合作目標的抓捕過程的漂浮基機械臂的位置、力矩和速度控制問題轉化為高維空間的目標逼近問題，通過設置目標獎賞函數，驅動空間機械臂的末端位置和運動參數滿足抓捕條件，從而實現穩定可靠抓捕。

2 物理模型及坐標系定義

圖1為漂浮基空間機械臂抓捕空間非合作目標的物理模型。空間機械臂具有n自由度，一端與漂浮狀態的本體星連接，非合作目標為帶有自旋特性的空間漂浮物體。FI(OXYZ)為系統慣性坐標系；F0(o0x0y0z0)為本體星質心坐標系，其原點位于本體星質心位置；Fi(oixiyizi)為空間機械臂關節i的中心坐標系，qi(i=1,…,n)為關節i的轉角，關節轉動方向zi(i=1,…,n)與關節轉軸平行；Fe(oexeyeze)為空間機械臂末端抓捕機構中心坐標系；Ft(otxtytzt)為非合作自旋目標質心坐標系；Fh(ohxhyhzh)為非合作目標的抓捕位置中心坐標系；ωt為目標自旋角速度；R0為慣性系下的本體星質心矢徑；Ri(i=1,…,n)為慣性系下關節i中心坐標系的原點矢徑；Re為慣性系下的空間機械臂末端機構中心坐標系的矢徑；Rt為慣性系下自旋目標的質心矢徑；r0為關節1的中心坐標系F1在基座質心坐標系F0下的矢徑；rh為Ft到Fh的矢徑；di(i=1,…,n)為臂桿i+1的始末點矢徑(由Fi指向Fi+1)。

圖1 空間漂浮基機械臂非合作目標抓捕物理模型Fig.1 Physical model of free-floating space manipulator capturing uncooperative target

3 基于DRL算法的抓捕控制策略

利用代理(Agent)的思想實現對漂浮基座的空間機械臂進行抓捕控制，將控制指標作為獎賞函數的變量，利用代理對空間機械臂的關節運動進行控制，并將獎勵值最為運動方向的控制反饋，逐步訓練，使空間機械臂滿足抓捕條件。

3.1 DRL算法基本原理

1)定義狀態空間S={s0,s1,…,sn}，起始時刻的狀態s0及其所對應的概率分布P(s0)；

2)定義行為空間A={a0,a1,…,an}；

3)定義環境的動態更新驅動函數p(st)；

4)定義行為獎賞函數R(st,at,st+1)；

5)定義獎賞折扣系數λ∈[0,1]，用于強調即時的回報。

圖2 深度強化學習算法的狀態-行為-學習循環框圖Fig.2 State-action-learning loop of DRL algorithm

DRL算法具有局部決策獨立與整體歷程的基本特性，即當前環境狀態st僅與前一時刻的環境狀態st-1和行為at-1有關，而與此前0時刻到t-2時刻對應的環境狀態和行為均無關。DRL算法的這種特性滿足Markov離散隨機變量的概率分布特性，因此其深度強化學習的過程也可稱為Markov過程，數學表述如式(1)：

p(st|a0,a1,…,at-1,s0,s1,…,st-1)=p(st|at-1,st-1)

(1)

空間機械臂系統包含自由漂浮基座和n自由度空間機械臂兩部分，根據DLR控制策略的構成要素，定義漂浮基座對應的狀態空間集合為式(2)：

(2)

(3)

定義t時刻各關節對應驅動力矩為式(47)：

(4)

定義空間機械臂末端抓捕機構與空間非合作自旋漂浮目標的距離在時刻t時為式(5)：

dt=|Re-Rt|

(5)

以完成捕獲任務的時間、機械臂末端抓捕機構距離目標點的距離、關節觀測驅動力矩大小為獎賞值的參考指標，定義獎賞函數如式(6)：

rt=f(t)[l1g(dt)+l2h(|τt|)]

(6)

其中，f(t)為與捕獲時間相關的指標函數，g(dt)為與機械臂末端抓捕機構距離目標點的距離的指標函數，h(|τ|)為與機械臂的關節控制力矩相關的指標函數；l1、l2分別對對應函數的調和系數。為使訓練過程更加有效，應使得抓捕任務的整個過程獎勵值隨著相對應的指標的變化均有明顯波動，因此設置上述各指標函數如式(7)：

(7)

其中，f(t)、g(dt)、h(|τt|)具有相同的函數形式，對于如式(8)所示形式的函數：

(8)

式(8)求一階導并取絕對值得式(9)：

(9)

顯然，在Δ接近0或者遠離0時，Γ(Δ)對應的函數值波動范圍均較大。同理，式(7)中各函數在遠離或接近對應指標的情況下，獎勵函數rt均會產生較為明顯的波動，可促使訓練更加有效，從而減少訓練收斂次數，加快目標的抓捕進度。

3.2 DDPG算法模型

DDPG算法是對確定性策略算法(Deterministic Policy Algorithm, DPG)算法的改進。DPG算法包含行為函數λ(s|q)以及價值函數J(s,a)兩部分，算法通過評價函數對離散時刻的行為進行評價，以求得行為的確定性狀態。為了實現對行為的逐步更新，定義與行為參數相關的鏈式規則函數如式(10)：

(10)

價值函數J(s,a)通過式(11)所示Bellman方程實現逐步更新：

BJ=E[y-J(s,a|qJ)2|s=st,a=λ(st|qλ)]

(11)

漂浮基座的空間機械臂抓捕非合作自旋目標屬于高維連續空間問題，無法直接用QL(Q-Learning)算法解決。圖3所示為DDPG控制算法的結構流程圖，在DDPG算法中，定義目標價值函數J′(s,a|qJ′)和目標行為函數λ′(s|qλ′)，上述兩目標函數用于分別計算目標值。目標網絡的權重通過下式(12)實現軟更新，可有效避免直接引用前一步計算結果所帶來的訓練結果超調、目標不收斂等問題，提高算法訓練過程的穩定性。

(12)

圖3 DDPG算法的結構流程圖Fig.3 Structure schematic diagram of DDPG algorithm

3.3 預演練DDPG控制策略

對于包含高維度的狀態空間和行為空間的非合作目標捕獲問題，直接利用DDPG算法對空間機械臂的抓捕任務進行控制，由于數據量和計算量極大，訓練模型效率和收斂時間均不理想。因此，本文利用包含預演練(Pre-traing, PT)過程的DDPG控制策略[18]。PT策略是指預先訓練空間機械臂進行主動隨機運動，訓練過程產生的狀態轉換函數存儲至重放緩沖集合{R}。PT過程并不包含參數更新的步驟，因此較短時間內可對空間機械臂進行大量的訓練，使得空間機械臂在訓練前就具有大量學習數據作為參考。此方法可顯著提高DDPG算法在高維度狀態空間和行為空間的訓練效率，縮短收斂時間。

4 仿真分析

4.1 仿真初值

利用漂浮基座空間三自由度機械臂抓捕空間非合作自旋目標的模型進行仿真分析，目標為空間自由漂浮狀態，且存在自旋特性。表1為漂浮基座空間機械臂的零位對應D-H參數。表2為漂浮基座空間機械臂各模塊以及非合作自旋目標的質量和慣量參數，其中m0、m1、m2、m3、mt分別為漂浮基座、臂桿1、臂桿2、臂桿3、非合作目標的質量，Ixx、Ixy、Ixz、Iyy、Iyz、Izz為對應的慣量矩陣。需要特別說明的是，表中非合作目標的慣量參數是在Fh坐標下表示的。假設目標的抓捕位置位于目標自旋軸上，且抓捕過程的最后階段，空間機械臂末端抓捕機構的速度方向與目標自旋軸重合，降低實際抓捕難度。

表1 零位D-H參數

表2 質量和慣量參數

目標抓取點位置為Rh=[0.75 0.15 1.85]Tm。式(5-5)對應的獎勵函數中，設置l1=0.05，l1=0.1；設置獎賞累加折扣系數λ=0.85；批量參考數組個數n=20；行為網絡λ(s|q)與J(s,a|qJ)設置為3層，每層單元個數分別為100，100，20，神經網絡的LR參數(Learning Rate，學習率)設置為10-4；訓練次數為1000；目標行為網絡與目標評價網絡更新步間距分別為100和150；其余參數設置參照文獻[17]，此處不再贅述。

目標抓捕成功的條件設定如下：①末端抓捕機構冗余誤差設定為0.05 m，定義目標球形抓捕域的半徑為SR=0.05 m，即抓捕位置中心點坐標與末端抓捕機構中心距離誤差εt≤SR；②且|τt|2≤1 N·m時，抓捕機構實施收攏動作并完成目標捕獲；③抓捕機構與目標抓取點的相對速度小于0.05 m/s。

4.2 仿真結果

仿真工具為MATLAB R2017b，設置仿真步長為0.05 s，仿真結果如下：圖4分別為加入PT訓練策略和未加入PT訓練策略的訓練歷程，由獎勵值曲線變化對比可知，包含了PT訓練策略的DDPG訓練在經歷600次訓練歷程后，總獎賞值趨于穩定，約為150，對應為控制策略逐漸收斂至目標要求；而不包含PT訓練策略的DDPG訓練在經歷1000次訓練歷程后，獎賞值未達到100且仍處于振蕩狀態，未能收斂。因此，通過PT訓練策略可有效提高訓練效率，縮短非合作目標抓捕任務所需時間。因此，采用包含PT訓練策略的DDPG控制算法訓練FFSM完成非合作自旋目標的捕獲，仿真結果如圖5～9所示。圖5為3個關節訓練歷程的角度和角速度變化曲線，圖6為抓捕過程3個關節訓練歷程的輸出力矩曲線，圖7為空間機械臂末端點的抓捕過程三維軌跡，圖8為空間機械臂抓捕距離及與目標的相對速度變化曲線圖，圖9為漂浮基座在抓捕過程中的位置和線速度、角度和角速度變化曲線。

圖4 DDPG訓練歷程獎勵值變化曲線Fig.4 Curves of reward value with DDPG training times

圖5 關節角度和角速度曲線 Fig.5 Angle and angular velocity of three joints

圖6 關節力矩曲線圖Fig.6 Control torque of three joints

圖7 機械臂末端抓捕機構中心三維軌跡圖Fig.7 3D trajectory of end effector of FFSM

圖8 機械臂末端抓捕距離及相對速度曲線圖Fig.8 Distance and relative velocity between end effector of FFSM and target

圖9 漂浮基座位置、速度、角度及角速度曲線圖Fig.9 Position, velocity, angle and angular velocity curves of free-floating base

由圖5可知，抓捕機構從初始位置機動至抓捕位置時，關節角速度在抓捕初段逐漸增加，而在抓捕中后段逐漸趨于0附近，可有效降低空間機械臂與目標在抓捕瞬間的碰撞力；由圖6可知，3個關節控制力矩在3 s以后逐漸收斂，且最終τxf值為0.1543 Nm，τyf值為0.4497 Nm，τzf值為0.4497 Nm，綜合力矩‖τf‖為0.6615 Nm，滿足抓捕條件中的關節輸出力矩‖τt‖2≤1 Nm的指標要求，表明DDPG控制算法可實現抓捕末段減小與目標碰撞力的要求，更有利于捕獲過程系統的姿態穩定；由圖7和圖8(a)可知，整個抓捕過程中，機械臂末端抓捕機構的中心與目標抓捕中心點的間距逐漸趨于0，具體εtx=3.8E-3 m，εty=2.62E-3 m，εtz=2.0E-2 m，對應的空間三維距離εt約為3.318E-2 m，小于抓捕域球半徑SR，即目標處于可抓捕范圍內；由圖8(b)可知，接近目標抓捕位置時，相對速度趨于0，具體vtx=1.9E-3 m/s，vty=1.1E-3 m/s，vtz=2.0E-3 m/s，綜合相對速度為‖vt‖=2.97E-3 m/s。由圖9可知，FFSM系統的漂浮基座在整個抓捕過程中隨著末端抓捕機構的速度降低，姿態和速度均處于可控狀態。

綜合仿真結果可知：抓捕時刻的關節驅動力矩為0.6615 Nm，抓捕中心誤差為0.02 m，機械臂末端與目標間的相對抓捕速度小于3 mm/s；以上指標均能滿足預設的抓捕條件，可有效減小抓捕碰撞力對本體星和目標運動狀態的影響，使得抓捕任務安全可靠。

5 結論

1) 基于DRL算法的控制策略可在不依賴系統的運動學和動力學模型的情況下，對空間漂浮基座機械臂的抓捕軌跡和速度進行有效控制；

2)根據仿真結果，抓捕過程的末段，機械臂的關節驅動總力矩約為0.66 Nm，末端抓捕機構與目標抓捕位置的位置偏差約為3E-2 m，相對速度約為3 mm/s;

3)基于DRL算法的DDPG控制策略能較好地實現對非合作目標的精確定位和低碰撞力抓捕，相比于DPG控制策略，計算速度略有降低，但DDPG控制策略通過逐步更新行為的方式，使得目標抓捕過程的控制效果更加穩定和準確;

4)針對多體系統的運動控制以及目標抓捕等難以精確建立系統動力學模型的問題，可利用DRL算法這一新型控制策略解決。