基于強化學習的空間機械臂控制方法

2021-01-08 13:14:34李鶴宇林廷宇施國強

航天控制 2020年6期

關鍵詞：機械

李鶴宇林廷宇曾賁施國強

1. 北京電子工程總體研究所，北京 100854； 2. 北京仿真中心，北京 100854

0 引言

隨著航天事業的不斷發展，太空垃圾清理、航天器維修、裝備組裝成為研究熱點。空間機械臂由于具有良好的適應性和擴展性，能夠在復雜場景下，完成多種類型任務，被廣泛應用于航天領域。針對空間碎片對在軌航天器的安全造成威脅的問題，使用空間機械臂捕獲非滾轉的目標[1-2]。SpiderFab計劃采用7自由度的空間機械臂，通過人員遙控的方式實現全自主模式下的在軌制造與組裝[3]。RAMST計劃在地球軌道上，通過遙操作的方式實現模塊化天基望遠鏡的在軌裝配[4]。裝配于國際空間站的雙機械臂空間機器人系統Dextre、Robonaut2，利用雙臂的協同性，能夠執行更加復雜的任務[5-6]。

為使得空間機械臂應對復雜的任務需求，需要不斷優化控制算法，提高系統的魯棒性與精確性。文獻[7]將末端執行器與目標相對速度的絕對值作為目標函數，使用最優控制的方法解決空間機器人捕獲航天器的問題。文獻[8]提出一種凸規劃控制方法，用于控制空間機械臂捕獲翻滾航天器。文獻[9]建立碰撞避免模型，提出一種主動抑制干擾的控制算法，用于避免碰撞。文獻[10]提出一種基于運動學的自適應控制方法，用于存在閉環約束和有效載荷慣性參數不確定的空間雙機械臂控制問題。文獻[11]使用絕對節點坐標法描述柔性體，建立末端帶集中質量的雙連桿柔性機械臂的動力學模型，采用PD控制策略實現了機械臂的運動跟蹤控制。文獻[12]運用非慣性系下的拉格朗日分析力學建立空間機械臂系統動力學方程，針對空間機械臂載體自由繞飛空間目標的情形，設計抓取目標的尋的制導控制規律。

隨著計算能力的發展和數據資源的增加，用于決策問題的深度強化學習成為研究熱點，出現DQN (Deep Q-network)[13]、DDPG (Deep Deterministic Policy Gradient)[14]、TRPO (Trust Region Policy Optimization)[15]、A3C (Asynchronous Advantage Actor-Critic)[16]、DPPO (Distributed Proximal Policy Optimization)[17-18]等算法。將深度強化學習應用于控制領域，產生了良好的效果。文獻[19]對DDPG算法進行修改，并結合人工演示，使用深度強化學習控制機械臂完成插銷入洞的任務。文獻[20]在仿真環境中對TRPO算法進行訓練，并將神經網絡遷移至ANYmal機器人，實現四足控制。文獻[21]不依賴于先驗知識對PPO算法進行訓練，并將訓練結果遷移至多指靈巧手機器人，實現翻轉立方體。文獻[22]使用Q-learning的方法訓練最大熵策略，并應用于實際機器人的操縱，實現較高的樣本效率。

本文在虛擬環境中對神經網絡進行訓練，實現使用深度強化學習的方法控制空間機械臂，移動其抓手至物體下方特定位置。構建虛擬環境，包括5軸空間機械臂和目標物體，作為神經網絡的訓練環境，為算法提供數據支撐。設置狀態變量表示當前環境信息，作為深度強化學習算法的輸入，深度強化學習根據狀態變量計算輸出值，設置獎勵函數對輸出值進行評價，并由評價結果對神經網絡的參數進行修改，實現學習過程。

1 PPO算法

在policy gradient算法中，神經網絡的參數為θ，對應的策略為π，在一個完整的決策過程中，共包含T個步驟，神經網絡不斷與環境交互，形成序列τ：

τ={s1,a1,s2,a2,…,sT,aT}

(1)

式中：st∈Rn(t=1,2,…,T)為當前環境的狀態向量，at∈Rm(t=1,2,…,T)為針對si神經網絡的動作輸出向量。由于神經網絡在相同狀態下可能得到不同的輸出，因此序列τ發生的概率為：

(2)

式中：p(s1)為當前環境的初始狀態為s1的概率，pθ(at|st)為環境狀態為st、神經網絡參數為θ時，輸出為at的概率，p(st+1|st,at)的狀態為st時，通過動作輸出at得到新的環境狀態為st+1的概率。

在策略為π時，神經網絡能獲得的期望獎勵值為：

(3)

式中：pθ(τ)為神經網絡參數為θ時，τ的概率分布，R(τ)為序列τ對應的獎勵值。獎勵對應的梯度為：

(4)

(5)

式中：θ′為收集數據的神經網絡的參數，E(st,at)～πθ表示神經網絡參數為θ時，由(st,at)計算得到的期望值，Aθ(st,at)為優勢函數。如果θ′神經網絡和θ神經網絡在相同狀態下得到的輸出概率分布相差較大，則需要大量的采樣才能保證算法的有效性，因此在目標函數中加入θ′神經網絡和θ神經網絡的KL散度，最終的目標函數為：

(6)

式中：β為KL散度的系數，DKL(θ,θ′)為參數為θ和θ′神經網絡輸出概率分布的差異。

2 基于PPO的控制算法

2.1 系統組成

本文致力于使用PPO算法對空間機械臂進行控制，完成將空間機械臂抓手移動至物體下方的目的。系統包括PPO算法和訓練環境2部分，訓練環境由空間機械臂和目標物體組成。設置合理的狀態變量和獎勵函數用于PPO算法和訓練環境的交互，PPO算法根據模型的狀態變量做出控制決策，獎勵函數對控制決策進行評價，如果是好的控制決策，則通過調整神經網絡的參數增加決策出現的概率，反之則通過調整參數降低決策出現的概率，系統結構如圖1所示。

圖1 系統結構圖

2.2 訓練環境

訓練環境包括空間機械臂和目標物體2部分，物體位于空間機械臂正前方，空間機械臂包含5個關節，每個關節能夠在[0°,360°)的范圍內自由旋轉，相鄰關節間的連桿長度固定，通過控制關節的旋轉，可以在有限范圍內移動空間機械臂末端插盤式抓手至任意位置。

使用Unity設置空間機械臂每個連桿的長度、關節的旋轉角度、底座的坐標、物體的中心坐標和尺寸，完成訓練環境的構建。物體放置于固定的位置，空間機械臂每次初始化時每個關節保持固定的角度，界面如圖2所示。在PPO算法的獎勵函數中考慮碰撞事件，因此在Unity中使用盒子碰撞器實現碰撞檢測功能，將盒子碰撞器加入到空間機械臂模型的各個部分監控碰撞事件，當發生碰撞時，碰撞器發出碰撞捕獲信號和碰撞位置信息。

圖2 仿真環境界面

2.3 基于PPO的控制決策算法

使用PPO控制空間機械臂進行運動，將抓手移動至物體下方，需要設置合理的狀態變量和獎勵函數，其中狀態變量用于表示當前環境的信息，神經網絡據此對空間機械臂進行控制，輸出5個軸的轉動角度，獎勵函數對神經網絡的控制決策進行評價，從而調整神經網絡的參數，完成學習過程。

(7)

代表環境信息的狀態變量共79維：

(8)

式中：jn為世界坐標系中原點指向空間機械臂關節中心的向量，ttarget為世界坐標系中原點指向目標物體中心坐標的向量，f為世界坐標系中原點指向機械臂基座中心的向量，tm為世界坐標系中原點指向物體下方選定點的向量，hm為世界坐標系中原點指向抓手上方選定點的向量，dcol為碰撞發生情況。

獎勵函數分為2個階段。第1個階段引導空間機械臂抓手移動至物體下方特定位置：

(9)

(10)

第2階段引導抓手從物體正下方向上移動至特定位置：

(11)

(12)

(13)

3 仿真校驗

為驗證本文算法的效果，從算法收斂時間、訓練周期獎勵值，以及神經網絡參數收斂后機械臂抓手與物體下表面距離等方面進行對比。

對不同控制方法的收斂時間進行統計。傳統控制方法需要根據特定任務進行調試，調試時間84.0h。訓練所使用的計算機處理器為Intel(R) Core(TM) i5-9300H，顯卡為NVIDIA GeForce GTX 1650，基于DDPG算法實現的機械臂控制算法的學習過程需要33.2h[23]，本文所使用的基于PPO算法的學習過程需要26.1h。相比于經典的控制算法，本文算法的學習過程能夠節約68.9%的時間，相比基于DDPG的控制算法，本文算法的學習過程能夠節約21.4%的時間。

其次，統計訓練過程中每個周期得到的獎勵值，如圖3所示，橫軸表示一次訓練中的周期數，縱軸表示每個周期獲得的獎勵值。獎勵值小說明該周期做出錯誤的控制決策，獎勵值大說明該周期做出正確的控制決策。

圖3 三種系統突然加負載時的動態響應

由于PPO算法采用離線訓練的方式，因此能夠有效縮短數據積累階段，在訓練開始后，快速進入學習階段。從圖中可以看出，隨著訓練的進行，單個周期獲得的獎勵值逐漸增加，說明神經網絡通過與環境的交互，利用獎勵值正確地修改自身參數，逐漸做出正確的控制決策，最終獎勵值趨于穩定，說明此時神經網絡的參數收斂，達到穩定的控制效果。在訓練過程中獎勵值會出現波動，這主要是由于PPO算法在接收狀態變量后，根據不同動作的概率得到輸出，因此存在較小的概率輸出錯誤的動作，即出現獎勵值的波動。由于PPO通過神經網絡生成一個關于不同控制決策的概率，因此在一個周期內，不一定會選擇最優決策，因此曲線不是平滑的，會出現獎勵值階躍式變化的情況。

最后對比在訓練完成后，即神經網絡參數穩定時，基于DDPG的控制算法和本文算法的控制穩定性。統計30個控制指令中機械臂抓手與物體下方特定位置的相對距離，如圖4所示，其中虛線代表基于DDPG的控制算法，實線代表本文算法，實線波動范圍更小，說明訓練完成后，本文算法能夠達到更穩定的控制效果，因為對獎勵函數的細化，有效抑制了控制中的抖動現象。

圖4 機械臂抓手與物體下方特定位置的相對位置

4 結論

提出一種基于深度強化學習的機械臂控制算法。首先為深度強化學習搭建訓練環境，包括機械臂和目標物體2部分，其次構建PPO算法，并設置合理的狀態變量和獎勵函數，用于神經網絡的訓練。通過驗證，本文算法能夠在較短時間內收斂，提高效率，并且具有穩定的控制效果，能夠有效抑制抖動現象。