999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的空間機械臂控制方法

2021-01-08 13:14:34李鶴宇林廷宇施國強
航天控制 2020年6期
關鍵詞:機械

李鶴宇 林廷宇 曾 賁 施國強

1. 北京電子工程總體研究所,北京 100854; 2. 北京仿真中心,北京 100854

0 引言

隨著航天事業(yè)的不斷發(fā)展,太空垃圾清理、航天器維修、裝備組裝成為研究熱點。空間機械臂由于具有良好的適應性和擴展性,能夠在復雜場景下,完成多種類型任務,被廣泛應用于航天領域。針對空間碎片對在軌航天器的安全造成威脅的問題,使用空間機械臂捕獲非滾轉的目標[1-2]。SpiderFab計劃采用7自由度的空間機械臂,通過人員遙控的方式實現全自主模式下的在軌制造與組裝[3]。RAMST計劃在地球軌道上,通過遙操作的方式實現模塊化天基望遠鏡的在軌裝配[4]。裝配于國際空間站的雙機械臂空間機器人系統Dextre、Robonaut2,利用雙臂的協同性,能夠執(zhí)行更加復雜的任務[5-6]。

為使得空間機械臂應對復雜的任務需求,需要不斷優(yōu)化控制算法,提高系統的魯棒性與精確性。文獻[7]將末端執(zhí)行器與目標相對速度的絕對值作為目標函數,使用最優(yōu)控制的方法解決空間機器人捕獲航天器的問題。文獻[8]提出一種凸規(guī)劃控制方法,用于控制空間機械臂捕獲翻滾航天器。文獻[9]建立碰撞避免模型,提出一種主動抑制干擾的控制算法,用于避免碰撞。文獻[10]提出一種基于運動學的自適應控制方法,用于存在閉環(huán)約束和有效載荷慣性參數不確定的空間雙機械臂控制問題。文獻[11]使用絕對節(jié)點坐標法描述柔性體,建立末端帶集中質量的雙連桿柔性機械臂的動力學模型,采用PD控制策略實現了機械臂的運動跟蹤控制。文獻[12]運用非慣性系下的拉格朗日分析力學建立空間機械臂系統動力學方程,針對空間機械臂載體自由繞飛空間目標的情形,設計抓取目標的尋的制導控制規(guī)律。

隨著計算能力的發(fā)展和數據資源的增加,用于決策問題的深度強化學習成為研究熱點,出現DQN (Deep Q-network)[13]、DDPG (Deep Deterministic Policy Gradient)[14]、TRPO (Trust Region Policy Optimization)[15]、A3C (Asynchronous Advantage Actor-Critic)[16]、DPPO (Distributed Proximal Policy Optimization)[17-18]等算法。將深度強化學習應用于控制領域,產生了良好的效果。文獻[19]對DDPG算法進行修改,并結合人工演示,使用深度強化學習控制機械臂完成插銷入洞的任務。文獻[20]在仿真環(huán)境中對TRPO算法進行訓練,并將神經網絡遷移至ANYmal機器人,實現四足控制。文獻[21]不依賴于先驗知識對PPO算法進行訓練,并將訓練結果遷移至多指靈巧手機器人,實現翻轉立方體。文獻[22]使用Q-learning的方法訓練最大熵策略,并應用于實際機器人的操縱,實現較高的樣本效率。

本文在虛擬環(huán)境中對神經網絡進行訓練,實現使用深度強化學習的方法控制空間機械臂,移動其抓手至物體下方特定位置。構建虛擬環(huán)境,包括5軸空間機械臂和目標物體,作為神經網絡的訓練環(huán)境,為算法提供數據支撐。設置狀態(tài)變量表示當前環(huán)境信息,作為深度強化學習算法的輸入,深度強化學習根據狀態(tài)變量計算輸出值,設置獎勵函數對輸出值進行評價,并由評價結果對神經網絡的參數進行修改,實現學習過程。

1 PPO算法

在policy gradient算法中,神經網絡的參數為θ,對應的策略為π,在一個完整的決策過程中,共包含T個步驟,神經網絡不斷與環(huán)境交互,形成序列τ:

τ={s1,a1,s2,a2,…,sT,aT}

(1)

式中:st∈Rn(t=1,2,…,T)為當前環(huán)境的狀態(tài)向量,at∈Rm(t=1,2,…,T)為針對si神經網絡的動作輸出向量。由于神經網絡在相同狀態(tài)下可能得到不同的輸出,因此序列τ發(fā)生的概率為:

(2)

式中:p(s1)為當前環(huán)境的初始狀態(tài)為s1的概率,pθ(at|st)為環(huán)境狀態(tài)為st、神經網絡參數為θ時,輸出為at的概率,p(st+1|st,at)的狀態(tài)為st時,通過動作輸出at得到新的環(huán)境狀態(tài)為st+1的概率。

在策略為π時,神經網絡能獲得的期望獎勵值為:

(3)

式中:pθ(τ)為神經網絡參數為θ時,τ的概率分布,R(τ)為序列τ對應的獎勵值。獎勵對應的梯度為:

(4)

(5)

式中:θ′為收集數據的神經網絡的參數,E(st,at)~πθ表示神經網絡參數為θ時,由(st,at)計算得到的期望值,Aθ(st,at)為優(yōu)勢函數。如果θ′神經網絡和θ神經網絡在相同狀態(tài)下得到的輸出概率分布相差較大,則需要大量的采樣才能保證算法的有效性,因此在目標函數中加入θ′神經網絡和θ神經網絡的KL散度,最終的目標函數為:

(6)

式中:β為KL散度的系數,DKL(θ,θ′)為參數為θ和θ′神經網絡輸出概率分布的差異。

2 基于PPO的控制算法

2.1 系統組成

本文致力于使用PPO算法對空間機械臂進行控制,完成將空間機械臂抓手移動至物體下方的目的。系統包括PPO算法和訓練環(huán)境2部分,訓練環(huán)境由空間機械臂和目標物體組成。設置合理的狀態(tài)變量和獎勵函數用于PPO算法和訓練環(huán)境的交互,PPO算法根據模型的狀態(tài)變量做出控制決策,獎勵函數對控制決策進行評價,如果是好的控制決策,則通過調整神經網絡的參數增加決策出現的概率,反之則通過調整參數降低決策出現的概率,系統結構如圖1所示。

圖1 系統結構圖

2.2 訓練環(huán)境

訓練環(huán)境包括空間機械臂和目標物體2部分,物體位于空間機械臂正前方,空間機械臂包含5個關節(jié),每個關節(jié)能夠在[0°,360°)的范圍內自由旋轉,相鄰關節(jié)間的連桿長度固定,通過控制關節(jié)的旋轉,可以在有限范圍內移動空間機械臂末端插盤式抓手至任意位置。

使用Unity設置空間機械臂每個連桿的長度、關節(jié)的旋轉角度、底座的坐標、物體的中心坐標和尺寸,完成訓練環(huán)境的構建。物體放置于固定的位置,空間機械臂每次初始化時每個關節(jié)保持固定的角度,界面如圖2所示。在PPO算法的獎勵函數中考慮碰撞事件,因此在Unity中使用盒子碰撞器實現碰撞檢測功能,將盒子碰撞器加入到空間機械臂模型的各個部分監(jiān)控碰撞事件,當發(fā)生碰撞時,碰撞器發(fā)出碰撞捕獲信號和碰撞位置信息。

圖2 仿真環(huán)境界面

2.3 基于PPO的控制決策算法

使用PPO控制空間機械臂進行運動,將抓手移動至物體下方,需要設置合理的狀態(tài)變量和獎勵函數,其中狀態(tài)變量用于表示當前環(huán)境的信息,神經網絡據此對空間機械臂進行控制,輸出5個軸的轉動角度,獎勵函數對神經網絡的控制決策進行評價,從而調整神經網絡的參數,完成學習過程。

(7)

代表環(huán)境信息的狀態(tài)變量共79維:

(8)

式中:jn為世界坐標系中原點指向空間機械臂關節(jié)中心的向量,ttarget為世界坐標系中原點指向目標物體中心坐標的向量,f為世界坐標系中原點指向機械臂基座中心的向量,tm為世界坐標系中原點指向物體下方選定點的向量,hm為世界坐標系中原點指向抓手上方選定點的向量,dcol為碰撞發(fā)生情況。

獎勵函數分為2個階段。第1個階段引導空間機械臂抓手移動至物體下方特定位置:

(9)

(10)

第2階段引導抓手從物體正下方向上移動至特定位置:

(11)

(12)

(13)

3 仿真校驗

為驗證本文算法的效果,從算法收斂時間、訓練周期獎勵值,以及神經網絡參數收斂后機械臂抓手與物體下表面距離等方面進行對比。

對不同控制方法的收斂時間進行統計。傳統控制方法需要根據特定任務進行調試,調試時間84.0h。訓練所使用的計算機處理器為Intel(R) Core(TM) i5-9300H,顯卡為NVIDIA GeForce GTX 1650,基于DDPG算法實現的機械臂控制算法的學習過程需要33.2h[23],本文所使用的基于PPO算法的學習過程需要26.1h。相比于經典的控制算法,本文算法的學習過程能夠節(jié)約68.9%的時間,相比基于DDPG的控制算法,本文算法的學習過程能夠節(jié)約21.4%的時間。

其次,統計訓練過程中每個周期得到的獎勵值,如圖3所示,橫軸表示一次訓練中的周期數,縱軸表示每個周期獲得的獎勵值。獎勵值小說明該周期做出錯誤的控制決策,獎勵值大說明該周期做出正確的控制決策。

圖3 三種系統突然加負載時的動態(tài)響應

由于PPO算法采用離線訓練的方式,因此能夠有效縮短數據積累階段,在訓練開始后,快速進入學習階段。從圖中可以看出,隨著訓練的進行,單個周期獲得的獎勵值逐漸增加,說明神經網絡通過與環(huán)境的交互,利用獎勵值正確地修改自身參數,逐漸做出正確的控制決策,最終獎勵值趨于穩(wěn)定,說明此時神經網絡的參數收斂,達到穩(wěn)定的控制效果。在訓練過程中獎勵值會出現波動,這主要是由于PPO算法在接收狀態(tài)變量后,根據不同動作的概率得到輸出,因此存在較小的概率輸出錯誤的動作,即出現獎勵值的波動。由于PPO通過神經網絡生成一個關于不同控制決策的概率,因此在一個周期內,不一定會選擇最優(yōu)決策,因此曲線不是平滑的,會出現獎勵值階躍式變化的情況。

最后對比在訓練完成后,即神經網絡參數穩(wěn)定時,基于DDPG的控制算法和本文算法的控制穩(wěn)定性。統計30個控制指令中機械臂抓手與物體下方特定位置的相對距離,如圖4所示,其中虛線代表基于DDPG的控制算法,實線代表本文算法,實線波動范圍更小,說明訓練完成后,本文算法能夠達到更穩(wěn)定的控制效果,因為對獎勵函數的細化,有效抑制了控制中的抖動現象。

圖4 機械臂抓手與物體下方特定位置的相對位置

4 結論

提出一種基于深度強化學習的機械臂控制算法。首先為深度強化學習搭建訓練環(huán)境,包括機械臂和目標物體2部分,其次構建PPO算法,并設置合理的狀態(tài)變量和獎勵函數,用于神經網絡的訓練。通過驗證,本文算法能夠在較短時間內收斂,提高效率,并且具有穩(wěn)定的控制效果,能夠有效抑制抖動現象。

猜你喜歡
機械
《機械工程師》征訂啟事
太空里的機械臂
機械革命Code01
電腦報(2020年35期)2020-09-17 13:25:53
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
ikbc R300機械鍵盤
電腦報(2019年40期)2019-09-10 07:22:44
對工程建設中的機械自動化控制技術探討
基于機械臂的傳送系統
電子制作(2018年14期)2018-08-21 01:38:14
簡單機械
土石方機械的春天已經來了,路面機械的還會遠嗎?
機械班長
主站蜘蛛池模板: 亚洲h视频在线| 亚洲第一成年人网站| 99久久精品国产麻豆婷婷| 91九色国产porny| 97精品伊人久久大香线蕉| 好紧好深好大乳无码中文字幕| 国产精品久久久久久影院| 国产精品色婷婷在线观看| 日本a级免费| 亚洲无线一二三四区男男| 久久免费精品琪琪| 久久无码av三级| 免费国产高清视频| 日本久久网站| 第九色区aⅴ天堂久久香| 国产精品福利导航| 中文成人在线视频| 国产激爽爽爽大片在线观看| 蜜桃视频一区| 久久a级片| 欧美全免费aaaaaa特黄在线| 国产色网站| 毛片基地美国正在播放亚洲| 欧美在线视频不卡| 色老头综合网| 最新痴汉在线无码AV| 国产尤物在线播放| 国产成人精品免费av| 亚洲成av人无码综合在线观看| 亚洲视频一区在线| 2020精品极品国产色在线观看| 91久久夜色精品| 国产乱人激情H在线观看| 亚洲第一区在线| 欧美日本在线观看| 青草午夜精品视频在线观看| 亚洲欧美不卡视频| 色综合综合网| 久久永久精品免费视频| 人妻精品久久久无码区色视| 亚洲最大福利视频网| 国产欧美日韩另类| 国产欧美性爱网| 色香蕉网站| 亚洲中文字幕日产无码2021| 日本高清免费一本在线观看 | jizz国产视频| 波多野结衣一区二区三区四区视频 | 中文字幕va| 色AV色 综合网站| 在线一级毛片| 日本不卡在线播放| 九色视频线上播放| 2024av在线无码中文最新| 自拍偷拍欧美日韩| 亚洲国产天堂久久综合226114| 国产区人妖精品人妖精品视频| 国产精品3p视频| 伊人久久大香线蕉aⅴ色| 国产精鲁鲁网在线视频| 久久情精品国产品免费| 2021最新国产精品网站| 午夜国产大片免费观看| 精品久久国产综合精麻豆| 美女无遮挡免费视频网站| 一本色道久久88亚洲综合| 欧美精品亚洲二区| 久久久久久久久18禁秘| 欧美色图第一页| 欧美日韩国产在线播放| 久久一日本道色综合久久| 国产在线观看第二页| 国产乱人激情H在线观看| 亚洲制服丝袜第一页| 免费观看三级毛片| 激情无码字幕综合| 制服丝袜一区| 亚洲中文无码h在线观看| 毛片最新网址| 91免费国产高清观看| 男女性色大片免费网站| 毛片久久久|