999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的空間機械臂控制方法

2021-01-08 13:14:34李鶴宇林廷宇施國強
航天控制 2020年6期
關鍵詞:機械

李鶴宇 林廷宇 曾 賁 施國強

1. 北京電子工程總體研究所,北京 100854; 2. 北京仿真中心,北京 100854

0 引言

隨著航天事業的不斷發展,太空垃圾清理、航天器維修、裝備組裝成為研究熱點。空間機械臂由于具有良好的適應性和擴展性,能夠在復雜場景下,完成多種類型任務,被廣泛應用于航天領域。針對空間碎片對在軌航天器的安全造成威脅的問題,使用空間機械臂捕獲非滾轉的目標[1-2]。SpiderFab計劃采用7自由度的空間機械臂,通過人員遙控的方式實現全自主模式下的在軌制造與組裝[3]。RAMST計劃在地球軌道上,通過遙操作的方式實現模塊化天基望遠鏡的在軌裝配[4]。裝配于國際空間站的雙機械臂空間機器人系統Dextre、Robonaut2,利用雙臂的協同性,能夠執行更加復雜的任務[5-6]。

為使得空間機械臂應對復雜的任務需求,需要不斷優化控制算法,提高系統的魯棒性與精確性。文獻[7]將末端執行器與目標相對速度的絕對值作為目標函數,使用最優控制的方法解決空間機器人捕獲航天器的問題。文獻[8]提出一種凸規劃控制方法,用于控制空間機械臂捕獲翻滾航天器。文獻[9]建立碰撞避免模型,提出一種主動抑制干擾的控制算法,用于避免碰撞。文獻[10]提出一種基于運動學的自適應控制方法,用于存在閉環約束和有效載荷慣性參數不確定的空間雙機械臂控制問題。文獻[11]使用絕對節點坐標法描述柔性體,建立末端帶集中質量的雙連桿柔性機械臂的動力學模型,采用PD控制策略實現了機械臂的運動跟蹤控制。文獻[12]運用非慣性系下的拉格朗日分析力學建立空間機械臂系統動力學方程,針對空間機械臂載體自由繞飛空間目標的情形,設計抓取目標的尋的制導控制規律。

隨著計算能力的發展和數據資源的增加,用于決策問題的深度強化學習成為研究熱點,出現DQN (Deep Q-network)[13]、DDPG (Deep Deterministic Policy Gradient)[14]、TRPO (Trust Region Policy Optimization)[15]、A3C (Asynchronous Advantage Actor-Critic)[16]、DPPO (Distributed Proximal Policy Optimization)[17-18]等算法。將深度強化學習應用于控制領域,產生了良好的效果。文獻[19]對DDPG算法進行修改,并結合人工演示,使用深度強化學習控制機械臂完成插銷入洞的任務。文獻[20]在仿真環境中對TRPO算法進行訓練,并將神經網絡遷移至ANYmal機器人,實現四足控制。文獻[21]不依賴于先驗知識對PPO算法進行訓練,并將訓練結果遷移至多指靈巧手機器人,實現翻轉立方體。文獻[22]使用Q-learning的方法訓練最大熵策略,并應用于實際機器人的操縱,實現較高的樣本效率。

本文在虛擬環境中對神經網絡進行訓練,實現使用深度強化學習的方法控制空間機械臂,移動其抓手至物體下方特定位置。構建虛擬環境,包括5軸空間機械臂和目標物體,作為神經網絡的訓練環境,為算法提供數據支撐。設置狀態變量表示當前環境信息,作為深度強化學習算法的輸入,深度強化學習根據狀態變量計算輸出值,設置獎勵函數對輸出值進行評價,并由評價結果對神經網絡的參數進行修改,實現學習過程。

1 PPO算法

在policy gradient算法中,神經網絡的參數為θ,對應的策略為π,在一個完整的決策過程中,共包含T個步驟,神經網絡不斷與環境交互,形成序列τ:

τ={s1,a1,s2,a2,…,sT,aT}

(1)

式中:st∈Rn(t=1,2,…,T)為當前環境的狀態向量,at∈Rm(t=1,2,…,T)為針對si神經網絡的動作輸出向量。由于神經網絡在相同狀態下可能得到不同的輸出,因此序列τ發生的概率為:

(2)

式中:p(s1)為當前環境的初始狀態為s1的概率,pθ(at|st)為環境狀態為st、神經網絡參數為θ時,輸出為at的概率,p(st+1|st,at)的狀態為st時,通過動作輸出at得到新的環境狀態為st+1的概率。

在策略為π時,神經網絡能獲得的期望獎勵值為:

(3)

式中:pθ(τ)為神經網絡參數為θ時,τ的概率分布,R(τ)為序列τ對應的獎勵值。獎勵對應的梯度為:

(4)

(5)

式中:θ′為收集數據的神經網絡的參數,E(st,at)~πθ表示神經網絡參數為θ時,由(st,at)計算得到的期望值,Aθ(st,at)為優勢函數。如果θ′神經網絡和θ神經網絡在相同狀態下得到的輸出概率分布相差較大,則需要大量的采樣才能保證算法的有效性,因此在目標函數中加入θ′神經網絡和θ神經網絡的KL散度,最終的目標函數為:

(6)

式中:β為KL散度的系數,DKL(θ,θ′)為參數為θ和θ′神經網絡輸出概率分布的差異。

2 基于PPO的控制算法

2.1 系統組成

本文致力于使用PPO算法對空間機械臂進行控制,完成將空間機械臂抓手移動至物體下方的目的。系統包括PPO算法和訓練環境2部分,訓練環境由空間機械臂和目標物體組成。設置合理的狀態變量和獎勵函數用于PPO算法和訓練環境的交互,PPO算法根據模型的狀態變量做出控制決策,獎勵函數對控制決策進行評價,如果是好的控制決策,則通過調整神經網絡的參數增加決策出現的概率,反之則通過調整參數降低決策出現的概率,系統結構如圖1所示。

圖1 系統結構圖

2.2 訓練環境

訓練環境包括空間機械臂和目標物體2部分,物體位于空間機械臂正前方,空間機械臂包含5個關節,每個關節能夠在[0°,360°)的范圍內自由旋轉,相鄰關節間的連桿長度固定,通過控制關節的旋轉,可以在有限范圍內移動空間機械臂末端插盤式抓手至任意位置。

使用Unity設置空間機械臂每個連桿的長度、關節的旋轉角度、底座的坐標、物體的中心坐標和尺寸,完成訓練環境的構建。物體放置于固定的位置,空間機械臂每次初始化時每個關節保持固定的角度,界面如圖2所示。在PPO算法的獎勵函數中考慮碰撞事件,因此在Unity中使用盒子碰撞器實現碰撞檢測功能,將盒子碰撞器加入到空間機械臂模型的各個部分監控碰撞事件,當發生碰撞時,碰撞器發出碰撞捕獲信號和碰撞位置信息。

圖2 仿真環境界面

2.3 基于PPO的控制決策算法

使用PPO控制空間機械臂進行運動,將抓手移動至物體下方,需要設置合理的狀態變量和獎勵函數,其中狀態變量用于表示當前環境的信息,神經網絡據此對空間機械臂進行控制,輸出5個軸的轉動角度,獎勵函數對神經網絡的控制決策進行評價,從而調整神經網絡的參數,完成學習過程。

(7)

代表環境信息的狀態變量共79維:

(8)

式中:jn為世界坐標系中原點指向空間機械臂關節中心的向量,ttarget為世界坐標系中原點指向目標物體中心坐標的向量,f為世界坐標系中原點指向機械臂基座中心的向量,tm為世界坐標系中原點指向物體下方選定點的向量,hm為世界坐標系中原點指向抓手上方選定點的向量,dcol為碰撞發生情況。

獎勵函數分為2個階段。第1個階段引導空間機械臂抓手移動至物體下方特定位置:

(9)

(10)

第2階段引導抓手從物體正下方向上移動至特定位置:

(11)

(12)

(13)

3 仿真校驗

為驗證本文算法的效果,從算法收斂時間、訓練周期獎勵值,以及神經網絡參數收斂后機械臂抓手與物體下表面距離等方面進行對比。

對不同控制方法的收斂時間進行統計。傳統控制方法需要根據特定任務進行調試,調試時間84.0h。訓練所使用的計算機處理器為Intel(R) Core(TM) i5-9300H,顯卡為NVIDIA GeForce GTX 1650,基于DDPG算法實現的機械臂控制算法的學習過程需要33.2h[23],本文所使用的基于PPO算法的學習過程需要26.1h。相比于經典的控制算法,本文算法的學習過程能夠節約68.9%的時間,相比基于DDPG的控制算法,本文算法的學習過程能夠節約21.4%的時間。

其次,統計訓練過程中每個周期得到的獎勵值,如圖3所示,橫軸表示一次訓練中的周期數,縱軸表示每個周期獲得的獎勵值。獎勵值小說明該周期做出錯誤的控制決策,獎勵值大說明該周期做出正確的控制決策。

圖3 三種系統突然加負載時的動態響應

由于PPO算法采用離線訓練的方式,因此能夠有效縮短數據積累階段,在訓練開始后,快速進入學習階段。從圖中可以看出,隨著訓練的進行,單個周期獲得的獎勵值逐漸增加,說明神經網絡通過與環境的交互,利用獎勵值正確地修改自身參數,逐漸做出正確的控制決策,最終獎勵值趨于穩定,說明此時神經網絡的參數收斂,達到穩定的控制效果。在訓練過程中獎勵值會出現波動,這主要是由于PPO算法在接收狀態變量后,根據不同動作的概率得到輸出,因此存在較小的概率輸出錯誤的動作,即出現獎勵值的波動。由于PPO通過神經網絡生成一個關于不同控制決策的概率,因此在一個周期內,不一定會選擇最優決策,因此曲線不是平滑的,會出現獎勵值階躍式變化的情況。

最后對比在訓練完成后,即神經網絡參數穩定時,基于DDPG的控制算法和本文算法的控制穩定性。統計30個控制指令中機械臂抓手與物體下方特定位置的相對距離,如圖4所示,其中虛線代表基于DDPG的控制算法,實線代表本文算法,實線波動范圍更小,說明訓練完成后,本文算法能夠達到更穩定的控制效果,因為對獎勵函數的細化,有效抑制了控制中的抖動現象。

圖4 機械臂抓手與物體下方特定位置的相對位置

4 結論

提出一種基于深度強化學習的機械臂控制算法。首先為深度強化學習搭建訓練環境,包括機械臂和目標物體2部分,其次構建PPO算法,并設置合理的狀態變量和獎勵函數,用于神經網絡的訓練。通過驗證,本文算法能夠在較短時間內收斂,提高效率,并且具有穩定的控制效果,能夠有效抑制抖動現象。

猜你喜歡
機械
《機械工程師》征訂啟事
太空里的機械臂
機械革命Code01
電腦報(2020年35期)2020-09-17 13:25:53
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
ikbc R300機械鍵盤
電腦報(2019年40期)2019-09-10 07:22:44
對工程建設中的機械自動化控制技術探討
基于機械臂的傳送系統
電子制作(2018年14期)2018-08-21 01:38:14
簡單機械
土石方機械的春天已經來了,路面機械的還會遠嗎?
機械班長
主站蜘蛛池模板: 国产成人乱码一区二区三区在线| 香蕉99国内自产自拍视频| 伊人久久婷婷五月综合97色| 国产成人AV综合久久| 亚洲男人天堂久久| 国产无码制服丝袜| 欧美日韩国产一级| 精品国产网| 国产成人精品一区二区秒拍1o| 国产高清在线精品一区二区三区| 欧美中文字幕一区二区三区| 亚洲精品777| 国产av剧情无码精品色午夜| 欧美影院久久| 69国产精品视频免费| a级毛片在线免费| 亚洲人成成无码网WWW| 亚洲天堂日韩在线| 国产乱人免费视频| 日韩一区二区三免费高清| 女人av社区男人的天堂| 情侣午夜国产在线一区无码| 香蕉色综合| 在线观看免费黄色网址| аⅴ资源中文在线天堂| 国产第一色| 好吊妞欧美视频免费| 国产原创演绎剧情有字幕的| 国产人碰人摸人爱免费视频| 欧美在线视频不卡第一页| 欧美成人午夜视频| 国产日韩精品一区在线不卡 | aa级毛片毛片免费观看久| 国产JIZzJIzz视频全部免费| 国产精品污视频| 欧美啪啪网| 一区二区三区毛片无码| 成人精品视频一区二区在线| 国产精品内射视频| 丁香六月综合网| 午夜精品一区二区蜜桃| 全部免费特黄特色大片视频| 正在播放久久| 亚洲国产欧美国产综合久久| 五月丁香伊人啪啪手机免费观看| jizz亚洲高清在线观看| 精品一区二区三区四区五区| 怡红院美国分院一区二区| 国产精品专区第一页在线观看| 亚洲A∨无码精品午夜在线观看| 久久久久久高潮白浆| 啪啪免费视频一区二区| 国产精品午夜福利麻豆| 亚洲乱亚洲乱妇24p| 一本久道热中字伊人| 亚洲欧美一区二区三区麻豆| аⅴ资源中文在线天堂| 国产亚洲精品资源在线26u| 国产麻豆va精品视频| 欧美无遮挡国产欧美另类| 91娇喘视频| 亚洲成年人网| 高清色本在线www| 日韩天堂网| 99精品视频在线观看免费播放| 久久精品国产一区二区小说| 久久综合一个色综合网| 亚洲精品黄| 婷婷中文在线| 一级毛片视频免费| 99人妻碰碰碰久久久久禁片| 色爽网免费视频| av尤物免费在线观看| 亚洲最新网址| 热这里只有精品国产热门精品| 亚洲日韩日本中文在线| 精品国产网站| 综合色在线| 亚洲中文字幕国产av| 色婷婷啪啪| 伦伦影院精品一区| 丁香六月激情综合|