999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PPO的機械臂控制研究方法

2021-03-22 17:05:34郭坤武曲張義
電腦知識與技術 2021年4期
關鍵詞:機械臂

郭坤 武曲 張義

摘要:目前應用于機械臂控制中有許多不同的算法,如傳統的自適應PD控制、模糊自適應控制等,這些大多需要基于數學模型。也有基于強化學習的控制方法,如:DQN(Deep Q Network)、Sarsa等。但這些強化學習算法在連續高維的動作空間中存在學習效率不高、回報獎勵設置困難、控制效果不佳等問題。論文對基于PPO(Proximal Policy Optimization近端策略優化)算法實現任意位置的機械臂抓取應用進行研究,并將實驗數據與Actor-Critic(演員-評論家)算法的進行對比,驗證了使用PPO算法的控制效果良好,學習效率較高且穩定。

關鍵詞:強化學習;機械臂;近端策略優化算法;Actor-Critic算法;離線學習

中圖分類號: TP301? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)04-0222-04

Abstract: In manipulator control, there are many different control methods, such as traditional adaptive PD control and fuzzy adaptive control, which are mostly based on mathematical models. There are also control methods based on reinforcement learning, such as DQN (Deep Q Network), Sarsa, etc. However, these reinforcement learning algorithms have some problems such as low learning efficiency, difficulty in setting rewards, and poor control effect in the continuous high-dimensional action space. According to Proximal Policy Optimization algorithm, the application of robot arm grasping at any position is studied, and the experimental data is compared with actor-critic algorithm, which proves that the PPO algorithm has good control effect, high learning efficiency and stability.

Key words: reinforcement learning; robot manipulator; proximal strategy optimization algorithm; Actor - Critic algorithm; offline learning

目前在機器學習領域,根據學習系統與環境交互方式的不同,機器學習大致上可分為三種學習方法——強化學習、監督學習、無監督學習[1]。在基于行為的智能機器人控制系統中,機器人是否能夠根據環境的變化進行有效的行為選擇是提高機器人的自主性的關鍵問題[2]。隨著信息技術的發展,以強化學習為代表的智能算法以其自適應特性越來越多運用于機器人控制領域[3,4]。其中機械臂控制作為機器人控制的重要模塊發展迅速,深度強化學習(DRL)的出現使得機械臂具備了自主學習能力[5],解決了機械臂只能通過固定程序完成任務,在復雜高維的環境中無法自適應訓練學習的問題。

在深度強化學習中,典型的優化策略有深度Q網絡(DQN)[6] 、深度SARSA(State Action Reward State Action)[7]和彩虹(Rainbow)[8]等。這些方法多用來處理離散動作低維度的問題,無法應用于機械臂抓取這類連續動作。雖然策略梯度(Policy Gradients)、演員-評論家(Actor-Critic)等方法,能應用于連續空間,但基于Actor-Critic算法的近似策略優化PPO(Proximal Policy Optimization)方法在處理學習率的問題上表現更加優異,能更好地應用于機械臂控制問題。

1 強化學習

強化學習是一種無監督學習方法,Agent 通過與動態環境的反復交互,學會選擇最優或近最優的行為以實現其長期目標[9]。Sutton 和 Barto 定義了強化學習方法的四個關鍵要素:策略、獎賞函數、價值函數、環境模型[10]。如圖1,Agent通過與Environment反復交互進行學習,每次交互中Agent采取某種動作傳入Environment,Environment根據傳入的動作向Agent提供觀測值以及獎勵值,來使Agent做出新的動作。強化學習的目的就是Agent通過與環境的不斷交互,來獲得最優的累計獎勵值。

如圖2所示,Agents分為三類,雖然Value-Based的強化學習可以有效完成連續狀態空間的問題,但它的動作空間仍是離散的,也無法學習隨機策略或應用到高維空間。而Policy-Based雖然能解決上述問題,但缺點是只能局部收斂且評估策略效率低方差很大。Actor-Critic結合了前兩種類型的優點,通過策略梯度的方法選擇動作,同時也保存在每個狀態所得到的獎勵。

2 Actor-Critic算法

Actor-Critic算法將Value-Based和Policy-Based結合,具有Actor和Critic兩種不同的體系,可以看作兩個不同的神經網絡。

此算法的主要思想是不使用reward來評估真實價值函數,而是利用Critic網絡來評價價值函數,用Policy函數作為Actor,生成動作與環境進行交互,Critic來評價指導觀察Actor的動作并做評價。Critic的評估action-value函數是基于[πθ]的近似如公式(1):

其中s為狀態,a為動作,[πθ]代表策略。所以Actor-Critic算法是遵循近似的Policy Gradient(策略梯度)如公式(2):

Critic網絡需要更新參數w,Actor網絡需要更新參數θ,基本的Actor-Critic算法流程如算法1所示:

算法1 Actor-Critic算法

輸入:[γ,α,β,θ,w]

輸出:optimized[θ,w]

1.Initialize:s,θ

2.Samplea~[πθ]

3.foreachstepdo

4.? Samplerewardr=[Ras];sampletransition[s'?Pas],

5.? Sample action [a'?πθs',a']

6.? [δ=r+γQws',a'-Qws,a]

7.? [θ=θ+α?θlogπθs,aQws,a]

8.? [w←w+βδ?s,a]

9.? [a←a',s←s']

10.end for

結束算法

Actor-Critic算法成比例的優化Critic模型,使它向著TD error(TD誤差)乘以特征的方向(誤差最小化)進行優化,此處的誤差指估計的價值和執行步驟后現實的價值之間的。Actor模型實際決定在環境中做什么,并向Critic模型認為價值高的方向優化。

3 PPO(Proximal Policy Optimization近端策略優化)算法

Actor-Critic采用在線更新方法,不能經驗回訪,PPO(Proximal Policy Optimization近端策略優化)基于Actor-Critic算法,應用Important-sampling實現離線更新。PPO在每步迭代中都更新新的策略,在保證損失函數最小的同時減少與上一步策略間差值,所以引用Important-sampling數學方法,在有連續隨機變量x,[px]、[qx]為概率密度,[fx]的期望表示如公式(3)所示:

[pxqx]為Importance Weight,是新舊策略在當前狀態s采取動作a對應的概率比。在ppo中的一個回合中不斷重復對[qx]充分采樣,來改進新策略[px],則N回合平均獎勵值的梯度為公式(4):

ppo在更新Actor時,使用clipped surrogate objective的方式,對[pθat|stpθ'at|st]進行clip操作,[clippθat|stpθ'at|st,1-?,1+?]([?]為可調超參數)。

算法2 PPO算法

輸入:[s]環境狀態

輸出:a動作

1.Initialize:Actor[A(s∣θA)]網絡、Critic[C(s,a∣θC)]網絡、Clip

2.for episode=1 to M do

3.? for t=1 to T do

4.? [at←A(s∣θA)]

5.? ?執行[at],獲得單步獎勵[rt]

6.? ?更新Actor網絡權重[θA]

7.? ?更新Critic網絡[θC]

8.? end for

9.end for

4 實驗設計與實現

4.1 實驗機械臂設計

本文使用python中pyglot可視化庫來構建二維機械臂環境來實現機械臂抓取控制。仿真環境參考了周沫凡的 2D機械臂仿真模型[11],在此基礎上對環境進行修改,使其更易于實現PPO的仿真實驗。如圖4所示,以o為中心點建立機械臂初始中心點,實驗中將始終繞o轉動,利用三角函數與設定L1、L2臂長計算每段手臂4個端點坐標,以便機械臂隨機生成轉動角α、β時記錄對應坐標。同時環境每次刷新目標位置也隨機生成,實現任意位置的機械臂抓取,不僅豐富訓練數據,也能測試算法的穩定性。

4.2 實驗參數設置

通過仿真環境獲取轉動角α、β與對應坐標關系,向三層全連接神經網絡輸入7維狀態空間(L1末端與o點水平距離和垂直距離、L2末端與o點水平距離和垂直距離、o點與仿真環境中心點水平距離和垂直距離、是否達到目標位置),輸出2個動作(關節轉動角度)。

因為稀疏的回報值學習效果很差,所以在設置獎勵回報時將離散回報值改寫為連續回報值,當機械臂L2末端(x2,y2)離目標位置(xo,yo)相對距離越近獎勵值越大,相對距離表示為Dabs=[x2-x02+y2-y02],獎勵回報值公式(5)如下:

4.3實驗效果與分析

實驗效果如圖5所示,在交互界面上可任意移動目標位置,機械臂都能準確地實現快速抓取,說明了PPO有良好的學習效果。

在將Actor學習率、Critic學習率、訓練次數、訓練網絡單次提取的數據Batch_size、衰減率等共有參數均保持相同的情況下,比較 PPO與Actor-Critic深度強化學習算法,驗證PPO更適用于機械臂控制。

圖6、7分別表示PPO與Actor-Critic前1000集獎勵函數圖,雖然顯示兩種算法都能在該環境中達到良好學習效果,但 PPO能在更少的集數中取得最更大的獎勵值,與Actor-Critic比較收斂速度提高了27.58%學習效率更高,且明顯獲得的獎勵值更高。

圖8表示了兩種算法訓練最后100集所用步數,共分為10組對比區間內累計step。Actor-Critic的平均步數是117.28,PPO的平均步數是101.96,通過對比發現PPO所使用的step更少并且數據波動浮動相對穩定,訓練效果更好。

5 結束語

本文通過實現基于PPO算法的機械臂任意位置抓取,根據成功訓練出的仿真結果與 Actor-Critic算法實現的數據對比,分析應用在機械臂實驗中強化學習算法效果,驗證了PPO能實現良好的學習效果,學習效率較高且穩定。

參考文獻:

[1] 褚建華. Q-learning強化學習算法改進及其應用研究[D].北京化工大學,2009.

[2] 秦志斌,錢徽,朱淼良.自主移動機器人混合式體系結構的一種Multi-agent實現方法[J].機器人,2006,28(5):478-482.

[3] Liu Q, Zhai J W, Zhang Z C, et al. Review of deepreinforcement learning[J]. Chinese Journal of Computers,2018(1): 1-27.

[4] Wang S, Chaovalitwongse W, Babuska R. MachineLearning Algorithms in Bipedal Robot Control[J]. IEEETransactions on Systems Man & Cybernetics Part C, 2012,42(5):728-743.

[5] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J].計算機學報,2018,41(1):1-27.

[6] Mnih V,Kavukcuoglu K,Silver D,et al.Human-levelcontrol through deep reinforcement learning[J].Nature,2015,518(7540):529-533.

[7] Zhao D,Wang H,Shao K,et al.Deep reinforcementlearning with experience replay based on sarsa[C]//Proceedings of the 2016 IEEE Symposium Series on Computational Intelligence(IEEE-SSCI),2016:1-6.

[8] Hessel M,Modayil J,Van Hasselt H,et al.Rainbow:combining improvements in deep reinforcement learning[J].arXiv preprint arXiv:1710.02298,2017.

[9] Wang Z,Shi Z,Li Y,et al. The optimization of path planning for multi-robot system using Boltzmann Policy based Q-learning algorithm[C]/ /2013 IEEE International Conferenceon Robotics and Biomimetics(ROBIO). Shenzhen,2013:1199 -1204.

[10] Sutton, R, Barto, A. Reinforcement Learning: An Introduction[M]. MIT Press, 1998.

[11] Morvanzhou. Train a robot arm from scratch[Z]. 2017: [2018-10-4].

【通聯編輯:唐一東】

猜你喜歡
機械臂
一種六自由度機械臂的控制系統設計
碼頭集裝箱機械臂的研究與設計
書畫手臂的模型設計
六自由度機械臂控制系統設計
求知導刊(2017年1期)2017-03-24 22:25:58
基于無人機平臺的垃圾搜索及拾取系統設計
物聯網技術(2017年2期)2017-03-15 17:04:47
基于智能車技術的圖書館書籍整理機器人
機械臂平面運動控制與分析
機械臂工作空間全局相對可操作度圖的構建方法
人機交互課程創新實驗
計算機教育(2016年7期)2016-11-10 09:01:27
定點巡視與帶電清理平臺的研究與設計
主站蜘蛛池模板: 免费毛片视频| 亚洲成a∧人片在线观看无码| 高清大学生毛片一级| 欧美日韩动态图| 色婷婷啪啪| 国产成人免费观看在线视频| 99这里只有精品免费视频| 无码电影在线观看| 77777亚洲午夜久久多人| 欧美日本在线| 无码又爽又刺激的高潮视频| 亚洲色图欧美视频| 亚洲视屏在线观看| 日本www色视频| 欧美成人亚洲综合精品欧美激情| 亚洲人成色在线观看| 国产精品无码影视久久久久久久| 亚洲精品自在线拍| 青草娱乐极品免费视频| 91精品国产自产91精品资源| 国产在线观看人成激情视频| 亚洲性一区| 99久久精品免费视频| 午夜a视频| 精品亚洲欧美中文字幕在线看| 老熟妇喷水一区二区三区| 亚洲人成网站观看在线观看| 午夜人性色福利无码视频在线观看| 精品国产一区91在线| 女人爽到高潮免费视频大全| 亚洲AV无码久久精品色欲| 黄色网页在线观看| 欧美亚洲一区二区三区在线| 亚洲欧洲一区二区三区| 国产制服丝袜91在线| 人妻中文字幕无码久久一区| 国产00高中生在线播放| 日韩视频免费| 国产网友愉拍精品| 97久久精品人人| 毛片在线看网站| 久久黄色视频影| 久久精品只有这里有| 中文字幕日韩久久综合影院| 亚洲一区毛片| 亚洲第一成年网| 国产欧美综合在线观看第七页 | 亚洲综合婷婷激情| 国产区福利小视频在线观看尤物| 无码精品一区二区久久久| 成人福利在线观看| 国产免费福利网站| 亚洲人成色在线观看| 免费在线不卡视频| 亚洲欧美国产高清va在线播放| 国产男女XX00免费观看| 999福利激情视频| 欧美 国产 人人视频| 免费看美女毛片| 免费一极毛片| 精品一区国产精品| 亚洲不卡影院| av尤物免费在线观看| 国产福利观看| 中文字幕第1页在线播| 亚洲最大情网站在线观看| 国产性生大片免费观看性欧美| 亚洲美女一区二区三区| 亚洲综合久久成人AV| 91年精品国产福利线观看久久 | 色综合综合网| 亚洲中文字幕av无码区| 欧美一区中文字幕| 99中文字幕亚洲一区二区| 日本欧美一二三区色视频| 精品人妻AV区| 亚洲视频色图| 成人免费一级片| 亚洲第一成年免费网站| 国产一区二区影院| 日a本亚洲中文在线观看| 夜精品a一区二区三区|