999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的機械臂自主視覺感知控制方法

2021-11-13 01:56:56胡春陽王恒史豪斌
西北工業大學學報 2021年5期
關鍵詞:機械智能環境

胡春陽, 王恒, 史豪斌

(1.湖北文理學院 計算機工程學院, 湖北 襄陽 441053; 2.西北工業大學 計算機學院, 陜西 西安 710129)

傳統的機械臂控制方法幾乎都是按照人為預設軌跡來完成特定的任務目標。近些年來隨著人工智能技術的發展,將人工智能技術應用在機械臂控制,實現復雜動態環境下的機械臂智能控制成為一個熱門的研究方向。

智能控制的目標就是構建出一個能夠自主學習適應新環境的系統,強化學習[1]憑借著其自身特點是實現這一目標的關鍵技術。深度神經網絡和強化學習相結合組成的深度強化學習在游戲決策任務上已經取得了非常大的成功。Google DeepMind團隊最早提出深度神經網絡與強化學習相結合的深度Q網絡[1]在Atari游戲決策控制上獲得了出色的表現,從此開啟了深度強化學習的時代。其后又逐漸涌現了能夠處理連續動作空間問題的深度確定性策略梯度算法(DDPG)[3]、近端策略優化算法(PPO)[4]、異步優勢演員評論家算法(A3C)[5]等強化學習算法模型。

深度強化學習在游戲行為決策任務上表現得非常成功,并增強了強化學習的可解釋性[6],很大一部分決定性因素在于游戲環境中獎勵函數通常能夠直接給出,并且能夠直接用來優化。但是在機械臂控制環境中獎勵設置往往是當智能體完成某一個任務目標時,環境給予一個正反饋,其他情況下沒有反饋。由于智能體起初是隨機地在環境中進行探索,絕大多數探索步驟沒有獎勵回饋,強化學習模型訓練時很難收斂,并且當智能體所處的環境發生動態變化時會極大加劇這一狀況。為了解決以上2個問題,Schaul等提出了通用價值函數逼近器[8],算法將目標狀態作為計算獎勵的中間媒介,可以根據不同的目標對當前的狀態進行估計,獲得狀態-目標值函數V(s,g|θ),使得智能體學習到從任意狀態s到達任意目標g的策略。受到統一函數逼近器算法的啟發,Andrychowicz等提出了后視經驗重現算法(HER)[9],算法可以與任意的離線策略強化學習算法模型相結合,從失敗中進行學習,通過不斷采樣新目標g′來解決稀疏獎勵問題,同時也能夠使得模型最終在環境E中學習到從任意狀態s到達任意目標g的策略。Hester等提出了基于示范數據的深度Q網絡算法模型(DQfD)[10],解決了復雜動態變化環境和稀疏獎勵導致傳統強化學習算法難以收斂的問題。Vecerik等提出了基于示范數據的深度確定性策略梯度算法模型[11]填充了DQfD不能處理連續動作空間的缺陷,在機械臂控制的仿真實驗中有著不錯的表現。但是這些算法依賴于精確的環境模型,不能對所處環境自適應感知,并且在大規模狀態空間的訓練過程中隨機探索方案已經不太可行。

針對以上問題,本文采用YOLO[12]目標檢測算法感知當前環境狀態,將環境中目標感知模塊與控制系統解耦,直接利用機械臂上方的攝像設備捕捉并計算獲得拾取目標位置信息,接下來收集一系列仿真環境下人類操控機械臂的行為作為示范數據,在仿真環境中對機械臂控制強化學習算法模型進行監督學習預訓練,即:模仿人類行為學習到部分控制策略[13-14],在此基礎上結合DDPG與HER算法,對仿真環境中的機械臂進行控制,最終實現端到端的機器視覺-強化學習控制模型。

1 背 景

1.1 馬爾可夫決策過程

(1)

在強化學習算法中使用狀態值函數Vπ(s)來表示在當前狀態s按照策略π進行探索的期望回報,該值函數具體定義如(2)式所示

(2)

1.2 深度強化學習算法

深度強化學習算法即深度學習與強化學習相結合的產物,DQN[1]是一個非常具有代表性的非基于模型的深度強化學算法,主要用來解決智能體在離散動作空間的決策問題。DQN中定義了一個策略網絡Qe和一個目標網絡QT,策略網絡用來估計狀態行為值函數Q*,行為決策方式如(3)式所示

(3)

實際訓練中通常使用ε貪心策略給予智能體一定的隨機探索概率,使得智能體每次以概率ε隨機選擇動作,以(1-ε)的概率策略πQe選擇確定動作a。訓練時在t時刻進行探索產生一條經驗e=(st,at,rt,st+1)存儲在經驗池中,為了使得訓練樣本間盡可能相互獨立,網絡訓練采用隨機策略從經驗池中抽取一個批次數據進行訓練。定義損失函數:L=E(Q(st,at|θe)-yt)2,yt的定義如(4)式所示

yt=rt+γQT(st+1,at+1;θT)

(4)

式中

(5)

由于E[max(Q)]>maxE[Q],上述估計Q值的方式會產生過估計,Hasselt等在文獻[7]中重新對(5)式的行為選擇重新進行定義

(6)

在學習率為α時損失函數L的梯度以及參數θe的優化如下式

θL=E[Q(st,at|θe)-yt)θQ(st,at;θ)]

(7)

θ←θ-aθL

(8)

根據時序差分更新策略,經過t輪時間迭代后執行一次目標網絡參數θT的更新:θT←θe。

傳統的深度強化學習算法在解決較為簡單的決策任務上具有非常好的效果,但是處理復雜的控制任務時通常會存在稀疏獎勵的問題,導致模型難以收斂。因此通常在處理復雜的決策控制問題時會結合HER算法來加速模型收斂速度。

2 算法流程

端到端的機械臂自主視覺感知控制算法主要由視覺感知算法模塊和決策控制算法模塊組成。

1) 視覺感知算法模塊

視覺感知模塊使用YOLO-v5算法,不同于其他的兩階段系列目標檢測算法,YOLO將物體檢測作為一個回歸問題求解,算法將輸入圖像M劃分成n×n的網格,每個網格負責識別目標中心落在其中的對象,經過一次神經網絡F的計算推理,便能輸出圖象中所有物體的位置信息O、類別信息C以及置信概率P,M×F→(O,C,P)。這是一個典型的結構化機器學習算法,根據模型結構,相應的其損失函數也包括三部分:坐標誤差coordError、IOU誤差iouError以及分類誤差classError。損失函數L的定義如(9)式所示

(9)

在實驗的單個目標識別中,分類誤差classError表示目標和背景分類誤差。視覺感知網絡使用在COCO數據集上預訓練的權重來初始化,在此基礎上來訓練我們標注的機械臂識別目標數據集。

通過目標識別能夠確定當前目標相對于攝像機的具體位置信息(x1,y1,C)其中C為高度固定常量,即載物臺相對于機械臂夾口初始狀態的高度。接下來使用透視變換算法將其轉換為目標相對于載物臺具體的坐標信息(x2,y2,C)。透視變換是把一個圖像投影到一個新的視平面過程,是一個非線性變換,包括:將一個二維坐標系轉換為三維坐標系,然后將三維坐標系投影到新的二維坐標系。變換過程如(10)式所示。

[x2,y2,C]=[x1,y1,C]×T

(10)

式中,T為變換矩陣

(11)

給出4個對應像素的坐標點即可求出變換矩陣T。變換結果如圖1所示。

圖1 透視變換得到目標相對于載物臺的準確XOY平面坐標信息

2) 決策控制算法模塊

決策控制模塊采用DDPG強化學習算法,為加速DDPG算法的收斂速度,采用模仿學習的方式首先從人類手動控制的經驗數據中進行預學習訓練,學習到部分初始的控制策略,接下來使用DDPG算法讓機械臂自主的在環境中學習。DDPG有2個網絡結構:一個行為網絡(Actor)π1:S→A和一個評估網絡(Critic)π2:S×A→R,類似于DQN,Actor網絡由決策估計μ(s|θμ)和決策期望μ(s|θμ′)組成,Critic網絡由估計網絡Q(s,a|θQ)和目標Q(s,a|θQ′)組成。Critic網絡的工作就是評估在當前狀態s,Actor網絡所做出的決策a的好壞。對于任意當前輸入狀態st,通過Actor網絡選取行為at=μ(s|θμ)+Nt, 其中Nt為隨機噪聲,執行此行為獲得獎勵rt,接著再使用Critic網絡對當前狀態st采取行為at進行打分評估,以此來不斷優化Actor網絡與Critic網絡,完成整體DDPG算法的優化收斂。優化目標如(12)式所示

(12)

優化過程如圖2所示。

圖2 DDPG算法整體優化過程

定義DDPG的Critic網絡損失函數L如(13)式所示

L=E(Q(st,at|θQ)-yt)2

(13)

式中

yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′

(14)

Actor網絡使用梯度上升的方式優化θμ,θμ梯度求解方式如(15)式所示。

經歷k輪優化之后,使用軟更新[3]的策略優化目標網絡中的參數,如(16)~(17)式所示。

在訓練過程為了解決稀疏獎勵問題,引入了HER算法,DDPG網絡輸入的不僅僅是當前時刻的狀態st,還包括了要實現的目標gt,Actor網絡策略被重新定義為:π:S×g→A,當且僅當機械臂執行Actor網絡輸出的行為at到達的下一個狀態st+1與gt相等時環境會給予一個獎勵。Critic網絡策略重新定義為:π:S×A×g→R。機械臂每歷經一輪探索,HER算法便會從歷史經驗池中進行一次目標采樣,產生m條新的經驗,并且按照(18)式的規則重新計算獎勵獎勵值r,將其放到經驗池中。最終使得智能體學到了從任意狀態s到達任意目標g的策略,且解決了訓練過程中稀疏獎勵的問題。算法具體流程如算法1所示。

(18)

算法1IL-DDPG-HER算法

1. 初始化DDPG參數:θ,θ′,μ,μ′;

初始化YOLO網絡參數m;

初始化迭代參數n1,n2,n3,n4;

初始化經驗回放池R;

2.創建YOLO目標定位訓練數據集S;

創建模仿學習示范數據集D;

∥訓練YOLO目標定位神經網絡

3. for episode=1 ton1do

4.隨機從樣本集S中抽取一個批次b;

5.訓練YOLO網絡參數m;

6.end for;

∥模仿學習部分

7. for episode=1 ton2do

8.隨機從樣本D中抽取一個批次b;

9.監督學習訓練DDPG網絡參數θ,μ;

10.end for;

11.模仿學習訓練完成得到初始策略A;

∥強化學習訓練部分

12.for episode=1 ton3do

13. fort=1 toT-1 do

14.攝像設備捕捉輸入圖像i;

15.YOLO網絡定位目標所在圖像位置;

16.透視變化算法獲取目標坐標信息st;

17.使用策略A獲取行為at=A(st‖g);

18.執行at得到新的狀態st+1,并獲得獎勵值rt;

19.存儲(st‖g,at,rt,st+1‖g)到R中;

20.HER算法重新采樣新目標,計算獎勵值存儲到R中;

21.end for;

22. fort=0 ton4do

23.從經驗回放池R中隨機采樣一個批次B;

24.在B上對策略A進行優化;

25. end for;

26. end for;

3 實驗設計與分析

為驗證提出的端到端的識別-控制算法模型,采用OpenAI Gym Robotics的FetchPickAndPlace-v1機械臂三維空間控制實驗仿真環境,如圖3所示。實驗首先通過人為控制機械臂完成相應的拾取-放置任務,收集人類操作經驗來讓機械臂預學習,接下來按照算法流程的獎勵函數設計讓其進行自主學習探索,最終學習到自主決策的能力。整個流程可解耦為自主視覺感知和強化學習控制兩部分。

圖3 機械臂三維空間控制仿真環境

3.1 目標識別與定位實驗

仿真環境中攝像設備捕捉到載物臺的圖像數據,接下來借助Roboflow工具標注創建YOLO目標檢測網絡訓練所需數據集,在仿真環境中訓練了黑色塊目標檢測,經過對象識別與定位訓練之后,算法模型便能夠實現一般環境下黑塊目標的識別與定位,最后通過透視變化算法即可獲取物體在載物臺上具體位置坐標信息,如圖4所示。由此以來拾取對象位置信息不再依賴于仿真環境主動提供,直接由系統目標識別檢測模塊獲得。實驗在YOLOv5-s的預訓練權重基礎上對我們所識別定位的對象進行訓練,在100個批次訓練后mAP值、準確率、召回率上都能夠達到較好的預期效果,如圖5所示。

圖4 YOLO目標檢測輸入數據

圖5 目標定位損失、目標識別損失、精確度、召回率、校驗集目標定位損失、校驗集目標識別損失,mAP 0.5以及mAP∈[0.5,0.95]

3.2 強化學習策略控制實驗

D={(s1,a1),(s2,a2),(s3,a3),…}

繼而將狀態s作為輸入特征,動作a作為輸出的預測值,在連續狀態空間的機械臂控制任務上當成一個回歸問題來求解,使得模型在使用強化學習算法自主學習之前已經具備部分先驗知識,以此來加速強化學習算法的收斂速度。最后讓機械臂自主的開始在環境中探索,不斷學習強化自身決策控制能力。實驗對比分析了IL-DDPG-HER算法和DDPG-HER算法訓練智能體執行任務的成功率,如圖6所示。可以得到IL-DDPG-HER算法執行拾取-放置任務上的成功率收斂速度更快。

圖6 機械臂拾取-放置任務IL-DDPG-HER與DDPG-HER成功率實驗對比分析

4 結 論

本文通過將計算機視覺技術與強化學習相結合,使得智能體具備自主感知真實環境的能力,這在機械臂拾取-放置任務有著非常重要的意義,尤其是在適應動態變化環境上,機器視覺-強化學習的端到端控制模型讓智能體感知環境的能力與智能決策能力解耦,在應對復雜變化的環境時,可直接對環境感知網絡進行重新訓練,而決策網絡無需做任何改動。并且隨著計算機視覺技術的成熟發展,視覺感知模型的訓練已經不再是往日的時間“消耗戰”,往往能夠在普通設備上稍作訓練即可滿足普通的目標定位任務。

未來的視覺感知研究可以加入雙目甚至多目攝像頭,或者是其它的深度感知傳感器,來完成3D空間任意位置的目標感知,結合已經訓練好的強化學習模型,最終讓智能體完成更加復雜的控制決策任務。

猜你喜歡
機械智能環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
孕期遠離容易致畸的環境
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
簡單機械
主站蜘蛛池模板: 激情午夜婷婷| 日韩大片免费观看视频播放| 亚洲成综合人影院在院播放| 亚洲欧美h| 国产JIZzJIzz视频全部免费| 亚卅精品无码久久毛片乌克兰 | 91欧美在线| 日韩久草视频| 欧美伊人色综合久久天天| 精品99在线观看| 欧美第一页在线| 五月婷婷中文字幕| 中字无码av在线电影| 97精品久久久大香线焦| 日本www在线视频| 久久久久久久久18禁秘 | 四虎精品免费久久| 亚洲欧美成人网| 中文字幕乱码二三区免费| 国产美女91呻吟求| 欧美丝袜高跟鞋一区二区| 奇米精品一区二区三区在线观看| 91黄视频在线观看| 熟女日韩精品2区| 永久天堂网Av| 色爽网免费视频| 国产精品部在线观看| 99999久久久久久亚洲| 亚洲天堂色色人体| 国产白丝av| 国产区免费精品视频| 欧美综合中文字幕久久| 精品欧美一区二区三区久久久| 国产成人亚洲综合A∨在线播放| 欧美a在线| 午夜不卡视频| 91国内在线视频| 国产网站免费| 青草精品视频| 天天色综网| 四虎精品免费久久| A级全黄试看30分钟小视频| 欧美啪啪视频免码| 国产屁屁影院| 亚洲中文精品久久久久久不卡| 免费国产在线精品一区| 久久这里只有精品66| 亚洲综合九九| 日韩欧美国产精品| 毛片免费在线视频| 72种姿势欧美久久久大黄蕉| 久久频这里精品99香蕉久网址| 国产一级毛片高清完整视频版| 亚洲美女高潮久久久久久久| 欧美色伊人| 久久久久久久蜜桃| 不卡午夜视频| 久久久久国色AV免费观看性色| 日韩二区三区无| 亚洲人视频在线观看| 久久香蕉国产线| 国产在线91在线电影| 成色7777精品在线| 亚洲国产第一区二区香蕉| 国产一区二区精品高清在线观看| 日本在线免费网站| 草逼视频国产| 欧美在线综合视频| 国产精女同一区二区三区久| 91极品美女高潮叫床在线观看| 国产三级毛片| 高清精品美女在线播放| 国产69囗曝护士吞精在线视频 | 粉嫩国产白浆在线观看| 日本午夜精品一本在线观看| 久草中文网| 伊人成人在线| 美女被躁出白浆视频播放| 亚洲网综合| 亚洲无码37.| 欧美综合成人| 国产精品中文免费福利|