999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于目標的域隨機化方法在機器人操作方面的研究

2022-12-31 00:00:00張夏禹陳小平
計算機應用研究 2022年10期

摘要:使用強化學習解決機器人操作問題有著諸多優勢,然而傳統的強化學習算法面臨著獎勵稀疏的困難,且得到的策略難以直接應用到現實環境中。為了提高策略從仿真到現實遷移的成功率,提出了基于目標的域隨機化方法。使用基于目標的強化學習算法對模型進行訓練,可以有效地應對機器人操作任務獎勵稀疏的情況,得到的策略可以在仿真環境下良好運行。與此同時在算法中還使用了目標驅動的域隨機化方法,在提高策略泛用性以及克服仿真和現實環境之間的差距上有著良好的效果,仿真環境下的策略容易遷移到現實環境中并成功執行。結果表明,使用了基于目標的域隨機化方法的強化學習算法有助于提高策略從仿真到現實遷移的成功率。

關鍵詞:強化學習; 域隨機化; 機器人操作; 仿真到現實遷移

中圖分類號:TP399文獻標志碼:A

文章編號:1001-3695(2022)10-031-3084-05

doi:10.19734/j.issn.1001-3695.2022.03.0108

Research on goal-based domain randomization method in robot manipulation

Zhang Xiayu, Chen Xiaoping

(University of Science amp; Technology of China, Hefei 230026, China)

Abstract:Reinforcement learning method has many advantages in solving the robot manipulation problems. However, the traditional reinforcement learning algorithms face the difficulty of sparse reward, and the policy is difficult to be directly applied to the reality. In order to improve the success rate of policy migration from simulation to reality, this paper proposed a goal-based domain randomization method. The method used the goal-based reinforcement learning algorithm to train the model, which could effectively deal with the sparse reward of robot manipulation tasks, and the policy could run well in the simulation environment. At the same time, the method used the goal-conditioned domain randomization algorithm, which had a good performance on improving the universality of policy and overcoming the reality gap between simulation and reality. The policy in simulation is easy to migrate to reality and execute successfully. The results show that the reinforcement learning algorithm using the goal-based domain randomization method helps to improve the success rate of policy migration from simulation to reality.

Key words:reinforcement learning; domain randomization; robot manipulation; sim-to-real

0引言

隨著人工智能技術的發展,自動化設備的普及,機器人操作在現實生活中扮演著愈發重要的角色[1]。不同于傳統的任務規劃方法,強化學習使得智能體通過與環境的交互,根據獎勵函數的反饋,自主發現最優策略,而不需要設計者去關心解決問題的具體細節[2],因此在解決機器人操作問題方面有著天然的優勢。例如OpenAI的團隊已經在機械靈巧手上實現了復雜的操作[3],而國內團隊也在Kinova機械臂上利用強化學習實現了物體的抓?。?]。

機器人操作問題的任務空間巨大,獎勵稀疏,而復雜操作任務又難以直接人工定義獎勵函數,因此在實際應用的場景中,基于強化學習的算法仍舊面臨著巨大的挑戰。

另一方面,在實際操作任務中使用強化學習也面臨著重重困難,直接在現實環境中采樣訓練難以執行,比如采樣效率太低,訓練和測試的過程對人員和設備都十分危險。將仿真環境中學習訓練得到的策略直接應用在現實場景中看似可行,但因為仿真器對于現實物理環境建模的誤差和仿真環境獲取數據與實際采樣時會產生的誤差和干擾會導致策略無法使用。因此,解決仿真環境和現實世界環境之間的不匹配,克服現實差距(reality gap)帶來的影響,是通過強化學習解決機器人操作任務的發展方向。

關于如何解決這個現實差距的問題,目前存在著許多種方法。將控制策略從仿真轉移到現實世界的問題可以看做是域自適應的一個實例,在源域中訓練的模型被轉移到新的目標域。這些方法基于一個關鍵的假設:不同域具有共同的特征,因此在其中一個域中學習到的表征和行為在另一個域中也可以利用。其中,域適應方法(domain adaption)通過學習一個模擬環境和現實環境共同的狀態到隱變量空間的映射,在模擬環境中,使用映射后的狀態空間進行算法的訓練。在遷移到現實環境中時,同樣將狀態映射到隱含空間后即可直接應用在模擬環境訓練好的模型[5]。而域隨機化(domain randomization)的方法則是對模擬環境中的信息或者參數進行隨機化。從理論的角度,Chen等人[6]對仿真到現實遷移這一經典問題給出一個理論的解釋模型,尤其是對域隨機化算法為什么有效和在什么場景下有效等問題給出理論解釋。通過POMDP模型的論證,證明了域隨機化對于解決機器人操作領域的仿真到現實的遷移問題有著良好的效果,并證明了域隨機化方法有著出色的性能保證,優秀的設計理論上可以實現不使用任何真實場景數據的訓練。Peng等人[7]通過隨機化物理參數的方式,將智能體在大量不同物理參數確定的虛擬環境中優化累積回報的期望值,試圖使訓練出的策略更加魯棒。Chebotar等人[8]以此為基礎在域隨機化物理參數之后,利用現有策略在虛擬環境和現實中對于相同的初始狀態分別產生一條軌跡,通過比較兩條軌跡的差距修正隨機化的物理參數。Tobin等人[9]則使用域隨機化的方法隨機化了環境的視覺表示。Niu等人[10]使用域隨機化方法提升了自動駕駛在仿真環境下訓練的魯棒性。

上述方法在關注源域和目標域即仿真和現實差異的時候重視了客觀環境上的差異(一般是物理參數的差異),而對于環境中驅動的實體差異關注較少。事實上機器人操作本身是一個欠驅動的系統,對于系統實際控制的結果往往和模型預期的也有差距,這個差異主要是由驅動器的驅動方式和傳感器反饋的偏差造成的,和環境參數的誤差關系不大,使用精度更高的驅動器可以縮小這個差距但是無法完全抹除,對于環境參數的隨機化在這個方面往往無能為力。

除了域相關的方法外,Rusu等人[11]則通過將一類特殊的漸進式神經網絡(progressive neural network)擴展到強化學習中來訓練模型。Christiano等人[12]則是利用逆動力學模型(inverse dynamic model)的方法。然而這些方法比較依賴模型,在不同操作任務之間的泛化性能較為一般。

綜上所述,目前方法在克服仿真和現實之間的差異方面各有長處,然而都難以保證遷移成功率的同時兼顧訓練的速度和算法在不同任務中的泛用性。因此本文提出了一種基于目標的域隨機化方法,通過經驗回放的方法解決了強化學習中獎勵稀疏的問題,同時通過域隨機化方法提高了策略對于現實環境和仿真環境差異的適應能力,不僅在訓練效率上優于其他域隨機化算法,還保證了在現實環境執行任務的時候有著較高的成功率。

1機器人操作問題

1.1強化學習的機器人操作任務

根據上述內容,本文首先將機器人操作的問題描述為一個強化學習問題[13]。在機器人操作任務中,通??梢詫⒁粋€標準的強化學習模型描述為一個智能體通過與環境交互來使得回報最大化的過程。為了便于接下來的描述,本文假設問題的環境是可完全觀測的。一個確定的策略π(a|s)是從狀態S到行為A的映射,對策略的每個查詢都會從特定分布中對操作進行采樣。獎勵函數r:S×A→R則返回一個值,表示在給定狀態下執行特定操作的價值。狀態轉移概率p(st+1|st,at)表示狀態st執行動作at后轉移到狀態st+1的概率分布。在每個時間步t,智能體都會根據當前狀態從策略中生成一個操作at=π(st)。然后它得到獎勵rt=r(st,at),并從狀態分布p(·|st,at)中得到新的狀態。智能體的目標是最大化其預期回報ga,其中γ∈[0,1]是折扣率。動作價值函數定義為

Qπ(s,a)=Ε[Rt|st,at](1)

若對于任何π、s、a,都有一個策略π*使得Qπ*(s,a)≥Qπ(s,a),則將π*稱為最優策略。所有最優策略都具有相同的Q函數,稱為最優Q函數并表示為Q*。最優函數Q*滿足以下貝爾曼方程:

Q*(s,a)=Es′~p(·|s,a)[r(s,a)+γmax Q*(s′,a′)](2)

1.2事后經驗回放

因為機器人操作的任務空間,獎勵比較稀疏,一般的強化學習算法難以收斂。對于大多數強化學習算法來說,從稀疏的二元獎勵中學習到成功的策略是一個巨大的挑戰。事實上,以簡單的二進制數位翻轉的任務為例:這個任務中的狀態是二進制數序列S={0,1}n,動作是從n個位置中任意挑選一個位置進行翻轉。如果獎勵函數設置為:當序列正確為0,否則為-1。則當序列長度達到20以上之后,傳統的強化學習算法使用二元的獎勵函數就已經訓練不出結果了。

本文再以機器人操作任務中最常見的推箱子(pushing)為例,在常規的仿真環境下,狀態空間S設置為智能體可以運動到的所有位置,動作空間是一個二維的元組(x,y)代表智能體在x和y方向上行進的距離,通常步長是0.01 s,設置的步長上限是200步。一個簡單且容易構造的獎勵函數二元獎勵r(s,g),它只返回了給定狀態是否滿足目標。對于每一步,都會對初始狀態和目標狀態進行統一采樣,只要沒有達到目標狀態,策略就將獲得一個-1的獎勵,即

r(s,a)=0goal

-1otherwise(3)

在推箱子任務中,如果使用了上述的獎勵函數,則只有當箱子被推到目標位置的時候才能獲得正常的獎勵,其他的時候都將只獲得-1的獎勵,當操作的任務空間比較大的時候,這個獎勵將會過于稀疏以至于大部分算法都難以收斂。

對于可以充分建模的任務,強化學習算法可以通過精心設計的獎勵函數來引導智能體實現任務的總體目標。例如前面提到的位翻轉任務,如果將獎勵函數設計為

r(st,a)=-‖st+1-g‖2(4)

則一般的強化學習算法也能表現出優異的性能。但是,對于復雜問題,設計獎勵函數的難度往往十分巨大,并可能使策略偏向于采用不太理想的行為?,F實中機器人操作的任務環境都是復雜的,對于其中的大多數任務來說構造一個專用的獎勵函數并不現實。因此,本文利用事后經驗回放[14]解決這個問題,目的就是可以使用稀疏獎勵和非特定構造的二元獎勵函數來訓練策略。

事后經驗回放算法基于一個簡單的想法:稀疏的獎勵空間中進行強化學習訓練往往會產生大量的失敗軌跡,如果能將這些失敗的軌跡利用起來提高學習的效率,就有可能使用簡單的非精心構造的獎勵函數來訓練一個可行的策略。在一次失敗的軌跡中,真正的目標G在整個軌跡中都并未實現。而由于失敗的軌跡沒有實現目標,智能體則完全無法從這樣的獎勵信息中去更新策略,即整個軌跡在每一個時間步都只有-1的獎勵對于一般的強化學習算法是難以利用的。在回放中,對于沒有到達目標的軌跡,提取出這些軌跡已經完成的狀態作為虛擬目標,利用這個虛擬目標給出軌跡的獎勵同時使用強化學習的方法進行訓練。雖然該軌跡在原目標下不成功,但在新的虛擬目標下它將成為成功的軌跡。因此,根據虛擬目標計算的獎勵將不會只有-1。通過重現過去的經歷,智能體可以用比原始記錄軌跡中更成功的例子進行訓練。

事后經驗回放[14]是一種基于目標[15,16]的強化學習算法,在訓練策略的同時,輸入的狀態不僅包含原本的狀態s,同時加上了一個新的目標g,相當于此時的狀態可以表示為s‖g。定義S為選取新的g的策略,這里使用同一軌跡中的某個狀態s之后的隨機k個s作為目標g,在設置好目標g之后即可利用相應的軌跡生成新的獎勵。在事后經驗回放中使用了DDPG(deep deterministic policy gradient)算法作為離線(off-policy)強化學習算法[17]。DDPG是解決連續控制型問題的一個算法,在DDPG網絡結構中,需要維護兩個神經網絡:a)critic網絡,用于對Q值進行評估;b)actor網絡,用于生成目標策略π(a|s)。下面是對于整體HER算法的描述。

算法1事后經驗回放(HER)

輸入:離線強化學習算法A;目標選取策略S;獎勵函數r。

輸出:訓練好的策略網絡。

初始化A,回放緩沖區R

for episode in range

獲得初始狀態s0和目標g

for t in range (0,T-1)

根據當前狀態st和g計算出下一步的動作at

執行動作at得到新的狀態st+1

end for

for t in range (0, T-1)

rt=r(st,at,g)

將軌跡(st‖g,at,rt,st+1‖g)存入緩沖區R內

新的目標G←S用于經驗回放

r′=r(st,at,g′)

將軌跡(st‖g′,at,r′,st+1‖g′)存入R

end for

利用A和R優化策略

end for

2基于目標的域隨機化算法

然而單純的經驗回放算法得出的策略泛用性較差,在現實環境中難以利用。對于復雜的任務和多變的任務目標,訓練難以收斂,并且當前技術無法做出一個能完全模擬現實環境的仿真器,仿真環境和現實環境的差別會導致策略遷移到顯示環境中執行時成功率很低。再以推箱子任務為例,仿真環境可以取得準確的物塊坐標和機械臂末端坐標,但是在現實環境中重復相同實驗的時候,上述坐標的獲取只能通過MCS這類定位系統來實現,而定位系統采集到的數據會受到環境中噪聲的干擾。因此存在采樣誤差,并且顯示環境的物理特性難以完全在仿真環境中還原,同樣一個狀態下執行相同策略、相同動作后得到的狀態不僅可能與仿真環境下的預測不同,更有可能在每一次執行的時候都有所區別。具體地說,現實環境中采樣的頻率、延遲,包括執行策略過程中的抖動和環境中無法獲取的細微差別,都會對結果產生干擾。本文使用域隨機化方法來解決這個問題:域隨機化就是一種互補的適應技術,通過域隨機化的方式,源域和目標域之間的差異被建模為源域中的可變性??紤]到現實環境和仿真環境的差異是由多種因素共同構成的,然而最終的結果都會對于執行過程中的任務狀態產生影響。因此本文試圖通過隨機化訓練過程中的目標這種方式來模擬實際狀態和目標之間因為現實差距產生的誤差,從而使得得到的策略具有更強的泛用性和魯棒性。

為了讓訓練出來的策略有更強的泛化能力,同時在現實中執行時有更高的成功率,本文提出了基于目標的域隨機化算法。本文的目標是訓練一個策略可以同時在現實和仿真環境中執行??紤]到現實環境中采樣的困難,在仿真環境下進行訓練,測試其成功率和訓練速度,然后將得到的策略遷移到現實環境中進行進一步的測試??紤]到使用的方法,此處的策略使用訓練好的神經網絡來表達。實際測試的時候通過將采樣得到的環境狀態輸入網絡來得到每一步的行動策略。

2.1域隨機化方法

在仿真到現實遷移的問題中,現實環境作為目標域,其具體的物理特性是目前技術難以完全模擬的。為了解決這個問題,產生了一類基于物理環境[7,8]的隨機化方法,這類方法首先使用隨機的動力學相關參數,包括機器人每一部分的質量、關節接口處的阻尼、被操作物體的質量、物體和桌面的摩擦系數、桌子的高度、位置傳感器的數據、兩次動作間隔的時間步等。對于這些參數進行隨機化的目的是縮小仿真環境在動力學參數方面和現實環境的差異,從而提高任務的成功率。本文方法則考慮到仿真環境無論如何不可能和現實環境完全一致,目標驅動的算法中存在類似人類操作過程中的目標。將這個目標在操作空間范圍內進行符合特定隨機化分布的處理。通過隨機化目標來使得訓練出的策略對于任務執行過程中達到的結果和預計目標的差異有更好的兼容性。

基于環境視覺[9,10]的隨機化方法則使用了隨機化的視覺信息,包括雜物的形狀和數目、待操作物體的紋理和位置、桌子和地板等背景紋理、模擬相機的位置和方向、背景光源的數量和位置、物體表明對光反射的性質等。對于這類數據隨機化則是考慮到智能體觀察世界的方式有限,無法獲得物體的材質等信息,而這些信息對于后面的訓練效果又有著很大的影響。這類方法在解決仿真到現實遷移的問題上的本質思路與動力學隨機化相似,也是通過對于數據集的擴展來縮小仿真環境和現實環境的差距,目前來看這種差距是無法完全消除的。

本文對目標驅動強化學習中的目標進行了隨機化,目標本身是這個過程中特有的狀態,和以往隨機化的環境參數有著本質的不同。對于目標的隨機化是充分考慮了目標驅動的算法特點,其現實意義體現在:機器人操作本身就是一個欠驅動的系統,對于系統實際控制的結果往往和模型預期的有差距,這個差異不完全是由仿真系統的物理參數和現實不同造成的,驅動器的運動策略等內容也會造成差異,使用精度更高的驅動器可以縮小這個差距但是無法完全抹除,因此對于目標的隨機化可以讓學習到的策略適應這種欠驅動導致的誤差,從而提高操作的成功率。此外,因為仿真環境對于物理參數模擬的誤差通常也會和系統的欠驅動性所疊加導致最終目標的誤差,所以對于目標的隨機化方法同樣對于適應物理參數的誤差有較好的效果。

2.2目標隨機化方法

HER算法天然就是一種目標驅動的算法,因此可以通過對訓練中的目標進行處理來提高得到策略的泛用性。在訓練的時候,每一段開始時都對其中的目標g進行隨機化處理,加入符合特定分布的隨機化參數來模擬上述情況。具體的操作為:根據每個從軌跡中采樣的狀態轉移生成一個新的目標,鑒于本文研究的內容為機器人的操作任務,文中的目標為被操作物體的坐標,最終的目標就是操作任務需要將物體操作得到終點坐標(對于開門任務,門把手軸的中點坐標可以作為目標)。新目標的選取采用了對于未來狀態的預測(即將某個狀態轉移所在軌跡中若干步驟后的狀態作為該狀態轉移的新目標)。

加入目標隨機化參數策略的目的是:利用特定的方式對生成的新目標進行隨機化處理(因為文中操作任務的目標均為操作物體的狀態坐標,隨機化處理的方式就是將目標中包含的坐標值乘以一個隨機系數),隨機化處理后的目標在任務空間范圍內相對于原始的目標應當符合特定的分布。

最后將隨機化處理過的目標和狀態轉移組合并存放入緩沖區中,利用緩沖區列表中的數據進行訓練。經驗回放的部分使用DDPG這個針對連續行為的策略學習方法作為離線策略算法。下面給出了仿真環境下采樣訓練以及將目標進行域隨機化操作的過程,具體流程如算法2所示。

算法2基于目標的域隨機化算法

輸入:離線強化學習算法A;目標隨機化參數策略X ;獎勵函數r。

輸出:訓練好的策略網絡。

初始化A,回放緩沖區R

for episode in range

獲得初始狀態s0和最終目標g

for t in range (0,T-1)

根據當前狀態st和g計算出下一步的動作at

執行動作at得到新的狀態st+1

end for

for t in range (0,T-1)

獲得目標g(HER)

產生隨機化系數X

G←g×X

for g′ in range G

r′=r(st,at,g′)

將軌跡(st‖g′,at,r′,st+1‖g′)存入R

end for

end for

利用A和R優化策略

end for

算法2的主要操作在于迭代部分對于目標的隨機化操作,在每次迭代中首先使用經驗回放方法(HER)獲取目標g,然后根據操作任務的任務空間(空間中驅動器與待操作物體的分布范圍)和隨機化系數(如高斯分布函數),將目標隨機化為集合G,這樣得到的集合G相對初始的g在任務空間內滿足隨機化系數的概率分布,同時集合G又受到任務空間的約束,防止產生過大或過小的數據影響訓練。通過上述對g的隨機化操作,得到的集合G可以一定程度反映欠驅動操作系統的誤差,提高算法遷移到現實環境之后的成功率。最后將集合中的隨機化元素g′和采樣得到的軌跡(st,at)結合,存入緩沖區用于優化策略。

3實驗與性能評估

本章通過設置在仿真環境下和現實中兩個部分的對比實驗,來評估本文算法仿真任務中的成功率、訓練收斂速度、任務參數變化后算法的泛用性,以及遷移至現實環境后任務的成功率。

3.1環境配置

本次實驗中,仿真環境搭建在Ubuntu系統下,使用PyTorch來進行網絡的搭建,使用Mujoco[18]作為物理引擎。為了保證訓練出的策略可以在現實環境中測試,本文在仿真環境中對現實中的環境進行了建模,包括機械臂(UR5e)[19]、電動夾爪、實驗的平臺和部分物體,仿真環境中的場景如圖1所示。

圖1Mujoco環境下機器人操作的可視化

Fig.1Visualization of robot manipulation in Mujoco

本文主要通過三個不同的任務場景來評估算法的性能。

a)推箱子。這個任務的場景包含一個桌子、放置于桌面的物塊和一個機械臂。任務的目標是使用機械臂將物塊推至桌子上規定的位置。由于整體任務內容不涉及抓取,任務過程中末端的夾爪狀態始終處于閉合。

b)抓取。這個任務的場景和推箱子類似,不同之處在于任務的目標是使用夾爪將物塊夾取至空中的指定位置。整體任務內容涉及到了抓取,所以包含了對于夾爪開合的控制。為了保證訓練的成功率,實驗中將夾爪夾住物塊的狀態設置為任務的初始狀態。

c)開門。這個任務相較于前兩個任務復雜了許多,場景中包含一扇門框固定的門和一個機械臂。任務的目標是使用夾爪握住門把手,向下扳動把手將門打開,再將門拉開到一定角度。由于整體任務十分復雜,本文將夾爪握持住門把手的狀態,設置為任務的初始狀態。

采樣中的狀態包括了Mujoco環境中的機械臂夾爪末端的位置信息,還有環境中所有物體的坐標。

對于目標在采樣中如何進行隨機化,本文的目標隨機化參數選用的是符合正態分布的隨機數,即對離線策略訓練的時候采樣中的目標進行了符合N(0,0.1)分布的隨機化變化。

3.2仿真結果分析

為了評估本文算法的性能,此處與一般強化學習(RL)算法[20]、事后經驗回放(HER)算法[12]和動力學隨機化(dyna-mics randomization)算法[7]三種強化學習算法進行比較。

1)成功率

為了衡量不同方法之間的性能差距,本文在上述的三個仿真環境內對幾個算法進行訓練。在測試算法成功率的時候,為了評估不同方法對環境的適應性和魯棒性,本文將測試中不同任務的初始環境都加入了隨機的擾動。下面統計了50次本文將訓練和測試時環境變化的程度比值定義為初始狀態隨機系數,并在下面的測試中將初始狀態隨機系數設置為1.5。表1展示的是不同算法在不同實驗環境中的成功率差距。

從結果可以看出,即使經過了細節的改進,一般強化學習算法在面對較大的搜索空間時表現也比較一般。事實上,復雜任務如果不設置初始狀態,則一般強化學習的成功率基本為0。經驗回放方法解決了搜索空間的問題,但是當初始狀態發生隨機改變之后并不能很好地適應。物理量域隨機化的方法與本文提出的基于目標的域隨機化方法都對經驗回放進行了改進,均有著更好的效果,并且本文方法基于目標分析,對于復雜任務的適應性更強。

為了更進一步比較幾個算法之間在不同任務間泛用性能的差距,此處進一步提高初始狀態的隨機系數,表2展示的是初始狀態隨機系數提高至2.5后不同算法的成功率。

2)收斂時間

為了衡量算法的訓練速度,本文還將評估算法在訓練中收斂所需要的時間,圖2展示的是本文算法在不同任務中收斂所需要的訓練時間。

3.3現實環境驗證

為了在現實環境中驗證前面訓練得到的策略的可靠性,本次實驗除了在硬件設備方面使用了和仿真環境中相同的配置(UR5e, Universal Robots)之外,為了準確獲取場景中物體的坐標,現實環境下的機械臂如圖3所示。為了控制機械臂運動,實驗中主機和機械臂使用Python環境下的實時控制,以局域網廣播的方式進行通信和控制。夾爪的張開角度由夾爪本身的舵機驅動進行反饋,機械臂的末端位置則通過與機械臂本身的通信獲取。

為了采集場景中其他物體的坐標,本次實驗中使用了多攝像頭系統(multi-camera system,Opti-track),通過在物體表面和邊緣的關鍵位置粘貼標定點,可以采集到物體在環境中的坐標。對于開門任務來說,為了保證標定的準確性,在門框、門板、門把手上都粘貼了多組定位點,以克服門本身對于攝像頭的遮擋導致定位失效的情況。為了將MCS系統和機械臂本身的坐標系統一,在實驗開始之前需要將機械臂固定。此外,也需要在機械臂的關鍵位置和末端粘貼標定點,將機械臂在MCS系統中的坐標進行標定,以方便將機械臂本身返回的坐標系映射到MCS的坐標系中。

本文在現實環境中對算法進行了測試,測試的時候主要執行了開門的任務,并且對于門的初始位置也加入了初始狀態的隨機系數。實際實驗中夾爪的初始位置和仿真環境中一樣均已經夾住門把手。為了提高實驗成功率,本次實驗選用了有柔性夾取機構的機械夾爪,同時在夾爪與機械臂連接處的法蘭盤使用了3D打印的結構,發生嚴重意外的時候只需要更換3D打印結構即可,防止錯誤的操作導致關鍵設備損壞。表3展示的是不同的初始狀態隨機系數下任務的成功率。

可以看出,在上述任務中現實環境中執行仿真環境下訓練得到的策略時,當初始狀態變化不大的情況下有著較高的成功率;當初始狀態變化較大的時候,相較于仿真環境中,現實實驗的成功率會顯著下降。其原因在于:門把手和門都是運動范圍受限的剛體結構,機器人操作的誤差會導致機械臂力反饋的急劇增大,觸發機械臂的保護機制從而導致任務失敗,若沒有力反饋的保護機制則極容易在操作過程中損壞門和夾爪。

4結束語

本文提出了基于目標的域隨機化算法,通過將經驗回放方法和基于目標的域隨機化方法相結合,不僅在收斂速度方法表現良好,還可以更好地適應任務環境的變化,在任務初始狀態變化較大的情況下仍舊取得了較好的表現,并且在將方法遷移至現實環境后也可以有著不俗的成功率。

本文方法充分發揮了基于目標的算法的特性,基于目標的方法不僅能在獎勵稀疏的環境中提高訓練的效率,在使用了域隨機化方法之后,還能提高在不同環境任務中的適應性和魯棒性。與此同時,在策略從仿真環境遷移到現實環境的過程中,這種對于環境差異的適應性有效地提高了策略遷移的成功率。

但是現實中的具體操作任務,往往有著更加復雜的任務步驟,任務的目標也可能不僅僅是一個具體的坐標點,因而更加難以定義,這些情況下基于目標的算法往往難以取得很好的效果。如何在復雜困難的情況中定義任務目標并選擇合適的隨機化方法是目前面臨的主要困難。因此,嘗試將本文方法擴展到更多種類的機器操作任務中將是接下來工作的主要方向。

參考文獻:

[1]Kober J, Peters J. Reinforcement learning in robotics: a survey[M]//Wiering M, Van Otterlo M. Reinforcement Learning. Berlin:Springer,2012.

[2]Kroemer O, Niekum S, Konidaris G D. A review of robot learning for manipulation: challenges, representations, and algorithms[J].Journal of Machine Learning Research,2021,22(30):1395-1476.

[3]Andrychowicz M, Baker B, Chociej M, et al. Learning dexterous in-hand manipulation[J].The International Journal of Robotics Research,2020,39(1):3-20.

[4]張智廣.基于深度強化學習的機械臂抓取方法研究[D].哈爾濱:哈爾濱工業大學,2021.(Zhang Zhiguang. Research on manipulator grasp based on deep reinforcement learning[D].Harbin:Harbin Institute of Technology,2021.)

[5]Gupta A, Devin C, Liu Yuxuan, et al. Learning invariant feature spaces to transfer skills with reinforcement learning[EB/OL].(2017-03-08).http://doi.org/10.48550/arxiv.1703.02949.

[6]Chen Xiaoyu, Hu Jiachen, Jin Chi, et al. Understanding domain randomization for sim-to-real transfer[EB/OL].(2022-03-13).http://doi.org/10.48550/arxiv.2110.03239.

[7]Peng Xuebin, Andrychowicz M, Zaremba W, et al. Sim-to-real transfer of robotic control with dynamics randomization[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2018:3803-3810.

[8]Chebotar Y, Handa A, Makoviychuk V, et al. Closing the sim-to-real loop: adapting simulation randomization with real world experience[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:8973-8979.

[9]Tobin J, Fong R, Ray A, et al. Domain randomization for transferring deep neural networks from simulation to the real world[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:23-30.

[10]Niu Haoyi, Hu Jianming, Cui Zheyu, et al. DR2L:surfacing corner cases to robustify autonomous driving via domain randomization reinforcement learning[C]//Proc of the 5th International Conference on Computer Science and Application Engineering.2021:1-8.

[11]Rusu A A, Vecˇerík M, Rothrl T, et al. Sim-to-real robot learning from pixels with progressive nets[EB/OL].(2018-05-22).http://doi.org/10.48550/arxiv.1610.04286.

[12]Christiano P, Shah Z, Mordatch I, et al. Transfer from simulation to real world through learning deep inverse dynamics model[EB/OL].(2016-10-11).http://doi.org/10.48550/arxiv.1610.03518.

[13]Sutton R S, Barto A G. Reinforcement learning:an introduction[M].Cambridge,MA:MIT Press,2018.

[14]Andrychowicz M, Wolski F, Ray A, et al. Hindsight experience replay[EB/OL].(2018-02-23).http://doi.org/10.48550/arxiv.1707.01495.

[15]Ding Yiming Florensa C, Phielipp M, et al. Goal-conditioned imitation learning[EB/OL].(2020-05-27).http://doi.org/10.48550/arxiv.1906.05838.

[16]Dhiman V, Banerjee S, Siskind J M, et al. Learning goal-conditioned value functions with one-step path rewards rather than goal-rewards[C]//Proc of ICLR Conference.2018.

[17]Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[EB/OL].(2019-07-05).http://doi.org/10.48550/arxiv.1509.02971.

[18]Todorov E, Erez T, Tassa Y. Mujoco:a physics engine for model-based control[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2012:5026-5033.

[19]吳璞,夏長林,景鴻翔.UR5機器人運動學分析與軌跡規劃研究[J].煤礦機械,2021,42(4):55-58.(Wu Pu, Xia Changlin, Jing Hongxiang. Research on kinematics analysis and trajectory planning of UR5 robot[J].Coal Mine Machinery,2021,42(4):55-58.)

[20]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[EB/OL].(2017-08-28).http://doi.org/10.48550/arxiv.1707.06347.

收稿日期:2022-03-07;

修回日期:2022-05-06

基金項目:國家重點研發計劃資助項目(2019YFE0125200)

作者簡介:張夏禹(1994-),男(回族)(通信作者),天津人,碩士研究生,主要研究方向為強化學習、機器人操作(pb120110@mail.ustc.edu.cn);陳小平(1955-),男,北京人,教授、博導,主要研究方向為人工智能與機器人的交叉研究和教學、自然語言理解和自動推理.

主站蜘蛛池模板: 国产成人8x视频一区二区| 一级不卡毛片| 日韩精品免费在线视频| 欧美性爱精品一区二区三区 | 亚洲最黄视频| 欧美亚洲国产视频| 黄色污网站在线观看| 婷婷综合色| 性69交片免费看| 欧美日韩国产精品va| 欧美一级特黄aaaaaa在线看片| 91高清在线视频| 巨熟乳波霸若妻中文观看免费| 欧美69视频在线| 午夜福利视频一区| www中文字幕在线观看| 国产精品分类视频分类一区| 欧美亚洲第一页| 在线观看国产精品日本不卡网| 精品一区二区三区中文字幕| 青草娱乐极品免费视频| 久久久国产精品免费视频| 99r在线精品视频在线播放| 无码'专区第一页| 日韩毛片在线播放| 国产人免费人成免费视频| 精品伊人久久久久7777人| av一区二区三区在线观看 | 国产成人精品一区二区| 日韩在线欧美在线| 国产精品美乳| 狼友视频一区二区三区| 少妇被粗大的猛烈进出免费视频| 色亚洲激情综合精品无码视频| 成人小视频网| 激情六月丁香婷婷四房播| 99热这里只有免费国产精品 | 成人综合在线观看| 久久96热在精品国产高清| 久久久久亚洲Av片无码观看| 亚洲视频无码| 青青青国产视频| h视频在线观看网站| 国产在线专区| 久久人搡人人玩人妻精品 | 强乱中文字幕在线播放不卡| 久草视频一区| 免费AV在线播放观看18禁强制| h视频在线播放| 亚洲国产理论片在线播放| 91小视频在线播放| 无码一区18禁| 青青热久免费精品视频6| 丰满少妇αⅴ无码区| 日本道综合一本久久久88| 国产欧美自拍视频| 免费激情网址| 亚洲av无码成人专区| 亚洲色无码专线精品观看| 免费一级全黄少妇性色生活片| 国产亚洲高清视频| 亚洲欧美自拍中文| 免费日韩在线视频| 中文字幕va| 亚洲综合精品第一页| 亚洲国产精品人久久电影| 国产成人毛片| 国内毛片视频| 国产性爱网站| 免费xxxxx在线观看网站| 成人午夜网址| 中文字幕日韩丝袜一区| 国产高清又黄又嫩的免费视频网站| 国产91丝袜| 成人午夜网址| 在线精品亚洲一区二区古装| 中文字幕在线播放不卡| 午夜激情婷婷| 黄色成年视频| 亚洲精品在线91| 色综合久久无码网| 一级全黄毛片|