999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的工業(yè)機器人操作器自歸巢能力探究

2023-01-05 04:58:30劉云
科學(xué)與信息化 2022年24期
關(guān)鍵詞:區(qū)域環(huán)境方法

劉云

江西機電職業(yè)技術(shù)學(xué)院 江西 南昌 330013

1 歸巢概述

歸巢是一個從生物學(xué)中借用來的術(shù)語,它通常用來描述各種生物體,如昆蟲,在沿著某條路徑走了一段距離后返回巢穴的能力[1]。在工業(yè)機器人操縱器中,原點位置(HPos)是由人工操作員組成的一種預(yù)定義的關(guān)節(jié)配置,其中機器人的操作周期啟動和終止。達(dá)到這個位置被認(rèn)為是一種與安全相關(guān)的工作動作路徑在一個安全的機器人單元外殼中執(zhí)行。工業(yè)機器人引導(dǎo)的制造過程,如裝配、分配、材料去除和檢查通常需要一個六自由度(DOF)的機器人機械手在不同的關(guān)節(jié)配置之間轉(zhuǎn)換,即肘部—手腕上下,改變手臂工具的末端執(zhí)行器。這些機器人越來越多地在繁忙和緊湊的工作空間中操作,用不同的傳感器操作各種部件和組件。萬一發(fā)生意外事件而中斷,例如,機器人單元警報,機械手的配置和位置將是不可預(yù)測的,這將使機器人從單元中的任何地方安全返回hpo點,以重新啟動操作。

目前在制造環(huán)境中,機械手的歸巢仍然是一項手工任務(wù)。機器人制造商在控制軟件中提供了一些內(nèi)置的功能,即線性或關(guān)節(jié)運動函數(shù),但這些函數(shù)通常不考慮與機器人單元的任何潛在碰撞、關(guān)節(jié)極限、達(dá)到極限和奇點[2]。目前的工業(yè)方法是根據(jù)預(yù)定義的起始區(qū)域集來編程有限的歸巢運動序列。一個典型的機器人單元將由3-10個起始區(qū)域組成,由人工操作員手動定義,每個區(qū)域手動編程3-5個運動段。例如,圖1顯示了一個自動焊接機器人,它使用一個操縱器,利用4個預(yù)定義的起始區(qū)域,向不同的飛機發(fā)動機組件分配不同類型的合金。

圖1 一個帶有4個預(yù)定義的起始區(qū)域的機器人細(xì)胞

目前的方法涉及煩瑣的手動教學(xué)和機械手運動序列的驗證,這可能需要數(shù)周的時間。此外,這種對一個具有有限起始區(qū)域的歸巢序列的手動編程并不總是足以保證機械手的成功歸巢過程,并且有無限數(shù)量的起始區(qū)域的安全運動和路徑是不可行的。這必須要求訓(xùn)練有素的操作員手動將操縱器慢跑回HPos,從而導(dǎo)致機器人單元的停機時間過長。

2 設(shè)計框架

目前,筆者正在探索一種學(xué)習(xí)策略,該策略允許代理在訓(xùn)練策略的機器人單元中,在沒有額外訓(xùn)練的機器人環(huán)境下,找到其返回位置的路徑。但不適用諸如編碼靜態(tài)障礙物的邊界條件的動態(tài)規(guī)劃等方法,因為它們在適應(yīng)新環(huán)境時需要感知周圍環(huán)境。這項工作利用了基于課程的學(xué)習(xí)方法,以便通過在簡單的例子上啟動代理的訓(xùn)練來幫助學(xué)習(xí),并隨著訓(xùn)練的發(fā)展而逐步增加復(fù)雜性。任務(wù)的難度通常由人類的直覺決定的。有大量的研究基礎(chǔ)上,包括手工制作的課程和自動生成的課程,都在特定領(lǐng)域應(yīng)用中顯示了非常有前景的結(jié)果。

這里的方法包括學(xué)習(xí)控制原語,預(yù)先指定的,或要求識別相應(yīng)的逆動力學(xué)模型。筆者的方法是直接求解給定的馬爾可夫決策過程(MDP),并影響MDP中起始態(tài)的分布。另一個方法是激勵平滑。該方法提出了用一個存在于整個狀態(tài)空間中的平滑函數(shù)來代替獎勵的稀疏信號。激勵平滑的一個潛在情況是給出一個獎勵信號,它相對于到目標(biāo)狀態(tài)的距離是二次的。本研究的方法不使用獎勵平滑,因為涉及該方法的某些機器人控制問題產(chǎn)生了次優(yōu)策略。通過修改訓(xùn)練過程中的起始狀態(tài)分布,生成一種無模型的起始狀態(tài)。研究表明,正是這些起始狀態(tài),可以獲得良好的性能,因此,通過監(jiān)測這些介質(zhì)成功的起始狀態(tài),并選擇隨機動作來采樣新的狀態(tài),機器人的工作在廣泛的系統(tǒng)中都顯示出了良好的效果。

3 構(gòu)建模擬環(huán)境

本研究使用了PyBullet模擬機器人單元和操縱器的整個環(huán)境,它的主要特點是基于python的軟件堆棧安裝簡便。此外,為了便于理解,筆者研究時使用費瑟斯通的算法進(jìn)行多體動力學(xué)表示。與Gazebo使用的最大坐標(biāo)剛體表示相比,更適合于機器人任務(wù),并允許有關(guān)節(jié)間隙。

3.1 機器人細(xì)胞訓(xùn)練環(huán)境的生成

針對工業(yè)環(huán)境條件下,在真實和模擬機器人環(huán)境之間能進(jìn)行精確映射,它包括所有模塊(如攝像機、傳感器、泵等)。在這個方向上,筆者開發(fā)了一個半自動化的流程管道。在這個過程中存在一個手動步驟,其中所有模塊,包括組成工業(yè)機器人工具結(jié)束(EOAT)的組件,都以抽象表示形式導(dǎo)出為獨立的STL格式,筆者基于的是一個機器人實際本體,在STL文件使用三維笛卡爾坐標(biāo)系,用三角形的單位法線和頂點(按右邊規(guī)則排序)來描述原始的、非結(jié)構(gòu)化的三角形曲面。在接下來的步驟中,考慮到每個STL文件被導(dǎo)出的參考框架,筆者為每個實體協(xié)調(diào)出適當(dāng)?shù)奈恢煤头较?,以及搭建代理培?xùn)所需的抽象但準(zhǔn)確的培訓(xùn)環(huán)境。

3.2 機器人姿態(tài)生成

機器人姿態(tài)生成器依次生成每個關(guān)節(jié)的起始角度位置,這個姿態(tài)受伺服電機的角度限制。此外,當(dāng)啟動機器人姿態(tài)生成器驗證時,啟動狀態(tài)過程中是否會與環(huán)境(如圍欄、墻壁等)發(fā)生碰撞或其自身是否有干擾(例如,安裝本體的接頭)等,這都是需要考慮的問題。

3.3 機器人模型

筆者使用的工業(yè)機器人機械手是FANUC LR Mate 200iD,它是六個自由度。機器人在訓(xùn)練環(huán)境中的用到的是urdf格式,動作空間被統(tǒng)一歸化為在[-1,1]范圍內(nèi),隨后將機器人的每個關(guān)節(jié)的每個動作值乘以相應(yīng)的關(guān)節(jié)速度極限。因此動作向量有6個參數(shù)(即六軸機器人關(guān)節(jié))。這個代理的狀態(tài)向量總共有103個參數(shù),包括:18個線性位置(即6個關(guān)節(jié)各3個位置),18個方向,18個線速度,18個角速度,工具的3個位置和3個方向以及特定的某些類型的環(huán)境感知。

在研究中還探索出,EOAT處引入了25條射線(參數(shù))來感知與環(huán)境表面的距離,作為環(huán)境感知的一種方式,每組射線在狀態(tài)描述中封裝了關(guān)于EOAT的環(huán)境編碼。不同的磁盤表示以不同角度投射的不同射線。但這種射線拓?fù)渲辉谀M環(huán)境中使用,而不是真正的機器人應(yīng)用程序。

4 機器人學(xué)習(xí)控制策略

為了能夠到達(dá)一個特定的目標(biāo)狀態(tài),機器人需要學(xué)習(xí)控制策略,使得運行過程中無碰撞,能避免奇點?;蛘邚娜魏纹鹗紶顟B(tài)開始,能從一個均勻的狀態(tài)分布中采樣。筆者簡要介紹了所使用的RL算法以及相應(yīng)的激勵函數(shù)。

4.1 深度強化學(xué)習(xí)算法

為了便于研究,筆者引入了SAC算法。它屬于無模型、非策略的深度RL算法。SAC標(biāo)準(zhǔn)目標(biāo)函數(shù)J(π)按激勵順序的方式,通過增加一個熵項,可以獲得所需的策略π(at|st),使預(yù)期的E累積激勵最大化。

其中,T是時間范圍,ρΠ表示在該策略下生成的狀態(tài)-行動分布π(at|st),α是響應(yīng)系數(shù)。

4.2 激勵函數(shù)

在歸巢環(huán)境中,加速學(xué)習(xí)過程,是一個關(guān)鍵的因素。在這個環(huán)境下,要想優(yōu)化RL算法是很困難的。機器人的啟動目標(biāo)是,從任何均勻采樣的起始狀態(tài)開始,將其EOAT帶到由HPos定義的目標(biāo)位置。如圖2所示,本研究建立了一個目標(biāo)區(qū)域(TZ),以一個半徑為r的邊界球形體積表示,以歸巢構(gòu)型的原點為中心[3]。在這個邊界體積之外的任何地方,激勵都是零。每當(dāng)機器人成功地將其EOAT帶入該目標(biāo)區(qū)域時,它就會獲得一個固定的激勵R區(qū)域,對于每個時間t,它都能保持在相應(yīng)的EOAT內(nèi)區(qū)域內(nèi),也就是,R區(qū)域t= 0.5.除了固定的激勵函數(shù)外,為了方便機器人按照期望的歸巢配置對齊所有軸,只需在一段時間內(nèi)的姿態(tài)停留在目標(biāo)區(qū)域,就可以獲得一個額外的激勵函數(shù)。

圖2 歸巢結(jié)構(gòu)模型

5 結(jié)束語

通過大量的研究表明,筆者提供的這種方法,可以提高基于強化學(xué)習(xí)的工業(yè)機器人操作器自歸巢能力。該方法的關(guān)鍵點在于,通過使用并行代理設(shè)置結(jié)合學(xué)習(xí)機制,基于現(xiàn)有策略逐步增加問題的復(fù)雜性,解決一個具有挑戰(zhàn)性的目標(biāo)導(dǎo)向問題的能力;也展示了并行代理生態(tài)系統(tǒng)在學(xué)習(xí)過程中引入和改進(jìn),可以獲得推廣到新環(huán)境中的能力。本次探究的方法還可以應(yīng)用于具有工業(yè)機器人使用的標(biāo)準(zhǔn)編程管理的真實機器人系統(tǒng)中,也很容易地集成到任何工業(yè)機器人細(xì)胞中。

未來的發(fā)展方向是學(xué)習(xí)機制與規(guī)劃目標(biāo)二者相結(jié)合,滿足機器人運動方向矢量的要求,以致能達(dá)到更加精準(zhǔn)的自定位能力[4]。但也有很多不足之處,由于DRL代理學(xué)習(xí)中需要涉及的環(huán)境因素,為了避免與環(huán)境感知碰撞,這就要解決非剛性物體和具有不確定性的環(huán)境之間相互作用之間的問題。未來的研究還可以解決通過選擇射線拓?fù)鋮?shù),即密度和密度,對環(huán)境傳感的潛在影響。

猜你喜歡
區(qū)域環(huán)境方法
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
環(huán)境
關(guān)于四色猜想
分區(qū)域
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于嚴(yán)重區(qū)域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 热热久久狠狠偷偷色男同| 国产午夜精品鲁丝片| 久久96热在精品国产高清| 伊人丁香五月天久久综合| 91无码网站| 日本精品视频一区二区| 在线无码av一区二区三区| 国产成人你懂的在线观看| 国产高潮视频在线观看| 欧美日韩成人在线观看| 国产欧美日韩综合一区在线播放| 99偷拍视频精品一区二区| 国产美女免费| 天天色天天综合| www.狠狠| 国产白浆在线| 波多野结衣AV无码久久一区| 欧美综合成人| 99视频在线免费观看| 久久午夜夜伦鲁鲁片不卡| 免费激情网址| 免费a级毛片18以上观看精品| 女人18一级毛片免费观看| 久久先锋资源| 一本大道视频精品人妻| 精品少妇人妻一区二区| igao国产精品| 一区二区三区四区日韩| 日本久久久久久免费网络| 91小视频版在线观看www| 国产极品美女在线| 制服丝袜一区二区三区在线| 国产在线观看人成激情视频| 亚洲天堂2014| 国产剧情无码视频在线观看| 免费毛片视频| 亚洲综合狠狠| 日韩av电影一区二区三区四区| 国产成人高清在线精品| 欧美成人综合在线| 国产成人欧美| 香蕉99国内自产自拍视频| 国产一区二区三区精品欧美日韩| 国产真实乱子伦视频播放| 国产极品粉嫩小泬免费看| 亚洲成人免费看| 色偷偷男人的天堂亚洲av| 精品小视频在线观看| 亚洲欧洲自拍拍偷午夜色| 国产91熟女高潮一区二区| 亚洲日韩精品欧美中文字幕| 欧美一区二区三区欧美日韩亚洲| 国产美女精品人人做人人爽| 久久天天躁狠狠躁夜夜2020一| 狠狠亚洲五月天| 综合色亚洲| 蜜桃视频一区二区三区| 中文毛片无遮挡播放免费| 国内熟女少妇一线天| 人妻无码AⅤ中文字| 中文字幕一区二区人妻电影| 亚洲乱码在线播放| 无码免费视频| 欧美日韩北条麻妃一区二区| 国产高清不卡| 亚洲精品无码人妻无码| 青草午夜精品视频在线观看| 免费a在线观看播放| 永久在线精品免费视频观看| 国产乱肥老妇精品视频| 国产精品亚洲αv天堂无码| 浮力影院国产第一页| 亚洲欧洲日产无码AV| 国产99免费视频| 国产男人的天堂| 九色91在线视频| 国产xxxxx免费视频| 国产91丝袜在线播放动漫 | 国产丝袜丝视频在线观看| 日本手机在线视频| 国产91丝袜在线播放动漫 | 精品成人免费自拍视频|