999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器人操作技能學習方法綜述

2019-04-11 12:14:20劉乃軍魯濤蔡瑩皓王碩
自動化學報 2019年3期
關鍵詞:操作技能環境策略

劉乃軍 魯濤 蔡瑩皓 王碩

各式機器人正逐漸應用于家庭、工廠、國防以及外太空探索等領域[1?2],具備諸如衣服整理、機械零件裝配、炸彈拆除等操作技能.隨著機器人技術的發展,人們期望機器人具備更強的自主操作能力,在更多領域代替人類完成更加復雜的操作任務.在人工分析機器人行為特性和工作任務要求的基礎上,采用傳統復雜編程、遙操作或示教編程等常規方法可使機器人具備一定的操作技能,較好地勝任于諸多結構化工作環境和單一固定任務的工作場景,快速準確地完成可重復位置和力控制的任務.然而伴隨機器人應用領域的不斷擴大,機器人往往會面臨未知、動態及難預測的復雜環境.采用傳統常規方法設計的機器人操作技能不能動態地適應該類非結構化工作環境或場景多變的工作場合,且機器人操作技能開發過程中存在周期長、效率低、工作量大及不能滿足需求的多樣性等諸多難題[3].隨著人工智能技術研究的快速發展及關鍵技術的突破,采用機器學習方法[4?5]設計具備一定自主決策和學習能力的機器人操作技能學習系統,使機器人在復雜、動態的環境中學習并獲取操作技能,能彌補傳統編程等常規方法的缺陷,極大提高機器人對環境的適應能力.機器人操作技能學習作為未來機器人應具備的重要性能之一,對未來機器人技術的發展具有重要意義,是未來機器人在各領域得以廣泛應用的重要基礎.近年來,機器人操作技能學習研究正逐漸成為機器人研究領域的前沿和熱點[6?8],新的學習方法被逐漸應用于機器人的操作技能學習中,諸多著名研究機構和公司,如DeepMind[9?10]、加州大學伯克利分校[11?12]、OpenAI[13?14]、Google Brain[15]等在此領域取得了一定的成果,但仍面臨著巨大挑戰.本文針對近年來機器人操作技能學習領域的主要研究工作進行概述,并以此為基礎列舉了機器人操作技能學習未來的主要研究方向.

1 研究進展概述

機器人操作技能學習方法涉及眾多機器學習算法,機器人訓練數據的產生方式決定了機器人學習所要采用的具體方法[16].機器人操作技能學習所需數據大致可由機器人與環境交互產生或由專家提供[5,17].基于此,本文將機器人操作技能學習方法分為基于強化學習的方法、基于示教學習的方法和基于小數據學習的方法(如圖1所示),并基于該分類對機器人操作技能學習的研究現狀進行概述和分析.

圖1 操作技能學習方法分類Fig.1 The categories of robot manipulation skills learning methods

1.1 基于強化學習

在基于強化學習的機器人操作技能學習中,機器人以試錯的機制與環境進行交互,通過最大化累計獎賞的方式學習到最優操作技能策略[18?19].該類方法分為執行策略、收集樣本及優化策略三個階段,如圖2所示.

圖2 基于強化學習的操作技能學習示意圖Fig.2 Illustration of manipulation skills learning method based on reinforcement learning

在執行策略階段,機器人在狀態st依據當前策略π執行動作at得到獎賞值rt+1并根據狀態轉移概率p(st+1/st,at)到達新狀態st+1,重復該過程,直到機器人到達終止狀態.

在收集樣本階段,得到軌跡序列τ:s0,a0,s1,a1,···,sH,其中H為軌跡序列長度.機器人在環境中執行策略π后,所得累計獎賞值R(τ)為

其中,γ為折扣因子.機器人在狀態s對應的價值函數Vπ(s)表示其在狀態s執行策略π后得到的累計獎賞值.

在狀態s實施動作a后得到的動作–狀態值函數Qπ(s,a)的定義為

由貝爾曼(Bellman)方程[20]可得動作–狀態值函數的迭代關系式為

機器人在狀態st所要執行的最優動作為

在策略優化階段,對機器人操作技能策略進行優化.依據最優動作的獲得是否需要價值函數Vπ(s)或動作–狀態值函數Qπ(s,a),將強化學習方法分為值函數強化學習和策略搜索強化學習.近年來,隨著深度學習的發展,諸多學者采用由深度學習和強化學習結合得到的深度強化學習方法來獲取機器人的操作技能策略.

1.1.1 值函數強化學習方法

值函數強化學習方法依據機器人與環境交互是否需要依靠先驗知識或交互數據學習得到系統的狀態轉移模型,可分為基于學習模型的值函數方法和基于無模型的值函數方法.

1)基于學習模型的值函數強化學習.Lioutikov等[21]基于局部線性系統估計(Local linear system estimation)得到系統的狀態轉移概率模型,實現了二連桿機械臂對乒乓球拍的操作(如圖3(a)所示).Schenck等[22]基于卷積神經網絡結構建立了推斷挖取和傾倒動作的預測模型,實現了KUKA機器人挖取豆粒物體的操作技能任務(如圖3(b)所示).Hester等[23]基于決策樹得到系統的狀態轉移概率模型,實現了人形機器人踢足球的操作技能.

2)基于無模型的值函數強化學習.機器人各狀態的價值函數采用諸如蒙特卡洛[24]、TD(λ)[25]、Q-leaning[26]及SARSA[27]等算法進行估計,進而得到各狀態的最優動作.Konidaris等[28?29]基于CST(Constructing skill tree)算法將機器人所要執行的任務序列化,完成了機器人在室內環境中移動到指定位置并執行開門的操作任務(如圖3(c)所示).Asada等[30]基于視覺信息構建得到了機器人工作環境中目標物體的幾何尺寸及方位信息,采用Q-leaning算法成功實現了機器人將球擊打到指定位置的操作任務.Kroemer等[31]提出了一種基于強化學習和視覺反饋策略的混合控制器,以處理抓取任務中的不確定性問題,成功實現了機器人抓取不同種類物體的任務目標(如圖3(d)所示).

圖3 基于值函數強化學習的操作技能Fig.3 Manipulation skills based on value function of reinforcement learning

總體而言,基于無模型的值函數方法不需對系統建模,計算量小,但價值函數的獲取需要通過機器人與環境的不斷交互采樣估計得到.基于學習模型的值函數方法首先需要依據機器人與環境的交互數據學習得到系統模型,并基于該模型采用仿真形式得到最優策略,故其在真實環境中所需的樣本少,但計算量大.

1.1.2 策略搜索強化學習方法

與基于通過價值函數推導間接得到最優策略不同,基于策略搜索的強化學習算法直接基于給定的策略評價函數在策略空間內搜索得到最優控制策略.將策略表示為參數θ的函數πθ,則對策略的優化間接轉化為對參數θ的優化.給定的策略評價函數為

依據策略搜索是否需要求導,可將策略搜索分為免求導方法和策略梯度方法.常見的免求導方法包含 CEM(Cross-entropy method)[32]、CMA(Covariance matrix adaptation)[33]等.策略梯度方法通過求解策略評價函數關于參數θ的導數,得到策略參數θ的搜索方向?θη(θ)

其中,p(τ;θ)表示執行策略πθ得到軌跡τ的概率分布.進而得到更新后的策略參數θi+1為

其中,α為更新步長.Endo等[34]基于策略梯度,實現了雙足機器人行走的操作技能任務.Peters等[35]將策略梯度與運動基元相結合,訓練得到了機械臂擊打棒球的操作技能策略(如圖4(a)所示).Deisenroth等[36]提出了一種基于模型的策略搜索方法,將深度相機提供的環境圖像信息和機器人操作任務的空間約束加入到學習過程,實現了機器人搭積木的操作任務(如圖4(b)所示),之后采用高斯過程[37]建立系統狀態轉移概率模型,減小了模型偏差對機器人操作技能學習的不利影響.

圖4 基于策略搜索強化學習的操作技能Fig.4 Manipulation skills based on policy search of reinforcement learning

相較而言,在機器人操作技能學習領域,策略搜索比基于價值函數的強化學習方法更具優勢,主要體現在:1)采用策略搜索方法可以較為方便地融入專家知識,可依據獲取的專家策略對神經網絡參數進行初始化,以加速策略優化的收斂過程;2)策略函數比價值函數具有更少的學習參數,基于策略搜索的強化學習算法的學習效率更加高效[38].

1.1.3 深度強化學習方法

基于深度神經網絡的深度學習作為機器學習領域的新分支,通過組合低層特征形成更加抽象的高層表示,得到數據的分布式特征.近年來,諸多學者將深度學習和強化學習相結合得到的深度強化學習算法[39]成功應用于視頻游戲[40]和圍棋[41?42]等領域.

1)基于價值函數的深度強化學習.Deep-Mind[40]提出的DQN(Deep Q-network)首次在視頻游戲領域超越了人類游戲玩家.DQN神經網絡結構示意圖如圖5所示,輸入是距離當前時刻最近的若干幀圖像,經過若干層卷積網絡和全連接網絡非線性變換后,最后輸出各動作對應的狀態–動作值.其通過最小化誤差函數

對網絡參數進行更新,式中yi為目標狀態–動作值.

其中,θi為第i次迭代更新后的網絡參數值.為了防止學習過程中過高估計動作–狀態值,van Hasselt等[43]提出了雙DQN(Double DQN),其目標狀態–動作值為

之后競爭網路(Dueling network)[44]和深度循環網絡(Deep recurrent network)[45]相繼被提出.Zhang等[46?47]創建虛擬訓練環境將DQN算法用于訓練三關節機器人抓取任務的控制策略,然而由于訓練環境與真實場景存在一定差異并且其將動作空間進行了離散化,導致訓練后的控制器在真實場景下的抓取效果欠佳.Google Brain和DeepMind聯合提出了基于連續動作空間和學習模型的DQN改進算法[48],在虛擬環境中成功實現了機器人抓取、夾手移動等操作任務.

圖5 DQN網絡結構示意圖Fig.5 Illustration of DQN neural network

2)基于策略搜索的深度強化學習.為解決連續動作空間上的控制問題,Lillicrap等[9]通過對確定性策略梯度(Deterministic policy gradient,DPG)[49]方法進行改造,提出了一種基于Actor-Critic框架的深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法,并在模擬仿真環境Mujoco中實現了機器人的抓取操作任務目標.為了保證策略優化過程中性能漸進提高,Schulman等[50]提出了TRPO(Trust region policy optimization)算法,其通過優化目標函數

對策略參數進行更新,式中t為優勢函數(Advantage function)在時刻t的估計值,πθ,πθold分別表示在同一批次訓練數據上優化前后的新舊策略,δ為較小值,用于限制新舊策略分布的KL散度差異.TRPO算法被成功應用于虛擬場景下的機器人操作技能學習.隨后,DeepMind和OpenAI提出了基于TRPO一階近似形式的改進型算法PPO(Proximal policy optimization)[10,13],在虛擬仿真環境機器人的操作技能學習中取得了優于TRPO的效果.基于異步梯度下降形式actor-critic的A3C(Asynchronous advantage actor-critic)[51]算法也被用于機器人的操作技能策略學習.

鑒于在策略優化的每個迭代步中,都需要采集一定量的訓練數據來更新策略,而在真實機器人工作場景中,訓練數據的獲取成本高昂,為此加州大學伯克利分校的Levine等[11?12,52?53]提出了引導策略搜索(Guided policy search,GPS)算法,通過使用優化軌跡分布來生成具有引導作用的訓練樣本,并采用監督學習方法訓練神經網絡策略.之后Levine等[12]又將環境的圖像信息作為機器人策略狀態的一部分,進行端到端的訓練,獲取了機器人抓取、搭衣服等多種操作技能(如圖6所示).

與常規強化學習方法相比,深度強化學習算法將具有強表征能力的深度神經網絡用于強化學習中價值函數和策略函數的表達,避免了人為手工設計特征,同時也易融入環境中的圖像感知信息,較適合于機器人操作技能學習.

強化學習方法在機器人的操作技能學習領域得到了廣泛的應用,基于機器人操作技能學習的任務特點,應用于機器人操作技能學習領域的強化學習有別于其他應用領域的不同之處,主要體現在其狀態及動作空間均為高維連續空間、收集訓練樣本代價高等方面,具體如表1所示.

圖6 基于引導策略搜索的機器人操作技能[12]Fig.6 Manipulation skills based on guided policy search[12]

表1 機器人和其他應用中強化學習比較Table 1 Comparison of reinforcement learning methods applied in robotics and other fields

1.2 基于示教學習

在機器人操作技能學習領域,示教學習通過模仿給定的專家數據學習得到操作技能策略.示教學習可降低機器人搜索策略空間的復雜度,在一定程度上提高了機器人操作技能的學習效率.近年來,示教學習已成為機器人操作技能學習的熱點領域之一[54].依據對示教數據的使用方式,大致可將示教學習分為行為克隆(Behavior cloning)[55]和逆強化學習(Inverse reinforcement learning)[56]兩大類,如圖7所示.

行為克隆是基于給定的多個示教軌跡序列τ1,τ2,···,τm,其中τi為,ni為軌跡τi的軌跡長度,收集得到狀態–動作對樣本集合D[57]

采用常見的監督學習方法,直接學習到狀態到動作的映射關系.日本東北大學基于隱馬爾科夫模型(Hidden Markov model,HMM)[58]訓練得到了能與人共跳華爾茲舞的機器人策略.Calinon等[59]基于高斯混合模型(Gaussian mixture model,GMM)學習到機器人移動棋子以及抓取糖塊并放到嘴里的操作技能,之后該課題組又通過可穿戴式運動傳感器采集示教數據,采用高斯混合回歸(Gaussian mixture regression,GMR)[60],實現了人形機器人完成籃球裁判員諸多判罰動作的操作機能.Rahmatizadeh等[61]通過在虛擬仿真環境中采集大量示教數據訓練遞歸神經網絡(Recurrent neural networks,RNN)策略,在真實機械臂上實現了抓取不同位置物體的目標.Calinon等[62]通過結合隱馬爾科夫模型、高斯混合回歸與機器人的系統動態特性建立冗余策略模型,實現了機器人擊打乒乓球的操作任務.Levine等[15]通過在多臺機械臂上收集大量抓取種類各異物體數據(如圖8所示),對深度卷積網絡控制策略進行訓練,在無需對相機標定的情況下,實現了高效準確抓取不同物體的目標.Zhang等[63]采用VR虛擬設備采集示教數據(如圖9所示),通過監督學習訓練神經網絡控制策略,實現了PR2機器人抓取、到達指定位置等若干操作技能.

圖7 示教學習分類示意圖Fig.7 Illustration of classification of imitation learning methods

圖8 多臺機器人收集訓練數據[15]Fig.8 Collecting training data by many robots[15]

圖9 基于VR虛擬現實設備的示教學習[63]Fig.9 Imitation learning based on VR device[63]

在有限樣本條件下,直接基于監督學習得到的策略適用性不強,逆向強化學習能夠基于給定的有限示教數據反推得到獎賞函數,從而提高學習策略的泛化性能.逆強化學習分為兩個階段,第一階段基于給定的示教軌跡推導出能使示教軌跡最優的獎賞函數,第二階段基于推導出的獎賞函數采用強化學習算法得到機器人執行該示教操作任務的技能策略.Abbeel等[64]提出了依據示教數據得到獎賞函數的最大邊際原則(Max margin principle),依據該原則可使基于獎賞函數學習到的最優策略和其他次優策略之間的差異最大.Ratliff等[65]基于最大邊際原則提出了最大邊際規劃框架,將獎賞函數的學習問題轉化為結構化預測問題,并通過四足機器人對該方法進行了驗證.然而,基于最大邊際原則得到的獎賞函數往往存在二義性問題,同時基于真實機器人得到的示教數據往往混有噪聲,導致在一些機器人的應用場景中效果不佳.為此,Ziebart等[66]基于最大熵原則構建了序列決策的概率模型獎賞函數,能保證在示教數據非最優及示教數據混有噪聲的情況下,機器人控制策略也具有較優的性能表現.上述均為基于線性特征得到獎賞函數的方法,基于非線性特征的方法如高斯過程[67]、boosting[68]也被用來求解示教軌跡中潛在的獎賞函數,其表現效果在一些任務領域優于基于線性特征得到獎賞函數.

為了避免人工設計獎賞函數特征,同時保證易于處理機器人狀態為高維、連續空間,深度神經網絡[69?70]已逐漸應用于獎賞函數的表達.

此外,Finn等[71]提出了引導式獎賞函數的逆強化學習方法,將獎賞函數作為優化目標生成接近專家示例軌跡數據的獎賞函數.Ho等[72]采用生成式對抗網絡(Generative adversarial networks,GAN)[73]的思想,將獎賞函數的優化比作判別器,同時將策略的優化比作生成器,使獎賞函數優化與策略優化交替迭代以生成能夠判別示教軌跡為較優軌跡的獎賞函數.加州大學伯克利分校提出了deepmimic算法[73],給定示教范例,采用強化學習中的PPO算法[13]對虛擬仿真環境中的人形機器人等進行訓練,實現了武術、跳舞及多種雜技等高難度操作技能(如圖10所示).

圖10 人形機器人高難度操作技能[73]Fig.10 Difficulty manipulation skills learned by human robots[73]

相比于強化學習方法策略起始狀態的隨機導致的學習效率低,示教學習方法基于示教數據對策略進行初始化,可加快機器人操作技能學習速率.然而示教學習中也存在收集示教數據成本高昂和訓練所得策略易陷入局部最優解的問題,從而可能導致機器人操作技能的學習效果欠佳.為此有學者將示教學習與強化學習相結合,以更加高效地獲取機器人的操作技能.Zhu等[74]提出了無模型的深度強化學習方法,采用強化學習與示教學習相結合的方式在合成的逼真虛擬仿真環境中對神經網絡進行訓練,之后將訓練得到的策略直接應用到真實環境中(如圖11所示).Hester等[75]提出了一種將示教數據添加到DQN回放記憶單元(Replay memory)中的示教學習方法,提升了操作技能學習效率.

圖11 虛擬環境中訓練策略應用于真實環境[74]Fig.11 Policies trained in simulated environment applied in real-world environment[74]

1.3 基于小數據學習

無論是基于強化學習還是基于示教學習的機器人操作技能學習方法都需要一定量的訓練數據.使用少量訓練數據就可學習到新的操作技能成為了機器人快速應用于各領域的關鍵.

近年來發展的遷移學習(Transfer learning)和元學習(Meta learning)[76]具有利用先前數據經驗的機制,在面對新任務少量數據時,能夠實現基于小樣本數據的快速任務學習.

遷移學習是從一個或多個源域(Source domain)中抽取知識、經驗,然后應用于目標域(Target domain)的學習方法[77],已在諸如計算機視覺[78?79]及控制[80?81]等領域取得了一定的進展.在機器人操作技能學習領域,遷移學習可將基于一種或多種任務上學習到的能力遷移到另一種新的任務上,以提高機器人操作技能的學習效率.Ammar等[82]提出了一種基于策略梯度的多任務學習方法,通過從不同的工作任務中遷移知識實現了機器人的高效學習.Gupta等[83]通過構建多個機器人之間共有的特征空間,采用多任務學習的形式在虛擬仿真環境中實現了將3連桿機器人抓取、移動指定物體的操作技能通過少量數據遷移給4連桿機器人的目標.Tzeng等[84]通過在虛擬環境中合成與真實環境中相對應的圖像信息對機器人的操作技能進行訓練,之后采用遷移學習的方式將機器人的操作技能應用于真實環境中.

機器人的遷移學習在一定程度上可提高機器人學習操作技能的效率,然而在面對新任務時,仍然需要以機器人與環境進行一定的交互為前提,即仍然不能使機器人通過一次或極少次示教數據成功學習到新的操作技能.

元學習(Meta learning)及以此為基礎的一次性學習(One-shot learning)是一種基于少量訓練數據對模型進行學習的機器學習方法.元學習通過在大量相關任務且每種任務包含少量標記數據的任務集上對策略進行訓練,能夠自動學得訓練任務集中的共有知識.諸多學者將該方法應用于圖像識別[85?87]、生成式模型[88?89]、強化學習中智能體的快速學習[90?91]等領域.還有一些學者嘗試將元學習應用在機器人操作技能學習領域.Duan等[92]提出了一次性模仿(One-shot imitation)學習方法(如圖12所示),基于多種任務采用元學習算法訓練得到元學習策略,學習完成后基于新任務的一次示教就可完成執行新任務的操作技能,并通過搭積木的操作任務驗證了該方法的有效性.Finn等[93]提出了MAML(Model-agnostic meta-learning)元學習方法,通過多種任務采用梯度下降方法對同一個深度網絡策略模型的參數進行元學習更新,利用少量訓練數據和較少步的梯度下降更新策略參數進行新任務學習(如圖13所示),在虛擬仿真環境中快速學習到了機器人的前進、后退等操作技能.OpenAI[14]基于策略梯度提出了一種適用于動態環境中的元學習算法,在虛擬環境中實現了多種構型機器人之間的競爭操作技能學習.

圖12 一次性模仿學習算法示意圖[92]Fig.12 Illustration of one-shot imitation learning algorithm[92]

圖13 MAML元學習方法策略參數梯度更新示意圖[93]Fig.13 Illustration of gradient update for policy parameters with MAML meta learning algorithm[93]

另外,一些學者提出了面對新任務少數據學習的其他方法.Xu等[94]通過采用神經網絡推理方法[95]將機器人的操作技能任務進行分解,在采用大量監督數據對模型訓練的基礎上,通過在虛擬環境中進行一次示教,就可使機器人完成諸如整理餐桌等操作任務.Tobin等[96]提出了域隨機化(Domain randomization)方法,通過在虛擬環境中改變物體的紋理、光照以及相機的位置等條件對神經網絡進行訓練,之后不需額外數據訓練即可將在虛擬環境中訓練得到的策略直接應用到了真實環境中.

在機器人操作技能學習領域,遷移學習及元學習都可認為是通過少量數據學習到新操作技能的方法,但不同之處在于,遷移學習是將機器人在某一或某幾種任務上已經學習好的技能遷移到新任務上,元學習是通過大量任務對元學習策略進行訓練,基于新任務的少量數據實現機器人操作技能策略的跨任務泛化.

本文將機器人操作技能學習方法分為基于強化學習的方法、基于示教學習的方法和基于小數據學習的方法,并基于此進行了綜述分析,基于機器人操作技能策略訓練數據的使用量、學習效率和學習成本的對比如表2所示.

表2 三類操作技能學習方法特點對比Table 2 Comparison of three kinds of manipulation skills learning methods

2 未來發展方向

通過分析已有的機器人操作技能學習研究工作,機器人操作技能學習問題主要聚焦于兩方面:1)如何使機器人學習得到的技能策略具有更好的泛化性能;2)如何采用較少的訓練數據、較低的訓練代價學習得到新的操作技能.如何解決這兩方面的問題是機器人操作技能學習的研究重點.為此,本文列舉了如下的未來研究方向.

2.1 高效學習算法設計

以兼俱感知、決策能力的深度強化學習為核心算法的機器學習方法在機器人操作技能學習領域取得了一定進展,但由于采用深度學習方法對價值函數或策略函數進行擬合,通常需要通過多步梯度下降方法進行迭代更新,采用強化學習得到機器人不同狀態所要執行的最優動作也需機器人在環境中經過多步探索得到,這就導致了該類算法的學習效率較低.例如人類花費數小時學會的操作技能,機器人需花費數倍時間才能到達同等水平.

現有的深度強化學習算法,諸如DQN,DDPG,A3C,TRPO,PPO等均為通用的深度強化學習算法,既能適用于電子游戲,也能適用于虛擬環境下的機器人控制策略訓練.但在機器人實際操作環境中,存在數據樣本獲取困難、數據噪聲干擾大等特點,導致現有操作技能學習方法學習效率低,學習效果欠佳.因此,結合機器人操作技能學習的固有特性及先驗知識設計高效學習算法,實現有限樣本下操作技能策略的快速迭代和優化對于機器人操作技能學習具有重要價值.

2.2 技能遷移學習

基于機器人操作技能學習中的遷移學習主要包含兩個方面:1)基于環境,將虛擬環境中學習到的操作技能遷移到真實環境中;2)基于任務,將在一種任務上學習到的操作技能遷移到另一種任務上.

在仿真環境中,機器人操作技能學習的訓練成本低廉,并可避免使用真實機器人訓練所帶來的諸多不便性和危險性.但由于仿真環境與機器人真實工作場景不同,導致仿真環境中學習到的操作技能策略在真實環境中表現效果欠佳,為此如何將在虛擬環境中學習到的策略較好地應用于真實環境是機器人操作技能學習中研究的關鍵問題之一.

通過基于一種或多種任務學習的技能策略初始化新任務技能策略,可加快機器人對新任務操作技能策略的學習效率,但這僅限于機器人的任務類型和工作環境存在極小差異的情況.為此如何在具有一定差異的不同任務之間實現操作技能的遷移,并且避免可能出現的負遷移(Negative transfer)現象,也是機器人操作技能學習中要解決的重要問題.

2.3 層次化任務學習

在機器人的操作技能學習任務中,復雜操作任務都可以分解成若干簡單子任務.例如機器人倒水操作任務可以分解成機器人從當前位置移動到水杯位置、機器人末端夾手抓住水杯、移動機器人到指定容器位置、轉動末端夾手將水倒入容器中.機器人開門操作任務可以分解為移動機器人夾手到門把手位置、夾手抓住門把手、轉動末端夾手將門打開.上述任務雖不相同,但均包含機器人末端執行器到達、末端夾手夾持等子任務,為此對機器人要執行的任務進行層次化分解可有利于操作技能的學習.針對復雜操作技能任務,訓練學習將復雜任務分解成多個子任務的高級策略和執行子任務的低級策略,可使操作技能的學習過程更加高效.

2.4 元學習

元學習作為一種學會學習(Learning to learn)的方法,在機器人操作技能學習領域已取得了一定的進展.將元學習思想應用于機器人操作技能學習領域可能存在的問題基于兩方面:1)要確定機器人操作技能學習的訓練環境和訓練數據集的數據形式;2)是設計適宜的元學習網絡結構.目前在計算機視覺領域,研究者提出了多種類型神經網絡結構,而在基于機器人操作技能學習領域的特定神經網絡結構還不多見.為此借鑒其他研究領域,設計學習效率高,性能優異的元學習神經網絡結構是機器人操作技能學習的重要研究方向.

元學習作為一種少數據學習方法,當前還僅限于面對新任務的測試階段需少量數據,而在元學習的訓練階段,仍需提供大量訓練數據.為此基于訓練環境、訓練數據形式及網絡結構等方面,設計高效的元學習訓練算法,實現真正的少數據學習,是機器人操作技能學習的未來發展方向之一.

3 結論

相比于傳統復雜編程、遙操作及示教編程等常規方法,機器人操作技能學習方法可使機器人具備一定的決策和學習能力,動態地適應諸多非結構化工作環境或場景多變的工作場合,是機器人能夠廣泛應用于各領域的基礎.機器人操作技能學習作為機器人研究領域的前沿方向吸引了諸多學者的研究興趣.

目前,人工智能技術的發展為機器人操作技能的學習提供了新的方法,開拓了新的思路.相比于計算機視覺、自然語言處理、語音識別等領域,機器人的操作技能學習所需代價更高、成本更大.因此,基于如何使機器人的操作技能學習更加高效,如何使學習的操作技能策略泛化性能更強等問題的研究,也將對機器學習及人工智能技術的發展起到促進作用.近年來,人工智能技術中的深度學習技術已開始廣泛應用于機器人操作技能學習領域,除與強化學習結合外,還應用于示教學習以及元學習中.但由于機器人應用場景和操作技能學習的特殊性,決定了應用于機器人領域的深度學習技術與其他應用領域具有不同的特性,例如在機器人操作技能學習應用領域,深度學習技術除應用于物體識別外還需進行物體的空間定位.此外,深度學習技術目前還缺乏一定的理論支持,基于深度學習技術獲取的機器人操作技能可解釋性差,在操作任務中需要的定位精確性、運動靈巧性和平穩性以及執行任務的實時性暫時還不能從理論上得到保證,還需進一步開展相關的研究和論證.

猜你喜歡
操作技能環境策略
機械裝配中鉗工的操作技能分析
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
關于學生實驗操作技能省級測試的思考——以高中生物學為例
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
北京再辦塔機司機操作技能競賽
建筑機械化(2015年7期)2015-01-03 08:08:52
主站蜘蛛池模板: 无码久看视频| 国产精欧美一区二区三区| 亚洲欧美综合精品久久成人网| 亚洲大学生视频在线播放| 中文字幕永久视频| 国产91透明丝袜美腿在线| 丁香综合在线| 激情综合网激情综合| 国产九九精品视频| 久久精品免费看一| 中文字幕免费播放| 中文字幕久久波多野结衣| 欧美中文字幕在线播放| 久久综合结合久久狠狠狠97色 | 中文字幕欧美成人免费| 国产69囗曝护士吞精在线视频| 亚洲欧洲日产国产无码AV| 无码日韩视频| 国产精品99一区不卡| 亚洲色偷偷偷鲁综合| 欧美日韩国产在线播放| 亚洲三级网站| 人人91人人澡人人妻人人爽| 欧美日韩激情| 一级看片免费视频| 免费一级全黄少妇性色生活片| 欧美精品在线视频观看| 精品久久久久久成人AV| 91福利在线观看视频| 免费看美女自慰的网站| 欧美另类一区| 广东一级毛片| 欧美区在线播放| 欧美一区二区福利视频| 伊人天堂网| 中文字幕无码av专区久久| 女人18毛片一级毛片在线 | 国产亚洲视频免费播放| 国产精品对白刺激| 欧美成人二区| 99这里精品| 国禁国产you女视频网站| 国产精品女同一区三区五区| 久久大香香蕉国产免费网站| 欧美激情综合| 亚洲欧美综合另类图片小说区| 久久这里只有精品8| 亚洲综合经典在线一区二区| 欧美一区二区人人喊爽| 国产av色站网站| 精品国产污污免费网站| 色亚洲成人| 亚洲欧洲一区二区三区| 欧美精品亚洲精品日韩专区| 无码啪啪精品天堂浪潮av| 91福利在线看| 综合天天色| 亚洲欧美激情小说另类| 中文字幕无码制服中字| 无码电影在线观看| 亚洲综合二区| 精品无码日韩国产不卡av| 欧美一级视频免费| 一区二区三区在线不卡免费| 国产成人综合亚洲欧洲色就色| 666精品国产精品亚洲| 久久久波多野结衣av一区二区| 国产一区二区三区在线观看免费| 黑色丝袜高跟国产在线91| 国产91小视频在线观看 | 国产日韩精品一区在线不卡| 国产精品第一区在线观看| 久久99国产精品成人欧美| 免费国产小视频在线观看| m男亚洲一区中文字幕| 免费高清自慰一区二区三区| 久青草免费视频| 草逼视频国产| 色综合久久无码网| 天天综合色天天综合网| 三上悠亚在线精品二区| 精品国产成人a在线观看|