伍一鶴,張振寧,仇 棟,李蔚清,蘇智勇
基于深度強化學(xué)習(xí)的虛擬手自適應(yīng)抓取研究
伍一鶴1,張振寧2,仇 棟1,李蔚清2,蘇智勇1
(1. 南京理工大學(xué)自動化學(xué)院,江蘇 南京 210094;2. 南京理工大學(xué)計算機科學(xué)與工程學(xué)院,江蘇 南京 210094)
在計算機角色動畫的抓取研究中,生成動作序列的自然性、穩(wěn)定性及自適應(yīng)能力三者難以同時得到保證,即自然又穩(wěn)定的抓取控制器往往泛化能力有限,無法適用于其他類型、尺寸物體的抓取任務(wù)。通過引入和抓取類型相對應(yīng)的手部示教數(shù)據(jù)、設(shè)計回報函數(shù),構(gòu)建了一種基于深度強化學(xué)習(xí)的虛擬手自適應(yīng)抓取控制器。實驗結(jié)果表明,該控制器能夠生成兼具自然性和穩(wěn)定性的抓取運動序列,同時對素材庫中不同尺寸、不同類型的基元物體也具備較好的自適應(yīng)能力。
深度強化學(xué)習(xí);示教學(xué)習(xí);運動生成;虛擬手;動作捕捉數(shù)據(jù)
虛擬人手部的抓取運動生成技術(shù)廣泛應(yīng)用在計算機角色動畫、機器人學(xué)、第一人稱虛擬現(xiàn)實(virtual reality,VR)等領(lǐng)域。由于人手是一個多自由度的復(fù)雜層次結(jié)構(gòu)[1]、是人體最靈活的部位,為了實現(xiàn)虛擬手對不同形狀、不同尺寸物體的自適應(yīng)抓握交互,并保證生成的運動序列自然流暢,保證最終的抓取姿態(tài)穩(wěn)定牢固,對控制器的設(shè)計提出了較高的要求。
現(xiàn)有的研究方法主要分為2類:建模解析法和數(shù)據(jù)驅(qū)動法。建模解析法[2-7]需要對虛擬手及交互對象進行嚴格的逆向工程,獲得描述抓取姿態(tài)的解析方程[4]。該方法的建模過程繁瑣,且難以泛化[5-7]。數(shù)據(jù)驅(qū)動法[8-13]需要動作捕捉數(shù)據(jù)[13]或大量如contact map[8]、抓握標(biāo)簽[9]等形式的先驗數(shù)據(jù),再結(jié)合機器學(xué)習(xí)等方法訓(xùn)練抓取模型。目前數(shù)據(jù)驅(qū)動的方法泛化能力有限,僅對單一形狀物體能夠取得較自然、穩(wěn)定的抓取結(jié)果[8-13],此外的部分方法依賴預(yù)訓(xùn)練,無法直接作用于目標(biāo)物體[8-9]。
為了解決計算機角色動畫中虛擬手對不同形狀、尺寸物體難以生成自然、穩(wěn)定抓取運動的問題,本文利用深度強化學(xué)習(xí)方法,設(shè)計了一種虛擬手抓取控制器。通過手部示教序列的引入,使得控制器能夠參考真人數(shù)據(jù),生成自然、擬人的抓取運動,簡化了復(fù)雜的運動機理建模;通過模仿獎勵和自適應(yīng)罰項的設(shè)置,該控制器能夠在模仿手部參考序列的同時,對不同形狀、不同尺寸物體生成穩(wěn)定的自適應(yīng)抓取,并且對于不同的拓撲結(jié)構(gòu)的手部,具備一定的重定向能力。
現(xiàn)有的建模解析法是指通過對虛擬手的幾何結(jié)構(gòu)及物理特性進行分析,利用動力學(xué)或運動學(xué)方法對抓取進行建模優(yōu)化的方法。文獻[2]最早提出力閉合概念,即一種外力可以被抓取的力平衡,并保持在手中的抓取狀態(tài)。文獻[3]提出了度量抓取質(zhì)量的指標(biāo)和指標(biāo)。在此工作的基礎(chǔ)上,文獻[4]發(fā)布了開源機器人抓握模擬器GraspIt。文獻[5]度量手部預(yù)置點與物體距離,以此生成抓取姿態(tài)。文獻[6]通過手勢-特征映射的方法,利用三維鼠標(biāo),實現(xiàn)對不同物體的抓取操控。文獻[7]結(jié)合用戶的交互,對抓取對象進行自定義的抓握。
數(shù)據(jù)驅(qū)動法是指以某種形式大量抓取數(shù)據(jù)作為樣本,來獲得抓取生成模型。該模型具備一定的泛化能力,即對于陌生的抓取測試樣本,其同樣能夠生成有效的抓取姿態(tài)。文獻[8]利用contact map作為輸入,獲得了既穩(wěn)定又符合該物體功能性的抓握姿態(tài)。文獻[9]利用支持向量機與粒子群算法,優(yōu)化了第一人稱VR中對物體的抓取操作體驗。文獻[10]將不同物體所對應(yīng)的手部抓取位姿作為標(biāo)簽數(shù)據(jù)集,并設(shè)定映射損失函數(shù)和碰撞損失函數(shù),最終利用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)了虛擬手對物體的抓取。文獻[11]給定抓取的動作捕捉數(shù)據(jù),以此來訓(xùn)練自編碼器,生成新的抓取姿態(tài)。在示教學(xué)習(xí)方面,文獻[12]利用少樣本遷移學(xué)習(xí)方法,由深度相機記錄的手部運動軌跡示范來學(xué)習(xí)抓取。文獻[13]利用基于超二次曲面模型的方法,將復(fù)雜物體分割成易于操作的物體元型,再利用模擬退火算法,結(jié)合參考示教數(shù)據(jù),求得最優(yōu)的抓取姿態(tài)。
總之,目前建模解析法的工作[2-7]需要復(fù)雜的物理建模,數(shù)據(jù)驅(qū)動法的工作[8-13]需要大量的先驗數(shù)據(jù)。此外,這2種方法獲得的虛擬手控制器的抓取自適應(yīng)能力都較差。
隨著計算機硬件技術(shù)的發(fā)展以及深度學(xué)習(xí)算法的突破,學(xué)界逐漸出現(xiàn)了利用深度強化學(xué)習(xí)模型控制虛擬人的研究工作[14]。文獻[15]利用PPO算法獲得控制器,結(jié)合動作捕捉數(shù)據(jù),實現(xiàn)了虛擬人的復(fù)雜運動控制,且對于指定的任務(wù)具有一定的自適應(yīng)能力。在此基礎(chǔ)上,文獻[16]利用基于視頻姿態(tài)估計的方法,從RGB視頻中得到參考運動序列,節(jié)省了動作捕捉數(shù)據(jù)的獲得成本。文獻[17]利用DQN方法實現(xiàn)了虛擬人復(fù)雜的運動控制,甚至籃球的運球控制[18]等。文獻[19]利用DQN方法,結(jié)合視頻恢復(fù)的參考運動序列,生成了花樣滑冰運動員的運動控制器。基于人類足部的建模,文獻[20]利用PPO算法獲得了足部控制器,可以自動調(diào)節(jié)虛擬人足部與地面之間相互作用,重現(xiàn)在運動作捕捉數(shù)據(jù)中無法獲得的足部姿勢。文獻[21]基于Spark實現(xiàn)了虛擬人強化學(xué)習(xí)訓(xùn)練框架。文獻[22]利用行為克隆算法,讓虛擬手可以完成預(yù)設(shè)的任務(wù)。
現(xiàn)有的虛擬人強化學(xué)習(xí)工作[15-21]雖然能夠取得較好的自適應(yīng)結(jié)果,但大多忽略了手部的運動控制;少量的虛擬手強化學(xué)習(xí)工作[22]也僅是利用了任務(wù)驅(qū)動型的方法,即注重預(yù)設(shè)任務(wù)完成與否,而忽略了中間過程動畫生成的自然性與穩(wěn)定性。
虛擬手自適應(yīng)抓取系統(tǒng)的流程如圖1所示,可劃分為預(yù)處理階段、訓(xùn)練階段和推演階段。在預(yù)處理階段,先對虛擬手進行物理建模,然后將動作捕捉數(shù)據(jù)綁定在用于示范的虛擬手上。在訓(xùn)練階段,針對抓取任務(wù)類型,引入對應(yīng)的訓(xùn)練物體,再進行深度強化學(xué)習(xí)的離線訓(xùn)練。在推演階段,可將推演物體作為輸入,再利用訓(xùn)練階段獲得的強化學(xué)習(xí)模型,進行在線實時的抓取運動生成。

圖1 系統(tǒng)流程圖
作為強化學(xué)習(xí)智能體的虛擬手(淺色)需要與物體進行交互,應(yīng)嚴格遵循物理定律,即應(yīng)包含關(guān)節(jié)鏈(Hinge Joint)屬性、質(zhì)量(Mass)屬性、碰撞體(Collider)屬性。通過對真實人手的解剖結(jié)構(gòu)分析[1],本文以右手為例,定義了滿足生理約束的虛擬手層次模型:每根手指的遠指指段(指尖)連接并依附于中指指段;中指指段又依附于近指指段;手指根節(jié)點最終依附于手掌,如圖2(a)所示。

圖2 虛擬手模型((a)層次模型;(b)局部坐標(biāo)系)
本文將指段-關(guān)節(jié)所組成的結(jié)構(gòu)抽象為類桿-鉸鏈結(jié)構(gòu),其對應(yīng)的關(guān)節(jié)角度約束見表1。

表1 手部關(guān)節(jié)的角度約束(°)
表1中,,分別是沿手指關(guān)節(jié)軸方向、指段方向、以及二者平面的垂直向量方向,如圖2(b)所示。為了感知交互及避免穿透現(xiàn)象,可給虛擬手的每個指尖部位施加了球形碰撞體。
本文選用Mixamo角色公開數(shù)據(jù)集中的“Picking Up Object”動畫[23],并將其定義為“橫握”抓取運動的參考序列模板,作用于素材庫中所有的目標(biāo)類型。將其綁定在用于記錄示教數(shù)據(jù)的虛擬手(深色)上的結(jié)果,如圖3所示。

圖3 參考運動序列的綁定
該示教數(shù)據(jù)具體表示為由1至t時間內(nèi)、第i至i個手指關(guān)節(jié)關(guān)于,,軸的歐拉角r,r,r所組成的××3的張量,其中與分別表示當(dāng)前時刻幀數(shù)與手指關(guān)節(jié)的總數(shù)。
在該強化學(xué)習(xí)任務(wù)中,可定義智能體為第3節(jié)所述的虛擬手模型,環(huán)境中的交互對象為目標(biāo)物體。本文用分類法,將生活中物體的主體部分抽象為特定的基礎(chǔ)物體。并以球體、立方體、柱狀體為例,加入目標(biāo)物體素材庫,部分抽象結(jié)果如圖4所示。在推演階段,定義任務(wù)為對物體素材庫中的形狀特定、尺寸任意的物體進行抓握,且要求生成的抓握運動序列自然而穩(wěn)定。

圖4 素材庫中的基礎(chǔ)物體((a)球狀目標(biāo)物體的抽象模型;(b)柱狀目標(biāo)物體的抽象模型)
智能體模仿參考運動序列的一個完整流程稱之為一幕(Episode)。在每一幕的每一時刻,智能體(淺色虛擬手,圖2)通過觀察參考運動序列(深色虛擬手,圖3)和目標(biāo)物體,更新狀態(tài)信息。后根據(jù)訓(xùn)練階段習(xí)得的策略調(diào)整最合適的手部姿態(tài)與物體進行交互,獲得反饋。重復(fù)觀察-交互-反饋的步驟,直至這一幕結(jié)束,即生成了一個完整的抓取序列。
本文采用近端策略優(yōu)化算法(proximal policy optimization,PPO)[24]將參數(shù)化的策略進行迭代訓(xùn)練。使用了一個結(jié)構(gòu)如圖5所示的4層神經(jīng)網(wǎng)絡(luò)作為策略參數(shù)的逼近器。該網(wǎng)絡(luò)的輸入長度為199的向量,表示智能體的觀測值;輸出長度為20的向量,表示智能體的行為值。

圖5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在強化學(xué)習(xí)方法中,觀測值指智能體所感知的環(huán)境信息。在圖5所示神經(jīng)網(wǎng)絡(luò)中,輸入端表示的觀測值組為




,,,4組觀測值分別為時刻手部15個關(guān)節(jié)的坐標(biāo)、角度、速度、角速度矩陣。
行為值是智能體根據(jù)觀測值,結(jié)合訓(xùn)練階段所習(xí)得的策略,即行為的量化值。圖5中神經(jīng)網(wǎng)絡(luò)輸出的行為值用表示,指時刻15個指關(guān)節(jié)繞軸或軸的速度矩陣。
回報函數(shù)是強化學(xué)習(xí)策略在訓(xùn)練過程中需要最大化的指標(biāo)函數(shù)。本文在DeepMimic[15]的基礎(chǔ)上,設(shè)計了適用于手部自適應(yīng)抓取的回報函數(shù),即


其中,trans為過渡相位值。
4.5.1 模仿獎勵
模仿獎勵是通過逆向強化學(xué)習(xí)[26]的思想,使得智能體能夠模仿手部參考運動序列的獎勵函數(shù)。相較于簡單地抓取完成任務(wù),該獎勵的引入使得生成的手部的抓取序列更接近于真人示范,更具自然性,有





其中,為時刻手指末端5個遠指指段的坐標(biāo)矩陣,滿足?。末端坐標(biāo)獎勵使得在每個時刻內(nèi),手部5個指尖與參考運動序列指尖在相對坐標(biāo)系內(nèi)位置盡可能接近。
4.5.2 自適應(yīng)罰項
自適應(yīng)罰項是為了在同一抓取任務(wù)下,滿足對不同形狀、不同尺寸的目標(biāo)物體都能做到穩(wěn)定抓取的罰函數(shù)。需要指出的是,若只采取上節(jié)中的模仿獎勵,即單純地模仿參考運動序列,最終生成的抓取姿態(tài)并不能滿足上述自適應(yīng)能力,具體為




時刻五指質(zhì)心的坐標(biāo)為

其中,m為第個指尖的質(zhì)量。
本文實驗的硬件為一臺配置Intel i7-9700KF處理器、NVIDIA GTX 2070顯卡、16 GB內(nèi)存的服務(wù)器;軟件平臺為基于Unity3D及ML-Agents[27]插件所搭建的虛擬實驗環(huán)境。在訓(xùn)練階段,設(shè)定訓(xùn)練物體的尺寸因子∈[0.5,1.0],并定義權(quán)值參數(shù)=0.4,=0.2,=0.4,=0.25,=0.25,=0.5,過渡相位值trans=0.4,定義手部每個指段質(zhì)量m為0.03 kg,手掌的質(zhì)量palm為0.5 kg。
下面通過消融實驗(Ablation)、自適應(yīng)抓取實驗和手部重定向?qū)嶒灒瑢嶒灲Y(jié)果進行定性和定量的分析。
消融實驗用控制變量法,將實驗因素逐一排除后再進行的對比實驗。以球體的抓取任務(wù)為例,對模仿獎勵和自適應(yīng)罰項兩者進行變量控制。通過對“僅模仿”“僅自適應(yīng)”“DeepMimic”和“模仿加自適應(yīng)”4種不同的回報函數(shù)所得的訓(xùn)練模型分別進行消融實驗,分析式(4)中總回報函數(shù)每項的作用。
在訓(xùn)練階段,4種模型所對應(yīng)的累計回報增長曲線如圖6所示。“僅模仿”是指回報函數(shù)R中自適應(yīng)權(quán)值w取0,取1所對應(yīng)的情況。由于此時不存在罰項,所以累積回報初始值為0,且累計回報上升空間較小。“僅自適應(yīng)”指模仿權(quán)值為0,為1的情況,此階段只有罰項,且累計回報理論最大值為0。“DeepMimic”指為1,也為1情況,以此代表文獻[15]的學(xué)習(xí)策略。本文方法采用的“模仿+自適應(yīng)”指為1,且滿足式(5)的情況。后2種情況下訓(xùn)練初期罰項作用大,累計回報為負值;隨著迭代步數(shù)的增長,累計回報逐漸變?yōu)檎担蛔詈筮M入緩慢增長的階段。相較于DeepMimic方法,由于式(5)中的動態(tài)權(quán)值緩解了初始手型罰項過大的問題,因此本文方法訓(xùn)練收斂速度更快。

圖6 訓(xùn)練階段的累積回報增長曲線
“僅模仿”“僅自適應(yīng)”“模仿加自適應(yīng)” 3種模型所對應(yīng)的抓取效果如圖7所示,其中的深色小立方體表示目標(biāo)物體的質(zhì)心,淺色小立方體表示虛擬手的5個指尖的質(zhì)心。由于“DeepMimic”和“模仿加自適應(yīng)”模型抓取效果區(qū)分度不大,這里省略該模型的后續(xù)結(jié)果分析。

圖7消融實驗結(jié)果((a)“僅模仿”策略;(b)“僅自適應(yīng)”策略;(c) “模仿+自適應(yīng)”策略)
上述3種模型對應(yīng)的抓取結(jié)果指標(biāo)見表2。表中的Sim(,)為序列相似度[28]指標(biāo),本文以該指標(biāo)反映生成序列的自然性,即

其中,為智能體(淺色,圖1)生成的手部運動序列;為示教數(shù)據(jù)(深色,圖2)參考運動序列;和分別為兩者對應(yīng)的序列長度;為公共子序列長度。本文定義min=0.5為閾值,當(dāng)序列間某些幀的姿態(tài)的最小二乘距離小于min時,由這些幀所構(gòu)成的序列即為2個序列的公共序列。為質(zhì)心離差比,有

其中,′為五指均接觸到物體的時刻。本文以該質(zhì)心偏差的相對值反映生成抓取姿態(tài)的牢固程度。每組實驗結(jié)果的指標(biāo)取連續(xù)10幕的均值,后續(xù)實驗將沿用上述實驗量化指標(biāo)。

表2 消融實驗結(jié)果表(%)
由分析易知,“僅模仿”情況下虛擬手會盡量逐幀地保持和參考運動序列的同步性。該策略雖然能夠獲得較高的序列相似度,但抓取穩(wěn)定性指標(biāo)較差,有時甚至不能保證指尖接觸物體,如圖7(a)所示。“僅自適應(yīng)”情況下的虛擬手具備較穩(wěn)定的抓取,但生成的抓取姿態(tài)自然性無法得到保障,如圖7(b)所示指段交錯的情況。最適合的模型為“模仿+自適應(yīng)”的情況,此時生成的序列兼具較高的自然性和穩(wěn)定性,如圖7(c)所示。
為了探究虛擬手的抓取自適應(yīng)能力,需先對物體素材庫中的物體進行變量控制,進行形狀自適應(yīng)實驗;再對尺寸因子進行變量控制,進行尺寸自適應(yīng)實驗。
5.2.1 形狀自適應(yīng)實驗
本節(jié)將球體的訓(xùn)練模型分別作用于立方體、柱狀體和球體的抓取任務(wù),分析強化學(xué)習(xí)策略對不同形狀分類物體的自適應(yīng)能力。
3種物體所對應(yīng)的抓取效果如圖8所示,對應(yīng)的抓取結(jié)果見表3。為了生成最佳的抓取運動序列,現(xiàn)有工作[6,13]通常按照嚴格的分類標(biāo)準(zhǔn),讓模型去抓取對應(yīng)形狀分類的物體;欲對不同類型、尺寸的物體進行抓取,其效果較差。通過分析可知,本文方法生成的抓取運動生成算法對于不同形狀分類的物體同樣能生成自然、穩(wěn)定的抓取姿態(tài),且量化指標(biāo)均較穩(wěn)定。

圖8 形狀自適應(yīng)實驗結(jié)果((a)立方體抓取任務(wù);(b)柱狀體抓取任務(wù);(c)球體抓取任務(wù))

表3 形狀自適應(yīng)實驗結(jié)果表(%)
5.2.2 尺寸自適應(yīng)實驗
以球體的抓取任務(wù)為例,對物體的尺寸因子進行變量控制,分析強化學(xué)習(xí)策略對訓(xùn)練階段外不同尺寸物體的抓取自適應(yīng)能力。在訓(xùn)練階段,訓(xùn)練物體的尺寸因子滿足?[0.5, 1.0];在推演階段,可分別將尺寸因子設(shè)置為0.3和1.2。
2種尺寸的球體抓取任務(wù)效果如圖9所示,對應(yīng)的抓取結(jié)果見表4。通過分析可知,本文方法生成的抓取運動生成算法對于尺寸適中(=0.75)的物體具有較穩(wěn)定的抓取效果。對于較大尺寸(=1.20)或較小尺寸(=0.30)物體也能做到一定程度的抓取。由于此時生成的抓取姿態(tài)已經(jīng)和初始參考運動序列差別較大,因此Sim(,)指標(biāo)偏低,指標(biāo)偏高。

圖9 尺寸自適應(yīng)實驗結(jié)果

表4 尺寸自適應(yīng)實驗結(jié)果表(%)
在正常比例的虛擬手策略的基礎(chǔ)上,將其直接作用于“較長指節(jié)”(1.3倍)和“較短指節(jié)”(0.7倍)2種不同拓撲比例的虛擬手模型上,探究該抓握算法的重定向能力。由于不同手部模型之間存在一定的拓撲差異,從最初的參考運動序列到最終虛擬手抓握的整個過程中,對算法的重定向能力提出了較高的要求。
3種虛擬手模型所對應(yīng)的抓取效果如圖10所示,其中圖10(c)為正常手指的參考模型(1.0倍)。經(jīng)分析可知,對于手部拓撲結(jié)構(gòu)的改變,本文提出的抓取運動生成算法具備一定的重定向能力。

圖10 手部重定向?qū)嶒灲Y(jié)果((a)較長指節(jié);(b)較短指節(jié);(c)正常指節(jié))
本文提出了一種虛擬手的自適應(yīng)抓取運動生成方法,設(shè)計了一種基于真人手部示教序列的離線深度強化學(xué)習(xí)控制器。結(jié)果表明,對于物體形狀、尺寸在訓(xùn)練數(shù)據(jù)集以外的目標(biāo)物體,該方法同樣能夠生成自然且穩(wěn)定的抓取運動序列,并具備一定的重定向能力。
本文方法的局限性體現(xiàn)在虛擬手的運動僅由運動學(xué)算法生成,未考慮其與物體進行交互時的力閉合屬性;此外該算法僅適用于物體主體部分抽象出的簡單基元。未來的工作可以考慮使用基于RGB視頻的手部姿態(tài)估計方法獲取參考運動序列,減少動作捕捉數(shù)據(jù)的獲取成本。
[1] 付宜利, 劉誠. 虛擬裝配中基于生理約束的虛擬手建模與抓持規(guī)劃[J]. 計算機集成制造系統(tǒng), 2009, 15(4): 681-684.
FU Y L, LIU C. Hand modeling and motion controlling based on lay figure in virtual assembly[J]. Computer Integrated Manufacturing Systems, 2009, 15(4): 681-684 (in Chinese).
[2] FERRARI C, CANNY J. Planning optimal grasps[C]//1992 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 1992: 2290-2295.
[3] MILLER A T, ALLEN P K. Examples of 3D grasp quality computations[C]//1999 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 1999: 1240-1246.
[4] MILLER A T, ALLEN P K. Graspit! a versatile simulator for robotic grasping[J]. IEEE Robotics & Automation Magazine, 2004, 11(4): 110-122.
[5] CIOCARLIE M, GOLDFEDER C, ALLEN P. Dimensionality reduction for hand-independent dexterous robotic grasping[C]//2007 IEEE/RSJ International Conference on Intelligent Robots and Systems. New York: IEEE Press, 2007: 3270-3275.
[6] 蔡嫻娟, 程成, MARWAH A, 等. 虛擬制造環(huán)境中虛擬手的行為構(gòu)造[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2015, 27(3): 499-507.
CAI X J, CHENG C, MARWAH A, et al. Research on behavior simulation of virtual hand in virtual manufacturing environment[J]. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(3): 499-507 (in Chinese).
[7] SONG P, FU Z Q, LIU L G. Grasp planning via hand-object geometric fitting[J]. The Visual Computer, 2018, 34(2): 257-270.
[8] BRAHMBHATT S, HANDA A, HAYS J, et al. ContactGrasp: functional multi-finger grasp synthesis from contact[C]//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2019: 2386-2393.
[9] TIAN H, WANG C B, MANOCHA D, et al. Realtime hand-object interaction using learned grasp space for virtual environments[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(8): 2623-2635.
[10] LIU M, PAN Z R, XU K, et al. Generating grasp poses for a high-DOF gripper using neural networks[C]//2019 IEEE International Conference on Intelligent Robots and Systems. New York: IEEE Press, 2019: 1518-1525.
[11] STARKE J, EICHMANN C, OTTENHAUS S, et al. Synergy-based, data-driven generation of object- specific grasps for anthropomorphic hands[C]//2018 IEEE-RAS 18th International Conference on Humanoid Robots. New York: IEEE Press, 2018: 327-333.
[12] KOPICKI M, DETRY R, ADJIGBLE M, et al. One-shot learning and generation of dexterous grasps for novel objects[J]. The International Journal of Robotics Research, 2016, 35(8): 959-976.
[13] 王曉媛, 田浩, 王長波. 虛擬手自然抓取動作生成研究[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2020, 32(9): 1502-1508.
WANG X Y, TIAN H, WANG C B. Research on natural grasp generation of the virtual hand[J]. Journal of Computer-Aided Design & Computer Graphics, 2020, 32(9): 1502-1508 (in Chinese).
[14] LIU L B, DE PANNE M V, YIN K K. Guided learning of control graphs for physics-based characters[J]. ACM Transactions on Graphics, 2016, 35(3): 1-14.
[15] PENG X B, ABBEEL P, LEVINE S, et al. DeepMimic: example-guided deep reinforcement learning of physics-based character skills[EB/OL]. [2020-07-01]. https: //arxiv.org/abs/ 1804.02717.
[16] PENG X B, KANAZAWA A, MALIK J, et al. SFV: reinforcement learning of physical skills from videos[J]. ACM Transactions on Graphics, 2018, 37(6): 1-14.
[17] LIU L B, HODGINS J. Learning to schedule control fragments for physics-based characters using deep Q-learning[J]. ACM Transactions on Graphics, 2017, 36(4): 1-14.
[18] LIU L B, HODGINS J. Learning basketball dribbling skills using trajectory optimization and deep reinforcement learning[J]. ACM Transactions on Graphics, 2018, 37(4).1-14.
[19] YU R, PARK H, LEE J. Figure skating simulation from video[J]. Computer Graphics Forum, 2019, 38(7): 225-234.
[20] PARK H, YU R, LEE J. Multi-segment foot for human modelling and simulation[J]. Computer Graphics Forum, 2020, 39(1): 637-649.
[21] 方偉, 黃增強, 徐建斌, 等. 基于Spark的分布式機器人強化學(xué)習(xí)訓(xùn)練框架[J]. 圖學(xué)學(xué)報, 2019, 40(5): 852-857.
FANG W, HUANG Z Q, XU J B, et al. Training framework of distributed robot reinforcement learning based on spark[J]. Journal of Graphics, 2019, 40(5): 852-857.
[22] RAJESWARAN A, KUMAR V, GUPTA A, et al. Learning complex dexterous manipulation with deep reinforcement learning and demonstrations[EB/OL]. [2020-07-19]. https:// arxiv.org/abs/1709.10087.
[23] Adobe. Mixamo[EB/OL].(2020-01-02) [2020-01-12]. https:// www.mixamo.com/#/?page=1&query=grab&type=Motion%2CMotionPack.
[24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2019-09-15]. https:// arxiv.org/abs/1707.06347.
[25] ANTOTSIOU D, GARCIA-HERNANDO G, KIM T K. Task-oriented hand motion retargeting for dexterous manipulation imitation[C]//Computer Vision - European Conference on Computer Vision 2018 Workshops. Heidelberg: Springer, 2018: 287-301.
[26] 劉乃軍, 魯濤, 蔡瑩皓, 等. 機器人操作技能學(xué)習(xí)方法綜述[J]. 自動化學(xué)報, 2019, 45(3): 458-470.
LIU N J, LU T, CAI Y H, et al. A review of robot manipulation skills learning methods[J]. Acta Automatica Sinica, 2019, 45(3): 458-470 (in Chinese).
[27] JULIANI A, BERGES V P, VCKAY E, et al. Unity: a general platform for intelligent agents[EB/OL]. [2020-09-15]. https:// arxiv.org/abs/1809.02627.
[28] 陳昌偉. 基于Kinect的人體動作比對分析及生物力學(xué)分析[D]. 天津: 天津大學(xué), 2014.
CHEN C W. Comparative analysis and biomechanical analysis of human motion based on kinect[D]. Tianjin: Tianjin University, 2014 (in Chinese).
Research on adaptive grasping of virtual hands based on deep reinforcement learning
WU Yi-he1, ZHANG Zhen-ning2, QIU Dong1, LI Wei-qing2, SU Zhi-yong1
(1. School of Automation, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China; 2. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China)
For the grasping of computer character animation, it is difficult to guarantee the naturalness, stability and adaptability of the generated action sequence at the same time. In other words, the natural and stable grasping controller are often limited in generalization and cannot be applied to other types of grabbing tasks. A virtual hand adaptive grasping controller was constructed based on deep reinforcement learning by introducing hand teaching data corresponding to the grasping types and by designing the reward function. Experimental results show that the designed controller can generate a grasping motion sequence with both naturalness and stability, and are also highly adaptive for different sizes and types of primitive objects in the material library.
deep reinforcement learning;demonstrationlearning; motion generation; virtual hands; mocap data
TP 391
10.11996/JG.j.2095-302X.2021030462
A
2095-302X(2021)03-0462-08
2020-09-30;
2020-12-24
30 September,2020;
24 December,2020
“十三五”裝備預(yù)研項目(61409230104,1017,315100104);中央高校基本科研業(yè)務(wù)費專項(30918012203);上海航天科技創(chuàng)新基金(SAST2019009)
Thirteenth Five-Year Plan Equipment Pre-research Project (61409230104, 1017, 315100104); Fundamental Research Fund for Central Universities (30918012203); Shanghai Aerospace Science and Technology Innovation Fund (SAST2019009)
伍一鶴(1996-),男,新疆博州人,碩士研究生。主要研究方向為計算機圖形學(xué)、增強現(xiàn)實。E-mail:yihewu@njust.edu.cn
WU Yi-he (1996-), male, master student. His main research interests cover computer graphics and AR. E-mail:yihewu@njust.edu.cn
蘇智勇(1981–),男,江蘇泰州人,副教授,博士。主要研究方向為計算機圖形學(xué)、機器學(xué)習(xí)等。E-mail:su@njust.edu.cn
SU Zhi-yong (1981–), male, associate professor, Ph.D. His main research interests covercomputer graphics and machine learning, etc. E-mail:su@njust.edu.cn