曾 超 楊辰光 李 強 戴詩陸
中國工程院近期在《走向新一代智能制造》一文中指出:新一代智能制造的技術機理是“人–信息–物理系統(Human-cyber-physical-systems,HCPS)”,并指出新一代HCPS 具備兩個顯著特征:1)人將部分認知轉移給信息系統,因而系統具有“認知、學習”能力;2)通過“人在回路(Humanin-the-loop)”的混合增強智能,可極大地優化制造系統的性能[1].
人–信息–機器人融合系統(Human-cyberrobot-systems,HCRS)是HCPS 在機器人領域中的具體應用.與之相應,基于機器人的制造系統需要適應新一代智能制造的發展趨勢.傳統人機隔離生產方式剛性作業,無法完成復雜多變生產任務,也逐漸無法滿足產品多品種、短周期、少批量、個性化的需求.而在HCRS 中,新型人機共融作業模式將人的優勢(智慧性、靈巧性)與機器人優勢(高速率、高精度、順從性)高效結合,實現人、信息與機器人系統的深度融合.HCRS 具備HCPS 的典型特征,突出了人的中心地位,將人的特點(包括靈巧性和應變能力)納入到系統之中,增強系統的智能程度,可適應新一代智能制造過程中柔性、高效等要求.
其中,人–機器人技能傳遞(Human-robot skill transfer,HRST)是HCRS 中的關鍵之一,是實現人與機器人的運動信息深度融合的基礎.HRST的研究始于上個世紀80 年代,最近10 年得到了很大發展,目前是國際機器人領域中研究熱點之一.HRST 在不同文獻中有不同稱謂,如示教編程(Programming by demonstration,PbD)、機器人示教學習(Learning from demonstration,LfD)、模仿學習(Imitation learning)等,但其本質相同:人將自己的技能做通用化描述后傳遞給機器人,進而實現機器人的運動編程,可代替傳統的機器人編程方式.機器人除了直接模仿人的技能外,還可根據任務情況對所學技能進行泛化、拓展.HRST 突出了人的因素在HCRS 中關鍵作用,可實現人機各自作業優勢的結合,適應人機共融協作要求.相比傳統方式,HRST 有諸多優勢(見表1).

表1 HRST 與傳統方式的比較Table 1 Comparation between HRST and the conventional methods
人–機器人技能傳遞以交互的方式進行.一方面,人根據任務情況自主調節自身的運動特征,如根據與環境交互情況而自適應地調節肢體位置,剛度/力;另一方面,機器人的運動響應可作為反饋信息幫助示教者對其運動進行修正與完善.從機器人角度來看,不止是簡單地模仿人的點對點(Point-topoint)運動軌跡,而是具有“學習、推理”能力,能夠對所學“知識”進行泛化,如具有目標拓展、運動識別、安全避障等,以滿足不同的任務要求.人機技能傳遞側重強調人的因素在提高機器人技能方面的作用,因此其主要的關注點是如何對人和機器人的運動進行通用化的描述.
本文針對人機技能傳遞展開討論,主要關注機械臂的技能示教學習.文章組織如下:第1 節介紹機器人通用的技能學習過程;第2 節闡述實現人機技能傳遞的主要方式;第3 節總結幾種主要的技能建模方法;第4 節介紹機械臂仿人控制問題;第5 節給出目前研究不足與未來發展方向;第6 節總結全文.
技能從人到機器人傳遞一般包括三個基本步驟:1)示教階段(Demonstration);2)模型學習階段(Model learning);3)任務復現階段(Task reproduction).以寫字為例,技能傳遞過程總體框圖如圖1 所示.

圖1 人機技能傳遞一般過程框圖Fig.1 The procedure of human-robot skill transfer
1)示教階段:在這一階段,示教者向機器人演示如何操作任務.這個過程可以是在線的,也可以是離線的.在線是指在示教過程中,機器人也跟隨示教者操作任務,記錄下機器人在此過程中的運動信息的變化(包括位置、速度、力等信息)[2],在此過程還可記錄示教者肢體的剛度變化信息[3?4];離線示教是指在示教階段,只有示教者完成任務示范并記錄下其運動狀態變化,而機器人在此階段并不需要跟隨示教者運動[5].
2)模型學習階段:在示教完成后,獲得了包含相應技能信息的數據集合.模型學習的主要作用是根據任務特點對示教的技能特征進行建模.利用示教數據擬合模型,從而估計出模型參數.在此階段,除了需要考慮對運動軌跡表征(Representing),還往往需要考慮多次示教軌跡對齊(Alignment)[6]、復雜技能的分割(Segmentation)[7]和運動拓展(Generalization)[8]等問題.
3)任務復現階段:在獲得技能特征之后,可將學習出的運動策略控制變量映射到機械臂的控制器中,機器人可復現出示教者的技能,甚至對其進行泛化,以完成相應的作業任務.任務復現階段需要選擇合適的機械臂控制模式.控制模式可以是多樣的,根據任務要求可選擇位姿控制、速度控制、力/力矩控制等.特別地,對于與環境有敏感接觸交互力的任務,有效控制接觸力是成功復現及泛化作業任務的關鍵因素.
人機交互接口設計(Interface design)是實現技能從人向機器人傳遞的首要環節,決定了人通過何種方式對機器人進行示教.根據不同的交互接口,常見的人機技能傳遞方式可歸納為以下三種形式:基于視覺的(Vision-based);基于遙操作(Teleoperation-based);人機物理接觸交互(Physical human-robot interaction,pHRI).
1)基于視覺的人機技能傳遞[9?10].視覺輸入是比較常用的運動示教方式.其基本原理是首先通過視覺設備(如三維體感攝影機Kinect、運動捕捉系統Vicon 等)捕捉并跟蹤人體運動信息并記錄下來,隨后用機器學習算法對運動狀態數據建模,得到運動的通用化描述.最后在復現環節中,根據具體任務特點,泛化生成滿足任務要求的控制指令.根據捕捉信息的特點又可將這種方法分為以下幾種基本方法:利用Kinect 相機[11]捕獲示教者在運動時候手臂的關節角度,再將人的關節角度映射到機器人的關節空間(Joint-space)[12?13],如圖2(a)所示;利用相機并結合光標(Optical marker)的方式,光標可佩戴在示教者的手臂末端位置,相機記錄下手臂末端在示教過程中的運動軌跡,進而將其映射到機器人的任務空間(Task-space)[5?6,9],如圖2(b)所示;此外,機器人還可以通過基于視頻演示的方法學習到人的技能[14?15].
基于視覺的人機交互接口的優點是方便人的示教,由于人的肢體不與機器人直接接觸,因而示教者的肢體運動可不受其限制.缺點是這種示教方式只能獲取運動信息,無法捕捉到人機接觸情況下示教者的動作信息.另外,由于示教者不能直接感受到交互力,導致示教過程缺乏浸入感.
2)基于遙操作方式的人機技能傳遞[16].通過遙操作的方式,示教者可以通過主端(Master)設備操作從端(Slave)機器人.示教過程與基于視覺的方式很類似,不同之處在于這種方式不再直接記錄示教者的肢體的運動信息,而是記錄主端操作桿或者從端機器人的運動狀態.由于操作桿與機器人的物理結構往往不同,因而在示教過程中需要將二者的工作空間(Work space)進行匹配[17].目前,遙操作已經被成功應用到了機器人輔助手術系統中,如達芬奇手術機器人.
基于遙操作的示教方式的優點是可以用在遠程操控場景與不適合示教者和機器人直接接觸的工作場景中,如核電輻射場所、對大型機器設備的示教編程等.其缺點是遙操作系統往往存在延時問題.另外,震顫現象也是影響遙操作示教性能的重要因素之一[18].

圖2 基于視覺方式的技能傳遞[19]Fig.2 Vision-based human-robot skill transfer interface[19]

圖3 基于遙操作方式的人機技能傳遞[16]Fig.3 Teleoperation-based human-robot skill transfer[16]
3)基于物理交互方式的技能傳遞[19?20].所謂的物理交互是指示教者直接與機器人接觸,在機器人的示教模式下,直接通過與機械臂的物理接觸交互完成作業任務.該方式主要針對柔性協作機器人,其機械臂具有一定柔性特性,可以安全地與人協同作業,一般提供了接口方便對其進行快速運動示教編程,如圖4 所示.
其中,雙臂示教是一種較為特別的物理交互示教方法[21?23],即利用雙臂機器人的特點,以其中一機械臂為主端,以另外一機械臂為從端.示教者操作主端引導從端機械臂完成作業任務,如圖5.這種示教方式可以使得示教者直接操作機械臂,有物理交互的特點.為了提高示教的質量,可以在雙臂示教系統中的主從兩端引入基于虛擬阻抗的觸覺反饋機制,以提高人機交互的臨場感[4].

圖4 基于物理交互方式的人機技能示教[24]Fig.4 Physical interaction for human-robot skill transfer[24]

圖5 雙臂示教方式[25]Fig.5 Demonstration based on dual arm teaching[25]
技能建模中需要解決的基本問題是如何實現對非線性運動(Nonlinear movement)的一般描述.任何復雜的行為都可以由簡單的線性子系統的加權疊加來描述.可用以下公式來描述:

其中,x代表動作信息的特征變量,如位置、速度、力等;hi表示各個線性子系統的加權系數,而子系統fi=Aix+bi由系數Ai和bi確定.
由式(1)可知,技能建模的關鍵在于確定上述的加權系數、估計子系統的參數以及選擇合適的特征量.常見的基本建模方法包括動態運動原語(Dynamical movement primitives,DMP)、高斯混合模型(Gaussian mixture model,GMM)和隱馬爾可夫模型(Hidden Markov model,HMM).
這幾種模型的主要區別在于看待問題的角度不同:DMP 把技能特征看作是運動原語(Primitive),用示教數據擬合DMP 模型可得到運動原語序列;后兩種是從概率角度看待技能示教與傳遞,即把技能的各個特征與模型的不同狀態(State)相對應,用示教數據(對應概率語境中的觀察數據,Observed data)擬合GMM 或HMM 模型.因此,學習出模型的狀態信息也就得到了相應的技能特征信息.
3.2.1 DMP 基本數學描述
DMP 模型[27?28]是由正則系統驅動的彈簧–阻尼系統來表示運動軌跡.原始DMP 模型表示為[29?30]:
其中,K,D和α1是模型參數;x和v分別表示運動位置與速度;x0和xg表示運動軌跡的初始與目標.τ代表系統的時間常數,決定系統的演化時間;s代表系統的相位(Phase),從1 均勻收斂到0.
DMP 模型本質上是一個二階非線性方程,包含兩個部分:線性部分和非線性部分.以圖6(a)為例,線性部分構成運動軌跡的基本形狀(實線表示),保證收斂到目標值;非線性部分可將其調節成不同形狀(虛線表示),在保證形狀相似性的前提下,得到豐富的運動軌跡.DMP 分為離散型(Discrete)和節律型(Rhythmic),區別在于非線性項的核函數不同:前者為高斯核;后者為余弦函數.這兩種DMP 分別用于學習點到點(Point-to-point)運動和具有周期性規律的運動[31].
可以用不同的非線性擬合方法逼近DMP 模型中非線性項,常用方法有局部加權回歸算法(Locally weighted regression,LWR)和局部加權投影回歸(Locally weighted projection regression,LWPR).通過DMP 描述運動技能的的一個優點在于它的演化并不直接依賴于時間,而是基于中間變量(即相位)的變化,方便對運動軌跡進行拓展調節[28,31].另外,可通過對公式中初始位置、末端位置以及時間常數的調節來實現對運動軌跡在時間上或空間上的拓展與泛化(見圖6).

圖6 DMP 模型表征運動軌跡示例Fig.6 Examples of DMP modelling:converging to goals
3.2.2 基于DMP 的技能傳遞
目前,學者在原始的DMP 模型的基礎上已經發展出了多個版本的DMP 模型,并應用于機器人技能示教學習.Ude 等[32]不直接利用原有模型參數作為控制策略,而提出了查詢子(Queries)的概念來同時考慮任務參數與模型參數,并可根據任務變化情況對其進行調節,該方法在扔球(Ball throwing)實驗上得到了很好驗證.Muelling 等[33]提出了一種DMP 框架用來讓機器人學習打乒乓球,他們的框架考慮了以目標為中心(Goal-centered)的運動原語,既考慮運動目標位置又考慮運動目標速度,并可以同時對二者進行調節與拓展.
原始DMP 模型有兩個缺點:1)當目標位置與初始位置很接近時,則會產生很大的加速度,這可能會損壞機器人本體,也不利于協作者的安全;2)如果拓展的位置目標相對于原始目標過零點(如從1拓展到?1),則拓展的運動軌跡可能會相對于坐標軸發生翻轉.為了克服這些問題,Hoffmann 等[34]改進了原始DMP 模型中的變換系統(Transform system),提出了一種基于新的變換系統能夠將外部物體位置信息耦合到該系統中,可以實現實時在線避障,通過Pick-and-place 實驗驗證了他們的方法.
R¨uckert 等[35]提出了參數化的動態原語模型(Parametrized DMP,PDMP),將肌肉協同概念引入到該模型中,用參數化的基函數替換原DMP 中的徑向基函數,實驗證明了其有效性.Krug 等[36]提出了一種泛化的DMP 模型(Generalized DMP,GDMP),該模型把DMP 的參數估計變成一個約束非線性最小二乘問題,并把模型預測機制集成到示教系統中,可以根據機械臂在當前運動狀態下產生多種控制策略,可起到意圖預測、避障等作用.Meier 等[37]提出了一種DMP 的概率表示方法,把該模型重構成帶有控制輸入的線性動態系統的概率模型,方便直接將感知測量單元耦合到系統中,DMP 系統可自動在線獲取反饋信息,并可根據似然估計結果對任務成敗作出預判.Gaˇspar 等[38]提出了弧長參數化的動態原語模型(Arc-length DMP,AL-DMP),基本思想是將空間信息與時間信息分開表示,可解決示教中存在較大運動速度差異的問題.Gams 等[39]提出了適應于雙臂交互的DMP 模型,基本做法是在兩個DMP (分別用于機器人的左、右臂)的變換系統中耦合一對虛擬的相反作用力,使得一只機械臂可以感知到另外一機械臂的位置與力的變化,以達到良好的雙臂協調控制效果(如圖7 所示).

圖7 基于DMP 模型的雙臂技能示教學習[39]Fig.7 DMP-based robot bimanual skill learning by demonstration[39]
在人機示教過程中,往往需要多次示教才能學習出好的控制策略,而原始的DMP 模型只能學習單一的示教軌跡.為了從多次示教數據中學習出技能特征,Yin 等[40]用聯合概率分布的方式替換了原有DMP 模型中的歸一化的徑向基函數(Normalized radical basis function),即將相位與非線性函數用聯合概率分布表示,再從多次示教數據中學習出一個非線性函數項,便可以學習多次示教的結果.Matsubara 等[41]提出了風格化(Stylistic)的動態原語模型(SDMP),通過將運動風格(Style)信息耦合到DMP 的轉換系統中,SDMP 可以同時描述多樣化的運動軌跡,達到了學習多次示教的目的,該方法適合于多次示教數據差異較大的任務.
可以通過強化學習方法優化示教獲得的運動原語.在人機示教技能傳遞的語境中,強化學習方法的基本特征在于可實現對連續、高維原語空間的運動策略優化,這區別于一般的強化學習方法.在技能復現階段,可以通過強化學習技術對變換系統中的非線性函數進行調節與優化[42],按照一定目標來調節運動軌跡,如按照最小加速度原則收斂到目標點、要求運動軌跡經過某些特定位置等.Kober 等[43]將感知單元耦合到了DMP 的系統中,可以提高系統抵抗外部的干擾能力;提出了一種基于權重探索的策略學習方法(Policy learning by weighting exploration with the returns,PoWER)對DMP 學習到的控制策略進行優化.Theodorou 等[44]提出了一種可應用于高維狀態空間的算法,即基于路徑積分的策略優化方法(Policy improvement with path integrals,PI2).Buchli 等[45]將PI2算法用于機器人技能學習,用以優化運動原語模型參數.Li 等[46]又將PI2算法應用到了移動機器人的抓取操作上,同時對機械臂與機械手關節空間進行軌跡優化,取得良好的實驗效果.Stulp 等[47]利用PI2算法用于機器人學習序列化的運動,不僅優化模型參數,還優化運動目標參數.Stulp 等[48]又提出了一種進化策略方法(Evolution strategies,ES),基本思想是將運動原語的演化調優看作是一個進化優化問題,并通過數值仿真比較了PoWER、PI2和ES 的異同以及在同等條件下的收斂情況.
3.3.1 GMM 基本數學描述
GMM 提出的時間比較早,有很多變形版本,已經被應用于諸多領域.我們只考慮在人機示教中對運動信息的表征情況.

其中,πi表示第i個高斯組分對應的系數;fi(ξt)是條件概率密度函數,通常可表示成高斯分布N.GMM 模型參數可概括成:

一般可以利用EM (Expectation-maximization)算法估計得到ΘGMM.GMM 僅僅是用來對數據表征,若要最終獲得機械臂的運動控制策略,還需要根據GMM 模型參數生產運動控制變量.在機器人技能學習領域中,高斯混合回歸(Gaussian mixture regression,GMR)是實現這一目標的簡單且高效的方法[50].例如,控制變量˙ξ?可以通過以下公式計算得到:

其中,hi(x)是歸一化的權重,上式中的參數即是由EM 算法評估得到的GMM 模型參數.
3.3.2 基于GMM 的技能傳遞
近年來,基于GMM 模型的技能示教學習方法在文獻中屢見報道.在算法方面,Muhlig 等[51]將GMM 模型引入到類人機器人的模仿學習框架中,利用GMM 學習到的運動信息,可以根據目標物體的移動信息而動態調節相應的動作.Gribovskaya等[52]利用GMM 模型來描述機器人運動中的多變量之間的關聯信息,能夠在時間和空間擾動下快速重新規劃機械臂路徑.Khansari 等[53]提出了一種利用GMM 學習穩定非線性動態系統的方法,可保證機械臂在接近目標位置時能夠盡可能地跟隨示教者的運動姿態,這有利于機械臂可以更好地捕獲示教者的運動信息.Cederborg 等[54]提出了一種新的GMM 模型(Incremental,local and online variation of Gaussian mixture regression,ILO-GMR),
相比于傳統GMM 模型,ILO-GMR 將任務信息耦合到局部動態系統中,能夠使得機器人在線學習新的運動技能,而不需要重復地調整模型參數,在一定程度上提高了技能傳遞的效率.
Calinon 等[55]提出了一種基于GMM 的運動技能的示教學習框架,能夠同時處理關節空間與笛卡爾空間的任務限制,并可使得機器人能夠重復利用已經學習到的技能來處理新的任務情形.Calinon等[56]又提出了一種將任務信息參數化的混合模型(Task-parameterized mixture model,TP-GMM),其核心思想是把模型參數與任務參數結合起來,即把任務參數耦合到GMM 模型中,在任務復現階段能夠實時地調節參數化的軌跡以滿足不同的作業任務要求.Alizadehl 等[57]拓展了TP-GMM 模型,使之能夠解決在示教階段或者復現階段中的部分任務參數信息缺失的問題.Huang 等[58]對TP-GMM 進行了優化,選擇直接優化任務參數而不是GMM 的組分(Component),這樣將模型學習變成一個低維空間的優化問題,并且設計了一種特征選擇機制,可以自動選出重要的任務幀(Task frame)而剔除不重要的任務幀.為了有效表征機械臂末端執行器在完成任務中的旋轉特征,Zeestraten 等[59]提出了在黎曼流形域中的GMM 模型,該方法能夠有效表征機械臂在任務空間的位姿聯合分布狀態,可使得機器人學習到示教者的更加豐富的技能特征.
在應用方面,GMM 被應用于不同類型的作業任務以及不同的機器人平臺上.Reiley 等[60]將GMM 應用到了機器人輔助手術任務中,用GMM表征醫生手術過程中的動作信息,再將生成的控制策略傳遞給手術機器人.此外,Chen 等[61]利用GMM 模型把技能傳遞給柔性手術機器人.Wang等[62]將GMM 模型應用到軟體機器人的運動技能學習中,用GMM 表征示教數據并評估出執行器的合適路徑,在試驗中取得了良好效果.Kinugawa等[63]者的運動意圖,并可以根據人的意圖預測結果自適應地對裝配任務進行任務規劃,達到了良好人機交互效果.Goil 等[64]利用GMM 模型解決輔助輪椅導航系統中人機混合控制問題,將用戶的控制命令作為任務限制耦合到運動學習過程中,實驗取得了良好人機協同控制效果.
3.4.1 HMM 基本數學描述
在人機示教技能傳遞的語境中,常用一階HMM 模型分析時間序列.給定一個狀態序列{s1,s2,···,sT},可用以下公式表示其其聯合分布[65]:

并且假設當前狀態只與上一時刻狀態有關,即:

與GMM 模型參數相對應,HMM 模型參數可表示為:

其中,ai,j為狀態轉移矩陣中的元素.HMM 的參數可用前向–后向算法(Forwar-backward)或者EM算法估計得到.與GMM 類似,在用HMM 對示教數據建模后,也需要利用回歸算法生成機器人的運動控制命令.
在GMM 模型中,狀態之間相互獨立,狀態之間的轉移與時間信息無關;和HMM 模型中,狀態駐留概率為均勻分布.因此,GMM 模型和HMM 模型不能很好地表征運動技能的時間信息.而隱半馬爾科夫模型(Hidden semi-Markov models,HSMM)用高斯函數表示HMM 中的狀態駐留概率,可以改善HMM 在表征時間信息的性能.相應地,HSMM 的參數可表示為:

其中,μi和分別表示第i個狀態的均值與方差.圖8 反映了在兩個狀態下GMM,HMM 與HSMM建模示例以及三者之間的主要區別.

圖8 GMM,HMM,HSMM 三種模型關系圖[65]Fig.8 Graphical representation of the GMM,HMM and HSMM models[65]
3.4.2 基于HMM 的技能傳遞
Asfour 等[66]將HMM 模型引入到類人機器人的模仿學習中,用示教數據中的關鍵特征來訓練HMM 模型,實驗表明相對于GMM,HMM 可以很好地反映出機器人雙臂之間在完成任務過程中的時間關聯性.Calinon 等[67]提出了一種基于HMMGMR 模型的架構使機器人可以學習人的運動技能,用HMM 對人體運動信息建模,用GMR 做回歸得到機器人的運動控制命令.該架構與GMM-GMR類似,但可以表征更加豐富的運動信息,該算法具有更強的魯棒性.
Vukovi′c等[68]首次將該方法應用到移動機器人的示教學習中,用HMM 對機器人的移動信息建模,試驗證明了其有效性.Medina 等[69]結合HMM模型和線性參數變化(Linear parameter varying,LPV)系統,提出了HMM-LPV 模型,用HMM 對復雜任務建模,用LPV 保證HMM 每一個狀態或子任務(Subtask)的穩定性,該模型可以學習序列化的、與時間變化無關的運動控制策略.
Hollmann 等[70]提出了一種基于HMM 的機器人示教編程方法,通過對機器人的運動控制信息添加約束,使得機器人可以自動地根據人的運動特征做出相應的反應,并在一家金屬加工公司的生產線上驗證了所提方法.Vakanski 等[6]提出了一種機器人運動軌跡學習方法,用HMM 表征示教軌跡,并通過在狀態轉移時設置關鍵點(Key points)的辦法,實現對軌跡的拓展與調整,在刷漆(Painting)作業中驗證了該方法的有效性.Rafii-Tari 等[71]提出了一種基于分層級的(Hierarchical HMM,HHMM)模型以應用于機器人輔助血管內導管插入術.他們把該手術任務分成多個序列化的運動原語,用HHMM 模型分別對各個原語狀態以及它們之間的關聯信息建模,可以使得機器人對協作者的運動輸入有一定識別和預測能力.
如前文所述,HMM 無法表征每個狀態的駐留時間.為此,Calinon 等[26]將HSMM 引入到機器人示教學習中,利用HSMM 同時對時間信息和運動信息建模,即保留了HMM 模型的優點,又能提高抗干擾能力,尤其在時間域上的抗干擾能力.Pignat等[72]利用HSMM 表征人機協作場景中的感知信息與運動控制信息,即把協作者的運動與機器人的運動在空間位置與時間上都關聯起來,機器人可以根據人的當前運動狀態而做出在空間域與時間域上的運動響應,該方法被應用到了機器人輔助穿衣任務.Rozo 等[73]進一步提出了可自適應調節每個狀態持續時間的HSMM 模型(Adaptive duration hidden semi-Markov model,ADHSMM).與傳統的HSMM 模型相比,不再用固定的高斯分布來表征其狀態駐留時間,而是可以根據與環境交互情況自適應地調節,因而ADHSMM 對運動的時間信息具有更強的表示能力,具有更強抗外部干擾能力.
DMP、GMM、HMM 三種模型比較:由于模型差異,難以對三者細致比較.總體來說,DMP 具有模型簡潔,計算效率高,泛化能力強的優點,但DMP獨立表征各運動維度信息,丟失了各維度之間的關聯信息.例如,當用DMP 模型對機械臂末端運動位置與交互力建模時,只能對力與位置分別建模與描述,就無法表征出位置與力的關聯信息,可能會導致信息丟失而不能很好地學習到示教者的運動.另外,在模型學習階段需要提前選擇離散型DMP 或節律型DMP[24].而GMM 和HSMM 可以表達出各維度的關聯信息,但模型復雜,計算效率相對較低,通常需要較長的時間學習模型參數.HSMM 可以反映各個狀態之間的轉換信息,因而比GMM 具有更強的運動信息表達能力,但在同等條件下需要更長的計算時間[26].表2 總結了這三種模型與其常見變種模型的的基本特點,以及利用它們學習到的技能示例.
在建模階段,除了需要考慮對運動做通用化描述外,還有一些問題需要考慮,主要包括:1)軌跡對齊(Alignment)問題;2)技能分割(Segmentation)問題.
1)軌跡對齊問題
由于示教的差異,多次示教的運動軌跡往往在時間軸上長短不同,在空間上也會有一定差異,這種差異有時候還會比較大,影響模型學習結果.為了達到更好的運動技能學習效果,需要對示教數據進行對齊處理.動態時間規整(Dynamic time warping,DTW)是常用的對齊數據的技術,在機器人技能學習領域應用廣泛.Muhlig 等[51]在用GMM 對示教數據建模之前,用DTW 在時間上對運動軌跡進行了對齊處理.Vakanski 等[6]結合HMM 與DTW技術,利用DTW 對運動軌跡的關鍵點進行對齊,實驗證明該方法要比沒有對齊的情況獲得更好的效果.為了對齊人機協作場景中示教者與機器人的運動軌跡,Amor 等[74]把DMP 與DTW 模型結合起來,利用DTW 把人與機器人的各自運動相位變量對齊,這樣二者的運動內部信息便可關聯起來,人機雙方的運動便能夠得以協調起來,該方法比較適合人機協作的作業任務.
2)技能分割問題
技能分割主要針對以下情況:a)復雜的任務往往包含多個步驟,其運動軌跡的動態特征非常復雜,用上述三種模型對其整體運動軌跡一次性建模比較困難;b)對于序列化的運動軌跡,經常需要分階段拓展,即軌跡拓展的目標不止一個,因而需要分段處理;c)在機器人復現任務過程中,對其分階段添加不同的限制,需要機器人在各階段作出不同的響應.面對這三種情況,技能(或任務、軌跡)分割是解決問題的有效辦法.基本思想簡單、直接:把作業任務分割成多個階段,用上述模型對分割后的各個運動片段(Segments)分別建模,再針對每一階段具體情況分別考慮.

表2 DMP、GMM、HMM 模型特點總結Table 2 The summary of DMP、GMM、HMM models
目前,關于技能分割的文獻報道較少,主要有以下幾種方法.Fox 等[79]提出了β過程自回歸隱馬爾科夫模型(Beta process autoregressive HMM,BP-AR-HMM),用于分割連續的人體運動.Niekum等[80]對BP-AR-HMM 進行了改善,將其應用到機器人示教學習領域,把BP-AR-HMM 與DMP 結合形成了一個完整的示教學習框架,前者用于分割;后者用于表征.隨后,Chi 等[81]將這一框架應用到了安裝在輪椅上的機械臂示教學習中,實驗取得了良好效果.BP-AR-HMM 算法的優點是全自動分割,不需要先驗設置分割的片段數量;缺點是魯棒性差,容易導致過分割的情況.
最近,Lioutikov 等[82]提出了一種概率分割(Probabilistic segmentation,ProS)方法,該算法是基于對DMP 的概率表示[38],在對軌跡建模的同時完成技能的分割.在同等條件下,ProS 比BPAR-HMM 具有更強的魯棒性,可獲得更好的分割效果.但ProS 是一種半自動的分割方式,需要先驗設置分割數量.
機械臂的仿人控制是一個很大的范疇,一直得到了廣泛的關注與研究.在人機技能傳遞領域,仿人控制具有比較明確的目標與意義.這里的仿人控制是指如何借鑒人的手臂靈活的操作能力,來實現機械臂的靈巧控制,或者說如何實現將人手臂的自適應控制模式傳遞給機械臂.
對于雕刻這樣的任務,機器人難以勝任,而人卻可以比較輕松地完成.學者對了解人類是如何擁有靈巧的操作能力表現出了濃厚的興趣,在探究人體神經肌肉運動控制機理方面展開了大量研究.Schweighofer 等[83]展示了小腦能夠補償人的手臂與外界的相互作用力矩,進而通過學習部分逆動態模型而改進預先存儲在運動神經元皮層的基本逆動態模型,從而在目標定向運動中提高精確度,又進一步將人體肌肉的同步收縮解釋為一種不受時延影響的分布式的局部控制策略,表明主動改變系統剛度的能力可以克服反饋滯后的缺點.
特別地,Shadmehr 等[84]在運動神經元控制方面的研究中發現共同收縮(人改變內在的肌肉–骨骼剛度的能力)在處理不確定性和不可預測性方面起到了關鍵性作用.Burdet 等[85]證實了人的手臂具有一種類似彈簧的性質,在中樞神經系統(Central neural system,CNS)的控制下,手臂可以自適應地調節阻抗/剛度以適應任務的變化,當外部環境變化時,手臂能夠自然地增加阻抗以提高抗干擾能力,而當不需要高剛度時,又能夠自然地降低剛度.Mitrovic 等[86]研究表明中樞神經系統可以通過適當的主動肌/對抗肌的同步收縮來控制手臂平衡,并研究證實了共同收縮在處理不確定性最小化方面具有重要作用.
上述研究成果表明人的這種變阻抗/剛度控制能力是完成靈巧作業任務的關鍵,這對于實現機械臂的靈巧控制、改善機器人的操作技能具有重要啟示作用.近年來,人機示教領域的學者開始關注于如何使機器人學習自適應變剛度控制策略.這些方法基本可以分為兩類:1)基于學習的變剛度控制方法;2)人機變剛度控制策略傳遞.
阻抗控制是實現力控的常用方式,一個典型的關節阻抗控制器可用以下公式表示:

其中,τcmd是控制輸入力矩,τfor是前饋項,用于補償機械臂與外界的交互作用力,xdes和xcur分別代表目標關節角度和當前的關節角度,τdyn用以補償系統的動態力如重力和科里奧利力等.KP和KD分別表示剛度與阻尼,通常阻尼項設置為,λ是預設常值.變阻抗控制的目標是適當地調節剛度值,以達到提高機械臂柔性的目的[87?90].
基于學習的方法實現機械臂的變剛度控制是指通過學習技術(如強化學習)來對剛度軌跡進行調節,獲得適當的變剛度控制策略.Buchli 等[45]提出了一種基于強化學習的方法來調節剛度軌跡.其基本思路是利用DMP 模型變換系統的最后一項即非線性項(參見式(2))來表示剛度,再用PI2算法對這一非線性優化,通過設置一個合適的代價函數,最終可以得到變化的剛度軌跡.該算法用一固定的初始值擬合PI2算法,因此收斂速度與初始值的選擇有很大關系,通常需要很長的訓練時間和較多的訓練次數.
Steinmetz 等[89]提出了一種基于DMP 的方法來實現力控,他們的主要思路與Buchli 的方法相似,不過沒有直接利用強化學習技術來優化非線性項,而是設計了一種剛度值選擇機制來調節剛度,例如當機械臂在運動過程中把剛度設定一個較高值,而當與外部環境接觸,將剛度設定為零.他們的方法不需要很長的學習時間,但不能連續調節剛度值.
Rozo 等[90]提出了一種基于HMM-GMR 的方法來學習變剛度軌跡.其基本思路是在示教階段,同時記錄位置信息與力信息.在建模階段,用聯合概率分布來同時表示位置與力,學習后的HMM 模型就能夠表征力的變化信息,再通過以下公式將力與剛度聯系起來:

其中,μn,t是HMM 模型第n個狀態在時間t時候的位置均值,ht,i是狀態的權重(參見式(9)).通過式(15)可以獲得變剛度軌跡,并且可以反映出相應的力的變化情況.
受此啟發,Racca 等[24]進一步利用HSMMGMR 模型來學習剛度,用HSMM 模型替換HMM模型可以提高系統對外界的抗干擾能力,這對于接觸型(In-contact)任務十分有利.并且,他們還將機械臂末端的旋轉力矩信息耦合到HSMM 模型中,因而還可以學習出旋轉剛度軌跡,即實現了在旋轉方向上的變剛度調節.
上述的學習剛度的方法都需要在一個學習過程才能夠獲得剛度軌跡,顯然不夠直接,并且很難準確反應人體的剛度變化特征.另外,在這些方法中剛度是通過基于力計算得到的,往往需要額外的傳感器測量力,增加整體機器人系統的成本.更加直接的方式是人機變剛度控制策略傳遞,即在人機交互過程中,提取人的肢體剛度變化特征,將其直接傳遞給機械臂,以達到變剛度控制的目的.
研究者們發現利用人體生理肌電信號(Eletromyography,EMG)可以實現人手臂到機械臂的力傳遞策略.肌電信號是運動單位產生的動作電位序列(Motor unit action potential trains,MUAPT)在皮膚表面疊加而成的一種非平穩微弱信號,由中樞神經系統進行調節控制,表征了肌肉的伸縮以及關節力度和剛度變化等信息,因而EMG信號與肌肉力度/剛度的調節、運動意圖等具有很大的關聯性.肌電信號使得我們能夠從生理層次提取運動肌肉控制特性,彌補傳統的示教技術僅從物理層次上實現人機交互的不足.
近些年來,機器人領域的學者開始利用EMG信號提取人的肢體剛度特征,并用于控制機械臂.He 等[88]提出了一種基于EMG 信號的變阻抗遙操作系統,如圖9 所示,根據EMG 估計出人的手臂剛度,人在視覺反饋下調節手臂剛度,并傳遞給機械臂,實現機械臂的自適應柔性控制.Ajoudani 等[11]又提出了一種基于擾動測量的手臂剛度簡化的評估方法,通過肌肉共收縮情況定義一個剛度指示器,其變化可反映出人體肌肉活化程度,該方法可實現基于EMG 信號實時估計出人體剛度.Yang 等[4]進一步將觸覺反饋機制引入到該類系統中,同時在觸覺和視覺反饋的幫助下,人可以更加自然地示教,增加了技能傳遞的臨場感.

圖9 基于EMG 信號的人機變剛度傳遞系統[91]Fig.9 The EMG-based human-robot stiffness transfer system[91]
Liang 等[3]提出了一種人體剛度增量估計算法,利用剛度與力增量之間的線性映射關系,估計出肢體剛度系數,這種方式可以忽略掉EMG 信號的非線性殘差,他們通過教授機器人寫字,證明了該算法的有效性.Li 等[92]進一步利用該方法估計人體剛度,并將其用于控制上肢外骨骼機器人,可實現外骨骼自適應地調節剛度,取得了良好實驗效果.
Howard 等[93]比較了在不同層級上將人的行為傳遞給變阻抗驅動器(Variable impedance actuators,VIAs),主要分析了基于EMG 信號的人體阻抗調節特征的傳遞,指出特征傳遞比直接動作模仿具有更好效果,他們的結論可提供很好的借鑒作用.Peternel 等[94]提出了一種人機協作系統,如圖10所示,將人的手臂剛度與機械臂的剛度協調起來,機械臂的剛度由示教者的手臂剛度的變化決定.例如,當在一個拉鋸任務場景中,當人拉鋸時增大手臂力度,機械臂就減小剛度處于松弛狀態,反之亦然,這種方法適合于人機協同調節交互力的任務場景.

圖10 基于變剛度控制的人機協作[94]Fig.10 Human-robot collaboration based on variable stiffness control[94]
在上述的剛度傳遞過程中,大多只關注于將評估出的人體剛度軌跡直接映射到機械臂的控制器中,而對剛度的動態特性分析不足.Yang 等[25,95?96]提出了一種人機示教框架,將運動軌跡與剛度軌跡等同看待,提出用統一的框架對二者分別建模,這樣可實現運動特征與剛度特征從人向機器人的同時傳遞,獲得更加完整的技能傳遞過程.并且,他們的方法可學習多次示教剛度軌跡,保留對空間位置與剛度分別調節的空間,可實現對二者同時或者分別拓展與分割,有利于提高機器人的技能學習能力.
上述剛度傳遞的一般過程是:先離線估計出示教者手臂末端的剛度,再映射到機械臂的末端工作空間,最后通過逆運動學作用到關節力矩控制器.Fang 等[97]利用零關節空間剛度特性,開發了基于模型的人體關節空間估計方法,實現在線在多個位置和不同程度的肌肉活化度下對手臂7 個關節的剛度估計,該方法有望實現人機關節空間的剛度直接傳遞,提高變剛度自適應控制的效率.
綜上所述,人機技能傳遞技術雖然取得了一定進展,但仍然存在多個方面問題.主要體現在:
1)在人機技能傳遞方式方面,目前的交互方式過于單一、感知信息不足,人機融合程度不高,造成示教的浸入感不足,示教者缺乏比較真實的臨場感,從而影響示教性能.
針對這一問題,未來會集中在尋求更加直觀、自然、友好的示教方式.首先,在人機交互接口上,多種交互方式相結合是發展趨勢,將先進的交互技術引入到機器人技能示教學習領域是確實可行的辦法,例如,利用虛擬現實(VR)、混合現實(MR)以及三維再現等技術[98?101]構建人機示教交互與作業環境,有望縮小人機隔離狀態,達到更好人機共融效果,可提高示教質量.
多模態信息融合也將是改善人機交互性能的發展方向.通過將物理的或者生理的多種形式的信號(如空間位置、交互力、觸覺、視覺、肌電信號等)在更高層次上融合,納入到人機技能傳遞過程中,可以更直觀地表達出人的技能特征.
2)在技能建模、學習方面,目前所用的模型大多是傳統的機器學習模型,泛化能力不足,使得機器人學習技能過程在很大程度上受到具體示教場景、示教者本身、作業環境等諸多因素的制約.
結合示教學習和深度強化學習等技術是解決這一問題的有效方式之一.近年來,人工智能技術在機器人視覺感知、技能學習等方面展現出較大的應用潛力[102?105].雖然現有的基于人工智能的機器人技能學習方法側重于機器人自主提升技能,與人機示教技能傳遞存在很大差別,但人工智能有望作為一種輔助技術手段以提高人機示教的性能.一種思路是先利用示教技術使機器人具備一定的類人化的操作技能,再通過深度強化學習提高機器人的技能泛化能力.例如,可考慮如何用深度強化學習技術優化運動原語控制策略.
3)在機械臂控制方面,雖然目前可以實現人體剛度特征向機器人的傳遞,但對人體剛度調節機制理解不夠深入,人手臂與機械臂在結構上具有差異性,影響剛度評估的準確性.剛度估計方法也繁瑣復雜,影響技能學習效率.
為了進一步理解肌肉活化、信息感知、運動控制等內容,有必要深入探究人體的運動機理.更好地理解人體肌肉模型,開發具有普適應的剛度估計方法.從人類的運動控制中汲取經驗,是未來提高機器人類人化操作能力的重要研究方向[106].
本文主要介紹人機技能傳遞取得的研究進展.首先,闡述了機器人技能學習在新一代智能制造時代的研究背景,尤其是與HCPS 之間的關系.介紹了技能傳遞一般過程:示教–建模–技能復現,以及幾種主要的人機技能傳遞方式,并分析了各自的優缺點.接著闡述了三種基本的技能建模模型:DMP、GMM、HMM,以及它們的主要變種,總結了各自的特點.接著,介紹了兩種實現機械臂變剛度控制的方式:基于學習算法和人機剛度特征傳遞,并分析了各自的優缺點.最后,總結了示教學習在三個方面面臨的主要問題、現階段不足之處,并給出了可能的解決之道與未來發展方向.
在過去的十年里,人機技能傳遞技術得到了較快發展,無論是在人機接口設計與建模,還是在仿人手臂自適應控制上都取得了一些可喜的成果.但有諸多不足,與達到應用的地步還有一段距離.人機技能傳遞是個典型的交叉學科問題,需要機器人學、控制、機器學習、神經科學等多個學科的研究人員共同努力,才能推動其不斷進步,最終走向工業界.
目前,我國在此領域處于剛剛起步階段,相關成果報道很少,離國際先進水平有很大的差距,需要國內學者加倍努力,在理論與技術上都有所建樹,爭取早日把人機示教技術推向應用,助力我國智能制造業發展.