張少白張 政
(南京郵電大學計算機學院 南京 210033)
構建手臂運動平衡控制模型,是機器人學及控制科學所研究的一個重要的課題。 英國諾丁漢大學人工智能研究小組的教授Barbara Webb曾經說[1]:“傳統的控制技術需要依賴精確的傳感和驅動以及復雜的信息處理,這種技術已經不再適合具有類似感覺運動系統的機器人。”基于這種認識,模擬小腦神經系統的結構特征或功能特征,建立各種人工小腦或小腦模型,并將其應用于機器人的運動控制,正逐漸成為控制科學、機器人學以及人工智能等學科的重要研究領域。
正因為此,本文在文獻[2]中曾經為手臂的定向運動構建了一個小腦控制模型,用以解釋和控制手臂運動形式與手的預成型之間有關時間協調的問題。文獻中假定,運動規劃是在運動前區皮層(premotor cortex)中產生的;手臂運動軌跡以一種前饋的方式產生,除了初始階段,不需要考慮手臂的實際位置;其延伸軌跡與典型鐘形切向速度的分布一樣,都是平滑的,并以某種反饋的形式在手和目標位置一直被監測的過程中產生。
但是,手臂控制本身不過是一種利用手臂在各種任務中抓取目標的手段,并不是一種目的。本文感興趣的是,在延伸和抓取過程中,手臂運動形式與手的預成型(preshape)之間的時間協調問題。針對這樣的問題,文獻[3]曾經構建了一種基于最小加加速度最優標準的經典控制模型。該模型能很好地解釋各種條件下手臂移動以及手部預成型過程的運動學原理,包括目標位置和角度大小的細微變化,其關鍵部分是狀態預測,并能對系統傳入與傳出時產生的延時進行補償。
鑒于小腦在運動系統中獨特的結構和連通性以及小腦內模和逆模所起的作用,對于超前狀態學習和剩余時間預測這樣的問題來說,應用小腦控制模型進行類似的學習和控制是非常合適的。基于這樣的考慮,文獻[2]對文獻[3]Hoff -Arbib控制模型進行了修改,并在1維空間范圍內,對小腦如何學習被嵌入系統的前向模型的問題進行了深入探討。此外結合時延問題,文獻[2]還對小腦如何應用對運動命令的解釋來預測手和手臂運動前區(premotor)的未來狀態,因而獲得精確平滑的運動軌跡的過程做出了說明。
本文是文獻[2]的續篇,主要目的是探討2維空間中時間協調的相關問題。為了實現這個目的,本文對適用于2維空間的控制機制及小腦模型做了適當調整和修改,并對軌跡規劃延遲狀態信息在最終目標位置附近的過沖以及震蕩過程中的表現行為等問題進行了充分討論。仿真結果表明,由文獻[3]的Hoff-Arbib模型所獲得的有關延伸與抓取運動的動力學的一些關鍵特征,小腦控制模型也能實現,有些性能甚至更好。通過訓練和學習,改進后的模型在2維空間中能獲得更為精確平滑的運動軌跡。
如圖1(a)所示,在Hoff-Arbib 模型中,手和手臂單獨被控制。延伸和抓取之間的協調是通過確定抓取角度(aperture)的形成以及手臂延伸到目標這兩項所需的時間,然后將兩者之間的最大值作為持續輸入信號來完成的。控制器由比例微分(Proportional-Derivative, PD)控制器構成,如圖1(b)所示。
手臂控制規則為

圖1 Hoff-Arbib模型示意圖

新的控制模型在 Hoff-Arbib模型的基礎上構建,主要加入了用以學習被控體前向模型的小腦模塊以及剩余時間(Time-To-Go, TTG)預測部分,如圖2所示。將Hoff-Arbib模型復雜化的主要原因,是考慮到生物系統本身存在傳入和傳出延時問題。Hoff-Arbib模型中,這個問題是通過應用系統解析前向模型來解決的。本文的任務就是要證明,小腦模塊通過訓練也能獲得同樣的效果,甚至更好。依據文獻[4]所討論的結果,這個任務可以被很好地完成。

圖2 延伸和抓取時間協調模型示意圖
本文將系統對模型的訓練分為了兩種形式。第1種(簡稱模型1)是用距離和角度兩個標量來表示手臂延伸和抓取角度的變化;而第2種(模型2)則是對第1種形式的擴展,方法是應用雙關節平面手臂取代模型1中的位置標量,也就是將1維距離訓練變換為笛卡爾空間中的多維運動(方向和距離)訓練,從而增加了對系統復雜性和實用性的評價標準。
根據對各種小腦模型的抽象,本文在文獻[5]中構建了一種通用小腦模型。本文嘗試將此通用小腦模型應用于上述系統模型的兩種形式之中。具體來說,對模型1而言,子系統包括抓取和移動距離(位置)兩個部分;對模型2,移動距離子系統又被分解為單獨的肩和肘兩個部分。并且,這些子系統都有兩個輸出,每一個輸出都用來預測系統當前狀態的位置和速度。
對本文模型來說,當軌跡在笛卡爾空間中孕育時,其輸出就是對關節間手臂狀態(與到達下橄欖細胞(Inferior Olivary, IO)的輸入信號一致)的評估值,這與文獻[6]的敘述是一致的。依據現代生物學的觀點,頂骨皮質(parietal cortex)與視覺有關,手部動作是靠頂骨皮質有關視覺的組織來引導的,尤其在與目標空間特性相匹配的動作過程中更是如此[7]。大腦皮質區域的信息通過腦橋核(pontine nucleus)映射到小腦皮質。小腦皮質則通過楔小腦束(cuneocerebellar tract)接收肢體當前狀態的相關信息。
依據此觀點,本文借鑒文獻[8]論述的方法,在具體連接時,模型利用小腦模塊接收作為苔蘚纖維(Mossy Fiber, MF)傳入信號的5組群碼(population coding)輸入,這些信號分別來自不同的子系統。其中,3個與代表脊髓傳入信號的延時狀態(位置,速度,加速度)相對應,一個表示目標值與當前位置之間的位置差,還有一個則表示當前運動命令的傳出副本。模塊結構參見圖3,具體構建方法參見文獻[9]。

圖3 具有輸入輸出連接的小腦神經系統
除此之外,模塊還接收先前產生的 TTG預測信息,抓取和手臂移動子系統各有一個,并且將MF作為一個 17×5的陣列來模擬。其中,每一行向量對特定的輸入變量進行編碼。向量中的每個元素針對該變量都被調整到某個不同的值,以便形成群編碼。
行向量中元素i的活度(activation)iY可以定義為


表1 用于群編碼方案的苔蘚纖維輸入參數表
另外如文獻[5]所述,隨機選擇的苔蘚纖維(MF)以及高爾基細胞(GolgI cell, GI)與顆粒細胞(Granule Cells, GC)的突觸一起,伴隨實時輸出,作為漏積分被建模。并且,這些實時輸出是作為膜電位的 sigmoidal 函數來計算的,用以表示細胞的瞬時激發率。
小腦模塊的構建是本文的核心,但鑒于本文已經在文獻[2,5,9]中對小腦模塊的構建方法有過詳細敘述,在此只是對適用于本控制模型2維空間的特殊問題和方法進行介紹,其它不再贅述。
仿真過程中,下橄欖(IO)負責驅動手部調節信號,每個IO細胞接收來自核細胞NUC抑制信息的輸入信號。因為核細胞的興奮抑制與浦肯雅細胞(Purkinje Cell, PC)有關,所以映射的效果可以通過修正pfw 即平行纖維-浦肯雅細胞(PF-PC)突觸的權值來實現。模型應用文獻[5]中所述的學習規則更新PF-PC突觸的權值。


式中,GC(Granular Cell)為顆粒細胞活度,。微分方程的動態特性使得顆粒細胞(GC)的輸入變得平滑,且不必與延遲信號精確匹配,其收斂性文獻[6]中已有證明。
為了適用于2維空間的應用,模型的控制系統較文獻[2]做了一些調整,設計為靜態逆與動態逆相結合的方式(圖4),概念上類似于Kawato的并行分層控制方案[10]。其控制原則是,靜態逆模塊ISM(Inverse Static Module)的學習取決于手臂姿勢的動態逆(如引力項),而動態逆模塊 IDM(Inverse Dynamic Module)的學習則取決于關節的角速度。

圖4 控制系統簡化示意圖
仿真過程中,ISM(其輸出為簡單函數)以脫機查找表的形式被執行。IDM則作為神經系統的小腦模塊被實現,具有生物學意義上的實時學習功能。
Hoff-Arbib 模型中,將與物體S尺寸有關的最大角度(maximum aperture)定義為+0.4,其形成時間與移動相位的大小相一致,并使物體最終被握住的時間大約是200 ms的常數值。基于這樣的數據,模型抓取過程處理模塊是作為單獨的判定框來執行的。此判定框將輸入作為位移控制的TTG評估值,如果輸入大于200 ms,手部控制器的目標值將被設置為maxa 。以此協調手臂運動與手預成型(preshape)之間的時間,以便臨近終點時,形成與目標形狀相匹配的封閉狀態。
訓練過程大致如下:首先,基于2 維視覺信息確定目標對象的形狀、方向位置、距離和大小;其次,將相關信息提供給模型中的分布式執行機構,分別確定手臂移動的大致時間以及手部預成形時間;最后,在移動及抓握過程中,需要對手臂延伸和手部抓取運動予以協調。這項工作可以通過比較抓握角度的形成時間以及手臂延伸到目標所需的時間,從而將兩項時間中的最大值作為持續輸入信號來完成。
本文應用文獻[9]所描述的雙關節平面手臂作為本文新控制模型仿真中的位置標量。在手臂延伸至抓取過程中,抓取對象的距離、大小和方向非預期性變化,在擾動實驗中,將實驗輸出數據與Hoff-Arbib模型的人手實驗數據加以對比,從而可以獲得期望結果。
模型訓練期間,總共要做2000次正常的手臂移動延伸和抓取動作,目標直徑大小、對象距離以及持續時間分別在2~8 cm, 15~30 cm以及200~400 ms之間隨機選擇。特別需要加以關注的是TTG信號,如果沒有這個信號,手臂延伸和手部預成型的控制就沒有統一的終止信息,也就無法保證二者的統一狀態,從而無法獲得預期效果。
圖5是關于速度的訓練仿真。圖中的每個分圖表示了3種不同速度下手腕速度(圖5 (a))、抓握角度(圖5 (b))、手腕加速度(圖5 (c))和抓握角速度(圖5 (d))的變化情況。
圖中的GO標志(術語“GO Signal”中GO表示啟動的意思。這里的GO是一種習慣性定義,沒有特殊意義)是一個關于運動速度的比例因子,涉及3種不同運動速度下有關精確抓握任務中統計得來的相關數據。仿真中,本文將速度初步分為3個等級,即GO=15表示低速運動所對應的軌跡,GO=25對應于高速運動,而GO=20則是對應上述兩者之間的軌跡。隨著仿真復雜度的增加,GO標志可以劃分的更為細致一些。

圖5 3種速度下移動和抓握運動的動力學軌跡示意
由結果可見,隨著手臂移動速度的增加,最大抓握角度也會隨之增加。因此,由延伸和抓握運動所共享的GO標志信號(即人手動力學特征),模型不需要在兩種運動之間傳遞任何明確信息就可以獲得,這是本文構建的小腦控制模型所具有的一個重要特征。
第5.1節討論了不同移動速度會對最大抓握角度產生影響,那么影響手的張合度的因素又有哪些呢?文獻[11]應用Hoff-Arbib 控制模型曾做過一個實驗,在實驗中使用了兩種不同的抓握方法,即正常抓握(normal grasp)和變異抓握(altered grasp)。正常抓握開始時手指是放松的,抓握角度近似為零,而變異抓握開始時手指最大限度地張開。實驗結果表明,對于變異抓握,初始角度還原之后,手指會有一個相對較小的重新張開的過程,有時甚至還會暫時停頓(速度軌跡為零),但最終都會處于封閉狀態。這表明在延伸-抓握過程中,手的形狀會有一個自然趨向封閉的過程,都會對手的張合度產生影響。仿此,本文應用小腦控制模型也做了一個類似的實驗,結果如圖6所示。
圖6中,(a), (c), (e), (g)為Saling 實驗數據,(b), (d),(f), (h)為實驗仿真。實線代表正常抓握(初始時拇指與食指基本閉合),虛線表示變異抓握(初始時手指最大限度張開)。抓握目標分別為直徑2.2 cm(小物體)和6.7 cm(大物體)的物體。
圖7是方向變化時切向腕速度與抓握角度動力學軌跡示意圖。圖7中,(a), (c), (e), (g)是Hoff-Arbib報告資料,(b), (d), (f), (h)是實驗仿真。用作實驗的物體被假定是一個直徑為1.5 cm的圓柱體。當該物體被移動偏離中線20°~ 30°時,切向腕速度和抓握角度的運動學軌跡會有不同。第1行圖分別表示未受干擾的切向腕速度和抓握角度;第2行則分別表示受擾動影響后的切向腕速度和抓握角度。

圖 6 正常抓握和變異抓握角度動力學示意圖
從圖7中可以看到,目標方向的變化使得手臂移動和抓握角度兩者都受到影響,并且引起軌跡校正過程的暫時停止。擾動時間越長,軌跡校正過程的暫停時間也越長。Hoff-Arbib 報告資料表明,在腕關節軌跡完成校正之前,大約會產生250~290 ms的延時,并且整個運動時間平均要多出100 ms,這些圖中都有明確表示。為了適應新的目標位置,方向擾動會引起運動校正過程的暫時停止這個結論也與Hoff-Arbib 報告完全一致。
圖8為目標大小變化時抓握速度及角度動力學軌跡示意圖。圖中,(a), (c), (e), (g)是Hoff -Arbib 報告資料,(b), (d), (f), (h)是實驗仿真。圖中顯示了運動開始時目標大小變化對抓握速度和角度的影響。用作實驗的物體被假定是兩個直徑分別為 1.5 cm和 6 cm 的圓柱體。擾動實驗中,物體先是從小到大(S-L)變化,然后反過來從大到小(L-S)。第1行表示沒有擾動時小物體的抓握運動,第2行則表示有擾動時物體從小到大變化的抓握運動,第3行表示沒有擾動時大物體的抓握運動,第4行表示物體從大到小變化時的抓握運動。

圖7 方向變化時切向位移和抓握角度動力學軌跡示意圖

圖8 大小變化時抓握速度及角度動力學軌跡示意圖
從圖8中可以看到,在小到大(S-L)擾動實驗中,抓握角度先是增加到與小目標一致的峰值,然后又增加到與大目標一致的最大角度,最后逼近大目標。為了適應新目標變化尺寸,在抓握-延伸運動過程中,目標大小的擾動會引起校正過程的暫停,圖 8中清晰地表明了這一點。
針對手臂延伸與抓取的時間協調問題,本文提出一種具有小腦控制結構且適用于2維空間的控制模型。該模型能夠實現Hoff-Arbib模型所能實現的有關延伸與抓取運動動力學的所有關鍵特征,有些性能甚至更好。在仿真方面,本文主要對模型進行了 2維空間(方向和距離)的訓練和學習,相對于 1維空間訓練,主要添加了抓取目標所在方向的擾動訓練,明顯增強了模型控制系統的實用性和可拓展性。然而,對于該模型也有需要進一步研究的問題。例如,在仿真訓練過程中,本文分別介紹了目標的大小變化以及目標所在方向變化的抓握情況,下一步可關注更為綜合性的問題,即:如果在訓練中同時改變目標大小和方向位置會產生怎樣的效果;小腦控制模型能否適用于3維空間,等等。
[1] Webb B. Can robots make good models of biological behavior?[J]. Behavioral and Brain Sciences, 2001, 24(6):1033-1050.
[2] Zhang Shao-bai, Cheng Wei-qing, and Cheng Xie-feng. An application of cerebellar control model for prehension movements[J]. Neural Computing & Application, 2014, 24(5):1059-1066.
[3] Hoff B and Arbib M A. Models of trajectory formation and temporal interaction of reach and grasp[J]. Journal of Motor Behavior, 1993, 25(3): 175-192.
[4] Kawato M, Kuroda S, and Schweighofer N. Cerebellar internal models:implications for dexterous use of tools[J]. The Cerebellum, 2012, 11(2): 325-335.
[5] 張少白, 周寧寧. 用于機器人運動控制的通用小腦認知模塊的構建[J]. 南京郵電大學學報(自然科學版), 2012, 32(3):69-74.Zhang Shao-bai and Zhou Ning-ning . Development of general cerebellar cognitive module used for robot motor control[J].Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2012, 32(3): 69-74.
[6] Jaeger D. Cerebellar Nuclei and Cerebellar Learning[M]. New York: USA, Handbook of the Cerebellum and Cerebellar Disorders, 2013, 4: 1111-1130.
[7] Townsend B R and Subasi E. Grasp movement decoding from premotor and parietal cortex[J]. The Journal of Neuroscience,2011, 31(40): 14386-14398.
[8] Bruno B and Peter E. Neural correlations, population coding and computation[J]. Nature Reviews Neuroscience , 2006, 7:358-366.
[9] 張少白, 阮曉鋼. 仿生機械臂的小腦控制模型和仿真[J]. 電子學報, 2007, 35(5): 991-995.Zhang Shao-bai and Ruan Xiao-gang. A cerebellar control model and simulation of biomimetic manipulator[J]. Acta Electronica Sinica, 2007, 35(5): 991-995.
[10] Kawato M, Masa-aki Sato, Taku Yoshioka. Hierarchical Bayesian estimation for MEG inverse problem[J].NeuroImage, 2004, 23(3): 806-826.
[11] Saling M, Mescheriakov S, Molokanova E, et al.. Grip reorganization during wrist transport: the influence of analtered aperture[J]. Experimental Brain Research, 1996,108(3): 493-500.