趙 迪李世其朱文革李明富賈 陽
(1 華中科技大學機械科學與工程學院,武漢 430074)(2 北京空間飛行器總體設計部,北京 100094)
遙操作系統可以使機器人等智能設備代替人類工作在危險、人類不能到達或人類不適于長期駐留的環境中。遙操作的應用領域和范圍決定了其主控端和從端的空間距離的分布,時延是一個不可避免的突出問題。實驗證明,對于通常意義下的雙向力反饋遙操作系統,如果存在0.25s 的時延,就可能造成系統的不穩定,嚴重地降低人的操作感覺,進而降低遙操作的效率和安全性。為了解決時延帶來的遙操作系統的透明性問題,很多學者進行了相關的研究,主要采用的方法包括遙編程,預測控制和基于事件監督控制方式[1-3]。傳統的解決方法是利用基于虛擬現實的預測圖形仿真技術來消除其影響,即建立一個虛擬的仿真環境,該虛擬仿真環境可以實時將操作結果反饋給操作者,而遠端的機器人則在一定的時延后重復仿真結果,這樣就可使操作者面對虛擬仿真模型進行連續的實時操作,以克服時延的影響[4]。
在遙操作中,當從端遠離主端時,兩者之間的通信時延是不可忽略的。例如,在地面站與行星軌道上的空間機器人之間的通信時延達到了3~6s[5-6]。當采用傳統方法時,在這樣大的通信時延下,可能導致整個系統的不穩定。此外,遠端的操作環境也可能因某些外界因素的作用而發生變化,而這些變化卻不能及時地在仿真中得到反映,因此如完全依靠虛擬現實系統從圖形方面來預測遠端的環境,必將大大降低系統處理突發外部事件的能力。在大時延下,力覺和視頻反饋的信息遠遠滯后于虛擬場景環境,這種時延大大影響了操作者對下一步動作的判斷。如果依靠當前反饋回來的信息做實時決策,那么這些反饋信息將是不可靠的;如果要依靠可靠的反饋信息來做決策,則需要采用運動—等待—運動的操作方式,這樣會大大降低遙操作的效率。由于以上這些因素的存在,希望純粹通過仿真模型來反映實際模型的運動情況是不可靠的。我們采用了在虛擬現實場景中加入虛擬的力反饋的方式,在場景中仿真遠端環境實時對操作者給出力反饋,以取代遠端反饋回來的力傳感器信號,來幫助操作者做出實時決策。由于虛擬場景中的力反饋與實際的情況有差異,我們利用滯后的真實的傳感器信息去修正仿真模型,增強之后的力反饋效果,以獲得更好的沉浸感、交互性和系統的透明性。實際中我們采用的是CyberGrasp 力反饋數據手套來增強預測仿真的效果,提高人機交互的效率。
在航天設備維護中,機器人遙操作也發揮著重要的作用。德國航空航天中心(DLR)曾在1993年成功地實現了首次由地面遙操作哥倫比亞號航天飛機上的機器人技術試驗系統(Robotic Technology Experiment,RO TEX)。1999年日本成功地實現了首次機器人的艙外作業實驗——工程試驗衛星-V II(Engineering Test Satellite V II,ETS-VII),它完成了兩個星載機器人系統間的交會、對接及遠程遙操作實驗。
本項目開發了基于虛擬現實的機器人遙操作演示系統,操作員可以通過遙操作外設對從端空間機器人進行遙操作實驗。實現了基于虛擬現實的臨場感遙操作,在虛擬現實環境的輔助下通過虛擬外設(力反饋數據手套、位置跟蹤器、立體眼鏡等)對裝載在航天器上的機械臂及其末端操作器進行具有臨場感的遠程主、從遙操作控制模擬。設計了時延模擬程序,在局域網內模擬變延時5~8s 環境,建立時延狀況估計的模型。對基于虛擬現實的預測仿真算法進行了研究,實現了既定的變時延環境的預測仿真。開發了遙操作系統的自學習功能,系統可以在操作員指導下的學習,自動推導完成類似的新任務,包括任務重現和障礙規避等。在5~8s 模擬時延條件下完成了推開故障太陽翼,擦拭受污染的鏡頭和拉動調整出現故障的衛星天線等作業。
通過研究基于虛擬現實的空間機器人遙操作關鍵技術,設計遙操作軟件框架。實現變時延遙操作下的預測仿真,提高了系統的穩定性和透明度;將虛擬現實環境結合多個傳感器數據融合,通過遙操作外設(力反饋數據手套、位置跟蹤器、立體眼鏡等)對裝載在航天器上的機械臂及其末端操作器進行具有臨場感的遠程主、從遙操作控制模擬;研究遙操作系統的自主學習功能,自主實現前面的動作或者通過已學習過的任務,自動推導完成類似的新任務。
本課題針對空間機器人作業這一背景構建基于虛擬現實的機器人遙操作系統,整個系統共分為從端子系統、網絡通信、主端子系統。主、從端子系統包含有不同的模塊,全部模塊組合在一起形成遙操作系統。系統采用組件結構方式,除核心組件外,其他組件都可即插即用。采用數據庫作為數據管理平臺。圖1 是系統功能模塊層次圖。
主端子系統分為用戶層和專家層兩層,主要實現用戶的交互操作和任務級遙操作規劃與執行。
用戶層實現仿真模型構建與交互控制操作,其中仿真模型包含幾何模型與運動學模型;交互控制包括交互輸入設備與力反饋設備。
專家層主要實現遙操作任務規劃、預測仿真和執行控制。任務規劃功能通過接收用戶層的操作指令后,進行任務分解和決策;采用模糊預測仿真方法對空間機械臂當前運行狀態進行預測仿真;當仿真結果正確時,將執行控制指令通過通信網絡發送給從端子系統進行空間維護作業。

圖1 空間機械臂遙操作系統功能模塊圖Fig.1 Function module of space robot teleoperation system
從端子系統主要包括空間機械臂控制模塊、多傳感器信息采集和自主功能模塊等,主要實現空間機械臂的運動與傳感信息反饋等功能。
交互控制部分通過數據手套、位置跟蹤器、三維鼠標等虛擬外設與虛擬環境交互,為操作者提供臨場感。
仿真環境模塊為操作者提供虛擬現實仿真場景。包括空間科學實驗環境、實驗樣品、實驗工具、實驗設備、空間機器人及靈巧手的三維模型渲染。用遙操作外設通過運動映射來控制虛擬環境中的空間機器人與靈巧手,實現復雜多樣的運動。
任務級遙操作模塊實現任務規劃,對空間機器人的操作進行步驟、任務的規劃,形成任務級操作指令。
預測仿真模塊實現基于虛擬現實的預測仿真,克服時延的影響,連續操作虛擬環境的模型。通過仿真運行,顯示運動軌跡,驗證指令序列。
預測仿真對虛擬空間機械臂及靈巧手的運動進行仿真,能夠即時響應操作人員執行的任務,進行連續運動;通過仿真運行,顯示和預測運動軌跡,驗證指令序列。
執行控制部分主要處理發送到從端的控制指令和從端傳回的傳感器信息,反饋到上層模塊。具體流程如圖2 所示。

圖2 預測仿真Fig.2 Predictive simulation
虛擬現實環境為空間機器人遙操作提供一個與從端接近的操作環境,便于創建人機交互接口,提供視覺反饋和遙操作的預測仿真[7-10]。遙操作虛擬環境建模主要研究如下幾個方面。
4.1.1 三維場景建模
根據空間機器人遙操作的環境特點,虛擬場景主要由機械臂、環境模型以及末端操作器(靈巧手)組成。本文采用OpenInventor 和VC++6.0 作為虛擬現實環境平臺。在Pro/E 三維造型軟件中建立空間機械臂、末端操作和遙操作環境等3D 模型,
如果采用OpenInventor 直接導入這些幾何模型,數據量相對較大(靈巧手模型為10M)。經轉換和簡化后,數據量大大縮小。
以OpenInventor 里的默認坐標系為準,X 軸正向水平向右,Y 軸垂直向上,Z 軸垂直于屏幕向外。在根節點下坐標系的單位是米。而局部坐標系的單位由模型來定。通過.iv 文件的SoSeparator 節點、SoGroup 節點和SoTransform 節點建立遙操作虛擬現實環境的場景樹。其基本思路如圖3 所示。
4.1.2 場景中關節運動的實現
虛擬機械臂的運動學建模需要指定虛擬手的每個關節的運動學屬性,包括自由度和運動副等約束屬性,以及初速度、加速度、運動范圍或運動的數學表達式等。
考慮到機械臂的運動繼承關系,系統采用父子節點的層次結構建模的方法來進行虛擬機械臂建模。用Transform 類節點來表示虛擬機械臂的各個運動關節:通過改變它的值來控制各關節的運動。機械臂的裝配順序如圖4 所示。

圖3 基于虛擬現實的遙操作場景樹Fig.3 Scene tree of VR based teleoperation

圖4 空間機械臂裝配順序圖Fig.4 Assembly sequence of space robot arm
4.1.3 場景中的碰撞檢測
碰撞檢測主要有兩類:
第一類是防止某運動的物體或相機與虛擬環境中的其他物體之間相互滲透,當兩物體接觸時,搜索相互之間最近而不互相滲入的位置,最后相互粘在一起,搜索次數可人為調整,或者觸發一定的事件。
第二類是檢測虛擬環境中所有物體相互間是否存在交集,也就是是否存在兩個物體占有共同的三維空間。
碰撞檢測的算法采用的思想有兩種:計算兩物體的包圍合和計算組成兩物體的所有三角形。當檢測到碰撞的情況時,觸發相應的回調動作,并做出是否繼續進行碰撞檢查的決定。
為了提高碰撞檢測的效率,需要濾掉不需要的數據,以減少不必要的計算。常用的“過濾”方法有:分割過濾法、外接球體過濾法、AABBs(Axis-Aligned Bounding Boxes)技術和層級樹檢測碰撞。
實際應用中,采用OpenInventor 開發包中所帶的碰撞檢測類(SoCollision M anager 和SoIntersection Detection Action)來實現碰撞檢測。碰撞檢測分兩步實現:首先采用AABBs 技術,來檢測包圍盒是否有碰撞;碰撞盒檢測通過后,且如果存在面片碰撞,再調用碰撞檢測中檢測面片的回調函數,來確定精確的碰撞情況。采用這種方法一方面避免了在未發生碰撞時,大量的面片碰撞檢測所消耗的硬件資源,另一方面可以保證檢測精度。
4.2.1 遙操作環境下的預測仿真方案
預測仿真方案框圖如圖5 所示。建立一個與從端環境相同的虛擬現實場景。在主端,操作者和虛擬現實環境進行交互操作,本地操作界面顯示發出操作指令后,從端機器人可能的動作。如果仿真動作合理,將指令發送給從端。本地操作界面有兩個虛擬機器人,其中一個為空間鼠標和數據手套實時操作的虛擬對象,另外一個為預測的虛擬對象,通過對機器人運動的外推,對該對象進行實時預測,以顯示目前遠端機器人的運動姿態。操作員根據預測仿真的結果作出下一步判斷。通過空間鼠標和數據手套等虛擬外設操作其中一個虛擬機器人,同時將指令發給遠端的遙操作機器人,遠端機器人響應運動后將傳感器信息反饋到本地端,本地端通過預測算法預測目前機器人通過網絡時延之后真正的位姿,送到預測虛擬機器人實時視覺顯示。

圖5 基于虛擬現實的預測仿真方案Fig.5 VR based predictive simulation
4.2.2 預測算法研究
根據遠端信息和本地預期控制指令,實時預測遠端機器人對當前指令的執行狀況,這樣可以等效于一個沒有時延的視頻反饋,為操作者提供實時的信息,從而可以避免由時延帶來的系統的擾動。
假設當前時間為k,單向時間延遲為Td, 傳感器發送時間間隔為Δt, 令N =|Td/Δt|,k 時刻本地命令期望位置為u(k),k 時刻可以獲得的機器人位置(末端位置或者各關節角位置)為x(k -N), 預測的目的是根據u(k -2N)到u(k)的指令序列和x(k -N)來預測x(k +N), 即
x(k +N)=F[x(k -N),u(k -2N),u(k -2N +1), …,u(k)]。時延補償與預測關系如圖6 所示。

圖6 時延補償與預測關系示意圖Fig.6 Time-delay compensation and predictive display
可以得出

其中r(k -N)(0 ≤r(k-N)≤1)與主從端任務執行速度的比值有關,F 為當前預測值與指令序列和以前得到的位置信息的映射關系:

其中v 為可折疊機構固定最高執行速度, Δt 為傳感器信息采集時間間隔。由于應用環境時延, T d在短時間內可以視為一定值,在短時間內的波動對系統穩定性影響不大。當檢測到時延發生大的改變時,修正Td值,以適應變化的時延。
基于虛擬外設的交互操作主要功能為:采集虛擬外設數據,實時更新虛擬場景中機械臂與靈巧手的數據,發送到遠端實現遙操作。
在系統中加入力反饋控制方法,實現了觸覺的模擬,使人機交互更加真實、自然,在對操作人員的前期培訓方面也有積極的作用。
采用的力反饋設備主要是Immersion 公司的CyberGrasp。采用Immersion 公司提供Virtual-Hand SDK 軟件開發包提供的一些類,在VC 的環境下實現。本文采用根據對實際材料進行抓取實驗所得數據來進行虛擬力的外推的方法,獲得平滑的力反饋輸出。力覺傳感器將真實場景的力覺信息反饋到主端,當真實反饋的力覺信息和虛擬力計算的初始值有差異時,用反饋信息修正計算模型中的參數,以使下一次虛擬力計算更接近真實值。由于該外推方法是基于實際材料的特性而進行的,具有很高的真實性,同時通過反饋的傳感器信息更新來獲得新的虛擬力,避免了累積誤差。
空間機械臂的學習功能包括示教學習、案例學習、強化學習等部分[11]。示教學習就是將示教過的任務完整重現出來,案例學習則是指能夠在已有示教案例的基礎上,在局部空間完成新的動作,強化學習是指從環境狀態到動作映射的學習。機械臂依據一定的策略針對不同的環境狀態執行相應的動作。實際應用中,通過強化學習避障算法,有效地規避空間中的4 個障礙物并趨近目標完成操作,在虛擬場景中得到驗證,驗證了算法的正確性和有效性。
采用強化學習的Sarsa 算法作為系統的基本控制策略,結合有效跡(effective trace,作為強化學習中回溯的長度)對策略中的狀態s 和動作a 進行值函數Q(s,a)估計。最大Q 值對應的動作a′,成為下一步正確動作的概率最大,計算偏差,更新Q 表,進行下一輪循環,直到狀態s 符合設定的目標為止[12]。圖7 為障礙規避的過程模擬,所得的結果可以為實際操作所用。

圖7 基于強化學習的空間機器人障礙規避Fig.7 Obstacle avoidance of space robot based on reinforcement learning
采用空間鼠標和數據手套等虛擬外設在武漢通過Internet 對位于哈爾濱的可折疊機構、S taubli Rx60 機器人和靈巧手進行了遙操作控制(包括推太陽翼、拉天線板和擦鏡頭的任務)以及傳感器信息的反饋,同時加入了基于directshow 的網絡視頻反饋功能。實際操作情況良好,任務完成到位。實現了大、變時延的網絡遙操作。
具體實驗過程如下(以拉天線板操作為例):
1)開啟遠端(哈工大)的機器人指令接收和傳感器信息反饋服務器;
2)開啟遠端的視頻反饋服務器;
3)本地客戶端連接虛擬現實外設;
4)客戶端與服務器端建立連接,接收傳感器數據;
5)通過宏指令控制可折疊機構自動運動到安全位置;
6)通過空間鼠標操作可折疊機構移動到天線板把手上方;
7)通過宏指令控制可折疊機構,自動定位到把手上方;
8)通過數據手套遙操作靈巧手抓握天線板;
9)通過空間鼠標操作可折疊機構移動,拉動天線板展開;
10)拉到位之后,靈巧手放開;
11)手動操作可折疊機構遠離天線板手;
12)手動操作可折疊機構運動到一個較為空曠的安全位置;
13)通過宏指令控制可折疊機構自動復位。
遙操作主端界面如圖8 所示。
通過對比預測仿真結果與視頻反饋,發現在一般網絡時延情況下,從端跟隨效果良好,預測效果也很好;在固定時延和變時延情況下,當主端速度較快時,從端跟隨有一定的波動,但是預測結果和反饋結果的相似(提前一倍雙向時延),一定程度上彌補了這個缺陷。在空間維護作業中,可以有效地通過該方法彌補時延對遙操作作業帶來的影響。

圖8 遙操作空間機器人主端界面Fig.8 Master side of space robot teleoperation interface
本文研究了變時延遙操作下的預測仿真技術。通過預測仿真在主端操作界面中仿真了從端環境和從端空間機器人的運動狀態,克服變時延實現對從端機器人操作,完成遙操作維護任務;實現了基于虛擬現實的臨場感遙操作。所設計的遙操作系統自主學習功能,可以完成任務重現和障礙規避功能,有力地支持了基于虛擬現實的空間機器人遙操作的發展。
基于虛擬現實的空間機器人遙操作可以應用于在軌衛星、航天器的維護、維修,也可應用于空間對接和空間科學實驗,對空間科學研究具有重要意義。
)
[1]Kim W S.Com puter vision assisted virtual reality calibration[J].IEEE T ransactions on Robotics and Automation, 1999, 15(4):450-464
[2]Hirzinger G, Brunner B.ROTEX—The first remotely controlled robot in space[C]//IEEE International Conference on Robotics and Automation, 1994:2604-2611
[3]Oda M, Kibe K, Yamagata F.ETS-VII, space robot in-orbit example satellite[C]//IEEE International Conference on Robotics and Automations, 1996:739-744
[4]莊駿, 邱平, 孫增圻.大時延環境下的分布式遙操作系統[J].清華大學學報(自然科學版), 2000, 40(1):80-83
[5]Sheridan T B.S pace tele-operation th rough time delay:review and prognosis[J].IEEE T rans on Robotic and Automation, 1993,9(5):593-606
[6]Niemeyer G.Using w ave variables in time delayed force reflecting tele-operation[D].Cambridge, MA:MIT,1996
[7]Xiong Y, Li S, Xie M.Predictive display and interaction of telerobots based on augmented reality[J].Robotica, 2005,24(1):447-453
[8]Di Zhao, Shiqi Li, Mingfu Li, et al.Research on the w ave-variable based tele-operation with force-feedback[C]//International Conference on Intelligent Robotics and Applications,2008
[9]Hashtrudi-Zaad K, Salcudean S E. Transparency in time-delayed systems and the effect of local force feedback for transparent tele-operation [J].IEEE t rans.Robotics and Automation, 2002, 18(1):108-114
[10]Woo-Keun Yoon, Toshihiko Goshozono, Hiroshi Kawabe, et al. Model-based space robot teleoperation of ETS-VII manipulator [J].IEEE T ransaction on Robotics and Automation, 2004, 20(3):602-612
[11]高陽, 陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86-100
[12]Watkins J C H ,Dayan P.Q-learning[J].Machine Lear ning,1992(8):272-292