趙錕
(中國傳媒大學 動畫與數字藝術學院,北京 100024)
沉浸式虛擬現實是與桌面式虛擬現實相對的概念,主要是指通過佩戴頭戴式虛擬現實眼鏡進行內容體驗的系統設備,產品和分類包括以HTC vive等為代表的外接式設備①,以及以三星GearVR為代表的移動端設備和以Hololens為代表的一體式設備②3種。其普遍性優勢是將屏幕拉近至觀眾眼前,體驗者以第一視角欣賞體驗畫面內容。同樣,共同的不足之處是在交互模式上,仍無法擺脫手柄作為交互工具的模式。
當體驗者佩戴VR眼鏡體驗時,交互的抽象程度直接決定了其身份認同度和沉浸感。盡管人體能夠通過大腦對游戲中的拓展身體進行關聯學習,但由體驗感受肢體的直接交互才是最自然、最符合人體行為的交互模式。
在進行交互設計的過程中,手部的交互往往是最集中也是最容易實現的,因此,可以將手部動作直接輸入設備作為一種交互方式。常見的實現方式有2種,一種是計算機視覺,另一種是慣性傳感器運動捕捉。深度捕捉技術的常用工具是Leap Motion,基本原理是通過紅外 LED和攝像頭,以不同位置和角度記錄目標軌跡信息并傳回計算機進行計算后來完成對手指的追蹤。
Leap Motion是一款面向PC和Mac的體感控制器,其識別范圍為上方25~600 mm的錐形區域,識別對象僅限手部動作,能夠識別手部所有骨骼的運動。為了方便開發者使用,Leap官方發布了Unity和Unreal引擎的SDK,由于需要配合PC平臺使用,需選取PC外接式VR設備,比如HTC vive或Oculus rift等。為了方便與VR眼鏡組裝,在接入方面,Leap公司發售了VR眼鏡黏帖式接入卡槽,如圖1所示。體驗者在佩戴組裝VR頭盔后,能在虛擬空間中觀察到自己的雙手并同步動作,利用交互設備實現抓握、點擊、推拉和擊打等一系列動作,相比通過手柄等設備實現的關聯學習,體驗的真實性和沉浸感得到很大提升。這種配備Leap Motion的VR頭顯設備弊端也很明顯,即虛擬空間中只能出現手部模型,需忽略體驗者除頭部和手部其他所有身體部分的感知,且在使用時手部如果離開攝像頭檢測范圍或遇到遮擋,數據傳輸會中斷或出錯。

圖1 使用專用卡槽組裝VR眼鏡與Leap Motion
慣性傳感器技術在局部肢體輸入模式中常用的設備是數據手套。數據手套是一種虛擬現實仿真交互硬件,研究開始于20世紀70年代,配有多種傳感器裝置的特制手套可將手部動作數據輸入虛擬空間中。其實現的基本原理是,通過模/數轉換器將分布在數據手套上的傳感器模擬量轉換為數字量,并傳送到計算機I/O接口。技術關鍵在于手掌各有效部位的彎曲測量和姿態反演。目前,市場上比較成熟的數據手套有Gloveone、Senso、Control VR等,如圖2所示,它們均能與主流PC外接式VR頭盔兼容,比如HTC vive、Oculus rift等,且配有Unity、Unreal引擎的SDK開發工具包。數據手套依托穩定的物理介質,配合VR眼鏡使用時最大優勢是穩定、準確,不易受外部環境的干擾。但其本身沒有定位功能,位置數據獲取還需要借助外接時VR眼鏡自帶的空間定位技術。另外,其不足之處是用戶體驗成本比較高,既表現在設備穿戴上,在VR眼鏡之余身體還需要負擔更多設備,也表現在數據手套的造價比較高上,因此,它目前僅在科研和教育領域使用得比較多。

圖2 VR眼鏡與數據手套的穿戴效果
單向式整體輸入,是指通過1臺體感設備輸入體驗者的整個肢體活動信息的交互手段,比如微軟Kinect、Intel公司RealSense等產品。這實質上是一種無標記點的光學運動捕捉技術,其基本原理是:通過配備3個攝像頭即紅外線投射攝像頭(IR,lnfrared Ray)、紅外線接收攝像頭(單色CMOS攝像頭)和普通的RGB攝像頭獲取空間的深度圖像,計算出三維物理空間中所捕捉到各個點的三維坐標位置,并將這些位置的空間變化數據傳輸到計算機中計算后進而控制虛擬空間中三維模型的空間位移。
Kinect攝像頭是微軟公司2010年推出的一款體感外設,其配備的RGB攝像頭分辨率可以達到640×480;IR攝像頭負責記錄空間中經物體反射回來的紅外線散斑,再透過晶片計算成具有3D深度的圖像,其分辨率可以達到320×2 400.微軟公司推出了2種Kinect產品,一種專門適配Xbox游戲主機使用;另一種即“Kinect for Windows”,配有Windows SDK,可將Kinect作為PC外接式VR眼鏡的輸入設備。作為微軟的同類競品,Intel推出的RealSense是使用相同原理開發的體感設備,相對于Kinect體積更小,捕捉精準度更高。相比局部肢體輸入交互模式,單向整體輸入的優勢在于體驗者可以使用整個身體進行交互,體驗時大腦進行的關聯性學習成本被大大降低,沉浸感和對虛擬身份的認同感將會極大提升。在VR設備中,使用單向式整體輸入時也同樣存在問題,即光學捕捉的不穩定性,受體驗環境的影響比較大,遮擋會影響數據傳入,比如背向攝像頭時,手臂的動作無法被接收到,這點是單向攝像頭設備的通病。
多向式整體輸入模式,是指體驗者的運動數據傳入不受方向的影響,可在某個固定空間內自由活動,虛擬空間中的肢體運動與物理空間保持一致。實現多向肢體運動輸入,主要基于專業運動捕捉系統的人體運動實時輸入和計算。
這里涉及到VR設備的空間定位技術問題。根據目前市場上主流設備的數據,VR眼鏡的空間定位技術主要包括以下幾種:①激光定位。例如,HTC vive的Lighhouse技術,依靠激光和光敏傳感器確定物體位置,激光發射燈塔每秒分別發射6次激光,利用其內置雙掃描模塊對水平和垂直方向進行坐標定位,頭顯和手柄有70余個光敏傳感器來確定其準確位置。這種技術的優勢是可獲得較大捕捉范圍,可同時支持多目標定位。但是,激光掃描設備容易發生機械性磨損,進而導致定位失靈。②紅外線定位。例如,Oculus rift設備使用的九軸定位系統,使用紅外發射攝像頭對空間進行掃描,在Touch手柄和頭盔上安裝多紅外發射光點,經多次反射返回的紅外光可經運算計算出被定為物體的位置。同時,對于其內置的九州傳感器,當紅外線被遮擋或模糊時,可通過計算獲得相應的數據。這種技術設備的使用壽命比HTC的激光發射器要更長,但其局限性也很明顯,即捕捉空間比較小,大致在1.5 m×1.5 m內,且很難支持多物體定位。③可見光定位。可見光定位的技術原理與紅外線定位技術相似,被追蹤的物體上安裝了不同顏色的發光燈,攝像頭捕捉這些顏色信息以確定其位置,產品代表為索尼的Playstation VR。
基于VR設備的空間定位技術實現多向式無死角的立體式輸入,可采用運動捕捉技術與VR技術相結合的方式,即設置Maker點,經過特殊處理分布于身體重要關節,比如肘、手腕、膝關節、腰部、腳部等,如圖3(左)所示。除了光學捕捉,另一種是慣性傳感器運動捕捉。慣性捕捉技術我們在第一部分中已經提到,數據手套即其中局部輸入的一種,需要穿戴全身設備捕捉整體動作,如圖3(右)所示,其不足之處是體驗者負重比較大,使用成本過高。

圖3 光學動捕設備與慣性動捕設備
結合已有的PC外接式VR設備,HTC vive的激光塔配合背包式PC主機應用VR無線傳輸技術再加之可穿戴Maker標志,可實現體驗者在一個相對自由的空間內身體運動的完整輸入和自由移動,達到對虛擬世界的最大程度認同,從根本上克服交互體驗的窄帶性。目前,市場上已有的商業級產品,比如Zero Latency和國內的StepVR等公司已將其應用到大型VR體驗場館中。
從肢體輸入技術與VR設備的結合來看,目前主要集中于外接式VR眼鏡,而移動端VR卻缺少成熟的產品和技術。出現這種情況的主要原因是,移動設備的處理能力依然有限,運動捕捉、VR無線傳輸都對CPU和GPU提出了較高的要求,即使在PC端仍捉襟見肘,造價和穿戴成本令很多玩家望而卻步。但從商業價值和實用性上來看,無標記點光學捕捉技術應用于移動端的可行性更高。
總體來說,實現沉浸式虛擬現實語境下肢體輸入的技術手段有光學技術和物理感應技術2大類,在此技術基礎上,各功能類型產品又可根據交互方式和輸入特點分為局部輸入、整體單向輸入和整體多向輸入3種模式。這3種模式之間沒有優劣之分,只是需要根據設計需求選擇輸入方式才能將沉浸式交互的魅力發揮到最大。
注釋:①Hololens作為MR產品,從功能上無法實現完全虛擬空間的肢體輸入。因此,本文討論的沉浸式VR語境中僅包含前兩者。②外接式設備包括PC外接式VR眼鏡,比如如HTC vive和視頻游戲主機外接設備,比如PlayStation VR等。
[1]王國強.基于深度圖像的人體部位識別及動作識別[D].廣州:華南理工大學,2014.
[2]渡邊修司,中村彰憲.游戲性是什么:如何更好地創作與體驗游戲[M].北京:人民郵電出版社,2015:76.
[3]楊林.基于Kinect的人體目標檢測與跟蹤[D].大連:大連海事大學,2013.
[4]劉楊.基于Unity和Leapmotion的國家動漫園虛擬漫游的研究與實現[J].天津科技,2015,42(3):38.
[5]潘尚仕.虛擬現實(VR)情境下的界面設計模式解析[J].藝術科技,2015(12):261.
[6]黃俊,景紅.基于Leap Motion的手勢控制技術初探[J].計算機系統應用.2015,24(10):259.