文/李 萌,吳欣桐,于羅欽,楊增耀(.荷蘭代爾夫特理工大學 工業設計工程學院;.西安交通大學 機械學院)
電影《頭號玩家》將虛擬現實技術(Virtual Reality,VR)從學術和產業熱點帶進大眾視野。當主人公拉下頭戴顯示器 (簡稱 “頭顯”)的那一刻,他從一個無名小卒化身為虛擬世界的頭號玩家[1]。這樣的場景或許在未來的5~10年將不再是科幻電影的情節,而是人們日常生活的一部分。《“十四五”規劃和2035遠景目標綱要》 (簡稱《“十四五”規劃》)的決議將“數字中國建設”作為重要目標,提出“以數字化轉型驅動生產方式、生活方式和治理方式變革”,其中VR與云計算、大數據、物聯網、工業互聯網、區塊鏈、人工智能并列為“數字中國”的 “七大核心產業”[2,3]。
VR起步于20世紀80年代,主要應用于飛行訓練,如1984年的“超級駕駛室”項目。VR具備沉浸感,交互性和想象力的 “3I”特征[4],應用領域從迅速軍事及航空航天拓展到科研、工程、設計及游戲,在20世紀90年代形成第一次VR熱潮[5]。虛擬培訓是近5年VR應用的熱點領域之一,頂級會議IEEE VR、IEEE ISMAR和ACM CHI近3年均開展基于虛擬現實、增強現實(Augmented Reality,AR)及混合現實(Mixed Reality,MR)的教育培訓專題研討,涵蓋基礎教育、高等教育、繼續教育、職業教育和特殊教育。隨著VR等沉浸式技術在近5年的飛速發展,VR正逐漸從實景仿真走向虛實混合的延伸現實 (Extended Reality,XR)。
Milgram等人在《增強現實:現實-虛擬統一體的一個分類》中第一次提出“虛擬-現實統一體”的概念,將完全沉浸式的虛擬環境和真實環境融合為一個整體 (見圖1)[6]。隨著Oculus Quest2和HTC Cosmos頭顯的發布,這個構想在2020年以后從理論上的概念變為可實現的技術現實。VR是一種讓人“身臨其境”的全虛擬合成世界,而AR通常指通過Pokomon Go的應用程序或谷歌眼鏡之類智能設備為物理環境增加數字信息層,MR則連接兩者之間,將虛擬物體與物理環境相互整合,比如微軟Hololens頭顯可以讓醫學生“透視”一般看到病人的解剖結構[7]。自2016年沉浸式技術的飛速發展并拓展到不同的應用領域,VR、AR和MR的邊界已逐漸融合,學術界和工業界在2020年將三者統一稱為XR或者空間計算,意在強調“虛實融合”的沉浸式體驗,被認為是“XR元年”。

圖1 虛擬-現實統一體
基于XR技術的沉浸式培訓,使用戶能夠從自然的第一人稱視角身臨其境地沉浸在學習場景中,通過視覺、聽覺和觸覺的多通道交互提高了認知能力和學習效率,是XR的熱點應用領域之一[7-9]。在安全關鍵性場景,如手術過程、飛行過程、駕駛過程、核反應過程控制、消防過程及系統維修過程,XR培訓系統能夠在保證受訓人員安全的前提下,對危險、復雜和現實中無法復現的情景進行低成本復現,對現有模擬培訓系統的有效性和效率均有大幅度提升[10-12]。
現有XR培訓系統具有兩大優勢:第一,虛擬培訓具有可復現性,是一種經濟高效的培訓工具,允許受訓者在重復練習中不斷增強技能熟練度,有效節省了人力和物力成本;第二,虛擬環境具有高度可控性,能夠有效降低訓練風險,避免訓練過程中因失誤造成的人身和財產安全。許多研究機構利用XR技術,打造更逼真、更高效且更安全的沉浸式交互培訓體驗,并致力于開發多樣化的虛擬培訓系統,以應用于不同類型的培訓中(見圖2,圖片來自于互聯網)。

圖2 XR培訓系統在不同行業的應用
虛擬訓練指讓受訓者通過仿真環境或者器具完成特定的任務并掌握技能,以應對真實環境的危險、復雜或者突發情況。虛擬醫療訓練是XR職業培訓的典型應用之一。隨著全球老齡化問題的凸顯,世界各國出現醫療人力資源嚴重短缺,農村邊遠地區的問題尤其突出[13]。制約醫療服務質量的主要原因之一是醫生難以得到充分培訓,且培訓時間長、成本高。《“十四五”規劃》提出“加快數字社會建設步伐”,其中智慧醫療是發展公共服務、提升人民幸福感的重點領域。
外科手術是針對創傷、感染、腫瘤、畸形和功能障礙等重大疾病主流的醫療方式[14]。 全國每年開展超4 000萬臺外科手術,其中微創手術以其創傷小、痛苦少、時間短、恢復快等優點,在內科、消化科、婦科、泌尿科、心血管科和腦科的診斷和治療中逐漸取代開放手術,成為外科醫學領域的新趨勢[15]。微創外科手術目前的挑戰是學習曲線長達5年以上,而醫生的培訓效果直接影響到病人的生命健康。
虛擬手術培訓作為虛擬醫療培訓的一個重要分支,擁有兩大傳統手術培訓方法所不具備的優勢: (1)虛擬手術培訓具有可復現性,允許外科醫生在重復練習中不斷增強技能熟練度,經濟高效,有效節省了人力、物力成本; (2)虛擬環境具有高度可控性,能夠有效降低訓練風險,避免訓練過程中因外科醫生失誤而威脅病人的生命健康。因此,許多研究機構利用VR技術開發多樣化的虛擬手術培訓系統,以適用于不同類型的外科手術培訓。圖3展示的是一名醫生使用LAP MentorTM模擬器,在VR環境下進行虛擬手術培訓的過程。

圖3 醫生在VR環境下進行虛擬手術培訓
XR技術因其沉浸式、安全性、低成本、可復現等優勢已應用于基礎手術技能培訓中,有效縮短了訓練時間。研究表明,沉浸式訓練能提高80%以上的學習效率,基于XR技術的沉浸式訓練將成為未來的發展主流。
微創手術訓練的兩大難點:一方面,相比開放手術,微創手術對外科醫生的生理和心理資源都有著更高的要求。狹窄的作業空間,內窺鏡和特殊手術工具的引入,使外科醫生不得不面臨視野受限、運動自由度受限、支點效應、手眼不協調等一系列問題,手術的復雜性和風險也隨之增加[16,17];另一方面,相比傳統手術培訓,微創手術培訓存在更長的學習曲線,要獲得足夠的熟練度并掌握如何分配資源以達到最佳手術效果,并在熟練醫生指導下完成至少20~25臺真實手術。現有的手術培訓方法如尸體解剖或箱式模擬器,對于微創手術過程中一些復雜度、精確度要求較高的操作訓練難以勝任。
早期的虛擬手術訓練高度依賴視覺反饋,導致交互性和實用性并不理想。例如,美國開發了大量XR技術的設備來對軍隊人員(如飛行員和作戰官)進行培訓。這些研究為XR系統提供了技術積累,也相應帶動了虛擬手術的發展。上世紀80年代,斯坦福大學的Delp和Rosen等人首次將XR技術應用于微創手術中,并開發了一個用于觀察小腿肌腱移植過程和結果的手術仿真系統,這也是世界上最早的虛擬手術系統[18]。該校的Brown團隊研發了用于血管和神經縫合的虛擬手術系統,該系統使用顯微外科手術儀器作為輸入,能夠逼真地模擬出血管和神經的縫合效果[19]。加利福尼亞大學針對腹腔鏡微創手術,開發了虛擬模擬器VESTA,并將手術評估標準引入VESTA系統中,在外科學員訓練手術技能的同時,對學員的操作績效進行客觀分析[20]。清華大學的彭亮團隊開發了我國第一套可視化人體心臟模型[21]。
為了提升虛擬手術訓練的真實感和可用性,學者們將視覺-觸覺反饋相結合進行多通道仿真[22,23]。例如法國國家信息和自動化研究所針對腹腔鏡手術模擬器開發了一款觸覺設備,可在對虛擬肝臟進行操作時給予觸覺反饋,并同時伴隨虛擬肝臟模型的形變[24]。德國卡爾斯魯厄研究所也研發了虛擬內窺鏡仿真系統,操作者通過手持醫療器械對虛擬的軟組織模型進行抓取、燒灼、切割和縫合等操作,并獲得較為真實的觸覺反饋,對于提高受訓醫生的手術技能有很大幫助[25]。我國在三維重建和虛擬仿真方面也取得了一定的成果。浙江大學計算機輔助設計與圖形學國家重點實驗室對虛擬手術中的關鍵技術難點,例如檢測碰撞和模擬器官形變,進行了深入研究[26]。國防科技大學針對膝關節鏡手術,研發了一套高保真度的手術仿真系統,取得了良好的訓練效果[27]。西安交通大學自主研制了“真肝模擬人“腹腔鏡系統,如實地還原人體解剖結構與術中的生理狀態,滿足腹腔鏡手術中基本技能的訓練,如電切、電凝、解剖器、血管鉗夾和縫合[28]。
為了進一步降低培訓的復雜性和風險,學者們把頭戴式XR系統應用到虛擬手術培訓中,解決了視野受限、手眼不協調等問題。頭戴式XR系統人機交互性強,定位、反饋精確度高,且具有沉浸式的特性,使外科醫生能夠從自然和第一人稱視角沉浸在身臨其境的360°手術室交互場景中,有效提高了人機交互過程中用戶體驗和感知認知能力[15-17]。2017年,來自德國美因茨大學醫學院和馬格德堡大學的HUBER等人將普通的虛擬腹腔鏡模擬器LapSim與VR頭顯結合,開發了一款沉浸式的虛擬腹腔鏡模擬器,將模擬視頻輸出和真實手術室中標準腹腔鏡手術的360°視頻集成,經測試該模擬器能夠讓參與模擬手術的外科醫生產生高度的興奮感和存在感[29]。隨著近年HTC、微軟等國際行業巨頭紛紛在VR技術領域進行戰略布局,相繼推出Vive、Hololens等消費級頭盔顯示器產品,頭戴式VR系統開始得到娛樂、通信、社交、教育和培訓等各行業的重視和應用,也更加促進了沉浸式虛擬培訓的發展。
盡管虛擬培訓在手術技能訓練中發揮了重要的作用,然而真實的手術環境與虛擬培訓過程有著顯著差別。現有虛擬手術培訓系統大多只關注受訓醫生手術操作技能的熟練度,通過三維物體重建、可視化、模擬碰撞、人體器官模擬和軟組織變形算法來對某個特定手術過程進行仿真,而忽略了真實手術室環境中諸多干擾因素的存在,如手術中各種開門聲、談話聲、器械故障導致的手術中斷、團隊成員協作出錯等。缺乏對真實手術情境的完整模擬,使外科醫生,特別是受訓醫生難以快速適應真實手術環境的干擾因素,往往面臨壓力的增加和應對不良干擾能力的降低,增加手術失誤的風險,威脅患者的安全和健康[30]。
真實手術環境中工作繁忙,環境復雜,大量的突發情境會對外科醫生產生干擾,并增加外科醫生的任務需求和壓力水平,因而威脅到手術安全。一方面,現實環境中無處不在的干擾被虛擬手術培訓忽視,這對虛擬培訓的有效性造成一定影響。研究表明,80%以上的醫療事故直接或間接與培訓不足有關,60%以上的手術中的人為失誤源于醫生難以應對復雜多變的手術環境;另一方面,目前虛擬手術培訓多注重于提高受訓醫生基本操作技能的熟練度,而忽略了對手術環境的完整真實再現,缺乏“人-機-環境”系統的完整性。因此,外科手術團隊宜在盡可能接近真實的沉浸式環境中進行培訓,即虛擬培訓環境需要包含干擾因素[22,31],訓練出更好的靈活性。
目前在這方面的研究有限。英國帝國理工學院的PRIMUS等人和美國明尼蘇達州MAYO診所心血管外科的研究人員對干擾因素進行了分類研究并獲得了較為廣泛的認可[32,33]。荷蘭蒂爾堡大學和代爾夫特理工大學的研究團隊從生理指標反映受訓醫生的實時生理壓力水平,他們發現在一項腹腔鏡手術團隊模擬培訓中引入真實的干擾分心條件時,外科醫生明顯表現出任務得分下降、任務錯誤和手術時間增加[34]。荷蘭代爾夫特理工大學的GANNI和LI等人進一步研究干擾因素對受訓醫生心理狀態的影響,基于NASA任務負荷指數,設計了問卷和半結構化訪談,運用主觀心理評價法分析外科醫生在腹腔鏡手術模擬過程中的心理負荷,并用以評估VR技術作為沉浸式培訓工具的潛力[35]。現階段的研究進展表明,虛擬手術培訓的研究已經開始由“人-機”交互向“人-機-環”系統的模擬轉變。真實手術環境中的干擾因素對受訓醫生心理、生理和培訓績效的影響正逐漸受到重視。
針對XR培訓的機遇和挑戰,結合“人-機-環境”系統工程科學研究思維,分析真實環境下的各種干擾因素和突發情境,使它們集成在現有培訓體系中,將為沉浸式訓練帶來全新視野。為了模擬完整的手術情景,并使場景根據受訓醫生的生理心理狀態動態調節干擾因素,亟待引入新的設計方法以整合沉浸式虛擬環境中的復雜數據。
“人本設計”也稱為“用戶中心設計”或“以人為中心”的設計,指產品和服務的設計指標和參數是根據目標用戶的特定任務和生理心理能力制訂,同時還考慮人和產品及服務的互動過程,如圖4所示對人的“感知-認知-行動”過程建模并進行設計。“人本設計”是學術界和企業界公認保證產品可用性和用戶滿意度的主要方法。

圖4 無干擾環境下人執行任務時的感知-認知-行動模型
越來越多的智能設備融入人們的日常生活,改變了我們固有的使用方式,這種趨勢正在隨著數字技術的浪潮日益加深。以數字技術為代表的技術創新顛覆性的改變著產品的創意開發過程和使用方式。各種智能產品和傳感器互聯互通,使人或者物變得可識別、可定位、可引導,甚至可控制[36]。這些技術使設計師獲得海量的用戶數據,實時傳遞著“我是誰” “什么時間” “身在何處” “做什么”以及“與誰互動”等信息。這些信息豐富和印證了常規“人本設計”方法獲取的定性和定量數據,同時為產品開發團隊帶來了數據清洗、分析和挖掘的挑戰[37]。
King,Churchill和Tan(2016)提出“數據驅動設計”的概念,指單純依靠定量數據進行設計決策[38]。這種設計方法是將不同的A方案或B方案發送給不同的用戶,觀察用戶行為數據的差異,如特定鏈接的點擊率、下單率等,并選擇達到預期用戶行為的設計。數據驅動方法還被用在產品系列的自動化設計上,例如MA和KIM開發了數據驅動(產品)系列設計算法,在短時間生成上千萬案例的處理[39]。MCGINN和KOTAMRAJU通過18個多選題收集人口統計和行為數據,收到來自90個國家的1 300份回復,采用探索式因子分析將他們歸類為11種用戶畫像。數據驅動用戶畫像相比于民族志的方法有時間短、成本低和客觀性優勢[37]。但面對海量的生理心理數據和環境數據,常規的統計方法將難以處理,深度學習正在逐漸成為數據驅動設計的重要工具[36]。
卷積神經網絡 (Convolutional Neural Network,簡稱CNN)是深度學習的一種主流模型,主要用于計算機視覺、語音識別和自然語言處理等領域。在生理信號的建模和處理上,卷積神經網絡目前的研究聚焦在利用CNN進行信號批量處理、優化特征和預測模型的建立。主要應用于4種生理信號:心電圖、腦電圖、肌電圖和眼電圖。CNN在生理信號監測分類中具有如下4點能力:
(1)高有效性:KADI等研究證實,針對心電圖的分析中,研究人員常將挖掘技術用于分類和預測;相比較于其他數據挖掘技術,神經網絡和支持向量機能夠獲得更高的準確率[40]。朱洪海將CNN模型用于多導聯ECG數據研究,40條ECG記錄進行病人內心拍分類,準確率為99.2%[41]。
(2)高效率:清華大學梁鳴團隊提出了帶有反饋連接的卷積神經網絡(RCNN)[42]。在分類過程目標識別的過程中,盡管輸入是靜態的,RCNN相較與原來的分類方法,捕捉對象上下文中的統計規律能力和模型集成上下文信息得以增強。
(3)批量處理:GIRI等人使用一維卷積神經網絡來辨別腦電信號和眼電信號,采用批量標準化來加速訓練網絡的速度[43]。
(4)小訓練樣本:LawHern的團隊開發了EEGNet模型,采用相比常規的深度學習模型采用更小的訓練數據集,就可以更有效地學習腦電信號時序特征[44]。
單純的數據驅動也存在局限性,只能反映人的暫態行為,卻無法為行動背后的需求、動機和情緒提供合理的解釋。因此數據驅動設計需要與常規的“人本設計”相結合,才能精確而全面地對人的認知和行動能力進行建模。
由VR、AR和MR融合形成的延伸現實,通過視覺、聽覺和觸覺的多通道交互提高了認知能力和學習效率,為未來的教育和培訓提供新的媒介和平臺。XR虛擬培訓系統具有3大優勢:第一,可復現性,允許在重復練習中不斷增強技能熟練度,經濟高效,有效節省了人力、物力成本;第二,高度可控性,訓練內容可根據受訓人員的操作績效實時動態調整,減少記憶和疲勞效應;第三,高度安全性,能夠有效降低訓練風險,避免訓練過程中因失誤造成的人身和財產安全。
“人-機-環”的閉環模擬是XR沉浸式訓練的難點和未來方向。采用數據驅動設計與常規的“人本設計”相結合,從而精確而全面對人的認知和行動能力進行建模是有待探索的關鍵問題。
致 謝:本文作者對張煜博士、陳天寧教授和韓騰博士等在研究方法和論文寫作方面提供的悉心指導和寶貴建議,特致感謝!