周小舟,宗承龍,郭一冰,賈樂松,杜曉茜,薛澄岐
(東南大學 機械工程學院,南京 210000)
隨著各類傳感器、計算機識別算法和計算機網絡的發展,除了鍵鼠操作等交互方式以外,語音、手勢、體感、眼動追蹤等多個交互模態逐漸應用到了人機交互系統中。人機交互系統是包含軟件、硬件以及使用者,連接人和計算機的系統[1]。在人機交互系統的發展過程中,人們開始探索用更加符合人的本源性認知和行為習慣的交互方式與計算機進行溝通,而人的意圖表達是多模態的,與此對應的多模態交互也應運而生。多模態交互的核心是使計算機具有類人的感知功能,人機交互在一定程度上靠近人人交互的自然水平[2]。多模態交互要求計算機能夠識別多種類型傳感器所捕獲的人的多模態交互行為,將其解碼并生成計算機下一步動作的指令。當交互行為更符合人的本源性自然表達時,用戶花費較少的認知資源便可以獲取和傳達信息,以達到提升人機交互效率和交互體驗的目的[3]。近年來,多模態交互在虛擬現實[4]、增強現實[5]、混合現實[6]、遙操作[7]、普適交互[8]等場景下都有著廣泛的應用前景。
多模態(Multi-modal)的概念最早出現在語言學領域,延伸到社會符號學、教育學等多個領域[9]。在人機交互領域中,多模態也有著多種不同的解釋,包括不同的信息感知通道、不同的信息呈現方式等。本文中的多模態是從計算機信息輸入通道的角度上來闡述的,人機交互的模態包含傳統的輸入工具,常用的鼠標、鍵盤,以及軌跡球、搖桿等,以及較為新穎的輸入模態,包括語音、多點觸控、手勢、體感、眼動追蹤等。每個模態都有其獨有的交互特點,包括設備優勢與限制、交互能達到的精確度、穩定性,以及對用戶造成的肌肉疲勞與認知負荷等。考慮到人類的交互行為是多個感受和執行通道共同作用的,因而將符合人行為學的交互模態融合起來作為人機交互的輸入和輸出方式,多模態交互更有利于人對計算機環境的感知和計算機對人意圖的理解[10]。本文將對能提高交互自然性的輸入模態,包括自然交互中常用的觸摸、語音、手勢體感、眼動追蹤等作簡要介紹。
觸摸交互是指通過和觸控屏幕接觸而產生的一種二自由度的交互手勢,根據交互手勢中觸摸點的位置、觸摸狀態和觸摸點相對位移等特征轉化為控制信號[11]。觸控輸入除了與顯示屏直接接觸的輸入方式外,還包括筆尖和“懸空”的輸入方式,本段主要介紹手指直接觸摸的交互方式。觸摸手勢的屬性可以分為觸摸點屬性和移動特征屬性。觸摸點屬性包括與屏幕產生接觸的點的個數及接觸類型,現有的觸控技術可以利用接觸面積、壓感、電阻等信息分辨手指或骨節等接觸信息,并支持多點觸控,允許用戶利用雙手或多手指進行觸摸交互[12]。移動特征屬性主要有點擊、拖動、滑動、橫掃、雙擊、放大、縮小、長按、旋轉等[13]。根據手勢的自然運動屬性,手勢可以表達很多含義,多點觸控手勢在功能上可以分為點按與輔助查找、滾動與縮放控制、全局控制三種類型[14]。
觸摸交互技術作為一種提升自然性的輸入方式,可以利用振動、和觸感等輸出反饋方式來提升交互的觸覺體驗[15],其主要限制是對空間要求高,交互對象必須在用戶的身體可達域范圍內,在虛擬現實環境中交互績效受限[16]。
語音交互通常是指利用聲音來實現信息的輸入、輸出、反饋及響應,是一種可以直接反映人類內心意圖的人機交互方式,能達到以交談式為核心的智能人機交互體驗[10]。語音交互可以解放用戶的雙手,或是可以在雙手已經被占用的前提下實現較大詞匯量的交互功能,因而語音控制常被用于作為選擇任務的補充方案。用戶輸出的語音經由語音識別、自然語言理解、對話管理、響應生成后,系統將對人的輸入信息做出對應的交互響應[17]。借助語音交互技術,用戶的操作可以穿透多重視覺層次,無視中間應用、網頁和復雜環境等,實現直達用戶想要的操作的交互目的[10]。
作為用戶日常生活中熟悉的交互通道之一,利用語音實現人機交互可以減輕用戶對交互任務的學習量,適用于非圖形的命令交互與控制交互[10],能夠實現較為復雜的指令功能,有效減輕用戶的肌肉疲勞度,并提升交互的自由度。然而這種交互方式也存在其限制。由于人的語言天然的具有模糊的特點,語音控制系統往往需要根據背景推理用戶所表達的含義,在不確定語義背景的情況下,具有很高的錯誤率[18];多用戶之間的語音會產生干擾,語音輸入的私密性也無法保障[19]。這些特性使得語音控制不常作為首選的輸入方式,在應用場景的廣度上受限。
手勢與體感交互是指通過用戶手部或肢體的靜態姿勢或動態動作來進行計算機指令輸入,從而實現相關功能的交互方式。常用的手勢與體感包括手部姿勢與動作、臂部姿勢與動作、頭部姿勢等[10]。一般來說,手勢與體感動作通過計算機視覺或者穿戴式傳感器跟蹤的方法被設備跟蹤并捕捉,從而作為指令的發送方向計算機傳遞發出指令的信號[20]。
與傳統的鍵鼠交互方式相比,手勢與體感交互是更具自然性的交互方式。在空間上,手勢與體感交互打破了鍵鼠等交互方式中設備對用戶的桎梏,用戶可以在較遠的距離上脫離實體來進行交互操作。人的手部動作有著豐富的可能性,作為交互輸入方式具有自然性、靈活性、便捷性等優勢[21]。尤其在虛擬現實環境中,它是能提升用戶沉浸感的重要自然交互方式之一。利用手和手臂姿勢變化,用戶可以完成諸如瀏覽網頁、翻看書籍、放大縮小物體等交互動作。然而這種交互方式也仍存在一些亟待解決的交互缺陷。可用于指令的符合自然性的交互手勢與體感有限,人們很難通過手勢與體感動作完成大量且復雜的諸如文字輸入這樣的操作[22]。用戶的指令動作和無意識的自然動作在識別過程中容易混淆,產生對指令起止判斷等歧義,而造成彌達斯接觸問題[23]。除此之外,手勢與體感交互還具有響應時延和占用較多記憶資源等局限性[21]。
眼控交互是指通過對所獲取的視線移動的位置、軌跡、速度、駐留時間等信息進行特征定義,將其作為計算機交互指令的交互方式[24]。按照交互主動性,眼控交互可分為基于視線的交互和視線輔助的交互兩種[25]。將基于視線的交互作為獨立的交互控制模態,容易造成視覺疲勞,因而多用在醫療、殘疾人輔助設備等特殊場合。
按照眼動信息特征,主動的眼控方法可以分為凝視交互、眨眼交互、平滑追蹤和眼勢交互四種[26]。這四種眼控方式有著不同的交互邏輯。其中,凝視交互與傳統鼠標交互邏輯相似,又因為其操作簡單所以是目前應用最廣的眼控交互方式[27],然而其存在著不自然、費力等問題,還因為眼球的無意識抖動行為存在一定的精度問題[28];眨眼交互對眼動追蹤設備的時空分辨率要求最低,但可以使用的交互命令較少,且有意識眨眼與無意識眨眼在區分上有難度;平滑追蹤的交互方式依賴于動態刺激[29],其速度會影響平滑追蹤的執行效果[30];眼勢交互可以在一定程度上規避彌達斯接觸問題,但容易造成疲勞且學習成本較高。因此,目前通用型人機交互領域常以視線輔助的交互形式來有效地輔助其他交互模態實現人機交互行為。
目標選擇是人機交互的基礎要素,本質是一種對用戶交互意圖的提取。在傳統鍵鼠交互中,輸入設備的輸入信息是確定性的,物理設備的運動和光標之間存在明確的對應關系。而在強調交互自然性的多模態交互中,由于應用了人天然的輸出模態,如空中手勢、凝視、語言等均具有模糊性,輸出信息與計算機指令的對應關系會變得模糊。為了達到自然交互的目的,就需要在多種模糊的模態中挖掘人的行為中確定的交互意圖,而若要發現這種確定性,就必須建立明確的行為模型。構建指向選擇任務的行為模型往往需要將任務劃分成幾個子階段,多模態交互的優勢之一就是可以給不同模態分配不同的子階段任務,以此避免過度使用單模態造成的疲勞和單模態的技術缺陷[31]。
指向選擇任務可以分為指向任務和選擇任務兩個子任務,對應著目標獲取和驗證確認的交互目的。為了簡化模型,多模交互的發展初期通常在指向和選擇(或操作)階段各應用一個模態。常見的多模態技術多應用視線完成指向,應用手勢進行選擇或操作。例如,在虛擬現實中注視目標后用“捏”的動作移動目標[32]或用“抓握”的手勢“握住”物體并移動[33],在觸摸屏交互中注視目標后點擊屏幕任意位置對平面目標進行縮放旋轉等操作[14]。由于人在目標操作尤其是高精度操作時具有注視目標的行為傾向[34],因此這種多模交互方式具有提升交互績效的實用價值。然而這種方法因為在指向階段僅視線一種輸入模式,對視線捕捉的精度要求較高,在目標較小或者完成精度要求高的應用場合容易產生交互失誤而造成用戶的挫折感和疲勞體驗。為了更精確研究指向任務,Woodworth 等人率先提出了指向任務兩階段理論,將指向動作劃分成快速彈射運動階段和調整階段[35],該理論被后續研究者廣泛應用,通過將指向過程分階段分析和應用來獲取更準確的指向數據和優化模型。目前,已有多個指向選擇任務的行為理論可以用來指導多模態交互技術開發,包括菲茲定律、優化脈沖模型、層疊效應理論等。
菲茲定律[36]是表達指向選擇任務中用戶完成任務所用時間的理論,是在人機交互領域少有的定量表達人機交互系統效果的理論模型。從信息論的觀點來看,人輸入到計算機的信息容量C(比特/秒)取決于通信信道的帶寬B(s?1 Hz)、信號功率S和噪聲功率N,其關系如公式(1)所示:

比照信息論的公式,MacKenzie[37]提出了目前被廣泛采用的菲茲定律計算方式,他把完成選擇任務所需要的時間T與目標的寬度W以及與目標的距離A建立了聯系,并用其比例對數的線形回歸模型來預測運動時間,如公式(2)所示:

其中a與b是該回歸方程的回歸系數,而對數項則被稱為難度系數ID。系數a會受到確認動作等附加因素的影響,而1/b則可以反映交互系統的性能,該性能通常稱為吞吐量。
菲茲定律在一維到三維中都有應用。Wingrave和Bowman 的研究[38]表明,菲茲定律在虛擬三維環境中依然有效。在三維環境下,物體的W需要以其出現在用戶視野里的視覺大小來表示,而A則需要進一步考慮用戶手部的旋轉角度。Poupyrev[39]則進一步將物體的W以物體出現在用戶視野里的豎直與水平的角度進行定義。菲茲模型在三維物體的選擇中得到優化[40-42]。菲茲定律可以體現出人的指向選擇任務的行為特征,研究表明除了各種以手為基礎的交互之外,腳、頭、眼睛的選擇指向仍然滿足菲茲定律[43],因此菲茲定律可以作為多模態交互的一般性行為模型。
基于指向任務兩階段理論,Meyer 等人提出的優化脈沖模型[44]常被用來解釋用戶執行選擇任務時的手部運動。不同于菲茲定律的宏觀預測和評估理念,該模型對任務過程做了更細致的描述,它將選擇任務中的手部運動階段區分成低精度快速移動的快速彈射運動階段與高精度慢速移動的慢速調整階段,用于描述在選擇任務中不同階段用戶進行操作的速度與任務要求的變化。優化初始脈沖模型見圖1,慢速調整階段出現在快速彈射運動階段之后,這兩個階段使得人在執行此類交互動作時可以兼顧速度與精度。

圖1 優化初始脈沖模型Fig.1 Optimized initial impulse model
人的生理特性導致人的肢體行為無法同時兼顧快速和精確的運動要求。一般情況下,用戶所需選擇的目標是隨機分布在某個區域內的,這導致人的肌肉群必須做更微小的調節才可以完成選擇[45],而參與大范圍快速移動的肌肉群往往較大,無法在兼顧速度的同時完成精確的選擇。對于需要進行精確操作的慢速調整階段,小肌肉群無法實現大范圍的移動,但它們更加細分的可變性使其更容易完成細小的調整。
目前優化脈沖模型仍在不斷的優化過程中。Piumsimboon 等人分階段研究了彈射階段校準階段的輸入模態[46],分別測試了頭和眼完成彈射階段并與調整階段其他模態結合的績效和主觀評價,證實了眼在速度上的優勢和對設備及準確性要求帶來的用戶體驗問題以及頭指向的交互準確性和脖子疲勞問題等。鄧成龍等人在兩階段理論的基礎上基于遠距離移動物體過程中對目標移動速度的觀察,又將彈射階段分為了加速階段和減速階段,建立了移動物體的三階段理論[47],該三階段理論對指向任務中的普適性有待進一步的研究。還有研究表明,用戶在選擇任務中會自行平衡快速彈射運動階段與慢速調整階段[48],這兩個階段并不是固定的且不可改善的。MacKenzie 等人進一步發現[49],速度在時間序列上的變化取決于目標的寬度W以及與目標的距離A,而不僅僅是難度系數ID。A會影響快速彈射運動階段的最大速度,而W則影響慢速調整階段所需要做的修正,這為借助該理論實現自適應交互提供了條件。
優化脈沖模型是對交互運動的細化,而人的多種行為模態都可以作為該模型中的運動指標來源,從而在菲茲定律的基礎上進一步細化交互流程,對交互意圖進行更詳細地分析和定義,是實現無感的多模態交互的基礎。
眼部運動的實時監測可以獲取用戶注意焦點、快速定位用戶興趣區,是多模態交互中意圖捕獲的基礎。在眼睛的運動規律方面,Shimojo 等人提出了層疊效應理論[50]。在選擇任務中,物體得到的注意越多,它被選擇的概率就越大。該理論闡述了一個統計模型,在注意與決策之間搭建了橋梁,所包含的變量僅包含目標得到的注意。諸多神經行為學研究發現,當大腦在諸多刺激間進行選擇時,人腦會首先對多個刺激賦值,隨后再考慮應該選擇哪個刺激[51]。表現在眼球運動上,在日常生活中需要進行決策、選擇的任務里,人眼會不停地交替注視多個刺激,以完成刺激賦值進程[52]。視覺的層疊效應理論反映的就是這種賦值過程。
由于眼動的注視信息可以很好地反映人的注意力特征[53],因此層疊效應常應用于借用眼動信息預測用戶決策,進而在交互全過程完成前提前預測交互意圖[54]。研究表明,人的注意力特征與人腦對刺激的賦值過程可以互為因果,不僅刺激本身的特性可以吸引人的注視,更長的被注視時間也可以導致該刺激的被選擇概率提升[55]。隨著決策過程的推進,這種雙向促進的過程使得眼動特征與人的決策可以深度綁定,進而呈現出更加確定的結果。Smith 等人[56]也進一步研究了這兩種效應的強弱,進一步發現其相對強弱在不同場景下有所不同。為了完成從眼動信息到決策信息與交互意圖的預測,已經有很多研究者通過建立模型對層疊效應進行量化,在實驗室環境下通過模型計算決策結果[57-58]。而在人機交互技術的應用領域,可以使用神經網絡完成眼動交互意圖的識別和預測[59-60]。層疊效應理論所展示的是人的注意選擇規律,便捷的眼動注視目標的獲取設備和技術使得該理論具有廣泛的應用前景,可以作為交互意圖捕捉方式和多種交互模態共同實現更為快速精確和確定性的交互目的。
多模態交互技術是一種以協調的方式處理兩個或多個輸入模式,借助多種非侵入式的傳感器,識別天然形成的人類語言和行為,以獲取人的交互意圖并輸入計算機的技術[61]。由于傳感器輸入信息的組合,輸入信息容量更高,所以具有超越單模態的輸入效率。同時多個傳感器輸入信息可以相互作用,降低信息中的不確定性,多模態交互識別系統的準確率遠高于單模態的輸入。多模態交互技術具有比單模態交互技術更好地理解人的交互意圖的理論基礎。
人在進行意圖表達時會自然地同時調用多個輸出模態。例如人在指向目標物時,會轉向、注視目標并用手指向目標;闡述復雜概念時,人會在語言表達的同時輔助空中手勢的表達。因此,多模態交互技術是以本源性自然表達為目標的自然交互技術發展的必然趨勢。由于交互情境的多樣性和交互模態的適用性,多模態交互的模態融合方式具有多樣性。剖析交互模態在融合方式上的特征,歸納了以下四種類型:選擇型、相繼型、并發型、互補型,多模態交互的模態融合方式見圖2。

圖2 多模態交互的模態融合方式Fig.2 Modality fusion methods in multimodal interaction
選擇型多模態交互,是指某一交互輸入模態或組合均表示相同的語義信息,各模態輸入信息在功能上都是等效的,用戶自行選擇或者根據場景自適應適配的交互融合方式。此類交互技術希望通過提供多種各具特點的輸入模態,滿足不同用戶在不同場景下的偏好,提高用戶輸出意圖的效率。在攜帶有語音助手的智能手機中,設置鬧鐘往往可以通過觸摸或語音等不同的方式實現。一些研究也探索了模態的自動選擇,以避免增加用戶的認知負荷,例如Pfeuffer[62]等人研究了人的注意力機制,并將注意力機制用于在手眼之間切換輸入模態,借助這種自然的切換,更好地匹配了選擇任務中所適合的模態,提高了輸入效率。
相繼型多模態交互,是指兩個或多個輸入模態在時間線上的不同時間段先后發揮作用,最終共同完成一個任務操作指令的交互融合方式。在此類系統中,前一種模態可以用于防止后一種通道錯誤的觸發,并適時地激活后一種模態,為任務的不同階段使用合適的輸入模態,避免計算機錯誤地識別到了用戶并不存在的交互意圖。例如在多模態交互的一鍵通話界面中,語音模態從一個手勢動作獲得信息,并將語音輸入激活。已經有學者采用這種組合方式來解決選擇任務的精確度與速度問題。例如,MAGIC 指向技術使用頭部信息初始化屏幕上的光標位置,之后再由鼠標接管光標[63]。Yang 提出了一種使用眼動進行粗略選擇,使用觸摸板進行精確選擇的操控技術[64]。Koskinen 在外科手術領域開發了一種技術,他們通過提取手術刀上的注視點信息來確定畫面的縮放幅度,以此來配合手執行不同精細度的手術操作[65]。在Cordeiro 等人所開發的增強現實僵尸游戲中,面部識別所獲取的頭部朝向被用來完成游戲里射擊動作的瞄準,觸摸則被用于確認開火[66]。
并發型多模態交互,是指需要兩個或兩個以上的輸入模態在同一時間段內觸發才能完成一個任務的交互融合方式。其主要表現在時間段上的同步性,強調不同交互模態需要在同一時間段內被調用,兩種模態同時觸發才能構成完整的語義。此類交互技術可降低單模態下的偶發啟動,將多模態設定為彼此的互鎖機制,提升交互操作的確定性。Pfeuffer 等人[32]所開發的技術就旨在通過這種方法消除眼動的彌達斯接觸問題,該技術以眼動為指向,以一個捏合姿勢為確認動作,只有當眼動選中目標且發出捏合的確認動作時,目標才被選中。這種組合方式也適用于涉及多維度信息的任務中,在為虛擬環境下某一物體賦予顏色的任務中,用戶需要同時輸入色彩和目標兩個信息,EyeSeeThrough[67]技術讓用戶用手拿起一個調色板,當眼、調色板的顏色、目標共線時完成色彩的賦予。
互補型多模態交互,是指提取兩個或多個輸入模態的優勢動作配合發出命令,共同完成一個任務,以消除交互意圖中歧義的交互融合方式。設計互補型多模態交互任務的時候,需要針對每種交互模態的優勢動作和交互響應來細化整個交互動作,以實現功能上的最優分配,考慮交互任務的具體實現場景來選擇可以同時實現協同操作的交互模態來完成一系列交互動作。例如,Argelaguet 等人[41]采用眼的位置發出射線,并使用手腕轉動引導射線的方向移動信息,同時規避了眼動的不穩定性以及手勢射線容易被遮擋的問題。Bai 等人[68]在車內的選擇場景下,通過手勢進行選擇指向,凝視信息用來確認指向的正確性,在不產生額外運動的情況下提升了選擇的準確率。Li等人[69]也在平板電腦上開發了相似的輕量化技術,以減少手勢識別的誤差。在Sidenmark 等人[34]所開發的交互技術中,眼動信息與控制器信息相互補充,當控制器確定一個目標點時,該交互技術會隱式地對眼動儀進行校準,進而避免了用戶頻繁地主動校準眼動儀。
伴隨著各類傳感器、計算機識別算法與計算機網絡的發展,計算機對人的交互意圖感知能力不斷加強,多模態交互已成為人機交互的必然發展方向。多模態交互可以在對人交互行為分析的基礎上實現非侵入、無感的自適應交互。而目標選擇任務作為人機交互中的基礎任務,具有任務典型性和研究必要性。當前多模態交互中的目標選擇任務的優化方向包含以下四個方面。(1)建立基于意圖捕捉的人機交互。目前的多模交互技術大多將選擇任務劃分成“指向+選擇”或“指向+校正+選擇”的分步形式,每一步之間需要用戶通過手勢或語音等方法明確告訴計算機步驟的切換,該行為極大地簡化了計算機的工作卻增加了用戶的交互任務量。在未來的研究中,將這種用戶的主動交互意圖表達轉化為計算機的主動交互意圖識別,在計算機對人行為的充分理解的基礎上建立基于人的意圖捕捉的人機交互形式是多模交互中優化目標選擇模型的必要研究方向。(2)多模態無縫融合交互技術。為了達到更自然的交互效果,已有很多研究都嘗試了多模態交互,但是目前較多的多模態交互還停留在單模的組合上,即利用拼接單模的方式,讓不同模態交互實現不同階段的功能后再組合到一起:例如利用眼控完成指向后再用手勢進行確認等。這種方法雖增加了操作的詞匯量,有助于用戶完成更多交互內容,卻保留了單模的缺點,且不符合用戶的自然交互習慣。因此實現多個模態間的無縫融合可以達到顯著的優化模型的效果。(3)虛擬空間中交互的自然貼合度。虛擬現實、混合顯示等虛擬空間為多模態交互提供了廣泛的研究依托和應用場景。在虛擬現實中,交互過程與真實物理世界相似度的提高有利于提升用戶的交互興趣,而且能提升沒有經驗的使用者的交互能力[3]。當前的指向任務多采用單一的空間射線投射技術,然而用戶的指向動作模型隨目標距離等因素改變會產生變化,比如在指向遠距離目標時目標的位置更接近于眼與手指間的延長線方向,指向近距離物體時更接近于手指指向方向[70],因此可以借助多模態的方法提升指向選擇任務模型與用戶行為習慣的貼合度,從而提升交互自然性和準確性。(4)基于現實復雜場景的設計優化。大多數設計停留在單一的實驗層面,缺乏實踐應用,實驗場景與實踐場景差別大,僅停留在規律單一的實驗場景以績效評價證明設計方法的可用性。且前期對于技術的特點研究不充分,對于單模的缺陷認識停留在射線投射精度低、眼動數據不準確等,無法最大化發揮不同技術的優勢、合理利用以降低單模態的缺陷造成的交互體驗降低等問題,缺乏利用多模態實現復雜場景的交互案例。因此未來的研究應注重復雜、擬真場景下多模態技術的應用。