ICOMDT:一個面向動態任務的交互計算模型*

2019-10-24 02:09:14李念龍戴國忠王宏安

軟件學報 2019年10期

李念龍,黃進,田豐,戴國忠,王宏安

1(人機交互北京市重點實驗室(中國科學院軟件研究所),北京 100190)

2(中國科學院大學計算機與控制學院,北京 100190)

1 概述

隨著交互式多媒體技術的發展,計算機呈現給用戶的信息變得越來越豐富,動態形式的交互任務也變得越來越普遍.比如,在航班管理系統中,用戶需要選擇飛行中的航班,查看有關該航班的詳細信息;在虛擬射擊游戲中,射擊識別系統作為核心部分對用戶體驗有著至關重要的影響[1].然而,相比于靜態形式的交互任務,如Windows 操作系統中的菜單選擇,動態交互任務無疑會給用戶帶來更大的挑戰.用戶需要不停地接受和處理動態任務信息,認知負荷隨之增加.此外,用戶在交互過程中還需要保持高度集中的注意力,控制肌肉運動與感知神經的協調一致[2].這些因素給用戶與界面的交互行為引入了噪音干擾,使得用戶最終輸出的信息并不一定是實際所想.例如,當用戶點擊快速移動的目標時,經常會點偏或點錯[3,4].但對計算機而言,用戶行為的內部產生過程是一個黑盒,計算機只能觀測到用戶最終的輸入,并將此作為唯一的用戶意圖判斷依據.從而導致用戶與動態任務的交互效率低下,常常需要花費更多的時間并且很容易產生疲勞.

可見,為了提高用戶與動態任務的交互效率,對用戶行為的內部產生過程建模,進而實現用戶行為的意圖理解,對包含動態內容的用戶界面有重要意義.運動目標獲取任務[5-7]是動態用戶界面中最為基礎和廣泛使用的交互任務.研究者們已經對用戶在這項交互任務中的感知過程、認知過程與運動表現進行了大量的研究.在用戶對運動物體的感知過程中,主要包括物體位置變化、物體的運動速度以及物體的運動方向[2].研究表明,這3種感知是相互獨立的[8-11].在Brouwer 等人的研究中還發現,用戶在動態交互任務中使用的并不是感知速度,而是基于經驗記憶的平均速度[8].盡管這些結論可以很好地解釋用戶在動態選擇任務中的一些表現,但卻沒有形成一套完成的模型框架,并且也沒有應用在計算機對用戶的意圖理解上.在對用戶的認知研究方面,ACT-R 模型描述了一個較為完善的用戶認知與外界環境的交互模型[12].用戶在認知過程中,除了整合外界的感知信息以外,還需要從目標意圖與記憶存儲中提取相關的內容.此外,貝葉斯方法作為一種可計算的模型,被廣泛應用在計算機對用戶的認知分析中.在K?rding 等人的研究中,通過貝葉斯方法推斷用戶真實的感知信息[13],使計算機能夠分析用戶的認知,但是他們并沒有對用戶意圖進行理解.在對用戶的運動研究方面,許多與空間約束任務相關的模型和優化方法被提了出來,如隨機優化子運動模型[14]和統計校準法[15]等.這些模型雖然能夠對用戶的表現建模,但卻面向靜態交互任務,并且缺乏完整的用戶交互模型框架分析.

本文提出的ICOMDT(interaction computational model for dynamic task),是一個面向動態交互任務的定量化可計算的交互模型.該模型融合了已有研究的成果與思想,將用戶與計算機的交互過程進行分解并統一建模,它由用戶模型中的感知模型、認知模型、運動模型、目標意圖和記憶存儲模塊以及計算機模型中與之對應的動態任務、認知解碼、交互設備、意圖理解和數據模型共10 個模塊組成.計算機能夠根據動態任務的先驗信息、用戶的輸入信息結合數據模型對用戶認知進行解碼,進而得到用戶的目標意圖.通過該模型可以輔助計算機更好地理解用戶意圖,提高用戶與動態任務的交互效率.

更具體地,我們將該模型在運動目標獲取任務中加以應用,對用戶點擊運動目標的落點分布建立高斯分布數據模型,并使用貝葉斯方法推斷用戶的意圖目標.為了驗證模型的有效性,我們設計了與兩個運動目標選擇任務相關的實驗.實驗1 首先對用戶數據模型進行擬合,并用于預測用戶選擇的錯誤率.實驗2 根據動態交互計算模型實現了一種輔助運動目標選擇技術,使用實驗1 中擬合的數據模型,能夠有效地縮短用戶的目標選擇時間,并提高目標選擇的準確率.

本文的貢獻主要有以下幾點.

(1)提出一個面向動態任務的交互計算模型——ICOMDT,用于解釋用戶與動態任務的交互行為并實現用戶意圖預測.

(2)將ICOMDT應用于運動目標選擇任務,提出一套可計算的模型方法,能夠根據任務參數預測用戶目標選擇的錯誤率.

(3)基于ICOMDT實現一種輔助運動目標選擇技術,能夠有效地縮短運動目標的選擇時間并提高選擇的準確率.

2 相關研究

為了將用戶與計算機的交互過程進行分解并統一建模,我們在感知模型、認知模型以及運動模型3 個方面對已有工作進行了歸納,下面分別對這幾個方面展開闡述.

2.1 用戶感知研究

用戶對運動物體的感知主要包括物體位置變化、物體的運動速度以及物體的運動方向[8].雖然物體的運動速度與位置隨時間的變化有關,但研究表明,用戶對物體運動速度的感知并不依賴于位置感知變化[9].在Brenner等人的研究中也將用戶對速度感知轉化為對時間的感知[11],并影響用戶選擇目標的時刻.具體來說,如果用戶預估速度偏小,會導致選取目標的時刻提早;而用戶預估速度偏大,則會導致目標的選取時刻滯后.運動方向的感知也被證實不受物體位置感知變化的影響[16,17].然而,對物體運動速度感知和運動方向感知之間的關系的研究卻存在一些爭議[18,19].僅就運動目標獲取任務而言,Brouwer 等人在2003 年通過實驗證實了用戶對物體速度和運動方向的感知是相互獨立的[8],這個結論為我們構建ICOMDT提供了重要依據.

在Brouwer 等人的實驗中,用戶被要求用一根有機玻璃棒在顯示屏上點選朝特定方向以恒定速度運動的目標.實驗通過控制目標是否在移動過程中消失以及背景的運動來探究運動方向感知對用戶選擇目標的影響.結果表明,無論目標是否在移動過程中消失,用戶選擇目標時的落點誤差距離無顯著性差異,但是背景運動卻會影響落點的誤差距離(背景運動影響了用戶對目標運動方向的感知).因此,用戶動態任務交互過程中用到的是實際感知到的運動方向而不是基于經驗預期的方向;相反地,對運動速度用到的是基于經驗預期的平均速度而不是感知到的速度,根據實驗結果發現,用戶在選擇運動速度較慢的目標時距離偏移更大;在選擇速度較快的目標時距離偏移更小.因此,Brouwer 等人認為,用戶在動態交互任務中,對運動速度的感知和運動方向的感知是分離的.這表明,物體的運動(速度)不能在不同方向上分解.

綜上所述我們認為,在動態交互任務中,用戶對運動物體的位置變化感知、運動速度感知以及運動方向感知都是相互獨立的.盡管研究者們已經嘗試通過實驗來分析用戶在一些簡單動態交互任務中的感知狀態,但卻沒有提出一套完整的交互理論模型,并且也未能使計算機對用戶意圖進行理解.

2.2 用戶認知研究

近年來,研究者們對用戶認知科學的研究已經不僅限于感知覺、言語過程、思維過程等傳統的認知機能,許多新型研究領域,如認知神經計算、社會認知決策的出現,讓很多不同行業的人都開始從事與認知研究相關的工作,許多模型方法也被研究者們提了出來.

2.2.1 認知模型

思維理性的自適應控制(adaptive control of thought-rational,簡稱ACT-R)已經發展成為由多個模塊組成的理論[12],常用來解釋人類與外界環境交互時的認知過程.該模型主要包含4 個模塊和1 個中央控制系統,4 個模塊分別是:用來識別視野范圍內的物體的視覺模塊(visual module)、控制手部運動的操作模塊(manual module)、從記憶內存中檢索信息的聲明模塊(declarative module)以及追蹤當前目標和意圖的目標模塊(goal module).ACT-R 已被證實通過這4 個模塊與中央控制系統的交互過程及所需的時間損耗,能夠對文本輸入時間[20]、錯誤率[21]和視覺搜索策略[22]等用戶行為進行準確預測.雖然ACT-R 僅對用戶認知加工過程進行了解釋,無法輔助計算機對用戶行為進行意圖理解,本文創造性地將意圖理解過程看作是認知加工過程的近似逆過程,并將其用于ICOMDT意圖理解歸因體系的構建當中.

2.2.2 認知推理

認知推理是人類結合感知刺激與記憶形成對外部環境認識的過程,雖然是否存在規范性描述人類認知推理過程的機制存在爭議,但簡單的統計推斷法卻已在這些方面得到多方證實[23,24].這種方法即貝葉斯法則,它在描述用戶將當前觀察到的信息和先驗記憶中的信息結合的行為中非常成功,為我們提供了一個操作性很強的理論框架,描述用戶對事件進行感知推理的過程[23].K?rding 等人指出,實際上環境中的對象具有很強的統計規律性,且人類大腦對這種規律有著很強的學習能力,使人腦在特定環境中對外界線索的感知能夠被概率統計模型所描述,他們用實驗證實了貝葉斯模型能夠很好地描述這種學習能力[13].Lu 等人也通過貝葉斯方法描述了在多通道信息融合的交互模型中,人們如何根據感知層傳來的信息進行決策[25].雖然他們只是針對感知任務進行用戶意圖理解,但卻為在動態交互任務中解碼用戶意圖,進而實現計算機意圖理解提供了重要依據.

2.3 用戶運動研究

Fitts 定律作為著名的用戶表現模型,描述了空間約束運動任務中速度與準確性的關系,并能夠預測用戶的平均移動時間[26,27].確定性迭代修正模型進一步解釋了用戶從初始位置到目標區域的總體移動包括一系列離散的子運動[28,29].基于確定性迭代修正模型,Meyer 等人提出隨機優化子運動模型[14],并對子運動分量落點分布的標準差進行了分析:對于主要子運動和次要子運動,用戶落點分布的標準差均與用戶移動的平均速度成正比,在移動距離固定的情況下與運動時間成反比.

Meyer 的研究雖然分析了用戶在空間約束任務中最終落點分布的影響因素,但卻只是針對用戶運動的影響進行了分析.2013 年,Bi 和Zhai 提出了一種通過建立統計校準模型解決用戶在觸摸屏上選擇靜態圖標精準度的方法[15].該模型認為用戶點擊目標的落點分布服從正態分布,均值為一個常數,與設備本身的精準度有關;方差除了受設備本身精準度的影響外,也與目標的大小有關.盡管Bi和Zhai的研究是對用戶操作整體建模,最終的落點分布也僅與初始任務參數有關,但在他們的研究中目標是靜止的,并且他們所建立的模型并沒有分析用戶的感知和認知過程.

研究者們還將最優化模型應用于解釋用戶與動態任務的交互運動.其中,主要包括開環(open-loop)和閉環(closed-loop)兩類模型.在開環控制模型中,最優化的目標集中獲得最合理的肌肉活動[30,31]、關節力矩[32]或者上肢姿態[33,34],而忽略了在線的感知反饋,并且經常把人類運動看作是一個預先確定的動態系統.相比開環控制系統,閉環系統采用了更加類似人類的處理模式,這種模式不再依賴于提前預知的期望軌跡(desired trajectory),而是能夠在不可預測的波動下反復再現[35].盡管閉環控制系統與人類運動的相似度更高,但在實際設計中很難直接使用這些模型,因為需要對參數進行高精度的計算優化.

3 動態交互計算模型

為了將用戶與計算機的交互過程進行分解并統一建模,實現動態交互任務中用戶意圖的準確理解,我們提出ICOMDT,其體系結構如圖1 所示.它與以往意圖理解模型的主要區別在于,以往方法中用戶與動態任務交互是以一種黑盒的方式進行,即計算機不知道用戶在接收信息后會如何操作,無法理解用戶的意圖.由于用戶自身復雜的生理結構,神經沖動信號在傳遞至肌肉運動的過程中難免會伴隨有干擾噪音,導致最終的行為輸出與用戶意圖產生偏差.如果僅以用戶的輸出作為唯一依據,計算機很容易做出一些錯誤的判斷,帶來不必要的交互耗時與不友好的交互方式.

在ICOMDT中,我們將交互過程劃分為用戶空間和計算空間兩個部分,在用戶空間中,主要參考了ACT-R 模型[12]對用戶認知這一黑盒過程進行了模塊劃分,并基于對用戶感知、認知和運動表現的已有研究,分析了用戶與動態任務的交互過程,在計算空間中,通過對認知空間進行近似的逆向建模,實現用戶在動態交互任務中的意圖理解,進而提高交互效率.下面我們首先對ICOMDT的體系結構進行介紹,然后再給出一個應用于運動目標獲取用戶表現建模的例子,以說明其工作過程.

3.1 ICOMDT體系結構

(1)感知模型:用戶通過感覺器官接收計算機傳入的動態任務信息.主要為視覺信息感知,也可能包含聽覺信息或觸覺信息等多通道信息感知.

(2)認知模型:用戶在大腦皮層對感知到的信息進行加工整合處理,理解動態任務并做出相應決斷,之后激活額葉中央前回運動區產生運動信號.

(3)運動模型:當運動信號下傳至脊髓,激活脊髓前角元運動細胞后,肌肉就開始運動,完成我們所期望的操作,這是用戶的信息輸出模塊.

(4)目標意圖與記憶存儲:根據ACT-R 模型[12],用戶在認知層面處理時,需要追蹤當前的目標意圖并從記憶存儲中提取有效的經驗信息指導當前操作,這一過程即對應于目標意圖與記憶存儲模塊.

(5)輸出設備:與用戶的運動模型相對應,是計算機的信息輸出模塊,可以包括視覺呈現、聽覺呈現、觸覺呈現等多種形式.

(6)認知解碼:計算機對用戶認知過程的解析,是用戶內部處理過程的近似建模.

(7)輸入設備:與用戶感知模型相對應,是計算機的信息輸入模塊,可以包括手指、鼠標以及操縱桿等交互輸入設備.

(8)意圖理解與數據模型:兩個模塊相輔相成,它們都必須結合認知解碼模塊工作.當認知解碼模塊以用戶操作為輸入時,可利用意圖理解模塊反向推測出用戶意圖;當認知解碼模塊以交互任務參數為輸入、輸入設備傳入數據為標簽時,可實現模型訓練,并將訓練好的模型和參數在數據模型模塊進行存儲.

(9)認知交互任務與計算交互任務:ICOMDT與具體交互任務進行適配的模塊,在用戶空間中,這個模塊以人類意識的形式存在,它意味著用戶大腦當前對特定任務的認識以及以往執行任務留下的記憶,根據ACT-R模型[12],它為用戶的目標意圖、記憶存儲模塊提供識別任務目標并執行相應的操作的認知和記憶;在計算空間中,這個模塊以計算邏輯和參數的形式存在,它不僅規定了具體任務的交互界面和內部邏輯,還為用戶數據模型的構建和意圖理解提供規則和參數支撐.

在一次交互過程中,計算交互任務首先指導計算機將界面內容呈現給用戶,用戶通過感知模型對任務內容進行感知,之后在認知模型中對感知到的信息加工整合理解,用戶通過之前對該交互任務直接或間接的了解,已經形成了經驗和認識,并存放于認知交互任務模塊中,在這些經驗和認識的作用下,目標意圖模塊明確任務中需要完成的目標,并在記憶存儲模塊結合經驗知識對當前任務做出決策,最后將控制信號傳遞至運動模型,控制肌肉運動完成期望行為操作.

用戶行為通過輸入設備進入計算機,傳遞至認知解碼模塊,同時交互任務的相關信息作為計算機的先驗知識也通過數據模型傳入認知解碼模塊,計算機根據二者的信息并結合已經建立的數據模型對用戶認知進行反向解碼,推斷用戶的目標意圖,通過意圖理解模塊反饋給交互任務,最后交互任務將結果重新呈現給用戶,完成一次交互.

3.2 運動目標選擇任務

下面我們將ICOMDT應用于運動目標獲取任務中,對其用戶表現,或者更具體地說,對運動目標選擇的落點位置(endpoint)進行建模.我們將根據ICOMDT體系結構對各個模塊的具體內容分別加以介紹.

3.2.1 計算交互任務運動目標獲取任務的定義如下:電腦屏幕中有單個或多個運動的圓形目標,用戶需要盡可能快速并且準確地使用鼠標選中其中一個目標.

研究表明,在靜態交互任務中,用戶會最大限度地利用目標寬度來節省他們選擇目標的時間[36],我們相信,該發現在動態交互任務中也同樣存在.而在運動控制理論中,感知-運動控制系統存在時間延遲,這可能導致終點落后于目標[37],當目標移動速度更快時,這種趨勢變得更強.因此,我們把目標的運動速度(V)和大小或直徑(W)作為任務相關參數,并且這兩個任務參數作為先驗信息是已知的.在這個案例中,我們采用圖形顯示器作為輸出設備,采用鼠標作為輸入設備,用戶的輸入行為就是按下鼠標按鈕時鼠標的位置.

3.2.2 認知解碼

根據動態交互計算模型,推斷用戶意圖的方法為用戶認知和運動行為的逆向推理,因此,在這一模塊中,我們首先需要將用戶的認知和運動處理過程進行有效的近似建模.從用戶的角度來看,用戶最初得到的刺激為任務呈現,從上一節可知,在運動目標獲取任務中,最重要的信息即為運動目標的V與W,而用戶最終的輸出為選擇落點,因此,這個近似建模過程即找到任務參數V和W與選擇落點之間關系的過程.

考慮到人類本身復雜的生理結構,我們很難用計算機模擬出用戶的整個認知處理過程.此外,由于從用戶大腦發出指令到最終按下選擇按鈕幾乎是在很短時間內完成的,我們可以認為用戶每一次操作都是開環控制,即從用戶感知到最終輸出之間不存在反饋回路.因此,為了簡化計算,我們利用數據驅動[38,39]的方法找到任務參數與落點之間的一個開環函數,以此表示它們之間的關系.更近一步地,大量研究表明,用戶在靜止目標選擇任務中的落點分布服從正態分布[36,40,41],我們假設運動在運動目標選擇中的落點樣本總體X服從正態分布,那么任務參數與落點之間的關系則可以轉變為V和W與正態分布均值和協方差之間的關系,如圖2 所示.

1)速度大小與運動方向分解

Brouwer 等人指出,目標速度大小與運動方向在被用戶感知時是相互獨立的[8],我們以目標中心為原點建立坐標系:定義x方向為目標運動方向,y方向為與目標運動方向垂直的方向,由此可得,x方向上的移動速度為V,y方向上的移動速度為0,兩個方向上的目標大小均為W.在此坐標系下,x方向的偏差體現了運動速度變化對用戶落點的影響,y方向的偏差體現了空間方向變化對用戶落點的影響,兩個方向上的影響相互獨立.因此有:

接下來,我們通過分析動態交互計算模型建立任務參數(V,W)與正態分布參數(μx,μy,σx,σy)之間的關系.

2)V對μx和σx的影響

用戶落點在x方向上的分布主要是由速度變化引起的.在Brenner 等人對移動目標捕獲問題的研究中[11],物體實際運動速度與用戶感知速度的差異會導致用戶最終選擇目標的位置提前或者滯后.

假設用戶預估速度為ve,那么目標最終在t時刻被預測選中的位置xe為

其中,delay表示視覺信息轉化為肌肉刺激的延遲時間,te是預估的選中目標的時刻.而實際選中目標的位置xa可以被寫作:

其中,ta是目標實際被選中的時刻,va也是目標的實際速度.為了準確選中目標,用戶預估的位置應該與實際位置相同(i.e.xe(t)=xa(t),t=ta).所以,合并公式(3)和公式(4)后可得:

因此,如果用戶估計的速度偏小,會導致選取目標的時刻提早,落點位置提前;而如果用戶預估速度偏大,則會導致目標的選取時刻延遲,落點位置滯后.我們將V對μx產生的影響近似地用線性關系式表示:

根據隨機最優化子運動模型[14],用戶的選擇速度會影響落點分布的標準差,對主要子運動有:

其中,V1是主要子運動的平均速度,D1和T1分別是主要子運動的平均距離和平均時間,K為常量系數(K>0).如果主要子運動錯過了目標區域,并且在與目標中心點Δ距離范圍內結束(Δ≥W/2),根據模型將會有次要子運動在T2Δ的時間里移動Δ的距離,最終的落點分布的標準差為S2,即有

而運動目標的速度顯然會影響用戶的選擇速度,進而影響選擇落點的不確定程度,因此,我們近似地認為σx正比于V.

3)V對μy和σy的影響

用戶落點在y方向上的分布主要是由空間方向感知誤差引起的.用戶對運動方向感知不受感知速度的影響[8],因此,μy不受V的影響,即:

然而,用戶的選擇速度依然受到目標移動速度的影響[42,43],根據隨機最優化子運動模型的公式(9),V仍會對σy產生影響.這也符合常理,目標移動速度越快,用戶就要越迅速地移動鼠標追逐選擇目標,盡管落點分布的均值趨于中心,但是不確定性卻會隨之增大.

4)W對μx和σx的影響

對于靜止目標選擇任務,Bi 和Zhai 研究發現,W會影響落點分布的標準差,但并不影響均值[41].

其中,σa為常數,表示設備的絕對精度,常數c表示絕對偏移度,通常情況下設為0.但在運動目標選擇任務中,由于x方向上目標運動速度的干擾,用戶會盡可能地利用W,或者說目標本身對運動精度的容忍度[36],以抵消速度V帶來的影響.換句話說,一般情況下,目標的移動會造成用戶的點擊落點滯后,而用戶會盡可能地通過預判彌補滯后偏差,目標越大,這種彌補就會變得越明顯.因此,暫且先把絕對精度拋掉.同樣,我們將W對μx和σx的關系近似地看作正比關系:

5)W對μy和σy的影響

由于y方向沒有速度分量的存在,用戶不必要利用W以抵消速度V帶來的影響,所以,我們可以認為W對落點分布的影響與靜止目標選擇任務類似,根據公式(12),將μy設為0:

同時,由于目標為圓形,在y方向上目標大小仍為W,因此,W對σy的影響與x方向保持一致.

6)總落點分布函數

為了得到最終的正態分布函數,需要將上述V和W對落點分布產生的影響進行疊加.我們將這種影響表示為與V和W有關的兩個正態分布和此外,再引入一個正態分布表示絕對精度[41],它們形成了總體分布的3 個子分布,利用正態分布相加仍是正態分布的規則,我們便可以通過加法運算得到最終的總體分布.

根據公式(6)、公式(9)～公式(11),V產生的子分布可以寫為

其中,bx,ex,ey均為常數.

根據公式(14)～公式(17),W產生的子分布可以寫為

其中,cx,cw,x,fx,fy均為常數.

絕對精度產生的正態分布均值和協方差均為常數.

根據精度容忍度理論[36],當W越大時,V的作用越小,因此,假設Xv和Xw相互之間不獨立,且它們的協方差為

其中,gx,gy為常數,V2/W2這一項體現了目標大小對目標速度的抑制作用.

最后,利用二維正態分布的線性組合仍是正態分布的性質,將上述3 個正態分布相加即可得到總體正態分布表達式:

3.2.3 數據模型

從前面的章節可知,數據模型模塊實際上是實現了認知解碼模型,即公式(23)的訓練和存儲.其訓練過程包括兩個步驟:(1)收集用戶在不同V和W下選擇目標的落點數據;(2)利用認知解碼模型對收集到的數據進行擬合,完成模型參數的估計.我們將在后面的實驗章節中對這部分內容進行詳細介紹.

3.2.4 意圖理解

在認知解碼過程中,我們選擇使用貝葉斯法則實現認知過程的逆向推理.假設有n個候選目標T={t1,t2,…,tn},若用戶點擊選擇的落點為s,那么目標t是用戶意圖目標的條件概率為P(t|s).要想找到這個意圖目標就等同于尋找目標t*使P(t|s)的概率最大,根據貝葉斯定理,可以得到:

其中,P(t)為先驗概率,假設每個目標初始情況下被選中的概率相同(即為1/n).P(s|t)為似然函數,用以描述用戶在s點欲選擇t目標的概率.P(s)為正則化系數,所有目標取值相同.因此,我們尋找t*使P(t|s)最大就等同于使P(s|t)最大,即:

注意到每個運動目標都有唯一的W和V,通過訓練好的數據模型計算特定V和W目標的落點分布,就能夠根據當前落點s反推出其屬于該目標t的概率P(s|t),進而可以得到用戶的意圖目標t*.

4 實驗

為了驗證動態交互計算模型框架的有效性,我們設計了兩個基于運動目標選擇任務的實驗.

4.1 實驗1:模型擬合與錯誤率預測

在本實驗中,我們通過收集用戶點擊落點數據來擬合數據模型參數,并對任務中的點擊錯誤率進行預測.

4.1.1 參與者及實驗環境

我們招募了12 名人員參與實驗,男女各6 名,平均年齡25 歲.他們的慣用手均為右手,平時也都有使用計算機的習慣.

實驗在聯想P318 的電腦上進行,采用2.6GHz Intel Core i7 CPU 以及分辨率為1920×1080 的23 英吋(533.2×312mm)LED 顯示器,交互輸入設備為戴爾MS111 鼠標(1 000dpi).實驗界面程序使用C#代碼編寫.

4.1.2 實驗設計與過程

實驗采用組內設計,包含4 種目標大小W(24、48、96、144 像素)×4 種目標運動速度V(96、192、288、384像素/秒)共16 種情況.每種情況下測試者需要完成10 次選擇操作,因此我們最終可以得到16×10×12 共1 920次點擊數據.在實驗過程中允許測試者休息.

在每一次的操作中,測試者點擊屏幕中心的“開始”按鈕開始實驗.在等待很短的時間間隔后(大約700ms～2000ms),屏幕中會在隨機位置出現一個朝隨機方向運動的目標,測試者需要盡可能快并且準確地選中目標.每一次操作只允許點擊一次鼠標按鈕,無論有沒有選中目標,我們都會記錄點擊的落點位置并進入下一次操作.

4.1.3 模型擬合

在使用模型對用戶數據進行擬合的過程中,我們使用最小二乘回歸方法(least square regression)對正態分布的參數μx、σx和σy進行估計,將參數μy設為0,因為實驗數據顯示,落點均值在y方向上的偏差幾乎沒有,設為0 后它的平均絕對誤差(mean absolute error)為1.05 像素,表明它與真實數據非常接近.總體來說,我們的模型能夠很好地擬合用戶數據,對應的R2結果分別為0.961、0.938 和0.955.最終得到的數據模型參數系數見表1.

Table 1 Coefficient fitting results of normal distribution model表1 正態分布模型系數擬合結果

4.1.4 錯誤率預測

錯誤率是人機交互中最為重要的因素之一,已被廣泛地應用于文本輸入和計算機游戲等各種交互場景當中[44,45].在運動目標選擇任務中,錯誤率被定義為錯誤點擊次數占總點擊次數的百分比,對于計算機原本的選擇技術而言,用戶點擊的落點在目標外即認為是一次錯誤的點擊.根據交互計算模型,只要給定動態任務參數W和V,就可以通過二維正態分布的累積分布函數(cumulative distribution function)計算落在目標區域外的概率,這一數值即為用戶在該任務下的錯誤率.

不同目標大小和目標速度下的實際錯誤率與預測錯誤率結果如圖3 所示,最小二乘回歸得到R2值為0.995,表明我們的預測模型能夠很好地預測任務錯誤率.

從圖3 可以看出,用戶的錯誤率隨著目標運動速度的增大而增加,隨著目標大小的增大而減小.這一結果也蘊含于數據模型中:x方向落點均值隨著V的增大而向目標移動的反方向偏移,導致錯誤率的增加,而隨著W的增大,這一效應得到抑制,因此在W較大的情況下(W=144 和W=96),錯誤率隨速度增大而變大的斜率是較小的.x和y方向落點方差隨著V或W的增大而增大,導致整個落點分布更為分散,而最終的錯誤率隨著W的增大而降低,因為用戶多傾向于點擊目標的中心點,使得這種降低錯誤率的速度比W導致的落點分散趨勢更快,從而出現了圖3 所示的錯誤率變化曲線.

4.2 實驗2:輔助目標選擇技術

在本實驗中,我們實現了一種基于交互計算模型的輔助目標選擇技術ICOMPointer.使用實驗1 中擬合得到的數據模型,當一次選擇事件被觸發時,計算機根據意圖理解模塊推測出用戶的意圖目標并做出響應.為了避免用戶有意點擊空白區域時模型仍會返回目標,忽略了落在目標二維正態分布3Σ范圍之外的點擊.進一步地,我們通過一個真實的游戲任務對比分析了ICOMPointer 與基本選擇技術及兩種現有的運動目標選擇增強技術Bubble[46]、Comet[47]在表現上的差異.其中,Bubble 能夠根據周圍的目標位置動態改變光標選擇區域,Comet 則是根據目標的運動速度和寬度給目標添加尾部,從而擴大其可選區域.

4.2.1 參與者及實驗設備

我們共招募了16 名人員參與實驗,其中有6 名女性,并且有12 名人員參與了實驗1.他們的平均年齡為26歲.慣用手均為右手,且日常都有使用計算機的需要.實驗所用的設備與實驗1 相同,但是游戲程序基于Unity3D開發.

4.2.2 實驗任務與設計

實驗的程序界面如圖4 所示,當用戶開始實驗后,屏幕上會在隨機的位置出現15 個小球,它們以相同的預設大小和速度朝隨機的方向運動,當碰到邊界后無能量損失地反彈.其中,紅色的球為目標球,用戶需要盡可能快速并準確地選中目標.與實驗1 不同,只有選中目標才有新的目標出現.

實驗共有3 個獨立變量.

(1)選擇技術:Basic(基本選擇技術)、Bubble、Comet、ICOMPointer(動態交互計算模型選擇技術).

(2)目標大小(W):24 pixels、48 pixels、96 pixels、144 pixels.

(3)目標速度(V):96 pixels/sec、192 pixels/sec、288 pixels/sec、384 pixels/sec.

每位實驗者需要在每種條件下完成10 次操作,因此總次數為4×4×4×10×16=10240 次.在實驗進行前會先讓實驗者練習,并且在實驗過程中也允許實驗者暫停休息.

我們記錄了所有W×V條件下的完成時間和錯誤率.完成時間是指從每一次操作開始到實驗者選中目標之間的時間.錯誤率則是用戶按下鼠標按鈕沒有選中目標的次數除以總點擊次數.當用戶完成實驗后,需要填寫一份總分為7 分的李克特量表,根據實際體驗對每種選擇技術的喜好程度打分,并填寫主觀評價.

4.2.3 實驗結果

我們使用重復測量方差分析方法對實驗數據進行分析.結果表明,選擇技術對用戶的平均完成時間有顯著性影響(F3,45=30.688,p＜0.001).使用Bonferroni 校準成對比較不同選擇技術在平均完成時間上的表現,結果表明,除了ICOMPointer 與Comet 無顯著性差異(p=1.0)外,其余技術對之間均存在顯著性差異(p＜0.05).在這4 種選擇技術中,ICOMPointer 的平均完成時間最短(1 099ms),其次是Comet(1 138ms)、Bubble(1 324ms)和Basic(2 657ms).圖5 所示為兩種選擇技術在不同目標大小與不同目標運動速度下的平均完成時間對比.

分析也表明,選擇技術對用戶的選擇錯誤率有顯著性影響(F3,45=75.306,p<0.001).使用Bonferroni 校準成對比較不同選擇技術在錯誤率上的表現,結果表明,4 種技術對之間均存在顯著性差異(p<0.05).ICOMPointer 的錯誤率最低(14%),接著依次是Comet(20.9%)、Bubble(32.7%)以及Basic(54.7%).圖6 所示為兩種選擇技術在不同目標大小與不同目標運動速度下的錯誤率對比.

我們還分析了在每種選擇技術下目標大小(W)和目標運動速度(V)對完成時間和錯誤率的影響,p值結果見表2.可以看出,W和V對Basic、Bubble 以及Comet 技術的完成時間或錯誤率具有顯著性影響,而對ICOMPointer的完成時間和錯誤率均沒有顯著性影響.因此,我們的技術在面對不同大小和運動速度的目標時都能夠表現出很好的穩定性.

Table 2 P value of the impact of W and V on four selection techniques表2 W 和V 對4 種選擇技術影響的p 值

測試者填寫的李克特量表結果表明,測試者對ICOMPointer 的喜好程度(M=5.82,SD=0.98)高于Comet(M=5.72,SD=1.34)、Bubble(M=5.36,SD=1.43)以及Basic(M=2.73,SD=1.55).在測試者的主觀評價中也提到:“使用ICOMPointer 技術選擇看起來與基本選擇技術很像,但是選擇目標更快.”[S1]“Bubble 雖然很快,但在目標較大或者非常密集時很難選中.”[S11]

4.2.4 討論

從實驗結果可以看出,測試者使用ICOMPointer 能夠用更短的時間選中目標,并且錯誤率也更低.速度和大小的整體影響結果也符合我們的預期.目標越大,用戶的完成時間就越短,錯誤率也就越低.目標速度越大,用戶的完成時間就越長,錯誤率也越高.

我們還發現,ICOMPointer 處于不同目標大小和運動速度時具有較強的魯棒性,能夠更好地適應目標的變化.即使目標大小和速度發生變化,依然可以輔助用戶更快、更準地選中目標.在實際應用中避免了任務差異對用戶選擇穩定性的影響.而用戶的反饋結果也表明ICOMPointer 更受歡迎.

5 結語

本文提出了一個面向動態交互任務的定量化可計算的交互模型ICOMDT,該模型能夠解釋用戶與動態任務的交互行為并實現用戶意圖預測.我們將該模型應用在運動目標獲取任務中,提出一套可計算的模型方法,實驗結果表明該模型能夠很好地擬合用戶數據.進一步地,我們將模型用于用戶點擊錯誤率預測和輔助運動目標選擇中,發現錯誤率的預測值與實際值非常接近,并且能夠有效地提高運動目標的選擇效率.

目前對用戶與動態交互任務的研究,大多停留在用戶行為表現層,沒有一套完整的、可計算的用戶行為內部模型框架.ICOMDT模型的提出填補了這一空白,對計算機理解用戶意圖、提高用戶與動態任務的交互效率有著重要意義.基于ICOMDT模型,開發者在設計動態交互任務時,可以通過模擬用戶操作進行設計優化,如在游戲設計中通過預測用戶的錯誤率調整任務參數;而對于復雜的操作控制系統,也可以通過用戶意圖理解提高交互效率,如在航班管理系統中使用輔助目標選擇技術幫助操作員更容易選中要查看的航班信息.

但在本文的研究中,仍存在一些不足.如沒有對用戶具體的感知過程、認知過程與運動過程建立模型;沒有考慮多通道信息輸入的動態交互任務對用戶交互過程產生的影響.在未來的研究工作中,我們希望進一步探索可計算的用戶感知、認知與運動模型,并能夠將我們的ICOMDT模型框架應用在具體的交互系統中.