999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

眼動跟蹤研究進展與展望

2022-06-18 10:37:00王飛躍
自動化學報 2022年5期
關鍵詞:眼動檢測方法

茍 超 卓 瑩 王 康 王飛躍

人類獲取信息很大程度上依賴于人眼感知的視覺信息,人眼被稱為心靈的窗戶,在人的自然交互中有著重要的意義,它能感知周圍環境、表現人的注意力、傳達個人的情感等.因此,眼動跟蹤被廣泛研究與應用.眼動跟蹤任務及應用示例如圖1 所示.眼動跟蹤一般是指自動檢測人眼瞳孔相對位置或估計視線方向的過程.圖1(a)為眼動追蹤任務示例.眼動能描述瞳孔的動態變化,能直觀地反映人的注視點和注視時間,對于描述人類視覺感知過程與特點、重現個體基本認知加工過程有重要意義,被廣泛應用于人機交互感知、智能駕駛座艙、情感計算、意圖分析等領域[1?2],圖1(b)為眼動追蹤應用示例.由于環境光照的多變、個體眼球生理特性的差異、頭部姿態的動態變化等,眼動跟蹤仍然是一個具有挑戰的熱點研究問題.眼動跟蹤的研究可以追溯到20 世紀初,研究人員采用了接觸式的眼動跟蹤方法,通過在眼睛周圍放置成對電極的眼電圖分析,或者基于線圈嵌入式的鞏膜搜索方法來獲取并分析眼動信息;在20 世紀50 年代有了第1 部記錄基于飛行員瞳孔跟蹤及視線分析的控制飛機操作應用系統的視頻資料;在60 年代頭戴式眼動跟蹤得到發展;在90 年代視線估計方面開始使用計算機進行計算處理控制.近年來,隨著計算機視覺、圖形學、人工智能等新興技術的發展以及應用需求的增加,非接觸式的基于視頻圖像的眼動跟蹤引起了學術界和工業界大量深入研究[1,3?7].

圖1 眼動跟蹤人任務及應用示例Fig.1 Examples of eye tracking and corresponding applications

本文根據多年眼動跟蹤領域的研究基礎與積累,詳細綜述該領域的研究進展,并對未來發展趨勢進行展望.本文結構如下:第1 節整體概述眼動跟蹤技術的發展.第2~3 節分別闡述人眼瞳孔檢測、視線方向與注視點的估計方法研究進展,重點闡述基于圖像的眼動跟蹤研究進展及相關的數據集.第4 節綜述相關數據集及性能比較方法.第5節介紹相關應用.第6 節對眼動跟蹤的未來發展趨勢進行展望.

1 發展概述

眼動跟蹤是自動實現眼球瞳孔中心及注視點定位的過程.人類獲取的外部信息主要通過人眼感知的視覺信息,眼動能直觀地反映人的注視點和注視時間,對于描述人類視覺感知過程與特點、探究個體基本認知過程有重要意義.常見的眼動行為主要有注視、掃視和平滑追蹤有3 種形式.眼動可以通過時間和空間兩個維度來進行描述,常見指標有平均注視時間、注視次數、注視順序、平均掃視幅度、眼跳次數、掃視持續時間、掃視方向等.早期的眼動跟蹤技術應用于心理學領域,這一時期常用方法有直接觀察法、后象法和機械記錄法等.直接觀察法和后象法只能粗略地描述眼動,機械記錄法需要角膜與測量裝置接觸,作為一種接觸式的眼動跟蹤方法,容易造成眼部不適.由于精度不足和調試難度大等問題,這些方法逐漸被淘汰.目前眼動跟蹤方法可以分為探查線圈記錄法、紅外線法、電流記錄法和視頻記錄法(Video oculography,VOG) 4 類.

1.1 探查線圈記錄法

探查線圈記錄法最早由 Robinson[8]于20 世紀60 年代提出,該方法利用帶有線圈的隱形眼鏡在電磁場中運動,通過電磁感應原理產生的信號來測量眼球水平及垂直方向的運動,從而實現眼睛位置檢測.眼動有時伴隨著頭部運動,傳統的探查線圈記錄法利用亥姆霍茲線圈構建磁場,但無法直接捕捉頭部運動[2].Eibenberger 等[9]利用 Merritt 線圈產生穩定磁場,并利用MATLAB 進行仿真,實現了無需頭戴設備的檢測,并成功降低了測量誤差.此外還提出了一種新的硬件系統和校準方法,可以將記錄模擬信號的老式線圈系統改裝為數字記錄系統,同時指出不同的運算放大器可能有助于探查線圈記錄法的性能提升[10].探查線圈記錄法測量準確、采樣率高,但無法長時間佩戴,成本也相對較高.

1.2 紅外線法

紅外線法需要在眼部附近安裝紅外光敏管,根據瞳孔、鞏膜、角膜等不同光學界面反射的圖像來測量眼動.常用方法包括瞳孔?角膜反射法、虹膜?角膜反射法等.這種測量方法目前已被廣泛地研究和使用,許多學者提出了光線檢測或瞳孔檢測的算法提升測量準確率.文獻[11]提出了快速魯棒橢圓檢測算法,利用徑向對稱性搜索瞳孔位置,并利用兩個細化步驟來適應某些圖片中發生橢圓形變的瞳孔外觀,增強了模型的泛化能力.Mestre 等[12]利用12 次角膜反光獲得高清瞳孔和角膜圖像,同時使用了一個標準化因子校正瞳孔中心反射點向量.標準化因子的引入提升了垂直眼動跟蹤43.2% 的準確率,同時減少了設備對于光源數量的要求.其他具有代表性的相關算法和技術有 Santini 等[13]制作的開源的EyeRecToo 軟件、Else[14]、星光鏡和霍夫變換結合[15]等.紅外線法是一種非侵入式的眼動跟蹤方法,不會造成眼部不適且精度較高.

1.3 電流記錄法

電流記錄法是一種成本較低、操作性強的眼動跟蹤方法,在閉上眼睛的情況下也可以正常工作[16].眼球發生轉動時會產生生物電現象,具體是指角膜和視網膜新陳代謝率的不同導致產生電位差,電位變化可以通過傳感器測量眼部周圍皮膚獲得.如圖2所示,蘇黎世聯邦理工學院研究的一種電流記錄法眼動跟蹤設備[17],通過不同的電極片分別記錄垂直眼動和水平眼動.由于設備問題,如果電位差過小或電極接觸不良,電流記錄法無法保證測量效果,所以電流記錄法并不適用于日常眼動跟蹤應用,一般應用于特定實驗室環境下.

圖2 蘇黎世聯邦理工學院的電流記錄法眼動儀[17]Fig.2 An eye tracker based on electrooculography from eidgen?ssische technische hochschule[17]

1.4 視頻記錄法

視頻記錄法主要利用視頻攝像機記錄的眼球運動過程,通過計算機自動分析處理視頻圖像.攝像機可以采集人眼圖像或者眼球反射的紅外線圖像,然后通過計算機自動處理圖像數據,實現非侵入式的人眼瞳孔中心檢測或者視線注視點估計.從攝像機安裝方式上,視頻記錄法可以分為頭盔式、遙測式和頭部固定式,相機數量上可以使用單相機或多相機.單相機方法通常使用紅外光源引起暗瞳效應,此時瞳孔較暗,虹膜較亮,容易分割瞳孔區域從而實現眼動追蹤.多相機方法擁有更大的視野,通常使用一臺相機拍攝眼睛圖像,其他相機用于定位頭部位置或進行校準[2].Khamis 等[18]研發EyeScout系統,利用攝像頭識別人體運動信息,并利用Pursuits 方法檢測眼動和屏幕中物體運動軌跡的相關性,進而判斷是否需要調整眼動追蹤裝置的位置以適應人體運動.Kong 等[19]將VOG 技術應用于人耳前庭功能檢測,使用紅外攝像機和紅外發光二極管獲得視線水平移動數據,利用形態學運算和輪廓檢測獲取瞳孔位置.Brousseau 等[20]提出一種融合了三維視線估計的混合模型,訓練了多個卷積神經網絡用于眼睛區域定位和特征提取,在傳統位置估計網絡的基礎上增加了質量中心結構,實驗結果表明眼動跟蹤的準確率有顯著提升.

隨著計算機視覺、模式識別、圖形學、人工智能等技術的快速發展,基于視頻圖像分析的非接觸式眼動跟蹤受到廣泛關注,大量相關研究獲得開展,取得了突破性進展及應用,本文將重點論述基于計算機視覺及機器學習的眼動跟蹤研究進展,分別從眼動跟蹤包含的瞳孔檢測及視線估計兩個任務進行詳細闡述.

2 瞳孔檢測

瞳孔檢測,有時也稱為人眼(中心)檢測,其目的是在給定的人臉圖像中自動完成瞳孔位置的定位.準確的人眼瞳孔檢測是視線估計、注意力分析及人機交互等的基礎.人眼瞳孔檢測領域已經開展了數十年的研究.基于不同的特征將相關方法總結為基于形狀結構、基于外觀紋理和基于上下文信息三類.

2.1 基于形狀結構的瞳孔檢測方法

人眼的特殊生理結構構成,尤其是虹膜的橢圓形幾何結構可以幫助實現瞳孔中心的檢測.在早期的研究中,Yuille 等[21]設計了一個參數化的形變模型來描述人眼瞳孔的幾何形狀,通過擬合11個參數來覆蓋可能的形變空間,從而完成基于形狀信息的瞳孔檢測.Hansen 等[22]基于虹膜的橢圓形狀,提出一種似然模型來捕捉瞳孔周邊信息,利用期望最大化和隨機抽樣一致算法來擬合圖像中的橢圓結構,從而實現瞳孔檢測.Valenti 等[23]首先檢測圓形曲線邊緣,然后提取相等強度的等照度線曲率,并設計合適的基于投票的方法來實現準確的瞳孔定位.他們在等照度線方法的基礎上添加尺度不變性,最后用每個區域關鍵點的尺度不變特征變換向量與數據庫進行匹配確定眼睛位置[24].還有一些研究基于臉部結構信息來完成人眼中心定位,臉部結構信息主要包括人臉五官構成,即人眼、鼻子等的結構分布,這些先驗分布可以快速幫助完成人臉中的人眼區域定位.Tan 等[25]提出一種增強的畫像結構[26]來建模描述人臉幾何分布關系,并通過構建左眼、右眼及鼻的位置關系來實現人臉中人眼中心的定位.Wang 等[27]提出一種基于全卷積網絡的瞳孔定位與虹膜分割方法,并利用瞳孔中心、虹膜區域以及其內外邊界的形狀結構信息來同時實現瞳孔定位與虹膜分割,部分結果如圖3 所示,其中圖3(a)為原圖,圖3(b) 為真實標簽,圖3(c) 為模型檢測結果,圖3(d) 為基于瞳孔、虹膜及其邊界的形狀結構進行后處理的最終結果.Gowroju 等[28]提出一種基于U-Net 的編碼解碼瞳孔分割方法來實現瞳孔的準確定位.

圖3 基于 IrisParseNet 的瞳孔檢測與虹膜分割結果示例圖[27]Fig.3 Some localization and segmentation results based on IrisParseNet[27]

基于形狀結構的瞳孔檢測方法主要出現在早期的眼動跟蹤研究中,其主要觀點是利用先驗知識,基于人眼在視頻圖像中呈現的特定橢圓或者圓形形狀及幾何關聯關系的特性來對人眼瞳孔進行定位.由于其過多依賴于固有先驗幾何知識,無法較好應對復雜多變的環境,且由于視頻圖像角度變化導致形狀拉伸及畸變,傳統基于形狀結構的方法普遍存在魯棒性不足的問題.

2.2 基于外觀紋理的瞳孔檢測方法

基于形狀的瞳孔檢測方法無法應對有較大頭部姿態的場景,而基于外觀紋理特征的方法對頭部姿態等更為魯棒,其核心是通過設計一些特征提取方法來描述瞳孔的邊緣、顏色等特征.Araujo 等[29]提出一種基于相關性濾波的內積檢測子來實現人眼瞳孔中心檢測.Wu 等[30]提出一種基于深度學習的特征提取方法來實現無環境限制的人眼中心檢測.Fuhl 等[31]提出訓練雙級深度卷積網絡來實現人眼檢測,并建立一個瞳孔中心的概率分布來實現更為精確的定位,大規模實驗數據上的測試效果表明了該方法的有效性.文獻[32] 提出通過圖像增強、Gabor 濾波、聚類分析和相似性度量的相鄰區域比較提取眼部區域,實現精確的人眼檢測.文獻[33]提出基于R-CNN 和YOLO、能同時實現虹膜及眼周區域檢測的方法,通過深度特征來表征眼部外觀紋理信息,從而實現準確定位.Xia 等[34]提出一種基于全連接網絡的方法來實現瞳孔檢測.將人眼瞳孔定位看作是一種特殊的語義分割任務,以人眼瞳孔為中心的高斯熱度圖為分割目標,利用全連接網絡實現人眼外觀紋理體征表征學習,從而實現準確有效的人眼瞳孔檢測,部分實驗結果如圖4 所示,其中圖4(a) 是最終檢測結果,圖4(b) 為左瞳孔熱度圖,圖4(c) 為右瞳孔熱度圖.Hsu 等[35]提出了兩種人眼瞳孔檢測的方法,一種是基于臉部幾何轉換的方法,另一種是基于生成對抗網絡的圖像轉換方法.其中生成對抗方法利用真實人眼的外觀紋理特征分布,實現眼部區域的正面歸一化,解決了較大頭部姿態情況下的人眼瞳孔中心檢測問題,并在GI4E 等開源數據集上取得了不錯的效果.

圖4 基于 FCN 的瞳孔檢測結果示例圖[34]Fig.4 Some pupil localization results based on FCN[34]

基于外觀紋理特征的人眼瞳孔檢測方法主要基于數據統計分布,效果依賴于海量的標注數據.隨著深度學習等技術的快速發展,基于深度學習及外觀紋理特征的人眼瞳孔檢測方法[30,33?34]受到越來越多的關注,其有效性和魯棒性也推動了眼動跟蹤相關的實際應用.而另一方面,隨著數據量的增加,不同個體之間的差異也隨之增加,數據分布更為多樣,使得基于紋理特征的檢測能力下降.同時,海量數據需要大量的人力來進行手動標注,如何利用少量有限樣本設計出更具有魯棒性的有效模型,是基于外觀紋理特征的人眼瞳孔檢測需要解決的主要問題.

2.3 基于上下文信息的瞳孔檢測方法

基于上下文信息的方法主要利用眼部區域及其上下文人臉結構與紋理信息來實現人眼瞳孔的準確定位.文獻[36]利用關鍵點特征,基于由粗到細的思想,在監督下降方法[37]的基礎上提出多尺度非線性特征映射來實現人眼瞳孔精確檢測.啟發于臉部關鍵點檢測方法,Gou 等[38]提出基于仿真圖像來學習級聯線性回歸模型,為獲取眼部區域的上下文信息,他們首先基于已有臉部關鍵點檢測方法提取眼部大致區域,然后初始化人眼位置并利用級聯回歸迭代優化,最后實現人眼中心的準確定位,實驗結果表明該方法比基于真實圖像學習的模型更加魯棒有效.Gou 等[39]進一步深入研究,考慮閉眼狀態下的眼部全局外觀紋理對人眼瞳孔定位的影響,并組合仿真人眼和真實人眼圖像為訓練對象,從而進一步優化人眼瞳孔檢測結果;在級聯回歸的基礎上,引入人眼狀態(睜眼/閉眼)的概率來動態調整上下文特征的權重,具體流程如圖5 所示.Xiao 等[40]提出利用人臉關鍵點來提取眼部區域,然后利用虹膜區域的圓形擬合來實現準確的瞳孔定位.為使得人眼檢測模型更為魯棒,Gou 等[41]提出基于平行視覺系統[42?45]的瞳孔檢測方法,具體流程如圖6 所示,核心思想是通過平行圖像步驟,引入生成對抗學習[46?47],實現虛實互動的圖片生成與優化,從而為計算實驗的級聯模型學習提供多樣的且帶標注的訓練樣本,最終實現準確有效的瞳孔檢測.Choi 等[48]基于人臉上下文信息實現瞳孔檢測.提出先檢測人臉,然后基于眼角等關鍵點提取眼部區域,最后設計一個分割深度網絡來實現準確的瞳孔中心檢測.Lee 等[49]進一步開展基于人臉上下文信息的瞳孔檢測與跟蹤.提出先檢測人臉,并通過設計的基于自注意力生成對抗網絡去除了戴眼鏡的影響,然后根據人臉關鍵點提取眼部區域,最后基于上下文信息通過深度神經網絡實現瞳孔中心檢測.該方法在GI4E 數據集上歸一化誤差小于0.05 的情況下,檢測準確率達到99.84%.

圖5 基于級聯回歸的瞳孔檢測及狀態估計流程[39]Fig.5 The framework of cascade regression for simultaneous pupil detection and eye state estimation[39]

圖6 基于平行視覺的瞳孔檢測方法[41]Fig.6 The framework of pupil detection based on parallel vision[41]

綜上所述,基于上下文信息的瞳孔檢測方法較好地利用人眼及人臉結構上下文信息,在人眼中心檢測中應用較為廣泛.但是基于上下文信息的瞳孔檢測方法對遮擋等情況敏感,而基于形狀結構、特征學習可以部分解決遮擋等問題.由此,構建將上下文信息和特征學習融合的模型是該領域研究的一個重要研究方向.

3 視線估計

視線估計是眼動跟蹤的重要任務之一,目的是估計視線的三維方向向量或者二維注視點位置.視線估計方法可以分為基于模型和基于特征學習兩類.

3.1 基于模型的視線估計方法

基于模型的視線估計主要是通過指根據人眼生理結構所構建的眼球模型,并通過人臉關鍵點、瞳孔中心及深度信息、眼角位置等的幾何關系來估計人眼的視線方向或者注視點[50].如圖7 的三維眼球模型所示,人眼的視線方向實際上是視軸方向,可由角膜曲率中心與中央凹(位于眼球后方的視網膜中敏銳度最高的部位)來共同確定;人眼的光軸方向則會通過瞳孔中心、角膜曲率中心和眼球中心.人眼的光軸與視軸之間存在著被稱為卡帕角的角度差.卡帕角的大小約為5°,其準確值因人而異且唯一.

圖7 三維眼球模型及視線估計[50]Fig.7 3D eyeball model and gaze estimation[50]

根據估計原理的不同,基于模型的視線估計方法可以進一步分為基于二維映射和基于三維幾何兩類方法.

3.1.1 基于二維映射的視線估計方法

基于二維映射的方法主要指構建注視點或者視線方向與用戶標定或者檢測的二維視線參數的映射模型來實現視線估計,二維視線參數包括眼角點、瞳孔位置、眼球中心、角膜曲率中心等.實際應用時首先計算得到二維視線參數,然后輸入映射模型得到視線方向或者注視點.該類方法主要包括基于角膜反射的方法、交比值法和單應性歸一化法三類.

1) 基于角膜反射的方法將眼角點或者角膜反射點(普爾欽斑)作為眼球運動的基準點,通過分析基準點與瞳孔中心位置的矢量與視線向量的映射關系來實現視線估計.一般而言,眼角點難以檢測,而角膜反射點可以通過額外的光源輔助確定[51].

基于角膜反射的方法一般要求多個攝像頭,以及一個甚至多個的外部近紅外線光源來輔助確定眼球半徑、角膜曲率半徑等不隨視線變化而變化的、因人而異的眼睛特征[52].Hennessey 等[53]基于Goss等[54]提出的眼睛模型,在經過校準后,實現了攝像頭視野范圍內的、允許頭部自由運動的視線估計.Liu 等[55]認為虹膜受光線折射的影響較小且更容易被分割出來,故通過虹膜相關的特征來求得虹膜中心位置,然后使用虹膜中心而非瞳孔中心來與角膜曲率中心共同確定人眼的光軸方向,最后結合卡帕角變換矩陣與角膜曲率中心來求得人眼的視線方向.Zhou 等[56]提出了一個基于梯度特性的虹膜中心定位方法,并將視線方向近似為從虹膜中心到注視點的方向,最后以雙眼估計得到的視線方向的平均值作為最終的視線估計結果.

基于角膜反射的方法主要是對注視點的估計.該方法模型簡單、易于理解;且使用的近紅外線光源不易受到其他光源的影響,故該法對光照條件的穩健性良好.但由于基于角膜反射的方法中假定的球形角膜形狀與真實角膜形狀存在差異,故其視線估計的精確度有限;且為求解角膜反射點在照相機成像平面上的位置等,該法對圖像處理的要求很高.另外,基于角膜反射的方法需要進行校準,對實驗對象的頭部運動范圍也有所限制.具體的校準復雜程度以及實驗對象的頭部運動范圍與系統配置相關.根據文獻[51],若僅使用一臺攝像機和一個光源,僅當頭部完全靜止時才能估計注視點;若使用一臺攝像機和多個光源,可在完成多點校準過程后自由移動頭部來估計注視點;若使用多臺攝像機和多個光源,可經過簡單的單點校準程序后對注視點進行估計.

2) 交比法主要是利用交比在射影變換下的不變性來進行視線估計.其中的交比射影不變性是指空間中一條直線經空間幾何變換后保持了直線上對應點列的交比不變.交比法主要是對二維屏幕上注視點的估計.如圖8 所示,交比法涉及兩個射影變換:一是從屏幕到虛擬正切平面的投影;二是從虛擬正切平面到照相機成像平面的投影.

圖8 交比法示意圖[57]Fig.8 Gaze estimation based on cross-ratio[57]

理論上[58],在屏幕的四個角上分別放置近紅外線光源LEDi(i=1,2,3,4)、并發出閃光;當人眼在注視屏幕時,用照相機拍攝,即可在照相機成像面上獲得LEDi閃光經人眼角膜反射后的投影點(i=1,2,3,4);還可獲得人眼的瞳孔在照相機成像面上的投影點up.通過4個閃光投影點(i=1,2,3,4) 和瞳孔投影點up在照相機成像面上的位置,即可求得這些點的交比.根據交比在射影變換下的不變性,在已知近紅外線光源位置的情況下,可根據瞳孔投影點up在照相機成像面上的位置以及交比,求得與近紅外線光源同在屏幕上的凝視點g的位置.但實際上,角膜表面的反射點和瞳孔中心并不在同一虛擬平面上.為解決該問題,Yoo 等[57]在照相機的中心處加設一個近紅外線光源,設光源點LEDc和眼球中心的連線與人眼的角膜表面交于點c,并以點c為切點作角膜表面的虛擬正切平面,如圖9 所示.Cheng 等[59]提出以瞳孔中心為切點作角膜表面的動態虛擬正切平面.該虛擬正切平面會因注視點的不同而不同,角膜反射點在動態虛擬正切平面上的具體位置由動態參數矩陣來確定.

圖9 虛擬切平面示意圖[57]Fig.9 Virtual tangent plane[57]

交比法的另一個主要誤差來源是,該方法進行視線估計的依據是人眼瞳孔所在的光軸而非代表真實視線的視軸.為補償該誤差,Coutinho 等[60]首先提出對屏幕上的注視點加以固定的二維偏移量來校正視線估計結果.該二維偏移量會隨著頭部姿態的改變而改變,因此固定的二維偏移量不足以準確校正視線估計結果.Coutinho 等[61]為此進一步提出,通過一個比例因子來動態調整該二維偏移量,該比例因子可由相關的深度變化信息來估計求得.還有一些研究使用高斯回歸[62]、多項式回歸[63]等方法對誤差進行建模,以校正基于交比法的視線估計結果.Arar 等[64]則提出使用正則化最小二乘回歸對誤差進行建模,并通過自適應性融合雙眼的注視點信息來提高視線估計的準確性和穩健性.

由于交比法要求角膜表面的反射點都能投射在照相機成像面上,故對實驗對象的頭部運動范圍有所限制.為提高交比法對頭部運動范圍的穩健性,Coutinho 等[65]提出交比特征平面化的方法,用弱透視相機模型和由角膜中心和虹膜平面組成的眼睛模型來補償頭部運動造成的誤差.Arar 等[66]提出一個基于交比法的多相機視線估計系統.通過多個獨立照相機以及對各個相機求得的注視點估計結果的自適應性融合,該系統允許在實驗對象頭部自由運動條件下進行準確的視線估計.交比法的系統配置要求高,至少需要一臺照相機以及4個外部光源.鑒于多數的液晶顯示器都包含偏振濾光片、使顯示器發出的光是偏振的,故可使用偏振攝像頭來獲取人眼在注視液晶顯示器時角膜表面反射的偏振圖像,Sasaki 等[67]提出使用角膜反射的線性偏振度圖像和線性偏振角圖像來求得顯示器經人眼角膜反射后在照相機成像面上的區域范圍,再結合瞳孔中心或角膜邊緣的成像位置來進行視線估計,而無需額外的外部光源.

3) 單應性歸一化法是對屏幕上注視點的估計,主要利用單應性變換進行視線估計.如圖10 所示,設外部光源在人眼角膜表面反射的各點所在的虛擬平面為角膜反射平面 ΠC,并設該平面經單應性歸一化后的平面為歸一化平面ΠN.首先將照相機成像面ΠI上的瞳孔中心位置通過單應性矩陣投影映射到角膜反射面的歸一化平面ΠN上.然后通過單應性矩陣將瞳孔中心在歸一化平面ΠN的位置投影映射到屏幕 ΠS上,以求得注視點位置.

圖10 單應性歸一法示意圖[5]Fig.10 Gaze estimation based on homography[5]

交比法與單應性歸一法對屏幕注視點的估計都基于二維平面幾何關系,但不同于交比法使用交比這一平面投射不變量,單應性歸一法直接利用投影變換關系.因此,單應性歸一法不僅可以使用瞳孔中心作為投影對象,還可以使用瞳孔邊緣、角膜邊緣等眼睛特征,因為單應性變換允許點、直線和圓錐曲線的投影變換;單應性歸一法對外部光源的配置要求更為靈活,只需要檢測到4個穩定的閃光點即可.另外,使照相機成像面變換到歸一化平面上的單應性矩陣歸一化了頭部姿態對視線估計的影響,使得單應性歸一法對實驗對象的頭部姿態更為穩健.

單應性歸一法基于瞳孔中心與角膜反射點共面的假設,通過單應性矩陣將歸一化平面 ΠN上的瞳孔中心位置投影到屏幕 ΠS上的注視點位置.上述假設,以及基于瞳孔中心所在的光軸而非視軸來進行視線估計,是單應性歸一法的主要誤差來源.為此,Kanai 等[68]使用徑向基函數對注視點位置進行校正.

為提高單應性歸一法的使用范圍,Ma 等[69]提出將單應性變換矩陣分別替換為相似變換和仿射變換以適用于只具有2個閃光點和3個閃光點的視線估計場景.Shin 等[70]結合雙目約束,在單個紅外線光源的場景實現基于單應性歸一法的視線估計.Luo 等[71]使用眼睛坐標系、照相機成像平面坐標系和屏幕坐標系,通過幾何關系求得對應的映射關系,從而提出單相機、單光源場景下基于單應性變換的視線估計方法.Huang 等[72]提出一種基于自適應單應性矩陣的頭部運動校正方法,通過模擬頭部變化來預測頭部處于新位置時單應性的變化,以校準頭部運動對視線估計的影響,從而提高眼動追蹤的魯棒性.

3.1.2 基于三維幾何的視線估計方法

基于三維幾何的方法主要通過擬合三維眼球模型來確定眼球中心、半徑等眼睛特征,再結合各特征之間的幾何關系進行視線估計.

Yamazoe 等[73]假設眼球為球體、虹膜是沿眼球表面移動的平面圓,并根據投影關系確定眼球中心與人臉關鍵點和眼球直徑之間的幾何關系,最后由虹膜中心和眼球中心求得視線方向.Chen 等[74]通過添加兩個眼角的中點和眼球中心來擴展原先由六個人臉關鍵點組成的傳統三維人臉模型,再據此模型經校準后進行視線估計.Vincent 等[75]對二維的眼部區域關鍵點進行三角劃分以獲得眼睛網格,并求解二維瞳孔中心所在的三角網格的重心,然后在該三角形的重心坐標系中計算瞳孔中心的三維位置,再結合眼球中心的三維位置求得視線方向.Sesma 等[76]基于瞳孔中心及內外眼角的幾何位置關系提出瞳孔中心?眼角矢量特征,然后使用多項式函數進行視線估計.Sun 等[77]使用參數化的虹膜模型來求取虹膜中心位置,然后結合眼球中心的三維位置確定視線方向.Wood 等[78]使用主成分分析法提取眼睛的形狀和紋理信息,提出了一個新的三維可變形眼睛模型,然后通過綜合分析擬合出與給定圖像盡量相似的圖像,最后從擬合參數中提取出視線方向.如圖11 所示,Wang 等[79]提出的三維變形眼?臉模型對人臉關鍵點和眼球中心位置之間的幾何關系進行了編碼,由此可獲得眼球中心和瞳孔中心的三維位置.圖11 中CCS 代表相機坐標系,HCS 代表頭部坐標系,ECS 代表眼球坐標系.Park 等[80]沿用文獻[81]中將眼球看作是相交的小圓和大圓的假設,將使用卷積神經網絡求得的眼部區域關鍵點擬合到三維眼睛模型以進行視線估計.Yiu 等[82]使用深度全卷積神經網絡對眼部圖像進行圖像分割以實現瞳孔定位、虹膜檢測等,然后沿用文獻[83]中將一系列時序眼睛圖像擬合三維瞳孔運動模型的算法,以實現視線估計.

圖11 基于二維關鍵點及三維眼球模型的視線估計[79]Fig.11 Gaze estimation based on 2D landmarks and 3D eyeball model[79]

不同于基于二維映射的視線估計方法通過光源確定瞳孔或者虹膜中心、并標定得到眼睛參數,基于三維幾何的視線估計方法更多通過數據統計分析或者機器學習得到眼球參數,最后利用三維眼球模型的結構先驗來實現視線估計或者注視點檢測.基于三維幾何的方法綜合利用了數據與先驗的特性,目前正在受到越來越多的關注.

3.2 基于特征學習的視線估計方法

隨著攝像頭傳感器、計算機視覺、圖像處理、機器學習技術的快速發展,目前大部分工作主要基于特征學習來實現視線估計.基于特征學習的方法通過機器學習模型實現高維特征與低維視線之間的映射,效果依賴于數據的多樣性與學習模型的有效性.根據特征種類的不同,相關方法可以進一步分為基于幾何特征的方法和基于外觀紋理的方法.

3.2.1 基于幾何特征的視線估計方法

基于幾何特征的方法是指通過機器學習模型來實現瞳孔中心位置、人眼或者臉部關鍵點位置、結構形狀等幾何特征與視線方向向量的直接映射.

Huang 等[84]選取頭部姿態以及眼部區域關鍵點之間的6個距離值作為幾何特征,通過支持向量機和隨機森林回歸模型學習這些特征與視線之間的映射關系來實現視線估計.Zhang 等[85]使用瞳孔中心和內眼角來定義瞳孔?眼角距離比率,然后使用高斯回歸模型將該距離比率映射到視線的水平方向.文獻[86]基于主動外觀模型方法定位眼部區域,眼部區域的36個特征點分別代表眼睛輪廓、虹膜、瞳孔等,用檢測的關鍵點的坐標幾何關系及特征來估計視線方向,并用支持向量機對視線方向進行準確分類.Chuang等[87]用左右虹膜、鼻子和嘴部等區域的 14個關鍵點定義了一個新的幾何特征,再據此通過支持向量機檢測駕駛員的注視區域.Wang等[88]是在檢測的瞳孔中心的基礎上根據模型估計角膜曲率中心,得出光軸方向來實現視線估計.基于瞳孔中心位置等眼睛區域關鍵點、眼睛圖像外觀和視線方向存在耦合關系,Cao 等[89]使用級聯回歸的方法來同時檢測眼睛關鍵點和估計視線方向.為了簡化視線方向的估計任務,Park 等[90]首先通過沙漏網絡模型在單眼圖像檢測出瞳孔與眼部兩個區域的分割圖像,然后利用視線方向與兩個區域形狀分布的關聯來學習一個深度網絡DenseNet 以實現視線估計.

基于幾何特征的方法通過構建眼部幾何特征與視線之間的關聯關系.與基于二維映射的視線估計方法不同,該方法利用圖像處理與計算機視覺等方法直接從圖像中提取眼睛幾何特征,并通過機器學習實現幾何特征與視線方向的模型映射,減少了個體參數校準環節,其效果依賴于訓練數據與模型的有效性.

3.2.2 基于外觀紋理的視線估計方法

基于外觀紋理的方法對整個輸入圖像進行紋理特征提取,然后學習特征與視線方向之間的映射模型,以進行視線估計.早期的基于外觀紋理的方法一般是提取人眼圖像的手工特征,例如方向梯度直方圖特征或局部二值模式特征等,再應用最近鄰[91?92]、隨機森林回歸[93?96]和支持向量機[97]等模型來進行視線估計.隨著大量開源數據集的收集和公開,以卷積神經網絡為代表的深度學習模型被大量應用到基于外觀紋理的方法中.Yu 等[98]選取17個眼部區域關鍵點和視線方向的偏航角和俯仰角,通過提出的約束關鍵點?視線模型來構建眼部區域關鍵點位置和視線方向的關系,最后從模型參數中獲取視線方向.Wang 等[99]認為影響卷積神經網絡的視線估計的泛化能力因素是眼睛外觀、頭部姿態和點估計的過擬合問題,因此在卷積神經網絡框架中引入對抗學習模塊來學習對視線方向敏感且同時對眼睛外觀和頭部姿態變化魯棒的特征;并將卷積神經網絡擴展到貝葉斯卷積神經網絡,以使用多組參數來改善原先卷積神經網絡僅使用一組參數、無法很好地表示復雜情況的點估計過擬合問題.Ali 等[100]將兩只眼睛的圖像作為不同通道輸入到基于卷積神經網絡的視線估計模型中,并對這兩個通道應用不同空間權重以提高視線估計的準確率.觀察到左眼圖像、右眼圖像和全臉圖像在不同場景下對視線估計的結果有著不同的貢獻,Zhou 等[101]提出了具有自適應性加權策略的視線估計模型,以依靠更高質量圖像來實現更準確的視線估計.Wang 等[102]提出了從人臉圖像提取和以眼睛變形近似的兩種方法來獲取頭部姿態,再通過ResNet-34 模型或直接串聯的方式將頭部姿態特征和視線估計特征結合起來,從而將頭部姿態信息更好地納入真實場景下的視線估計中.Chen 等[103]以雙眼圖像和臉部圖像作為輸入,在文獻[104]提出的神經網絡模型基礎上,用擴張卷積代替部分卷積層和最大池化層以保持輸入圖像的高分辨率,從而有利于捕捉視線變化時眼睛圖像外觀的細微變化.

基于特征學習的視線估計方法中,基于幾何特征的方法一般只需要幾個校準點、無需大量的訓練樣本,就能實現準確率較高的視線估計.但該方法要求輸入圖像的分辨率足夠高,以準確提取瞳孔中心、眼角等顯著的人眼特征,且該方法容易受到光照條件等的影響.另外,一些關于視線信息的潛在重要特征并未被選取來建立視線估計模型.基于外觀紋理的方法則沒有顯式地提取特定的人眼結構特征,而是將整個人臉或人眼圖像作為輸入并提取高維特征.該方法操作簡單,除了攝像頭、一般無需額外的設備配置;且對圖像分辨率、光照條件等的穩健性良好.但該方法需要大量的訓練數據,同時所得模型為黑盒模型,難以解釋.

綜上所述,基于模型的視線估計方法需要利用復雜的眼球結構模型,一般應用于頭戴式眼鏡或者實驗室環境下,需要進行相應的參數標定.而基于特征學習的視線估計方法從人眼圖像中獲取眼睛外觀信息或幾何特征,然后通過學習這些特征到人眼視線方向的映射來完成視線方向或者注視點的估計.隨著深度學習、計算機視覺等技術的快速發展,基于特征學習的視線估計方法取得突破性進展.相較于基于模型的方法,基于特征學習的方法魯棒性更高,但是其精確度依賴于數據量和模型有效性.融合利用基于模型先驗和基于特征學習兩類方法的優勢,是眼動跟蹤研究的重點方向之一.

4 數據集及性能比較

基于視頻圖像分析的眼動跟蹤領域已有一定數量的開源公開數據集,由于眼動跟蹤涉及瞳孔中心檢測及視線估計兩部分,本節分別對這兩個任務的數據集及評價指標進行論述.

4.1 瞳孔中心檢測數據集及評價指標

瞳孔中心檢測主要數據集見表1.BioID[105]和GI4E[106]在人眼瞳孔中心檢測上使用廣泛,均采集自實驗室環境,利用攝像頭捕捉上半身圖像,頭部姿態范圍均較小,其中BioID 采集23 名人員的1 521張圖像,分辨率為384 × 286 像素,含有閉眼狀態;發布于2013 年的GI4E 采集了103 名被試人員的 1 236張圖像數據,每個人采集了12 張不同視線方向的圖片,分辨率為800 × 600 像素,該數據集還包含了每個測試人員的1 張正視方向圖片.CASIA-Iris[107]由中國科學院自動化研究所提出,主要用于虹膜識別,自2002 年開始CASIA-Iris 先后被補充完善并發布了4個版本,涵蓋 70個國家和地區的超過3 000名實驗對象.表1 為2010 年發布的CASIA-IrisV4,包含54 601 張圖片.主要側重于瞳孔的檢測與分割,并偏向于使用頭戴式設備進行人眼圖像的采集.ExCuSe[108]對已有的開源數據集進行了整合,共包含39 001 張圖像,用于研究真實環境下瞳孔檢測與跟蹤,在數據采集過程中,實驗對象需要進行駕駛或在超市中尋找物品,瞳孔的位置和環境光會快速變化.Else[14]數據集采集了實驗對象在駕駛或實驗室環境下的眼部圖片,共包含7個子集,55 712 張分辨率為384 × 288 像素的照片,涵蓋了眼鏡反光、睫毛、眼瞼以及環境投影等干擾,對瞳孔檢測算法的魯棒性提出了挑戰.LPW[109]利用頭戴式眼動儀采集了22 名人員的66 段視頻,共包含 130 856 張圖片,覆蓋了不同種族、視線、光照的變化,具有一定的挑戰性.OpenEDS[110]是倫敦大學學院、Facebook 和Google 共同制作的大規模數據集,使用虛擬現實頭戴式設備采集數據,實驗在受控光源下進行,采集了分辨率為400 × 640 像素的 356 649 張照片,分為4個子集,除了對瞳孔進行標注外,還包含眼部關鍵點、未標記眼部圖片、眼動視頻幀序列和眼部點云數據.TEyeD[111]是目前世界上規模最大的人眼圖像開源數據集,圖像通過頭戴式設備拍攝,采集于乘車、室內活動、室外活動等不同的任務場景,圖片數量超過2 千萬,TEyeD 對鞏膜、瞳孔、2D/3D 眼部關鍵點等信息均進行了標注.

表1 常用瞳孔中心檢測數據集Table 1 Datasets for pupil detection

對于人眼瞳孔中心檢測準確率評價指標,使用廣泛的是最大歸一化誤差[105],計算公式如下:

其中,Dright和Dleft分別是檢測的左、右瞳孔中心到真實瞳孔中心的歐氏距離,locleft和locright分別為標注的真實眼球中心位置.deye即為計算得到的最大歸一化誤差.deye的等級代表檢測方法準確程度,其值越小代表檢測效果越好,其中deye ≤0.05代表檢測到的瞳孔中心位置在瞳孔半徑內,deye ≤0.1表示檢測到的瞳孔中心位置在虹膜半徑區域內.除了最大歸一化誤差外,也有相關研究將瞳孔檢測視為一個分割任務,通過對比像素級的檢測誤差或者區域的交并比進行評價.

表2 和表3 分別給出了近年來已有方法在BioID 和GI4E 數據集上取得的瞳孔中心檢測結果.從表2 和表3 可以看出,該領域研究不斷取得突破,一些基于手工特征的傳統方法[39,41,106,112]逐漸被基于深度學習的方法[34?35,49]所超越,其中在BioID目前已經取得了96.7%的最大歸一化誤差deye ≤0.05,且在GI4E 上由文獻[100]更新到99.8%的檢測率.

表2 不同方法在BioID 數據集上的瞳孔中心檢測結果對比Table 2 Comparison of pupil center detection results by different methods on the BioID dataset

表3 不同方法在GI4E 數據集上的瞳孔中心檢測結果對比Table 3 Comparison of pupil center detection results by different methods on the GI4E dataset

綜上所述,由于更多研究者的深入研究,以及更多開源人眼標注數據的公開,極大地推動了基于數據驅動的眼動跟蹤方法的發展;同時,以深度學習為主的人工智能方法不斷取得突破,更為有效的特征表示也極大推動了眼動跟蹤領域的快速發展.除此之外,基于仿真圖像與真實圖像的融合[41]也受到越來越多的關注,結合深度學習的優勢,相關研究會進一步推動眼動跟蹤的研究,并實現更為廣泛的應用.

4.2 視線估計數據集及評價指標

對于視線估計,主要的數據集如表4 所示.視線方向和頭部姿態的涵蓋范圍越大,光照條件、遮擋情況等外觀變化越多的視線估計數據集越有利于自然場景下的視線估計.

表4 常用視線估計估計數據集Table 4 Datasets for gaze estimation

ColumbiaGaze[116]是早期的視線估計數據集,該數據集要求被試人員觀測墻壁上的點,然后用高清攝像頭(5 184 × 3 456 像素) 記錄58 位被試人員共5 880 張圖像的視線方向和頭部姿態.由于每位被試人員的位置是固定不變的且只被記錄了5 種頭部姿態以及21 種不同的視線方向,所以該數據集中的數據外觀變化及數據樣本量有限.EYEDIAP[117]要求被試人員注視屏幕上的點和懸浮著的三維物體,然后用RGB-D 攝像頭記錄16 位被試人員共27 分鐘時長的注視數據.RGB-D 攝像頭能夠獲取圖像的色彩和深度信息,但分辨率較低(640×480像素).此前的數據集所收集的視線范圍都非常有限,為了擴大采集到的視線角度范圍,UT-multiview[93]使用8個攝像頭來采集50 位被試人員的160個視線方向數據,采集到了偏航角、俯仰角范圍分別為±50°、±36°的視線方向數據.

為了獲取如不同的光照條件等更多的外觀變化,一些數據集通過要求注視移動設備屏幕上的目標點來更高效地獲得被試人員在不同場景下的視線數據.GazeCapture[104]是麻省理工大學提出的第1個大規模視線估計數據集.該數據集通過眾包,采集并標注了1 474 位被試人員在手機或平板等移動設備屏幕前的、共2 445 504 張的視線方向數據,覆蓋了比較多樣的背景、光照和姿態變化.但這些都是用手機/平板等移動設備獲得的數據,所以視線角度范圍非常有限.類似地,MPIIGaze[118]采集了15 位被試人員每天使用筆記本電腦時的圖片,并標注了 6個人臉關鍵點、瞳孔中心和視線向量等,圖片的光照條件、人臉外貌有較大變化.

在上述數據集中,被試人員一般直接面向移動設備的屏幕,其頭部姿態和視線方向都會偏向屏幕所在的地方.由此得到的頭部姿態和視線方向范圍非常有限.為了得到角度范圍更大、外觀變化更多的視線估計數據集,一些研究提出合成視線估計數據集[121].由于目前合成的視線估計數據集與真實數據之間仍然存在較大的差異、尚未能很好地應用于自然場景下的視線估計,故繼續致力于采集視線方向和頭部姿態的涵蓋范圍更廣、外觀變化更多、數據量更大的視線估計真實數據集.RT-GENE[119]使用深度攝像頭追蹤被試人員的頭部姿態、使用眼鏡式眼動儀獲取被試人員的視線方向,采集了15 位被試人員共122 531 張的圖像數據,由于該數據集不要求被試人員注視某一目標點,因此采集到的視線數據更接近自然場景下的數據情況.但該數據集使用分辨率并不高 (1920×1 080 像素) 的深度攝像頭追蹤被試人員且被試人員距離攝像頭較遠,因此圖像中的人臉區域分辨率較低;另外,還需要使用生成對抗網絡對采集得到的圖像進行語義修補來去除被試人員佩戴的眼鏡式眼動儀.Gaze360[120]要求被試人員注視一個移動目標、并用多個攝像頭來同時獲取多位被試人員的視線方向.該數據集采集了238 名 (138 名女性和100 名男性) 被試人員,在5個室內場景和2個室外場景下共172 000 份視線數據.受到注視目標的設置以及被試人員對注視目標的遮擋影響,采集的視線方向俯仰角范圍僅為?40°~+10°且視線方向偏航角數據在其最大值附近的分布較為稀疏.ETH-XGaze[122]用18個高清攝像頭(6 000×4 000 像素)來捕捉大范圍的頭部姿態和視線方向;同時用4個燈箱來設置不同的照明條件.該數據集記錄了110 位 (47 名女性和63 名男性)被試人員,在16 種不同照明情況下近600個的視線方向,共采集了1 083 492 張圖像;采集到的視線方向偏航角、俯仰角范圍分別為 ±120°,±70°.

一般使用估計的視線方向三維向量與真實的視線方向三維向量之間的平均絕對誤差作為視線估計準確率的評價指標,其計算公式如下:

其中,g表示估計的視線方向三維向量,表示真實的視線方向三維向量;n表示測試樣本數量,i表示第i個測試樣本.平均絕對誤差越小表示對視線方向的估計越準確.

表5 給出了近年來已有方法在MPIIGaze和EYEDIAP 數據集上取得的視線估計平均絕對誤差結果.從表5 可以看出,目前的方法主要基于深度學習模型[123?125].同樣由于大量標注數據的采集以及深度模型的快速發展,視線估計得到了一定突破,分別在MPIIGaze 和EYEDIAP 實現了最好的4.1°和 5.3°的誤差.此外可以看出,視線估計研究開始處于瓶頸階段,提升和改進的程度有限,需要跳出對深度學習方法的依賴,從不同的角度,比如仿真數據及生成模型等,來探究視線估計的新方法及理論.

表5 不同方法在 MPIIGaze 及 EYEDIAP 數據集上的視線估計絕對誤差結果對比Table 5 Comparison of gaze estimation results by different methods on the MPIIGaze and EYEDIAP datasets

5 眼動追蹤的應用

由于眼動跟蹤的廣泛應用,越來越多的商業眼動跟蹤儀被研發出來.本文首先列舉目前已有的商業化眼動儀,然后從人機交互、智能駕駛、醫療健康、人因工程四個方面介紹目前眼動跟蹤的應用現狀.

5.1 商用眼動儀

由于軟硬件技術的快速發展及需求的擴增,目前世界上已有多家公司致力于生產商業眼動儀及相關軟件,主要有Tobii、SR Research、Seeing Machines、iMotion 等,表6 介紹了部分廠商的最新商用眼動儀.Tobii 公司生產的眼動儀在全球被廣泛應用,可以實現現實場景中高效的眼動數據采集,并提供了眼動眼鏡、輔助記錄器、紅外標記器、Tobii Studio 分析軟件等組件,方便快速配置與使用;還內置了陀螺儀等傳感器來減少頭部運動對眼動跟蹤的影響.Dikablis Glasses 設計小巧便攜,其獨特設計允許佩戴者戴眼睛使用.Smart Eye 眼動儀來自瑞典,重點應用于智能駕駛場景,一直致力于汽車工業市場,擁有沃爾沃、豐田、本田等大量車企客戶.它為用戶提供一個遠程眼動跟蹤系統,包括視頻成像及分析軟件,可實現高精確度全幀速率的測量頭部和視線.除了應用于智能駕駛外,Smart Eye 眼動儀還可以用于飛行模擬器、網頁設計、閱讀研究和心理實驗室等多種研究領域.GP3 是一款研究級眼動儀,支持眼動領域相關學術研究,支持豐富的應用程序編程接口,便于開發應用.Looxid-VR 面向虛擬現實應用,可以在使用者觀看虛擬現實畫面的同時采集眼動和瞳孔數據,強大的數據可視化功能使其得到廣泛應用.VIVE Pro Eye 內置Tobii 眼動跟蹤系統,可以在運行虛擬現實功能的同時采集眼動數據;還可在使用者注視的區域呈現清晰圖像,并對其他區域進行一定程度的模糊處理,具有較好的注意力可視化能力.此外,還有美國的Oculus、Magic Leap、微軟發布的HoloLens 等商用虛擬現實智能設備等都集成了眼動跟蹤系統,在交互控制、目標識別、身份驗證、健康監測、社交和多人協作等多個領域廣泛應用.

表6 主要眼動儀介紹Table 6 Introduction to some main eye trackers

5.2 人機交互

人機交互技術賦能人類與機器的交互,眼動跟蹤是實現人機交互的主要方式之一,相關研究開始于上個世紀90 年代,典型任務包括點擊、移動屏幕上的物體、在菜單中選擇等[17].分析眼動注視情況有助于更快、更準確地判斷用戶的選擇,優化用戶體驗.例如使用手機或者平板電腦的前置攝像機來捕捉人眼及頭部的動態信息,可以分析人臉表情等相關特征,實現注意力估計[7,128?130].此外,基于視線估計的人機交互可以利用眼動信息開發輔助工具來幫助弱勢群體表達情感與意識,提升生活質量.Klaib等[131]構建的智能家居結合了 Tobii 眼動跟蹤設備、Amazon 的Alexa 智能語音系統以及Azure 云計算技術.該智能家具僅通過語音或利用眼動控制屏幕即可完成各項指令,降低了老人、殘疾人等具有特殊需求的人群的使用難度.眼動也是人機交互界面設計的重要參考,例如文獻[132?133]中各項眼動指標常常用于評價航空航天領域人機交互界面的設計效果.眼動分析也是廣告設計和企業營銷的重要參考,大量研究致力于探究如何最大程度吸引消費者的注意力.Lee 等[134]利用眼動追蹤技術對網絡橫幅廣告的效果和吸引力進行了評價,發現動畫廣告并沒有比靜態廣告更具吸引力優勢.文獻[135]指出在廣告領域,對于場景感知和視覺搜索的眼動研究處于早期階段,眼動跟蹤技術將在未來的廣告等商業領域起到更大的作用.圖12 是一種基于眼動的智能展板示例.

圖12 根據用戶眼動自動調整畫面的智能展板[18]Fig.12 A smart public display using user's eye movement to adjust the content[18]

5.3 智能駕駛

人是交通系統中最活躍、最不穩定的因素,絕大多數交通事故的產生都與駕駛員的失誤有關,帶來巨大的人身安全威脅和財產損失.2017 年國家安全監管總局、交通運輸部發布的最新研究報告顯示,中國交通事故總量仍居高位,因此非接觸式的眼動跟蹤的智能駕駛系統成為了一種有效的解決方案[55,136].利用眼動信息可以分析駕駛員在具體交通場景中的感知、分析和決策的過程.Rezaei 等[137]利用Haar 特征和卡爾曼濾波構建了一個快速且適應性強的眼動跟蹤系統,可適應駕駛中光照的快速變化.實際應用中,營運車輛重量大、操作困難,對駕駛員的行為進行監控和規范有重要意義.Mandal 等[138]提出了一套基于視覺的駕駛員疲勞檢測系統,能簡便地部署在公交車等大型車輛上.該系統融合了人臉識別、眼動追蹤等多項技術,在實際應用中具有較好的魯棒性.在自動駕駛應用中,人機共駕是重要研究課題之一.眼動研究是人機切換時機的一個重要研究方向.Zeeb 等[139]讓駕駛員在駕駛時參與其他任務,以分析駕駛分心情況下駕駛員的反應時間和眼動數據,構建了一個融合模型對駕駛的危險程度進行評價,進一步確定人機駕駛切換時機.如圖13 所示,Deng 等[140]提出基于駕駛員注視點的顯著性圖來對駕駛員在駕駛過程中的注意力變換進行建模,探究人類在駕駛過程的認知變化過程,從而構建融合人類駕駛經驗的智能駕駛系統.

圖13 基于注視點的駕駛注意力分析[140]Fig.13 Driving attention analysis based on the gaze points[140]

5.4 醫療健康

眼動跟蹤研究在醫療健康方面發揮著重大作用.作為一種生理指標,眼動在精神分裂、抑郁癥、睡眠障礙、多動癥等疾病的研究與分析中發揮著重要的作用,這部分研究開展較早,相對較為成熟.近年來,眼動追蹤研究進一步拓展至醫療圖像分析、醫療設備和醫療決策等領域,例如在腹腔鏡手術系統中,可以根據主治外科醫生當前的視線方向來確定手術電腦屏幕中需要重點關注的區域,從而輔助腹腔鏡的自動操作[141].Chen 等[142]利用放射科醫生進行乳腺癌診斷的視線注視點變化來建模描述有經驗專家的診療過程,從而輔助機器或者臨床經驗不足的醫生進行有效診斷.Khosravan等[143]提出利用眼動跟蹤系統獲取放射科醫生的眼動數據,構建一個基于注意力機制的方法來進行局部和全局的圖像分析,并實際應用于肺癌診斷中.眼動也為醫學從業人員培訓提供了一種新的角度,醫學規培生和專家的視線追蹤結果的對比有利于分析診斷決策的過程.Jarodzka 等[144]對專家的眼動進行建模,構建了一個EMME (Eye movement modeling examples)訓練系統.該系統可以對專家診斷過程中的眼動進行回放,通過閃光點給予學員提示.研究結論表明,使用EMME 的學員在學習過程中注意力得到更好的引導,在測試中表現更為出色.

5.5 人因工程

眼動作為認知科學、行為科學等的重要研究對象,在人因工程應用中越來越受到重視.與傳統的心理實驗設計相比,眼動跟蹤更加具有技術和方法上的優勢,可以更加直觀、具體地展示人類的興趣點與注意力分布情況.有學者研究開發了軟件平臺或眼動實驗設計,嘗試進一步推動眼動追蹤技術在人因工程上的應用,例如 PyGaze[145]、Eye-MMV[146]等.在教育領域,Halszka 等[147]在總結了眾多教育科學的眼動研究后指出,眼動追蹤技術在改善基于電腦的多媒體教學課程設計、揭示視覺相關領域專業知識及其發展 (例如棋類運動、醫學等)、眼動建模學習專業知識三個方面應用較為成功.總之,眼動信息可以表達人的注意力、傳達人的情感、表征人類推理過程;較好的眼動分析可以幫助探究人類認知機理,從而構建人在回路的混合增強平行智能[43,148?151].

6 結束語

本文對眼動跟蹤進行了研究綜述,重點闡述了基于視頻圖像分析的相關研究進展,分別從眼動跟蹤發展概述、瞳孔位置檢測、視線估計3個方面的研究現狀進行詳細論述與分析,并介紹了相關應用現狀.眼動跟蹤是實現強人工智能的基礎,可以為探究人類認知機理提供支撐,具有重要的理論意義和良好的應用前景.盡管該領域取得了一系列研究進展,但由于自然環境多樣、數據獲取與標注費時耗力、個體眼部外觀結構差異、姿態動態變化等,眼動跟蹤目前仍然是一個具有挑戰性的核心難點問題,未來的研究工作可以從以下幾個方面展開:

1) 復雜環境下多模態數據融合:在極端環境下,比如低清晰度、低光照等,獲取的視頻圖像數據信息有限,傳統的基于圖像數據驅動的深度學習方法無法較好實現眼動跟蹤與視線估計.其他傳感器數據,例如紅外圖像、深度圖像、激光雷達、音頻等往往可以提供更多信息,通過多模態數據融合可以大大提升眼動跟蹤的精度,從而滿足實際應用場景的時效性需求.

2) 小樣本下的新型學習理論:實際應用場景中,為了使復雜的深度模型方法更為魯棒有效,往往需要大規模標注數據集.然而,眼動視線數據的采集標注非常耗時費力.研究小樣本情況下的新型學習理論與方法,例如元學習、平行學習、知識遷移、數據對抗生成等方法,對解決小樣本情況下的眼動跟蹤與視線估計具有重要的研究意義.

3) 注意力建模及認知機理分析:通過深入分析人類視線的注視點,對其注意力變化動態建模,然后基于現有注意力機制實現機器注意力估計,將人類注意力模型和機器注意力模型對比耦合,可以幫助進一步探究人類在感知場景及任務驅動下的認知機理,從而實現人機混合增強智能,推進自動駕駛、機器人、人機交互的發展與應用.

猜你喜歡
眼動檢測方法
基于眼動的駕駛員危險認知
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
基于ssVEP與眼動追蹤的混合型并行腦機接口研究
載人航天(2021年5期)2021-11-20 06:04:32
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
國外翻譯過程實證研究中的眼動跟蹤方法述評
外語學刊(2016年4期)2016-01-23 02:34:15
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91尤物国产尤物福利在线| 丝袜国产一区| 91久久偷偷做嫩草影院| 欧美成人综合视频| 国产无套粉嫩白浆| 色天天综合久久久久综合片| 亚洲人成网站在线播放2019| A级毛片无码久久精品免费| 伊人成人在线视频| 免费av一区二区三区在线| 国产国产人免费视频成18| 四虎影视8848永久精品| 亚洲综合香蕉| 58av国产精品| 影音先锋丝袜制服| 国内精自视频品线一二区| 色天天综合| 国产乱子伦无码精品小说| V一区无码内射国产| 日韩欧美综合在线制服| 曰韩人妻一区二区三区| 亚洲精品自拍区在线观看| 欧美a级完整在线观看| 日韩av手机在线| 国产清纯在线一区二区WWW| 色婷婷亚洲十月十月色天| 精品久久久久久久久久久| 草逼视频国产| 国产欧美在线观看视频| 日韩欧美一区在线观看| 国产在线观看91精品| 国产SUV精品一区二区6| 色亚洲激情综合精品无码视频| 动漫精品啪啪一区二区三区| 日本三区视频| 99国产精品国产| 99免费在线观看视频| 99久久人妻精品免费二区| 国产免费网址| 国产91在线|中文| 2021国产精品自产拍在线观看 | 91热爆在线| 在线免费不卡视频| 香蕉久人久人青草青草| 精品国产福利在线| 亚洲国产欧美自拍| 久久精品一品道久久精品| 丝袜国产一区| 国产精品一区二区无码免费看片| 97免费在线观看视频| 国产精品短篇二区| 日韩精品毛片人妻AV不卡| 欧美三级视频网站| 亚洲Aⅴ无码专区在线观看q| 大陆国产精品视频| 国产成人久久777777| 免费中文字幕在在线不卡| 日韩高清一区 | 在线观看热码亚洲av每日更新| 2020国产免费久久精品99| 亚洲愉拍一区二区精品| 亚洲日韩第九十九页| AV天堂资源福利在线观看| 亚洲综合九九| 久久久久人妻精品一区三寸蜜桃| 91po国产在线精品免费观看| 久久影院一区二区h| 中文字幕日韩丝袜一区| 亚洲无码高清一区二区| 欧美精品亚洲精品日韩专| 看av免费毛片手机播放| 日韩精品一区二区三区免费| 欧美第一页在线| 欧美日韩综合网| 国产激情第一页| 91香蕉视频下载网站| 丁香五月婷婷激情基地| 精品99在线观看| a毛片免费看| 久久久久亚洲精品成人网| 欧美综合成人| 国产精品视频观看裸模|