賈靜,付高波,趙歆波,,鄒曉春,,張寶尚
1.西北工業大學,陜西 西安 710072
2.光電控制技術重點實驗室,河南 洛陽 471009
近年來,隨著計算機視覺、圖形學、人工智能等新興技術的發展以及應用需求的增加,學術界和工業界對眼動跟蹤技術進行了大量深入研究。人工智能技術與裝備的有機結合,將極大地提升裝備作戰效能[1],眼動技術應用于飛行訓練方面的研究也不斷發展,從早期的眼動儀系統在飛行模擬器中的測試,到現代眼動儀用于真實空中駕駛艙的當代試驗,利用眼動儀收集眼動數據,監測飛行員的注意狀態[2],眼動追蹤技術在航空航天領域的應用正蓬勃發展。在瞄準具設計中,眼動跟蹤技術提供實時的目標識別和定位以改進瞄準精度,可提高戰斗人員的操作效率和打擊效果。在飛行員行為分析中,利用眼動追蹤技術來評估注意力分配和疲勞程度,以采取相應的措施進行提醒或干預。在飛行器界面設計中,眼動跟蹤技術被用來記錄、評估飛行員的眼動情況,以減少操作復雜性并量化用戶體驗。總之,眼動追蹤技術通過采集分析眼動數據,為航空領域提供了實時精準的量化信息,為瞄準打擊、飛行安全和人機交互提供了數據基礎。
而魯棒準確的瞳孔中心定位是眼動追蹤的前提和核心技術。在復雜環境下,現有瞳孔檢測方法的準確性和魯棒性不夠穩定,這與人類視覺相比是不可接受的,即人類具有很強的魯棒性。根據認知心理學的相關研究[3],人腦具有多任務輔助學習的特點。憑借這一特性,人類在運動模糊、光照變化、噪聲等復雜環境下仍能輕松完成視覺定位任務。因此,本文認為人類視覺系統的這一特性可以促進瞳孔定位的準確性。
在瞳孔檢測任務中,現有的瞳孔定位方法可分為傳統的瞳孔定位方法和基于深度學習的瞳孔定位方法。現有的瞳孔定位方法從瞳孔定位任務本身出發,忽視了人類視覺系統在處理瞳孔定位問題上的優越性。因此,無論是基于傳統的圖像處理還是基于深度學習,在復雜的環境下都很難取得令人滿意的效果。
為了解決上述問題,受多任務輔助學習特性的啟發,本文提出了一種用于瞳孔中心檢測的由粗到精的神經網絡架構,如圖1 所示,其中,藍色背景代表粗分類階段,紅色背景代表精細回歸階段。在網絡的不同分支中定義了兩個不同的坐標維度。粗分類階段和細回歸階段是級聯的。該架構主要分為粗分類和精細回歸兩個階段。在粗分類階段,將坐標值劃分為不同的類別。這種分類在相應的尺度空間中執行多次。精細回歸階段進一步細化粗分類結果,計算出準確的瞳孔中心位置。粗分類階段的主要任務用來輔助回歸任務,以提高準確率。瞳孔中心的橫坐標和縱坐標在兩個獨立的分類和回歸模塊中同時計算。它們共享相同的全圖像卷積特征映射,這也在訓練過程中引入了類似于多任務學習(MTL)[4]的優勢。此外,在開放標準和具有挑戰性的數據集上,將本文方法與大量優秀的ElSe[5]、ExCuSe[6]、SET[7]、DeepEye[8]等方法進行了比較,得到了最先進的結果。

圖1 本文提出的由粗到精網絡的結構Fig.1 The architecture of the proposed coarse-to-fine network
為了提高瞳孔中心檢測的魯棒性和準確性,本文在瞳孔中心檢測任務中引入多任務模塊來模擬人類視覺系統的多任務輔助學習特性。多任務模塊主要由兩部分組成:一部分是在粗分類階段使用多個具有不同尺度因子的子任務輔助主任務,以優化瞳孔中心檢測的魯棒性。另一部分通過對分類任務和回歸任務的聯合優化得到瞳孔中心坐標,從而提高瞳孔中心的檢測精度。
假設輸入圖像為I,通過基本網絡得到的輸出為g(I);Tasks表示不同尺度空間中的分類任務,定義為
式中,i表示分類任務的個數。在尺度空間中,將強約束分類和弱約束分類相結合,強約束分類表示主任務,弱約束分類表示子任務。
在獲得多尺度分類節點的基礎上,一方面,計算不同尺度空間中多任務單元的交叉熵損失。多任務分類損失定義為
式中,αi為不同尺度分類任務的權重系數;Ci表示每個任務的交叉熵損失。
另一方面,在主要任務節點的基礎上建立了回歸模型。首先通過主要任務節點求解最大期望值E(mainTask(g(I)),定義為
式中,n為主要任務分類節點個數;Nodes(i)表示主任務第i個節點的輸出;Ki表示節點i對應的分類類別。
因此,Softmax(nodes(i))表示第i個節點對應瞳孔中心坐標的分類概率。
在得到瞳孔中心坐標的最大期望值后,通過均方誤差計算回歸損失。將多任務分類損失和回歸損失相結合對模型進行訓練,以優化瞳孔中心坐標。最終損失L定義為
式中:β為回歸損失函數的權值;LE(mainTask(g(I)))是真實值與期望值之間的均方誤差。
為了保證提取的特征尺度的一致性,Vera-Olmos 等提出的DeepEye 要求輸入圖像必須具有固定的大小,否則很難獲得滿意的結果。由于成像特性的不同,圖像尺寸也會有所不同,這阻礙了深度學習網絡魯棒性的提高。在本文中,通過比例尺映射來解決這個問題。其思想是將不同大小的圖像映射到固定大小的比例尺空間進行計算。
粗分類主要包括點分類和多尺度約束。
1.2.1 點分類
N.Ruiz 等[9]首先使用姿態角范圍(bin)分類提出了用于頭部姿態估計的HopeNet。現有的bin 類函數為B(pointi)=[a,b]。如果pointi屬于[a,b],則B(pointi)=a,最大極值誤差為E=[0,|b-a|]。對于精確的回歸階段,這個誤差太大而無法接受。為解決這一問題,本文在粗分類階段提出一種新的點分類方法。在尺度空間中定義不同的等距點,每個點代表一個范疇。在點分類中,輸出值屬于最近的點。當距離相等時,它們屬于具有較高節點的點。與bin分類方法相比,本文所提出的點分類方法可以根據不同的任務改變距離測量,擴展了高維數據空間。引入點分類,為粗分類階段提供了一種相對公平穩定的分類策略。
1.2.2 多尺度約束
在定義分類尺度空間時,通過設置分類點的個數來確定每個類別在尺度空間中的范圍。在粗分類階段,首先,定義了一個包含513個分類點的尺度空間作為主要任務。其次,通過減少分類點的數量,定義了257、129、65、33、17、9、5、3個分類點,同時進行訓練。
可以選擇骨干網絡進行多次試驗,并擴展多個完全連接的層來預測瞳孔中心坐標。每一個全連通層代表一個不同的分類尺度空間。每個尺度空間都有一個確定的交叉熵損失。分類點越少,損失的尺度空間對應的權重越大。當分類范圍較大時,錯誤的分類對應更高的懲罰。每個維度的分類損失定義為
式中:C(yi,)表示交叉熵損失;αi表示不同尺度空間的權重。
經過粗分類階段的計算,在一個較小的范圍內確定各個維度的坐標值,該范圍代表一個類別。而在實際應用中,瞳孔位置是一個準確值。為得到更精確的瞳孔中心坐標,本文擴展了粗分類階段之后的細回歸階段。
在精細回歸階段,只使用粗分類階段的主要任務,它具有更精細的分類范圍,因此精細回歸任務更容易收斂。用softmax層輸出的數學期望來表示回歸方程,定義為
式中,Z表示來自全連接層的矢量輸出和softmax 層的輸入;i表示分類類別;分母起歸一化作用。
回歸損失定義為
在定義了回歸方程之后,選擇均方誤差損失作為回歸損失。最后,生成兩個最終損失,分別對應瞳孔定位任務中圖像的兩個不同維度。每個最終損失被定義為分類損失和回歸損失的線性組合。每個維度的最終損失定義為
式中,RegressionLoss 表示均方誤差損失函數;β表示回歸損失權值。
在訓練過程中,首先按照8/2 的比例對LPW 數據集進行分割,最終生成104685張訓練圖像和26171張測試圖像。在將圖像輸入網絡之前,將其大小調整為64×64。使用Resnet-50 作為骨干網絡,訓練了30 個epoch。在反向傳播中使用Adam優化器。初始學習率設為0.001,每10次學習率減小,其中β1=0.9,β2=0.999,η=10-8。此外,在粗分類階段定義了多個分類點,分類點為257 的尺度空間的分類范圍最小,對整體任務的貢獻最大,而分類點為3的尺度空間貢獻最小,根據Wang Haofan[10]所提出的方案以及在訓練測試過程中調整參數確定了權重因子。αi={1, 2, 3, 5, 7, 9, 11,13, 15},β= 0.15。
2.1.1 數據集
為了測試和訓練所提出的網絡,在室內和室外場景中使用不同的傳感器采集瞳孔圖像,它們包括三個已發表的具有挑戰性的紅外瞳孔圖像數據集。
(1) LPW:該數據集包含66 個瞳孔區域視頻。該數據集由22 人使用頭戴式眼動儀收集,共生成130856 個視頻幀。該數據集涵蓋了室內和室外的照片條件。
(2) ElSe:該數據集包含55712張圖像。數據集I-V通過眼動追蹤設備在道路駕駛環境中記錄。數據集VI-VII在室內試驗中收集。
(3) PupilNet:該數據集包含41217 張圖像。數據集PNIPNV包括更快的變化、不利的光源和眼睛生理結構的破壞。2.1.2 指標
為了評估和公平地比較本文提出的網絡與其他算法,針對不同的階段定義了不同的評價指標。
(1) 檢測率:如果預測坐標與真實標簽之間的歐氏距離小于5px,則認為檢測成功。檢測成功的圖像與所有圖像的比值被定義為檢測率。
(2) 分類檢測率:對于分類任務的每個維度,定義輸出結果與真實標簽之間的誤差小于等于3px,表示分類成功。成功圖像的比例定義為分類檢測率。
(3) 分類精度:當兩個不同的維度同時分類成功時,就定義了分類精度。
(4) 絕對誤差:每個維度的預測值與真實值之間的像素誤差的絕對值。
(5) 歐氏距離誤差:預測坐標與實際坐標之間的像素誤差的歐氏距離。
2.1.3 實現細節
本文收集了有代表性的算法,將SET、Swisski、ElSe、ExCuSe、DeepEye 等算法與本文方法進行了比較。所有試驗均在一臺臺式計算機上進行。
2.2.1 分類網絡與分類方法評價
為了獲得更穩定的分類模型,考慮到不同的代表性模型AlexNet、VGGNet、ResNet-50,在現有研究絕大多數任務上的性能,ResNet-50 具有最高的性能。因此,本文選擇Resnet-50作為骨干分類網絡。
此外,為了測試點分類的準確性,本文將其與Ruiz等在LPW 數據集上提出的bin 分類方法進行了比較。同樣,在粗分類階段,使用之前定義的評價指標來計算兩個維度的分類檢測率。在精細回歸階段,使用不同維度的平均絕對誤差和標準差作為評價指標。最后,計算了不同分類方法的平均歐氏距離誤差。
試驗結果見表1,分類階段以分類精度作為評價指標。用平均絕對誤差(MAE)、平均歐氏距離誤差(MEDE)比較回歸階段。由表1可見,與bin分類相比,本文的點分類方法在兩個維度的平均分類精度上提高了0.77%,在回歸精度上平均歐氏距離誤差降低了16.58%。與bin 分類相比,點分類更加公平、合理,不會帶來數據偏移。

表1 bin分類與本文在LPW數據集上的點分類在分類和回歸階段的對比Table 1 Comparison between bin classification and proposed point classification on LPW data sets in classification and regression stages
2.2.2 多任務輔助特征有效性評價
為了驗證架構的有效性,在LPW數據集上進行了分析試驗,設置了兩個對照組。在對照組1中,去除多尺度空間約束,只保留一個尺度空間與主任務。在對照組2中,刪除主任務的分類損失,保留其他子任務的分類損失,結合最高尺度空間的回歸損失對網絡進行訓練。
試驗結果見表2。對照組1的檢出率相對較低,因為刪除了很多分類子任務。僅使用主分類任務,網絡難以穩定收斂。對照組2 的分類精度較低,因為去掉了最高尺度的分類損失,很難得到準確的分類結果。

表2 多任務輔助效能控制試驗(通過分類準確率和檢測率對結果進行可視化)Table 2 Multi-task auxiliary effectiveness control experiment (The results are visualized through classification accuracy and detection rate)
為了充分證明模型的性能,建立了對比試驗。首先,將該模型與傳統的瞳孔定位算法Swiski、SET、ExCuSe和ElSe進行了比較,將檢出率作為評價指標。選擇LPW作為測試數據集,因為它具有更多的連續幀圖像和更高的圖像分辨率。為了進行更詳細和全面地比較,將每個參與者采集的圖像視為一個獨立的數據集,并對每個分割的數據集執行不同的算法。
表3 給出了本文模型和傳統算法在LPW 數據集上的檢測率。與傳統算法相比,本文提出的模型有了顯著的改進。還計算了每種方法在所有數據集上的平均檢出率。本文方法的檢出率為97.2%。在傳統的瞳孔定位方法中,ElSe 方法的定位效果最好。然而,本文方法仍有大約28%的改進。
圖2描述了在LPW上小于特定歐氏距離的預測和手工標記的地面真值的像素誤差的平均檢測率。當允許像素誤差小于1 時,本文方法的檢測率接近60%。當允許像素誤差小于3 時,對應的檢測率大于90%。與傳統的最佳算法相比,本文方法提高了30%以上。因此,本文方法適用于高精度瞳孔定位。這也表明本文模型具有更高的檢測率和更好的魯棒性。
本文選擇了在LPW 數據集上表現較好的兩種傳統算法ExCuSe 和ElSe 以及兩種深度學習算法PupilNet 和DeepEye進行比較。
對于所有12個數據集,本文模型在8個數據集上實現了更高的檢測率(見表4)。與PupilNet相比,所提出的方法將所有數據集的平均檢出率提高了約20%。與DeepEye 相比,平均檢出率略有提高6%。ElSe在傳統方法中表現出更好的性能,但本文方法在平均檢出率上仍然提高了30%。

表3 本文方法與傳統方法在LPW數據集上的檢測率比較Table 3 Comparison of detection rate between proposed method and traditional methods on LPW dataset

圖2 所測試方法在LPW數據集上的像素誤差和平均檢測率分析Fig.2 Pixel error and average detection rate analysis of tested method on LPW dataset
為比較不同方法的時間效率,進行了一個對比試驗。首先,在LPW上隨機選擇100張圖像。其次,每種方法執行100 次,計算每張圖像的平均處理時間,試驗結果見表5。與DeepEye和ExCuSe相比,本文方法分別提高了1.34倍和3.04倍。

表4 本文方法與最先進的方法在混合數據庫上的檢測率比較Table 4 Comparison of detection rate between proposed method and the best-advanced method on the hybrid dataset

表5 不同方法在LPW數據集上的時間效率比較Table 5 Comparison of time efficiency between different methods on LPW data sets
本文受人類視覺系統特點的啟發,探索了人類視覺系統的多任務輔助學習特征與瞳孔中心檢測任務之間的隱藏關系,將多任務輔助學習特征引入瞳孔定位任務,提出了一種從粗到精多任務協同優化瞳孔定位方法。本文方法在LPW 和ElSe、ExCuSe 上取得了最先進的結果,分別獲得了97.2%和86.3%的檢測率,距離誤差小于5px。試驗結果驗證了多任務輔助學習特征的有效性。在未來的工作中,本文提出的網絡架構可以應用到其他類似的任務中,并且可以根據不同的需求靈活更換相應的骨干網。