











摘" 要:近年來,基于外觀的注視估計取得了顯著進展。然而,現有方法多以龐大的網絡參數量為代價來提高精度,使得模型的開發部署成本昂貴。針對此問題,提出一種基于多級特征提煉的輕量化注視估計網絡(Lightweight Network with Multi-level Feature Refining, LMLFR-Net)。其包含一種輕量級特征提取模塊(SECA)和一種輕量級多級特征提煉模塊(FRM)。SECA融合了擠壓激勵和協調注意力,以提高模型對特征的精化能力;FRM將主干網絡的多級特征進行融合提煉,通過同時利用低層與高層特征,提升了模型對細節的捕獲能力,在不顯著增加參數量的同時,改善輕量級網絡的估計精度。實驗表明,所提出的網絡在MPIIFaceGaze數據集上的估計精度相比FAR-Net提升了2.14%,參數量減少了85.35%,表現出了良好的輕量化性能。
關鍵詞:注視估計;輕量化網絡;注意力機制;特征提煉
中圖分類號:TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2024)23-0028-05
Lightweight Gaze Estimation Method Based on Multi-level Feature Refining
ZHOU Guang'ao, TAO Zhanpeng
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan" 232001, China)
Abstract: Appearance-based gaze estimation has made significant progress in recent years. However, existing methods mostly improve accuracy at the expense of a huge amount of network parameters. This makes the development and deployment cost of the model expensive. In view of this problem, a lightweight gaze estimation network based on multi-level feature refining (Lightweight Network with Multi-level Feature Refining, LMLFR-Net) is proposed. It includes a lightweight feature extraction module (SECA) and a lightweight multi-level Feature Refining Module (FRM). SECA combines Squeeze-and-Excitation and Coordinate Attention to improve the model's ability to refine features. FRM integrates and refines the multi-level features of the backbone network, and improves the model's ability to capture details by simultaneously utilizing low-level and high-level features. It improves the estimation accuracy of lightweight networks without significantly increasing the number of parameters. Experiments show that the estimation accuracy of the proposed network on the MPIIFaceGaze data set is improved by 2.14% compared to FAR-Net, and the number of parameters is reduced by 85.35%, showing good lightweight performance.
Keywords: gaze estimation; lightweight network; Attention Mechanism; feature refining
0" 引" 言
視覺信息在人類獲取的外界信息中所占比例高達80%,眼睛通常被認為是心靈的窗口,在非語言交際中起著至關重要的作用。眼睛注視的方向為理解人類認知和行為提供了至關重要的線索。注視估計是一種融合了計算機視覺和機器學習等多學科前沿技術,通過分析眼部特征和眼睛運動規律來對人的注意力進行預測的技術。目前,注視估計已被廣泛應用于人機交互[1]、增強現實/虛擬現實[2]、自動駕駛[3]等領域,為這些領域的發展和創新提供了有力支撐。
人們對注視估計方法的研究可分為兩類:基于模型和基于外觀。傳統的基于模型的方法需借助特定的儀器(例如紅外相機)來獲取特征,其成本較高,因此通常僅適用于實驗室環境。相反,基于外觀的注視估計方法則直接從面部圖像中提取特征,一般僅需使用普通相機,并表現出更好的魯棒性。近年來,隨著深度學習技術的興起,研究者開始探索將卷積神經網絡(CNN)引入基于外觀的注視估計。例如,Zhang等人[4]首次提出利用CNN進行基于全臉圖像的注視估計模型Full-Face。該模型設計了一種空間加權機制,對人臉各個區域的信息進行加權,以增強特征表征。最近,OH等人[5]在提出的基于面部圖像的注視估計網絡中融合了卷積、自注意力和反卷積等技術。此外,當前的研究還涉及基于弱監督學習[6]和基于對比學習[7]等方法的注視估計。受益于大量相關數據集的公開,基于CNN的注視估計方法取得了較高的準確度。然而,隨著模型準確度的提高,網絡參數量也在劇增。當前提出的注視估計模型參數龐大,這給模型的訓練和實際部署帶來了挑戰。因此,如何進行模型輕量化,已成為該領域急需解決的問題。
針對輕量化問題,目前主要有兩個研究方向:一是對訓練好的復雜網絡進行壓縮(模型剪枝、知識蒸餾等)得到輕量化網絡,二是直接設計輕量化網絡進行訓練。本文針對注視估計任務提出了一種新型的輕量化注視估計模型LMLFR-Net。LMLFR-Net由一個用于特征提取的輕量級注意力特征提取模塊(Squeeze-and-Excitation and Coordinated Attention Feature Extraction Module, SECA)和一種輕量級多階段特征提煉模塊(Multi-level Feature Refining Module, FRM)組成。其中SECA通過將擠壓激勵(Squeeze-and-Excitation, SE)模塊和協調注意力(Coordinate Attention, CA)模塊相結合,增強了模型對全局特征的細化能力,顯著降低了模型參數以及計算復雜度。FRM通過捕獲主干網絡的多級特征信息,提高模型對細節的捕獲能力,在保證參數量不顯著升高的前提下,改善了輕量級網絡的注視估計精度。
1" 模型設計
1.1" 整體架構
本文提出的LMLFR-Net總體架構如圖1所示。在網絡最初階段,首先采用7×7卷積和最大池化操作來對特征圖進行維度調節。在提取出基礎特征的基礎上減小了特征圖的維度,有利于參數量的減少和后續的處理。在此基礎上,設計了一個由三個階段組成的主干網絡,分別使用SECA特征提取模塊進行特征提取。之后,各階段生成的特征圖通過平均池化進行維度對齊后,統一輸入FRM模塊中,實現對多級特征信息的提煉,有效利用低層和高層特征,進一步提升模型的精度。最后,通過1×1的卷積以及池化來調整特征圖的維度,并將特征圖轉換為一維向量輸入全連接層進行注視估計回歸預測。
1.2" SECA輕量級特征提取模塊
如圖2所示,SECA輕量級特征提取模塊的設計借鑒了ShuffleNetV2[8]的Shuffle結構。考慮到并行使用SE和CA兩種注意力機制(如圖2)會產生重疊或冗余信息,導致算法的訓練和部署開銷增加。本文采用新的思路,串行使用兩者。SE模塊會先通過訓練學習到多個通道之間的關聯關系,然后通過對通道特征進行加權,除去無關信息,增強對有效信息的表征能力。緊接著將結果傳遞給CA模塊進行空間注意力加權。這種串行設計使得通道與空間的關聯更加明確,降低了模型的重復計算,提升了模型的估計精度。與此同時,本文將利用一個膨脹率為2的3×3空洞卷積(Dilated Convolution, D-Conv)代替深度可分離卷積(DWConv)。該方法可以在不明顯增大運算量的前提下,獲得更大的感知野,從而加快了網絡的學習與推理。
在SECA模塊的Block1中,先利用通道分割(Channel Split)方法對特征進行通道劃分。這一操作是為了減少隨后各層的計算負擔。然后,通過1×1卷積進行特征融合。其次,使用批歸一化(Batch Normalization, BN)和ReLU激活函數對特征進行標準化處理的同時引入非線性特征,增強模型的表達能力。接下來,通過3×3的空洞卷積增加感受野,在不額外增加參數量的情況下,獲取更大范圍的上下文信息。后續SE模塊通過學習特征圖通道間的相互依賴性,實現對通道響應的動態調整,凸顯有利特征。接著,一組1×1卷積被用來對特征進行后續的變換與融合,再通過通道合并將處理過的兩個特征子集進行合并,輸入到最后一層進行通道洗牌(Channel Shuffle),實現特征重構。實現了不同組之間的信息的高效交互,提高模型對多元特征的捕獲與融合能力以及泛化性能。擠壓和激勵模塊、協調注意力模塊如圖3所示。
Block2類似Block1,但由于Block1已經進行了通道劃分,Block2采用分組卷積實現特征信息的抽取,并使用協調注意力CA來對進行加權。這一步驟旨在深入挖掘提煉圖像中的特征,提高網絡對有益特征的學習能力。在此基礎上,將兩組特征進行合并,使用通道洗牌交互重組,確保模型能夠學習到更為復雜和有效的特征表示,為后續的預測提供更多特異性信息。
1.3" FRM特征提煉模塊
為提煉出更豐富注視相關特征信息,本文提出了特征提煉模塊FRM,如圖4所示。與僅使用輕量化骨干網絡的最后一級特征不同,FRM將所有3個階段的特征進行融合,從而更好地挖掘輕量級主干各個階段的優勢信息。
具體地,FRM采用平均池化方法進行多尺度特征的對齊,然后將它們拼接在一起。過程如下:
(1)
其中,Cat()表示拼接操作;avgpool()表示平均池化操作;F1、F2、F3分別表示來自三個階段的輸出特征。FRM模塊利用解耦非局部塊(Disentangled Non-local Block, DNL)來增強各區域間的相關性,從而獲得全局的上下文信息。在此基礎上,根據各像素點之間的相關性,DNL塊自適應地對各區域進行加權處理,提煉優勢信息。具體來說,每個像素的上下文是通過計算拼接的特征Fc中所有像素的加權和來評估的。用xi表示位置i處的值,DNL的輸出yi計算為:
(2)
其中,w(xi,xj)表示xi、xj的相似度;g(xj)表示xj的一元變換。Ω表示所有像素的集合。權重函數w(xi,xj)定義為:
(3)
其中,σ()表示Softmax函數。將嵌入qi、kj矩陣使用1×1卷積分別計算為Wq xi和Wk xj。Wq、Wk為待學習的權值矩陣。之后對qi和kj進行歸一化,減去其均值μq和μk。在歸一化后進行矩陣相乘,然后,使用Softmax函數進行歸一化,再通過元素加法與矩陣乘法運算,就可以獲得后續需要的精煉特征。
FRM模塊利用前饋網絡FFN以期提升網絡表征能力。FFN由兩個1×1卷積、一個3×3卷積組成。其中,FFN使用1×1卷積對輸入圖像特征進行線性變換,擴展通道的維數,使其能夠捕獲更多維度的信息。隨后通過3×3卷積和BN、ReLU,實現更大范圍的空間特征抽取,增強其對復雜場景的處理能力。最后,再次利用1×1卷積進行線性變換,調整特征通道的維數,減少后續層的計算量。FRM模塊充分使用到了所有階段的特征信息,使得不同層級上的特征得到了有效的整合,增強了特征的豐富性和表征能力。提高了輕量級網絡特征提取精煉能力,極大提升了模型的注視估計準確性。
2" 實驗結果與分析
2.1" 數據集與評價指標
本文實驗在主流數據集MPIIFaceGaze[4]上進行。MPIIFaceGaze數據集是一個廣泛用于注視估計研究的公開數據集。該數據集由德國馬普學會計算機科學研究所的研究人員創建,并提供了大量的面部圖像和相應的注視位置標注。這些注視位置標注指示了被拍攝者在圖像中所看的方向,為研究者提供了理想的資源來訓練和評估注視估計算法。MPIIFaceGaze數據集包含15個參與者的45 000張圖像,這些圖像是通過在筆記本電腦屏幕上向參與者顯示隨機點來收集的,包含了來自不同場景和不同人群的圖像,這些圖像涵蓋了不同的頭部姿勢、光照條件和背景環境。為了評估模型的性能,在該數據集上采用留一策略。
注視估計領域通常采用角度誤差來評估模型性能,也就是真實注視方向g和預測注視向量之間的角度誤差,角度誤差越小,模型精度越高。計算式為:
(4)
2.2" 實驗環境及參數配置
LMLFR-Net采用PyTorch框架構建,并使用NVIDIA-A4000 GPU進行訓練與測試。在MPIIFaceGaze數據集上,采用了留一法交叉驗證策略。模型訓練時初始學習率設置為0.000 1,并通過動態調整來優化模型的訓練過程。每個訓練批次的batch_size設置為16,共進行了300輪訓練,每10輪保存一次模型用于測試。損失函數采用L1損失函數。模型采用式(4)進行注視估計精度的評估。圖5顯示了模型在訓練過程中的損失和估計精度變化情況。模型訓練損失收斂速度較快,大約在第50輪左右時穩定下來。同時,模型測試精度也在第50輪時趨于穩定。
2.3" 實驗結果與分析
為驗證所提出網絡LMLFR-Net的性能,本文基于MPIIFaceGaze數據集從估計誤差(Error)、模型參數量(Para)和計算量(FLOPS)3個方面進行評估。結果如表1所示。相比其他4種先進的注視估計方法(Dilated-Net[9]、RT-Gene[10]、FAR-Net[11]、CA-Net[12]),所提出的模型達到了更低的角度誤差(4.11°),并且模型僅有1.67M的參數量。對比結果顯示出所提出的模型在實現輕量化方面有著明顯的優勢。另外,該模型計算高效(FLOPS僅為124.13M),在保證高效率和高精度的前提下,LMLFR-Net表現出了良好的性能。
2.4" 消融實驗
2.4.1" SECA消融實驗
為了檢驗SECA模塊對LMLFR-Net性能的影響,本文分別將其與當前流行的輕量級特征提取網絡進行替換比較。從表2可以看出,SECA模塊對注視估計精度有著積極的貢獻。相較ShufflenetV1和V2在MPIIFaceGaze數據集上注視精度分別增加了1.3°和1.1°,且模型參數量有效減少。SECA在提高注視估計精度的同時,顯著降低了參數量。
2.4.2" SECA內部消融實驗
針對SECA模塊的內部結構進行了相應的消融實驗。消融實驗設計包括:1)SECA是否使用SE模塊;2)是否使用CA模塊;3)是否用空洞卷積代替深度可分離卷積。結果如表3所示,單一加入不同的功能模塊,對模型精度的提升不顯著,而將兩種功能組合起來,則能顯著改善模型性能,且參數的數量基本保持不變。在參數數量變化很小的情況下,模型的訓練速度和訓練后的測試速度沒有發生很大的變化,并且具有較高的精度。
2.4.3" FRM消融實驗
對于FRM模塊,本文將其與現有的金字塔池模塊PPM[15]、深度聚合金字塔池模塊DAPPM[16]進行對比。實驗將主干網絡的多級段特征拼接起來作為PPM和DAPPM的輸入。表4顯示了在 MPIIFaceGaze數據集上的對比結果。相比于PPM和DAPPM,FRM模塊將注視誤差降低了約0.2°,并且大幅減少了計算量。
3" 結" 論
針對當前注視估計模型參數量較大,開發部署較為困難這一問題,本文提出一種基于多級特征提煉的輕量化注視估計網絡LMLFR-Net。包含了用于特征提取的輕量級特征提取模塊SECA和一種輕量級多級特征提煉模塊FRM。實驗結果表明,所提出的模型各模塊均有效,整體上具有良好的輕量化性能。但輕量化網絡的特征提取能力有限,導致模型精度提升不夠顯著,因此在后續的研究中將會嘗試將知識蒸餾引入,進一步增強輕量化網絡的特征提取能力。
參考文獻:
[1] LOMBARDI M,MAIETTINI E,DETOMMASO D,et al. Toward an Attentive Robotic Architecture: Learning-Based Mutual Gaze Estimation in Human-Robot Interaction [J/OL].Frontiers in Robotics and AI,2022,9:770165[2024-05-10].https://doi.org/10.3389/frobt.2022.770165.
[2] LEMLEY J,KAR A,CORCORAN P. Eye Tracking in Augmented Spaces: A Deep Learning Approach [C]//2018 IEEE Games, Entertainment. Media Conference (GEM).Galway:IEEE,2018:1-6.
[3] URAMUNE R,SAWAMURA K,IKEDA S,et al. Gaze Depth Estimation for In-vehicle AR Displays [C]//AHs'23: Proceedings of the Augmented Humans International Conference.Glasgow:Association for Computing Machinery,2023:323–325.
[4] ZHANG X C,SUGANO Y,FRITZ M,et al. It's Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Honolulu:IEEE,2017:2299-2308.
[5] OH J O,CHANG H J,CHOI S L. Self-Attention with Convolution and Deconvolution for Efficient Eye Gaze Estimation from a Full Face Image [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New Orleans:IEEE,2022:4988-4996.
[6] KOTHARI R,MELLO S D,IQBAL U,et al. Weakly-Supervised Physically Unconstrained Gaze Estimation [C]//In Proceedings of the Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:9975-9984.
[7] WANG Y M,JIANG Y Z,LI J,et al. Contrastive Regression for Domain Adaptation on Gaze Estimation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:19354-19363.
[8] MA N,ZHANG X Y,ZHENG H T,et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design [C]//Computer Vision-ECCV 2018.Munich:Springer,2018:122-138.
[9] CHEN Z K,SHI B E. Appearance-Based Gaze Estimation Using Dilated-Convolutions [J/OL].arXiv:1903.07296 [cs.CV].[2024-05-13].https://doi.org/10.48550/arXiv.1903.07296.
[10] FISCHER T,CHANG H J,DEMIRIS Y. RT-GENE: Real-Time Eye Gaze Estimation in Natural Environments [C]//Computer Vision-ECCV 2018.Munich:Springer,2018:339-357.
[11] YIHUA CHENG,ZHANG X C,FENG LU,et al. Gaze Estimation by Exploring Two-Eye Asymmetry [J]. IEEE Transactions on Image Processing,2020:29:5259–5272.
[12] CHENG Y H,HUANG S Y,WANG F,et al. A Coarse-to-Fine Adaptive Network for Appearance-Based Gaze Estimation [C]//Proceedings of the AAAI Conference on Artificial Intelligence.Vancouver:AAAI Press,2020,34(7):10623-10630.
[13] LIU C X,ZOPH B,NEUMANN M,et al. Progressive Neural Architecture Search [C]//Proceedings of the European Conference on Computer Vision.Munich:Springer,2018:19-35.
[14] HOWARD A,SANDLER M,CHEN B,et al. Searching for MobileNetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019: 1314-1324.
[15] ZHAO H S,SHI J P,QI X J,et al. Pyramid Scene Parsing Network [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:6230-6239.
[16] PAN H H,HONG Y D,SUN W C,et al. Deep Dual-Resolution Networks for Real-Time and Accurate Semantic Segmentation of Traffic Scenes [J].IEEE Transactions on Intelligent Transportation Systems,2023,24(3):3448-3460.
作者簡介:周廣澳(1999—),男,漢族,安徽蚌埠人,碩士研究生在讀,研究方向:計算機視覺、注視估計;陶展鵬(1997—),男,漢族,安徽淮南人,碩士研究生在讀,研究方向:計算機視覺、注視估計。