代歡歡,譚生祥,張旺
(四川大學計算機學院,成都 610065)
DOI:10.3969/j.issn.1007-1423.2021.07.028
人們能夠根據別人頭部的朝向和運動理解別人的意圖,這是一種非常重要的非語言形式的交流能力。頭部姿態估計研究在很多領域都具有廣泛的應用場景,例如人臉識別、虛擬現實、駕駛員輔助系統、學生課堂注意力估計,等等。頭部姿態估計的應用領域詳見表1。
近年來越來越多的研究者投入到頭部姿態估計這一課題的研究,但頭部姿態估計的系統綜述文獻卻不多。2009 年,Murphy Chutorian 等人[1]發表了第一篇頭部姿態估計綜述論文。這篇論文對2009 年以前的頭部姿態估計方法進行了分類總結,并且討論了每種方法的優缺點。國內學者唐云祁等人[2]在2014 年發表過一篇綜述。近幾年,隨著計算機視覺領域的蓬勃發展,頭部姿態估計領域也取得了很大的進展,許多具有更高精度的頭部姿態估計新方法也相繼出現。本文將參考國內外研究者在該領域的研究情況,重點歸納近些年出現的新方法,對頭部姿態估計方法進行分類總結和討論。

表1 頭部姿態估計應用領域
在計算機視覺領域中,頭部姿態估計是從二維數字圖像推斷出三維空間中人的頭部朝向的過程。頭部姿態在三維空間中可以采用歐拉旋轉角來表示,該旋轉角由三個方向上的角度來確定,通常用水平方向(yaw)、垂直方向(pitch)以及圖像面內旋轉的角度(roll)來表示。頭部姿態的三維空間表示如圖1 所示。
我們通常用歐拉旋轉角來表示頭部姿態。理論上,完整的頭部姿態范圍為圍繞X軸(pitch 方向)、Y軸(Yaw 方向)、Z軸(方向)分別旋轉-90°~90°。在實際生活中,正常成年人頭部偏轉范圍為圍繞于X軸偏轉-60.4°~69.6°,圍繞Y軸偏轉-40.9°~36.3°,圍繞Z軸偏轉-79.8°~75.37°。

圖1 頭部姿態示意圖及偏轉方向
由1.1 小節的描述可知,頭部姿態估計解決的問題就是從二維數字圖像中估計出用戶在三維空間中的頭部姿態,從而得到一個三維姿態偏轉角參數,即歐拉旋轉角。從本質上來講,頭部姿態估計就是尋找二維圖像空間到三維姿態空間的一個映射關系,或者二維圖像空間先到特征空間再到三維姿態空間的映射關系。該映射關系詳見圖2。

圖2 頭部姿態估計問題映射關系圖
頭部姿態估計性能評價指標是衡量頭部姿態估計算法優劣的重要參考,頭部姿態估計評價指標主要包括平均絕對誤差(Mean Absolute Error,MAE)和絕對誤差標準差(Standard Deviation of Absolute Error,SDAE)。
(1)平均絕對誤差
德國政府負責大型儀器設備的購置,而管理單位負責日常運營、維護等,并向所有科研單位和高等院校的研究人員開放。根據德國政府的規定,所有設備管理單位都需要成立協調委員會來規劃儀器設備的使用。以重離子研究所管理的重離子加速器為例。協調委員會評估所有使用申請,包括項目資金來源,研究領域,所需的運營條件和具體日期。管理負責人基于評估意見做出決定。
平均絕對誤差是指預測出的頭部姿態偏轉角度和實際偏轉角度之間的距離的平均值。平均絕對誤差計算公式如下:

其中fi為第i 個樣本的預測角度值,yi為真實角度值。
(2)絕對誤差標準差
平均絕對誤差只能反映預測角度跟實際角度之間的差距,不能反映誤差的離散程度。反映誤差的離散程度一般選用絕對誤差標準差作為評價指標。絕對誤差標準差的計算公式如下:

國內外研究者對頭部姿態估計這一課題的研究從20 世紀90 年代至今已有30 年的時間了,在這期間提出了好幾十種頭部姿態估計方法。本節針對當前國內外頭部姿態估計領域的研究情況,對現存的頭部姿態估計主流方法進行一個分類綜述,不同分類之間的方法并不是互斥的。詳細分類情況如表2 所示。

表2 頭部姿態估計方法分類情況
基于外觀模板方法是早期比較傳統的方法。該方法的流程是首先對每類頭部姿態建立標準模板,然后將待識別的樣本圖像與具有相應姿態標簽的標準模板進行匹配,與之匹配度最高的模板類別即為該樣本所屬的類別,圖3 為示例圖。J.Sherrah 等人[3]在實驗中采用Gabor 小波濾波器方法來提取頭部朝向特征信息來進行外觀模板配。外觀模板方法的優點是標準模板庫可擴展,并且不需要負樣本或者面部關鍵點。外觀模板的缺點是隨著模板庫的數量不斷增加,匹配樣本的計算成本也更高。模板庫的樣本豐富程度對估計的準確率也有很大的影響。

圖3 外觀模板方法示例圖
基于回歸的方法是指通過學習從二維圖像空間到三維頭部姿態角度空間的一個映射關系,圖4 中提供了圖示。Torki 等人[4]首先從訓練樣本中提取局部特征,學習其空間排列的嵌入表示,然后將嵌入空間特征映射到三維頭部姿態角。Drouardt 等人[5]在實驗中提取目標對象的HOG 高維特征,將其映射為頭部姿態角的參數和人臉邊框的平移。就目前來說,基于回歸的方法具備實時性好、準確率較高的優點,缺點是對遮擋和噪聲特別敏感,在自然場景中頭部姿態估計的精度較低。

圖4 基于回歸方法圖示
基于流形嵌入的方法將頭部姿態假定為圖像空間中一個平滑的低維流形。在頭部姿勢估計中,對流形進行建模,并且采用嵌入技術將新樣本投影到流形中,然后使用嵌入空間中的回歸或嵌入模板匹配之類的技術將該低維嵌入用于頭部姿勢估計,圖5 中提供了圖示。Lu.J 等人[6]在文章中提出了一種保序流形分析法對頭部姿態的估計進行估計,作者在實驗中首先找到一個低維子空間,使該子空間中相似標簽值的樣本相鄰,反之不相似的樣本遠離,然后學習低維空間特征到樣本頭部姿態真實值的多線性回歸模型。流形嵌入的方法仍需在流形空間對特征進行分類和回歸。

圖5 基于流形嵌入方法
基于幾何的方法是指獲取頭部形狀和面部關鍵點的相對位置,利用空間中的幾何關系來進行頭部姿態估計,如圖6 所示。這類方法通常先確定面部關鍵點的位置,然后通過這些關鍵點的相對位置。Nikdaidis等人[7]提出了一種結合自適應霍夫變換和模板匹配的方法來進行面部關鍵點檢測,然后基于兩眼和嘴巴的關鍵點形成的等邊三角形的變形來計算水平方向上的頭部姿態。為了提升頭部姿態估計的準確率,Narayanan 等人[8]提出了一個通用的水平頭部姿態估計的幾何模型,并且在多個標準數據集上驗證了該模型的有效性。基于幾何的方法過程簡單,時間復雜度較低,但是面部關鍵點的定位和檢測仍是目前的難點所在。

圖6 基于幾何方法
基于跟蹤的方法是指通過視頻前后幀中頭部的相對運動來進行頭部姿態估計。Xiao 等人[9]提出了一種圓柱體模型的頭部跟蹤算法。該方法可以跟蹤視頻中的頭部運動,恢復頭部的運動軌跡即三維空間中的旋轉(偏轉角)和平移。Zhao 等人[10]提出了基于SIFT 特征匹配的頭部姿態跟蹤算法。該方法對兩個連續幀進行SIFT 特征檢測,然后通過深度相機獲取特征點在三維空間中的位置,最后通過跟蹤到的特征點來進行頭部姿態估計。基于跟蹤的方法一般精度較高,缺點是難以準確初始化位置和頭部姿態以生成新模型或調整現有模型。
基于分類和回歸融合的方法是指將頭部姿態估計既看成分類問題又看成回歸問題,組合兩者的優勢來提升估計的準確率。Ho 等人[11]將頭部姿態角度劃分成固定數目區間并且分配好標簽,然后針對不同標簽訓練一個多分類SVM 進行頭部姿態角的粗糙分類,接下來再針對每個區間訓練一個SVR 來得到更精確的頭部姿態角度。Ruiz 等人[12]提出了一種多損失卷積神經網絡(如圖7 所示)進行頭部姿態估計,該網絡架構首先通過主干網絡提取特征,然后采用三個分支網絡(分別代表yaw、pitch、roll 方向)對不同角度進行單獨估計,每個分支網絡都采用交叉熵和均方差兩種損失函數組合進行優化。近幾年來,基于分類和回歸融合的方法由于其新穎的角度和極高的精度受到了大量學者的關注和研究。
近些年,深度學習在頭部姿態估計研究領域大放異彩,許多學者提出了基于卷積神經網絡的頭部姿態估計方法。Cai 等人[13]采用了兩個神經網絡來訓練頭部姿態估計分類器,在訓練過程中采用了平移和縮放來增大訓練的數據集。Ranjan 等人[14]提出了一種多任務深度學習框架,該框架涵蓋了人臉檢測,面部關鍵點檢測,頭部姿態估計。由于多任務之間具有協同作用,單個任務的性能在原有基礎上都得到了一定的提升。基于深度學習的頭部姿態估計方法采用端到端的識別,在該領域表現出了優異的性能,該方法的缺點是訓練過程需要大量的數據集,數據采集過程耗時耗力。

圖7 基于分類和回歸融合的神經網絡結構
總的來說,近幾年頭部姿態估計算法無論是在理論研究還是實際應用方面都取得了很大的成果。然而,頭部姿態估計研究仍然面臨著諸多挑戰,估計的精度受多方面的因素影響,這些因素包括透視畸變、畫面遮擋、數據集標注困難、跨數據集,等等。除了估計的精度問題,實時性問題也是實際應用中面臨的一大難點。如何兼顧提升精度和降低預測時間也是頭部姿態估計未來的研究趨勢。