喬體洲 戴樹嶺
(北京航空航天大學 自動化科學與電氣工程學院,北京100191)
頭部姿態計算技術是一種利用光學、電磁學、計算機等理論和設備分析人類頭部姿態參數的技術,是人體姿態識別的重要分支之一,也是人機交互領域的重要研究領域之一.使用電磁跟蹤設備是工業應用領域比較成熟的方案,但是對環境要求比較苛刻.基于光學測量的方案應用潛力已經顯現,隨著計算機技術的不斷進步,以計算機視覺技術為基礎進行頭部姿態計算的研究越來越多地受到人們的重視.
雖然基于二維圖像數據的相關研究是熱點之一[1-2],但是在實際應用中容易受到環境光亮度變化、遮擋、面部表情變化等影響,穩定性較差,而且計算速度較慢[3].利用深度圖像信息計算頭部姿態可有效避免受環境光變化的影響,但是目前已有的一些依靠深度信息的方法[4-7]計算頭部姿態的研究存在計算速度和識別成功率相互制約的問題,且不能完全解決遮擋、面部表情變化、數據噪聲等問題.由于隨機森林[8]能夠高效地處理大規模的訓練數據,還具有很高的運行速度和廣泛的適用性等特點[9-10],將隨機森林應用于基于計算機視覺技術的頭部姿態計算可以相對容易地實現計算速度和性能之間的平衡[11-14],但是由于隨機森林的圖像特征、二元測試的決策函數、度量函數等的選取對于噪聲和干擾敏感程度不一致,以及對特征的辨識度不同,在實現高識別精度和識別率的同時,解決遮擋、面部表情變化等的影響依然是很具有挑戰性的問題.
本文的研究目的是利用隨機森林計算速度快、抗干擾能力強等特點,在基于深度信息計算頭部姿態時,降低姿態參數的估計方差,提高計算的穩定性,并提高處理存在遮擋的頭部深度數據的能力.由于使用隨機森林進行特征點識別不依賴任何特定的面部特征,有潛力降低頭發、眼鏡等遮擋對性能的影響,本文使用隨機森林進行特征點識別,并在圖像特征中使用曲率提高二元測試的特征識別力,再對投票聚類得到的群簇進行Mean Shift以降低噪聲干擾.
隨機森林的構建過程依照Breiman[8]描述的方式進行(圖1).決策樹是根據一組標注參數真實值的樣本子域圖像集合的隨機子集合訓練建立的,這些圖像塊是從訓練數據集的圖像中隨機提取出來的.從根節點開始,每一個決策樹的建立過程都是一個遞歸過程,非葉子節點包含了進行分割的決策函數,它控制了數據進入哪個子節點.

圖1 隨機回歸森林進行頭部姿態計算Fig.1 Head pose estimation with random regression forest
由于訓練數據包含頭部位置和頭部姿態的真實值,訓練時可以標注一組頭部位置和頭部朝向矢量的真值,即圖2中所示的Q1和F1.頭部位置的具體標注點各異,圖2假設標注為鼻尖的位置.文獻[12-13]直接使用了標注的頭部位置和頭部朝向矢量,在深度數據的采樣子域保存了F1和F3,圖3所示即為該標注方法的計算效果,所含高誤差投票會影響結果準確度.為了使得計算對象之間的關系更具一般化并降低估計方差,本文在樣本子域中保存的是F2和F3,這樣在最終的計算中投票估計Q1和Q2點,兩者確定的矢量即為朝向矢量.

圖2 標注值選取示意圖Fig.2 Labelling selection demonstration

圖3 含有高誤差投票數據的計算結果Fig.3 Result with high error votes
最佳決策函數的選擇是來自于一組隨機生成的決策函數集φ*={φ},所有到達這個節點的樣本子域圖像塊都要經過這一組中所有的決策函數計算評估,使得這個節點分裂的信息增益最大化的決策函數作為當前節點的分裂決策函數:

信息增益的定義是

式中,ωL和ωR為到達左/右子節點的圖像塊所占總的訓練樣本集合的比率;H(P)為樣本子域圖像塊集合P的一個類熵度量函數.訓練過程中,在分裂節點依據該節點所保存的最優決策函數,數據進入左/右子節點,整個訓練過程迭代式進行下去,迭代的停止條件是達到了決策樹規定的最大樹深度,或者剩余的訓練樣本數量已經低于規定的最小值時,最終創建的是葉子節點.
樣本子域圖像塊標注了兩個實數矢量,其中θ1是該樣本子域圖像塊中心的三維點到鼻子尖端的方向矢量;θ2是以歐拉空間姿態角形式存儲的頭部姿態角.
因此這樣一組訓練圖像塊集合的參數化表示為 P={Pi=(Ji,θi)},其中 θi=(θ1i,θ2i)是依據標注真值得到的數據.如圖4所示,Ji表示根據一個圖像塊計算得到的圖像特征,可以是原始的深度數據Dv,也可以使用頂點法線數據Nv,但是Ji至少應當包括深度值特征.為了得到更精準的訓練分類,這里還使用了離散高斯曲率Kv和平均曲率Hv,根據Meyer等人的方法[15]計算三角網格的離散曲率.同時,使用單位法向量的極坐標表示,使得單位法線的變量參數簡化為兩個.

圖4 三角網格特征參數計算的變量定義Fig.4 Definition of feature parameters in triangular mesh


式中N(i)為點v的鄰域點集.
根據以上分析,特征 J∈{Dv,φ,μ,Kv,Hv},其中φ和μ為法向量的任意2個通道.決策函數φ(J)使用Haar特征,定義為兩個隨機矩形每個像素上的平均特征值的差值[10,12]:

式中,R1和R2為兩個定義在樣本子域圖像塊內的非對稱矩形;τ為閾值.使用單個像素的差值作為決策函數,對噪聲的干擾更加敏感[16].
假定θn是三變量的高斯隨機分布,可以將集合 P 的標注真值表示為 p(θn)=N(n,Σn),從而可以為n∈{1,2}計算其對應的微分熵H(P)n:

回歸度量函數是所有參數熵的和:

式中,an為參數相關的加權系數;Σn為方差矩陣.
將回歸度量函數代入信息增益gIG(φ),使其最大化,即使得以子節點的全部標注矢量θn計算的高斯分布的協方差最小化,可以降低回歸的不確定性.
經訓練后的每一個葉子節點中,類別概率p(c=k|P)和連續頭部姿態參數 p(θ1)和p(θ2)的分布都有保存,其中P為圖像塊集合,k為類別.分布的計算是使用到達該葉子節點的訓練樣本子域圖像塊進行的,然后在后面的部分中用于頭部姿態估測的計算.
在對深度圖像進行測試時,將采樣得到的一定量樣本子域圖像塊傳送到隨機森林中的所有決策樹中.每一個圖像塊都根據保存在當前節點的分裂決策函數的控制選擇下一步行動方式,當一個樣本到達葉子節點,就按照當前葉子節點保存的概率分布函數給出頭部姿態參數的估計.
在葉子節點中根據所保存的類別概率,可以分析當前的測試采樣圖像塊對于類別k的貢獻度.這個概率值表示了當前的圖像塊是否屬于頭部.為提高精確度這里只分析類別概率為1的葉子節點,再去掉對回歸過程的貢獻相對較小的有較高方差的葉子節點,即協方差的跡tr(Σ1)大于給定的閾值Mv的葉子節點.
經過濾后剩余的分布則用來估計鼻尖位置θ1,即通過對圖像塊的中心 θ(P)添加偏移均值1,得到鼻尖位置的分布;根據統計學的人體頭部平均直徑[17]對所有的投票進行聚類分析,使用Mean Shift得到進一步優化從而去掉那些異常值.最終得到的投票群簇如果足夠大,就認為是有效的結果.頭部群簇的高斯分布的總和是一個新的多變量高斯分布,均值作為頭部姿態的估計值,協方差作為估計的置信度.
隨機森林的訓練和測試,使用了數據庫ETH Face Pose Range Image Data Set[4](下文簡稱為ETH數據庫),數據提供了鼻子頂端的三維空間坐標和從鼻子頂端指向面部方向的矢量.在訓練隨機森林時使用了90%的ETH數據庫數據,剩余的10%數據則作為測試數據使用.隨機森林生長停止條件:決策樹的深度達到20;節點剩余圖像塊少于20.為了達到節點分裂最優化,在每個節點隨機生成30000個分裂決策函數,即生成1000種決策函數參數的不同值組合,每一種組合使用30個不同的閾值.實驗時使用的 CPU是 Intel Core i7 CPU@3.4 GHz.默認使用的參數值:鼻子位置的誤差閾值15 mm;面部朝向的角度誤差閾值15°;最大樹深度20;決策樹數量20;計算決策函數的樣本子域圖像分辨率40像素×40像素;采樣步幅10像素.
由圖5a、圖5b可見,分辨率偏小無法一次性獲得足夠的信息來預測頭部姿態;增大分辨率也會帶來性能的一定損失.如果將圖像塊的大小控制在80像素×80像素到100像素×100像素之間是一個比較合理的選擇.圖像特征中使用曲率對成功率的提高作用比較明顯,當訓練圖像數據的數量達到2 000之后精度的增高幅度很小.在接下來的實驗中,每個決策樹使用3000張深度圖像進行訓練,每張訓練圖像中提取出大小為100像素×100像素的圖像塊50個.圖5c~圖5f所示的實驗是分析隨機森林決策樹數量和采樣步幅在不同參數設定下對特征點的位置識別精確度的影響,以及對頭部姿態角的識別精確度的影響.在測試特征點位置的誤差時,是將鼻尖位置和面部朝向特征點位置的實驗結果統一分析得到的結果.實驗還測試了圖像特征對識別精度的影響.根據實驗結果可知,增加使用幾何法線等圖形特征比起增加決策樹的數量,能夠更大幅度地提升探測的精確度,使用曲率對精度的提升效果也比較明顯.

圖5 使用不同圖像特征時隨機森林參數對識別成功率、平均位置誤差和平均角度誤差的影響Fig.5 Experiments of different data features’effect on accuracy,average nose error and average direction error
在圖6a、圖6b中顯示的是經過對測試數據庫進行計算得到的誤差閾值和識別成功率的關系曲線,實驗還對比了不同圖像特征的影響.根據實驗數據可知,使用法線和曲率可以有效提高特征辨識力,從而提高成功率,但是使用高斯曲率后進一步使用平均曲率的影響比較微弱.
測試遮擋的影響,對測試數據做了遮擋處理.數據被遮擋比例的計算方式為:由于遮擋損失的有深度數據的像素數量,與遮擋前所有的有深度數據的像素數量的比值.從圖6c中的曲線可以看到,存在遮擋的情況下使用曲率可以有效減小識別誤差;而且圖像特征使用曲率時,10%以內的遮擋比例對平均位置誤差的影響很小,在20%的遮擋率情況下,可以使得平均誤差在10mm以內.圖6d所示為頭部姿態的平均識別誤差與數據被遮擋比例之間的曲線關系.在遮擋比例大于15%之后,平均角度誤差急劇增大;小于15%時,遮擋比例的變化對于平均誤差的影響比較平緩,尤其是圖像特征使用曲率的情況下,平均角度誤差一直低于10°.圖6e和圖6f所示為遮擋比例與認定為識別成功的角度差閾值對于識別成功率的影響.由實驗可知,圖像特征使用曲率有助于提高識別的成功率.將閾值設為5°的條件比較嚴格,成功率相對較低;而10°~15°的閾值設定較為平衡,既能保證成功率較高,誤差范圍的值也比較小.
根據圖7可以看到,當數據被遮擋的比例大約在13%以內時,本文的方法都可以獲得90%以上的正確識別率.而Tang[14]采用的圖像特征ISF(Integral Slice Features)由于更容易受到遮擋的影響,所以對遮擋的影響非常敏感.
圖8和圖9給出了部分測試數據的效果,分別顯示了本文方法計算的頭部姿態和標注的頭部姿態.從總體上看,在圖像特征中使用法線和曲率,較大幅度地提高了特征辨識力,從而提升了隨機森林系統進行特征點位置計算的精度,可以使得位置的平均誤差在10 mm以內.由于所使用的部分源數據是在有遮擋物的情況下采集到的深度數據,所以使用該數據進行的測試事實上已經說明了本文方法在處理有遮擋物時的性能.本文還對隨機產生0%~30%遮擋比例的數據進行了實驗測試,從圖6c~圖6f的實驗結果看到10%以內的遮擋對算法性能的影響相對很小,對平均位置和角度誤差的影響分別在10%和15%以內,存在20%的遮擋比例時也可以實現大約10 mm的平均位置誤差和13°的平均角度誤差.

圖7 不同方法識別效果的實驗結果Fig.7 Comparison of different methods

圖8 ETH數據庫中部分數據的識別結果Fig.8 Recognition results of ETH database

圖9 測試遮擋影響時的識別結果Fig.9 Recognition results of head depth data with partial occlusions
1)本文方法使用多種特征計算決策函數可以提升頭部姿態跟蹤的能力,實現穩定的頭部姿態識別性能,適當的參數設置可以達到95%左右的識別成功率;
2)降低了跟蹤誤差,達到了5~6 mm左右的位置識別精度和6°~8°的角度識別精度;
3)有效提高了對有遮擋數據的處理能力,數據被遮擋的比例大約在13%以內時,本文的方法都可以獲得90%以上的正確識別率.
References)
[1]Martins P,Batista J.Accurate single view model-based head pose estimation[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4813369
[2]Morency L P,Whitehill J,Movellan J.Generalized adaptive viewbased appearance model:integrated framework for monocular head pose estimation[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4813429
[3]Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:a survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):607 -626
[4]Breitenstein M D,Kuettel D,Weise T,et al.Real-time face pose estimation from single range images[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2008:4587807
[5]Lu X G,Jain A K.Automatic feature extraction for multiview 3D face recognition[C]//Proceedings of International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Computer Society Press,2006:585 -590
[6]Weise T,Leibe B,Van G L.Fast 3d scanning with automatic motion compensation[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2007:4270316
[7]Breitenstein M D,Jensen J,Hilund C,et al.Head pose estimation from passive stereo images[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2009:219 - 228
[8]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32
[9]Gall J,Lempitsky V.Class-specific hough forests for object detection[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2009:1022 -1029
[10]Criminisi A,Shotton J,Robertson D,et al.Regression forests for efficient anatomy detection and localization in CT studies[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2010:106 -117
[11]Huang C,Ding X Q,Fang C.Head pose estimation based on random forests for multiclass classification[C]//Proceedings of International Conference on Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2010:934 -937
[12]Fanelli G,Gall J,Van G L.Real time head pose estimation with random regression forests[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Computer Society Press,2011:617 - 624
[13]Fanelli G,Weise T,Gall J,et al.Real time head pose estimation from consumer depth cameras[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2011:101 -110
[14]Tang Y Q,Sun Z N,Tan T N.Real-time head pose estimation using random regression forests[C]//Lecture Notes in Computer Science.Heidelberg:Springer-Verlag,2011:66 - 73
[15]Meyer M,Desbrun M,Schr?der P,et al.Discrete differential-geometry operators for triangulated 2-manifolds[J].Visualization and Mathematics,2002,3(2):52 -58
[16]Gall J,Yao A,Razavi N,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202
[17]Paysan P,Knothe R,Amberg B,et al.A 3D face model for pose and illumination invariant face recognition[C]//Proceedings of International Conference on Advanced Video and Signal Based Surveillance.Piscataway,NJ:IEEE Computer Society Press,2009:296-301