張毅,廖巧珍,羅元
(1.重慶郵電大學自動化學院,重慶400065;2.重慶郵電大學光電工程學院,重慶400065)
融合二階HOG與CS?LBP的頭部姿態估計
張毅1,廖巧珍1,羅元2
(1.重慶郵電大學自動化學院,重慶400065;2.重慶郵電大學光電工程學院,重慶400065)
針對頭部姿態估計受光照變化、表情、噪聲干擾等因素影響導致識別率低的問題,提出一種融合二階梯度方向直方圖(HOG)和中心對稱局部二值模式(CS?LBP)特征的姿態特征,用于單幀圖像的頭部姿態估計。采用二階HOG對人臉圖像進行形狀信息提取,得到人臉的輪廓特征;用CS?LBP進行局部紋理信息的提取,通過將二階HOG提取的輪廓特征和CS?LBP提取的紋理特征進行融合,得到更有效的人臉特征;將融合的姿態特征通過核主成分分析(KPCA)變換非線性映射到高維核空間中,抽取其主元特征分量,采用支持向量機(SVM)分類器進行姿態估計。實驗結果表明,方法和HOG、LBP、二階HOG、CS?LBP方法相比有更高的分類準確率,對光照的變化有很好的魯棒性。
頭部姿態估計;梯度方向直方圖(HOG);中心對稱局部二值模式(CS?LBP);核主成分分析(KPCA);支持向量機(SVM)
頭部姿態信息在現實生活中有廣泛的應用,例如虛擬現實、人機交互、智能監控、遠程視頻會議、疲勞駕駛檢測系統等[1?2],頭部姿態估計成為近年來計算機視覺與模式識別的熱點。頭部姿態估計算法主要分為2類:基于模型的方法和基于圖像表觀的方法[3]。基于圖像表觀的方法主要適用于低分辨率的單幀圖像,受到了眾多學者的廣泛重視。這類方法使用的姿態特征是基于人臉圖像的亮度和顏色獲取的,容易受到光照、噪聲干擾等其他因素的影響,這些因素都會直接影響姿態估計的性能。
已有學者提出了不少圖像特征來描述姿態差異并減少光照變化、噪聲干擾等因素的影響。Zhang等[4]采用樸素貝葉斯分類器融合獲取的頭部姿態圖像,然后用隱馬爾可夫模型識別頭部姿態,獨立成分分析(independent component analysis,ICA)被提出用于頭部姿態估計,并取得了很好的效果,但其運算量大。王毅等[5]提出將DCT和Gabor結合提取人臉特征,實驗結果表明融合特征獲得的性能遠遠好于單獨的特征提取方法,但Gabor提取的特征維數太大,不利于后期的分類工作。Jain和Vailaya[6]最先提出了采用邊緣梯度直方圖來描述特征,但其一般不具有旋轉不變性。Dalal[7]也進行了梯度方向的研究,將梯度方向直方圖(histogram of oriented gradient,HOG)特征用于來行人檢測。HOG特征是描述邊緣和形狀信息的最好的特征之一,且對光照和小量的偏移具有魯棒性,但其只是圖像區域的一階統計特征,描述能力和姿態區分能力還可以進一步提高。然而,二階HOG特征比HOG特征包含更加豐富的形狀信息,且這些形狀信息與姿態息息相關,所以理論上二階HOG擁有更強的特征描述能力和姿態識別能力。而中心對稱局部二值模式(center symmetric local binary patterm,CS?LBP)是LBP算法的改進,能夠很好地描述圖像的局部紋理特征,對單調的灰度變化具有不變性,分類能力強,且維數不高,運算簡單。
本文提出一種融合二階HOG特征和CS?LBP特征的頭部姿態估計算法。二階HOG提取形狀信息,CS?LBP提取紋理信息,通過將二階HOG提取的輪廓特征和CS?LBP提取的紋理特征進行融合,起到了互補的效果,從而改善了分類識別性能。為了降低計算復雜度,進一步提升系統識別的實時性,本文還采用核主成分分析(kernel principal component analysis,KPCA)[8]變換將融合的特征非線性映射到高維核空間中,抽取其中的主元特征分量。在CMU?PIE人臉數據庫和FacePix數據庫上的實驗結果表明,本文方法比HOG、LBP等方法的分類準確率更高,不僅對光照的變化有很好的魯棒性,保留了HOG形狀描述特征的優點,還大大降低了計算復雜度,且實時性好。
1.1 二階HOG
二階HOG[9]是在HOG特征的基礎上,通過計算多個圖像單元直方圖元素之間的相互關系,得到圖像的二階統計特征,從而能夠很好地描述人臉的邊緣。該圖像特征包含高階的梯度方向分布統計信息,具有很強的姿態描述能力,對光照變化和小量的偏移不敏感。二階HOG的具體計算步驟如下:
1)對原始圖像進行灰度化處理,圖像的大小統一設置為32×32像素。
2)采用Gamma校正法進行顏色空間的標準化處理。
3)把樣本圖像分割為4×4個8×8像素的單元,根據式(1)和式(2)計算各圖像單元的有向梯度直方圖。

式中:I(x,y)是人臉圖像在點(x,y)處的像素素值,式(1)為(x,y)處的梯度幅值,式(2)為(x,y)處的梯度方向。本文采用一階梯度算子[1,0,-1]進行水平和垂直方向的梯度計算。
4)將每相鄰的2×2個單元構成一個圖像塊,將塊內的所有直方圖元素進行相互之間的成對組合,并采用函數f計算一種成對關系值[10],從而得到圖像塊的成對關系向量。函數f可取任一函數進行度量2個直方圖元素之間的關系,本文嘗試采用調和平均值。
5)使用L2范數對圖像塊的成對關系向量進行歸一化,然后將所有的歸一化向量串聯起來,從而得到整個人臉圖像的二階HOG特征。
1.2 CS?LBP
LBP算子由Ojala[11]提出,是以像素點為基礎對圖像進行描述的。設以圖像中某個局部區域內的任意一個像素點gn(xn,yn)為閾值,對周圍各個領域像素點做二值化處理,凡是灰度比閾值大的鄰域點置為1,比閾值小的鄰域點則置為0,從而得到一個8位的二進制數。
CS?LBP[12]是LBP算法的改進,通過對關于中心對稱的像素對之間的灰度值變化比較來描述局部紋理變化,不僅加強了抑制噪聲能力,減小計算復雜度,還降低了特征表示的維數。計算公式如式(3)所示:

式中:gu(u=0,1,…,P-1)表示P個以中心像素gn為圓心,R為半徑的圓周上的像素值。gu,gu+(p/2)是關于中心像素對稱的像素對,而閾值T是用于判定局部紋理區域的平坦性,Heikkil?等驗證了閾值T取灰度范圍的1%。原始LBP算子和CS?LBP算子的區別如1圖所示。

圖1 LBP與CS?LBP對比Fig.1 Comparion between LBP and CS?LBP
1.3 本文特征融合方法
特征融合的基本思想是對圖像分別提取二階HOG特征和CS?LBP特征,然后將2種特征進行融合,形成最終的圖像特征。具體融合步驟如下:
1)獲取二階HOG特征向量。
①對預處理后的人臉圖像提取二階HOG的輪廓特征,得到二階HOG圖像,將二階HOG圖像劃分成4×4個大小統一、互不重疊的均勻子塊圖像。
②統計二階HOG圖像的所有子塊圖像的二階HOG特征,將所有塊的直方圖特征按照順序級聯成二階HOG圖像的特征向量,用y1∈Rm1表示,如圖2所示。

圖2 二階HOG特征提取Fig.2 Feature extraction of the second order HOG
2)獲取CS?LBP特征向量。
①用CS?LBP算子對預處理后的人臉圖像進行掃描,得到該圖像對應的CS?LBP編碼圖像。同樣將編碼圖像分成4×4個大小相等、互不重疊的均勻子塊圖像,并用雙線性插值來消除邊緣效應。
②對編碼圖像的所有子塊圖像的CS?LBP特征進行直方圖統計,將所有塊的直方圖特征按照順序級聯成CS?LBP圖像的特征向量,用y2∈Rm2表示,如圖3所示。

圖3 CS?LBP特征提取Fig.3 Feature extraction of CS?LBP
3)融合兩者特征向量。
將二階HOG特征y1和CS?LBP特征y2按照式(4)進行歸一化融合,得到融合特征向量Z∈Rm1+m2:

式中:σ1和σ2分別為y1和y2的標準差,可根據特征向量的方差的平方根計算。
本文將兩者特征進行融合用于頭部姿態估計。同時為了進一步降低計算復雜度,并提升系統識別的實時性,本文將KPCA變換引入系統。本文所采用的基于二階HOG與CS?LBP混合方法的頭部姿態估計流程圖如圖4所示。

圖4 基于二階HOG與CS?LBP的頭部姿態估計流程Fig.4 Flowchart of head pose estimation based on the second order HOG and CS?LBP
2.1 KPCA
KPCA變換是將輸入空間通過某種隱式方式映射到某個高維特征空間,并在特征空間中實現主元成分。相比只適用于線性特征提取問題的主成分分析(principal component analysis,PCA)、線性判別分析(linear discriminant analysis,LDA)等傳統降維方法,KPCA不僅適用于解決非線性特征提取問題,還能比PCA提供更多的特征數目和更多的特征質量,可以最大限度地抽取指標的信息。
假設訓練集S:x1,x2,…,xN∈X,Φ是X到核空間F的一個核映射,則訓練集S在核空間中的像素點用Φ(x1),Φ(x2),…,Φ(xN)表示,那么稱它們為核空間中的訓練集。通過核函數的定義可知訓練集S的核矩陣滿足式(5):

則計算矩陣:

式中:EN為元素均為1/N的N階矩陣。
對K^進行特征值分解得到其特征值和相應的單位特征向量,即λi和vi(i=1,2,…,N),按照從大到小的順序將特征值排列,然后取前d個特征向量,并令則取Q=(a1,a2,…,ad)為降維矩陣。對于任一樣本x,其核主成分分析特征可通過式(7)抽取。

2.2 融合的特征KPCA抽取
得到上述方法提取的人臉融合特征后,采用KPCA進行主元特征分量的抽取。用xi表示融合特征的特征分量,Zi表示經KPCA抽取的主元特征分量,則人臉圖像的最終特征矢量滿足:

式(8)中核函數采用式(9)進行特征抽取:

式中:參數v、θ經過大量實驗后分別取v=0.8,θ=1進行本文的實驗。
經KPCA特征抽取后,將最終特征輸入到支持向量機(support vector machine,SVM)分類器[13]中進行頭部姿態估計。分類環節包括訓練分類器和姿態識別過程,將訓練集中的特征向量用于訓練得到分類器,實時姿態識別時將待識別的特征矢量輸入到訓練的分類模型中,得票最多的姿態即為待分類的姿態。
本文實現的頭部姿態估計方法在Window 7操作系統下,將MATLAB和開源視覺庫OpenCV結合實現程序設計。本實驗選用FacePix數據庫的部分數據和CUM?PIE數據庫進行實驗。CMU?PIE數據庫收集了68個對象分別在13種不同姿態、4種表情、43種不同光照情況下的圖像,部分圖像如圖5所示。FacePix數據庫含有30個人的181個頭部姿態(在Yaw自由度上),共5 430幅圖像。圖6是某對象的10種姿態。

圖5 CUM?PIE數據庫中的人臉圖像Fig.5 Face images of CUM-PIE database

圖6 FacePix中某對象的10種姿態Fig.6 Ten poses of one in the FacePix database
為測試本文提出的姿態特征是否具有更好的分類識別效果,將本文提出的融合二階HOG與CS?LBP的特征和其他4種圖像特征進行比較,包括HOG特征、二階HOG特征(用HOG2nd表示)、LBP特征和CS?LBP特征。在CUM-PIE和FacePix 2個數據庫中選取20人,隨機抽取1~10人等作為訓練樣本,剩下的作為測試樣本,采用隨機抽取訓練樣本和交叉測試的方法進行實驗。實驗結果如圖7。

圖7 不同方法提取特征的對比Fig.7 Comparison of feature extraction by different approaches
為了進一步驗證本文提出的算法的有效性,將所有圖像特征都轉換成一維向量作為原始高維特征,并經過KPCA變換提取分類能力較強的特征分量,在FacePix數據庫中挑選570個不同姿態的樣本做比較實驗。假定以被觀測者為基準,取其向右側旋轉時對應的姿態角度為正角度,其向左旋轉時對應的姿態角度為負角度。在-90°~90°依次選取水平的9個姿態圖像,間隔取22.5°。采用SVM分類器進行頭部姿態估計。統計得到的識別率如表1所示。

表1 FacePix數據庫上測試的識別率Table 1 Recognition rate tested in FacePix database
從表1的測試結果可以看出:
1)和HOG特征、HOG2nd特征、LBP特征、CS?LBP特征這4種特征相比,本文提出的融合二階HOG和CS?LBP的特征更具有識別能力。
2)本文方法提取的樣本特征維數比HOG、HOG2nd、LBP和CS?LBP提取樣本特征的維數更低,從而使其計算復雜度更小,系統識別的實時性處理成為可能。
3)本文提出的融合二階HOG和CS?LBP的特征不進行特征抽取時的頭部姿態識別率為96.27%,而本文采用KPCA變換進行特征抽取后獲得的頭部姿態識別率為98.16%,與不進行特征抽取相比提高了接近2%。由此可見,KPCA變換能夠進一步提升整個系統的識別性能。
為了進一步驗證本文提出的姿態特征對光照的魯棒性,統計了不同算法在CUM-PIE數據庫上不同樣本數下的頭部姿態估計的識別率。本文選取了樣本數分別為200、300、400、500、600、700的強光照情況的頭部姿態圖像進行訓練和測試。由識別結果統計得到的識別率如表2所示。
從表2可以看出,當圖像光照很強時,前4種算法的識別率相對較低,平均識別率分別為91.64%、93.12%、88.41%和91.07%,而本文提出的算法識別率相對較高,平均識別率為96.44%,這說明本文提出的姿態特征對光照的變化有很好的魯棒性。圖8為不同方法在強光照情況下不同樣本數的頭部姿態識別率。

表2 在CUM?PIE數據庫上測試的識別率Table 2 Recognition rate tested in CUM?PIE database %

圖8 不同方法在光照很強時的對比Fig.8 Comparison of different approaches under strong light
本文提出了一種基于二階HOG特征和CS?LBP特征的姿態特征進行頭部姿態估計。同時引入了KPCA變換,在CUM?PIE和FacePix 2個人臉數據庫中做了驗證實驗。實驗結果表明,該方法提取的姿態特征對人臉有更強的姿態區分能力,比HOG、LBP、二階HOG、CS?LBP方法的分類準確率更高、計算復雜度更低,且實時性好,對光照的變化有很好的魯棒性,在光照強的條件下識別率高達96.44%。由于本文主要是針對水平方向上的頭部姿態旋轉進行的頭部姿態估計,所以下一步的研究方向是對同時繞不同軸旋轉的頭部姿態和更加精細的姿態角度進行識別。
[1]PATERAKI M,BALTZAKIS H,TRAHANIAS P.Visual estimation of pointed targets for robot guidance via fusion of face pose and hand orientation[C]//IEEE InternationalConference on Computer Vision Workshops.Barcelona,Spain,2011:1060?1067.
[2]李春玲,鄒北驥,王磊.基于面部和動作表情的雙模態情緒強度估計[J].系統仿真學報,2009,21(16):5047?5052.LI Chunling,ZOU Beiji,WANG Lei.Double?mode estima?tion of emotion intensity based on facial and action’s ex?pression[J].Journal of System Simulation,2009,2l(16):5047?5052.
[3]MA B P,CHAI X J,WANG T J.A novel feature descriptor based on biologically inspired feature for head pose estima?tion[J].Neurocomputing,2013,115:1?10.
[4]ZHANG Z Q,HU Y X,LIU M,et al.Head pose estimation in seminar room using multi view face detectors[M].Hei?delberg:Springer,2007:299?304.
[5]王毅,葉德謙.基于Gabor小波變換和兩次DCT的人臉表情識別[J].微電子學與計算機,2009,26(5):262?264.WANG Yi,YE Deqian.Facial expression recognition based on Gabor and two times DCT[J].Microelectronics&Com?puter,2009,26(5):262?264.
[6]JAIN A K,VAILAY A.Image retrieval using color and shape[J].Pattern Recognition,1996,29(8):1233?1244.
[7]DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR05).San Diego,USA,2005:886?893.
[8]LU J W,PLATANIOTIS K N,VENETSANOPOULOS A N.Face recognition using kernel direct discriminant analysis al?gorithms[J].IEEE Transactions on Neural Networks,2003,14(1):117?126.
[9]CAO H,YAMAGUCHI K,NAITO T,et al.Pedestrian rec?ognition using second?order HOG feature[C]//Proceedings of 9th Asian Conference on Computer Vision(ACCV 2009).Xi’an,China,2010:628?634.
[10]董力賡,陶霖密,徐光祐.基于二階梯度朝向直方圖特征的頭部姿態估計[J].清華大學學報:自然科學版,2011,51(1):73?79.DONG Ligeng,TAO Linmi,XU Guangyou.Head pose es?timation based on a second order histogram of the orienta?tion gradient[J].Journal of Tsinghua University:Science and Technology,2011,51(1):73?79.
[11]OJALA T,PIETIKANEN M,MAENPAA T.Multiresolu?tion gray?scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pat?tern Analysis and Machine Intelligence,2002,24(7):971?987.
[12]HEIKKIL? M,PIETIK?INEN M,SCHMID C.Descrip?tion of interest regions with local binary patterns[J].Pat?tern Recognition,2009,42(3):425?436.
[13]張毅,劉嬌,羅元,等.基于唇形的智能輪椅人機交互
[J].控制工程,2013,20(3):501?505.ZHANG Yi,LIU Jiao,LUO Yuan,et al.Human?machine interaction based on shape of lip for intelligent wheelchair[J].Control Engineering of China,2013,20(3):501?505.
Head pose estimation fusing the second order HOG and CS?LBP
ZHANG Yi1,LIAO Qiaozhen1,LUO Yuan2
(1.College of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;2.College of Photoe?lectric Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)
In order to improve head pose recognition rate under variable illumination,expression,and noise,etc.,a novel pose feature,fusing the second order histogram of the orientation gradient(HOG)with the center symmet?ric local binary pattern(CS?LBP)feature,is proposed in order to estimate head pose in a single frame image.The contour information of the facial image is extracted by the second order HOG,deriving the facial contour feature.CS?LBP is used to extract local texture information.More effective facial features can be obtained by fusing contour feature extracted by the second order HOG and the texture feature extracted by CS?LBP.Kernel principal compo?nent analysis(KPCA)is used to nonlinearly project the fused pose feature into a higher dimensional kernel space so as to further select the primary feature.A support vector machine(SVM)classifier is used for pose estimation.Experiment results show that the proposed method is more accurate than the HOG method and the LBP method.This method has good robustness for variable illumination.
head pose estimation;histogram of the orientation gradient(HOG);center symmetric local binary pat?tern(CS?LBP);kernel principal component analysis(KPCA);support vector machine(SVM)

張毅,男,1970年生,教授,博士生導師,主要研究方向為智能系統與移動機器人、機器人自主導航、機器視覺與模式識別、多傳感器信息融合。主持并完成省部級及其他科研項目10余項,申請國家發明專利4項。發表論文60余篇,其中被SCI、EI、ISTP收錄30余篇,出版專著1部,教材2部。

廖巧珍,女,1989年生,碩士研究生,主要研究方向為模式識別和人機交互。

羅元,女,1972年生,博士,教授,主要研究方向為機器人視覺導航、圖像處理與模式識別。主持國家自然科學基金、重慶市自然科學基金、重慶市LED重大專項等國家和省部級科研項目10余項,獲重慶市科技進步三等獎1項,申請和獲得國家發明專利20余項。發表學術論文60余篇,其中被SCI、EI檢索30余篇,出版專著4部。
TP391.4
A
1673?4785(2015)05?0741?06
10.11992/tis.201506019
http://www.cnki.net/kcms/detail/23.1538.tp.20150930.1556.014.html
張毅,廖巧珍,羅元.融合二階HOG與CS?LBP的頭部姿態估計[J].智能系統學報,2015,10(5):741?746.
英文引用格式:ZHANG Yi,LIAO Qiaozhen,LUO Yuan.Head pose estimation fusing the second order HOG and CS?LBP[J].CAAI Transactions on Intelligent Systems,2015,10(5):741?746.
2015?06?11.
日期:2015?09?30.
國家自然科學基金資助項目(60905066).
廖巧珍.E?mail:490957008@qq.com.