劉慶華,李 智
(江蘇科技大學 計算機學院,鎮江 212100)
人臉圖像涵蓋了眾多與個人特性相關的重要信息,如身份、性別、年齡、情緒等.基于人臉圖像檢測與識別的相關研究近幾十年來都是學者們所熱衷的領域,最常見的例子就是我們每個人身份證上的人臉圖像.目前基于二代身份證的人臉驗證技術正在被廣泛應用于火車站、銀行、機場等公共場所中以實現無人化智能化服務[1].
年齡作為人類的一項重要信息特征,在許多實際應用場景下均有涉及.而基于人臉圖像的年齡估計技術也逐漸被廣大研究者們所發掘.年齡估計技術可應用于基于年齡的訪問限制[2],例如禁止未成年人購買煙酒、限制玩網絡游戲的時長,禁止老年人參與刺激型項目等;也可應用于推薦系統,例如針對不同年齡段的消費者提供與之相適應的營銷策略;還可應用于人員的排查篩選,例如協助警方縮小嫌疑人的范圍.
關于人臉年齡估計的研究,文獻[3]首次引入主動外觀模型(active appearance model,AMM)的相關概念,以一個年齡函數描述了年齡隨著人臉特征變化的過程,并利用一個二次函數來表示年齡大小與面部特征特征向量的映射關系;文獻[4]提出一種年齡衰老模式子空間(aging pattern subspace ,AGES)方法,將一個人不同年齡段的一系列圖像構成一個年齡衰老模式子空間.近年來,陸續提出更多的年齡估計方法,文獻[5]采用偏最小二乘法(partial least squares,PLS)對年齡估計實驗進行降維處理,并取得了比常用降維處理方法——主成分分析法(principal component analysis,PCA)更佳的實驗效果;文獻[6]采用局部定向模式(local direction pattern,LDP)和Gabor小波變換分別提取人臉的全局和局部特征,經過特征融合后再使用PCA法進行降維,最后利用支持向量回歸(support vector regression,SVR)模型進行年齡估計,同樣取得了良好的實驗效果.
基于人臉圖像的年齡估計并不是一個簡單的過程,因為人類從出生到生長發育,再到成熟衰老是一個十分復雜且不受意識控制的過程,每個人都會因為先天遺傳、生活習慣、健康狀況等因素而表現出不同的面部特征,這種多樣性和不確定性給年齡估計的工作帶來了很大的挑戰.
人臉在年齡增長的情況下發生的變化主要為:嬰幼兒至青少年時期,臉部皮膚光滑富有彈性;而步入中老年之后,則會出現皺紋增多、光澤度降低等特征[7].年少時期的臉部輪廓變化[8],包括臉部整體大小變大,眼睛、鼻子變大,但眼睛占整個臉部比例變小等;成年之后的臉部特征變化,主要表現在皺紋與斑點增多、臉部顏色變深等[9],如圖1.

圖1 同一人在不同年齡的臉部圖像Fig.1 Face image of the same person at different ages
方向梯度直方圖(histogram of oriented gradient,HOG)方法與支持向量機方法(support vector machine,SVM)相結合最初被應用于道路行人檢測,并取得了不錯的實際效果.HOG的變形梯度方向金字塔在跨度較大的人臉年齡數據上表現良好[10];局部二值模式(local binary parrtern,LBP)是一種用于局部紋理信息提取的方法,具有良好的灰度不變性和旋轉不變性,在人臉圖像的年齡識別實驗中取得了良好的效果.
文中將HOG特征與LBP特征二者進行融合,建立一個雙特征的年齡估計模型用于估計不同時期人臉的年齡,HOG用于提取人臉輪廓及五官的形狀信息,LBP用于提取人臉皺紋信息,二者兼顧整體與局部,對于年齡增長過程中的人臉特征變化在相互補充下可獲得更佳的表現.
針對人臉圖像年齡特征提取困難及精確度較低的問題,文中使用LBP和HOG融合模型進行人臉年齡特征的提取,并采用支持向量回歸的方法對人臉圖像進行年齡回歸.圖2為該方法的大致步驟.

圖2 文中年齡估計方法步驟Fig.2 Age estimation method steps in this paper
對年齡變化所表現出的特征進行提取,遵循的原則是同類圖像差異盡量小,不同類圖像差異盡量大,即擁有較小的類內距和較大的類間距,如此可增強區分力度;同時盡量讓特征提取的時間復雜度降低以提高效率.
方向梯度直方圖是計算機視覺和圖像領域用于目標檢測的特征描述器[11].其原理是:首先確定一個采樣窗口,該窗口以選取的關鍵點作為中心.將關鍵點采樣窗口設置為一個8×8的像素領域,均分采樣窗口為4個大小相等的區域(稱其為塊或cell),每個塊大小是4×4;式(1)計算出每小塊每個像素的梯度方向,其中,I(x,y)為像素點(x,y)上的灰度值,θ(x,y)為像素點(x,y)上的梯度方向,隨后再計算每小塊每個像素的梯度幅值,如式(2),其中,m(x,y)為像素點(x,y)上的梯度幅值.
θ(x,y)=arctan[I(x,y+1)-I(x,y-1))/
(I(x+1,y)-I(x-1,y)]
(1)
m(x,y)=
(2)
圖3以單張人臉圖像為例說明HOG直方圖序列提取過程,箭頭方向即為梯度方向.

圖3 HOG直方圖序列提取過程Fig.3 Extraction process of HOG
LBP運用在年齡識別的思想是:在取得的人臉圖像中,每個像素均按照3×3的區域劃分,以圖像中心像素為閾值,將相鄰8個像素的灰度值分別與其比較,像素相對中心像素的中心灰度值進行比較,若周圍像素值大于中心像素值,則該像素點所在的位置被標記為1,否則標記為0[12-13].如此,在3×3的區域中,就可以產生8個經過比較的之后得出的二進制數,在一般情況下將其轉換成十進制數,稱之為LBP碼,表示區域中心像素點的LBP值,從而反映出該區域的紋理信息.
假設每個像素以灰度值f_c作為閾值,其周圍像素的灰度值若滿足,則將該點設置為1,否則為0.對其8個鄰域進行0/1編碼,得到一個長度為8的二進制串,用該二進制串作為該像素的編碼,如下:
(3)

在人臉圖像的特征提取層面將上述兩種特征進行融合,將數據集中的人臉圖像統一大小為P×P,隨后將其劃分為Q×Q個正方形區域,在此正方形區域內采用HOG與LBP兩種特征算子,計算得到整體特征.假設每個直方圖影響整體的效果一致,即所占權重相同,則在每張圖像被分為的(P/Q)2個小區域內計算的區域特征就可以被連接成總體特征.
假設將圖像G分為r行r列,G(x,y)表示第x行中的第y個區域,其中R=P/Q,x,y的范圍均在[0,r)之間.對于每一個G(x,y)區域,分別采用HOG與LBP算子求取每個區域位置的相應值,隨后統計得到直方圖H_g和H_l特征,將兩者進行融合,得到各小塊區域的融合特征,全圖共有r×r塊小區域,將它們連接起來之后即得到整幅圖像的融合特征K.
要做到精確的年齡估計,目前有兩種主流的評價指標,一種是累計指數(cumulative score,CS)[14],另一種是平均絕對誤差(mean absolute error,MAE).
建立年齡估計融合模型后,采用支持向量機回歸法進行年齡回歸[15-16].確定一個回歸函數,其通過數據集訓練得到,表示人臉圖像年齡與特征之間的關系.假設T=[t1,t2,…,tN]與L=[l1,l2,…,lN]分別代表人臉圖像特征與其對應的年齡估計值信息,其中N為訓練集的樣本總量.文中使用交叉留一法與支持向量機方法結合獲取年齡回歸函數.
支持向量機方法可以在訓練樣本的學習過程中,獲取一個分類超平面將不同類型的數據歸為不同類別,其核心是找到最優的分類超平面.在廣義上,最優分類平面的定義如下:
s.t.yi[(w·xi)+b]=1-ξii=1,2,…,N
(4)
式中:w為最優分類平面的法向量;ξi≥0為第i個樣本的松弛變量;分類錯誤的樣本被稱為離群點,C為離群點權重;b為最優分類平面常數項.
核函數一般直接采用徑向基函數,定義為:
K(x,z)=exp(-gmma‖x-z‖2)
(5)
式中:gmma為1/2σ2,隨后可通過交叉驗證法選擇式(4)中的離群點權重C與gmma數值得到回歸函數.
圖4為文中年齡回歸方法具體流程.

圖4 年齡回歸方法流程Fig.4 Flow chart of age regression method
近年來,隨著機器計算能力地大幅提高與神經網絡理論地不斷發展,深度學習逐漸成為科學界及工業界所重點關注的領域,其中最具代表性的就是卷積神經網絡(convolutional neural networks,CNN),其在人臉年齡估計上也取得了優異的成績.文中列舉兩種具有代表性的采用卷積神經網絡來進行人臉年齡估計的案例,并與所提方法進行人臉年齡估計的對比實驗.
案例一:文獻[17]在人臉年齡估計的實驗中先將人臉圖像大小調整為60×60,隨后輸入一個6層的卷積神經網絡用于特征提取,其中包含一個輸入層、兩個卷積層,大小分別為5×5和7×7,兩個大小均為2×2的池化層和一個全連接層.這些提取的特征是根據深度學習的衰老模式創造的,將L2~L6層的特征全部提取后進行串聯,但是該方法會引起維數的急劇增大,對此通過3種流形學習的方法對特征進行降維,分別為邊際Fisher分析法(marginal fisher analysis,MFA)、正交局部投影分析法(orthogonal locality preserving projections,OLPP)和大量類別場景分析法(locality sensitive dscriminant analysis,LSDA).最終實驗在FG-NET人臉數據集上取得了理想的結果.
案例二:文獻[18]提出了一種多尺度卷積神經網絡方法進行人臉年齡估計實驗,認為人臉的不同區域所表現出的年齡特征并不完全一致,并針對人臉的不同位置分別訓練出多種尺度的卷積神經網絡,最終得到的年齡估計值為這些網絡輸出的平均值.該方法充分利用了人臉局部特征和整體特征之間的聯系,盡管需要較為繁瑣的人臉關鍵點分區域標注以及多個卷積神經網絡的訓練,但實驗結果在人臉數據集Morph上表現優良,同對比實驗中的其他年齡估計方法相比誤差值縮小了1歲以上.
文中人臉數據集主要來自FG-NET[19],是一個公開的人臉數據集,其中包含彩色圖像和黑白圖像,總計1 000張左右82個不同人的臉部照片,采集的年齡范圍是0~70歲.FG-NET數據該數據集的年齡分布如表1.

表1 FG-NET年齡分布Table 1 FG-NET age distribution %
由表1可知,FG-NET的人臉圖片均集中于較低的年齡段,40歲之后的樣本數量稀缺,60歲以上的樣本更是寥寥無幾.由此可見,單純使用FG-NET數據集得到的年齡估計模型并不具有十分強的說服力.文中再引入另一數據集Adience的樣本與FG-NET的樣本進行數據集融合,Adience包含2 284人共26 580張人臉圖片,年齡跨度在0~69歲,將其用于補充40歲以上的人臉數據集,從而使實驗樣本的年齡分布更加合理.
實驗具體步驟為:按文件順序依次讀取FG-NET與Adience相結合的實驗人臉數據庫,同時獲取人臉年齡標簽,根據人臉關鍵點裁剪圖像并統一大小,將圖像分為80個8×8的小網格,分別獲取HOG直方圖序列與 LBP直方圖序列,并在特征層將兩種特征進行融合,隨后結合年齡標簽建立訓練樣本集,訓練模型進行學習獲得年齡回歸函數,從而獲得所有樣本的年齡估計值.
文中采用兩種目前較為流行的評價指標對實驗結果數據進行評估.
平均絕對誤差(MAE),為每個單個觀測值與算術平均值偏差的絕對值取平均,因其能有效避免誤差相互抵消的問題,可較為準確地反映實際預測誤差的大小.文中平均絕對誤差為:
(6)
式中:yi和y′i分別為第i個測試數據的估計值和真實值.
累計誤差指數(CS)為計算年齡估計值與真實值絕對差在一定范圍內的比例,公式如下:
CS(u)=pe
(7)
式中:p為總測試數目;e為絕對誤差值;u為設定的可容忍誤差的最大值,將u設為10,因為一般認為估計誤差值在10歲以上的測試樣例在年齡估計實驗中是沒有意義的.
實驗中對僅采用HOG特征、僅采用LBP特征、采用HOG與LBP融合特征這3種情況下的實驗結果進行了對比.將實驗結果按照年齡段分為7部分,分別對應0~9歲、10~19歲、20~29歲、30~39歲、40~49歲、50~59歲、60~69歲.表2列出實驗結果中不同特征在各個年齡段中所對應的平均絕對誤差MAE的值.

表2 不同特征在不同年齡段的均值絕對誤差結果Table 2 Absolute error results of mean values of different characteristics in different age groups 歲
圖5是3種不同特征(HOG、LBP和HOG+LBP)年齡估計模型的累計誤差指數曲線.

圖5 3種估計模型CS曲線比較Fig.5 Comparison of three estimated model CS curves
通過表2及圖5可以看出:文中采用的HOG、LBP雙特征融合模型在各年齡段的人臉年齡估計實驗中均有良好的表現,估計誤差比僅采用HOG方法的單特征模型縮短0.7歲;比僅采用LBP方法的單特征模型縮短1.2歲.
為了使實驗具有可比性,將文獻[17-18]所提兩種深度學習方法與文中方法采用同一數據集,且實驗結果仍然按照上述將年齡段分為7部分,分別計算對應的平均絕對誤差MAE的值(表3).

表3 文中方法與兩種深度學習方法的均值絕對誤差結果Table 3 Mean absolute error results of method in this paper and the two deep learning methods 歲
表3可以看出,文中HOG+LBP雙特征融合模型,在10~29歲年齡段表現略優于兩種深度學習方法;在0~9歲及30~39歲年齡段表現略低于兩種深度學習方法;而在40~69歲年齡段,年齡估計誤差相較于文獻[17],平均高了0.32歲;相較于文獻[18],平均高了0.72歲.
考慮到兩種深度學習方法均需要搭建及訓練CNN網絡模型,尤其是文獻[18]的實驗,需要對人臉圖像進行域劃分,并分別訓練不同尺度的CNN,復雜程度和工作量遠大于文中所提方法,因此提出的雙特征融合模型十分具有實驗與實用價值.
文中提出的HOG+LBP雙特征融合模型,結合支持向量回歸的方法在處理跨年齡段的人臉年齡識別實驗中取得了顯著效果,即使在圖像未經預處理的情況下仍表現出相當的準確率,給實時采集人臉圖像預估年齡從而進行端到端的人機交互服務帶來了啟發.在未來的工作中,如何找到一個更佳的年齡估計模型從而實現更高效更快捷的估計方法,以及建立一個更為完備、統一的人臉數據庫值得更深入的探究.