唐彪,金煒,符冉迪,龔飛
(寧波大學信息科學與工程學院,浙江 寧波 315211)
人臉識別是模式識別領域中最富挑戰性的研究課題之一,它在公共安全、身份驗證和視頻監控等領域有著廣闊的應用[1,2]。光照、表情和遮擋等復雜變化是人臉識別中的瓶頸,趙鑫等人[3]使用主成分分析(principal component analysis,PCA)構造正交投影空間,然后將人臉樣本進行投影,提取人臉的主要特征。張健等人[4]利用 Fisher線性判別分析(linear discriminant analysis,LDA),通過類內與類間散度矩陣來刻畫人臉樣本之間的差異,并將人臉樣本在Fisher空間上進行投影,最終通過距離度量Fisher空間上的投影特征來判斷人臉的類別。Wright等人[5]提出基于稀疏表示(sparse representation classification,SRC)的人臉識別,用訓練樣本來訓練字典和稀疏系數,然后通過計算殘差的方法進行分類。張勇等人[6]采用線性判別分析算法求解最優判別投影子空間,把訓練樣本投影到該子空間來提取相應的特征,通過稀疏表示的方法訓練字典,最后重構殘差來實現人臉識別(LDA-SRC)。Yang等人[7]提出一種結合 Gabor特征的稀疏表示人臉識別的方法(GSRC),通過提取人臉的 Gabor特征,并對其Gabor特征進行稀疏表示,相對于整體特征而言,它對表情、光照等變化更加頑健,能夠較好地提高人臉識別的準確率。后來一系列基于稀疏表示的改進的方法不斷被提出[8,9],但是這些算法在復雜的環境中頑健性欠佳。
本文在傳統特征提取和其他改進稀疏表示的人臉識別基礎上,提出一種多稀疏表示分類器決策融合的人臉識別方法。首先提取人臉的Log Gabor特征、多塊局部二進制模式和方向梯度直方圖特征,然后利用此3組特征訓練3個稀疏表示分類器,根據每個子分類器的分類性能,通過一個迭代運算過程,自適應確定各個子分類器的融合權值,最后利用融合權值將多個子分類器的輸出結果進行決策,實現不同復雜干擾下的人臉識別。其中,FR-MSRC分類過程中,將傳統的SRC分類器所用的最小重構殘差轉化為樣本屬于某類的最大后驗概率,通過決策融合的策略充分發揮不同子分類器的性能,獲得高于任何單一特征分類器的分類精度,為人臉識別提供了新的思路。
Filed于1987年首次設計出Log Gabor濾波器[10],Log Gabor濾波器分別由徑向濾波器和角度濾波器兩部分構成,通過定義徑向濾波器的尺度和角度濾波器的方向來控制Log Gabor濾波器的幅頻響應。文中將選取4個不同中心頻率(分別為以及6個不同方向(分別為共24個幅頻響應濾波器對人臉進行濾波。人臉經過4尺度6方向濾波后的結果如圖1所示。

圖1 Log Gabor濾波后的效果
圖1中每一行是同一個尺度,每一列是同一個方向,第一行和第二行為人臉的高頻特征,其特征較為細膩,可以彌補低頻特征下臉部器官描述不足的問題。第三行和第四行為人臉的低頻特征,其特征偏向于人臉識別的全局表達,但是局部信息描述不足。綜合利用高頻和低頻信息將有助于提高人臉的識別率。為了降低特征維度,而又不丟失每個圖像的紋理信息,將對 24幅圖像進行分塊處理,然后計算一幅圖像不同分塊對應的能量,用能量矩陣代替人臉在某個方向和尺度變換后的特征。
局部二進制模式(local binary pattern,LBP)是機器視覺中常用于分類的一種特征[11],LBP能夠有效地捕捉人臉局部紋理特征,對于單調的灰度變換具有不變性,但在人臉遮擋下缺乏對整體粗粒度的把握。因此多塊局部二值模式(multi block local binary pattern,MB-LBP)被提出,以彌補傳統LBP的不足。在MB-LBP的計算中,傳統LBP算子孤立像素值之間的比較被像素塊之間的比較代替,不同的像素塊大小代表不同的分析粒度,通常以符號表示3×3像素塊大小、半徑為2的8領域像素的統一化LBP算子,算子如圖2所示。

圖2 -LBP算子
圖2中每一個小方格代表一個像素,以黑色方塊周圍的8個像素共組成一個像素塊,計算塊內9個像素的均值,然后分別與中心黑色方塊進行比較來構造特征描述子。
分區LBP可以較好地描述人臉的結構信息,具體是將人臉適當地劃分為p×q分區,然后分別計算每個人臉分區的直方圖,最終將所有分區的直方圖特征連接成一個復合的特征向量。理論上,越精細的分區意味著越好的局部描述能力,但是會產生更高維數的復合特征,然而過小的分區會造成直方圖過于稀疏,而失去統計意義。分別選擇15×13、10×11和5×4共 3種分區大小進行實驗比較,實驗結果如圖3所示。

圖3 復合LBP直方圖
觀察上述復合LBP直方圖發現,分區10×11的復合LBP直方圖特征維數較為折中,且可以較好地描述人臉的結構信息。相同人臉在有無遮擋下的復合LBP直方圖如圖4所示。

圖4 相同人臉在有無遮擋下的復合LBP直方圖
由圖4可知,經過濾波得到的直方圖總體上是相似的,利用總體的相似程度提高人臉在遮擋下的識別率。這一改進有效地利用像素點之間的相關性,使算法在不確定干擾因素下也具有較好的頑健性。
方向梯度直方圖(histogram oriented gradient,HOG)是由Dalal等人[12]在2005年提出的。HOG首先將圖像劃分為小的連通區域,計算該局部圖像梯度方向信息統計值,然后將小的連通區域級聯成塊,進行對比度歸一化,最后將圖像所有塊的特征串聯起來代表檢測目標的特征描述符。HOG方法是在圖像的局部細胞單元上操作,所以它對圖像幾何和光學的形變都能保持很好的不變性,因此本文提取HOG特征來得到較頑健的表情信息,如圖5所示,取3種不同的表情,用白色的特征點描述捕捉到的面部輪廓信息。
由圖5可知,在光照條件統一的情況下,人臉微小的表情變化不影響識別效果,即相同人臉不同表情的視覺輪廓相似。


圖5 3種表情輪廓效果



由式(4)知,如果測試樣本屬于第i類,那么殘差 ri(y )最小,而與其他的重建結果做殘差會得到較大的結果。本文將y與之間的殘差轉換為y屬于第i類樣本的最大后驗概率,以構造出多稀疏表示分類器。定義y與之間的殘差倒數為:

因此,樣本y所屬類別可以由式(7)確定:

上述基于概率模型的稀疏表示分類器能夠從概率的角度,更為直觀地表示出樣本y屬于第i類的可能性。
決策融合可以簡單地理解為利用多個分類器對同一測試樣本進行分類判別,然后根據多個分類器的判別結果進行統計決策,得出最終的分類結果。Louisa等人[14]已經證明:當單個子分類器的準確率都大于0.5時,隨著子分類器個數的逐漸增加,決策融合后的準確率將趨近于1.0。因此,在設計多稀疏表示決策融合分類器時,只要保證各個子分類器的準確率均在0.5以上,則最終的分類準確率將得到提高。
另一方面,不同特征從不同角度反映人臉的本質信息,例如小波變換在不同光照下,可以獲得很好的識別率,但是在人臉遮擋下,就會得到較低的識別率。如果在設計決策融合模型時將不同特征同等看待,很難在不同的環境下保持較好的頑健性。
由于類別較多,僅僅使用單個分類器很難對復雜問題進行有效分類,參考文獻[15]使用一種樹狀結構將概率支持向量機推廣到多分類問題,通過分類器對不同樣本產生的概率輸出自動調節權值,取得較好的識別結果。參考文獻[16]基于Multi-Agent權重自適應調整的多分類器融合算法,通過引入偏好判斷矩陣以及分類器間的決策相關信息,自適應地為各分類器賦予權值,從而取得較高的分類正確率。本文在此基礎上,依據第3.1節的理論,分別構造3個稀疏表示分類器,通過迭代更新不同特征的融合權值,最后利用融合權值將多個子分類器輸出結果進行決策,其迭代具體過程如下。
步驟1 利用第2節中提取人臉的3組不同種類特征,構造訓練樣本集X:

步驟 2 按照第 3節構建稀疏表示模型,將訓練人臉樣本的 3種特征分別組成 3個稀疏表示字典,并據此設計 3個稀疏表示子分類器,然后為每個子分類器初始化決策融合權重系數ws:

步驟 3 對于任意的人臉樣本x∈X,將其3種特征分別用對應的子分類器,根據第3.2節方法,計算后驗概率psi,這里psi表示第s個子分類器輸出結果屬于第 i類的后驗概率,
步驟 4 利用融合權值對各子分類器輸出的后驗概率進行加權融合,計算累加概率:

步驟 5 以決策融合后的最大概率,確定人臉x的所屬類別:

步驟 6 自適應迭代更新ws,具體方法為:假設人臉x的實際標簽為Label(x),其決策融合的分類標簽為identity(x),如果Label(x)=identity(x),將決策融合的分類標簽與各個子分類器的分類標簽進行比較,對于判斷錯誤的 l個子分類器對應的權重系數自減ε,同時將每個子分類器輸出的后驗概率psi進行降序排序,根據排序結果,將后驗概率較大的l個子分類器的融合權重分別自增ε,得到更新后的權值。
如果 Label(x)≠identity(x),則判斷該樣本為噪聲,直接丟棄。接下來返回步驟3,對下一個樣本進行上述操作,直至所有樣本遍歷完成。經過以上6個步驟,整個決策融合的模型訓練完畢。
為了驗證本文提出的算法在不同干擾因素下的識別率,分別進行了光照、表情、遮擋以及多類型混合實驗。本文基于Yale B、JAFFE和AR共3個標準人臉庫,做了4次不同干擾下的對比實驗。同時選擇PCA[3]、LDA[4]、SVM、SRC[5]、LDA-SRC[6]和GSRC[7]6種經典人臉識別方法與本文的FR-MSRC做比較。
Yale B人臉數據庫,一共10個人,每人64張人臉圖片。根據人臉與攝像機方向角θ的不同,將 64張人臉圖像非均勻劃分 5個子集。是子集 1,共計 7張人臉圖像;是子集 2,共計 12張人臉圖像;是子集 3,共計 12張人臉圖像;是子集 4,共計 12張人臉圖像;是子集5,共計19張人臉圖像。由于角度θ的差異,導致人臉會呈現不同的曝光度,部分人臉樣本如圖6所示。

圖6 Yale B中5個子集部分人臉樣本
提取Yale B人臉庫中子集4的3種不同特征構成訓練樣本,其他4個子集作為測試樣本,用稀疏表示分類的思想驗證單個特征可以獲得的識別率,識別率見表1。

表1 單個特征在不同子集獲得識別率
由表1可知,各子分類器在不同光照下的識別率都在 50%以上,符合關于多個分類器融合有效性的條件,因此,FR-MSRC方法在理論上可以提高人臉在不同光照下的識別率。最后由第 4.1節的方法更新融合權值,不同特征在不同子集的融合權重及融合特征后的人臉識別率見表2。

表2 不同特征在不同子集的融合權重及融合特征后的人臉識別率
由表2可知,在不同光照下Log Gabor特征的權值比HOG特征的融合權重大,MB-LBP的權重大小維持在0.32~0.33,這表明Log Gabor特征在不同光照強度下,能發揮重要的識別能力,這與第2節理論分析相吻合。其平均識別率均優于與其他經典的方法,具體對比結果見表3。
由表3可知,FR-MSRC具有較好的光照頑健性,在不同光照的子集上仍然保持較高的識別率,特別在子集2和子集3上可以達到99%以上的準確率。在與幾種經典方法的比較中,PCA僅有62.02%的識別率,其他基于稀疏表示的方法均可以達到 90%以上的識別率,但是,本文的FR-MSRC取得了最好的識別效果。
JAFFE人臉數據庫,一共有10個人,每個人有7種表情(中性臉、高興、悲傷、驚奇、憤怒、厭惡、恐懼),每種表情有3張圖像共計21張,那么整個數據庫一共有210張圖像,部分人臉樣本如圖7所示。
實驗時,將每個人的3張中性表情人臉樣本用于訓練,用剩下的6種表情作為測試樣本。用稀疏表示分類的思想驗證單個特征可以獲得的識別率和相對應的后驗概率,其識別率見表4。
由表4可知,各子分類器在不同表情下的識別率都在 50%以上,同樣符合關于多個分類器融合有效性的條件,由第 4.1節的方法更新融合權值,不同特征在不同表情下的融合權重及融合特征后的人臉識別率見表5。
由表5可知,在不同表情下HOG特征的權重比Log Gabor特征的權值比大,即HOG特征在不同表情下,均可以刻畫人臉的面部信息,這與光照下的融合權重剛好相反,同時MB-LBP的權重大小維持在0.32~0.33,這也與第2節的理論分析相吻合。FR-MSRC在不同表情條件下均保持較高的識別率,其平均識別率均優于其他方法,具體對比結果見表6。

表3 本文方法在復雜光照下得到的平均識別率與其他方法對比結果

圖7 JAFFE數據庫中不同表情的部分人臉樣本

表4 單個特征在不同表情上的識別率

表5 不同特征在不同表情子集的融合權重及融合特征后的人臉識別率

表6 本文方法在復雜表情下平均識別率與其他方法對比結果

圖8 AR人臉數據庫部分人臉圖像
由表6可知,與幾種經典方法的比較中,PCA和SVM在JAFFE上識別率均在90%以下,其他基于稀疏表示的方法識別率均在92%左右,但是本文的FR-MSRC識別率高達99.08%,識別效果最好。
AR人臉數據庫,一共有100個人,分兩個階段,每個階段13張圖像,包括7個未遮擋人臉圖像和6個被遮擋人臉圖像,AR人臉數據庫部分人臉圖像如圖8所示。
實驗時,將每個人的14張未遮擋人臉圖像作為訓練樣本,用剩下的12張遮擋人臉圖像作為測試樣本,用稀疏表示分類的思想驗證單個特征可以獲得的識別率,其結果見表7。

表7 單個特征在不同遮擋物上的識別率
由表7可知,各個子分類器在不同遮擋物下的識別率都在50%以上,由第4.1節的方法更新融合權值,不同特征在不同遮擋物子集的融合權重及融合特征后的人臉識別率見表8。

表8 不同特征在不同遮擋物融合權重及融合特征后的人臉識別率
由表8可知,在不同遮擋物下,MB-LBP的權重比HOG和Log Gabor大,這表明MB-LBP特征能在遮擋的人臉識別中發揮較高的性能,與第2節的理論分析相吻合,其平均識別率均優于其他經典的方法,具體對比結果見表9。
由表9可知,PCA、SVM和LDA在AR人臉數據庫上識別率均在85%以下,主要是AR數據庫不僅存在遮擋物的偽裝,還存在光照和表情不同程度的變化,給人臉識別帶來較高的難度,基于稀疏表示的方法識別率均只能達到 85%左右,然而FR-MSRC識別率卻高達97.13%,具有較強的偽裝頑健性。

表9 本文方法在不同遮擋物下平均識別率與其他方法對比結果
為了進一步驗證FR-MSRC對多類型干擾因素的頑健性,分別從Yale B、JAFFE和AR共3個標準人臉庫隨機選擇10個人的隨機10張人臉圖像,共計300張人臉圖像,組成混合多類型人臉數據庫。同前3組的實驗思路一致,選取每個人5張人臉圖像作為訓練樣本,用剩下的5張人臉圖像作為測試樣本進行實驗。

表10 7種方法在多類型干擾因素下的識別率
表10展示了7種方法在多類型干擾因素下的識別率,大部分方法的準確率都在85%左右,其中,PCA、LDA和SVM相對于SRC的識別率均具有較明顯的差距,其他基于SRC改進的方法均取得較一般的結果,而本文的 FR-MSRC則達到最高的98.10%,取得了最好的識別結果。
從4組實驗結果可以看出,3個稀疏表示分類器以及決策融合思想的引入,對于樣本訓練時的泛化能力給予了極大的支持,不論是光照、表情還是遮擋等變化,都可以表現出更好的識別效果。
本文提出了一種多稀疏表示分類器決策融合的人臉識別方法,通過提取3組人臉有效特征構造3個稀疏表示分類器,然后引入決策融合的思想,根據每個子分類器的分類性能,自適應確定各個子分類器的融合權值,從而提高了算法在不同環境下的頑健性。本文分別在 Yale B、JAFFE、AR以及混合人臉庫中分別進行光照、表情、遮擋以及多類型因素混合的測試,實驗結果表明,FR-MSRC可以在不同復雜的環境中仍保持較高的識別率,具有一定的應用前景。
參考文獻:
[1] 鄒國鋒, 傅桂霞, 李海濤, 等.多姿態人臉識別綜述[J].模式識別與人工智能, 2015, 28(7): 613-625.ZOU G F, FU G X, LI H T, et al.A survey of multi-pose face recognition[J].Pattern Recognition and Artificial Intelligence,2015, 28(7): 613-625.
[2] 李娜, 張曉寧, 朱芳娥.視覺傳感網絡中身份特征自適應識別算法改進[J].電信科學, 2016, 32(6): 110-115.LI N, ZHANG X N, ZHU F E.Improvement of identity adaptive recognition algorithm in visual sensor network[J].Telecommunications Science, 2016, 32(6): 110-115.
[3] 趙鑫, 汪維家, 曾雅云, 等.改進的模塊 PCA人臉識別新算法[J].計算機工程與應用, 2015(2): 161-164.ZHAO X, WANG W J, ZENG Y Y, et al.Improved modular PCA face recognition algorithm[J].Computer Engineering and Applications, 2015(2): 161-164.
[4] 張健, 肖迪.基于多尺度自適應 LDA 的人臉識別方法[J].計算機工程與設計, 2012, 33(1): 332-335.ZHANG J, XIAO D.Face recognition method based on multi-scale adaptive LDA[J].Computer Engineering and Design,2012, 33(1): 332-335.
[5] WRIGHT J, YANG A Y, GANESH A, et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[6] 張勇, 黨蘭學.線性判別分析特征提取稀疏表示人臉識別方法[J].鄭州大學學報(工學版), 2015, 36(2): 94-98.ZHANG Y, DANG L X.Sparse representation-based face recognition method by LDA feature extraction[J].Journal of Zhengzhou University (Engineering Science), 2015, 36(2): 94-98.
[7] YANG M, ZHANG L.Gabor feature based sparse representation for face recognition with gabor occlusion dictionary[J].Computer Vision-ECCV, 2010: 448-461.
[8] 龔飛, 金煒, 朱珂晴, 等.采用雙字典協作稀疏表示的光照及表情頑健人臉識別[J].電信科學, 2017, 33(3): 52-58.GONG F, JIN W, ZHU K Q, et al.Illumination and expression robust face recognition using collaboration of double dictionary’s sparse representation-based classification[J].Telecommunications Science, 2017, 33(3): 52-58.
[9] LIU Z, PU J, XU M, et al.Face recognition via weighted two phase test sample sparse representation[J].Neural Processing Letters, 2015, 41(1): 43-53.
[10] LI J, SANG N, GAO C.Log-Gabor weber descriptor for face recognition[J].Journal of Electronic Imaging, 2015, 24(5): 053014.
[11] SURULIANDI A, MEENA K, ROSE R R.Local binary pattern and its derivatives for face recognition[J].IET Computer Vision,2012, 6(5): 480-488.
[12] DALAL N, TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 20-25, 2005,San Diego, USA.Piscataway: IEEE Press, 2005: 886-893.
[13] 顏文, 金煒, 符冉迪.結合 VLAD特征和稀疏表示的圖像檢索[J].電信科學, 2016, 32(12): 80-85.YAN W, JIN W, FU R D.Image retrieval based on the feature of VLAD and sparse representation[J].Telecommunications Science, 2016, 32(12): 80-85.
[14] RAHMAN A F R, FAIRHURST M C.Multiple classifier decision combination strategies for character recognition: a review[J].International Journal on Document Analysis and Recognition, 2003, 5(4): 166-194.
[15] 張文博, 姬紅兵, 王磊.一種自適應權值的多特征融合分類方法[J].系統工程與電子技術, 2013, 35(6): 1133-1137.ZHANG W B, JI H B, WANG L.Adaptive weighted feature fusion classification method[J].Systems Engineering and Electronics, 2013, 35(6): 1133-1137.
[16] 張冬慧, 孫波, 王鵬, 等.權值自適應調整的多分類器融合算法[J].計算機工程, 2008(10): 28-29, 32.ZHANG D H, SUN B, WANG P, et al.Multi-classifiers fusion algorithm of adaptive weight adjustment[J].Computer Engineering, 2008 (10): 28-29, 32.