王正友
(上海出版印刷高等專科學校,上海 200093)
責任編輯:任健男
人臉識別技術起始于20世紀60年代后期,經過40多年的飛速發展,人臉識別技術在安全驗證系統、醫學、檔案管理系統、人機交互系統、公安工作、視頻會議和圖像檢索等領域廣泛應用,已經成為計算機視覺和模式識別領域的一個研究熱點[1]。
人臉識別的關鍵是特征提?。?],特征提取的結果被用于識別人臉,例如主成分分析(PCA)[3]。PCA的主要思想是降維,使得圖像的維數等于或小于使用訓練集的數量,根據圖像子空間上的最佳效果來尋求特征向量,這些向量特征就是眾所周知的“特征臉”。當轉化成不同的子空間時,PCA所產生的位置和形狀數據都會發生改變。線性判別分析(LDA)[4]是一種特征提取方法,通過它可以獲得某類的數據集及其數據集中的各個類間距,LDA不改變數據集本身,而是提供一個單獨的類。然而,PCA和LDA都有缺點,得到的提取結果只是一個全局結構,事實上,局部結構對描述一個物體,例如局部保持投影(LPP)[5]和正交拉普拉斯臉(OLF)[6]方法也很重要。
基于上述分析,本文提出了一種新方法來選擇和融合提取出的特征,即全局與局部特征融合方法,首先將這些特征按降序排列,然后從最占主導地位到最不占主導地位的特征進行融合,既包含了全局結構,又包含了局部結構,在一定程度上提高了人臉識別率。
GLFS方法分為兩個過程,一個是訓練過程,一個是測試過程。在訓練過程中,訓練集被PCA,LDA和局部保持投影(LPP)方法提取。特征提取的結果被用來預計和選擇[7]。然而測試過程中,測試集被投影在每個訓練集的投影結果上,并在訓練集選擇中,根據結果的數量來進行選擇。同樣地,測試集的特征可以通過特征選擇的再融合來實現[8]。
卡洛[9]是一種把高維數據投射到低維的線性技術,稱為主成分分析(PCA)。如果圖像維數用n(圖像矩陣的行數乘以列數)表示,所使用訓練集數用m表示,當m?n這種情況時,那么它可表示為

所有的訓練集的平均值可以寫成

基于面部圖像平均值矩陣協方差,可表示為

方程(3)的特征值和特征向量表示為

式(4)的結果有m維,其中m?n,得到最小降維的數目是(n-m)個。
線性判別分析(LDA)是PCA過程的改進,LDA被用來最大化類間差異率和最小化類內比,從而得到最大的類間比和最小的類內比,特征提取更好。LDA比率的差異可表示為

LDA的特征值和特征向量可表示為

PCA和LDA旨在保持全局結構。然而,在實際應用中,局部結構更加重要。局部保持投影(LPP)對于局部結構學習來說是一種新的方法,局部結構特征比全局結構特征更加重要。LPP[10]旨在保持數據的內在幾何和局部結構。LPP的目標函數可以表示為

式中:W是相似矩陣,可表示為



式中:aTXDXTa=1。可通過使用下面的公式配制最小化目標函數的特征值和特征向量

特征提取結果的融合通常在外表全局結構上進行,事實上,局部結構對描述一個對象非常重要。本文提出了一個基于面部的特征選擇與融合全局和局部結構的方法,具有全局結構的外表特征提取是由PCA和LDA來完成的,然而局部結構的提取是由LPP來完成的。對于PCA,LDA和LPP,特征提取的結果分別可用下面的等式表示

如圖1所示,如果為每個特征提取方法提取特征的數目是m,而特征選擇的的數目是S,并且S≤m,那么PCA+LDA+LPP特征融合的數目可以用3S表示。特征融合的結果可寫成下面的矩陣


圖1 特征融合過程
為了簡化計算,式(16)可被寫作如下的行向量

式(17)是PCA,LDA作為全局結構和LPP作為局部結構的融合特征。
要確定分類結果,基于特征融合的相似度測量是必要的,它可以寫成

識別百分率結果可以用真正的識別結果數除以測試集數目計算出來,可寫成

整個算法過程如圖2所示。

圖2 算法過程
ORL人臉庫共有40個人的400張圖片,每人10張,其中有些圖像拍攝于不同時期,人的臉部表情和臉部細節有著不同程度的變化,比如笑或者不笑、眼睛或睜或閉、戴或不戴眼鏡,人臉姿態也有相當程度的變化,深度旋轉和平面旋轉可達20°,人臉尺度也有多達10%的變化,圖3所示為ORL人臉庫中某人的10張人臉圖像。

圖3 ORL人臉庫中某人的10張人臉圖像
為了比較實驗結果,執行3套方案:第1套方案,使用的訓練集的數量由每個人的5組姿勢構成,其余5組姿勢構成測試集;第2套方案,訓練集的數目由每個人的6組姿勢構成,其余4組姿勢構成測試集;第3套方案,訓練集的數目由每個人的7組姿勢構成,其余3組姿勢構成測試集,PCA能量選取95%。每種方案的最高識別率如表1所示。

表1 各個方案在ORL上最優識別率比較
從表1中可以看到,隨著訓練樣本數的增加,識別率呈上升的趨勢。
Yale人臉庫包含了15個人的165張人臉,每人11張,包括了不同光照條件(燈光往左照射、往右照射、往中間照射),不同的面部表情(正常的、開心的、沮喪的、睡著的、驚訝的以及眨眼的),不同場景的(戴眼鏡的和不戴眼鏡的),如圖4所示為Yale人臉庫中一個人的11幅具有不同特征的人臉圖像。

圖4 Yale人臉庫中某人的11張人臉圖像
與ORL上的實驗相同,為了比較實驗結果,同樣執行3套方案:第1套方案,使用的訓練集的數量由每個人的6組姿勢構成,其余5組姿勢構成測試集;第2套方案,訓練集的數目由每個人的7組姿勢構成,其余4組姿勢構成測試集;第3套方案,訓練集的數目由每個人的8組姿勢構成,其余3組姿勢構成測試集,PCA能量選取95%。每種方案的最高識別率如表2所示。

表2 各個方案在Yale上最優識別率比較
從表2中同樣可以看出,隨著訓練樣本數的增加,識別率呈上升的趨勢。
將本文方法與PCA[3],LDA[4],LPP[5],OLF[6],GCFF[7],MKLF[8]方法相同情況下在 ORL 及 Yale 上的最優識別率進行了比較,其中,GCFF,MKLF是最近學者們提出的兩種比較新穎的特征融合方法。比較結果如表3、表4所示。

表3 各方法在ORL上的最優識別率比較

表4 各方法在Yale上的最優識別率比較
通過表3、表4可以看出,本文方法的在ORL及Yale上的識別率明顯比其他方法高,因為本文方法考慮了全局結構,又考慮了局部結構,由此再次驗證了不管是全局結構,還是局部結構,在特征提取過程中都是很重要的。結合表1、表2還可以看出,識別率百分比在高維有穩定的趨勢,而在低維有上升的趨勢。由于大量的主導特征沒有作為相似性的測量,一些錯誤會發生在使用少量的特征??梢宰C明,當用來衡量相似性的特征增加時,識別率百分比也增加了。
本文對基于圖像的特征提取問題進行了研究,采用全局與局部特征融合的方法,將PCA和LDA的提取結果融合到LPP中,在ORL及其FERET兩大人臉數據庫上進行了實驗,證明了本文所提方法的優越性。特征融合方法的引用,提高了單樣本的識別率,但在訓練階段需要一次運行多種不同的方法,必然會帶來額外的計算開銷,所以,在提高識別率的同時,提高識別效率,并且找到一個更好的融合方案,將是進一步研究的重點。
[1]KIM T,KITTLER J.Locally linear discriminant analysis for multi modally distributed classes for face recognition with a single model image[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):318-327.
[2]WANG X,TANG X.Random sampling for subspace face recognition[J].International Journal of Computer Vision,2006,70(1):91-104.
[3]YAN S,LIU J,TANG X,et al.A parameter-free framework for general supervised subspace learning[J].IEEE Transactions on Information Forensics and Security,2007,2(1):69-76.
[4]LI B,HUANG D S,WANG C,et al.Feature extraction using constrained maximum variance mapping[J].Pattern Recognition,2008,41(11):3287-3294.
[5]XIE Z,LIU G,FANG Z.Face recognition based on combination of human perception and local binary pattern[J].Lecture Notes in Computer Science,2012,72(2):365-373.
[6]WANG R,SHAN S,CHEN X,et al.Manifold-manifold distance and its application to face recognition with image sets[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,21(10):4466-4479.
[7]OU Fan,HAN Zhaocui,LIU Chong,et al.Face verification with feature fusion of Gabor based and curvelet based representations[J].Multimedia Tools and Applications,2012,57(3):549-563.
[8]YEH Y,LIN T,CHUNG Y,et al.A novel multiple kernel learning framework for heterogeneous feature fusion and variable selection[J].IEEE Transactions on Multimedia,2012,14(3):563-574.
[9]張愛華,尉宇.基于混沌粒子群的決策樹SVM的調制模式識別[J].電視技術,2012,36(23):126-129.
[10]劉翠響,肖伶俐.基于連續均值量化變換的人臉檢測算法[J].電視技術,2013,37(1):154-156.