梁傳君, 卜宇, 王紅梅(新疆工程學院 計算機工程系,烏魯木齊 830011)
加權估計紋理分析結合高斯黎曼流形的人臉識別方法
梁傳君, 卜宇, 王紅梅
(新疆工程學院 計算機工程系,烏魯木齊 830011)
針對圖像集人臉識別中的子空間模型限制問題,提出了加權估計紋理分析結合高斯黎曼流形的人臉識別方法(WETA -GRMD)。使用樣本圖像和從樣本獲得的仿射包模型聯合表示一幅圖像。加權估計紋理分析進行人臉匹配,并解決權值最優化問題。利用高斯黎曼流形計算高斯分量具有識別能力的信息,并通過尋找最大判別分量識別人臉。在兩個具有一定挑戰性的數據集YouTube Celebrities(YTC)和YouTube Face(YTF)上的實驗驗證了提出方法的有效性,結果表明,相比其他幾種較新的方法,提出的方法具有更高的識別率。
人臉識別; 高斯黎曼流形; 加權估計; 紋理分析; 仿射包模型; 特征提取
與傳統基于單幅圖像的人臉識別相比,基于圖像集的人臉識別[1]具有明顯的不同,每個圖像集包含很多屬于某個人或某些人的表情圖像或視頻,即更多表情、不同視角或不同光照的目標人臉信息[2]。圖像集為人臉識別提供了更多機會,但也為人臉識別帶來了新的挑戰,即利用他們的內部語義關系建模圖像集,而小樣本情況下的分類模型不能利用這些語義關系[3,4]。
圖像集人臉識別可分為3類:基于線性或仿射子空間的方法[5-6]、基于非線性流形的方法[7-8]和基于統計模型的方法[9-11]。
格拉斯曼判別分析(Grassmann Discriminant Analysis, GDA)[5-6]在格拉斯曼流形上將圖像集看作點(子空間),且使用基于特征角的格拉斯曼核完成流形上的差異性學習。因為圖像集常常擁有大量圖像且包含不同視角、光照和表情的變化信息,因此,基于線性或仿射子空間的方法很難獲得令人滿意的非線性人臉外觀。
為了解決子空間模型的限制,文獻[7-8]提出了流形-流形距離(Manifold-Manifold Distance, MMD)方法,利用一種更加復雜的非線性流形建模圖像集,假設每種圖像集符合非線性流形特征,即非線性能分割成許多局部線性模型,且流形間的相似性能轉換為組合子空間之間距離的集合,但局部模型匹配精度有待進一步提高。
由于統計模型更加靈活,許多方法運用統計模型對圖像集建模。例如,文獻[9]使用單高斯函數和流形密度方法(Manifold Density Method, MDM)獲得混合高斯模型(Gaussian Mixture Model,GMM),使用經典KL散度測量不同分布之間的距離。由于這兩種方法是無監督學習方法,當數據集間存在較弱統計相關性時,該方法的識別性能波動較大。文獻[11]提出一種協方差學習(Covariance Discriminative Learning,CDL)方法,通過二階統計量建模圖像集,即協方差矩陣,然后黎曼核函數在黎曼空間使用非奇異協方差矩陣學習差異模型,然而,文獻[11]僅使用協方差信息,而協方差信息僅在表示數據相關性方面具有一定優勢。
為了表示圖像集中不同的圖像,使用GMM描述這種變化,但GMM分布的差異還不足以完成分類任務。因此,提出了一種基于加權估計紋理分析結合高斯黎曼流形判別分析(WETA-GRMD)的方法。該方法通過不同高斯分布的距離差異,獲取相應的正定概率核,該概率核能編碼黎曼流形。
使用樣本圖像和從樣本獲得的仿射包模型聯合表示一幅圖像,因為同時包括樣本和結構信息,所以該聯合表示更具魯棒性。令Xc=[x1,x2,…xnc]表示第c個圖像集,其中,xi是第i幅圖像的特征向量,類的仿射包估計為式(1)。
(1)
也可使用其他參數形式表示為式(2)。
(2)

2.1 人臉匹配
設人臉庫中有許多兩眼清晰且具有相同坐標的人臉圖像,使用Sir表示第i個人的第r張人臉圖像,將圖像劃分為B塊大小相等互不重疊的圖像小塊。

通過計算直方圖距離判斷2張圖像是否為同一個人,如式(3)。
(3)
式(3)中,wb表示權值。
常見的相關反饋機制是基于對一組圖像Q?χ的用戶反饋處理[12],Q中的元素為處于前一步迭代中產生的排序為前w的元素,那些計算得到最高概率P(relevant|x)的元素作為與用戶查詢相關的元素。該過程導致了嚴重的有偏估計,并且獲得的分值可靠性在整個特征空間上顯著不同。
假設有一個新的隨機變量reliable,可以在集合{true,false}上取值,這取決于x以及表達相關的后驗概率P(relevant|x)。
如果reliable為真,則在給定點x的對應的相關估計認為是可信的。但是,如果reliable為假,則有關相關性的唯一信息則由P(相關)給定,而與x無關。如果可以得到可靠性信息,并且假設為獨立的,則獲得x相關性的正確概率為式(4)。
P′(relevant|x)=P(reliable|x)·P(relevant|x)+
(1-P(reliable|x))·P(relevant|x)
(4)
采用P(reliable|x)就可以同時解決人臉匹配引起的小樣本規格和標記樣本局域性問題了。這樣一個概率函數的定義是限定在一定的范圍內的,但是無疑在評估點x附近的樣本密度時與其相關的。
2.2 權值估計

Dirjt=dirjtwT
(5)
假設2種圖像對的協方差矩陣相等,則利用Fisher準則尋找最優權值為式(6)。
(6)
然而,式(6)并不符合從左到右的面部對稱,若令bw=b+B/2w,權值則具有對稱性,故將式(6)改寫為式(7)。
(7)
因此,權值問題得到了解決。
C={(C1,y1),(C2,y2),…(Cn,yn)}
(8)
式(8)中,yi∈{1,2,…m}表示類的標簽,m為類總數,矩陣Ci與l之間的相似性可定義為式(9)。

(9)
式(9)中,δ(·)是離散狄拉克函數,且Nl為式(10)。
(10)
式中,nl為訓練的矩陣總數。
在流形上建立表示黎曼點的一組參考點Ci,i∈{1,2,…n},使用式(11)計算Ci,i∈{1,2,…n}與所有類之間的相似性,用相似模式表示每一個黎曼點Ci為式(11)。

(11)
訓練數據的相似向量表示為式(12)。
P={(p1,y1),(p2,y2),…(pn,yn)}
(12)
利用FLDA提取特征,得到映射W*為式(13)。
(13)
式(13)中,SB和SW分別表示類間散射矩陣和類內散射矩陣為式(14)、(15)。
(14)
(15)

將pq映射到特征空間為式(16)。
xq=W*Tpq
(16)
最后,利用最近鄰分類為xq分配類標簽,完成分類。
測試階段,給定通過GMM建模的測試圖像,首先計算高斯分量具有識別能力的信息。然后通過尋找所有可能判別高斯分量之間的最大分量識別人臉。算法1總結了本文判別分析(Discriminant Analysis,DA)算法的訓練和測試過程。

算法1判別分析算法的訓練和測試過程輸入:GMM和訓練圖像集n幅圖像的標簽:G1,l1{},…,Gn,ln{}。Nk表示第k幅圖像的高斯函數數量,g1,…,gn表示所有訓練GMM的高斯函數,其中N=∑nk=1Nk;圖像集Gte的GMM用于測試,使用gte1,…,gteM表示高斯分量。輸出:測試圖像集的標簽lte。1:根據式(12)計算ktri=kgi,g1(),…,kgi,gN()[]T和ktej=kgtej,g1(),…,kgtej,gN()[]T,i∈1,N[],j∈1,M[];2:最大化式(16)計算變換矩陣;3:計算屬于第k個圖像集的Nk個高斯函數的映射zk1,…,zkNk,k∈1,n[];4:計算屬于測試集的M個高斯函數的映射zte1,…,zteM;5:計算ztei和zkj之間的余弦相似性cosztei,zkj();6:計算^k=argmaxkcosztei,zkj(),對所有i∈1,M[],j∈1,Nk[];7:返回lte=l^k;
實驗在配置為英特爾雙核i3 CPU、2.98 GHz主頻、4.0 GB內存的PC機上實現,編程環境為MATLAB 2011b。
4.1 數據庫描述
實驗使用兩個具有一定挑戰性的大型數據庫:YouTube Celebrities(YTC)[14]和YouTube Face DB(YTF)[15]。為YTC和YTF的樣本圖像,如圖1所示。
對這兩個數據庫,使用級聯人臉檢測器檢測視頻幀中人臉,然后歸一化YTC人臉為20×20,YTF人臉為24×40。為了緩解光照的影響,對以上兩種數據庫獲取的灰度人臉圖像進行直方圖歸一化。

(a) YTC

(b) YTF圖1 人臉庫樣本圖像示例
4.2 不同數量高斯分量下算法性能比較
YTC上不同數量高斯分量時,本文方法的流形距離(manifold distance,MD)與識別率的曲線關系圖,如圖2所示。

圖2 不同高斯分量數量情況下,本文方法在YTC上的識別率
從圖2中可以看出,對每個數據集,高斯分量的數量不同。高斯分量的平均數量沒有必要是整數。實驗結果顯示,在合理數量高斯分量范圍內,算法性能比較穩定。當高斯分量的平均數量約為7時,本文方法所獲取的性能最佳。
4.3 實驗結果和分析
比較的方法如下:
(1) 基于線性或仿射子空間的方法:GDA;
(2) 基于非線性流形的方法:MMD;
(3) 基于統計模型的方法:MDM、CDL[11]、CHISD[12]和SANP[13]。
除GDA和MDM外,原作者均提供了算法的源代碼。為公平起見,根據原參考文獻調整每種算法的主要參數。對所有這些算法,首先使用PCA降維,保留95%的數據能量。
YTC數據集:YTC包含47個個體的1 910個視頻,使用10折交叉驗證實驗且從十折的每一折中隨機選擇三組訓練數據和六組測試數據。本文數據庫中總共有1 910組。由于數據集包括由3個不同像機拍攝的視頻,因此,對每種視頻分別采用十折交叉驗證。
YTF數據集:YTF包含1 595個個體的3 425個視頻,數據集設置與文獻[15]相同。隨機選擇5 000個視頻對,且這些視頻中的一半來自于同一個體,另一半為不同個體。然后,將這些數據集分為10組且每組包含250個“相同”對和250個“不同”對。
在不同的實驗設置下,通過減少集大小將本文方法與現有的先進方法進行比較,為查詢和圖庫集大小設置上界m,當視頻包含的幀超過m時,僅使用前m個進行訓練和測試,如果視頻包含的幀少于m,則使用全部幀。YTC和YTF上的錯誤率,如表1、表2所示。

表1 YTC上的分類錯誤率

表2 YTF上的分類錯誤率
從表1、表2中可以看出,當使用更多樣本時,通常性能會更好,本文方法和SANP在完整視頻序列上實現了完美分類,但是當減少集樣本時,本文方法實現了最佳性能。CDL和CHISD的性能低于文獻[11]和文獻[12]給出的結果,因為調整圖像集大小為20×20,而非40×40。
GDA、MDM和MMD在整長視頻上優于CDL和CHISD,但是當集大小減小時他們的性能急劇下降。CDL和CHISD不能像前三種方法那樣在大集上執行,但他們的性能不會急劇下降。SANP在整長視頻上獲得了完美分類,但不能像本文方法那樣在較小集上執行。
幾種方法在兩個數據庫上5倍實驗時的平均錯誤率和相關的標準差,本文方法優于其他所有方法。如表3所示。
從表3可以看出,所有方法的性能在這個數據集上都相對較低,因為它包含姿態、光照和表情方面的大外觀變化,且由于低質量視頻中的跟蹤誤差,無法精確裁剪人臉。

表3 平均分類錯誤率和標準差
4.3 分析
上述兩個實驗的CMC曲線(累積匹配特征),如圖3所示。

(a) YTC

(c) YTF圖3 錯誤率的CMC曲線(10倍結果)
本文方法在YTF數據上從rank 1到10、在YTC數據上從rank 1到4獲得了最佳性能。本文方法在不同特征類型上能持續獲得最佳性能,相對其他性能隨特征類型波動的方法來說這是一個優點。
兩個數據集上比較了所有方法的等差率(Equal Error Rate,EER),如表4所示。
在YTC和YTF數據集的情況下,分別給出了5倍實驗時的平均EER和標準差,本文方法獲得了最佳整體性能。

表4 YTC和YTF上的等差率
本文提出一種用于圖像集人臉識別的高斯黎曼流形判別分析方法,與傳統在歐氏空間學習判別分析的方法不同,該方法在黎曼流形空間學習高斯分布。使用樣本圖像和從樣本獲得的仿射包模型聯合表示一幅圖像,使用加權估計紋理分析方法進行人臉匹配,利用高斯黎曼流形完成人臉分類。YTC和YTF上的識別結果表明,提出的方法識別率高于其他幾種優秀方法。
未來將研究更多高斯分布的概率核函數和更加通用的用于高斯分布黎曼流形學習的方法。
[1] 顧偉, 劉文杰, 朱忠浩,等. 一種基于膚色模型和模板匹配的人臉檢測算法[J]. 微型電腦應用, 2014, 30(7): 13-16.
[2] Yang A Y, Zhou Z, Balasubramanian A G, et al. Fast -Minimization Algorithms for Robust Face Recognition[J]. Image Processing IEEE Transactions on, 2013, 22(8): 3234-3246.
[3] 李雅倩, 李穎杰, 李海濱, 等. 融合全局與局部多樣性特征的人臉表情識別[J]. 光學學報, 2014, 34(5): 515-520.
[4] Lu J, Tan Y P. Locality repulsion projections for image-to-set face recognition[C]// IEEE International Conference on Multimedia amp; Expo IEEE Computer Society, 2011: 1-6.
[5] Huang L, Lu J, Tan Y P. Co-Learned Multi-View Spectral Clustering for Face Recognition Based on Image Sets[J]. Signal Processing Letters IEEE, 2014, 21(7): 875-879.
[6] Alashkar T, Amor B B, Daoudi M, et al. A Grassmannian Framework for Face Recognition of 3D Dynamic Sequences with Challenging Conditions[M]// Computer Vision-ECCV 2014 Workshops Springer International Publishing, 2014: 326-340.
[7] Huang L, Lu J, Tan Y P, et al. Collaborative reconstruction-based manifold-manifold distance for face recognition with image sets[C]// Multimedia and Expo (ICME), 2013 IEEE International Conference on IEEE, 2013: 1-6.
[8] 于謙, 高陽, 霍靜,等. 視頻人臉識別中判別性聯合多流形分析[J]. 軟件學報, 2015, 32(11): 2897-2911.
[9] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face Recognition with Image Sets Using Manifold Density Divergence[J]. IEEE, 2005, 27(1): 581-588.
[10] 馬龍. 基于多流形判別分析的單樣本人臉識別研究[D]. 南京:南京理工大學, 2014.
[11] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face recognition with image sets using manifold density divergence[C]// Computer Vision and Pattern Recognition(CVPR), 2005: 581-588.
[12] Z. Cui, S. Shan, H. Zhang, S. Lao, and X. Chen. Image sets alignment for video-based face recognition[C]// IEEE Computer Society on Computer Vision and Pattern Recognition (CVPR), 2012: 1678-1684.
[13] Hu Y, Mian A S, Owens R. Face Recognition Using Sparse Approximated Nearest Points between Image Sets[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2012, 34(10): 1992-2004.
[14] 曾青松. 黎曼流形上的保局投影在圖像集匹配中的應用[J]. 中國圖象圖形學報, 2014, 19(1): 414-420.
[15] L. Wolf, T. Hassner, and I. Maoz. Face recognition in unconstrained videos with matched background similarity[C]// In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 1369-1374.
AFaceRecognitionMethodBasedonFusionofWETAandGaussianRiemannianManifold
Liang Chuanjun, Bu Yu, Wang Hongmei
(Department of Computer Engineering, Xinjiang Institute of Engineering, Urumqi, Xinjiang Uygur Autonomous Region, 830011, China)
In allusion to the subspace model limitation problem in the image set based face identification, the face identification method based on weighted estimation for texture analysis-Gaussian Riemann manifold (WETA-GRMD) is proposed in this article. Firstly, the sample image and the affine hull model obtained from the sample are combined to represent an image; then, weighted estimation for texture analysis (WETA) is adopted to execute the face matching operation and solve the weight optimization problem; finally, Gaussian Riemann manifold (GRMD) is adopted to calculate the information with identification capability in Gaussian component in order to find the maximum discriminant component for face identification. Meanwhile, the effectiveness of the proposed method is verified by the experiment in two challenging data sets YouTube Celebrities (YTC) and YouTube Face (YTF), and the result shows that compared with several other new methods, the proposed method has higher identification rate.
Face identification; Gaussian Riemann manifold; Weighted estimation for texture analysis; Affine hull model; Feature extraction
新疆維吾爾自治區高??蒲杏媱澢嗄杲處熆蒲袉踊痦椖?XJEDU2016S085);新疆工程學院科研基金項目(2015xgy101712)。
梁傳君(1980-),女,碩士,講師,研究方向:圖形圖像處理、模式識別等。
卜宇(1981-),女,講師,碩士,研究方向:圖像處理、模式識別等。
王紅梅(1982-),女,副教授,碩士,研究方向:計算機網絡及模式識別等。
1007-757X(2017)11-0015-05
TP391.4
A
2016.11.30)