楊恢先,付宇,曾金芳,徐唱
(湘潭大學 物理與光電工程學院,湖南 湘潭 411105)
人臉識別因其友好性、無侵害、易獲取等特點,成為圖像處理和計算機視覺中受關注的領域之一。提取區分性好、魯棒性好的人臉特征,構建高效可靠的分類器,來提升人臉識別的正確率,一直是人臉識別研究的難點與重點[1]。
經典的人臉識別算法有Eigenface[2]、Fisherface[3]、拉普拉斯臉[4]等。2009 年,John Wright等[5]提出一種基于稀疏表示分類(sparse representation based classification,SRC)人臉識別算法。SRC算法首先在訓練圖像上對未知圖像做編碼處理,然后通過計算最小編碼誤差來估計未知圖像屬于哪一類,從而達到分類目的。SRC的快捷與高效性,使得它廣泛用于人臉識別領域。SRC過度強調l1范數的作用,忽略了用所有類別信息表示測試樣本的協同作用。因此,Zhang等[6]提出協同表征(collaborative representation,CR)是稀疏分類的關鍵和本質,而非強稀疏性,CR便在模式識別中被廣泛采用。如Zhao[7]、Liu[8]提出核協同用于人臉識別和圖像分類等。SRC與CR采用固定字典分類可能缺乏足夠的區分信息,因此研究者們對帶稀疏約束的字典學習算法展開了研究,并取得較好的效果。如Yang等[9]提出Fisher區分字典學習算法(fisher discrimination dictionary learning,FDDL),Chen等[10]提出稀疏嵌入字典學習算法(sparse embedded dictionary learning,SEDL)等。最近,基于深度學習的卷積神經網絡在人臉識別也取得理想的效果。如Sun等[11]提出DeepID算法、Yi 等[12]提出的WebFace算法等。上述算法在人臉識別雖然取得明顯效果,但它們都采用多樣本做訓練,與實際應用情況不符合,因此用于單樣本人臉識別效果將下降。
與字典學習、深度學習相比,SRC與CR算法使用訓練樣本少,計算復雜度更低。雖然SRC和CR算法對受污染的待測樣本有較好的識別能力,但訓練樣本不受污染是前提。可變光照會改變人臉圖像的灰度分布,而傳統的主成分分析[13](principal component analysis,PCA)等算法不能很好地提取光照不變量,因此Gabor小波被廣泛用于人臉光照不變特征提取。如文獻[14]提出基于Gabor濾波的二值模式方法(histogram sequence of local Gabor binary patterns,HSLGBP);文獻[15]提出基于Gabor小波低秩恢復稀疏表示分類法。由于Gabor變換存在直流分量和帶寬受限,從而Log-Gabor[16]變換被提出,劉元等[17]將其用于人臉識別。Log-Gabor仍然存在維數高、耗時長的缺點。為降低特征維數,文獻[18]提出正交梯度相位臉 (orthogonal gradient phase face,OGPF),文獻[19]提出正交梯度二值模式(orthogonal gradient binary pattern,OGBP)。文獻[20]在文獻[18-19]的基礎上改進,提出中心對稱梯度幅值相位模式(center-symmetric gradient magnitude and phase patterns,CSGMP),并取得較好的效果。
受文獻[6,19]的啟發,本文提出一種基于正交Log-Gabor濾波二值模式(orthogonal Log-Gabor binary pattern,OLGBP)的人臉識別算法。采用正交Log-Gabor濾波器組提取人臉特征并做特征融合得到OLGBP特征,將這些特征組合成字典,最后采用協同表征分類。
假定有k類訓練樣本,每個人臉樣本可表示為列向量v。則第i類訓練樣本可以表示為

其中vi,j表示第i類中的第j個人臉列向量,ni表示第i類訓練樣本的總個數,m表示訓練樣本的維數,n表示樣本總數,n=n1+n2+…+nm。用這些訓練樣本的線性組合構成字典D∈R,則測試樣本y的協同表征系數 a可通過式(1)求得:

則系數 a為最小二乘解:

然后進行最小誤差重構,誤差最小項為測試樣本所對應的項。重構公式為

1.2.1 Log-Gabor濾波器
Gabor濾波器良好的空間局部性和方向選擇性,被用于提取人臉多個方向的結構特征和空間頻率,同時對光照和光照變化具有良好的魯棒性。但Gabor濾波器存在兩點不足:1)有直流分量,2)帶寬受限。因此,Field提出Log-Gabor濾波器[12]。Log-Gabor濾波器帶寬與人類視覺通道的帶寬更接近,更適合對圖像編碼。二維Log-Gabor在頻域上定義為

其中:

式中:u0代表濾波器的中心頻率;k控制濾波器在u1方向的帶寬;σv控制濾波器在v1方向的帶寬;θ代表濾波器的方向角度。
一幅圖像的Log-Gabor特征就是該幅圖像與Log-Gabor函數做卷積的結果。假定圖像為I(x,y),則 Log-Gabor的特征為

式中: ? 代表卷積;φu,v(x,y)代表Log-Gabor特征;LGu,v(x,y)代表尺度為u、方向為v的Log-Gabor濾波器。
1.2.2 正交Log-Gabor濾波器組
Log-Gabor濾波器組所提取的特征維數過高,從而導致計算機內存占有率高,算法識別耗時長,效率低下。受文獻[19]的啟發,提出正交Log-Gabor濾波器組。
正交Log-Gabor濾波器組是從Log- Gabor濾波器組中抽取正交方向的Log-Gabor特征。為了防止丟失有用的特征,因此在不同尺度上采取交叉選取正交方向。假定濾波器組選取5個尺度,8個方向。則全局Log-Gabor濾波器組的幅值特征如圖1所示,正交Log-Gabor濾波器組的幅值特征如圖2所示。

圖1 全局特征Fig.1 Global feature

圖2 正交特征Fig.2 Orthogonal feature
由圖2可以看出,正交Log-Gabor濾波器組所提取的特征將是全局Log-Gabor濾波器組所提特征的一半。因此,所提特征維數是全局特征維數的一半,從而可實現特征降維。又由于正交特征的方向是正交的,因此所提特征在一定程度上減少了冗余。由上述分析可知,算法的計算開銷將減少,相比同類算法識別速度有一定的提升。
OLGBP特征提取過程:
1) 將樣本分別與正交Log-Gabor濾波器組卷積,得到LG特征。
2) 首先對LG做虛、實分解,得到LGR和LGI。然后將LGR和LGI二值化,并進行同尺度不同方向的特征融合。最后,將融合特征轉十進制。二值化模式定義為

式中:Re(LGu,v(z))代表Log-Gabor特征的實部,Im(LGu,v(z))代表Log-Gabor特征的虛部。
十進制編碼模式定義為

該算法通過協作表征分類,因此將提取的OLGBP特征組合成稀疏字典D進行稀疏編碼,選取式(3)的最小值所在類作為測試樣本的類別。人臉識別流程如圖3所示。

圖3 人臉識別流程圖Fig.3 Face recognition flow chart
為驗證OLGBP算法的有效性,算法在AR人臉庫、Extend Yale B人臉庫和CAS- PEAL-R1人臉庫分別進行仿真實驗。實驗環境為MATLAB R2013a,計算機硬件配置為 Windows7 32位系統,Intel(R)Pentium(R) B940 2.0 GHz,2 GB運行內存。
AR人臉庫包含了126人的4 000多幅人臉圖像,涵蓋表情、光照和遮擋3種變化,原圖像的尺寸為120×165。隨機從庫中選取50名男性和50名女性,每人4幅光照變化的圖像進行實驗。實驗中,選擇AR人臉庫每個人的第1幅圖像作為訓練樣本,剩余3幅做測試樣本,圖像尺寸為83×60,部分圖像如圖4所示。
Extend Yale B人臉庫包含了38人正面姿態下的2 432幅圖像,涵蓋64種不同光照,原圖像的尺寸為168×192。根據光照入射角度分為5個子集:子集1的入射角度為 0°~12°(每人7幅);子集2的入射角度為 13°~25°(每人12幅);子集3的入射角度為 26°~50°(每人12幅);子集4的入射角度為 51°~77°(每人14幅);子集5的入射角度大于77°(每人19幅)。實驗中,選擇子集1每個人的第1幅圖像作為訓練樣本,其他子集做測試樣本,圖像尺寸為96×84,部分圖像如圖5所示。

圖4 AR 人臉庫部分圖像Fig.4 Example images in AR database

圖5 Extend Yale B 人臉庫部分圖像Fig.5 Example images in Extend Yale B database
CAS-PEAL-R1人臉庫包含正面圖像庫和姿態圖像庫,由1 040名中國人的99 450幅人臉圖像組成,原圖像的尺寸為100×100。實驗中,采用正面圖像庫的光照變化圖像做實驗,隨機選取其中199人(每人9幅),每人的第i(i=1,2,3,4,5)幅作為訓練樣本,其余為測試樣本,圖像尺寸為83×60,部分圖像如圖6所示。

圖6 CAS-PEAL-R1人臉庫部分圖像Fig.6 Example images in CAS-PEAL-R1 database
1)濾波器尺度u與方向v對識別率的影響
多數情況下,在使用Gabor濾波器時均采用5個尺度、8個方向,為驗證濾波器尺度s與方向o分別對算法識別率的影響,OLGBP算法將在AR人臉庫和CAS-PEAL-R1人臉庫上進行實驗。特征維數設定為90,實驗結果如圖7、8所示。

圖7 s、o在AR的實驗結果Fig.7 s and o’s result in AR

圖8 s、o在CAS-PEAL-R1的實驗結果Fig.8 s and o’s result in CAS-PEAL-R1
圖7和圖8中橫坐標分別代表濾波器的尺度個數s、方向個數o。縱軸代表濾波器的識別率。從圖7和圖8可以看出,當取小尺度數和較少的方向數時,所提取到的人臉信息少,導致識別率較低。當取大尺度數和較大的方向數時,所提取的人臉信息過多造成冗余,導致有用信息丟失,識別率下降。因此,在保證識別率的前提下,算法的計算開銷盡可能小,則Log-Gabor濾波器組的尺度數選3、方向數選2都有較好的識別率。
2)正交特征和全局特征對識別率的影響
為驗證正交特征和全局特征對識別率的影響,OLGBP算法和LGBP算法將在AR人臉庫、CAS-PEAL-R1人臉庫和Extend Yale B人臉庫的S4上進行實驗。Log-Gabor濾波器和正交Log-Gabor濾波器均設定為3個尺度2個方向,特征維數設定為90維,實驗結果如表1所示。

表1 算法識別結果Table1 Algorithm’s results %
從表1可以看出,在維數降至90的前提下,AR庫上LGBP的識別率比OLGBP高0.33%,CAS-PEAL-R1庫上LGBP的識別率比OLGBP高0.69%,Extend Yale B的S4上LGBP的識別率比OLGBP低1.43%。由此可知,除S4外OLGBP算法的識別率比LGBP算法的識別率稍低,但總體上相差不大。但LGBP算法產生了12幅LG特征圖像,OLGBP算法只產生了6幅LG特征圖像,因此OLGBP特征維數是LGBP特征維數的1/2。說明取正交方向的LG特征,在一定程度上可減少特征冗余,實現特征降維,提高算法的效率。
3)編碼系數比較
為驗證OLGBP編碼系數的有效性,OLGBP算法將與SRC、CRC算法作對比。對比實驗將在AR人臉庫進行,以AR庫第一幅人臉圖像為例。
從圖9可以看出,相同樣本各算法的編碼系數各不相同。SRC與CRC編碼系數相似,它們將第一類樣本歸于其他類,而OLGBP算法實現準確分類。由此可以說明,OLGBP算法相對SRC和CRC算法提取的特征更具有區分性。

圖9 各算法編碼系數對比Fig.9 The coding coefficients of algorithms
為驗證OLGBP算法的有效性,分別與SRC算法[5]、CRC_RLS 算法[6]、OGPF 算法[12]、OGBP 算法[13]、CSGMP算法[14]進行對比。SRC算法參數λ=0.01。CRC_RLS算法中參數λ=0.001。在OGPF算法中,方向數為5,高斯標準差σ=0.9。在OGBP算法中,方向數為8,高斯標準差σ=1。在CSGMP算法中,CSLDP尺寸為3×3,高斯標準差σ=0.6。OLGBP 算法中,CRC_RLS 的參數 λ=0.001,Log-Gabor的尺度s=3、方向o=2,最小波長為3,縮放因子為2。實驗中OLGBP、SRC和CRC_RLS算法的AR庫和CAS-PEAL-R1庫人臉尺寸為83×60,Extend Yale B 庫的人臉尺寸為 96×84。其余算法的人臉尺寸為都為100×100。所有實驗進行20次,并對結果取平均值。
從表2可以看出,OGPF、OGBP、CSG- MP和OLGBP各算法都取得了良好的識別率。SRC和CRC_RLS算法只考慮了稀疏表示,并沒有對圖像提取更加顯著的特征;OGPF算法提取人臉5個方向的梯度相位特征,使用于分類的信息更加豐富;OGBP算法是OGPF算法的改進,它將梯度相位進行8個方向的量化并賦予不同的權值;CSGMP算法利用了梯度幅值和梯度相位的互補性,提取了人臉不變特征。OLGBP算法采用正交Log-Gabor濾波器組提取多尺度下的特征圖,并通過對虛部和實部二值編碼充分挖掘了人臉信息,取得了良好的識別率。

表2 AR人臉庫上識別結果Table2 Face recognition results in AR %
從表3可以看出:CRC_RLS算法雖然在第1、2、4幅圖有很好的效果,但第4、5幅圖的識別率低,導致算法識別率不穩定,可靠性降低。OLGBP算法通過提取多尺度、多方向特征對單樣本進行了細節的擴充,再通過虛實分解和編碼使得人臉結果信息更豐富,相比其他算法識別率得到提升且穩定性較好。

表3 CAS-PEA-R1人臉庫上識別結果Table3 Face recognition results in CAS-PEA-R1 %
表4的復雜光照的實驗結果可以看出子集2中人臉光照條件良好,算法識別率都很高;子集3~5中人臉光照條件越來越差,沒有進行特征提取的SRC、CRC_RLS算法和只進行局部特征提取的CSGMP算法識別率下降最快;OGPF和OGBP利用梯度信息,識別率下降慢;OLGBP通過提取多尺度正交方向信息,對虛部和實部分別編碼提高了抗干擾的能力,在劇烈的光照下也有較高的識別率。

表4 Extend Yale B人臉庫上識別結果Table4 Face recognition results in Extend Yale B %
為對比算法的復雜程度,在AR庫的光照集進行試驗。以AR庫每人的第一張人臉作為訓練樣本,光照變換人臉作為測試樣本,測試算法識別一張人臉所花的時間為

式中:T1表示提取一幅人臉特征消耗的平均時間,T2表示一張測試樣本與多張訓練樣本匹配消耗的平均時間。各算法在AR光照集的特征維數與耗時結果如表5所示。

表5 不同算法在光照集的特征維數與耗時Table5 Different algorithm’s dimension and time in different illumination set ms
從表5可以看出:OLGBP算法比OGPF、OGBP和CSGMP的特征維數都要小,且OLGBP的每一項平均耗時都低于上述3種算法,其原因在于OGPF采樣了5個方向的特征,OGBP采樣了8個方向的特征,CSGMP采用CSLDP算子維數相對較小但特征提取時間太長,而OLGBP只采樣2個方向的特征。SRC算法和CRC_RLS算法沒有提取特征,因此特征提取耗時項為0。由于SRC采取l1來求解稀疏系數,因此特征匹配耗時遠遠高于其他算法。OLGBP是CRC_RLS的改進,因此增加了特征提取、特征匹配的耗時。結合表2~5來看,OLGBP算法不僅識別率高,而且算法的時間開銷少,可以滿足時性的要求。
正交Log-Gabor濾波二值模式算法首先采用Log-Gabor濾波組提取多尺度正交方向的LG特征,然后對LG特征進行虛實分解并編碼、融合,最后將OLGBP特征組合成稀疏字典采用協作表示進行分類。實驗結果表明:正交方向的LG特征可以減少特征的冗余,降低特征維數。對LG的虛實分解,可以充分提取人臉所隱藏的信息。對多尺度多方向LG特征的融合即可以增強特征的判斷能力,也可以進一步實現降維。
采用正交Log-Gabor濾波器組所提特征數是全局Log-Gabor濾波器組所提特征數的一半。因此,所提特征維數是原來特征維數的一半,從而可實現特征降維。又由于OLGBP特征的方向是正交的,因此所提特征在一定程度上減少了冗余,識別率基本保持不變。由上述分析可知算法的計算開銷可減少,相比同類算法識別速度得到提升。在AR、Extend Yale B和CAS-PEAL-R1人臉庫的實驗結果表明:OLGBP算法不僅對光照變化的人臉有較高的識別率,而且還降低了識別時間,因此說明了該算法對光照的有效性。未來的工作將進一步對特征提取做研究分析,通過改進特征提取算法,使得特征維數和識別時間降低并提高算法的識別率。