張杜娟,陳 飛,丁 莉
(西安醫學院衛生管理學院,陜西西安 710021)
人臉識別技術在日常生活中運用廣泛,成為現代社會管理的有力手段[1-3]。人臉識別技術自提出以來,長期成為模式識別和人工智能領域的熱點問題。基于人臉圖像的識別算法主要從特征提取和分類決策兩個角度入手。前者是從高維度圖像中抽取與人臉特性直接相關的描述方式;后者根據提取特征進行未知樣本所屬類別的判斷。當前,應用于人臉識別的特征種類多樣,具有代表性的是像素分布類和圖像分析類。像素分布類主要考察人臉圖像的灰度分布規律,通過注入主成分分析(Principal Component Analysis,PCA)等手段獲得有效的低維度特征矢量[4-5]。圖像分析類則通過圖像細節的處理獲得人臉的點、線、面以及局部問題特征[6-8]。對比而言,前一類特征具有提取效率高、特征形式規則的優勢;后一類特征則具有物理意義清晰、解譯性更強的優勢。根據獲取的特征,分類決策階段針對性選取或設計判斷機制。人臉識別算法的決策機制見證了模式識別領域分類器的發展進步。早期的分類器主要有近鄰分類器、支持向量機(Support Vector Machine,SVM)[9]、神經網絡等。后續,基于壓縮感知的稀疏表示分類器(Sparse Representation-based Classification,SRC)在人臉識別中得到了驗證[10-11]。近年來,以卷積神經網絡(Convolutional Neural Network,CNN)為代表的深度模型成為人臉識別最為常用的工具[12-13],并取得了較好的研究成果。
文中著眼人臉識別中的特征提取和分類決策問題,提出聯合多模態表示的新方法。采用二維經驗模態分解(Bidimensional Empirical Mode Decomposition,BEMD)對人臉圖像進行分解[14-15],獲得多層次二維內蘊模函數(Bidimensional Intrinsic Mode Function,BIMF)。相比單一的原始圖像,多層次的BIMF 可梯次化描述人臉的全局、局部、細節等特性,因此區分不同類別的能力更強。對于分解得到的多層次BIMF,文中選用多任務壓縮感知模型(Multi-Task Compressive Sensing,MTCS)[15-16]對其進行表征。MTCS 在貝葉斯理論框架下求解多任務稀疏表示問題,在考察不同任務之間關聯的條件下獲得概率意義上的最優解。因此,通過結合BEMD 和MTCS 在特征提取和分類決策方面的優勢,所提方法可以取得更為穩健的人臉識別性能。基于ORL 和Yale-B 數據集開展實驗分析,結果驗證了方法的可靠性。
BEMD 是EMD 在二維領域的擴展,可直接用于圖像分解[14-15]。對于輸入圖像I(x,y),經過BEMD 分解后得到如下形式:

其中,cj(x,y),j=1,2,…,L表示分解得到的多層次BIMF;rL(x,y)為分解殘差,多為圖像中的噪聲雜波分量等。
文獻[15]詳細論證了BEMD 的實施流程和分解結果。現有研究成果表明了BEMD 在圖像分析解譯中的有效性。經過分解得到的多模態表示,即多層次BIMF,可更為有效地反映其中被描述對象的多角度性質。文中將BEMD 用于人臉圖像分解,將其獲得的BIMF 用于后續的分類決策過程,獲得更具鑒別力的特征描述。
多任務壓縮感知是壓縮感知理論的拓展運用,主要用于解決多個關聯稀疏表示問題的聯合求解。其基本思想是在貝葉斯框架下通過對不同成分進行有效統計建模獲得具有最大后驗的結果。對于Y={yi}i=1,…,L共有L個不同的稀疏表示任務,它們獨立描述的情況如下:

其中,Ai∈RNi×N表示第i稀疏表示問題的字典;xi為待求解的稀疏系數矢量;ni為噪聲分量,采用均值為零、方差為ξ0的高斯分布進行建模。
在此基礎上,yi的概率密度函數可表達如下:

在利用這L個稀疏表示問題存在內在關聯的條件下,進一步轉化為如下形式:

其中,xi,j是xi中的第j個元素;ξ=[ξj,…,ξN]T。
MTCS 通過最大化邊緣概率密度可獲得ξ的最佳估計,形式如下:

MTCS 采用迭代更新的策略不斷獲得概率意義上的近似解,求得不同稀疏表示問題的表示系數的均值和方差。最終結果在概率意義上具有最優性,對于后續的分類決策具有重要的意義。
在MTCS 求解得到各個稀疏表示問題的系數矢量的前提下,可分別利用不同類別訓練樣本對測試樣本進行重構,通過比較重構誤差進行類別決策:

其中,為第i個稀疏表示問題中與第k類關聯的局部字典;為對應的系數矢量。
文中采用MTCS 對人臉圖像分解得到的多模態表示進行表征。從MTCS 的原理可以看出,其在概率框架下獲得具有最大后驗的最優估計結果。因此,其可充分考察不同BIMF 的獨立性和關聯性,獲得最佳的重構結果。圖1 給出了所提方法的具體實施流程。訓練集在BEMD 的分解下構建多層次的BIMF 字典,測試樣本相應分解得到對應層次的BIMF。在MTCS 的表征下,各個訓練類別均會對測試樣本產生一個重構誤差,最終通過比較不同類別的誤差大小即可判定測試樣本的所屬人臉類別。具體地,文中根據重復實驗結果,選取分解結果中的前四層(即圖1 中M=4)BIMF 代入識別算法,MTCS 的最佳參數通過自尋優獲得。

圖1 聯合多模態表示的人臉識別流程
ORL 和Yale-B 人臉圖像數據集是當前開展人臉識別算法驗證的權威數據集,具有很強的代表性。其中,ORL 數據集收集了40 張的人臉圖像,每人包含10 個樣本。Yale-B 數據集收集了10 張的人臉圖像,每人45 張。圖2 給出了兩個數據集的部分人臉樣本示意。具體開展實驗時,在ORL 數據集中,隨機選取每人5 個樣本作為訓練集,其余5 個樣本用于測試。在Yale-B 數據集中隨機選取每人20 個樣本作為訓練集,其余25 個樣本用于測試。

圖2 人臉圖像樣本示意
實驗過程選擇已有的一些人臉識別方法與文中方法作對比研究,主要包括文獻[9]中提出的基于灰狼算法優化的SVM(記為優化SVM)、文獻[3]設計的改進SRC(記為改進SRC)以及文獻[13]采用的多模態深度特征(記為DeepFace)。實驗共分為3 個部分,分別為原始樣本、噪聲樣本和遮擋樣本,可據此全面測試所提方法的綜合識別性能。
3.2.1 原始樣本
該實驗基于ORL 和Yale-B 原始樣本開展測試,按照3.1 節中的實驗對比設置,分別測試各類方法的性能,統計如表1 所示。橫向對比ORL 和Yale-B 兩個數據集,明顯發現ORL 的整體識別難度更大,所有方法的平均識別率均相對較低,主要由于圖像樣本的獲取條件相對苛刻。縱向對比各類方法,所提方法在兩個數據集上均保持最佳性能,體現了其有效性。相比優化SVM 和改進SRC 方法,該文除了選用合適的分類機制,還在特征提取方面作了充分考慮。多層次BIMF 相比單純利用原始人臉圖像可提供更為充分的識別信息。和DeepFace相比,文中通過結合BEMD 和MTCS 兩者的優勢進一步提升了最終性能。

表1 原始樣本識別結果對比
3.2.2 噪聲樣本
上述實驗中的原始樣本多在合作條件下獲取,總體噪聲水平較低,不能很好地檢驗各方法在噪聲干擾條件下的性能。而實際情況下,人臉圖像獲取可能會有各種干擾存在,為此,實驗首先通過模擬噪聲條件的方式獲得不同信噪比(SNR)下的測試集,進而考核各類方法的噪聲穩健性。圖3 給出了全部四類方法在不同信噪比條件下的平均識別率,從中可以看出噪聲干擾對于人臉識別性能的顯著影響。所提方法通過結合BEMD 分解的多模態表示和MTCS 的優勢,在各個噪聲水平均保持了最佳性能。BEMD 分解過程實際也在進行噪聲殘差的優化剔除,MTCS 在貝葉斯框架下進行稀疏表示問題求解,充分考慮了噪聲分布的影響。因此,兩者的有效結合可以提升識別算法對于噪聲干擾的穩健性。

圖3 噪聲樣本識別結果對比
3.2.3 遮擋樣本
如文獻[17]所述,現實中采集得到的人臉圖像往往伴隨遮擋的情形。為此,下面開展遮擋樣本的測試。首先,按照文獻[17]的思路采用局部遮擋的方式構造不同遮擋比例條件下的測試樣本。然后,分別在不同的遮擋比例下對各類方法進行測試,統計識別結果如圖4 所示。遮擋情形的出現直接影響了所有4 類方法的性能,其中DeepFace 最為劇烈。所提方法在各個遮擋比例下均保持最佳性能,體現其遮擋穩健性。基于BEMD 分解的多模態表示通過互補關聯描述可在遮擋情形下保持高鑒別力。MTCS則可以利用多模態表示的優勢獲得最終的穩健決策結果。

圖4 遮擋樣本識別結果對比
文中將BEMD 和MTCS 聯合運用于人臉識別問題,通過MTCS 對多模態表示的有效處理獲得更為穩健的人臉識別結果。特征提取和分類決策有效性的提升使得文中方法具有性能優勢。實驗依托ORL和Yale-B 數據集在原始樣本、噪聲樣本和遮擋樣本上開展,通過與現有幾類方法的對比分析,可以證實所提方法的性能優勢。