詹增榮,曾青松
(廣州番禺職業技術學院信息工程學院,中國廣州 511483)
對象識別是模式識別領域中非常重要的應用之一.隨著攝像機的廣泛應用,人們可以輕易地獲取關注對象的大批量監控圖像,這一背景促進了人們從單一圖像為輸入[1]轉向以圖像集合為輸入[2-4]的對象識別應用研究.
以圖像集合為研究對象的匹配方法能夠利用多幅圖像提供的信息獲得更好的匹配性能[5].這一類問題的研究一般通過對單幅圖像提取特征,然后合成多幅圖像的特征組成一個圖像特征集合,建立圖像集合的模型,通過計算模型對之間的距離來度量兩個集合的相似性[6].在實際應用中,獲取的圖像集中通常含有噪聲,會影響模型的描述能力,因此所構建的模型應該要有一定的魯棒性,或者低秩描述[7]來表示一個圖像集合.
一般地,可考慮使用子空間或流形來表達一個圖像集合[8].經典的互子空間(Mutual subspace method:MSM)方法[4]將圖像集投影到低維線性子空間,通過計算圖像序列生成的子空間之間的主角來度量兩個子空間之間相似性,這一方法被廣泛地擴展.流形-流形距離(Manifold-Manifold Distance:MMD)[9]擴展了子空間距離,將整個非線性流形劃分成多個局部模型[10],綜合考慮成對的局部模型之間的距離來度量兩個流形的相似性.作為MMD 的擴展,通過用流形來描述每一個集合,流形鑒別分析[11](Manifold Discriminant Analysis:MDA)通過多流形學習解決有監督的流形間距離計算問題.仿射子空間方法,如基于仿射包的圖像集距離[12](Affine Hull-based Image Set Distance:AHISD),通過兩個仿射包中距離最近的兩個點之間的幾何距離來度量集合之間的相似性.為了克服AHISD 方法由于不加任何額外約束條件,直接搜索最近鄰的點,導致離群點的干擾嚴重影響分類的精確度的缺陷,借助稀疏表達的方法,通過稀疏逼近最近鄰點[13](Sparse Approximated Nearest Points:SANP)可以更加精確地度量兩個仿射包之間的相似性.
本文從圖像集合的整體特征模型出發,考慮到正定的對稱矩陣構成黎曼流形上的子空間,使用圖像的特征向量構成圖像集合的特征矩陣,然后計算特征矩陣的協方差來建模圖像集合.通過定義協方差矩陣對之間的對數距離來度量兩個圖像集合的相似性,有效地將黎曼流形上的度量轉換為歐式空間上的度量,應用核Fisher 判別分析(Kernel Fisher Discriminant Analysis:KFDA)[14]進行分類.
給定一個固定位置的攝像機,由于場景的光照、觀測對象的姿態變化,連續獲取的圖像之間存在很大的差異,但是它們之間也存在很大的相關性.因此,需要對觀測對象的圖像進行特征提取,以盡可能地消除外界因素的影響.提取圖像特征最簡單的辦法是將圖像進行灰度變換、直方圖均衡化,然后將圖像的像素值逐列堆疊成一個向量來表示,也可使用其他的圖像特征提取方法對整個圖像提取局部特征,如局部二值模式[15](Local Binary Patterns,LBP)、尺度不變特征變換(Scale-Invariant Feature Transform:SIFT).LBP 是一種有效的紋理描述算子,度量和提取圖像局部的紋理信息,對光照具有不變性,SIFT 是一種檢測局部特征的算法,通過求一幅圖像中的特征點,一般也稱為興趣點(interest points)或者角點(corner points),及其有關尺度(scale)和方向(orientation)的描述子得到圖像的特征描述.
在得到單幅圖像的向量化特征描述基礎上,對于圖像集合,一種簡單的處理方法是將這些向量作為矩陣的列,通過一個矩陣來表示,計算基于矩陣分解的特征,建立特征模型,然后定義兩個模型之間的相似度.基于矩陣描述的方法的主要優點是可以利用已有的成熟的矩陣分解技術,圖像集之間的相似性轉化為兩個矩陣之間的相似性的度量.
由于圖像集合的元素數量不確定,直接計算兩個尺度不一致的特征矩陣的相似性有一定的困難.考慮到矩陣的協方差體現了變量之間的二階統計特性,反映了集合中各圖像之間的相關性,因而可以通過計算特征矩陣的協方差來建模一個圖像集合得到大小一致的協方差矩陣.進一步,由于正定對稱矩陣構成黎曼流形的子空間,每一個矩陣可以理解為流形上的一個點,非奇異協方差矩陣是對稱正定矩陣,所以使用協方差矩陣描述一個圖像集,可以將圖像集合的相似性計算轉換為計算流形上兩個點之間的距離[6].
將圖像集合的協方差矩陣當成黎曼流形上的點,可以解釋為:存在一個非線性映射函數將圖像集合X投影到特征空間,表示為協方差矩陣模型cov(X),這個函數描述為,其中X∈RD×N.
線性判別分析(Linear Discriminant Analysis,LDA),也稱為Fisher 判別分析(Fisher Discriminant Analysis,FDA)是一種有監督的判別分析方法,其主要思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數的效果.它能夠保證投影后模式樣本在新的空間中有最小的類內距離和最大的類間距離,即模式在該空間中有最佳的可分離性.LDA 被廣泛的應用,但是LDA 沒有包含高階的統計量,無法很好地對非線性分布的數據進行分類.
核技巧是處理非線性數據的有效方法之一,KFDA 是核函數和線性判別分析相結合的產物,它能有效地對非線性分布的數據進行分類,首先通過一個非線性映射函數φ:RD→F,將RD空間中的原始訓練樣本變換到某一高維的特征空間(可能是無線維的)以獲得數據分布的更加豐富的表示,然后在特征空間中執行線性判別分析,找出使類間散度最大而類內散度最小的投影方向進行分類.
一般地,非線性映射通過核函數內積運算來完成:
k(Xi,Xj)=〈φ(Xi),φ(Xj)〉,

核判別分析求解最優化以下目標函數:

其中核矩陣K=[kij],kij=k(Xi,Xj),α=[α1,…,αN]T.
通過求解異特征值問題:KWKα=λKα,保留最大的C-1 個特征值對應的特征向量得到投影矩陣A=[α1,…,αC-1],其中每一個特征向量α 給定特征空間F 中的一個鑒別方向.
測試時,給定輸入空間的一個圖像集合的特征向量矩陣Xt∈RD,在判別子空間的C-1 維投影可以通過公式Zt=ATKt得到,其中Kt=[k(X1,Xt),…,k(XN,Xt)]T.
在KFDA 中,核函數的選擇直接影響到分類效果.理論上要求選擇的核函數需要只要滿足Mercer 條件即可,但不同核函數分類器的性能完全不同.較常用的核函數有:線性核函數、多項式核函數、高斯徑向基核函數等.本文結合圖像集合的協方差模型表示這一特定的條件選擇核函數,充分利用協方差矩陣的正對稱性簡化核矩陣的計算.
給定一個矩陣,每一個列為一張圖像的特征向量,X 為其協方差矩陣,設X=U∑UT表示正定對稱矩陣X 的特征值分解.為了快速計算log(X),記log(∑)表示特征值的對數構成的對角矩陣,那么log(X)的計算可分解為:log(X)=Ulog(∑)UT,它仍然是一個對稱矩陣[16].
記‖XF‖表示Frobenius 矩陣內積〈·〉F導出的Frobenius 范數(簡稱F-范數),

可以通過該范數來定義兩個協方差矩陣之間的Log-Euclidean 距離[17]:
d(Xi,Xj)=‖log(Xi)-log(Xj)‖F,
度量函數d(·,·)是黎曼流形上的幾何距離度量[17].該度量可以理解為存在映射φ 將黎曼流形上的點投影到歐式空間:
φ:M →TI,X →log(X),
映射φ 將黎曼流形上的點X 投影到單位矩陣I所對應的點的切空間TI,這個空間是由對稱矩陣構成的向量空間.通過這個度量函數兩個協方差矩陣的相似性度量轉換為一般的歐式空間中的度量,因此可以直接利用歐式空間中的判別分析方法進行分類.
通過計算切空間TI中的內積,可以得到黎曼流形M 上的黎曼核[16],對?Xi,Xj∈M,定義核函數:
k(Xi,Xj)=tr[log(Xi)·log(Xj)],
一方面,對?X1,…,Xn∈M 與b1,…,bn∈R,因為

所以該核函數是正定的,其中tr 表示求矩陣的跡.另一方面,因為log(Xi)與log(Xj)是對稱矩陣,tr[A·B]=tr[B·A],可以得到
tr[log(Xi)·log(Xj)]=tr[log(Xi)T·log(Xj)]=tr[log(Xj)·log(Xi)T]=tr[log(Xj)·log(Xi)].
所以,klog是一個實對稱函數:klog(Xi,Xj)=klog(Xj,Xi).式中tr 表示求矩陣的跡,(·)T表示矩陣轉置操作.因此,這個核函數滿足Mercer 條件.
本節討論在ETH80 對象分類數據庫上進行基于集合的對象匹配和在加利福尼亞大學圣迭戈分校臉部追蹤視頻數據庫(HondaUCSD Video Database)上執行基于集合的人臉識別實驗.所有的實驗都使用最近鄰分類器進行分類.

圖1 ETH80 對象數據庫中的樣本Fig.1 Simples from ETH80 object database
如圖1(a)所示,ETH80 數據庫包含蘋果、小汽車、牛、杯子、狗、馬、梨和西紅柿8 類對象的不同視角和實例的靜態圖像.如圖1(b)所示,每個類別包含10 個不同的實例.每個實例包含不同視角下的41 張圖片.
實驗中,將每一個體全部41 張圖像合成為一個圖像集合,整個數據庫包含80 個圖像集合,每個類別有10 個圖像集合.測試中,將每一個體的10 個集合隨機地劃分為兩組,每組5 個集合,分別用于訓練和和測試.實驗中,從集合的41 張圖像中隨機選擇30 個視角的圖像用于構造隨機實驗.

圖2 HondaUCSD 數據庫人臉檢測結果示意圖Fig.2 Face detected results on HondaUCSD database
HondaUCSD 數據庫的視頻在室內錄制,包含人的不同姿態和表情變化,是一個用于做人臉識別跟蹤/識別的標準視頻數據庫,共包含19 個人的59 段視頻,每個人有2~3 段獨立錄制的視頻.該數據庫每個視頻包含300~500 幀,且被分割成多個視頻片段,每個片段包含大約60 幀.本文采用Viola[18]檢測算子從每一幀中檢測人臉組件.圖2 給出了檢測到的人臉示意圖.實驗中,每個人選擇一段視頻做訓練,其余的視頻做測試.每次隨機實驗,從視頻中隨機選擇30 幀構成測試圖像集.
本文與在第1 節中提到的另外5 種基于集合的匹配方法進行了對比.這些方法包括:MSM[4],MMD[9],MDA[11],AHISD[12]和SANP[13].
比較實驗基于原始文獻公布的Matlab 代碼實現的算法,適當調節算法的參數取最優的結果.在MSM 和MMD 算法中,使用主成份分析方法獲得子空間,PCA 比率參數設置為0.95.MMD 和MDA 方法采用原始文獻的參數設置,歐式距離與幾何距離比值設置為2.0,鄰域大小設置為默認值12.本文使用AHISD 的線性版本,SANP 算法使用文獻相同的參數設置求解凸優化問題.
表1 列出了ETH80 數據庫上各種算法識別率的均值和方差.實驗結果顯示,在ETH80 數據庫上,MSM,MMD,MDA,AHISD 和SANP 算法取得基本一致的結果,在本文設定的實驗條件下,本文的算法結果優于其他幾個算法,平均識別率達到96%.這可能與本文采用協方差矩陣對圖像的特征矩陣進行建模有關,圖像特征矩陣的協方差矩陣考慮到了特征向量的二階特征,并且考慮了圖像集的整體相關性,因此能夠有效地消除單張圖像特征不穩定對識別結果的影響,提高了圖像集合模型的穩定性.圖3 給出了5 次隨機實驗的識別率的對比.如圖3所示,每一次隨機實驗中,本文提出的方法都穩定地高于其他算法.

表1 ETH80 數據庫上的實驗結果Tab.1 Experimental results on ETH80 database
ETH80 數據庫每類物體僅僅包含41 張圖像,實驗中我們從這41 張圖像中隨機選擇30 張構成圖像子集,雖然這些圖像是從不同視角拍攝,但是它們是離散的,不能很好地滿足MDA 和MMD 等算法中的流形分布假設,從另一個側面也說明了本文采用的協方差模型能夠彌補這種缺陷.另外SANP 和AHISD 兩個算法都是基于近鄰比較的方法,圖像集合中被比較的圖像由于視角的不匹配或者缺失嚴重地影響識別結果.
表2 列出了HondaUCSD 數據庫上各種算法識別率的均值、方差.實驗結果顯示,本文提出方法識別率達到了95.90%,僅次于SANP 算法,但是高于其他經典的算法,進一步驗證了本文提出的算法能達到較好的識別效果.圖4 給出了這5 次隨機實驗的識別率的對比.

表2 HondaUCSD 數據庫上的實驗結果Tab.2 Experimental results on HondaUSCD database

圖3 ETH80 數據庫實驗的結果對比Fig.3 Experimental results of tested method on ETH80 database

圖4 HondaUCSD 數據庫實驗的結果對比Fig.4 Experimental results of tested method on HondaUSCD database
圖像集合匹配中的核心問題是如何對圖像集合建模并比較兩個模型的相似性,本文通過計算圖像集合中單張圖像的特征向量構成的協方差矩陣來建立圖像集合的協方差表差,該方法充分利用了協方差矩陣能夠提取集合中所有元素的二階特征,因而可以獲得比一階特征更好的描述能力.
比較兩個集合,可以考慮將圖像集合嵌入到黎曼流形,把圖像集表示成流形上的一個點.本文利用了協方差矩陣是對稱正定的特征,而對稱正定矩陣張成黎曼流形的子空間,從而實現將一個圖像集合表示成黎曼流形上的點.傳統的基于歐式度量的學習算法不能直接用于流形上點的分類,本文為解決這個問題通過計算矩陣的對數,構造一個黎曼核,從而把黎曼流形上的點的匹配投影到歐幾里德空間,進而使用經典的KFDA方法進行分類.本文的圖像集合建模方法有效地解決了將非歐式空間的度量轉換為歐式空間的度量,從而可以結合歐式空間已有的分類方法實現分類,后續將進一步結合圖模型做深入的研究.
[1]王科俊,段勝利,馮偉興,等.單訓練樣本人臉識別技術綜述[J].模式識別與人工智能,2008,21(5):635-642.
[2]嚴 嚴,章毓晉.基于視頻的人臉識別研究進展[J].計算機學報,2009,32(5):878-886.
[3]BARR J R,BOWYER K W,FLYNN P J,et al.Face recognition from video:a review[J].Int J Patt Recog Artif Intell,2012,26(5).
[4]YAMAGUCHI O,FUKUI K,MAEDA K I.Face recognition using temporal image sequence[C]//3rd International Conference on Face & Gesture Recognition(FG '98).Nara,Japan:IEEE Computer Society,1998:318-323.
[5]ZENG Q S,LAI J H,WANG C D.Multi-local model image set matching based on domain description[J].Patt Recog,2014,47(2):694-704.
[6]曾青松.黎曼流形上的保局投影在圖像集匹配中的應用[J].中國圖象圖形學報,2014,19(3):414-420.
[7]呂 煊,王志成,趙衛東,等.一種基于低秩描述的圖像集分類方法[J].同濟大學學報:自然科學版,2013,41(2):271-276.
[8]章毓晉,程正東,譚華春.基于子空間的人臉識別[M].北京:清華大學出版社,2009.
[9]WANG R P,SHAN S G,CHEN X L,et al.Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,Alaska,USA:IEEE,2008.
[10]WANG R,SHAN S,CHEN X,et al.Maximal linear embedding for dimensionality reduction[J].IEEE Trans Patt Anal Machine Intell,2011,33(9):1776-1792.
[11]WANG R P,CHEN X L.Manifold discriminant analysis[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognit.Miami,Florida,USA:IEEE,2009.
[12]CEVIKALP H,TRIGGS B.Face recognition based on image sets[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE Computer Society,2010.
[13]HU Y,MIAN A S,OWENS R.Face recognition using sparse approximated nearest points between image sets[J].IEEE Trans Pattern Anal Machine Intell,2012,34(10):1992-2004.
[14]BAUDAT G,ANOUAR F.Generalized discriminant analysis using a kernel approach[J].Neural Comput,2000,12(10):2385-2404.
[15]AHONEN T,HADID A,PIETIKAINEN M.Face description with local binary patterns:application to face recognition[J].IEEE Trans Patt Anal Machine Intell,2006,28(12):2037-2041.
[16]WANG R,GUO H,DAVIS L S,et al.Covariance discriminative learning:a natural and efficient approach to image set classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.
[17]ARSIGNY V,FILLARD P,PENNEC X,et al.Geometric means in a novel vector space structure on symmetric positive-definite matrices[J].SIAM Matrix Anal Appl,2007,29(1):328-347.
[18]VIOLA P,JONES M J.Robust real-time face detection[J].Int J Comput Vision,2004,57(2):137-154.