陶 洋,鮑靈浪,胡 昊
(重慶郵電大學通信與信息工程學院,重慶 400065)
在實際應用中,觀察到的樣本數據通常位于高維空間,這不僅增加了計算量和存儲代價,而且會導致“維數災難”問題[1]。因此,如何處理高維樣本數據已成為計算機視覺領域的研究熱點[2]。通過將原始高維數據映射到一個既包含大部分固有信息又保留區分能力[3]的低維子空間是非常具有挑戰性的任務,而降維是獲得觀測數據緊湊低維表示的一種直接有效的方法。
從不同角度對降維算法有若干種分類方式,如根據降維過程是否使用標簽信息可分為監督學習[4]和無監督學習。由于在現實場景中無標簽數據的獲取更為方便,因此無監督學習成為降維過程中的研究重點,如主成分分析(PCA)[5]、局部保留投影(LPP)[6]、領域保留 嵌入(NPE)[7]和 稀疏保留投影(SPP)[8]等算法,都可以被視為基于圖的特征提取算法。
遮擋、照明和原始圖像中的噪聲會嚴重影響降維算法的性能,因此,基于低秩的特征提取引起了人們的重視,核主成分分析(KPCA)算法[9]和核線性判別分析算法(KLDA)[10]是其中的經典算法。文獻[11]提出一種用于特征提取的低秩嵌入(LRE)算法,通過魯棒線性降維來挖掘觀測數據的潛在局部關系。低秩表示(LRR)[12]通過丟棄分解出的噪聲部分,可以有效消除噪聲、照明和遮擋的影響。考慮到稀疏性能夠捕獲局部結構的數據信息,低秩模型能夠幫助獲得全局結構信息,文獻[13]提出一種低秩稀疏表示算法。文獻[14]提出一種增強的低秩表示(ELRR)方法,其中流形結構被引入以充當正則項。LRR 假定子空間是獨立的,但在實際情況下,這種假設是不正確的。為解決這個問題,文獻[15]提出一種結構約束的低秩表示算法用于解決不相交的子空間聚類。文獻[16]提出的低秩稀疏保留投影(LSPP)算法,則能在保留固有幾何結構的同時學習魯棒表示。
然而,上述算法僅考慮了數據的局部結構或全局結構,即使同時考慮低秩性和稀疏性來捕獲數據結構,也無法處理訓練樣本外的新樣本,這是因為目標函數不具有任何映射功能。良好的數據表示并不意味著良好的分類性能,應盡可能同時獲得降維(映射函數)和最合適的信息判別表示,但是這兩者都不是預先可知的。為解決上述問題,本文提出一種表示學習與嵌入子空間學習相結合的降維算法。利用投影樣本的低秩表示對觀測樣本的相似性判別信息進行編碼,同時通過加權稀疏的低秩正則化項來保持投影樣本的全局相似性,從而更有效地保護數據的局部結構。在此基礎上,通過迭代學習優化稀疏低秩表示和投影矩陣表示過程,最終實現有效分類。
由于本文的工作主要基于低秩稀疏表示,因此本節簡要介紹低秩稀疏表示算法。令矩陣X=[x1,x2,…,xn]?Rm×n是來自c個不同類別的n個訓練樣本的集合,其中,xi是代表來自X的第i個訓練樣本的列向量,m是特征維數,其值通常較高。降維算法的目標是獲得最佳映射函數P=[p1,p2,…,pd]?Rm×d,將m維空間中的數據轉換為d維子空間數據,其中,d?m。LRR 是用于從觀察數據中保留子空間結構的子空間聚類算法,旨在捕獲在給定詞典中觀察到的數據的最低秩表示。由于秩函數是NP 難問題,同時考慮到實際應用中觀測到的數據通常會包含噪聲和離群值,因此LRR 的目標函數可以表示為:

其中,‖Z‖*表示核范數,‖E‖l表示數據噪聲,根據不同的噪聲模型,‖·‖l可以選取不同的范數,λ是一個非負常數,A?Rd×n代表由許多基向量組成的“字典”,它可以構造一個線性子空間來表示觀測到的數據X。當獲得式(1)中的最優解Z*和E*時,可以使用AZ*+E*恢復原始觀測數據X。為簡單起見,選擇將觀測數據X本身用作式(1)所示模型的“字典”,然后使用增強拉格朗日乘數(ALM)算法[17]獲得該優化問題的解。盡管LRR 可以針對聚類問題實現更好的魯棒性能,但其不能用于獲取投影矩陣進行降維。因此,文獻[16]提出一種用于尋找低維映射矩陣的低秩稀疏保持投影算法,其目標函數為:

其中,diag(Z)=0 用于約束矩陣Z的對角元素為0,γ是平衡參數。式(2)所示模型通過同時對表示系數施加低秩約束和稀疏約束來得到數據的全局結構及內部的局部結構。得到低秩稀疏表示矩陣Z后,將其嵌入低維子空間以尋找投影矩陣,即:

其中,zi是樣本xi對應的低秩稀疏表示,P是投影矩陣,PTX即為降維后的低維空間。
低秩稀疏表示算法雖然可以捕獲數據的全局結構和內部子空間的局部結構,但該算法缺少映射函數,無法直接用于特征提取進行降維。本文提出一種表示學習與嵌入子空間學習相結合的降維算法,通過將低秩表示、稀疏表示和降維集成到一個統一的框架中,并設計一種交替優化策略,使投影矩陣和加權稀疏的低秩表示系數矩陣聯合學習和優化。
在本文算法中,低秩表示、加權稀疏表示和低維子空間可以聯合學習,以實現更魯棒的特征提取。其中,低秩表示可以獲得觀測樣本的全局結構信息,加權稀疏表示可以更好地保持所觀察樣本的局部幾何結構關系,低維子空間可以學習用于降維的映射函數P。本文算法的目標函數表示為:

其中,第1 項是低秩約束,第2 項是M⊙Z的l1范數,第3項表示對數據噪聲E施加l2,1范數,第4項表示低維子空間學習。本文將加權稀疏約束條件集成到LRR 算法中以獲得更具區分性的低秩表示。在目標函數中,參數γ、λ和β均為正數。對于權重M的構造,本文考慮使用[18]樣本的形狀交互信息。令樣本X的瘦形奇異值分解為,r為矩陣X的秩,則每個樣本xi的形狀交互表示為Hi=。對Hi進行規則化處理,則形狀交互權重表示為:

其中,第1 項是局部流形保持正則化項,其目的是在執行降維過程時,使投影樣本在低維空間中保留原始樣本在高維子空間中的局部流形結構。本文使用KNN 構造圖權重矩陣W,其中元素表示為:

由于式(4)所示模型中有多個變量,包括Z、E和P,因此不能直接求得最優解。本文提出一種迭代更新算法來優化該模型,主要思想是每次優化一個變量而保持其他變量不變,具體如下:
1)固定變量P,更新變量Z和E。
當固定變量P時,式(4)所示模型可等式于:

引入輔助變量J后,式(7)可以表示為:

式(8)所示的優化問題可以通過ALM 來解決,其對應的增強拉格朗日函數表示為:

其中,Y1和Y2是拉格朗日乘子。通過分別固定式(9)中的任何其他兩個變量,使函數L最小化以交替更新變量Z、J和E,從而獲得式(9)的最優解。每個變量的更新規則如下:

由式(15)可得P=[p1,p2,…,pd],其中向量pi對應于第i個最小特征值的特征向量。因此,可以通過迭代更新Z和P來獲得式(4)所示目標函數的解。
為驗證交替優化策略的收斂性,在Yale B[19]人臉數據庫和COIL20[20]數據庫上進行一組實驗。圖1顯示了本文算法的目標函數值在這兩個數據庫上迭代次數的變化,可以看出,目標函數值隨著迭代次數的增加而穩定下降。

圖1 本文算法在兩個圖像數據庫上的收斂曲線Fig.1 Convergence curves of the proposed algorithm on two image databases
為評估本文算法的有效性,將其與目前主流的特征提取算法PCA、NPE、SPP、SPCA[21]和LRPP[22]進行比較。這些對比算法在提取觀測數據的特征后都使用最近鄰分類器執行分類任務。為進行公平比較,每種算法在測試數據庫上獨立運行5 次。此外,對比算法的參數設置參考其文獻出處或手動調整為最佳。
在Yale B 人臉數據庫、CMU PIE 人臉數據庫[23]和COIL20 圖像數據庫上驗證本文算法的分類性能。3 個數據庫的示例樣本圖像如圖2 所示,其中每個對象的任意10 張或20 張圖像都被用作訓練樣本,每個對象的其余圖像被用作測試樣本,具體設置如表1所示。

圖2 3 個數據庫的示例圖像Fig.2 Sample images of three databases

表1 數據庫設置Table 1 Setting of databases
本文算法包含3 個相關參數,即γ、λ和β,本節在COIL20 數據庫上進行實驗,以驗證這些參數對本文算法的影響。從圖3 所示結果可以發現,參數γ和λ的變化對算法的性能影響很小,即本文算法對參數γ和λ非常魯棒。此外還可以看出,參數β的最佳范圍應為1.00~1.75,當參數β小于1.00 時,算法性能急劇下降。

圖3 本文算法分類精度與參數的關系(COIL20 數據庫)Fig.3 The relationship between the classification accuracy of the proposed algorithm and parameters(COIL20 database)
通過觀察分類精度隨不同圖像數據庫樣本的特征維度d及訓練樣本數m的變化,驗證本文算法的性能優勢。6 種算法的平均分類精度如表2~表4所示,其中加粗數據表示最優數據,從中可以看出:

表2 不同特征維度下6種算法的分類精度(Yale B 數據庫)Table 2 Classification accuracies of six algorithms under different feature dimension(sYale B database)%

表3 不同特征維度下6 種算法的分類精度(CMU PIE 數據庫)Table 3 Classification accuracies of six algorithms under different feature dimension(sCMU PIE database)%

表4 不同特征維度下6 種算法的分類精度(COIL20 數據庫)Table 4 Classification accuracies of six algorithms under different feature dimension(sCOIL20 database)%
1)本文算法能夠在3 個公共圖像數據庫中實現最高分類精度。
2)無論樣本特征維度如何變化,本文算法的分類精度均優于對比算法。
3)低秩表示可以很好地保留所觀察樣本的全局結構信息,加權稀疏表示也可以很好地保留局部鄰域關系。
4)線性保留投影可以獲得有效的低維投影空間,從而保留高維空間中的大部分數據信息。
由此可見,與對比算法相比,本文算法具有更強的魯棒性和更好的分類性能。
本文提出一種聯合表示學習和投影學習的降維算法。該算法同時獲得觀測樣本的低維特征表示和稀疏表示,其通過交替優化策略,可以稀疏地進行低秩表示和投影學習,以實現合適的特征表示,得到更準確的相似性結構。基于公共面部數據庫和對象圖像庫的實驗結果表明,與其他的對比算法相比,該算法具有性能優勢。但是在很多實際應用場景中,并不是所有的圖像數據都是無標簽的,這些圖像數據往往帶有少部分標簽,因此,下一步將研究如何在降維算法中有效利用這些少量標簽數據。