999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多視圖特征投影與合成解析字典學習的圖像分類

2017-09-22 13:43:39荊曉遠朱小柯
計算機應用 2017年7期
關鍵詞:分類數(shù)據(jù)庫特征

馮 輝,荊曉遠,朱小柯

(武漢大學 計算機學院,武漢 430072) (*通信作者電子郵箱fenghui_whu@163.com)

基于多視圖特征投影與合成解析字典學習的圖像分類

馮 輝*,荊曉遠,朱小柯

(武漢大學 計算機學院,武漢 430072) (*通信作者電子郵箱fenghui_whu@163.com)

針對目前存在的合成解析字典學習方法不能有效地消除同類樣本之間的差異性和忽略了不同特征對分類的不同影響的問題,提出了一種基于多視圖特征投影與合成解析字典學習(MFPSDL)的圖像分類方法。首先,在合成解析字典學習過程中為每種特征學習不同的特征投影矩陣,減小了類內樣本間的差異對識別帶來的影響;其次,對合成解析字典添加鑒別性的約束,使得同類樣本具有相似的稀疏表示系數(shù);最后通過為不同類型的特征學習權重,充分地融合多種特征。在公開人臉數(shù)據(jù)庫(LFW)和手寫體識別數(shù)據(jù)庫(MNIST)上進行多項對比實驗,MFPSDL方法在LFW和MNIST數(shù)據(jù)庫上的訓練時間分別為61.236 s和52.281 s,MFPSDL方法相比Fisher鑒別字典學習(FDDL)、類別一致的K奇異值分解(LC-KSVD)、字典對學習(DPL)等字典學習方法,在LFW和MNIST上的識別率提高了至少2.15和2.08個百分點。實驗結果表明,所提方法在保證較低的時間復雜度的同時,獲得了更好的識別效果,適用于圖像分類。

圖像分類;字典學習;稀疏表示;多視圖學習;特征學習

0 引言

近年來,稀疏表示理論在模式識別、計算機視覺等領域引起了學者們廣泛的關注和研究,并在人臉識別、圖像去噪和圖像分類等方向有很多成功的應用。稀疏表示來源于信號處理中的壓縮感知理論,其核心在于用一個過完備字典中的少量基向量(字典原子)來盡可能精確地重建原始信號。在稀疏表示的基礎上,字典學習方法通過對輸入的數(shù)據(jù)集學習一個自適應的字典,可以得到原始數(shù)據(jù)集精確的特征表示,對字典加以鑒別性約束,使得學習的字典能更好地進行分類。

在機器學習、計算機視覺、模式識別等領域,許多實際問題中數(shù)據(jù)往往包含多個視圖,對同一個數(shù)據(jù)可以從多種不同的方式和角度對其進行描述,例如人臉圖像可以從顏色特征、輪廓特征、紋理特征等方面進行描述,這種對同一數(shù)據(jù)的不同描述構成了數(shù)據(jù)的多個視圖(multi-view)。由于不同視圖的特征往往處于不同的特征空間,擁有不同的屬性,因此對所有視圖特征采取同一學習方法的模型顯然不能充分利用數(shù)據(jù)中的多視圖信息[1]。為了解決此問題,許多的多視圖學習方法被提出[2]。相比單視圖學習,多視圖學習可以綜合各個視圖蘊含的信息,來發(fā)揮視圖之間的相互作用,優(yōu)勢互補,協(xié)同學習。

字典學習近年來在圖像分類領域有著非常廣泛的應用。Yang等[3]提出了MetaFace的字典學習方法,通過對每一類樣本學習一個判別字典,可以用更少的原子達到較高的識別率。Mairal等[4]結合邏輯回歸模型提出了一種任務驅動的字典學習(Task-Driven Dictionary Learning, TDDL)方法,減小不同任務的稀疏編碼代價。Wang等[5]從最大化邊界的角度提出了最大邊界的字典學習(Maximum-Margin Dictionary Learning, MMDL)的方法。Jiang等[6]提出了一種類別一致的K奇異值分解(Lable ConsistentKSingular Value Decomposition, LC-KSVD)的字典學習方法,通過引入一個二分類類別標簽稀疏編碼矩陣,使得同一類別的樣本具有相似的稀疏編碼。Yang等[7]利用Fisher準則學習結構化的字典(Fisher Discrimination Dictionary Learning, FDDL)。Gu等[8]提出了同時學習一個合成字典和一個解析字典(Dictionary Pair Learning, DPL)的方法,稀疏表示系數(shù)不再使用l0或l1范數(shù)約束,在取得較好的識別效果的同時,大大較低了時間復雜度。程曉雅等[9]提出了一種基于特征化字典的低秩表示的人臉識別(Characterized Dictionary-based Low-Rank Representation classification for face recognition, LRR-CD)方法,通過建立新的類內差異字典,同時對全局特征塊集和類內差異字典進行最小低秩優(yōu)化,構建具有高判別度和高效性的重構系數(shù)。但是這些字典學習的方法往往沒有考慮不同特征之間的變化差異,通常是利用圖像的某個單一特征或者將多個特征拼接融合成一個特征向量,沒有考慮不同視圖特征對分類的不同影響,從而未能充分利用圖像集中包含的多視圖特征信息。另外一方面,大多數(shù)字典學習的方法直接使用圖像的原始特征,但是由于角度、光照、遮擋等因素的影響,在原始特征空間中,通常同類內也存在很大的差異性,并且包含著一些噪聲信息,使得學習到的字典的鑒別性減弱,影響識別率。

針對上述問題,本文提出了一種基于多視圖特征投影與合成解析字典學習(Multi-view Feature Projection and Synthesis-analysis Dictionary Learning, MFPSDL)的圖像分類方法,首先提取不同的圖像特征,本文采取的4種特征,分別是顏色直方圖特征(Hue Saturation Value, HSV)、紋理Gabor特征、局部二值模式(Local Binary Pattern, LBP)紋理特征、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)深度特征,根據(jù)提取到的圖像不同視圖特征,對每個視圖特征同時進行特征投影和合成解析字典學習,特征投影能保證在新的特征空間中,同類樣本差異性減小,異類樣本差異性增大,對合成解析字典加以約束,使得同類樣本的稀疏表示系數(shù)更相似,因此學習到的合成解析字典具有判別性。最后考慮到在某些視圖特征下,測試樣本的正確類別對應的殘差可能不是最小的,如果將各視圖特征下的殘差進行相加,然后使用殘差最小的分類準則進行分類,可能導致錯誤的分類結果,因此采用更加合理的Borda加權投票的方式進行分類。

1 字典學習

假設有N類樣本,每張圖像的特征都可以轉換為列矢量,列矢量的維度為dim,則訓練樣本矩陣可以表示為X=[X1,X2,…,XN],Xi表示X的第i類樣本,并且Xi∈Rdim×Ni,Ni表示第i類樣本的個數(shù)。同樣字典可以表示為D=[D1,D2,…,DN],Di表示第i類子字典。訓練樣本X可以表示為字典D中若干字典原子的線性組合:X≈DG,其中:G為訓練樣本在字典D學習下的稀疏表示系數(shù)。大多數(shù)字典學習的方法可以表示成如下形式:

(1)

分類階段主要采取的是殘差最小的準則,即分別計算各類的殘差,將測試樣本劃分為殘差最小的那一類。給定測試樣本y,分類如式(2)所示:

(2)

s.t.ei=‖y-Digi‖2

其中gi(i=1,2,…,N)為測試樣本y在子字典Di下的稀疏表示系數(shù)。

大多數(shù)字典學習的方法由于對稀疏系數(shù)采用l0或l1范數(shù)約束,而Zhang等[10]驗證了基于l0或l1范數(shù)的字典學習方法的迭代優(yōu)化問題的時間復雜性比較高。DPL方法學習一對合成字典D和解析字典P,將稀疏系數(shù)G解析成G=PX,并且對稀疏表示系數(shù)不再采取l0或l1范數(shù)約束,大大提高了算法的效率,并且保持相當高的識別性能。合成解析字典的模型如下:

(3)

其中:解析字典P用于對稀疏表示系數(shù)解析編碼,而合成字典D用于對樣本進行重構;Ediscriminant(D,P,X,Y)是對D和P的鑒別約束項,以確保學習到的鑒別字典對D和P能更好地用于分類。

2 本文分類算法

由于傳統(tǒng)字典學習的方法忽略了不同視圖特征對分類的不同影響,未能充分利用數(shù)據(jù)中所蘊含的多視圖特征信息,通常只是利用圖像的某個單一的特征或者將幾個特征簡單地拼接融合,并且使用的原始特征存在類內差異性,影響圖像分類的效果。本文提出的MFPSDL方法,分別對同一圖像的每個視圖特征同時學習特征投影和鑒別性的合成解析字典,并對每個視圖特征賦予不同的分類權重,最后通過Borda加權投票的方式進行分類。MFPSDL方法的思路如圖1所示。

圖1 MFPSDL方法示意圖

2.1 特征選擇

本文選擇從顏色特征、紋理特征、深度特征等不同的視圖特征來對圖像進行描述。選擇的4種特征分別是HSV顏色直方圖特征、Gabor紋理特征、LBP紋理特征、CNN深度特征。

HSV顏色直方圖特征是一種常見的顏色特征,它的三個分量分別代表色彩(Hue)、飽和度(Saturation)和值(Value),相比RGB特征,HSV特征更接近于人們對顏色的主觀認識。

由于Gabor小波[11]與人類視覺系統(tǒng)中簡單細胞的視覺刺激響應非常相似,并且Gabor小波對于圖像的邊緣敏感,能夠提供良好的方向選擇和尺度選擇特性,而且對于光照變化不敏感,因此Gabor特征具有良好的空間局部性和方向選擇性,而且對光照、姿態(tài)具有一定的魯棒性,因此在人臉識別、圖像分類中使用廣泛。

局部二值模式LBP是一種用來描述圖像局部紋理特征的算子[12],具有計算簡單、旋轉不變性和灰度不變性等顯著的優(yōu)點。LBP已經(jīng)成功應用于人臉檢測、唇語識別、表情檢測等領域。

深度學習[13]是機器學習研究中的一個新的領域,其動機在于建立能夠模擬人腦的神經(jīng)網(wǎng)絡結構,它模仿人腦的機制來解釋數(shù)據(jù),并能發(fā)現(xiàn)和刻畫數(shù)據(jù)內部復雜的結構特征。深度學習應用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗[14]。

2.2 多視圖特征投影與合成解析字典學習

訓練樣本的類別數(shù)為N,則第k個視圖特征下訓練樣本表示為Xk=[Xk,1,Xk,2,…,Xk,N],Xk,i表示第k個視圖特征的第i類的訓練樣本,本文中k=1,2,3,4。為了降低原始特征空間中同類樣本之間的差異和充分考慮圖像的不同視圖特征對分類的不同影響,MFPSDL通過在不同的視圖特征下,同時學習特征投影和鑒別性的合成解析字典,每個視圖的原始特征投影到新的特征空間,在新的特征空間中,訓練樣本被合成解析字典鑒別性表示。第k個視圖特征下的訓練樣本Xk對應的特征投影矩陣表示為Wk,對應的合成字典表示為Dk=[Dk,1,Dk,2,…,Dk,N],對應的解析字典表示為Pk=[Pk,1,Pk,2,…,Pk,N],其中Dk,i和Pk,i表示第i類訓練樣本對應的子字典。解析字典P對稀疏表示系數(shù)解析編碼,而合成字典D用于重構樣本。第k個視圖特征對應的目標函數(shù)表示為:

(4)

(5)

式(5)是一個非凸的問題,可以通過固定其中兩項,求另外一項的方法求解。求解之前初始化合成字典Dk和解析字典Pk為Frobenius范數(shù)約束下的隨機矩陣。

1)固定Dk和Pk,更新Wk。引入松弛變量Ak,Bk和Ck,式(5)中與Wk有關的目標函數(shù)式變?yōu)椋?/p>

(6)

其中:α1,α2和α3是常數(shù)項,同理也可以通過固定三項然后求剩余的一項的方式來求解式(6)。

a)固定Wk,Bk和Ck,更新Ak。跟Ak有關的目標函數(shù)為:

(7)

這是一個最小二乘法的問題,對Ak,i進行求偏導,并令偏導為0,可以得到Ak的解析解,其中I表示單位矩陣。

(8)

b)固定Wk,Ak和Ck,更新Bk。跟Bk有關的目標函數(shù)為:

(9)

對Bk,i進行求偏導,可以得到Bk,i的解析解:

(10)

c)固定Wk,Ak和Bk,更新Ck。跟Ck有關的目標函數(shù)為:

(11)

對Ck,i進行求偏導,可以得到Ck,i的解析解:

(12)

d)固定Ak,Bk和Ck,更新Wk。跟Wk有關的目標函數(shù)為:

(13)

對Wk進行求偏導,可以得到Wk的解析解:

(14)

2)固定Wk和Dk,更新Pk。式(5)中與Pk有關的目標函數(shù)式變?yōu)椋?/p>

(15)

式(15)是非凸的問題,引入松弛變量Mk和常數(shù)項α4,式(15)轉換為:

(16)

a)固定Pk,更新Mk。與Mk有關的目標函數(shù)為:

(17)

對Mk,i進行求偏導,可以得到Mk,i的解析解:

(18)

b)固定Mk,更新Pk。與Pk有關的目標函數(shù)為:

(19)

對Pk,i進行求偏導,可以得到Pk,i的解析解:

(20)

3)固定Wk和Pk,更新Dk。式(5)中與Dk有關的目標函數(shù)式變?yōu)椋?/p>

(21)

參考DPL的做法,采用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[15]算法來優(yōu)化求解Dk,引入變量Qk和Zk。

(22)

2.3 Borda加權投票分類

考慮到不同視圖的特征對分類的影響不同,如果簡單地將不同視圖特征下的重構殘差相加,然后利用殘差最小規(guī)則分類,這樣就忽略了不同視圖特征之間的分類差異,因此為每個視圖特征賦予不同的分類權重βk,權重βk是基于每個視圖特征分類的錯誤率εk進行計算的。其中εk定義為:

εk的計算采取交叉驗證的方式,交叉驗證即將訓練樣本隨機分為H個互不相交的同等大小的子集,然后采取H-1個子集的數(shù)據(jù)訓練模型,利用余下的1個子集計算模型的錯誤率,將這一過程對可能的H種選擇重復進行,求取H次錯誤率的最小值。進行10次實驗,每次都是隨機將訓練樣本劃分成H等份,然后利用交叉驗證求錯誤率,求取10次錯誤率的平均值作為εk。

權重βk的計算如式(23),對于分類錯誤率εk小的視圖特征,對應著更大的權重βk,也就是對分類的影響更大。

(23)

同時在某些視圖特征下,不同類之間的殘差可能會比較接近,正確類別對應的殘差也可能不是最小的,用殘差最小規(guī)則會導致錯誤的分類。殘差最小規(guī)則也可看成是一種投票分類的方法,殘差最小對應的類別,得票數(shù)為1,而其他類別得票數(shù)為0。Borda投票的思想是將殘差從小到大排序,對于殘差最小對應的類,得票數(shù)為N,殘差第二小的對應的類,得票數(shù)為N-1,以此類推,直到殘差最大的類得票數(shù)為1。定義Vk,i表示第k個視圖特征下第i類的得票數(shù),則第i類加權投票的結果為:

(24)

最后依據(jù)得票數(shù)最多的規(guī)則進行分類,將測試樣本y分為得票數(shù)最多對應的類別:

(25)

2.4 MFPSDL算法描述

訓練階段:

步驟1 對訓練樣本提取4個不同視圖的特征,訓練樣本表示為Xk=[Xk,1,Xk,2,…,Xk,N],初始化參數(shù)。

步驟2 初始化合成字典Dk和解析字典Pk。

步驟3 迭代求解每個視圖特征下的目標函數(shù),直到目標函數(shù)收斂,否則反復執(zhí)行步驟3。

1)根據(jù)式(14)更新Wk。

2)根據(jù)式(20)更新Pk。

3)根據(jù)式(22)更新Dk。

測試階段:

利用Borda加權投票分類的方法計算每類的得票數(shù)Vi,根據(jù)得票數(shù)最多的規(guī)則進行分類。

3 實驗結果與分析

為了驗證本文方法MFPSDL的有效性,選用常用的公開人臉數(shù)據(jù)庫(Labeled Faces in the Wild, LFW)[16]和手寫體識別數(shù)據(jù)庫(Modified National Institute of Standards and Technology, MNIST)[17]進行實驗仿真,以近幾年識別率較優(yōu)的字典學習算法LC-KSVD、FDDL、DPL為對比方法,比較分類識別的準確率和時間復雜性。由于實驗中深度CNN特征的提取是采取AlexNet網(wǎng)絡[18],因此加入AlexNet方法作對比。AlexNet網(wǎng)絡由Krizhevsky等[18]在2012年提出,并在當年的大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)中贏得冠軍。AlexNet網(wǎng)絡是一個8層模型,包括5個卷積層和3個全連接層。在AlexNet模型中,輸入就是圖像的像素,沒有用到任何的人工特征。實驗中AlexNet方法首先在ImageNet LSVRC- 2010數(shù)據(jù)集的120萬張訓練樣本圖像上作預訓練(pretrain),然后用預訓練得到的AlexNet網(wǎng)絡分別在LFW和MNIST數(shù)據(jù)庫的訓練樣本上作微調(finetune),最后在LFW和MNIST測試樣本上作測試。用微調得到的AlexNet網(wǎng)絡模型中間的某些層提取深度CNN特征具有良好的泛化能力,可以適用于其他圖像分類方法的深度CNN特征的提取。

3.1 實驗設置

LFW公共彩色人臉數(shù)據(jù)庫包含106個人,其中每一個人有14張圖片,每張圖片的尺寸為250×250,部分樣本如圖2所示,可以看出同類樣本之間往往也存在著差異性。每個人隨機選用7張圖片作為訓練樣本,剩下的7張圖片作為測試樣本。從每張圖片中提取HSV特征、Gabor特征、LBP特征和CNN特征作為多視圖特征,其中采取微調后的AlexNet網(wǎng)絡最后的全連接層的輸出作為CNN特征。本文方法對不同視圖的特征學習不同的特征投影矩陣和合成解析字典,而其他字典學習對比方法(LC-KSVD、FDDL和DPL)的實驗中,使用的是4種特征拼接融合后的特征,即將每種特征列向量按順序首尾串行相連。具體做法是:將Gabor特征拼接到HSV特征的尾部,將LBP特征拼接到Gabor特征的尾部,以此類推。交叉驗證求分類權重的時候,由于訓練樣本中每類樣本包含7張圖片,交叉驗證需要將訓練樣本分為同等大小的子集,因此將H設置為7。實驗中的參數(shù)λ1和λ2設置為0.05和0.03,η1和η2設置為0.001和0.5,α1、α2、α3和α4設置為0.03,0.02,0.02和0.03,參考DPL參數(shù)調試的方法,以上所有參數(shù)的設置采取k-折交叉驗證的方法。通過實驗調試發(fā)現(xiàn),當參數(shù)這樣設置時,在LFW和MNIST兩個數(shù)據(jù)集上均能取得較好的分類結果。重復進行10次實驗,最后求10次實驗識別率的平均值。

MNIST手寫體數(shù)字數(shù)據(jù)庫包含8 000張圖片,每個寫體數(shù)字包含800張圖片,每張圖片的尺寸為28×28,部分樣本如圖3所示,可以看出同一個數(shù)字往往有不同的形狀。每種手寫體數(shù)字隨機選用400張圖片作為訓練樣本,剩下的400張圖片作為測試樣本。多視圖特征的提取同LFW實驗中的做法,對比方法的實驗中使用的是4種特征拼接融合后的特征。交叉驗證求分類權重的時候,訓練樣本中每類樣本包含400張圖片,將H設置為8。實驗中的參數(shù)同LFW實驗中參數(shù)的設置。

圖2 LFW數(shù)據(jù)庫的樣本圖像

圖3 MNIST數(shù)據(jù)庫的樣本圖像

3.2 實驗結果與分析

表1給出了在LFW和MNIST兩個數(shù)據(jù)庫上MFPSDL和所有對比方法10次實驗結果的平均值。

表1 幾種方法在LFW和MNIST數(shù)據(jù)庫上的識別率比較 %

從表1可以看出,基于多視圖特征投影與合成解析字典學習方法(MFPSDL)取得了更好的分類性能。在LFW彩色人臉數(shù)據(jù)庫上,MFPSDL方法比DPL、FDDL以及LC-KSVD三個字典學習對比方法的平均識別率提高了至少2.15個百分點(=98.80%-96.65%);在MNIST數(shù)據(jù)庫上,MFPSDL方法比三個字典學習對比方法的平均識別率提高了至少2.08個百分點(=95.56%-93.48%)。AlexNet方法在ImageNet LSVRC- 2010中的15萬測試樣本上的Top- 1識別率為62.5%,Top- 5識別率為83%,而在微調的情況下,AlexNet在LFW和MNIST數(shù)據(jù)庫上的識別率為78.72%和83.25%。這是由于LSVRC- 2010數(shù)據(jù)庫包含1 000類樣本,而LFW包含104類樣本,MNIST包含10類樣本,類別的減少降低了AlexNet識別的難度,提高了識別的效果;但是微調后的AlexNet方法識別率明顯低于MFPSDL和其他字典學習對比方法,原因在于AlexNet提取的是可分性CNN特征,而MFPSDL和其他字典學習對比方法在手工選擇的特征和可分性CNN特征的基礎上加以鑒別性約束,如MFPSDL方法要求在特征投影后同類樣本的特征差異減小,不同類樣本的特征差異增大,對合成解析字典的鑒別性約束使得同類樣本具有相似的稀疏表示系數(shù),因此學習到的特征更加具有鑒別性。本文方法MFPSDL之所以能取得較好的識別結果,主要在于MFPSDL能夠充分利用圖像中所蘊含的多視圖特征信息,充分考慮了不同特征對分類的不同影響;另外,學習的特征投影使得同類樣本差異減小,異類樣本差異增大,最后的Borda加權投票的方法合理地克服了殘差最小分類規(guī)則的弊端,提高了識別率。

表2列出了所有方法在LFW數(shù)據(jù)庫和MNIST上10次訓練運行時間的平均值,可以看出本文方法在訓練運行時間上少于FDDL和LC-KSVD,原因在于在求解字典過程中所使用的迭代優(yōu)化算法收斂較慢,時間復雜度比較高。MFPSDL之所以運行時間較快,因為在求解特征投影Wk和解析字典Pk的過程中都是解析解,而在求合成字典Dk時使用的ADMM算法收斂速度很快。相比DPL,由于MFPSDL對每個視圖特征學習不同的特征投影和合成解析字典,并且對特征投影和合成解析字典加上一些鑒別性的約束,因此運行時間比DPL長。AlexNet方法的訓練是用預訓練好的AlexNet網(wǎng)絡模型分別在LFW和MNIST數(shù)據(jù)庫上作微調(finetune),在LFW數(shù)據(jù)庫上經(jīng)過10 000次迭代后,損失大致收斂;在MNIST數(shù)據(jù)庫上經(jīng)過15 000次迭代后,損失大致收斂。圖4給出了MFPSDL在LFW數(shù)據(jù)庫上HSV和CNN視圖特征下的目標函數(shù)的收斂曲線,可以看出經(jīng)過15次迭代后,目標函數(shù)已經(jīng)收斂。其他視圖特征對應的目標函數(shù)的收斂速度大致相同。表3列出了所有方法在LFW數(shù)據(jù)庫和MNIST上10次測試運行時間的平均值,DPL、FDDL、LC-KSVD和MFPSDL測試的時候輸入的是圖像的特征向量,因此表3中列出的這4種方法的測試時間不包含特征提取的時間,可以看出這4種算法的測試時間均較短。而AlexNet測試的時候輸入的是原始圖像,因此測試時間相對較長,AlexNet網(wǎng)絡前向傳播(forward)的時間約為4 ms。

表2 幾種方法在LFW和MNIST數(shù)據(jù)庫上的訓練時間比較 s

表3 幾種方法在LFW和MNIST數(shù)據(jù)庫上的測試時間比較 s

為了驗證Borda加權投票分類規(guī)則的有效性,在LFW和MNIST數(shù)據(jù)庫上,MFPSDL使用殘差最小分類規(guī)則和Borda加權投票分類規(guī)則進行對比。實驗數(shù)據(jù)表明在LFW數(shù)據(jù)庫上,使用Borda加權投票分類規(guī)則的識別率比殘差最小分類規(guī)則的識別率提高了0.38個百分點(=98.80%-98.42%);在MNIST數(shù)據(jù)庫上使用Borda加權投票分類規(guī)則的識別率比殘差最小分類規(guī)則的識別率提高了0.45個百分點(=95.56%-95.11%)。由于在某些視圖特征下,正確類別對應的殘差可能不是最小的,用殘差最小規(guī)則會導致不準確的分類,可以看出,使用Borda加權投票的分類規(guī)則能有效解決這一問題。

為驗證不同特征對分類的影響不同,圖5給出了在LFW和MNIST數(shù)據(jù)庫上4種特征對應的分類權重。同時考慮特征個數(shù)對實驗的影響,加入方向梯度直方圖特征(Histogram of Oriented Gradient, HOG)和尺度不變特征轉換(Scale Invariant Feature Transform, SIFT)作對比,表4給出了在LFW數(shù)據(jù)庫上MFPSDL方法10次實驗結果的平均值。

圖4 LFW上HSV和CNN特征對應的目標函數(shù)收斂曲線

圖5 不同特征對應的分類權重

表4 MFPSDL在LFW數(shù)據(jù)庫上使用不同特征的識別率比較 %

從圖5可以看出,不同特征對分類效果的影響不相同,其中CNN特征對應的分類權重明顯大于其他特征對應的分類權重,說明CNN特征對分類的影響更大。從表4中可以看出MFPSDL方法只使用CNN特征時候的識別率為97.46%,而微調后的AlexNet在LFW數(shù)據(jù)庫上的識別率為78.72%,MFPSDL方法提高了18.74個百分點(=97.46%-78.72%),這是由于AlexNet方法提取的是可分性CNN特征,最后用Softmax分類器進行分類,而MFPSDL方法在可分性CNN特征的基礎上添加了鑒別性的約束,特征投影使得在新的特征空間中,同類樣本的差異性減小,異類樣本的差異性增大,對合成解析字典的約束,使得同類樣本的稀疏表示系數(shù)更相似,這樣使得可分性CNN特征經(jīng)過學習后更具有鑒別性,提高了識別率。MFPSDL方法加入HOG特征后的識別率為98.96%,比使用HSV、Gabor、LBP和CNN的識別率(98.80%),識別率提高了0.16個百分點(=98.96%-98.80%)。同樣加入SIFT特征后的識別率(99.10%)提高了0.30個百分點(=99.10%-98.80%)。加入HOG和SIFT特征后,識別率提高都不是很明顯,說明HOG和SIFT特征和已有的4種特征存在比較多的重復,因此本文方法中未選擇這兩種特征。使用HSV、Gabor和LBP三種特征的識別率為97.34%,單獨使用CNN特征的識別率為97.46%,而使用HSV、Gabor、LBP和CNN四種特征的識別率為98.80%,識別率分別提高了1.46個百分點(=98.80%-97.34%)和1.34個百分點(=98.80%-97.46%),說明CNN特征和其他三種特征存在著一定的重復,但是MFPSDL考慮不同視圖特征對分類的不同影響,使得不同的特征優(yōu)勢互補,綜合利用了不同視圖特征。

4 結語

本文提出了一種基于多視圖特征投影與合成解析字典學習的圖像分類方法,結合多視圖特征的學習方法能夠更好描述圖像的優(yōu)勢,并對圖像原始特征進行投影,減小了同類樣本之間的差異性。對每個視圖特征學習鑒別性的合成解析字典{Dk,Pk},使得同類樣本擁有相似的稀疏表示系數(shù)。分類階段使用了更加合理的Borda加權投票分類的方法,克服了最小殘差分類規(guī)則的缺點。在LFW人臉數(shù)據(jù)庫和MNIST手寫體數(shù)字數(shù)據(jù)庫上的實驗結果表明,本文提出的方法MFPSDL與DPL、FDDL、LC-KSVD和AlexNet相比,分類性能有明顯的提升,且保證了較低的時間復雜度,但是該方法還有待改進的地方,比如特征選擇的問題和特征之間存在冗余重復的問題,從實驗中可以發(fā)現(xiàn)加入一些人工選擇的特征對識別率的提升不是很明顯,說明特征之間存在一定的冗余和重復,如何有效解決特征之間的冗余重復是下一步需要進行的研究工作。

References)

[1] ZHANG H, LAO S. Multi-view discriminant analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 188-194.

[2] XU C, TAO D, XU C. Multi-view intact space learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(12): 2531-2544.

[3] YANG M, ZHANG L, YANG J, et al. Metaface learning for sparse representation based face recognition [C]// ICIP 2010: Proceedings of the 2010 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2010: 1601-1604.

[4] MAIRAL J, BACH F, PONCE J. Task-driven dictionary learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 791-804.

[5] WANG Z, YANG J, NASRABADI N, et al. A max-margin per-spective on sparse representation-based classification [C]// ICCV 2013: Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1217-1224.

[6] JIANG Z, LIN Z, DAVIS L S. Label consistentK-SVD: learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.

[7] YANG M, ZHANG L, FENG X, et al. Sparse representation based fisher discrimination dictionary learning for image classification [J]. International Journal of Computer Vision, 2014, 109(3): 209-232.

[8] GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning for pattern classification [C]// NIPS 2014: Proceedings of the 2014 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2014: 793-801.

[9] 程曉雅,王春紅.基于特征化字典的低秩表示人臉識別[J].計算機應用,2016,36(12):3423-3428.(CHENG X Y, WANG C H. Characterized dictionary-based low-rank representation for face recognition [J]. Journal of Computer Applications, 2016, 36(12): 3423-3428.)

[10] ZHANG L, YANG M, FENG X. Sparse representation or collaborative representation: which helps face recognition? [C]// ICCV 2011: Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 471-478.

[11] YANG M, ZHANG L. Gabor Feature Based Sparse Representation For Face Recognition With Gabor Occlusion Dictionary [M]. Berlin: Springer, 2010: 448-461.

[12] TAN X, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions [J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635-1650.

[13] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

[14] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.(YU K, JIA L, CHEN Y Q, et al. Deep learning: yesterday, today, and tomorrow [J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804.)

[15] BOYD S, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers [J]. Foundations and Trends in Machine Learning, 2011, 3(1): 1-122.

[16] HUANG G, MATTAR M, LEE H, et al. Learning to align from scratch [C]// NIPS 2012: Proceedings of the 2012 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2012: 764-772.

[17] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[18] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 2012 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2012: 1097-1105.

This work is partially supported by the National Natural Science Foundation of China (61272273).

FENGHui, born in 1992, M. S. candidate. His research interests include pattern recognition, computer vision.

JINGXiaoyuan, born in 1971, Ph. D., professor. His research interests include pattern recognition, machine learning, software engineering.

ZHUXiaoke, born in 1981, Ph. D. candidate. His research interests include pattern recognition, computer vision.

Multi-viewfeatureprojectionandsynthesis-analysisdictionarylearningforimageclassification

FENG Hui*, JING Xiaoyuan, ZHU Xiaoke

(SchoolofComputer,WuhanUniversity,WuhanHubei430072,China)

Concerning the problem that the existing synthesis-analysis dictionary learning method can not effectively eliminate the differences between the samples of the same class and ignore the different effects of different features on the classification, an image classification method based on Multi-view Feature Projection and Synthesis-analysis Dictionary Learning (MFPSDL) was put forward. Firstly, different feature projection matrices were learned for different features in the process of synthesis-analysis dictionary learning, so the influence of the within-class differences on recognition was reduced. Secondly, discriminant constraint was added to the synthesis-analysis dictionary, so that similar sparse representation coefficients were obtained for samples of the same class. Finally, by learning different weights for different features, multiple features could be fully integrated. Several experiments were carried out on the Labeled Faces in the Wild (LFW) and Modified National Institute of Standards and Technology (MNIST) database, the training time of MFPSDL method on LFW and MNIST databases were 61.236 s and 52.281 s. Compared with Fisher Discrimination Dictionary Learning (FDDL), Lable ConsistentKSingular Value Decomposition (LC-KSVD) and Dictionary Pair Learning (DPL), the recognition rate of MFPSDL method on LFW and MNIST was increased by at least 2.15 and 2.08 percentage points. The experimental results show that MFPSDL method can obtain higher recognition rate while keeping low time complexity, and it is suitable for image classification.

image classification; dictionary learning; sparse representation; multi-view learning; feature learning

TP391.413; TP18

:A

2016- 12- 15;

:2017- 03- 06。

國家自然科學基金資助項目(61272273)。

馮輝(1992—),男,湖北黃岡人,碩士研究生,主要研究方向:模式識別、計算機視覺; 荊曉遠(1971—),男,江蘇南京人,教授,博士,CCF會員,主要研究方向:模式識別、機器學習、軟件工程; 朱小柯(1981—),男,河南開封人,博士研究生,CCF會員,主要研究方向:模式識別、計算機視覺。

1001- 9081(2017)07- 1960- 07

10.11772/j.issn.1001- 9081.2017.07.1960

猜你喜歡
分類數(shù)據(jù)庫特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 在线播放精品一区二区啪视频| 欧美亚洲香蕉| 黄色网站在线观看无码| 国产91在线|日本| 欧美.成人.综合在线| 亚洲国产精品成人久久综合影院 | 精品久久久久久成人AV| 手机看片1024久久精品你懂的| 99精品一区二区免费视频| 国产网站在线看| 免费看久久精品99| 久久91精品牛牛| 不卡午夜视频| 久久精品国产一区二区小说| 亚洲中文字幕在线观看| 日本亚洲成高清一区二区三区| 91国内视频在线观看| 91香蕉国产亚洲一二三区| 九月婷婷亚洲综合在线| 亚洲丝袜中文字幕| 日本国产精品一区久久久| 国产成人永久免费视频| 亚洲欧美另类日本| 米奇精品一区二区三区| 手机精品视频在线观看免费| 亚洲日韩精品综合在线一区二区| 日韩在线欧美在线| 亚洲网综合| 97成人在线视频| 免费A级毛片无码免费视频| 婷婷久久综合九色综合88| 福利在线免费视频| 欧美另类第一页| 久久国产精品无码hdav| 日韩二区三区| 美女国产在线| 亚洲无限乱码| 国产免费福利网站| 精品一区二区三区波多野结衣| 91成人免费观看| 国产在线精品香蕉麻豆| 免费精品一区二区h| 日本国产在线| 亚洲中文字幕在线观看| 午夜精品久久久久久久2023| 亚洲av无码久久无遮挡| 久久美女精品| 亚洲色大成网站www国产| 国产精品成人免费视频99| 99热这里只有成人精品国产| 亚洲资源在线视频| 米奇精品一区二区三区| 国产精品短篇二区| 色呦呦手机在线精品| 亚洲一区二区约美女探花| 91网址在线播放| 国产精品页| 88av在线看| 91福利在线观看视频| 视频二区亚洲精品| 在线观看欧美国产| 亚洲人成色在线观看| 久久久久88色偷偷| 毛片久久久| 在线精品视频成人网| 欧洲高清无码在线| 欧美19综合中文字幕| 国内精品久久人妻无码大片高| 国产精品无码AⅤ在线观看播放| 东京热一区二区三区无码视频| 国产一区二区三区在线观看视频| 亚洲精品欧美日本中文字幕| 在线毛片网站| 激情六月丁香婷婷四房播| 国产成人久久777777| 国产亚洲高清在线精品99| 久久网欧美| 国产一级妓女av网站| 国产性精品| 欧美中文字幕无线码视频| 国产福利在线免费观看| V一区无码内射国产|