基于核稀疏表示和AdaBoost算法的自然場景識別

2016-09-14 09:17:44陸迎曙賈林虎

電子設計工程 2016年2期

關鍵詞：特征模型

陸迎曙，賈林虎

(河海大學計算機與信息學院，江蘇南京　211100）

基于核稀疏表示和AdaBoost算法的自然場景識別

陸迎曙，賈林虎

(河海大學計算機與信息學院，江蘇南京211100）

為了提升自然場景圖像的識別精度，結合bag-of-visual word模型，提出了一種基于核稀疏表示的圖像識別方法。該方法的圖像描述部分主要利用核稀疏表示在高維度空間進行圖像特征的匹配表示，識別部分采用AdaBoost分類器，對各個類別編碼并在對應的核矩陣上進行劃分，從而實現多類場景圖像的識別能力。實驗結果表明，該方法有效的提升了圖像描述的準確度與對自然場景圖像識別的精度。

bag-of-visual words模型；核稀疏表示；AdaBoost分類器；自然場景識別

圖像描述模型bag-of-visual words（BOVW）在圖像分類與識別中有著廣泛的應用。該模型通過提取圖像的SIFT特征［1］利用聚類算法生成字典，進而使得圖像形成統一的字典表示。然而，這種方法未能考慮圖像特征的空間信息和有效匹配的方式，在應對于較多類圖像時其識別性能低下。因此，如果能充分挖掘SIFT特征的空間位置信息與匹配信息，能夠有效地提升模型的分類識別能力。

目前針對提升圖像分類識別性能的研究主要集中在圖像描述模型和分類器算法這兩個方面。文獻［2］提出了空間金字塔匹配模型（SPM）來增加SIFT特征的空間位置信息，該模型在BOVW的基礎上對圖像遞增式劃分成若干子塊從而形成具備空間信息的圖像空間金字塔描述。文獻［3］指出BOVW模型中的聚類算法不能有效的抓取圖像的差異特征，所以提出了稀疏表示的方法來增強圖像的字典表達能力。與此同時，核函數的方法在計算機視覺領域取得了優異成績，它通過將特征向量映射到高維度的特征空間進行相似度匹配，從而獲得在低維度空間不能取得的特征重構表示。性能較為優異的分類器算法，主要有線性的支持向量機（SVM）和AdaBoost算法，其中AdaBoost算法利用若干弱分類器的級聯實現與SVM較為接近的分類識別性能，有著顯著的優越性。

1　空間金字塔模型

空間金字塔模型是基于BOVW發展而來的具備空間位置描述能力的圖像描述模型。在本文所提出的模型中（如圖1所示），首先提取所有圖像的SIFT特征，通過聚類算法生成一個長度為K的字典，然后將每個圖像按照1×1，2×2，4×4劃分成3層圖像子塊如圖2，并為各層賦權值，根據文獻［2］本文中的空間金字塔1-3層的權重依次為1/4，1/4，1/2。對每個子塊的特征進行字典表達后，采用最大匯聚方法并串聯成21K長度的字典表示。假定一個圖像有M個SIFT特征，該圖像可以表示為則字典系數矩陣則最大匯聚方法可表示為

其中r∈R1×（21K）為該圖像的空間金字塔向量表示。

2　核稀疏表示

傳統的BOVW模型中，K-MEANS算法被應用于圖像特征的聚類從而生成長度為K的字典，相應字典表達同樣采用向量量化（VQ）的方法，即求得圖像特征與字典詞匯間的最小歐氏距離，并計算字典的統計直方圖得到圖像的字典表達。然而這種方法，一方面未考慮到歐式距離并不適合作為統計特征SIFT的相識度準則，另一方面，VQ不能充分表達圖像的差異化特征。為了減少特征編碼過程中的信息損失，稀疏表示（SC）被提出來學習更加稀疏且更具鑒別性的特征編碼。

圖1　模型總體結構圖Fig．1　Structure diagram of the proposed model

圖2　空間金字塔映射示意圖Fig．2　Schematic diagram of spatial pyramid mapping

其中λ≥0是常量稀疏性系數，‖·‖2，‖·‖1分別是L1，L2約束。值得注意的是這里的稀疏字典是過完備的，即K＞D。生成稀疏字典后，稀疏編碼可重寫為：

然而文獻［4］指出學習一個高維度、過完備的稀疏字典是極其耗費計算資源與時間的，同時文獻［5］經實驗得出通過某種聚類算法得到固定字典作為稀疏字典同樣能取得不錯的效果。因此，文中提出應用K-MEANS++聚類［6］算法來替代等式（2）學習稀釋字典。

與此同時，由于核函數的非線性生成性能與其在計算機視覺領域的成功應用，文獻［7］引入了核作為特征的相識度匹配方法，提出了核稀疏表示。核稀疏表示的方法是通過將輸入特征與字典基同時映射到高維或無限維的特征空間F中進行相似度匹配從而得到更具鑒別性的稀疏系數。假定φ（·）是映射函數，則，φ（U）∈RN×H，φ（x）∈RN×H（H?D）分別作為映射后的特征集與稀疏字典。這樣等式（3）可重寫為：

同時，可改寫為：

等式（5）似乎可以通過正交匹配追蹤算法（OMP）來得到稀疏系數v，但是正如文獻［8］所指出的，直接優化解決等式（5）是不現實的。一方面，如果特征空間F已知，由于映射后的特征維度H?D，等式（5）計算復雜度將遠超與于等式（4）；另一方面，如果特征空間F未知，φ（U）和φ（X）并不能顯性地得到。所幸的是，通過核函數的方法可以間接地在特征空間F進行特征的相似度匹配，所以等式（5）可改寫為：

其中ξ為重構殘差，上式等價于

其中Y=（K（x，U））1×K=φ（x）φ（U）T，Q=（K（ui，uj））K×K=φ（U）φ（U）T，K（·，·）為mercer核函數。由于文獻［9］指出對于SIFT這樣的統計特征，直方圖相交核（HIK）相比于其他基于歐式距離的核函數更加有效，所以本文選取HIK作為核稀疏表示的核函數。最后對等式（6）通過OMP算法即可得到稀疏系數V。

3　AdaBoost分類算法

AdaBoost是自適應的boosting算法，該分類器通過訓練若干弱分類器，并將弱分類器結果進行有權重的統計得到最終分類結果。在訓練過程中，先將樣本分為正負兩類，并等值化樣本權重，然后根據若分類器的錯誤率來賦予各自的權重（錯誤率越大，對應的分類器權重越小）。同時更新訓練樣本權重，使得正確分類的樣本權重降低而錯分樣本的權重升高，這樣經過若干次迭代，直到訓練錯誤率為0或弱分類器的數量達到預設值為止。

為了使上述二元分類器應用于多類樣本的識別問題，本文采用類別編碼的方式，引入L個二元Adaboost分類器，則H類類別編碼長度為L（L≥H）且需各不相同。若有4類待識別樣本C1，C2，C3，C4，通過6個二元AdaBoost分類器，編碼可為：

該矩陣的每行對應類的類標編碼，其中0表示負樣本，1為正樣本，需要注意的是每類編碼必須同時包含正負碼。當未知樣本輸入該多類分類器后，分別計算輸出碼字與上述編碼的漢明距離，這個樣本就被分為距離最小的類別中。

AdaBoost分類器的傳統應用是在圖像經過本文圖像描述模型生成空間金字塔向量上直接訓練并劃分類別。然而由于核函數方法的優異性能與廣泛應用，本文再次采用核向量來代替空間金字塔向量表示。假定訓練圖像的空間金字塔向量表示為，測試圖像為，經過核函數匹配后的訓練圖像表示為Ta=K（Ra， Ra）∈RNa×Na

測試圖像為Te=K（Re，Re）∈RNe×Ne。這樣，將Ta，Te分別替代原先的訓練與測試圖像向量集輸入AdaBoost分類器中，使之能夠在核空間完成分類識別任務。

4　實驗結果與分析

文中的實驗數據集采取文獻［2］所提供的15類場景圖像集(如圖 3所示)。訓練圖像每類為50張，并在剩余的每類圖像中各選取100張作為測試圖像集。設定OMP算法中的重構殘差ξ=0．001，核稀疏表示中的核函數為HIK，分類器中的核函數為高斯核函數（GK），二元分類器的個數為L=30，隨機選取15個符合條件的編碼作為類標編碼。

圖3　15類場景圖像集Fig．3　Examples of 15 scene categories

在圖像描述階段，分別采用傳統的BOVW，SPM和文中提出的核稀疏表示的SPM完成圖像的向量表示；在圖像分類識別階段，前兩種模型分別采用線性核（LK）與HIK的SVM分類器。字典長度分別為100，200，300，400，500。將訓練圖像集帶入模型完成訓練，然后將測試圖像集輸入已訓練好的模型中。采取平均識別率（AP）作為衡量性能的標準，實驗結果如表1所示。

其中wt表示識別正確的樣本總數，W為實驗樣本總數。

表1　傳統模型與文中模型的識別率結果Tab.1　Recognition accuracy results of the traditional models and the proposed model

當稀疏字典長度L固定為200時，計算實驗圖像集中各類的正確識別率，實驗結果表2所示。

從表1中可以看出文中在相同字典長度的條件下，所提出的識別模型的正確識別率遠超傳統圖像識別模型，其最高識別率達到了89．4%。由此可見，文中提出的圖像識別模型能夠對自然場景圖像得到較好的識別效果。同時，表2給出了L=200時每類的正確識別率，看以從中得出采用本文模型的識別率，15類實驗圖像中有12類的大于采用傳統模型的識別率，占到整個實驗圖像集的80%，進一步驗證了本文所提出模型的突出性能。

5　結　論

文中針對自然場景圖像識別問題，提出了一種基于核稀疏表示和AdaBoost分類算法的圖像分類識別模型。相較于其他模型，文中提出的圖像描述模型能夠通過核函數的方法在高維度特征空間完成特征的相似度匹配重構，減少了特征重構過程中的信息損失，提升了圖像向量表示的鑒別性。通過對不同類別的編碼與圖像向量表示的再次映射匹配，文中的AdaBoost分類器能夠在核矩陣中進行多類別目標的劃分。實驗結果表明，本文所提出的圖像識別模型取得了較高的識別率，適合應用于自然圖像的分類識別。

表2　傳統模型與文中模型的每類正確識別率Tab．2 Recognition accuracy results of each category using traditional models and the proposed model

［1］LOWE D G．Distinctive image features from scale-invariant keypoints［J］．International journal of computer vision，2004，60(2):91-110．

［2］Lazebnik S，Schmid C，Ponce J．Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories［J］．Computer Vision and Pattern Recognition，2006:2169-2178．

［3］YANG J C，YU K，GONG Y H，et al．Linear spatial pyramid matching using sparse coding for image classification［J］．Computer Vision and Pattern Recognition，2009:1794-1801．

［4］Lee H，Battle A，Raina R，et al．Efficient sparse coding algorithms［J］．Advances in Neural Information Processing Systems，2006:801-808．

［5］WANG J，YANG J，YU K，et al．Locality-constrained linear coding for image classification［J］．Computer Vision and Pattern Recognition，2010:3360-3367．

［6］Arthur D，Vassilvilskii S．k-means++:The advantages of careful seeding［J］．Society for Industrial and Applied Mathematics，2007:1027-1035．

［7］GAO S H，TANG I W，CHIA L T．Sparse representation with kernels［J］．Image Processing，2013，22（2）:423-434．

［8］ZHANG L，ZHOU W D，CHANG P C，et al．Kernel sparse representation-based classifier［J］．Signal Process，2012，60 （4）:1684-1695．

［9］Wu J X，REHG J M．Beyond the Euclidean distance:Creating effective visual codebooks using the histogram intersection kernel［J］．Computer Vision，2009:630-637．

Natural scene recognition based on kernel sparse representation and AdaBoost algorithm

LU Ying-shu，JIA Lin-hu
（College of Computer and Information,Hohai University,Nanjing 211100,China）

In order to improve the accuracy of natural scene recognition，this paper combining with the model of bag-of-visual words proposes the method for image recognition based on the kernel sparse representation．The section of image description in the method mainly uses the kernel sparse representation to match the features of the images in the high-dimensionality feature space，and for the recognition section，AdaBoost classifier is adopted in which the categories are encoded for the ability of multi-categories recognition．Finally，the experimental results show the increasing effectiveness of the image description and the improvement of the recognition accuracy．

bag-of-visual words；kernel sparse representation；AdaBoost classifier；natural scene recognition

TN919．82

1674－6236（2016）02-0172-04

2015-03-12稿件編號：201503169

陸迎曙（1992—），男，江蘇濱海人，碩士研究生。研究方向：信號與信息處理，數字圖像處理。

基于核稀疏表示和AdaBoost算法的自然場景識別

1 空間金字塔模型

2 核稀疏表示

3 AdaBoost分類算法

4 實驗結果與分析

5 結 論

1　空間金字塔模型

2　核稀疏表示

3　AdaBoost分類算法

4　實驗結果與分析

5　結　論