郭繼昌, 王 楠, 張 帆
(天津大學 電子信息工程學院, 天津 300072)
?
基于多描述子分層特征學習的圖像分類
郭繼昌, 王 楠, 張 帆
(天津大學 電子信息工程學院, 天津 300072)
為解決圖像分類任務中詞袋(Bag-of-Words)模型分類算法單一局部描述子信息缺失、特征量化誤差較大、圖像特征表現力不足等問題,提出一種基于多描述子分層特征學習的圖像分類方法. 結合尺度不變特征變換(SIFT)與形狀核描述子(KDES-S)進行局部特征提取,并構建分層特征學習結構來減少編碼過程中的量化誤差,最后將圖像特征分層歸一化后進行線性組合并利用線性支持向量機(SVM)進行訓練和分類. 在Caltech-101、Caltech-256、Scene-15數據庫上進行實驗,結果表明:相比其他圖像分類方法,本文方法在分類準確率上具有顯著提升.
圖像分類; 分層特征學習; 分層歸一化
圖像分類作為圖像理解的基礎,在計算機視覺領域扮演著重要的角色. 在圖像分類中,詞袋模型[1]經不斷發展已被廣泛應用于目標識別、場景分類等領域[2-3],在應用中,其不足主要表現為:單一描述子造成信息缺失,特征編碼過程中產生較大的誤差進而影響圖像特征表現力等. 為了解決這些問題,國內外學者一直在對模型進行優化和改進.
詞袋模型一般包括特征提取、視覺字典構建、特征編碼、特征匯聚等四部分[4]. 在特征提取中,單一SIFT描述子等由于信息不足,常遇到視覺詞語的歧義性和同義性問題[5]. 為解決這一問題,可以將各種優秀的局部描述子取長補短,適當結合來豐富局部特征[6]. 文獻[4]提出結合SIFT與Edge-SIFT特征來豐富圖像特征的方法,文獻[7]則結合SIFT與HOG描述子來全面描述圖像. 兩種方法都提高了分類精度,但是仍存在不足,文獻[4]的方法對于形變較大的目標分類效果欠佳,文獻[7]中SIFT與HOG都屬于基于梯度方向的描述子,且該方法對分類準確率的提升效果有限.
特征編碼作為字典構建和特征匯聚中間的重要環節,編碼結果直接影響圖像特征的表現力. 文獻[8]用矢量量化(Vector Quantization)進行特征編碼后容易產生較大的量化誤差,為減小誤差,文獻[9]提出稀疏編碼(Sparse Coding)法,但其編碼穩定性較差. 作為改進,文獻[10]提出局部約束線性稀疏編碼LLC(locality-constrained linear coding),強調了編碼過程的局部性,并提高了編碼穩定性. 文獻[11]則利用圖像文本和視覺信息對圖像進行建模,通過模型訓練對圖像進行識別. 近年來較多的研究集中于基于字典學習[12-13](dictionary learning)的方法和訓練多層的深度網絡進行圖像分類. 其中基于字典學習的方法主要通過迭代更新字典來減小量化誤差,而基于深度網絡的方法通過多層的反復學習來獲得高質量特征. 文獻[14]提出可學習感受野的深度網絡,通過學習分類器和感受野來提高分類準確率. 文獻[15]構造多路徑的深度特征學習方法,通過多路徑特征的結合提高圖像分類精度. 特征編碼階段大多方法均是基于單一描述子,容易丟失圖像中的顯著特征. 基于深度網絡的方法直接從圖像像素中學習特征,其復雜的網絡結構對運算要求相對較高. 尤為重要的是,學者們注意力主要集中在編碼方法的研究,往往忽略了對編碼特征的后續處理,但該過程是分類中是不可或缺的.
針對以上問題,本文提出了一種基于多描述子分層特征學習的圖像分類方法,通過多描述子結合來解決特征提取階段單一描述子信息缺失造成的問題,并構建一個兩層的特征學習結構,學習過程中利用批正交匹配追蹤法[16]BOMP(batch orthogonal matching pursuit)得到稀疏特征后結合空間金字塔結構[8]對特征進行空間匯聚(Pooling)和歸一化處理,然后作為新的特征進行第二層的特征學習,最后將各層特征結合并利用線性SVM分類器分類. 本文結合KDES-S[17]與SIFT描述子,利用KDES-S提取圖像形狀特征補充SIFT特征的信息,提出的分層特征學習方法利用了圖像視覺結構的多面性[18]并在各層中進行特征歸一化,根據圖像結構合理分配歸一化系數優化特征向量. 三種方法相結合,在沒有明顯增加耗時的前提下提高了圖像分類的準確率.
圖1為提出的多描述子分層特征學習方法的基本結構,主要包括多描述子提取和分層特征學習兩部分.
1.1 多描述子提取


相比文獻[4]需從原圖的邊界圖中提取Edge-SIFT特征,KDES-S直接從原圖像中提取即可,大大減少了計算量;而且KDES-S引入核函數獲取目標的形狀特征,在完善特征的同時可保證特征較高的魯棒性. 在特征結合方式選擇上,考慮到分層特征學習法可以充分利用結合后特征的多樣性,在提取特征后先對特征進行結合然后再進行特征學習.

圖1 多描述子分層特征學習結構
Fig.1 Structure of multi-descriptor hierarchical feature learning
1.2 分層特征學習
選用MI-KSVD[15](mutual incoherence KSVD)進行字典學習,并結合高效的BOMP方法在獲取稀疏編碼的同時提高編碼效率. 得到編碼向量后對其進行空間結構劃分并進行特征匯聚,根據不同的空間結構分配特征歸一化系數進行空間特征歸一化,充分利用圖像的空間信息. 借鑒深度學習的思想,對第一層學習后的特征再次進行學習得到豐富有效的圖像特征. 由于第二層學習建立在第一層基礎上,其特征從深層上利用了圖像的空間信息,對局部形變更具魯棒性,且兩層學習后特征冗余也得到降低. 照此結構,可以構建多層的特征學習結構,學習圖像的深層特征,為了減少計算量,綜合分析各層分類效果后最終選用兩層的結構.
第一層的目的是學習多描述子特征,得到稀疏的編碼向量. 重點是對編碼特征的后續處理,為充分利用圖像的空間信息,增加特征的穩定性和局部不變性,對學習到的特征先以16×16的塊為單位進行空間劃分,如圖2所示. 并分別對各單元特征進行最大值匯聚(Max Pooling)得到匯聚特征:

(1)
式中:B為視覺單詞的個數,cjm表示單元中第j個稀疏編碼向量cj的第m個元素.

圖2 3層空間金字塔結構
則一個圖像塊P的特征表示為


(2)


(3)
式中:zj為第二層得到的稀疏編碼,Fj為第一層產生的塊特征. U,V分別為兩種特征的維度. 由式(3)可以看出,第二層特征匯聚結合了本層的稀疏編碼zj和第一層的塊特征編碼Fj,結合的特征包含了第一層的細密紋理和第二層的粗糙紋理,比單層特征更豐富. 各單元的特征結合后得到全圖的特征:

利用式(2)對各單元的特征分別歸一化后進行結合,構成最終的圖像特征:


圖3 全圖空間金字塔結構
在兩層的特征學習過程中,每一層分別學習本層的字典并根據字典進行稀疏編碼. 圖4為在Caltech-101數據集上利用訓練圖像學習到字典的部分圖示. 左右兩圖分別對應第一層和第二層的字典,對比兩層的字典可以發現,第二層的字典相比第一層的字典更加細致. 這是因為該字典是在第一層特征的基礎上學習得到的,利用該字典得到的稀疏特征也將更具辨別力.

圖4 特征學習階段的字典
SIFT與KDES-S描述子相結合的方法,結合后特征的維度由128維增加到了328維,相比單一特征的方法,本文方法在計算復雜度上增加了近1.5倍,但是相比于其他基于多描述子結合的方法,如文獻[4]和文獻[7]的方法,本文方法在計算復雜度上沒有明顯增加. 兩層結構中的分層空間特征歸一化利用圖像空間分層結構,合理分配權重系數,對各層特征歸一化處理,不僅可以降低大區域特征對小區域特征的影響還突出了具有辨別力的特征,而大多數研究者往往忽視了這一工作. 該方法直接利用分層結構,在幾乎沒有增加計算量消耗的同時增加了圖像特征的表現力,提高了分類準確率. 與設計復雜的特征編碼算法相比,該方法更加簡單可行.
為了驗證方法的有效性,首先在Caltech-101數據庫上分別進行多描述子提取和分層特征學習實驗,然后在Caltech-256和Scene-15數據庫上進行整體實驗分析. 多描述子提取時,SIFT與KDES-S均采用16×16的圖像塊,采樣間隔均設置為8像素. 分層特征學習階段,字典大小設置為1024,層數設置為2,空間金子塔劃分采用圖2和圖3結構. 分類階段直接使用臺灣大學開發的LIBLINEAR-SVM[20]軟件包對圖像進行訓練和測試. 一次實驗中,分類準確率計算方法為Acc=n/N,其中n為預測正確的圖片張數,N為參與測試的總圖片的張數. 分別在每類中統計,分類結果取10次實驗的平均值.
2.1 多描述子提取
考慮到文獻[4]中多描述子方法在Caltech-101數據庫上的分類效果優于文獻[7],本實驗直接選擇與前者進行比較. 為了比較,特征編碼均采用LLC,每類圖像的訓練樣本數設為30,剩余為測試樣本. 表1為采樣間隔設置為6~10像素時,不同描述子的分類準確率.

表1 不同采樣間隔下各描述子分類準確率Tab.1 Classification accuracy on different sampling interval %
由表1的數據可以看出,基于多描述子的分類準確率都高于單一描述子,且本文的多描述子分類效果優于文獻[4]. 在采樣間隔為8時,多描述子分類準確率最高,因此后面實驗采樣間隔均取8像素. 這一組實驗中,相比文獻[4],本文方法并沒有明顯優勢,但是從描述子提取上考慮,不必單獨生成原圖像的邊界圖再進行提取,減少計算消耗.
女媧是中華民族共同的人文始祖,是一位充滿傳奇神秘色彩的始母形象。神話中的女媧先人類而生,功業一是造人,二是補天。
為了進一步比較分析,取數據庫中分類結果差異較大的5個子類分別用SIFT、Edge-SIFT、KDES-S分類,結果如圖5所示.

圖5 不同描述子在各子類的分類準確率Fig.5 Classification accuracy of different descriptors on subcategories 從圖5可以看出,5個子類中,SIFT與Edge-SIFT的分類準確率相差均較大,相比之下KDES-S則較為穩定. Edge-SIFT在子類中分類準確率的過低會影響多描述子的分類效果,而KDES-S描述子則改善了這一問題,尤其在面對邊界形變較大的圖像,本文方法分類效果更好.
為進一步分析SIFT與KDES-S描述子結合對分類效果的影響,對上面5個子類圖像,分別進行實驗分析,得到表2所示的統計結果.
每類圖像的數量在類名后的括號中給出,表中每一行分別表示滿足條件的圖像數量(如第一個數據2表示Water lily中,單獨用SIFT分類出錯,單獨用KDES-S出錯且SIFT與KDES-S結合分類正確的圖片數量. 第二行第二列數據6表示Wild cat中,單獨用SIFT分類正確,用KDES-S分類錯誤,但用SIFT與KDES-S結合分類正確的圖片數量. 實驗中沒有SIFT或KDES-S單獨分類正確但二者結合分類錯誤的圖片,所以在表中沒有列出這一情況). 5個子類中SIFT與KDES-S分別分類正確的圖像說明本文采用的兩種特征各具優勢,具備互補性. 而兩種特征均分類錯誤但用二者結合后可以正確分類,這充分說明采用的結合方法可以利用兩種特征進行互補,增強局部特征的表現力.

表2 不同方法下的分類結果
為比較兩種描述子結合方式,分別利用LLC和分層特征學習結合兩種特征結合方式在Caltech-101數據庫上進行實驗,實驗結果見表3.
從分類結果可以發現,先結合的特征聯合分層特征學習獲得了最佳的分類效果. 這是因為分層特征學習結構在編碼過程中充分利用了結合后的特征,得到更加豐富的圖像特征,這也表明采用的多描述子方法和分層特征學習方法能很好地相結合,共同提高分類準確率.

表3 不同多特征結構下Caltech-101的分類準確率
2.2 分層特征學習
該實驗主要驗證分層特征學習結構中層數和空間特征歸一化對分類結果的影響. 實驗分別在Caltech-101和Scene-15數據庫上測試,結果如圖6所示. 實驗構建的最大層數為4,其中第一、二層特征塊大小設為16×16,第三、四層特征塊大小分別為32×32、64 ×64,其他設置不變. Caltech-101和 Scene-15數據庫中每一類訓練圖像分別設置為30和100.

圖6 不同層特征學習分類結果
比較以上兩組實驗,同為Caltech-101數據庫上兩層的特征學習,表2中分類結果78.82%和圖6結果81.86%相差較大,這是因為前者是用未分層的歸一化方法得到的,而后者是本文分配歸一化系數的方法得到的. 由此可得,提出的方法在Caltech-101數據庫上獲得了3.04%的提升,需要注意的是,該方法結合分層結構,只需對各層圖像特征歸一化處理,對計算復雜度的增加基本可以忽略.
為進一步驗證分層歸一化系數ks對分類結果的影響,分別在兩個數據庫上對未分配歸一化系數和分配系數的兩種分層歸一化結構比較,結果見表4.

表4 不同歸一化方法的分類準確率Tab.4 Classification accuracy of different normalization methods %
觀察實驗結果可以發現,分層歸一化系數的引入在兩個數據庫上均有約2%的準確率提升,這也驗證了前面提到的分配系數可以進一步提高特征表現力,同樣表明了特征處理這一過程的必要性.
2.3 整體實驗分析
前兩部分實驗已充分驗證了本文方法在Caltech-101數據庫上的有效性,因此,目標分類數據庫改用更具挑戰的Caltech-256,場景分類則選用應用較多的Scene-15數據庫.
2.3.1 Caltech-256
Caltech-256數據庫相當于Caltech-101數據庫的擴展,它包含256個目標類別和一個背景類別共計30607張圖像. 由于圖像類別和數目的增加,實驗中字典大小增加為2048. 每一類訓練圖像分別隨機取15、30、45、60,其他設置與上面實驗一致,結果見表5.

表5 Caltech-256數據庫中不同方法的分類準確率
由表5的數據可以看出,采用的方法在圖像類別和數量增加、目標更為復雜的情況下,仍能得到理想的分類結果. 對比最新的文獻[4,7]基于多描述子的方法,本文方法分類效果更佳,這不僅與所選特征有關,更多的是分層學習結構和對特征進行空間歸一化的影響. 相比文獻[21]基于深度學習方法,本文算法具有較大提升,這表明提出的多描述子與分層特征學習能很好地結合共同提高特征表現力. 由表5數據還可以發現,隨著訓練圖像的增加,本算法優勢更加明顯,這表明提取的特征更為豐富有效,隨著訓練樣本增加更能體現出優勢.
2.3.2 Scene-15
Scene-15數據庫包含15個室外場景類別共4485張圖像,是一個被廣泛使用的場景識別數據庫,圖7是該數據集部分示例圖片. 實驗中訓練圖像設為100,分類結果見表6.

圖7 Scene-15部分圖片

方法分類準確率方法分類準確率GPP[4]85.13KDES-A[17]86.70LLC[10]82.34LCKSVD[13]90.40SPM[8]81.40本文方法91.88IMFSC[7]83.12
由表6數據可以看出,算法在場景分類任務中也具有較好的分類效果. 相比最近的文獻[4,7]中的方法,本文方法分類準確率要高6%~8%,相比文獻[8,10,17]方法提升更為明顯. 結合Caltech-256數據庫的實驗分析,一個原因是訓練樣本的增多,本算法提取的特征更能體現其有效性,另一個原因本文是分層特征學習與空間特征歸一化相結合得到的圖像特征更加豐富穩定. 與文獻[13]方法相比提升不是特別明顯,但是本文帶系數的分層特征歸一化與分層特征學習結構相結合的方法更為簡單,且所用歸一化方法計算量小,耗時較少.
結合深度學習思想和多特征提取方法,提出一種基于多描述子分層特征學習的圖像分類方法. 在分別提取圖像的局部特征并將特征結合后采用基于字典學習和批正交匹配追蹤的方法對特征進行編碼. 這一過程中,構建一個兩層的結構,分別對各層特征進行學習和歸一化處理,最后將兩層的特征連接起來作為圖像的最終表示并用線性SVM分類器進行分類. 通過實驗驗證,該方法在目標分類和場景分類任務中均具有較好的性能,且對于多類別多數量的數據集,仍具有較好的魯棒性. 當訓練樣本較少時該方法的分類結果不夠理想,這是需要進一步研究和改進的地方.
[1] CSURKA G, DANCE C, FAN Lixin, et al. Visual categorization with bags of keypoints[C]// Workshop on Statistical Learning in Computer Vision in ECCV. Berlin: Springer, 2004: 1-22.
[2] ZHANG Shiliang, QI Tian, HUA Gang, et al. Generating descriptive visual words and visual phrases for large-scale image applications[J]. IEEE Transactions on Image Processing, 2011, 20(9): 2664-2677.
[3] LIU Lingqiao, WANG Lei, LIU Xinwang. In defense of soft-assignment coding[C]// 2011 International Conference on Computer Vision. Barcelona: IEEE, 2011: 2468-2493.
[4] XIE Lingxi, QI Tian, WANG Meng, et al. Spatial pooling of heterogeneous features for image classification[J]. IEEE Transaction on Image Processing, 2014, 23(5): 1994-2008.
[5] YUAN Junsong, WU Ying, YANG Ming. Discovery of collocation patterns: From visual words to visual phrases[C]// IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007: 1-8.
[6]許允喜, 陳方. 局部圖像描述符最新研究進展[J]. 中國圖象圖形學報, 2015, 20(9): 1133-1150.DOI:10.11834/jig.20150901.
XU Yunxi, CHEN Fang. Recent advances in local image descriptor[J]. Journal of Image and Graphics, 2015, 20(9): 1133-1150.DOI:10.11834/jig.20150901.
[7]羅會蘭, 郭敏杰, 孔繁勝. 集成多特征與稀疏編碼的圖像分類方法[J]. 模式識別與人工智能, 2014,27(4): 345-355.
LUO Huilan, GUO Minjie, KONG Fansheng. Image Classification Method by Combining Multi-features and Sparse Coding[J]. Pattern Recognition & Artificial Intelligence, 2014,27(4): 345-355.
[8] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178.
[9] YANG Jianchao, YU Kai, GONG Yihong, et al. Linear spatial pyramid matching using sparse coding for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 1794-1801.
[10]WANG Jinjun, YANG Jianchao, YU Kai, et al. Locality-constrained linear coding for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 3360-3367.
[11]段喜萍, 劉家鋒, 王建華, 等. 一種語義級文本協同圖像識別方法[J]. 哈爾濱工業大學學報, 2014, 46(3):49-53.
DUAN Xiping, LIU Jiafeng, WANG Jianhua, et al. A collaborative image recognition method based on semantic level of text[J]. Journal of Harbin Institute of Technology, 2014, 46(3):49-53.
[12]AHARON M, ELAD M, BRUCKSTEIN A. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[13]JIANG Zhuolin, LIN Zhe, DAVIS L S. Label Consistent K-SVD: Learning a discriminative dictionary for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.
[14]王博, 郭繼昌, 張艷. 基于深度網絡的可學習感受野算法在圖像分類中的應用[J]. 控制理論與應用, 2015, 32(8): 1114-1119.
WANG Bo, GUO Jichang, ZHANG Yan.Learnable receptive fields scheme in deep networks for image categorization[J]. Control Theory & Application, 2015, 32(8): 1114-1119.
[15]BO Liefeng, REN Xiaofeng, FOX D. Multipath sparse coding using hierarchical matching pursuit[C]// IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 660-667.
[16]RUBINSTEIN R, ZIBULEVSKY M, ELAN M. Efficient implementation of the K-SVD algorithm using batch orthogonal matching pursuit[J]. Cs Technion, 2008, 40(8):1-15.
[17]BO Liefeng, REN Xiaofeng, FOX D. Kernel descriptors for visual recognition[J]. Advances in Neural Information Processing Systems, 2010:244-252.
[18]XIE Lingxi, QI Tian, ZHANG Bo. Simple techniques make sense: feature pooling and normalization for image classification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016,26(7): 1251-1264.
[19]FENG Jiashi, NI Bingbing, QI Tian, et al. Geometricp-norm feature pooling for image classification[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 2697-2704.
[20]FAN Rongen, CHANG Kaiwen, HSIEH C J, et al. LIBLINEAR: a library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[21]SOHN K, JUNG D Y, LEE H, et al. Efficient learning of sparse, distributed, convolutional feature representations for object recognition[C]// IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 2643-2650.
(編輯 王小唯 苗秀芝)
Image classification based on multi-descriptor hierarchical feature learning
GUO Jichang, WANG Nan, ZHANG Fan
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)
To address the problem that Bag-of-Words model still has several drawbacks such as the scarcity of information in single local descriptor, large quantization error and lack of representation upon image features in image classification tasks, an image classification method based on multi-descriptor hierarchical feature learning is proposed. Combing scale invariant feature transform (SIFT) and kernel descriptors-shape (KDES-S) features, a hierarchical structure is used to reduce quantization error in encoding process, which extracts local features. After that, image features in each layer are normalized respectively, the liner combination of which is the final feature representation for linear support vector machine (SVM) classifier. Experiments are conducted on datasets Caltech-101, Caltech-256 and Scene-15, and experimental results show that the proposed method improves the classification accuracy significantly in comparison with other algorithms.
image classification;hierarchical feature learning;hierarchical normalization
10.11918/j.issn.0367-6234.2016.11.013
2016-04-28
國家重點基礎研究計劃(2014CB340400); 天津市自然科學基金(15JCYBJC15500)作者簡介: 郭繼昌(1966—),男,博士,教授
郭繼昌, jcguo@tju.edu.cn
TP391.4
A
0367-6234(2016)11-0083-07