崔 崟,段 菲,章毓晉
(1.北京航空航天大學電子信息工程學院,北京100191;2.清華大學電子工程系,北京100084)
對圖像的理解實際上是要實現對場景的理解。對場景進行分類是實現場景理解的重要手段。具體說來,場景分類要根據視覺感知組織原理,確定出圖像中存在的各種特定區域及其特性,并在此基礎上給出場景的概念性解釋[1]。實際中,場景分類??醋魇抢糜嬎銠C自動地將圖像標記為不同語義場景類別的過程。場景分類在基于內容的圖像檢索等領域得到廣泛重視和應用。
場景中感興趣的部分常稱為前景或目標,對場景的分類與對目標的識別有密切的聯系。對目標的充分認識肯定對場景的分類有幫助,但場景分類與目標識別又不同,通常需要在尚未獲得對目標的完全認識前對其進行分類。另一方面,分類的場景對目標的識別具有一定的指導作用。
從場景分類的方法看,最初的思路常將其建立在對目標識別的基礎上。但一方面,由于目標識別本身就是一個困難的問題,另一方面,參照人類的視覺認知過程,僅初步的目標識別已可滿足對場景的分類要求(場景分類并不一定完全基于對目標的完全認識),所以近年許多研究繞過目標識別直接進行場景分類。
基于圖像的場景分類要借助從圖像中提取的低層特征實現對高層語義(場景信息)的區分。為克服低層特征和高層語義之間的“語義鴻溝”,近年來有不少方法致力于構建中間語義層以在低層特征和高層語義間搭橋。如文獻[2]就定義了圖像的開放性、粗糙性等5個視覺屬性作為中間語義層特性。
近年許多場景分類工作利用了詞袋模型。詞袋模型源自對自然語言的處理,引入圖像領域后也常稱為特征包模型。特征包模型由類別特征歸屬于同類目標集中形成包而得名[3]?;谏墒降摹霸~袋模型”,文獻[4,5]分別利用LDA概率模型[6]和pLSA模型[7],試圖尋找圖像的“主題”作為中層語義特征。為克服“詞袋模型”僅考慮了組成圖像的基元部件的自身特性而丟失了這些基元部件的空間位置信息的缺點,文獻[8]提出了空間金字塔匹配與匯總的方法。最近取得較好結果的一種場景分類方法[9]就是基于“詞袋模型”和空間金字塔匯總的框架。
考慮到場景內容的多樣性和復雜性,對場景的分類常需要提取多種不同類型的低層特征,并將它們組合用于場景分類?,F有的特征組合方法均將所提取的特征直接結合形成單個綜合特征,然后以此進行分類工作。考慮到如上所述構建中間層對聯系低層和高層的作用,本文試圖將所提取的特征并不在開始就直接結合,而是對各類提取的特征先分別進行加工,而在較后的(對應較高層次)步驟中再結合。
本文概括介紹了典型的場景分類框架,討論了場景分類中所用的特征,在回顧一般的特征層直接組合方法的基礎上,詳細介紹所提的編碼層特征組合的方法,最后給出在實際數據上對特征層直接組合方法和編碼層特征組合方法的對比實驗結果和對結果的討論分析。
基于詞袋模型的圖像場景分類框架如圖1所示。四個具體步驟是:①對輸入圖像進行特征提取以得到特征描述向量;②結合特征向量形成視覺詞匯的詞典;③對每幅圖像的特征向量進行編碼得到編碼向量;④利用空間金字塔進行匹配匯總,并對匯總結果進行分類以得到類別標簽。

圖1 場景分類框架Fig.1 Framework of scene classification
選取恰當的特征在場景分類中起著重要作用。尺度不變特征變換(SIFT)可看作一種檢測圖像中顯著特征的方法[10-11],它不僅能在圖像中確定具有顯著特征點的位置,還能給出該點的一個描述矢量,也稱為SIFT算子或描述符。
考慮到實際場景多是彩色的,在提取特征時,利用彩色信息可增加對場景的描述能力,從而更準確地進行場景分類。對彩色特征描述符的要求主要是能有效地描述彩色分布并且對光照強度的線性變化和偏移有較強的魯棒性。一種利用彩色信息的方法將SIFT特征推廣到彩色空間,提出了RGB-SIFT特征[12]。RGB-SIFT特征是對圖像中的紅、綠、藍三色通道分別求出SIFT特征后將結果合并得到的,具有對光照線性變化及偏移的魯棒性。
本文探討在不同層次進行特征組合的問題,所以除選擇SIFT特征外,還增加了歸一化彩色直方圖(Normalized color histogram,NCH)特征[12]。與傳統的彩色直方圖不同,為了服從標準正態分布N(0,1),紅(R)、綠(G)、藍(B)三個彩色通道的像素值分布被分別歸一化:

式中:R',G',B'分別為歸一化后的紅、綠、藍三通道像素值。本文采用的歸一化顏色直方圖對每個顏色通道取16個bins(直方條),共計48維。
對低層特征的直接組合是在特征層進行的。具體就是分別提取輸入圖像的 SIFT特征和NCH特征,將兩種特征合并作為一個新的特征參與接下來的視覺詞典建立,編碼成向量,并進行匹配匯總等步驟(見圖2)。設SIFT特征和NCH特征的維數分別為DS和DN,則組合后特征的維數D為D=DS+DN。組合后的特征在前DS維和后DN維分別使用SIFT和NCH兩種特征描述圖像,其描述性能與兩種異質信息的加權和相關。

圖2 特征層特征組合Fig.2 Feature combination in feature layer
在特征層直接組合方法形成的視覺詞典中每個“詞”包含了所有參與組合的特征的信息,編碼過程中待編碼特征與碼本的距離測度將同時由所有特征參與衡量。這樣得到的特征編碼顯然是所有特征綜合的結果,無法保證單一特征的鑒別性不變。
為在不同特征組合的同時保留單一特征的鑒別性,本文考慮在編碼層(相比特征層更高,也可看作中層)進行特征組合。具體做法是在分別提取SIFT和NCH特征后,對兩種特征分別生成視覺詞典并編碼,然后將兩種特征的編碼結果合并后進行空間匯總并送入分類器(見圖3)。設SIFT特征和NCH特征的詞典長度分別為LS和LN,則組合后的特征編碼維數為L=LS+LN。

圖3 編碼層特征組合Fig.3 Feature combination in coding layer
如上組合得到的編碼具有一定的結構性,編碼向量中前LS維和后LN維分別對應于SIFT特征和NCH特征。由于編碼結果將直接參與分類,所以在編碼層的特征組合不僅利用了編碼的結構性而且在組合的同時保留了參與組合的單一特征的鑒別性。在場景分類中,多特征組合要取得比單一特征更好結果的關鍵是在特征組合時沒有喪失其中每個單一特征的鑒別性,從而在某些特征無法對場景進行區分時可利用其它特征進行分類。所以,可期望在編碼層的特征組合將比在特征層的特征組合獲得更高的分類準確率。
為驗證所提出的特征層組合方法的有效性和編碼層特征組合方法相對于傳統特征層組合方法的優越性,本文選用384維的RGB-SIFT特征[12]作為基準,分別對SIFT和NCH在特征層的組合以及SIFT和NCH在編碼層的組合進行了對比。
實驗在三個場景圖像數據集上進行:Corel-10、Sports-8和MIT Scene-8。其中,Corel-10含有10類自然場景的共1000張圖片,實驗中隨機選取每類50張圖片用于訓練,剩余50張圖片測試; Sports-8含有8類運動場景的共1579張圖片,實驗中隨機選取每類70張圖片用于訓練,剩余圖片中隨機選取60張用于測試;MIT Scene-8含有8類戶外場景共2696張圖片,實驗中隨機選取每類100張圖片用于訓練,剩余圖片用于測試。為了得到更可靠的結果,在每個數據集上的實驗結果都是10次獨立隨機選擇訓練集與測試集后運行結果的平均值,并給出標準差。
為歸一化數據,在所有實驗中都將輸入圖像統一按比例縮小至最大邊長為300像素。通過用采樣步長為8像素的密集采樣將每幅圖片劃分為16×16像素大小的圖像塊,以圖像塊為單位提取特征,并對特征進行L2范數歸一化。為生成視覺詞典,利用了K-means聚類算法,其后再用5-近鄰矢量量化方法[13]對特征進行編碼。在匯總方法中,采用了最大值匯總[14]。具體采用3層空間金字塔[9]結構(1×1+2×2+1×3)進行最大值空間匯總。最后,本文選擇直方圖相交核[15]的支持向量機作為分類器,在多類分類中采用一對多的分類策略。
在特征層組合實驗中,比較了RGB-SIFT特征與SIFT和NCH在特征層組合的特征。所采用的詞典長度均為1024。實驗結果如表1所示。

表1 特征層組合結果Table 1 Results of feature layer combination
從實驗結果可以看出,特征層組合后用176維的特征取得了與384維RGB-SIFT特征相近的分類準確率。RGB-SIFT特征從某種意義上來說也是一種在特征層組合的特征(可看作在提取特征前先進行了組合),通過計算三色通道的SIFT特征間接利用了彩色信息。但是,由于SIFT特征主要是對圖像中梯度信息的描述,而灰度圖像與彩色圖像相比并沒有明顯的梯度信息的缺失。所以,RGB-SIFT特征在綜合利用梯度和顏色信息時有一定的冗余性。特征層組合的方法(可看作在分別提取特征后再進行組合)更高效地綜合利用了梯度與顏色信息。SIFT和NCH組合特征與RGB-SIFT特征相比,特征維數大大減少,所以在詞典生成與編碼效率上應有明顯的優勢。
在編碼層組合實驗中,比較了RGB-SIFT特征與SIFT和NCH在編碼層組合的特征。所采用的詞典長度均為2048,其中兩個待組合特征分別采用長度為1024的詞典。實驗結果如表2所示。

表2 編碼層特征組合結果Table 2 Results of coding layer feature combination
從實驗結果可看出,利用編碼層特征組合得到的分類準確率在使用相同長度的詞典時明顯高于使用RGB-SIFT特征得到的結果。這在圖4給出的對Corel-10數據集分別利用SIFT特征和編碼層特征組合得到的分類混淆矩陣中也得到了驗證。圖4右圖中主對角線上的數值明顯大于圖4左圖中主對角線上的數值,即分類正確率都有所提高。

圖4 SIFT特征與編碼層特征組合方法在Corel-10上的混淆矩陣比較Fig.4 Com parison of confusion matrixes between SIFT and coding layer feature combination on Corel 10
本文比較了編碼層特征組合與特征層特征組合的效果,分析和實驗均表明編碼層特征組合在圖像分類中有更好的效果。本文也比較了利用(在特征提取前的)組合特征與分別提取特征再將結果組合的效果,分析和實驗均表明后者優于前者。因此,從語義角度看,在組合特征以提高圖像分類的準確性時,對特征的組合應盡量在較高的語義層上進行。
上述結論也為進一步的工作指明了方向,即一方面要研究更多種類的異質特征以更全面描述圖像的特性,另一方面還要研究較高語義層次的特征組合或融合方法,以期更有效地利用特征信息。
[1]章毓晉.圖像工程(下冊):圖像理解[M].(第3版).北京:清華大學出版社,2012.
[2]Oliva A,Torralba A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. IJCV,2001,42(3):145-175.
[3]Sivic J,Zisserman A.Video Google:A text retrieval approach to objectmatching in videos[C]∥Proc ICCV II,Nice,France,2003:1470-1477.
[4]Li F F,Perona P.A bayesian hierarchical model for learning natural scene categories[C]∥Proc CVPR,San Diego,USA,2005:524-531.
[5]Bosch A,Zisserman A,Munoz X.Scene classi cation via pLSA[C]∥Proc ECCV,Graz,Austria,2006:517-530.
[6]BleiD,Ng A,Jordan M.Latent dirichletallocation[J]. Journal of Machine Learning Research,2003(3):993-1022.
[7]Sivic J,Russell B C,Efros A A,et al.Discovering objects and their location in images[C]∥Proc ICCV,Beijing,China,2005:370-377.
[8]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥Proc CVPR,New York,2006: 2169-2178.
[9]Yang J,Yu K,Gong Y,et al.Linear spatial pyramid matching using sparse coding for image classification[C]∥Proc CVPR,2009:1794-1801.
[10]Lowe D.Distinctive image features from scale-invariant key points[J].IJCV,2004,60(2):91-110.
[11]Nixon M S,Aguado A S.Feature extraction and image processing[M].(2ed).Academic Press,2008.
[12]Van de Sande K E A,Gevers T,Snoek C G M.Evaluation of color descriptors for objects and scene recognition[C]∥Proc CVPR,Anchorage,USA,2008:1-8.
[13]Van Gemert JC,Veenman C J,Smeulders A W M,et al.Visualword ambiguity[J].TPAMI,2010,32(7): 1271-1283.
[14]Boureau Y,Bach F,Le Cun Y,et al.Learningmid-level features for recognition[C]∥Proc CVPR,2010:2559-2566.
[15]Maji S,Berg A C,Malik J.Classification using intersection kernel support vector machine is efficient[C]∥Proc CVPR,Anchorage,USA,2008:1-8.