程浩宇,鄭瑩斌,蔡烜,馮瑞
一種基于空間金字塔模型的興趣點對自相關的圖像特征
程浩宇,鄭瑩斌,蔡烜,馮瑞
針對傳統視覺詞袋模型只考慮興趣點出現的頻率而忽略了局部特征空間信息的問題,提出了一種基于空間金字塔模型的新的圖像特征。該特征在標準視覺詞袋模型基礎上,通過計算屬于同一碼字的興趣點對之間的距離,加入了不同碼字包含的興趣點在圖像上的空間分布。更結合空間金字塔模型,聚合不同分層過程中提取的特征,更大程度上考慮了空間信息,從而加強了特征對圖像內容信息的表示能力。實驗結果表明,與傳統的詞袋模型和金字塔模型相比,具有更高的精準度和分類性能。
場景分類;視覺詞袋模型;興趣點;金字塔模型
近年來隨著互聯網技術的發展,海量的圖像數據出現在互聯網。面對數據的爆炸性增長,人工地進行管理和分析遠不能滿足要求,如何通過提取圖像特征來表示圖像中的視覺內容,進而對圖像進行準確的識別引起了人們的廣泛關注。
早期的圖像理解技術,依靠人工標注的方法表示圖像。將人工標注的內容作為圖像的標簽,再通過文本的檢索和識別方法間接地對圖像進行操作。這種方法局限于人力的使用,在時效性和精確性上遠不能達到需求,同時,由于不同標注者的理解不同,無法保證標注內容的一致性。隨著圖像處理技術的發展,視覺內容的表示越來越依托于提取圖像的視覺特征。基于圖像的內容信息,通過提取例如顏色分布、紋理信息等特征來表示圖像。進一步地,一系列的圖像底層視覺特征被陸續提出,包括SIFT特征[1]等。由于圖像的底層視覺特征更側重于小區域的局部信息,為了對圖像整體進行分析又提出了更高層的特征,例如視覺詞袋模型,可以表示圖像整體的內容信息和結構分布。
視覺詞袋模型會提取出圖像上的底層特征點,即興趣點。對興趣點的特征聚類后構成視覺詞典,詞典中每一個“單詞”即表示圖像上具有代表性的一類區域,通常稱為碼字。通過統計從屬于每個碼字的興趣點的出現頻率,可得到每一個代表區域在圖像上所占的比例大小。最后,通過詞典的頻率直方圖作為特征表示圖像信息。視覺詞袋模型統計了不同聚類的數量和頻率信息,但忽視了不同類別在圖像上的空間分布信息。為了解決這個問題,人們在視覺詞袋模型基礎上,將基于特征空間的空間金字塔模型引入圖像中,提出了空間金字塔匹配方法[2]。將圖像按網格分格,統計分格后每個區域中的興趣點出現頻率來表示每一個碼字在圖像上的整體分布信息。
基于視覺詞袋的金字塔模型初步統計了碼字在圖像固定細分區域的出現頻率,但仍忽略了從屬同個碼字的興趣點之間距離上的相關性,而點之間相關性更能準確表達同一個碼字區域內興趣點的空間分布狀況。本文提出了一種基于空間金字塔模型的興趣點對自相關圖像特征,此特征在空間金字塔模型基礎上,改進圖像分層后的特征提取方法,通過增加興趣點對之間的空間距離信息,計算同碼字的興趣點在不同距離尺度上的分布情況,形成新的視覺特征,提升了在場景識別數據集上的精度和效果。
傳統的視覺詞袋模型通過對圖像進行預處理,提取出圖像一定數量的局部特征,得到興趣點區域和特征表示。再進行特征聚類任務,形成固定類別數目的聚類結果,即視覺詞典,其中每一個類別即為詞典中的碼字。興趣點的局部特征一般選擇表現興趣點區域屬性的底層視覺特征,例如SIFTT特征,HoG特征[33]等。means
本節首先通過傳統視覺詞袋模型方法得到視覺詞典和對應碼字。本文的方法選擇使用SIFT特征作為表示圖像興趣點的局部特征。SIFT特征提取的圖像興趣點是一些十分突出,不會因光照等因素影響的區域,具有良好的尺度不變性和穩定性。通過SSIFT特征提取方法,得到了表示每個興趣點的128維特征描述子,從其中選擇一定數量進行聚類(通常使用k-means算法[4]),構造出組成視覺詞典的碼字。得到的視覺詞典定義如下:
V={w1,w2,…,wn}
其中wn表示視覺詞典中的碼字。進一步,通過對所有興趣點特征進行特征量化,得到興趣點和碼字之間的從屬關系。視覺詞袋模型通過統計碼字出現的頻率直方圖作為表示圖像的特征,給出詞典和碼字在圖像上的頻率分布情況。在視覺詞袋模型基礎上,本文設計了以下方法來得到興趣點的空間分布關系[5]。
對于圖像Γ,我們用pk=(xk,yk表示圖像上一個興趣點rk的位置,此興趣點在視覺詞典中對應的碼字記為w(ri)。對于圖像上的興趣點rk和ri,用‖ppk-pi‖來表示兩個興趣點的距離,本文的方法中使用L∞距離如公式(1):

對于每一個興趣點,定義Tk(wj,d)表示rk與其相鄰區域內興趣點的相關性以及相關的興趣點分布比例,定義如公式(2):

其中ri∈Γ表示興趣點 ri在圖像中。
Tk(w,d)表示了興趣點ri與碼字為wj的興趣點集合的相互關系,用來統計距離興趣點rk為d的wj興趣點子集分布情況。為了描述詞典中兩個碼字wi和wj之間的相關性,統計從屬碼字wi的所有興趣點和另一個碼字wj之間的相互關系,定義Tk(wi,wj,d 如公式(3):

Tk(wi,wj,d)計算兩個碼字wi和wj分別對應的興趣點中距離為d的比例。一個計算興趣點相關性和碼字相關性Tk(wi,wj,d)的示例如圖1所示:

圖1 計算興趣點相關性
將所有wi,wj,d取值下的結果連接起來,串成一個向量,即可得到一個表示興趣點之間分布關系的圖像特征[6]。假設圖像大小為w×h,取D=max(w,h),則特征維度為n2D.
在此基礎上進一步,若僅計算同一個碼字對應的興趣點間的相關性,會忽略冗余信息,加強特征表示的緊湊型,同時,計算的復雜性大大降低。為了描述碼字在興趣點位置分布上的自相關性,我們定義corr(wi)來表示所屬碼字為w 的興趣點對中,距離為d的比例,稱為興趣點對自相關特征,corr(wi)定義如公式(44):

最后,將視覺詞典中所有碼字wn和距離d取值下對應的特征串成一個向量,就能構成圖像的興趣點對自相關特征如公式(5):

在本文的算法中,距離的取值取決于圖像的大小。將距離區間平均分為s個區間:I1=[0,L),I2L),…,Is=[(s-1)L,D),其中L D/s.此時,特征的維度降為ns。
金字塔模型的一種思想是將特征空間進行一系列不同程度的分格,在不同層次的網格分割結果上進行特征匹配,再將不同層次上的匹配結果進行加權求和得到特征集整體的相似度[7]。另一種實現方式是在不同層次的網格分割結果上,對每一個網格區域運用基本的特征提取方法,然后,將各個層次上的各個區域的特征進行加權處理并線性連接,得到金字塔特征,最后,用得到的特征向量進行匹配。本節中,我們嘗試采用第二種實現方式,將興趣點對自相關特征與空間金字塔模型進行結合,改進特征提取方法來優化金字塔模型如圖2所示:

圖2 空間金字塔模型示例
空間金字塔使用了1w1,2w2,4w4等分層方式,分別對應第0層,第1層和第2層。在提取圖像視覺詞典后,對圖像進行網格分層。定義(m=1,…,221;l=0,…,L)表示分層后的圖像區域,其中l表示分層層次,m表示同一層的網格區域。分層結束后,在各個層次依照上一節的方法提取不同圖像區域的興趣點對自相關特征如公式(6):

將得到的各級各單元區域的特征加權處理并線性連接,即可得到圖像興趣點對自相關特征的空間金字塔表示如公式(7):

其中U*表示特征向量的線性連接。W1表示不同金字塔層次的加權值,取值如下:

3.1 scene-15數據集
本實驗使用scene-15場景識別數據集來評估實驗結果[8]。如圖3所示:

圖3 scene-15數據集
scene-15包含室內、山脈和街道等15個類別的場景圖像,每一類為200到400張圖片。對于每個類別的所有圖像,實驗中隨機抽取100張用作訓練,剩下的用于測試。同時為了測試數據的準確性和穩定性,實驗中嘗試了多次的隨機劃分,重復生成了多組不同的訓練和測試數據,最終綜合實驗結果來評估平均識別準確率。
3.2 實驗結果與分析
對于數據集中的圖像,首先,依照傳統視覺詞袋模型生成視覺詞典:采用密集采樣方法提取圖像的興趣點,進一步提取每個興趣點128維的SIFT特征,再使用k-means算法進行特征聚類形成視覺詞典。然后,應用空間金字塔模型分格,分層過程采用1w1,2w2,4w4 的分格方式。最后,在分格區域上提取圖像的興趣點對自相關特征,特征提取過程中距離區間采用s 2。
得到優化后的金字塔模型特征后,實驗使用了SVM分類器來進行圖像分類任務,核函數為直方圖相交核函數,如下:

實驗中首先將視覺詞典的碼字數量作為變量,來對比不同碼字的視覺詞典對于實驗結果的影響。分別取碼字數量為16和200的情況作為實驗結果對照。通常情況下,碼字數量的增加會提升識別的結果,如圖4所示:

圖4 單層模型下Corr特征識別結果
通過圖4中的實驗結果可以看到,對比模型中每一單層的興趣點對自相關特征識別結果,同一層模型下識別的準確率隨碼字數量增加有明顯提升。當碼字數量為200時,由于多碼字和分格數量過多情況下特征分辨能力下降,第2層(4w4分格)的識別準確度不如第1層(2w2分格)。
同時將運用直方圖特征的傳統空間金字塔模型的實驗作為對比,分別列舉了兩種模型下單層特征分類和多層特征融合的實驗結果,多層特征為各層特征線性連接后結果如表1、表2所示:

表1 碼字數量為16時特征識別準確率
通過表1和表2的實驗結果可以看到,在碼字數量為16時,多層興趣點對自相關特征對于傳統詞袋模型結果,即單層直方圖特征,準確率分別提高了10.6%和8.3%。在碼字數量為200時,準確率分別提高了5.2%和2.8%。
同時,實驗結果顯示,無論是對于興趣點對自相關特征還是直方圖特征,多層結構對于單層結構都能取得更好的實驗結果。對于興趣點對自相關方法,在碼字數量為16時,直方圖特征從單層結構到多層結構分別提高了2.8%和3.4%,興趣點對自相關特征從單層結構到多層結構分別提高了4.2%和6.3%。碼字數量為200時,直方圖特征從單層結構到多層結構準確率分別提高了2.4%和0.3%,興趣點對自相關特征從單層結構到多層結構準確率分別提高了2.7%和5.9%。以上實驗結果說明,興趣點對自相關特征和空間金字塔模型融合的方法優于其他方法,在分類的準確性上有明顯的提升。
本文提出了一種基于空間金字塔模型和興趣點對之間相關性的新的圖像特征。該特征彌補了傳統詞袋模型和金字塔模型對興趣點空間分布的忽略,增強了特征對圖像信息的表示能力。同時,該特征改進了金字塔模型中對興趣點分布的統計方法,進一步加強了特征的緊湊型。實驗表明,這種新的圖像特征對于傳統的金字塔模型有更好的分類準確性,在場景識別數據集上提升了識別結果。
[1]Lowe,D.G:Distinctive Image Features from Scale-Invariant Keypoints[J]. IJCV, 2004,60(2):91-110.
[2]Lazebnik,S.,Schmid,C.,Ponce,J.:Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]. In:CVPR, 2006:2169-2178.
[3]DalalandB.N. T:Histograms of Oriented Gradients for Human Detection.Proc[J]. IEEE Conf.Computer Vision and Pattern Recognition,2005.
[4]Csurka,G.,Dance,C.R.,Fan,L.,Willamowski,J.,Bray,C.: Visual categorization with bags of keypoints.In:Workshop on Statistical Learning in Computer Vision[J]. ECCV, 2004:1-22.
[5]Vodel,J.,Schiele,B.:Semantic modeling of natural scenes for content-based image retrieval[J]. IJCV,2007,76(2): 133-157.
[6]Zheng,Y.,Lu,H.,Jin,C.,Xue,X.:Incorporation spatialcorrelogram into bag-of-features model for scene categorization[M]. In:ACCV,2009.
[7]Hartigan,J.A.,Wong,M.A.:A K-means clustering algorithm[J]. Applied Statics 28, 1979:100-108.
[8]van Gemert,J.,Geusebroek,J.M.,Veenman,C.J.,Smeulders, A.W.M.:Kernel codebooks for scene categori-zation.In:Forsyth,D.,Torr,P.,Zisserman,A[M]. (eds.)ECC V 2008.
Incorporating Spatial Correlogram into Spatial Pyramid Matching
Cheng Haoyu1, Zheng Yingbin2, Cai Xuan3, Feng Rui1
(1.School of Computer Science, Shanghai Engineering Research Center for Video Technology and System, Fudan University, Shanghai 201203, China; 2.SAP Labs China, Shanghai 201203,China; 3.The ThirdInstitute of Ministry of public security, Shanghai 201204, China)
This paper presents a new approach to improve the traditional bag-of-visual-word model for scene categorization. Traditional model considers images as a histogram of the occurrence rate of interest regions. In this approach, the spatial distribution of code words is incorporated to approximate the image geometric information. This works by improving the traditional codeword histogram with calculating the spatial distance between pair wise interest regions. It combines the approach with spatial pyramid matching algorithm to consider global geometric information and strengthen its ability to represent the image content. Experiment results on a public dataset show that the combination with spatial pyramid matching increases the accuracy and improves effectiveness for categorization.
Scene Categorization; Bag-of-features; Interest Regions; Spatial Pyramid
TP311
A
2015.02.25)
1007-757X(2015)04-0001-03
國家科技支撐計劃(2013BAH09F01);上海市科委科技創新行動計劃(14511106900)
程浩宇(1990-),男,復旦大學計算機科學技術學院,上海視頻技術與系統工程研究中心,碩士研究生,研究方向:機器學習和計算機視覺,上海,201203
鄭瑩斌(1985-),男,SAP中國研究院,研究員,博士,研究方向:機器學習和計算機視覺,上海,201203
蔡 烜(1980-),男,公安部第三研究所,助理研究員,博士,研究方向:機器學習,上海,201204
馮 瑞(1971-),男,復旦大學計算機科學技術學院,上海視頻技術與系統工程研究中心,副教授,博士,研究方向:視頻圖像處理和計算機視覺,上海,201203