基于類物體采樣方法的多類別物體識別

2017-07-07 01:17:36張志柏孫傳慶

中國工程機械學報 2017年1期

關鍵詞：特征提取特征區域

張志柏,朱敏,孫傳慶,牛杰

(常州信息職業技術學院電子與電氣工程學院,江蘇常州 213164)

基于類物體采樣方法的多類別物體識別

張志柏,朱敏,孫傳慶,牛杰

(常州信息職業技術學院電子與電氣工程學院,江蘇常州 213164)

提出一種基于類物體區域檢測的BoW(Bag of Words)框架物體識別方法,采用改進的BING(Binarized Normed Gradients)算子檢測分割出圖像中的可能物體區域后,利用RootSIFT算子提取特征,送入后續BoW框架進行物體類別識別.將該方法應用于PASCAL VOC2007圖像集,試驗結果表明:相較于整幅圖像的特征計算,將特征提取與匹配限定在固定的可能物體區域的做法可以提高計算速度和識別效率.此外,該方法在VOC2007圖像集上達到了平均33.45%的識別準確率,優于相關文獻算法.

類物體采樣; BoW模型; BING算子; 物體識別

目標物體識別一直是計算機視覺的重要課題.識別是跟蹤、計數、分類等應用的基礎,在諸如人臉識別[1]、智能交通監控[2]等領域有著較大的發展前景.

通常的目標識別方法都需要依賴圖像分割技術,利用各種人工定義的分類器在一系列滑動窗口上進行特征匹配[3-5],此類方法往往計算量較大,因此出于實時性的考慮,后續的檢測系統一般會選擇弱特征及弱分類器以提升執行效率.方法優化的突破口主要集中在如何減少滑動窗口數量及提供分類器性能兩個方面[6-7].生物學研究[8]表明:人類在觀察場景時,第一步是檢測出視野中的所有可能物體,然后再去識別該物體的種類信息.受此啟發,文獻[9]提出了類物體區域采樣的概念,它代表一個窗口包含物體可能性的大小.其算法設計思路主要是基于圖像中物體和背景各自的固有特征進行.物體對象性思想由于其可以減少圖像的搜索空間、加快處理速度等優勢受到了很多研究的關注[10-11].

本文將類物體的思想引入到復雜場景下的物體識別應用中.首先利用類物體區域檢測算法標識出圖像中所有可能的物體區域;然后僅在上述標識區域中利用BoW模型進行物體類別判別;最后在公開圖像數據集上,與其他識別算法就執行效率及準確性進行對比分析.試驗結果驗證了文中方法的有效性.

1 方法框架

目標識別的通用框架是特征表述加分類器,利用滑動窗口技術設計固定或動態大小的窗口進行逐一匹配,這導致了識別算法的運算量較大,難以滿足實時判別的需求.

本文受文獻啟發,將類物體采樣方法引入到多物體識別應用中.首先利用BING算法提取圖像中的可能物體區域;然后計算區域的SIFT類特征,并全部送入BoW模型進行判別[11].具體的算法流程結構如圖1所示.

圖1 算法整體結構框圖Fig.1 Block diagram of the overall structure

2 BING算法加速物體判別

類物體概念的提出對于提升物體的識別應用有著積極意義.對于一幅N×N的圖像來說,傳統方法用到的滑動窗口可達N4的數量級之多.這樣對于檢測系統來說,為保障運行速度,只能選擇弱特征及弱分類器.若能快速識別出圖像中的可能物體區域,就可以在所有候選的窗口中過濾掉絕大部分,從而減少系統運算時間,甚至也可以采用性能更好的分類器,從而提升識別準確率.

文獻[11]提出一種BING算法來進行類物體區域的提取,其核心思想是在梯度空間圖上,無論物體是長的還是寬的,只要歸一化到一個相同的尺度上(8×8),物體與背景的梯度模式會十分有共性.這時用SVM(Support Vector Machine)分類器就能把物體和背景區分出來.算法最終在測試圖像集中達到了300 幀/s的速度,并且取得了良好的識別準確率.

本文在BING算法基礎上,加入圖像局部熵思想進行算法優化.圖像熵是一種特征的統計形式,它反映了圖像中平均信息量的多少.一幅由直方圖表示圖片的內容復雜度可以通過以下的熵值來進行體現:

(1)

式中:Pv,Ri代表像素亮度V在區域Ri中的概率密度.一幅圖像不同區域的歸一化熵圖如圖2所示,可以看出物體和背景直方圖較為明顯的不同,其中圖像右側XY圖是圖像的局部統計直方圖,橫坐標是灰度值,縱坐標是歸一化的統計數值.通常物體所在區域的熵值會比較大,而背景則具有一致性的特點,因此可以引入圖像局部熵來優化物體類別判別.文中修改了BING算法中對于窗口大小、分類器輸出分數以及最終窗口是否含有目標的模型.最終的類物體區域計算為

(2)

式中:01表示類物體區域的分數;vi,ti分別是學習系數和偏置項;ΗRi是圖像熵值;α是圖像局部熵權重系數,代表圖像局部熵所占權重大小,文中試驗取α=1.

圖2 物體和背景圖片局部熵對比Fig.2 Contrast of local entropy between the background and foreground region

3 基于BoW模型的目標識別

近年來,BoW模型已被廣泛應用到現實的圖像分類中,取得了非常不錯的效果.模型的通常步驟可以分為特征提取、生成詞典、構建歸一化直方圖三個步驟,其中特征算子常采用SIFT,SURF等尺度不變局部特征描述子.

常規的特征提取在整幅圖像上進行,僅僅單純利用匹配算法就可以直接在不同圖像上對這些特征進行匹配,以用于圖像的識別和分類.但是在整個圖像中提取特征進行匹配會消耗大量的計算資源,同時由于是從整幅圖像上進行考慮,因此對于真正需要識別的物體的特征的提取往往不夠細致.

本文在特征提取之前,首先利用BING方法進行可能目標區域的提取,然后直接在目標區域上進行特征提取,對于非目標區域不作考慮.特征提取示意圖如圖3所示.其中圖3(A)是原圖提取尺度不變特征示例,圖3(B～D)是類物體采樣方法后,進行特征提取的圖形.特征提取需要在不同尺度上進行計算,如果可以在圖像上將無關物體的背景區域移除,那么將減少大量的特征提取時間.同樣,在匹配階段,僅僅需要對于可能區域范圍進行識別,這將進一步節省時間,提高準確率.同時,類物體區域提取之后,我們還引入了圖像邊緣平滑操作以克服提取出的圖像邊緣強對比性對于結果的影響.文獻[12]提出一種利用極小數據空間來構建特征的BRIEF算子,然而當圖像復雜時,算子性能下降明顯.另外,考慮到由于類物體采樣方法的引入,在保證實時性前提下,可以適當放寬圖像特征提取的運算時間,因此綜合考慮,本文采用一種RootSIFT算子[13]提取圖像特征.該算子利用Hellinger距離替代歐式距離以提供動態性能.

圖3 特征提取示意圖Fig.3 Block diagram of the feature extraction process

提取特征后,利用K-means方法進行聚類,根據碼本生成各物體圖像的直方圖,然后利用RBF(Radial Basis Function)SVM進行離線訓練,構建待識別物體的支持向量機.

4 試驗結果與分析

為了驗證文中算法性能,選擇公開的PASCAL VOC2007[14]數據庫圖像集進行測試.在其訓練集中共有9 963幅24 640個標注物體.圖像集總共包含人物、鳥類、貓、飛機、自行車等20類圖像.部分示例圖像如圖4所示.為了全面測試算法,我們從算法識別準確率、特征算子性能以及模型的泛化能力方面分別加以比較,所有試驗均在Inter i72.2 GHz處理器、8 G內存的PC電腦上進行.

圖4 VOC2007圖像集示例Fig.4 VOC2007 example images

首先,對于BoW模型中特征算子的選擇,從快速性和準確性的角度出發,對比了RootSIFT,SIFT以及BRIEF三類算子對于模型的影響.人工隨機挑選300幅自行車類別目標圖像進行測試,圖像中的物體標注圖像和隨機抽取的背景圖像用于模型訓練.表1為不同特征算子的模型識別準確率及特征運算時間對比結果.可以看出:RootSIFT特征取得了最高的41.6%的準確率;SIFT特征次之;BRIEF特征的準確率下降最為明顯,原因是類物體區域分割后依然存留著復雜背景信息.另一方面,BRIEF由于自身特性,運算時間僅為對比算子的1/40,因此對場景簡單、實時性要求高的場合具有一定的實用價值.

表1 不同特征算子的對比結果

其次,文中分別選取深度學習方法[15]、分層結構學習方法[16]及DPM(Deformable Parts Model)[5]方法進行物體識別準確率指標比較.表2所示為這些方法的試驗對比結果.根據結果,在20類圖像中,本文方法有7類拿到最高的識別精度結果,平均準確率也達到了33.45%,處于領先水平.在所有方法中,本文方法使用常規的BoW模型框架,因此試驗結果充分驗證了引入類物體區域分割后對于識別結果性能提升的有效性.

表2 不同方法在VOC2007數據集上的準確率結果

此外,我們還對文中模型的泛化能力進行了測試.圖5所示BING_same和BING_different為訓練物體種類和測試物體種類相同和不同的情況.可以看出,在訓練好BING判別模型后,即使利用訓練集中未包含的物體類別進行測試,依然可以取得良好的識別效果.將該結果擴展到物體的識別應用中,當在類物體區域中未找到匹配時,可以認為發現新類別物體,進而利用特征點信息擴展訓練目標模型,從而提升算法的通用識別能力.

5 結語

針對常規物體識別框架算法存在的問題,提出了一種基于類物體區域分割算法的BoW框架實時檢測方法.本文方法首先利用BING算子進行快速的類物體區域檢測,然后僅需要在可能的物體區域提取特征信息以供后續的BoW和SVM模型使用.將本文方法與同領域類似應用的先進算法在公開數據集上進行了算法比較,在保證實時性的前提下,本文算法的識別準確率能夠取得最優的平均準確率.此外,文中框架的核心在于BING算法的準確性,雖然BING算子在數據集上可以達到300幀/s速度以及96.2%的準確率,但是其考量方式采用VOC的“檢測區域占真實面積比例大于50%”的標準顯得較為寬松,試驗中發現會出現類物體區域沒有包含全部物體的情況,未來的工作可以考慮加入諸如GIST[17]、V1S+[18]、顏色直方圖等特征,以進一步優化BING算子及BoW模型性能.

圖5 BING2007圖像集示例Fig.5 BING2007 example images

[1] PARKHI O M,SIMONYAN K,VEDALDI A,et al.A compact and discriminative face track descriptor[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:1693-1700.

[2] HUANG S C,CHEN B H.Highly accurate moving object detection in variable bit rate video-based traffic monitoring systems[J].Neural Networks and Learning Systems,IEEE Transactions on,2013,24(12):1920-1931.

[3] FERNANDO B,FROMONT E,TUYTELAARS T.Effective use of frequent itemset mining for image classification[M].Berlin:Springer,2012:214-227.

[4] HEITZ G,KOLLER D.Learning spatial context:using stuff to find things[M].Berlin:Springer,2008:30-43.

[5] FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645.

[6] UIJLINGS J R,VAN DE SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.

[7] DOLL R P,APPEL R,BELONGIE S,et al.Fast feature pyramids for object detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(8):1532-1545.

[8] DESIMONE R,DUNCAN J.Neural mechanisms of selective visual attention[J].Annual Review of Neuroscience,1995,18(1):193-222.

[9] ALEXE B,DESELAERS T,FERRARI V.What is an object?[C]// Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:73-80.

[10] ALEXE B,DESELAERS T,FERRARI V.Measuring the objectness of image windows[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(11):2189-2202.

[11] CHENG M M,ZHANG Z,LIN W Y,et al.bING:Binarized normed gradients for objectness estimation at 300 fps[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:3286-3293.

[12] CALONDER M,LEPETIT V,STRECHA C,et al.Brief:binary robust independent elementary features[M].Computer Vision-ECCV 2010,Berlin:Springer,2010:778-92.

[13] ARANDJELOVIC R,ZISSERMAN A.Three things everyone should know to improve object retrieval[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2012:2911-2918.

[14] EWERINGHAM M,ESLAMI S M A,GOOL L V,et al.The Pascal,visual object classes challenge:a retrospective[J].International Journal of Computer Vision,2015,111(1):98-136.

[15] SZEGEDY C,TOSHEV A,ERHAN D.Deep neural networks for object detection[J].Advances in Neural Information Processing Systems,2013,26:2553-2561.

[16] ZHU L,CHEN Y,YUILLE A,et al.Latent hierarchical structural learning for object detection[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:1062-1069.

[17] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-75.

[18] PINTO N,COX D D,DICARLO J J.Why is real-world visual object recognition hard?[J].PLoS Computational Biology,2008,4(1):27.

Objectness sampling based multiple-object recognition

ZHANG Zhibai， ZHU Min， SUN Chuanqing， NIU Jie

(School of Electrical and Electronic Engineering , Changzhou College of Information Technology , Changzhou 213164, Jiangsu, China)

In this study,an object recognition method for bag of words (BoW) framework is proposed via objectness measurement. Firstly,the object areas are detected and segmented using the improved binarized normed gradient (BING) operator.Then, the features are extracted by RootSIFT operator for object recognition.Finally,this method is employed for PASCAL VOC2007 image-set. Therefore,it is found from experimental results that,compared with the whole image feature computation,the computational speed and recognition efficiency are enhanced by feature extraction and matching limitation to possible object areas.In addition,the algorithm in this approach is proven better than those in other literatures with average recognition accuracy of 33.45% for VOC2007 image-set.

objectness measurement; BoW model; BING feature; object recognition

張志柏(1970-),男,副教授.E-mail:zhluluzh@yeah.net

TP 391.41

1672-5581(2017)01-0001-05