白小軍,史天意,劉 穎
(1.西安工業大學 計算機科學與工程學院,陜西 西安710016;2.西安郵電大學 通信與信息工程學院,陜西 西安710121)
?
一種改進的現勘圖像分類算法
白小軍1,史天意1,劉 穎2
(1.西安工業大學 計算機科學與工程學院,陜西 西安710016;2.西安郵電大學 通信與信息工程學院,陜西 西安710121)
針對加速魯棒特征在尺度變化和旋轉變化方面表現不夠理想的問題,提出一種改進的現勘圖像分類算法。根據高斯金字塔模擬人眼由近及遠視物且能保持物體尺度不變的特性,對圖像提取基于高斯金字塔的加速魯棒特征,并用詞袋模型描述圖像。通過訓練得到支持向量機分類器,對輸入圖像進行分類。實驗結果表明,改進算法分類準確率有明顯提高。
加速魯棒特征;高斯金字塔; 詞袋模型;圖像分類
基于內容的圖像分類(Content-Based Image Classification,CBIC)算法主要利用形狀、紋理、顏色等圖像自身的多種底層視覺特征完成分類任務[1]。
在特征表示方面,尺度不變特征轉換(Scale Invariant Feature Transform,SIFT)算法有較好的判別性,對于尺度、光照、旋轉等變換具有特征不變性,從而獲得了廣泛的應用,但是該算法計算復雜度高,耗時較長[2,3];加速魯棒特征(Speeded Up Robust of Features,SURF)算法是針對SIFT特征的改進,效率更高,但在光照和尺度變化方面表現不夠理想[4]。在分類模型方面,詞袋(Bag of Words,BoW)模型[5]較為常用,已廣泛應用于圖像分類和視頻中的動作識別[6-9]。
針對現勘圖像背景復雜、場景多變、拍攝時光照條件和觀測角度不同等特點,本文在SURF特征的基礎上,結合SIFT特征的優點,利用BoW模型,提出一種改進的基于高斯金字塔的SURF特征(GP-SURF)算法。
檢測并提取圖像的GP-SURF特征,得到特征向量集,利用BoW模型描述圖像,通過訓練得到SVM分類器,最后實現圖像分類。
1.1 GP-SURF特征的檢測與提取
基于高斯金字塔的SURF特征(GP-SURF)的核心思想是在構建尺度空間時摒棄SURF原有的模式,改用高斯金字塔模型。算法步驟如下。
步驟1 構建Hessian矩陣。
假設函數f(x,y),Hessian矩陣H是由函數偏導數組成。圖像中像素點的Hessian矩陣的定義為

(1)
對每個像素點,其Hessian矩陣的判別式為

(2)
依據判別式取值的正負便可判別該點是否為極值點。
用圖像像素I(x,y)取代函數值f(x,y),選用二階標準高斯函數作為濾波器,通過特定核間的卷積計算二階偏導數,便可計算出矩陣H的3個元素Lxx,Lxy和Lyy,則矩陣H可以表示為

(3)
在構造Hessian矩陣前,需要對其進行高斯濾波,以確保特征點的尺度無關性,表達式為
L(x,t)=G(t)I(x,t)。
(4)
L(x,t)是圖像在不同解析度下的表示,可以利用高斯核G(t)與圖像函數I(x)在點x的卷積來得到,其中高斯核G(t)為

(5)
其中g(t)為高斯函數,t為高斯方差。通過這種方法可以為圖像中每個像素點求出其Hessian矩陣,并用Hessian矩陣判別極值點。
步驟2 構建高斯差分金字塔。
定義L(x,y,σ)為一個變化尺度的高斯函數G(x,y,σ)與原圖像I(x,y)的卷積(*代表卷積運算),表達式為
L(x,y,σ)=G(x,y,σ)*I(x,y),
(7)

(8)
其中m,n表示高斯模板的維度,(x,y)代表圖像的像素位置,σ是尺度空間因子。
構建高斯金字塔的過程為先對圖像做不同尺度的高斯濾波,得到S幅圖像,將其組合為一組(Octave);然后對每組中的倒數第3幅圖像做降采樣,得到下一組的第1幅圖像,對該圖像做不同尺度的高斯濾波,以此類推,從而得到N個圖像尺寸依次遞減的組。這N個組組合成的模型便稱為高斯金字塔。
將高斯金字塔每組中相鄰上下兩層圖像相減,即
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=
L(x,y,kσ)-L(x,y,σ)。
(9)
以此可以得到高斯差分圖像,每個組得到S-1幅高斯差分圖像,N×(S-1)幅圖像構成高斯差分金字塔,如圖1所示。

圖1 高斯差分金字塔的構建
步驟3 初步確定特征點。
經Hessian矩陣處理可得多個極值點,將之與其3維鄰域的26個像素點比較大小,若為26個點中的最大值或者最小值,則保留并充當初步的特征點。采用與相應尺度層圖像解析度同等大小的濾波器檢測特征點,如圖2所示。

圖2 高斯差分金字塔空間極值檢測
步驟4 精確定位特征點。
對于步驟3中初步確定的特征點,采用3維線性插值的方法得到亞像素級的特征點,同時去掉一些小于特定閾值的點,最終只保留幾個特征最強的點。
步驟5 選取特征點主方向。
為了保證旋轉不變性,以特征點為中心,在半徑為6S(S為特征點所在的尺度值)的鄰域內,統計60度扇形內所有點在水平和垂直方向上的Haar小波響應總和;給這些響應值賦予高斯權重系數,使得靠近特征點的權重大,遠離特征點的權重小;把
所有響應相加,形成新的矢量;最后,遍歷整個圓形區域,該特征點的主方向由其中最長的矢量方向確定。如此,對所有特征點計算后可得到每個特征點的主方向。
步驟6 構造特征點描述算子。
在特征點周圍取一個邊長為20S(S是特征點所在組的尺度)且帶方向的正方形框,然后將該正方形框劃分為16個子區域,統計每個子區域中25個像素的水平和垂直方向的haar小波特征,從而得到該特征點的特征向量。
1.2 BoW模型與圖像分類
將 BoW 模型應用于圖像識別和分類,可以把圖像看作為一個文檔,而圖像中的關鍵特征被看作為“單詞”,所有訓練圖像的“單詞”集合被稱為“視覺詞典”。基于BoW模型的圖像分類過程主要分為訓練和分類兩個階段,如圖3所示。

圖3 BoW模型圖像分類流程
(1)特征提取
采用GP-SURF算法,檢測和提取圖像中的關鍵特征點,并將提取到的每一個特征點用特征向量表示。
(2)生成視覺詞典
對訓練集中的所有圖像分別提取特征向量,所有的特征向量集合在一起構成特征向量集;再通過K-Means算法[10]對特征向量集進行聚類,即可獲得多個聚類中心,每個聚類中心即為一個視覺單詞,所有視覺單詞的集合構成BoW模型的視覺詞典。
(3)生成視覺單詞直方圖
對于每一幅訓練圖像,將其每個特征點都映射到BoW模型的某個視覺單詞上,并統計各單詞出現的次數,即可生成該圖像的視覺單詞直方圖。由于訓練圖像的類別已知,按類別將所有訓練圖像的視覺單詞直方圖組織起來,形成YML格式文件。
(4)訓練SVM分類器
由于SVM為二分類器,所以需要分別針對每一類圖像,與非該類圖像的集合,訓練SVM分類器,得到一系列分類超平面。
(5)分類
分類階段的前兩步和訓練階段相同,首先得到一幅圖像的特征向量集,進而得到其視覺單詞直方圖;第三步通過一系列SVM分類器,計算該圖像的視覺單詞直方圖與訓練階段得到的各個分類超平面的距離,選取距離最大的超平面將該圖像分類出來,即得到分類結果。
對基于GP-SURF特征與BoW模型的圖像分類算法進行了實驗,實驗環境為Core i3-4170(四核、3.70GHz)CPU,8G內存,64位Win7 操作系統。實驗的數據集為某省公安廳刑偵局提供的刑偵現勘圖像庫,該庫目前包含500幅圖像,分為10個類別,每個類別50幅圖像,部分實例圖像如圖4所示。

圖4 刑偵現勘圖像庫部分實例圖像
利用OpenCV提供的庫函數進行K-Means聚類,從而構建視覺詞典;同樣使用OpenCV庫函數來實現支持向量機 (Support Vector Machine,SVM)[11,12]的訓練和分類,其中以徑向基核函數(RBF)作為SVM 模型中的參數[13]。
從每類圖像中隨機挑選出25幅作為訓練圖像,同時隨機挑選出(N=10, 15, 20,25,30,35)幅作為測試圖像(即待分類圖像)。為了驗證BoW模型的有效性,在相同實驗條件下,分別使用SIFT特征、SURF特征和GP-SURF特征作為輸入,帶入模型中進行訓練和分類,實驗結果如表1所示。圖5為3種特征對于各類圖像的分類準確率的統計結果,圖6為3種特征在不同數量測試圖像下的分類準確率統計。

表1 基于不同特征算法的圖像分類結果

圖5 3種特征對于各類圖像的分類準確率統計

圖6 3種特征在不同測試圖像數目下的分類準確率對比
由圖5和圖6可見,本文算法比SIFT特征和SURF特征在不同情況下,圖像分類準確率都有明顯提高。
在SURF特征的基礎上,結合SIFT特征的優點,提出了一種改進的SURF特征(GP-SURF),并結合BoW模型,實現了一種改進的圖像分類算法。通過刑偵現勘圖像數據庫,與SIFT特征和SURF特征算法進行對比實驗,結果表明,改進算法分類準確率有明顯提高。
[1] SCHETTINI C,BRAMBILLAR D,VALSASNA A. Content-based image classification[J/OL]. Proc Spie, 1999, 23(5): 28-33[2016-07-01]. http://adsabs.harvard.edu/abs/1999SPIE.3964...28S.DOI:10.1117/12.373464.
[2] LOWE D G. Object recognition from local scale-invariant features[C/OL]// The Proceedings of the Seventh IEEE International Conference on Computer Vision, Greece Corful:IEEE, 1999:1150-1157[2016-07-01]. http://dx.doi.org/10.1109/ICCV.1999.790410.
[3] LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints[J/OL]. International Journal of Computer Vision, 2004, 60(2): 91-110[2016-07-01].http://www.springerlink.com/content/h4l02691327px768.DOI:10.1023/B:VISI.0000029664.99615.94.
[4] BAY H,TUYTELAARS T,GOOL L V. SURF: Speeded Up Robust Features[J/OL]. Computer Vision & Image Understanding,2006,110(3):404-417 [2016-07-01].http://dx.doi.org/10.1007/11744023_32.
[5] 陳凱, 肖國強, 潘珍,等. 單尺度詞袋模型圖像分類方法[J/OL]. 計算機應用研究, 2011, 28(10): 3986-3988[2016-07-01].http://dx.chinadoi.cn/10.3969/j.issn.1001-3695.2011.10.106.
[6] WANG C,HUANG K Q. How to use Bag-of-Words model better for image classification[J/OL]. Image and Vision Computing, 2015, 38(C): 65-74[2016-07-01].http://dx.doi.org/10.1016/j.imavis.2014.10.013.
[7] ELSHOURBAGY M, HEMAYED E,FAYEK M . Enhanced bag of words using multilevel k-means for human activity recognition[J/OL]. Egyptian Informatics Journal, 2016, 17(2): 227-237[2016-07-01].http://dx.doi.org/10.1016/j.eij.2015.11.002.
[8] JIANG F, HU H M, ZHENG J,et al. A hierarchal BoW for image retrieval by enhancing feature salience[J/OL]. Neurocomputing, 2016, 175(PA): 146-154[2016-07-01].http://dx.doi.org/10.1016/j.neucom.2015.10.044.
[9] PENG X J, WWANG L M, WANG X X,et al. Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice[J/OL]. Computer Vision and Image Understanding, 2016, 150(1): 109-125[2016-07-01].http://dx.doi.org/10.1016/j.cviu.2016.03.013.
[10] 朱玉全,楊鶴標,孫蕾. 數據挖掘技術[M]. 南京:東南大學出版社, 2006:56-59.
[11] CHANG C C,LIN C J. A library for support vector machines[M].New York USA :ACM Transactions on Intelligent Systems and Technology, 2011:101-106.
[12] CORTES C,VAPNIK V. Support-Vector Networks[J/OL]. Machine Learning, 1995, 20(3): 125-128[2016-07-01].http://dx.doi.org/10.1007/BF00994018.
[13] BASTANLAR Y ,TEMIZEL A ,YARDMC Y. Improved SIFT matching for image pairs with scale difference[J/OL]. Electronics Letters, 2010, 46(5): 107-108[2016-07-01]. http://ieeexplore.ieee.org/stamp.jsp?arnumber=5426976. DOI: 10.1049/el.2010.2548.
[責任編輯:祝劍]
An improved criminal scene investigation image classification algorithm
BAI Xiaojun1, SHI Tianyi1, LIU Ying2
(1.School of Computer Science and Engineering, Xi’an Technological University, Xi’an 710016, China;2.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunication, Xi’an 710121, China)
An improved criminal scene investigation image classification algorithm is proposed to improve the low performance of SURF feature on scale change and rotation. In this algorithm, the Gaussian pyramid is adopted to mimic human being’s watching from the close to distant while keeping the scale invariance, and then the GP-SURF features are extracted from images. These images are described using Bag of Words (BoW) model, then the classifier is obtained by training of SVM. Finally, the classifier is deployed to classify the new images. Testing results show that the accuracy of image classification and its validity are both greatly improved.
SURF, Gaussian pyramid, bag of words (BoW) model, image classification
10.13682/j.issn.2095-6533.2016.06.005
2016-09-21
陜西省自然科學基金資助項目(2015JM6350);陜西省教育廳專項科研計劃資助項目(14JK1680)
白小軍(1971-),男,碩士,副教授,從事物聯網與大數據處理研究。E-mail:bxjem@163.com 史天意(1991-),男,碩士研究生,研究方向為圖像處理與模式識別。E-mail:419493449@qq.com
TP391.41
A
2095-6533(2016)06-0024-05