劉 穎, 黃 源, 高梓銘
(西安郵電大學 通信與信息工程學院, 陜西 西安 710121)
刑偵圖像檢索中的特征提取及相似性度量
劉 穎, 黃 源, 高梓銘
(西安郵電大學 通信與信息工程學院, 陜西 西安 710121)
為分析比較基于內容的圖像檢索(content-based image retrieval, CBIR)系統中各環節算法在應用于刑偵現勘(criminal scenes investigation, CSI)圖像數據庫時的有效性,在CBIR系統中,使用顏色特征-HSV直方圖、紋理特征-三層小波分解統計特征和顏色紋理的融合特征作為特征提取算法,以歐氏距離和街區距離作為相似性度量分別在CSI圖庫中進行仿真測試。在COREL圖庫中進行類似測試,并以查準率作為有效性的衡量標準進行對比。結果顯示, 在CSI庫中,使用顏色特征有相對高的查準率,但CSI庫的平均查準率均低于COREL庫,此外使用街區距離可獲得較高的查準率,這表明,因CSI數據場景復雜及目標多有損毀,現有圖像特征提取算法有效性低,而作為相似性度量算法,街區距離相較于歐氏距離能更好地表示CSI圖像間的相似性。
現勘圖像檢索;圖像特征提取;圖像相似度度量
刑偵圖庫有兩個重要的實際應用:鑒別和識別[1]。識別是為了從有限的幾個人物生物數據中找到一個特定的人物。鑒別是指鑒別痕跡、標記人物和目標物體的圖片[2]。
目前有海量的刑偵圖像資料需要進行識別處理,但使用人工查找相關圖片效率低且具有主觀性,因此急需找到適用于刑偵圖像的檢索系統。
基于內容的圖像檢索CBIR(Content-Based Image Retrieval),是當前多媒體檢索中應用最廣泛的一種[3]。它利用圖像本身的特征作為索引,克服了基于人工標注的檢索系統的缺點[4]。近年來發展出的常見的典型的CBIR系統包括IBM公司的QBIC系統,美國哥倫比亞大學開發的圖像檢索系統VisualSeek和WebSeek,以及Photobook, VIMSYS, CORE等系統。國內目前尚無針對刑偵圖像檢索的研究,國外針對刑偵圖像檢索有一些研究[5-6],但多是關于刑偵圖像中某一類圖像的檢索配準,如指紋,鞋印,面部識別等,使用多類別的刑偵圖像庫進行圖像檢索系統研究還沒有。
本文將針對刑偵圖像檢索系統,利用不同圖像特征算法,或不同相似性度量算法,通過實驗進行檢索效果的比較研究。
1.1 圖像特征
在CBIR系統中(圖1),常用的圖像檢索特征有顏色特征、紋理特征、形狀特征以及空間特征,其中顏色特征是應用最廣泛的視覺特征[7]。

圖1 基于內容的檢索系統
顏色特征是一種全局特征,是基于像素點的特征。由于顏色對圖像方向、大小等變化不敏感,不能很好地捕捉局部特征。顏色直方圖是最常用的表達顏色特征的方法,優點在于具有旋轉、平移及尺度不變的特點,故魯棒性好,但缺乏空間信息。紋理特征也是一種全局特征,描述了圖像或圖像區域所對應景物的表面性質。與顏色特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區域中進行統計計算,且具有旋轉不變性,對于噪聲有較強的抵抗能力。缺點是當圖像的分辨率變化的時候,所計算出來的紋理可能會有較大偏差。由于紋理只是一種物體表面的特性,故僅利用紋理特征無法準確表達圖像的高層語義。將顏色特征與紋理特征進行融合作為檢索依據,是希望結合這兩種特征的諸多優點,取得更好的檢索結果。
1.2 相似性度量
在模式識別、計算機視覺等領域,都會涉及到相似性度量的問題,用來衡量不同對象x(x1,x2,…,xn)和y(y1,y2,…,yn)之間的相似性或差異性。關于相似性度量算法有很多,常見的列舉如下。
(1)歐氏距離(Euclidean Distance)

這相當于多維空間中的兩點距離,優點在于簡便,應用廣泛,缺點是沒有充分考慮分量之間的相關性體現單一分量的多個特征時會干擾結果[8-9]。
(2)街區距離或曼哈頓距離(city block distance or Manhattan distance)

(3)切比雪夫距離(Chebyshev Distance)

(4)標準化歐氏距離(standardized Euclidean distance)

其中sk為樣本的標準差。這是對歐氏距離的一種改進方法,由于數據分布不同,這里先標準化到均值方差相等。
(5)夾角余弦

夾角余弦越大表示兩個向量的夾角越小,夾角余弦越小表示兩向量的夾角越大。當兩個向量方向重合時夾角余弦取最大值1,當兩個向量的方向完全相反夾角余弦取最小值-1。
還有很多的相似性度量方法,這里就不一一列舉了。
雖然現在已經提出了很多圖像特征提取算法和檢索圖像的方法,但是很多算法系統都是在較為標準的圖庫中進行測試的,如果應用到實際情況或是一些特殊的行業圖像檢索中會有一些不同的地方,因此需要立足現狀,針對刑偵圖像這一類特殊的圖像進行檢索系統研究。
圖像檢索系統的流程如圖2所示。在使用不同特征提取方式的前提下,比較不同相似性度量算法,對檢索結果的影響,選出優者。

圖2 圖像檢索系統流程
2.1 顏色特征
人們獲得的圖像顏色信息通常都用RGB值表示,但是RGB顏色空間與人類視覺感知的差異很大。HSV顏色空間是一種面向視覺感知的顏色模型,即代表著:色調,飽和度和亮度這3個要點。現利用HSV顏色空間的直方圖作為代表圖像的顏色特征。
首先,將讀取的圖像由RGB空間轉為HSV空間,即取
M=max{R,G,B},
(1)
m=min{R,G,B},
(2)
C=M-m,
(3)
H=60 ×H′,
(4)
(5)
V=M。
(6)
其次,將得到的H,S,V非等間隔量化,分別量化為16級,4級,4級,得到



最后,根據上面的量化級把各顏色分量合為一維的特征向量
L(i,j)=H(i,j)×16+S(i,j)×4+V(i,j),
(7)
根據L即可得到HSV空間域的顏色直方圖。
2.2 紋理特征
在實踐中,二維小波分解實際上是給圖像添加一個可分離的濾波器組
An=[HX*[Hy*An1]↓2,1]↓1,2,
DH=[HX*[Gy*An1]↓2,1]↓1,2,
DV=[Gy*[Hy*An1]↓2,1]↓1,2,
DD=[GX*[Gy*An1]↓2,1]↓1,2,
(8)
其中“*”代表的是卷積算子,“↓2,1”(或“↓1,2”)代表沿行(或列)下采樣,A0=I是原圖,H,G分別是低通和高通濾波器。An是根據低通濾波器獲得的,在n尺度下的低分辨率圖像。DH,DV,DD由通過濾波器組特定的方向所獲得,分別為水平方向,垂直方向和對角線方向,由此得到包含方向細節信息的n尺度下的高頻信息。這時,就使用一系列的子圖來表示原圖I。這樣的分解被稱為金字塔小波變換(Pyramidalwavelettransform,PVT)或離散小波分解(DiscreteWaveletTransform,DWT)。每個子圖包含原圖中的一個特定尺度和方向的信息。原圖中的空間信息也被保存下來了[10-11]。再獲得了各層小波分解的An,DH,DV,DD系數以后,分別計算他們均值和方差作為特征量。使用三層小波分解,即可得到一個20維的特征向量。
2.3 相似性度量選擇
選用歐氏距離和街區距離或曼哈頓距離分別在圖像檢索系統中測試比較。
實驗使用的刑偵圖像庫,是在陜西省公安廳刑偵局的幫助下,于2012年11月獲得的真實案件中的現場勘查圖像。經過一定的整理分類后構建的刑偵圖像庫。不同于其他數據庫的建立,實驗測試所用的圖像數據庫均為實際案件中的現勘圖片。由于有關規定,這些圖片不能公開,僅用于研究用。后面所展示的圖片均為對原刑偵圖像有所改動。使用的刑偵圖庫目前共分了8個類別,分別為車輛、道路、建筑、門、手印痕跡、血跡、足印、作案工具。每個類別50幅圖片,共400幅。對比使用的Corel圖集也選用了8個類別,每個類別100幅,共800幅圖片,分別為非洲人、建筑、公交車、恐龍、大象、花、馬群、美食。各類圖片的示例如圖3所示。

圖3 各類圖片示例
通常使用查全率和查準率作為衡量檢索系統好壞的標準。按實驗方法所得查全率如表1和表2所示,其中表1是使用歐氏距離作為相似性度量的結果,表2是使用街區距離作為相似性度量的結果。

表1 各類平均查全率(歐氏距離)

表2 各類平均查全率(街區距離)
通過比較以上兩表的數據可以發現,使用街區距離作為相似性度量使得每類的平均查全率都有所提高,尤其是“道路”和“血跡”這兩類,有顯著提高。
圖4至圖9顯示了使用不同的特征,相似度度量,分別在刑偵圖庫和Corel圖庫中的查準率比較,圖中縱軸為查準率,橫軸為圖片數量。使用街區距離作為相似度度量表現出明顯的優勢。

圖4 在刑偵圖庫中使用顏色特征

圖5 在刑偵圖庫中使用顏色紋理融合特征

圖6 在刑偵圖庫中使用紋理融合特征

圖7 在Corel圖庫中使用顏色融合特征

圖8 在Corel圖庫中使用紋理融合特征
圖4,圖5和圖6是使用不同的特征與相似性度量方法在刑偵圖庫中進行檢索的平均查準率結果比較。可以發現三種特征中,使用顏色特征進行檢索的查準率相對高一些,而是用融合特征的檢索正確率反而更低一些,這其中的原因還有待探究,但是,不論使用哪一種特征進行檢索,使用街區距離做為相似性度量的查準率都要高于傳統的歐氏距離。
圖7,圖8和圖9是使用同樣的算法在Corel圖集進行圖像檢索的平均查準率結果比較。可發現,使用街區距離作為相似性度量算法的效果要優于使用傳統的歐氏距離,并且,同樣的算法在Corel這樣的標準圖庫中的檢索效果明顯要優于在刑偵圖庫中的結果。
由實驗可知:(1)由于刑偵圖庫的自身特點,在第一部分中有所描述,那些常見的,適用于標準圖庫的圖像特征在刑偵圖庫中作為檢索特征,效果并不理想。這里刑偵圖庫需要使用更具有針對性的特征作為檢索依據。(2)與常用的歐氏距離相比,街區距離在基于內容的檢索系統中顯示出更好的表現,不論是在刑偵圖庫還是Corel圖庫中。
例如使用145號圖片(圖10),比較檢索結果。在特征提取部分,分別使用的顏色特征,紋理特征和顏色紋理的融合特征。在相似性度量部分分別使用歐氏距離和街區距離作為相似性度量。圖11至圖14是檢索系統返回的十幅相關圖片中相關圖片數量的結果。與145號圖片相關的應為標號是101至150的圖片。

圖10 145號圖片

圖11 使用顏色特征,歐氏距離,10幅圖中7幅相關

圖12 使用顏色特征,街區距離,10幅圖中8幅相關

圖13 使用紋理特征,歐氏距離,10幅圖中3幅相關

圖14 使用紋理特征,街區距離,10幅圖中5幅相關
與標準圖庫Corel中得到的檢索結果相比,常見的圖像特征提取算法在刑偵圖像檢索中效果并不理想。分析發現,刑偵圖庫圖片中目標殘損;一些圖片背景復雜,存在多目標存在的情況;圖像中的目標物體不突出,所占面積過小,這些原因導致了檢索結果的不理想。考慮需要設計更有針對性的特征作為檢索依據。
在檢索結果比較中,使用街區距離作為相似性度量算法顯示出優于歐氏距離的特點,并且在使用不同特征提取算法時均是如此,不論是在刑偵圖庫還是Corel圖庫中,這說明,使用街區距離在刑偵圖庫乃至標準圖庫中的優勢是明顯的,值得關注。
未來將致力于改進現有算法,設計更加適合刑偵圖庫的圖像特征提取算法,以進一步提高刑偵圖像檢索系統的準確率。
[1] Sarathy Y P, Mote V R, Lonikar A A. Pattern Recognition and Image Processing in Forensic Science[J]. Soft Computing, 2005,9(1):207-213.
[2] Gonzalez R C, Woods R E, Eddins S L. Digital image processing using MATLAB[M]. India: Pearson Education India, 2004:489-492.
[3] Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys (CSUR), 2008, 40(2): 1-60.
[4] Liu Ying, Zhang Dengshen, Lu Guojun, et al. A survey of content-based image retrieval with high-level semantics[J]. Pattern Recognition, 2007, 40(1): 262-282.
[5] Chen Yixin, Roussev V, Richard G, et al. Content-based image retrieval for digital forensics[M]. America: Springer, 2005: 271-282.
[6] Jain A K, Klare B, Park U. Face matching and retrieval in forensics applications[J]. IEEE Multimedia, 2012, 19(1): 20.
[7] Ma Zongfang, Chen Yongmei, Pan Quan. Research on color-based image retrieval and implement of the system[C]//International conference on computer and electrical engineering. Thailand:IEEE, 2008:116-118.
[8] 齊敏,李大健,郝重陽. 模式識別導論[M]. 北京:清華大學出版社, 2009:14-15.
[9] Cha S H. Comprehensive survey on distance/similarity measures between probability density functions[J]. International journal of mathematical models and methods in applied sciences, 2007, 1(2): 299-306.
[10] Hiremath P S, Shivashankar S. Wavelet based features for texture classification[J]. ICGST International Journal on Graphics, Vision and Image Processing (GVIP) ICGST, 2006, 6(3): 55-58.
[11] Hiremath P S, Shivashankar S, Pujari J. Wavelet based features for color texture classification with application to CBIR[J]. International Journal of Computer Science and Network Security, 2006, 6(9A): 124-133.
[責任編輯:瑞金]
Feature extraction and similarity measure for crime scene investigation image retrieval
LIU Ying, HUANG Yuan, GAO Ziming
(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)
In order to analyze the effectiveness of the existing content-based image retrieval (CBIR) algorithms when applied to crime scene investigation (CSI) image database, different image features are tested including color feature (the histogram of the HSV space), texture feature (the statistic feature of three layer wavelet decomposition), and the fusion of the color feature and texture feature. In addition, Euclidean distance and city block distance are used as the similarity measures. Using precision as the effectiveness evaluation, same methods are also tested on COREL database as comparison. Experimental results show that, in CSI database, color feature can provide higher precision than the other features. However, the average precision on CSI database is lower than that on COREL. Results also show that city block distance leads to higher retrieval precision. It can be concluded that, due to the complex background and often damaged targets in CSI images, the existing CBIR algorithms display low efficiency on CSI image database; and that for CSI image similarity measure, city block distance works better than Euclidean distance.
crime scene investigation image retrieval, image feature extraction, image similarity measure
10.13682/j.issn.2095-6533.2014.06.003
2014-06-03
國家自然科學基金青年基金資助項目(61202183);陜西省國際科技合作計劃基金資助項目(2013KW04-05);陜西省教育廳科學研究計劃資助項目(12JK0504);西安郵電大學校青年教師科研基金資助項目(ZI2014-09)
劉穎(1972-),女,博士,高級工程師,從事數字圖像處理研究。E-mail:ly_yolanda@sina.com 黃源(1988-),女,碩士研究生,研究方向為信號與信息處理。E-mail:421864750@qq.con
TN911.7
A
2095-6533(2014)06-0011-06