徐功文 廖明海 王曉燕 許春秀 許麗娜

摘 要:面對圖片的數量與種類快速的增長,如何有效的組織和處理大量的圖片信息并從其中檢索出用戶需要的信息成為一個重要的問題。圖像檢索技術是解決此類問題的核心技術。為了能夠有效的標注和檢索圖像,提出了一種基于區域匹配的圖像自動標注方法,實驗證明,該方法能夠有效的對圖像進行標注。
關鍵詞:圖像分割;特征提??;自動標注;相似度
中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)03-
Automatic Image Annotation based on Region Similarity
XU Gongwen1, LIAO Minghai1, WANG Xiaoyan1, XU Chunxiu1,XU Lina2
(1 School of Computer Science and Technology, Shandong Xiehe College, Jinan 250107, China;
2 School of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101,China)
Abstract:Face to the number and category of images growing rapidly, how to organize and processed large amounts of images information effectively and retrieved the useful information which user need become an important problem. Image retrieval technology is the core technology to solve such problems. For effective annotation and retrieval of images, an image annotation method based on the region matching is proposed. The experimental results show that this tagging pictures method is effective.
Keywords: Image Segmentation; Features Extraction; Automatic Annotation; Similarity
0引 言
隨著計算機與網絡的發展以及相機等數碼產品的普及,圖像的種類和數量也在飛速的增加[1]。如何能夠有效的組織和處理大量的圖片信息并從其中檢索出用戶需要的圖片成為一個重要的問題。多媒體信息檢索技術[2]是解決此類問題的核心技術。在多媒體信息檢索技術當中,圖像檢索技術根據檢索方法的不同可以分為兩類:一種是基于文本的圖像檢索技術[3],另外一種是基于內容的圖像檢索技術[4]。基于文本的圖像檢索技術通過利用人工標注的關鍵詞表示圖像,把圖像檢索轉化為相關關鍵詞的查詢與匹配?;谖谋镜膱D像檢索技術的優點是方便,檢索速度快,用戶只需要輸入相關的關鍵詞就可以查詢并得到相關的結果。但是基于文本的圖像檢索技術需要人工對圖像標注關鍵詞,工作量大?;趦热莸膱D像檢索技術依賴于圖像的視覺內容,譬如圖像的顏色、紋理和形狀等。通過測量圖像視覺內容的相似度檢索圖像。由于圖像視覺內容特征的提取與匹配可以由計算機自動完成,因此基于內容的圖像檢索技術得到了廣泛的研究與應用。
雖然基于內容的圖像檢索技術取得了很多的研究成果,但是由于基于內容的圖像檢索技術由于存在語義鴻溝[9],即低層視覺特征,這些特征有形狀、顏色、紋理,而其對用戶的查詢做不到完全的反映和匹配,如何完美地實現基于語義的圖像檢索仍是一個問題。由于用戶更習慣于用文字來表達查詢需求,并且現有的互聯網搜索引擎提供基于文本的圖像檢索,但是人工標注又是一項相當費時費力的工作, 由此催生了自動圖像標注技術的發展[10]。
基于區域的圖像檢索技術(Region-based image retrieval technology) [5-8]通過圖像分割技術將一幅圖像分割為若干個同質區域(Homogenous Region),由于每個同質區域的語義相對比較單一,因此能夠準確地描述圖像的語義內容。其次在每一個區域使用局部的特征來描述,綜合每個區域的特征對圖像自動標注。然后基于固定的相似性度量標準,完成圖像的檢索。
在這篇論文中,提出了一種基于區域匹配的圖像標注方法。首先,通過N-Cut方法把圖像分割成若干個同質區域,然后用k-means方法對分割后的區域進行聚類。在每一類中,選擇具有代表性的若干區域,對其進行人工標注關鍵詞。最后用所選擇區域的顏色特征和紋理特征的平均值數值化關鍵詞。對于測試圖片,計算分割后區域的顏色特征和紋理特征的值。如果區域的特征值與關鍵詞的距離小于一定的閾值,就用這個關鍵詞標注圖像。
1圖像特征提取與表達
早期的基于內容的圖像檢索技術,通常用全局特征表示圖像。由于全局特征表示圖像存在不足,一些研究提出了區域特征、局部特征等。圖像區域的選擇可以分為三種:固定劃分法、分割法以及顯著點法。固定劃分法使用統一的方法分割圖像,不考慮圖像的視覺內容差異。Monay和Gatica-Perez提出一種方法,這種方法把每幅圖像分割成三個固定的區域,即圖像的上半部分、中心以及下半部分[11]。文獻[12-13]提出了一種更簡單的方法,每一幅圖像被平均分為相同大的矩形區域,即圖像柵格化劃分。
分割方法的目的是把圖像分割成若干個同質區域,每一個區域對應于一個對象。研究人員已經提出了很多知名的分割算法,其中,N-Cut算法[14]和JSEG算法[15]是具有代表性的分割算法。
特征提取的主要任務是提取能夠表示圖像可視內容的特征信息。在本論文中,主要提取了圖像的顏色特征和紋理特征,并通過一定的算法得到圖像的顏色特征值和紋理特征值。
1.1顏色特征
由于圖像中包含大量的顏色信息,顏色特征的提取方法簡單,因此,在圖像檢索和標注中通常使用顏色特征作為可視內容特征[16]。顏色信息可以在不同的空間中表示,其中最常見的空間為RGB顏色空間。RGB顏色空間是由紅色、綠色以及藍色三種基色組成,其他顏色都可以由這三種基色線性表示。在三維空間中,三個坐標軸分別表示紅色、綠色以及藍色,如圖1所示。
圖1 RGB顏色空間
Fig.1 RGB Color Space
在圖1中,坐標原點表示黑色,與原點距離最遠的定點表示白色。圖1中三個坐標軸分別表示三種基本顏色:紅色、綠色以及藍色。剩余的三個頂點對應于三個互補色: 品紅色,藍綠色和黃色. 其余各點對應的顏色可以用該點到原點的向量來表示。
除了 RGB 之外,HSV[17]也是常見的描述顏色特征的顏色空間。由于HSV顏色空間為視覺感知的顏色空間,所以本文中使用HSV顏色空間。HSV顏色空間由色調、飽和度和亮度組成。由RGB顏色空間轉換成HSV顏色空間的方法如下:
(1)
(2)
(3)
其中,R, G, B ∈ [0, 1255], H ∈ [0, 1360], S, V ∈ [0,1]。
由于轉換后的HSV顏色值維度過高,因此需要對轉換后的HSV顏色值實施量化。本論文中,將色調分為八份,飽和度以及亮度分為三份,量化過程如下:
(4)
(5)
(6)
通過量化,可以得到圖像的顏色特征值。
1.2 紋理特征
紋理是由物理性質,如物體的表面的粗糙度決定。人們可以很容易地看出不同的紋理,因此可以通過紋理得到視覺信息[18-19]。并且紋理也是一種非常重要的可視內容特征。灰度共生矩陣通過提供圖像的變化幅度、間隔、灰度方向等,能夠用于計算圖像對應的特征值,圖像的紋理特征可以通過這些特征值來表達,所以該文采用灰度共生矩陣方法來完成紋理特征的提取[11]。在文獻 [11]里面,總共涉及到十四種紋理特征的參數,在這些參數里面,選取局部平穩參數、慣性矩參數、角二階矩參數和熵參數等四種表達能力比較強的參數。
2關鍵詞的數值化
在第1節中,提到了兩種代表性的圖像分割算法N-Cut 和 JSEG,本文中將使用N-Cut算法分割圖像,每個圖像被劃分成多個互不重疊的區域。分割過程如下:
在基于圖論的圖像分割方法中,一幅圖像被看成無向加權圖,G = {V, E, W },其中V表示節點集,在圖像中像素表示節點。E表示兩兩節點之間的連線。Wij表示節點之間的權重。權重可以通過計算像素、亮度或者其他信息之間的距離得到。例如,一幅圖像分割成兩部分A和B:A ∪ B = V, A ∩ B = ?,兩個子集之間的相似度由以下公式計算:
(7)
Shi 和Malikt提出了NormalizedCut描述兩類間的分離度,并且可以得到一個N-cut值作為測量標準:
(8)
其中,assoc(A, V )表示節點A與其他所有節點權重的和。最佳分割方法是最小化以下目標函數:
(9)
通過k-means方法對分割后的區域進行聚類,在每一類中,選擇具有代表性的若干區域,對其進行人工標注關鍵詞。標注后用所選擇區域的顏色特征和紋理特征的平均值數值化關鍵詞。把所標注的關鍵詞作為種子集。對于測試圖片,則需計算分割后區域的顏色特征和紋理特征的值。如果測試圖像分割后的區域特征值與關鍵詞的距離小于一定的閾值,就用這個關鍵詞標注測試圖像。
3實驗結果與分析
在本節中將介紹數據集以及在數據集上所做的實驗,通過分析實驗結果說明本論文的方法的有效性。
3.1數據集
本節中實驗以及得到的結果所使用的數據集為Corel圖像庫。該圖像庫中包含10類圖像集,分別為建筑,花,人,馬,大象,海洋,恐龍,車,食物以及山。每類圖像集中有100幅圖像,選取每個類中的70幅圖像作為訓練集。每一幅圖像通過圖像分割算法被分為三部分,然后利用k-means算法對分割后的區域聚類。選擇每一類中具有代表性的區域進行人工標注。剩下的300幅圖像作為測試集。
3.2 測量標準
用查全率、查準率和 值來度量實驗結果的性能。在測試集中,包含關鍵詞 的圖像數目用 表示。通過標注模型的應用,標注結果里面含有關鍵詞 的圖像有 個,其中 表示其中正確的數目。
查全率Recall表示被正確提取的信息的比例,計算公式為:
(10)
查準率Precision表示查詢的精確度,計算公式為:
(11)
是查全率和查準率的調和平均,表示整體的性能,其計算公式為:
(12)
3.3 實驗結果分析
當用特征值數值化關鍵詞時,使用了三種方法:第一種方法是只使用顏色特征數值化關鍵詞;第二種方法是只使用紋理特征數值化關鍵詞;第三種方法是使用顏色特征值和紋理特征值數值化關鍵詞。實驗結果如表1所示。
表1 數值化關鍵詞的不同方法
Tab.1 Different methods of numerical keywords
查全率 查準率 F1
只用顏色特征 0.379 0.339 0.358
只用紋理特征 0.356 0.317 0.336
同時使用顏色和紋理特征 0.494 0.467 0.479
由表1可知,當只使用顏色特征數值化關鍵詞時,查全率為0.379, 查準率為0.339,F1值為 0.358;當只使用紋理特征數值化關鍵詞時,查全率為0.356, 查準率為0.317,F1值為0.336;當同時使用顏色特征值和紋理特征值數值化關鍵詞時,查全率為0.494, 查準率為0.467,F1值為 0.479。實驗結果顯示,結合顏色特征值和紋理特征值更能夠有效的自動標注圖像。
當計算區域的特征值與關鍵詞的距離時,如果區域的特征值與關鍵詞的距離小于一定的閾值,就用這個關鍵詞標注圖像。實驗結果與閾值的選擇的關系如圖2所示。
圖2實驗結果與閾值的選擇的關系
Fig.2 Relationship between the experimental results and the choice of threshold
在圖2中,可以看出,選擇的閾值越小,查準率的值越大,查全率的值越小。當閾值選擇為0.4時,圖像自動標注的實驗效果最好,查全率為0.468, 查準率為0.556,F1值為 0.507。
圖3為本文所提出方法的部分實驗結果。
圖3部分圖像標注結果
Fig.3 The annotation results of part images
在圖3中,設置一個閾值完成標注任務,圖3(a)第一幅圖像只有兩個關鍵詞海洋、沙灘符合條件,所以只有兩個標注詞;圖3(b)和圖3(c)都有三個標注詞符合條件;而圖3(d)圖中,由于道路的特征值跟沙灘相近,所以錯誤地將圖中的道路標注為沙灘。
4結束語
在這篇論文中,提出了一種基于區域匹配的圖像標注方法。首選,通過N-Cut方法把圖像分割成若干個同質區域,然后用k-means方法對分割后的區域進行聚類。在每一類中,選擇具有代表性的若干區域,對其進行人工標注關鍵詞。最后用所選擇區域的顏色特征和紋理特征的平均值數值化關鍵詞。對于測試圖片,計算分割后區域的顏色特征和紋理特征的值。如果區域的特征值與關鍵詞的距離小于一定的閾值,就用這個關鍵詞標注圖像。實驗結果顯示,該方法能夠有效地對圖像實現自動標注。
參考文獻:
[1] Gantz J F, Reinsel D, Chute C, et al. An IDC White Paper: The expanding digital universe Technical report–A Forecast of Worldwide Information Growth Through 2010 International Data Corporation (IDC)[R]. Massachusetts:IDC ,2007.
[2] Bing L. Web data mining: Exploring hyperlinks, contents, and usage data[M]. Berlin, Heidelberg:Springer-Verlag, 2007.
[3] TMURA H, YOKOYA N. Image systems: A survey[J]. Pattern Recognition,1984,17(1):29-43.
[4] KATO T. Database architecture for content-based image retrieval[C] //Proc. Of SPIE Int. Conf.
on Image Storage and Retrieval System, San Jose: SPIE, May.1992:112-123.
[5] KO B C, BYUN H. Frip: a region-based image retrieval tool using automatic image segmentation and stepwise Boolean and matching[J].IEEE Trans. On multimedia, 2005,7:105-113.
[6] LIU Y, ZHANG D, LU G. Region-based image retrieval with high-level semantics using decision treelearning [J]. Pattern Recognition, 2008,41(8):2554-2570.
[7] CHEN Y, WANG J Z. A region-based fuzzy feature matching approach to content-based image
retrieval [J].IEEE Trans. On Pattern Analysis and Machine Intellience. 2002,24(9):1252-1267.
[8] ZHANG R, ZHANG Z. Hidden semantic concept discovery in region based image retrieval [C]// Proc. of IEEE Computer Society Conference. On Computer Vision and Pattern Recognition,
Washington: IEEE,Jun.2004,2:996-1001.
[9] RITENDRA D, DHIRAJ J, JIA L, AND James Z W. Image Retrieval: Ideas, Influences, and Trends of the New Age [J]. ACM Computing Surveys, 2008, 40(2):1-60.
[10] JEON J, MANAMATHA R. Automatic image annotation of news images with large vocabularies andlow quality training data[C]// ACM Multimedia, New York:ACM, Oct.2004.
[11] MONAY F, GATICA-PEREZ D. On image auto-annotation with latent space models[C]// Proceedings of the eleventh ACM international conference on Multimedia, New York:ACM 2003:275-278.
[12] LAVRENKO V, MANMATHA R, JEON J. A model for learning the semantics of pictures[C]//SEBASTIAN T, LAWRENCE K S, BERNHARD S, eds. Proc. of the Neural Information Processing Systems, Vancouver:MIT Press, 2004:553-560.
[13] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]//Proc. of the IEEE Conf. Computer Vision and Pattern Recognition, Washington:IEEE,2004:1002-1009.
[14] YINING D, MANJUNATH B S, SHIN H. Color image segmentation[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York: IEEE, 1999:446-451.
[15] JIANBO S, JITENDRA M. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8):888-905.
[16] XIN Z, XIANBIN W , QINGXIA M. Research of image retrieval method based on color feature[J].Computer Science, 2012, 39 (11):243-260.
[17] JUAN W, BING K, QIAOLI J. Color-based image retrieval[J]. Computer System and Applications,2011,20(7):160-164.
[18] MIKOLAJCZYK K, CORDELIA S. A performance evaluation of local descriptors[J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630.
[19] KE Y, SUKTHANKAR R. PCA-SIFT: A more distinctive representation for local image descriptors[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Washington:IEEE, 2004:506-513.