(天津大學 計算機科學與技術學院,天津 300072)
摘 要:
分析了圖像檢索系統的研究現狀,指出了出現語義鴻溝的原因在于系統中缺乏對于實體相互關系的描述,提出了一個四層的圖像語義模型,并在此基礎上給出了基于常識庫和圖像實體庫的圖像描述和檢索模型。以圖像的顏色、紋理、形狀等特征來構造實體的描述信息,并以常識庫信息來分析圖像場景中的實體構成和關系,從而獲得對圖像語義信息的識別和理解。
關鍵詞:語義鴻溝; 圖像檢索系統; 常識庫; 實體庫
中圖分類號:TP309 文獻標志碼:A
文章編號:1001-3695(2009)02-0795-04
Image annotation and retrieval system based on common sense lib
YU Yong-xin, FENG Zhi-yong
(School of Computer Science Technology, Tianjin University, Tianjin 300072, China)
Abstract:This paper presented a review on image retrieval system, then pointed out the cause of semantic gap that lied in the absence of description of entity relationship. Introduced a four-layers image semantic model, then, image annotation and retrieval system based on common sense lib and image entity lib. Used the common sense information and entity information (color shape texture) to analyze the composing and relationship was put forth of entity in image, which would help us to obtain the recognizing and understanding of an image.
Key words:semantic gap; image retrieval system; common sense lib; entity lib
0 引言
隨著互聯網絡的飛速發展和計算機硬件性能的提升,越來越多的多媒體信息呈現在人們的面前,圖片、音頻、視頻等多媒體文件的數量呈幾何級數增加。如何在眾多的多媒體信息中找到自己需要的信息,即多媒體信息的檢索,成為人們迫切需要解決的問題,國內外有越來越多的學者將注意力放在此類問題上。
多媒體信息的檢索涉及到多媒體的管理、表述、理解直至最后檢索的眾多問題。研究方法經歷了基于文本的檢索,到基于多媒體低層特征的檢索,直到現在基于多媒體語義的檢索。基于多媒體低層特征的檢索主要是利用顏色、紋理、形狀等低層特征來進行檢索。例如:Suryani等人在文獻[1]中提出了SCH (spatial chromatic histogram)方法;Chao等人在文獻[2]中提出了基于局部空間關系和顏色直方圖的方法;George等人在文獻[3]中提出了基于顏色矩的方法。這些方法都力圖克服顏色直方圖不能表達圖像色彩空間信息的缺陷。紋理特征是檢索中另外一個常用的特征,常見方法有:基于小波變換的方法[4,5]、基于Gabor濾波器的方法[6]、GMM方法[7](gaussian mixture model)、功率普直方圖法[8](power spectral histograms)、基于分行學的方法[9]、基于數學形態學的方法等。在諸多方法中以Gabor濾波器方法和小波變換方法最為常見,而Gabor濾波器方法檢測效果最好。
形狀特征也是人們研究的一個方向,可以分為基于輪廓特征和基于區域特征兩類。Carlos等人在文獻[10]中使用了曲率尺度空間(curvature scale space)和自組織映射(self-organizing map)來實現圖像檢索; Zhang Deng-sheng等人在文獻[11]中提出了generic fourier descriptor方法來實現對圖像的形狀檢索; Li Yu-peng[12]使用改進的GFD方法實現了對于自然圖像集的檢索。
上述檢索方法中使用的是多媒體的低層特征,這些低層特征對于實現特定的檢索具有幫助作用,但難以表達多媒體的高層語義;然而實際中,用戶查詢的出發點往往卻是高層的語義和詞匯。因此如何解決低層特征和高層語義之間的語義鴻溝問題是亟待解決的一個熱點問題。
針對低層特征和高層語義之間的語義鴻溝問題,眾多學者采取了多種方法彌補這一鴻溝。Chen等人在文獻[13]中實現了基于區域的檢索系統。該系統采用了多實例學習的策略,框架內部使用one-class SVM支持向量機作為其內核。One-class SVM用于構建整幅圖像的非線性分布,并將積極區域和消極區域分割開來。每個被測區域均通過評估函數來給分,分數越高就接近于感興趣區域。分數最高的被作為查詢結果。該系統使用了LSI(latent semantic indexing)方法來進行檢索。LSI最初是作為數學/統計技術來用于文字發掘。它是一個新奇的信息檢索方法,由Deerwester等人發明。LSI無須對查詢場景進行精確的匹配,而是將一幅圖像當成一個文檔,查詢目標就是這個文檔中的一個詞匯而已,惟一的不同之處在于對于CBIR來說,查詢目標不是一個詞匯,而是一個多維特征向量。
在文獻[14]中,Zhang等人提出了一個新的框架:該框架使用關鍵詞語義網作為語義描述模型;使用了一個 outer linguistic ontology方法:用WordNet作為參考工具;將低層特征與語義網中的高層語義相結合,提供了一種計算相似性的方法。
Liu等人在文獻[15]中闡述了一個基于區域的語義檢索系統。該系統從絕對形狀的區域中獲取突出的低層特征,并應用fuzzy-ID3決策樹來決定低層特征到高層特征的映射。在文獻[16]中介紹了一個新的框架,通過用戶反饋日志來學習語義概念。在文獻[17,18]中Philippe和Matthieu使用內核矩陣來表述語義信息。內核矩陣根據檢索后用戶提供的標號來更新。在用戶對圖像進行標注之后(正面、反向示例),這樣的語義信息就可以集成在數據庫的相似性矩陣中。這個相似性矩陣在內核矩陣框架中被分析。
Maillot等人在文獻[19]中闡述了一個新的基于本體(ontology)的目標分類方法。該方法中一個很重要的部分就是可視的概念本體(concept ontology),它由三種概念組成,即空間概念、顏色概念和紋理概念。此處的可視化本體可以看做是領域知識與圖像處理過程之間的中間層。該方法由知識獲取階段、學習階段和分類階段三個階段組成。文獻[20]則實現了一個基于語義的網格系統,該系統由語義標注、RDF索引、RSISGRIDPortal、網絡預測和轉換五個節點組成。
文獻[21]將用戶日志運用到圖像搜索引擎中。在該系統中,可視特征和紋理描述符(初始時刻從圖像存在的網頁抽取,諸如URLs、文件名、網頁名稱、超鏈和周邊的文本等)被組合用于圖像檢索中。那些視覺和紋理特征建立了圖像的文檔空間模型。用戶的空間模型(它是用戶用于描述數據庫中圖像的關鍵詞向量)被相關性反饋的日志數據所構建,然后,使用文檔空間模型與用戶空間模型來消除網頁創建者的描述、用戶理解與期望之間的差異。
本文提出了圖像語義的分層模型,構建了圖像中實體的低層特征庫,對庫中的實體采用了顏色、紋理、形狀等特征來描述。對于實體的語義信息,采用OMCSNet常識庫作為圖像理解和推理的依據,從而達到對于圖像的有效語義理解,進而彌補語義鴻溝。
1 圖像語義的層次模型
在圖像處理中,邊緣提取、區域增長等方法被用來實現圖像分割,其對于圖像的理解和識別是至關重要的一步。一幅圖像帶給人的往往是一個豐富的語義信息:圖像當中往往有若干個實體對象,每個實體均有自己的色彩、紋理、形狀等特征,并且這些實體以一定的空間位置關系聯系在一起,這些實體可能具有一定的動作并產生一定的事件;而圖像所包含的實體和事件會對看這幅圖像的人產生一定的心理影響,并產生一定感情傾向。
基于以上事實,本文提出了一個如圖1所示的分層次的圖像語義模型。在該模型的最底層是圖像特征層:該層主要是由圖像的特征所組成(如顏色、紋理、形狀等)。第二層為圖像實體層:對于認識的主體,即人來說實體應該是可見的、具體的東西,也是圖像分割后應該產生的基本輸出結果。第三層為實體關系層:該層主要體現的是實體之間在時間和空間的關系以及動作行為的關系。第四層為圖像語義層:該層體現的是由實體關系層所體現的語義含義。
從當前研究的情況來看,圖像分割對于圖像中有意義的區域還存在著過分割或欠分割的問題,但分割過后的圖像低層特征提取技術已經相當成熟,且方法多樣。圖像檢索的語義鴻溝主要體現在對圖像語義模型的第三層,即實體之間的關系描述不夠,因此出現語義鴻溝。
針對這種情況,本文以實體庫和OMCSNet常識庫作為基礎來實現圖像的標注和描述系統。OMCSNet是MIT多媒體實驗室Liu hu-go等人開發的常識知識庫和自然語言處理工具集,相應的開發包版本有C++、Java、Python等版本,其最新版本為ConceptNet3.0,具有話題關聯、效應感知、語義歸納、上下文擴展等功能。OMCSNet已經被成功用于語言文字處理和語音識別等領域。本文利用構建的圖像實體庫,以OMCSNet知識庫實現對圖像的標注和描述。
2 系統框架和實現原理
如前所述,在圖像檢索系統中,圖像的低層特征與高層語義之間存在著語義鴻溝問題,該問題的出現主要是由于在圖像檢索和理解系統中缺乏對于圖像語義模型中第三層信息的必要描述,而本文所使用的OMCSNet的強大的常識信息提供功能以及所構建的圖像實體庫剛好可以彌補此不足。
系統框架如圖2所示。整個系統的功能模塊共分成三個大的功能模塊,即實體庫形成模塊、圖像標注和描述模塊及圖像檢索模塊。
2. 1 實體庫形成
本體庫形成模塊的主要功能是形成圖像中實體的特征描述。受Berkeley人工分割圖像庫[22]思想的啟發,筆者對于形成實體庫的圖像經過人工分割后,形成比較正確的圖像分割結果,然后使用相應的圖像處理算法來抽取圖像的顏色、紋理、形狀等低層特征。
對于顏色特征,主要計算圖像中實體的顏色均值和顏色矩[3]。對于同一實體可能會有不同的顏色,因此均值也不同。如圖3所示的兩幅圖像中,分別各有一匹馬,然而兩匹馬的顏色截然不同。因此顏色特征應該是一個多個顏色區域值的集合,并且對于不同的實體,其重要程度也不同。
形狀特征在描述物體中占有很重要的地位。在看不清物體細節的情況下,有時也能夠憑借物體外輪廓準確地認出物體。采用七個不變矩來描述圖像的形狀特征。不變矩函數[23]具有旋轉、尺度和平移不變性,因此被廣泛用來描述形狀特征的參數。
紋理特征是圖像實體另外一個非常重要的低層特征。對于圖4所示的草地、花卉等實體,其自身并沒有固定的外形,但紋理描述顯得尤為重要。對于紋理采用TAMURA紋理[24]的描述方式。TAMURA紋理共有六個分量。其中對比度、粗糙度和方向性是紋理描述中最為常用的紋理描述方式。使用這三個分量可以組合成一個三維空間,在這個三維空間中兩點之間的歐式距離與人對紋理感知的差距很接近。
2. 2 圖像標注和描述模塊
2. 2.1 圖像分割
從當前的技術層面來說,圖像處理已能實現顏色、紋理、形狀等低層次特征的提取工作,但對于圖像中有意義的實體區域的分割有時還不準確,因此本文采取了客戶參與的圖像分割過程。首先對圖像根據各向異性擴散原理作簡單平滑濾波,然后對于圖像作量化處理;接著開始區域增長的工作,并依據歸一化的混合距離(包含顏色距離和粗糙度距離)對各個子區域進行合并,直到達到合并停止條件。當機器所執行的自動分割停止后,接下來進行的是人工輔助的圖像子區域的合并過程。人工輔助的圖像合并過程,實際上也是人工對于圖形的一個識別過程。
圖像分割過后是對于圖像低層特征的提取工作,類似于前面所述,對于分割區域分別提取了顏色均值、TAMURA紋理的對比度、粗糙度和方向性,以及該區域的七個不變矩形狀特征。將這些圖像的低層特征作為對于該區域進行識別和標志的查詢數據,對于實體庫進行比對。
2. 2. 2 圖像實體解析
實體解析模塊的輸入數據主要有三個,即圖像分割區域的特征數據、圖像實體庫的比對數據以及OMCSNet的常識信息數據。圖像實體庫中存儲了實體的相關特征描述,該信息就是前面所述的七個不變矩形狀特征。但實際中由于具有相同實體特征的具體實體可能具有多個,對于同一個查詢值可能會有多個實體相對應。每一幅圖像也是一個特定的場景的體現,一幅圖像中會有若干個實體出現,這些實體之間在特定的空間時間上具有一定的關系,這就構成了特定的上下文。
基于這一事實,使用OMCSNet的常識信息來進行進一步識別。事實上,現實世界中的物體一般都是在一定的場合下出現的。例如太陽,在OMCSNet中查詢其上下文,可以得到如圖5所示的事實:溫暖地球;在白天發出光芒;在早晨升起;給地球熱量;幫助莊稼生長;在空中;在太陽系中央等。對于與太陽在形狀和顏色上很相近的金黃色的桔子,完全可以通過桔子與太陽所處的上下文環境不同來區分。當一個圓圓的金黃色的東西,究竟是桔子還是太陽難以確定時,最好的辦法就是求助于周邊環境:處于綠色的帶有一定紋理特征的背景中時,具有很大的可能性那是一個桔子;而當其處于一個藍色的背景時,應該是太陽。OMCSNet恰恰提供了一個這樣的知識庫,可以通過擴充OMCSNet對特定場景的知識信息,來增強對于特定場景的識別和語義標注的作用。
實體解析模塊工作的必要條件是實體庫的建立和對于OMCSNet進行進一步擴充,增加對于特定場景的常識信息。實體解析模塊的具體工作過程如下:
a)得到候選結果隊列。對于圖像分割后的每一個區域,根據該區域的顏色均值、紋理粗糙度、對比度、方向性和七個形狀不變矩在實體庫中查詢相應的候選結果。在實體庫的描述中根據不同特征對于該實體的判別作用以及對于該實體的判別的誤差容忍度,可能會有不止一個符合條件的實體,因此形成候選結果隊列。
b)得到圖像的實體構成。該過程可以理解為一個如圖6所示的求一條權值最大路徑過程。圖6中每一列是一個區域的候選解集合。該圖中的每一個節點代表一個候選解,不同列中的兩個節點之間具有直線相連接,意味著這兩個節點所代表的實體之間在OMCSNet中具有關聯,值的大小代表這兩個實體在這個特定上下文環境下關聯程度的強弱。因此圖像中所有實體區域應該是一個由若干特定實體所構成,并且相互之間關系經過OMCSNet推敲的合理構成和理解。所以力求以OMCSNet作為依據,求得對于圖像語義的最為合理化的理解。因此與其相對應的應該是一個從區域1到區域N中每個候選隊列選擇一個候選解,并且使其累加權值的和為最大的一個解。
c)形成對于圖像實體構成的描述。該描述是由圖像全體實體集合所構成,其對于圖像的語義描述和理解具有巨大的幫助作用。
2. 3 圖像檢索模塊
圖像檢索模式有兩種:a)為示例查詢。該方法主要是根據圖像的顏色特征及顏色分布、紋理、形狀等低層次特征作為查詢標準,該查詢方式只考慮到圖像的低層特征,沒有考慮圖像所包含的語義功能。b)語義查詢。其查詢過程如下:
(a)利用OMCSNet API計算查詢的一個或者若干個關鍵字的上下文的語義及關聯的圖像實體;
(b)根據語義及關聯的實體,查詢圖像庫;
(c)按照查詢時的匹配程度給出查詢結果。
3 今后的研究方向
繼續尋找對圖像中實體的更為有效的描述方法,充實實體庫中實體的數量、增強系統的對于圖像的語義描述和推理能力,改善對于圖像的查詢速度和語義匹配的精確程度,完成在Java語言下的各個模塊的有效集成。
致謝:
感謝MIT多媒體實驗室Liu Hu-go、Push Singh及Ian Eslick等人開發的OMCSNet及其相關的API對本文工作的大力幫助。
參考文獻:
[1]SURYANI L, GUOJUN L. Spatial statistics for content based image retrieval[C]//Proc of International Conference on Information Technology,Computers and Communications. Wasbington DC: IEEE Computer Society, 2003.
[2]HUANG Chao-bing, YU Sheng-sheng, ZHOU Jing-li, et al. Image retrieval using both color and local spatial feature histograms[C]//Proc of International Conference on Communications, Circuits and Systems. 2004:927-931.
[3]GEORGE P, IVAN R, NAGARAJAN P. Image content-based retrieval using chromaticity moments[J]. IEEE Trans on Knowledce and Engineering, 2003,15(5): 1069-1072.
[4]MANESH K. Texture image retrieval using new rotated complex wavelet filters[J]. IEEE Trans on systems man, and cybernetics-part B: Cybernetics, 2005,35(6): 1168 - 1178.
[5]PASSAWAN S, SUPAVADEE A, SUPAKORN S. Development of digital image retrieval technique using autocorrelogram and wavelet based texture[C]//Proc of the 47th IEEE International Midwest Sympcsium on Circuits and Systems. 2004:273-276.
[6]MANJUNATH B, WU P, NEWSAM S, et al. A texture descriptor for browsing and similarity retrieval[J]. Signal Processing: Image Communication, 2000,16 (1), 33-43.
[7]YUAN H, ZHANG X P, GUAN L. Content based image retrieval using a Gaussian mixture model in the wavelet domain[C]//Proc of SPIE Video Communications and Image Processing (VCIP) . Lugano:[s.n.], 2003:422-429.
[8]WANG C J, YANG Y B, LI W J, et al. Image texture representation and retrieval based on power spectral histograms[C]//Proc of the 16th IEEE International Conference on Tools with Artificial Intelligence. Washington DC: IEEE Computer Society, 2004:491-495.
[9]BALAN A G R, TRAINA A J M, TRINA C Jr. Fractal analysis of image textures for indexing and retrieval by content[C]//Proc of the 18th IEEE Symposium on Computer-based Medical Systems.Washing-ton DC IEEE Computer Society, 2005:581-586.
[10]De AIMELDA CWD, De SOUZA R M C R, CAVALCANTI JUNIOR N L. A shape-based image retrieval system using the curvature scale space(CSS) technique and the self-organizing map (SOM) model[C]//Proc of Hybrid Intelligent Systems, HIS’06.Washington DC: IEEE Computer Society, 2006.
[11]ZHANG Deng-sheng, GUO-Jun. Generic fourier descriptor for shape-based image retrieval[C]//Proc of Multimedia and Expo, ICME’02, 2002:825-848.
[12]LI Yu-peng GUAN Ling. An effective shape descriptor for the retrieval of natural image collections[C]//Proc of Electrical and Computer Engineering, CCECE’06. 2006:1960-1963.
[13]CHEN X, ZHANG Cheng-cui, CHEN Shu-ching, et al. A latent semantic indexing based method for solving multiple instance learning problem in region-based image retrieval[C]//Proc of the 7th IEEE International Symposium on Multimedia (ISM’05).Washington DC: IEEE Computer Society, 2005:37-45.
[14]ZHANG Tong-zhen, FU Yong-gang. An image semantic retrieval system
design and realization[C]//Proc of the 4th International Confe-rence on Machine Learning and Cybernetics. 2005:5284-5289.
[15]LIU Ying, ZHANG Deng-sheng, LU Guo-jun, et al. Deriving high-level concepts using fuzzy-ID3 decision tree for image retrieval[C]//Proc of ICASSP. 2005:501-504.
[16]XIAOFEI H, OLIVER K, WEIYING M, et al. Learning a semantic space from user’s relevance feedback for image retrieval[J]. IEEE Trans on Circuits and Systems for Video Technology, 2003,13(1):39-48.
[17]GOSSELIN P H, CORD M. Semantic kernel learning for interactive image retrieval[C]//Proc of IEEE International Conference on Image Processing. 2005:1177-1180.
[18]GOSSELIN P H, CORD M. Semantic kernel updating for content-based image retrieval[C]//Proc of the 6th IEEE International Symposium on Multimedia Software Engineering. Washington DC: IEEE Computer Society, 2004:537-544.
[19]MAILLOT N, THONNAT M, HUDELOT. Ontology based object lear-ning and recognition: application to image retrieval[C]//Proc of the 16th IEEE International Conference on Tools with Artificial Intelligence. Washington DC: IEEE Computer Society, 2004:620-625.
[20]HENG S, SHIXIAN L, WENJUN L, et al. Semantic-based retrieval of remote sensing images in a grid environment[J]. IEEE Geoscience and remote sensing letters, 2005, 2(4): 440-444.
[21]CHEN Z, LIU W, ZHANG F, et al. Web mining for Web image retrieval[J]. Journal of the American Society for Information Science and Technology, 2001, 52(10): 831-839.
[22]MARTIN D R, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proc of the 8th International Conference on Computer Vision. 2001:416-423.
[23]HSIA T C.A note on invariant moments in image processing[J]. IEEE Trans on Systems, Man, and Cybernetics, 1981, 11(12):831-834.
[24]TAMURA H, MORI S, YAMAWAKI T. Texture features correspon-ding to visual problem[J]. IEEE Trans on Syst, Man, Cybern, 1978, 8(6): 460-473.