摘要:如何跨越圖像低層視覺特征到高層語義特征的“語義鴻溝”已成為語義圖像檢索問題的關鍵,首先將待分類圖像分成五個區域;然后在提取圖像底層特征的基礎上,采用基于支持向量機組(SVMS)的方法建立圖像低層視覺特征到高層語義特征之間的映射,將一幅圖像同時歸入一類或幾類圖像語義。實驗結果表明,該方法具有較好的檢索查全率和準確率。
關鍵詞:語義圖像檢索; 底層特征; 高層語義; 支持向量機
中圖分類號:TP317.4文獻標志碼:A
文章編號:1001-3695(2008)02-0452-03
隨著Internet和多媒體技術的發展,現代信息處理的對象與方法均有很大的變化。數字圖像作為現代信息傳播的重要媒體,其數量的猛增使得對其進行快速#65380;高效的檢索要求愈來愈強,基于內容的圖像檢索得到了大力發展。該方法緊緊圍繞物理屬性,提取諸如色彩#65380;紋理#65380;形狀等圖像特征, 將圖像視為這些屬性特征向量之一或組合,圖像的檢索就轉換為代表圖像內容的特征向量間距離的比較。然而底層特征與人類對圖像的理解往往存在很大的差異,用戶無法理解底層特征如何影響圖像的視覺效果。人們主要根據圖像的含義來判斷圖像是否符合自己的需要,這些圖像含義即是圖像的高層語義知識[1]。基于語義的圖像檢索方法試圖從圖像內容所反映的語義和概念角度進行圖像檢索,然而兩者的銜接存在一定的鴻溝,主要是由于圖像的底層特征與其描述的對象之間存在距離,缺乏一個有效融合兩者的方法,因而如何跨越低層視覺特征和高層語義特征的鴻溝是語義圖像檢索中一個難點。許多學者為此作了不少研究和貢獻[1~9]。圖像語義檢索系統早期的一個例子是GRIM_DBMS[2],它的目標是在一些特定的領域解釋和檢索線條;C.Colombo等人[1]進行了藝術圖像的語義檢索的探索,他們首先建立了一系列將圖像視覺內容映射到圖像語義的規則;S.Chang等人[5]提出語義模板的概念用于建立低層視覺特征與高層語義之間的聯系;Zhao Rong等人[6]提出LSI(latent semantics indexing)用于建立低層視覺特征和高層語義之間的聯系;鮑永生等人[7]提出語義網絡用于建立低層視覺特征與高層語義之間的聯系;孫志杰等人[9]提出支持向量機(SVM)用于建立低層視覺特征和高層語義之間的聯系。但是該方法將一幅圖像歸于一類語義圖像,當一幅圖像歸類不是很明顯時,如一幅包括海洋#65380;日落#65380;藍天的圖像,不能將其同時歸入相應的幾類語義圖像。
為解決這一問題,本文采取將待分類圖像分成五個區域,對每個區域提取其底層顏色特征和紋理特征,然后
采用基于支持向量機組的方法建立低層視覺特征和高層語義之間的聯系,從而將一幅圖像歸于一類或幾類語義圖像。
1圖像底層特征的提取
提取圖像底層特征是圖像檢索的主要問題之一,而語義檢索是基于人感知的,帶有人的主觀性,所以選取的圖像特征本身要具有較為直觀的視覺意義,即較強的視覺表達能力。在具體應用中,底層特征的選擇必須最大程度支持目標的檢索,考慮到實驗所用到的風景圖像的顏色特征和紋理特征均比較豐富的特點,本文在將一幅圖像分成五個區域的基礎上,在五個區域上分別提取顏色和紋理特征來描述視覺感知層。
1.1顏色特征的提取
顏色是彩色圖像的一種重要的視覺特征,對于旋轉#65380;平移#65380;尺度變化均不敏感,表現出很強的魯棒性。在HSV顏色空間中能較好地反映人對色彩的感知和鑒別能力。對RGB模型,筆者將其分別均勻量化成64級,對HSV模型非均勻量化成162級[10],然后在此基礎上,分別對其計算顏色直方圖和累積直方圖。
其中:k表示圖像的特征取值;L是特征可取值的個數;nk是圖像中具有特征值為k像素的個數;N是圖像像素的總數。
3實驗分析
本文選取的圖像庫來自于http://www.cs.cmu.edu/~cil/v-images.html,選取河流#65380;山川#65380;海洋#65380;草原等六類語義圖像類。選取其中的600幅圖像(每類平均100幅)作為訓練集,為了盡量使每幅圖像只包含一類景物,本文先按圖3的方法對其進行粗分割;然后對每個區域分別在RGB顏色空間和HSV顏色空間提取直方圖#65380;累積直方圖#65380;顏色距三種顏色特征,維數分別為182#65380;181#65380;9和162#65380;161#65380;9,同時使用Gabor小波變換[11]提取32維紋理特征向量。通過學習構造相應的SVM分類器,分別對應圖像庫中的六類語義。
將圖像庫中的大約6 000幅圖像在訓練好的每個支持向量機上進行語義分類,根據支持向量機組所得到的分類結果對其進行語義標注,并在系統中引入相關反饋以提高檢索精度。如圖4所示,通過分類實現將其同時歸入河流#65380;山川及天空的圖像語義類別。 對語義河流類圖像的檢索結果如圖5所示。
實驗結果分析:如何根據圖像的內容提取豐富的語義信息一直是圖像分類和檢索中存在的一個難點,本文提出的方法不僅有效解決了這一問題,而且與神經網絡分類方法相比,本文方法可以在小樣本的情況下得到理想的效果(表1)。
4結束語
為了解決語義圖像檢索中存在的“語義鴻溝”問題,本文提出了一種基于SVMS的方法建立圖像低層視覺特征和高層語義特征間的聯系并對圖像進行語義標注,實驗證明該方法在圖像數據庫的分類中可以取得較好的實驗結果。筆者在實驗中還發現,不同語義類別的圖像采用多特征組合的方式可以獲得描述和表示,因此在下一步的工作中,將引入更多的圖像底層特征(如形狀),并在對圖像進行有效分割的基礎上通過所提取特征的不同組合提高系統的檢索性能。
參考文獻:
[1]COLOMBO C, DELBIMBO A, PALA P. Semantics in visual information retrieval[J].IEEE Multimedia, 1999,6(3):38-53.
[2]RABBITTI F, STANCHEV P. GRIM_DBMS: a graphical image database management system[C]//KUNII T. Visual Database Systems. Amsterdam: Elsevier, 1989:415-430.
[3]ZHANG Tong-zhen, FU Yong-gang. An image semantic retrieval system design and realization[C]//Proc of the 4th International Con-ference on Machine Learning and Cybernetics. 2005:5284-5289.
[4]CAI Deng, HE Xiao-fei, MA Wei-ying, et al.Organizing WWW images based on the analysis of page layout and Web link structure[C]//IEEE International Conference on Multimedia and Expo. Taipei:[s.n.], 2004:113-116.
[5]CHANG S, CHEN W F, SUNDARAM H. Semantic visual templates: linking visual features to semantic[C]//Proc of International Con-ference on Image Processing(ICIP’98). Chicago,Illinois:[s.n.], 1998:531-535.
[6]ZHAO Rong, GROSKY W I. Narrowing the semantic gap improved text-based Web document retrieval using visual features[J]. IEEE Trans on Multimedia, 2002,4(2):189-200.
[7]鮑永生,任建鋒,郭雷.支持語義的圖像檢索[J].南京航空航天大學學報,2005,37(1):75-78.
[8]孫志杰,許宏麗.一種圖像低層視覺特征到高層語義的映射方法[J].計算機應用,2004,24(12):22-24.
[9]屠添翼,石躍祥,劉建軍.基于小波域的加權分形圖像編碼[J].湘潭大學自然科學學報,2004,2(26):26-30.
[10]KERMINEN P, GABBOUJ M. Image retrieval based on color mat-ching[C]//Proc ofFinnish Signal Processing Symposium. Oulu, Finland:[s.n.], 1999:89-93.
[11]章毓晉.基于內容的視覺信息檢索[M]. 北京:科學出版社,2003:93-95.
[12]VAPNIK V. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995.
[13]SCHOLKOPF B, BURGES C J C, SMOLA A J. Advances in kernel methods——support vector learning[M]. Cambridge, MA: MIT Press, 1999.
[14]BOTTOU L, CORTES C, DENKER J, et al. Comparison of classifier methods: a case study in handwritten digit recognition[C]//Proc of Int Conf on Pattern Recognition. Jerusalem, Isracl:[s.n.], 1994:77-82.
[15]PLATT J C, CRISTIANINI N, SHAWE-TAYLOR J. Large margin DAGs for multiclass classification[J]. Advances in Neural Information Processing Systems, 2000,12:547-553.
[16]王立國.支持向量機多類目標分類器的結構簡化研究[J].中國圖象圖形學報,2005,10(5):571-574.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”