摘要:提出了一種新的利用圖像語義詞匯表進行圖像自動標注與檢索的方法。采用混合層次模型在已標注好的訓練圖像集上計算圖像區域類與關鍵字的聯合概率分布,并用生成的模型標注未曾觀察過的測試圖像集,或用來進行基于語義的圖像檢索。實驗結果表明,該方法在標注、檢索精度和效率方面均優于當前其他方法。
關鍵詞:圖像檢索;語義圖像檢索;圖像語義;圖像自動標注
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2007)07-0318-03
近年來,圖像檢索技術已成為一個研究熱點。在早期的基于內容的圖像檢索中,圖像特征索引技術主要研究的是圖像的視覺和形象特征,包括顏色及其分布關系、紋理、對象形狀以及它們之間的空間關系等方面[1]。這些特征能夠用數字圖像處理技術自動地檢測,用戶則通過這些低層特征進行基于內容的圖像檢索。為了實現更為貼近用戶理解能力的、用自然語言描述的查詢方式,并提高圖像檢索的精度,在CBIR技術領域進行包含語義的檢索方法的研究是十分必要的[2]。因此,近幾年的研究逐漸轉向基于感興趣區域和目標對象的高層圖像語義描述特征的提取,嘗試由圖像的低層次特征推知高層次語義,從而使用高層語義特征計算圖像相似程度。基于語義的圖像檢索有兩個目標:①自動標注未曾觀察過的圖像;②實現基于語義的圖像檢索。目前已有很多系統結構通過訓練一個分類器來自動地用語義關鍵字標注圖像。這樣的系統可以歸納為監督學習或無監督學習兩類,早期的研究主要集中在監督學習[3,4],而近期更多的研究集中在無監督學習[5~8],并試圖提出一些更通用的方法。兩種學習方式各有優缺點。通常來說,無監督學習有更好的可伸縮性的訓練過程,對每一幅新的圖像可按自然順序生成關鍵字,但它所提供的語義不太精確,在識別目標和檢索圖像庫時不能保證是最優的。
本文提出結合監督學習和無監督學習兩者的優點而形成一種新的學習模式,稱為改進的監督學習模式。這個改進的學習模式為每一個感興趣的圖像類(圖像區域及其特征)定義一個語義概念。在圖像標注時,語義概念直接對應要標注的圖像類,并用來進行圖像自動標注和檢索。該方法明顯保留了監督學習最優分類與檢索特性,但同時在進行圖像標注時能按自然順序生成關鍵字,并省去了對每個感興趣語義進行非類模型計算的需求。其計算復雜度與無監督學習模式相同,但它比監督學習模式對圖像手工標注質量的要求更少。用文獻[7]介紹的實驗方法進行實驗的結果表明,本文方法不僅在標注和檢索精度方面優于目前人們所知的方法[8,9],而且效率方面也有很大改進。
1改進的學習模式框架
1.4算法在標注時的復雜度分析
改進算法在圖像標注過程中的復雜度為O(CR)。其中C為標注圖像的語義類大小,R是圖像區域的數量,即算法的復雜度與語義分類項目的數目和圖像區域數量的乘積成比例。
2實驗結果
筆者從網上下載了通用的Corel數據庫[12](此數據庫通常作為自動標注和檢索性能評估的標準)的一些圖像,用4 500個圖像作為訓練集。在這個訓練集中有370個關鍵字,每個圖像一般有4~5個關鍵字,采用圖像分割技術將圖像進行區域劃分(每個圖像劃分為5~10個區域),并計算區域的特征向量,形成區域類。最后,在本文系統上進行了一些初期的實驗。圖2、3是圖像自動標注和檢索的實驗結果示例。
3結束語
本文利用Bayes統計學習和決策理論提出了一種圖像低層特征到高層語義的混合高斯分布模型,利用EM算法求解該模型。在此基礎上實現了一個基于語義的圖像檢索和語義標注系統,在Corel圖像庫上進行了實驗,其圖像匹配檢索效果良好,并具有穩定的檢索性能。為了更加適應人對圖像的主觀感知以及人對圖像理解的模糊性,需要找到更能表達人感知某類語義的低層特征,建立更好的語義分類器;對圖像低層特征到高層語義的映射方法均有待進一步的研究。
參考文獻:
[1]RUI Y,HUANG T S,CHANG S F.Image retrieval, current techniques, promising directions, and open issues[J].Journal of Visual Communication and Image Representation,1999,10(1):39-62.
[2]COLOMBO C, BIMBO A D, PALA P. Semantics in visual information retrieval[J].IEEE Multimedia, 1999,6(3):38-53.
[3]FLICKNER M,SAWHNEY H,NIBLACK W.Query by image and vi-deo content: the QBic system[J].IEEE Computer,1995,28(9):23-32.
[4]LUO J,SAVAKIS A.Indoor vs outdoor classification of consumer photographs using low-level and semantic features[C]//Proc of International Conference on Image Processing.Thessaloniki,Greece:[s.n.],2001:745-748.
[5]BARNARD K,DUYGULU P,De FREITASN,et al.Matching words and pictures[J].Machine Learning Research,2003,1(3):1107-1135.
[6]BRUZZONE L, PRIETO D F. Unsupervised retraining of a maximum likelihood classifier for the analysis of multitemporal remote sensing images[J].IEEE Transactions on Geoscience and Remote Sensing,2001,39(2):456-460.
[7]DUYGULU P, BARNARD K,de FREITAS N,et al.Object recognition as machine translation:learning a lexicon for a fixed image vocabulary[C]//Proc of the 7th European Conf Computer Vision.[S.l.]:[s.n.],2002:97-112.
[8]CARSON C, BELONGIE S,GREENSPANH,et al.Blobworld:image segmentation using expectation-maximization and its application to image querying[J].IEEE Trans Pattern Analysis and Machine Intelligence,2002,24(8):1026-1038.
[9]萬華林, CHOWDHURY M U.基于支持向量機的圖像語義分類[J]. 軟件學報, 2003,14(11),1891-1899.
[10]向日華,王潤生.一種基于高斯混合模型的距離圖像分割算法[J].軟件學報,2003,14(7):1250-1257.
[11]韋布.統計模式識別[M].王萍,楊培龍,羅穎昕,等譯. 2版.北京:電子工業出版社, 2004:33-40.
[12]University of California Berkeley.Corel dataset website[EB/OL].[2006-04-24].http://elib.cs.berkeley.edu/photos/corel/.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”