
隨著多媒體數據庫的廣泛應用,人們在工作生活中每天都不斷產生和使用海量的圖像和視頻等多媒體資源,對多媒體信息的有效檢索手段逐漸引起人們的重視,尤其是對多媒體圖像檢索技術的研究,更是成為國內外研究的熱點,也成為未來信息高速公路、數字圖書館等重大項目中的關鍵技術。
1 圖像檢索技術發展
作為圖像處理技術的一個新的重要研究內容,圖像檢索的目標是從圖像數據庫中快速準確地提取出與查詢相關的圖像或圖像序列。從系統的發展演變歷程來看,圖像檢索系統可分為兩代:第一代圖像檢索系統的特點是在離線狀態下,先由注解員通過手工為數據庫內的圖像進行注解,提供出檢索時所需的索引;檢索時,用戶輸入字符串利用索引進行檢索。由于這種方式不但受注解員的觀點的影響,而且一些圖像信息和特征很難用文字來描述清楚,不利于用戶快速高效檢索圖像,因此逐步產生了基于圖像內容進行檢索的第二代圖像檢索技術——基于內容的圖像檢索(CBIR – Content Based Image Retrieval)。
圖像的內容即圖像的特征,CBIR技術克服了傳統方法的不足,通過分析圖像的內容,從大量靜止或活動視頻圖像庫中查找含有特定物體的圖像進行特征匹配,即圖像特征的相似性度量來實現圖像的檢索。
早期CBIR的研究重點是視覺特征提取,后來在語義特征、多維索引、用戶接口、系統設計等方面又有所發展。近年來研究者又引進了更多領域的知識:從知識表示的角度運用人工智能領域的推理和神經網絡技術提取特征和分類圖像;構造面向對象的CBIR系統;開發面向Web的CBIR系統;并行CBIR技術也被提上了議程。
2 圖像檢索關鍵技術
一個典型的基于內容圖像檢索系統框架結構如圖1所示。其中,圖像數據建立模塊提取每一數據庫圖像的特征,并將其儲存于數據庫中,以當作該數據庫圖像的索引。圖像數據查詢模塊則請求用戶輸入某一查詢圖像,并提取該圖像的特征,同時將此特征與儲存于數據庫中的數據庫圖像的特征作比對,按照相似度的大小輸出與查詢圖像相似的圖像。接著,用戶可以根據自己的需要,將自己對查詢結果的意見反饋給系統,進而重新檢索和輸出。其中的關鍵技術包括圖像特征提取,相似性度量,相關反饋技術等。
2.1 特征提取
特征提取是基于內容的圖像檢索的基礎,常見的用于描述圖像的內容特征主要包括:顏色、紋理、形狀、對象等。
(1)顏色特征
顏色是描述一幅圖像最簡便而且有效的特征。顏色直方圖的方法是最早用于基于顏色特征進行圖像檢索的方法。由于顏色直方圖具有簡單且對圖像的大小、旋轉變化不敏感等特點,得到了研究人員的廣泛關注。在基于顏色特征的檢索算法中通常用顏色統計直方圖、累積直方圖來表示圖像的顏色特征。
(2)紋理特征
紋理是基于內容圖像檢索的一個常用特征,它反映了關于圖像表面的結構安排和周圍環境的關系。基于紋理特征的圖像檢索已有很多研究成果。常用的描述紋理的方法有3種:結構法,統計法,頻譜法。結構法是將圖像中非常具有結構規律的特征加以分析;統計法是對圖像中的顏色強度的空間分布信息進行統計;而頻譜法則是利用傅立葉變換、小波變換等把圖像從空域轉換到頻域后進行處理。
(3)形狀特征
形狀特征也是人類視覺系統進行物體識別時所識別的關鍵信息之一,圖像的形狀信息不隨圖像顏色等特征的變化而變化,是物體穩定的特征,特別是對于圖形來說,形狀是它唯一重要的特征。
通常來說,形狀特征有兩種表示方法,一種是基于輪廓的特征,一種是基于區域的特征。前者只用到物體的外邊界,而后者則關系到整個形狀區域。這兩類形狀特征的最典型方法分別是傅立葉描述符和形狀不變矩。
(4)空間關系特征
由于圖像的顏色、紋理和形狀等多種特征反映的都是圖像的整體特征,而無法體現圖像中所包含的對象或物體,因此,圖像中對象所在的位置和對象之間的空間關系同樣是圖像檢索中非常重要的特征,包含空間關系的圖像特征可以彌補其它圖像特征不能確定物體空間關系的不足。
提取圖像空間關系特征可以有兩種方法:一是首先對圖像進行自動分割,劃分出圖像中所包含的對象或顏色區域,然后根據這些區域對圖像作索引;另一種方法則簡單的將圖像均勻劃分為若干規則子塊,對每個圖像子塊提取特征建立索引。
2.2 相似性度量
圖像的相似性度量,既是圖像檢索技術中的一個關鍵問題,也是其中的一個難點。圖像的相似性度量建立在圖像內容的基礎上,這里所說的“內容”等同于圖像的特征。根據“內容”的不同含義,圖像的相似性度量也建立在不同的含義上。圖像的顏色、形狀、紋理被認為是第一層次上的特征,具有相對直觀的特點。語義內容是第二層次上的特征,具有相對主觀抽象的特點。目前對圖像相似性度量的研究主要集中在第一層次上,即基于圖像的顏色、紋理、形狀等特征。
一般,基于內容的圖像檢索的相似性度量可分為幾何矩陣模型和集合理論模型:通常我們使用的是幾何矩陣模型,將圖像的特征向量看成是特征空間中的點,兩個點之間的距離表示它們之間的相似程度。
但是,通過人類心理實驗表明,距離度量方法和人對相似性的感知判斷之間存在一定差距。因此,人們又提出了集合理論模型。1977年,Tversky提出了著名的特征對比模型(contrast model)。與幾何距離不同,該模型不把每個實體看作特征空間的一個點,而將每個實體用一個特征集來表示。這一理論揚棄了幾何模型下相似度度量的優缺點,提出了一個廣泛的理論衡量方法,但它還不夠實用,只適合那些特征明顯的對象。
2.3 相關反饋
在基于內容的圖像檢索中,反饋是調整技術以適應用戶需求和提高檢索精度的常用手段。特別在借助語義概念進行的檢索中,反饋是實現人機交互,從而將用戶知識結合進查詢中去的重要方法。
比較常用和比較成熟的反饋方法是相關反饋(relevance feedback),用戶根據先前檢索結果借助權重調整已有的查詢要求以給檢索系統提供更多更直接的信息,從而使系統能更好的滿足用戶的需求。其實質是個“指導性學習分類”,基本思想是:在檢索過程中允許用戶對檢索結果進行評價和標記,每次檢索的結果,通過人機交互,用戶指出哪些是與查詢圖像相關的,哪些是不相關的,然后將用戶標記的相關信息作為訓練樣本反饋給系統進行學習,以指導下一次檢索,從而使檢索結果更加符合用戶的需要。
3 小結
本文對多媒體圖像檢索技術進行了淺顯的研究分析,但圖像數據庫種類繁多,圖像內容千變萬化,文中所介紹的方法未必適用于每一種圖像數據庫的檢索。隨著越來越多的人對這一技術的關注與深入研究,并逐漸實現其實用化,在多媒體技術和網絡技術的高度發展與普及的大背景下是具有十分重要的現實意義的。