白 娟
(北京第二外國語學院,北京 100024)
在Web2.0時代,尤其是隨著微信、釘釘、抖音等手機App的運用,圖像、視頻、音頻、文本等異構數據每天都以驚人的速度增長,各種多媒體數據以海量方式迅速增長。針對這些豐富的海量圖像信息,建立快速有效的圖像檢索系統已經成為重要的研究方向,從而幫助用戶有效查詢、快速檢索、高效利用圖像信息。經過數十年的發展,基于內容的圖像檢索技術已廣泛應用于數字圖書館、醫學影像、衛星遙感圖像、電子商務等社會生活的各個方面。
圖像檢索系統不僅有效地實現了用戶查詢信息的快速要求,而且能夠對圖像庫進行有針對性的分類管理。從圖像檢索技術的發展過程來看,主要包括如下3類。
基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)是早期的圖像檢索的主要方法,其是指利用關鍵字或關鍵短語對圖像中的內容進行概括及描述,以便用戶在檢索時可以根據關鍵詞進行檢索。具體的查詢過程如下:用戶根據檢索需求提供查詢關鍵字,通過系統接口交互輸入后,檢索系統根據用戶需求進行內容匹配,最后將查詢結果返回給用戶[1]。
基于文本的圖像檢索技術需要人工提前對圖像進行歸納和注釋,檢索結果也完全依賴于人工標注信息,現在已較少使用,該技術存在幾個明顯的缺陷。
(1)對目前海量的圖像數據來說,完全采用人工注釋的方法需要耗費大量的人力與財力,而且隨時不斷外來的圖像增加,人工標注可能會遇到難以克服的困難;
(2)一幅圖像包含的信息非常豐富,如“一圖勝千言”“百聞不如一見”等表述,而人工注釋的文字很難充分表達一幅圖像的內涵,人工操作有時很難用簡短的關鍵字來描述出圖片所包含的真正內涵;
(3)不同國家、不同民族對圖像語義理解的差異也很大,不可能形成一種統一的檢索方法[2]。
基于內容的圖像檢索(Content-Based Image Retrieval,CBIR),指利用計算機對圖像進行分析,自動提取每幅圖像的視覺內容特征,將視覺特征作為關鍵字進行索引,進而比較索引特征與查詢條件之間的距離,最終反饋給用戶查詢結果。
基于內容的圖像檢索方式充分發揮了計算機工作效率高、善于處理大規模數據的特點,從而較大提高了檢索的效率。目前,CBIR主要具有以下幾個特點。
(1)CBIR突破了傳統的基于表達式檢索的局限,直接對圖像進行分析和抽取特征;
(2)CBIR本質上是一種近似匹配的技術,這一點與常規數據庫檢索的精確匹配方法有明顯不同;
(3)特征提取和索引建立可由計算機來實現,避免了人工描述的主觀性;
(4)針對CBIR存在的語義鴻溝問題,可采用相關反饋、機器學習等手段,提高檢索結果與用戶滿意度的匹配程度[3-5]。
自動圖像標注(Automatic Image Annotation)技術是將基于文本的圖像檢索與基于內容的圖像檢索有效結合起來,它是根據圖像低層視覺特征,計算機自動使用語義關鍵字或標簽來表示一幅圖像的語義內容,進而可以將圖像檢索轉化為基于文本的檢索。自動圖像標注在特征匹配時,幾乎不需要用戶的參與,而主要利用圖像自身的特征(如顏色、紋理、形狀等)來完成,具有較強的客觀性和直觀性。利用這一特點,可以用來抽取各類圖像庫中所有圖像文件的特征。
目前來看,圖像檢索與圖像標注密切相關。一方面,圖像檢索的迫切需求推動自動圖像標準技術的發展,另一方面,自動圖像標準性能的提高也可以更好地提高檢索效果,促使檢索效率和檢索精度不斷提高[6]。
圖像特征的提取與表達是CBIR技術的基礎,獲取有效的圖像特征是提取圖像高層語義信息的關鍵環節。
顏色特征是圖像檢索中應用最為廣泛的視覺特征,顏色包含著比灰度更多的信息,是彩色圖像中最突出的特征。圖像的顏色特征描述了圖像中物體的表面性質,反映出的是圖像的全局特征。人眼的色彩知覺主要包括3個要素:色調、飽和度和亮度。與其他視覺特征相比,顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,從而具有較強的穩定性。常用的顏色空間表示法有RGB顏色空間、HSV顏色空間、CIEL顏色空間和YCrCb顏色空間。
針對顏色特征的提取與表達,首先,需要選擇合適的顏色空間來描述顏色特征;其次,采用一定的量化方法將顏色特征表達為向量的形式;最后,以一定的方式來描述顏色特征。
圖像的紋理是基于物體表面結構和材質的重要特征,一般來說,紋理結構可通過圖案的不斷重復,體現圖像的部分或全局特征。
典型的圖像紋理特征方法如下,這幾種方法特點不同,針對不同的自然紋理、人工紋理、混合紋理進行處理[7]。
(1)統計方法是灰度共生矩陣紋理特征分析方法;
(2)幾何法是基于平面二維特征,提取圖像的紋理元素,對圖像進行分析從而得出的特征分析方法;
(3)模型法是將圖像的參數進行構造,設計不同的模型,從而進行模型分析及變換處理;
(4)信號處理法以小波變換為主、進行相應的編碼和解碼處理操作。
形狀特征是反映出圖像最直接的視覺特征之一,大部分物體可以通過分辨其形狀來進行判別。常用的圖像形狀特征提取方法包括:基于輪廓的方法和基于區域的方法?;谛螤钐卣鞯氖褂迷诂F實中有這些問題:目前基于形狀的檢索方法還缺乏比較完善的數學模型;另外,由于受視覺主觀性的影響,許多形狀特征所反映的目標形狀信息與人的直觀感覺不完全一致;再有就是許多形狀特征僅描述了目標局部的性質,缺乏對全局的描述。
空間特征是指圖像內的區域經過分割、其內部的對象所在的位置以及對象之間的空間關系,提取空間特征有兩種方法:一種是對圖像進行自動分割,根據對象或顏色區域的接近性分割后提取圖像特征,再進一步建立索引;另一種是將圖像均勻的劃分為若干區域,對不同區域提取特征,從而建立索引。在實際應用中,需要將空間特征與其他特征相配合,來表達場景信息。
圖像檢索的主要處理流程如圖1所示。

圖1 圖像檢索主要流程
大規模圖像檢索系統是近年來發展最為迅速的技術之一,國內外各種機構開展了相關研究和探索,目前已進入應用推廣階段。簡而言之,大規模圖像檢索系統具有如下特點。
(1)圖像數據量大。相比較與20世紀90年代圖像檢索技術發展的早期階段,現有的圖像檢索系統已達到10億級,其數量已經有了成千上萬倍的增長,因而圖像檢索應滿足大數據時代的要求,在檢索效率、性能等方面大幅提升。為提高響應速度,可以使用大規模二值引擎進行查詢和排序,建立實時穩定的搜索引擎是非常重要的,因為每天都有數以千萬計的用戶在使用視覺搜索服務。
(2)特征維度高。圖像特征是直接描述圖像視覺內容的基石,對圖像來說,維度就是圖像中特征向量的數量,3個以上的特征向量即屬于高維空間,如果維度過高,則會增加機器的計算量,造成維數災難。通過降維,即降低特征矩陣中特征的數量,可以讓算法運算更快,效果更好,同時能夠實現數據可視化。
(3)要求響應速度快。對于用戶的查詢,圖像檢索系統應該具備迅速響應用戶查詢的能力,同時由于大規模圖像數據量大、特征維度高,直接采用暴力搜索的策略,難以滿足系統實時性的要求,因此,大規模圖像檢索需要解決系統實時響應的問題。
隨著人工智能以及深度學習的快速發展,極大地推動了圖像檢索領域的技術進步。在提取特征這方面而言,深度學習及神經網絡目前有著不可替代的優勢。深度學習通過學習數據的內在規律,從而具備像人一樣的分析能力。目前,廣泛使用的有利用深度哈希算法進行圖片快速檢索,其原理在于針對每一張圖片都生成一個特定的數字指紋,然后采取一種相似度的度量方式得出兩張圖片的近似程度。
在圖像檢索系統中,查詢速度和查詢準確率是一對需要權衡的指標。查詢速度方面,可以使用深度哈希的方法來大幅度提升。具體查詢過程如下:用戶提供所需查詢的圖像到人機接口,進而系統用定義好的哈希函數將查詢圖片映射成48 bit的二進制碼,將此二進制碼與數據庫中所有圖片的二進制碼比較漢明距離,按漢明距離從小到大進行排序,根據反饋可進行多次比較及排序,最終得到本次圖像的檢索結果。基于哈希的圖像檢索技術框架結構如圖2所示。

圖2 基于哈希的圖像檢索技術框架結構
深度哈希(Deep Hash)將卷積神經網絡與哈希圖像檢索結合,同時擁有檢索精度高,速度快的特點。深度哈希作為一種代表性方法,近年來受到廣泛關注。通過深度哈希,可以提升大容量圖片庫檢索精度。
深度學習極大地推動了圖像檢索技術的發展,而且正在被快速應用到與圖像識別相關的各個領域。深度學習的本質是通過多層非線性變換,通過多層的輸入、映射、變換及輸出,從大數據中自動學習特征,從而替代手工設計的特征。深度學習可以從大數據中自動學習數據特征。就圖像檢索而言,一幅圖像中,各種復雜的因素往往以非線性的方式結合在一起,圖像參數復雜交織。深度學習的關鍵就是通過多層非線性映射將這些因素成功的分開,使各個因素不再彼此干擾。
深度學習技術使得圖像檢索系統的各個模塊(即神經網絡的各個層)可以通過聯合學習,整體優化,從而性能得到大幅提升。可以預見在未來的數年內,深度學習將會在理論、算法、和應用各方面進入高速發展的時期,從而進一步促進物體檢測、圖像分類、圖像檢索、視頻分析等各個領域的更快發展。