劉爽,史萍
(中國傳媒大學信息工程學院,北京100024)
隨著經濟水平不斷提高,物質資源逐漸豐富,人們開始追求精神層面的享受。美術作為藝術的一種,能直觀地傳達美感,溝通心靈。隨著多媒體和互聯網技術不斷發展,人們將傳統藝術和現代技術結合,提出了數字美術館的概念。數字美術館以數字化的形式存貯各種不同載體、不同地理位置的美術作品和畫家資源,實現了美術作品的保存、展示、銷售、研究、教育等功能。這種形式將真實的美術館數字化、虛擬化,充分體現了現今網絡共享的思想。觀眾無需出門,即可舒適地欣賞到世界著名美術館珍藏的上萬幅藝術作品。然而,這樣的數字美術作品管理系統卻面臨著如何有效地組織和檢索大規模圖像數據的問題。傳統的基于文本的圖像檢索技術(Text-based Image Retrieval,簡稱 TBIR)從圖像名稱、作者、年代等方面標引圖像,以關鍵詞的形式進行圖像檢索,回避了對圖像可視化元素的分析,其性能取決于用戶對方法的理解,具有很大的局限性[1]。面對多元化的查詢需求,基于內容的圖像檢索技術[2](Content-based Image Retrieval,簡稱 CBIR)顯得更為重要。這種技術使用特定的算法手段由計算機自動提取包含圖像內容的可視特征,如顏色、紋理、形狀、對象的位置和相互關系等,通過降維技術,構建索引結構,融合圖像多特征進行索引匹配?;趦热莸膱D像檢索技術克服了傳統檢索方法的缺陷,已成為國內外研究的熱點。
綜上所述,本文設計和實現了一種美術作品查詢系統。該系統結合上述兩種圖像檢索技術,通過人機對話,能夠方便快捷地查詢到美術作品信息。
本文設計的美術作品查詢系統共分為四大模塊:用戶模塊,描述模塊,查詢模塊,數據庫模塊。該系統能實現基于文本和基于內容的兩種作品檢索方式。用戶可以輸入作品的關鍵字,文本匹配得到結果。當用戶希望搜索與感興趣作品相似的圖像時,可以輸入檢索圖像,采用基于圖像內容的檢索方式得到結果。圖1表示系統結構。

圖1 系統結構
數據庫模塊采用典型的圖像數據庫。它是與圖像有關的數據集合,包括圖像的文本數據和圖像內容數據。文本數據可以使用基本數據類型,或由基本數據類型組成的復雜數據類型準確地描述。圖像內容包括圖像實體及其特征、圖像內某一對象的意義、圖像之間的邏輯關系等。為了完成數據庫的特征存儲和特征查詢功能,我們不僅需要把生成的特征向量以記錄集的形式迅速加入數據庫中,還需要使用查詢語言快速定位想要的數據記錄。本系統在指定位置存放作品圖像文件,同時建立圖像數據庫,存儲圖像的文本和特征信息。兩者通過圖像地址關聯起來。本系統采用SQL Server 2000工具設計數據庫,一共建立了4張表。一張是圖像文本信息表,用于存儲作品圖像的文本信息,包括作品名、畫家、時代、分類、簡介、地址、畫家首字母七列。其他三張表均為圖像特征表,用于存儲作品圖像的顏色、形狀和紋理特征信息。
用戶模塊是用戶和系統的接口。用戶可以根據自己的需要,自主選擇提交文字還是圖片進行瀏覽或查詢。若對檢索結果不滿意,該模塊還提供調整查詢條件的接口,以獲得更好的檢索效果。為了便于輸入圖像與數據庫內作品進行匹配,描述模塊對圖像進行預處理后,提取圖像的顏色、形狀、紋理三大特征,接著傳遞給查詢模塊進行處理。查詢模塊是整個系統的核心。主要完成兩大功能:基于文本檢索功能和基于內容檢索功能。當用戶提交文本關鍵詞時,根據指定條件把關鍵詞和數據庫圖像文本表內的文本數據進行搜索,查詢得到相關作品。當用戶提交作品圖片時,將描述模塊提取出的特征值與數據庫圖像特征表內的特征數據計算相似度,根據相似度大小取出若干幅相似作品反饋給用戶。
本系統按照功能分為管理部分,瀏覽部分和檢索部分。管理部分主要負責對圖像數據庫的管理,瀏覽部分可以按照分類或者畫家瀏覽,檢索部分可以按照圖像內容或者圖像文本檢索。圖2表示系統功能。

圖2 系統功能
2.2.1 基于文本檢索功能
基于文本檢索功能是根據輸入關鍵字,篩選出包含關鍵字的記錄,主要是通過SQL的查詢語句來實現。通過用戶輸入的關鍵詞,應用SELECT語句檢索數據表中的數據,而哪些數據被檢索出來則由列出的數據行與語句中的WHERE子句決定。美術作品的文本信息繁多復雜。一幅作品有作品名、畫家、分類等多個信息。作為用戶,既有單獨查詢某個字段,也有聯合查詢多重信息的需要。因此,本文采取了兩種文本檢索方式,即:單條件檢索和多條件檢索,把多種用戶需求完整地表達出來。單條件檢索只限定用戶對作品的單一信息進行查詢。用戶選定哪個字段查詢,系統就只在該字段內檢索。多條件檢索提供了多條件同時滿足下的查詢。實際上,考慮到用戶可能無法輸入完整的作品信息,例如:畫家的全名等,本文提供了人性化的模糊查詢機制,只要包含輸入關鍵詞的都可作為檢索結果,以防漏檢。
2.2.2 基于內容檢索功能
基于內容檢索功能是在提取表征圖像內容的顏色、紋理、形狀的底層視覺特征的基礎上,通過對查詢圖像和數據庫圖像在特征空間進行相似性匹配,檢索得到樣本圖像或與之相似的圖像。本文使用歐式距離計算圖像特征之間的相似程度,按照相似距離從小到大的順序排列,取排在前面的若干幅圖像反饋給用戶。
1)顏色特征提取
圖像顏色往往和圖像中包含的物體或場景十分相關,因此顏色特征的應用最為廣泛。顏色具有一定的穩定性,對圖像本身的尺寸、方向、視角的依賴性較小。顏色特征提取算法包括:Swain和Ballard提出的顏色直方圖法,顏色集法、顏色矩法等。本文采用基于顏色結構直方圖的特征提取算法。在提取顏色特征時,首先將圖像的RGB空間顏色值轉換成HSV空間顏色值,再進行采樣。之后,根據符合人眼視覺特性的非均勻量化模式將圖像的顏色值量化為72個等級,統計顏色結構直方圖。
數字圖像的顏色一般是用 RGB(Red,Green,Blue)三個值來表示的,而 HSV(Hue,Saturation,Value)模型[3]與人觀察顏色的方式相一致,更貼近人眼的視覺特性,更有利于圖像處理。
本文先將輸入圖像像素由RGB空間值轉換至HSV空間值后,對HSV空間的數據進行量化,以降低直方圖矢量維數。量化時,將HSV這3個分量按照色彩的不同范圍和人的視覺分辨能力進行非等間隔的量化:把色調H空間分成8份,飽和度 S和亮度V空間分為3份。為了進一步降低HSV三個顏色特征組合維數,本文利用公式(1)把三者統一成一維向量G。

其中:Qs和Qv分別是分量s和v的量化級數,取 Qs=3,Qv=3,則:G=9H+3S+V
最后,本文采用統計顏色結構直方圖[4]的方法記錄顏色特征矢量的分布情況。具體做法是:用8×8的結構元素在圖像上移動,統計在結構元素中出現了哪些顏色,只要某種顏色出現了,那種顏色的直方圖值就加1,如果沒出現,就不加,遍歷之后即可得到顏色直方圖信息。顏色結構直方圖的優點在于它不僅包含了顏色信息,還包含了顏色與空間的結構關系。經過上述的處理可以得到72柄的直方圖數據,將其存入數據庫。
2)形狀特征提取
物體和區域的形狀是圖像表達和圖像檢索中的另一個重要特征。形狀特征通常和目標聯系在一起,含有一定的語義信息,對感興趣目標的檢索很有效。由于形狀的描述涉及到對一條封閉邊界的描述以及對這個封閉邊界所包圍區域的描述,因此,形狀特征檢索分為基于輪廓的檢索和基于區域的檢索[5]。這里選用基于區域的簡單形狀描述方法:不變矩法。不變矩通常能滿足平移、尺度、旋轉不變性的要求,但在物體發生較大尺度旋轉時,不能保證不變性。本文形狀特征提取的具體步驟是:先對彩色圖像提取亮度,對只含亮度值的灰度圖像進行邊緣檢測,再根據邊緣檢測值,提取不變矩作為形狀特征向量。
邊緣檢測是圖像局部特征不連續性,如:灰度突變、顏色突變、紋理結構突變等的反映,通常選擇一階和二階導數來檢測邊界。由于一階、二階微分算子的邊緣檢測很難得到區域的精確邊緣,而Canny邊緣檢測利用高斯函數的一階微分,在噪聲抑制和邊緣檢測之間尋求了較好的平衡,抗噪性能優秀,因此,這里選用Canny邊緣檢測。Canny邊緣檢測首先對圖像進行高斯(Gauss)平滑,以除去噪聲,然后進行一階微分運算,對獲得的梯度幅值進行非極大值抑制,最后用雙閾值算法檢測和連接邊緣。
邊緣檢測之后,我們需要提取表示形狀特征的不變矩。本文選擇一系列具有旋轉、縮放和平移無關的七個矩(Hu矩[6])來表征圖像的形狀。Hu矩是由二階和三階中心矩組合而成。由于Hu矩屬于區域矩,所以需對其進行一些修正,使之變成適用于輪廓描述的曲線矩。最終將每幅圖像處理得到七個形狀特征描述向量存于數據庫,以便特征匹配。
3)紋理特征提取
我們通常把圖像中局部不規則而整體有規律的特性稱為紋理。它是圖像的全局特征,描述了圖像或圖像區域所對應的景物表面性質,包括表面結構組織及其與周圍環境關系的許多重要信息[7]。該特征具有旋轉不變性,對噪聲也具有較強的抵抗能力。在檢索具有粗細、疏密等方面有較大差別的紋理圖像時,利用紋理特征進行檢索是一種有效的方法。紋理提取方法主要有統計分析法、幾何法、信號處理法和模型法。
目前紋理提取主要以統計分析法為主。在對圖像區域劃分和灰度化的基礎上,本文提取各區域的局部邊緣直方圖[8]作為紋理特征。具體步驟是:對灰度化的圖像進行4×4分解,采用五種可能的邊緣檢測符進行操作,對五種運算結果進行邊緣提取,最后統計邊緣直方圖。
首先提取彩色圖像亮度值,對灰度化的圖像區域進行分解得到4×4個,共16個子圖像,每個子圖像又均勻分解成固定個數的2×2的圖像塊。對于每個子圖像出現的五種可能的邊緣類型:水平邊緣、垂直邊緣、45度邊緣、135度邊緣和無方向邊緣,本文采取五種邊緣檢測操作符對五種邊緣進行處理,得到五個方向的梯度值。圖3表示五方向邊緣檢測模板。

圖3 邊緣檢測模板
其次,對這五個邊緣方向梯度的最大值進行閾值判斷,若這個最大值大于預先設定的閾值,則說明圖像有該方向上的邊緣,將其計算入邊緣直方圖。最后,統計邊緣直方圖并且直方圖歸一化。由于圖像被分成16個子圖像,每個子圖像能夠統計出五種方向的邊緣值,因此一共能提取出16×5=80柄的直方圖數據,即:80維的紋理特征描述向量,存入數據庫,以便特征匹配。
4)特征匹配
特征匹配是檢索的最后一步。特征匹配是將查詢圖像提取得到的特征與圖像數據庫的候選圖像特征進行比較,獲取在視覺效果上最為接近的圖像序列。從特征提取的分析可以看出,圖像視覺特征大多用特征向量表達,所以常用的相似度度量方法都是向量空間模型,把圖像的特征看作是向量空間中的點,通過計算兩個點之間的距離來衡量圖像間的相似程度。常用的度量函數有:絕對值距離、歐式距離、二次式距離(馬氏距離)、直方圖相交、加權歐式距離等。本文采用歐式距離計算圖像之間的相似程度,這種方法度量精度較高,算法也相對簡單。設兩個向量分別為:A(x1,x2,…,xn)和 B(y1,y2,…,yn),則兩者的歐式距離定義為公式(2)。

5)綜合多特征提取及匹配
以上采用的單特征檢索方法只能表達圖像的部分屬性,缺乏足夠的區分信息,常不能取得理想的檢索效果。本文采取的多特征檢索方法能更好地利用圖像提供的各類“內容”得到用戶意向的綜合信息,通過融合三種特征得出一種貢獻最大、最為典型的綜合特征,增加返回圖像中目標圖像的比率。不同特征分量的幅度變化大、物理意義不同,相似距離的可比性差,一般需要利用內部和外部歸一化[9]處理,使得不同特征在進行綜合度量時具有相同的效果。
內部歸一化使特征向量內部各分量在相似性度量時具有相同的地位。本文采用高斯(Gauss)歸一化。高斯歸一化是一種較好的歸一化方法,其主要特點是少量超大或超小的數值對整個歸一化后的元素值分布影響不大。具體的實現過程如下:
假設圖像某一個特征是N維特征向量,記為:R=[r1,r2,…,rN]。假設圖像庫共有 M 幅圖像,用I1,I2,…,IM表示,則任一幅圖像 Ii的特征向量表示為:R=[ri1,ri2,…,riN],rik表示特征向量 ri中的第 k個分量。M幅圖像的特征向量即可組成一個M×N矩陣。矩陣中的每一列是維數為M的特征序列Rj=[r1j,r2j,…,rMj],rkj表示圖像數據庫中第 k 個圖像的第j個特征分量。首先分別統計矩陣中每個特征序列Rj的均值μj和標準差σj,然后通過公式(3)、(4)歸一化至[0,1]空間,得到最終的歸一化特征分量。

外部歸一化是對圖像庫所有圖像所有特征之間的相似距離進行歸一化處理,使得不同特征在檢索時發揮相同的作用。具體做法是:假設數據庫內有M幅圖像。計算查詢圖像某一特征向量與數據庫所有圖像在該特征上的歐式距離,得到,Di,i=0,1,…,M。求出Di的均值μ和標準差σ之后,按照公式(5)對M個相似距離進行歸一化,可使得變換后的距離值都落在[0,1]區間內。

重復以上步驟,將查詢圖像與數據庫圖像在其他特征上都進行歸一化處理,即第j個特征歸一化后的相似距離為:D-ij,i=0,1,…,M,j=0,1,2。外部歸一化處理后,可以保證不同的特征向量在相似度計算過程中的地位基本相同。
當得到歸一化的3個特征歐式距離之后,需要對綜合距離進行計算。假設三個特征的權重分別為:W1,W2,W3,則利用公式(6)可求得加權之后的距離。

綜合特征檢索時,用戶根據自己的需要提供每個特征的權值,系統按照該加權距離從小到大排列出若干幅圖像,作為檢索結果。
本文設計和實現了一個以Visual C++6.0為開發環境,使用SQL Server 2000的基于文本和內容檢索的美術作品查詢系統。數據庫一共有122幅圖像,按作品內容分為花鳥、建筑、人物、風景四大類,按時代分為現代和當代。畫家采用首字母標記,作品有簡介描述。
2.3.1 管理端實現
管理端是圖像檢索系統的管理員對數據庫圖像及其特征進行管理的平臺,可實現美術作品的入庫、查看、分類、修改、刪除等功能。管理端分為兩大模塊:瀏覽記錄模塊和添加記錄模塊。圖4表示管理端界面。

圖4 管理端界面
瀏覽記錄模塊用于管理員瀏覽數據庫的作品。系統不僅能顯示作品的寬高信息以及作品名、畫家、首字母、時代、分類、簡介的文本信息,還支持管理員對圖像的修改和刪除功能。刪除和修改成功后,數據庫會自動更新,對話框也會實時刷新。
添加記錄模塊用于新作品的入庫。打開的目標作品將會顯示在下方的靜態文本框內,文本框內填寫好文本信息之后,依次單擊“特征提取”和“信息入庫”按鈕,系統將自動分析該作品,提取其顏色、形狀和紋理特征,把作品的路徑信息,輸入的文本信息以及特征向量存入對應的數據表內。
2.3.2 用戶端實現
用戶端是外來用戶實現作品檢索的平臺。用戶不但可以隨意瀏覽美術作品,還可進行基于內容和文本的作品查詢。用戶端分為三大模塊:瀏覽模塊、內容檢索模塊、文本檢索模塊。圖5表示用戶端界面。
瀏覽模塊支持分類和畫家瀏覽。按分類瀏覽時,用戶可選擇花鳥、建筑、人物、風景分類中的一種進行瀏覽。按畫家瀏覽時,用戶可根據提供的姓氏首字母,快速選擇畫家名瀏覽。對于感興趣的作品,用戶可以雙擊縮略圖,即可彈出作品的詳細信息。

圖5 用戶端界面
文本檢索模塊支持用戶填寫關鍵詞進行檢索。系統采用單條件和多條件檢索。單條件檢索可以依據填寫的作品或畫家關鍵詞檢索;多條件檢索可根據需要,填寫分類、作品名、時代、畫家中的多項信息進行檢索。不需要查詢的信息可以不填寫。
內容檢索模塊支持用戶輸入查詢作品,經過特征提取和特征匹配,檢索得到相似作品。系統支持單特征和綜合特征檢索。多特征檢索時,用戶可使用滑動條靈活選擇顏色、形狀、紋理特征的權值(相應權值為百分制,顯示在滑動條右邊文本框內)進行綜合檢索。檢索結果可以和原始作品對比顯示。
2.3.3 實驗結果分析
基于文本的圖像檢索較為準確。文本檢索實驗結果如圖6所示。單條件檢索時,查找包含“冰“字作品名的作品即可得到數據庫唯一一幅于志學的《冰雪山水》作品,如圖6(a)所示。多條件檢索時,選擇“人物”分類,作品名包含“花”的作品,可得到如圖6(b)的六幅作品。單條件檢索簡單快捷,目標明確,多條件檢索可以滿足用戶查詢的多種需要。
基于內容的圖像檢索比較復雜。本文選取一幅花鳥圖像,如圖7所示,選擇檢索返回5幅圖像,采用各種檢索方式得到的實驗結果如圖8所示。
從實驗結果可以看出,鑒于人眼視覺特性的復雜性,不同人對作品的相似性可能會有不同的判斷,因此很難利用數據來評價實驗結果。但從檢索效果來看,單獨利用顏色特征能檢索出大范圍顏色視覺感覺相似的作品。利用形狀特征能檢索出畫面中有突出物體且畫面主輪廓相似的作品。由于紋理特征可以針對作品整體灰度進行規律性的概括,對畫面內容豐富復雜的圖像檢索性能較好。綜合特征檢索能夠融合三大特征,更加貼近用戶需求,檢索效果比較好??偟膩碚f,由于作品高層語義和底層視覺特性的不統一性,圖像特征選取簡單,圖像特征提取算法的精度不高,相似度衡量不精確等原因導致有些檢索結果還不符合人的視覺感覺。在今后的學習中,需要進一步進行研究。


圖8 基于內容的圖像檢索結果
本文設計和實現了一種基于文本和內容檢索的美術作品查詢系統。系統能夠通過用戶輸入關鍵字以及提交查詢作品圖像進行檢索。本文對圖像特征提取技術、特征匹配等技術進行了研究,能夠完成圖像輸入、數據庫管理、圖像處理、圖像檢索等各項功能。美術作品豐富多彩,內容多種多樣。由于本文采取的多特征檢索技術還只是基于圖像的低層視覺特征,而未涉及與人類判斷更貼近的高層語義特征。在今后的研究中,用什么特征來描述圖像,如何快速特征匹配、如何人機交互,如何實現信息共享網絡化等都將是需要攻克的難點。
[1] 楊建林.基于本體的文本信息檢索研究[J].信息系統,2006.
[2] 李向陽,莊越挺,潘云鶴.基于內容的圖像檢索技術與系統[J].計算機研究與發展,2001.
[3] 王濤,胡事民,孫家廣.基于顏色-空間特征的圖像檢索[J].軟件學報,2002.
[4] 王惠明.基于MPEG-7的圖像視頻檢索系統研究與實現[D].北京:中國傳媒大學,2007.
[5] 李劍,王加俊.基于形狀的圖像檢索技術研究[D].蘇州:蘇州大學,2009.
[6] Hu Mk.Visual pattern recognition by moment invariants[J].IRE Trans.on Information Theory,1962(2):179-187.
[7] 李悅,覃團發.MPEG7區域綜合特征匹配的圖像檢索算法[J].中國圖象圖形學報,2009.
[8] Shuai Qin,Qin Tuanfa,Tang Zhenhua.Image retrieval system based on edge histogram descrip tor of MPEG7[J].Journal on Communications,2005,26(12A):9213.
[9] 韓殿元.基于內容圖像檢索中的綜合特征歸一化方法[J].濰坊學院學報,2006.