韓建敏,李國偉,王振飛
(1.河南經貿職業學院 計算機工程學院,河南 鄭州 450000;2.中原工學院 計算機學院,河南 鄭州 450000;3.鄭州大學 信息工程學院,河南 鄭州 450001)
傳統的基于文本的檢索存在主觀性與長耗時缺點,對此,出現了基于內容的圖像檢索(content based image retrieval,CBIR)[1]。但是,CBIR的主要問題是存在底層特征和高層語義概念之間的語義鴻溝[2,3]。
隨著人們對圖像檢索的關注,出現了較多的方法,如符祥等[4]利用興趣點的局部灰度值,獲取局部Zernike。其次,通過得到的Zernike矩,測量興趣點之間的Euclidean距離,尋找出最優匹配點。根據特征點的空間離散度進行相似度量。但是此技術沒有將人機交互的相關反饋應用于算法中,致使該方法捕抓的特征并不一定符合用戶的感興趣特征,易導致語義鴻溝。劉保東等[5]設計了利用多特征和相關反饋的圖像檢索技術。該技術定義一種自適應閾值的SIFT特征算子,有效提取SIFT特征。引入AP簇類技術對SIFT特征進行簇類,將簇類的中心當作視覺單詞,利用得到的視覺單詞建立一個詞典。再將之前獲得的SIFT特征映射到詞典中,利用VW直方圖來表示圖像。然后,測量不同直方圖間的相似性,完成圖像檢索任務。但是,其采用的特征是屬于全局特征,缺乏空間信息,特征之間關聯性不強。Mania等[6]利用粒子在空間中的運動來搜索未知的未知,基于標簽的相關圖和不相關圖調節特征矢量的權重值,可以改善檢索精度。但該方法中只計算了相關圖和不相關圖的全局信息,沒有根據局部信息準確對圖像完成相關辨別,檢索率不高。
對此,為了解決檢索過程中的語義鴻溝現象,進一步提高檢索性能,本文提出了基于自適應約束的種子繁衍機制ACSM的交互式圖像檢索,從用戶對整個數據的交互信息有效地傳播成對約束。利用ACSM從查詢圖像提取用戶感興趣的區域(ROI),然后通過測量圖像與ROI之間的相似度來獲得初始檢索結果。然后,在整個數據庫中,利用ACSM機制,對用戶的相關反饋進行檢索排序,從而顯著地提高了檢索性能。最后,測試了所提算法的檢索精度。
給定一對監督約束“鏈接”M和“非鏈接”C,執行一個核映射φ,將樣本X={x1,x2,…,xn}映射到一個嵌入式內核特征空間F中,其中φ=[φ1,φ2,…,φn]=[φ(x1),φ(x2),…,φ(xn)]表示X到F的變換。根據成對的假設來嵌入樣本[8],即兩個鏈接的樣本被映射得很近,而兩個非鏈接的樣本則被映射得很遠。同時樣本也根據平滑性假設來嵌入,使兩個樣本也變得類似于成對的樣本那樣接近或遠離。
將目標函數中的自適應約束嵌入到視覺特征分布和監督約束的樣本中,根據整體的數據分布使得“鏈接”自適應地接近,并且“非鏈接”自適應地變遠。根據文獻[9]描述,目標函數的核映射定義如下

(1)
其中,tr(·)和·分別為蹤跡和內積運算;λ、α和β為權重參數;歸一化圖Laplacian算子L=I-D-1/2WD-1/2,其具有X的關聯矩陣W,度矩陣D=[dij]nn、dii=∑jwij;EM=∑(i,j)∈M(ei-ej)(ei-ej)T、EC=∑(i,j)∈C(ei-ej)(ei-ej)T,ei是n×n單位矩陣I的第i列;當tr(φ,EMφ)和tr(φ,ECφ)滿足自適應約束條件時,tr(φ,Lφ)進行全局平滑作用;A=λL+αEM-βEC是一個廣義Laplacian算子,EM和EC為約束信息。
為了完善模型(1)的應用,受到標簽傳播(label propagation,LP)的啟發[10],LP是將種子標簽從標記樣本傳播至未標簽樣本,本文在內核學習中引入了種子學習和傳播,先學習一個種子核映射φl,再把它擴散到未知的子模塊φu以降低計算復雜度。將內核映射φ分解為φl和φu,分別對應于監督樣本和非監督樣本,并將受限拉普拉斯分成下列計算

(2)
根據式(2)描述,式(1)可演變為
tr(φ,Aφ)
(3)
φl、φu的是根據將式(3)設置等于零的偏導數推導得到的,φu計算如下
(4)
此外,根據φl的形式可得到φ的表達式
(5)
其中,Il是與約束樣本相關的單位矩陣。通過用φ的內積定義Mercer核[11]k(xi,xj)=φi,φj,所生成的核矩陣K表示如下
(6)


(7)
利用分解約束Laplacian算子將式(2)中A和式(6)中K求解,得到了如下種子核矩陣Kll所表示的目標函數
(8)
根據式(8),本文可通過解決以下的種子內核學習問題來學習種子內核矩陣Kll,表示為
(9)
Kll(i,i)=1, ?xi∈X
然后,通過式(6)將Kll傳播至K中。本文采用自對偶嵌入優化來執行式(9)中的種子學習,將這種判別性的核矩陣學習算法稱作為自適應種子繁衍機制,其過程如下:
輸入:X-樣本集;M-必需連接約束;C-非鏈接約束。
輸出:經學習的判別性核矩陣K*。
步驟1 形成拉普拉斯算子圖,L,以及監督信息的矩陣EM和EC;
步驟2 計算約束Laplacian算子A:A=λL+αEM-βEC,并且將其分成4個子矩陣;


感興趣視覺特征耦合種子繁衍機制的圖像檢索算法的過程主要包含了4部分,其結構如圖1所示。第1部分的交互式前景提取,旨在利用簡單的用戶交互來分割查詢圖像中的前景目標,并提取前景目標的ROI特征,利用ACSM保存的交互信息的統計特性。在第2部分中,對數據庫中的圖像分割,然后,提取局部特征,并存儲于數據庫。在第3部分中,測量了第1部分和第2部分之間的相似性,并將它們與查詢圖像前景對象的距離進行排序。由于顏色直方圖(color histogram,CH)能有效表示圖像的統計分布,所以我們使用CH作為圖像檢索的特征。利用RGB彩色空間是用來計算CH。在4部分,利用ACSM改進第3部分中的初始檢索結果。從相關反饋中進行主動學習完成對圖像再排序。

圖1 本文算法的檢索過程
給定一個圖像,利用ACSM從查詢圖像提取用戶ROI,通過測量圖像與ROI間的相似度來獲得初始檢索結果。然后,利用ACSM在整個數據庫中根據用戶的相關反饋進行排序。對于ROI提取,均值平移分割(mean-shift segmentation,MSS)[12]由于具有良好的不連續性濾波特性,可以顯著減少基本圖像實體的數目,同時保留對象邊界的顯著特征。因此,本文采用MSS從查詢圖像中生成超像素,然后從超像素中提取出特征。顏色直方圖能有效地代表色彩的統計分布,因此,其是一個很好的描述符來表示圖像里的區域統計特性。所以,通過顏色直方圖作為前景提取的特征。為了簡單起見,在RGB色彩空間中計算CH。首先,將每個色彩通道平均量化為4組,然后計算大小為16×16×16=4096的特征空間里的每個超像素的顏色直方圖。此外,采用巴氏系數wij來計算兩個超像素間的相似性[13],兩個超像素xi和xj之間的wij計算公式定義如下
(10)
其中,H(x)是一個超像素x的歸一化顏色直方圖;M代表維數。
在ROI提取中,符合前景標記的超像素為前景種子,而符合背景標記的超像素則為背景種子。從背景中提取前景目標時,需要將不確定的超像素確定為其屬于前景還是背景,因為只有一小部分的前景和背景超像素是由用戶指定的,因此,想要準確地從背景中提取出前景目標,仍然是一個具有挑戰性的問題。為了能有效地捕獲前景/背景種子中的全局判別性結構,將ACSM運用到所有的查詢圖像像素上。首先,通過式(9)學習種子核矩陣,在前景/背景種子中生成對約束。如果兩個種子有相同的標記,則它們屬于必須鏈接約束,反之,如果兩個種子有不同的標記,則它們屬于非鏈接約束。然后,在式(6)通過將種子核矩陣傳播獲得查詢圖像的完整核矩陣。為了實現前景提取,在已學習的完整核矩陣上進行全局k-均值計算[14],將前景/背景的一個標簽指派給不確定的部分。
ROI提取,如圖2所示。

圖2 ROI提取
在獲取前景目標之后,引入Euclidean距離測量ROI與數據庫中局部特征間的相似性,Euclidean距離的大小反應了兩個像素間的相似性[15],其越小表示其差異越小。Euclidean距離定義如下

(11)
其中,xi,xj分別為ROI與數據庫的局部特征;P為查詢圖像數量。
在測量Euclidean距離之后,基于相似性對圖像進行排序。如果檢索性能非盡如人意,用戶可以為檢索結果提供相關反饋(相關/不相關)以用于圖像再排序(圖1中的第4部分)。因此,可從相關的反饋中生成圖像的成對約束,從查詢和相關圖像中生成必須鏈接對,而從查詢和非相關圖像中生成非鏈接對。然后,在成對約束和圖像上執行ACSM,將用戶的相關性反饋傳播至整個數據庫并且學習全局判別性結構用于圖像再排序。通過下文描述的主動學習部分中的學習特征來衡量圖像之間的相似性,以便排序。ACSM對相關反饋下的低層圖像特征與高層語義的相關性的學習是非常有效的。
主動學習主要是通過主動選擇策略選取信息量較多的成對約束,用盡可能少的約束信息來盡量多地提高簇類效果。常用的方法是將無標簽的數據構成一個樣本池,在根據選擇策略進行估計,從而選擇低置信度的數據完成標簽。本文選擇最近邊界策略(recent frontier policy,RFP),定義如下

(12)


(13)

(14)
式中:α∈[0,1]為調整因子。由于不同樣本數量與分類SVM球面半徑不相等,導致其計算較為復雜。為了便于計算,將初始樣本計算獲得的無監督SVM模型的R進行歸一化。當數據獲得值小于閾值時,說明數據是聚類代表樣本點,對優化模型最有價值,選取作為標簽樣本。
基于ACSM機制的圖像檢索算法描述如下:
輸入:查詢圖像和圖像數據庫。
輸出:圖像檢索結果。
步驟1 從用戶互動中生成區域級別的成對約束,并根據“1基于自適應約束的種子繁衍機制”的過程執行ACSM;
步驟2 執行全局k-均值算法以從查詢中提取ROI;
步驟3 對圖像排序并且選擇相關/不相關的檢索結果;
步驟4 從相關反饋中生成圖像的成對約束,并再次執行ACSM;
步驟5 對圖像排序以輸出最后檢索結果。
為測試本文算法性能,選擇在Corel圖像集中測試。Corel圖像集由10類圖像組成[16]:非洲、海灘、建筑、公車、恐龍、象、花卉、馬、山川與食物,每類含100幅,共1000幅,如圖3所示。測試環境為:Intel i3 8核CPU,3.50 GHz,8 GB RAM,64位WIN8系統。借助Matlab2012作為測試軟件。為達到最優的性能,通過多次實驗得到了本文算法的參數:α=0.26,β=0.25,λ=0.21。為突顯本文算法的優異性,選取當前流行的檢索技術視為對照組:文獻[4]、文獻[5]和文獻[6],為便于記錄,依次記為A算法、B算法、C算法。

圖3 Corel圖像庫
為評估算法檢索性能,選擇常用的3種評價指標:查準率(Precision)、召回率(Recall)和F值。F值為Precision和Recall的加權評價值[17],其函數表示如下
(15)
(16)
(17)
其中,Tp為正確識別偽造數量;Fp為誤判為偽造數量;FN為漏檢的偽造數量,η為常數,通常取1[18]。
為評估算法的性能,在Corel中,分別通過A算法、B算法、C算法與本文算法進行測驗,實驗中給定一幅查詢圖像,利用不同的算法返回得到16幅最相似圖像。圖4為查詢圖像(query image,QI)。圖5~圖8分別是本文算法、C算法、B算法、A算法返回的圖像。從圖5~圖8中得知,本文算法返回的結果均含有大象,與QI相似性最高;圖6中返回的結果中出現了一匹馬,與QI中的對象(大象)不相關,見圖中最后一張;圖7中返回的結果中出現了馬和恐龍2幅圖像,與QI中的對象(大象)不相關,見圖最后兩張;圖8中返回的結果中出現了馬和恐龍3幅圖像,與QI中的對象(大象)不相關,見圖中最后3張。

圖4 查詢圖像

圖5 本文算法檢索結果

圖6 C算法檢索結果

圖7 B算法檢索結果

圖8 A算法檢索結果
根據圖5~圖8結果得出,提出算法取得了優良的效果,得到的返回圖像與查詢圖像相似度高。主要是本文引入用戶交互和主動學習的相關反饋,根據種子核映射,定義了ACSM算子,以提取用戶ROI特征。再利用Euclidean距離測量查詢圖像與數據庫圖像的相似度,利用測量的相似度來獲得初始檢索結果。最后,利用ACSM機制從用戶的相關反饋中主動學習來排序,使其能有效從ROI與相關反饋中學習圖像的低層特征和高層語義之間的關聯,提高圖像檢索精度。A算法中由于沒有將人機交互的反饋機制在檢索算法使用,導致該算法獲取的相似區并不一定符合用戶的興趣區域,出現了語義鴻溝。B算法中其采用的特征是屬于全局特征,缺乏空間信息,特征之間關聯性不強。C算法中計算了相關圖和不相關圖的全局信息,沒有根據局部信息準確對圖像完成相關辨別,檢索率還有待提高。
為定量評估算法性能,利用評價指標Precision、Recall和F值衡量。圖9為在Corel中不同類圖像的評價Precision統計,從圖9中看出,對不同種類圖像,提出算法的Precision取得了良好表現。

圖9 不同類別圖像的平均Precision
圖10為不同檢索方法得到的P-R曲線與F值。圖10(a)為P-R曲線,圖10(b)為F值。根據圖10中看出,本文算法的P-R曲線走勢平穩,相對性能優于其它3個對比算法,綜合表現最優。F值綜合了P和R的結果,反映了整體指標,從圖10(b)中看出,本文算法F表現最佳,說明其綜合檢索性能最優。

圖10 不同算法的定量評價
為減少檢索中的語義鴻溝現象,提高圖像檢索性能,通過自適應傳輸監督信息的全局特征空間進行判別學習,設計了感興趣視覺特征耦合種子繁衍機制的圖像檢索算法。為了提高查詢圖像中用戶興趣的捕獲和表示能力,采用區域分割的局部特征代替全局特征。定義了一種ACSM算子,提取圖像的ROI,從用戶對整個數據的交互信息有效地傳播成對約束。ACSM能夠有效地從用戶的互動中學習圖像的底層特征與高層語義概念之間的相關性。其在整個數據庫中根據用戶的相關反饋進行檢索結果排序,并有效學習給定特征與約束的全局判別結構,從而顯著地提高了檢索性能。實驗結果表明提出的算法檢索性能優異,有效降低了語義鴻溝現象。