仲寶才,張福泉,徐 琳
(1.成都東軟學院 計算機科學與技術系,四川 成都 611844;2.北京理工大學 軟件學院,北京 100081;3.福建師范大學 創新信息產業研究所,福建 倉山 350007)
基于內容的圖像檢索技術(CBIR)主要是通過計算查詢圖像和數據庫特征之間的相似性來搜索目標圖像[1,2]。盡管CBIR可基于視覺內容完成圖像檢索,但是由于視覺特征與語義屬性間易出現語義鴻溝,使得CBIR系統不能通用化、高效化,且CBIR對于用戶的習慣是不自然的[3]。
近年來,隨著圖像共享網站的發展,如Flickr、Picasa用戶提供的標簽,成為一種新的方式來描述圖像的內容。與其它文本描述相比,標簽能更準確、更有效地表示社交圖像的視覺內容。因此,基于標簽的圖像檢索(TBIR)能有效解決CBIR的不足[4]。如陳飛等[5]提出一種目標提取和哈希機制的標簽圖像檢索方法。該方法提高了TBIR性能,但是其不能同時有效含有多個目標的復雜圖像。因為對于含有多個目標的復雜圖像時,只用一個哈希碼不能準確描述每個目標,從而降低了檢索精度。周燕等[6]設計了2D壓縮感知與分層特征的圖像檢索技術。該方法對于簡單點的圖像能夠有效檢索,但對于較復雜的圖像時,其檢索精度不高,易出現語義鴻溝,且對參數較敏感。李軍等[7]設計了一種視覺注意機制與CNN的圖像檢索方案。通過可變長度特征序列表示圖像,通過CNN(convolutional neural network)提取底層特征作為序列模型;再利用中間層LSTM(long short-term memory)形成局部特征的相關性描述;其次,通過視覺注意LSTM得到向量表示圖像;利用匈牙利算子測量圖像相似度得到圖像檢索結果。該方法對多標簽圖像能較好提高檢索性能。但對于圖像標簽不完整、模糊、含噪聲時,易導致圖像檢索精度不高。
圖像和標簽之間的關系可以用標簽圖像矩陣表示,標簽圖像矩陣中的值為1或0,其對應的矩陣元素可以反映標簽與圖像間的相關性。因此,本文利用圖像標簽,提出了非負矩陣分解耦合視覺多樣性的圖像檢索算法。通過NMF對低秩空間中發現標簽的相關性,最后根據分解因子的乘積來完成缺失標簽的重構,得到標簽圖像矩陣。并在NMF過程中嵌入了整體視覺多樣性,利用最小化圖像之間的總平方差和標簽來減少標簽的整體視覺多樣性。然后,為保證標簽圖像矩陣的正確校正和稀疏性,引入兩個正則化因子對其進一步優化,將兩個正則化因子與NMF、整體多樣性相結合,并控制優化框架的復雜性。最后,通過計算圖像矩陣的標簽語義距離進行相似度量,完成圖像檢索。提出方法的主要貢獻如下:
(1)NMF用于發現標簽之間的語義相關性,并完成標簽之間的缺失關系,其中NMF可以將標簽投射到潛在的低秩空間,并推斷標簽之間的缺失關系。
(2)提出了標簽的整體視覺多樣性,并通過圖像與標簽特定手段的差異來衡量。
(3)為了防止過度計算,采用微分和稀疏項來控制提出的方法的復雜性。
圖1顯示了提出的標簽完備的結構,主要包含了標簽的語義相關性、整體視覺多樣性和優化計算。對于標簽的語義相關性測量,引入NMF發現標簽間的缺失關系。然后,利用圖像之間的總平方差來衡量標簽的整體視覺多樣性。最后,引入兩個正則項來降低計算復雜度。圖1(a)部分為用戶提供的圖像矩陣,圖1(b)為非負矩陣分解過程,圖1(c)為計算整體視覺多樣性,圖1(d)為通過正則項優化并進行重構,生成了最后的標簽圖像矩陣。根據圖1得出,經過一系列的運算,得到的標簽圖像能更細分圖像內容,對相似內容具有更好的描述。

圖1 圖像標簽完備結構
標簽的目的是估計已完成的標簽圖像矩陣T,T(i,j)表示將標簽t(i)分配給圖像x(j)的概率。在本文中,將通過優化框架來估計完備的矩陣T。

minTDs(T)+λcDc(T)+λrDr(T)
(1)

本文算法流程如圖2所示。

圖2 本文圖像檢索算法過程
矩陣分解技術可以看作是將原始矩陣映射到子空間,并求出原始矩陣的低秩近似值[8]。因此,矩陣分解技術可以用來發現對象之間的關系,已有的方法是在矩陣分解中引入不同的約束條件,例如主成分分析(PCA)和部分潛在語義分析(LSA)。在矩陣分解技術中,NMF比其它技術有更優越的性能[9]。針對不同的應用,本文中提出了基于傳統NMF的改進方法,在標簽圖像矩陣中,負數項不能很好理解,因此,其約束條件為矩陣中元素為非負項,也就是所有元素必須等于或大于零。因此,利用非負矩陣分解可以發現標簽之間的相關性,并利用分解因子的乘積來完成缺失標簽的重構。
正如我們已經討論過的,重建矩陣T的成本最小化可以通過以下方法來解決
(2)
其中,T≈WH,i,j,a,b為矩陣中的指標。對于已知T,尋找非負矩陣W,H,使T≈WH。通過分析可理解為:T的列向量為多W中列向量的加權和;而權重系數為H相對的列向量。因此,W可稱為基矩陣,H可稱為系數陣。對此,通過利用系數矩陣代替原矩陣,可完成對原矩陣降維,獲得數據特征的降維處理,從而減少運行空間,提高效率。
為簡化書寫,T(i,j)可表示為Tij。W,H為矩陣T的分解因子。此外,W,H可理解為系數矩陣W和基矩陣H的乘積。從這個角度看,基矩陣H描述了潛在的低秩子空間,通過H可以發現標記的相關性。因此,目標函數Ds(T)可定義如下
(3)
通過NMF探索了標簽的語義關系,同樣,也考慮圖像的視覺內容之間的關系[9]。具有相同標簽的圖像在內容上更相似,在視覺特征空間中彼此接近。因此,視覺特征空間中的圖像差異可以稱為視覺多樣性。在本文中,利用圖像之間的差異和標簽特性方式來描繪視覺多樣性,對于標簽完備問題,具有相同標簽的圖像在標簽完備后可能更接近,視覺多樣性應該更低[10]。
為了減少所有圖像的整體視覺多樣性,需將圖像的整體平方差與減少。對于Ti,j來說,其表示第i標簽相對于第j個圖像的概率,概率Ti,j可以作為計算圖像的加權平均的權重,圖像的均值越高,其概率越高。基于這一觀察,可以對整體視覺多樣性Dc(T)進行計算
(4)
其中,vjz為第j圖像視覺特征向量vj的第z個成分。d為視覺特征vj的維度。ui為第i個標簽視覺特征的第2個成分所對應的加權平均向量,表示如下
(5)
結合vj的行與列,構建視覺特征矩陣V,表示如下
(6)

(7)
因此,整體視覺多樣性Dc(T)通過矩陣形式表示為
(8)
其中,“·”為點積運算。
本文引入兩個條件作為正則項來控制優化框架的復雜性。①已完備的標記圖像矩陣不應與原始用戶提供的標記圖像T矩陣發生顯著變化,因此,利用已完備的標簽圖像矩陣與原始標記圖像矩陣T0的差異來懲罰它們的變化。②標簽圖像矩陣可能是稀疏的,因為每個圖像通常標記的標簽比整個標簽集少,因此,通過標簽圖像矩陣的Frobenius范數來表示T的稀疏性[11]。
結合上述提到的兩個條件,正則化項Dr(T)的函數表示為

(9)
通過對非負矩陣分解、整體視覺多樣性、正則化項的描述,將這3個過程線性結合起來,形成了一種優化框架,定義如下

(10)

初始化:0<β<1,0<σ<1
執行:Xk+1=P[Xk-αk▽f(Xk)];
iff(Xk+1)-f(Xk)≤σ▽f(Xk)(Xk+1-Xk)
doαk+1=αkβ;
elseαk+1=αk;
end
在將投影梯度法應用于最優化問題之前,先介紹下基本投影梯度法。在算法1中給出了邊界約束優化的基本投影梯度法。投影梯度法是一種迭代方法,計算變量的梯度,并在每次迭代中沿著梯度的負方向更新變量[13]。參數α決定步長大小和變化,可變步長保證了每次迭代目標函數值逐漸減少。在算法1中的分段函數P[.]定義如下

(11)
其中,u,l分別為變量x的上下邊界。
在本文中,通過交替迭代將基本投影梯度法推廣到標記完備問題上。定義式(10)中的目標函數為f(T,W,H),其在W,H,T處的梯度計算分別表示如下
▽Hf(T,W,H)=(WH-T)WT
(12)
▽wf(T,W,H)=(WH-T)HT
(13)

(14)
根據式(12)~式(14)的梯度函數,W,H,T的更新規則定義如下
Hk+1=P[H-αh▽Hkf(T,W,H)],lh=0
(15)
Wk+1=P[Wk-αw▽wkf(T,W,H)],lw=0
(16)
Tk+1=P[Tk-αt▽Tkf(T,W,H)],lw=0,ut=1
(17)

算法2: 標簽完備問題的交替投影梯度法

執行:
a.確定T,計算W,H的最優解;
重復 根據式(15)~式(16)計算Hk+1,Wk+1,根據更新規則更新aw,ah;
k=k+1;
Until 收斂
b.確定W,H,計算T的最優解;
重復 根據式(17)計算Tk+1,根據更新規則更新at;
k=k+1;
Until 收斂;
END
圖像由多個標簽語義構成,其視覺特征可以用標簽語義集表示[14]。標簽作為圖像描述的元數據,可表征其語義內容。圖像語義內容越相似,視覺特征也越接近;相反,圖像語義內容相似度越低,視覺特征差異越大[14]。
在一組圖像集中{d1,d2,…,dn},設第i個圖像di;t(di)為圖像全部標簽集;t(di)={t1di,t2di,…,tndi};m為di中標簽數。對于圖像di與dj的標簽差異Score(di,dj)為
(18)
其中,dis(t(di),t(dj))為di與dj的標簽語義距離,sim(t(di),t(dj))為di與dj的標簽語義相似性。
為對提出的算法性能測試,在3個常用的數據集中測試:Flickr25K,VOC2012。測試條件為:Intel i5 4核CPU,3.50 GHz,8 GB RAM,64位WIN8系統。測試平臺為Matlab2010。為突顯本文算法的優異性,選取當前流行的檢索算法:文獻[5-7]對比,為便于記錄,依次記為A算法、B算法、C算法。
Flickr25K是來自Flickr中的25 000圖像構成[15]。該數據庫含有38種語義標簽,每幅圖像擁有若干個標簽,平均每幅圖像的標簽2.8個。隨機選取其中的2000幅為測試集,剩下的圖像作為訓練集。
VOC2012數據庫共有11 530個圖像[16],20 種標簽,平均每個圖像擁有的標簽數為2.8個。隨機選取其中的2000幅圖像作為測試集,剩下的圖像作為訓練集。
為衡量算法的性能,利用平均累計收益(ACG)與平均相似度(MAP)作為算法的評價指標,定義如下[17]:
平均累計收益(average cumulative gain,ACG)是返回的前m個圖像的平均相似度,表示如下
(19)
其中,r(i)為第i個返回和查詢圖像相同的標簽數。
MAP 是查詢集中所有圖像的平均檢索準確度
(20)
其中,M為查詢圖像庫的大小;APw為每幅圖像的平均相似度,定義為
(21)
其中,δ為指數函數。當在相似度級別p所返回圖像數量(rp)大于0時為1,反之為0。
為了評價TBIR性能,通過精度對算法統計,給定指定的標簽后,該算法根據標簽的概率返回搜索的圖像。圖3為在Flickr25K數據集中進行兩組實驗,分別返回圖像數N=10與N=20。對指定標簽的圖像都會返回,可以看出,對不同的標簽得到的返回精度相差較大。對比返回圖像數N=10與N=20,當對每個圖像的更多標簽進行評估時,標簽完備的影響更為有效。

圖3 Flickr25K圖像集中不同返回圖像統計
圖4為查詢圖像,圖5~圖8為分別通過不同方法得到的最相似的9幅返回圖像。從返回圖像中看出,圖5中本文算法得到的返回圖像與查詢圖像相似度最高,基本上都包含了查詢圖像中的重要目標(蒼鷺與樹枝)。圖6中返回的結果中誤返回了一只白鷺圖像。圖7中誤返回了2幅麻雀圖像。圖8中誤返回了綠鷺、含有較多樹林的建筑圖像。實驗結果表明:相對其它3種算法,本文算法具有較高檢索精度,返回的圖像與查詢圖像相似度高。主要是因為本文對圖像進行NMF,利用NMF可以發現標簽之間的相關性,得到了圖像的基矩陣與系數矩陣。為了考慮圖像的視覺內容,更好辨別內容相似的圖像,在NMF過程中嵌入了整體視覺多樣性,利用圖像之間的差異和標簽特性方式來描述繪視覺多樣性。同時為保證標簽圖像矩陣的正確校正和稀疏性,引入兩個正則化因子對其進一步優化,并根據分解因子的乘積來完成缺失標簽的重構,得到標簽圖像矩陣。為了更好完成檢索,提高精度,通過計算圖像矩陣的標簽語義距離進行相似性度量,完成圖像檢索。而A算法中不能同時有效含有多個目標的復雜圖像,對含有多個目標的復雜圖像時,其只用一個哈希碼不能準確描述每個目標,檢索性能不佳。B算法對于簡單點的圖像能夠有效檢索,但對于較復雜的圖像時,其檢索精度不高,易出現語義鴻溝,且對參數較敏感。C算法中在多標簽數據集上能較好提高檢索性能。但對于圖像標簽不完整、模糊、含噪聲時,易導致圖像檢索精度不理想。

圖4 查詢圖像

圖5 Flickr25K數據集中本文算法檢索

圖6 Flickr25K數據集中A算法檢索

圖7 Flickr25K數據集中B算法檢索
為了準確評估算法的性能,分別在Flickr25K,VOC2012中測試ACG與MAP,結果如圖9、圖10所示。根據圖9中,在Flickr25K中,本文算法得到的ACG與MAP曲線均優于對照組算法,隨著返回圖像數量的增加,曲線逐漸降低,變化平穩,圖10為在VOC2012數據庫中得到的ACG與MAP曲線圖。依據圖10得知,隨著返回圖像數量的增加,曲線逐漸降低,變化平穩。圖9與圖10得到ACG與MAP曲線結果表明本文算法的檢索性能最優。

圖8 Flickr25K數據集中C算法檢索
針對于圖像標簽不完整與模糊,標簽丟失等易導致圖像檢索不準確等不足,提出了一種TBIR算法。通過聯合標簽的語義相關性和圖像的視覺相似性來完成并優化標簽圖像矩陣。圖像和標簽之間的關系可以用標簽圖像矩陣表示,標簽圖像矩陣的元素反映了標簽與圖像間的相關性。因此,利用NMF對潛在的低秩空間中發現標簽之間的相關性。為更好辨別內容相似的圖像,在NMF過程中嵌入了整體視覺多樣性,通過最小化圖像之間的總平方差和標簽特定的方法來減少標簽的整體視覺多樣性。引入兩個正則化因子對其進一步優化,降低復雜性,并根據分解因子的乘積來完成缺失標簽的重構,得到標簽圖像矩陣。為了完成圖像檢索,通過計算圖像矩陣的標簽語義距離進行相似性度量。實驗驗證了提出算法具有優異的檢索性能,獲得良好的ACG與MAP評價指標。

圖9 Flickr25K 數據集測量結果

圖10 VOC2012數據集測量結果