徐望明,方康玲
(武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081)
責(zé)任編輯:任健男
圖像特征被廣泛應(yīng)用于圖像處理與分析中作為圖像的有效表達(dá)方式,其典型應(yīng)用之一就是基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)。給定查詢圖像,CBIR直接從圖像庫(kù)中查找與之視覺(jué)特征相似的圖像,這種“圖找圖”式的依據(jù)視覺(jué)特征相似度給出圖像檢索結(jié)果的方法克服了傳統(tǒng)的基于關(guān)鍵字的圖像檢索技術(shù)“字找圖”式的不足,成為當(dāng)前智能信息檢索領(lǐng)域的研究熱點(diǎn)[1]。
近年來(lái),圖像局部特征因其良好的可重復(fù)性、可分辨性和魯棒性得了廣泛重視和飛速發(fā)展,很多圖像局部特征被相繼提出(如SIFT[2],HOG[3]等),并用于CBIR等視覺(jué)任務(wù)中,彌補(bǔ)了圖像全局統(tǒng)計(jì)特征(如顏色、形狀、紋理等)的不足。然而,圖像上所提取的局部特征因其數(shù)量較多、維數(shù)較高也給大規(guī)模圖像檢索任務(wù)帶來(lái)了新挑戰(zhàn)。這種“高維局部特征集”表示圖像的方式,由于進(jìn)行相似性度量的時(shí)間和空間復(fù)雜度高而難以適應(yīng)大規(guī)模數(shù)據(jù)庫(kù)環(huán)境下的圖像檢索任務(wù),而圖像的全局表示形式(Holistic Representation)用一個(gè)向量表示一幅圖像,在這方面則有其天然優(yōu)勢(shì),因?yàn)槿魏蝺煞鶊D像的相似性直接可用向量之間的距離函數(shù)來(lái)度量。
為了使圖像的表示形式既能像局部特征一樣有描述圖像細(xì)節(jié)信息的能力,又能像全局特征一樣簡(jiǎn)潔明了,本文提出利用“稀疏學(xué)習(xí)”的思想,從訓(xùn)練圖像的特征數(shù)據(jù)中建立超完備視覺(jué)詞典,采用局部稀疏編碼(Local Sparse Coding)和最大值合并(Max Pooling)將圖像“高維局部特征集”轉(zhuǎn)化為更高維的稀疏特征向量[4],然后通過(guò)直接計(jì)算向量相似性得到圖像相似性,并應(yīng)用于CBIR系統(tǒng)中。另外,本文不是使用單一局部特征,而是選取了信息互補(bǔ)的不同局部特征構(gòu)成異質(zhì)局部特征,從而能從多角度描述圖像的內(nèi)容,在CBIR系統(tǒng)中能得到比單一局部特征更好地檢索結(jié)果。
如何從原始“像素級(jí)”表示的圖像中提取有更強(qiáng)表示能力的圖像特征一直是圖像分析任務(wù)首先要解決的問(wèn)題,也一直是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的研究熱點(diǎn)。
為了適應(yīng)大規(guī)模圖像數(shù)據(jù)庫(kù)環(huán)境下的應(yīng)用,可借助學(xué)習(xí)機(jī)制將提取的圖像底層局部特征的集合通過(guò)“多對(duì)一”映射(編碼)成為一種全局表達(dá)方式,即用一個(gè)向量來(lái)表示一幅圖像,以便在圖像檢索任務(wù)中使用通用的相似性度量方法來(lái)比較圖像的相似性,迅速返回檢索結(jié)果。不同于通常所說(shuō)的顏色、形狀、紋理等全局統(tǒng)計(jì)特征,這是一種構(gòu)造在局部特征基礎(chǔ)上的全局特征,它仍能保留接近于圖像底層的細(xì)節(jié)信息,可看作是較高一層的特征表示,這就向著“語(yǔ)義層”特征表示又前進(jìn)了一步。目前這類特征中比較典型的例子是BoVW(Bag of Visual Words)[5],S.Lazebnik等人則使用SPM(Spatial Pyramids Matching)[6]方法對(duì)其進(jìn)行了改進(jìn),在一定程度上加入了局部特征的空間分布信息。
另外,壓縮傳感和稀疏表達(dá)理論近年來(lái)在信號(hào)處理、模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域中掀起新一輪熱潮,在人臉識(shí)別、場(chǎng)景分類等諸多應(yīng)用中都取得了較好效果。其中一個(gè)核心的概念就是稀疏編碼,最早源自Barlow等人對(duì)生物視覺(jué)系統(tǒng)研究而提出的有效編碼假設(shè)[7]。Olshausen和Field則進(jìn)一步提出了著名的稀疏編碼模型[8],該模型通過(guò)基向量(或基函數(shù))線性相加表示輸入圖像,在最小均方差意義下使重構(gòu)圖像盡可能地與原圖像相似,同時(shí)要求表示系數(shù)盡量稀疏化。在此基礎(chǔ)上,很多研究者在稀疏編碼模型的理論和應(yīng)用方面做了大量的工作,取得了豐碩成果,也提出了許多改進(jìn)的稀疏編碼模型。
對(duì)于圖像數(shù)據(jù),這些稀疏編碼模型大多是從自然圖像中“隨機(jī)”選取若干圖像塊(按像素灰度值排列成多維向量)構(gòu)成一個(gè)訓(xùn)練集合,加以訓(xùn)練學(xué)習(xí)后得到基向量和對(duì)應(yīng)圖像的稀疏表示(編碼)。隨機(jī)采樣的子圖像塊作為樣本會(huì)給學(xué)習(xí)過(guò)程帶來(lái)不穩(wěn)定性(比如引入背景或非目標(biāo)區(qū)域噪聲、對(duì)圖像尺度、方向、視覺(jué)、亮度變化敏感等),從而學(xué)習(xí)到的基向量不一定具有代表性,并可能存在大量噪聲信息冗余。針對(duì)以上這些問(wèn)題,考慮到目前流行的圖像局部特征(如SIFT等)本身就是對(duì)圖像中感興趣區(qū)域(圖像塊)的一種優(yōu)于“像素級(jí)”的多維向量表示形式,因此,直接以圖像局部特征作為訓(xùn)練樣本,并采用稀疏編碼模型學(xué)習(xí)基向量和圖像的稀疏表示,是特征學(xué)習(xí)方法研究的新趨勢(shì)。研究者們最近幾年來(lái)在這方面做了一些嘗試,并在圖像重構(gòu)、圖像分類等應(yīng)用中取得了較好效果[9-11]。
但其訓(xùn)練數(shù)據(jù)(局部特征)大多是在圖像上密集采樣的結(jié)果,一般都只使用單一的視覺(jué)特征。密集采樣得到的特征數(shù)比基于興趣點(diǎn)檢測(cè)得到的特征數(shù)要多得多,而且極易引入背景和非目標(biāo)區(qū)域噪聲,另外單一視覺(jué)局部特征一般是精心設(shè)計(jì)的,是對(duì)圖像塊某一屬性的描述,如果還能聯(lián)合其他信息互補(bǔ)的局部特征,如基于興趣點(diǎn)檢測(cè)的特征加上基于局部紋理或形狀描述的特征,則描述能力會(huì)更強(qiáng)。
本文正是以此為突破點(diǎn),運(yùn)用稀疏學(xué)習(xí)的思想,將SIFT(Scale Invariant Feature Transform)[2]、LBP(Local Binary Patterns)[12]和HOG(Histograms of Oriented Gradients)[3]等3種信息互補(bǔ)的圖像局部特征視為異質(zhì)局部特征進(jìn)行融合,最終以一個(gè)高維稀疏向量的全局表示形式描述圖像多角度的視覺(jué)內(nèi)容,并將其應(yīng)用于CBIR任務(wù)中。
圖像的局部特征可以看作是對(duì)圖像某一采樣區(qū)域特性的向量描述。例如,SIFT特征是基于“團(tuán)點(diǎn)”檢測(cè)的,對(duì)圖像縮放、旋轉(zhuǎn)、光照變化甚至遮擋和裁剪等均保持著較好的不變性;LBP特征反映了圖像上像素點(diǎn)與其近鄰像素點(diǎn)灰度值的大小關(guān)系,描述了圖像的局部紋理特性;HOG特征則描述了圖像內(nèi)容的局部形狀或邊緣特性。
圖像局部特征稀疏學(xué)習(xí)的目的,是利用學(xué)習(xí)機(jī)制將圖像底層局部特征的集合通過(guò)“多對(duì)一”映射(編碼)成為圖像的全局稀疏表示形式,以便在圖像檢索任務(wù)中使用通用的相似性度量方法來(lái)比較圖像的相似性。圖像局部特征的稀疏學(xué)習(xí)過(guò)程如圖1所示。

圖1 圖像局部特征的稀疏學(xué)習(xí)
一方面,選取圖像庫(kù)中的部分圖像作為訓(xùn)練圖像,提取底層局部特征,通過(guò)聚類方法得到初始的超完備視覺(jué)詞典,然后利用初始化的視覺(jué)詞典和訓(xùn)練圖像的局部特征,交替使用詞典學(xué)習(xí)方法和稀疏分解算法,通過(guò)不斷的訓(xùn)練學(xué)習(xí)得到優(yōu)化的超完備視覺(jué)詞典和圖像庫(kù)中圖像的稀疏特征(即全局稀疏表示);另一方面,應(yīng)用系統(tǒng)的輸入圖像(如CBIR系統(tǒng)的查詢圖像)的局部特征被提取,并利用訓(xùn)練好的詞典對(duì)其進(jìn)行稀疏學(xué)習(xí),得到輸入圖像的稀疏特征。隨后,這些稀疏特征可被用于各種具體計(jì)算機(jī)視覺(jué)應(yīng)用中。
記X=[x1,x2,…,xn](x1∈Ra×1)為輸入矩陣(每列是一個(gè)輸入向量),表示在d維空間中的一組包含n個(gè)局部特征向量的集合,B=[b1,b2,…,bk](b1∈Ra×1)為基矩陣(每列是一個(gè)基向量),表示由K個(gè)基向量構(gòu)成的視覺(jué)詞典,S=[s1,s2,…,sn](s1∈RK×1)為系數(shù)矩陣(每列是一個(gè)系數(shù)向量),表示利用視覺(jué)詞典進(jìn)行稀疏分解(局部稀疏編碼)得到輸入矩陣X的稀疏編碼矩陣,則以上稀疏學(xué)習(xí)的過(guò)程可以表示成下面的優(yōu)化問(wèn)題

式中:‖x1-Bsi‖2表示重構(gòu)誤差;是稀疏性的懲罰函數(shù);λ為規(guī)則化參數(shù),用于權(quán)衡重構(gòu)誤差和稀疏約束。該優(yōu)化問(wèn)題在S保持不變時(shí)是關(guān)于B的凸優(yōu)化問(wèn)題,在B保持不變時(shí)是關(guān)于S的凸優(yōu)化問(wèn)題。一般通過(guò)交替固定B和S之一的同時(shí)優(yōu)化另一個(gè)的方法來(lái)優(yōu)化上述目標(biāo)函數(shù)。
對(duì)于學(xué)習(xí)基矩陣B(即學(xué)習(xí)視覺(jué)詞典),此時(shí)固定S,該優(yōu)化問(wèn)題等價(jià)于平方約束最小二乘問(wèn)題)

對(duì)于學(xué)習(xí)系數(shù)矩陣S(即局部稀疏編碼,學(xué)習(xí)局部特征的稀疏編碼矩陣),此時(shí)固定B,該優(yōu)化問(wèn)題等價(jià)于L1規(guī)則化最小二乘問(wèn)題

為了將圖像用一個(gè)向量表示,對(duì)學(xué)習(xí)到的局部特征的稀疏編碼矩陣,還要進(jìn)行一個(gè)合并操作,一般采用最大值合并(Max Pooling)方法[9]

式中:scj是sc(最終的高維稀疏向量)的第j行元素;Sj是S的第j行第i列的矩陣元素;n是局部特征向量的數(shù)目。最大值合并相當(dāng)于在對(duì)應(yīng)基向量位置的最強(qiáng)響應(yīng),許多圖像分類任務(wù)已證實(shí)該方法行之有效[4],故本文也采用最大值合并方法來(lái)合并各個(gè)稀疏編碼,從而得到整幅圖像的稀疏表示。
不同的局部特征,其設(shè)計(jì)思路不同,對(duì)圖像底層細(xì)節(jié)信息描述的角度也就不同。這種信息互補(bǔ)的特征組合可視為異質(zhì)局部特征(Heterogeneous Local Features)。本文從眾多的圖像局部特征中,選擇了如前所述的SIFT(128維)、LBP(采用P=8,R=1統(tǒng)一模式LBP,58維)和HOG(36維)來(lái)構(gòu)成異質(zhì)局部特征加以研究。
為了融合圖像的異質(zhì)局部特征,采用如圖2所示的稀疏學(xué)習(xí)方法。

圖2 圖像異質(zhì)局部特征的稀疏學(xué)習(xí)
從圖像數(shù)據(jù)庫(kù)中選擇一部分圖像作為訓(xùn)練圖像,分別提取SIFT,LBP,HOG特征組成3個(gè)訓(xùn)練特征集,分別得到3個(gè)超完備視覺(jué)詞典B_sift,B_lbp,B_hog。對(duì)于訓(xùn)練好的每一個(gè)視覺(jué)詞典,利用其對(duì)圖像的局部特征矩陣進(jìn)行局部稀疏編碼和最大值合并,分別得到稀疏特征sc_sift,sc_lbp,sc_hog,最后按照一定的權(quán)重進(jìn)行首尾相連并進(jìn)行歸一化就能得到一個(gè)信息融合后的稀疏特征——單位向量sc_slh,即為該圖像的最終全局稀疏表示形式。
這樣,每幅圖像僅用一個(gè)包含圖像多角度局部信息的高維稀疏向量描述。圖像相似性可直接用向量相似性來(lái)衡量。用這個(gè)稀疏特征向量來(lái)描述圖像的特征,相比單一特征對(duì)圖像進(jìn)行了更全面的描述,又具備全局特征的形式,因而這樣的特征既具備了較強(qiáng)的圖像局部信息描述能力,又能夠適應(yīng)大規(guī)模數(shù)據(jù)庫(kù)檢索的需求。
將按以上稀疏學(xué)習(xí)方法得到的圖像稀疏表示應(yīng)用于基于內(nèi)容的圖像檢索(CBIR)任務(wù)中。
采用標(biāo)準(zhǔn)圖像庫(kù)ZuBud[13]。該庫(kù)包含201棟建筑物的1 005幅圖像,每個(gè)建筑物各有5幅圖像,原始分辨率為640×480(本文實(shí)驗(yàn)中將其縮小到320×240以減少數(shù)據(jù)量),是在不同季節(jié)和天氣條件下從不同視角由兩個(gè)不同相機(jī)拍攝的,還特別拍攝一些被樹(shù)木遮擋的圖像。采用該庫(kù)來(lái)做圖像檢索實(shí)驗(yàn)?zāi)軌蚍奖愕卦u(píng)估圖像特征的性能,如尺度不變性、方向(旋轉(zhuǎn))不變性、視角不變性、光照不變性以及抗干擾能力等。
為減少計(jì)算量,對(duì)每建筑物各取1幅圖作為訓(xùn)練圖像集,對(duì)這201幅圖像提取SIFT,LBP,HOG特征分別組成訓(xùn)練特征集,通過(guò)K-Means聚類得初始化視覺(jué)詞典,并按式(2)進(jìn)行詞典學(xué)習(xí),分別得到3個(gè)具有K(K=1 000)個(gè)基向量的超完備視覺(jué)詞典。
對(duì)于學(xué)習(xí)好的每個(gè)視覺(jué)詞典,利用其對(duì)全部1 005幅圖像的局部特征矩陣按式(3)和式(4)進(jìn)行局部稀疏編碼和最大值合并,先將每幅圖像用一個(gè)K維的稀疏向量進(jìn)行表示;然后,通過(guò)加權(quán)聯(lián)接的方式融合3個(gè)稀疏向量,并進(jìn)行歸一化,從而形成圖像的最終全局稀疏表示,即3K維的稀疏單位向量。
為了便于統(tǒng)計(jì)結(jié)果和評(píng)價(jià)檢索性能,本文取每幅庫(kù)圖像作為查詢圖像,這樣圖像檢索過(guò)程簡(jiǎn)化為,用兩個(gè)稀疏單位向量的內(nèi)積(夾角余弦)的來(lái)衡量?jī)煞鶊D像的相似度(內(nèi)積越大越相似),并按相似度從大到小返回指定數(shù)量的圖像作為檢索結(jié)果。根據(jù)ZuBud庫(kù)特點(diǎn),指定返回結(jié)果圖像數(shù)T=5,即等于實(shí)際相關(guān)圖像數(shù),故本文實(shí)驗(yàn)中單次檢索的查準(zhǔn)率與查全率相同。這里采用平均查準(zhǔn)率(Average Precision,AP)作為性能評(píng)價(jià)標(biāo)準(zhǔn),即

式中:ni是第幅查詢圖像檢索出的相關(guān)圖像數(shù)目,N=1 005。
表1為按6種不同的加權(quán)系數(shù)進(jìn)行稀疏特征融合時(shí)圖像檢索實(shí)驗(yàn)的平均查準(zhǔn)率。

表1 ZuBud圖像庫(kù)上6組圖像檢索實(shí)驗(yàn)的平均查準(zhǔn)率
圖3和圖4分別是實(shí)驗(yàn)中某幅查詢圖像利用單一SIFT稀疏特征及按0.5∶0.3∶0.2的權(quán)值進(jìn)行異質(zhì)特征融合后的5-近鄰(5-NN)檢索結(jié)果。


由此可見(jiàn),在本文設(shè)定的實(shí)驗(yàn)條件下,相比單一局部特征,綜合利用異質(zhì)局部特征進(jìn)行圖像檢索,能夠得到更高的查準(zhǔn)率,異質(zhì)局部特征對(duì)圖像局部信息具有更全面的描述與區(qū)分能力。另外,每幅圖像均由一個(gè)高維的稀疏向量來(lái)表示,因而只需要存儲(chǔ)該向量中非零系數(shù)的值和索引,且圖像間的相似性直接用稀疏向量的距離函數(shù)來(lái)度量,明顯降低了直接用“局部特征集”表示圖像時(shí)度量圖像相似性的時(shí)空復(fù)雜度。
本文提出了一種將圖像的異質(zhì)局部特征通過(guò)稀疏學(xué)習(xí)映射為圖像全局稀疏表示形式的方法,并將之應(yīng)用于基于內(nèi)容的圖像檢索任務(wù)中。文中選取了SIFT,LBP,HOG這3種典型的圖像局部特征形成圖像異質(zhì)局部特征,它們分別描述了圖像的興趣點(diǎn)特性、局部紋理特性和局部形狀特性,加權(quán)融合后對(duì)圖像視覺(jué)內(nèi)容形成了多角度、更全面的描述。
在ZuBud數(shù)據(jù)庫(kù)上進(jìn)行的圖像檢索實(shí)驗(yàn)驗(yàn)證了該方法的有效性和高效性。實(shí)驗(yàn)結(jié)果表明:利用圖像異質(zhì)局部特征,相比于單一局部特征,能夠從多角度更全面地描述圖像的視覺(jué)內(nèi)容;對(duì)提取的異質(zhì)局部特征進(jìn)行稀疏學(xué)習(xí),能得到表征圖像本質(zhì)內(nèi)容的全局稀疏表示,即高維稀疏向量,同時(shí)具備了局部特征和全局特征的優(yōu)勢(shì),在表征圖像細(xì)節(jié)信息的同時(shí),避免了“局部特征集”相似性匹配的計(jì)算瓶頸,大大減少了時(shí)空復(fù)雜度,從而便于適應(yīng)大規(guī)模圖像檢索的需求。
[1]周明全,耿國(guó)華,韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.
[2]LOWE D G.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[3]DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proc.CVPR 2005.San Diego,CA,USA:[s.n.],2005:886-893.
[4]YANG Jianchao,YU Kai,GONG Yihong,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//Proc.CVPR,2009.Miami,F(xiàn)L,USA:[s.n.],2009:1794-1801.
[5]SIVIC J,ZISSERMAN A.Video Google:a text retrieval approach to object matching in videos[C]//Proc.ICCV,2003.Nice,F(xiàn)rance:[s.n.],2003:1470-1477.
[6]LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[EB/OL].[2013-01-05].http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=1641019&queryText%3DBeyond+bags+of+features%3A+Spatial+pyramid+matching+for+recognizing+natural+scene+categories.
[7]BARLOW H.Possible principles underlying the transformation of sensory messages[EB/OL].[2013-01-05].http://wenku.baidu.com/view/676f2351f01dc281e53af0b2.html.
[8]OLSHAUSEN B A,F(xiàn)IELD D J.Sparse coding with an overcomplete basis set:a strategy employed by V1[J].Vision Research,1997,37(23):3311-3325.
[9]LEE H,BATTLE A,RAINA R,et al.Efficient sparse coding algorithms[C]//Proc.Advances in Neural Information Processing Systems.[S.l.]:MIT Press,2007:801-808.
[10]WANG Jinjun,YANG Jianchao,YU Kai,et al.Locality-constrained linear coding for image classification[C]//Proc.CVPR,2010.San Diego,CA,USA:[s.n.],2010:3360-3367.
[11]ZHANG C,LIU J,TIAN Q.Image classification by non-negative sparse coding,low rank and sparse decomposition[C]//Proc.CVPR,2011.Providence,RI:[s.n.],2011:1673-1680.
[12]OJALA D T,PIETIKINEN M,MAENPAA T.Multi-resolution gray scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[13]Zurich Building Image Database[EB/OL].[2013-01-20].http://www.vision.ee.ethz.ch/showroom/zubud/.