基于異質(zhì)局部特征的圖像稀疏表示

2013-02-13 09:58:06徐望明方康玲

電視技術(shù) 2013年19期

關(guān)鍵詞：特征

徐望明，方康玲

(武漢科技大學(xué) 信息科學(xué)與工程學(xué)院，湖北武漢430081)

責(zé)任編輯:任健男

圖像特征被廣泛應(yīng)用于圖像處理與分析中作為圖像的有效表達(dá)方式，其典型應(yīng)用之一就是基于內(nèi)容的圖像檢索(Content-Based Image Retrieval，CBIR)。給定查詢圖像，CBIR直接從圖像庫(kù)中查找與之視覺(jué)特征相似的圖像，這種“圖找圖”式的依據(jù)視覺(jué)特征相似度給出圖像檢索結(jié)果的方法克服了傳統(tǒng)的基于關(guān)鍵字的圖像檢索技術(shù)“字找圖”式的不足，成為當(dāng)前智能信息檢索領(lǐng)域的研究熱點(diǎn)[1]。

近年來(lái)，圖像局部特征因其良好的可重復(fù)性、可分辨性和魯棒性得了廣泛重視和飛速發(fā)展，很多圖像局部特征被相繼提出(如SIFT[2]，HOG[3]等)，并用于CBIR等視覺(jué)任務(wù)中，彌補(bǔ)了圖像全局統(tǒng)計(jì)特征(如顏色、形狀、紋理等)的不足。然而，圖像上所提取的局部特征因其數(shù)量較多、維數(shù)較高也給大規(guī)模圖像檢索任務(wù)帶來(lái)了新挑戰(zhàn)。這種“高維局部特征集”表示圖像的方式，由于進(jìn)行相似性度量的時(shí)間和空間復(fù)雜度高而難以適應(yīng)大規(guī)模數(shù)據(jù)庫(kù)環(huán)境下的圖像檢索任務(wù)，而圖像的全局表示形式(Holistic Representation)用一個(gè)向量表示一幅圖像，在這方面則有其天然優(yōu)勢(shì)，因?yàn)槿魏蝺煞鶊D像的相似性直接可用向量之間的距離函數(shù)來(lái)度量。

為了使圖像的表示形式既能像局部特征一樣有描述圖像細(xì)節(jié)信息的能力，又能像全局特征一樣簡(jiǎn)潔明了，本文提出利用“稀疏學(xué)習(xí)”的思想，從訓(xùn)練圖像的特征數(shù)據(jù)中建立超完備視覺(jué)詞典，采用局部稀疏編碼(Local Sparse Coding)和最大值合并(Max Pooling)將圖像“高維局部特征集”轉(zhuǎn)化為更高維的稀疏特征向量[4]，然后通過(guò)直接計(jì)算向量相似性得到圖像相似性，并應(yīng)用于CBIR系統(tǒng)中。另外，本文不是使用單一局部特征，而是選取了信息互補(bǔ)的不同局部特征構(gòu)成異質(zhì)局部特征，從而能從多角度描述圖像的內(nèi)容，在CBIR系統(tǒng)中能得到比單一局部特征更好地檢索結(jié)果。

1 相關(guān)工作

如何從原始“像素級(jí)”表示的圖像中提取有更強(qiáng)表示能力的圖像特征一直是圖像分析任務(wù)首先要解決的問(wèn)題，也一直是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的研究熱點(diǎn)。

為了適應(yīng)大規(guī)模圖像數(shù)據(jù)庫(kù)環(huán)境下的應(yīng)用，可借助學(xué)習(xí)機(jī)制將提取的圖像底層局部特征的集合通過(guò)“多對(duì)一”映射(編碼)成為一種全局表達(dá)方式，即用一個(gè)向量來(lái)表示一幅圖像，以便在圖像檢索任務(wù)中使用通用的相似性度量方法來(lái)比較圖像的相似性，迅速返回檢索結(jié)果。不同于通常所說(shuō)的顏色、形狀、紋理等全局統(tǒng)計(jì)特征，這是一種構(gòu)造在局部特征基礎(chǔ)上的全局特征，它仍能保留接近于圖像底層的細(xì)節(jié)信息，可看作是較高一層的特征表示，這就向著“語(yǔ)義層”特征表示又前進(jìn)了一步。目前這類特征中比較典型的例子是BoVW(Bag of Visual Words)[5]，S.Lazebnik等人則使用SPM(Spatial Pyramids Matching)[6]方法對(duì)其進(jìn)行了改進(jìn)，在一定程度上加入了局部特征的空間分布信息。

另外，壓縮傳感和稀疏表達(dá)理論近年來(lái)在信號(hào)處理、模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域中掀起新一輪熱潮，在人臉識(shí)別、場(chǎng)景分類等諸多應(yīng)用中都取得了較好效果。其中一個(gè)核心的概念就是稀疏編碼，最早源自Barlow等人對(duì)生物視覺(jué)系統(tǒng)研究而提出的有效編碼假設(shè)[7]。Olshausen和Field則進(jìn)一步提出了著名的稀疏編碼模型[8]，該模型通過(guò)基向量(或基函數(shù))線性相加表示輸入圖像，在最小均方差意義下使重構(gòu)圖像盡可能地與原圖像相似，同時(shí)要求表示系數(shù)盡量稀疏化。在此基礎(chǔ)上，很多研究者在稀疏編碼模型的理論和應(yīng)用方面做了大量的工作，取得了豐碩成果，也提出了許多改進(jìn)的稀疏編碼模型。

對(duì)于圖像數(shù)據(jù)，這些稀疏編碼模型大多是從自然圖像中“隨機(jī)”選取若干圖像塊(按像素灰度值排列成多維向量)構(gòu)成一個(gè)訓(xùn)練集合，加以訓(xùn)練學(xué)習(xí)后得到基向量和對(duì)應(yīng)圖像的稀疏表示(編碼)。隨機(jī)采樣的子圖像塊作為樣本會(huì)給學(xué)習(xí)過(guò)程帶來(lái)不穩(wěn)定性(比如引入背景或非目標(biāo)區(qū)域噪聲、對(duì)圖像尺度、方向、視覺(jué)、亮度變化敏感等)，從而學(xué)習(xí)到的基向量不一定具有代表性，并可能存在大量噪聲信息冗余。針對(duì)以上這些問(wèn)題，考慮到目前流行的圖像局部特征(如SIFT等)本身就是對(duì)圖像中感興趣區(qū)域(圖像塊)的一種優(yōu)于“像素級(jí)”的多維向量表示形式，因此，直接以圖像局部特征作為訓(xùn)練樣本，并采用稀疏編碼模型學(xué)習(xí)基向量和圖像的稀疏表示，是特征學(xué)習(xí)方法研究的新趨勢(shì)。研究者們最近幾年來(lái)在這方面做了一些嘗試，并在圖像重構(gòu)、圖像分類等應(yīng)用中取得了較好效果[9-11]。

但其訓(xùn)練數(shù)據(jù)(局部特征)大多是在圖像上密集采樣的結(jié)果，一般都只使用單一的視覺(jué)特征。密集采樣得到的特征數(shù)比基于興趣點(diǎn)檢測(cè)得到的特征數(shù)要多得多，而且極易引入背景和非目標(biāo)區(qū)域噪聲，另外單一視覺(jué)局部特征一般是精心設(shè)計(jì)的，是對(duì)圖像塊某一屬性的描述，如果還能聯(lián)合其他信息互補(bǔ)的局部特征，如基于興趣點(diǎn)檢測(cè)的特征加上基于局部紋理或形狀描述的特征，則描述能力會(huì)更強(qiáng)。

本文正是以此為突破點(diǎn)，運(yùn)用稀疏學(xué)習(xí)的思想，將SIFT(Scale Invariant Feature Transform)[2]、LBP(Local Binary Patterns)[12]和HOG(Histograms of Oriented Gradients)[3]等3種信息互補(bǔ)的圖像局部特征視為異質(zhì)局部特征進(jìn)行融合，最終以一個(gè)高維稀疏向量的全局表示形式描述圖像多角度的視覺(jué)內(nèi)容，并將其應(yīng)用于CBIR任務(wù)中。

2 圖像異質(zhì)局部特征的稀疏學(xué)習(xí)

2.1 局部特征的稀疏學(xué)習(xí)

圖像的局部特征可以看作是對(duì)圖像某一采樣區(qū)域特性的向量描述。例如，SIFT特征是基于“團(tuán)點(diǎn)”檢測(cè)的，對(duì)圖像縮放、旋轉(zhuǎn)、光照變化甚至遮擋和裁剪等均保持著較好的不變性;LBP特征反映了圖像上像素點(diǎn)與其近鄰像素點(diǎn)灰度值的大小關(guān)系，描述了圖像的局部紋理特性;HOG特征則描述了圖像內(nèi)容的局部形狀或邊緣特性。

圖像局部特征稀疏學(xué)習(xí)的目的，是利用學(xué)習(xí)機(jī)制將圖像底層局部特征的集合通過(guò)“多對(duì)一”映射(編碼)成為圖像的全局稀疏表示形式，以便在圖像檢索任務(wù)中使用通用的相似性度量方法來(lái)比較圖像的相似性。圖像局部特征的稀疏學(xué)習(xí)過(guò)程如圖1所示。

圖1 圖像局部特征的稀疏學(xué)習(xí)

一方面，選取圖像庫(kù)中的部分圖像作為訓(xùn)練圖像，提取底層局部特征，通過(guò)聚類方法得到初始的超完備視覺(jué)詞典，然后利用初始化的視覺(jué)詞典和訓(xùn)練圖像的局部特征，交替使用詞典學(xué)習(xí)方法和稀疏分解算法，通過(guò)不斷的訓(xùn)練學(xué)習(xí)得到優(yōu)化的超完備視覺(jué)詞典和圖像庫(kù)中圖像的稀疏特征(即全局稀疏表示);另一方面，應(yīng)用系統(tǒng)的輸入圖像(如CBIR系統(tǒng)的查詢圖像)的局部特征被提取，并利用訓(xùn)練好的詞典對(duì)其進(jìn)行稀疏學(xué)習(xí)，得到輸入圖像的稀疏特征。隨后，這些稀疏特征可被用于各種具體計(jì)算機(jī)視覺(jué)應(yīng)用中。

記X=[x1，x2，…，xn](x1∈Ra×1)為輸入矩陣(每列是一個(gè)輸入向量)，表示在d維空間中的一組包含n個(gè)局部特征向量的集合，B=[b1，b2，…，bk](b1∈Ra×1)為基矩陣(每列是一個(gè)基向量)，表示由K個(gè)基向量構(gòu)成的視覺(jué)詞典，S=[s1，s2，…，sn](s1∈RK×1)為系數(shù)矩陣(每列是一個(gè)系數(shù)向量)，表示利用視覺(jué)詞典進(jìn)行稀疏分解(局部稀疏編碼)得到輸入矩陣X的稀疏編碼矩陣，則以上稀疏學(xué)習(xí)的過(guò)程可以表示成下面的優(yōu)化問(wèn)題

式中:‖x1-Bsi‖2表示重構(gòu)誤差;是稀疏性的懲罰函數(shù);λ為規(guī)則化參數(shù)，用于權(quán)衡重構(gòu)誤差和稀疏約束。該優(yōu)化問(wèn)題在S保持不變時(shí)是關(guān)于B的凸優(yōu)化問(wèn)題，在B保持不變時(shí)是關(guān)于S的凸優(yōu)化問(wèn)題。一般通過(guò)交替固定B和S之一的同時(shí)優(yōu)化另一個(gè)的方法來(lái)優(yōu)化上述目標(biāo)函數(shù)。

對(duì)于學(xué)習(xí)基矩陣B(即學(xué)習(xí)視覺(jué)詞典)，此時(shí)固定S，該優(yōu)化問(wèn)題等價(jià)于平方約束最小二乘問(wèn)題)

對(duì)于學(xué)習(xí)系數(shù)矩陣S(即局部稀疏編碼，學(xué)習(xí)局部特征的稀疏編碼矩陣)，此時(shí)固定B，該優(yōu)化問(wèn)題等價(jià)于L1規(guī)則化最小二乘問(wèn)題

為了將圖像用一個(gè)向量表示，對(duì)學(xué)習(xí)到的局部特征的稀疏編碼矩陣，還要進(jìn)行一個(gè)合并操作，一般采用最大值合并(Max Pooling)方法[9]

式中:scj是sc(最終的高維稀疏向量)的第j行元素;Sj是S的第j行第i列的矩陣元素;n是局部特征向量的數(shù)目。最大值合并相當(dāng)于在對(duì)應(yīng)基向量位置的最強(qiáng)響應(yīng)，許多圖像分類任務(wù)已證實(shí)該方法行之有效[4]，故本文也采用最大值合并方法來(lái)合并各個(gè)稀疏編碼，從而得到整幅圖像的稀疏表示。

2.2 異質(zhì)局部特征的稀疏學(xué)習(xí)

不同的局部特征，其設(shè)計(jì)思路不同，對(duì)圖像底層細(xì)節(jié)信息描述的角度也就不同。這種信息互補(bǔ)的特征組合可視為異質(zhì)局部特征(Heterogeneous Local Features)。本文從眾多的圖像局部特征中，選擇了如前所述的SIFT(128維)、LBP(采用P=8，R=1統(tǒng)一模式LBP，58維)和HOG(36維)來(lái)構(gòu)成異質(zhì)局部特征加以研究。

為了融合圖像的異質(zhì)局部特征，采用如圖2所示的稀疏學(xué)習(xí)方法。

圖2 圖像異質(zhì)局部特征的稀疏學(xué)習(xí)

從圖像數(shù)據(jù)庫(kù)中選擇一部分圖像作為訓(xùn)練圖像，分別提取SIFT，LBP，HOG特征組成3個(gè)訓(xùn)練特征集，分別得到3個(gè)超完備視覺(jué)詞典B_sift，B_lbp，B_hog。對(duì)于訓(xùn)練好的每一個(gè)視覺(jué)詞典，利用其對(duì)圖像的局部特征矩陣進(jìn)行局部稀疏編碼和最大值合并，分別得到稀疏特征sc_sift，sc_lbp，sc_hog，最后按照一定的權(quán)重進(jìn)行首尾相連并進(jìn)行歸一化就能得到一個(gè)信息融合后的稀疏特征——單位向量sc_slh，即為該圖像的最終全局稀疏表示形式。

這樣，每幅圖像僅用一個(gè)包含圖像多角度局部信息的高維稀疏向量描述。圖像相似性可直接用向量相似性來(lái)衡量。用這個(gè)稀疏特征向量來(lái)描述圖像的特征，相比單一特征對(duì)圖像進(jìn)行了更全面的描述，又具備全局特征的形式，因而這樣的特征既具備了較強(qiáng)的圖像局部信息描述能力，又能夠適應(yīng)大規(guī)模數(shù)據(jù)庫(kù)檢索的需求。

3 應(yīng)用實(shí)例:CBIR

將按以上稀疏學(xué)習(xí)方法得到的圖像稀疏表示應(yīng)用于基于內(nèi)容的圖像檢索(CBIR)任務(wù)中。

3.1 圖像庫(kù)

采用標(biāo)準(zhǔn)圖像庫(kù)ZuBud[13]。該庫(kù)包含201棟建筑物的1 005幅圖像，每個(gè)建筑物各有5幅圖像，原始分辨率為640×480(本文實(shí)驗(yàn)中將其縮小到320×240以減少數(shù)據(jù)量)，是在不同季節(jié)和天氣條件下從不同視角由兩個(gè)不同相機(jī)拍攝的，還特別拍攝一些被樹(shù)木遮擋的圖像。采用該庫(kù)來(lái)做圖像檢索實(shí)驗(yàn)?zāi)軌蚍奖愕卦u(píng)估圖像特征的性能，如尺度不變性、方向(旋轉(zhuǎn))不變性、視角不變性、光照不變性以及抗干擾能力等。

3.2 視覺(jué)詞典學(xué)習(xí)

為減少計(jì)算量，對(duì)每建筑物各取1幅圖作為訓(xùn)練圖像集，對(duì)這201幅圖像提取SIFT，LBP，HOG特征分別組成訓(xùn)練特征集，通過(guò)K-Means聚類得初始化視覺(jué)詞典，并按式(2)進(jìn)行詞典學(xué)習(xí)，分別得到3個(gè)具有K(K=1 000)個(gè)基向量的超完備視覺(jué)詞典。

3.3 圖像的稀疏表示

對(duì)于學(xué)習(xí)好的每個(gè)視覺(jué)詞典，利用其對(duì)全部1 005幅圖像的局部特征矩陣按式(3)和式(4)進(jìn)行局部稀疏編碼和最大值合并，先將每幅圖像用一個(gè)K維的稀疏向量進(jìn)行表示;然后，通過(guò)加權(quán)聯(lián)接的方式融合3個(gè)稀疏向量，并進(jìn)行歸一化，從而形成圖像的最終全局稀疏表示，即3K維的稀疏單位向量。

3.4 圖像檢索過(guò)程和性能評(píng)價(jià)

為了便于統(tǒng)計(jì)結(jié)果和評(píng)價(jià)檢索性能，本文取每幅庫(kù)圖像作為查詢圖像，這樣圖像檢索過(guò)程簡(jiǎn)化為，用兩個(gè)稀疏單位向量的內(nèi)積(夾角余弦)的來(lái)衡量?jī)煞鶊D像的相似度(內(nèi)積越大越相似)，并按相似度從大到小返回指定數(shù)量的圖像作為檢索結(jié)果。根據(jù)ZuBud庫(kù)特點(diǎn)，指定返回結(jié)果圖像數(shù)T=5，即等于實(shí)際相關(guān)圖像數(shù)，故本文實(shí)驗(yàn)中單次檢索的查準(zhǔn)率與查全率相同。這里采用平均查準(zhǔn)率(Average Precision，AP)作為性能評(píng)價(jià)標(biāo)準(zhǔn)，即

式中:ni是第幅查詢圖像檢索出的相關(guān)圖像數(shù)目，N=1 005。

3.5 實(shí)驗(yàn)結(jié)果及分析

表1為按6種不同的加權(quán)系數(shù)進(jìn)行稀疏特征融合時(shí)圖像檢索實(shí)驗(yàn)的平均查準(zhǔn)率。

表1 ZuBud圖像庫(kù)上6組圖像檢索實(shí)驗(yàn)的平均查準(zhǔn)率

圖3和圖4分別是實(shí)驗(yàn)中某幅查詢圖像利用單一SIFT稀疏特征及按0.5∶0.3∶0.2的權(quán)值進(jìn)行異質(zhì)特征融合后的5-近鄰(5-NN)檢索結(jié)果。

由此可見(jiàn)，在本文設(shè)定的實(shí)驗(yàn)條件下，相比單一局部特征，綜合利用異質(zhì)局部特征進(jìn)行圖像檢索，能夠得到更高的查準(zhǔn)率，異質(zhì)局部特征對(duì)圖像局部信息具有更全面的描述與區(qū)分能力。另外，每幅圖像均由一個(gè)高維的稀疏向量來(lái)表示，因而只需要存儲(chǔ)該向量中非零系數(shù)的值和索引，且圖像間的相似性直接用稀疏向量的距離函數(shù)來(lái)度量，明顯降低了直接用“局部特征集”表示圖像時(shí)度量圖像相似性的時(shí)空復(fù)雜度。

4 結(jié)論

本文提出了一種將圖像的異質(zhì)局部特征通過(guò)稀疏學(xué)習(xí)映射為圖像全局稀疏表示形式的方法，并將之應(yīng)用于基于內(nèi)容的圖像檢索任務(wù)中。文中選取了SIFT，LBP，HOG這3種典型的圖像局部特征形成圖像異質(zhì)局部特征，它們分別描述了圖像的興趣點(diǎn)特性、局部紋理特性和局部形狀特性，加權(quán)融合后對(duì)圖像視覺(jué)內(nèi)容形成了多角度、更全面的描述。

在ZuBud數(shù)據(jù)庫(kù)上進(jìn)行的圖像檢索實(shí)驗(yàn)驗(yàn)證了該方法的有效性和高效性。實(shí)驗(yàn)結(jié)果表明:利用圖像異質(zhì)局部特征，相比于單一局部特征，能夠從多角度更全面地描述圖像的視覺(jué)內(nèi)容;對(duì)提取的異質(zhì)局部特征進(jìn)行稀疏學(xué)習(xí)，能得到表征圖像本質(zhì)內(nèi)容的全局稀疏表示，即高維稀疏向量，同時(shí)具備了局部特征和全局特征的優(yōu)勢(shì)，在表征圖像細(xì)節(jié)信息的同時(shí)，避免了“局部特征集”相似性匹配的計(jì)算瓶頸，大大減少了時(shí)空復(fù)雜度，從而便于適應(yīng)大規(guī)模圖像檢索的需求。

[1]周明全，耿國(guó)華，韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社，2007.

[2]LOWE D G.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision，2004，60(2):91-110.

[3]DALAL N，TRIGGS B.Histograms of oriented gradients for human detection[C]//Proc.CVPR 2005.San Diego，CA，USA:[s.n.]，2005:886-893.

[4]YANG Jianchao，YU Kai，GONG Yihong，et al.Linear spatial pyramid matching using sparse coding for image classification[C]//Proc.CVPR，2009.Miami，F(xiàn)L，USA:[s.n.]，2009:1794-1801.

[5]SIVIC J，ZISSERMAN A.Video Google:a text retrieval approach to object matching in videos[C]//Proc.ICCV，2003.Nice，F(xiàn)rance:[s.n.]，2003:1470-1477.

[6]LAZEBNIK S，SCHMID C，PONCE J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[EB/OL].[2013-01-05].http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=1641019&queryText%3DBeyond+bags+of+features%3A+Spatial+pyramid+matching+for+recognizing+natural+scene+categories.

[7]BARLOW H.Possible principles underlying the transformation of sensory messages[EB/OL].[2013-01-05].http://wenku.baidu.com/view/676f2351f01dc281e53af0b2.html.

[8]OLSHAUSEN B A，F(xiàn)IELD D J.Sparse coding with an overcomplete basis set:a strategy employed by V1[J].Vision Research，1997，37(23):3311-3325.

[9]LEE H，BATTLE A，RAINA R，et al.Efficient sparse coding algorithms[C]//Proc.Advances in Neural Information Processing Systems.[S.l.]:MIT Press，2007:801-808.

[10]WANG Jinjun，YANG Jianchao，YU Kai，et al.Locality-constrained linear coding for image classification[C]//Proc.CVPR，2010.San Diego，CA，USA:[s.n.]，2010:3360-3367.

[11]ZHANG C，LIU J，TIAN Q.Image classification by non-negative sparse coding，low rank and sparse decomposition[C]//Proc.CVPR，2011.Providence，RI:[s.n.]，2011:1673-1680.

[12]OJALA D T，PIETIKINEN M，MAENPAA T.Multi-resolution gray scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24(7):971-987.

[13]Zurich Building Image Database[EB/OL].[2013-01-20].http://www.vision.ee.ethz.ch/showroom/zubud/.