柯圣財 李弼程 陳 剛 趙永威 魏 晗
隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)圖像資源迅猛增長,如何對大規(guī)模圖像資源進(jìn)行快速有效的檢索以滿足用戶需求亟待解決.視覺詞典方法(Bag of visual words,BoVW)[1?3]通過視覺詞典將圖像的局部特征量化為詞頻向量進(jìn)行檢索,既能利用圖像局部信息,又能達(dá)到比局部特征直接檢索更快的速度,成為當(dāng)前圖像檢索的主流方法.但是基于BoVW的圖像檢索方法存在以下問題:1)當(dāng)前生成視覺詞典的聚類算法時間效率低、計算量大,使得BoVW難以應(yīng)用于大規(guī)模數(shù)據(jù)集;2)由于聚類算法的局限性和圖像背景噪聲的存在,使得視覺詞典中存在不包含目標(biāo)信息的視覺單詞,嚴(yán)重影響視覺詞典質(zhì)量;3)沒有充分利用初次檢索結(jié)果中的有用信息,使得檢索效果不理想.
近年來,研究人員針對這些問題做了許多探索性研究,如在提高視覺詞典生成效率方面:Philbin等[4]將KD-Tree引入K-means中提出近似KMeans(ApproximateK-Means,AKM),利用KDTree對聚類中心構(gòu)建索引目錄,加速尋找最近聚類中心以提高聚類效率.Nister等[5]提出了層次K-means(HierarchicalK-means,HKM),將時間復(fù)雜度降為O(ndlogk),但是該方法忽略了特征維數(shù)d對聚類效率的影響.為此,研究者們提出基于降維的聚類方法,如主成分分析(Principal component analysis,PCA)[6]、自組織特征映射(Selforganizing feature map,SOFM)[7]等,主要思路是利用降維算法對高維特征數(shù)據(jù)進(jìn)行降維,再用聚類算法對降維后的特征點進(jìn)行聚類.此外,文獻(xiàn)[8]通過構(gòu)造混合概率分布函數(shù)來擬合數(shù)據(jù)集,但是該方法需要待聚類數(shù)據(jù)的先驗知識,而且其聚類準(zhǔn)確率依賴于密度函數(shù)的構(gòu)造質(zhì)量.
不包含目標(biāo)信息的視覺單詞類似于文本中的“是”、“的”、“了”等停用詞,這里稱其為“視覺停用詞”,去除“視覺停用詞”不僅能縮小詞典規(guī)模,還能提高檢索準(zhǔn)確率.針對“視覺停用詞”去除問題, Sivic等[9]認(rèn)為“視覺停用詞”與其出現(xiàn)的頻率存在一定關(guān)系,提出一種基于詞頻的去除方法.Yuan等[10]通過統(tǒng)計視覺短語(即視覺單詞組合)的出現(xiàn)概率濾除無用信息,Fulkerson等[11]則利用信息瓶頸準(zhǔn)則濾除一定數(shù)量的視覺單詞,但是,上述方法僅在視覺單詞層面考慮如何過濾“視覺停用詞”,忽略了視覺單詞與圖像語義概念之間的相互關(guān)系.
為利用初次檢索結(jié)果中的有用信息,豐富原有查詢的信息量,Perd′och等[12]提出平均查詢擴(kuò)展策略(Average query expansion,AQE),將初始檢索結(jié)果的圖像特征平均值作為新的查詢實例,結(jié)合二次檢索結(jié)果對初次檢索得到的圖像進(jìn)行重排序. Shen等[13]對查詢圖像的近鄰(K-nearest neighbors,KNN)進(jìn)行多次檢索,對多次檢索結(jié)果進(jìn)行重排序得到最終檢索結(jié)果.Chum等[14]則利用查詢圖像和檢索結(jié)果中的上下文語義信息提出了自動查詢擴(kuò)展方法,有效提高了檢索準(zhǔn)確率.然而,現(xiàn)有的查詢擴(kuò)展方法依賴于較高的初始準(zhǔn)確率,在初始準(zhǔn)確率較低時,初始檢索結(jié)果中的不相關(guān)圖像會帶來負(fù)面影響.
綜上所述,為實現(xiàn)更加高效快速的圖像檢索,本文提出一種基于視覺詞典優(yōu)化和查詢擴(kuò)展的圖像檢索方法.新方法較好地解決了傳統(tǒng)方法生成的視覺詞典質(zhì)量差問題,并有效增強(qiáng)了圖像檢索性能.本文剩余部分組織如下:第1節(jié)給出了基于視覺詞典優(yōu)化和查詢擴(kuò)展的圖像檢索方法設(shè)計的關(guān)鍵技術(shù),其中詳細(xì)介紹了基于密度聚類的視覺詞典生成、視覺單詞過濾以及基于圖結(jié)構(gòu)的查詢擴(kuò)展技術(shù);第2節(jié)對本文方法進(jìn)行了實驗驗證和性能分析;最后,第3節(jié)為結(jié)論.
基于視覺詞典優(yōu)化和查詢擴(kuò)展的圖像檢索方法流程圖如圖1所示.首先,提取訓(xùn)練圖像的SIFT (Scale invariant feature transform)特征,并利用基于密度的聚類方法對SIFT特征進(jìn)行聚類,生成視覺詞典組;其次,通過卡方模型分析視覺單詞與目標(biāo)類別的相關(guān)性大小,同時結(jié)合視覺單詞詞頻濾除一定數(shù)量的視覺停用詞;然后,將SIFT特征與優(yōu)化后的視覺詞典進(jìn)行映射匹配,得到視覺詞匯直方圖;最后,將查詢圖像的視覺詞匯直方圖與索引文件進(jìn)行相似性匹配,根據(jù)初次匹配結(jié)果并結(jié)合查詢擴(kuò)展策略進(jìn)行二次或多次檢索,得到最終檢索結(jié)果.

圖1 基于視覺詞典優(yōu)化和查詢擴(kuò)展的圖像檢索方法流程Fig.1 The fl ow chart of image retrieval based on enhanced visual dictionary and query expansion
傳統(tǒng)的聚類算法需要設(shè)計目標(biāo)函數(shù),反復(fù)迭代計算達(dá)到最優(yōu),而文獻(xiàn)[15]中基于密度的聚類算法(Density-based clustering,DBC)通過尋找合適的密度峰值點確定聚類中心,認(rèn)為聚類中心同時滿足以下2個條件:1)聚類中心的密度大于臨近數(shù)據(jù)點的密度;2)與其他密度更大的數(shù)據(jù)點距離相距較遠(yuǎn).對待聚類的數(shù)據(jù)集中數(shù)據(jù)點xi,定義ρi表示數(shù)據(jù)點xi的局部密度:

其中,dij為數(shù)據(jù)點xi與xj的距離,dc是設(shè)定的距離閾值,局部密度ρi實質(zhì)是S中與xi距離不超過dc的數(shù)據(jù)點個數(shù).δi表示距xi最近且密度更高點的距離:

為便于選取合適的聚類中心,定義γi=ρiδi作為衡量指標(biāo),顯然,當(dāng)γi值越大,數(shù)據(jù)點xi越有可能是聚類中心,因此選取聚類中心時只需對進(jìn)行降序排列,選取前k個數(shù)據(jù)點作為聚類中心即可.基于密度的聚類算法物理意義清晰,不需要任何先驗信息,也不用反復(fù)迭代計算尋找最優(yōu)解,只需設(shè)置合適的距離閾值dc即可完成聚類.
在文本處理中通常根據(jù)停用詞表過濾文本中的停用詞,然而在BoVW中,視覺單詞并不像文本中的單詞那樣存在確定的實體,因此無法構(gòu)造“視覺停用詞”表,但是它們之間具有相同的特性:1)具有較高的詞頻;2)與目標(biāo)相關(guān)性較小.針對以上特性,可以利用卡方模型(Chi-square model)[16]統(tǒng)計視覺單詞與各目標(biāo)圖像類別之間的相關(guān)性,并結(jié)合視覺單詞詞頻信息過濾與目標(biāo)圖像類別無關(guān)的視覺單詞.
假設(shè)視覺單詞wi出現(xiàn)的頻次獨立于圖像類別Cj,其中Cj∈C={C1,C2,···,Cm},則視覺單詞wi與圖像集C各圖像類別之間的相互關(guān)系可由表1描述.

表1 視覺單詞w與各目標(biāo)類別統(tǒng)計關(guān)系Table 1 Relation between w and categories of each objective
其中,n1j為圖像類別Cj中包含wi的圖像數(shù)目,n2j表示圖像類別Cj中不包含wi的圖像數(shù)目,nk+,k=1,2分別表示圖像集中包含wi和不包含wi的圖像數(shù)目,n+j為圖像類別Cj中的圖像數(shù)目,N為圖像集C中圖像總數(shù)目.則表1中視覺單詞wi與各圖像類別的卡方值為


其中,f(wi)為視覺單詞wi的詞頻.由此,依據(jù)式(4)計算各視覺單詞加權(quán)后的卡方值然后過濾值較小的視覺停用詞.
根據(jù)式(3)可知計算視覺單詞wi的卡方值計算復(fù)雜度為O(2m),其中,m為圖像類別數(shù),2對應(yīng)為k分別為1和2時的累加運算操作,則去除“視覺停用詞”的計算復(fù)雜度為O(2Mm),遠(yuǎn)小于生成視覺詞典的計算復(fù)雜度O(MN),其中,M為詞典規(guī)模,2m遠(yuǎn)小于Oxford5K數(shù)據(jù)庫的SIFT特征數(shù)目N.
去掉“視覺停用詞”后,將圖像的SIFT特征與優(yōu)化后的視覺詞典進(jìn)行映射匹配,得到視覺詞匯直方圖,利用圖像的視覺詞匯直方圖進(jìn)行檢索即可得到初始檢索結(jié)果.由于圖像噪聲的存在,初始檢索結(jié)果中會存在一些與查詢圖像無關(guān)的檢索圖像,因此需要對初始檢索結(jié)果中的圖像進(jìn)行甄別,選出與查詢圖像相關(guān)的圖像作為新的查詢圖像,具體流程如圖2所示.

圖2 基于圖結(jié)構(gòu)的查詢擴(kuò)展方法流程圖Fig.2 The fl ow chart of query expansion based on image structure
在圖像集C中,利用圖像i的視覺詞匯直方圖fi進(jìn)行相似性匹配得到k近鄰圖像集Nk(i),定義互為對方的k近鄰圖像集中元素的圖像對為互相關(guān)圖像Rk(i,i′):

根據(jù)式(5)構(gòu)造圖G=(V,E,W),其中,V為頂點集,每一個頂點表示一幅圖像,E是由連接頂點的邊組成的集合,W中的元素為邊的權(quán)重,圖像i,i′之間的連接權(quán)重計算如式(6)所示:

然后,在圖G=(V,E,W)中尋找與查詢圖像相關(guān)的密度最大子圖G′[17],將子圖頂點所代表的圖像依據(jù)與查詢圖像的相關(guān)性大小進(jìn)行降序排列,選取前Nc幅圖像作為新的查詢圖像,利用式(7)計算擴(kuò)展查詢結(jié)果與查詢圖像的相似性si:

為了驗證本文方法有效性,本文在Oxford5K圖像集[18]上對本文方法進(jìn)行了評估,Oxford5K圖像集共包含5062幅圖像,涵蓋了牛津大學(xué)11處標(biāo)志性建筑,其中每個目標(biāo)選取5幅圖像作為查詢圖像,共55幅標(biāo)準(zhǔn)查詢圖像.此外,引入Paris6K數(shù)據(jù)庫[19]作為干擾圖像,以驗證本文方法在復(fù)雜環(huán)境下的魯棒性.實驗硬件配置為內(nèi)存為6GB的GPU設(shè)備GTX Titan和Intel Xeon CPU、內(nèi)存為16GB的服務(wù)器.圖像檢索性能指標(biāo)采用平均查詢準(zhǔn)確率均值(Mean average precision,MAP)和查全率–查準(zhǔn)率曲線.
為了分析基于密度聚類算法(DBC)中距離閾值參數(shù)dc對圖像檢索MAP值的影響.實驗從Oxford5K圖像集中每類隨機(jī)選取50幅圖像,共計550幅圖像作為訓(xùn)練圖像庫,提取SIFT特征后,在不同距離閾值條件下利用DBC進(jìn)行聚類生成規(guī)模M=10000的視覺詞典,分析距離閾值參數(shù)dc對檢索MAP的影響,實驗結(jié)果如圖3所示.
從圖3中的MAP變化曲線已看出,距離閾值dc=0.013時,圖像檢索準(zhǔn)確率達(dá)到最高,dc設(shè)置過大或太小都會降低視覺單詞的語義分辨能力.當(dāng)離閾值dc>0.013時,會將距離較遠(yuǎn)、表達(dá)不同圖像語義的SIFT特征分配到同一個視覺單詞,使得同一視覺單詞表達(dá)不同的圖像語義,使得檢索MAP逐漸降低;而當(dāng)dc<0.013時,會將距離較近、表達(dá)同一圖像語義的SIFT特征分到不同的視覺單詞,使得不同視覺單詞表達(dá)同一圖像語義,導(dǎo)致檢索MAP值不高.

圖3 距離閾值參數(shù)dc對圖像檢索MAP值的影響Fig.3 The eあect of distance threshold on MAP
為了驗證基于密度聚類算法的有效性,設(shè)置距離閾值dc=0.013,利用DBC進(jìn)行聚類生成不同規(guī)模的視覺詞典,分析視覺詞典的規(guī)模大小對檢索MAP的影響,并與AKM方法[4]進(jìn)行實驗對比,實驗結(jié)果如圖4所示:

圖4 視覺詞典規(guī)模對圖像檢索MAP值的影響Fig.4 The eあect of vocabulary size on MAP
從圖4可以看出,當(dāng)單詞數(shù)目較小時,視覺詞典的目標(biāo)分辨能力不強(qiáng),隨著視覺單詞數(shù)量不斷增加,其目標(biāo)分辨能力逐漸增強(qiáng),MAP值也逐漸增加,當(dāng)詞典規(guī)模大于10K時,MAP值增長速度逐漸變慢.對比DBC和AKM方法的MAP曲線可以看出,DBC方法的MAP值均高于AKM,這是因為AKM對初始聚類中心的選擇敏感且容易陷入局部極值,而DBC的聚類思想不同于基于劃分的聚類方法,既不需要設(shè)置初始聚類中心也不用設(shè)計目標(biāo)函數(shù),而是根據(jù)聚類中心具有密度大且與其他高密度點距離較遠(yuǎn)的特性尋找適合的數(shù)據(jù)點作為聚類中心,避免了初值選取對聚類結(jié)果的影響,而且不需要任何先驗信息,只需設(shè)置合適的距離閾值dc即可完成聚類.
隨后,為驗證卡方模型去除“視覺停用詞”的有效性,實驗利用DBC生成規(guī)模M=10000的視覺詞典,然后通過卡方模型濾除一定數(shù)目的“視覺停用詞”,并與未去除“視覺停用詞”的圖像檢索MAP值進(jìn)行對比,實驗結(jié)果如圖5所示.

圖5 去除停用詞數(shù)目對圖像檢索MAP值的影響Fig.5 The eあect of parameter on MAP
對比圖5中的MAP曲線不難看出,當(dāng)去除“視覺停用詞”數(shù)目S<1200時,隨著S逐漸增加,視覺詞典的目標(biāo)分辨能力得到有效提高,并在S=1200時MAP值達(dá)到最大值75.81%.但是,當(dāng)S>1200時,隨著“視覺停用詞”濾除數(shù)目增加,使得一些代表性較強(qiáng)的視覺單詞被去除,導(dǎo)致圖像檢索MAP值逐漸降低,并最終低于未去除“視覺停用詞”的MAP值.而視覺詞典規(guī)模M發(fā)生變化時,濾除“視覺停用詞”的最佳數(shù)目也會隨著變化,當(dāng)M較小時,聚類準(zhǔn)確率較低,使得包含目標(biāo)信息的視覺單詞中噪聲SIFT特征數(shù)目較多,“視覺停用詞”數(shù)目較少,因此單詞停用率較低;隨著詞典規(guī)模M逐漸變大,聚類準(zhǔn)確率隨之增加,使得包含目標(biāo)信息的視覺單詞中噪聲SIFT特征數(shù)目逐漸減少,“視覺停用詞”的數(shù)目逐漸增加,因此視覺單詞停用率逐步增加.而且不同的圖像集中背景噪聲均不一樣,因此,在具體應(yīng)用時需根據(jù)實際情況設(shè)置濾除“視覺停用詞”的數(shù)目.
然后,在詞典規(guī)模為10000,去除“視覺停用詞”數(shù)目S=1200的情況下對查詢圖像進(jìn)行檢索,將初始檢索結(jié)果與平均擴(kuò)展查詢方法(AQE)[12]、K近鄰重排序方法(K-nearest neighbors re-ranking, KNNR)[13]、區(qū)分?jǐn)U展查詢方法 (Discriminative query expansion,DQE)[20]和本文方法 (Graphbased query expansion,GBQE)進(jìn)行實驗對比,實驗結(jié)果如表2所示.從表2中不難看出,經(jīng)過查詢擴(kuò)展后的檢索MAP值均高于初始檢索結(jié)果,說明查詢擴(kuò)展方法能利用初始檢索結(jié)果中的有用信息,以此提高檢索性能.其中,AQE利用初始檢索結(jié)果的前k幅圖像的特征平均值作為新的查詢實例進(jìn)行檢索,而KNNR方法分別對這k幅圖像進(jìn)行擴(kuò)展查詢,更為有效地利用了擴(kuò)展圖像的細(xì)節(jié)信息,但是AQE和KNNR方法依賴于較高的初始準(zhǔn)確率,沒有分析新的查詢實例與查詢圖像之間的相關(guān)性.DQE通過線性支持向量機(jī)(Support vector machine,SVM)分析擴(kuò)展項與查詢圖像的相關(guān)性,并根據(jù)相關(guān)性大小為其分配權(quán)重,減少無關(guān)擴(kuò)展項的負(fù)面影響,檢索性能優(yōu)于AQE和KNNR方法,然而DQE僅考慮了查詢圖像與擴(kuò)展項的單向相關(guān)性,并沒有考慮利用擴(kuò)展項是否能檢索到查詢圖像. GBQE方法根據(jù)訓(xùn)練圖像的互相關(guān)圖像構(gòu)建連接圖,定義圖像對的k近鄰中包含相同近鄰的數(shù)目作為連接權(quán)重,降低了圖像中噪聲對連接權(quán)重的影響,然后將與查詢圖像相關(guān)的密度最大子圖的頂點圖像作為擴(kuò)展項進(jìn)行擴(kuò)展查詢,有效去除了無關(guān)擴(kuò)展項對檢索結(jié)果的影響,此外,連接圖可離線構(gòu)造,減少了在線檢索時間,并可以對新的查詢圖像進(jìn)行增量更新.實驗結(jié)果表明GBQE方法檢索性能優(yōu)于其他方法.

表2 不同查詢擴(kuò)展方法的圖像檢索MAP值對比(%)Table 2 The image retrieval results of diあerent query expansion methods for Oxford5K database(%)
為進(jìn)一步驗證本文方法的性能,從Paris6K數(shù)據(jù)庫中隨機(jī)選取1000幅圖片作為干擾圖像,將本文方法(EVD+GBQE)與文獻(xiàn)[20]中的基于空間特征擴(kuò)展和區(qū)分?jǐn)U展查詢方法(SPAUG+DQE)、文獻(xiàn)[21]中的基于上下文近義詞和查詢擴(kuò)展圖像檢索方法(CSVW+QE)和文獻(xiàn)[22]中的基于顯著度分析的圖像檢索方法(S-sim)進(jìn)行實驗對比,實驗結(jié)果如圖6所示.
對比圖 6中的數(shù)據(jù)可知,采用本文方法(EVD+GBQE)較之其他三種方法有更好的表現(xiàn). S-sim方法通過對圖像顯著區(qū)域分析,有效降低了圖像背景噪聲的不利影響,由于沒有利用初始檢索結(jié)果對查詢圖像進(jìn)行有效擴(kuò)展,加入大量干擾圖像后其檢索性能明顯下降;CSVW+QE方法利用視覺單詞的上下文信息增強(qiáng)單詞對圖像內(nèi)容的表達(dá)能力,然而CSVW+QE依賴較高的初始查準(zhǔn)率,當(dāng)無關(guān)圖像增加時,其檢索性能逐漸下降;SPAUG+DQE結(jié)合視覺單詞的上下文信息對局部特征進(jìn)行擴(kuò)展,并根據(jù)查詢圖像與擴(kuò)展項的相關(guān)性大小分配權(quán)重,降低了無關(guān)擴(kuò)展項的不利影響,使得其抗干擾能力強(qiáng)于CSVW+QE和S-sim,但是一幅圖像包含大量的局部特征,對局部特征進(jìn)行擴(kuò)展的計算和時間開銷均較大,導(dǎo)致實用性不強(qiáng);EVD+GBQE則采用無需迭代尋優(yōu)的聚類方法生成視覺詞典,提高了詞典生成效率,再利用卡方模型濾除不包含目標(biāo)信息的視覺單詞,增強(qiáng)了詞典的語義分辨能力,然后通過連接圖查找與查詢圖像相關(guān)的圖像作為擴(kuò)展項并進(jìn)行擴(kuò)展查詢,根據(jù)擴(kuò)展查詢結(jié)果對初始檢索結(jié)果重排序,實驗結(jié)果表明,EVD+GBQE在復(fù)雜環(huán)境下仍具有較好的表現(xiàn),實用性更強(qiáng).圖7給出了本文方法在Oxford5K+Paris6K數(shù)據(jù)庫上的圖像檢索結(jié)果,不難看出,利用本文方法可以將初始檢索結(jié)果中無關(guān)圖像剔除,從而檢索得到更多與查詢圖像相關(guān)的圖像.

圖6 在Oxford5K和Oxford5K+Paris6K數(shù)據(jù)庫上的圖像檢索MAP值Fig.6 The MAP of diあerent methods for Oxford5K and Oxford5K+Paris6K database
本文提出了一種基于視覺詞典優(yōu)化和查詢擴(kuò)展的圖像檢索方法.首先,針對傳統(tǒng)視覺詞典生成方法效率低問題,引入基于密度的聚類方法生成視覺詞典,根據(jù)聚類中心具有的特性快速尋找適合的數(shù)據(jù)點作為聚類中心,避免了迭代尋優(yōu)過程,有效提高了詞典生成效率;然后,利用卡方模型分析視覺單詞與圖像目標(biāo)的相關(guān)性,同時結(jié)合視覺單詞詞頻濾除不包含目標(biāo)信息的“視覺停用詞”,提高了視覺詞典的質(zhì)量;最后,通過連接圖查找與查詢圖像相關(guān)的圖像作為擴(kuò)展項,并對初始檢索結(jié)果進(jìn)行重排序,降低了初始檢索中不相關(guān)圖像的影響,提高了圖像檢索準(zhǔn)確率.實驗結(jié)果有效地驗證了本文方法的圖像檢索性能優(yōu)于當(dāng)前主流方法.如何將目標(biāo)空間信息與視覺單詞相結(jié)合,增強(qiáng)視覺單詞的語義表達(dá)能力是本文的下一步研究方向.此外,如何通過距離度量的學(xué)習(xí)使得特征空間的距離更加接近真實的語義距離也是今后亟待解決的問題.

圖7 EVD+GBQE方法在Oxford5K+Paris6K數(shù)據(jù)庫上的檢索結(jié)果Fig.7 The image retrieval results of EVD+GBQE for Oxford5K+Paris6K database
1 Chen Y Z,Dick A,Li X,Van Den Hengel A.Spatially aware feature selection and weighting for object retrieval.Image and Vision Computing,2013,31(12):935?948
2 Wang J J Y,Bensmail H,Gao X.Joint learning and weighting of visual vocabulary for bag-of-feature based tissue classi fi cation.Pattern Recognition,2013,46(12):3249?3255
3 Cao Y,Wang C H,Li Z W,Zhang L Q,Zhang L.Spatialbag-of-features.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.3352?3359
4 Philbin J,Chum O,Isard M,Sivic J,Zisserman A.Object retrieval with large vocabularies and fast spatial matching. In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,USA:IEEE, 2007.1?8
5 Nister D,Stewenius H.Scalable recognition with a vocabulary tree.In:Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition.New York,USA: IEEE,2006.2161?2168
6 Goes J,Zhang T,Arora R,Lerman G.Robust stochastic principal component analysis.In:Proceedings of the 17th International Conference on Arti fi cial Intelligence and Statistics.Reykjavik,Iceland:JMLR,2014.266?274
7 Goswami A K,Jain R,Tripathi P.Automatic segmentation of satellite image using self organizing feature map(SOFM) an arti fi cial neural network(ANN)approach.International Journal of Advanced Research in Computer Science,2014, 5(8):92?97
8 McLachlan G,Krishnan T.The EM Algorithm and Extensions(Second Edition).Hoboken,New Jersey:John Wiley &Sons,2008.
9 Sivic J,Zisserman A.Video Google:a text retrieval approach to object matching in videos.In:Proceedings of the 9th IEEE International Conference on Computer Vision. Nice,France:IEEE,2003.1470?1477
10 Yuan J S,Wu Y,Yang M.Discovery of collocation patterns:from visual words to visual phrases.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,USA:IEEE,2007.1?8
11 Fulkerson B,Vedaldi A,Soatto S.Localizing objects with smart dictionaries.In:Proceedings of the 10th European Conference on Computer Vision.Berlin,Heidelberg,Germany:Springer,2008.179?192
12 Perd′och M,Chum O,Matas J.Eきcient representation of local geometry for large scale object retrieval.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA:IEEE,2009.9?16
13 Shen X H,Lin Z,Brandt J,Avidan S,Wu Y.Object retrieval and localization with spatially-constrained similarity measure andk-nn re-ranking.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,USA:IEEE,2012.3013?3020
14 Chum O,Philbin J,Sivic J,Isard M,Zisserman A.Total recall:automatic query expansion with a generative feature model for object retrieval.In:Proceedings of the 11th IEEE International Conference on Computer Vision.Rio de Janeiro,Brazil:IEEE,2007.1?8
15 Rodriguez A,Laio A.Clustering by fast search and fi nd of density peaks.Science,2014,344(6191):1492?1496
16 Kesom K,Poslad S.An enhanced bag-of-visual word vector space model to represent visual content in athletics images.IEEE Transactions on Multimedia,2012,14(1):211?222
17 Zhang S T,Yang M,Cour T,Yu K,Metaxas D N.Query speci fi c rank fusion for image retrieval.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(4): 803?815
18 Philbin J,Arandjelovi′c R,Zisserman A.Oxford5K dataset[Online],available:http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/,December,2015.
19 Philbin J,Zisserman A.Paris6K database[Online],available: http://www.robots.ox.ac.uk/~vgg/data/parisbuildings/,December,2015.
20 Arandjelovi′c R,Zisserman A.Three things everyone should know to improve object retrieval.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,USA:IEEE,2012.2911?2918
21 Xie H T,Zhang Y D,Tan J L,Guo L,Li J T.Contextual query expansion for image retrieval.IEEE Transactions on Multimedia,2014,16(4):1104?1114
22 Gao Y,Shi M J,Tao D C,Xu C.Database saliency for fast image retrieval.IEEE Transactions on Multimedia,2015, 17(3):359?369