999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積特征聚合的細粒度圖像檢索方法

2022-01-01 00:00:00茍光磊朱東旭楊雨
計算機應用研究 2022年4期

摘要:針對卷積神經網絡(CNN)全連接層得到的是圖像類別的全局語義信息,無法有效抑制背景噪聲以及表示圖像局部的細節信息,導致細粒度圖像檢索任務中負樣本靠前的問題,提出了一種選擇性加權來聚合卷積特征并利用k相互最近鄰(k-reciprocal nearest neighbor,k-RNN)重排的圖像檢索方法。該方法主要是通過提取并篩選CNN最后一層特征來聚合形成單維全局特征向量,再引入k相互最近鄰算法對檢索出的結果進行重排。在細粒度基準數據集CUB-200-2011、室內場景數據集Indoor和普通類別數據集Caltech-101進行驗證評估。實驗結果表明該方法能夠有效改善檢索出負樣本靠前的問題,相比SCDA方法,該方法檢索精度及召回率有顯著提升。

關鍵詞:圖像檢索;卷積特征聚合;細粒度;k相互近鄰

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)04-051-1259-06

doi:10.19734/j.issn.1001-3695.2021.07.0322

Fine-grained image retrieval method based on convolution feature aggregation

Gou Guanglei,Zhu Dongxu,Yang Yu

(School of Computer Science amp; Engineering,Chongqing University of Technology,Chongqing 400054,China)

Abstract:Aiming at the problem that the full connection layer of convolutional neural network(CNN) obtains the global semantic information of image categories,which cannot effectively suppress the background noise and represent the local detail information of the image,leading to the negative samples in the fine-grained image retrieval task,this paper proposed a selective weighting method to aggregate the convolution features and rearrange the k-reciprocal nearest neighbor.This method mainly extracted and filtered the last layer features of CNN to aggregate into a single-dimensional global feature vector,and then introduced the k-nearest neighbor algorithm to rearrange the retrieved results.It carried out validation and evaluation in fine-grained benchmark dataset CUB-200-2011,indoor scene dataset Indoor,and common category dataset Caltech-101.The experimental results show that this method can effectively improve the retrieval of negative samples.Comparing with SCDA method,the retrieval accuracy and recall rate of this method are significantly improved.

Key words:image retrieval;convolutional features aggregation;fine-grained;k-reciprocal nearest neighbor

0引言

人們的生產生活中伴隨著多媒體技術的迭代更新而不斷產生數字圖像,例如購物平臺中的示例商品圖片、社交分享網站上的生活日常照片等[1]。在海量劇增的圖像庫數據中檢索出目標圖像成為越來越重要的研究方向。

圖像檢索按照檢索信息的形式可以分為以文搜圖和以圖搜圖。基于文本的圖像檢索(TBIR)通過用戶輸入關鍵字檢索出與關鍵字對應的標簽圖像。TBIR存在對圖片人工標注成本較高的局限性,它需要用文本詞匯描述每一幅圖片,且人工標注的詞匯對圖片內容的描述具有較大的主觀性。隨后,基于內容的圖像檢索算法(CBIR)被提出。CBIR利用視覺內容的表示來識別相關圖像,是多媒體界幾十年來廣泛研究的基礎研究課題之一。在CBIR發展早期,通常提取圖片的全局特征來表示圖片,如顏色、紋理、形狀等低層特征。2003年,尺度不變特征轉換(scale-invariant feature transform,SIFT)對圖像尺度縮放、方向旋轉和亮度變換問題中的優異表現[1],基于局部描述算子、詞袋模型BOW等傳統圖像檢索方法開始被廣泛研究。2012年,Krizhevsky等人[2]在ILSRVC 2012上首次使用神經網絡模型AlexNet在大規模圖像識別問題上取得突破性進展,相比于傳統方法性能提升10多個百分點,取得了當時最高的分類準確率。隨著采用卷積神經網絡模型在圖像分類任務上取得突破,CNN在多項視覺任務,如檢測、分割等表現出 state-of-the-art 的效果,同時在圖像檢索領域,基于CNN提取的深度特征同樣也表現出遠優于傳統特征的效果。

此外,近幾年圖像檢索衍生出如多標簽圖像檢索[3]、基于草圖的圖像檢索[4]和醫學CT圖像檢索[5]等任務。其中,細粒度圖像檢索(fine-grained image retrieval,FGIR)是當前圖像檢索任務中更有挑戰性且更具有現實意義的任務,在生物研究、生物多樣性保護和生態環境監控保護等方面具有重要的應用價值。FGIR相較于通用圖像檢索任務的難點在于細粒度圖像檢索的圖像目標粒度更加細化,檢索圖像中同一子類的目標存在目標姿態、尺度、背景和紋理等較大差異,同時非同一子類的目標卻存在紋理、顏色和形狀等內容的相似性。細粒度圖像檢索任務與通用圖像檢索任務的區別往往導致通用圖像檢索方法在細粒度檢索中效果并不理想,檢索出的負樣本數據出現在靠前的排序位置中,使得細粒度檢索任務中前k個召回率較低。

早期大多數圖像檢索方法都是基于局部特征和基于這些局部特征的特征聚合。其中局部特征向量聚合(vector of locally aggregated descriptors,VLAD)[6]和Fisher vector [7]是兩種典型的特征聚合方法。2015年,Xie等人[8]將現有的細粒度圖像數據集和傳統一般場景圖像融合構造一個分層數據庫,提出將細粒度圖像的分類結果聯合詞袋模型構造SIFT特征進行細粒度檢索的基線方法,首次提出了細粒度圖像檢索的概念。在CNN成功之后,圖像檢索也進入了深度學習的階段。在許多與視覺相關的任務,包括圖像檢索,通過預訓練的深度神經網絡提取出的特征取得了較好的檢索效果。

研究人員對深度卷積神經網絡中的哪一層深度特征更適用于圖像檢索任務,以及如何對提取的特征進行高效度量檢索開展了大量的研究,并取得了較好的結果。2014年,Razavian等人[9]使用CNN模型最后的全連接層輸出作為圖像的全局特征,并在一定的特征維度情況下,證明了它們比傳統特征提取技術更具有優勢。2014年,Razavian等人[10]將研究的關注點從全連接層提取特征轉移到CNN的卷積層輸出的特征。這種深度卷積特征可以直接有效地從任意大小和高寬比的圖像中提取出來,被認為是代表特定感受野得到的局部圖像特征,因此每個深度卷積特征可被看做是某種使用傳統特征,如SIFT提取得到的局部特征。2015年Babenko等人[11]采用合并求和池化將深度卷積特征聚合得到圖像的全局特征表示。實驗表明不同于傳統特征如SIFT,對于深度卷積特征,通過累加求和生成聚合特征SPoC(sum-pooled convolutional features)的檢索效果優于使用文獻[7,8]等方法得到的聚合特征的檢索效果。2016年,Kalantidis等人[12]

在SPoC基礎上提出了CroW方法,通過對每個空間和每個通道進行交叉維度賦權,然后求和池化以得到描述圖像的聚合特征。同年,Tolias等人[13]提出的區域最大激活卷積(regional maximum activation of convolution,R-MAC)方法不同于之前的直接在圖像進行窗口滑動,而是在卷積層特征上進行大小不同的窗口滑動,得到多個局部特征來描述圖像。2017年,Wei等人[14]提出了在無監督條件下的卷積描述符選擇聚合方法(selective convolutional descriptor aggregation,SCDA),其中描述符指卷積層各通道特征圖的D維組合向量,對主要目標無監督定位選擇后的深度描述符池化到SCDA特征中,作為整個圖像特征表示。2018年,Xu等人[15]提出基于語義部分的加權聚合方法(part-based weighting aggregation,PWA),利用深層卷積層的識別濾波器作為區域部分檢測器,首次提出在圖像檢索中對不規則的目標區域與特定語義內容相對應,生成包含區分語義信息的高維特征,最終得到全局圖像聚合特征。同年,Filip等人[16]提出的一種可訓練的池化層——廣義均值池化方法(generalized-mean,GeM),通過訓練得到介于最大池化和平均池化兩者之間的參數值,在保持相同特征描述維度的同時優于傳統平均池化和最大池化。最新的相關工作是Heejae等人[17]提出的將MAC、SPoC和GeM全局描述符進行融合的方法(combination of multiple global descriptors,CGD),將第一個全局描述符得到的結果用于下游的全局描述符,通過將上述三種方法進行組合用于檢索任務。上述方法主要關注聚合后的全局特征進行檢索,本文方法關注聚合特征篩選的同時采用k-reciprocal nearest neighbor[18]重排提升檢索精度。

1基于選擇性特征聚合和k相互近鄰的細粒度圖像檢索

1.1本文方法概述

本文方法輸入一對圖像,輸出為檢索排名返回的前k張圖片,分為特征提取、特征篩選聚合與檢索重排前后三大步驟。如圖1所示,整個方法可分為三部分。現有針對圖像檢索任務的主流特征聚合方法中由于沒有進行特征選擇,用圖像全部區域的特征參與運算,圖像中非主體的背景和噪聲會降低檢索的精度[11~19]。文獻[15,16]主要是全局求和池化與全局最大池化的變體;文獻[13]計算出每個滑窗區域的最大池化描述子再進行求和相加,沒有進行特征篩選;而文獻[11,12]重點關注在如何分配空間和通道的權重,本質上還是求和池化。專門針對細粒度圖像檢索的方法中,文獻[14]采用SCDA算法對特征進行篩選,通過組合VGG-16 模型的ReLU5-2 和最后一個卷積層pool5的特征,將這兩者的特征加權級聯拼接成最后的全局描述子。但是由于細粒度數據本身的挑戰,SCDA方法在特征篩選過程中需要采用復雜度較高的洪泛算法縮小特征區域,以此減少將復雜背景圖像部分噪聲區域特征被篩選聚合的情況,所以需要較大的計算內存。同時由于特征集成后造成特征維度較高,導致檢索效率低下,在保證檢索精度不下降的同時,為了提升檢索效率,本文只篩選最后一層卷積層特征,將區域特征向量按照通道加權聚合來抑制背景或噪聲對特征篩選的影響得到全局特征。為了改善細粒度圖像檢索出的前k個排序樣本中負樣本靠前的問題,本文方法將聚合后的卷積特征采用k-reciprocal nearest neighbor方法進行特征重排,計算特征向量之間的相似性,得到最終的檢索結果。

1.2卷積神經網絡特征提取

卷積神經網絡的卷積層和全連接層分別將輸入網絡的二維圖像數據表達生成為三維的卷積特征以及單維的全連接特征向量。Girshick等人[20]將AlexNet的最后一層全連接層特征用于目標檢測和語義分割中,能夠較好地表達出圖像的全局語義信息。將最后一層全連接層的單維特征作為圖像的特征表示,對于普通場景的傳統圖像檢索任務能夠取得較好的檢索準確率,但是對于細粒度圖像檢索任務,由于細粒度圖像中的物體通常只有細微的差別,僅依靠全局語義信息并不能夠有效地區分出細粒度圖像中局部的細節特征,造成檢索效果并不理想。在卷積神經網絡中不同層特征映射的意義不盡相同,每個神經元輸入來自前一層的局部感受野,從而提取出該區域的局部特征。以鳥類圖片為例,圖2為在VGG-16[21]網絡中使用Grad-CAM++[22]將各層特征圖與原始輸入圖像疊加展示以便獲得更好的可視化效果。從圖2可以看出,淺層網絡提取的是顏色、邊緣和形狀紋理等低層特征,包含的特征較為分散;深層網絡提取的是比較有區別性和具有辨別性的關鍵部位特征,相對而言,層數越深,提取的特征越具有代表性。因此,對于一個多次卷積和池化后的深層卷積神經網絡,本文抽取其中集中了最關鍵的局部空間和語義信息的最后一層卷積特征進行特征聚合,減少篩選圖像背景噪聲特征,聚合圖像主體中具有判別力的局部細節特征來提升圖像檢索性能。

1.3卷積特征篩選融合

本文用I表示一張H×W像素大小的輸入圖像,將其送入預訓練的卷積神經網絡中,最后一層卷積層經過池化操作得到的卷積響應結果為一個h×w×d大小的三維卷積響應張量T。該張量T包含一個含有n張二維特征圖的特征圖集合,記為S={Sn}(n=1,…,d),其中Sn表示對應第n個通道大小為h×w的二維特征圖。同時,T也可以看做含有h×w個d維響應向量[23]。將T中的卷積響應向量記做X={x(i,j)},將224像素×224像素大小的圖像輸入VGG-16網絡中,在最后一層卷積層pool5得到7×7個512維的卷積響應向量或512張大小為7×7的二維卷積特征圖,即Sn。在得到pool5層的響應結果后,輸入圖像I可表示為三維張量T,T實際上是一種稀疏的分布式多對多表示[24,25]。由于神經網絡中這種語義概念和神經元之間多對多的關系[26]造成并非所有的卷積特征響應向量對于細粒度圖像檢索任務都是有用的,有的卷積特征響應向量定位描述的是目標圖像的關鍵特征部位,有的是響應圖像中非主體目標的背景或噪聲區域,如圖3所示。

因此對于圖像檢索,特別是細粒度級別圖像檢索任務篩選出能夠判別目標關鍵部位的特征,丟棄表達圖像背景或非主體目標的噪聲特征作為描述整幅圖像的聚合特征,能夠有效提升檢索性能。文獻[14]沿著通道方向將pool5層的響應張量直接加合,對復雜背景的圖像容易造成部分較小噪聲區域被激活的情況,沒有考慮聚合的時候對通道加權。根據逆文檔頻率,假設某個通道的二維特征圖上每個元素值都是較大的非零值,則特征圖會出現范圍較大的強響應區域,不利于定位關鍵目標特征,在加合時應該降低該通道的權重;而對于二維特征圖中強響應區域范圍較小的通道,可以認為該通道下的二維特征圖中包含了物體目標關鍵位置信息,需要增加該通道的權重[27]。根據非零元素的多寡對通道加權,將不同權重的通道聚合,h×w×d維度的三維張量便成為一個h×w維度的二維矩陣,該矩陣記為聚合特征圖A,即

A=∑dn=1logRnε+QnSn(1)

其中:Sn為pool5層響應張量的第n張特征圖;Qn表示第n個通道上非零元素的個數;Rn表示第n個通道上總的元素個數;ε為保證分母不為零的較小值,本實驗中ε取值為1。對于通道加權聚合后得到的二維特征圖A,共有h×w個聚合起來的卷積響應向量,分別對應到h×w個圖像位置。根據Grad-CAM[28]思想,A中某位置(i,j)的響應越強,那么該位置出現主要物體的可能就越大。在得到加權聚合特征圖A后,對這個二維特征圖中特征篩選的方法與文獻[14]類似,通過計算矩陣A中所有位置響應的平均值來作為閾值判斷A中該位置處元素是否為物體的一部分,若(i,j)位置的聚合響應值大于該均值,則該位置大概率出現主要物體[22]。將A中大于閾值的這部分區域稱為掩碼圖:

i,j=1Ai,jgt;

0otherwise(2)

其中:(i,j)為h×w矩陣中的第i行第j列的坐標位置。對于i,j=1位置對應的卷積特征響應向量,x(i,j)被保留;對于i,j=0位置的卷積特征響應向量則丟棄。得到篩選保留后的卷積特征響應向量記做集合F。

F={x(i,j)|i,j=1}(3)

文獻[16]對ReLU5_2和pool5層特征集成選擇時,需要采用洪泛算法選取兩個卷積層特征的區域交集來縮小特征范圍。通過實驗表明,該方法帶來特征維度較高的缺陷且檢索性能沒有顯著的提升。同時洪泛算法需要遍歷每個特征圖中元素作為對比帶來較高的時間復雜度和內存運算占用。為了降低特征維度和減少內存運算,本文擯棄了得到更多噪聲的ReLU5_2層卷積特征,對提取關鍵部位特征的pool5層特征進行聚合。將篩選后保留的高維卷積特征響應向量集合融合為全局特征表示,減少匹配圖像特征對時間和內存的消耗。本文的融合方法采用經典簡單的匯合操作,即平均值匯合:

pavg=1N∑i,jx(i,j)(4)

其中:pavg是1×d維向量;N為保留的卷積特征向量個數。

1.4檢索與重排

提取圖片的特征向量之后,本文要將待檢索圖片的特征向量與數據庫中的圖片特征向量進行相似度量來完成檢索。由于細粒度圖像中目標物體在角度、姿態、亮度和旋轉上的變化且物體間的差異常常較為細微,使用K-nearest neighbors算法容易造成檢索出的前k樣本數據中,正樣本數據沒有全在比較前的位置,而檢索出的負樣本數據排到了較前的位置。為了改善細粒度圖像由于以上問題導致前k個檢索圖像召回率較低的情況,引入行人重識別中的k-reciprocal nearest neighbor方法,對使用K-nearest neighbors進行聚合特征度量后產生的初次檢索結果進行k-reciprocal nearest neighbor重排序,將重排序的結果作為最終的檢索結果。k-reciprocal nearest neighbor算法的思路是:如果兩張圖片A、B相似,則B會出現在A的前K個近鄰里面,反過來,A也會出現在B的前K個近鄰里面。如果兩張圖片C、D不相似,即使C出現在D的前K個近鄰里面,D也不會出現在C的前K個近鄰中。假設存在查詢圖片和圖片查詢集G={gi|i=1,2,…,N},首先采用余弦相似度衡量計算p和gi,兩者之間的相似性度量計算公式為

d(p,gi)=1-pTgi|p||gi|(5)

其中:p、gi表示兩個n維的特征向量;d表示兩個向量的距離。得到初始排序列表v(p,G)={g01,g02,…,g0N},滿足d(p,g0i)lt;d(p,g0i+1)。本文定義N(p,k)作為p的k個近似鄰:

N(p,k)={g01,g02,…,g0N},|N(p,k)|=k(6)

其中:|·|表示候選集的個數。k相互最近鄰R(p,k)定義為

R(p,k)={(gi∈N(p,k))∩p∈N(gi,k)}(7)

根據前面的描述,若兩張相似圖片的k相互最近鄰集合是重疊的,存在重復的樣本。如果重復的樣本越多,說明兩者越相似,則在k相互最近鄰集合中p和gi之間的距離度量可以采用Jaccard距離,計算公式為

dj(p,gi)=1-|R(p,k)∩R(gi,k)||R(p,k)∪R(gi,k)|(8)

由于k相互最近鄰比k最近鄰與p更相關,為了得到更加魯棒的距離度量,將余弦距離和Jaccard距離加權作為相似度度量的最終距離。最終距離的定義如下:

d(p,gi)=(1-λ)dj(p,gi)+λd(p,gi)(9)

其中:d(p,gi)為K-nearest neighbors算法檢索的原始距離;dj(p,gi)為k-reciprocal nearest neighbor算法對檢索出的初始排序列表重排后的距離;λ∈[0,1],本實驗中λ取值為0.7。對得到的初始排序列表采用文獻[18]算法重排后明顯減少了負樣本數據出現在較靠前位置的情況,有效提升了檢索召回率。

2實驗與分析

2.1研究環境

實驗環境:本實驗操作系統采用Ubuntu16.04LTS,使用開源深度學習框架PyRetri[29]進行實驗。實驗儀器配置:CPU為Intel CoreTM i9-9980XE @3.00 GHz,GPU為兩塊NVDIA TITAN RTX 24 GB,硬盤為 SSD 970EVO Plus 1 TB。

實驗數據:使用目前細粒度分類識別研究的基準圖像數據集CUB-200-2011[30]。該數據集包含200類鳥類子類,其中訓練數據集有5 994張圖像,測試集有5 794張圖像,共有11 788張鳥類圖像。室內場景數據集Indoor[31]包含67個室內類別,總共15 620個圖像。Caltech-101數據集包含101個普通物體的類別,每個類別包含40~800張圖像。

本文分別在VGG-16和ResNet50兩個經典CNN模型上進行實驗。在整個實驗中直接使用ImageNet上預訓練好的網絡模型,沒有針對本實驗涉及到的數據集進行微調,基于PyTorch框架完成卷積特征提取并對其進行篩選,實現圖像檢索任務。本文對最后一層卷積特征進行篩選聚合,減少圖像中噪聲區域和非主體細節特征的提取,生成關注物體中細節且描述整幅圖像的全局特征,并針對細粒度圖像檢索出的負樣本數據靠前,正樣本數據靠后的情況,采用k-reciprocal nearest neighbor算法對得到的初始排序列表進行重排,具有更好的檢索性能。

2.2評價指標

采用廣泛應用于圖像檢索相關任務的召回率recall和平均精度均值(mean average precision,mAP)作為評價指標。recall表示檢索出的相關圖像數與數據庫中全部相關圖像數的比率,定義為

recallk=R(k)N×100%(10)

其中:R(k)表示檢索出的相關圖像數;k表示前k個圖片數;N為全部相關的圖像數。mAP由以下公式計算:

mAP=1Q∑QqAvep(q)(11)

Avep=1R∑nk=1(p(k)×rel(k))(12)

其中:Q表示待檢索圖像的數量;R表示總相關圖像數量;k表示在檢索圖片列表中的排序位置;p(k)為前k個結果的準確率;rel(k)表示位置k上的圖像是否相關,相關為1,不相關為0。通常,更高的召回率和平均精度均值意味著更好的檢索準確性。

2.3實驗結果

本節從多個方面展示本文方法的優越性。本文方法是依次遞進的,首先提取神經網絡中的最后一層卷積特征,然后對提取的特征進行通道加權篩選聚合,最后采用文獻[18]算法重排得到圖像檢索結果。

為了說明2.2節中選取最后一層卷積特征作為細粒度圖像特征的有效性,本文對VGG-16模型不同卷積層特征以及全連接層特征采用相同的特征提取方法在CUB-200-2011數據集上進行檢索性能的對比。表1展示了VGG-16中不同卷積層和全連接層的檢索性能對比。由于pool5層相較于pool3層、pool4層網絡層數更深,提取的是有代表性的關鍵部位特征。pool4層比前一層檢索結果的mAP和R@1分別高出15%和12%,同時pool5層相較于pool4層檢索結果的mAP和R@1均大幅高出24%。由于全連接層特征得到的是圖像類別全局語義,無法表達出圖像細節信息和抑制目標物體中背景或噪聲信息,pool5層檢索結果比全連接層特征在mAP和R@1均高出7%,說明最后一層卷積層特征相比于全連接層特征和其他層卷積特征更適用于細粒度圖像檢索任務。

為了驗證本文提出的特征篩選聚合方法性能上的優越性進行了一系列對比實驗。采用在ImageNet上預訓練的ResNet50模型,選擇了R-MAC、SPoC、CroW、GeM和SCDA等主流特征聚合方法生成可以描述圖像的細節特征,分別在細粒度基準圖像數據集CUB-200-2011、Caltech-101和Indoor上進行對比。同時,為了說明本文方法與上述方法融合后仍具有較好的性能,采用CGD方法將上述特征融合后進行對比,其中CGD(GM)方法表示將GeM和R-MAC方法進行組合,CGD(GS)方法表示將GeM和SCDA方法進行組合,CGD(GO)方法表示將GeM和本文方法進行組合。本文方法與上述方法的結果對比如表2所示。

表2第一列得出,在細粒度數據集CUB-200-2011上,對最后一層卷積特征篩選聚合后的SCDA方法和本文方法的效果明顯好于未對特征篩選進行聚合的方法。在采用CGD方法融合后,SCDA和本文方法同樣優于未對特征篩選進行聚合的R-MAC方法,CGD(GO)方法在三個數據集上的檢索精度和召回率均優于CGD(GS)和CGD(GM)方法,說明針對細粒度級別圖像檢索任務通過對卷積特征聚合的篩選能夠有效提升檢索召回率和mAP@top5,本文方法對檢索效果有明顯的提升。同時可以看出,本文方法在三個數據庫上都取得了最好的效果,相比文獻[14]方法在細粒度數據集CUB-200-2011上的mAP@top5平均提升了約2%,前一張和前五張檢索圖片的召回率約2%。在表3中,本文分別給出了本文方法和SCDA方法在檢索時間和顯存占用的實驗結果。檢索時間為檢索同一張照片到返回前10張結果的時間開銷,顯存占用為float32單精度浮點型下檢索算法計算輸出特征圖所耗費的顯存大小。可以看出,本文方法檢索時間低于SCDA方法0.015 s,顯存占用低于SCDA方法1.5 Mb,說明本文方法通過對篩選特征通道加權聚合,能有效抑制背景或者噪聲對圖像檢索性能的影響,同時也說明即使本文方法沒有對特征集成,也能達到甚至優于之前方法,有效避免了特征通過洪泛算法篩選帶來計算復雜度的提高和內存的占用。在Caltech和Indoor數據集上平均檢索精度和召回率均有一定的提升,說明本文方法不僅在針對細粒度數據集上有較好的效果,同時在普通場景數據集上對檢索性能的提升同樣有效。

為了說明使用k-reciprocal nearest neighbor算法重排對檢索性能的提升,使用VGG-16模型進行四組對比實驗:采用SCDA方法對圖像特征提取聚合,然后直接進行檢索;采用本文方法對圖像特征篩選聚合后直接進行檢索;采用SCDA方法對圖像特征提取聚合,然后采用k-reciprocal nearest neighbor算法進行檢索;采用本文方法對圖像特征篩選聚合后,然后采用k-reciprocal nearest neighbor算法重排進行檢索;在CUB-200-2011、Caltech和Indoor數據集上檢索的mAP如表3所示,在細粒度數據集CUB-200-2011上檢索前10張最相關圖像結果的召回率如表4所示。SCDA和本文方法在使用k-reciprocal nearest neighbor算法重排后,在CUB-200-2011數據集上mAP均有3%的提升,而在Caltech-101和Indoor數據集上約有1%的提升,說明k-reciprocal nearest neighbor算法對細粒度圖像檢索mAP提升更加明顯。在前10張圖召回率的對比上,引入k-reciprocal nearest neighbor算法后,召回率均提升了5%,特別是在前2~8張的召回率上提升明顯。如圖4所示,本文方法引入k相互近鄰后前k張recall曲線圖,說明前10張圖片的召回率在引入k相互近鄰后均有較明顯的提升,針對細粒度圖像,k-reciprocal nearest neighbor算法能夠有效減少檢索出負樣本數據靠前的情況,提升檢索性能。

圖5給出了本文方法與SCDA方法在CUB-200-2011測試集上針對同一張樣圖檢索出圖片庫中最相似的8張圖的四組圖片對比。第一列為待檢索的樣圖,每一組第一行為本文方法的檢索結果,第二行為SCDA方法的檢索結果,有邊框的圖片表示檢索的負樣本。可以看出,本文方法能夠明顯改善檢索出負樣本靠前的問題。

3結束語

本文通過特征提取、特征篩選聚合、相似性度量和重排構建了一套完整且有效的圖像檢索方法。使用VGG-16、ResNet50模型的最后一層卷積層進行特征提取,通過通道加權和特征篩選聚合生成代表整個圖像的全局特征;然后采用k-reciprocal nearest neighbor算法對圖像的初始檢索排序列表重排,通過Jaccard距離和余弦距離的加權距離進行度量,最終得到檢索結果。分別在細粒度基準數據集CUB-200-2011以及Caltech和Indoor數據集上進行測試,在未針對目標數據集微調和重新訓練網絡的情況下能達到較好的檢索精度和召回率。

參考文獻:

[1]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[2]Krizhevsky A,Sutskever I,Hinton G.ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.2012:1097-1105.

[3]Lai Hanjiang,Yan Pan,Shu Xiangbo,et al.Instance-aware hashing for multi-label image retrieval[J].IEEE Trans on Image Processing,2016,25(6):2469-2479.

[4]Qian Xueming,Tan Xianglong,Zhang Yuting,et al.Enhancing sketch-based image retrieval by re-ranking and relevance feedback[J].IEEE Trans on Image Processing,2015,25(1):195-208.

[5]Dubey S R,Singh S K,Singh R K.Local wavelet pattern:a new feature descriptor for image retrieval in medical CT databases[J].IEEE Trans on Image Processing,2015,24(12):5892-5903.

[6]Jegou H,Douze M,Schmid C,et al.Aggregating local descriptors into a compact image representation[C]//Proc of Computer Vision and Pattern Recognition.2010:3304-3311.

[7]S’anchez J,Perronnin F,Mensink T,et al.Image classification with the Fisher vector:theory and practice[J].International Journal of Computer Vision,2013,105(3):222-245.

[8]Xie Lingxi,Wang Jingdong,Zhang Bo,et al.Fine-grained image search[J].IEEE Trans on Multimedia,2015,17(5):636-647.

[9]Razavian A S,Azizpour H,Sullivan J,et al.CNN features off-the-shelf:an astounding baseline for recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2014:512-519.

[10]Razavian A S,Sullivan J,Carlsson S,et al.Visual instance retrieval with deep convolutional networks[EB/OL].(2014-12-20).https://arxiv.org/abs/1412.6574v2.

[11]Babenko A,Lempitsky V.Aggregating deep convolutional features for image retrieval[EB/OL].(2015-10-26).https://arxiv.org/abs/1510.07493.

[12]Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//Proc of ECCV Workshop.2016.

[13]Tolias G,Sicre R,Jégou H.Particular object retrieval with integral max-pooling of CNN activations[EB/OL].(2015).https://arxiv.org/abs/1511.05879.

[14]Wei Xiushen,Luo Jianhao,Wu Jianxin.Selective convolutional descriptor aggregation for fine-grained image retrieval[EB/OL].(2016-04-18).https://arxiv.org/abs/1604.04994v2.

[15]Xu Jian,Shi Cunzhao,Qi Chengzuo,et al.Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval[C]//Proc of AAAI.2018:7436-7443.

[16]Filip R,Giorgos T,Ondrej C.Fine-tuning CNN image retrieval with no human annotation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41:1655-1668.

[17]Jun H J,Ko B S,Kim Y J.Combination of multiple global descriptors for image retrieval[EB/OL].(2020)[2021-09-08].https://arxiv.org/abs/1903.10663.

[18]Zhong Zhun,Zheng Liang,Cao Donglin,et al.Re-ranking person re-identification with k-reciprocal encoding[EB/OL].(2017-01-29).https://arxiv.org/abs/1701.08398.

[19]王卓群.基于深度特征聚合的細粒度圖像檢索研究[D].上海:上海交通大學,2019.(Wang Zhuoqun.Research on fine-grained image retrieval based on depth feature aggregation[D].Shanghai:Shanghai Jiao Tong University,2019.)

[20]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2014:580-587.

[21]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04).https://arxiv.org/abs/1409.1556.

[22]Chattopadhyay A,Sarkar A,Howlader P,et al.Grad-CAM++:genera-lized gradient-based visual explanations for deep convolutional networks[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:839-847.

[23]魏秀參.深度學習下細粒度級別圖像的視覺分析研究[D].南京:南京大學,2018.(Wei Xiucan.Research on visual analysis of fine-grained image under deep learning[D].Nanjing:Nanjing University,2018.)

[24]Hinton G E.Learning distributed representations of concepts[C]//Proc of the 8th Conference of the Cognitive Science Society.1986:1-12.

[25]Bengio Y,Courville A,Vincent P.Representation learning:a review and new perspectives[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

[26]Georgopoulos A,Schwartz A,Kettner R.Neuronal population coding of movement direction[J].Science,1986,233(4771):1416-1419.

[27]袁暉,廖開陽,鄭元林,等.基于CNN特征加權和區域整合的圖像檢索[J].計算機工程與科學,2019,41(1):113-121.(Yuan Hui,Liao Kaiyang,Zheng Yuanlin,et al.Image retrieval based on CNN feature weighting and region integration[J].Computer Engineering and Science,2019,41(1):113-121.)

[28]Selvaraju R,Cogswell M,Das A,et al.Grad-CAM:visual explanations from deep networks via gradient-based localization[J].International Journal of Computer Vision,2020,128(2):336-359.

[29]Hu Benyi,Song Renjie,Wei Xiushen,et al.PyRetri:a PyTorch-based library for unsupervised image retrieval by deep convolutional neural networks[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:4461-4464.

[30]Wah C,Branson S,Welinder P,et al.The Caltech-UCSD Birds-200-2011 dataset[DB/OL].(2011).https://authors.library.caltech.edu/27452.

[31]Quattoni A,Torralba A.Recognizing indoor scenes[C]//Proc of IEEE Conference on Computer Vision amp; Pattern Recognition.Piscataway,NJ:IEEE Press,2009:413-420.

收稿日期:2021-07-26;修回日期:2021-09-23基金項目:重慶市基礎科學與前沿技術研究項目(cstc2017jcyjAX0144);重慶理工大學研究生創新計劃資助項目(clgycx20202089)

作者簡介:茍光磊(1980-),男,重慶人,副教授,碩導,博士,主要研究方向為模式識別與人工智能(ggl@cqut.edu.cn);朱東旭(1995-),男,四川瀘州人,碩士,主要研究方向為圖像檢索;楊雨(1995-),男,重慶人,碩士,主要研究方向為深度學習和計算機視覺.

主站蜘蛛池模板: 亚洲国产成人超福利久久精品| 九九精品在线观看| 欧美精品高清| 中美日韩在线网免费毛片视频| 亚洲最大看欧美片网站地址| 亚洲成A人V欧美综合天堂| 国产成人a毛片在线| 日韩中文欧美| 亚洲精品国产乱码不卡| 久青草免费视频| 九九九国产| 欧美一区二区自偷自拍视频| 精品久久人人爽人人玩人人妻| 人妻无码中文字幕第一区| 丰满少妇αⅴ无码区| 国产微拍一区| 久久狠狠色噜噜狠狠狠狠97视色| 99久久亚洲综合精品TS| 中文字幕在线视频免费| 亚洲人成影视在线观看| 成人午夜久久| 免费A∨中文乱码专区| 久久精品丝袜| 欧美精品v| 狠狠v日韩v欧美v| 午夜限制老子影院888| 午夜老司机永久免费看片| 亚洲成网777777国产精品| 19国产精品麻豆免费观看| 欧美h在线观看| 日本亚洲最大的色成网站www| 在线免费a视频| 国产欧美日韩精品综合在线| 在线va视频| 国产sm重味一区二区三区| 亚洲成人网在线观看| 久久精品人人做人人爽| 四虎国产精品永久一区| 国产尤物视频网址导航| 五月天久久综合| 国产精品视频999| 日韩A∨精品日韩精品无码| 国产一国产一有一级毛片视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产视频入口| 黄色一及毛片| 久久国产亚洲欧美日韩精品| 国产免费久久精品99re不卡| 欧美中文字幕一区| 国产欧美日韩18| 88av在线| 免费国产无遮挡又黄又爽| 毛片最新网址| 欧美成人影院亚洲综合图| 日本妇乱子伦视频| 亚洲国产成人精品一二区| 国产精品亚洲一区二区三区在线观看| 色综合色国产热无码一| 激情乱人伦| 国产成人精品视频一区视频二区| 中文字幕天无码久久精品视频免费| 女高中生自慰污污网站| 香蕉99国内自产自拍视频| 伊人精品视频免费在线| 蜜臀AV在线播放| 亚洲欧美另类日本| 国产99视频精品免费观看9e| 欧美午夜视频| 国产va在线观看| 亚洲码在线中文在线观看| 伦伦影院精品一区| 亚洲一级毛片免费观看| 99色亚洲国产精品11p| 婷婷六月激情综合一区| 欧美亚洲另类在线观看| 国产美女精品一区二区| 日本人妻丰满熟妇区| 亚洲区欧美区| 日韩无码真实干出血视频| 国产在线自乱拍播放| 精品午夜国产福利观看| 亚洲成人黄色网址|