用于圖像檢索的多區域深度特征加權聚合算法

2020-12-01 03:15:00張超林正春姜允志賈西平王靜

軟件導刊 2020年10期

張超林正春姜允志賈西平王靜

摘要：針對圖像檢索中多區域加權聚合算法局部特征提取過程較繁瑣、耗時及內存占用高等問題，提出多區域深度特征加權聚合算法（MR-CroW）。該算法通過增大深度卷積神經網絡（DCNN）最后一個卷積層池化窗口，調整預訓練DCNN模型VGG16，得到全局特征提取器; 選擇子區域作為檢索對象響應區域，抑制非主要目標噪聲;引入跨維度加權聚合算法（CroW），將多個區域特征進行加權聚合，得到最終的特征向量。在Oxford5K和Paris6K數據集上的實驗結果表明，MR-CroW平均準確率（mAP）高于其它幾種算法，特征處理階段時間低于其它幾種算法。

關鍵詞：深度卷積神經網絡;特征提取;多區域;加權聚合

DOI：10. 11907/rjdk. 201032

中圖分類號：TP312文獻標識碼：A 文章編號：1672-7800（2020）010-0133-05

Abstract：A weighted depth features of multi-region aggregation algorithm （MR-CroW） is proposed for image retrieval to solve the problem that multi-region weighted aggregation algorithms the local feature extraction process is cumbersome， time-consuming， and high memory usage. MR-CroW enlages the pooling window of the last convolutional layer of model VGG16 as the global feature extractor， selects the sub-region as the response region to denoise the non-primary target， uses cross-dimensional weighted aggregation algorithm （CroW） and aggregates weighted features of multi-region to get the final eigenvector. The experimental results on the Oxford5K and Paris6K datasets show that the average accuracy （mAP） of MR-CroW is higher than other algorithms; the time consumption of the feature processing phase is lower than others.

Key Words： deep convolution neural network; feature extraction; multi-region; cross weighted aggregation

0 引言

圖像檢索是計算機視覺研究領域熱點之一，早期的圖像檢索是基于文本（TBIR）的，隨著圖像數據量增加，TBIR已不能滿足時代需求，取而代之的是基于內容的圖像檢索（content-based image retrieval，CBIR）[1-2]。傳統的CBIR使用顏色、紋理、形狀等全局描述子。以SIFT（scale-invariant feature transform）為代表的局部描述子以及詞袋模型BoW（bag of words），其不受尺度變換與旋轉影響，具有良好的魯棒性，可在不同目標與場景下實現更可靠的匹配，逐漸取代全局描述子成為研究熱點[3-4]。這些方法在前期的圖像檢索中成績斐然，但始終未解決低層特征與高層語義之間的語義鴻溝問題[5]。

2012年AlexNet網絡在ImageNet大賽上取得令人驚訝的成績，此后DCNN（deep convolutional neural network）逐漸成為計算機視覺研究熱點[6]。人們發現通過DCNN訓練可以學習到更深層次的圖像特征，并在一定程度上彌合低層特征與高層語義之間的語義鴻溝。研究表明，在ImageNet等足夠大且多樣化的數據集上訓練DCNN可成功應用到其它視覺任務上，如圖像分類[7]、目標檢測[8]、語義分割[9]等領域。DCNN出色的特征提取與表達能力為圖像檢索研究帶來新思路。利用DCNN方法提取特征描述子取代傳統特征提取方法成為圖像檢索研究的主流，基于ImageNet等大規模數據集訓練得到的預訓練網絡模型廣泛應用于圖像檢索的特征提取[10]。

本文提出基于DCNN的改進多區域特征加權聚合方法MR-CroW，通過調整預訓練神經網絡模型最后一個卷積層的池化方式得到圖片的全局特征，再對檢索對象可能出現的位置進行局部采樣，整合有限個子區域特征，最后將多個區域特征進行加權聚合得到最終的特征表示。實驗表明，MR-CroW在不進行重新訓練網絡模型前提下， Oxford5K數據上的重排平均準確率達0.804，在Paris6K數據上的重排平均準確率達0.892。

1 相關工作

深度卷積神經網絡主要由卷積層和全連接層兩大部分組成，形成以卷積層特征作為圖像描述子和以全連接層特征作為圖像描述子兩大分支。由于全連接層特征描述子作為高層特征在圖像分類任務中表現出色，因此早期利用DCNN進行圖像檢索的研究一般采用全連接層特征作為描述子[11]。但該方法存在特征維度高、圖片輸入有限制等問題。隨著檢索任務復雜程度的增加以及研究的深入，發現相比于全連接層，卷積層特征包含一定的位置特征信息，使其更適合作為圖像描述子。因此，圖像特征描述子研究逐漸由全連接層轉向卷積層。

Babenko等[12]針對深度特征提出SPoC（Sum-Pooled Convolution）方法，通過預訓練深度網絡得到最后一個卷積層輸出作為描述子，利用全局聚合池化結合白化PCA（Principal Component Analysis），獲得比最大池化方法更好的結果，有效降低特征維度;Kalantidis等[13]針對空間和通道特征，提出跨維度加權聚合方法CroW（Cross-Dimensional Weighting），顯著提高檢索性能。雖然以上方法都提出了區域加權思想，但本質上還是全局特征，對局部檢索對象缺乏重視。Gong等[14]提出多尺度無序池化方法MOP（Multi-scale Orderless Pooling）用于解決DCNN缺乏幾何不變性問題;Tolias等[15]采用類似MOP的方法，提出局部最大池化聚合算法R-MAC，對圖像的多個子區域進行采樣。不同的是，R-MAC（Retrieval with integral Max-pooling）使用卷積層特征作為全局特征表示，這種變換使R-MAC在性能上相對于MOP有大幅提升。雖然這種方法考慮到圖像的局部明顯特征，但是忽視了通道特征。

文獻[16-17]使用融合方法，將CroW與R-MAC兩種方法結合使用提升檢索結果，但在子區域選取方面，R-MAC使用大面積滑窗采樣方法。雖然這種采樣方法可以提取更多的細節特征，但是滑動采樣存在隨機性問題。隨著非目標區域采樣增加，噪聲影響也變得明顯，同時過多的子區域選擇增加了特征提取與處理時間。為此，本文提出MR-CroW算法對傳統預訓練網絡池化層進行結構調整，只提取和使用3個主要目標子區域特征，在有效規避噪聲引入的同時，大幅縮減特征處理階段復雜度，提升檢索效率，取得較好的實驗結果。

2 MR-CroW算法

將多區域加權聚合用于實例圖像檢索方法MR-CroW的圖像特征提取及檢索過程如下：

（1）池化特征提取。使用一個去除全連接層的預訓練DCNN模型作為特征提取器，設輸入圖像I的大小為HI×WI，經過卷積層激活（響應）和池化，得到C×H×W 維的三維特征張量。H和W分別代表圖片的高度和寬度映射，C為輸出特征通道個數，輸出特征圖尺寸將根據輸入圖片大小而變化，這是將卷積層特征作為描述子的優點之一。獲取池化層特征方式不同于傳統VGG16的max pooling采用[2×2]窗口，而是采用[5×5]窗口，使特征更加稀疏。

（2）子區域選擇。子區域選取采用文獻[18]提出的主要響應區域法，在提取全局池化特征基礎上，在區域采樣時不是像R-MAC過多地選擇子區域，而是針對性采樣以減少子區域特征提取時間，提升檢索效率。

（3）加權聚合。針對pool5特征以及選取的子區域特征，采用跨維度加權聚合方法CroW，對每個獨立區域的池化特征分別進行空間和通道加權，將子區域特征向量聚合形成緊湊的全局特征向量。

（4）度量評估。為度量不同維度，對全局特征向量進行白化和PCA處理，再進行L2歸一化，得到不同維度的特征向量。將查詢特征向量與數據庫中特征向量進行相似性比較，通過常用的擴展查詢方法得到最終的檢索結果。

2.1 跨維度加權聚合算法CroW

對得到的三維特征張量，每個獨立通道特征是一個[H×W]的2D張量。設[C（k）]表示第[k]個通道的特征圖，[xkij]表示[C（k）]在坐標[（i，j）]處的特征值，則該位置加權特征為

對各獨立通道特征進行全局聚合池化，得到第[k]個獨立通道的聚合特征[fk]。

2.2 子區域選擇

Gong等[14]對圖片進行裁剪后多次輸入預訓練模型得到子區域特征。在每次提取子區域特征時都需要重新加載模型，重復的輸入輸出以及模型加載會消耗大量時間。針對這一問題，R-MAC使用卷積層特征作為全局特征。卷積層輸出特征較好保留了原圖尺寸和位置屬性，可在全局特征上進行子區域選取，降低子區域特征選擇時間。雖然R-MAC比Gong提出的方法高效很多，但R-MAC提出的復雜窗口滑動檢測方法帶有一定的隨機性。隨著采樣區域增加，引入的非目標區域噪聲也隨之增加，造成子區域特征選取耗時增加。文獻[12]利用對象通常出現在圖像幾何中心的特點，提出SPoC算法，使用中心先驗空間加權增強圖像中心出現的特征。本文采用類似方法著重對中心區域進行子區域選擇，簡化子區域選擇流程，采用更少的子區域得到更好的檢索結果。

檢索對象的關鍵部分集中在圖片上半部，因此本文只采集左上部、右上部、上部3個子區域，采樣過程如圖2所示。

連同全局特征，本文一共使用4個區域特征聚合。R0代表pool5全局特征，選取3個子區域分別為R1、R2、R3，3個子區域高度相同，即[H1=H2=H3=H*β]，其中R1和R2寬度相同，為[W1=W2=W*α]，R3的寬度為[W3=W]。經過試驗得出[α]和[β]值，較合理取值為：[α=0.3]，[β=0.6]。

2.3 特征聚合

聚合操作可看作是區域加權操作的另一種形式。在進行特征聚合前，需要對每個獨立子區域特征進行加權操作。令Fr為每個獨立子區域的特征向量，對選取的子區域特征Fr進行對應維度聚合操作，則最終圖像聚合特征F為：

2.4 白化

對不同維度特征進行比較時，需要對數據進行白化和PCA降維。白化使不同維度的數據具有相同的方差，同時使各個維度之間的相關性降低。本文采用的白化處理方法與文獻[13]中的交叉白化測試方法相同，對Oxford5K測試時使用Paris6K數據作為白化參數，反之對Paris6K測試使用Oxford5K數據作為白化參數。

2.5 度量計算

向量與向量之間的相似性度量常用方法有歐氏距離與余弦距離。歐氏距離在孤立數據集表現良好，即便兩個向量沒有共同的屬性值，它們之間的數值距離也可能比另一對包含有相同屬性的向量要小。余弦距離計算兩個特征向量之間的夾角，更加注重數據維度之間的差異而不單單是數值上的差異，從而有效規避不同維度數值帶來的認知差異。雖然經過歸一化的余弦距離和歐式距離是等價的，但是歐氏距離計算量更大，計算時間更長[19]。使用余弦距離計算DCNN特征相似度，普遍比使用歐氏距離計算的準確率高，因此本文采用余弦距離作為度量方法[20]。

2.6 擴展查詢

檢索結果最終評估使用官方提供的評估代碼測試查詢（共110張圖片）的平均精度（mAP）。擴展查詢[21]（Query Expansion，QE）對TOP-K的結果聚合后做L2歸一化處理，再進行檢索重排。這種方法計算簡單且能有效提升檢索效果，是圖像檢索常用的方法。最終結果比較使用相同的查詢擴展方法，對擴展查詢數據取TOP-10進行比較，與其它文獻一樣。

3 實驗

3.1 數據集描述

為驗證本文方法的真實性與有效性，在Oxford5K[22]和Paris6K[23]兩個地標數據集上進行測試。兩個數據均從Flickr上收集得到，并且所有數據都被人工標注。其中Oxford5k由5 062張圖片組成，Paris6k由6 392張圖片（提供的6 412張圖片中有20張已損壞）組成。根據官方提供的標準評價協議，兩個數據集分別含有11個類別55張查詢圖。每張圖像查詢結果都有3種可能：good、ok、junk。其中，good和ok圖像認為是正例結果，junk作為負面結果在計算最終檢索結果時主動忽略不予考慮。

3.2 特征提取

本文使用Caffe[24]預訓練模型VGG16作為特征提取器，對輸入圖片減去平均像素進行歸一化處理，采用官方提供的坐標數據進行裁剪后再提取圖像的池化特征，采用最后一個池化層特征作為全局特征。與其它方法不同，本文對池化窗口進行改進，使用更大的窗口（[5×5]），將多個區域特征加權聚合得到的512維特征向量進行降維以節省存儲空間，使后續子區域特征選取和計算的速度得到提升。

由圖3和圖4可以看出，當選擇大小為[5×5]的池化窗口時，相對于其它尺寸窗口，CroW算法檢索準確率較高。

3.3 實驗結果與分析

表1為MR-CroW算法與其它幾種常見算法的比較結果。在3個數據維度上，MR-CroW均表現較好。使用擴展查詢（QE）后，檢索效果進一步提升。相比于Crow方法，本文在Oxford5K的3個維度平均準確率提升約5%，使用TOP-10擴展查詢（QE）后提升約7%;對Paris6K數據，未使用QE的結果平均提升約4.3%，使用QE的結果則提升約5.5%。與Dong等提出的改進方法相比，MR-CroW算法的準確率也高出2%。

對MR-CroW和R-MAC提取整個數據集的多個子區域特征進行測試，在相同實驗環境下（虛擬機：vmware workstation 14，系統：Ubuntu-18.04.2，CPU：4核 Intel（R） Core（TM） i7-6700 CPU @3.4GHz，內存：8GB，硬盤：120GB）使用不同大小的池化窗口和不同采樣方式對時間消耗進行實驗對比，驗證MR-CroW算法在檢索任務中的有效性，改進的池化層結構在一定程度上提升了檢索效果。通過對多個目標子區域提取特征進行加權聚合，檢索結果得到顯著提升。此外，與R-MAC提出的滑動檢測法提取子區域特征不同，本文選擇指定子區域進行特征提取，大大縮減了特征處理時間，提升了檢索效率。

4 結語

本文提出一種多區域深度特征加權聚合算法MR-CroW用于圖像檢索。該算法無需重新訓練新的網絡模型，只是對預訓練神經網絡模型進行調整和改進。在獲取全局特征時使用更大的池化窗口，針對檢索對象可能出現的區域進行針對性采樣，得到多個子區域特征表示，通過加權聚合得到圖片的最終特征表示，使用度量計算比較以及擴展查詢得到最終的檢索結果。與幾種常見的圖像檢索方法進行比較實驗，結果表明本文方法效果更優。后續可對子區域選擇及網絡微調進行更深入研究，以進一步提高檢索性能。

參考文獻：

[1] 周文罡，李厚強，田奇. 圖像檢索技術研究進展[J]. ，2017，9（6）：613-634.

[2] ZHENG L， YANG Y， TIAN Q. SIFT meets CNN： a decade survey of instance retrieval[J].? IEEE Transactions on Pattern analysis and Machine Intelligence， 2017， 40（5）：1224-1244.

[3] LOWE D G. Distinctive image features from scale-invariant keypoints[J].? International Journal of Computer Vision，2004，60（2）：91-110.

[4] SIVIC J， ZISSERMAN A. Video google： a text retrieval approach to object matching in videos[C]. Appearsin：Proceedings of International Conference on Computer Vision， 2003.

[5] WAN J， WANG D， HOI S C H， et al. Deep learning for content-based image retrieval： a comprehensive study[C]. Proceedings of the 22nd ACM International Conference on Multimedia， 2014：157-166.

[6] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems， 2012：1097-1105.

[7] SIMONYAN K，ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. https：//arxiv.org/pdf/1409.1556. pdf.

[8] REN S， HE K， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems， 2015：91-99.

[9] LONG J， SHELHAMER E， DARRELL T. Fully convolutional networks for semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2015：3431-3440.

[10] 張皓，吳建鑫. 基于深度特征的無監督圖像檢索研究綜述[J].? 計算機研究與發展， 2018， 55（9）：1829-1842.

[11] BABENKO A，SLESAREV A， CHIGORIN A， et al. Neural codes for image retrieval[C]. European Conference on Computer Vision， 2014：584-599.

[12] BABENKO A， LEMPITSKY V. Aggregating deep convolutional features for image retrieval[J].? arXiv preprint arXiv，2015（1510）： 74-93.

[13] KALANTIDIS Y， MELLINA C， OSINDERO S. Cross-dimensional weighting for aggregated deep convolutional features[C]. European Conference on Computer Vision， 2016：685-701.

[14] GONG Y， WANG L， GUO R， et al. Multi-scale orderless pooling of deep convolutional activation features[C]. European Conference on Computer Vision， 2014：392-407.

[15] TOLIAS G， SICRE R， J?GOU H. Particular object retrieval with integral max-pooling of CNN activations[DB/OL]. https：//arxiv.org/pdf/1511.05879.pdf.

[16] 董榮勝，程德強，李鳳英.? 用于圖像檢索的多區域交叉加權聚合深度卷積特征[J].? 計算機輔助設計與圖形學學報， 2018， 30（4）：658-665.

[17] 袁暉，廖開陽，鄭元林，等.? 基于CNN特征加權和區域整合的圖像檢索[J].? 計算機工程與科學， 2018，41（1）：117-125.

[18] BABENKO A， SLESAREV A， CHIGORIN A， et al. Neural codes for image retrieval[C].? Proceedings of European Conference on Computer Vision， 2014：584-599.

[19] WANG H， CAI Y， ZHANG Y， et al. Deep learning for image retrieval： what works and what doesnt[C].? Proceedings of 2015 IEEE International Conference on Data Mining Workshop （ICDMW）， 2015：1576-1583.

[20] 周曄，張軍平. 基于多尺度深度學習的商品圖像檢索[J]. 計算機研究與發展，2017，54（8）：1824-1832.

[21] CHUM O， PHILBIN J， SIVIC J， et al. Total recall： automatic query expansion with a generative feature model for object retrieval[C]. 2007 IEEE 11th International Conference on Computer Vision， 2007：1-8.

[22] PHILBIN J， CHUM O， ISARD M， et al. Object retrieval with large vocabularies and fast spatial matching[C]. 2007 IEEE Conference on Computer Vision and Pattern Recognition， 2007：1-8.

[23] PHILBIN J， CHUM O， ISARD M， et al. Lost in quantization： improving particular object retrieval in large scale image databases[C]. 2008 IEEE Conference on Computer Vision and Pattern Recognition， 2008：1-8.

[24] JIA Y， SHELHAMER E， DONAHUE J， et al. Caffe： convolutional architecture for fast feature embedding[C]. Proceedings of the 22nd ACM International Conference on Multimedia， 2014：675-678.

[25] JIMENEZ A， ALVAREZ J M， GIRO-I-NIETO X. Class-weighted convolutional features for visual instance search[J].? arXiv preprint arXiv，2017（1701）：25-81.

[26] XU J， SHI C， QI C， et al. Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval[C]. Thirty-Second AAAI Conference on Artificial Intelligence， 2018.

（責任編輯：杜能鋼）