基于深度學習的圖像檢索研究概述

2022-05-30 15:43:24謝亦才易云

電腦知識與技術 2022年10期

謝亦才易云

摘要：隨著數字技術的發展，各領域產生并共享了大量的視覺內容。如何搜索到所需要的圖像成為一個挑戰，特別是在數據庫中搜索相似的內容，即基于內容的圖像檢索（CBIR），是一個由來已久的研究領域，實時檢索需要更高效、更準確的方法。人工智能在基于內容的檢索方面取得了進展，極大地促進了智能搜索的進程。文中，回顧了最近基于深度學習算法和技術開發的CBIR工作;介紹了常用基準和評估方法;指出面臨的挑戰，并提出有希望的未來方向。文中關注使用深度學習進行圖像檢索，并根據深度網絡結構、深度特征、特征增強方法和網絡微調策略的類型組織最先進的方法。文中調查考慮了各種最新方法，旨在展示基于實例的CBIR領域的全局視圖。

關鍵詞：Transformer;架構修改;預訓練

中圖分類號：TP311? ? ?文獻標識碼：A

文章編號：1009-3044（2022）10-0084-03

1 引言

基于內容的圖像檢索（CBIR）是通過分析圖像的視覺內容，在一個大型圖像庫中搜索語義匹配或相似的圖像，給定一個描述用戶需求的查詢圖像。CBIR一直是計算機視覺和多媒體領域的一個長期研究課題[1]。隨著目前圖像和視頻數據量呈指數級增長，圖像搜索是最不可或缺的技術之一。因此，基于內容的圖像檢索（CBIR）的應用幾乎有無限的潛力，如人員重新識別、遙感、醫學圖像搜索[2]、在線市場購物推薦等。

要準確檢索到相應圖像，必須準確提取圖像特征，而提取特征的方法有傳統的手工特征和現在廣泛使用的深度特征學習方法。

自2012年，深度學習已經在各研究領域有了廣泛應用，因為深度神經網絡可以直接從數據中進行多級抽象，提取深度特征。深度學習在圖像檢索[3]等計算機視覺領域取得了重大突破。在圖像檢索中有四種主要用作特征提取的深度卷積神經網絡（DCNN）模型，分別是AlexNet、VGG、GoogLeNet和ResNet。關于圖像檢索的主要綜述與比較主要如表1所示。

2 基于深度學習圖像檢索分類

基于深度學習圖像檢索的基本框架如圖1所示，首先通過深度神經網絡（例如VGG）提取圖像特征，再通過全連接層映射到所設定維度特征空間，然后通過損失函數訓練網絡，最終訓練好的網絡把圖像映射到低維特征空間，并進行相似度計算、排序，從而檢索出最相似的圖像。

基于深度學習圖像檢索方法可以分為基于已訓練好的深度預訓練模型和基于深度表征學習兩大類。

2.1 基于預訓練模型圖像檢索方法

這種方法有一些局限性，比如深度特征可能無法超越經典手工制作的特征。最基本的是，存在模型轉移或域轉移任務之間的問題，這意味著模型經過了訓練對于分類，不一定要提取適合的特征進行圖像檢索。特別是，分類決策可以是只要特征仍在分類范圍內，就可以進行分類邊界，因此此類模型中的層可能會顯示在特征匹配比最終分類概率更重要的情況下，在檢索任務中能力不足。

此類方法可以進一步分為基于深度特征提取和基于深度特征融合的方法。

2.1.1 基于深度特征提取方法

（1）前饋預訓練模型。單前饋傳遞神經網絡將整個圖像送入現成的模型中提取特征。該方法相對有效，因為輸入圖像只饋送一次。對于這些方法，全連接層和最后一個卷積層都可以用作特征提取器。全連接層有一個全局感受野。經過歸一化和降維后，這些特征是用于直接相似性度量，無須進一步處理，也不需要有效的搜索策略。但使用全連接層缺乏幾何不變性和空間信息。

與單前饋傳遞神經網絡相比，多前饋傳遞神經網絡更耗時，因為從輸入圖像生成多個面片，并在編碼為最終全局特征之前將兩個面片送入網絡。由于特征表示分為兩個階段：圖像塊檢測和圖像塊描述，因此多通道策略可以提高檢索精度。可以使用滑動窗口或空間金字塔模型獲得多尺度圖像塊。

（2）深度特征選擇

深度特征提取可以從全連接層和卷積層提取。

選擇一個全連接層作為特征提取器非常簡單。通過PCA降維和歸一化，可以測量圖像的相似性。只有全連接層可能會限制整體檢索精度，Jun等人[5]將多個全連接層的特征連接起來，Song等人[6]指出，在第一個完全連接的層和最后一個層之間直接連接可以實現從粗到精的改進。

來自卷積層（通常是最后一層）的特征保留更多特別有益的結構細節。卷積神經元圖層僅連接到輸入要素地圖的局部區域。較小的感受野確保生成的特征保留更多的局部結構信息，并且對圖像變換（如截斷和遮擋）更為魯棒。通常，池化卷積特征后的魯棒性會得到提高。

（3）特征融合

不同網絡層之間的融合。融合不同層的特征的目的是在特征提取器中組合不同的特征屬性。在深度網絡中融合多個全連接層是可能的：例如，Yu等人[7]探索了融合網絡的不同方法從不同的全連接層激活并引入性能最佳的Pi-融合策略，使用不同的權重用于聚合特征，Jun等人[5]構造多個全連接層串聯在ResNet頂部，然后連接這些層的全局特征，以獲得組合的全局特征。

在測量語義相似度時，來自全連接層（全局特征）和來自卷積層（局部特征）的特征可以相互補充，并在一定程度上保證檢索性能。

模型之間的融合。可以將不同網絡模型的功能組合在一起;這樣的融合側重于模型互補，以實現更好的性能，分為模型內和模型間。

通常，模型內融合指的是具有相似或高度兼容結構的多個深層模型，而模型間融合指的是具有更多不同結構的模型。例如，AlexNet中廣泛使用的退出策略可以被視為模型內融合：在兩個全連接的層之間，不同神經元的隨機連接，每個訓練階段可以被視為不同模型的組合。作為第二個例子，Simonyan等人[4]介紹了一種ConvNet融合策略，以提高VGG的特征學習能力，其中VGG-16和VGG-19被融合。與單個對等網絡相比，該模型內融合策略將圖像分類中的前5位誤差降低了2.7%。類似地，Liu等人[8]混合了不同的VGG變體，以加強對細粒度車輛檢索的學習。Ding等人[13]提出了一個選擇性深度集成框架，將ResNet-26和ResNet-50結合起來，以提高細粒度實例檢索的準確性。為了關注圖像中物體的不同部分，Kim等人[9]訓練了三個注意力模塊的集合，以學習具有不同多樣性的特征。每個模塊都基于GoogLeNet中的不同初始塊。

2.1.2 基于深度特征增強的檢索方法

（1）特征聚合

特征增強方法將特征聚合或嵌入到提高深層特征的識別能力。在特征聚合方面，和/平均池化和最大池化是兩種常用的卷積特征聚合方法地圖。特別是，和/平均池化的區分性較低，因為它考慮了來自卷積層的所有激活輸出，因此削弱了高度激活特征的影響。相反，最大池化特別適合概率較低的稀疏特征積極主動。如果輸出特征映射不再稀疏，最大池化可能劣于和/平均值池化。

（2）特征嵌入

除了直接池化或區域池化外，還可以將卷積特征映射嵌入到高維圖像中空間，以獲得緊湊的特征。廣泛使用的嵌入方法包括BoW、VLAD和FV。使用PCA可以降低“嵌入式特征”的維數。注意，BoW和VLAD可以通過使用其他度量來擴展，如漢明距離。

（3）注意力機制

注意力機制的核心思想是突出最重要的部分相關特征和避免無關激活函數的影響，通過計算注意力圖來實現。獲得注意力圖的方法可分為兩組：非參數和基于參數的，這兩種方法的主要區別在于重要性權重是否可以學習獲得。

（4）深度哈希嵌入

由深度網絡提取的實值特征通常是高維，因此檢索效率不太滿意。因此，很有必要將深層特征轉換為更緊湊的編碼。哈希算法由于其計算和存儲效率高而被廣泛用于大規模圖像搜索。哈希碼由哈希函數生成，而哈希函數可以作為一個層插入到深度網絡中，這樣可以同時使用深度網絡訓練和優化哈希碼。在哈希函數訓練過程中，將原始相似圖像的哈希碼嵌入到盡可能接近的位置，將不相似圖像的哈希碼盡可能分離。

2.2 基于深度特征學習的圖像檢索方法

在2.1節中，介紹了特征融合和增強現成的DCNN，僅作為獲取特征的提取器。然而，在大多數情況下特征可能不足以進行高精度檢索。為了模型具有更高的可擴展性和更有效的檢索，常見的做法是網絡微調，即更新預先存儲的參數[10]。然而，微調并不是否定第2.1節中特征處理方法;事實上，這些策略是互補的，可以相互補充作為網絡微調的一部分進行合作。

本節重點介紹更新網絡參數的有監督和無監督微調方法。

2.2.1 有監督微調方法

（1）基于分類的微調方法

如果新數據集的類標簽可用，則可首先取在單獨的數據集上先前訓練好的諸如AlexNet、VGG、GoogLeNet或ResNet等主干網絡的特征。然后，通過基于交叉熵損失優化其參數，可以對DCNN進行微調。交叉熵損失如公式1所示：

[LCE（pi，yi）=-i，j=1cyilogpi] （1）

其中，yi和pi分別是真實標簽和預測概率值，c是類別總數。這種微調的里程碑工作是文獻[11]，其中AlexNet在具有672個預定義類別的Landmarks數據集上重新訓練。經過微調的網絡在與真實相關的數據集（如Holidays、Oxford-5k和Oxford-105k）上生成了卓越的特征。新更新的圖層用作圖像檢索的全局或局部特征檢測器。

（2）基于驗證的微調方法

利用表示相似和不相似對的相似性信息，基于驗證的微調方法學習一個最佳度量，該度量最小化或最大化數據對的距離，以驗證和保持它們的相似性。與基于分類的學習相比，基于驗證的學習側重于類間和類內樣本。

2.2.2 無監督微調方法

因為此類信息的收集成本很高或不可用，有監督網絡微調的方法可行性變得較差。鑒于這些局限性，使用無監督的圖像檢索微調方法非常必要，但研究較少。

對于無監督微調，兩個廣泛的方向是通過流形學習挖掘特征之間的相關性以獲得排名信息，以及設計新穎的無監督框架（例如自動編碼器），每個框架將在下文中討論。

（1）基于流形學習的樣本挖掘

流形學習側重于捕捉數據集內在關聯或推斷。與原始的流形相似之處是提取的特征用于構造關聯矩陣，然后使用流形學習對其進行重新評估和更新[12]。根據更新的關聯矩陣中的流形相似性，基于驗證的損失函數（如對損失、三重態損失或N對損失），選擇正樣本和硬負樣本進行度量學習。這不同于上述基于驗證的微調方法，其中硬正樣本和負樣本根據給定的關聯信息從有序數據集中顯式選擇。

（2）基于自動編碼器的框架

自動編碼器是一種神經網絡，其目的是重建其輸出盡可能接近其輸入。原則上，將輸入圖像作為特征編碼輸入到潛在空間中，然后使用解碼器將這些特征重構為原始輸入圖像。編碼器和解碼器都可以是卷積神經網絡。

在自動編碼器中，存在不同的重建級別（例如像素級別或實例級別）。這些不同的重建會影響自動編碼器的有效性，因為像素級重建可能會通過關注重建圖像中的微小變化來降低編碼器的學習特征，因為自然圖像通常包含許多位置、顏色和姿勢的細節因素。

3 結論和未來展望

在這篇綜述中，回顧了圖像檢索的深度學習方法，并根據深度神經網絡的參數更新方式將其分為預訓練模型的深度圖像檢索和微調模型。具體地說，基于預訓練模型方法涉及通過凍結預先存儲的參數來獲得高質量的特征，其中提出了網絡前饋方案、層選擇和特征融合方法。而基于微調的方法在有監督和無監督兩種方法中都具有用于特征學習的網絡參數更新操作。

基于深度學習圖像檢索方法未來發展方向主要有如下幾個方面：

（1）圖像檢索中的零樣本學習;

（2）端到端無監督圖像檢索;

（3）增量圖像檢索。

參考文獻：

[1] Smeulders A W M，Worring M，Santini S，et al.Content-based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2000，22（12）：1349-1380.

[2] Nair L R，Subramaniam K，Prasannavenkatesan G K D.A review on multiple approaches to medical image retrieval system[C]//Intelligent Computing in Engineering，2020：501-509.

[3] Kalantidis Y，Mellina C，Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//Computer Vision-ECCV 2016 Workshops，2016：685-701.

[4] K. Simonyan and A. Zisserman.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv：1409.1556， 2014.

[5] H. Jun， B. Ko， Kim I. Kim， Kim J.Combination of multiple global descriptors for image retrieval[J].arXiv preprint arXiv：1903.10663， 2019.

[6] Song J F，Yu Q，Song Y Z，et al.Deep spatial-semantic attention for fine-grained sketch-based image retrieval[C]//2017 IEEE International Conference on Computer Vision.October 22-29，2017，Venice，Italy.IEEE，2017：5552-5561.

[7] Yu D，Liu Y J，Pang Y P，et al.A multi-layer deep fusion convolutional neural network for sketch based image retrieval[J].Neurocomputing，2018，296：23-32.

[8] Liu H Y，Tian Y H，Wang Y W，et al.Deep relative distance learning：tell the difference between similar vehicles[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：2167-2175.

[9] Kim W，Goyal B，Chawla K，et al.Attention-based ensemble for deep metric learning[C]//Computer Vision – ECCV 2018，2018：736-751.

[10] Oquab M，Bottou L，Laptev I，et al.Learning and transferring mid-level image representations using convolutional neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28，2014，Columbus，OH，USA.IEEE，2014：1717-1724.

[11] A. Babenko， A. Slesarev， A. Chigorin， and V. Lempitsky.Neural codes for image retrieval[C]//in ECCV，2014：584–599.

[12] Donoser M，Bischof H.Diffusion processes for retrieval revisited[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28，2013，Portland，OR，USA.IEEE，2013：1320-1327.

[13] Ding Z Y，Song L，Zhang X T，et al.Selective deep ensemble for instance retrieval[J].Multimedia Tools and Applications，2019，78（5）：5751-5767.

【通聯編輯：梁書】

收稿日期：2021-12-06

基金項目：本文受江西省自然科學基金（面上項目，20202BAB202017，面向監控視頻的高效行為檢測方法研究）資助

作者簡介：謝亦才（1981—），男，碩士研究生，主要研究方向為深度學習、圖像分析與檢索。

電腦知識與技術2022年10期

電腦知識與技術的其它文章: STEAM理念導向的云計算專業案例教學模式探究; 藝術與科技專業實訓課程“項目導向式”教學模式研究; 《大數據技術概論》課程思政建設思考與實踐; 課程思政在護理專業計算機基礎課程教學中的應用研究; 應用型高校JavaEE技術實驗課程教學探索; 信息化背景下離散數學混合式教學研究與實踐