融合多尺度特征的深度哈希圖像檢索方法*

2018-12-25 08:52:06周書仁蔡碧野

計算機與生活 2018年12期

周書仁，謝盈+，蔡碧野

1.長沙理工大學綜合交通運輸大數(shù)據(jù)智能處理湖南省重點實驗室，長沙 410114

2.長沙理工大學計算機與通信工程學院，長沙 410114

1 引言

隨著互聯(lián)網(wǎng)中圖像數(shù)據(jù)的日漸增長，如何快速且有效地檢索圖像這個問題得到了廣泛關(guān)注。早期基于文本的圖像檢索技術(shù)（text-based image retrieval，TBIR）已不能適應(yīng)時代的發(fā)展，其后出現(xiàn)的基于內(nèi)容的圖像檢索技術(shù)（content-based image retrieval，CBIR）取得的研究成果顯著，其主要針對圖像的內(nèi)容如顏色、形狀和紋理等人工視覺特征[1]進行特征提取。

然而，由于圖像數(shù)據(jù)庫的規(guī)模已然大幅增長，在整個數(shù)據(jù)庫中進行線性搜索需要大量的時間和存儲空間，“維數(shù)災(zāi)難”問題在基于內(nèi)容的圖像檢索應(yīng)用中也時常出現(xiàn)。為了解決這些問題，近年來，近似最近鄰搜索（approximate nearest neighbor，ANN）成為了研究熱點，哈希算法是最具代表性的方法之一。哈希算法將原始圖像映射為一串緊湊的二進制編碼，圖像之間的相似度可以直接使用漢明距離進行計算，有效地提高了檢索效率。因此，基于哈希算法的圖像檢索技術(shù)得到了廣泛的研究和應(yīng)用。

當前主流的哈希算法首先抽取出圖像的高維實數(shù)特征向量（如顏色、形狀等），再通過哈希函數(shù)將特征向量轉(zhuǎn)換為一個固定長度的二進制編碼（Hash code），則每一幅圖像都可以用一串哈希編碼來進行表示。與高維實數(shù)特征向量相比，哈希編碼大幅提高了計算速度，同時減少了檢索系統(tǒng)對存儲空間的需求。

隨著研究的深入，研究者們發(fā)現(xiàn)利用基于人工設(shè)計的視覺特征進行圖像檢索時容易產(chǎn)生“語義鴻溝”，而大部分主流哈希算法的性能很大程度上取決于它們第一階段抽取的特征。因此，提升哈希算法性能的關(guān)鍵之一在于特征提取部分。

目前，由于卷積神經(jīng)網(wǎng)絡(luò)[2]（convolutional neural network，CNN）擁有強大的學習能力，研究者們開始將其應(yīng)用于目標檢測、圖像分類等計算機視覺任務(wù)，取得了突破性的進展。在這些任務(wù)中，CNN相當于一個根據(jù)特定需求訓練得出的特征提取器。其突破性的進展表明：即使在圖像外觀相差較大的情況下，CNN依然能夠有效地捕捉圖像的潛在語義信息。

鑒于卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的突出表現(xiàn)，本文提出了一種深度哈希算法，將其用于圖像檢索以獲得更好的性能。該方法的特點包括：（1）將特征學習和哈希學習兩部分融合在同一個框架中，實現(xiàn)了端到端的學習；（2）融合多尺度區(qū)域信息，構(gòu)建表達能力更強的特征表示，并減少了網(wǎng)絡(luò)參數(shù)；（3）引入多任務(wù)學習機制，結(jié)合圖像分類信息和圖像間的相似度信息學習哈希函數(shù)，并且根據(jù)信息熵理論，保持哈希編碼的均勻分布，提升信息量。

2 相關(guān)工作

近年來，近似最近鄰搜索的發(fā)展十分迅速，而針對高維度海量數(shù)據(jù)下的最近鄰檢索問題，哈希算法具有速度快、占用存儲空間少等優(yōu)勢，因此備受關(guān)注。

早期，研究者們主要對數(shù)據(jù)獨立型哈希算法（data-independent Hashing）進行研究，這類算法的哈希函數(shù)通常是隨機生成的，獨立于任何訓練數(shù)據(jù)，其中最具有代表性的方法是局部敏感哈希算法（locality sensitive Hashing，LSH）[3]。LSH算法利用隨機投影生成哈希編碼，隨著哈希編碼位數(shù)的增加，二進制編碼之間的漢明距離逐漸逼近它們在特征空間中的距離。然而，LSH算法往往需要較長的編碼長度才能達到較好的效果，因此這種算法對存儲空間的需求較大。

之后，為了克服數(shù)據(jù)獨立型算法的局限性，研究者們提出了數(shù)據(jù)依賴型哈希算法（data-dependent Hashing），即哈希學習算法（learning to Hash）。這種算法需要從訓練集中學習哈希函數(shù)，因此不具備通用性，但哈希學習算法可以使得較短的二進制編碼所達成的效果也很可觀。根據(jù)訓練數(shù)據(jù)的不同形式，可以進一步將其分為：有監(jiān)督哈希算法（supervised Hashing）、半監(jiān)督哈希算法（semi-supervised Hashing）和無監(jiān)督哈希算法（unsupervised Hashing）。

無監(jiān)督哈希算法使用未經(jīng)過標注的訓練數(shù)據(jù)構(gòu)造哈希編碼，其中包括譜哈希（spectral Hashing，SH）、迭代量化（iterative quantization，ITQ）等經(jīng)典哈希算法。SH算法[4]最小化圖像對之間的加權(quán)漢明距離，權(quán)值由兩兩圖像間的相似性決定。ITQ算法[5]通過最小化投影后的量化誤差來學習哈希函數(shù)，從而減少由實值特征空間與漢明空間之間的差異所引起的信息丟失。

有監(jiān)督哈希算法則充分利用監(jiān)督信息，如圖像的類標簽、成對相似度和相關(guān)相似度等，來學習緊湊的哈希編碼，從而獲得相比無監(jiān)督哈希算法更高的檢索精度。CCA-ITQ（iterative quantization-canonical correlation analysis）算法[5]是后續(xù)對于ITQ算法的一種延伸，將CCA和標簽信息用于降維，然后通過最小化量化誤差實現(xiàn)二值化。最小化損失哈希（minimal loss Hashing，MLH）[6]利用基于相似度信息設(shè)計的損失函數(shù)進行訓練。上述方法均采用線性投影作為哈希函數(shù)，針對線性不可分的數(shù)據(jù)則束手無策。為了解決這個問題，KSH（supervised Hashing with kernels）[7]和BRE（binary reconstructive embedding）[8]在核空間（kernel space）中學習保留相似性的哈希函數(shù)。

通過分析無監(jiān)督哈希算法和有監(jiān)督哈希算法的優(yōu)勢和劣勢，研究者們提出了半監(jiān)督哈希算法SSH（semi-supervised Hashing）[9]。該算法最小化成對標注數(shù)據(jù)的經(jīng)驗誤差并最大化哈希編碼的方差。之后，SSTH（semi-supervised tag Hashing）[10]以有監(jiān)督學習的方式構(gòu)造哈希編碼和類別標簽之間的關(guān)聯(lián)，并以無監(jiān)督學習的方式保留圖像之間的相似性。

2010年至2017年，ILSVRC競賽的歷屆冠軍將圖像分類的錯誤率由28%降低到了2.251%。這期間出現(xiàn)了許多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型，如AlexNet[2]、VGG[11]、ResNet[12]等。2015年，ResNet解決了網(wǎng)絡(luò)過深導致的梯度消失問題之后，神經(jīng)網(wǎng)絡(luò)的層數(shù)得以大幅增加。而在2016年提出的ResNet的變體Res-NeXt[13]證明了增大“基數(shù)”比增大模型的寬度或深度效果更好。同年，在保證性能的前提下，DenseNet[14]實現(xiàn)了特征的重復利用，并且降低了存儲開銷。而近期也有一些研究者聚焦于神經(jīng)網(wǎng)絡(luò)的壓縮問題[15-16]，期望提高計算速度，減少能源消耗。

隨著深度學習的熱門，研究者們開始將卷積神經(jīng)網(wǎng)絡(luò)與哈希算法相結(jié)合進行研究[17-19]，相比人工抽取的特征結(jié)合哈希的方法，這種深度哈希方法可以捕捉圖像外觀劇烈變化下隱藏的語義信息，提升檢索精度。2009年，Hinton研究組提出了Semantic Hashing算法[17]。盡管這種算法結(jié)合了深度學習和哈希編碼，但是深度模型在其中只起到了提供一定的非線性表達能力的作用，網(wǎng)絡(luò)仍然是由基于人工抽取的特征作為輸入，并不算是真正意義上的深度哈希算法。2014年，潘炎研究組提出了CNNH（convolutional neural network Hashing）[18]。這種算法將哈希函數(shù)的學習過程分為了兩個階段，第一階段將成對圖像的相似度矩陣分解成基于標簽的二進制編碼，第二階段訓練卷積神經(jīng)網(wǎng)絡(luò)模型擬合第一階段分解出的二進制編碼。2015年，潘炎等人采用NIN網(wǎng)絡(luò)（network in network）基于三元組排序損失函數(shù)進行訓練，這種算法被稱為NINH（NIN Hashing）[19]，其中提出了divide-and-encode模塊用來減少哈希編碼的信息冗余。相比CNNH算法而言，NINH算法是端到端的方法，特征學習部分可以與編碼部分相互作用。2016年，李武軍團隊提出了DPSH（deep pairwisesupervised Hashing）算法[20]。該算法基于標簽對進行深度哈希學習，并通過減小量化損失提高準確率；同年，DSH（deep supervised Hashing）算法[21]也利用了圖像對之間的相似性關(guān)系進行模型訓練，還衍生出一種在線的圖像對生成策略，提高了網(wǎng)絡(luò)的收斂速度。2017年，王瑞平等人提出的DPH（dual purpose Hashing）算法[22]在訓練階段能同時保留圖像類別和圖像屬性兩個層次的相似度；同年，DSDH（deep supervised discrete Hashing）算法[23]將最后一層網(wǎng)絡(luò)輸出直接限制為二值編碼以保留哈希編碼的離散特性。

通過結(jié)合深度學習和哈希編碼，上述算法在一定程度上已經(jīng)改善了檢索性能，但仍然存在其局限性。例如，NINH算法采用的三元組排序損失函數(shù)對訓練樣本的選擇要求較高，而且其中的divide-andencode模塊不夠靈活；而DPSH、DSH等算法均只針對圖像對之間的相似度來設(shè)計損失函數(shù)，沒有充分利用樣本的標簽信息。針對這些局限性，本文進一步對深度哈希算法進行了研究：一方面是將圖像的標簽信息與圖像間的相似度信息充分利用以訓練網(wǎng)絡(luò)，且避免了挑選訓練樣本造成的工作量；而相比divide-and-encode模塊，本文的信息熵損失函數(shù)既能減少信息冗余，又不受哈希編碼長度變化的限制。另一方面，本文針對池化方法進行了改進，構(gòu)建了表達能力更強的特征表示，并且大幅減少了模型參數(shù)，降低了訓練過程的計算開銷。

3 深度卷積哈希編碼

本文提出了一種如圖1所示的深度卷積網(wǎng)絡(luò)架構(gòu)，用于學習哈希函數(shù)。圖1分為上下兩欄，第一欄是訓練網(wǎng)絡(luò)，第二欄是測試網(wǎng)絡(luò)。

訓練網(wǎng)絡(luò)主要由三部分組成：（1）由多個卷積層構(gòu)成的卷積子網(wǎng)絡(luò)；（2）多尺度融合池化層（multiscale fusion pooling，MSFP）；（3）損失函數(shù)部分。訓練過程中，網(wǎng)絡(luò)的輸入層要求以圖像對的形式輸入數(shù)據(jù)，成對的圖像數(shù)據(jù)經(jīng)由卷積子網(wǎng)絡(luò)提取特征，卷積子網(wǎng)絡(luò)的最后一個卷積層輸出若干特征圖（feature map）；然后，這些特征圖經(jīng)過多尺度融合池化層融合圖像多尺度的區(qū)域特征；最終，將區(qū)域融合特征送入全連接層（包括隱含層、哈希層和分類層），分別計算分類損失、對比損失和信息熵損失，學習模型參數(shù)。

Fig.1 General framework of deep convolutional Hash coding圖1 深度卷積哈希編碼的總體框架圖

測試網(wǎng)絡(luò)大體上與訓練網(wǎng)絡(luò)一致，只是去除了分類層和損失函數(shù)部分。查詢圖像輸入后，由哈希層輸出近似哈希碼，之后用符號函數(shù)將其量化為二進制編碼。

3.1 卷積子網(wǎng)絡(luò)

2015年，何凱明團隊提出的深度殘差網(wǎng)絡(luò)ResNet[12]在ILSVCR比賽中表現(xiàn)極佳，該網(wǎng)絡(luò)模型引入了殘差結(jié)構(gòu)（如圖2所示），有效地解決了網(wǎng)絡(luò)太深而引起的梯度消失的問題。

Fig.2 Residual structure圖2 殘差結(jié)構(gòu)

ResNet不僅訓練速度快，計算量小，模型參數(shù)少，還顯著提升了圖像分類的準確率。由于本文的算法思想是要同時利用圖像分類信息和圖像間的相似度信息進行模型的訓練，因此考慮到ResNet在圖像分類領(lǐng)域的優(yōu)越性，本文采用了ResNet-50作為提取圖像特征的卷積子網(wǎng)絡(luò)，訓練過程中以圖像對作為網(wǎng)絡(luò)輸入，圖像對之間共享網(wǎng)絡(luò)權(quán)值。原始的ResNet-50在最后一個卷積層之后連接的是一個全局池化層和一個輸出節(jié)點數(shù)為1 000的全連接層，本文將這兩層去除，只保留前面部分作為特征提取器，并在其后增加適應(yīng)哈希算法需求的其他層（這些在第3.2節(jié)和3.3節(jié)進行描述）。

3.2 多尺度融合池化

現(xiàn)實生活中，人們向圖像檢索系統(tǒng)輸入的圖片尺寸大小不一，而以往的卷積神經(jīng)網(wǎng)絡(luò)通常要求輸入固定大小的圖像，因此圖像需要經(jīng)過裁剪、縮放等操作以統(tǒng)一尺寸，而這些操作往往會造成一定程度的信息丟失。2014年，空間金字塔池化[24]（spatial Pyramid pooling，SPP）被提出來用于解決這個問題。受到SPP池化的啟發(fā)，本文提出了多尺度融合池化。

如圖1所示，本文提出的框架中卷積子網(wǎng)絡(luò)之后緊跟著的是多尺度融合池化層MSFP，可提取圖像不同尺度區(qū)域的信息，具體結(jié)構(gòu)如圖3所示。

Fig.3 Schematic diagram of multi-scale fusion pooling圖3 多尺度融合池化示意圖

多尺度融合池化層首先將最后一個卷積層的輸出復制為3份，圖3中的3個四邊形框表示復制的3份卷積層輸出。然后，對于每一份卷積層輸出，分別按照尺度l=1,2,3均勻劃分區(qū)域（方形區(qū)域的邊長由2 min(W,H)/(l+1)決定，圖3中采用了不同的虛線框示意劃分的區(qū)域），在按照不同尺度劃分的區(qū)域內(nèi)進行最大池化操作。

假設(shè)最后一個卷積層輸出K個尺寸為W×H的特征圖X={Xi},i=1,2,…,K，某矩形區(qū)域R?[1,W]×[1,H]的特征向量由式（1）定義：

其中，gR,i=maxp∈RXi(p)，表示在第i個特征通道上區(qū)域R的最大值。

如圖3所示，在對每個特征圖分別進行了不同尺度的最大池化之后，每種尺度會對應(yīng)產(chǎn)生若干個K維區(qū)域特征向量gR，將屬于同一尺度的每個區(qū)域向量簡單相加整合為單列K維特征向量（該過程相當于將同一尺度的所有區(qū)域進行了交叉匹配）。最后，將不同尺度的向量串聯(lián)為一列3×K維的多尺度融合特征向量送入全連接層。

如圖4是多尺度融合池化層的一個具體結(jié)構(gòu)示例，圖中type表示池化方式，inputs是輸入該層特征圖的大小，kernel size是不同尺度方形區(qū)域的邊長（即池化滑動窗口的大小），stride是相鄰方形區(qū)域間的間隔（即池化滑動窗口的步長）。假設(shè)最后一個卷積層輸出512個尺寸為7×7的特征圖，則在MSFP層按照3種尺度分別進行最大池化得到尺寸為1×1、2×2、3×3的特征圖，分別簡單相加整合為3列長度為512維的向量，最后串聯(lián)為一列3×512=1 536維的向量。

Fig.4 Structure example of MSFP圖4 MSFP結(jié)構(gòu)示例

卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。其中，全連接層的輸入維度必須是固定的，因此傳統(tǒng)的CNN網(wǎng)絡(luò)通常都要求事先對輸入圖像進行裁剪、縮放等操作以限制其尺寸，這不可避免地會使得圖像在輸入網(wǎng)絡(luò)之前就已損失部分信息，有可能導致提取出的特征不可靠。而本文的多尺度融合池化方法固定輸出3×K維向量，在全連接層之前采用MSFP層保證了全連接層的輸入維度固定，因此不需要對輸入圖像的尺寸進行限制，解決了輸入圖像經(jīng)過裁剪和縮放后造成的信息丟失問題。

MSFP層劃分區(qū)域的方式也可以根據(jù)需要進行變更，其主要優(yōu)點在于融合多種尺度的區(qū)域信息，輸出固定維度的向量，避免了輸入圖像尺寸的限制，同時相比SPP池化還大幅減少了網(wǎng)絡(luò)模型參數(shù)（SPP池化層輸出21×K維向量），有效地降低了計算量，并提高了檢索精度（實驗部分進行了對比）。

3.3 損失函數(shù)

如圖5所示，圖像i與圖像j相似，而其與圖像k不相似，它們之間具有相對相似性。為了使圖像的二進制編碼具有區(qū)分度，訓練出的卷積網(wǎng)絡(luò)模型就需要讓圖像的網(wǎng)絡(luò)輸出能保持這種相對相似性（即減小相似圖像(i,j)之間的距離Dji，并拉大不相似圖像(i,k)之間的距離Dki）。依據(jù)這個原則，研究者通常采用三元組排序損失函數(shù)[25]和對比損失函數(shù)[21]進行模型的訓練。利用三元組排序損失函數(shù)訓練出的模型性能優(yōu)劣與否很大程度上取決于三元組樣本的選擇。假如三元組樣本構(gòu)造不當，在訓練階段會造成極大的干擾，使得網(wǎng)絡(luò)收斂緩慢。因此考慮到訓練階段的穩(wěn)定性以及網(wǎng)絡(luò)的收斂速度，本文采用了對比損失函數(shù)[21]訓練網(wǎng)絡(luò)。

Fig.5 Examples of relative similarity圖5 相對相似性示例

假設(shè)有N對訓練圖像(Ii,1,Ii,2)，i=1,2,…,N，這些圖像對之間的相似度用yi表示（若相似，yi等于0，否則等于1），則目標函數(shù)的構(gòu)造思路是盡可能地減小相似圖像間的距離并加大不相似圖像間的距離，即：

式（2）中，邊距參數(shù)m>0；bi是圖像的近似哈希碼；η是量化系數(shù)，控制量化誤差，使網(wǎng)絡(luò)輸出逼近-1和1；u是一個所有元素均等于1的列向量；‖?‖1表示1-范數(shù)。為了便于優(yōu)化，哈希碼間的漢明距離采用歐氏距離替代。

根據(jù)信息論[26]，任何信息都存在冗余，將其去除冗余后的平均信息量稱為信息熵，當信息保持均勻分布時，信息熵達到最大。根據(jù)這個理論，信息熵損失函數(shù)可以約束網(wǎng)絡(luò)的輸出：

其中，B是全部訓練圖像的哈希編碼所構(gòu)成的矩陣，本文假設(shè)共有M個訓練圖像，哈希碼長度為q。式中的‖?‖F(xiàn)表示F-范數(shù)。信息熵損失函數(shù)在訓練過程中會盡可能使得訓練數(shù)據(jù)的二進制編碼均勻分布以提升信息量（均勻分布的情況下，第i位哈希碼取值為-1的圖像數(shù)量會和取值為1的圖像數(shù)量相等）。NINH算法[19]中采用的divide-and-encode模塊也可以減少哈希編碼的信息冗余，但是模型需要隨著哈希碼長度的變化進行改動，若是較長的哈希碼，所需要分出的子塊就會很多，實現(xiàn)過程會較為復雜。相比之下，信息熵損失函數(shù)就可以免除這種困擾。

為了充分利用圖像的標簽信息，本文參考多任務(wù)學習機制，還聯(lián)合了Softmax分類損失函數(shù)Ls訓練模型參數(shù)，使哈希編碼能更好地保留語義信息。因此，本文算法的整體損失函數(shù)L可以表示為：L=αLs+βLc+λLe，α、β和λ是權(quán)重系數(shù)。

如圖6所示，圖像對(Ii,1,Ii,2)經(jīng)過卷積子網(wǎng)絡(luò)和多尺度融合池化層提取特征后，圖像對的多尺度融合特征向量輸入隱含層fc1（節(jié)點數(shù)為500）和哈希層fc2（節(jié)點數(shù)等于哈希碼長度q），由哈希層輸出中間特征向量，然后分為兩路：

（1）第一路將圖像對的中間特征向量作為近似哈希碼(bi,1,bi,2)輸入對比損失函數(shù)層和信息熵損失函數(shù)層。

（2）第二路將圖像對的中間特征向量輸入分類層fc3（節(jié)點數(shù)等于圖像類別個數(shù)），再進入Softmax損失函數(shù)層計算分類損失。

Fig.6 Schematic diagram of loss function part圖6 損失函數(shù)部分示意圖

3.4 哈希編碼的生成

如圖1中第二欄測試網(wǎng)絡(luò)所示，網(wǎng)絡(luò)經(jīng)過訓練之后，給定一幅圖像xq輸入測試網(wǎng)絡(luò)，會依次通過卷積子網(wǎng)絡(luò)、多尺度融合池化層、隱含層以及哈希層，由哈希層fc2輸出近似哈希碼b(xq)，然后用符號函數(shù)計算最終的二值編碼：

式中，下標i表示哈希編碼的第i個元素。

4 實驗和分析

4.1 數(shù)據(jù)集

為了驗證文中算法的有效性，本文分別在SVHN、CIFAR-10和NUS-WIDE等數(shù)據(jù)集上對哈希算法進行了評估。

（1）SVHN

該數(shù)據(jù)集[27]中的圖像超過600 000幅，分為10個類別，每個類別代表一種數(shù)字（數(shù)字0～9）。本文算法以及其他用于評估的深度哈希算法直接將圖像作為輸入，其他傳統(tǒng)的哈希算法則與文獻[21]一樣利用GIST特征（維度d=512）表示圖像。

（2）CIFAR-10

該數(shù)據(jù)集[28]包含有60 000張大小為32×32的圖片，圖片分為10個類別，每個類別有6 000張圖片。該數(shù)據(jù)集與上述SVHN數(shù)據(jù)集的設(shè)置一致，直接將圖像作為深度哈希算法的輸入，而對于傳統(tǒng)哈希算法采用GIST特征輸入。

（3）NUS-WIDE

該數(shù)據(jù)集[29]有269 648張從Flickr收集的圖像，屬于多標簽數(shù)據(jù)集，每一張圖像都與81個語義標簽中的一個或者多個相關(guān)聯(lián)。與文獻[7]相同，本文只考慮與最常用的21個語義標簽相關(guān)聯(lián)的圖像，每一個標簽至少對應(yīng)5 000幅圖像，最終這個子集共有195 834幅圖像。對于深度哈希算法，該數(shù)據(jù)集的圖像直接作為輸入，而傳統(tǒng)的哈希算法采用官方提供的歸一化顏色矩特征（d=225）表示圖像[21]。

如圖7所示為3個數(shù)據(jù)集的典型樣本示例。SVHN數(shù)據(jù)集中的圖像是由自然場景圖像中的門牌號裁剪而來，雖然與MNIST數(shù)據(jù)集一樣是分為0～9這10類數(shù)字，但是SVHN中的圖像背景復雜，易受光照影響，因此相比之下難度很大。CIFAR-10數(shù)據(jù)集與SVHN均屬于單標簽數(shù)據(jù)集，且圖像尺寸均為32×32。但是不同于SVHN中圖像全是數(shù)字，CIFAR-10數(shù)據(jù)集的圖像是10類不同的物體，如貓、狗、飛機等，數(shù)據(jù)中含有大量特征，相當有挑戰(zhàn)性。而NUS-WIDE數(shù)據(jù)集中的圖像從網(wǎng)絡(luò)中收集得來，種類豐富且具有多個標簽，其復雜的圖像信息導致該數(shù)據(jù)集的檢索難度相當大。

Fig.7 Samples of dataset圖7 數(shù)據(jù)集樣本示例

本文借鑒文獻[21]的數(shù)據(jù)集劃分方式，在數(shù)據(jù)集CIFAR-10上直接采用官方提供的訓練集（50 000幅）和測試集（10 000幅）進行實驗；在數(shù)據(jù)集NUS-WIDE上隨機選擇10 000幅圖像作為測試集，其余的圖像作為訓練集。而在數(shù)據(jù)集SVHN中從每一類隨機選擇100幅圖像作為測試集，再從余下的圖像中每一類隨機選擇500幅圖像作為訓練集。

4.2 實驗設(shè)置與分析

本文算法基于開源深度學習框架Caffe[30]實現(xiàn)，在訓練時權(quán)重系數(shù)α、β和λ均取值為1，對比損失函數(shù)的邊距參數(shù)m取值為2q，量化系數(shù)η則取值為0.01。圖像間的相似度yi由圖像的標簽信息決定：SVHN和CIFAR-10中的圖像若是標簽一致則視為相似，不一致則視為不相似；而NUS-WIDE中的圖像關(guān)聯(lián)多個標簽，若圖像間有至少一個標簽一致，則認為它們是相似的，否則視為不相似。

本文算法與一些主流的哈希算法進行了性能比較：LSH[3]、ITQ[5]、KSH[7]、CNNH[18]、DSH[21]、DLBHC（deep learning of binary Hash codes）[31]。其中，為了快速且公平地評估本文算法，所有基于CNN的算法（CNNH、DSH、DLBHC）均采用了DSH算法[21]的網(wǎng)絡(luò)結(jié)構(gòu)進行實驗評估。之后，使用此結(jié)構(gòu)的本文算法（即該結(jié)構(gòu)最后一個卷積層之后替換為MSFP和3個全連接層以及損失函數(shù)層）用Simple-Ours表示，以ResNet-50作為卷積子網(wǎng)絡(luò)的本文算法用Res-Ours表示。

評估標準采用了MAP（mean average precision）和PR曲線（precision-recall curve）。

表1和表2分別是在數(shù)據(jù)集SVHN和CIFAR-10上基于本文所提算法與其他主流算法計算出的不同長度編碼的MAP值。總體來說，基于卷積神經(jīng)網(wǎng)絡(luò)的哈希算法表現(xiàn)優(yōu)于傳統(tǒng)的基于人工抽取特征的哈希算法。從中可以看出，使用相同的網(wǎng)絡(luò)架構(gòu)，本文算法（即Simple-Ours）相比其他深度哈希算法，檢索精度已得以提升。為了更好地利用圖像分類信息，本文基于分類效果極佳的ResNet-50進行了實驗，表中Res-Ours的檢索精度明顯進一步得到了提升。

Table 1 MAP of Hash codes with different lengths on SVHN by Hamming sorting表1 在SVHN上不同長度哈希碼的漢明排序MAP

表3是在數(shù)據(jù)集NUS-WIDE上的實驗結(jié)果，在該數(shù)據(jù)集上深度哈希算法依然總體優(yōu)于傳統(tǒng)的哈希算法，其中CNNH算法表現(xiàn)略差，是由于該算法同之后的深度哈希算法不同，不屬于端到端的學習，其哈希編碼的過程與卷積神經(jīng)網(wǎng)絡(luò)的訓練過程是相互獨立的，因此這兩個階段不能互相作用，也就沒有發(fā)揮出深度網(wǎng)絡(luò)的強大學習能力。而DSH算法和DLBHC算法沒有充分利用圖像的標簽信息，也沒有考慮到哈希編碼的信息冗余問題，因此檢索精度低于本文算法（Simple-Ours）。本文算法Res-Ours盡可能多地利用了圖像分類信息，結(jié)合相似度信息，改善了檢索性能。

Table 2 MAP of Hash codes with different lengths on CIFAR-10 by Hamming sorting表2 在CIFAR-10上不同長度哈希碼的漢明排序MAP

Table 3 MAP of Hash codes with different lengths on NUS-WIDE by Hamming sorting表3 在NUS-WIDE上不同長度哈希碼的漢明排序MAP

Fig.8 PR curve at 48 bit encoding on SVHN圖8 在SVHN上48位編碼時的PR曲線

Fig.9 PR curve at 48 bit encoding on CIFAR-10圖9 在CIFAR-10上48位編碼時的PR曲線

如圖8至圖10所示是3個數(shù)據(jù)集上48位哈希碼時的PR曲線。從圖中可以看出，本文算法在該評估標準下依然具有其優(yōu)越性。本文實驗選取的對比算法都具有代表性，可由實驗數(shù)據(jù)分析得出：（1）有監(jiān)督哈希算法相比于無監(jiān)督哈希算法和數(shù)據(jù)獨立型哈希算法更有優(yōu)勢；（2）基于人工抽取特征的哈希算法由于其特征提取過程不夠靈活，無法自主學習表達能力強的圖像特征，因此總體不如深度哈希算法有效；（3）文中所提算法由于考慮到圖像分類信息和圖像間的相似度信息可以共同作用于網(wǎng)絡(luò)訓練，并結(jié)合了信息熵理論和多尺度融合池化方法，使得檢索性能相比當前的深度哈希算法得到了進一步改善。

Fig.10 PR curve at 48 bit encoding on NUS-WIDE圖10 在NUS-WIDE上48位編碼時的PR曲線

4.3 對比MSFP池化與SPP池化

為了證明本文提出的多尺度融合池化MSFP的有效性，在SVHN、CIFAR-10和NUS-WIDE數(shù)據(jù)集上將其與SPP池化進行了對比（均采用ResNet-50作為卷積子網(wǎng)絡(luò)，除了最后一個池化層，其他網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)置一致，如圖1所示）。表4～表6所示是實驗對比的結(jié)果。由于NUS-WIDE數(shù)據(jù)集規(guī)模較大，為了減少耗時，采用了檢索返回的前5 000幅圖像作為整個結(jié)果計算MAP，這種評估標準常被使用[19]，記作MAP@top5k。

Table 4 MAP contrast of different pooling methods on SVHN表4 在SVHN上不同池化方法的MAP對比

從表4～表6的數(shù)據(jù)可以看出，MSFP池化在3個數(shù)據(jù)集上的檢索性能與SPP池化相差無幾，甚至略有提升。而從表7可以看出，基于MSFP池化訓練得到的模型相比基于SPP池化訓練得到的模型，由于參數(shù)減少，占用空間減小了約70 MB。

Table 5 MAP contrast of different pooling methods on CIFAR-10表5 在CIFAR-10上不同池化方法的MAP對比

Table 6 MAP@top5k contrast of different pooling methods on NUS-WIDE表6 在NUS-WIDE上不同池化方法的MAP@top5k對比

Table 7 Comparison of MSFP and SPP model sizes表7 訓練出的MSFP和SPP模型大小對比

經(jīng)過對兩種池化方法的比較分析得出：SPP池化和MSFP池化都是基于多尺度思想提取區(qū)域特征，但SPP池化直接將不同尺度的特征串聯(lián)起來，而MSFP池化先將同一尺度的特征融合，再進行不同尺度特征之間的串聯(lián)。與SPP池化相比，本文提出的MSFP池化明顯減少了模型參數(shù)，降低了訓練過程的計算開銷，但同時也保持了相應(yīng)的檢索精度。

5 結(jié)束語

本文提出了一種新的深度哈希算法，基于深度殘差網(wǎng)絡(luò)的強大學習能力，結(jié)合多種監(jiān)督信息訓練網(wǎng)絡(luò)模型，并提出了多尺度融合池化方法。與主流的哈希算法相比，本文算法在實驗中實現(xiàn)了最佳的檢索性能。此外，本文提出的多尺度融合池化方法不僅提升了檢索性能，還減少了模型參數(shù)，節(jié)省了模型占用空間。

計算機與生活2018年12期

計算機與生活的其它文章: 模糊交互時態(tài)邏輯的一些標記*; 工作流可滿足決策（≠）的完備獨立樹分解回溯法*; 改進的教與學優(yōu)化算法求解集合聯(lián)盟背包問題*; 數(shù)據(jù)點的密度引力聚類新算法*; 貝葉斯稀疏表示高光譜圖像超分辨率方法*; 圖像插值空間自適應(yīng)大容量無損信息隱藏算法*