摘要:近年來,深度有監督哈希檢索方法已成功應用于眾多圖像檢索系統中。但現有方法仍然存在一些不足:一是大部分深度哈希學習方法都采用對稱策略來訓練網絡,但該策略訓練通常比較耗時,難以用于大規模哈希學習過程;二是哈希學習過程中存在離散優化問題,現有方法將該問題進行松弛,但難以保證得到最優解。為解決上述問題,提出了一種貪心非對稱深度有監督哈希圖像檢索方法,該方法將貪心算法和非對稱策略的優勢充分結合,進一步提高了哈希檢索性能。在兩個常用數據集上與17種先進方法進行比較。在CIFAR-10數據集上48 bit條件下,與性能最好的方法相比,mAP提高1.3%;在NUS-WIDE數據集上所有比特下,mAP平均提高2.3%。在兩個數據集上的實驗結果表明,該方法可以進一步提高哈希檢索性能。
關鍵詞:非對稱策略; 貪心算法; 有監督哈希; 圖像檢索
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2022)10-044-3156-05
doi:10.19734/j.issn.1001-3695.2022.03.0076
Greedy-asymmetric deep supervised hashing for image retrieval
Zhao Xinxin, Li Yang, Miao Zhuang, Wang Jiabao, Zhang Rui
(College of Command amp; Control Engineering, Army Engineering University of PLA, Nanjing 210007, China)
Abstract:In recent years, the deep supervised hash retrieval method has been successfully applied to many image retrieval systems. However, the existing methods still have some shortcomings. Firstly, most of the deep hash learning methods used symmetric strategies to train the network, but the training of this strategy was usually time-consuming and difficult to be used in the large-scale hash learning process. Secondly, there was a discrete optimization problem in the hash learning process. Exis-ting methods relaxed this problem and it was difficult to guarantee the optimal solution. In order to solve the above problems, this paper proposed a greedy-asymmetric deep supervised hashing method for image retrieval, which fully combined the advantages of the greedy algorithm and asymmetric strategy to further improve the hash retrieval performance. This article compared 17 state-of-the-art methods on two commonly used datasets. Compared with the state-of-the-art methods, this proposed method increased the mAP in 48 bit setting by 1.3% on CIFAR-10 dataset. And on NUS-WIDE dataset, it increased the mAP in all-bits setting by increased 2.3% on average. The experimental results show that this proposed method can further improve the performance of hash retrieval.
Key words:asymmetric strategy; greedy algorithm; supervised hashing; image retrieval
0引言
隨著圖像數據的爆炸性增長,如何從海量數據中尋找所需要的信息已經成為一個至關重要的問題。在大規模圖像檢索中,由于哈希檢索方法[1]在計算和存儲方面具有高效性[2],所以基于哈希特征的近似最近鄰搜索方法[3]受到了廣泛關注。
近年來,許多哈希檢索方法被提出,它們可以分為數據無關[4]和數據相關[5]。數據無關方法主要是依靠隨機映射來構造哈希函數,而哈希函數構造過程通常不依賴于訓練數據,因此該類方法的檢索精度較低[6]。數據相關方法利用各種機器學習技術來學習哈希函數。與數據無關方法相比,數據相關方法能夠利用更短的哈希碼達到更高的精度[7] 。因此,數據相關方法比數據無關方法得到了更加廣泛的應用。
由于深度神經網絡在圖像分類[8]、目標檢測[9]、人臉識別[10]等眾多任務[11]中的成功應用,研究人員試圖通過深度學習來解決哈希問題,并提出了深度有監督哈希學習方法。深度有監督哈希學習方法是通過深度神經網絡提取出圖像特征,并同時進行哈希學習的一類方法[12, 13]。該類方法將特征提取和哈希學習集成到同一個端到端框架中[14],使得哈希編碼的檢索性能相對于傳統方法得到了大幅提升。
盡管深度有監督哈希學習方法已經取得了巨大進步,但依然存在許多不足[15, 16]。現有的深度有監督哈希學習方法大部分在訓練過程中采用對稱策略,例如CNNH(convolutional neural networks hashing)[17]、DPSH(deep pairwise supervised ha-shing)[18]、DHN(deep hashing network)[19]等。對稱策略是指使用相同的深度神經網絡對查詢樣本點和數據集合樣本點進行深度特征提取,再使用相同的深度哈希函數為查詢樣本點和數據集合樣本點生成哈希碼。采用對稱策略的哈希學習方法的訓練通常比較耗時,這使得它們很難有效地利用監督信息來處理大規模數據集合。例如,DPSH方法[18]的存儲和計算成本是O(n2),其中n是數據集合樣本點的數量;DTSH(deep supervised hashing with triplet)[20]方法的訓練成本甚至更高。由于采用對稱策略訓練網絡比較耗時,所以為了使訓練切實可行,大多數現有方法只從整個數據集合中抽取一個子集來構建哈希函數學習的訓練集,而其余數據集合樣本點則被丟棄。采用以上策略雖然能夠加速網絡訓練,但是會出現監督信息利用不充分的問題[21]。
在早期關于非對稱哈希[22, 23]的研究工作中,使用非對稱距離度量來保持圖像之間的相似度,其中訓練集和查詢集的二進制哈希碼是由需要學習的相同的哈希函數生成的。受上述非對稱思想啟發,后續工作中又提出了一些深度非對稱哈希方法,如deep asymmetric pairwise hashing[24]、nonlinear asymmetric multi-valued hashing[25]、collaborative learning for extremely low bit asymmetric hashing[26]、deep asymmetric hashing with dual semantic regression and class structure quantization[27]和基于非對稱監督深度離散哈希的圖像檢索[28]等。其中ADSH[21]方法采用非對稱方式進行深度哈希學習。非對稱方式是指特征提取只對查詢樣本點執行,而不對數據集合樣本點執行。在深度哈希函數學習過程中只學習查詢樣本點的哈希碼,而數據集合樣本點的哈希碼則是直接學習得到。該方法所提的非對稱方式能夠有效解決上述監督信息利用不充分的問題。
雖然ADSH方法通過非對稱方式能夠充分利用監督信息并實現高效地訓練網絡,但由于該方法在哈希碼學習過程中,需要使用sign函數(sign函數不可導)將深度特征映射為二值化哈希碼,進而使得該優化問題變成NP難問題。ADSH方法在訓練階段使用tanh函數替換sign函數進行松弛[29],并在損失函數中添加一個懲罰項來生成盡可能離散的特征[18,30],然后在測試階段再使用sign函數來獲得真正的二進制哈希碼。雖然這樣能夠訓練網絡,但該方法會引入量化誤差。為了更好地求解離散優化問題,Greedy Hash[31]方法利用貪心原理在正向傳播中嚴格使用sign函數保持對網絡輸出的離散約束,而在反向傳播中,哈希層梯度被完整地傳送到前層,進一步避免了梯度消失。
在ADSH和Greedy Hash方法的啟發下,本文提出一種貪心非對稱深度有監督哈希圖像檢索方法。該方法將貪心算法和非對稱策略同時應用到哈希函數的學習過程中,使得該學習過程即可充分利用監督信息,又能更好地求解離散優化問題。設計了一種貪心非對稱成對損失,該損失函數包括貪心損失和非對稱成對損失兩部分。貪心損失通過在前傳過程中保持對網絡輸出的離散約束,在反傳過程中將哈希層的梯度完全傳送到網絡輸出層,進一步解決離散優化問題。非對稱成對損失通過采用非對稱策略對查詢樣本點和數據集合樣本點使用不同策略進行學習,進一步提高了哈希碼學習效率。
1特征提取
圖1展示了貪心非對稱深度有監督哈希圖像檢索方法的模型結構。該模型結構主要包括特征提取和損失函數兩部分。特征提取部分的主要作用是通過一個骨干網提取出圖像的深度特征;損失函數部分主要作用是通過哈希學習將圖像深度特征映射成哈希碼。如圖1所示,訓練圖像首先在特征提取階段得到圖像的深度特征,其次通過哈希層得到圖像的二進制哈希碼;最后通過所設計的損失函數指導網絡訓練,生成能夠保留圖像相似性的哈希碼。該方法將兩部分融入到同一個端到端的結構中,使得模型在訓練過程中各部分可實現相互反饋,實現了更加魯棒的哈希編碼。
值得注意的是,本文設計的損失函數包括貪心損失和非對稱成對損失兩部分。如圖1中貪心損失L1所示,得到圖像的哈希特征后直接使用sign函數將哈希特征映射成二進制哈希碼,再通過貪心原理解決離散優化問題,具體實現過程如2.1節所示。如圖1中非對稱成對損失L2所示,該部分同時使用查詢圖像與數據集合圖像的監督信息對網絡進行訓練,并在訓練過程中學習得到數據集合圖像的二進制哈希碼。該部分具體實現過程如2.2節所示。如圖1中特征提取階段所示,為了提取圖像的深度特征,本文采用AlexNet[8]作為骨干網進行特征提取。AlexNet骨干網包括五個卷積層和三個全連接層(結構如表1所示)。為了得到圖像的哈希特征,本文在AlexNet骨干網的FC3層后添加一個哈希編碼層,它可以將深度特征映射到Euclid Math TwoRApc空間中,c為哈希碼長度。
骨干網的輸入為圖像xi∈X,X={xi}mi=1表示查詢圖像集合,該數據集中共包含m個樣本。圖像經過骨干網提取得到哈希特征hi。
hi=f(xi,θ)(1)
其中:f表示骨干網函數;θ表示骨干網的參數。
2損失函數
如圖1中損失函數階段所示,為學習得到更優的哈希碼,設計了一個損失函數,可表示為L=L1+λL2,其中L1為貪心損失,L2為非對稱成對損失,λ為超參數。貪心損失L1能夠解決優化過程中梯度消失問題[30];非對稱成對損失能夠充分利用數據集合標簽信息,并高效訓練網絡[21]。
2.1貪心損失
為了得到圖像的哈希編碼,通常會在哈希編碼層后面使用sign函數將深度特征映射為二值化哈希碼。但由于sign函數不可導,會使優化過程變為NP難問題。傳統方法使用tanh或sigmoid函數進行松弛[29] ,這樣雖然能夠訓練網絡,但會產生次優解。為更好地解決這個問題,本文提出利用貪心算法在正向傳播中嚴格使用sign函數保持對網絡輸出離散約束;而在反向傳播中,哈希層梯度被完整地傳送到前層,避免了梯度消失,有效地解決了離散優化問題。
貪心損失的核心問題是如何利用貪心算法來解決離散優化問題。因此,該損失關注離散優化問題min L1(bi),其中bi=sign(hi)∈{-1,1}1×c表示xi的哈希碼。具體地,本文的貪心損失采用交叉熵損失形式。
在離散優化過程中,如果完全忽略離散約束bi∈{-1,1}1×c,利用梯度下降算法可以得到第(t+1)次迭代的bi,即
bt+1i=bti-lr×L1bti(2)
其中:lr代表學習率。然而,使用式(2)得到的解不滿足bt+1i∈{-1,1}1×c。若不考慮離散約束,則由式(2)所得到的解為連續最優解。貪心原理認為離連續最優解最近的離散點如式(3)所示,就是所希望得到的離散最優解。
bt+1i=signbti-lr×L1bti(3)
式(3)可拆分為前向傳播和反向傳播兩步來實現。前向傳播過程如式(4)所示,它通過新的哈希層在正向傳播中使用sign函數實現。
bt+1i=sign(ht+1i)(4)
反向傳播過程中,本文在貪心損失中添加一個懲罰項‖hi-sign(hi)‖pp,并且使得該懲罰項盡可能地接近零。再由bti=sign(hti)可以得到
ht+1i=hti-lr×L1hti=
(hti-bti)+bti-lr×L1hti=
(hti-sign(hti))+bti-lr×L1hti≈bti-lr×L1hti
(5)
令
L1hti=L1bti(6)
即可得到
ht+1i=bti-lr×L1bti(7)
式(6)表示在反向傳播過程中,貪心原理能夠將哈希層梯度完全傳送到網絡輸出層。通過分別實現正向傳播和反向傳播過程,本文的貪心損失有效地解決了離散優化問題,并獲得了精確的哈希碼。
2.2非對稱成對損失
非對稱成對損失L2的作用是在訓練過程中采用非對稱策略訓練網絡,這樣不僅能夠充分利用數據集合的監督信息,而且可以高效訓練網絡。所謂非對稱策略是指采用不同的方式來處理查詢圖像和數據集合圖像。對于查詢圖像,通過骨干網進行深度特征提取,再使用深度哈希函數生成查詢圖像的哈希碼;而對于數據集合圖像,它的哈希碼則是直接學習得到。
為得到能夠保留查詢圖像與數據集合圖像之間相似性的哈希碼,一種常見的方法[29]是最小化訓練圖像與數據集合圖像的監督信息相似性和哈希碼內積之間的相似性。
minB,V L2(B,V)=∑mi=1∑nj=1[bTivj-cSij]2(8)
其中:B={bi}mi=1∈{-1,1}m×c表示訓練圖像集合通過哈希函數所學習到的哈希碼集合;V={vj}nj=1∈{-1,1}n×c表示直接學習得到的數據集合圖像對應的哈希碼集合,該集合中包含n個樣本點;Sij表示相似矩陣,如果兩張圖像相似,Sij=1,否則Sij=-1。
由hi=f(xi,θ)和bi=sign(hi),式(8)可變換為
minθ,V L2(θ,V)=∑mi=1∑nj=1[sign(f(xi,θ))Tvj-cSij]2(9)
但由于式(9)中存在sign函數(sign函數不可導),所以參數θ的梯度不能直接進行反向傳播。本文使用tanh函數替代sign函數進行松弛,式(9)表示為
minθ,V L2(θ,V)=∑mi=1∑nj=1[tanh(f(xi,θ))Tvj-cSij]2(10)
在實際應用中,如果只給定一個數據集合Z而沒有指明查詢集X,那么可以從Z中隨機采樣m個數據作為查詢集,即X=ZΩ,其中ZΩ={z1,z2,…,zm}表示從數據集合中隨機采樣的數據集合,Ω={i1,i2,…,im}表示采樣得到數據的索引集。本文令Γ表示數據集合的所有索引值,則ΩΓ。同樣可以得到采樣數據集對應的相似矩陣SΩ,令S=SΩ,則式(10)可重寫為
minθ,V L2(θ,V)=∑i∈Ω∑j∈Γ[tanh(f(zi,θ))Tvj-cSij]2(11)
為保持vi和tanh(f(zi,θ))盡可能接近,在式(11)中添加一個額外約束是合理的。由于tanh(f(zi,θ))是zi的哈希碼近似值,所以式(11)可重寫為
minθ,V L2(θ,V)=∑i∈Ω∑j∈Γ[tanh(f(zi,θ))Tvj-cSij]2+γ∑i∈Ω[vi-tanh(f(zi,θ))]2(12)
其中:γ為超參數。
本文采用交替優化策略來學習式(12)中的參數θ和V,該方法也適用于式(10)。具體地,在每次迭代中只學習一個參數而其他參數固定,這個過程重復多次迭代。交替優化策略更新參數的具體過程可參考ADSH[21]方法中的學習算法部分。
3實驗
為驗證本文方法的有效性,在兩個常用公開數據集上進行了測試,并同17種方法進行了比較。
3.1數據集
a)CIFAR-10數據集[32]。該數據集共包含10個類,每類包含6 000個樣本,總共有60 000張彩色圖像,圖像大小為32×32。對于CIFAR-10數據集,如果兩幅圖像標簽相同,那么將兩張圖像視為相似對。
b)NUS-WIDE數據集[33]。該數據集由269 648張帶標簽的網絡圖像組成。它是一個多標簽數據集,其中每個圖像都包含多張標簽。本文只選擇了21個最常見類的圖像。對于NUS-WIDE數據集,如果兩張圖像至少共享一個公共標簽,它們將被定義為相似對。
3.2實驗設置
本文實驗的模型是在PyTorch框架下實現的。min-batch的大小設置為128,并使用Adam[34]作為優化器,權重衰減設置為0.000 5,最大迭代次數設置為50。在數據劃分上,對于CIFAR-10數據集,隨機從每類中抽取200張,總共抽取2 000張圖像作為訓練集;從數據集合中每類抽取100張,總共1 000張圖像作為查詢集。除去1 000張查詢集之外的59 000張圖像作為數據集合。對于NUS-WIDE數據集,每次從數據集合中隨機抽取2 000張作為訓練集,隨機抽取1 000張作為查詢集,除去查詢集之外的所有圖像作為數據集合。在評價指標中,本文選取圖像檢索中最常用的評價指標mAP(mean average precision)和PR(precision-recall)。
在深度哈希方法中,由于不同深度神經網絡具有不同的特征提取能力,在選取不同深度神經網絡作為骨干網時,檢索性能會有較大變化。為便于比較,本文實驗采用在ImageNet數據集[35]上預訓練的AlexNet模型作為骨干網。
3.3實驗結果與分析
3.3.1檢索結果對比
本文實驗在圖像數據集CIFAR-10和NUS-WIDE上進行,為評估本文貪心非對稱深度有監督哈希的性能,選取17種方法進行比較,其中包括7種傳統哈希學習方法和10種深度哈希學習方法。傳統哈希學習方法中包括無監督哈希學習方法ITQ[2],有監督哈希學習方法Lin:Lin[36]、LFH[37]、FastH[38]、SDH[39]、COSDISH[40]、KADGH[41];深度哈希學習方法包括DSH[1]、DSDH[15]、DHN[19]、DPSH[18]、DTSH[20]、Greedy hash[31]、ADSH[21]、SDNMSH[42]、ASDDH[27]和TransHash[43]。
在CIFAR-10和NUS-WIDE上的圖像檢索mAP精度如表2所示,加粗字體表示最優值,下畫線表示次優值,*表示本文復現結果。從表2中可以看出,在大多數情況下,有監督哈希學習方法性能都要優于無監督哈希學習方法,而深度哈希學習方法優于傳統哈希學習方法。同時,本文方法在所有長度哈希碼上的檢索性能均顯著優于其他方法。這是因為本文提出的貪心非對稱損失能夠更好地保留圖像特征信息,從而提高哈希檢索性能。在CIFAR-10數據集上,本文方法在48 bit條件下的性能比ADSH提高了3.0%,與TransHash相比提高了1.4%。在NUS-WIDE數據集上,本文方法在不同比特下檢索性能平均提高了2.3%。從實驗結果可以看出,本文方法在這兩個常用數據集上的性能均較好,尤其是在單標簽數據集CIFAR-10上檢索性能提升更加明顯。
為了進一步說明本文方法的優越性,在CIFAR-10和NUS-WIDE數據集上12 bit條件下分別繪制了PR曲線,如圖2、3所示。PR曲線與橫坐標軸所圍面積越大,則表示該方法性能越好。從圖2、3各方法的PR曲線與橫坐標軸所圍面積可以看出,貪心非對稱深度有監督哈希圖像檢索方法的性能明顯優于其他所有方法。
3.3.2超參數分析
貪心非對稱損失為L=L1+λL2,其中L1為貪心損失,L2為非對稱成對損失,λ為超參數。為分析λ對于檢索性能的影響,本文實驗在CIFAR-10和NUS-WIDE數據集上進行參數分析。圖4、5顯示了本文實驗分別在12 bit和48 bit下λ取不同值(0.1、1、10、100、1 000)時的檢索精度。從圖4、5中可以看出,超參數λ的取值對兩個數據集的檢索結果影響并不明顯。如圖4所示,當0.1<λ<1時,CIFAR-10數據集能夠達到較好的檢索性能;λ= 1時,CIFAR-10在不同比特下的檢索結果均能達到最好。如圖5所示,當0.1<λ<10時,NUS-WIDE數據集能達到較好的檢索性能;λ= 1時,NUS-WIDE在不同比特下的檢索結果均能最好。綜上所述,本文超參數λ取值為1。
3.3.3檢索結果可視化
為了進一步說明本文方法的檢索效果,圖6給出了對CIFAR-10數據集每類圖像查詢結果(top 10檢索結果)的可視化。從圖6可以看出,CIFAR-10數據集的top 10平均檢索精度可以達到98%,進一步驗證了本文方法在單標簽數據集上優異的檢索性能。
4結束語
針對哈希函數學習過程中的離散優化問題和監督信息利用不充分問題,提出了貪心非對稱深度有監督哈希圖像檢索方法。該方法將貪心算法和非對稱策略同時應用到哈希學習過程中,這樣不僅能夠將哈希層梯度完全傳送到網絡輸出層來解決離散優化問題,而且能夠充分利用監督信息高效地訓練網絡。本文方法與17種方法在兩個公開數據集上進行對比實驗,驗證了本文方法的有效性。雖然貪心非對稱深度有監督哈希圖像檢索方法的檢索性能已經取得顯著進步,但在多標簽檢索任務上仍有一定的提升空間。因此在下一步工作中,筆者將考慮進一步提高本文方法對多標簽數據的適應能力。
參考文獻:
[1]Liu Haomiao, Wang Ruiping, Shan Shiguang, et al. Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC:IEEE Computer Society,2016:2064-2072.
[2]Gong Yunchao,Lazebnik S. Iterative quantization: a procrustean approach to learning binary codes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC:IEEE Computer Society,2011:817-824.
[3]Andoni A, Razenshteyn I. Optimal data dependent hashing for approximate near neighbors[C]//Proc of the 47th Annual ACM Symposium on Theory of Computing.New York:ACM Press,2015:793-801.
[4]Andoni A,Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[C]//Proc of Annual IEEE Symposium on Foundations of Computer Science.Piscataway,NJ:IEEE Press,2006:459-468.
[5]Kong Weihao, Li Wujun. Isotropic hashing[C]//Proc of the 25th International Conference on Neural Information Processing Systems.Red Hook,HY:Curran Associates Inc.,2012:1646-1654.
[6]Atkinson M P, Orlowska M E, Valduriez P, et al. Similarity search in high dimensions via hashing[C]//Proc of the 25th International Conference on Very Large Data Bases.San Francisco,CA:Morgan Kaufmann Publishers,1999:518-529.
[7]Liu Wei, Wang Jun, Ji Rongrong, et al. Supervised hashing with kernels[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2012:2074-2081.
[8]Krizhevsky A, Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks[J].Communication of the ACM,2017,60(6):84-90.
[9]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:7-12.
[10]Sun Yi, Chen Yuheng, Wang Xiaogang, et al. Deep learning face representation by joint identification-verification[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:1988-1996.
[11]Taigman Y, Yang Ming, Ranzato M, et al. DeepFace: closing the gap to human-level performance in face verification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:1701-1708.
[12]Zhao Fang, Huang Yongzhen, Wang Liang, et al. Deep semantic ran-king based hashing for multi-label image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:1556-1664.
[13]Zhang Ruimao, Lin Liang, Zhang Rui, et al. Bit-scalable deep hashing with regularized similarity learning for image retrieval and person re-identification[J].IEEE Trans on Image Processing,2015,24(12):4766-4779.
[14]Lai Hanjiang , Pan Yan, Liu Ye, et al. Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC: IEEE Computer Society,2015:3270-3278.
[15]Li Qi, Sun Zhenan, He Ran, et al. Deep supervised discrete hashing[J].IEEE Trans on Image Processing,2018,27(12):5996-6009.
[16]Luo Xiao, Chen Chong, Zhang Huasong, et al. A survey on deep ha-shing methods[EB/OL].(2020).https://arxiv.org/abs/2003.03369.
[17]Xia Rongkai, Pan Yan, Lai Hanjiang, et al. Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[18]Li Wujun, Wang Sheng,Kang Wangcheng. Feature learning based deep supervised hashing with pairwise labels[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:1711-1717.
[19]Zhu Han, Long Mingsheng, Wang Jianmin, et al. Deep hashing network for efficient similarity retrieval[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:2415-2421.
[20]Wang Xiaofang, Shi Yi,Kitani K M. Deep supervised hashing with triplet labels[C]//Proc of the 13th Asian Conference on Computer Vision.Berlin:Springer,2016:70-84.
[21]Jiang Qingyuan, Li Wujun. Asymmetric deep supervised hashing[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:3342-3349.
[22]Dong Wei, Charikar M, Li Kai. Asymmetric distance estimation with sketches for similarity search in high-dimensional spaces[C]//Proc of Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2008:123-130.
[23]Gordo A, Perronnin F, Gong Yunchao, et al. Asymmetric distances for binary embeddings[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2014,36(1):33-47.
[24]Shen Fumin, Gao Xin, Liu Li, et al. Deep asymmetric pairwise ha-shing[C]//Proc of ACM Conference on Multimedia.New York:ACM Press,2017:1522-1530.
[25]Da Cheng, Meng Gaofeng, Xiang Shiming, et al. Nonlinear asymmetric multi-valued hashing[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,44(11):2660-2676.
[26]Luo Yadan, Huang Zi, Li Yang, et al. Collaborative learning for extremely low bit asymmetric hashing[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,33(12):3675-3685.
[27]Lu Jianglin, Wang Hailing, Zhou Jie, et al. Deep asymmetric ha-shing with dual semantic regression and class structure quantization[J].Information Sciences,2022,589:235-249.
[28]顧廣華,霍文華,蘇明月,等.基于非對稱監督深度離散哈希的圖像檢索[J].電子與信息學報,2021,43(12):3530-3537.(Gu Guanghua, Huo Wenhua, Su Mingyue, et al. Asymmetric supervised deep discrete hashing based image retrieval[J].Journal of Electro-nics amp; Information Technology,2021,43(12):3530-3537.)
[29]Zhu Hao,Gao Shenghua. Locality constrained deep supervised ha-shing for image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.San Francisco,CA:Morgan Kaufmann Publishers,2017:3567-3573.
[30]Yang H F, Lin K,Chen Chusong. Supervised learning of semantics-preserving hash via deep convolutional neural networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(2):437-451.
[31]Su Shupeng, Zhang Chao, Han Kai, et al. Greedy hash: towards fast optimization for accurate hash coding in CNN[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:806-815.
[32]Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images,Technical Report TR-2009[R].Toronto:University of Toronto,2009.
[33]Chua T S, Tang Jinhui, Hong Richang, et al. NUS-WIDE: a real-world Web image database from National University of Singapore[C]//Proc of the 8th ACM International Conference on Image and Video Retrieval.New York:ACM Press,2009:1-9.
[34]Kingma D P,Ba J. 2014. Adam: a method for stochastic optimization[EB/OL].(2020-02-25).https://arxiv.org/pdf/1412.6980.pdf.
[35]Russakovsky O, Deng Jia, Su Hao, et al. ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[36]Neyshabur B, Srebro N, Salakhutdinov R, et al. The power of asymmetry in binary hashing[C]//Proc of the 26th International Confe-rence on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2013:2823-2831.
[37]Zhang Peichao, Zhang Wei, Li Wujun, et al. Supervised hashing with latent factor models[C]//Proc of the 37th International ACM SIGIR Conference on Research and Development in Information Re-trieval.New York:ACM Press,2014:173-182.
[38]Lin Guosheng, Shen Chunhua, Shi Qinfeng, et al. Fast supervised ha-shing with decision trees for high-dimensional data[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:1971-1978.
[39]Shen Fumin, Shen Chunhua, Liu Wei, et al. Supervised discrete hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:37-45.
[40]Kang Wangcheng, Li Wujun,Zhou Zhihua. Column sampling based discrete supervised hashing[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto,PA:AAAI Press,2016:1230-1236.
[41]Shi Xiaoshuang, Xing Fuyong, Xu Kaidi, et al. Asymmetric discrete graph hashing[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,PA:AAAI Press,2017:2541-2547.
[42]張志升,曲懷敬,徐佳,等.稀疏差分網絡和多監督哈希用于高效圖像檢索[J].計算機應用研究,2022,39(7):2217-2223.(Zhang Zhisheng, Qu Huaijing, Xu Jia, et al. Sparse differential network and multi-supervised hashing for efficient image retrieval[J].Ap-plication Research of Computers,2022,39(7):2217-2223.)
[43]Chen Yongbiao, Zhang Sheng, Liu Fangxin, et al. TransHash: transformer-based Hamming hashing for efficient image retrieval[EB/OL].(2021).https://arxiv.org/abs/2105.01823.
收稿日期:2022-03-03;
修回日期:2022-04-18
基金項目:國家自然科學基金資助項目(61806220);江蘇省自然科學基金資助項目(BK20200581)
作者簡介:趙昕昕(1996-),女,河南平頂山人,碩士研究生,主要研究方向為機器學習、圖像檢索;李陽(1984-),男,河北廊坊人,副教授,碩導,博士,主要研究方向為機器視覺、機器學習;苗壯(1976-),男(通信作者),遼寧遼陽人,教授,碩導,博士,主要研究方向為人工智能(emiao_beyond@163.com);王家寶(1985-),男,安徽肥西人,講師,博士,主要研究方向為模式識別、機器學習;張睿(1977-),男,山東威海人,教授,博士,主要研究方向為信息融合.