999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對比學習的無監督三元哈希方法

2023-01-01 00:00:00李玉強陸子微劉春
計算機應用研究 2023年5期

摘要:為了解決現有無監督二元哈希方法由于存在較大量化損失而導致檢索精度較低的問題,在CIBHash方法的基礎上,提出了一種新的基于對比學習的無監督三元哈希方法——CUTHash,將三元哈希編碼用于圖像檢索。具體來說,首先,使用融合了解耦對比損失的對比學習框架,在目標數據集上進行無監督的圖像特征學習;接著,為了得到三元哈希編碼,對學習到的圖像特征使用平滑函數進行量化操作,解決離散函數量化后導致的零梯度問題;最后,應用改進后的對比損失,約束同屬一張圖像的增強視圖的特征在哈希空間中盡可能地接近,從而使得三元哈希編碼具有一定的辨識力,使其更好地應用于無監督圖像檢索任務。在CIFAR-10、NUS-WIDE、MSCOCO以及ImageNet100數據集上進行了大量對比實驗,取得了較當前主流的無監督哈希方法更好的檢索性能,從而驗證了CUTHash方法的有效性。

關鍵詞:圖像檢索;無監督哈希;對比學習;三元哈希編碼;哈希量化

中圖分類號:TP391文獻標志碼:A文章編號:1001-3695(2023)05-023-1434-07doi:10.19734/j.issn.1001-3695.2022.09.0479

Abstract:Tosolvetheproblemoflowretrievalaccuracyoftheexistingunsupervisedbinaryhashingmethodduetoquantizationloss,thispaperproposedanewunsupervisedternaryhashmethodbasedoncontrastivelearningreferstotheCIBHashmethod——CUTHash,usingternaryhashcodeforimageretrieval.Specifically,themethodusedthecontrastivelearningframeworkofdecoupledlosstoacquireacompactandaccuratefeaturerepresentationforeachsample.Then,toobtaintheternaryhashcodes,itusedthesmoothfunctionafterthefeaturerepresentationwhichcouldsolvethezerogradientproblemcausedbythequantificationofdiscretefunctions.Finally,therepresentationoftheenhancedviewofthesameimageaftertheapplicationofimprovedcontrastivelosscouldpreservethesemanticinformationandimprovethediscriminativeabilityintheHammingspace.Sothatitcanbebetterappliedtounsupervisedimageretrievaltasks.Itperformedalargenumberofcompa-rativeexperimentsontheCIFAR-10,NUS-WIDE,MSCOCO,andImageNet100datasets,andachievedbetterretrievalperformancesthanthecurrentmainstreamunsupervisedhashmethod,thusverifyingtheeffectivenessoftheCUTHashmethod.

Keywords:imageretrieval;unsupervisedhash;contrastivelearning;ternaryhashcode;hashquantization

0引言

近年來,數據的爆炸式增長促使人們對具有更小存儲成本和更高計算效率的圖像檢索方法展開研究。其中,哈希方法作為一種用于大規模圖像檢索的手段之一,近年來得到了突飛猛進的發展。它將高維連續空間的數據映射到低維二進制空間,使用量化后的二元哈希編碼表示每個數據項,并保存了項的相似信息,顯著地減少了內存占用;同時,在漢明空間中進行檢索,提高了搜索效率。

雖然使用二元哈希編碼用于圖像檢索具有上述優勢,但是大多數哈希方法將連續值映射到離散值的過程中所造成的量化損失是不可避免的,此類直接將連續空間接近“0”的特征表示賦值為-1或1的處理方式,會導致較大的量化誤差,從而引起檢索精度的喪失。因此,有研究工作指出:引入第三態“0”來專門表示這種數值很小的特征值,再將這種{0,±1}表示的三元哈希編碼用于圖像檢索時,其性能往往優于二元哈希編碼,且在不損失計算時間的同時,具有更好的檢索效率[1]。例如文獻[2]中,首先使用極化損失訓練AlexNet[3]生成特征值,然后通過隨機選擇的兩個閾值將特征進行三元化,再將得到的三元哈希編碼用于圖像檢索,取得了很好的效果。還有其他的工作圍繞三元哈希編碼的量化以及相關度計算展開研究[1,4]。然而這些現有的工作大多是圍繞有監督學習生成三元哈希編碼,仍需要利用標簽信息來指導視覺特征的學習,沒有考慮無監督條件下的三元哈希編碼學習情況。

考慮到無監督二元哈希方法相關研究廣泛,在現有的無監督二元哈希方法[5~7]中,CIBHash[8]方法取得了較高的檢索精度。與傳統的基于偽標簽或數據重建的無監督哈希方法不同,CIBHash方法首次將對比學習引入二元哈希編碼的學習中。受此啟發,本文也同樣引入對比學習,結合三元哈希編碼具有較高檢索性能的優點,使用對比學習框架從輸入中挖掘數據的語義信息來學習三元哈希編碼,然后將其應用于無監督圖像檢索任務。然而,將對比學習應用于哈希編碼學習還有以下兩種問題有待完善:a)負樣本依賴,為了防止對比學習框架坍塌,傳統對比學習需要構造大量的負樣本;為此,就需要大批量數據,設計專門的數據優化器以及特殊的數據結構來保存負樣本;這種操作會使得對比學習框架變得更加復雜,同時也會影響到特征的學習效果;b)通常對比學習框架的學習效率與批次大小有著直接的聯系,在較小的batchsize下,其學習效果較差。

針對上述兩個問題,首先,本文選擇使用VIbCReg[9]對比學習框架來學習圖像特征,主要是考慮到該框架采用信息最大化的方法來進行無監督的圖像特征學習。不僅使其在不依賴負樣本的情況下也能取得較好的學習效果,同時還能有效地避免框架出現坍塌的問題。其次,引入解耦對比損失(decoupledcontrastivelearningloss,LDC)[10],進一步解決樣本中的正負耦合效應問題,從而使得VIbCReg對比學習框架在較小batchsize下具有較好的學習效果。最后,為了使得整體方法能夠進行端到端的訓練,從而保證特征學習和后續三元化得到的哈希編碼最優,參照文獻[4]的做法,在改進框架后連上一個平滑函數,作為三元哈希編碼的輸出。

綜上所述,本文提出了一種基于對比學習的無監督三元哈希方法,用于圖像檢索任務,具體來說貢獻如下:

a)引入解耦對比學習損失,使得VIbCReg對比學習框架在解決負樣本依賴問題的同時,進一步提升該框架在小batchsize下的效果;

b)將改進后的對比學習框架應用于三元哈希編碼的學習,提升了圖像檢索性能;

c)在多個基準圖像數據集上進行了大量實驗,以評估所提出的三元哈希方法的性能;實驗結果表明,本文所提方法在所有三個數據集上與當前主流方法相比有顯著優勢。

1相關工作

在有監督圖像檢索領域,基于三元哈希編碼的圖像檢索方法取得了較高的檢索精度,但是由于帶標簽的數據難以獲取,大部分有監督學習方法難以在實際圖像檢索任務中部署,所以,本文專注于無監督三元哈希編碼方法的研究。同時參考對比學習在無監督學習領域的應用成果,引入對比學習框架進行圖像特征與三元哈希編碼的學習。

1.1對比學習

自監督表示學習(self-supervisedlearning,SSL)主要是利用前置任務從大規模的無監督數據中挖掘自身的監督信息,通過這種構造的監督信息對網絡進行訓練,從而可以學習到對下游任務有價值的表征。對比學習是自監督表示學習中的一種,從防止框架坍塌的角度,可大致把現有的對比學習方法劃分為基于負樣本的方法[11,12]、基于聚類的方法[13,14]、基于不對稱網絡結構[15,16]的方法,以及基于信息最大化[17,18]的方法。有關每一類方法的特點描述如下:

a)基于負樣本的方法,MoCo[11]和SimCLR[12]框架將屬于同一幅圖像的兩個增強視圖作為正樣本,拉近正樣本在投影空間的距離;而同一批次中的其他圖像作為這兩個視圖的負樣本,使其與正樣本的特征分離。然而,這些方法需要一個大批次或需要某種記憶庫來保存大量的負樣本,增加了額外的訓練成本。

b)基于聚類的方法在訓練中加入了聚類操作,其中以SWAV[14]框架為代表,它約束正樣本所屬相同的聚類類別而不是直接對比其特征,這種做法提高了訓練速度,但其性能依賴聚類的效果,缺乏穩定性。

c)基于不對稱網絡結構的方法,如BYOL[15]、SimSiam[16]框架等。不同于SimCLR框架的對稱暹羅結構,BYOL框架在其中一支網絡的編碼器后添加了一個預測器,整體形成了一個不對稱的結構,并且使用動量更新機制分別對兩個網絡的參數進行更新。SimSiam框架的結構與BYOL相同,但是它提出“stop-gradient”操作來進行參數更新。這些基于不對稱網絡結構的方法雖然有效地防止了模型坍塌,但是并不能從理論層面解釋該類方法取得較好效果的原因。

d)基于信息最大化的框架BarlowTwins[17]既沒有使用負樣本,也沒有使用其他結構使整體變得不對稱,而是替換了一個新的損失函數,來顯式地防止框架坍塌。VIbCReg框架同樣地提出了一個新的目標函數,并將其分解為三項:用不變項學習不同視圖的不變性、用方差正則項避免模型特征的崩潰、用協方差正則項將信息分散到特征的不同維度。VICReg[18]框架僅僅使用了最簡單的暹羅結構,就取得了很好的實驗結果。后續的VIbCReg[9]框架在VICReg框架的基礎上改進了協方差項,從而具有更好的穩定性。由于VIbCReg框架具有上述優點,本文將其引入圖像特征與三元哈希編碼的學習中,并將對比損失應用到量化后的三元哈希編碼上,從而保證相似圖像的哈希編碼在漢明空間中保留較高的相似性。

1.2三元哈希編碼

針對二元哈希編碼量化時存在較大的量化誤差問題,部分工作提出了有監督三元哈希編碼的方法,并將其用于圖像檢索等領域,取得了較好的效果。如DPN[2]使用監督的類信息,利用極化損失約束輸出,然后通過隨機選取的兩個閾值m和-m,將位于區間(-m,m)內的連續特征值映射到0,大于等于m的值映射成+1,小于等于-m的值映射成-1,從而得到三元哈希編碼,并以此為依據進行圖像檢索,提高了檢索精度。STC[19]框架同樣在投影空間中使用三元哈希編碼表示特征,然后利用兩個查找表來輔助搜索,有效地降低了搜索的時間復雜度。由于STC框架使用的編碼方式保留了編碼與噪聲之間較多的互信息,部分工作[20,21]在STC框架的基礎上進行了改進,將其應用于隱私保護搜索。還有相關的工作針對三元哈希編碼的量化以及相關度計算展開研究,文獻[16]提出了一種尋找更好閾值的方法,并且進一步證明了三元哈希編碼能夠減少鄰域歧義,使用Lukasiewicz或者Kleene公理計算的三元漢明距離分布比二元漢明距離分布具有更好的可分性,且在不損失計算時間的同時,具有更好的檢索效率。為了將特征和三元哈希編碼進行聯合學習,文獻[4]提出了一個平滑的三元函數用于替代離散函數,來解決哈希編碼的量化問題。本文也是基于這種做法,在無監督特征學習之后,采用文獻[4]所提連續函數來得到三元哈希編碼,從而解決離散函數反向傳播導致的零梯度問題,并將特征與三元哈希編碼作為整體進行端到端的訓練。

2CUTHash方法

2.1問題定義

本文的目標是學習一個映射R:x→t,其中R表示整個方法,x是包含在N個訓練樣本數據集D中的圖像,D={xn}Nn=1,t是一個T位的三元哈希編碼,其中t∈{0,±1}T。經過該方法將高維的圖像表示映射成一個低維的三元哈希編碼,并且盡可能地保留圖像的語義信息。如果原始圖像是相似的,那么生成的三元哈希編碼之間的三元漢明距離相對較小,反之三元漢明距離較大。

2.2方法框架

如圖1所示,本文方法由四個部分組成:

參見整體方法結構如圖1所示。給定N個樣本,從中選擇Aug和Aug′兩種不同的數據增強策略。x(1)i=Aug(xi)和x(2)i=Aug′(xi)分別表示第i個圖像的兩個不同數據增強視圖。

圖1整體方法結構

Fig.1Overallmethodstructure

訓練階段:以x(1,2)為輸入,經過一個encoder,分別將視圖編碼為y(1)=E(x(1)),y(2)=E(x(2))。然后,projector進一步將這些表示處理為投影特征z(1)=P(y(1)),z(2)=P(y(2)),投影特征的維度與目標哈希編碼長度相同。投影特征接著輸入三元哈希層,sim_t(1)=TH(z(1)),sim_t(2)=TH(z(2))。最后,使用對比損失約束sim_t(1)、sim_t(2),從而使得相似圖像的哈希編碼在漢明空間中保持相似性。

檢索階段:將投影特征z通過離散函數映射成三元哈希編碼,t(1)=TH(z(1)),t(2)=TH(z(2)),t(1,2)={0,±1}T。然后按照映射規則{-1,0,1}→{01,00,10},將三元哈希編碼t(1,2)中的每一位,用雙位的{0,1}編碼表示,最后使用Lukasiewicz公理計算三元漢明距離,依據距離大小來進行圖像的檢索。

2.3projector結構

在基于暹羅結構的對比學習框架中,圖像特征經過了兩次非線性映射,分別是encoder和projector。在訓練時,特征依次經過encoder和projector,訓練完成之后,將訓練好的框架遷移到下游任務時,projector會被丟棄,而只采用經過encoder的特征值。因為projector是接近任務的高層網絡,會編碼更多與對比學習任務相關的信息;低層encoder則會編碼更多與任務無關的通用細節信息。而對比學習的目標是學習一個通用的特征提取網絡,然后用于下游任務,如果保留過多對比學習訓練任務相關的特征,對于不同的下游任務,可能會帶來負面影響。CIBHash方法將對比學習框架用于哈希編碼學習時,也是仿照這樣的做法,在encoder得到連續特征值之后,直接使用線性層將特征轉變為需要的維度。與CIBhash的方法不同,本文選擇保留projector結構,因為本文的目的是量化后的哈希編碼仍能保留哈希任務相關的語義信息,加入projector結構從而保留哈希任務相關的特征更符合無監督哈希學習的目標。此外本文發現,使用VIbCReg框架進行哈希編碼學習時,簡單的批量歸一化就能提高框架的效率。因此,本文使用批量歸一化代替projector中的IterativeNormalization[23],并將批量歸一化應用于projector中最后的輸出。projector的結構如圖2所示。

圖2projector結構

Fig.2Structureofprojector

如圖2中顯示,將經過encoder的特征y輸入projector,y∈EuclidExtraaBpN×4096,其中N為批次大小。經過第一層全連接層后,y的維度變為N×2048,接著特征依次經過批量歸一化以及ReLU層。經過第二個全連接層,特征維度保持不變,然后依次經過批量歸一化以及ReLU層。再將其輸入第三個全連接層,該特征維度變為N×T,其中T表示最終三元哈希編碼長度,將批量歸一化應用于最后的輸出,得到特征z。

2.4三元哈希層

為了得到三元哈希編碼,最簡單的方法是使用一個離散函數,將經過projector得到的連續特征值z中每個維度上設置兩個閾值m和-m,從而進行三元化操作。離散函數如式(1)所示。

g(x)=-1ifx≤m0-mlt;xlt;m1otherwise(1)

由于三元化的不可微性,不能直接將該操作納入到整個方法的聯合訓練中。但是,如果使特征的優化與三元化互相獨立,并不能保證后續三元化得到的三元哈希編碼達到最優。

為此,本文采用了文獻[4]中的方法,在訓練階段,采用連續的平滑函數f(x)來代替離散哈希函數g(x),再逐步地訓練過平滑函數可以逐漸逼近本文所期望的離散函數,從而達到優化三元哈希編碼的效果。

f(x)=tanh((x/φ)k)(2)

其中:φ為常數;k為大于1的奇數,即k=3、5、7、9、11等。參數φ與式(1)中的閾值參數m相同,設置為0.5,并且參考文獻[4]在訓練過程中依次增加k的值,使其逐漸逼近離散三元函數。

在檢索階段,本文使用式(1)來代替式(2),獲得三元哈希編碼t(1)、t(2),并進一步將三元哈希編碼t中的每一位通過映射{-1,0,1}→{01,00,10},轉換為雙位{01}編碼bincode(1)和bincode(2),然后使用Lukasiewicz公理計算三元漢明距離,以此為根據進行圖像檢索。

三元漢明距離計算如式(3)所示。

THD=12∑(bincode(1)⊕bincode(2))(3)

其中:⊕表示異或運算;∑表示對編碼中1的個數求和。

2.5損失函數

如圖1中損失函數階段所示,為學習到更優的三元哈希編碼,設計了一個損失函數,LCUTHash=αLVIB+βLDC,其中LVIB為對比損失,LDC為解耦對比損失,α和β為超參數。對比損失LVIB能在防止對比學習框架坍塌的同時學習較好的特征表示;LDC能夠進一步地利用負樣本信息,解決樣本中的正負耦合效應,使得框架在較小batchsize下取得較好的效果。

訓練過程中,增強視圖的連續特征經過三元哈希層后得到sim_t(1)、sim_t(2)。為了使得數據樣本與它的增強樣本在哈希空間中盡可能地接近,從而使得量化后的三元哈希編碼具有一定的辨識力,本文直接將對比損失應用到sim_t上。通過目標函數的約束,可以有效地將原始圖像的語義信息保留在哈希編碼中,進而在漢明空間進行查找時能夠返回相似程度高的圖像。

在選擇對比學習框架方面,本文參考VIbCReg框架,該框架的損失函數包含方差正則化項、相似度損失項和協方差損失項三項。

3實驗

3.1數據集

為了評估CUTHash方法的性能,本文遵循最近無監督圖像檢索方法的實驗協議[24],在四個公共基準數據集上進行了綜合實驗。有關四個數據集的詳細信息如下:

a)CIFAR-10是一個流行的圖像數據集,共包含10個類別60000張圖像。本文參考兩種典型的實驗設置,將數據集劃分為兩類。CIFAR-10(Ⅰ):對于每個類,隨機選擇1000張圖像作為查詢集,500張圖像作為訓練集,將整個數據集中除去查詢集剩下的50000張圖像作為檢索數據庫。CIFAR-10(Ⅱ):每個類隨機選擇100張圖像作為查詢集,其余的59000圖像用做檢索數據庫,從檢索數據庫中每個類隨機抽取500幅圖像進行訓練。

b)NUSWIDE包含269648張圖像,每張圖像都帶有多個標簽,所有圖像共計81個類別。本文挑選了包含21個最常見類別的圖像,對總共169643張圖像進行實驗。隨機選擇每個類別500張共10500張圖像作為訓練集;每個類別100張,共2100張圖像作為查詢集,將除去查詢集的其余圖像作為檢索數據庫。

c)MSCOCO是一個用于多任務的數據集。本文使用處理之后的圖像集合,包括80個類別共122218張圖像來進行實驗。從中隨機選擇5000張圖像作為查詢集,從剩余圖像中選取10000張圖像進行訓練,將除去查詢集和訓練集的其余圖像作為檢索數據庫。

d)ImageNet100是ImageNet的一個子集,包含100個類別。按照設置,將100個類別的所有驗證圖像作為查詢集。而檢索數據庫由128530張圖像組成,從其中每個類別隨機選取100張圖像用于訓練。

3.2基線

為了評估CUTHash方法的有效性,本文首先選取了以下具有代表性的無監督深度二元哈希方法來進行對比實驗:DeepBit[7]、SGH[25]、BGAN[26]、BinGAN[27]、GreedyHash[28]、HashGAN[29]、DVB[30]、TBH[31]、CIBHash[5]。除此之外,由于缺乏無監督的三元哈希工作,為了評估CUTHash方法的有效性,本文選取了三個典型的有監督三元哈希方法,即DPN[2]、TH[1]以及THC[4]來進行性能的比較驗證。

3.3評價指標

在實驗中,使用平均精度均值(MAP)來衡量檢索性能。

依次改變分配給三元哈希編碼的比特數[8],來衡量檢索方法的MAP值。

平均精度均值為每個查詢數據的精度均值(AP)的平均:

AP@K=∑Kr=1p(r)δ(r)(12)

其中:p(r)為前r個檢索樣本的準確率;δ(r)表示第r個返回的檢索樣本是否與查詢集中某查詢樣本標簽相同,相同則取值為1,不同為0。若查詢集數據量為M,則平均精度均值MAP的計算公式為

MAP@K=1M×∑Mi=1APi(13)

MAP數值越大,表示檢索精度越高,所評估方法效果越好。

3.4實驗設置

參考文獻[5]中的實驗數據增強方法,本文以順序方式隨機應用隨機裁剪、水平翻轉處理、顏色抖動、灰度處理以及高斯模糊操作。對于訓練集中的某一張圖像,經過兩次數據增強,得到兩張不同的視圖,然后輸入特征提取器。對于網絡訓練,特征提取器是由預訓練的VGG16實現的,并使用了一個投影頭替換其中的FC8層。在訓練過程中,與文獻[5]相同,本文同樣固定了在ImageNet數據集上預先訓練的VGG16參數,而只訓練新添加的投影頭以及三元哈希層。Adam優化器的學習率設置為0.001,損失函數的三個參數α、β、τ分別設置為0.4、1、0.5。batchsize設置為256,在三個數據集上均迭代了150個epoch,整個方法使用PyTorch實現,硬件使用NVIDIATeslaV100圖像處理器。

3.5實驗結果

3.5.1檢索結果對比

參照前文的設計,本節將CUTHash方法與其他基線方法進行了對比實驗,具體實驗結果如表1、2所示。表1和2分別展示了不同的二元哈希方法、三元哈希方法的哈希編碼長度從16位依次變化到64位時,在三個基準數據集上獲得的平均精度均值。從表1可以看出,CUTHash方法檢索性能總體上超越了無監督二元哈希方法,在三個數據集上都取得了較高的檢索分數,從而驗證了本文方法的優勢。同時,本文也發現CUTHash方法在三個數據集上的檢索效果比較好,但隨著哈希編碼長度的縮短,性能也在下降,原因是哈希編碼長度越短,能夠保留下來的語義信息就會越少,從而影響最終的檢索效果。

從表2中可以看出,與現有效果最好的有監督三元哈希方法THC相比較,本文所提的CUTHash方法在NUS-WIDE數據集、ImageNet100數據集上的MAP較高,在NUS-WIDE數據集上的MAP分數達到了THC方法的95%,甚至在ImageNet100數據集上的MAP分數超過了現有的有監督三元哈希方法;相比之下,CUTHash方法在CIFAR-10(Ⅱ)數據集上表現效果就不如另外的兩個數據集,但MAP分數平均能達到THC方法的74%。總的來說,本文使用對比學習框架來學習三元哈希編碼,然后用于無監督圖像檢索任務是可行且有效的。

CUTHash方法在MSCOCO、ImageNet100數據集上的MAP分數高,原因是這兩個數據集的訓練集使用了10000張圖片樣本,通過設置的數據增強方法,將一張圖片裁剪成兩張增強視圖,進一步地提高了訓練集的樣本數量,因此最后的檢索精度略高。但是CUTHash方法在CIFAR-10(Ⅱ)的數據集上的效果就沒有那么明顯,其原因是CIFAR-10(Ⅱ)數據集采用的訓練集樣本數量相對較少,同時原始圖片分辨率較低。而無監督特征提取器需要輸入大小為224×224的圖像,使得對比學習框架不能從隨機縮放裁剪的視圖中很好地學到圖片的語義信息,降低了后續三元哈希編碼的辨識性。

在NUS-WIDE數據集上的檢索效果最好是因為該數據集是一個多標簽數據集,只要檢索返回圖像中的標簽信息有一個與查詢圖像相同就視為正確,這無疑降低了檢索的難度。同時該數據集的訓練數據最多,CUTHash方法訓練得更充分,對比學習框架能從中挖掘出更多的相似信息。此外,該數據集的查詢集樣本比MSCOCO、ImageNet100查詢集數量少,因此也減少了檢索出錯的機率,MAP的數值也就相應地比這兩個數據集高。

3.5.2消融實驗

本節進行消融實驗比較,從而驗證本文方法每部分的有效性。針對projector結構、VIbCReg框架中的對比損失LVIB和解耦對比損失LDC三個部分共設計五個變體,分別為:

a)CUTHash:即本文所提的方法,包含projector結構、對比損失LVIB和解耦對比損失LDC三個部分。

b)C-L:針對projector結構進行消融實驗,使用線性層代替projector,其余設置保留。

c)C-S:針對projector結構進行消融實驗,并使用iterativenormalization代替批量歸一化操作,應用于projector的輸出,其余設置保留。

d)C-V:針對對比學習框架VIbCReg進行消融實驗,移除VIbCReg框架中的損失LVIB,其余設置保留。

e)C-D:針對解耦對比損失LDC進行消融實驗,移除LDC,其余設置保留。

分別在CIFAR-10(I)和NUSWIDE數據集,三元哈希編碼長度為16位的條件下進行消融實驗,并根據消融實驗的結果,觀察每個實驗元素對方法的結果影響。實驗結果如表3所示。

從表3可以看出:a)在兩個數據集上,CUTHash均優于C-L,這表明采用projector替換線性層,經過projector的特征具有更多與哈希任務相關的特性,可以更多地保留所生成的三元哈希編碼中的語義信息;b)C-S在兩個數據集上的檢索結果均降低,這表明projector結構中,相比于iterativenormalization操作,批量歸一化操作能夠加速神經網絡訓練,并且對于哈希任務有提升效果;c)對比CUTHash與C-V可知,整個方法采用信息最大化的對比學習框架進行訓練,減少了該框架對負樣本規模的依賴,使用對比損失LVIB,約束同屬一張圖像的增強視圖的特征在哈希空間中盡可能地接近,從而提高哈希編碼的辨識力;d)CUTHash在兩個數據集上的檢索效果均優于C-D,這表明在采用VIbCReg框架的基礎上,加入另一項解耦對比損失,有助于改進對比學習框架的性能,從而進一步提高檢索的精度。

3.5.3參數敏感性實驗

本節對CUTHash方法中的超參數進行了敏感性分析。主要討論損失函數中的三個參數α、β、τ以及batchisze大小對方法性能的影響。本文在CIFAR-10(I)數據集上并且三元哈希編碼長度為16位的情況下進行了實驗。首先,為了驗證損失函數LVIB的超參數α對方法性能的影響,將β的取值固定為1,α在0.1~1內變化,結果如圖3所示。

從圖3中可以看出:固定參數β,隨著α的增加,MAP大體呈現先增加后減少的趨勢,并且在α為0.4時表現最好。因此,在之后的實驗中,固定α的值為0.4。

隨后,為了驗證損失函數LVIB的超參數β對方法性能的影響,固定參數α的值為0.4,β在0.2~2內變化,實驗結果如圖4所示。

從圖4中可以看出,β為1時表現最好。因此,本文在其他實驗中固定α=0.4和β=1。

τ是控制數據分布集中程度的溫度參數。為了討論τ對于方法性能的影響,固定損失項參數α=0.4和β=1,并通過在0.1~1變化溫度參數τ的取值,結果如圖5所示。

從圖5中可以看出,τ在取值0.5時,CUTHash方法的圖像檢索分數MAP最高。參照上述實驗結果,在本文的實驗中,將三個參數的取值設定為α=0.4、β=1以及τ=0.5。

此外,由于解耦對比損失LDC能夠提高對比學習框架在小批量數據下的學習效果,于是本文研究了batchsize大小對所提方法性能的影響。同時,為了更好地展示CUTHash方法的檢索效果隨著批量大小的變化,避免編碼長度太短對實驗結果的影響,本文在三元哈希編碼長度為64位的情況下,在CIFAR-10(I)數據集上改變batchsize的大小,結果顯示在圖6中。

可以看到,即使在batchsize取值16時,MAP也能達到0.64以上的水平,超過CIBHash在哈希編碼長度為64時,batchsize為256時的效果。而隨著batchsize的增加,性能穩定上升;當batchsize等于256時,性能達到最好;而當batchsize繼續增加時,MAP呈現下降趨勢。由此可見,CUTHash方法的性能會受到batchsize大小的影響,并且當batchsize設定為256時,CUTHash方法的性能達到最佳。因此,參照上述實驗結果,在本文實驗中,固定batchsize大小為256。

3.5.4可視化分析

為了驗證使用CUTHash方法進行檢索返回圖像的準確率,將三元哈希編碼的長度固定為64,從CIFAR-10(I)的三個類別中任選一張圖像作為檢索圖像,返回前10個搜索的圖像。如果返回圖像的類別和檢索圖像的類別相同,則視為正確。如圖7所示,CIFAR-10(I)數據集的top10平均檢索精度可以達到96.7%,這說明了本文所提CUTHash方法具有較高的查詢準確率。

此外,為了更加直觀地展示CUTHash方法的性能,分別將CIFAR-10(I)數據集上運用CIBHash、CUTHash方法所得到的64位三元哈希編碼投射到一個二維平面上,使用t-SNE來顯示特征的分布,其中每種顏色表示不同的類別標簽。如圖8所示,通過CUTHash方法生成的三元哈希編碼明顯地分散了類間數據樣本,相較于CIBHash,每個類別較容易區分。

4結束語

針對無監督哈希編碼學習問題,本文提出了一種基于對比學習的三元哈希方法。采用對比學習框架,聯合特征與三元哈希編碼的學習,提升了三元哈希編碼的辨識力。在四個常用于評估哈希方法的數據集上進行了大量的對比實驗,實驗結果表明,本文方法在高分辨率的單標簽和多標簽數據集中均取得了較好的性能,能很好地適應無監督哈希檢索任務。但本文方法模型的健壯性并不能令人十分滿意,由于隨機裁剪的存在,使得該方法對于低分辨率的數據集的效果提升不明顯,所以在今后的工作中考慮使用更好的裁剪方法,得到準確的對比圖像以提高方法的學習能力,同時如何在訓練中動態地選擇兩個閾值,從而獲得辨識度更高的三元哈希編碼也是值得探討的問題。

參考文獻:

[1]LiuChang,FanLixin,NgKW,etal.Ternaryhashing[EB/OL].(2021-03-16)[2022-11-18].https://doi.org/10.48550/arxiv.2103.09173.

[2]FanLixin,NgKW,JuCe,etal.Deeppolarizednetworkforsupervisedlearningofaccuratebinaryhashingcodes[C]//ProcofInternationalJointConferenceonArtificialIntelligence.2020:825-831.

[3]KrizhevskyA,SutskeverI,HintonG,etal.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].CommunicationsoftheACM,2017,60(6):84-90.

[4]ChenMingrui,LiWeiyu,LuWeizhi.Deeplearningtoternaryhashcodesbycontinuation[J].ElectronicsLetters,2021,5(24):925-926.

[5]李長升,閔齊星,成雨蓉,等.捕獲局部語義結構和實例辨別的無監督哈希[J].軟件學報,2021,32(3):742-752.(LiChangsheng,MinQixing,ChengYurong,etal.Localsemanticstructurecapturedandinstancediscriminatedbyunsupervisedhashing[J].JournalofSoftware,2021,32(3):742-752.)

[6]楊粟,歐陽智,杜逆索.基于相關度距離的無監督并行哈希圖像檢索[J].計算機應用,2021,41(7):1902-1907.(YangSu,OuyangZhi,DuNisuo.Unsupervisedparallelhashimageretrievalbasedoncorrelationdistance[J].JournalofComputerApplications,2021,41(7):1902-1907.)

[7]LinK,LuJiwen,ChenChusong,etal.Learningcompactbinarydescriptorswithunsuperviseddeepneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:1183-1192.

[8]QiuZexuan,SuQinliang,OuZijing,etal.Unsupervisedhashingwithcontrastiveinformationbottleneck[C]//ProcofInternationalJointConferenceonArtificialIntelligence.2021:959-965.

[9]LeeD,AuneE.VIbCReg:variance-invariance-better-covarianceregu-larizationforself-supervisedlearningontimeseries[EB/OL].(2021-01-12)[2022-11-18].https://doi.org/10.48550/arXiv.2109.00783.

[10]YehCH,HongCY,HsuYC,etal.Decoupledcontrastivelearning[C]//ProcofEuropeanConferenceonComputerVision.2022:668-684.

[11]HeKaiming,FanHaoqi,WuYuxin,etal.Momentumcontrastforunsupervisedvisualrepresentationlearning[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:9729-9738.

[12]ChenT,KornblithS,NorouziM,etal.Asimpleframeworkforcon-trastivelearningofvisualrepresentations[C]//ProcofInternationalConferenceonMachineLearning.2020:1597-1607.

[13]CaronM,BojanowskiP,JoulinA,etal.Deepclusteringforunsupervisedlearningofvisualfeatures[C]//ProcofEuropeanConferenceonComputerVision.2018:132-149.

[14]CaronM,MisraI,MairalJ,etal.Unsupervisedlearningofvisualfeaturesbycontrastingclusterassignments[J].AdvancesinNeuralInformationProcessingSystems,2020,33:9912-9924.

[15]GrillJB,StrubF,AltchéF,etal.Bootstrapyourownlatent-anewapproachtoself-supervisedlearning[J].AdvancesinNeuralInformationProcessingSystems,2020,33:21271-21284.

[16]ChenXinlei,HeKaiming.Exploringsimplesiameserepresentationlearning[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:15750-15758.

[17]ZbontarJ,LiJing,MisraI,etal.Barlowtwins:self-supervisedlear-ningviaredundancyreduction[C]//ProcofInternationalConfe-renceonMachineLearning.2021:12310-12320.

[18]BardesA,PonceJ,LeCunY.VICReg:variance-invariance-covarianceregularizationforself-supervisedlearning[C]//ProcofInternationalConferenceonLearningRepresentations.2022:1-9.

[19]FerdowsiS,VoloshynovskiyS,KostadinovD,etal.Fastcontentidentificationinhigh-dimensionalfeaturespacesusingsparseternarycodes[C]//ProcofWorkshoponInformationForensicsandSecurity.2016:1-6.

[20]RazeghiB,VoloshynovskiyS,KostadinovD,etal.Privacypreservingidentificationusingsparseapproximationwithambiguization[C]//ProcofWorkshoponInformationForensicsandSecurity.2017:1-6.

[21]RazeghiB,VoloshynovskiyS.Privacy-preservingoutsourcedmediasearchusingsecuresparseternarycodes[C]//ProcofInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2018:1992-1996.

[22]LiuZhihao,WuJingzhu,FuLongsheng,etal.Improvedkiwifruitdetectionusingpre-trainedVGG16withRGBandNIRinformationfusion[J].IEEEAccess,2019,8:2327-2336.

[23]HuangLei,ZhouYi,ZhuFan,etal.Iterativenormalization:beyondstandardizationtowardsefficientwhitening[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.2019:4874-4883.

[24]ZiebaM,SembereckiP,El-GaalyT,etal.BinGAN:learningcompactbinarydescriptorswitharegularizedGAN[J].AdvancesinNeuralInformationProcessingSystems,2018,31:3612-3622.

[25]DaiBo,GuoRuiqi,KumarS,etal.Stochasticgenerativehashing[C]//ProcofInternationalConferenceonMachineLearning.2017:913-922.

[26]SongJingkuang,HeTao,GaoLianli,etal.Binarygenerativeadversa-rialnetworksforimageretrieval[C]//ProcofAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2018:1-8.

[27]ZiebaM,SembereckiP,El-GaalyT,etal.BinGAN:learningcompactbinarydescriptorswitharegularizedGAN[J].AdvancesinNeuralInformationProcessingSystems,2018,31.

[28]SuShupeng,ZhangChao,HanKai,etal.GreedyHash:towardsfastoptimizationforaccuratehashcodinginCNN[C]//Procofthe32ndInternationalConferenceonNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,

2018:806-815.

[29]DizajiKG,ZhengFeng,SadoughiN,etal.Unsuperviseddeepgenera-tiveadversarialhashingnetwork[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:3664-3673.

[30]ShenYuming,LiuLi,ShaoLing.Unsupervisedbinaryrepresentationlearningwithdeepvariationalnetworks[J].InternationalJournalofComputerVision,2019,127(11-12):1614-1628.

[31]ShenYuming,QinJie,ChenJiaxin,etal.Auto-encodingtwin-bottleneckhashing[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2020:2818-2827.

主站蜘蛛池模板: 亚洲无码不卡网| 国产精品女熟高潮视频| 国产91丝袜在线播放动漫 | AV不卡在线永久免费观看| 亚洲午夜福利精品无码不卡| 日韩 欧美 小说 综合网 另类| 国产99视频精品免费观看9e| 天天色天天综合| 一级毛片在线免费看| 免费aa毛片| 亚洲熟妇AV日韩熟妇在线| 97视频精品全国在线观看| 久久天天躁狠狠躁夜夜躁| 国产福利小视频在线播放观看| 午夜久久影院| 色欲色欲久久综合网| 欧美精品成人| 在线观看亚洲精品福利片| 久久网欧美| 日韩av资源在线| 亚洲美女AV免费一区| 亚洲精品福利视频| 国产精品午夜电影| 无码精品国产VA在线观看DVD | 久久96热在精品国产高清| a欧美在线| 欧美成人午夜视频| 国产成人艳妇AA视频在线| 无码精品国产dvd在线观看9久 | 在线人成精品免费视频| 亚洲精选无码久久久| 丁香五月激情图片| 狠狠色丁婷婷综合久久| 在线观看91香蕉国产免费| 青草精品视频| 午夜日b视频| 亚洲人成成无码网WWW| 91成人免费观看在线观看| 玖玖免费视频在线观看 | 亚洲精品国产自在现线最新| www中文字幕在线观看| 欧美国产成人在线| 日韩精品成人在线| 99在线视频免费观看| 日韩精品欧美国产在线| 精品剧情v国产在线观看| 高清乱码精品福利在线视频| 一级黄色片网| 久久久久亚洲Av片无码观看| 4虎影视国产在线观看精品| 亚洲三级a| 国内精自线i品一区202| 国产91麻豆免费观看| 精品自窥自偷在线看| 欧美另类视频一区二区三区| 在线观看亚洲成人| 国产成人精品一区二区不卡 | 久久精品人人做人人爽电影蜜月| 欧美三級片黃色三級片黃色1| 久草中文网| 国产精品丝袜视频| 亚洲网综合| 日本黄网在线观看| 伊人久久综在合线亚洲91| 欧美亚洲一区二区三区导航| AV无码无在线观看免费| 成人国产免费| 久久一本日韩精品中文字幕屁孩| 国产成人在线无码免费视频| 国产情侣一区二区三区| av一区二区人妻无码| 欧美成人一级| 91精品国产自产91精品资源| 国产理论一区| 乱人伦中文视频在线观看免费| AV在线麻免费观看网站| 国产日韩丝袜一二三区| 久久男人视频| 中文无码精品a∨在线观看| 亚卅精品无码久久毛片乌克兰| 伊人蕉久影院| 久久国产成人精品国产成人亚洲|