












摘 要:針對基于深度哈希的圖像檢索中卷積神經網絡(CNN)特征提取效率較低和特征相關性利用不充分的問題,提出一種融合稀疏差分網絡和多監督哈希的新方法SDNMSH(sparse difference networks and multi-supervised hashing),并將其用于高效圖像檢索。SDNMSH以成對的圖像作為訓練輸入,通過精心設計的稀疏差分卷積神經網絡和一個監督哈希函數來指導哈希碼學習。稀疏差分卷積神經網絡由稀疏差分卷積層和普通卷積層組成。稀疏差分卷積層能夠快速提取豐富的特征信息,從而實現整個網絡的高效特征提取。同時,為了更加充分地利用語義信息和特征的成對相關性,以促進網絡提取的特征信息能夠更加有效地轉換為具有區分性的哈希碼、進而實現SDNMSH的高效圖像檢索,采用一種多監督哈希(MSH)函數,并為此設計了一個目標函數。在MNIST、CIFAR-10和NUS-WIDE三個廣泛使用的數據集上進行了大量的對比實驗,實驗結果表明,與其他先進的深度哈希方法相比,SDNMSH取得了較好的檢索性能。
關鍵詞:圖像檢索;特征提取;特征相關性;稀疏差分網絡;多監督哈希
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2022)07-048-2217-07
doi:10.19734/j.issn.1001-3695.2021.11.0602
基金項目:國家自然科學基金資助項目(62003191);山東省自然科學基金資助項目(ZR2014FM016)
作者簡介:張志升(1995-),男,河南蘭考人,碩士研究生,主要研究方向為模式識別、基于深度學習的圖像檢索;曲懷敬(1965-),男(通信作者),山東煙臺人,教授,碩導,博士,主要研究方向為模式識別、基于多尺度變換和深度學習的圖像處理(quhuaijing@sdjzu.edu.cn);徐佳(1995-),男,山東菏澤人,碩士,主要研究方向為模式識別、紋理圖像檢索;王紀委(1993-),男,河南周口人,碩士,主要研究方向為模式識別、圖像融合;魏亞南(1995-),女,山東濟寧人,碩士研究生,主要研究方向為模式識別、圖像融合;謝明(1997-),男,河南周口人,碩士,主要研究方向為模式識別、基于深度學習的圖像融合;張漢元(1991-),男,山東濟寧人,副教授,碩導,博士,主要研究方向為建筑設備智能化與能效管理.
Sparse difference network and multi-supervised hashing for efficient image retrieval
Zhang Zhisheng,Qu Huaijing?,Xu Jia,Wang Jiwei,Wei Yanan,Xie Ming,Zhang Hanyuan
(School of Information amp; Electric Engineering,Shandong Jianzhu University,Jinan 250101,China)
Abstract:In image retrieval based on deep hashing,to solve the problems of low feature extraction efficiency in convolutional neural networks(CNN) and underutilization of feature correlation,this paper proposed a novel method combining sparse diffe-rence network and multi-supervised hashing(SDNMSH),and used it for efficient image retrieval.SDNMSH took pairs of images as training inputs,and guided hash codes learning through an elaborately designed sparse difference convolutional neural network and a supervised hash function.The sparse difference convolutional layer and the vanilla convolutional layer composed the sparse difference convolutional neural network.The sparse difference convolutional layer could quickly extract rich feature information,to achieve efficient feature extraction of the entire network.At the same time,in order to make full use of the pairwise correlation of semantic information and features,so as to promote the feature information extracted by the network to be more effectively transformed into discriminative hash codes,and then to achieve efficient image retrieval by using SDNMSH,this paper adopted a multi-supervised hash(MSH) function and designed an objective function for this purpose.Extensive experimental results on three widely used datasets MNIST,CIFAR-10 and NUS-WIDE show that SDNMSH achieves better retrieval perfor-mance,compared with the state-of-the-arts.
Key words:image retrieval;feature extraction;feature correlation;sparse difference network;multi-supervised hashing
0 引言
在數字圖像數量高速增長的時代,如何從浩如煙海的圖像數據中高效檢索到感興趣的目標是計算機視覺研究領域的熱點之一,并且在日常生活、工農業、國防、軍事等方面,圖像檢索也有著廣泛的應用價值。然而,對于大型數據庫,圖像檢索通常存在著存儲空間大、檢索時間長、特征提取效率低以及特征相關性利用不充分等一系列問題。為此,研究者提出了近似最近鄰(approximate nearest neighbor,ANN)的搜索方法,它能夠在保持較好檢索效果的同時,極大地降低對存儲空間和檢索時間的需求,在大規模數據檢索中得到廣泛的應用[1]。在基于ANN的圖像檢索中,哈希檢索是具有代表性的一種方法。在傳統手工設計的哈希方法中,最具有代表性的是局部敏感哈希(locality sensitive hashing,LSH)[2]和核局部敏感哈希(kerne-lized locality sensitive hashing,KLSH)[3],它們均屬于數據獨立的哈希方法。與此相對應的是數據相關的哈希方法,且根據其使用數據標簽情況的不同,主要分為有監督和無監督的哈希。具有代表性的無監督哈希有譜哈希(spectral hashing,SH)[4]和迭代量化(iterative quantization,ITQ)[5]。而典型的有監督方法包括最小損失哈希(minimal loss hashing,MLH)[6]、基于內核的監督哈希(kernel-based supervised hashing,KSH)[7]和二元重建嵌入(binary reconstructive embedding,BRE)[8]等。
傳統的哈希方法通常表現出了較好的性能,但其在提取更加復雜的語義信息方面表現較差,并且難以勝任大規模的圖像檢索任務。近年來,隨著基于深度學習的神經網絡結構越來越復雜,由這種網絡提取的特征信息更加豐富和抽象。與此相關地,各種基于深度哈希的圖像檢索性能也表現優異,具有代表性的有Xia等人[9]提出的一種與卷積神經網絡相結合的哈希方法CNNH(conventional neural network hashing)。但是,這種方法的哈希碼更新的信息不能反饋到特征學習過程。為此,Lai等人[10]提出了一個端到端學習的哈希方法NINH(network in network hashing)。為了減少哈希碼比特冗余,Yao等人[11]利用正交約束提出了一種具有深度語義保持和基于排序哈希的方法DSRH(deep semantic preserving and ranking-based ha-shing)。最近,研究者更為關注如何提高檢索的效率和哈希碼的區分能力。Zhang等人[12]提出了一種碼位可擴展的深度哈希方法DRSCH(
deep regularized similarity comparison hashing),它使用一個加權方法來生成長度可伸縮的哈希碼。Lin等人[13]提出一種深度判別哈希方法DDH(discriminative deep hashing),采用了一個分塊編碼模塊以提高哈希碼的區分性。為了充分利用語義的相似性,Liu等人[14]通過利用成對語義相似性來生成緊湊的哈希碼而提出一種有監督的深度哈希方法DSH(deep supervised hashing),它最大的特點就是訓練與檢索的快速性。而文獻[15]是在文獻[14]的基礎之上使用了微調等多種方法的改進版,因發表于2019年,為了區分,記為DSH-19。雖然文獻[14,15]使用了成對語義相似性來保持哈希碼的相似性學習,但是這些方法并未充分利用成對特征的相關性。為此,Chen等人[16]提出了一種新的成對相關離散哈希方法,它利用特征和語義監督信息來學習一個哈希函數,但是該方法由于使用了兩個tanh激活函數,導致其訓練速度較慢。
在基于深度哈希的圖像檢索系統中,通常是通過學習一個哈希函數來得到哈希碼表示,這需要深度哈希網絡能夠提取有效的特征信息。目前,大多數研究者都是從哈希函數和網絡結構等入手來提升圖像檢索性能。然而,很少有通過改進網絡卷積層來提高特征提取能力、促進網絡整體性能的改善,進而達到改善系統檢索性能的目的。近年來,在計算機視覺領域中,差分卷積因其能夠有效地促進特征信息的提取、適用性強,而得到廣泛應用。例如,將局部二值模式[17]應用到CNN中的局部二值卷積神經網絡[18],應用于人臉活體檢測中的中心差分卷積[19],在手勢和動作識別中應用的時空差分卷積[20],在邊緣檢測中應用的像素差分網絡[21]等。
針對上述基于深度哈希的圖像檢索中CNN特征提取效率較低和特征相關性利用不充分等問題,同時受文獻[16,18,19]的啟發,本文提出一種將稀疏差分網絡和多監督哈希結合的新方法(簡稱為SDNMSH方法),并用于高效圖像檢索。首先,設計了一種稀疏差分卷積層,以快速提取豐富的特征信息,它有兩種類型,其中一種類型是只能提取梯度特征信息,記為SDC層;另一種類型可以同時提取強度特征信息和梯度特征信息[19],記為SDC+層。此外,由稀疏差分卷積層參與組成的網絡結構稱為稀疏差分卷積神經網絡,簡稱稀疏差分網絡(sparse difference network,SDN)。然后,針對提出的稀疏差分網絡結構特點,采用一種多監督哈希函數,簡稱為MSH,它具有哈希層的監督、特征層(本文將所使用的網絡中第一個全連接層稱為特征層)的監督和分類層的監督三種監督形式。這三種監督能夠充分地利用語義信息和特征的成對相關性,以促進哈希層輸出近似離散的哈希碼。同時,為了更好地驗證所提方法,在文獻[15]提出哈??蚣艿幕A上對其進行改進,以提升其整體性能。最后,利用三種廣泛使用的數據集,將本文方法用于圖像檢索、并進行檢索性能的評估實驗,實驗結果驗證了其有效性。
本文主要的貢獻如下:
a) 設計了一種稀疏差分卷積層,它可以同時提取強度特征信息和梯度特征信息,由其組成的網絡結構不僅提取的特征更豐富,而且在訓練階段更節省時間。據了解,這是第一次將差分卷積引入到圖像檢索系統中。
b) 針對提出的網絡結構特點,設計了一種多監督哈希函數,它能充分地利用語義信息和特征的成對相關性,并嚴格監督網絡的輸出,從而保證得到緊湊且具有區分性的哈希碼。
c) 所提SDNMSH方法不僅在淺層網絡中表現突出,而且在深層網絡中也有著很好的適用性。此外,它還大幅度提升了文獻[15]的整體性能。
d) 在三種廣泛使用的數據集上進行的圖像檢索性能評估實驗結果表明,SDNMSH方法優于其他先進的哈希方法。
1 本文方法
在現有基于深度哈希圖像檢索方法中存在普通CNN的特征提取效率較低和特征相關性利用不充分兩個問題。為此,本文提出一種新的深度哈希方法SDNMSH,該方法主要由用于有效提取特征信息的稀疏差分網絡SDN和將特征信息映射為離散哈希碼的多監督哈希MSH兩大部分組成。
1.1 稀疏差分網絡
眾所周知,普通卷積層的權重系數在訓練開始時由初始化方式得來(如文獻[14]使用的“Xavier”初始化方法[22]等),因此其學習需要較長的時間。另一方面,普通卷積神經網絡在訓練初期權重學習相對較慢,其提取的僅是強度特征信息,因此網絡整體性能提升緩慢,這些在文獻[18,19]中也均有表現。具體地,對于普通卷積,若設x表示輸入特征圖,yc表示輸出特征圖,則有
其中:R為特征圖x的局部采樣區域;e0表示輸入和輸出特征圖的當前位置,yc(e0)表示yc在e0位置的值;ei表示e0和其鄰域位置,以3×3大小的濾波器為例,其9個位置如圖1所示,則ei∈R={e0,e1,e2,e3,e4,e5,e6,e7,e8};x(ei)表示x在ei位置的值;wc表示濾波器的權重,wc(ei)表示濾波器在ei位置的值。
為了加快卷積層的學習,并豐富其提取的特征信息,受文獻[18]的啟發,設計了一組稀疏差分卷積濾波器,它具有八個互異的、大小均為3×3的卷積濾波器,這些濾波器可以提取不同方向的梯度信息。其中,每個卷積濾波器都是一個2-稀疏差分濾波器,即其中心位置e0的元素值為-1,八個鄰域的元素中只有一個非零元素,其值為1。與文獻[18]不同的是,考慮到這組權值固定(不可學習)的卷積濾波器提取到的特征圖僅有八種類型,為了使得提取的特征信息更加豐富,本文為每組卷積濾波器設計了一個可學習的尺度參數λ,這樣提取到的特征圖也更加多樣化。為了和前述的稀疏差分卷積層類型(即SDC層)相對應,這種特征提取方法記為SDC方法。具體地,若設u表示固定權值的稀疏差分卷積濾波器,則本文提出的可學習權重ws可表示為式(2),特征圖ys由式(3)計算得到。
其中:ys(e0)表示ys在e0位置的值;x(e0)表示x在e0位置的值;ws(ei)表示ws在ei位置的值;u(ei)表示濾波器u在ei位置的值;Lu(ei)=1表示權重u中值為1的元素對應的位置,x(Lu(ei)=1)表示x在Lu(ei)=1位置的值。由式(2)和(3)可見,對一個32通道的卷積層,可學習的參數λ使得稀疏差分卷積濾波器具有四組、共32個不同尺度大小的卷積濾波器,從而保證提取的梯度信息更加豐富,同時又不改變差分的性質。顯然,這種稀疏差分卷積相較于普通卷積,由于權重系數為固定的2-稀疏差分形式,所以它具有特征提取速度快、學習時間短等優點,并且在初始訓練階段就可以快速提取豐富的梯度信息。另外,SDC層的可學習參數數量也顯著減少,具體地,以一個輸入通道數為a,輸出通道數為b、濾波器大小為c×d的卷積層為例,則普通卷積層可學習參數數量為a×c×d×b,而稀疏差分卷積層可學習參數數量為a×b,其可學習參數數量降低了c×d倍。
為了充分利用梯度特征信息和強度特征信息,以豐富特征信息的多樣性,同文獻[19]類似,本文將稀疏差分卷積與普通卷積相結合。同樣地,為了和前述的稀疏差分卷積層類型(即SDC+層)相對應,這種特征提取方法記為SDC+方法。具體地,其輸出特征圖y可由式(1)和(3)計算得到,即
其中:y(e0)表示y在e0位置的值。由式(4)可見,與普通卷積層相比,SDC+層可學習參數僅有少量增加。同樣以一個輸入通道為a,輸出通道為b的濾波器為c×d大小的卷積層為例,SDC+層的可學習參數數量為a×(c×d+1)×b,僅是普通卷積層可學習參數數量的(c×d+1)/(c×d)倍。
為了便于區分,將有SDC層和SDC+層參與組成的稀疏差分網絡結構分別記為SDCNN和SDCNN+。同理,將SDCNN和SDCNN+與多監督哈希MSH分別結合的哈希方法記為SDNMSH和SDNMSH+。圖2為SDNMSH的網絡框架,它以文獻[15]的網絡框架為基礎,包含三個卷積層、三個池化層和三個全連接層。其中,稀疏差分卷積層使用32個3×3大小的卷積核,普通卷積層分別使用32和64個5×5大小的卷積核,三個卷積層步長均為1,且均使用ReLU激活函數;池化層采用3×3大小的濾波器,步長均為2;對于三個全連接層,其中特征層有500單元且使用tanh激活函數(與文獻[15]不同),哈希層和分類層分別具有K和C個單元。
1.2 多監督哈希
為了充分利用成對語義信息和特征相關性,針對上述網絡的特點設計了一種哈希函數,它由哈希層、特征層和分類層的監督三部分組成,將這三者結合在同一模型中進行學習,實現輸入圖像到離散哈希碼的有效映射。同時,這三種監督分別對應各自的目標損失函數,最終構成用于優化的總目標損失函數。
1.2.1 哈希層監督
對于給定的訓練樣本集中的N幅圖像X={x1,x2,…,xN},其對應的標簽為Y={y1,y2,…,yN}。本文以最小批次訓練樣本構成圖像對xi、xj和標簽對yi、yj作為輸入。則成對的圖像對應相似語義標簽為S={sij},其中sij∈{0,1},其中,若輸入圖像對xi和xj相似,則語義標簽sij=1,否則sij=0。本文的最終目標是得到離散的二進制碼,即通過學習一個非線性映射函數F,使X中的每幅圖像xi的RGB空間特征信息均被映射到K-bit二進制碼bi∈{-1,1}K,即F:X={x1,x2,…,xN}→{-1,1}N×K,從而達到使用簡單而又具有區分性的K-bit哈希碼來有效地表征原圖像特征信息的目的。
對于成對圖像xi和xj,在非線性映射函數F下,有F:xi,xj→bi,bj。為了使語義相似的圖像對所對應的哈希碼互相靠近,而語義不相似的圖像對所對應的哈希碼互相遠離,可使用對比損失[23]定義哈希層對應的目標損失函數。
其中:DH(bi,bj)為哈希碼bi和bj之間的漢明距離; max(·)是最大值運算函數;m為邊界閾值參數。在式(5)中,前一項促使語義相似的圖像對所對應哈希碼間的漢明距離縮??;當漢明距離小于m時,后一項使不相似圖像對所對應哈希碼間的漢明距離增大。另外,式(5)中采用對比損失的形式是為了防止崩潰情況的發生[14,23]。
然而,由于式(5)中的漢明距離DH是離散函數,故在最小化損失過程中,它是不可導的,這就造成了漢明距離難以直接被優化,所以,可使用歐氏距離來替代漢明距離,相應地,將式(5)替換為
其中:‖·‖2表示向量的l2范數;bhi和bhj是由哈希層輸出圖像對xi和xj分別對應的類哈希碼,它們經sign(·)函數量化,可得到式(5)中的哈希碼bi和bj,即
另一方面,如果僅僅使用歐氏距離代替漢明距離,就會出現次優哈希碼的問題。對此,一般有使用tanh或sigmoid函數和正則化項兩種解決途徑。通常,前者使哈希層輸出特征向量的值逼近閾值,但是,易出現更新梯度緩慢,甚至消失等問題;而后者可以使哈希層輸出特征向量的值逼近理想值(+1或-1)[14]。因此,為節省訓練時間,本文選擇后者。相應地,在式(6)中增加一個正則化項[14],即
其中:‖·‖1表示向量的l1范數;α為正則化項的懲罰因子;1為K維全為1的特征向量。
1.2.2 特征層監督
研究表明,如果加入特征層的監督信息,則非常有助于哈希層輸出近似離散的哈希碼,這一點也在本文實驗中得到了驗證。定義特征層監督對應的目標損失函數為[16]
其中:fi、fj分別是圖像對xi和xj對應于特征層輸出的特征向量。與哈希層類似,式(10)的前一項使語義相同圖像對所對應的特征向量被拉近,而后一項使歐氏距離小于閾值m的不同語義圖像對所對應的特征向量彼此遠離。
1.2.3 分類層監督
眾所周知,在分類任務中,分類層的標簽信息起著至關重要的作用。標簽信息在分類層中嚴格監督著每一個類別概率的生成,這樣,被充分利用的語義信息既是對哈希層監督和特征層監督的有效補充,也有利于哈希層的學習[24,25]。因此,本文將交叉熵損失函數選做分類層監督對應的損失函數,即
其中:i和j分別對應圖像對xi和xj在分類層輸出的特征向量,即xi和xj的預測標簽。
由上述分析可知,特征層監督、哈希層監督和分類層監督三者對應的三個目標損失函數相互融合、相互補充。如果將這些損失函數有機地結合在一起,預計會得到一個功能強大的監督哈希函數,為此,本文將式(9)~(11)相結合組成一個總的目標損失函數,即
其中:γ和η分別為控制Lf和Lc權重的參數。同時,為了保證所提出的深度哈希性能最優,并使用Adam[26]優化器最小化式(12),即
綜上所述,對于輸入的查詢圖像和待檢索圖像,由稀疏差分卷積神經網絡提取它們豐富的特征信息,從而得到輸入圖像的有效特征表示;然后由多監督哈希MSH函數將其映射為具有區分性的哈希碼;最后,計算查詢圖像和待檢索圖像所對應哈希碼的漢明距離并對其進行排序,根據排序信息便可檢索到與查詢圖像相似的圖像。為了實現高效的圖像檢索,SDNMSH方法將稀疏差分網絡和多監督哈希結合在同一個模型框架中進行端到端學習(圖2),即同時進行特征學習和哈希碼學習。通過Adam優化器對式(13)的優化,促進了整個網絡的權重更新,從而使網絡可以學習到更加有效的特征表示,而有效的特征表示將更加有助于哈希函數的學習,最終將促進模型學習到輸入圖像對應的哈希碼表示。
SDNMSH方法的哈希碼學習過程可概括為算法1。
算法1 SDNMSH的算法
輸入:N幅圖像X={x1,x2,…,xN} ;標簽Y={y1,y2,…,yN}。
輸出:哈希碼bi和bj。
初始化網絡各層的權重參數;
循環:
以最小批次的訓練樣本分別構成圖像對xi、xj,標簽對yi、yj和成對標簽S;
將xi、xj、yi、yj和S分別輸入到所提出的網絡中,得到bhi、bhj、fi、fj、i和j;
將bhi、bhj、fi、fj、i和j代入式(12)計算總損失;
由優化器Adam優化式(13),并更新網絡各層權重參數;
直到訓練次數達到設定的epoch;
據式(7)和(8),將bhi和bhj轉換為哈希碼bi和bj。
2 實驗與討論
2.1 實驗設置
實驗分為預訓練和微調兩個部分。對于每一個數據集,首先預訓練一個可輸出12-bit哈希碼的基礎模型,然后對該模型進行微調。在微調實驗中,模型采用長度分別為16-bit、24-bit、32-bit和48-bit的哈希碼。
1)數據集 為了有效地驗證本文方法在不同數據集中的有效性、可行性和先進性,以及為了方便與其他方法進行對比,同文獻[9,27],本文實驗在MNIST、CIFAR-10和NUS-WIDE三個已被該領域研究者們廣泛使用的數據集中進行。另一方面,所選擇的數據集既有灰度圖像數據集、彩色圖像數據集,又有單標簽數據集、多標簽數據集,而且數據集規模均不相同,這些都有利于測試本文方法在不同類型數據集中的性能表現。
MNIST是一個包含10個類別、7萬幅28×28大小、單標簽、灰色圖像數據集。它有1萬幅圖像組成測試集和6萬幅圖像組成訓練集。本文使用原訓練集和測試集作為實驗的訓練集和測試集。
CIFAR-10是一個包含有10個類別、6萬幅32×32大小、單標簽、彩色圖像數據集。其中,1萬幅圖像組成測試集,5萬幅圖像組成訓練集。本文使用原訓練集和測試集作為實驗的訓練集和測試集。
NUS-WIDE包含81個類別、269 648幅圖像、多標簽、彩色圖像數據集,本文選取最常用的21個類別,每個類別均超過5 000幅圖像,共計195 834幅圖像。其中:隨機選取10 000幅圖像用做測試集和查詢集,其余用做訓練集和數據庫。
在實驗過程中,對于深度哈希方法,MNIST和CIFAR-10數據集使用原圖像作為輸入,NUS-WIDE數據集使用將原圖像縮小為64×64像素大小的圖像作為輸入;對于傳統哈希方法,參照文獻[27],本文利用512維GIST特征作為CIFAR-10、MNIST和NUS-WIDE數據集的輸入;對于利用深度特征的非深度哈希方法(如MLH-CNN[6]、KSH-CNN[7]和BRE-CNN[8]方法),采用從AlexNet[28]中提取的4 096維深度特征來表征CIFAR-10、MNIST和NUS-WIDE數據集中的每幅圖像。
2)評價指標 采用不同哈希碼碼長對應的平均準確率均值(mAP)、哈希碼碼長12 bit對應的準確率與召回率(precision-recall,P-R)曲線來評估算法的性能。其中:對于mAP分數,NUS-WIDE數據集返回前5 000幅圖像用于計算,其他數據集則返回全部圖像用于計算。
3)參數設置 所有實驗均是在一臺配置為GeForce GTX 1060 6 GB GPU、Intel Core i7-8700 CPU、16 GB RAM的計算機中實現的。對于單標簽數據集,預訓練初期的學習率設為0.001,100個epoch(訓練集的訓練輪數)后降到0.000 1,總共訓練110個epoch;微調時學習率設為0.000 1,總共訓練50個epoch。對于多標簽數據集,考慮到數據集較大,預訓練學習率設為0.001,150個epoch后降到0.000 1,再訓練50個epoch;微調時學習率設為0.000 1,總共訓練100個epoch。網絡結構替換為ResNet18時的學習率設為0.000 2,并訓練100個epoch。此外,每批次的大小為200。在總目標損失函數中,m和α參數的設置遵循文獻[13],分別取值為2K(K為哈希碼的長度)和0.01;γ和η通過交叉驗證的方法均取值為1。
2.2 稀疏差分網絡性能的評估
首先,評估稀疏差分網絡用于圖像檢索的性能,為此采用四種網絡結構進行比較。其中:除了本文提出的SDCNN和SDCNN+兩種網絡結構之外,將SDN的第一層替換為普通卷積層,這種網絡結構記為CNN;而將SDCNN中稀疏差分層的可學習尺度參數λ去掉,僅含有固定的權重,這種網絡結構記為SDCNN-。圖3比較了這四種網絡結構在CIFAR-10數據集上不同哈希碼碼長對應的mAP值。由圖3可見,對于不同哈希碼碼長,提出的兩種網絡結構所得到的mAP值均好于另外兩種網絡結構,而SDCNN-較CNN更差。這表明,所提出的稀疏差分網絡在特征學習的能力上較普通卷積網絡強,這也說明差分卷積所提取的特征信息比普通卷積提取的更有效,而其中的可學習尺度參數λ對其性能提升有著重要貢獻;同時,通過將梯度特征信息與強度特征信息相結合,可使得SDCNN+提取到的特征信息更加豐富,并在MSH的監督下,有效地將這些特征信息映射為具有區分性的哈希碼。
然后,驗證所提出的稀疏差分網絡(SDN)對訓練過程的影響。圖4對比了哈希碼碼長為48-bit時上述四種網絡結構在CIFAR-10數據集中的損失曲線和正確率曲線。由圖4(a)可見,在測試集損失曲線的前六個epoch,SDCNN-的損失曲線下降慢于CNN,而CNN與所提出的兩種網絡結構的損失曲線對比并不是很明顯。然而,在圖4(b)中,從測試集上的正確率曲線可以很明顯地看出,所提出的兩種網絡的正確率曲線上升速度快于普通卷積方法。這表明,所提出的網絡學習能力更強,在特征提取能力方面更勝一籌。這也驗證了1.1節中的設計目的,即差分網絡在少量的訓練次數下便能提取有效特征。綜上分析可知,得益于所提出的稀疏差分濾波器,使得所提出網絡的學習速度較快,并可以快速地達到一個最佳性能。然而,由圖4(a)還可見,所提出的網絡結構在第20個epoch后便開始出現過擬合的跡象,但即使這樣,它也仍然優于普通卷積方法。
另一方面,為了更直觀地分析和評估所提出的稀疏差分網絡性能,以圖2中的第一幅輸入圖像“馬”為例,在哈希碼碼長為48-bit時,分別對由上述四個網絡結構中的第一個卷積層所得到的特征矩陣,以熱度圖的方式進行可視化表示,如圖5所示。在圖5(a)中, CNN的部分卷積核提取到的特征圖比較模糊,有些甚至看不出馬的輪廓;而在圖5(b)~(d)中,三種稀疏差分網絡提取到的梯度圖所顯示馬的輪廓都更為清晰,其中,SDCNN+的32個特征圖都不盡相同,而且所含特征信息豐富,SDCNN的特征圖則有部分相似,而SDCNN-的特征圖則只有八種類型,這些現象不僅符合1.1節中的設計初衷,也直觀地解釋了在圖3和圖4中由本文提出的稀疏差分網絡所提取的特征比CNN更有效的原因。綜上,在稀疏差分層所提取到的強度特征和梯度特征信息的幫助下,加速了整個稀疏差分網絡的訓練;并且在相同的訓練時間內,稀疏差分網絡比普通CNN方法提取的特征信息更加豐富。
最后,驗證提出稀疏差分網絡在更加深層網絡結構中的適用性,為此,將SDCNN和SDCNN+中的普通卷積層替換為更深層的ResNet18中的殘差結構,以在CIFAR-10數據集上進行的檢索實驗為例,并記錄哈希碼碼長為12-bit時的mAP值,實驗結果如圖6所示。由圖6可見,所提網絡在殘差網絡的幫助下檢索性能(mAP)較原始有很大的提升(其中CNN、SDNMSH和SDNMSH+分別提升了3.35%、3.80%和3.85%)。這表明,所提網絡不僅適用于淺層網絡結構,也可應用于深層網絡結構,并且通過使用更深層的網絡結構可進一步提升其在圖像檢索應用中的性能。
2.3 消融實驗
所提方法的消融實驗在CIFAR-10數據集上進行,表1顯示了不同哈希碼碼長對應的mAP值。其中:Lf、Lc和SDC+分別表示特征層監督部分、分類層監督部分和稀疏差分卷積層部分;×號表示所提網絡模型未使用這一部分,否則表示使用。由表1中的數據可見,就單個部分分析,這三個部分對提出方法的性能有著不同大小的影響。以哈希碼碼長48-bit對應的mAP值為例,三者中,首先,Lc的影響最小,mAP值僅下降了0.1%,這也表明特征層和哈希層的語義信息得到的較充分的利用;其次是SDC+,其性能已經在2.2節分析,這里不再贅述;影響最大的是Lf,mAP值下降了5.24%,這說明特征層監督對哈希層的輸出起著重要的作用。從綜合各部分的角度來分析,當不使用Lc和Lf時,mAP值下降得更多,為7.30%,進一步表明這兩種監督組合對所提方法性能的改善有著很大貢獻;最為明顯的是,當這三個部分均不使用時,mAP值下降10.51%,這驗證了本文方法的有效性??傊?,通過分析表1數據可以發現,本文方法對檢索性能有顯著的提升,其中特征層監督的貢獻最大。
為了直觀地了解各部分對提出方法性能的影響,本文還從CIFAR-10測試集中隨機選取圖像進行查詢測試實驗,并對檢索返回與測試圖像相似的前10幅圖像進行可視化,圖7展示了碼長為48-bit時的實驗結果。為了簡明,SDNMSH+1表示提出方法SDNMSH+中未使用Lf和Lc的方法;SDNMSH+2則表示未使用SDC+的方法;有實線邊框表示檢索返回的圖像與查詢圖像不同類,否則表示同類。由圖7可以明顯地看出,SDNMSH+1方法返回的相似圖像數量多于SDNMSH+2方法,而本文方法返回的相似圖像數量明顯多于前兩種方法。
2.4 不同方法性能的對比與分析
本文方法對比了當前最先進的相關圖像檢索方法,并加入傳統哈希方法和深度哈希方法以豐富可對比性,表2給出了不同方法在不同數據集上不同哈希碼碼長對應的mAP值。其中,相關方法的數據主要來源于原文獻,部分方法的實驗數據參考于文獻[27] ,-表示原文獻未提供相應的結果。參與對比的傳統哈希方法有LSH[2]、SH[4]、ITQ[5]、MLH[6]、KSH[7]、BRE[8];深度哈希方法有CNNH[9]、NINH[10]、DSRH[11]、DRSCH[12]、DSH[14]、DDH[13]、DSH-19[15]、MLSH[27]和DBDH[28]。為不失公平性,也將CNN特征用于傳統哈希方法MLH、KSH和BRE的輸入,并記為MLH-CNN[6]、KSH-CNN[7]、BRE-CNN[8]。
根據表2中的數據,通過對比不同的哈希方法,有以下三點發現:
a)應用了CNN特征的三種傳統哈希方法較其原始方法,在三個數據集上均有了很大的檢索性能(mAP)提升。這表明,使用了CNN特征的傳統哈希方法對提升其整體的檢索性能有很大的幫助,由此可見,結合了深度學習的傳統哈希方法對檢索性能有著重要的影響。
b)所提方法在單標簽數據集上表現突出。由表2數據可見,在所對比的其他方法中,表現最優的是MLSH方法,該方法采用多哈希表機制,檢索性能更好,但多個哈希表會占用過多的內存。它在MNIST數據集上、哈希碼碼長為48-bit時對應的mAP值達到了99.55%,而SDNMSH+方法的mAP值仍比MLSH方法提升了0.02%。這說明了所提方法在灰度圖像數據集中的有效性。上述同樣條件下,在CIFAR-10數據集上SDNMSH和 SDNMSH+方法的mAP值提升得較為明顯,分別比MLSH方法提升了5.36%和5.55%。這表明,所提方法無論是在檢索性能再提升已經非常困難的灰度圖像數據集上,還是在最為常用的彩色圖像數據集中均表現出色,從而也驗證了所提方法的有效性。
c)在表2中,由NUS-WIDE多標簽數據集對應的實驗結果可以發現,由于所提方法主要是針對單標簽數據集而設計的,所以對于多標簽數據集性能的提升并沒有那么突出。
這一現象在DSH、DDH、DSH-19等方法中也均有體現。盡管如此,所提出的方法也優于DSH、DDH、DSH-19以及傳統手工方法。例如,與典型的DSH-19方法相比,在碼長為48-bit時,所提出的方法將其mAP值提升了4.33%;需要指出的是,在此數據集上檢索性能較好的DSRH和MLSH兩種方法是分別在使用更深層網絡結構和哈希碼占用內存更多的情況下而優于本文方法的。此外,就SDNMSH和SDNMSH+方法比較而言,后者較前者在多標簽數據集上的性能提升略高,這表明提出的方法在多標簽數據集中將會有很大的提升潛力。
2.5 與典型方法的深入比較和分析
為了進一步驗證所提方法的有效性和可行性,考慮到DSH-19方法是表2列出的其他先進方法中檢索性能較好且較為典型的一種方法,本文方法又是基于它進行改進的,因此將本文提出的稀疏差分卷積SDC+層和多監督哈希MSH兩個部分應用其中,然后進行檢索性能的深入比較。表3記錄了應用這兩個部分對應的標記,其中:√號表示DSH-19模型使用了這一部分,否則,表示沒有使用。實驗在CIFAR-10數據集上進行,并使用碼長為12-bit對應的P-R曲線作對比,實驗結果如圖8所示。
從圖8中觀察到,DSH-19方法所采用的網絡結構在應用了所提出的SDC+層之后(即DSH-SDC+),其性能得到了很大的改善。同樣地,由于DSH-19方法僅使用了哈希層監督,在額外加入了語義監督和特征監督之后的DSH-MSH方法相比于DSH-19方法的P-R曲線得到了較大的提升。此外, DSH-SDC-MSH方法的檢索性能也優于DSH-19、DSH-MSH和DSH-SDC+三種方法,這體現了本文方法的可行性。
然而, DSH-SDC-MSH方法的性能仍然略低于所提方法SDNMSH+。兩者的區別在于前者的特征層使用ReLU激活函數,而非tanh激活函數,這表明此類哈希方法中采用tanh激活函數的檢索性能要優于ReLU。對此,可能的解釋是tanh激活函數使輸出更加接近1或-1,ReLU激活函數輸出則在0~1,而要求哈希層的輸出也是近似1或-1,故前者則更有助于哈希層的學習。但是,這種選擇的不足是tanh激活函數會使梯度下降緩慢,這一點如圖9所示。由圖9可見,在訓練期間的前六個epoch,SDNMSH+方法在測試集上的損失曲線位于DSH-SDC-MSH方法之上,這說明后者的損失曲線下降更快;然而,在第六輪之后,后者便開始出現過擬合現象,而本文方法的損失曲線也開始低于后者。
需要指出的是就單標簽數據集而言,DSH-19方法[15]訓練期間共進行7萬次迭代,即約280個epoch,而微調期間共進行3萬次迭代,即約120個epoch,這些數據均是所提方法的兩倍以上。這說明所提的方法在單標簽數據集的訓練方面,不僅具有更高的檢索性能,還能節省更多的訓練時間,從而有助于實現高效的圖像檢索。
3 結束語
本文提出了一種融合稀疏差分網絡和多監督哈希的新方法,并在三個典型數據集上實現了高效的圖像檢索。它具有特征提取快速、提取的特征信息豐富、學習到的哈希碼更具有區分性以及訓練階段更加節省時間等優點(尤其是對于單標簽數據集)。通過采取不同的方案進行對比實驗,實驗結果驗證了所提方法的有效性和可行性。本文方法取得良好檢索性能的主要原因可歸結為以下三個方面:a)所提出的方法是在文獻[15]的成對哈希結構的基礎上改進的,使用微調方法加速了訓練過程,并利用正則化技術提高了哈希碼的學習效率;b)得益于所設計的稀疏差分卷積層,它可以有效地提取豐富的特征信息,從而實現了整個網絡的高效特征提?。籧)歸功于所提出的多監督哈希函數,使得語義信息和特征的成對相關性被充分地利用,并嚴格地監督著離散哈希碼的生成。今后的工作可進一步研究如何在多標簽數據集中提高圖像檢索的性能。此外,若稀疏差分層不限于差分形式的濾波器,它對網絡性能的影響也可進一步研究。
參考文獻:
[1]許勝,陳盛雙,謝良.面向Web圖像檢索的基于語義遷移的無監督深度哈希[J].計算機應用研究,2019,37(8):2866-2871.(Xu Sheng,Chen Shengshuang,Xie Liang.Unsupervised deep hashing based on semantic transfer for Web image retrieval[J].Application Research of Computers,2019,37(8):2866-2871.)
[2]Gionis A,Indyk P,Motwani R.Similarity search in high dimensions via hashing[C]//Proc of the 25th International Conference on Very Large Data Bases.1999:518-529.
[3]Kulis B,Grauman K.Kernelized locality-sensitive hashing for scalable image search[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,1999:253-262.
[4]Weiss Y,Torralba A,Fergus R.Spectral hashing[J].Advances in Neural Information Processing Systems,2009,282(3):1753-1760.
[5]Gong Yunchao,Lazebnik S.Iterative quantization:a procrustean approach to learning binary codes[C]//Proc of CVPR.Piscataway,NJ:IEEE Press,2011:817-824.
[6]Norouzi M,Fleet D J.Minimal loss hashing for compact binary codes[C]//Proc of the 28th International Conference on Machine Lear-ning.2011:353-360.
[7]Liu Wei,Wang Jun,Ji Rongrong,et al.Supervised hashing with kernels[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2074-2081.
[8]Kulis B,Darrell T.Learning to hash with binary reconstructive embeddings[C]//Proc of the 22nd International Conference on Neural Information Processing Systems.2009:1042-1050.
[9]Xia Rongkai,Pan Yan,Lai Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[10]Lai Hanjiang,Pan Yan,Ye Liu,et al.Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3270-3278.
[11]Yao Ting,Long Fuchen,Mei Tao,et al.Deep semantic-preserving and ranking-based hashing for image retrieval[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.2016:3931-3937.
[12]Zhang Ruimao,Lin Liang,Zhang Rui,et al.Bit-scalable deep hashing with regularized similarity learning for image retrieval and person re-identification[J].IEEE Trans on Image Processing,2015,24(12):4766-4779.
[13]Lin Jie,Li Zechao,Tang Jinhui.Discriminative deep hashing for scalable face image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence Main track.2017:2266-2272.
[14]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2064-2072.
[15]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[J].International Journal of Computer Vision,2019,127(9):1217-1234.
[16]Chen Yaxiong,Lu Xiaoqiang.Deep discrete hashing with pairwise correlation learning[J].Neurocomputing,2020,385:111-121.
[17]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[18]Juefei-Xu F,Boddeti V N,Savvides M.Local binary convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4284-4293.
[19]Yu Zitong,Zhao Chenxu,Wang Zezheng,et al.Searching central difference convolutional networks for face anti-spoofing[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:5294-5304.
[20]Yu Zitong,Zhou Benjia,Wan Jun,et al.Searching multi-rate and multi-modal temporal enhanced networks for gesture recognition[J].IEEE Trans on Image Processing,2021,30:5626-5640.
[21]Su Zhuo,Liu Wenzhe,Yu Zitong,et al.Pixel difference networks for ef-ficient edge detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:5097-5107.
[22]Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 13th International Confe-rence on Artificial Intelligence and Statistics.2010:249-256.
[23]Hadsell R,Chopra S,Lecun Y.Dimensionality reduction by learning an invariant mapping[C]//Proc of IEEE Computer Society Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2006:1735-1742.
[24]Li Ning,Li Chao,Deng Cheng,et al.Deep joint semantic-embedding hashing[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:2397-2403.
[25]Yang H F,Lin K,Chen C S.Supervised learning of semantics-preserving hash via deep convolutional neural networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(2):437-451.
[26]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[27]Ng W W Y,Li Jiayong,Tian Xing,et al.Multi-level supervised ha-shing with deep features for efficient image retrieval[J].Neuro-computing,2020,399:171-182.
[28]Zheng Xiangtao,Zhang Yichao,Lu Xiaoqiang.Deep balanced discrete hashing for image retrieval[J].Neurocomputing,2020,403:224-236.
[29]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.