






摘 要: "隨著深度學習方法的不斷發展,跨模態哈希檢索技術也取得了長足的進步。但是,目前的跨模態哈希檢索方法通常基于兩種假設:a)相似文本描述的圖像內容也相似;b)相同類別的圖像有著較好的全局相似性。但是,真實數據集中的數據往往不能滿足以上兩種假設,導致了跨模態哈希檢索模型性能的降低。針對以上兩個問題,提出了一種基于文本引導對抗哈希的跨模態檢索方法(text-guided adversarial hashing for cross-modal retrieval,TAH),此方法在構建的網絡結構基礎上,將文本哈希碼作為訓練圖像網絡的基礎,并將圖像的局部特征與全局特征結合用于表示圖像內容。此外,還針對性地提出了文本模態內全局一致性損失、模態間局部與全局一致性損失和分類對抗損失用于訓練跨模態網絡。實驗證明,TAH可以在三個數據集中取得良好的檢索性能。
關鍵詞: "文本特征; 圖像局部與全局特征; 跨模態檢索; 哈希碼
中圖分類號: "TP391 """文獻標志碼: A
文章編號: "1001-3695(2022)02-054-0628-05
doi:10.19734/j.issn.1001-3695.2021.07.0222
Text-guided adversarial hashing for cross-modal retrieval
Zhu Jie
(Dept.of Information Management, National Police University for Criminal Justice, Baoding Hebei 071000, China)
Abstract: "With the development of deep learning,cross-modal hashing retrieval methods have made considerable progress.However,current cross-modal hashing retrieval methods are usually based on two hypotheses,a similar pair of texts can have similar images,the images with the same category are globally similar to each other.However,the data in the real-world data set often fails to meet the above two hypotheses,which leads to the decrease of retrieval performance.This paper proposed a TAH.TAH used the text hash code to train the image network,and used the combination of the local and global image features to represent the images.In addition,it proposed the text intra-modality global consistency loss,inter-modality local,global consistency loss and adversarial classification loss to train the cross-modal network.Experiments show that TAH can achieve satisfactory retrieval performance in three data sets.
Key words: "text feature; image local and global feature; cross-modal retrieval; hash codes
0 引言
近些年,隨著互聯網中多媒體數據的爆炸式增長,跨模態檢索逐漸成為了人工智能領域的熱點問題之一。與單一模態的檢索任務不同,在跨模態檢索中,查詢數據與被檢索數據屬于不同模態,因此,跨模態檢索的關鍵在于打破不同模態數據之間的語義鴻溝,從而將不同模態的數據映射到相同的特征空間中。目前,大部分跨模態檢索方法以近似最近鄰搜索方法為基礎,通過計算不同模態數據特征的相似性來進行排序,但是,這些方法會導致存儲數據量過大和檢索效率低的問題。跨模態哈希檢索的出現解決了以上兩個問題,跨模態哈希檢索首先將不同模態數據映射為相同特征空間內的哈希碼,然后通過哈希碼之間的異或操作計算數據之間的相似性,并按照相似性對檢索結果進行排序。哈希碼的存儲與異或計算方式大大降低了數據存儲的空間需求并提高了檢索速度,因此,跨模態哈希檢索受到了人們越來越多的關注。隨著深度學習的不斷發展,通過構建深度網絡與損失函數,用于學習深度跨模態哈希碼的方法逐漸成為主流[1~3]。與大多數跨模態檢索方法相同,本文的研究只針對圖像與文本兩種模態的數據展開。
Jiang等人[4]提出了一種將特征學習與哈希學習融為一體的深度跨模態哈希(deep cross-modal hashing,DCMH)方法,這種方法利用負對數似然來計算不同模態數據的全局特征一致性。Yang等人[5]在DCMH方法基礎上,融入了模態內數據的全局特征一致性,從而提出了一種成對關系引導的深度哈希方法(pairwise relationship guided deep hashing,PRDH)。Wang等人[6]提出了一種基于深度關系相似性的跨模態檢索方法(deep relational similarity learning,DRSL),這種方法通過計算不同模態數據的全局成對相似性來訓練深度網絡。為了去除圖像和文本特征中不相匹配的內容,一些研究將對抗學習的方法與注意力機制相結合,將圖像和文本表示劃分為相關特征與不相關特征,并利用不同模態的相關特征相似性進行檢索。Zhang等人[7]提出了一種基于注意力機制的對抗哈希網絡,并通過構造的對抗檢索損失用于訓練跨模態網絡。Xie等人[8]提出了一種多任務一致性保持對抗哈希方法(multi-task consistency-preserving adversarial hashing for cross-modal retrieval,CPAH),該方法通過注意力機制分離出圖像和文本的相關信息,然后通過多任務對抗學習的方法訓練跨模態網絡。
目前常見的跨模態哈希檢索方法大多基于兩個假設,即相似的文本描述的圖像內容也相似,通過圖像網絡提取出的相同類別的圖像特征有著較強的全局相似性。但是,在真實世界的數據中,往往不能滿足以上兩種假設。圖1(a)中兩幅圖像對應的文本相似,但是圖像從視覺角度卻相似性較低。圖1(b)中的兩幅圖像都屬于男孩類別,但是兩幅圖像的內容只能部分匹配。
為了解決此問題,本文提出了一種基于文本引導對抗哈希的跨模態檢索方法(TAH),此方法以文本特征作為引導,將圖像的局部特征與全局特征嵌入到文本特征空間中,用于獲得較好的跨模態哈希碼,從而提高檢索性能。
1 跨模態檢索問題描述
給定一個包含 n 個樣例的跨模態數據集 O={o i}n i=1 ,每一個樣例可以表示為 o i={v i,t i,l i},其中v i、t i和l i分別代表第i個樣例的圖像模態、文本模態和類標簽,其中,l i=[l i1,l i2,…,l ic],如果第i個樣例屬于第j個類別,則l ij=1,否則l ij=0,c為類標簽的數量。此外,為了衡量不同樣例之間的相似性,構造了一個相似性矩陣 S ,如果o i與o j至少包含一個相同的類標簽,則S ij=1,否則S ij=0 。跨模態哈希方法希望將圖像和文本特征映射到相同的哈希空間中,從而使生成的跨模態哈希碼具有語義一致性。
2 文本引導對抗哈希的生成
TAH的提出是基于真實數據中的兩個發現:a)文本具有高層語義信息,即相似的文本具有相似的語義信息,但是由于圖像模態數據的不確定性特點,導致文本相似的圖像數據未必相似;b)相同類別的圖像未必一定保持全局特征一致性,也有可能保持局部一致性。
因此,TAH將文本作為引導跨模態哈希碼生成的基礎,利用圖像的局部信息、圖像的全局信息和文本的全局信息之間的對應關系,生成跨模態哈希碼。網絡結構如圖2所示,TAH的網絡結構由兩部分構成,即圖像網絡和文本網絡,分別用于提取圖像和文本的哈希碼。
2.1 網絡結構
在圖像網絡方面,本文采用了與DCMH相同的網絡結構用于提取圖像的全局特征,其中包括了五個卷積層(conv1~conv5)與兩個全連接層(fc6,fc7),這七層的網絡結構與CNN-F[9]一致,fc7層用于輸出圖像的全局特征, fc11層用于輸出圖像的全局特征哈希碼。此外,本文采用了一種極大激活卷積(maximum activations of convolutions,MAC)[10]的方法用于提取卷積特征,這種方法首先從conv5層提取特征映射,然后將不同特征映射的最大響應值連接,作為圖像的卷積特征,這種特征可以較好地反映對象內容。 卷積特征經過兩個全連接層(fc8和fc9)之后生成圖像的局部特征,其中,fc8和fc9層的維度分別為2 635和512。然后通過fc10層生成圖像的局部特征哈希碼。將圖像的全局特征哈希碼與局部特征哈希碼連接,輸入全連接層fc12,可以得到融合圖像全局和局部特征的全局—局部哈希碼。fc13層用于對圖像的全局—局部哈希碼進行分類。
在文本網絡方面,本文用詞袋模型(bag of words,BoW)將文本表示為向量,作為網絡輸入,然后通過兩個全連接層(fc1和fc2)用于提取文本的全局特征,其中,fc1和fc2層的維度分別為8 192和5 138。fc3層將文本全局特征映射為全局特征哈希碼,fc4層作為分類層用于對文本的全局特征哈希碼進行分類。
在整個網絡中,生成哈希碼的哈希層(f10、f11、f12和f3)激活函數為tanh,分類層(f13和f4)的激活函數為sigmoid,其他層的激活函數均為ReLU。
2.2 損失函數構建
下面將介紹TAH的算法細節。在訓練階段,TAH使用提出的文本模態內全局一致性損失、模態間局部與全局一致性損失和分類對抗損失用于更新網絡參數,并生成更好的跨模態哈希碼。
2.2.1 文本模態內全局一致性損失
為了使兩個內容相似的文本被映射到相同的哈希空間后具有較強的相似性,提出了一種文本模態內全局一致性損失,如式(1)所示。
J tg=J pair( H t1, H t2)+‖ B t1- H t1‖2 F+‖ B t2- H t2‖2 F ""(1)
其中: H t1∈"Euclid Math TwoRAp
K×r; H t2∈"Euclid Math TwoRAp
K×r;r 代表輸入的文本對數; B t1 =sign( H t1), B t2= sign( H t2), B t1和 B t2分別代表輸入文本對后生成的K位二進制碼矩陣; H t1 *i與 H t2 *i代表第i 組文本對輸入文本網絡后所生成的文本哈希碼。式(1)中第一項希望使類別相同的文本特征保持一致,具體如式(2)所示,即為文本哈希碼相似性的負對數似然,似然函數如式(3)所示。而式(1)中的第二項和第三項希望使生成的文本哈希碼與對應的二進制碼盡量相似。
J pair( X,Y )=-∑ n i,j=1 (S ijΘ ij- log(1+e Θ ij)) ""(2)
Θ ij= 1 2 "X T "*i Y "*j,其中 X ∈"Euclid Math TwoRAp
K×r且 Y ∈"Euclid Math TwoRAp
K×r 。
p(S ij| X "*i, Y "*j)= "σ(Θ ij) S ij=1
1-σ(Θ ij) S ij=0 """"(3)
2.2.2 模態間局部與全局一致性損失
在跨模態檢索中,兩個相似文本對應的圖像往往內容不同,導致無法準確實現圖像哈希碼的模態內相似性度量。但是通常情況下,圖像與對應文本之間有著全局或者局部的對應關系。將文本作為引導信息,利用文本內容能夠對應圖像的局部信息或全局信息的特點,提出一種模態間局部與全局一致性損失,如式(4)所示。
J gl=J pair( H t, H vg)+J pair( H t, H vl)+
‖ B vg- H vg‖2 F+‖ B vl- H vl‖2 F ""(4)
其中: H t∈"Euclid Math TwoRAp
K×m 代表文本的哈希碼; H vg∈"Euclid Math TwoRAp
K×m和 H vl∈"Euclid Math TwoRAp
K×m 分別代表文本對應圖像的全局和局部哈希碼; B vg= sign( H vg)和 B vl= sign( H vl) 為圖像的全局和局部二進制碼; m 為輸入的圖像—文本對的數量。式(4)中的前兩項希望使圖像的全局哈希碼和局部哈希碼都與文本哈希碼相似,即將文本信息作為引導,實現文本哈希碼與圖像的全局和局部哈希碼同時匹配。第三項和第四項希望使生成的圖像全局與圖像局部哈希碼逼近對應的二進制碼。
2.2.3 分類對抗損失
由于類別相同的圖像在全局和局部特征之間存在差異性,所以難于構造圖像的全局和局部類別一致性衡量標準。但是,圖像的全局哈希碼 H vg和局部哈希碼 H vl 擁有相同的類標簽,兩者融合后生成的全局—局部哈希碼可以更好地表示圖像類別。受到生成式對抗網絡的啟發,TAH提出了一種基于對抗的哈希網絡訓練方法。
如圖2所示,TAH通過對抗的方式訓練圖像特征生成模塊 G I 和圖像哈希模塊 D I 。對于圖像集 v ,通過 G I 可以生成圖像全局特征 F vg 和局部特征 F vl,即{ F vg, F vl}=G I(v),D I將 F vg和 F vl映射為全局特征哈希碼 H vg和局部特征哈希碼 H vl,接下來,將 H vg和 H vl進行連接,通過全連接層映射為全局—局部哈希碼 H vgl,即{ H vg, H vl, H vgl}=D I( F vg, F vl) "。
圖像的分類對抗損失定義如式(5)所示。在訓練的過程中需要基于以下兩條準則。首先, D I希望 H vgl 可以用于準確地判斷類別,因此需要最小化式(5)。其次, G I 希望發現更多的不能使 H vgl 準確分類的圖像,因此需要最大化式(5)。
J vc=‖ L vc- L ‖2 F ""(5)
其中: L vc代表利用 H vgl進行分類的結果; L 代表圖像的真實類別。
與圖像網絡的對抗性訓練方式相似,文本網絡由文本特征生成模塊 G T 和文本哈希模塊 D T 組成,對于文本集 t , G T 可以生成文本特征 F t,即{ F t}=G T(t),D t將 F t 映射為文本特征哈希碼 H t,即{ H t}=D T( F t) 。文本的分類對抗損失函數如式(6)所示。
J tc=‖ L tc- L ‖2 F ""(6)
其中: L tc代表利用 H t 進行分類的結果。其對抗方式與圖像網絡相同。
最終,TAH的整體目標函數構造如下:
J=J tg+J gl+J c ""(7)
其中: J c=J vc+J tc 。
2.3 網絡參數訓練
為了生成跨模態哈希碼,TAH通過BP算法與迭代優化的方式訓練提出跨模態網絡,如式(8)所示。
(θv G,θv D,θt G,θt D)= arg min "J tg(θt G,θt D)+ J gl(θv G,θv D,θt G,θt D)+J vc(θv G,θv D)+J tc(θt G,θt D)
θv G= arg max "J vc(θv G,θv D) θt G= arg max "J tc(θt G,θt D) ""(8)
在訓練階段,本文首先優化 J tg+J tc ,用于更新 G T的參數θt G 和 D T 的參數 θt D 。然后,在固定 θt G 和 θt D 的前提下,將文本哈希碼作為引導,通過優化 J gl+J vc ,用于更新 G I 的參數 θv G 和 D I 參數 θv D 。
3 實驗
在這部分內容中,本文將TAH方法與眾多優秀的算法在MIRFLICKR-25K[11]、IAPR TC-12[12]和NUS-WIDE[13]三個數據集中的檢索性能進行了比較。
3.1 數據集
MIRFLICKR-25K數據集中包含25 000幅從Flicker網站上收集到的圖像,每一幅圖像都有對應的文本描述,這些圖像和分本對共分為24個類別。為了與其他算法進行比對,本文將文本表示為維度為1 386的詞袋模型BoW向量,作為文本網絡的輸入。
IAPR TC-12包含了屬于255個類別的2 000個圖像—文本對,每一幅圖像由三種不同的語言進行描述。本文只采用了英文的描述文本。文本的BoW向量維度為2 912。
NUS-WIDE數據集包含了269 648個圖像—文本對,其中的圖像由現實世界的拍照獲得。每一個圖像—文本對可以屬于一個或者多個類別。實驗中,本文采用包含21個最常見類別的195 834幅圖像用于訓練和測試。文本在輸入階段被表示為1 000維的BoW向量。
3.2 實驗設置與衡量標準
實驗過程中,將上述數據集中的數據分為查詢集合、檢索集合和訓練集合三部分。檢索過程中,以查詢集合中包含的圖像—文本對為基礎,對圖像集中除查詢集合以外的數據(檢索集合)進行檢索。此外,算法從檢索集合中提取出一部分數據作為訓練集合,用于訓練跨模態網絡。在實驗中,MIRFLICKR-25K和IAPR TC-12數據集的查詢集合樣本數量為2 000,訓練集合樣本數量為10 000。而NUS-WIDE數據集中的查詢集合樣本數量為2 100,訓練集合樣本數量為10 500。在訓練過程中,批的大小被設置為64。此外,本文采用常用的兩種性能衡量標準用于衡量算法的性能,即平均精度均值(mean average precision, MAP)和精準率—召回率曲線(precision-recall curve,PR)。
3.3 檢索性能比較
本文將TAH與六種優秀的跨模態哈希檢索方法進行了比較,這些算法分別為CCA[14]、SePH[15]、DCMH、SSAH[16]、MDCH[17]和DSSAH[18]。表1為TAH與以上六種方法在哈希碼長度為16位、32位和64位情況下的MAP值比較,其中“I→T”代表查詢集合為圖像模態,而檢索集合為文本模態。與此相反的是“T→I”表示查詢集合為文本模態,而檢索集合為圖像模態。從MAP值的比對結果中可以發現,TAH在不同哈希碼長度的情況下,在所有圖像庫中均能得到最好的檢索效果。與其他五種采用深度學習的方式提取特征的方法不同,CCA和SePH采用人工設計的特征用于表示圖像,因此,CCA和SePH的檢索性能低于其他方法。DCMH可以使不同模態內部的特征保持語義一致性,但是沒有考慮到相同類別的圖像未必擁有相似特征的問題,而TAH則充分考慮到了圖像的這個特性,利用文本作為引導,生成了更好的跨模態哈希碼,因此,TAH比DCMH的MAP高出6%左右。SSAH在DCMH的基礎上,利用標簽信息和設計的對抗性網絡,得到了較好的檢索性能,但是,SSAH仍然沒有考慮到相同類別圖像間的差異性,因此,性能仍然低于TAH。注意力機制是最常見的一類用于發現不同模態內重要特征的方法,MDCH利用注意力機制、模態間損失和模態內損失用于訓練跨模態網絡,但是與TAH相比,沒有考慮不同模態數據的局部信息,因此,檢索性能低于TAH。與DCMH、SSAH和MDCH方法不同,DSSAH方法考慮到同類別圖像之間的差異性,利用對抗性機制和模態間的語義一致性生成了除TAH之外最好的MAP值。
為了驗證TAH的有效性,本文將Vgg16[19]和Vgg19[19]代替TAH中用于提取圖像特征的CNN-F網絡,實驗結果如表2所示。通過對比可以發現,TAH_Vgg19可以取得最好的檢索效果,比TAH的MAP值高出約0.3%,而TAH_Vgg16的MAP最低。實驗結果說明,在TAH的網絡框架下,采用不同的網絡結構會對檢索結果產生影響。
本文提出了三種損失即文本模態內全局一致性損失 J tg 、模態間局部與全局一致性損失 J gl 和對抗分類損失 J c ,在表3中本文分析了使用三種不同損失的組合對于TAH方法的MAP值影響。需要說明的是,TAH的設計初衷為將文本特征作為引導,用于訓練跨模態網絡,因此在表3中列舉的所有情況下,都需使用 J tg 。需要注意的是,表3中的 J tg+J gl+J c 即為文本提出的TAH方法。通過比對可以發現,當采用的損失函數為 J tg+J c 或者 J tg+J gl 時的MAP值都低于 J tg+J gl+J c ,說明 J tg 、 J gl 和 J c 都對訓練跨模態網絡起到了積極的作用。此外,采用損失函數為 J tg+J gl 時的MAP值要高于 J tg+J c 的情況,說明TAH在訓練過程中, J gl 的作用要大于 J c 。最后,本文嘗試通過給損失賦權重的方式,用于提高MAP值,即將損失設定為 w 1J tg+w 2J gl+w 3J c ,其中, w 1 、 w 2 和 w 3 分別代表三種損失的權重參數,本文采用了坐標下降法用于調試出最優的參數, 即將三個參數的枚舉范圍設置在{0.1,0.2,…,1},每兩個相鄰取值之間的差為0.1,并且在更新的過程中設置約束,始終保持 w 1+w 2+w 3=1 ,且 w 2gt;w 3 。迭代優化的最大輪數為1 000。通過優化發現,當 w 1=0.7、w 2=0.2、w 3=0.1 的時候可以得到最優的MAP值。
在圖3中,本文比較了TAH與不同算法在MIRFLICKR-25K、IAPR TC-12和NUS-WIDE數據集的PR曲線,其中,(a)~(c)為 圖像到文本的查詢,而(d)~(f)為文本到圖像的查詢。可以發現,隨著召回率的不斷增加,所有算法的準確率也在不斷降低。此外, TAH在不同召回率情況下均能獲得最好的檢索性能。
此外,本文在MIRFLICKR-25K數據集中隨機挑選了四組跨模態檢索的查詢以及前五的查詢結果,如圖4所示。其中前兩組為文本查詢圖像。通過文本的內容可以發現,兩組文本分別與baby和flower相關,檢索到的圖像也包括相關內容。與此類似,后兩組的圖像與food和people相關,對應檢索到的文本也都包含類似的詞匯。此外,通過圖4還可以發現,文本檢索到的圖像對于背景信息有較強的魯棒性,如某些花朵圖像有著較多的背景內容,如藍天、白云和草,但是這些背景信息并沒有影響檢索的準確性,其原因在于TAH方法中,局部特征的生成基礎為卷積特征,而卷積特征能夠較好地突出圖像中的對象內容,花的內容因此得到了突出。
4 結束語
本文提出了一種TAH方法用于生成更加合理的跨模態哈希碼。與以往的跨模態哈希方法不同,TAH將圖像特征映射到文本的特征空間中,并將圖像的局部特征、全局特征與對抗性機制相結合,用于保證圖像的類似相似性。實驗證明,TAH在三個數據集中的檢索性能要優于六種優秀的跨模態哈希檢索方法。在未來的研究中,將研究文本的全局和局部特征與圖像之間的對應關系,用于進一步提高跨模態哈希模型的檢索性能。
參考文獻:
[1] "嚴雙詠,劉長紅,江愛文,等. 語義耦合相關的判別式跨模態哈希學習算法[J].計算機學報,2019, 42 (1):164-175. (Yan Shuangyong,Liu Changhong,Jiang Aiwen, et al .Discriminative cross-modal hashing with coupled semantic correlation[J]. Chinese Journal of Computers, 2019, 42 (1):164-175.)
[2] 房小兆,唐寶動,韓娜,等.相似度保持跨模態哈希檢索[J].小型微型計算機系統,2021, 42 (2):256-263. (Fang Xiaozhao,Tang Baodong,Han Na, et al .Similarity preserving hashing for cross-modal retrieval[J]. Journal of Chinese Mini-Micro Computer Systems, 2021, 42 (2):256-263.)
[3] Deng Cheng,Chen Zhaojia,Liu Xianglong, et al .Triplet-based deep hashing network for cross-modal retrieval[J]. IEEE Trans on Image Processing, 2018, 27 (8):3270-3278.
[4] Jiang Qingyuan,Li Wujun.Deep cross-modal hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:3232-3240.
[5] Yang Erkun,Deng Cheng,Liu Wei, et al .Pairwise relationship guided deep hashing for cross-modal retrieval[C]//Proc of AAAI Conference on Artificial Intelligence.Piscataway,NJ:IEEE Press,2017:1618-1625.
[6] Wang Xu,Hu Peng,Zhen Liangli, et al .DRSL:deep relational simila-rity learning for cross-modal retrieval[J]. Information Sciences, 2021, 546 :298-311.
[7] Zhang Xi,Lai Hanjiang,Feng Jiashi.Attention-aware deep adversarial hashing for cross-modal retrieval[C]//Proc of European Conference on Computer Vision.Piscataway,NJ:IEEE Press,2018:591-606.
[8] Xie De,Deng Cheng,Li Chao, et al .Multi-task consistency-preserving adversarial hashing for cross-modal retrieval[J]. IEEE Trans on Image Processing, 2020, 29 :3626-3637.
[9] Chatfield K,Simonyan K,Vedaldi A, et al .Return of the devil in the details:delving deep into convolutional nets[C] //Proc of British Machine Vision Conference.Piscataway,NJ:IEEE Press,2014:1-13.
[10] Tolias G,Sicre R.Particular object retrieval with integral max-pooling of CNN activations[EB/OL].(2015-11-18)[2016-02-24].https://arXiv.org/abs/1511.05879v1.
[11] Huiskes M J,Lew M S.The MIR Flickr retrieval evaluation[C]//Proc of the 1st ACM International Conference on Multimedia Information Retrieval.Piscataway,NJ:IEEE Press,2008:39-43.
[12] Escalante H J,Hernández C A,Gonzalez J A, et al .The segmented and annotated IAPR TC-12 benchmark[J]. Computer Vision and Image Understanding, 2010, 114 (4):419-428.
[13] Chua T S,Tang Jinhui,Hong Richang, et al .NUS-WIDE:a real-world Web image database from National University of Singapore[C]//Proc of International Conference on Image and Video Retrieval.Piscataway,NJ:IEEE Press,2009:48.
[14] Hotelling H.Relations between two sets of variates[M]//Breakthroughs in Statistics.New York:Springer,1992:162-190.
[15] Lin Zijia,Ding Guiguang,Hu Mingqing, et al .Semantics-preserving hashing for cross-view retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3864-3872.
[16] Li Chao,Deng Cheng,Li Ning, et al .Self-supervised adversarial hashing networks for cross-modal retrieval[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4242-4251.
[17] Lin Qiubin,Cao Wenming,He Zhiquan, et al .Mask cross-modal hashing networks[J]. IEEE Trans on Multimedia ,2020, 23 :550-558.
[18] Qiang Haopeng,Wan Yuan,Xiang Lun, et al .Deep semantic similarity adversarial hashing for cross-modal retrieval[J]. Neurocomputing, 2020, 400 :24-33.
[19] Simonyan K,Zisserman A.Very deep convolutional networks for largescale image recognition[C]//Proc of International Conference on Learning Representations.Piscataway,NJ:IEEE Press,2015:1-14.