王曉雨,王展青,熊威
(武漢理工大學理學院,武漢 430070)
隨著大數據時代的到來,互聯網出現了越來越多不同的模態數據,如圖像、文本、視頻和音頻等;同時,人們對信息檢索的需求也越來越多元化,不再局限于單一模態的數據檢索[1-2]。跨模態檢索[3-4]憑借可以使用一種模態數據作為查詢對象來獲取另一模態中與之語義相似數據的優勢,引起了人們的廣泛關注。然而,不同模態數據的表示方式存在差異,導致它們之間存在異構鴻溝,使得跨模態檢索難以返回正確的結果[5]。如何縮小異構鴻溝,挖掘跨模態數據之間的語義關聯,是一個極具挑戰性的問題。
現實世界的多媒體數據體量大且復雜,給人們帶來高品質視聽體驗的同時,也給跨模態檢索帶來很大的困難。由于哈希技術在存儲和搜索大規模數據時的優越性,跨模態哈希方法[6-9]隨之產生,該方法可以在保留原始數據的語義相似性信息和語義相關結構的情況下,將實值數據編碼成緊湊的二進制碼。然而,基于哈希方法的手工特征與哈希碼學習是相互獨立的,導致檢索性能不佳。隨著深度學習的發展,深度神經網絡被廣泛用于特征學習。與早期的哈希方法相比,深度跨模態哈希方法[10-12]把模態特征和哈希函數放在端對端框架中共同學習,解決了手工特征和哈希碼學習不兼容的問題,使學習的哈希碼更加高效。
大多數深度跨模態哈希方法以對稱的方式學習哈希碼,即查詢實例和數據庫實例的哈希碼用同一種方式學習,訓練過程非常耗時。為便于訓練,它們一般選擇小數據集或從整個數據集中抽取部分數據作為訓練集學習哈希碼,使得數據中的監督信息在訓練過程中難以充分利用,學習的哈希碼泛化能力不強。為實現快速檢索,Jiang 等[13]提出了一個適用于圖像檢索的非對稱深度監督哈希(Asymmetric Deep Supervised Hashing,ADSH),以非對稱的方式學習查詢圖像和數據庫圖像的哈希碼,利用神經網絡學習查詢圖像的哈希碼,而數據庫圖像的哈希碼則通過求解目標函數直接學習,在3 個自然圖像數據集上均取得了較高的檢索精度。受單模態非對稱哈希的啟發,研究者開展了基于非對稱哈希的跨模態檢索研究[14-15]。哈希碼學習本質上是一個離散學習問題,一種常見的優化策略是將離散問題放松為連續問題,但該方法不僅量化誤差大且導致哈希碼次優[16]。
鑒于上述問題,本文提出了深度非對稱離散跨模態哈希(Deep Asymmetric Discrete Cross-modal Hashing,DADCH)方法。
本文主要工作如下:
1)DADCH 利用深度神經網絡與字典學習,構造了非對稱學習框架,采取不同的方式學習查詢實例和數據庫實例的哈希碼。對于查詢實例,通過神經網絡學習哈希碼;對于數據庫實例,利用字典學習為每個實例生成相應的稀疏表示,并將其映射為哈希碼。通過構造二者的非對稱內積來保留原始數據的語義相似信息。
2)采用離散優化策略。所提出的損失函數可以在不放松哈希碼離散約束的情況下進行優化,有效降低哈希碼二值化的量化誤差。
3)為充分挖掘數據的語義信息,通過標簽預測及語義信息嵌入,使學習到的哈希碼更具判別性。
現有的跨模態哈希方法可根據訓練過程中有無標簽信息的參與,大致分為無監督跨模態哈希和監督跨模態哈希兩類。
無監督跨模態哈希方法在訓練過程中不使用任何數據標簽,通過學習不同模態數據從特征空間到漢明空間的映射得到哈希函數。集體矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[17]采用集體矩陣分解技術從原始數據中學習不同模態的共同潛在語義表示,以學習哈希碼。融合相似性哈希(Fusion Similarity Hashing,FSH)[18]提出將多模態的融合相似性保存到公共的漢明空間中。基于字典學習的跨模態哈希(Dictionary Learning Cross-Modal Hashing,DLCMH)[19]利用字典學習生成每個實例的稀疏表示,然后將其投影到共同的潛在空間中進行哈希碼學習。深度二進制重構跨模態哈希(Deep Binary Reconstruction for Cross-modal Hashing,DBRC)[20]使用了一個新的激活函數ATanh,可以在無監督的方式下直接學習二進制哈希碼。深度語義對齊哈希(Deep Semantic-Alignment Hashing,DSAH)[21]設計了一個語義對齊損失函數,將特征相似性與哈希碼相似性對齊,并通過自編碼器實現不同模態特征與哈希碼之間的重構。
監督跨模態哈希方法通常將數據標簽作為監督信息,以挖掘不同模態數據之間的語義關聯,學習更具語義信息的哈希碼。語義相關最大化(Semantic Correlation Maximization,SCM)[8]將標簽信息集成到哈希學習過程中,避免了成對相似性矩陣的復雜計算。監督矩陣分解哈希(Supervised Matrix Factorization Hashing,SMFH)[22]通過基于矩陣分解的圖拉普拉斯正則項引入監督信息,以保留模態內和模態間的相似性。離散潛在因子哈希(Discrete Latent Factor Hashing,DLFH)[23]提出了一個離散潛在因子模型,可以無需放松約束條件直接學習二進制哈希碼,有效地保持了哈希碼之間的成對相似性。基于字典學習的監督離散哈希(Dictionary Learning based Supervised Discrete Hashing,DLSDH)[24]利用字典學習為實例生成稀疏表示,然后學習實例從字典空間到低維漢明空間的投影,采用兩步哈希方法學習哈希碼。深度跨模態哈希(Deep Cross-Modal Hashing,DCMH)[25]設計了一個端對端的深度神經網絡框架,首次將特征學習和哈希碼學習結合在一起。自監督對抗哈希(Self-Supervised Adversarial Hashing,SSAH)[26]以自監督的方式,利用對抗網絡來學習不同模態的哈希碼,并構造語義網絡,以多標簽標注的形式挖掘數據的高級語義信息。深度語義保留序數哈希(Deep Semantic-Preserving Ordinal Hashing,DSPOH)[27]通過保持模態間相似性和模態內標簽信息來學習基于排序的哈希函數。
本文使用粗體大寫字母表示矩陣,粗體小寫字母表示向量。Wij表示矩陣W的第i行第j列的元素,Wi*表示矩陣W的第i行,W*j表示矩陣W的第j列;WT表示矩陣W的轉置;I表示單位矩陣。
本文主要研究圖像模態和文本模態之間的跨模態檢索。訓練集O由N個樣本組成,且每個樣本都有兩個模態的特征和標簽信息,記為。其中,表示圖像模態,表示文本模態。從訓練集O中隨機抽取m個實例,作為查詢實例Φ=OΩ(Ω={i1,i2,…,im},m?N)。Ψ=OΓ表示數據庫實例,其中,Γ={j1,j2,…,jn}(n=N-m)。令L∈{0,1}N×c表示標簽矩陣,c是標簽類別的個數。S∈{0,1}N×N是語義相似度矩陣:若xi與yj存在相同的類別標簽,則Sij=1;否則,Sij=0。跨模態哈希主要任務是學習兩個模態的二進制哈希碼:Bx∈{-1,+1}r,By∈{-1,+1}r,r是哈希碼的長度。當Sij=1時,相似實例的哈希碼之間的漢明距離盡可能小;當Sij=0時,不相似實例的哈希碼之間的漢明距離盡可能大。
DADCH 的模型框架如圖1 所示,包括兩個深度神經網絡分支和兩個字典學習分支,分別用于提取數據的高級語義特征和稀疏表示。

圖1 深度非對稱離散跨模態哈希框架Fig.1 Framework of deep asymmetric discrete cross-modal hashing
圖1 中圖像網絡采用ImageNet 數據集上預訓練的CNNF(Convolutional Neural Network-Fast)[28]。原始的CNN-F 由5個卷積層(conv1~conv5)和3 個全連接層(fc6~fc8)組成。網絡的前7 層與CNN-F 完全相同,均使用線性整流函數(Rectified Linear Unit,ReLU)作為激活函數。本文將fc8 層替換為含有r+c個隱藏節點的全連接層,并將其分成兩部分:一個是含有r個隱藏節點的哈希層,使用tanh 函數作為激活函數,生成標簽;另一個是含有c個隱藏節點的標簽層,使用sigmoid 函數作為激活函數,生成哈希碼。具體的圖像網絡參數配置如表1 所示。

表1 圖像網絡的參數配置Tab.1 Parameter configuration of image network
其中,k表示卷積核大小(kernel);s表示步長(stride);pad 表示是否填充,0 表示對圖像矩陣零填充,1 表示在圖像矩陣外填充1 圈,2 表示在圖像矩陣外填充2 圈;LRN 表示局部響應歸一化(Local Response Normalization);pool 表示池化過程,×2 pool 表示步長為2 的最大池化;Max pooling 表示最大池化;4 096 和512 表示全連接層的節點數量。
圖1 中文本網絡采用一個3 層全連接層的神經網絡。文本網絡的輸入是由詞袋(Bag of Words,BoW)模型提取到的文本特征。網絡的前2 層(fc1、fc2)均使用ReLU 作為激活函數,最后1 層(fc3)與圖像網絡的fc8 層相同,哈希層和標簽層分別使用tanh 函數和sigmoid 函數作為激活函數。具體的文本網絡參數配置如表2 所示。

表2 文本網絡的參數配置Tab.2 Parameter configuration of text network
1)非對稱學習框架。
DADCH 將神經網絡與字典學習相結合,構造了非對稱學習框架。該框架可以通過不同方式學習查詢實例和數據庫實例的哈希碼,有效保留了模態內和模態間的語義相關性。由于查詢實例的數量遠遠小于數據庫實例的數量,可以使更多的數據參與訓練,數據集中的監督信息得以充分利用。
字典學習本質上是一種對高維數據降維的方法[29]。字典學習為原始高維數據學習合適的字典,以及相應的稀疏表示。一般可表示為:


在跨模態檢索任務中,字典學習為數據庫實例Ψ中的圖像模態和文本模態的手工特征矩陣學習相應的字典及稀疏表示,生成的稀疏表示在低維空間中依然能夠保持原始數據之間的相似性。然后利用線性映射將稀疏表示映射為哈希碼,確保語義相似的數據學習到的哈希碼是相同的。因此,損失可取為:

在圖像網絡和文本網絡中,對于第i個實例,圖像模態和文本模態的哈希碼為:

其中:F和G分別表示圖像網絡和文本網絡;U∈[-1,+1]m×r和V∈[-1,+1]m×r是由神經網絡生成的關于查詢實例Φ中圖像模態和文本模態的哈希碼;θx和θy分別是圖像網絡和文本網絡的參數。
2)非對稱損失。
為了使學習到的哈希碼能夠最大限度保留查詢實例和數據庫實例之間相似性,應該盡量減少查詢實例和數據庫實例哈希碼的內積與語義相似度矩陣之間的損失。通過構造查詢實例與數據庫實例哈希碼之間的非對稱內積,將監督信息和哈希碼學習集成到統一的學習框架中,有效保留了原始數據中的相似信息。當使用查詢實例Φ中的圖像模態檢索數據庫實例Ψ中的文本模態時,圖像模態的哈希碼不僅要保留與Ψ中文本模態的哈希碼相似性,也要與Φ中文本模態的哈希碼保持相似。因此,損失可取為:

同樣地,當使用Φ中的文本模態查詢Ψ中圖像模態時,損失可取為:

其中:α是超參數。
因此,非對稱損失為:

3)量化損失。
跨模態哈希的目的是將多模態數據的特征向量編碼成二進制哈希碼,以減少存儲空間,實現模態間的快速檢索。由于哈希碼U和V是由圖像網絡和文本網絡生成的連續實值,在計算過程中需要將其轉化為二進制碼。為降低量化誤差,使神經網絡的輸出與查詢實例的二進制碼BΩ盡可能一致,其損失可取為:

4)標簽預測與語義信息嵌入。
學習具有判別性的哈希碼對檢索性能的提升十分重要。為充分挖掘數據的語義信息,使生成的哈希碼更具判別性,DADCH 在圖像網絡和文本網絡的最后一層增加了標簽層,使之能夠生成與真實標簽維度相同的預測標簽。標簽預測損失可取為:

其中:LΩ是查詢實例的標簽矩陣;Lx和Ly是圖像網絡和文本網絡的預測標簽。
為進一步增強哈希碼的判別性,受一些自編碼方法[30-31]的啟發,本文通過線性映射將標簽信息嵌入到哈希碼中。具體地,將語義標簽矩陣L投影到二進制碼矩陣B中,使得LP≈B。其中:P是投影矩陣。因此,損失可取為:

由此可得DADCH 的目標函數為:

其中:β、γ、η是超參數。
本章將詳細介紹DADCH 的優化算法。雖然目標函數式(10)是非凸函數,但是當其他參數固定時,對于每個參數又是凸函數。因此,本文采用隨機梯度下降(Stochastic Gradient Descent,SGD)算法[32]和交替學習策略學習參數θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P。即在每次迭代中,只學習一個參數,其他參數固定。
1)θ的學習。
當θy、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時,式(10)可簡化為:

利用隨機梯度下降和反向傳播(Back Propagation,BP)算法來學習θx。
當θx、Dx、Dy、Ax、Ay、Wx、Wy、B、P固定時,式(10)可簡化為:

同樣地,利用隨機梯度下降和反向傳播算法來學習θy。
2)D的學習。
當θx、θy、Dy、Ax、Ay、Wx、Wy、B、P固定時,式(10)可簡化為:

顯然,式(13)是一個關于Dx的二次約束二次規劃問題(Quadratically Constrained Quadratic Program,QCQP),可利用拉格朗日對偶性進行求解。
當θx、θy、Dx、Ax、Ay、Wx、Wy、B、P固定時,式(10)可簡化為:

同樣地,利用拉格朗日對偶性學習Dy。
3)A的學習。
當θx、θy、Dx、Dy、Ay、Wx、Wy、B、P固定時,式(10)可簡化為:


5)B的學習。
本文采用離散循環坐標下降(Discrete Cyclic Coordinate descent,DCC)法[33]學習B,此過程無需松弛哈希碼的離散約束,可避免較大的量化誤差。
當θx、θy、Dx、Dy、Ax、Ay、Wx、Wy、P固定時,式(10)可簡化為:

由于BΩ和BΓ是查詢實例和數據庫實例的二進制碼,對式(23)的求解可轉化為對式(24)和式(25)的求解:



在檢索過程中,對于不在查詢實例中的圖像數據xq,可通過正向傳播來學習哈希碼:

同樣地,對于不在查詢實例中的文本數據yq,其哈希碼為:

為驗證DADCH 的有效性,本文在3 個廣泛使用的跨模態數據集IAPR-TC12[34]、MIRFLICKR-25K[35]和NUS-WIDE[36]上進行了實驗,并將其與近年來先進的跨模態檢索方法進行比較與分析。
1)參數設置。
實驗設置超參數α=100,β=200,γ=300,η=100,λ1=λ2=0.01。由于圖像和文本是成對出現的,設置字典Dx、Dy的大小K1=K2=128。此外,不同大小的字典也同樣適用于本方法。圖像模態網絡的學習率為[10-9,10-5.5],文本模態網絡的學習率為[10-9,10-4.5]。本文實驗數據取3 次實驗結果的平均值。
2)數據集。
IAPR-TC12:該數據集由20 000 個圖像文本對組成。每對樣本使用255 個標簽進行注釋。該數據集與DCMH[25]中一致,對于每個實例,圖像數據是512 維的手工特征向量,文本數據是2 912 維的詞袋向量。
MIRFLICKR-25K:該數據集由從Flickr 網站收集的25 000 個圖像組成。本文選擇至少包含20 個標簽的圖像文本對進行實驗。對于每個實例,圖像數據是一個512 維的手工特征向量,文本數據是一個1 386 維的詞袋向量。
NUS-WIDE:該數據集由包含269 648 張圖像的公共網絡圖像組成。數據集中有81 個概念標簽,每個實例有一個或多個標簽。本文使用21 個最常見概念的195 834 個圖像文本對進行實驗。對于每個實例,圖像數據是一個500 維視覺詞袋(Bag of View Word,BoVW)向量,文本數據是一個1 000維的詞袋向量。
對于上述3 個數據集,本文隨機抽取2 000 個實例作為測試集,剩余實例作為訓練集和檢索集,并從訓練集中隨機抽取3 000 個實例作為查詢實例,剩余的訓練集實例作為數據庫實例。
為驗證本文方法在跨模態檢索任務中的性能,采用兩種廣泛使用的檢索評估標準:漢明排序和哈希查找。漢明排序根據檢索集中的數據與給定查詢數據之間的漢明距離按遞增順序排序;哈希查找是返回查詢數據的某個漢明半徑內的所有數據。
平均精度均值(mean Average Precision,mAP)[37]是平均精度的平均值,是漢明排序中廣泛使用的度量指標。定義如下:

其中:m是查詢數據的個數;AP(xi)是查詢數據xi的平均精度。
精度召回率曲線(PR-curve)[38]是廣泛用于評估哈希查找準確性的指標。PR 曲線以召回率(recall)為自變量,精度(precision)為因變量。精度和召回率的定義如下:

其中:TP(True Positives)表示檢索的相關數據個數;FP(False Positives)表示檢索的不相關數據個數;FN(False Negatives)表示未檢索的不相關數據個數。
本文選取7 個先進的跨模態檢索方法與DADCH 進行對比,分別為:跨視圖哈希(Cross-View Hashing,CVH)[7]、語義主題多模態哈希STMH(Semantic Topic Multimodal Hashing for cross-media retrieval)[6]、SCM[8]、語義保留哈希(Semantics-Preserving Hashing,SePH)[9]、DCMH[25]、注意力感知深度對抗哈希(Attention-aware Deep Adversarial Hashing,ADAH)[11]和SSAH[26]。其中,前4 個方法是基于淺層框架的,后3 個是基于深度學習的。
4.3.1 mAP及PR曲線對比
表3 是所有方法在不同數據集上的mAP 結果,其中I→T表示圖像檢索文本,T→I 表示文本檢索圖像,哈希碼長度分別設置為16、32 和64 bit,粗體字表示最優結果。
從表3 可看出:在所有檢索任務中,深度方法都顯著優于非深度方法。在MIRFLICKR-25K 數據集上,圖像檢索文本時,DADCH 與非深度方法(SePH)相比,mAP 提高17%~18%,表明神經網絡提取的深度特征包含更豐富的語義信息,使學習的哈希碼更高效;與深度監督哈希方法(SSAH)相比,mAP 提高6%~7%,說明非對稱學習框架能充分利用數據的監督信息,在跨模態檢索中有一定的優越性。具體地,在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數據集上,哈希碼長度為64 bit 時,DADCH 的mAP(I→T)比SSAH 分別提高了11.6、5.2、14.7 個百分點,這是因為DADCH 以離散的非對稱框架學習查詢實例和數據庫實例的哈希碼,可以更深入地挖掘數據的語義信息,降低量化誤差,從而獲得出色的檢索性能。與IAPR-TC12 和NUS-WIDE 數據集相比,DADCH在MIRFLICKR-25K 數據集上的效果更顯著。當哈希碼長度為64 bit 時,DADCH 的mAP 分別為0.852(I→T)和0.857(T→I),這是因為MIRFLICKR-25K 數據集更復雜,每個圖像包含的對象更多,標簽也更多。此外,大多數方法在文本檢索圖像任務中的mAP 比圖像檢索文本任務中的結果好,說明文本模態能更好地描述圖像文本對的內容。

表3 不同方法的mAP對比Tab.3 mAP comparison of different methods
圖2 展示了上述方法在不同數據集上哈希碼長度為32 bit 的精度-召回率曲線。結果顯示,在所有跨模態檢索任務中,本文方法PR 曲線下方的面積始終大于近年來的先進方法,進一步驗證了DADCH 的檢索性能優于其他方法。

圖2 各方法的PR曲線對比(哈希碼長度=32 bit)Fig.2 Comparison of PR curves of different methods(length of Hash code=32 bit)
4.3.2 參數敏感度分析
為研究超參數對方法檢索精度的影響,本文設計了參數敏感度分析實驗。實驗設置參數α,β,γ,η∈[1,1 000],λ1,λ2∈[0.01,100],在實驗過程中固定其他參數不變,只改變其中一個參數值。圖3 展示了不同參數值在MIRFLICKR-25K 數據集上哈希碼長度為32 bit 的mAP 變化曲線。從圖3可看出各參數對本文方法是不敏感的。當參數α和β∈[1,100]時,mAP 略有波動;但在[100,1 000]范圍內,對其影響并不大。并且參數γ、η和λ1、λ2分別在[1,1 000]和[0.01,100]檢索性能最優。因此,在實驗中設置參數α=100,β=200,γ=300,η=100,λ1=λ2=0.01。

圖3 各參數的敏感度分析(哈希碼長度=32 bit)Fig.3 Sensitivity analysis of parameters(length of Hash code=32 bit)
4.3.3 時間復雜度分析
為評估本文方法的效率,實驗選取深度監督對稱哈希方法DCMH 和SSAH 作為比較對象,比較了3 種方法在MIRFLICKR-25K 數據集上哈希碼長度為16 bit 的訓練時間。實驗中,DCMH 和SSAH 使用整個數據集用于神經網絡訓練。圖4 展示了它們的訓練時間曲線,x軸為訓練時間,y軸為mAP。觀察結果顯示,當使用整個數據集進行訓練時,DCMH 和SSAH 收斂時間需要超過6 h。當訓練時間相同時,DADCH 的mAP 比DCMH、SSAH 都要高。DADCH 的訓練時間短的原因主要有:首先,由于深度神經網絡的訓練比較耗時,當數據集全部用于訓練時,傳統的深度監督對稱哈希方法的時間復雜度至少為O(n2)。其次,DADCH 采用非對稱學習框架,僅使用一小部分數據進行神經網絡訓練,而剩余數據利用字典學習學習,使其在較短時間內也能達到比較高的精度。

圖4 MIRFLICKR-25K數據集上的訓練時間對比(哈希碼長度=16 bit)Fig.4 Training time comparison on MIRFLICKR-25K dataset(length of Hash code=16 bit)
4.3.4 樣本適應度分析
本文在MIRFLICKR-25K 和NUS-WIDE 數據集上,研究了訓練樣本大小對方法檢索性能的影響。實驗設置哈希碼長度為32 bit,樣本大小為2 500、5 000、7 500 和10 000,并記錄DADCH 的mAP 值。特別地,當樣本大小為2 500 時,設置查詢實例大小為800,測試集大小為500。圖5 展示了在兩個數據集下mAP 隨樣本大小變化的曲線,易知DADCH 在樣本數量較少的情況下,也能取得較高的mAP,并且隨著訓練樣本數據的增加,mAP 呈上升趨勢。

圖5 mAP在不同樣本大小下的變化(哈希碼長度=32 bit)Fig.5 mAP varying with sample size(length of Hash code=32 bit)
4.3.5 變體實驗分析
為進一步驗證本文方法的有效性,實驗設計了DADCH的一些變體。DADCH-Ⅰ采用對稱框架來代替非對稱學習框架;DADCH-Ⅱ去掉標簽層,不考慮標簽預測;DADCH-Ⅲ去掉數據標簽到哈希碼的線性映射,不考慮語義信息嵌入。實驗在MIRFLICKR-25K 和NUS-WIDE 數據集上進行,設置哈希碼長度為32 bit,表4 記錄了每個變體的mAP。實驗結果表明,DADCH 的3 個變體對其mAP 都有影響。其中,DADCH-Ⅰ對mAP 的影響最大,說明了非對稱學習框架對DADCH 檢索性能的提升有顯著作用。

表4 DADCH變體的mAP對比Tab.4 mAP comparison of DADCH variants
本文提出了深度非對稱離散跨模態哈希方法DADCH。該方法利用神經網絡和字典學習相結合的非對稱學習框架,采用不同的方式學習查詢實例和數據庫實例的哈希碼,不僅縮短了訓練時間,而且能有效利用數據的監督信息,使學習的哈希碼能最大限度保留來自不同模態數據的語義相關性;并利用離散優化算法對哈希碼矩陣進行逐列優化,有效降低了哈希碼的量化誤差。為增強哈希碼的判別性,采用標簽預測與語義信息嵌入來挖掘語義信息。在IAPR-TC12、MIRFLICKR-25K 和NUS-WIDE 數據集上的實驗結果表明,與近年來7 個先進的跨模態哈希方法相比,本文方法的檢索性能更好。其中,在MIRFLICKR-25K 數據集上,文本檢索圖像任務的mAP 可達0.857。然而,本文在利用標簽度量不同模態樣本之間的相似度時,忽略了多標簽數據之間的語義信息,導致部分語義相似性信息丟失。在未來的工作中,將更深入地挖掘多標簽數據的語義信息,使相似度的度量更加精確。