張 成,萬 源,強浩鵬
(武漢理工大學理學院,武漢 430070)
(*通信作者電子郵箱wanyuan@whut.edu.cn)
隨著圖像、文本、視頻等多媒體數據快速增長,不同模態間的跨模態檢索近年來引起了人們的廣泛關注。跨模態檢索的目標在于給定一個模態查詢對象,找到另一模態中語義相似的集合,如圖像檢索文本、文本檢索圖像等。為了滿足現實世界中檢索速度快、存儲空間小的檢索需求,哈希算法通過二進制哈希碼表示原始數據,在近似近鄰搜索[1]應用中時間復雜度可以達到常量或次線性[2],因此被廣泛用于跨模態檢索。
當前的跨模態哈希方法大致可以分為傳統跨模態哈希方法[3]和深度跨模態哈希方法[4]。傳統跨模態哈希方法利用手工提取的淺層特征學習哈希碼,將訓練過程分為兩步:1)提取數據手工特征(如尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[5]特征);2)將手工特征投影到漢明空間。典型的傳統跨模態哈希方法如跨視圖哈希(Cross View Hashing,CVH)[6]基于單視圖譜哈希提出將不同視圖的相似樣本映射為相似哈希碼;語義關聯最大化(Semantic Correlation Maximization,SCM)[7]通過語義相似度矩陣分解來減少樣本間相似度計算時間;跨模態相似性敏感哈希(Cross-Modality Similarity Sensitive Hashing,CMSSH)[8]利用提升方法聯合不同模態數據的表征與相似度,將數據到公共漢明空間的映射表示為二進制分類問題;語義保留哈希(Semantics-Preserving Hashing,SePH)[9]通過最小化模態間KL散度(Kullback-Leibler Divergence,KLD)來讓不同模態數據分布相同。這些方法特征提取的過程獨立于哈希碼學習,因而學習到的手工特征并非哈希碼的最優解。近年來,深度學習因其在特征學習方面的優異性能而廣泛應用于人臉識別[10]、圖像檢索[11]、目標檢測[12]等領域。相較于淺層方法利用手工提取的特征學習哈希碼,深度跨模態哈希方法直接學習從原始數據到漢明空間的映射函數,能更有效地找到原始數據與哈希碼間的潛在關聯。
根據訓練過程是否引入標簽信息,深度跨模態哈希方法又分為有監督哈希學習和無監督哈希學習。深度有監督哈希方法如深度跨模態哈希(Deep Cross-Modal Hashing,DCMH)[13]采用端到端的神經網絡框架,將特征與哈希碼學習聯合到一個統一的框架中,但對標簽的語義信息缺乏有效利用;自監督對抗哈希(Self-Supervised Adversarial Hashing,SSAH)[14]構建自監督標簽網絡,并利用對抗性來縮小不同模態間的語義鴻溝;成對關系指導的深度哈希(Pairwise Relationship guided Deep Hashing,PRDH)[15]提出不相關約束來解決不同位的哈希碼之間存在的冗余問題;基于三元組的深度哈希(Triplet-based Deep Hashing,TDH)[16]通過概率模型定義跨模態三元組損失,并利用圖拉普拉斯來探究樣本對是否相似;基于排序深度跨模態哈希(Ranking-based Deep Cross-Modal Hashing,RDCMH)[17]利用特征和標簽的余弦相似度矩陣來得到一個半監督語義排序列表,并聯合語義排序信息到哈希碼的學習過程中。
然而在實際應用中,有監督方法[18]需要大量人工標簽標注的實例,但這些標簽信息的收集過程往往成本昂貴且容易出錯,因而這些算法不能有效地擴展到大規模數據當中。無監督深度跨模態哈希方法通過尋找未標注實例間的關聯信息來實現高效檢索,在大規模數據應用中更加靈活。Wu等[19]利用圖拉普拉斯約束項保護原始數據的鄰域結構,提出了一種無監督深度跨模態哈希(Unsupervised Deep Cross-Modal Hashing,UDCMH)方法;Zhang 等[20]利用不同模態間的對抗性來擬合數據的流形分布,提出了無監督生成對抗跨模態哈希(Unsupervised Generative Adversarial Cross-Modal Hashing,UGACH)方法;Wang 等[21]通過引入虛擬標簽來增強哈希碼的辨別能力,提出了基于虛擬標簽回歸的無監督深度跨模態哈希(Unsupervised Deep Cross-modal Hashing with Virtual Label Regression,UDCH-VLR)方法;Su 等[22]提出了深度聯合語義重構哈希(Deep Joint-Semantics Reconstructing Hashing,DJSRH)方法,構建聯合語義關聯矩陣來發掘模態間潛在的語義一致性,但在哈希碼學習過程中放松了離散約束條件,存在較大量化誤差。雖然以上方法獲得了不錯的檢索性能,然而這些方法通過數據本身分布或預訓練神經網絡得到的樣本相似度信息并不能完全滿足其訓練需求。
為解決以上問題,本文提出基于知識蒸餾的深度無監督離散跨模態哈希(Deep Unsupervised Discrete Cross-modal Hashing,DUDCH)方法,主要工作包括:
1)結合知識蒸餾中知識遷移的思想,利用預訓練的無監督老師模型中實例關聯信息重構對稱相似度矩陣,保證了成對實例間的相似性;
2)在哈希碼的學習過程中采用離散循環坐標下降法迭代更新離散哈希碼的每一位,有效降低離散哈希碼間的冗余性;
3)采用端到端無監督模型作為老師模型,構建了非對稱有監督模型作為學生模型,能有效提高模型的運行效率。
無監督跨模態哈希方法可以分為淺層方法與深度方法兩類。淺層無監督方法中媒體間哈希(Inter-Media Hashing,IMH)[23]利用譜哈希建立保留模態內與模態間一致性的公共漢明空間;協同矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[24]通過協同矩陣分解將不同模態投影到聯合的語義空間來學習統一哈希碼;復合相關量化(Composite Correlation Quantization,CCQ)[25]聯合尋找將不同模態轉化為同構潛在空間的相關極大映射,并學習將同構潛在特征轉化為緊湊二進制碼的復合量化器;潛在語義稀疏哈希(Latent Semantic Sparse Hashing,LSSH)[26]利用稀疏編碼來捕捉圖像的顯著結構并通過矩陣分解來得到文本的潛在概念,挖掘潛藏在數據當中的語義信息。這些方法不能有效捕捉不同模態數據到漢明空間的復雜非線性映射,因而許多無監督跨模態方法在哈希碼的學習中引入深度神經網絡來構建從數據到哈希碼的非線性映射。
深度無監督跨模態哈希方法在相似度矩陣獲取方式上有所不同。UDCMH[19]利用圖拉普拉斯約束項中喜好矩陣來評價不同哈希碼間相似程度,但喜好矩陣的構建依賴于采集樣本分布的好壞,故DJSRH[22]利用圖像深度特征與文本詞袋特征的聯合語義矩陣來探究不同樣本間關聯程度;相較于直接采用預訓練神經網絡來判別樣本間相關程度,無監督知識蒸餾(Unsupervised Knowledge Distillation,UKD)[27]提出深度無監督跨模態哈希模型能提供更加精確的相似性度量,但在構建過程中忽視了相似度矩陣的對稱性;除了直觀求取樣本間相似度矩陣,UGACH 和無監督耦合循環生成對抗性哈希(Unsupervised coupled Cycle generative adversarial Hashing,UCH)[28]利用不同模態間的對抗性來擬合不同模態的流形分布,但都存在著訓練困難、時間復雜度高問題。
知識蒸餾首次由Hinton 等[29]提出,其主要思想是通過提取大型老師模型學習到的先驗知識來幫助小型學生模型訓練,有效節省了模型的計算量和計算資源,常常被用于模型壓縮與部署,其具體實現則是通過最小化老師與學生模型輸出的KL 散度,使得二者的分布相同。在此基礎上,Furlanello等[30]發現兩個同等復雜的模型有利于學生網絡更好學習到老師模型傳授到的知識,并通過反復迭代的方法使學生模型的性能逼近老師模型。Yang 等[31]通過適當降低老師模型的置信度和增加老師模型“容忍度”,有效提升學生模型的表現。Chen 等[32]通過匹配兩個樣本排名得到的概率分布來蒸餾用于深度度量學習的知識,探究不同樣本之間的相似性。然而,以上方法在意同類型模型間知識的傳遞,UKD 關注于無監督與有監督模型間關聯信息的傳遞,利用無監督老師模型得到可供有監督學生模型學習的樣本相似度矩陣。
本文受UKD 啟發,利用預訓練好的無監督老師模型的實值哈希碼構建實例相似度矩陣,代替標簽實現學生模型的有監督學習,提出深度無監督離散跨模態哈希DUDCH 方法,但在構造上有以下幾點不同:1)老師模型中將對抗無監督模型UGACH替換為端到端無監督模型DJSRH,學生模型中將對稱有監督模型DCMH 替換為非對稱有監督模型;2)構造對稱相似度矩陣時引入判斷相似程度的閾值,保證成對樣本的相似性;3)哈希碼學習過程中依次按位更新離散的哈希碼,減小了哈希碼的量化誤差。具體的網絡框架如圖1所示。

圖1 知識蒸餾網絡框架Fig.1 Network framework of knowledge distillation
O=表示圖像文本對集合,X=[x1,x2,…,xn]∈Rn×w×h×3表示圖像矩陣,Y=[y1,y2,…,yn]∈Rn×c表示文本矩陣,n表示數據大小,w表示圖像寬度,h表示圖像高度,c表示文本詞袋向量的維度。S∈{-1,+1}n×n表示成對相似度矩陣,Sij表示相似度矩陣S第i行第j列的元素。當Sij=+1時,第i個實例oi與第j個實例oj為相關對;否則,Sij=-1。深度跨模態哈希的目的是找尋兩個從原始數據到漢明空間的非線性映射函數:Hv,t=hv,t(X,Y;θv,t)∈[-1,+1]n×k,其中:X和Y表示圖像文本數據;k表示哈希碼的長度;hv,t為圖像與文本學習到的哈希函數;Hv,t為圖像與文本網絡學習到的連續哈希碼矩陣;θv,t分別為圖像與文本網絡的網絡權重。Bv,t=sign(Hv,t)表示圖像和文本網絡學習到的二進制哈希碼矩陣,其中:sign(?)表示符號函數,當;否則,=-1。
為能更容易了解圖1 模型的深度網絡結構,本節給出訓練模型的具體解釋。對于圖像網絡,老師模型采用DJSRH 模型中的預訓練深度神經網絡AlexNet[33],并沿用其相同的參數設置;學生模型采用預訓練的卷積神經網絡CNN-F[34]。二者均包含5個卷積層和3個全連接層,在圖像網絡最后的輸出層(fc8)中輸出的節點被改為哈希碼的長度k來獲得連續哈希碼,并用Tanh作為激活函數。
對于文本網絡,DUDCH 采用三層全連接層:前兩層隱藏層有4 096 個輸出節點,用線性整流函數(Rectified Linear Unit,ReLU)作為激活函數,最后一層輸出層有k個輸出節點,用Tanh作為激活函數。
2.3.1 無監督老師模型
不同于UKD 采用對抗性老師模型UGACH,本文采用端到端無監督模型DJSRH 作為老師模型進行快速蒸餾。DJSRH 本身能夠學習到一個聯合圖像-文本信息的余弦相似度矩陣,將作為本文蒸餾法的對照組,具體的對比將放到實驗中3.4.4節進行說明。
跨模態哈希的關鍵在于尋找圖像文本對之間潛在的語義關聯信息。在一個訓練良好的無監督模型中,這些數據間的關聯信息被保存在學習到的深度特征表示中。計算樣本對之間相關度的常用策略有兩種:1)特征間的歐氏距離;2)特征間的余弦相似度。本文通過度量不同樣本對實值哈希碼的歐氏距離來判斷樣本對是否相似。為了方便理解,l2范數歸一化的實值哈希碼歐氏距離和相似度的聯系為:

其中:fi表示第i個實例學習到的實值哈希碼向量;Sij表示第i和j個實例之間的相似度。不同實例間哈希碼的歐氏距離越小,二者越相似。UKD 設置哈希碼歐氏距離矩陣D:Dij=中每行前l個元素下標對應的實例為相似樣本對,破壞了相似性矩陣的對稱性。
本文為了保證重構實例相似度矩陣的對稱性,設置與相似對數量l正比的閾值λ來判斷不同樣本對之間是否相似。設=dr(fi-fj)為距離矩陣D中升序排序的第r個元素,設置閾值λ=,其中r=(n-1)l,n為訓練集數量。當第i個與第j個實例哈希碼的歐氏距離Dij=Dji≤λ時,二者為相似樣本對,Sij=Sji=1;當Dij=Dji>λ時,Sij=Sji=-1,故重構實例間相似性矩陣滿足對稱性。
此外,對比組DJSRH 批次大小聯合圖像與文本信息的語義相似度矩陣的構建如下:

其中:SI和ST分別為批次大小圖像與文本深度特征的余弦相似度矩陣;η為超參數為SI和ST的線性組合。

然而,DJSRH 在訓練過程中產生的聯合語義矩陣S只有批量大小,且處在變化中,無法用作整個訓練集的相似度矩陣,故本文采用測試過程中固定網絡產生的聯合語義相似度矩陣來進行對比實驗。
2.3.2 有監督學生模型
在UKD 中,對稱學生模型DCMH 時間復雜度高且無法學習多層次語義相似度矩陣。受非對稱策略[35]啟發,本文將訓練集分為兩個部分:1)整個數據庫集直接通過矩陣運算學習哈希碼;2)少量查詢集通過神經網絡訓練得到哈希碼。其中,整個訓練集O作為數據庫集,隨機采樣O中m個數據點作為查詢集OΩ,m?n。此時,數據庫點的下標為Γ={1,2,…,n},查詢集點下標為Ω={i1,i2,…,im},Ω?Γ。
為了學習相似度矩陣的多層次語義關聯,本文方法DUDCH 通過二進制哈希碼內積和相似度間的關系S=B?BT/k定義損失函數,其模態內與模態間損失定義如下:
1)模態內損失。
圖像、文本模態內損失包含兩個部分:1)非對稱損失。查詢集和數據庫集中哈希碼內積與重構相似度矩陣間的l2損失。2)量化損失。查詢集中實值哈希碼與離散哈希碼間的l2損失。具體定義如下:


其中:BΓ∈{-1,+1}n×k與BΩ∈{-1,+1}m×k分別表示數據庫集與查詢集直接學習到的離散哈希碼矩陣;=SΩ×Γ∈{-1,1}m×n表示查詢集與數據庫集間重構相似度矩陣。
2)模態間損失。
為解決不同模態間的語義鴻溝,讓不同模態的哈希碼在公共漢明空間擁有與單一模態相同的語義關聯信息,圖像文本模態間對稱損失定義如下:

此時,式(6)的矩陣形式如下:

其中:=SΩ×Ω∈[-1,+1]Ω×Ω為圖像與文本查詢集間的重構相似度矩陣。
無監督老師模型代替標簽提供先驗的實例相似度矩陣,有監督學生模型則學習從原始數據到漢明空間的復雜非線性映射,故在式(5)與式(7)的基礎上,學生模型最終優化函數如下:

同時求解式(8)中θv、θt、B是非凸問題,但交替優化各個變量是凸的,從而得到全局最優解,具體的迭代更新過程如下:
1)固定θt、B,更新θv,式(8)重寫如下:



通過不斷地迭代更新參數θv、θt、B,直到滿足收斂或達到最大迭代次數來優化式(8)中各個參數,具體優化過程如下。
算法1 非對稱離散學生模型優化算法。
輸入 圖像矩陣X和文本矩陣Y,重構相似度矩陣S,哈希碼長度k。
輸出 圖像和文本神經網絡參數θv和θt,離散哈希碼B。
初始化:θv、θt和B,超參數α和β,批次大小m,最大迭代次數Tmax,圖像與文本迭代次數T=10。
1)Repeat
2)在數據庫集中隨機采樣生成查詢集及其下標Γ,并以此來切分重構相似度矩陣S
3)Repeat
4)根據式(10)更新圖像神經網絡參數θv
5)Until迭代次數達到圖像迭代次數T
6)Repeat
7)根據式(11)更新文本神經網絡參數θt
8)Until迭代次數達到文本迭代次數T
9)根據式(16)按位更新離散的哈希碼B
10)Until迭代次數達到最大迭代次數Tmax或收斂
本文在兩個常用的基準數據集MIRFLICKR-25K[38]和NUS-WIDE[39]上進行實驗,并與六個先進的跨模態哈希方法CMSSH[8]、SCM[7]、CVH[6]、CMFH[24]、CCQ[25]、DJSRH[22]作比較。其中,前兩個是經典的有監督跨模態哈希方法,后四個是經典的無監督跨模態哈希方法。
MIRFLICKR-25K:該數據集包含來自Flickr 的25 000 個文本-圖像實例對,每個實例對被標注24 個語義標簽。遵循UGACH 的實驗設置,本文設置圖像為4 096 維VGG 深度特征,設置文本為1 386 維詞袋向量。對于有監督方法,隨機挑選5 000個圖像文本對作為訓練集。
NUS-WIDE:該數據集包含269 498 個文本-圖像實例對和81 個語義標簽。本文挑選實例對中標注10 個最頻繁的語義標簽,總共186 577 個實例對用于實驗。類似地,本文設置圖像為4 096 維VGG 深度特征,設置文本為1 000 維詞袋向量。有監督方法中隨機挑選5 000個圖像文本對作為訓練集。
本文采用平均精度均值(mean Average Precision,mAP)和精度召回率(Precision Recall,PR)曲線作為評價策略。mAP 為所有查詢集精度均值的平均值,對于第i個測試實例,精度均值AP(i)定義如下:

其中:N表示在檢索集中相關實例的數量;p(r)表示返回的第r個實例的精度。如果第r個返回的實例與第i個檢索實例相關,rel(r)=1;否則,rel(r)=0。
PR 曲線反映模型不同召回率下的精度,它的橫縱坐標分別由以下公式得到:

其中:TP(True Positives)表示真正例:FP(False Positives)表示假正例:FN(False Negatives)表示假負例。
本文在老師模型中保持DJSRH 的基本設置,但為得到更準確的實例間相似度信息,將訓練集數量提高為15 000,其他參數不變。在有監督學生模型訓練過程中,對于MIRFLICKR-25K 和NUS-WIDE 數據集,本文隨機采樣15 000個實例作為數據庫集,2 000個實例作為測試集。在數據庫集中隨機抽取3 000 個實例作為查詢集。相似度矩陣中相似對數量設置為5 000,式(8)中超參數設置為α=200,β=100。這些超參數的靈敏度分析將在3.4.3 節中進行具體比較。在圖像與文本網絡中,最大迭代次數為50,學習率設置為10-5,批次大小設置為128。為了網絡的穩定性,圖像與文本網絡在重復更新迭代10次后按位更新哈希碼。
3.4.1 檢索表現
表1 給出不同方法在MIRFLICKR-25K 與NUS-WIDE 數據集上不同碼長的mAP 值。可以看出,組合模型DUDCH 的mAP 值比老師無監督模型DJSRH 更高,這說明本文運用知識蒸餾聯合兩種模型得到了超過單一模型的表現,說明了該方法的有效性。
在MIRFLICKR-25K 和NUS-WIDE 數據集上,DUDCH 比排名第二的無監督跨模態哈希方法DJSRH 在圖像檢索文本任務上mAP 大約平均增長了2.83 個百分點和6.53 個百分點,在文本檢索圖像任務上平均增長了0.70個百分點和3.95個百分點。這說明了本文離散非對稱學生網絡有效學習到老師模型提供的先驗樣本關聯信息,驗證了哈希碼離散求解的有效性。此外,從表1 中可以看出,DUDCH 中mAP 值不隨著碼位的增長而增長,這說明DUDCH 對于哈希碼長度并不敏感,在較小碼位上也能有著出色的表現。
另外,從表1中可以看出,深度無監督算法DJSRH 與淺層有監督算法CMSSH 與SCM 相比mAP 值有著明顯的提升,這說明神經網絡學習到的深度特征更有利于哈希碼的學習。

表1 在MIRFLICKR-25K與NUS-WIDE數據集上不同哈希碼長度時不同方法的mAP比較Tab.1 mAP comparison of different methods on MIRFLICKR-25K and NUS-WIDE datasets with different Hash code length
圖2 與圖3 分別給出了DUDCH 在MIRFLICKR-25K 和NUS-WIDE 數據集上哈希碼長度為128比特時不同方法的PR曲線。從圖2~3 中可以看出:1)DUDCH 在NUS-WIDE 數據集上的表現要遠遠好于MIRFLICKR-25K,說明DUDCH 在更大規模數據集上的優勢更明顯;2)盡管DUDCH 在低召回率的表現不好,但隨著召回率增加,精度相較于其他方法下降不明顯,使得PR 曲線下面積要明顯大于其他方法,這也說明DUDCH 相較于其他方法在檢索性能上有著顯著提升;3)DUDCH 在圖像檢索文本任務上檢索性能要明顯好于文本檢索圖像。

圖2 在MIRFLICKR-25K數據集上哈希碼長度為128比特時不同方法的PR曲線Fig.2 PR curves of different methods on MIRFLICKR-25K dataset with Hash code length of 128 bit

圖3 在NUS-WIDE數據集上哈希碼長度為128比特時不同方法的PR曲線Fig.3 PR curves of different methods on NUS-WIDE dataset with Hash code length of 128 bit
3.4.2 對比UKD方法
本文給出了在MIRFLICKR-25K 訓練集上碼長為16 比特的情況下對比UKD 學生模型DCMH 的訓練時間-mAP 圖,具體情況如圖4 所示。可以看出,DUDCH 每次迭代的訓練時間大約為0.08 h,DCMH 每次迭代訓練時間大約為0.15 h,二者在約2.7 h 時接近收斂,此時,DUDCH 和UKD 在圖像檢索文本/文本檢索圖像任務上mAP 值分別為0.716/0.687和0.677/0.657,DUDCH 對比UKD 在圖像檢索文本(I2T)/文本檢索圖像(T2I)任務上mAP 分別提升了3.90 個百分點/3.00 個百分點,說明了本文方法對比UKD 學生模型具有更強的學習能力。由于DUDCH 設置迭代次數為50,UKD 設置DCMH 迭代次數為30,故在同等的時間上DUDCH 迭代次數更多,迭代速度更快。造成本文模型訓練效率高于UKD 的主要原因為以下三點:

圖4 MIRFLICKR-25K數據集上哈希碼長度為16比特時不同蒸餾法的訓練時間Fig.4 Training time of different knowledge distillation methods on MIRFLICKR-25K dataset with Hash code length of 16 bit
1)UKD 學生模型采取傳統的對稱哈希方法訓練整個訓練集大小的神經網絡,時間復雜度至少為O(n2),而本文采用非對稱方式訓練的時間復雜度為O(n);
2)不同于UKD 學生模型直接將整個訓練集樣本放入深度神經網絡中學習,本文則將訓練數據集分為直接按位學習得到的整個數據庫樣本與通過神經網絡學習的少量查詢集樣本,而神經網絡訓練時間遠遠大于矩陣運算時間,由于m?n,使得總體訓練時間要遠遠小于DCMH。
3)由于UKD 中老師模型UGACH 采用對抗性神經網絡,花費了大量時間在樣本相似對選取與模型的預訓練上,模型訓練時間遠遠超過DJSRH,故在圖4 并未給出不同老師模型的時間復雜度對比圖。
3.4.3 參數靈敏度
為確定相似樣本對的最佳數量以及式(8)中超參數α、β的最佳大小,在圖5 與圖6 中給出了這些超參數的靈敏度分析。實驗中訓練數據集同為MIRFLICKR-25K 數據集,哈希碼長度分別為16 與128 比特,迭代次數為30,橫坐標為超參數值,縱坐標為mAP 值。相似樣本對大小設置范圍為1 000 到8 000,而式(8)中超參數α、β大小設置范圍為{1,10,100,500}。

圖5 MIRFLICKR-25K數據集上哈希碼長度為16比特時不同相似對的mAP值Fig.5 mAPs values of different similarity pairs on MIRFLICKR-25K dataset wit h Hash code length of 16 bit

圖6 兩種超參數的靈敏度分析Fig.6 Sensitivity analysis of two hyper-parameters
從圖5 中可以得出以下結論:少量的相似對信息會誤導模型度量不同實例相似性過多趨向于不相關,導致模型獲得了較差的檢索性能。隨著模型得到了越來越多的關聯信息后,其性能不斷上升并趨于穩定,在相似對數量為5 000時,模型的平均mAP 達到頂點。另外,從圖6 中可以發現:超參數α和β對于圖像檢索文本幾乎沒有影響,對于文本檢索圖像有著細微的影響,當參數α和β分別在[100,500]與[10,100]時,模型精確度微微上升,其他地方或緩慢下降或平緩。通過以上分析,可以發現在一個較大的范圍中本文方法并不敏感,說明了該方法的魯棒性與有效性。
3.4.4 蒸餾法對比
老師模型DJSRH 自身能夠學習到一種聯合圖像與文本語義關聯信息的余弦相似度矩陣,這可能成為另一種有效的蒸餾法。本文在圖7 中給出了它在數據集為MIRFLICKR-25K、碼長為128比特情況下不同迭代次數下的mAP圖。

圖7 在MIRFLICKR-25K上哈希碼長度為128比特時不同蒸餾法的mAP值Fig.7 mAPs values of different knowledge distillation methods on MIRFLICKR-25K dataset with Hash code length of 128 bit
從圖7通過對比可以發現,DUDCH 和DJSRH 在圖像檢索文本(I2T)上mAP 值分別為0.716 和0.631,DJSRH 方法相較于本文方法DUDCH 在圖像檢索文本上中mAP 值下降了8.50個百分點,且在文本檢索圖像上模型一直處于動蕩狀態,說明蒸餾出的實例相似度矩陣不能夠有效表達出實例間的關聯關系,因此,不能夠作為新的蒸餾知識來幫助有監督學生模型訓練。
本文提出了一種基于知識蒸餾的深度無監督離散跨模態哈希方法DUDCH。該方法利用預訓練無監督老師模型中的實例間關聯信息代替標簽幫助學生模型有監督訓練,在計算實例間相似度矩陣中保證其對稱性。另外,該算法采用端到端無監督模型作為老師模型,非對稱有監督模型作為學生模型,有效縮短了模型的運行時間。最后,該算法在哈希碼的求解過程中不放松哈希碼的離散約束條件,按位學習離散哈希碼。
在兩種準基跨模態數據集中與六種先進的跨模態哈希方法對比mAP 值與PR 曲線圖,表現了該算法的有效性。另外,從收斂性和參數設置來看,DUDCH 有效降低了組合模型的運行時間,且對參數變化并不靈敏,顯示出了較好的魯棒性。在將來,我們將考慮如何將組合模型聯合到統一框架當中。