








收稿日期:2021-10-30;修回日期:2022-01-06" 基金項目:廣東省重點領域研發計劃項目(2019B010121001);國家自然科學基金面上項目(61772141,62006048,61972102);科技部國家重點研發計劃項目(2018YFB1802400);廣東省科技計劃項目(2021A1515012017,2019B110210002,2019B020208001)
作者簡介:許炫淦(1998-),男,廣東汕尾人,碩士,主要研究方向為模式識別、跨模態檢索;房小兆(1980-),男,廣東廣州人,副教授,碩導,博士,主要研究方向為機器學習、模式識別;孫為軍(1975-),男(通信作者),安徽當涂人,副教授,碩導,博士,主要研究方向為大數據、機器學習、工業互聯網(gdutswj@gdut.edu.cn);韓娜(1984-),女,廣東廣州人,副教授,博士,主要研究方向為機器學習、模式識別;吳惠粦(1979-),男,廣東廣州人,主要研究方向為農業農村信息化;黃永慧(1975-),女,湖北麻城人,講師,博士,主要研究方向為智能信息處理.
摘 要:針對大多數跨模態哈希檢索方法僅通過分解相似矩陣或標簽矩陣,從而導致標簽語義信息利用不充分、標簽矩陣分解過程語義信息丟失以及哈希碼鑒別能力差的問題,提出了一種語義嵌入重構的跨模態哈希檢索方法。該方法首先通過最小化標簽成對距離和哈希碼成對距離之間的距離差,從而將標簽矩陣的成對相似性嵌入哈希碼;接著對標簽矩陣分解并重構學得共同子空間,共同子空間再回歸生成哈希碼,從而將標簽矩陣的類別信息嵌入哈希碼,并有效地控制標簽矩陣分解過程的語義信息丟失情況,進一步提高哈希碼的鑒別能力。在公開的三個基準數據集上進行了多個實驗,實驗結果驗證了該方法的有效性。
關鍵詞:跨模態檢索;有監督哈希;相似矩陣;標簽信息
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2022)06-007-1645-06
doi:10.19734/j.issn.1001-3695.2021.10.0608
Semantics embedding and reconstructing for cross-modal hashing retrieval
Xu Xuangan1a,Fang Xiaozhao1b,Sun Weijun1b,Han Na2,Wu Huilin3,Huang Yonghui1b
(1.a.School of Computer,b.School of Automation,Guangdong University of Technology,Guangzhou 510006,China;2.School of Computer Science,Guangdong Normal University of Technology,Guangzhou 510006,China;3.Guangzhou National Science amp; Technology Innovation Center of Modern Agricultural Industry,Guangzhou 510500,China)
Abstract:In order to solve the problem that most cross modal hash retrieval method only decompose the similarity matrix or label matrix,which led to insufficient utilization of label semantic information,loss of semantic information in the decomposition process of label matrix and weak discrimination of hash code,this paper proposed a hash method named SERCH(semantics embedding and reconstructing hashing).Firstly,it minimized the distance difference between the pairwise distances of label and hash code to embed the pairwise similarity of label matrix into hash code.Then,it decomposed and reconstructed the label matrix to obtain the common subspace,and regressed the common subspace to generate the hash code,so as to embed the category information into hash code,effectively controlled the loss of semantic information in matrix decomposition process,and further improved the discrimination of hash code.Extensive experiments were carried out on three benchmark data sets,and the experimental results demonstrate the effectiveness of SERCH.
Key words:cross-modal retrieval;supervised hashing;similarity matrix;label information
0 引言
隨著信息技術的更新和數據采集設備的發展,互聯網上各種形式的多媒體數據數量呈爆炸式增長。在大規模數據進行搜索時,由于計算成本的增長,傳統最近鄰搜索方法已經不再適用于這種場景。為了解決這一問題,近似最近鄰搜索(approximate nearest neighbor,ANN)方法,尤其是基于哈希的近似最近鄰搜索方法逐漸受到大量的關注[1~3]。通常,基于哈希的近似最近鄰搜索方法的目的在于將原始數據特征向量映射到漢明空間的低維二進制碼,其中原始特征空間數據點之間的相似關系保留在漢明空間,并且數據之間的相似性可以通過漢明距離進行計算,以便于搜索查詢。由于采用二進制的檢索編碼表示以及異或運算的相似性檢索,哈希方法可以顯著地降低存儲成本,并提高檢索速度,所以哈希技術開始引起人們廣泛的關注,并且在過去的幾十年中有許多的哈希方法[4~7]被提出。
在早期,哈希方法主要集中于單個模態的檢索任務,如圖像模態[8~10],但這種方法不適用于多模態檢索任務,例如圖像檢索文本,并且隨著互聯網上多媒體數據的快速增長,跨模態檢索任務變得越來越重要。因此,近年來越來越多的人提出跨模態的哈希檢索方法[11~14]。一般而言,跨模態哈希方法大致分為無監督和有監督兩類。前者僅通過捕獲原始空間中多模態數據之間的相關性學習哈希碼。相比之下,后者進一步利用標簽的語義信息,從而獲得更好的檢索性能。因此近年來,這種有監督的哈希方法受到了大量的關注。其中具有代表性的包括語義相關最大化哈希(semantic correlation maximization,SCM)[15]、離散跨模態哈希(discriminative cross-modal hashing,DCH)[16]、有監督矩陣分解哈希(supervised matrix factorization hashing,SMFH)[17]、標簽一致性矩陣分解哈希(label consistent matrix factorization hashing,LCMFH)[18]以及可拓展的離散矩陣分解哈希(scalable discrete matrix factorization hashing,SCRATCH)[19]等。這些有監督哈希方法通過不同的方式將標簽的語義信息嵌入到哈希碼中。例如語義相關最大化哈希(SCM)通過結合標簽信息最大化數據相關性,將標簽語義信息嵌入到哈希碼中,但該方法采用松弛策略解決哈希碼的二進制約束,帶來了較大的量化誤差;DCH采用標簽分類框架,將標簽語義信息嵌入到漢明空間中,提高了哈希碼的鑒別能力,并且為了改善松弛策略導致的量化誤差,DCH提出一種新的離散優化算法,可以逐位地求解哈希碼,但是該方法將帶來優化效率低下的問題;SMFH采用一個圖正則化項保存不同模態原始特征之間的相似性,但由于該方法利用了相似矩陣,所以在優化過程中會增加時間和空間復雜度,并且忽略了每個數據項對應類標簽之間的差異性;LCMFH利用語義標簽替換多模態數據之間的共同潛在語義子空間進行協同矩陣分解,但該方法只考慮類標簽的語義信息,忽略了數據項之間的成對相似性;SCRATCH通過矩陣分解以及標簽語義嵌入生成共同子空間,并在優化過程中同時學習哈希碼與哈希函數,但它在對標簽矩陣進行矩陣分解的過程中可能會丟失標簽語義信息。此外,同時學習哈希碼和哈希函數將會增加優化的復雜性。綜上所述,現有的方法仍存在以下問題:a)大多數方法只單一地考慮成對相似性或者標簽類別,不能充分地挖掘標簽信息;b)將標簽矩陣進行矩陣分解的過程中可能會出現信息丟失的情況,此前的方法忽略了這個潛在問題;c)大多數方法同時學習哈希碼和哈希函數,增加了算法的復雜性。
此外,隨著深度學習的發展,近年來也出現了一些深度哈希檢索方法[20~23]。與淺層方法對比,它們可以直接使用原始數據作為輸入,并且深度神經網絡具有較強的非線性表示能力,因此可以取得較好的效果。例如DESH[20]使用LabNet和ImgNet兩步框架,其中LabNet用于捕獲圖像對的豐富語義相關性,并將挖掘的語義信息作為監督信息,從而引導ImgNet網絡的哈希碼學習,但該方法的適用領域為單模態圖像檢索;DJSRH[23]則提出一種聯合語義親和矩陣,該矩陣集成了兩種不同模態的鄰域信息,并對小批量樣本進行端到端的深度網絡學習,但該方法只考慮了數據成對相似性,未利用標簽類別信息。此外,大多數深度網絡方法的訓練時間較長,且不能優化復雜的目標函數,因此本文主要關注淺層哈希損失函數的設計和優化算法,這對于生成高質量的哈希碼同樣非常重要。
綜上所述,本文提出一種新穎的有監督哈希方法,稱為語義嵌入重構哈希(semantics embedding and reconstructing ha-shing,SERCH)。為了考慮成對相似性,該方法首先假設標簽成對距離應保存在漢明空間中,使得標簽成對距離與哈希碼成對距離之間的距離差最小化。同時為了充分考慮標簽的類別信息,并且有效地控制標簽矩陣分解過程的信息丟失問題,該方法將標簽矩陣分解并重構到共同子空間,從而充分挖掘標簽的語義信息。此外,本文方法采用兩步哈希方法,先生成哈希碼,再由哈希碼作為監督信息生成特定模態下的哈希函數,提高方法的靈活性以及減小優化的復雜性。本文的主要工作總結如下:
a)提出一種新穎的有監督跨模態哈希檢索方法。該方法通過對標簽進行嵌入和分解重構,從而將標簽的成對相似性信息以及類別信息同時嵌入到哈希碼中。
b)同時對標簽矩陣進行分解和重構,有效地控制標簽矩陣分解過程中部分語義信息丟失所造成的誤差。
c)采用兩步哈希方法,首先通過優化算法迭代生成哈希碼,再由哈希碼作為監督信息生成特定模態下的哈希函數,提高方法的靈活性,并且減小優化的復雜性。
d)在三個公開的基準數據集上進行了廣泛的實驗。實驗結果表明,對比其他基準方法,SERCH具有明顯的優勢。
1 語義嵌入重構的跨模態哈希檢索
本章介紹了提出的SERCH的細節,本文使用的主要符號總結于表1。SERCH的框架如圖1所示,分為哈希碼學習和哈希函數學習。在哈希碼學習中,該方法首先通過最小化標簽成對距離和哈希碼成對距離之間的距離差,并采用非對稱策略,生成哈希碼B和共同子空間V;同時對標簽采用矩陣分解和重構學得共同子空間V;最后共同子空間回歸生成哈希碼B,使得語義信息完全嵌入到哈希碼中,并減小共同子空間與哈希碼之間的量化誤差。此外,對V添加正交以及均衡約束,保證了成對不同哈希碼之間的無關性以及每個二進制碼的平衡性。在哈希函數學習中,以學得的哈希碼作為監督信息,根據核線性回歸學習得到各模態的哈希函數。
1.1 成對距離最小化
為了保證語義相似的標簽能學到相似的哈希碼,許多有監督哈希方法通過分解相似矩陣學得哈希碼。然而,n×n大小的相似矩陣會在優化過程中極大地增加時間和空間復雜度。為了解決這一問題,Wang等人[24]提出了一種通過最小化標簽成對距離和哈希碼成對距離之間的距離差,從而學得哈希碼的方法BATCH,如式(1)所示。
minB‖BTB-rGTG‖2F" s.t. B∈{-1,1}r×n(1)
其中:G為2-范數歸一化標簽矩陣。將二進制標簽矩陣L替換為G的原因是為了提高學習階段的擬合程度,定義如式(2)所示。
Gi=Li/‖Li‖(2)
通過式(1),數據間的成對相似性可以嵌入到學得的哈希碼中,并且避免使用n×n大小的相似矩陣。然而,式(1)中的對稱二進制矩陣分解使得優化問題變成一個NP困難的問題。
為了使該優化問題可解,本文引入了一個非對稱策略,利用共同子空間V代替其中一個B,得到式(3)。
minB‖VTB-rGTG‖2F" s.t. B∈{-1,1}r×n(3)
通過非對稱策略可以避免采用松弛策略所帶來的量化誤差問題,并且可以同時學得共同子空間和哈希碼。
1.2 標簽矩陣分解與重構
除了考慮成對相似性信息以外,本文進一步考慮如何充分挖掘標簽的類別信息。Li等人[19]提出了一種將標簽進行矩陣分解,從而學得帶有類別語義信息的共同子空間方法SCRATCH,如式(4)所示。
minP,Vα‖L-PV‖2F+ρ‖P‖2F(4)
其中:L為標簽矩陣;P∈Euclid Math TwoRApc×r為映射矩陣;α、ρ是平衡參數;第二項為正則化項。在這種方式下,顯式的標簽類別語義信息可以嵌入到共同子空間V中,以確保學到的共同潛在語義信息與標簽類別語義信息保持一致。
然而,因為標簽矩陣L為二進制矩陣,這在一定程度上限制了共同子空間的學習。為了解決這一問題,本文將標簽矩陣L替換成2-范數標簽矩陣G,從而提高學習階段的擬合程度,更精準地將標簽矩陣分解得到共同子空間,如式(5)所示。
minP,Vα‖G-PV‖2F+ρ‖P‖2F(5)
但這仍然存在一個問題,該方法在對標簽矩陣進行分解的過程中,由于存在一個映射矩陣P,所以可能會丟失部分標簽語義信息,從而造成誤差并導致學得的V質量不高。
為了解決該問題,本文提出了標簽重構的方法。假設標簽矩陣可以重構學得共同子空間,因此問題公式轉換為
minP,F,Vα(‖G-PV‖2F+‖V-FG‖2F)+ρ(‖P‖2F+‖F‖2F)(6)
其中:F∈Euclid Math TwoRApr×c,第二項為正則化項。通過標簽矩陣重構得到共同子空間,可以減小在學得共同子空間的矩陣分解過程中由于部分語義信息丟失所造成的誤差。
在式(6)中,標簽的大量類別語義信息嵌入到共同子空間V,這使得標簽的語義信息得到了進一步的利用,因此后續生成的哈希碼也能集成更多的語義信息,具有更強的鑒別能力。
1.3 量化誤差最小化以及語義完全嵌入
本文在成對距離最小化步驟中采用非對稱策略,利用共同子空間V代替其中一個B,使得優化問題變得可解。但是這存在一個問題,哈希碼B和共同子空間V之間存在一定的量化誤差,這將導致學得的哈希碼質量不高。此外,本文在標簽矩陣分解與重構的過程中,單獨考慮了標簽的類別信息,將標簽進行矩陣分解與重構,從而學得帶有類別信息的共同子空間V,因此為了最小化哈希碼與共同子空間之間的量化誤差,同時將共同子空間V中學得的類別信息嵌入到哈希碼B中,本文引入了共同子空間回歸生成哈希碼的方法,如式(7)所示。
minB,R,V‖B-RV‖2F" s.t. B∈{-1,1} r×n,RRT=I(7)
其中:R∈Euclid Math TwoRApr×r是一個正交旋轉矩陣,有助于在訓練期間保持二進制約束以及直接生成離散的哈希碼,從而避免采用松弛策略所帶來的量化誤差。此外,為了使得學得的哈希碼更有效,本文在哈希碼上添加了正交約束與均衡約束,這保證了成對不同二進制碼之間的無關性以及每個二進制碼的平衡性,如式(8)所示。
minB,R,V‖B-RV‖2F
s.t. B∈{-1,1}r×n,RRT=I,BBT=nIr,B1n=0r(8)
但是對二進制矩陣采用這種嚴格的正交與均衡約束將導致優化問題難以解決。為了解決該問題,本文將約束轉移到共同子空間V,從而放寬約束,得到
minB,R,V‖B-RV‖2F
s.t. B∈{-1,1}r×n,RRT=I,VVT=nIr,V1n=0r(9)
1.4 目標函數
SERCH的總體目標函數是將式(3)(6)以及(9)聯合優化,得到式(10):
minB,V,P,F,R ‖VTB-rGTG|‖2F+
α(‖G-PV‖2F+
‖V-FG‖2F)+μ‖B-RV‖2F+ρ(‖P‖2F+‖F‖2F)
s.t. B∈{-1,1}r×n,VVT=nIr,V1n=0r,RRT=I(10)
其中:α、μ、ρ是控制對應項相對貢獻程度的非負平衡參數;最后一項為正則化項,以防止出現過度擬合。
1.5 優化算法
基于凸優化理論,可知本文的目標函數整體是非凸的,不過對于每一個優化變量是一個凸優化問題[16],因此使用迭代更新的方式優化目標函數。具體的迭代過程如下所述:
a)固定V、B、F、R,更新P。則式(10)可寫為
minPα‖G-PV‖2F+ρ‖P‖2F(11)
展開式(11)并對P求導,令其導數為零,可得閉式解:
P=αGVT(αVVT+ρI)-1(12)
由于VVT=nIr,所以P的閉式解等價于:
P=αGVT/(αn+ρ)(13)
b)固定V、B、P、R,更新F,則式(10)可寫為
minFα‖V-FG‖2F+ρ‖F‖2F(14)
展開式(14)并對F求導,令其導數為零,可得閉式解:
F=αVGT(αGGT+ρI)-1(15)
c)固定V、B、P、F,更新R,則式(10)可寫為
minR‖B-RV‖2F s.t. RRT=I(16)
對于該優化式子,由于它是一個正交普魯克問題[25],所以使用奇異值分解(SVD),由BVT=SΩT可得到
R=ST(17)
d)固定B、P、F、R,更新V,則式(10)可寫為
minV‖VTB-rGTG‖2F+μ‖B-RV‖2F+
α(‖G-PV‖2F+‖V-FG‖2F)
s.t. B∈{-1,1}r×n,VVT=nIr,V1n=0r,RRT=I(18)
為了優化上述式子,在VVT=nIr以及B∈{-1,1}r×n的約束下,將式(18)目標函數轉換為矩陣跡的形式,最終簡化為
maxV tr((rBGTG+αPTG+αFG+μRTB)VT)
s.t. VVT=nIr,V1n=0r(19)
為了簡化該表達式,本文定義J=In-1n1n1Tn以及Z=rBGTG+αPTG+αFG+μRTB,并對ZJZT執行如下的特征分解:
ZJZT=[Q ]Ω000Q T(20)
其中:Ω∈Euclid Math TwoRApr′×r′和Q∈Euclid Math TwoRApr ×r′分別是正特征值的對角矩陣和相應的特征向量;對應于零特征值的r-r′個特征向量;r′是ZJZT的秩。通過對進行Gram-Schmidt正交化處理,得到一個正交矩陣∈Euclid Math TwoRApr×(r-r′)。進一步定義P=JZTQΩ-1/2和一個隨機正交矩陣∈Euclid Math TwoRApn×(r-r′),若r′=r,則、、都不存在。最終,可以得到式(19)的最優解:
V= n [Q ][P ]T(21)
e)固定V、P、F、R,更新B,則式(10)可寫為
minB μ‖B-RV‖2F s.t. B∈{-1,1} r×n(22)
與優化V類似,上述公式可以等價地轉換為
maxB tr((rVGTG+μRV)BT) s.t. B∈{-1,1} r×n(23)
因此,式(23)的最優解為
B=sgn(rVGTG+μRV)(24)
1.6 哈希函數的學習
為了抓住數據的非線性結構,本文在學習哈希函數之前將對原始數據進行核化處理。核函數可以更好地表達原始特征之間非線性模態內的相關性[30],因此本文采用RBF核函數,即徑向基函數,如式(25)所示。
t(x)=[exp(‖x-A(t )1‖2-2σ2t),…,exp(‖x-A(t)kt‖2-2σ2t)]T(25)
其中:A(t)∈Euclid Math TwoRApdt×kt和σt分別為核函數的中心點和第t模態的核寬度;kt為第t模態的中心點個數。A(t)由隨機從訓練集X(t)中挑選的kt個特征向量構成。具體而言,對于每一個實例,每個文本向量的核化特征表示為1(x(1)),每個圖像向量的核化特征表示為2(x(2))。在兩步哈希方法中,SERCH在第二步根據第一步已學到的哈希碼作為監督信息,學習相應模態的哈希函數。具體通過求解以下式子獲得第t 模態的哈希函數:
minW(t)‖B-W(t)t(X(t))‖2F+γ‖W(t)‖2F(26)
其中:γ是平衡參數,并且W(t)的最優解如下所示。
W(t)=Bt(X(t))T(t(X(t))t(X(t))T+γI)-1(27)
因此,給定一個第t模態的查詢樣本,例如q(t),本文可以通過以下哈希函數得到它的哈希碼:
Ht(q(t))=sgn(W(t)t(q(t)))(28)
最后,SERCH的整個流程可總結如算法1所示。
算法1 語義嵌入重構的跨模態哈希檢索
/*第一步:哈希碼學習*/
輸入:2-范數歸一化標簽矩陣G,哈希碼長度r,最大迭代次數T,參數α、μ、ρ、γ、kt。
輸出:哈希碼矩陣B。
初始化:用標準正態分布隨機初始化B,V。
repeat
通過式(13)更新P
通過式(15)更新F
通過式(17)更新R
通過式(21)更新V
通過式(24)更新B
until達到收斂或者最大迭代次數T
返回哈希碼矩陣B
/*第二步:哈希函數學習*/
輸入:哈希碼矩陣B,文本矩陣X(1)和圖像矩陣X(2)。
輸出:哈希函數H1、H2。
通過RBF核函數分別把X(1),X(2)映射到核空間
通過式(27)構造映射矩陣W(t)
返回哈希函數H1、H2
2 實驗
2.1 數據集與實驗設置
為了驗證SERCH的有效性,本文在Wiki[27]、MIRFlickr-25K[28]以及NUS-WIDE[29]三個基準數據集上進行了實驗驗證,這些數據集廣泛應用于跨模態哈希檢索領域,表2總結了三個數據集的統計信息。
本文首先在MIRFlickr-25K數據集上進行參數敏感性分析,詳細內容于2.6節闡述。從實驗結果發現,當α=0.01,μ=0.001,ρ=1E-4,SERCH在MIRFlickr-25K數據集上取得最好的實驗結果。另外,從圖中看到,參數α與μ的變化對實驗結果影響不大,而參數ρ負責控制正則化項,因此為了簡便,本文對所有數據集設置相同的參數大小。此外在所有數據集上,本文設置迭代次數T=3,文本數據核化后的特征維數k1=1 000,圖像數據核化后的特征維數k2=500。所有實驗在MATLAB R2017b,Intel Core i5 CPU @2.3 GHz環境下進行。
2.2 對比方法與評估指標
本文與近年來無監督基于矩陣分解的哈希方法CMFH[26]及有監督的SCM[15]、DCH[16]、SMFH[17]、SCRATCH[19]以及LCMFH[18]哈希方法,在文本檢索圖像(簡化為txt2img)和圖像檢索文本(簡化為img2txt)兩個跨模態檢索任務上進行性能的比較與分析。在實驗中,本文使用跨模態檢索領域中常用的評估指標mean average precision(mAP)和精度—召回率曲線(PR曲線)評估各算法的性能。其中,對于mAP,其值越大表明結果越好;對于PR曲線,其與坐標軸圍繞的面積越大或者平均值越高,則表現越好。
2.3 mAP比較
表3呈現了各方法在三個數據集上隨著哈希碼長度增加的mAP比較情況,可以發現:a) 大多數方法隨著哈希碼長度的增加而提高mAP結果,這說明在一定的哈希碼長度范圍內,哈希編碼越長越有利于編碼更多的鑒別信息,從而提高檢索性能;b)有監督方法的表現普遍比無監督方法的表現更好,這說明了語義信息的重要性;c)SERCH在Wiki數據集的表現并不總是最好的,然而在MIRFlickr-25K和NUS-WIDE數據集的表現總是優于其他方法,其根本原因在于Wiki數據集是單標簽數據,而本文方法主要工作是通過充分挖掘標簽語義信息并有效控制語義信息丟失,從而提高檢索性能,所以在MIRFlickr-25K和NUS-WIDE數據集上能充分發揮SERCH的學習能力。
2.4 收斂分析
圖2展示了SERCH在Wiki和NUS-WIDE數據集不同哈希碼長度的收斂曲線。從圖中觀察到,SERCH無論是在Wiki這種小規模數據集或是在NUS-WIDE之類的大規模數據集,收斂速度都非常快,僅需要3次迭代就能趨于收斂。這表明本文方法整體計算成本低,具有一定優勢,可以有效地應用于各種大規模的跨模態檢索任務。
2.5 消融實驗分析
為驗證SERCH各個模塊的有效性,本節在三個不同的基準數據集中進行消融實驗,進一步分析式(10)各個模塊對SERCH整體表現的影響程度,其中哈希碼長度分別為32位和128位。實驗結果總結于表4,包含Img2Txt和Txt2Img兩種檢索任務下的mAP結果。表中“-”符號表示去除SERCH其中的某個模塊,例如“核化-”表示使用原始特征而不是核化特征;“標簽重構-”表示只采用標簽分解式(4)而非式(6);“正交與均衡約束-”表示去除正交和均衡的約束限制;“兩步哈希法-”表示共同學習哈希碼和哈希函數。
從表4可看出:a)核化處理能明顯地提高檢索性能,原因在于它能夠充分提取數據的非線性結構;b) “標簽重構-”得到最差的mAP結果,這表明標簽重構在SERCH中的重要性,也進一步表明標簽重構可以有效地控制標簽矩陣分解過程中語義信息丟失的問題;c)正交與均衡約束亦可顯著提高檢索性能;d) 兩步哈希法同樣可以提升檢索性能,這證明了兩步哈希法可以生成更好的哈希碼,并且可以減小模型優化的復雜度。
2.6 參數敏感性分析
圖3展示SERCH在MIRFlickr-25K數據集上,對目標函數式(10)各參數的敏感性分析結果,其中哈希碼長度固定為64位,在對其中一個參數的敏感性進行實驗分析時,其他被固定的參數采用2.1節實驗設置中的參數取值。整體上,參數α控制標簽分解與重構在方法中的影響程度,參數μ控制共同子空間生成哈希碼并減小兩者之間量化誤差的權重,參數ρ控制正則化項的懲罰程度。
從圖3可觀察得到:a)參數α和μ的變化對SERCH方法的表現有一定的微小影響,在Img2Txt檢索任務上MAP穩定在0.75左右,在Txt2Img檢索任務上mAP穩定在[0.83,0.84],這說明了SERCH的穩定性;b)當參數α從0開始逐漸增加時,mAP值逐漸提高,這表明式(10)中第二項的有效性,即標簽分解與重構,此外,當α取值為0.01時,方法取得了最佳的效果;c)當參數μ處于(0,0.001]時,mAP值有所提升,表明式(10)中第三項的有效性,即共同子空間生成哈希碼,并且μ取0.001時,SERCH取得最高mAP結果;d)當參數ρ取值為1E-4時,方法取得了最佳的mAP結果,而當取值逐漸增大時,mAP開始顯著下降,其原因可能是模型欠擬合。
2.7 精確率—召回率曲線對比
圖4展示SERCH在三個不同數據集上進行兩種檢索任務,哈希編碼長度取64位的P-R曲線??偟膩碚f與表3的mAP對比結果類似,SERCH表現優于其他方法。其中值得注意的是,SCRATCH、LCMFH和SERCH同樣都是基于矩陣分解的方法,然而SERCH獲得了更好的mAP結果,其根本原因在于SERCH能夠同時利用標簽的成對相似性信息與類別信息,所以可以充分挖掘標簽語義,并且對比SCRATCH,SERCH通過對標簽進行重構生成共同子空間,接著將共同子空間回歸生成哈希碼,從而有效控制標簽矩陣分解過程所導致的信息丟失情況,學得具有更多語義信息的哈希碼,提高哈希碼的鑒別能力。
2.8 與深度哈希方法的對比
為了進一步評估SERCH的性能,本文將與三種近年來前沿的深度跨模態哈希方法,包括DCMH[20]、ADAH[21]以及DJSRH[23],在MIRFlickr-25K和NUS-WIDE數據集上進行對比。為了公平對比,與該三種算法的做法一樣,本文也采用ImageNet預訓練的CNN-F深度網絡用于提取圖像模態的4 096維CNN特征以及文本模態的1 386維詞袋特征,并稱為SERCHcnn。表5展示了SERCHcnn與三種基準算法的mAP實驗結果對比,其中對于所有基準算法,實驗結果均來自于原論文。從表中可以觀察得到,SERCHcnn的表現基本優于其他算法,尤其是DCMH和ADAH兩種算法,主要原因是SERCH能夠充分挖掘標簽語義信息從而生成具有更多語義信息的哈希碼,提高哈希碼的鑒別能力,但相對于DJSRH而言,SERCHcnn的表現并不是很突出。然而值得注意的是,DJSRH是采用集成多模態鄰域信息的聯合語義親和矩陣,并利用端到端的深度網絡訓練方式進行學習,而SERCHcnn本身不是一個端到端的深度網絡模型,而是淺層哈希模型,因此它的訓練時間更短并且優化復雜度更低。綜上所述,綜合衡量實驗結果以及模型復雜度等指標,SERCHcnn是一種相對更優的算法。
2.9 可視化結果
為了進行可視化觀察,本文進一步展示了SERCH在NUS-WIDE數據集的可視化結果,具體如表6所示。在表6中,中間部分包括三個查詢的圖像—文本對,左側部分是它們的真實標簽,右側部分分別對應圖像查詢文本以及文本查詢圖像的檢索結果。對于每個圖像查詢,將根據出現的頻率依次排序,排列出前10個檢索得到的文本中的標簽,其中用粗體標記相關的標簽;對于每個文本查詢,將根據哈希碼之間的漢明距離排序,排列出前10個檢索得到的圖像。從可視化結果可以觀察得到:a)SERCH能夠檢索得到與查詢樣本在圖像或文本語義上相似的檢索結果;b)SERCH能夠優先檢索得到與圖像或文本在視覺上更接近的樣本,體現了本文方法的有效性。
3 結束語
本文提出了一種語義嵌入重構的跨模態哈希檢索方法,該方法首先通過最小化標簽成對距離和哈希碼成對距離之間的距離差,將數據間的成對相似性嵌入到哈希碼中;同時,通過標簽矩陣分解與重構將標簽的類別信息也嵌入到哈希碼,其中標簽重構可以有效控制標簽矩陣分解過程語義信息丟失的情況,使學得的哈希碼具有更豐富的語義信息,提高模型鑒別能力。此外,本文通過兩步哈希方法,提高了SERCH的靈活性,并減小了優化過程的復雜性。實驗結果驗證了該方法能夠在多個公開的數據集上取得最好的表現。
下一步工作將考慮引入協同矩陣分解,在生成共同潛在語義子空間的過程中減小不同模態之間的異質性,保存不同模態之間的相似性到哈希碼,從而進一步提高哈希碼的鑒別能力,并考慮引入深度神經網絡來學習各模態的哈希函數。
參考文獻:
[1]Hong Weixiang,Meng Jingjing,Yuan Junsong.Tensorized projection for high-dimensional binary embedding[C]//Proc of AAAI Confe-rence on Artificial Intelligence.2018.
[2]Yang Xun,Wang Meng,Tao Dacheng.Person re-identification with metric learning using privileged information[J].IEEE Trans on Image Processing,2017,27(2):791-805.
[3]Peng Yuxin,Huang Xin,Zhao Yunzhen.An overview of cross-media retrieval:concepts,methodologies,benchmarks,and challenges[J].IEEE Trans on Circuits and Systems for Video Technology,2017,28(9):2372-2385.
[4]Yang Yang,Luo Yadan,Chen Weilun,et al.Zero-shot hashing via transferring supervised knowledge[C]//Proc of the 24th ACM International Conference on Multimedia.New York:ACM Press,2016:1286-1295.
[5]Song Jingkuan,Yang Yi,Huang Zi,et al.Effective multiple feature hashing for large-scale near-duplicate video retrieval[J].IEEE Trans on Multimedia,2013,15(8):1997-2008.
[6]Hu Mengqiu,Yang Yang,Shen Fumin,et al.Hashing with angular reconstructive embeddings[J].IEEE Trans on Image Processing,2017,27(2):545-555.
[7]Xu Xing,Shen Fumin,Yang Yang,et al.Learning discriminative binary codes for large-scale cross-modal retrieval[J].IEEE Trans on Image Processing,2017,26(5):2494-2507.
[8]Luo Xin,Nie Liqiang,He Xiangnan,et al.Fast scalable supervised hashing[C]//Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval.New York:ACM Press,2018:735-744.
[9]Shen Fumin,Yang Yang,Liu Li,et al.Asymmetric binary coding for image search[J].IEEE Trans on Multimedia,2017,19(9):2022-2032.
[10]Luo Xin,Wu Ye,Xu Xinshun.Scalable supervised discrete hashing for large-scale search[C]//Proc of World Wide Web Conference.2018:1603-1612.
[11]康培培,林澤航,楊振國,等.成對相似度遷移哈希用于無監督跨模態檢索[J].計算機應用研究,2021,38(10):3025-3029.(Kang Peipei,Lin Zehang,Yang Zhenguo,et al.Pairwise similarity transferring hash for unsupervised cross modal retrieval[J].Application Research of Computers,2021,38(10):3025-3029.)
[12]張藝超,黃樟燦,陳亞雄.一種多尺度平衡深度哈希圖像檢索方法[J].計算機應用研究,2019,36(2):621-625,629.(Zhang Yichao,Huang Zhangcan,Chen Yaxiong.Multi-scale balanced deep hashing method for image retrieval[J].Application Research of Computers,2019,36(2):621-625,629.)
[13]Wang Di,Wang Quan,Gao Xinbo.Robust and flexible discrete ha-shing for cross-modal similarity search[J].IEEE Trans on Circuits and Systems for Video Technology,2017,28(10):2703-2715.
[14]張學旺,周印.基于大批量訓練和正交正則化的跨模態哈希方法[J].計算機應用研究,2021,38(4):1092-1096.(Zhang Xuewang,Zhou Yin.Cross modal hash method based on mass training and orthogonal regularization[J].Application Research of Computers,2021,38(4):1092-1096.)(下轉第1672頁)
[15]Zhang Dongqing,Li Wujun.Large-scale supervised multimodal ha-shing with semantic correlation maximization[C]//Proc of AAAI Conference on Artificial Intelligence.2014.
[16]Xu Xing,Shen Fumin,Yang Yang,et al.Learning discriminative binary codes for large-scale cross-modal retrieval[J].IEEE Trans on Image Processing,2017,26(5):2494-2507.
[17]Tang Jun,Wang Ke,Shao Ling.Supervised matrix factorization hashing for cross-modal retrieval[J].IEEE Trans on Image Proces-sing,2016,25(7):3157-3166.
[18]Wang Di,Gao Xinbo,Wang Xiumei,et al.Label consistent matrix factorization hashing for large-scale cross-modal similarity search[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(10):2466-2479.
[19]Li Chuanxiang,Chen Zhenduo,Zhang Pengfei,et al.SCRATCH:a scalable discrete matrix factorization hashing for cross-modal retrieval[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:1-9.
[20]Jiang Qingyuan,Li Wujun.Deep cross-modal hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:3232-3240.
[21]Zhang Xi,Lai Hanjiang,Feng Jiashi.Attention-aware deep adversarial hashing for cross-modal retrieval[C]//Proc of European Conference on Computer Vision.2018:591-606.
[22]Li Ning,Li Chao,Deng Cheng,et al.Deep joint semantic-embedding hashing[C]//Proc of IJCAI.2018:2397-2403.
[23]Su Shupeng,Zhong Zhisheng,Zhang Chao.Deep joint-semantics reconstructing hashing for large-scale unsupervised cross-modal retrieval[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3027-3035.
[24]Wang Yongxin,Luo Xin,Nie Liqiang,et al.BATCH:a scalable asymmetric discrete cross-modal hashing[J].IEEE Trans on Knowledge and Data Engineering,2021,33(11):3507- 3519.
[25]Schonemann P H.A generalized solution of the orthogonal procrustes problem[J].Psychometrika,1966,31(1):1-10.
[26]Liu Wei,Wang Jun,Ji Rongrong,et al.Supervised hashing with kernels[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2012:2074-2081.
[27]Rasiwasia N,Pereira J C,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]//Proc of the 18th ACM International Conference on Multimedia.New York:ACM Press,2010:251-260.
[28]Huiskes M J,Lew M S.The MIRFlickr retrieval evaluation[C]//Proc of the 1st ACM International Conference on Multimedia Information Retrieval.New York:ACM Press,2008:39-43.
[29]Chua T S,Tang Jinhui,Hong Richang,et al.NUS-WIDE:a real-world Web image database from National University of Singapore[C]//Proc of ACM International Conference on Image and Video Retrieval.New York:ACM Press,2009:1-9.
[30]Ding Guiguang,Guo Yuchen,Zhou Jile.Collective matrix factorization hashing for multimodal data[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:2075-2082.