侯騰達,金 冉,2,王晏祎,蔣義凱
1.浙江萬里學院 大數據與軟件工程學院,浙江 寧波 315100
2.浙江大學 計算機科學與技術學院,杭州 310027
跨模態檢索(cross-modal retrieval,CMR)是計算機視覺與自然語言處理的交叉領域,該領域在語音-面容匹配與檢索、手語翻譯、材料識別分類等實際應用方面都取得了重大突破。跨模態檢索是指用戶可用某一模態數據來查詢不同模態的數據。例如在觀看籃球比賽時,用戶可通過球賽照片來檢索與球賽相關的音頻、視頻、文字等多媒體信息,較單模態檢索更加靈活,信息更豐富。以圖像-文本檢索為例,圖像數據I={i1,i2,…,in},文本數據T={t1,t2,…,tm},當憑借任一文本數據tx,x∈[1,n]查詢與文本對應圖像數據時,則得到的跨模態檢索結果集合可表示為vx={vy|max sim(tx,vy),y∈[1,n]}。
Peng等人[1]對2017年之前跨模態檢索的相關技術進行分類總結,并制定了基準,為該領域發展奠定了良好基礎。為便于跨模態檢索領域初學者能夠了解到此領域最新研究進展,本文研究跨模態檢索領域由始以來發展的基本路線和近期研究現狀,主要貢獻如下:
(1)分析了跨模態檢索主流方法近幾年的最新研究進展,探討了跨模態檢索現階段存在的挑戰。
(2)介紹具有代表性的跨模態方法,與其他研究綜述不同,本文聚焦于以深度學習為研究背景的跨模態學習方法,并根據幾種主流的深度學習技術進行簡述。
(3)列舉了每類方法中具有代表性的方法,并對其優勢和局限性做出對比分析,并對各類跨模態檢索方法做出評述和總結。
實值表示學習方法是指對不同模態進行特征提取,并直接對跨模態特征進行學習。根據實值表示學習方法的不斷演化發展,文中列舉了具有代表性的實值表示學習方法[2-6],如表1所示。本章根據每種方法的技術特點,將實值表示學習方法大致分為兩大類,并介紹一些早期經典方法以及近幾年領域內研究的熱點模型。

表1 代表性實值表示學習方法簡要介紹Table 1 Brief introduction of representative real-valued representation learning methods
基于子空間方法的跨模態檢索越來越受到人們的關注,它通過學習變換矩陣,將異構數據映射到同一個語義空間,在同一個度量空間中比較不同的模態數據。子空間學習方法在跨模態檢索任務中也表現出了其優異的檢索性能。
1.1.1 傳統統計相關學習法
典型相關性分析(canonical correlation analysis,CCA)能夠將兩個多維變量之間的線性關系進行關聯的方法,從而使不同模態之間的線性關聯最大化。1936年Hotelling[7]率先提出了CCA用于降低變量維度,并處理兩變量之間的線性關系。假設兩種不同模態特征矩陣X=[x1,x2,…,xn],Y=[y1,y2,…,yn],ωx、ωy是兩投影向量,將特征矩陣轉化為線性組合:

構建集合內協方差矩陣ΣXX、ΣYY和集合間協方差矩陣ΣXY:

通過計算U和V兩線性組合之間的相關系數ρ,體現兩者間的相關性:

構建拉格朗日方程L,以ωTxΣXXωx=1,ωTyΣYYωy=1為約束條件,找到最佳投影向量ωx、ωy最大化線性組合U和V之間的相關性:

設λ和θ為系數變量,找到其特征值最大的特征向量:

其主要任務是將不同多維數據經線性變換投影為一維數據,其投影的主要標準是使得兩組數據的相關系數最大化,由此便可得出兩種不同模態數據間特征的最大相似性。但傳統CCA方法具有一定局限性:
(1)僅對兩個及兩個以下的視圖有效。
(2)僅能計算兩視圖間的線性相關性,不能解決實際應用中的非線性問題。
(3)傳統CCA是一種無監督算法,在處理有監督分類問題時,無法利用標簽信息。
為解決上述傳統CCA的缺陷,研究者在傳統CCA的基礎上進行了一系列相關研究:Hardoon等人[2]提出一種核典型相關性分析的方法(kernel canonical corre‐lation analysis,KCCA)改善了傳統CCA無法檢測非線性關系的缺點,并有效利用兩組多維數據間的非線性關系,降低數據維度,隨著技術發展需求,Hwang等人[8]將其用于跨模態檢索任務中,但很多KCCA方法在高維特征空間產生過擬合現象,且難以處理大規模數據。為解決上述過擬合問題,提高CCA的穩定性,Cai等人[9]提出一種魯棒性核CCA算法(KCCA-ROB)。
傳統CCA兩視圖已滿足不了檢索對數據語義的多角度需求,為此,Gong等人[10]在兩視圖基礎上結合第三個視圖,用于捕捉高層圖像語義,Shao等人[11]改進CCA算法(ICCA),將傳統CCA的兩視圖擴展到了四視圖,學習模態內語義一致性,并將四視圖CCA嵌入到漸進式框架,來緩解過度擬合問題。除以上以CCA為基礎進行優化的方法外,Pereira等人[12]還對CCA做出變形,提出無監督相關匹配(CM),有監督語義匹配(SM),以及兩者結合的語義相關匹配(SCM),將多類邏輯回歸應用于CCA獲得的最大相關特征表示。
隨著深度學習(deep learning,DL)的不斷發展,深度典型相關性分析(deep-CCA,DCCA)[13]應運而生,DCCA不僅解決了非線性的問題,而且還解決了KCCA核函數選取不可知性和可擴展性問題。相對于KCCA模型來說,DCCA模型結構更為簡潔,提高了跨模態檢索性能,兩視圖DCCA結構圖如圖1所示。以此為基礎,Zeng等人[14]采用有監督的方式,構建基于DCCA的跨模態檢索方法,其注意力主要集中于利用標簽信息來克服不同模態信息之間的異構鴻溝。受SCM的啟發,Wei等人[15]提出Deep-SM來解決帶有標簽的樣本的圖像和文本之間的跨模式檢索問題。

圖1 DCCA示意圖Fig.1 Schematic of DCCA
此外,將跨模態自編碼器與DCCA相結合構造出的拓展DCCA模型[16]將對應模態缺失特征進行重構,極大地確保了兩模態之間特征的最大相關性。在此之后,Zeng等人[17]又提出一種用于音頻-視頻檢索,基于聚類CCA的端到端有監督學習網絡結構(TNN-C-CCA)。除上述方法,Shu等人[18]對ML-CCA[4]做出了進一步改進,提出SML-CCA,不僅能夠像ML-CCA一樣同時學習兩種模態數據的共同語義空間,而且很好地解決了MLCCA只關注語義相關性,忽略特征相關性的問題。在上述方法中,經過研究者的改進一定程度上彌補了CCA的缺點,證明了語義信息對提高跨模態檢索精準度的有效性。
1.1.2 基于圖正則化的方法
跨模態檢索任務在執行過程中通常存在兩個根本問題:相關性度量和耦合特征選擇。在大部分跨模態工作研究中,研究者只針對模態間數據的相似性度量提出一些解決方案,通過學習投影矩陣的方式將不同模態數據投影到同一個子空間中,進而測量不同模態間的相似性。隨著研究推進,Wang等人[19]解決了耦合特征選擇問題,同時從不同的特征空間中選擇合適且識別度高的特征。此外,對投影數據加入多模態圖正則化項能夠保持模態內和模態間的相關性。
圖正則化在半監督學習中得到廣泛應用[20],圖中邊的權值代表跨模態數據的關聯度,通過權值來預測未標記數據的語義。為將語義信息和模態間相關系數進行統一優化,Zhai等人[21]提出聯合表示學習算法(joint representation learning,JRL),首次將不同模態的稀疏矩陣和圖正則化集成到統一優化問題中,在JRL的基礎之上,JGRHML[22]將不同模態結構整合到聯合圖正則化中,利用不同模態之間的互補關系,學習更好的特征表示,使得兩種模態之間的解平滑度更高。在跨模態檢索任務中,若兩個不同任務(如I-T,T-I)學習同一投影矩陣,會導致兩任務性能趨向均衡,單一任務上不能表現出最佳性能,為使檢索性能最優化,Wang等人[6]提出一種基于圖正則化的方法GRMD,該方法針對不同任務學習兩對投影,并保護模態內和模態間的特征相關性和語義相關性。圖正則化方法能夠有效在同一框架中對跨模態數據建模,且展示不同模態間的語義相關性,不足的是,在大規模數據集上,由于樣本容量龐大,類別繁多,因此跨模態圖的復雜度較高,構造難度較大。GRMD框架圖如圖2所示。

圖2 GRMD框架結構圖Fig.2 Flowchart of GRMD method
基于子空間學習的方法在跨模態信息檢索中起著至關重要的作用,其為解決跨模態數據間的異構性有著非常顯著的效果,另外,根據不同模態數據間的相關性,子空間學習能夠捕捉到兩模態之間的互補信息,并利用先驗知識,挖掘多模態數據中的高層語義。
1.2.1 基于特征表示的方法
基于特征表示的方法一般通過兩種方式來提取更適合模型學習的數據特征,第一種是對特定場景選取相應網絡結構來提取對模型學習影響較大的特征,另一種方法則是統攬全局特征,對經典神經網絡做出改進調整。由于該類方法尤其對大規模、多標簽數據集有良好的適應性,可為未來跨模態檢索提供更有效的設計思路。
神經網絡提取特征對模型學習效率和學習質量有著很大的影響,以針對不同場景或不同實體選用特定網絡,能夠使得特征提取更加高效,更具代表性。為此,Li等人[23]提出了DMASA,采用多種自注意機制從不同角度提取圖像和文本的細粒度特征。然后,將粗粒度和細粒度特征集成到多模態嵌入空間中,在該空間中可以直接比較圖像和文本之間的相似度。但自注意力機制在編碼時會過度將注意力集中于自身的位置,為解決此問題,Jin等人[24]采用粗細粒度并行注意機制來處理多模式視頻的全局和局部特征。因此,增強了相同模式視頻特征中特征點之間的關聯度,將多頭注意力機制集成到粗細粒度并行注意力中,增強了模型對特征的接受程度,并從多個角度處理相同的視頻模態特征。Ji等人[25]提出可解釋的雙路徑圖推理網絡,該網絡通過利用視覺元素和語言元素之間的細粒度語義相關性來生成關系增強的視覺和文本表示。為獲取文本中的有效特征,Xie等人[26]提出SEJE,用于學習跨模態聯合嵌入的兩階段深度特征提取框架,利用LSTM來識別關鍵術語。與前者類似,Zhao等人[27]設計了一個語義特征提取框架,為相似度度量提供豐富的語義特征并創建多個注意力圖以從不同角度關注局部特征并獲得大量語義特征,與其他積累多個語義表示進行均值處理不同,使用帶有遺忘門的LSTM來消除重復信息的冗余。
另外,編碼器在特征提取方面也做出重大貢獻,Gao等人[28]提出圖像編碼器、文本編碼器和多模式編碼器,用于提取文本特征和圖像特征。與單模態編碼器相比,該編碼器學習公共低維空間來嵌入圖像和文本,從而使圖像-文本匹配對象能夠挖掘出豐富的特征信息。
1.2.2 基于圖文匹配的方法
基于圖文匹配的方法更關注于不同模態間的結構關聯,此類方法通過研究圖像和文本模態間的語義對應關系來增強模態間特征表示的一致性。圖文匹配又可分為圖像文本對齊,跨模態重構以及圖文聯合嵌入,下面將按照以上三類對基于圖文匹配方法進行介紹。
跨模態重構是指以一種模態數據通過神經網絡生成另一種模態結構的數據,跨模態重構能夠保留重建模態信息,減少模態特征異質性,并增強語義辨識能力。Feng等人[3]提出一種跨模態學習模型(Corr-AE),通過多模態重構和單模態重構兩組模型,將相關學習與表示學習作為一個整體來考慮,以最小化表示學習誤差,并將輸入模態進行重構。但在此模型中,高層語義信息被忽略掉,這使得該模型在檢索精度上會受到一定的影響。Xu等人[29]提出AAEGAN通過相互重建每個模態數據,以類嵌入作為重建過程中的輔助信息,使跨模態分布差異最小化。為使生成模態更加具有模態間語義一致性,Wu等人[30]提出AACR,通過增強對抗訓練將一種源模態轉換為另一種目標模態,從而將來自不同模態的數據對齊。
一部分研究者通過實現圖像中實體與文本片段對齊來增強模態間語義一致性,Guo等人[31]提出使用圖卷積神經網絡編碼以學習視覺關系特征,然后,在關系特征的監督下,使視覺與文本特征對齊。但面對多元場景中各種實體間的復雜關系,難以準確捕捉其中的對應關系,Chen等人[32]提出了一種迭代匹配與重復注意記憶(IMRAM)方法,該方法關注多模態數據的細粒度信息,通過多步對齊來獲取圖像和文本之間的對應關系。Cheng等人[33]提出雙向聚焦語義對齊注意網絡(BF‐SAAN),采用雙向聚焦注意機制共享模態語義信息,進一步消除無關語義信息的負面影響,探索二階協方差池以獲得多模態語義表示,從而捕獲模態通道語義信息,實現圖像文本模態之間的語義對齊。
還有研究者認為,僅通過局部對齊難以使模型掌握數據整體關系,關注全局信息產生的特征辨識度不強,采用聯合嵌入的方式才能有效減小“語義鴻溝”。因此,Wang等人[5]采用對抗機制,提出對抗式跨模態檢索(adversarial cross-modal retrieval,ACMR),有監督地對抗跨模態檢索特征空間內容更加豐富,以分類方式區分不同的模態,其利用特征投影產生模態不變性以及區分性表示,通過對抗性訓練學習特征以混淆模態分類器,并引入三重約束機制,來保證公共子空間中的模態語義結構,其結構如圖3所示。與對抗網絡形成區分性表示不同,為學習不同模態的通用表示,Tian等人[34]提出MMCA-CMR,多模態數據嵌入到公共表示空間中,模型借助自編碼器學習來自不同模式和內容信息的特征向量,有助于在跨模式檢索中彌合多模式數據之間的異構鴻溝。He等人[35]提出CAAL,通過并行編碼器分別生成圖像和文本特征的通用表示,并由兩個并行GANs生成虛假特征來訓練鑒別器,彌合不同模態間差異。

圖3 ACMR基本框架圖Fig.3 Flowchart of ACMR method
在海量多媒體數據中查找用戶想要的信息難度越來越大,這不僅給跨模態檢索任務精度提出了更高要求,同時檢索效率也迎來很大的挑戰。由于存儲成本低,查詢效率高,近年來,哈希技術在海量信息處理以及多模態信息檢索上起到了重大的作用,在2010年,隨著Bronstein等人[36]首次將哈希技術用于跨模態數據相似性研究中,跨模態哈希(cross-modal hashing,CMH)逐漸表現出其優勢。首先要將多維特征向量X∈Rd×n轉化成相應k位哈希碼z={z1,z2,…,zk},由對應哈希函數獲得:

常用的哈希函數是線性哈希函數:

當z≥0時,sgn(z)=1,反之,sgn(z)=-1,w是投影向量,b是偏置變量,另外核哈希函數也是常用的:

{st}是隨機抽取的經典樣本,{ωt}代表權重值。另外,還有基于最鄰近向量分配的函數:

在漢明空間中,通常用漢明距離dhij來描述哈希碼yi和yj之間的距離,漢明距離就是兩哈希碼之間對應不同的位數:

兩哈希碼之間的內積shij=yiTyj也可作為相似性衡量標準,在實際檢索過程中,往往通過距離查找表來計算哈希碼之間的距離,來推斷跨模態數據間的相關程度。而在跨模態檢索過程中,僅使用數據的單一特征作為學習內容已不足以滿足跨模態數據之間的對比選擇,Kumar等人[37]提出跨視圖哈希(cross view hashing,CVH),這也為至今的基于哈希的跨模態檢索研究奠定了良好的基礎。
根據學習過程中對樣本標簽的使用情況,跨模態哈希大致可分為有監督哈希和無監督哈希,而有監督方法中還涉及半監督學習方法。通常來講,使用標簽信息訓練模型會使得檢索精準度更高,但隨DL等技術的衍化發展,有些無監督的方法也可能取得令人滿意的實驗結果。下面對跨模態哈希檢索最近幾年的相關研究進展做出介紹,并選取近年來比較具有代表性的幾種跨模態哈希方法[38-42]進行簡要介紹,如表2所示。

表2 代表性二值表示學習方法簡要介紹Table 2 Brief introduction of representative binary representation learning methods
有監督哈希的主要任務是學習兩個模態的哈希函數:f(x):→{-1,1}c,g(y):→{-1,1}c,Zhang等人[43]提出一種典型有監督跨模態哈希方法最大化語義相關性(semantic correlation maximization,SCM),巧妙地將標簽信息添加到哈希學習過程中,并且利用監督信息學得相似矩陣,通過順序計算方式求解哈希函數。SCM在不同模態的訓練復雜度分別是O(cdy),O(cdx),c表示二進制哈希碼的長度,dx,dy分別表示每個模態的特征維度,盡管相比其他方法其訓練復雜度在一定程度上存在優勢,但其并不適用于現有深度哈希高維度特征數據集。
Liong等人[41]提出跨模態離散哈希方法(CMDH),由兩個步驟對跨模態哈希碼學習過程進行離散優化,在初步學習中學得不同模態特定的哈希函數,然后根據語義相似性,學習構建統一的二進制碼集,因二進制碼集在不同模態中是共享的,故有效減少了模態間的差異性。與CMDH相同,由語義增強符和快速離散優化模塊組成的NSDH[44]同樣不采用任何松弛的離散約束,有效避免了累積誤差,學習到高效的哈希碼,此外,NSDH可以直接學習哈希碼,相比SCM中的逐位優化,更加節省時間,符合現階段大規模跨模態數據檢索的實際應用要求。
Jiang等人[45]提出了一種新穎的離散潛在因子模型(DLFH)來學習二進制哈希碼且無需連續松弛,試圖在保持成對相似性情況下最大化跨模態數據的可能性,并使用逐列學習策略解決離散約束優化,將相似度信息有效地保存到二進制碼中。以此為基礎,Zhan等人[42]提出離散在線哈希方法(discrete online cross-modal hashing,DOCH),將有監督的標簽信息嵌入到待學習的哈希碼中,以便于二進制碼進行分類,進一步學習統一哈希碼,構建新的計算復雜度與新數據規模成線性關系,解決了DLFH擴展存在局限性的問題。
盡管傳統有監督哈希方法利用標簽信息,取得一系列顯著成果,但深度神經網絡(deep neural networks,DNN)在非線性表示學習取得優異的成績,于是Jiang等人[39]將DNN引入CMH,提出端到端的深度學習框架DCMH使用負對數似然損失來保持跨模態相似性,來彌補傳統方法的不足。Li等人[40]提出SSAH首次引用對抗學習處理跨模態哈希問題,為更好地彌合模態間的異質鴻溝,設計了LabNet用于逐層提取多標簽向量的語義特征,進而監督ImgNet和TxtNet中的特征學習,即將三元組(vi,ti,li)中li作為vi、ti的自監督語義信息,從而構建不同模態之間的語義關聯,一致化不同模態特征分布。與之類似,DSSAH[46]同樣利用了對抗學習,但作者并未對標簽特征進行深度抽取,而是以對抗網絡作為模態鑒別器,尋找公共特征空間,計算不同模態相似性。為有效利用多標簽語義相關性,Zou等人[47]提出MLSPH以集成方式聯合學習高級特征和哈希碼,增強哈希碼獨特性。
由于DNN提取跨模態數據特征不能準確識別哪些特征對跨模態檢索任務幫助較大,導致檢索性能次優,為賦予跨模態特征對應權重,Peng等人[48]DSADH和Wang等人[49]提出SCAHN中引入注意力機制來高效地使用與檢索任務相關的特征來引導哈希編碼。與之類似,為提高檢索性能,SDCH[50]、TA-ADCMH[51]對哈希碼學習進行改進,前者采用多標簽信息監督的方式生成有區別性的哈希碼,后者通過非對稱哈希學習,針對兩個子任務學習不同的哈希碼。
為應對樣本標簽數量有限問題,半監督哈希方法被引入跨模態檢索任務中,半監督哈希基于非加權距離和簡單的線性映射來處理數據之間的語義相似性和不相似性,其目標是最小化標記數據集的經驗誤差并提高編碼性能,其中經典的半監督哈希方法如SSH[38],受信息論啟發,該方法將成對監督與無監督學習目標相結合。近年來,基于圖的半監督哈希方法取得重大進展,最近Shen等人提出了MGCH[52],在傳統圖哈希方法基礎上采用多視圖結構圖作為唯一的學習輔助來連接標記和未標記的數據,對圖特征進行精細化。
Zhang等人[53]利用生成對抗網絡設計了一個半監督的跨模態哈希學習模型(SCH-GAN),該模型可以從大量未標記的數據中學習豐富的語義信息,并選擇邊界樣本。隨著研究的深入,新技術的更替迭代,以及規模更大的跨模態數據的出現,Wang等人[54-56]通過引入深度神經網絡來提高半監督跨模態哈希的性能。
盡管大多數現有的基于多媒體數據標簽信息的方法已經取得了很好的效果,但由于標簽數據通常耗費龐大的資源,尤其是在大規模多媒體數據集上,從標簽數據中獲益的性能成本很高,因此,無監督跨模態學習的出現,使得跨模態檢索在實際應用中得到發展。無監督的跨模態哈希方法學習原始數據的低維嵌入,沒有任何語義標簽。由于缺少語義標簽的介入,不同模態間的語義鴻溝問題難以解決,因此CMFH[57]采用集合矩陣分解,從同一實例的不同模態中學習統一的哈希碼彌合語義鴻溝。但學習統一哈希碼會給檢索任務帶來次優性能,因此Cheng等人[58]針對不同模態的檢索任務學習特定的哈希碼。Li等人[59]以知識蒸餾(knowledge distillation,KD)的方式,通過無監督教師模型重構相似度矩陣,進一步指導學生模型學習,從而生成更多區分性的哈希碼,為進一步提高跨模態哈希的性能,Liu等人[60]將統一的哈希碼和單獨的哈希碼組合,保留模態間共享屬性和模態內專有屬性。
為獲取更加有效的哈希碼,大多方法將模態內相似性和模態間相似性結合起來,以充分挖掘語義相關性,并在漢明空間中保持模態間表示一致性[61-62],Shi等人[63]提出一種視覺-文本關聯圖方法(visual-textful correlation graph hashing,OVCGH),在對象層面構建模態內部和不同模態之間的依賴關系,以捕獲不同模式之間的相關語義信息。與現有方法主要關注保持相互約束的模態內和模態間相似關系不同,CMSSR[64]將不同模態的數據視為從不同視角對場景的描述,并相應地整合不同模態的信息,學習包含場景內相關跨模態信息的完整公共表示。
盡管二值表示學習方法在處理跨模態異構問題上表現出其優勢,但在哈希碼學習過程中造成的信息損失是不可避免的,因此優化哈希碼學習過程,減少信息損失和是目前需要研究的必要內容。
表3給出了各類具有代表性的方法,對其優勢和局限性進行分析及總結。

表3 跨模態檢索方法簡要評述及總結Table 3 Brief review and summary of cross modal retrieval methods
隨著互聯網上各種模態數據的爆發式增長,在深度學習的不斷發展中,對于各種模態數據的需求也多樣化,為迎合各模型的預訓練和測試需求,涌現出一大批容納不同模態,不同類別的數據集,數據集對跨模態檢索任務起著至關重要的作用,數據集中數據質量直接影響模型預訓練的結果。在跨模態檢索任務中,常用的幾種數據集[65-70]如表4所示。

表4 跨模態檢索常用數據集Table 4 Common datasets for cross modal retrieval
(1)ImageNet:其中包含12個類別分支,共320萬張圖片。目前ImageNet按照同義詞集索引分為21 841個類別,圖片總量超過1 400萬張。另外,ImageNet數據集有很多子集,常被用于各種視覺任務,其中最常用的一個子數據集是ILSVRC2012。
(2)Wikipedia:該跨模態數據集中包含2 866個圖像文本對,每幅圖像都配有相應的文本描述,總共29個概念類別,其中10個為主要概念,官網提供128維的SIFT圖像特征和10維的LDA文本特征。
(3)Pascal Sentence:數據集中容納1 000幅圖像,每幅圖像配備5條描述語句,圖像被分為20個類別,每個類別含有5幅圖像,圖像源自Pascal VOC 2008數據集,常被用于跨模態檢索和圖像標題生成等任務。
(4)NUS-WIDE:該數據集共計269 648幅圖像和對應的文本描述,共81個概念類別。在具體使用過程中,通常會抽取其中一部分樣本用于實驗,常用的有NUSWIDE-10k、NUS-WIDE-21k兩種,10 k表示抽取10個類別,每個類別1 000張圖片和相應文本描述。
(5)MS-COCO:COCO數據集是跨模態學習中非常重要的數據集,數據庫中圖像素材來自于日常生活場景,總計91個類別,并且采用實例分割,在328 000幅圖像中標記了2 500 000個實例。
(6)Flickr-25k:圖像數據源于Flickr網站,并提取標簽和EXIF(可交換圖像文件格式)圖像元數據。圖像標簽包括原始標簽和處理后標簽兩種形式。在Flickr-25k中手動注釋25 000幅圖像。每幅圖像平均有8.94個標簽。有1 386個標簽與至少20個圖像關聯。同樣,Flick-30k則代表擁有30 000幅圖像的數據集。
mAP值指平均精準度,衡量檢索到的模態與查詢模態類別是否一致,常用于評估跨模態檢索算法性能。給出查詢數據和n個檢索結果,其檢索精度可表示為:

P(i)表示前i個檢索結果的精準度,若檢索結果與查詢項相關,則δ(i)=1,反之δ(i)=0,Q代表發起查詢的數量,最終mAP值的公式如下:

R@k(Recall@k)常在MS-COCO和Flickr-30k等數據集中作為實值表示方法的評價指標,表示正確結果出現在前k個返回樣例占總樣例的比例。RELk代表Top-k結果中的相關項數,REL表示給定查詢的相關項總數。這個指標回答了Top-k中是否找到了相關的結果,其計算公式如下:

本章選取幾種比較重要的實值表示學習方法分別在不同數據集上,以mAP值為評價指標用于性能對比,如表5所示,以R@k值為評價指標,如表6所示。

表6 實值表示學習方法R@k值比較Table 6 Performance comparison of real-valued techniques on basis of R@k scores單位:%
在表5中,ACMR等基于深度學習方法性能明顯優于SCM等傳統子空間學習方法,盡管SCM在原有CCA基礎上進行了語義匹配,但GANs等深度神經網絡給模型提供的模態內和模態間語義一致性表示是傳統方法無法比擬的,其性能的提高取決于數據規模的大幅增加。而在子空間學習方法當中,JRL結合了稀疏和半監督正則化,以豐富訓練集并使解平滑,較其他子空間學習方法在數據集上有著更好的表現。

表5 兩個數據集上幾種重要實值表示方法的mAP值比較Table 5 Comparison of mAP scores for prominent real-valued techniques on two data sets
由表6可以看出,DMASA在以文搜圖的任務中取得更優R@k值,分別從MS-COCO和Flicker數據集選取10 000和1 000張圖像,驗證測試比為1∶1,設置3個自注意力角度。由于多角度的自注意力機制,相比其他方法能夠獲取更加全面的圖像信息,因此在圖像檢索中效果極佳,但其文本特征提取網絡并未得到更加有效的優化,因此在文本檢索任務中其性能較差。IBRAM在兩數據集中都有不錯的性能表現,可以驗證該方法面對各種規模數據的魯棒性,在雙向檢索任務中,其性能指標也都位于前列,且較為均衡,因此可看出注意力機制等深度神經網絡和模態間細粒度信息的匹配對跨模態檢索模型性能提升起著重要作用,為下一步研究提供了重要思路。
從表7中哈希方法實驗結果可以看出,DGCPN等無監督方法更適合于小規模數據分布的檢索任務;在Flicker-25k中,圖像的標簽信息更加豐富,監督方法充分利用了標簽信息通常可以獲得更好的檢索性能。此外,DCMH等引入深度神經網絡的有監督哈希方法在特征提取和哈希學習方面更具優勢,因此相比傳統哈希方法在各數據集上有著更好的性能表現。由于SCH-GAN等半監督方法充分利用未標記數據進行哈希碼學習,在Flicker-25k數據集缺少標簽信息的情況下表現良好。由此可見DNN對哈希碼學習和特征提取的重要性以及引入DNN來提高CMH性能的必要性。

表7 NUS-WIDE和Flickr-25k數據集上幾種重要二值表示方法的mAP值比較Table 7 Performance comparison of prominent hashing learning methods on basis of mAP score
從傳統方法到深度學習方法,跨模態檢索的性能依靠各種深度神經網絡一直在不斷提高,但這并不能滿足現實生活中對跨模態信息檢索的需求,為提高跨模態檢索性能與實際應用價值,還需做出以下思考。
近年提出的跨模態檢索算法,大多以復雜的組合結構形成檢索框架,如嵌入GANs、注意力機制(attention mechanism)等[71-72],雖檢索精度上得到提升,但其復雜計算過程,在實際檢索任務中面對大規模的跨模態數據會有一定的檢索時延且檢索效率較低。為使模型能夠嵌入到移動設備當中,可采用知識蒸餾的手段,將精細化大模型學習到的知識轉移給簡化的小模型,既不損失原有參數信息,又做到了模型輕量化。
為確保檢索框架學習到有效的哈希碼,后續研究工作中,可嵌入情感融合、場景分析和上下文語義分析,以及獲取跨模態信息中更高層的語義,采用強監督學習或弱監督學習關注細粒度特征,并根據注意力機制的選擇性,選取有效特征,既避免了特征信息冗余導致時間復雜度變高,又使哈希碼變得更加有效。
多模態數據圖的拓撲結構非常復雜,況且圖結構中各節點是無序的,圖中包含多模態數據的特征信息,面對這種非結構化數據,現有很多哈希方法是基于圖的,傳統的神經網絡無法對其進行建模,圖神經網絡(graph neural networks,GNN)[73]可有效地計算各節點之間的關聯度,在跨模態檢索任務中,GNN能夠計算DNN無法處理的復雜數據網絡。
在GNN中,節點之間的邊代表著獨立信息,可以通過圖結構來進行傳播,而不是將其看作是特征;通常而言,GNN更新隱藏節點的狀態,是通過近鄰節點的權值和,傳播步驟使用的方法通常是不同的聚合函數(在每個節點的鄰居收集信息)和特定的更新函數(更新節點隱藏狀態)。一個節點或邊的信息不僅限于其本身,還要看它相鄰元素的加權求和來決定,通過池化(pooling)來進行層內聚合,層內信息傳遞,層間通過鄰域聚合來進行層級間信息傳遞。因此在圖中的各個節點,除自身特征信息外,還包含與之相關聯的同一層或更深層節點信息,甚至全局信息,因此圖全局節點之間的關聯度變得更強,更容易計算獲得。
數據集中的各種多模態數據都被賦予標簽和相應的文本描述,如MS-COCO等大型數據集都有著豐富的數據類別。但在實際檢索任務中,現有數據庫中的樣本種類豐富度較日常生活所見還有很大差距,很難達到令人滿意的模型訓練效果。因此,構建面向專屬任務的數據集,或者將原有數據集樣本類別進一步擴充,并賦予數據更加豐富的標簽和文本描述,給跨模態檢索任務的實際應用提供有利條件。
現有跨模態檢索方法大多針對一對一檢索,而在實際檢索過程中,某一檢索對象可能有多個與之匹配的跨模態結果,為更貼合實際應用,多對多的大規模跨模態檢索框架應是未來研究的方向。對預訓練模型進行局部調整,使跨模態檢索模型適應任務多樣化,且能接納不同數據類型的數據庫,提高模型可擴展性,縮短模型訓練時間,提高研究效率。
概述了跨模態檢索近年來的研究進展,介紹了相關數據集,另外還選取幾種比較具有代表性的方法在不同數據集上進行性能對比分析。盡管近年跨模態檢索領域迎來蓬勃發展,但不同模態間存在的語義鴻溝問題尚未解決以及數據集的不完備,目前跨模態檢索還面臨著很大的挑戰。如何有效達成模態間語義一致性,怎樣構建更加全面的數據集且更加廣泛的應用在實際場景中仍然是未來研究中需要長期追求的目標。