摘 要:針對無監督跨模態檢索任務中不能充分利用單個模態內的語義關聯信息的問題,提出了一種基于圖卷積網絡的無監督跨模態哈希檢索方法。通過圖像和文本編碼器分別獲得兩個模態的特征,輸入到圖卷積網絡中挖掘單個模態的內部語義信息,將結果通過哈希編碼層進行二值化操作后,與模態間的深度語義關聯相似度矩陣進行對比計算損失,不斷重構優化生成的二進制編碼,直到生成樣本對應的健壯哈希表達。實驗結果表明,與經典的淺層方法和深度學習方法對比,該方法在多個數據集上的跨模態檢索準確率均有明顯提升。證明通過圖卷積網絡能夠進一步挖掘模態內的語義信息,所提模型具有更高的準確性和魯棒性。
關鍵詞:跨模態檢索; 圖卷積網絡; 深度學習; 無監督哈希
中圖分類號:TP391.3 文獻標志碼:A
文章編號:1001-3695(2023)03-023-0789-05
doi: 10.19734/j.issn.1001-3695.2022.07.0398
Graph convolutional network based unsupervised cross-modal hashing retrieval
Ding Shuyana, Yu Hengb, Li Lunbob, Guo Jianhuib
(a.School of Electronic amp; Optical Engineering, b.School of Computer Science amp; Engineering, Nanjing University of Science amp; Technology, Nanjing 210094, China)
Abstract:To solve the insufficient mining problem of semantic correlation information within a single modality in the unsupervised cross-modal retrieval task, this paper proposed an unsupervised cross-modal hash retrieval(UCMHR) method based on GCN. It obtained the features of the two modalities through the image and text encoders, respectively, input the features into the GCN to exploit the single intra-modal semantic information. Then it calculated the loss by comparing with the deep semantic correlation similarity matrix, so the generated binary codes were continuously reconstructed and optimized until the robust hashing expression corresponding to the samples was generated. The experimental results show that the cross-modal retrieval accuracy of this method on multiple datasets improves significantly, compared with the classical shallow methods and deep-learning methods. It is proved that the semantic information within the modality can be further mined through the graph convolutional network, the proposed model has higher accuracy and robustness.
Key words:cross-modal retrieval; graph convolutional network; deep learning; unsupervised hashing
0 引言
隨著信息網絡的蓬勃發展,如文本、圖像、視頻等數據內容都呈指數級別增長,人們經常需要在不同模態的數據之間互相檢索,從而催生了跨模態檢索的需求[1]。跨模態檢索的目的是以一種類型的數據作為查詢來檢索另一種類型的相關數據[2],如日常生活中用文本檢索圖片或者用圖片檢索文本。隨著多模態數據的增長,用戶越來越追求有效、高效地搜索感興趣的信息。此外,相較于傳統的文本檢索、圖像檢索,當用戶通過提交任意一種媒體類型的查詢來搜索信息時,他們可以獲得不同模態的搜索結果,考慮到不同模態表示的數據可以相互提供互補的信息,這將給用戶帶來更良好的檢索體驗。
盡管如此大規模的多媒體數據為人們的工作生活提供了諸多便利,但是用戶并不容易從中快速檢索到自己感興趣的信息。一方面是由于多媒體數據通常具有數據量大、數據結構復雜、數據維數高的特點,導致計算機存儲和分析這些數據的代價非常高;另一方面由于多媒體數據的高層語義和底層特征之間通常存在“語義鴻溝”問題,計算機仍不能很好地理解數據的內容[3]。因此,如何有效地對大規模的、高維的、多模態的數據進行檢索成為工業界和學術界共同關注的問題。
近年來,隨著深度學習的發展,跨模態檢索任務的精確度也取得了巨大的提升[4]。基于深度學習的跨模態哈希方法通常使用例如AlexNet[5]。VGG16[6]等卷積神經網絡和具有數層全連接層的前饋神經網絡分別將圖像和文本數據映射到漢明空間,并使學習到的哈希編碼盡可能地保留原始數據對之間的相關性。其主要可以分為有監督方法和無監督方法兩大類。有監督深度哈希方法[7]在訓練深度哈希模型時依賴跨模態樣本相對應的標簽,這能有效幫助模型保持模態語義一致性,從而生成更具有區分度的哈希編碼。然而隨著數據集越來越龐大,給樣本標注標簽需要耗費大量的人力物力,因此不需要標簽信息的無監督方法也愈發受到重視[8]。無監督的跨模態哈希方法往往利用成對的跨模態數據構建相似度矩陣,由于它們不能在哈希學習過程中將圖像之間的語義相似性保存到哈希編碼中,它們的性能遠遠不能令人滿意。為解決這些問題,有諸如DGCPN[9]、DJSRH[10]等方法,致力于不斷優化相似度矩陣,使其深度整合模態內和模態間的語義關聯信息,但是僅通過優化相似度矩陣,難以取得較優的檢索精確度。為此,如何盡可能地挖掘單個模態內的語義關聯信息以彌合語義鴻溝是本文主要研究的問題。
基于跨模態檢索的上述問題,本文利用圖卷積網絡能夠聚合樣本鄰域特征的特性,提出了一種融合圖卷積網絡的新模型。本文引入了一種利用了圖卷積網絡的無監督跨模態哈希方法,該方法可以充分提取模態內數據之間的語義關聯性息,盡可能保持訓練過程中模態內的原始語義信息。將圖卷積網絡的特征與高度融合的語義感知相似度矩陣結合,提高了相似矩陣的語義表示,保證了學習到特征的語義差異性。
1 相關工作
1.1 無監督跨模態哈希方法
現有的無監督跨模態哈希方法可以分為基于圖嵌入的方法和基于矩陣分解的方法兩類。基于圖嵌入的跨模態無監督哈希方法通常會構造樣本間的相似度矩陣,用來保持數據間的相似性,其中比較具有代表性的是跨視圖哈希算法(cross view hashing,CVH)[11],該方法成功地將單模態譜哈希擴展到了多模態情景,但由于其未考慮不同模態數據分布的差異,所以性能并不是太理想。Ding等人[12]提出了一種共生矩陣分解哈希算法(collective matrix factorization hashing,CMFH),這是首次將共生矩陣分解方法運用到跨模態哈希當中。并且CMFH不僅可以支持跨模態檢索,還可以通過合并多個模態的信息來提高搜索精度。此方法的共生矩陣方法分解想法很具創新性,為后來的諸多跨模態哈希方法提供了新的思路。
隨著深度神經網絡的發展,其特征挖掘能力也在跨模態檢索領域大放光彩。Wu等人[13]提出的一種無監督深度哈希模型(unsupervised deep cross-modal hashing,UDCMH),是首次在無監督深度學習框架中實現基于矩陣分解的跨模態哈希,其將不同模態的特征投影到共同的漢明空間,在訓練中集成了拉普拉斯約束,最大限度地減少了量化誤差,從而彌合了哈希表達函數和特征之間的區別。Yu等人[14]提出了深度圖領域一致性網絡(deep graph-neighbor coherence preserving network,DGCPN)。DGCPN圖鄰域一致性結構,能夠更好地挖掘數據和它們相鄰節點間的語義關聯信息。在訓練網絡生成二進制代碼過程中,通過新構建的相似度矩陣來減少不準確的相似性描述樣例帶來的負面影響,此外DGCPN還設計了一個半實值半二值的優化策略來減少實值和二值之間變換的相似度丟失。盡管這些方法都取得了不錯的檢索表現,但是大多依然忽視了單個模態內的語義關聯信息,沒有對這些信息進行進一步挖掘整合。
1.2 圖卷積網絡
圖這種結構自然地出現在現實世界的許多應用中,包括社會分析[15]、欺詐檢測[16]和交通預測[17]等。由于圖像、文本等數據的最初形式不是以圖的結構連接的,所以難以找到合適的構圖方法。常用的一個解決方案是在低維歐氏空間中學習圖的表示,從而可以保留圖的屬性。盡管此方法為解決圖表示學習問題作出了巨大貢獻,其中許多過程仍然受到其淺層學習機制的限制,但是隨著深度學習的發展,圖越來越發揮著其強大的功能。Hamilton等人[18]提出的圖的采樣與整合算法(graph sample and aggregate,GraphSAGE),將GCN的采樣方式改進以鄰近采樣,讓網絡能學習沒見過的節點。Chen等人[19]提出的多標簽圖卷積算法(multi label graph convolutional network,MLGCN),在神經網絡分類階段,利用GCN在標簽間傳播信息,并將標簽信息與CNN特征合并。文獻[20]提出的圖注意力網絡(graph attention network,GAT),利用自注意力機制使得節點的傳播更具有魯棒性。Ji等人[21]提出了一種用于跨模態檢索的異構記憶增強圖推理網絡,其雙路徑圖推理模塊能對實例內片段的語義相關性進行建模,從而學習特定于模態的實例級表示。
2 圖卷積無監督跨模態哈希網絡
本算法采取batch的訓練方法,假設訓練過程中一個batch有m個訓練樣本,每個樣本都由圖像和文本兩個模態的數據組成,表示為{Ii,Ti}mi=1,其中,Ii 表示樣本中的第i個圖像,Ti 表示關于Ii的相應文本描述。本文算法的目標是,通過深度模型學習生成長度為c的二進制編碼來分別表示圖像模態樣本I:BI={bI1,bI2,…,bIm}∈{-1,+1}m×c和對應的文本模態樣本T:BT={bT1,bT2,…,bTm}∈{-1,+1}m×c 。本文算法致力于盡可能地使得匹配的跨模態數據對之間的二進制編碼表示對應的漢明距離小于不匹配數據對之間的漢明距離,共由特征提取模塊、GCN模塊和哈希編碼模塊組成,具體結構如圖1所示。
2.1 特征提取模塊
根據DJSRH的經驗,將FI與FT歸一化后得到I、T。首先計算特征的自相似度矩陣,用于描述圖像數據和文本數據的原始領域結構,定義如下:
隨后,通過融合SI與ST得到更高層次的語義關聯矩陣,如下所示。
最后,因為一對語義相關的圖像文本實例,它們應該和其他實例具有相同的相似度關聯,所以可以將的每一行看做每個實例與其他實例的相似度關聯,通過計算T獲取更高層次的語義關聯,最終的相似度矩陣如下所示。
2.2 GCN模塊
GCN模塊由圖像GCN和文本GCN構成,兩者的參數獨立。對于特征提取模塊輸出相應的圖像和文本特征FI和FT,設它們對應的鄰接矩陣為A,將其分別輸入對應的GCN中,每一層圖卷積網絡對應的過程為
2.3 哈希編碼模塊
得到圖像與文本編碼器的輸出FI、FT和圖像與文本GCN的輸出FgI、FgT分別輸入全連接層,隨后進行二值化操作,將輸出轉換為二進制編碼。最終得到BI、BT、BgI、BgT。因為兩個二進制編碼之間的漢明距離可以用它們的角距離來表示,所以為了描述漢明空間中的鄰域結構,本文計算余弦相似度矩陣,即每個圖像和文本哈希編碼之間的相互余弦關系,具體公式表示為
為了保證待學習的二進制編碼保持嚴格的相似關系,通過重構相似矩陣,定義以下目標函數來保持模態間親和性:
通過計算圖像模態編碼與文本模態編碼的余弦相似度,能夠得到兩個模態間轉換為二進制編碼后的相似度矩陣,再與二值化操作前的相似度矩陣對比計算損失,使得學習到的二值編碼越來越趨近于原始數據之間的相似度關聯,即良好地保持了模態間的語義親和信息。
同時,本章可以將生成的二進制哈希碼作為超立方體頂點的特征向量。從這個角度來看,相鄰的頂點對應相似的二進制哈希編碼,二進制哈希編碼之間的距離可以用它們的角距離來表示。所以可以計算相似度矩陣S與待學習的哈希編碼結構cos(BI,BI),cos(BT,BT)之間的誤差,來約束各個模態,達到模態內部語義一致的目的,公式定義如下:
本文模型的最終訓練目標函數如下所示。
其中:超參數α起到平衡模態間語義一致性的作用;β與γ共同起到平衡圖像模態內部語義一致性以及文本模態內部語義一致性的關鍵作用。
2.4 模型優化
由于二進制編碼不能直接通過深度網絡結構進行優化。如果網絡的最后一個隱藏層的輸出被進一步輸入到sgn函數內來生成二進制編碼,那么對于所有非零的輸入,sgn函數的梯度都為零,所以在反向傳播的過程中將阻塞梯度回到之前的網絡層,即會出現常見的梯度消失問題。為解決這一問題,本文采用縮放的tanh函數,在反向傳播過程中,能很好地避免梯度為零的情況:
圖2中綠色、橙色、藍色線條分別表示不同η值下的tanh(ηx)函數曲線。由圖可見隨著η的值不斷增大,有limη→∞tan(ηx)=sgn(x),所以利用此函數代替能很好地解決sgn函數的階躍性問題。
3 實驗分析
為了證明本文方法的有效性,本章選擇了三個典型的基于圖像和文本數據的跨模態檢索數據集,進行了廣泛的實驗,并與多種經典跨模態哈希檢索方法進行了對比。本文的所有實驗均在一臺主機上(Ubuntu 18.04.4 LTS系統,Intel Core i9-10900K 處理器,32 GB內存,一張GeForce RTX 3090顯卡)上完成。
3.1 數據集
a)Wiki[22]。由來自維基百科中的10類共2 866個圖像文本對構成。每個圖像實例有對應的128維SIFT特征向量,每個文本有對應的由隱狄利克雷分配模型(latent Dirichlet alocation,LDA)生成的10維類別向量。
b)MIRFlickr[23]。由25 000個帶有24個標簽的圖像文本實例對構成。每張圖片有對應的SIFT描述子,文本有對應的1 386維的由PCA生成的注釋向量。
c)NUS-WIDE[24]。由269 648個由圖像及其對應的文本注釋的多模態數據對構成。最終的評測數據集由最常用的10類共186 577個圖像標記對實例構成。每個圖像由對應的500維的詞袋SIFT特征,每個圖像對應的文本由圖像對應的頻率最高的1 000個標記構成,且具有對應的索引向量。
3.2 實驗設置
本節將batch size設置為32,使用動量為0.8、權重為0.000 5的SGD優化器進行模型優化。對于上節所述的三個數據集,根據經驗,對于Wiki、MIRFlickr以及NUS-WIDE三個數據集,λ分別設置為0.3、0.9、0.6,μ設置為0.4。通過實驗交叉驗證,α設置為0.1,β分別設置為0.3、0.9、0.6,γ設置為0.1。
3.3 評價標準
針對用圖像檢索文本(image to text,I2T)和用文本檢索圖像(text to image,T2I)兩種跨模態檢索任務,將訓練后的哈希編碼函數對數據庫和查詢集中每個實例提取的特征進行二值化后,以評估本文模型的檢索精確度。本文采用常見的檢索指標,即平均精度均值(mean average precision,mAP)來評估所提方法和其他對照方法的檢索性能。對于一個查詢實例和一系列檢索實例,AP的定義為
其中:L表示查詢集的相關實例;P(r)表示定義為相關實例數與檢索到的實例數r的比值;δ(r)是指示函數,如果第r個實例與查詢實例相關,則為1,否則為0。然后將所有查詢的AP平均得到mAP。如果任意兩個數據點至少共享一個共同的標簽,則被認為是相關,即檢索正確。
本文方法對照的模型有淺層哈希方法,如CVH、IMH[25]、CMFH、LSSH[26]和基于深度學習哈希的方法,如DBRC[27]、UDCMH、DJSRH,并在多個哈希編碼長度與上述方法進行了綜合比較。
3.4 實驗結果與分析
表1展示了本文方法與其他方法在Wiki數據集上的mAP結果比較。
由表1可見,于16位、32位、64位的哈希編碼長度上,在圖像檢索文本任務方面,本文方法的檢索精確度明顯優于所有其他方法,相較于非深度哈希方法,最少也提升了18%的檢索精確度,相較于深度哈希方法,在多個哈希編碼上最低也有2%左右的提升。在文本檢索圖像方面,本文方法相較非深度哈希方法最少也有5%的檢索精確度提升,而相較于深度哈希方法,提升比較微小,這可能是由于Wiki數據集的樣本數量比較少,所以難以生成更健全的二進制編碼表示。因為未使用Wiki數據集提供的圖像特征,所以在Wiki數據集上40輪訓練時長為18 min。
本文方法與其他方法在MIRFlickr數據集上的mAP結果如表2所示。由于此數據集的樣本數量比較多,所以傳統的非深度方法與深度方法的差距相較Wiki數據集上的結果明顯更大。相比非深度方法,本文方法在圖像檢索文本上取得了至少20%的精確度提升,而在文本檢索圖像任務上的提升也至少有15%。相較于深度方法DJSRH,本文方法基于三個不同長度的編碼情況下在兩個任務上的提升都不高,但值得注意的是在64位哈希編碼上,兩個任務的mAP分別有2%和2.4%的提升,所以依然說明了融合圖卷積網絡模塊能給模型帶來有效提升。在MIRFlickr數據集上80輪訓練時長為16 min。
表3展示了本文方法與其他方法在NUS-WIDE數據集上的mAP結果比較。由表可見,本文方法相較其他方法也均取得了一定的檢索精確度提升。在NUS-WIDE數據集上80輪訓練時長為18 min。
上述實驗結果表明,深度方法的檢索結果往往優于非深度方法,而隨著哈希編碼長度的增長,兩個任務的檢索精確度也都會隨之增長。最重要的是,本文方法在所有任務上的檢索精確度都是最優,說明了利用圖卷積網絡生成的二進制編碼,與高度語義融合的相似度矩陣結合,能夠更好地挖掘模態內的語義關聯信息,在訓練過程中能更好地保持模態內的語義一致性,在諸多任務上比致力于優化相似度矩陣的方法均表現得更為優秀,從而驗證了引入圖卷積網絡的優越性。
此外,本文在MIRFlickr數據集上進行了本文方法和DJSRH的精度召回率(precision recall,PR)曲線的對比,編碼長度為32位。具體公式為
P=TPTP+FP×100%R=TPTP+FN×100%(12)
其中:TP為被正確識別分類的正實例數;FP表示被錯誤識別分類的負實例數;FN表示未被正確識別分類的正實例數。結果如圖3所示,本文方法依然比該對照方法要更優秀。
由于本文有多個超參數,可能對本文模型有不同的影響程度,為了探究主要超參數變動帶來的影響,在Wiki數據集上基于32位二進制編碼進行了相關分析,結果如圖4所示。由圖4可見,α對模型的影響最大,而β和γ對模型影響相對較小。所以合理地調節α的值對模型檢索精確度的提升更為重要。此外,因為α調節的是模態間的損失計算,β和γ調節的是模態內的損失計算,這也說明了模態間的語義信息一致性比模態內的語義信息一致性更為重要。
4 結束語
本文提出了一種適用于無監督跨模態檢索的結合圖卷積網絡的哈希編碼模型。通過對圖像編碼器和文本編碼器分別輸出的圖像特征和文本特征進行兩層圖卷積操作,得到吸收了鄰近節點語義的圖卷積特征。將特征轉換為二進制編碼后與兩個模態間的相似度矩陣進行對比重構,從而更加充分地利用模態內和模態間的語義信息,盡可能地保持了模態內的語義一致性,生成檢索區分度更高的二進制編碼。本文通過大量的實驗,與多個經典方法進行對比,在三個數據集上均取得了明顯的提升,證明了此方法的有效性。由于鄰接語義進一步挖掘帶來的檢索效果提升收益有限,接下來的工作可以考慮使用例如Transformer的編碼器來生成更加健全的模態特征表達,使用注意力機制加強顯著區域的權重,弱化非顯著區域的影響,進一步提高網絡的檢索精確度。
參考文獻:
[1]Ji Zhong, Sun Yuxin, Yu Yunlong, et al. Attribute-guided network for cross-modal zero-shot hashing[J]. IEEE Trans on Neural Networks and Learning Systems, 2020,31(1): 321-330.
[2]Liu Xin, Wang Xingzhi, Cheung Y M. FDDH: fast discriminative discrete hashing for large-scale cross-modal retrieval[J]. IEEE Trans on Neural Networks and Learning Systems, 2022,33(11): 6306-6320.
[3]Shen Xiao, Zhang Haofeng, Li Lunbo, et al. Attention-guided semantic hashing for unsupervised cross-modal retrieval[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2021: 1-6.
[4]許炫淦, 房小兆, 孫為軍, 等. 語義嵌入重構的跨模態哈希檢索[J]. 計算機應用研究, 2022,39(6): 1645-1650,1672. (Xu Xuangan, Fang Xiaozhao, Sun Weijun, et al. Semantic embedding and reconstructing for cross-modal hashing retrieval[J]. Applications Research of Computers, 2022,39(6): 1645-1650,1672.)
[5]Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. NeurIPS, 2012,25(2): 1097-1105.
[6]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.
[7]康培培, 林澤航, 楊振國, 等. 成對相似度遷移哈希用于無監督跨模態檢索[J]. 計算機應用研究, 2021,38(10): 3025-3029. (Kang Peipei, Lin Zehang, Yang Zhenguo, et al. Pairwise similarity transferring hash for unsupervised cross-modal retrieval[J]. Application Research of Computers, 2021,38(10): 3025-3029.)
[8]Jiang Qingyuan, Li Wujun. Deep cross-modal hashing[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017:3270-3278.
[9]Yu Jun, Zhou Hao, Zhan Yibing, et al. Deep graph-neighbor cohe-rence preserving network for unsupervised cross-modal hashing[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021,35(5): 4626-4634.
[10]Su Shupeng, Zhong Zhisheng, Zhang Chao. Deep joint-semantics reconstructing hashing for large-scale unsupervised cross-modal retrieval[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 3027-3035.
[11]Kumar S, Udupa R. Learning hash functions for cross-view similarity search[C]//Proc of the 22nd International Joint Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2011: 1360-1365.
[12]Ding Guiguang, Guo Yuchen, Zhou Jile. Collective matrix factorization hashing for multimodal data[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 2083-2090.
[13]Wu Gengshen, Lin Zijia, Han Jungong, et al. Unsupervised deep hashing via binary latent factor models for large-scale cross-modal retrieval[C]//Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2018: 2854-2860.
[14]Yu Jun, Zhou Hao, Zhan Yibing, et al. Deep graph-neighbor cohe-rence preserving network for unsupervised cross-modal hashing[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021,35(5): 4626-4634.
[15]Piao Jinghua, Zhang Guozhen, Xu Fengli, et al. Predicting customer value with social relationships via motif-based graph attention networks[C]//Proc of Web Conference 2021. New York: ACM Press, 2021: 3146-3157.
[16]Ma Xiaoxiao, Wu Jia, Xue Shan, et al. A comprehensive survey on graph anomaly detection with deep learning[J/OL]. IEEE Trans on Knowledge and Data Engineering. (2021-10-08). https://doi.org/10.1109/TKDE. 2021.3118815.
[17]Zhang Shaokun, Guo Yao, Zhao Peize, et al. A graph-based temporal attention framework for multi-sensor traffic flow forecasting[J]. IEEE Trans on Intelligent Transportation Systems, 2022,23(7): 7743-7758.
[18]Hamilton W L, Ying R, Leskovec J. Inductive representation-lear-ning on large graphs[C]//Proc of the 31st International Conference on Neural Information Processing Systems. California:Curraan Associates Inc., 2017:1025-1035.
[19]Chen Zhaomin, Wei Xiushen, Wang Peng, et al. Multi-label image recognition with graph convolutional networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 5172-5181.
[20]Velicˇkovic' P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.
[21]Ji Zhong, Chen Kexin, He Yuqing, et al. Heterogeneous memory enhanced graph reasoning network for cross-modal retrieval[J].Science China Information Sciences, 2022,65(7): 1-13.
[22]Rasiwasia N, Costa P J, Coviello E, et al. A new approach to cross-modal multimedia retrieval[C]//Proc of the 18th ACM International Conference on Multimedia. New York:ACM Press, 2010: 251-260.
[23]Huiskes M J, Lew M S. The MIRFlickr retrieval evaluation[C]//Proc of the 1st ACM International Conference on Multimedia Information Retrieval. 2008: 39-43.
[24]Chua T S, Tang Jinhui, Hong Richang, et al. NUS-WIDE: a real-world Web image database from National University of Singapore[C]//Proc of ACM International Conference on Image and Video Retrieval. 2009: article No. 48.
[25]Song Jingkuan, Yang Yang, Yang Yi, et al. Inter-media hashing for large-scale retrieval from heterogeneous data sources[C]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 2013: 785-796.
[26]Zhou Jile, Ding Guiguang, Guo Yuchen. Latent semantic sparse hashing for cross-modal similarity search[C]//Proc of the 37th International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York:ACM Press, 2014: 415-424.
[27]Hu Di, Nie Feipeng, Li Xuelong. Deep binary reconstruction for cross-modal hashing[J]. IEEE Trans on Multimedia, 2018,21(4): 973-985.
收稿日期:2022-07-13;修回日期:2022-10-08 基金項目:新疆建設兵團重點領域科技攻關項目(2019BC010)
作者簡介:丁淑艷(1978-),女(通信作者),黑龍江人,實驗師,碩士,主要研究方向為通信電子線路與嵌入式系統(shuyanding@njust.edu.cn);余恒(1998-),男,江西南昌人,碩士研究生,主要研究方向為深度學習;李倫波(1977-),男,江蘇灌南人,副教授,碩導,博士,主要研究方向為智能機器人與深度學習;郭劍輝(1983-),男,江西吉安人,副教授,碩導,博士,主要研究方向為環境感知與理解、目標跟蹤與識別.