999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合的無監督跨模態哈希

2023-02-20 09:38:30梁天佑孟敏武繼剛
計算機工程 2023年2期
關鍵詞:模態文本信息

梁天佑,孟敏,武繼剛

(廣東工業大學 計算機學院,廣州 510006)

0 概述

互聯網和自媒體的興起使得網絡上充斥著海量的數據,且數據形式多樣而復雜(圖像、文本、聲音、視頻等)。為了能以靈活的方式從龐大的數據庫中找到感興趣的信息,跨模態檢索成為一項重要技術,近年來引起研究者廣泛的研究興趣。哈希技術因其計算速度快、存儲需求低而成為跨模態檢索的熱門技術,稱為跨模態哈希(Cross-Modal Hashing,CMH)。總體而言,CMH 的目標是為每種數據模態學習一個哈希函數,用哈希碼對數據進行編碼,使得內容相關的數據漢明距離更短。

已有的CMH 研究可以分為2 類:有監督的跨模態 哈希(Supervised CMH,SCMH)[1-7]和無監督的跨模態哈希(Unsupervised CMH,UCMH)[8-14]。SCMH 方法假設每個訓練數據都有相應的人工標注,而這些標注可以導出數據之間真實的相似性關系,從而引導哈希函數的學習。這種設置往往能取得較好的檢索性能,但因為標注成本大而難以擴展到大規模數據集。UCMH 方法則不依賴于人工標注,一般借助其他任務的預訓練模型進行知識遷移,構造較弱的監督信息(如關系圖或相似矩陣)。筆者主要關注UCMH 方法。雖然近年來這方面研究取得了較好的進展,但現有方法依然存在以下2 個問題:

第一個問題是現有方法在設計哈希函數時,往往為不同模態設置獨立的哈希函數,在生成哈希碼時只關注單一模態的信息,然而不同的模態數據往往包含互補的信息,例如圖像信息可以對場景、物體進行細節描繪,而文本、自然語言更抽象,且可能包含對多個實體、概念之間關系的描述。模態獨立的哈希函數并不能有效捕捉并綜合這種模態間的互補信息,從而導致生成的哈希碼表現欠佳。

第二個問題是現有多數方法[9-12,14]在構造完相似矩陣之后整個訓練過程都保持不變,然而生成預提取特征的預訓練模型往往是在不同的數據集、用不同的任務進行訓練的,因此,預提取特征會帶有對原數據集和原訓練任務的偏見,其結構信息并非完全適合跨模態檢索任務。例如,圖像的預訓練模型一般都是在ImageNet[15]數據集上按分類任務訓練的,文本Word2Vec[16]模型的skip-gram 和CBoW 模型也并不是為跨模態檢索任務所設計,簡單地完全沿用預提取特征的結構信息會帶來負面遷移的效果。

為解決上述2 個問題,本文分別提出多模態嵌入融合策略和相似矩陣動態更新策略。為不同模態設置單獨的嵌入函數,之后再設置一個嵌入融合模塊用于融合來自不同模態的嵌入并生成統一哈希碼,從而充分利用不同模態信息。在訓練過程中,提出一種對預構建的相似矩陣進行動態更新的策略,在保留預提取特征中有用結構信息的同時,逐步緩解相似矩陣對原數據集和原訓練任務的偏見,使其更適合跨模態檢索任務,并避免因過度更新導致對訓練集過擬合、泛化性能變差的問題,保證在測試集上的泛化性能。最后在2 個常用數據集上對所提出的模型進行實驗和分析,驗證本文方法的有效性。

1 相關工作

1.1 有監督跨模態哈希

傳統淺層的跨模態哈希方法使用手工設計的數據特征進行學習。文獻[1]將哈希碼學習轉化為最小化漢明距離分布和標簽相關度分布之間的KL 散度。文獻[2]則構建真實相似矩陣的似然函數并最大化,且使用了非對稱的哈希碼學習方法。文獻[3]也用了非對稱的方法,同時把映射矩陣拆分成公共部分和模態獨有的部分,挖掘不同模態之間的內在聯系。

深度學習的興起使得跨模態哈希得到長足發展。文獻[4]是深度跨模態哈希的一個經典工作,其以端到端的方式把表征學習和哈希碼學習統一到一個框架內。文獻[5]引入標簽網絡學習多標簽表征,從表征和標簽2 個層面監督哈希函數的學習。文獻[6]在進行表征學習時用圖卷積網絡[17]建模局部流形結構。文獻[7]引入注意力[18]模塊學習表征,并使用非對稱的哈希碼生成方式。與無監督方法相比,有監督方法一般效果會更好,但往往需要大量的專家標注信息,難以擴展到大規模數據集。

1.2 無監督跨模態哈希

由于沒有標簽信息,無監督跨模態哈希的一個重要問題是監督信號的構造,一般是利用預提取特征構建關系圖或相似矩陣。文獻[8]利用對抗學習的思想進行訓練,其中判別模型用預提取特征以k 近鄰法構造關系圖,將相互連通的數據點視為相關數據。文獻[10,12]簡單地融合2 個模態預提取特征的距離信息來構造相似度矩陣。文獻[9]則在聚合2 個模態的余弦相似度之后,進一步基于擴散過程計算二階相似性。文獻[11]首先融合2 個模態的余弦相似度,然后分別用正態分布和拉普拉斯分布擬合數據對的相似度分布,并利用擬合分布的參數對相似度分級和加權。文獻[15]則提出同時考慮余弦相似性和鄰域結構。這些方法的問題在于關系圖或相似矩陣完全由預提取特征確定,簡單沿用預提取特征的結構信息而沒有考慮預提取特征對原數據集的偏向,以及原訓練任務與跨模態檢索任務之間的差異。文獻[13]首先用k 近鄰構建關系圖,然后在訓練過程中逐步用數據嵌入更新邊的權重,但沒有考慮鄰域結構信息和過度更新可能造成的過擬合問題。

現有方法的另一個問題是,各模態的哈希函數是獨立的,在生成哈希碼時只用到單個模態的數據,無法有效綜合多個模態的信息。根據以上分析,現有方法在相似矩陣構造和哈希函數設計2 個方面依然存在不足。下文將詳細介紹本文針對這2 個方面的改進。

2 本文方法

不失一般性,本文考慮圖像和文本2 個模態。給定一個具有n個樣本的訓練集,每個訓練樣本oi=(vi,ti)包括2 個模態的特征。其中:vi∈Rdv表示第i個樣本對應的dv維圖像預提取特征;ti∈Rdt是對應的dt維文本特征。UCMH 的目的是為2個模態各學習一個哈希函數h*:Rd*?{-1,1}K,使得內容上相關的數據具有較短的漢明距離,而不相關的則距離較遠。其中:*=v,t 分別代表圖像和文本2 個模態;K是哈希碼的長度。此處規定哈希碼的范圍是{-1,1},只是為了方便漢明距離的計算,后續可以通過簡單變換轉換為{0,1}范圍的哈希碼。本章首先介紹總體框架和訓練目標函數,然后給出相似矩陣的構造方法和更新策略,最后總結訓練算法。

2.1 模型框架

本文模型的總體結構如圖1 所示,其中主要包含5 個模塊,即圖像處理模塊、文本處理模塊、相似矩陣模塊、對偶預測模塊和模態融合模塊。

2.1.1 分模態處理

圖像處理模塊的左半部分是一個在ImageNet[15]上預訓練過的卷積神經網絡,稱為骨干網絡,用以預先提取深度特征v;右半部分是圖像模態的嵌入函數ζv(·;θv),其將深度特征v映射至K維的圖像嵌入zv,θv為參數。

文本處理模塊結構與圖像處理模塊類似:左半部分使用某種文本編碼模型預提取文本特征,例如LDA[19]、Word2Vec[16]、Doc2Vec[20]、詞袋模型;右半部分的嵌入函數類似地記為ζt(·;θt)。

2.1.2 模態融合

融合函數f:R2K?RK綜合來自2 個模態的信息,生成統一嵌入:

其中:θf為參數。測試時用符號函數sign將zf轉換為最終二值化的哈希碼b。sign 函數定義為:

由此,2 個模態的哈希函數可以表示為:其中:?表示函數復合。

2.1.3 跨模態生成

由于在測試時只有一個模態的輸入,因此在輸入融合函數f生成哈希碼之前,需要用對偶預測模塊生成另一個模態的嵌入。以圖像到文本的生成方向為例,生成過程可表示為:

其中:是基于圖像嵌入zv生成的文本嵌入;φv是生成函數的參數。文本到圖像的生成過程類似。

2.2 目標函數

本文的總目標函數為:

其中:前3 項基于S對模態嵌入和統一嵌入進行結構控制;第4 項用于約束跨模態生成函數。為方便描述,記分別為圖像、文 本和統一嵌入組成的矩陣。

LID是實例級的控制,用于強化統一樣本的圖像和文本之間的真實配對關系。這個思想在最近的對比學習[21-22]中很常用,稱為實例判別,表示為:

其中:tr{·}表示矩陣跡;I是單位矩陣;表示矩陣的F-范數。

LF以矩陣分解的形式控制嵌入空間的結構,表示為:

其中:p∈{v,t,f};q∈{v,t}。

LC約束模態內、不同模態之間嵌入空間的結構一致性,表示為:

其中:p,q,x,y∈{v,t,f}。

LG最小化真實嵌入z*和生成嵌入之間的差異,促使gv→t和gt→v生成真實的預測,表示為:

2.3 相似矩陣的構造和動態更新

在現有的UCMH 方法[9-14]中有多種構造方法,本文采用文獻[14]的方法,同時考慮距離和鄰域結構2 種信息,給出一種動態更新的優化策略。

2.3.1 余弦相似度

本文利用余弦相似度度量2 個向量之間的距離關系。考慮到2 個模態的預提取特征會從不同的角度表達數據之間的關系,為融合來自該模態的結構信息,本文以加權平均的形式進行綜合:

其中:α∈[0,1]是調節2 個模態信息比重的參數,保證綜合后的相似度與原本的余弦相似度是同一尺度,即范圍也是[-1,1]。

2.3.2 鄰域相似度

除了一階的距離信息,本文通過鄰域考慮2 個數據的二階相似性:先考慮一個數據與其鄰域點的相似性,再聚合2 個數據的公共鄰域相似性信息作為這2 個數據的綜合鄰域相似度。

對于一個數據oi和另外任一數據oq,本文將它們的鄰域相似度建模為一個概率。記σ(x,y)為表示x和y相似的謂詞,則oi和oq的鄰域相似度表示為:

2.3.3 總相似度

基于上述2 種相似度,oi和oj的總相似度為:

其中:γ調節2 種相似度的比重;β是縮放系數。這樣得出的相似度范圍是[0,1]。考慮到嵌入之間的余弦相似度范圍是[-1,1],本文對s做一次線性變換得到相似矩陣S中相應的一項,即:

2.3.4 動態更新

本文提出一種相似矩陣的動態更新策略。直觀來看,在前述的目標函數約束下,各模態嵌入所學習得到的結構在保持預提取特征的語義信息之外,同時考慮到模態之間的關系,更適應跨模態檢索的任務。為保證訓練的穩定性,在本文訓練過程中,用滑動平均的方式逐步更新S。當第t輪訓練結束時,用新學習得到的嵌入根據式(14)構造相似矩陣S~來更新S:

其中:μ∈[0,1]是動量系數。

另一方面,為了避免對S的更新產生過擬合而影響泛化性能,本文限制更新只進行δ次,之后保持S固定不變。

2.4 訓練算法

本文采用交替訓練的策略,對每一個訓練輪次,首先固定S不變,用式(5)訓練更新θv、θt、θf、φv、φt;在一輪結束后,固定θv和θt,提取新學習得到的嵌入zv和zt計算~,并用式(15)更新S。完整的訓練過程見算法1。

算法1訓練算法

3 實驗與結果分析

3.1 實驗設置

3.1.1 數據集

本文使用Flickr25k[23]和NUS-WIDE[24]這2個廣泛應用的數據集進行實驗和分析。根據文獻[14]的劃分,每個數據集都隨機劃分為3 個數據子集,即檢索集、測試查詢集、驗證查詢集。

Flickr25k 數據集包含20 015 個圖文對、24個類別,3 個數據子集的數據量分別為16 015、2 000、2 000對,訓練集是從檢索集中隨機選的5 000對。

原始NUS-WIDE 數據集包含269 648 個圖文對、81 個類別。根據文獻[2]的設置,本文取其中僅包含數據量最多的10 個類別的子集(即NUS-WIDE-TC10),共有186 577 個圖文對和10 個類別,3 個數據子集的數據量分別為182 577、2 000、2 000對,訓練集是從檢索集中隨機選的5 000對。

所有實驗都使用在ImageNet[15]上預訓練過的VGG-19[25]模型為圖像提取4 096 維特征向量作為圖像數據;Flickr25k 和NUS-WIDE 的文本數據用詞袋模型分別處理成1 386 維和1 000 維的詞袋向量。

3.1.2 評價指標

本文通過以圖搜文(I→T)和以文搜圖(T→I)2 個方向的檢索任務測試模型效果,檢索性能用平均精度均值(mAP)指標評估,其定義為所有查詢數據的平均精度(AP)的均值。給定一個查詢樣本及其檢索結果序列的前R個結果,AP 的計算公式為:

其中:rel(q)=1 當且僅當第q個檢索數據與查詢數據相關,否則rel(q)=0;P(q)是前q個位置的檢索精度。設定R為整個檢索集大小,所有實驗都重復進行5 次取平均。

3.2 實現細節

圖像、文本模態的嵌入函數、融合函數和對偶生成函數都實現為多層感知機,它們的維度設置分別為(dv,4 096,K)、(dt,4 096,K)、(2K,4 096,K)、(K,2K,K)和(K,2K,K)。除了最后一層的激活函數是tanh,其他層都是ReLU。本文使用Adam[26]優化器進行訓練,學習率為0.000 1,批次大小為128。

3.3 超參數選擇

本文模型涉及的超參數有α、k、β、γ、μ、δ,共6個。其中:α是融合2個模態一階距離信息時的權重;k、β、γ是考慮二階鄰域相似性信息時的調節系數;μ、δ是與相似矩陣動態更新相關的控制參數。根據這些參數的功能,本文相應地分3批對它們進行搜索。本節以Flickr25k數據集64 位哈希碼為例,分析它們的不同取值組合對本文模型性能的影響,圖2展示了在這些取值組合下I→T和T→I這2 個方向的mAP 曲線或柱狀圖。

圖2 參數敏感性分析Fig.2 Sensitivity analysis of parameters

第1 輪搜索α,候選范圍是0.01、0.99 和0.1 至0.9的等差序列,同時將γ置零以暫時屏蔽二階鄰域信息,并暫時禁用S更新。圖2(a)顯示,在α取較小值時效果較好,對照式(10)可以看出,在構造初始相似矩陣時,圖像模態的預提取特征提供了較多有意義的結構信息。筆者猜測這是因為圖像的特征預提取模型是在大規模圖像數據集ImageNet 上預訓練過的模型,故能提供較多有效的結構信息;而文本模態是社交網絡的用戶標簽,噪聲大且詞袋模型較簡單,故提供的結構信息有限。

第2 輪用網格法搜索k、β、γ,將α置為第1 輪搜索的最優值,同時禁用S更新。k的范圍是[500,2 000],β是[2 000,4 500],步長都是500,γ的范圍同α。結合圖2(b)和式(13)可知,距離信息和鄰域結構信息在比較均衡時能產生較好的結果,說明2 種信息的重要性相當。圖2(c)顯示,總體來說當k取較小值時效果較好。筆者猜測這是因為以k 近鄰方式選取鄰域點時,較小的k值可以保證采樣的鄰域點與中心點同處特征空間中一個高密度區域,減少了來自不相關點的影響,使式(11)估計更準確。

第3 輪以網格法搜索μ、δ,啟用S更新。μ的范圍同α、δ的范圍[8,14]。結合圖2(d)和式(15)可知,當μ取較大值時效果更好,此時相似矩陣S更新得更慢。筆者猜測這是因為緩慢的更新可使監督信息更加穩定,且保留更多的原始結構信息,減少了對訓練集過擬合的風險。

在NUS-WIDE 數據集上的搜索過程類似,從而得到最終的搜索結果如下:

對于Flickr25k 數據集:α=0.01,k=500,β=2 000,γ=0.5,μ=0.99,δ=12;

對于NUS-WIDE 數據集:α=0.01,k=500,β=3 000,γ=0.3,μ=0.9,δ=8。

3.4 結果對比

本文選取10 個最近本領域的模型進行對比,分別是CVH[27]、FSH[28]、CMFH[29]、LSSH[30]、UGACH[8]、DJSRH[9]、UKD-SS[10]、JDSH[11]、DSAH[12]、DGCPN[14]。其中:CVH、FSH、CMFH、LSSH 是傳統淺層模型;UGACH、DJSRH、UKD-SS、DSAH、JDSH、DGCPN 是深度模型。

在2 個數據集上,3 種不同哈希碼位長的檢索性能分別如表1 和表2 所示,其中:最優的結果加粗標明;次優的加下劃線標明;“本文-F”表示本文模型保留嵌入融合模塊、禁用相似矩陣的動態更新;“本文-M”表示本文模型啟用動態更新、移除嵌入融合模塊,此時哈希碼由其嵌入直接施加符號函數生成。

表1 Flickr25k 數據集上的實驗結果比較 Table 1 Comparison of experimental results on Flickr25k dataset

表2 NUS-WIDE 數據集上的結果比較 Table 2 Comparison of experimental results on NUS-WIDE dataset

由表1 和表2 可以看出,本文方法構建的模型在所有數據集和哈希位長上的平均檢索性能和I→T 方向的檢索都取得最優。具體來說,相比于較新的DGCPN 模型,本文模型在Flickr25k 數據集上3 種位長的平均檢索性能分別提升了1.43%、1.82% 和1.52%,在NUS-WIDE 數據集上則分別提升了3.72%、3.77%和1.99%。而在I→T 檢索方向的提升更為明顯,在Flickr25k 數據集上為5.69%、5.17%和4.14%,在NUS-WIDE 上為10.08%、9.02%和7.09%。這些提升展示了本文方法的有效性。

相對于I→T 方向的提升,本文模型在T→I 方向的檢索性能有所欠缺,其原因可能是Flickr25k 和NUS-WDIE 中的文本主要是社交網站上的用戶標簽,其中還包含一些與數據內容無關的冗余信息,相對于圖像提供的有效信息較少。因此,在構建相似矩陣和融合嵌入時,模型都更偏向于來自圖像模態的信息,故而對文本內容的建模不夠理想。這一猜測在前一節α的選擇和后面的消融實驗中都得到部分驗證。如果換用質量更高的關鍵字或句子描述作為文本模態數據,可能在T→I方向會得到更好的效果。

3.5 收斂性分析

通過分析本文模型在訓練過程中的損失函數值變化來分析其收斂性。圖3 展示了本文模型在Flickr25k 數據集64 位哈希碼實驗中的損失值隨訓練輪次增加的變化曲線。可以看到,模型在前30 輪訓練中損失下降明顯,80 輪之后基本穩定,模型收斂。

圖3 收斂性分析Fig.3 Convergence analysis

3.6 消融實驗

為驗證本文提出的嵌入融合和相似矩陣動態更新2 個模塊的效果,本節從檢索性能和運行代價2 個方面進行考察。

對于檢索性能的影響,引入本文模型的2 個變體進行消融實驗,即表1和表2中的“本文-F”和“本文-M”。2 個變體模型在2 個數據集上的實驗結果也分別在表1和表2 中列出。可以看出,移除任一模塊都會對平均檢索性能造成不同程度的影響。值得注意的是,在移除嵌入融合模塊之后,T→I方向的檢索性能有所提升,超過本文完整模型,這驗證了前文的猜測,即不使用嵌入融合模型減輕了模型對圖像信息的偏好,但代價是對圖像數據的建模效果下降,同時影響I→T 方向和平均檢索性能。

對運行代價的影響,通過參數量和計算量2 個方面進行比較,其中計算量以乘加累積操作數(Multiply-Accumulate Operations,MACs)為指標。由于相似矩陣動態更新不引入新的網絡,因此此處僅對比本文完整模型和本文-F 變體模型。兩者對比見表3,從中可以看到,模型大部分的參數和計算量都集中在各模態的嵌入函數里,而本文為多模態融合而引入的融合函數f和跨模態生成函數gv→t、gt→v參數量和計算量僅分別占總體的3.63%和3.61%,基本可以忽略。

表3 運行成本對比 Table 3 Comparison of running cost

4 結束語

本文針對無監督跨模態檢索任務,提出多模態嵌入融合策略和相似矩陣動態更新策略。嵌入融合模塊能有效綜合來自不同模態的信息,生成質量更優的統一哈希碼;相似矩陣更新策略能在訓練過程中逐步優化相似矩陣,緩解預提取特征過度偏向原始數據集和訓練任務的問題,減少負面遷移。在2 個數據集上的實驗和分析驗證了本文方法的有效性。未來的研究方向是優化對文本模態信息的建模,利用大規模預訓練模型對文本數據進行特征預提取,從而更充分地利用文本模態的結構信息,提高以文搜圖方向的檢索性能。

猜你喜歡
模態文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
多模態話語模態的協同及在外語教學中的體現
外語學刊(2010年2期)2010-01-22 03:31:03
主站蜘蛛池模板: 婷婷中文在线| 国产毛片片精品天天看视频| 中文字幕在线播放不卡| 国产在线97| 波多野结衣一区二区三区88| 综合色区亚洲熟妇在线| 亚洲国产成人自拍| 91九色国产在线| 日本一本在线视频| 青青草原国产一区二区| 天堂岛国av无码免费无禁网站 | 老司机久久精品视频| 强奷白丝美女在线观看| 日本一区中文字幕最新在线| 亚洲手机在线| 久久频这里精品99香蕉久网址| 青青青国产视频| 成人午夜天| 国产九九精品视频| 67194亚洲无码| 一本一道波多野结衣一区二区| 成人福利在线视频免费观看| 一级毛片中文字幕| 精品小视频在线观看| 国产一区免费在线观看| 婷婷色丁香综合激情| 乱系列中文字幕在线视频| 亚洲资源在线视频| 国产成人成人一区二区| 久久综合国产乱子免费| 亚洲天堂首页| 亚洲av无码专区久久蜜芽| 久久福利网| 久久亚洲日本不卡一区二区| 日韩欧美视频第一区在线观看| 99精品视频播放| 亚洲欧美日韩高清综合678| 国产在线精品美女观看| 国产精品天干天干在线观看| 色噜噜在线观看| 国产免费a级片| 亚洲欧美国产高清va在线播放| 激情综合网激情综合| 九九视频免费在线观看| 狠狠色丁香婷婷| 无码精油按摩潮喷在线播放| 成人午夜视频网站| 狂欢视频在线观看不卡| 亚洲Va中文字幕久久一区 | 亚洲性视频网站| 欧美精品一区在线看| 五月婷婷综合色| 狼友av永久网站免费观看| 精品五夜婷香蕉国产线看观看| 亚洲开心婷婷中文字幕| 久久综合成人| 欧美日韩国产综合视频在线观看| 真实国产精品vr专区| 欧美一区二区三区不卡免费| 天天色天天操综合网| 欧美亚洲国产精品久久蜜芽| 色婷婷丁香| 99精品一区二区免费视频| 另类综合视频| 狠狠干欧美| 国产女人爽到高潮的免费视频| 免费国产好深啊好涨好硬视频| 亚洲区一区| 99人妻碰碰碰久久久久禁片| 国产成人8x视频一区二区| 在线视频亚洲色图| 免费一级毛片在线播放傲雪网| 亚洲人成影院午夜网站| 久久综合九九亚洲一区| 色偷偷一区二区三区| 四虎在线高清无码| 国产精品免费露脸视频| 国产真实乱子伦精品视手机观看 | 色婷婷天天综合在线| 国产永久免费视频m3u8| 国产另类乱子伦精品免费女| 精品视频一区二区三区在线播|