999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用類別信息和列表排序的跨模態檢索

2021-03-11 06:20:50劉雨萍曾奕斌
計算機與生活 2021年3期
關鍵詞:排序模態特征

劉雨萍,葛 紅,曾奕斌

華南師范大學 計算機學院,廣州510631

給定一個圖像(文本),跨模態檢索的目的是找到與其最相關的文本(圖像),但是很難直接測量多模態樣本特征之間的相似性。已經有很多方法提出通過學習公共子空間來縮小不同模態樣本特征之間的差異性[1-3]。

基于用于公共子空間學習的信息,跨模態檢索方法主要可分為監督學習、無監督學習、基于文檔對排序的方法和基于列表排序的方法。無監督學習方法中最經典的算法之一是典型相關分析(canonical correlation analysis,CCA)[4],其通過最大程度地利用不同模態數據之間的相關性來學習公共子空間。CCA 有很多變體,例如深度典型相關分析(deep canonical correlation analysis,DCCA)[5],該算法用于研究兩個數據視圖的復雜非線性變換以使樣本特征的最終表示形式高度相關。公共子空間的學習方法使跨模態檢索的發展向前邁進了一步,像文檔[4,6]這樣的無監督方法利用在模態文檔中共存的信息來學習跨模態數據的通用表示。偏最小二乘法(partial least squares,PLS)[6]與CCA[4]類似,它選擇善于區分不同標簽的特征向量。

有監督的子空間學習方法使同一類別的樣本盡可能靠近,而不同類別的樣本盡可能遠離。例如廣義多視角分析(generalized multiview analysis,GMA)[7]是CCA 的拓展算法,它使用數據的類別信息來學習子空間。學習耦合特征空間(learning coupled feature spaces,LCFS)[8]同時從兩種模態中選擇相關特征和判別特征,使得學習空間更加有效。

近年來,跨模態檢索中普遍使用基于文檔對和列表排序的方法,使得檢索性能得到了很大的提高。文獻[9]提出了自適應列表約束,通過強調樣本間的不相關信息與相關信息一樣重要來學習排序。文獻[10]提出了一種判別性排序模型,以利用單模態之間的關系來提高排序性能。文獻[3]通過成對約束找到隱藏在不同模態中的共同結構,并展示了具有語義誘導的成對約束的不同模態聯合建模的有效性?;谂判虻姆椒?,例如文獻[9-11],通過利用按列表排序的方法來學習樣本之間的共同表示。基于文檔對的方法,例如文獻[12-14],對文檔對進行分組,不僅考慮了單個文檔,而且考慮了各個文檔之間的分組是否合理。

克服不同模態內容的語義鴻溝是跨模態檢索的一大挑戰。文獻[15]運用SAN(saliency-guided attention network)在跨模態數據之間建立非對稱連接,從而有效地學習細粒度的跨模態相關性。文獻[16]利用注意力機制來定位語義上有意義的部分,并利用記憶網絡捕獲長期的上下文知識來學習不同模態的有力和魯棒性表示。文獻[17]提出了SER2(squeeze-andexcitation recurrent residual)模型,并將其并入到端到端網絡中,能夠有效地生成多級語義特征,以增強兩種模態的表示能力。作者還提出了CMSD(crossmodal semantic discrepancy)損失,通過挖掘跨模態數據之間的常見語義相關性,在多個級別上減輕了跨模態之間的分布差異。文獻[18]利用對抗性學習指導的多標簽注意模塊來增強特征學習部分,從而學習判別性特征表示并保持跨模態不變性。

對于跨模態檢索,許多常見的子空間學習方法都取得了優異的結果,但是仍然有很大的進步空間,它們中的大多數方法未能有效地識別類內相關性和類間相關性。為了同時充分利用類內信息和類間信息,本文引入了支持鄰域(support neighbor,SN)損失[19],以更有效地區分相關樣本和無關樣本,為了使所提出方法的性能更好,使用了文檔列表排序方法,而不是文檔對排序方法。

盡管已有很多方法致力于改進訓練模型,但損失函數在模型中也起著至關重要的作用。好的損失函數將大大改善模型的性能。因此,在本文方法中,為了加強類內樣本凝聚力,集中于懲罰錨點到其最遠的正樣本的距離與到其最近的正樣本的距離之差。為了確保類間樣本之間的分離,將正樣本與錨點的相似度最大化,同時將負樣本與錨點的相似度最小化。

本文的主要貢獻如下:首先,將SN 損失函數使用到跨模態檢索中,使用該損失函數來訓練網絡模型,從而使樣本在共同學習子空間中具有更明顯的類內和類間關系。然后,通過充分利用樣本之間的類別信息,提高對映射到公共子空間中的正樣本特征和負樣本特征的識別。最后,在最經典的跨模態檢索數據集中進行了大量實驗,通過與最經典的幾種跨模態檢索方法進行比較,證明了本文方法的有效性。

1 C2MLR2算法

1.1 問題描述

給定包含有n對圖像-文本對的數據集,設定圖像模態特征集和文本模態特征集分別表示為I=I1,I2,…,In和T=T1,T2,…,Tn。令匹配對表示為Pi={xi,yi},其中xi∈I和yi∈T分別表示第i個輸入實例的圖像樣本和文本樣本。

Fig.1 Overview of C2MLR2 model圖1 C2MLR2模型概覽

在學習的公共子空間中使用歐氏距離來測量圖像和樣本之間的相似度,其表示如下:其中,f I(xi)是圖像映射函數,fT(yi)是將文本映射到公共空間的函數。歐式距離通過測量空間中樣本之間的距離來度量樣本間的相似性。距離越大,樣本差異越大,否則差異越小。

為了充分利用樣本之間的結構信息,以學習到一個更好的使用類別信息的相似性排序模型,C2MLR2(cross-modal retrieval by listwise ranking and class information)采用了基于列表排序而不是基于文檔對排序的方法。在模型中,本文使用SN損失來訓練模型,不僅考慮了同類樣本之間的相關信息,并且對不同類樣本之間的不相關信息賦予同樣的關注度,從而可以更好地對樣本進行分類來實現圖像和文本的雙向查詢。

1.2 模型表示

如圖1 所示,SN 損失在模型中起著至關重要的作用。在SN損失的作用下,本文模型取得了很好的分類效果。為了符合本文的實際查詢需求,本文模型同時考慮了圖像-文本和文本-圖像的雙向檢索。

該模型將SN損失用于處理種類信息,并通過兩個分支網絡將圖像和文本特征嵌入到公共子空間中,然后將處理后的特征通過最后一層的網絡傳遞,并使用基于列表排序的方法進行圖像-文本和文本-圖像檢索。

從模型圖中可以看出,隨著模型的訓練學習,本文算法對樣本實現了不錯的分類效果。屬于同一類別的樣本彼此靠近,而不同類別的樣本則相互推離,形成了各自的類別區域,從而提高了樣本查詢的準確性及效率。

1.3 算法描述

verification loss 和identification loss[20]廣泛應用于行人重識別中,但是兩者都有一定的局限性。verification loss 旨在減少類內差異,同時擴大類間差異,但是當數據集很大時,verification loss 易于低收斂和不穩定。盡管identification loss具有良好的分離性和可擴展性,但它忽略了類內差異,從而明顯降低了樣本判別的性能。為了避免這兩種損失的局限性,SN loss采用了雙損失的組合,而不是簡單地將兩種損失合并在一起。為了提高類內樣本特征的聚攏性,SN 損失懲罰離錨點最遠的正樣本和最近的正樣本之間的距離;為了確保類間特征的區別性,使用類似于softmax的損失函數來最大化錨點和正樣本之間的相似度,同時最小化錨點與負樣本之間的相似性。原理圖如圖2所示。

Fig.2 Schematic illustration of SN loss圖2 SN loss示意圖

具體上,SN loss 由separation loss 和squeeze loss組成。在行人重識別中,SN loss用于單模態樣本中,由于其不僅對樣本之間的相關信息還對樣本之間的不相關信息進行探索,本文在跨模態檢索中對其進行研究,克服不同模態間樣本的異構性,通過不斷的努力,最后成功將其與基于列表排序而不是文檔對排序用于跨模態檢索中,充分考慮樣本特征之間的類別信息,并取得了可觀的效果。

1.3.1 separation loss

separation loss 的目標在于將正樣本和負樣本分離開來。對于圖像-文本搜索,該損失旨在最大化圖像錨點(xi)和文本正樣本之間(yp)的相似性,同時最小化圖像錨點和文本負樣本(yn)之間的相似性。用于圖像-文本搜索中的separation loss表示為:

separation loss 強調了樣本相關信息和不相關信息的重要性,不僅探索了同一類樣本之間的關聯,同時將不同類樣本之間的不相關性擴大,從而使得不同類樣本之間的距離盡可能遠,減少分類誤差。

1.3.2 squeeze loss

為了懲罰錨點的最近正樣本和最遠正樣本之間距離的偏差,同時拉近正樣本之間的距離以形成更緊湊的樣本簇,引入了squeeze loss。

對于圖像-文本檢索,squeeze loss損失表示如下:

同理,對于文本-圖像檢索,squeeze loss表示為:

squeeze loss考慮到了與查詢樣本屬于同一種類的樣本的相關特征信息,將相關信息之間的聯系擴大化,將同一類別的樣本調整靠近,避免了同一類別的樣本距離過大,便于同類樣本的檢索。

1.3.3 SN loss

將separation loss和squeeze loss聯系起來,圖像-文本搜索的SN loss表示為:

同理,文本-圖像搜索的SN loss表示為:

為了取得更好的查詢效果,將以上兩個方向查詢的損失共同優化為:

其中,β是兩個方向查詢的平衡參數。因為跨模態檢索不僅僅只是為了單向檢索,而是實現雙向檢索來滿足日常檢索需求。β平衡了圖像-文本和文本-圖像損失對雙向檢索的影響,使得兩個方向的檢索都占據著一定的比重,β的取值不同,檢索性能也會有差別,通過大量實驗來確定其最佳值,使得雙向檢索性能達到最優。

本文方法結合了促進類內聚攏,同時確保類間分離的SN loss和充分考慮類間的結構信息的列表排序,大大提高了算法的分類效果。在實際應用中,跨模態檢索不僅涉及到一個方向而是多個方向的檢索。對于圖像和文本匹配,不僅要考慮到圖像-文本,還要考慮到文本-圖像之間的檢索,因此SN loss對兩個方向的檢索問題都加以考慮,使得檢索更富實用性。

1.4 方法細節

分析單個樣本對或三元組無法充分利用鄰域結構之間的上下文信息,因此模型很難學習到所有樣本之間的聯系。為了解決這個問題,本文采用了列表排序的方法,將SN loss 用于模型訓練中。與基于匹配對的方法不同,本文方法遍歷每一批樣本,并且將每個樣本作為錨點來查找其對應的正負樣本集,也因此充分考慮了樣本之間的類別信息,充分發揮了SN loss的優勢。

對于網絡模型結構,很多方法由于沒有充分考慮類別信息,從而采用了混合結構,將一些常用的分類損失與自身的算法結合在一起。相反,本文算法充分考慮了類內和類間關系,因此本文的網絡僅使用了SN loss來對樣本特征進行分類而不需要借助其他的分類分支。

實驗結果表明,本文方法在性能上具有相當大的優勢。

2 實驗結果與分析

2.1 多模態數據集

2.1.1 Wikipedia數據集

Wikipedia數據集[21]由2 866對圖像-文本對組成,其中2 000對作為訓練集,866對作為測試集,該數據集包含了10 個類別的樣本。在每對樣本中,圖像樣本涉及藝術、生物學、地理學、歷史等鄰域的內容,文本是描述與圖像相關內容的文章。為了增強實驗的可比性,本文使用與文獻[22]相同的樣本組成分布。

2.1.2 Pascal數據集

Pascal 數據集[23]廣泛應用于跨模態檢索中,其由包含20種類別信息的5 011/4 952(訓練集/測試集)對圖像-文本對構成,其中一個樣本特征對可能屬于一個類別也可能屬于多個類別。對數據集進行處理,從數據集中刪除了不包含標簽信息的樣本,因此最后用作訓練集的樣本有5 000對圖像-文本對,用于測試集的有4 919對圖像-文本對。

2.2 評估指標

為了測量樣本特征的相似性,使用了余弦相似度。平均精度均值(mean average precision,MAP)[8]是跨模態檢索中常用的評估指標,因此在實驗中使用MAP評估算法的整體性能,而MAP是查詢結果中所得AP(average precision)的平均值,其中AP表示為:

其中,T是檢索集中相關樣本集的數量,P(r)表示排序中前r個檢索樣本集的精度,如果第r個查詢與該查詢相關,則δ(r)=1,否則δ(r)=0。

將本文算法與跨模態檢索中幾種經典算法進行比較,例如CCA[4]、LCFS[8]、廣義多視角線性判別分析和廣義多視角臨界費舍爾分析(generalized multiview linear discriminant analysis &generalized multiview marginal Fisher analysis,GMLDA&GMMFA)[7]、多標簽典型相關分析(multilabel canonical correlation analysis,ml-CCA)[24]、基于局部組的一致性特征學習(local group based consistent feature learning,LGCFL)[25]、跨媒體多深度網絡(cross-media multiple deep network,CMDN)[26]和深度成對排序模型(deep pairwise ranking model with multi-label information for cross-modal retrieval,DPRCM)[12]等,實驗結果證明了本文算法的有效性。

2.3 實驗結果

2.3.1 實驗對比方法

(1)CCA

CCA[4]是最流行的無監督子空間學習方法之一,通過最大化圖像特征和文本特征空間之間的相關性來學習公共子空間??梢钥醋魇钦业絻山M變量的基向量的問題,從而使變量在這些基向量上的投影之間的相關性最大,其尋求一對線性變換,每個變量對應一個線性變換,當變量組進行變換時,對應的坐標將最大程度相關。

(2)LCFS

LCFS[8]將耦合線性回歸、L21范數和跡范數統一到一般最小化公式中,以便可以同時執行公共子空間學習和耦合特征選擇,其通過學習不同的投影矩陣來將不同的模態數據投影到由標簽信息定義的公共子空間中,并且在投影中同時選擇耦合空間的相關性特征和判別特征。

(3)GMLDA&GMMFA

廣義多視角線性判別分析(GMLDA)[7]是廣義多視角分析(GMA)[7]和線性判別分析(linear discriminant analysis,LDA)[27]的結合,廣義多視角臨界費舍爾分析(GMMFA)[7]是GMA 和臨界費舍爾分析(marginal Fisher analysis,MFA)[28]的結合。GMA是一種泛化的多視角特征提取方法,是CCA的有監督擴展,可將其泛化到看不見的類,具有多視角和可內核化的特性,提供了一個有效的基于特征值的解決方法。LDA將高維樣本投影到最佳鑒別向量空間,使得投影后的樣本在新的空間中有最小的類內距離和最大的類間距離。MFA嘗試在特征空間中分離不同類和同類樣本。GMLDA&GMMFA[7]通過學習一個具有判別性的公共子空間來解決跨視角分類問題。

(4)MMs

基于多階空間的度量(metric based on multi-order spaces,MMs)[29]用于表示圖像以豐富語義信息,并且共同學習多空間之間的度量以測量兩種不同模態之間的相似性,其通過多階統計量豐富了圖像的表示方式,并且在多個空間之間的度量標準共同用于測量兩個模態之間的相似性。在MMs 中,度量框架同時使用正對和負對約束來約束損失函數,從而可以有效地度量兩種不同模態之間的相似性。

(5)ml-CCA

ml-CCA[24]是CCA 的擴展,它通過同時考慮以多標簽注釋形式出現的高級語義信息來學習公共子空間。與CCA不同,ml-CCA不依賴于模態之間的顯式配對,而是使用多標簽信息來建立對應關系,這樣就產生了一個判別子空間,該子空間更適合于跨模態檢索任務。

(6)CML2R

通過潛在聯合表示進行排序的跨模態學習(crossmodal learning to rank via latent joint representation,CML2R)[30]嘗試學習多模態數據之間的潛在聯合表示,而不是學習各個模態的單獨潛在表示,其通過條件隨機場和以列表排序方式的結構學習來發現多模態數據對的潛在聯合表示。在CML2R 中,多模態數據之間的相關性是根據它們共享的隱藏變量(例如主題)來捕獲的,并且以列表排序的方式學習了隱藏主題驅動的判別排名函數。

(7)LGCFL

LGCFL[25]利用類標簽進行聯合特征學習,將每種模態的原始特征投射到所學習的特征空間上以獲得特征編碼,并計算出特征編碼之間的相似度以進行跨模態檢索。該方法提出基于局部組的先驗以利用基于塊的特征,用監督式聯合特征學習公式來學習跨模態匹配的一致特征。

(8)CMDN

CMDN[26]通過分層學習來利用復雜而豐富的跨媒體相關性。CMDN先對媒體和媒體間的信息進行聯合建模,以獲取每種媒體數據的互補獨立表示,接著將媒體內和媒體間的表示形式進行分層組合,以通過更深層次的兩級網絡策略進一步學習豐富的跨媒體相關性,最后通過堆疊式網絡樣式獲取共同表示。與現有僅采用具有媒體內信息作為輸入的單級網絡方法相比,CMDN 以堆疊網絡的方式學習共同表示,以充分挖掘復雜的跨媒體相關性,與淺層網絡結構相比,具有更好的學習能力。

(9)DPRCM

為了充分考慮圖像和文本之間的不相關信息,跨模態檢索的具有多標簽信息的深度成對排序模型(DPRCM)[12]利用雙三元組損失來增大公共子空間中不相關的圖像和文本之間的距離,利用來自圖像和文本兩個方向的語義信息來學習更好的公共子空間。結合了兩個分類函數來捕獲多標簽信息,從而減少圖像和文本特征之間的語義鴻溝。

2.3.2 Wikipedia數據集實驗結果

表1展示了Wikipedia數據集上幾種不同方法的MAP 得分。從表1 中可以看出,本文方法優于其他幾種方法,圖像-文本和文本-圖像檢索的MAP 分別為0.436 1 和0.337 8,平均MAP 達到0.387 0,比次優的方法DPRCM(0.379 0)高出約2%,這是因為C2MLR2同時考慮了類內和類間信息,在拉近同類樣本的同時使得不同類樣本相互遠離,從而可以達到很好的分類效果。

Table 1 MAP scores on Wikipedia datasets表1 Wikipedia數據集上的MAP

2.3.3 Pascal數據集實驗結果

表2 展示了跨模態檢索中幾種常見方法取得的MAP,從表中可以看出,LCFS 高于其他幾種方法對應的MAP,這是因為LCFS同時從兩種模態中選擇了相關特征和判別特征。

ml-CCA是CCA的擴展,它通過考慮多標簽注釋形式的高級語義信息來取得良好的效果。相比之下,本文方法在圖像-文本和文本-圖像檢索中均取得更好的結果,平均MAP 為0.476 0,優于DPRCM(0.434 3),這是因為其基于文檔對排序,并隨機選擇錨點,而本文擴大了排序范圍,采用了列表排序,每一訓練批次的所有樣本都作為錨點,來查找其對應的正樣本和負樣本,從而加強了對樣本特征之間類別關系的探索。

Fig.3 Visualization of Wikipedia datasets圖3 Wikipedia數據集的可視化

Table 2 MAP scores on Pascal datasets表2 Pascal 數據集上的MAP

2.4 結果可視化

圖3展示了Wikipedia數據集上的跨模態特征可視化結果。圖中相同的顏色代表相同的種類,不同的顏色代表不同的類別。算法的分類性能越好,相同顏色的樣本就越聚攏,不同顏色的樣本就越遠離。

從圖3 可以看出,隨著實驗迭代次數的增加,本文算法的分類效果越來越明顯,并且本文算法充分考慮了類內樣本之間以及類間樣本之間的關系,使得分類后類內樣本相對緊湊,而類間樣本之間則相對遠離,從而達到理想的分類效果。

3 結束語

本文提出了一種新的方法(C2MLR2),用文檔列表排序的方法來學習跨模態數據的共同表示。對類內和類間信息都賦予同等的重要性,充分考慮樣本之間的類別信息,使用SN loss來減少類內偏差,同時增大類間偏差,從而同時考慮了樣本之間類內和類間的類別信息,而沒有忽略掉其中任何一方,使得同類樣本相對緊湊而不同類樣本相對遠離。C2MLR2采用批訓練,將所有樣本都作為錨點,并將正樣本拉向錨點,同時將負樣本推離錨點,從而提高了檢索的準確性和效果。實驗結果表明了本文方法在跨模態檢索中取得了相當可觀的效果。

猜你喜歡
排序模態特征
排序不等式
恐怖排序
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 色婷婷成人| 日本午夜视频在线观看| 国产精品美女自慰喷水| 91亚洲精品第一| 国产av一码二码三码无码| 欧美va亚洲va香蕉在线| 真人高潮娇喘嗯啊在线观看| 亚洲国产综合精品一区| 福利一区在线| 91啪在线| 国产原创演绎剧情有字幕的| 视频在线观看一区二区| 亚洲最大看欧美片网站地址| 国产亚洲精品91| 久久久久久国产精品mv| 中美日韩在线网免费毛片视频 | 青青青国产视频| 麻豆精品国产自产在线| 国产一线在线| 中文字幕无线码一区| 沈阳少妇高潮在线| 日韩美女福利视频| 国产精品亚洲日韩AⅤ在线观看| 欧美黑人欧美精品刺激| 91久久精品国产| 欧美视频免费一区二区三区| 中文字幕佐山爱一区二区免费| 国产精品视频观看裸模| 中文字幕不卡免费高清视频| 国产精品嫩草影院视频| 国产精品专区第一页在线观看| 日韩在线影院| 国产精品第一区| 国产区免费| 国产精品视频久| 国产精品吹潮在线观看中文| 午夜福利在线观看入口| 日本免费高清一区| 亚洲高清资源| 国产人碰人摸人爱免费视频| 有专无码视频| 精品福利视频导航| 日本一区二区三区精品视频| 久久香蕉欧美精品| 国产经典在线观看一区| 久久影院一区二区h| 亚洲视频免| 欧美成人一级| 日韩激情成人| 在线亚洲精品自拍| 欧美精品在线看| 精品视频福利| 国产成人综合亚洲欧美在| 丰满的少妇人妻无码区| 亚洲中文字幕手机在线第一页| 一级毛片不卡片免费观看| 亚洲欧美极品| lhav亚洲精品| 思思99思思久久最新精品| 亚洲首页国产精品丝袜| 亚洲欧美综合另类图片小说区| 香蕉久久国产超碰青草| 日韩精品毛片人妻AV不卡| 思思热在线视频精品| 亚洲三级电影在线播放 | 99久久亚洲综合精品TS| 又黄又爽视频好爽视频| 亚洲综合色婷婷| 国产肉感大码AV无码| 国产精品99久久久久久董美香| 亚洲va精品中文字幕| 色综合成人| 国产精品亚洲欧美日韩久久| 国产第八页| 国内精品久久久久久久久久影视| 伊人大杳蕉中文无码| 亚洲精品无码高潮喷水A| 亚洲香蕉伊综合在人在线| 婷婷色一二三区波多野衣| 国产高清不卡视频| 大陆精大陆国产国语精品1024| 久久精品亚洲中文字幕乱码|