999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙路卷積局部對齊的文本行人跨模態檢索

2022-05-25 15:46:50莫承見
電視技術 2022年4期
關鍵詞:模態特征文本

莫承見

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)

0 引 言

文本行人跨模態檢索是圖像文本檢索領域的一個子任務,旨在根據給定的文本描述檢索目標行人圖像。人們提出了一系列相關方法來減少圖像和文本模態的差異,但其中關于文本特征判別性不足的研究工作較少,大部分工作僅是采用簡單的詞嵌入方法進行文本特征提取,其工作重點在圖像文本匹配階段。對現有的一些工作方法進行分類,圖像文本匹配大致分為全局匹配方法和局部匹配方法兩種。全局匹配方法主要側重于全局視覺和文本表示學習,無論模態如何,獲得統一的特征空間[1-4]。然而,圖像包含許多獨特的局部細節,很難通過全局表示提取來探索。此外,圖像中還有一些不相關的區域,給全局信息帶來了噪聲。為了進一步挖掘具有判別性和綜合性的信息,研究者提出了一些局部匹配方法,通過局部對齊來匹配人物圖像和文本描述[5-9]。

針對文本特征判別性不足的問題,本文采用BERT模型和Text-CNN網絡提升文本特征的判別性。考慮到局部特征對圖文檢索任務的影響,本文結合全局特征匹配和局部特征匹配來提升檢索性能。具體做法是,利用BERT模型對文本信息進行詞嵌入,然后利用Text-CNN網絡對嵌入特征進行進一步的特征提取。進行局部特征匹配時,本文通過將圖像進行水平分割然后文本自適應進行對齊的方法進行局部特征的匹配。添加了局部特征的對齊后,本文在CUHK-PEDES數據集上進行了大量實驗,實驗結果表明了本文的方法優越性。

1 相關工作

文本行人跨模態檢索是通過對行人的文本描述到圖像庫中檢索對應身份的行人圖像。LI等人[1]首次提出了跨模態行人重識別網絡GNA-RNN,其通過網絡學習兩個模態的全局特征,然后計算兩個模態全局特征的親和度達到檢索的目的。親和度高代表文本和圖像是匹配的,相反,親和度低代表匹配錯誤。為了利用身份標簽,LI等人[2]提出了一個兩個階段的CNN-LSTM網絡進行文本圖像匹配,性能較GNARNN有所提升。ZHENG等人[3]提出了一種雙路模型用于學習文本和圖像模態的特征嵌入,其通過兩個支路分別獨立提取文本和圖像的全局特征,最后利用實例損失來約束模態間全局特征的信息對齊。ZHANG等人[4]認為全局匹配效果不好主要是因為約束函數的約束能力不行,因此其在損失函數上進行了創新,提出了CMPM和CMPC損失。這兩個損失函數的應用,使得以往模型的性能有了很大的提升[5-6]。NIU等人[7]明確定義了圖像和文本三種尺度類型的對齊:全局—全局,局部—局部以及全局—局部。先分別學習各種類型的對齊,然后將三種類型的對齊結果融合在一起,作為最終的匹配結果。

2 提出的方法

本文采用BERT模型和Text-CNN網絡提取文本特征,并結合局部特征匹配和全局特征匹配以實現性能的提高[8-9]。具體地,本文采用雙路卷積局部對齊網絡結構來提取視覺和文本局部表示,使用通用PCB策略[10]提取圖像局部表示,其中人物圖像被水平分割成幾個條紋。在文本表示學習路徑中,詞嵌入由具有預訓練和固定參數的BERT模型學習,并通過Text-CNN網絡對嵌入特征進行進一步的特征提取。Text-CNN網絡由多分支殘差網絡組成,在每個分支中,學習文本表示以自適應匹配相應的圖像局部表示,從而提取對齊的文本局部表示。此外,本文通過結合局部特征匹配和全局特征匹配,進而縮小圖像和文本之間的特征差距,使得實驗效果能進一步提升。

2.1 網絡結構

本章首先介紹了雙路卷積局部對齊網絡結構,包括圖像CNN分支和文本CNN分支,然后結合局部特征匹配與全局特征匹配用于消除模態差異。本文所提出方法的網絡結構如圖1所示。

2.2 學習特征表示

2.2.1 學習圖像表示

如圖1所示,該網絡結構包含兩個CNN分支,旨在分別從輸入的人物圖像和描述中學習圖像和文本特征表示。圖像CNN分支采用Resnet50作為主干提取圖像特征,其主要由4個殘差塊組成。對于每個圖像I,本文定義其第3個殘差塊輸出為圖像低級特征f1I,第4個殘差塊的輸出作為圖像高級特征fhI。然后通過以下方式獲得圖像全局特征表示:

式中:GMP(·)表示全局最大池化,作為挖掘局部顯著信息的過濾器;vgI表示圖像全局特征表示。在這里,本文采用PCB作為獲取圖像局部區域的策略,即:圖像高級特征fhI被分割成K個水平條紋,它們分別是,對于每個條紋,本文采用全局最大池化來提取圖像特征。因此,得到的圖像特征集包含局部特征表示和全局特征表示。在測試階段,僅采用全局特征表示來衡量相似度。

2.2.2 學習文本表示

文本CNN分支采用了高性能語言表示模型BERT提取詞嵌入特征,其可以通過Transformer的雙向訓練來學習詞之間的上下文關系。具體來說,將每個文本描述T分解成一個單詞列表,并在每個句子的開頭和結尾插入[CLS]和[SEP],然后這個列表被預先訓練的符號器嵌入到符號中。為了保證文本長度的一致性,當文本長于L時,本文只選擇前L個符號,當文本長度短于L時,在文本末尾應用零填充。之后,將每個符號化的文本描述輸入到預訓練好且參數固定的BERT模型,以提取詞嵌入特征。本文只將BERT作為詞嵌入層,后續的Text-CNN結構能夠進一步處理詞嵌入特征。為了減少訓練參數并加速模型的收斂,凍結BERT模型參數,只更新Text-CNN結構的參數。

為了滿足Text-CNN卷積層的輸入要求,將詞嵌入的維度從L×D轉換成1×L×D,其中1、L和D分別表示卷積輸入的高度、寬度及通道維度。本文采用多分支Text-CNN來獲取不同級別的文本特征,Text-CNN的具體結構如圖2所示。

圖2 Text-CNN結構圖

在文本CNN分支中,為了將詞嵌入映射到與對應的圖像低級特征f1I同一通道維度,將第一層卷積層的卷積核大小設為1×1,通過1×1卷積操作將詞嵌入的通道維度映射到與圖像低級特征f1I相同的通道維度,可以得到對應的文本低級別特征f1T,通過Text-CNN網絡進行特征提取后可以獲得文本局部特征表示和文本高級特征為fhT。隨后通過全局最大池化處理,可以獲得文本全局特征表示vgT,操作如下:

為了對應圖像的K個局部區域,多分支Text-CNN網絡包含K個Text-CNN。對于每個分支,包含3個文本殘差瓶頸,旨在自適應地學習可以匹配視覺局部表示的文本表示。同時,為了保持文本信息未壓縮,瓶頸中所有卷積層的步幅設置為1×1。對于每個分支的第一個瓶頸,將文本特征圖的通道維度修改為與圖像低級特征f1I的通道維度一致,然后在接下來的瓶頸中保持通道維度不變。在Text-CNN之后,獲得了多個局部的文本特征。與圖像CNN分支類似,本文采用全局最大池化層來提取文本局部表示。因此,得到文本特征集合,其包含了多個文本局部特征和一個文本全局特征。

2.3 目標函數

使用CMPM損失作為匹配損失,它將交叉模態投影合并到KL散度中以關聯不同模態的表示。給定一批次中的n對圖像文本對,對于每個圖像特征vi,對應的圖像-文本特征對構建為,其中yi,j=1代表著vi和tj屬于同一個身份類別,而yi,j=0則代表兩者不匹配。vi匹配到tj的概率定義為:

式中:pi,j代表的是一個批次里面圖像文本對(vi,tj)在所有的對中所占的標量映射比例。因此,圖像特征與文本特征越相似,從(vi,tj)到{(vi,tj)}n j=1的標量投影就越大。

考慮到在每一批次中,圖像樣本vi可能有多個匹配的文本樣本,本文將(vi,tj)的真實匹配概率歸一化為:

將vi與每個批次里面的正確匹配文本相關聯的CMPM損失定義為:

式中:ε是一個防除零的小數字,在本文中設置為1×10-8。

按照相同的過程來執行相反的匹配(即文本到圖像),其匹配損失為,計算方式類似于式(6)。則總的目標函數定義為:

3 實 驗

3.1 數據集

CUHK-PEDES是現有主要的應用于文本行人跨模態檢索的數據集。該數據集包含40 206張行人的圖像和80 412條文本描述,一共有13 003個行人身份。每張行人圖像都有對應兩句文本描述。每個行人平均約有3.1張圖片,每個文本描述包含超過23個單詞。數據集包含9 408個不同的單詞。本實驗采用LI等[1]提出的數據分割方法,數據分為訓練集、驗證集及測試集。其中,訓練集包含34 054 張圖像,11 003個身份和68 126條文本描述;驗證集包含3 078張圖像,1 000個身份和6 158條文本描述;測試集包含3 074張圖像,1 000個身份和 6 156條文本描述。

在圖像CNN分支中,本文采用在ImageNet數據集上預訓練好的Resnet50作為提取視覺特征圖的主干。在文本CNN分支中,本文采用的是在包含Toronto Book Corpus和維基百科在內的大型語料庫上預訓練的BERT-Base-Uncase語言模型提取詞嵌入。所有輸入圖像都調整為384×128,文本長度統一為L=60。參考文獻[10],本文將圖像局部區域數目設置為K=60。每批次包含64對圖像文本對。

在訓練階段,使用Adam作為優化器來優化模型,其中權重衰減設置為4×10-5。該模型總共訓練了80代,基礎學習率設置為lr=0.003,并在訓練 50代后衰減為lr=0.000 3。此外,在前10代中通過熱身技巧初始化學習率。數據處理采用隨機水平翻轉以增加數據的技巧來進行數據增強,其中每個圖像有50%的機會隨機翻轉。

3.2 評估方案

在測試階段,采用余弦距離作為相似度的計算函數,其在跨模態檢索領域被廣泛采用,是通過網絡提取得到的圖像特征或者文本特征,查詢文本(或圖像)和圖像(或文本)之間的距離,使用余弦相似度計算:

式中:fq代表查詢特征,fg代表被查詢特征。

然后對這些距離進行排序,使用top-k(k=1,5,10)來評估模型性能。具體地,就是給定一個查詢文本描述,所有的目標圖像集根據它們與文本的相似度大小來進行排序。成功的查詢意味著匹配的行人圖像存在于top-k圖像之中。

3.3 與其他方法的比較

表1展示了本文方法與現有的文本行人跨模態檢索方法的對比結果。將這些方法分為全局匹配和局部匹配兩種類型,全局匹配方法(類型列標 記 為“G”)由GNA-RNN[1]、CMPM-CMPC[4]和MCCL[11]組成,局部匹配方法(類型列標記為“L”)包 含GLA[6]、MIA[7]、PMA[2]、CMKA[12]、RANAG[13]以及NAFS[9]。從表1可以發現,基于局部對齊的方法近年來已經成為熱門話題并且相對取得了較好的性能,這可以證明局部細粒度對齊對于縮小模態間差距的重要性。

表1 在CUHK-PEDES數據集上的對比實驗結果

3.4 消融實驗

本節分別針對Text-CNN網絡和局部特征對所提方法在數據集CUHK-PEDES上的性能影響進行消融實驗。基線的具體設置為:圖像支路使用Resnet50進行全局圖像特征提取,文本支路使用BERT模型進行全局文本特征提取,得到的全局圖像特征和全局文本特征在CMPM匹配損失的約束下進行網絡訓練,并獲取相應的匹配結果。

表2展示了Text-CNN網絡和局部特征對于所提方法的影響和貢獻。從表2可以看出,Text-CNN網絡和局部特征對模型性能都有一定的提升作用。利用文本檢索圖像時,基線加上Text-CNN后模型的rank-1較基線提升了7.73%,并且rank-5和rank-10都有相應的提升。基線加上局部特征對齊后的rank-1較基線提升了3.13%。當把這兩部分結合起來,模型的性能相較于基線性能有了比較明顯的提升,其rank-1的準確率能夠達到62.41%。此外,在圖像檢索文本時,模型性能也有所提升。這證明了Text-CNN網絡和局部特征對于文本行人跨模態檢索任務是有效的。

表2 Text-CNN和局部特征的影響和貢獻

4 結 語

本文針對文本行人跨模態檢索中文本特征判別行不足的問題,提出了采用Text-CNN網絡對文本特征進行進一步提取的算法。該方法詳通過結合BERT模型和Text-CNN網絡,能夠有效地提升文本特征的判別性。此外,本文探討了局部特征對于文本行人跨模態檢索任務的有效性,通過添加局部特征對齊,同時結合全局特征的對齊,本文的性能達到了與主流方法性能相當的水平。本文方法在CUHK-PEDES數據集上進行了大量的實驗,通過對比實驗驗證了本文方法的有效性和優越性,并通過消融實驗分別驗證了Text-CNN網絡和局部特征對齊對于文本行人跨模態檢索任務的影響和貢獻。然而,本文僅考慮了局部特征和全局特征的結合,并沒有全面考慮多尺度特征對于任務的影響,今后的工作將考慮多尺度特征的結合,優化網絡結構,進一步提升匹配性能。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 毛片久久网站小视频| 久久久久久久97| 久久久久青草大香线综合精品| 色婷婷成人网| 97影院午夜在线观看视频| 高清精品美女在线播放| 国产在线观看精品| 国产女同自拍视频| 视频一本大道香蕉久在线播放| 亚洲精品亚洲人成在线| 五月婷婷丁香综合| 亚洲国产亚洲综合在线尤物| 日韩免费成人| 欧美国产日韩在线| 国产乱视频网站| 在线日韩日本国产亚洲| 无码一区二区波多野结衣播放搜索| 国内a级毛片| 午夜少妇精品视频小电影| 在线一级毛片| 国产H片无码不卡在线视频| 色吊丝av中文字幕| 九色综合视频网| 精品视频一区在线观看| 成人福利在线免费观看| 国产偷倩视频| 亚洲区第一页| 三上悠亚一区二区| 在线观看亚洲人成网站| 国产高清国内精品福利| 国产女主播一区| 国产小视频网站| 日韩欧美国产成人| 欧美日韩专区| 亚洲精品老司机| 国产精品欧美亚洲韩国日本不卡| 久久无码高潮喷水| 91久久夜色精品国产网站| 欧美a在线看| 在线中文字幕日韩| 亚洲一区二区三区香蕉| 日韩在线第三页| 国产无码精品在线播放| 国产精品成人观看视频国产 | 欧美日韩va| 夜夜爽免费视频| 久久精品aⅴ无码中文字幕 | 亚洲综合日韩精品| 2022国产91精品久久久久久| 亚洲精品无码抽插日韩| 亚洲欧美日韩动漫| 麻豆国产精品视频| 国产一级二级三级毛片| 国产成人AV大片大片在线播放 | 欧美国产日韩另类| 久久精品国产国语对白| 国产丝袜第一页| 四虎影院国产| 波多野结衣无码中文字幕在线观看一区二区 | 99爱视频精品免视看| 亚洲人成色77777在线观看| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲一区二区黄色| 国产第一页屁屁影院| 三区在线视频| 亚洲中文无码av永久伊人| 日韩精品毛片| 国产欧美视频一区二区三区| 欧美一区二区啪啪| 亚洲天堂日韩av电影| 欧美一级高清免费a| 狠狠做深爱婷婷久久一区| 亚洲人成网址| 国产在线一区视频| 亚洲v日韩v欧美在线观看| 欧美午夜视频在线| 一级爱做片免费观看久久| 久久人体视频| 麻豆精品国产自产在线| 毛片手机在线看| 久久综合AV免费观看| 欧美国产日本高清不卡|