999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關系挖掘的跨模態行人重識別

2024-02-23 09:14:18金昌勝王海瑞
空軍工程大學學報 2024年1期
關鍵詞:模態特征文本

金昌勝, 王海瑞

(昆明理工大學信息工程與自動化學院,昆明,650500)

基于文本的行人重識別(text-based person re-identification)是跨模態行人重識別的重要方向,它根據給定的文本描述從大型人物圖像數據庫中識別目標人物圖像。在處理難以獲得合適的目標人物照片的場景中尋找嫌疑人或尋找走失老人與兒童等問題時,這種方法非常有用。

早期的研究[1-4]一般采用卷積神經網絡和遞歸神經網絡將圖像和文字分別編碼為全局特征,然后計算特征距離作為其相似度。然而,一方面由于遮擋、穿著相似和視角差異等因素,更加穩健的視覺特征難以被提取;另一方面,不同圖像或文本描述的相似性很高,會導致模態間差異遠大于模態內差異。為了學習更有細粒度和判別性的特征,一些局部對齊的模型來匹配圖像和文字描述的方法被提出[5-11],這些方法表明準確提取和匹配局部特征可以提高模型的性能,但是,大多數方法都使計算復雜度大大提高,并忽略了模態間和模態內的相關信息。例如穿著相似的人容易和同一段文本描述相匹配,因此必須強調圖像-文本間不匹配的關系信息,以降低負圖像-文本對的整體相似性。如圖1(a)所示,2張圖像都能正確匹配“男性”“黃色短袖”“黑色鞋子”等詞匯,但是實際上左圖并非目標圖像,因此應更加關注匹配錯誤的區域,如“藍色雙肩包”和“白色短褲”(圖1(a)中用中紅色虛線框標識)。此外,圖像和文本自身蘊含的關系信息對模型性能有影響,如圖1(b)所示,文本描述中的“右肩膀”和“紅色背包”所蘊含的關系信息可以幫助模型很好地過濾掉“背包在左肩”或者“背著雙肩包”等圖像。

(a)模態間關系信息 (b)模態內關系信息

針對目前基于文本的行人重識別中缺少模態內和模態間的關系信息挖掘的問題,本文提出了一種基于關系挖掘的跨模態行人重識別模型。該模型在全局特征對齊和局部特征對齊的基礎上,通過負相似度挖掘實現更有細粒度的模態間特征辨別,從而過濾掉相似卻錯誤的識別結果,最后通過特征關系編碼器學習圖像和文本中隱含的關系信息,實現關系級別的特征對齊。該模型在基于文本的行人重識別大型數據集CUHK-PEDES和ICFG-PEDES上均取得了較高的識別精度。

1 相關工作

目前,主流的跨模態檢索算法的基本思想是從不同模態中提取有效特征來表示挖掘跨模態數據之間的相關性。早期研究[12]將深度神經網絡與典型關聯分析(CCA)相結合,提出深度典型關聯分析(Deep CCA)來實現不同模態之間復雜的非線性變換關系;文獻[13]為了充分利用訓練數據的監督信息,同時設計了多個深度網絡,形成層次化網絡結構,通過約束模態內和模態間的相關性來學習圖像和文本的表示;文獻[14]設計改進的三元組損失函數用來監督訓練過程;文獻[15]中檢測圖像中的顯著區域并計算每個區域與文本描述詞之間的相似度以實現跨模態局部對齊;文獻[16]進一步使用注意力機制來增強圖像區域和文本詞之間的相關性挖掘;文獻[17]針對少樣本場景,提出了一種跨模態記憶網絡來實現跨模態檢索;文獻[18]為了解決跨模態訓練數據不足的問題,結合對抗學習和知識遷移技術,實現了從單模態數據到跨模態數據的大規模數據遷移。上述方法雖然實現了全局或局部關系挖掘,但缺乏對模態間負面關系信息和模態內關系信息的挖掘和利用。

基于文本的行人重識別最早由Li等[1]提出,提出用GNA-RNN模型計算每個圖像文本對之間的似度,并收集了一個名為CUHK-PEDES的大規模人物描述數據集。文獻[19]提出了一種深度對抗圖卷積網絡通過圖卷積操作學習圖像區域和文本描述詞之間的關系,有效地提高了跨模態表示的辨別力。文獻[20]提出了一種DSSL模型,明確分離環境信息和人物信息,從而獲得更高的檢索精度;NAFS[6]使用階梯式CNN和局部約束BERT在全尺度特征表示上進行聯合對齊;ViTAA[8]從屬性對齊的角度將圖像和文本分解為屬性組件,并使用細粒度匹配策略將身份與多個屬性線索對齊,極大地提高了模型性能。然而由于對齊策略復雜、計算量巨大,這些方法仍無法簡潔高效地處理基于文本的人物重識別問題。

2 建立模型

為了挖掘利用模態內和模態間的關系信息,并設計簡單高效的網絡,本文提出了基于關系挖掘的行人重識別模型,包含3個組件:①雙流主干網絡:分別提取圖像和文本的多尺度特征;②負相似度挖掘模塊:增強圖像-文本對中不匹配區域的關注度;③特征關系編碼器:學習圖像和文本中隱含的關系信息。整體結構如圖2所示。

本文模型首先采用預訓練的ResNet50和BERT[21]模型分別對圖像和文字進行全局特征提取;其次,利用PCB[22]的分割策略分別對CNN輸出的特征圖和經過多分支殘差組合得到的文本特征圖進行水平分割,進而提取局部特征;然后通過負相似度挖掘以捕獲更具有細粒度的圖像-文本關系;最后,通過關系編碼器獲得圖像和文本的關系信息,實現關系級別的特征對齊。

圖2 基于關系挖掘的行人重識別模型

2.1 多尺度特征

2.1.1 全局特征

對于全局圖像特征,首先將所有圖像調整為相同大小,其次,由于ResNet50原網絡最后2個殘差塊可以捕獲不同層次的視覺特征,本文采用在ImageNet上預訓練的ResNet50網絡分別獲得完整的低級圖像特征與高級圖像特征,最后,在上述特征上應用全局最大池化操作分別捕獲低級圖像特征Igl和高級圖像特征Igh。

對于全局文本特征,首先采用在大型語料庫訓練好的BERT模型提取文本基礎特征,然后將提取的特征經過一個1×1的卷積核、BN層,最后通過全局最大池化操作捕獲低級文本特征Tgl。值得注意的是,在訓練之前,為了確保文本長度的一致性,當文本長度大于L時,本文選擇前L個標記,當文本長度小于L時,在文本末尾用零填充,并且在每個句子的開頭和結尾插入[CLS]和 [SEP]。而在訓練時,BERT參數會被固定,這種方法一方面可以有效利用BERT強大的語言建模能力,另一方面可以有效減少訓練模型的時間消耗。

為了捕獲高級文本特征,與TIPCB[23]類似,本文所提的模型通過多分支殘差卷積模塊隱式提取與圖像區域相對應的文本局部特征,文本特征每經過一層殘差結構就會生成一級部分級特征, 將所有生成的部分級文本特征進行拼接, 再應用全局最大池化操作得到最終的高級文本特征Tgh。具體的,多分支殘差卷積模塊由6層殘差結構組成,每層殘差結構由3組瓶頸層組成,第1組瓶頸層和第3組瓶頸層由1×1 的卷積核和BN層組成,第2組瓶頸層由1×3的卷積核和BN層組成。

2.1.2 局部特征

受到PCB[22]的啟發,本文采用分割策略對經過雙流網絡得到的高級圖像特征和高級文本特征進行水平分割,局部圖像特征為:

局部文字特征為:

式中:K為水平切割條數。文中K取6。

2.2 負相似度挖掘

如前文所述,負相似度挖掘的目標是為了降低負圖像-文本對的整體相似度,以有效的方式突出不匹配的圖像-文本對對模型匹配結果的影響。

(3)

式中:θ(ik)=Wθik,φ(tj)=Wφtj。

圖3 負相似度挖掘

基于文本的行人重識別,圖像區域幾乎都可以被文本匹配到,因此對相似度矩陣進行最大池化操作sj=max (sk,j)搜尋與所有圖像區域匹配相似度最低的文本區域,以此證明該文本與任何圖像區域都不匹配,最后,為了增強判斷的準確性,通過掩碼挖掘過濾掉正相似度,并通過Sum求得最終的負相似度,其計算式為:

(4)

式中:Mmining表示輸入為正數時,輸出為0;輸入為負數時,輸出保持不變。

2.3 特征關系編碼器

關系編碼器可以隱式捕獲圖像和文本的關系信息,從而實現關系級別的特征對齊。

然后通過下列轉置相加計算初步構建2個局部區域之間的關系特征:

為了挖掘更加細膩的相鄰區域的關系信息,如圖4中的相鄰關系分支所示,本文構建了1×1的卷積層和ReLu激活函數組成的組合層,將fpc通過N層組合層(圖4中N=3,得到低級的相鄰關系特征fl_ad_r∈RCr×K×K;最后,通過與(6)式類似的計算獲得最終的相鄰關系特征:

為了挖掘更加細膩的全局區域的關系信息,如圖4中全局關系分支所示,本文采用與相鄰關系分支類似的結構,獲得最終的全局關系特征可以表示為:

最后,將經過上下2路分支分別獲得的相鄰關系特征fadr與全局關系特征fgr進行拼接操作得到最終的關系特征Fr,其計算式為:

Fr=[fadr,fgr]

(9)

圖4 特征關系編碼器

2.4 損失函數

多個研究證明,不同粒度的特征對齊可以有效的減少圖像和文本之間的特征差異性。受到相關研究的啟發,本文在低級、高級和局部級特征上選擇跨模態投影匹配(CMPM)損失[24]監督網絡訓練;在負相似度挖掘模塊中,本文采用排序損失約束模態間差異、降低負樣本相似度;在特征關系編碼器中,采用MSE損失實現關系級別的特征對齊。

2.4.1 CMPM損失

對于全局特征而言,假設輸入的圖像-文本對數量為N,將全局圖像特征I與全局文本特征T組合起來得到圖像-文本對(由于全局低級特征與全局高級特征對齊方式類似,故省略其區分下標),其表達式為:

式中:yi,j表示第i個圖像特征Ii與第j個文本特征Tj匹配情況,其匹配的概率為:

(11)

由此,可以計算出正確匹配圖片Ii的損失值為:

(12)

式中:qi,j為歸一化的真實匹配概率,為了避免數值問題,添加極小數ε在分母之中。于是,圖像到文本的CMPM損失可以計算為:

(13)

同理可以得出文字到圖像的CMPM損失Lt2i。故全局CMPM損失為:

LCMPM=Li2t+Lt2i

(14)

對于局部特征而言,首先計算出圖像與文本分割后對應區域的CMPM損失,然后計算總的局部CMPM損失:

式中:K為水平切割的條數。

綜上,最終的CMPM損失為:

2.4.2 Ranking損失

為了抑制模型對錯誤匹配結果的相似區域的關注度,本文采用排序損失。具體而言,首先計算圖像與文本的局部相似度:

其次,由于在第2.2節已經計算過樣本負相似度Sneg,故局部特征的排序損失為:

LRanking=max (α-sl_neg(I+,T+)+

sl_neg(I+,T-),0)+

max(α-sl_neg(I+,T+)+

sl_neg(I+,T-),0)

(18)

式中:sl_neg=sl+sneg,α代表排序損失的邊界值,(I+,T+)代表匹配的圖像-文本對,(I+,T-)或(I-,T+)代表不匹配的圖像-文本對。

2.4.3 MSE損失

對于關系特征而言,MSE損失函數可以縮小模態間關系特征的差異,其計算如下:

(19)

2.4.4 最終損失

通過前面的計算,分別得到了CMPM損失、Ranking損失和MSE損失。故最終損失函數為:

L=LCMPM+LRanking+Lr

(20)

式中:LCMPM為多尺度CMPM損失之和。

3 實驗

3.1 數據集

CUHK-PEDES[6]最早是唯一用于基于文本的行人重識別的大型數據集,現在也是主流的數據集。該數據集包含13 003名不同行人的40 206張圖像,每個行人圖像都用2個可變長度的描述性句子進行注釋。在實驗中,本文采用與文獻[6]中相同的數據集拆分方法,得到一個包含來自11 003個不同行人的34 054張圖像的訓練集,一個包含來自1 000個不同行人的3 078張圖像的驗證集,其余3 074張圖像用作測試集。

ICFG-PEDES[25]數據集是一個新收集的數據集,它包含 4 102 人的 54 522 張圖,每個圖像僅用1個文本描述。與CUHK-PEDES相比,ICFG-PEDES擁有細粒度更高的文本描述。ICFG-PEDES數據集被分為訓練集和測試集,分別使用 3 102 人的 34 674 個圖像-文本對和其余 1 000 人的 19 848 個圖像-文本對。

3.2 評價指標

為了評估行人重識別模型的性能,本文采用了經典評價指標累計匹配曲線(cumulative matching characteristic,CMC)和平均精度(mean average precision,mAP)。rank-N指模型在一系列結果中前N個包含正確行人的概率;mAP則表示正確結果在結果排序中的前列程度。通過綜合使用這2個指標,可以更全面地測量模型性能。

3.3 實驗設置

訓練過程在基于文本的跨模態行人重識別數據集CUHK-PEDES和ICFG-PEDES上進行。在圖像分支上采用預訓練的ResNet50提取視覺特征,在文本分支上采用預訓練的BERT模型。輸入圖像的尺寸統一調整為384×128,文本長度統一為64。預訓練的ResNet50模型和本模型其他參數一起更新,而預訓練的BERT參數則被凍結。設置局部特征分塊數K=6,設置關系編碼器模塊中的組合層個數N=3,設置排序損失中的α=0.2。在訓練過程中訓練批次設置為32,選擇Adam優化器來優化模型,訓練90個epoch,學習率在開始訓練時設置為 3×10-3,每30個epoch衰減到原來的1/3。本文模型都是在基于深度學習的框架PyTorch下實現,實驗設備為單塊顯存為12 GB的NVIDIA GeForce GTX 3060 GPU。

3.4 實驗結果分析

在CUHK-PEDES數據集上將本文模型與其他模型進行比較。主流模型可以大致分為: ①全局匹配方法,如GNA-RNN[1]、IATV[26]、Dual Path[2]和CMPM-CMPC[24];②全局-局部匹配方法,如PMA-VGG[7]、PMA-ResNet[7]、MIA[9]、ViTAA[8]、NAFS[6]、TIPCB[23];③其他方法,如CAIBC[27]、AXM-Net[28]和TFAF[29]。實驗結果具體如表1所示,通過分析可知:

表1 在CUHK-PEDES數據集上與其他方法比較

1)使用全局特征加上局部特征的多尺度匹配方法,相比于僅使用全局匹配方法,能夠捕獲更具有細粒度的特征,從而達到更好的識別效果。

2)優秀的模態特征提取方法對模型性能有顯著提升。例如MIA方法在從使用VGG提取圖像特征到使用ResNet50提取圖像特征后,rank-1精度從48.00%提升到53.10%;同樣的,TIPCB從使用LSTM 提取文本特征到使用BERT提取文本特征后,rank-1精度從60.82%提升到63.63%。

3)本文提出的模型應用了全局、局部、關系的特征對齊機制,并且采用了負相似度挖掘的方法實現更有細粒度的關系挖掘,通過在CUHK-PEDES數據集上實驗,實現了較高的識別精度提升,rank-1、rank-5、rank-10分別達到了66.37%、85.46%、90.78%。相比于圖像特征提取使用了金字塔視覺Transfomer的TFAF[29],本文模型在rank-1、rank-5、rank-10精度上仍舊提升了0.68%、1.71%、1.85%。

為了驗證模型的泛化性,本文還在ICFG-PEDES數據集上進行了實驗,實驗結果如表2所示,其實驗結果與2022年的工作IVT[31]相比,rank-1、rank-5、rank-10精度分別提升了0.58%、2.29%、2.81%。

表2 在ICFG-PEDES數據集上不同方法試驗結果對比

3.5 消融實驗

為了進一步驗證本文提出模型的有效性,實驗均在最常用的CUHK-PEDES數據集上進行。

首先,在整體模型上分別刪除局部特征對齊模塊、負相似度挖掘模塊和關系編碼器模塊,其他參數保持不變,實驗結果如表3所示,其結果說明:

1)局部特征對齊可以有效提升識別精度:在只使用全局特征對齊的情況下,rank-1和mAP只有56.24%與48.45%,而加上局部特征對齊之后,rank-1和mAP分別提升了3.67%和3.00%達到了59.91%和51.45%。

2)負相似度挖掘和關系編碼器的有效性。在使用全局特征和局部特征對齊的基礎之上,本文提出

的負相似度挖掘模塊和關系編碼器模塊分別在rank-1和mAP上提升了4.03%、4.98%和2.34%、2.46%。

3)負相似度挖掘和關系編碼器可以很好地配合實現對齊特征。在同時采用負相似度挖掘和關系編碼器的情況下rank-1和mAP分別提升了6.46%和5.25%。負相似度挖掘和關系編碼器的共同使用可以有效提升識別精度,這是由于負相似度挖掘可以很好地探索模態間的關系信息,使模型關注模態間不匹配的區域,從而過濾掉相似卻錯誤的結果,而關系編碼器可以很好地探索模態內的關系信息,實現更細膩的關系級別的特征對齊。

表3 模型不同模塊對實驗結果的影響 %

其次,為了驗證關系編碼器的相鄰關系分支和全局關系分支對模型整體性能的影響,分別采用相鄰、全局和相鄰-全局對同樣的數據集進行訓練和測試。實驗結果如表4所示,單獨使用相鄰關系挖掘或者全局關系挖掘,rank-1精度分別為64.27%和64.53%,而同時使用相鄰關系挖掘和全局關系挖掘,rank-1和mAP分別達到66.37%和56.70%。由此可見,同時使用相鄰關系挖掘和全局關系挖掘可以更全面精確地捕獲模態內的關系信息,識別效果更好。

表4 關系編碼器中上下分支對模型性能影響 %

同時,為了驗證關系編碼器中的組合層個數對于模型性能的影響,本文將N∈{1,2,3,4,5,6}對CUHK-PEDES數據集進行訓練和測試,實驗結果如圖5所示。從圖5的實驗結果可以得出:模型的性能受組合層數量影響較為明顯,組合層數量過低或過高都會影響模型性能。當N=1和N=6時,rank-1的精度只有65.56%和65.59%;而當N=3時,模型性能較好,rank-1的精度為66.37%。綜合考慮模型識別精度和復雜度,本文模型中N取值為3。

圖5 組合層數量N對模型性能影響

最后,對于局部特征分塊數K,為了驗證不同的分割粒度對于模型性能的影響,本文將K∈{1,2,3,4,5,6}對相同的數據集進行訓練和測試,實驗結果如圖6所示,其表明當K=6時,模型性能最好;當K=1時,算法接近于全局特征匹配模型,性能顯著下降;當K過大時,分割細粒度過高,無法捕獲完整的局部特征,性能同樣有所下降。綜上,本文模型中的K取6,這與PCB中的實驗結果也是一致的。

圖6 局部特征分塊數K對模型性能影響

4 結語

為了捕獲模態內相關信息、縮小模態間差異,本文提出了一種基于關系挖掘的跨模態行人重識別方法,其中包含雙流主干網絡、負相似度挖掘模塊、關系編碼器3個模塊。其中,雙流主干網絡通過殘差塊的結構捕獲多尺度特征;負相似度挖掘模塊挖掘圖像-文本不匹配的關系信息,降低負樣本整體相似度;特征關系編碼器捕獲圖像以及文本模態內關系信息實現更細膩的關系特征對齊。實驗結果表明,本文提出的模型有著不復雜的結構和良好的識別精度。如何更加簡單高效的提取模態內特征和縮小模態間差異,以及模態內的關系信息對于跨模態問題中遮擋、背景干擾和姿態變化等問題是否有改善,都是今后重點研究的方向。

猜你喜歡
模態特征文本
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 色综合成人| 四虎永久免费地址| 国产成人免费视频精品一区二区 | 97久久精品人人做人人爽| 99久久精品免费观看国产| av一区二区三区在线观看| 在线日本国产成人免费的| 国产精品yjizz视频网一二区| 亚洲人免费视频| 伊在人亚洲香蕉精品播放| 中文字幕在线看| 亚洲成人精品久久| 波多野结衣在线se| 91久久天天躁狠狠躁夜夜| 日本不卡在线视频| 东京热一区二区三区无码视频| 国产青榴视频| 国国产a国产片免费麻豆| 一区二区三区四区在线| 欧亚日韩Av| a国产精品| 色窝窝免费一区二区三区| 亚洲无码免费黄色网址| 亚洲 日韩 激情 无码 中出| 精品视频在线一区| 最新日韩AV网址在线观看| 国产91av在线| 国产成人永久免费视频| 国产原创自拍不卡第一页| 五月激情综合网| 日韩最新中文字幕| 五月婷婷导航| 国产精品毛片一区| 久久福利片| 国产AV毛片| 亚洲av无码专区久久蜜芽| 91网址在线播放| 国产精品极品美女自在线网站| 22sihu国产精品视频影视资讯| 久久黄色小视频| 欧美激情第一欧美在线| 欧美精品H在线播放| 国产白浆视频| 五月天综合网亚洲综合天堂网| 国产成人精品亚洲日本对白优播| 亚洲无码A视频在线| 麻豆AV网站免费进入| aa级毛片毛片免费观看久| m男亚洲一区中文字幕| 91久久性奴调教国产免费| 欧美天堂在线| 无码'专区第一页| 日本亚洲成高清一区二区三区| 99视频精品在线观看| 国产精品女人呻吟在线观看| 国产精品制服| 思思99热精品在线| 色网站在线免费观看| 人人爽人人爽人人片| 2021最新国产精品网站| 亚洲精品欧美重口| 国产亚洲精久久久久久久91| 一级全黄毛片| 丰满少妇αⅴ无码区| 免费人欧美成又黄又爽的视频| 欧美特黄一级大黄录像| 国产精品林美惠子在线观看| 无套av在线| 免费看a毛片| 国产精品专区第一页在线观看| 亚洲天堂伊人| 久久国产高潮流白浆免费观看| 精品无码一区二区三区在线视频| 91精品免费久久久| 精品人妻无码中字系列| 亚洲国产成人在线| 香蕉伊思人视频| yy6080理论大片一级久久| 久久婷婷国产综合尤物精品| 国产小视频在线高清播放| 日本手机在线视频| 日韩av电影一区二区三区四区 |