999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積網(wǎng)絡(luò)與自注意力圖池化的視頻行人重識(shí)別方法

2023-03-24 13:24:50姚英茂姜曉燕
計(jì)算機(jī)應(yīng)用 2023年3期
關(guān)鍵詞:特征信息模型

姚英茂,姜曉燕

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

0 引言

跨相機(jī)網(wǎng)絡(luò)行人重識(shí)別通常被視為圖像檢索問(wèn)題,旨在將目標(biāo)圖像/視頻與不同視角拍攝的圖庫(kù)照片/視頻相匹配,在智慧交通、智能監(jiān)控和刑事偵查領(lǐng)域有著廣泛的應(yīng)用[1]。然而,不同相機(jī)因視角、光照、行人姿態(tài)等因素不同而造成的目標(biāo)遮擋、外觀差異等會(huì)對(duì)行人重識(shí)別的效果產(chǎn)生嚴(yán)重影響,因此行人重識(shí)別仍然是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)具有挑戰(zhàn)性的研究。

現(xiàn)有的行人重識(shí)別方法一般分為兩大類(lèi):基于圖像的行人重識(shí)別和基于視頻的行人重識(shí)別。基于圖像的行人重識(shí)別方法[2]將單幀圖像作為輸入,側(cè)重于提取衣服的顏色、行人的體態(tài)等外觀特征,而不考慮圖像之間的時(shí)序信息。當(dāng)圖像中出現(xiàn)大面積噪點(diǎn)或目標(biāo)被遮擋時(shí),基于圖像的行人重識(shí)別效果會(huì)受到嚴(yán)重影響。基于視頻的行人重識(shí)別方法直接使用視頻序列作為輸入,相比單幀圖像不僅包含了更加豐富的行人外觀特征,還包含了與行人運(yùn)動(dòng)相關(guān)的時(shí)序信息,如行人的姿態(tài)和步態(tài)的變化[3]等,有助于消除單張圖像外觀特征對(duì)重識(shí)別整體效果的負(fù)面影響。

基于視頻的行人重識(shí)別大部分采用了基于深度學(xué)習(xí)的方法,如光流法[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4-5]、三維卷 積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Network,3D CNN)[6-7]、注意力機(jī)制[8-11]等。這些方法首先采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為特征提取器,逐幀提取特征向量,再通過(guò)時(shí)序池化將序列中的逐幀特征聚合為視頻特征,最后在特定的度量空間中比較這些特征。如果直接對(duì)不同幀的圖像進(jìn)行時(shí)序建模,僅利用了視頻中很少的時(shí)序信息,而忽視了幀間不同區(qū)域更具判別力的關(guān)聯(lián)信息[12],這些信息往往是解決行人重識(shí)別問(wèn)題的關(guān)鍵。

行人重識(shí)別中存在的一些問(wèn)題如圖1 所示。圖1(a)中,行人身體的不同部位在不同幀中被障礙物遮擋,但在其他幀中這些被遮擋的部位又重新出現(xiàn)。如果能夠利用其他幀中未被遮擋的行人特征補(bǔ)足,將會(huì)減少遮擋問(wèn)題的影響。圖1(b)中,較長(zhǎng)的視頻中存在幀間行人空間不對(duì)齊的問(wèn)題,如能利用行人的身體結(jié)構(gòu)信息,將近似的部位予以對(duì)應(yīng)、相互學(xué)習(xí),將有助于改善因空間不對(duì)齊帶來(lái)的問(wèn)題。圖1(c)中,部分區(qū)域存在背景雜波,如能排除此類(lèi)與行人無(wú)關(guān)的干擾信息,能夠提取更具判別力的特征。

圖1 行人重識(shí)別中存在的問(wèn)題Fig.1 Problems in person re-identification

基于上述研究,為有效利用視頻序列中蘊(yùn)含的豐富的行人外觀信息以及與行人運(yùn)動(dòng)相關(guān)的時(shí)序信息,本文提出了一種基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[13]與自注意力圖池化(Self-Attention Graph Pooling,SAGP)[14]的方法。首先,通過(guò)建模區(qū)塊關(guān)系圖,挖掘幀間不同區(qū)域的關(guān)聯(lián)信息,使用GCN 在節(jié)點(diǎn)間傳遞關(guān)聯(lián)信息,優(yōu)化逐幀圖像中的區(qū)域特征,緩解遮擋和空間不對(duì)齊等問(wèn)題。其次,通過(guò)SAGP機(jī)制去除圖模型中對(duì)于行人特征貢獻(xiàn)率較低的節(jié)點(diǎn),抑制背景雜波的影響。另外,考慮到幀內(nèi)的行人結(jié)構(gòu)信息同樣重要,結(jié)合全局分支和圖分支以互補(bǔ)地挖掘信息。最后,采用一種加權(quán)損失函數(shù)策略,除使用交叉熵?fù)p失(Cross-Entropy Loss,CEL)和三元組損失(Triplet Loss,TL)的傳統(tǒng)做法以外,用中心損失(Center Loss,CL)[15]聚集屬于同一身份的樣本特征,優(yōu)化分類(lèi)學(xué)習(xí)的效果;并使用在線軟挖掘和類(lèi)感知注意力損失(Online soft mining and Class-aware attention Loss,OCL)[16],為每個(gè)批次的樣本分配一個(gè)連續(xù)分布的函數(shù),在線挖掘樣本數(shù)據(jù),解決難樣本挖掘中樣本未被充分利用的問(wèn)題,同時(shí)排除標(biāo)簽錯(cuò)誤的異常值樣本對(duì)模型性能的影響。

1 相關(guān)工作

1.1 基于視頻的行人重識(shí)別

目前大多數(shù)基于視頻的行人重識(shí)別方法采用CNN 作為特征提取器,從連續(xù)幀中提取行人圖像的空間特征;然后建模一個(gè)時(shí)域模型,挖掘視頻序列中特有的時(shí)序信息,最后使用時(shí)序池化將序列中逐幀圖像的特征聚合為視頻特征,在特定的度量空間中進(jìn)行比較。先前的一些研究使用了光流法,通過(guò)提取視頻序列的步態(tài)信息得到時(shí)序特征,例如,文獻(xiàn)[3]提出一種雙流CNN,每個(gè)流都是一個(gè)孿生網(wǎng)絡(luò),用于處理兩個(gè)視頻序列并計(jì)算它們之間的相似性,第一個(gè)流的輸入是RGB 幀,第二個(gè)流的輸入是光流棧,分別學(xué)習(xí)空間信息和時(shí)間信息。但是,對(duì)于遮擋和存在背景雜波的場(chǎng)景,光流法不夠穩(wěn)健并且耗時(shí)較多。還有一些研究通過(guò)RNN 進(jìn)行時(shí)間建模,聚合幀級(jí)時(shí)序特征表示行人的視頻特征,例如:文獻(xiàn)[4]在采用CNN 提取空間特征的基礎(chǔ)上,使用RNN 進(jìn)行時(shí)間建模,建立序列間的關(guān)聯(lián);文獻(xiàn)[5]提出一個(gè)改善循環(huán)單元(Refining Recurrent Unit,RRU),通過(guò)參考?xì)v史幀以恢復(fù)當(dāng)前幀特征中缺失的部分,并抑制背景雜波,利用時(shí)空信息對(duì)特征進(jìn)行改善,然而,RNN 在行人重識(shí)別任務(wù)中對(duì)于時(shí)間信息的建模能力相對(duì)有限;文獻(xiàn)[6]中使用3D CNN 同時(shí)學(xué)習(xí)行人的外觀和運(yùn)動(dòng)特征,但是,3D CNN 難以解決空間不對(duì)齊問(wèn)題。

最近的一些方法采用了注意力機(jī)制,例如:文獻(xiàn)[7]中進(jìn)一步采用非局部注意力解決時(shí)間序列上的外觀錯(cuò)位問(wèn)題;文獻(xiàn)[8]中提出一種時(shí)空注意力(Spatial-Temporal Attention,STA)模型以解決單幀圖像中出現(xiàn)的遮擋問(wèn)題;文獻(xiàn)[9]中提出一種非局部視頻注意力網(wǎng)絡(luò)(Non-local Video Attention Network,NVAN),利用低層和高層特征中的空間和時(shí)間信息來(lái)改進(jìn)視頻級(jí)特征表示。然而,上述方法并沒(méi)有充分地利用視頻中幀間不同區(qū)域的關(guān)聯(lián)信息。

1.2 基于圖模型的行人重識(shí)別

近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[17]已成功應(yīng)用于計(jì)算機(jī)視覺(jué)中的許多任務(wù),如場(chǎng)景圖生成[18]、點(diǎn)云分類(lèi)[19]和動(dòng)作識(shí)別[20]等。由于GNN 具有良好的關(guān)系建模能力,一些研究也將GNN 應(yīng)用于基于視頻的行人重識(shí)別,文獻(xiàn)[21]中提出了一種掩膜圖注意力網(wǎng)絡(luò)(Masked Graph Attention Network,MGAN)來(lái)探索整個(gè)樣本集中豐富的全局交互信息;但是,這種方法是基于圖像的,沒(méi)有考慮時(shí)間信息。文獻(xiàn)[12]中搭建了一個(gè)自適應(yīng)圖表示學(xué)習(xí)(Adaptive Graph Representation Learning,AGRL)網(wǎng)絡(luò),利用人體關(guān)鍵點(diǎn)對(duì)齊和特征親和力關(guān)系兩個(gè)分支實(shí)現(xiàn)區(qū)域特征之間的關(guān)聯(lián);然而,人體關(guān)鍵點(diǎn)提取需要額外的前置信息,并且不能執(zhí)行端到端的訓(xùn)練。文獻(xiàn)[22]提出一個(gè)時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatial-Temporal Graph Convolutional Network,STGCN),使用空間分支提取幀內(nèi)人體的結(jié)構(gòu)信息,時(shí)間分支從相鄰幀挖掘具有辨識(shí)性的線索;但是,這種方法在建立幀間不同區(qū)域關(guān)系的過(guò)程中,沒(méi)有優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),并且逐幀圖像建立圖模型的效率不高。

為了解決視頻行人重識(shí)別中存在的遮擋、空間不對(duì)齊、背景雜波等問(wèn)題,本文提出一種基于GCN 與SAGP 的視頻行人重識(shí)別方法,以端到端的方式提取具有判別力和魯棒性的視頻行人特征。一方面,構(gòu)建特征的區(qū)塊關(guān)系圖用于描述幀間不同區(qū)域的關(guān)聯(lián)信息,并通過(guò)圖卷積網(wǎng)絡(luò)在區(qū)塊間傳遞關(guān)聯(lián)信息,優(yōu)化行人特征,使學(xué)習(xí)到的行人特征更具判別力;另一方面,利用自注意力圖池化機(jī)制,去除圖模型中對(duì)行人特征貢獻(xiàn)率低的節(jié)點(diǎn),減輕與行人無(wú)關(guān)的背景雜波干擾;最后,融合CNN 提取的行人結(jié)構(gòu)信息與圖分支學(xué)習(xí)到的關(guān)聯(lián)信息,得到視頻級(jí)的特征表示。

2 本文方法

2.1 模型概述

如圖2 所示,本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)使用預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)ResNet-50(Residual Network-50)[23]作為特征提取器提取圖像特征,并設(shè)計(jì)了一個(gè)雙分支的網(wǎng)絡(luò)分別提取幀內(nèi)的全局信息和幀間不同區(qū)域的關(guān)聯(lián)信息,兩個(gè)分支互為補(bǔ)充,共享特征提取器的參數(shù)。圖2 中,BN 為批量歸一化(Batch Normalization),F(xiàn)C 為全連接(Fully Connection)。

圖2 本文網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.2 Overall structure of proposed network

全局分支:對(duì)特征提取器提取的視頻序列進(jìn)行三維全局平均池化,聚合一段序列中的圖像特征為視頻特征fglobal。

圖分支:首先為每段視頻序列構(gòu)建一個(gè)區(qū)塊關(guān)系圖,捕捉幀間不同區(qū)域的關(guān)聯(lián)信息。然后,使用圖卷積與自注意力圖池化模型優(yōu)化特征,圖卷積網(wǎng)絡(luò)對(duì)圖中幀間不同區(qū)域(即圖節(jié)點(diǎn))的時(shí)空關(guān)系進(jìn)行建模,利用序列中豐富的時(shí)空信息優(yōu)化區(qū)域特征表示;自注意力圖池化優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),去除自注意力分?jǐn)?shù)較低的圖節(jié)點(diǎn)及其鄰接關(guān)系以減小背景雜波區(qū)域的干擾,提升模型的可泛化性。最后,使用平均池化聚合優(yōu)化后的節(jié)點(diǎn)特征作為視頻特征fgraph。

基于加權(quán)損失函數(shù)的策略:除使用交叉熵?fù)p失作分類(lèi)學(xué)習(xí)、三元組損失作度量學(xué)習(xí)以外,通過(guò)中心損失(CL),拉近相同行人樣本之間的距離,優(yōu)化分類(lèi)學(xué)習(xí)的結(jié)果;通過(guò)在線軟挖掘和類(lèi)感知注意力損失(OCL),解決難樣本挖掘中因二進(jìn)制分配法(丟棄或保留)導(dǎo)致的可用樣本未被充分利用的問(wèn)題,以及訓(xùn)練集中標(biāo)簽錯(cuò)誤的異常值樣本產(chǎn)生的問(wèn)題。

2.2 特征提取

為了使模型能夠充分利用整段輸入視頻中的視覺(jué)信息,并且避免視頻連續(xù)幀之間存在的信息冗余,在特征提取階段使用受限隨機(jī)采樣(Restricted Random Sampling,RRS)[24]策略對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,將給定的一段視頻劃分成時(shí)長(zhǎng)相等的T個(gè)塊{Ck}k=[1,T],從每個(gè)塊中隨機(jī)抽取一張圖像Pk,視頻序列由采樣幀的有序集合{Pk}k=[1,T]表示。使用ResNet-50作為圖像特征提取器,并將網(wǎng)絡(luò)中最后一層卷積層的步長(zhǎng)設(shè)置為1,提取的特征圖可以表示為:

其中:Fk∈Rh×w×c是視頻序列中第k幀的特征圖,h、w和c分別表示特征圖的高度、寬度和通道數(shù)。

在圖分支中,參考文獻(xiàn)[25]中特征切分的方法生成區(qū)域特征,將每張?zhí)卣鲌DFk從上至下水平切分成S個(gè)區(qū)塊(Patch),進(jìn)行平均池化,將每個(gè)區(qū)塊特征表示為pl,對(duì)于一段長(zhǎng)度為T(mén)幀的視頻序列,區(qū)塊的總數(shù)為N=TS。區(qū)塊特征向量pl∈R(cl=1,2,…,N,c為特征通道數(shù))。

2.3 區(qū)塊關(guān)系圖

與基于圖像的行人重識(shí)別不同,基于視頻的行人重識(shí)別有更多的圖像幀可以利用,因此具有更加豐富的行人姿態(tài)和拍攝視角,針對(duì)同一行人提供的結(jié)構(gòu)信息更加完整。本文構(gòu)建區(qū)塊關(guān)系圖,描述視頻序列中幀間不同區(qū)域的關(guān)聯(lián)信息,并使用GCN 對(duì)區(qū)塊之間的關(guān)系進(jìn)行建模,利用視頻幀之間豐富的時(shí)空信息優(yōu)化區(qū)域特征表示。

設(shè)G(V,Ε) 表示N個(gè)節(jié)點(diǎn)構(gòu)成的區(qū)塊關(guān)系圖,節(jié)點(diǎn)vm∈V,邊(vm,vz)∈E,每個(gè)區(qū)塊被視為一個(gè)節(jié)點(diǎn),并且E中的邊表示區(qū)塊特征之間的關(guān)系。引入鄰接矩陣A∈RN×N獲取區(qū)塊節(jié)點(diǎn)之間的關(guān)聯(lián)程度,圖中每?jī)蓚€(gè)節(jié)點(diǎn)對(duì)應(yīng)的區(qū)塊特征向量pm和pz之間的成對(duì)關(guān)系可以表示為:

區(qū)塊關(guān)系圖中,每個(gè)節(jié)點(diǎn)pm與其他節(jié)點(diǎn)關(guān)系的元素值之和為1,且表示每對(duì)節(jié)點(diǎn)關(guān)系的元素值應(yīng)在(0,1)區(qū)間,使用Softmax 函數(shù)對(duì)鄰接矩陣A中的元素值執(zhí)行歸一化運(yùn)算:

因此,鄰接矩陣每一行中的元素值代表區(qū)塊m與其他區(qū)塊之間的時(shí)空關(guān)系。

2.4 圖卷積與自注意力圖池化網(wǎng)絡(luò)

視頻中幀間的不同區(qū)塊可以提供互補(bǔ)信息,緩解遮擋、空間不對(duì)齊等帶來(lái)的問(wèn)題,GCN 可動(dòng)態(tài)地捕獲幀間不同區(qū)塊的時(shí)空關(guān)系。如圖3 所示,每段視頻序列有N個(gè)區(qū)塊,使用這些區(qū)塊構(gòu)建區(qū)塊關(guān)系圖G(V,Ε),對(duì)應(yīng)的鄰接矩陣由式(2)~(4)計(jì)算得出。

圖3 區(qū)塊關(guān)系圖構(gòu)建Fig.3 Construction of patch relation graph

在圖分支中,對(duì)于給定的鄰接矩陣,使用GCN 建模整段視頻序列中幀間不同區(qū)塊的時(shí)序關(guān)系,計(jì)算方式如下:

其中:X∈RN×c是原始的區(qū)塊特征;W∈Rc×c是學(xué)習(xí)的參數(shù)矩陣;σ(·)為L(zhǎng)eakyReLU(Leaky Rectified Linear Unit)激活函數(shù)。GCN 為每一段視頻輸出更新后的區(qū)塊特征H∈RN×c。

SAGP 機(jī)制有助于優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu)。對(duì)于視頻行人重識(shí)別任務(wù),去除一定比率的圖節(jié)點(diǎn)(區(qū)塊特征)可以減少視頻序列中存在背景雜波等問(wèn)題的低質(zhì)量特征干擾;同時(shí),使模型專(zhuān)注于使用高質(zhì)量的圖節(jié)點(diǎn)信息生成視頻特征,提升模型的可泛化性能。自注意力圖池化層由圖卷積操作定義,自注意力分?jǐn)?shù)的計(jì)算方法如下:

通過(guò)節(jié)點(diǎn)選擇[26]設(shè)定一個(gè)圖池化比率r∈(0,1]以確定需要保留的節(jié)點(diǎn)數(shù)量,即保留自注意力分?jǐn)?shù)Z中的前rN個(gè)值對(duì)應(yīng)的圖模型中的節(jié)點(diǎn)。節(jié)點(diǎn)索引的方法的定義如下:

輸入隱藏層特征H,SAGP 的執(zhí)行過(guò)程如下:

其中:Hidx,:∈RrN×c表示通過(guò)節(jié)點(diǎn)索引讀取的區(qū)塊特征;⊙表示逐元素乘積;輸出特征Hout∈RrN×c。圖卷積與自注意力圖池化網(wǎng)絡(luò)如圖4 所示。

圖4 圖卷積與自注意力圖池化網(wǎng)絡(luò)Fig.4 Graph convolution and self-attention graph pooling network

最后,對(duì)Hout使用平均池化操作。對(duì)于每一段視頻,通過(guò)圖卷積與自注意力圖池化網(wǎng)絡(luò),可以得到視頻特征fgraph∈R1×c,本文實(shí)驗(yàn)將通道數(shù)c設(shè)置為2 048。

3 加權(quán)損失函數(shù)策略

本文采用交叉熵?fù)p失、難樣本挖掘三元組損失[3]、中心損失(CL)[14]、在線軟挖掘和類(lèi)感知注意力損失(OCL)[15]共同優(yōu)化訓(xùn)練模型。

3.1 交叉熵?fù)p失

交叉熵?fù)p失用于計(jì)算預(yù)測(cè)身份和真實(shí)身份之間的分類(lèi)誤差,公式定義如下:

其中:M和K分別為采樣的身份數(shù)和每個(gè)身份采樣的視頻數(shù),因此在一個(gè)批次中有MK個(gè)視頻序列;yi是每個(gè)輸入視頻的真實(shí)標(biāo)簽;lb(xi)是每個(gè)輸入視頻的預(yù)測(cè)值。交叉熵?fù)p失計(jì)算了經(jīng)過(guò)Softmax 分類(lèi)后,xi被正確預(yù)測(cè)為yi類(lèi)的概率。

在訓(xùn)練階段,使用BN 和FC 層后的全局特征和圖特征,計(jì)算它們的交叉熵?fù)p失的平均值:

3.2 三元組損失

難樣本挖掘三元組損失[27]將離目標(biāo)樣本最遠(yuǎn)的同一身份的特征拉近,同時(shí)將離目標(biāo)樣本最近的不同身份的特征推遠(yuǎn),使相同身份的行人圖像在特征空間中形成聚類(lèi),使網(wǎng)絡(luò)學(xué)習(xí)的特征更具判別力,其公式定義如下:

其中:p=1,2,…,K;n=1,2,…,K;j=1,2,…,M;j≠q;fq,a、fq,p、fj,n分別表示目標(biāo)樣本及其正樣本、負(fù)樣本特征;D(·)表示兩個(gè)特征向量的L2 范數(shù)距離。

訓(xùn)練階段將全局特征和圖特征連接作為最終特征fall=[fglobal,fgraph]計(jì)算三元組損失Lhtri,[·,·]為連接操作。

3.3 中心損失

中心損失可以聚集屬于同一身份的樣本特征,最大限度地減小類(lèi)內(nèi)距離,起到優(yōu)化分類(lèi)學(xué)習(xí)結(jié)果的作用,定義如下:

其中:cyi表示真實(shí)標(biāo)簽yi的中心,即在MK大小的批次內(nèi),拉近目標(biāo)樣本特征fi和第yi個(gè)類(lèi)別特征中心的距離。

在訓(xùn)練階段,將全局特征和圖特征連接作為最終特征fall=[fglobal,fgraph]計(jì)算中心損失Lcent。

3.4 在線軟挖掘和類(lèi)感知注意力損失

難樣本挖掘三元組損失會(huì)在一個(gè)批次里拉近距離目標(biāo)樣本最遠(yuǎn)的正樣本,推遠(yuǎn)距離最近的負(fù)樣本,丟棄剩余樣本,在此過(guò)程中會(huì)浪費(fèi)大量的可用信息。為了充分利用一個(gè)批次內(nèi)的樣本,同時(shí)抑制異常值樣本對(duì)模型性能帶來(lái)的影響,本文引入在線軟挖掘和類(lèi)感知注意力損失(OCL),又可分為在線軟正樣本挖掘和在線軟負(fù)樣本挖掘。正樣本挖掘的任務(wù)是為每個(gè)正樣本分配連續(xù)的分?jǐn)?shù),以利用所有正樣本的信息。對(duì)于正樣本SP中的每個(gè)相似樣本組(fu,ft)∈SP,計(jì)算其L2 標(biāo)準(zhǔn)化后特征之間的歐氏距離dut。為了將更高的挖掘分?jǐn)?shù)分配給更多相似的樣本組,采用均值為0 的高斯函數(shù)將dut轉(zhuǎn)換成OSM分?jǐn)?shù),每個(gè)正樣本組(fu,ft)的OSM 分?jǐn)?shù)定義如下:

其中:dut=‖fu-ft‖2為兩個(gè)樣本特征的歐氏距離;是控制OSM 分?jǐn)?shù)分布的超參數(shù)。

負(fù)樣本挖掘則要舍棄大部分對(duì)學(xué)習(xí)無(wú)用的樣本組。對(duì)于負(fù)樣本SN中的每個(gè)不相似樣本組(fu,ft)∈SN,設(shè)置一個(gè)閾值α,比較負(fù)樣本組的距離與閾值的大小,將較高的OSM 分?jǐn)?shù)分配給小于閾值的負(fù)樣本組,將距離大于閾值的負(fù)樣本組的OSM 分?jǐn)?shù)設(shè)置為0,因?yàn)檫@些樣本對(duì)優(yōu)化模型不起作用。每個(gè)負(fù)樣本組(fu,ft)的OSM 分?jǐn)?shù)定義如下:

異常值樣本通常是標(biāo)簽錯(cuò)誤的樣本,它們與標(biāo)簽在語(yǔ)義上并無(wú)關(guān)聯(lián)。使用CAA 可以評(píng)估樣本與其標(biāo)簽的語(yǔ)義關(guān)系,即標(biāo)簽的正確程度,進(jìn)而抑制異常值樣本對(duì)模型的影響。

為了度量樣本和標(biāo)簽的語(yǔ)義關(guān)系,需計(jì)算樣本特征向量fu與對(duì)應(yīng)的分類(lèi)上下文向量cyu之間的兼容性,它們的兼容性通過(guò)點(diǎn)積衡量。分類(lèi)上下文向量為全連接層中的訓(xùn)練參數(shù),即,其中:B為訓(xùn)練集中的分類(lèi)數(shù);cb∈Rd為分類(lèi)b的上下文向量,在本文中特征通道數(shù)d被設(shè)置為2 048。計(jì)算樣本特征fu的CAA 分?jǐn)?shù)au的公式如下:

采用Softmax 運(yùn)算評(píng)估樣本與標(biāo)簽的正確匹配程度。為了將正樣本組和負(fù)樣本組(fu,ft)∈SP∪SN的OSM 與CAA 分?jǐn)?shù)整合到一個(gè)對(duì)比損失中,需要生成相應(yīng)的權(quán)重值

其中:aut是(fu,ft)的CAA 分?jǐn)?shù),aut=min(au,at)。

因此OSM 和CAA 損失如下定義:

在訓(xùn)練階段,使用批量歸一化后的全局特征和圖特征,計(jì)算它們?cè)诰€軟挖掘和類(lèi)感知注意力損失的平均值:

通過(guò)聯(lián)合交叉熵?fù)p失、三元組損失、中心損失及在線軟挖掘和類(lèi)感知注意力損失組成最終的加權(quán)損失函數(shù):

其中:β是控制中心損失的權(quán)重值,根據(jù)文獻(xiàn)[15]的研究,本文將β固定設(shè)置為0.000 5;λ是平衡三元組損失函數(shù)與在線軟挖掘和類(lèi)感知注意力損失的對(duì)比權(quán)重。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

本文在當(dāng)前視頻行人重識(shí)別領(lǐng)域兩個(gè)主流的大規(guī)模數(shù)據(jù) 集MARS(Motion Analysis and Re-identification Set)[28]和DukeMTMC-VideoReID[29]上對(duì)本文方法進(jìn)行了實(shí)驗(yàn)及評(píng)估。

MARS 是目前為止數(shù)據(jù)量最大的視頻行人重識(shí)別數(shù)據(jù)集,包含6 臺(tái)攝像頭拍攝的20 715 段視頻,其中17 467 段視頻為有效片段,其余的3 248 段視頻是干擾片段,增加了行人重識(shí)別的難度。數(shù)據(jù)集中有屬于625 個(gè)不同身份的8 298 段視頻用于訓(xùn)練,屬于636 個(gè)不同身份的9 330 段視頻用于測(cè)試,每段視頻平均長(zhǎng)度為59 幀,視頻采用DPM(Deformable Parts Model)行人檢測(cè)器和GMMCP(Generalized Maximum Multi Clique Problem)行人跟蹤器自動(dòng)生成。

DukeMTMC-VideoReID 是DukeMTMC 的子集,是另一個(gè)視頻行人重識(shí)別的大型數(shù)據(jù)集,包含8 臺(tái)攝像頭拍攝的4 832段視頻。總計(jì)1 812 個(gè)身份,其中702 個(gè)用于訓(xùn)練,702 個(gè)用于測(cè)試,還有408 個(gè)干擾項(xiàng),共有2 196 段視頻用于訓(xùn)練,2 636 段視頻用于測(cè)試,每段視頻平均長(zhǎng)度為168 幀。

本文使 用累積 匹配特 性(Cumulative Match Characteristic,CMC)曲線和 平均查準(zhǔn)率(mean Average Precision,mAP)作為評(píng)價(jià)指標(biāo)。CMC 判斷模型的排名能力,將查詢(xún)集(Query)中的目標(biāo)與圖庫(kù)集(Gallery)的視頻按相似度距離大小進(jìn)行排序,檢索目標(biāo)的排名越靠前,表明模型的識(shí)別效果更好。本文采用Rank-1(R1)、Rank-5(R5)、Rank-20(R20)作為CMC 評(píng)價(jià)標(biāo)準(zhǔn)。計(jì)算所有查詢(xún)中平均精度的平均值,mAP 可以反映模型評(píng)測(cè)精度的穩(wěn)定性。R1、R5、R20和mAP 越高,模型性能越好。

4.2 實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)在Ubuntu 18.04 操作系統(tǒng)上進(jìn)行,GPU 設(shè)備為NVIDIA RTX3090。實(shí)驗(yàn)以在ImageNet 上進(jìn)行預(yù)訓(xùn)練的ResNet-50 作為特征提取器,所有輸入圖像的大小均調(diào)整為256× 128,并使用隨機(jī)水平翻轉(zhuǎn)[10]進(jìn)行數(shù)據(jù)增強(qiáng)。

訓(xùn)練階段,采用受限隨機(jī)采樣策略從每段視頻中抽取T=8 幀,作為視頻序列。使用Adam 優(yōu)化器更新參數(shù),初始學(xué)習(xí)率設(shè)置為0.000 3,權(quán)重衰減為0.000 5。每個(gè)批次采樣M=8 個(gè)不同身份,每個(gè)身份采樣K=4 段視頻序列。在MARS 數(shù)據(jù)集上,對(duì)網(wǎng)絡(luò)進(jìn)行240 個(gè)周期的訓(xùn)練,并且每隔60個(gè)周期學(xué)習(xí)率衰減至之前的1/10;在DukeMTMC-VideoReID數(shù)據(jù)集上,對(duì)網(wǎng)絡(luò)進(jìn)行400 個(gè)周期的訓(xùn)練,并且每隔100 個(gè)周期學(xué)習(xí)率衰減至之前的1/10。

4.3 實(shí)驗(yàn)結(jié)果與分析

4.3.1 與其他方法的對(duì)比

為了驗(yàn)證本文提出方法的有效性,在MARS 和DukeMTMC-VideoReID 上與一些最新的基于視頻的行人重識(shí)別方法進(jìn)行了對(duì)比,包括CNN+CQDA(Convolutional Neural Network and Cross-view Quadratic Discriminant Analysis)[28]、TAM+SRM(Temporal Attention Model and Spatial Recurrent Model)[5]、SSA+CASE(Snippet-Similarity Aggregation and Co-Attentive Snippet Embedding)[11]、3DCNN+NLA(3D Convolutional Neural Network and Non-Local Attention)[8]、COSAM(CO-Segmentation Activation Module)[12]、STA(Spatial-Temporal Attention)[9]、互注意力(Mutual Attention,MA)[30]、STE-NVAN(Spatially and Temporally Efficient Non-local Video Attention Network)[10]、VKD(Views Knowledge Distillation)[31]、AITL(Attribute-aware Identity-hard Triplet Loss)[32]等方法。

如表1 所示,本文方法優(yōu)于大部分現(xiàn)有的方法。在MARS 數(shù)據(jù)集上,本文方法的mAP 和Rank-1 分別達(dá)到了85.7%和90.2%,相較于次優(yōu)的基于行人屬性信息輔助的方法AITL 分別提高1.3 個(gè)百分點(diǎn)和2.0 個(gè)百分點(diǎn)。在DukeMTMC-VideoReID 數(shù)據(jù)集上,本文方法的mAP 和Rank-1指標(biāo)分別達(dá)到了95.8%和96.7%,結(jié)果也超過(guò)了AITL,驗(yàn)證了本文方法的有效性。

表1 不同方法比較 單位:%Tab.1 Comparison of different methods unit:%

4.3.2 消融實(shí)驗(yàn)

為驗(yàn)證各模塊的有效性,在MARS 數(shù)據(jù)集上進(jìn)行多組消融實(shí)驗(yàn),分別為:基于文獻(xiàn)[13]的使用ResNet-50 骨干和三維全局平均池化的基準(zhǔn)模型(Baseline);融合了全局特征和圖特征的模型,圖特征由GCN 提取;融合了全局特征和圖特征的模型,圖特征由GCN+SAGP 提取;加入了CL 及OCL 訓(xùn)練的基準(zhǔn)模型;融合了全局特征和圖特征,并加入CL 及OCL 訓(xùn)練的模型。實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2 可以看出,基準(zhǔn)模型使用了ResNet-50 圖像特征提取器和三維全局平均池化的時(shí)序建模方法,損失函數(shù)由交叉熵?fù)p失和三元組損失構(gòu)成,其mAP和Rank-1 分別達(dá)到了84.2%和88.7%;在此基礎(chǔ)上,將全局特征和圖分支進(jìn)行融合,其中圖分支采用GCN 提取特征,mAP 精度提高了1.1 個(gè)百分點(diǎn),可見(jiàn)GCN 通過(guò)建模幀間不同區(qū)域的時(shí)空關(guān)系,利用各區(qū)域之間互補(bǔ)的關(guān)聯(lián)信息,優(yōu)化了視頻級(jí)的行人特征表示;然后,在圖分支中加入SAGP 模塊,即采用GCN+SAGP 提取特征,mAP 和Rank-1 相較基準(zhǔn)模型分別提高了1.2 個(gè)百分點(diǎn)和0.5 個(gè)百分點(diǎn),可見(jiàn)在SAGP 機(jī)制的輔助下,緩解了模型中背景雜波區(qū)域?qū)δP驼w性能的影響,使模型專(zhuān)注于利用視頻幀中的高質(zhì)量區(qū)域提取行人特征;接著,引入了加權(quán)損失函數(shù)策略,相較于基準(zhǔn)模型,mAP和Rank-1 分別提高0.9 個(gè)百分點(diǎn)和0.2 個(gè)百分點(diǎn),可見(jiàn)CL 減少了同一身份特征之間的類(lèi)內(nèi)距離,而OCL 充分利用了小批次中的每個(gè)可用樣本,并且消除了分類(lèi)異常的樣本對(duì)模型訓(xùn)練的影響;最后,測(cè)試了本文模型,在融合全局分支和圖分支的基礎(chǔ)上使用了加權(quán)損失函數(shù)策略,mAP 和Rank-1 相較于基準(zhǔn)模型分別提高1.5 個(gè)百分點(diǎn)和1.5 個(gè)百分點(diǎn),達(dá)到了85.7%和90.2%。本文模型的R20 有所降低,因?yàn)閷?shí)驗(yàn)通過(guò)20 張圖片對(duì)模型檢索精度進(jìn)行評(píng)價(jià)時(shí),樣本圖片足夠多,已達(dá)到模型訓(xùn)練的瓶頸,而采用加權(quán)損失函數(shù)策略進(jìn)行模型訓(xùn)練時(shí)可能存在0.1%~0.2%的誤差。當(dāng)僅采用1 張圖片進(jìn)行檢索精度評(píng)價(jià)(即R1)時(shí),由于樣本圖片很少,更能反映使用加權(quán)損失函數(shù)策略訓(xùn)練下本文模型在困難任務(wù)中相較于消融模型的優(yōu)勢(shì)。綜上所述,本文的各個(gè)模塊可以共同促進(jìn)模型的訓(xùn)練,使提取的行人特征更具判別力和魯棒性。

表2 在MARS數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Ablation experimental results on MARS dataset unit:%

4.3.3 參數(shù)分析

本文通過(guò)實(shí)驗(yàn)研究特征切分塊數(shù)S對(duì)模型識(shí)別精度的影響,結(jié)果如表3 所示。在不改變其他條件的情況下,將視頻序列中的每幀圖像分別切分成2、4、8 塊。當(dāng)S=4 時(shí),模型取得了最佳效果,mAP 和Rank-1 精度分別達(dá)到了85.7%和90.2%,說(shuō)明此時(shí)的圖模型能夠更充分地利用幀間不同區(qū)域的關(guān)聯(lián)信息展開(kāi)建模,使每個(gè)區(qū)塊提取的行人特征具有判別力,在聚合成視頻級(jí)特征時(shí)能夠有效緩解遮擋、空間不對(duì)齊、背景雜波等問(wèn)題。而切分塊數(shù)過(guò)少,會(huì)導(dǎo)致行人各身體部位的結(jié)構(gòu)化信息提取不夠完整;切分塊數(shù)過(guò)多,又可能產(chǎn)生較多的存在背景雜波的區(qū)塊,都不利于模型取得更好的性能。

表3 特征切分策略對(duì)比 單位:%Tab.3 Comparison of feature segmentation strategies unit:%

本文測(cè)試了圖池化比率r對(duì)模型識(shí)別的影響,結(jié)果如表4 所示。r越高,經(jīng)過(guò)GCN 處理后的圖模型保留的區(qū)塊節(jié)點(diǎn)越多,通過(guò)節(jié)點(diǎn)聚合生成最終的視頻級(jí)行人特征。模型在r=25%時(shí)取得了最好的識(shí)別效果,說(shuō)明此時(shí)保留的區(qū)塊節(jié)點(diǎn)相比被去除的節(jié)點(diǎn)更能反映目標(biāo)行人的特征,也就是模型更專(zhuān)注于使用這些高質(zhì)量的區(qū)塊特征識(shí)別行人,緩解了背景雜波的影響;當(dāng)r大于或小于25%時(shí),模型的mAP 和Rank-1均呈下降趨勢(shì),說(shuō)明圖模型中保留的節(jié)點(diǎn)過(guò)多或過(guò)少都不利于模型性能的提升,驗(yàn)證了參數(shù)設(shè)置的最優(yōu)性。

表4 圖池化比率的對(duì)比實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Comparative experimental results of graph pooling ratio unit:%

加權(quán)損失函數(shù)權(quán)重參數(shù)對(duì)模型訓(xùn)練效果的影響如表5所示。在本文定義的加權(quán)損失函數(shù)中,引用了控制中心損失函數(shù)權(quán)重的參數(shù)β以及平衡三元組損失與在線軟挖掘和類(lèi)感知注意力損失權(quán)重的參數(shù)λ。根據(jù)文獻(xiàn)[14]的研究,本文將β設(shè)置為0.000 5 以穩(wěn)定中心損失對(duì)于同類(lèi)樣本在特征空間中聚類(lèi)的性能,對(duì)參數(shù)λ進(jìn)行實(shí)驗(yàn),驗(yàn)證模型取得最佳性能的設(shè)置。當(dāng)λ大于或者小于50% 時(shí),模型的mAP 和Rank-1 均呈下降趨勢(shì),而當(dāng)λ=50%時(shí),模型取得了最佳效果,說(shuō)明此時(shí)的可用樣本得到了充分的挖掘。

表5 損失函數(shù)的權(quán)重參數(shù)的對(duì)比 單位:%Tab.5 Comparison on weighting parameters of loss function unit:%

4.3.4 可視化結(jié)果

如圖5 所示,對(duì)三個(gè)行人的視頻序列檢索結(jié)果進(jìn)行了可視化。可以看到,在圖5(a)中,基準(zhǔn)模型的排名結(jié)果受到了外觀相似、空間不對(duì)齊、目標(biāo)遮擋、光照變化等因素的干擾;而在圖5(b)中,本文模型檢索的前5 個(gè)排名結(jié)果,都與Query中目標(biāo)的身份相匹配。圖中的方框標(biāo)記表示檢索錯(cuò)誤,無(wú)框則表示檢索正確,檢索結(jié)果驗(yàn)證了本文方法能緩解行人重識(shí)別中存在的問(wèn)題。

圖5 本文模型和基準(zhǔn)模型的檢索結(jié)果比較Fig.5 Comparison of retrieval results of proposed model and baseline model

本文使用加權(quán)梯度類(lèi)激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)[33]可視化了類(lèi)激活映射圖,使用基準(zhǔn)模型和本文模型的可視化結(jié)果如圖6 所示。在圖6(a)的視頻序列中展示了目標(biāo)行人被遮擋的情況,基準(zhǔn)模型會(huì)將部分的背景雜波區(qū)域錯(cuò)誤地歸類(lèi)到行人特征(方框標(biāo)記部分),而本文模型則對(duì)遮擋和背景雜波更加魯棒,專(zhuān)注于提取屬于目標(biāo)行人的特征;在圖6(b)的一組視頻序列中存在幀與幀之間的空間不對(duì)齊問(wèn)題,基準(zhǔn)模型未能識(shí)別人體下半部分區(qū)域的特征(方框標(biāo)記部分),而本文模型正確捕捉到了行人的整體外觀結(jié)構(gòu),客觀驗(yàn)證了本文方法的有效性,能夠緩解行人重識(shí)別中的遮擋、空間不對(duì)齊、背景雜波等問(wèn)題。

圖6 類(lèi)激活映射的可視化結(jié)果Fig.6 Visualization result of class activation mapping

5 結(jié)語(yǔ)

在視頻行人重識(shí)別的任務(wù)中,現(xiàn)有方法無(wú)法有效提取視頻連續(xù)幀之間的時(shí)空信息。本文提出了基于圖卷積與自注意力圖池化的視頻行人重識(shí)別方法,通過(guò)圖卷積網(wǎng)絡(luò)對(duì)幀間不同區(qū)域的時(shí)空關(guān)系進(jìn)行建模,利用視頻序列中互補(bǔ)的區(qū)域信息優(yōu)化視頻特征,緩解視頻行人重識(shí)別中存在的遮擋、空間不對(duì)齊等問(wèn)題;通過(guò)自注意力圖池化機(jī)制優(yōu)化圖模型的拓?fù)浣Y(jié)構(gòu),使模型專(zhuān)注于提取視頻序列中高質(zhì)量區(qū)域的特征,緩解背景雜波區(qū)域造成的干擾;此外,將全局分支和圖分支融合到一個(gè)統(tǒng)一的框架中,以端到端的方式共同優(yōu)化模型,取得了很好的效果;最后,采用的加權(quán)損失函數(shù)合理優(yōu)化了分類(lèi)學(xué)習(xí)和度量學(xué)習(xí)的訓(xùn)練過(guò)程。在MARS 和DukeMTMCVideoReID 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。后續(xù)的研究工作可圍繞鄰接圖的構(gòu)造方法展開(kāi),研究合理描述幀間不同區(qū)塊關(guān)聯(lián)信息的方法,以及探索多種圖卷積模型的變體結(jié)構(gòu)對(duì)于行人重識(shí)別性能的影響。

猜你喜歡
特征信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲娇小与黑人巨大交| 亚洲国产日韩一区| 亚洲第一视频网站| 老司机午夜精品网站在线观看| 日韩无码真实干出血视频| 国产精品黄色片| 日韩AV手机在线观看蜜芽| 五月天福利视频| 国产女人在线观看| 亚洲精品另类| 国产视频一区二区在线观看 | 亚洲国产亚综合在线区| 青青操视频免费观看| 欧美在线三级| 亚洲欧美日韩综合二区三区| 麻豆精品久久久久久久99蜜桃| 欧美在线导航| 91成人在线观看| 久久久久无码精品| 曰AV在线无码| 中国丰满人妻无码束缚啪啪| 高清无码一本到东京热| 久久久久国产一区二区| 午夜爽爽视频| 欧美日韩一区二区三区在线视频| 亚洲性影院| 欲色天天综合网| 毛片网站免费在线观看| 成人免费午夜视频| 日韩 欧美 小说 综合网 另类| 免费av一区二区三区在线| 91人人妻人人做人人爽男同| 亚洲欧美日韩精品专区| 成年人免费国产视频| 呦系列视频一区二区三区| 丁香婷婷久久| 久草网视频在线| 久久亚洲国产视频| 欧美三级不卡在线观看视频| 亚洲人成网线在线播放va| 高清视频一区| 97青青青国产在线播放| 亚洲IV视频免费在线光看| 欧美精品xx| 亚洲免费播放| 色婷婷在线播放| 亚洲精品手机在线| 亚洲熟女中文字幕男人总站| 国产精品无码久久久久久| 精品无码一区二区三区电影| 激情乱人伦| 激情综合网址| 国产精品jizz在线观看软件| 国产三级a| 亚洲va在线观看| 欧美成人手机在线观看网址| 熟女日韩精品2区| 国产在线拍偷自揄拍精品| 秋霞一区二区三区| 国产国产人在线成免费视频狼人色| 午夜三级在线| 久久无码免费束人妻| 日本国产一区在线观看| 亚洲福利片无码最新在线播放| a在线亚洲男人的天堂试看| 亚洲精品国产日韩无码AV永久免费网 | 丁香六月激情综合| 色成人亚洲| 亚洲天堂自拍| 亚洲成人手机在线| 国产成人三级在线观看视频| 在线欧美a| 又黄又湿又爽的视频| 亚洲 欧美 日韩综合一区| 欧美va亚洲va香蕉在线| 波多野结衣在线一区二区| 亚洲综合九九| 天天综合网色| 国产美女91视频| 国产H片无码不卡在线视频| 浮力影院国产第一页| 国产剧情国内精品原创|