999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化的視頻行人重識(shí)別方法

2021-01-21 03:23:18王洪元張?jiān)迄i殷雨昌
計(jì)算機(jī)應(yīng)用 2021年1期
關(guān)鍵詞:特征方法

陳 莉,王洪元,張?jiān)迄i,曹 亮,殷雨昌

(常州大學(xué)計(jì)算機(jī)與人工智能學(xué)院阿里云大數(shù)據(jù)學(xué)院,江蘇常州 213164)

0 引言

行人重識(shí)別旨在檢索出不同環(huán)境中非重疊攝像機(jī)下的特定行人[1]。具體來說,給定一個(gè)目標(biāo)行人的查詢圖片或視頻,行人重識(shí)別的目標(biāo)是從非重疊視角域多攝像頭[2]網(wǎng)絡(luò)圖庫或視頻庫中識(shí)別這個(gè)行人。由于攝像機(jī)視角不同、光照影響、背景雜亂和部分遮擋等因素[3],導(dǎo)致行人外觀差異較大,影響行人特征表示,因此行人重識(shí)別的研究仍然是計(jì)算機(jī)視覺領(lǐng)域一個(gè)極具挑戰(zhàn)性的難點(diǎn)。

行人重識(shí)別分為基于圖像的行人重識(shí)別和基于視頻的行人重識(shí)別。基于圖像的行人重識(shí)別技術(shù)已經(jīng)得到了廣泛研究。但在實(shí)際場(chǎng)景中,視頻才是監(jiān)控?cái)z像機(jī)捕獲的第一手材料。視頻片段中不僅包含了和行人外觀有關(guān)的空間信息,還包含與行人運(yùn)動(dòng)有關(guān)的時(shí)間信息[4],這些時(shí)間信息往往更有助于區(qū)分相似的行人。因此,目前越來越多的研究者將研究重點(diǎn)從圖片行人重識(shí)別轉(zhuǎn)移到視頻行人重識(shí)別上。視頻行人重識(shí)別當(dāng)前面臨的最大挑戰(zhàn)是如何有效利用視頻片段之間的時(shí)間線索信息。先前有部分研究者借助光流場(chǎng),對(duì)參與訓(xùn)練的視頻幀提取動(dòng)態(tài)時(shí)間信息來學(xué)習(xí)時(shí)間特征。例如,Yu 等[5]借助光場(chǎng)探索流結(jié)構(gòu)來提取時(shí)間特征,然而在特征提取過程中若出現(xiàn)某一段視頻片段的相鄰幀不對(duì)齊,則會(huì)產(chǎn)生光流估計(jì)誤差。因此借助光流信息學(xué)習(xí)時(shí)間特征的方法會(huì)產(chǎn)生光流估計(jì)偏差問題。還有一些研究者通過遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)[6-7]聚合幀級(jí)時(shí)間特征來表示視頻片段的行人特征,從而學(xué)習(xí)時(shí)間特征。例如,McLaughlin 等[6]提出直接利用RNN 來聚合所有視頻幀之間的時(shí)間信息,但是在對(duì)所有幀進(jìn)行同等處理的情況下,RNN 的方法無法學(xué)習(xí)到最有判別力的特征,且RNN 模型對(duì)于長(zhǎng)片段視頻的訓(xùn)練比較復(fù)雜,耗時(shí)長(zhǎng)。雖然以上這些工作能獲得一定的識(shí)別性能,但在一些復(fù)雜的場(chǎng)景和環(huán)境下,其適應(yīng)性和魯棒性仍有待提升。

本文采用三維卷積神經(jīng)網(wǎng)絡(luò)嵌入殘差模塊(3DResNet50)[8]的框架,并在此次框架上增加全局時(shí)間特征池化層,以端到端的方式學(xué)習(xí)更有判別力的行人特征表示。該方法既能提高模型訓(xùn)練速度,又能有效改善行人檢索的性能。在3 個(gè)視頻數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性。

本文的主要貢獻(xiàn)如下:

1)提出了將均等采樣隨機(jī)擦除(Evenly Sampling-random Erasing,ESE)[9]相結(jié)合的方法,用于數(shù)據(jù)增強(qiáng)與正則化方法互補(bǔ),結(jié)合采樣的長(zhǎng)短時(shí)間線索,緩解視頻片段中的遮擋和噪聲;

2)提取特征后,采用3D-ResNet50[8]框架,在此基礎(chǔ)上增加全局時(shí)間特征池化層(Global Temporal Feature Pooling,GTFP),從幀特征中學(xué)習(xí)判別力的時(shí)間表示,探索時(shí)間線索。從短期和長(zhǎng)期幀的時(shí)間線索上,有效地在視覺上區(qū)分相似的行人,提高視頻行人重識(shí)別的精度;

3)應(yīng)用在PRID-2011[10]、DukeMTMC-VideoReID[11]和MARS[12]3 個(gè)視頻數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化的方法可以顯著地提升視頻行人重識(shí)別的精度。

1 相關(guān)工作

1.1 視頻時(shí)間建模

時(shí)間建模方法不僅僅應(yīng)用于行人重識(shí)別領(lǐng)域,在其他領(lǐng)域也有應(yīng)用,例如視頻分類[13]、時(shí)間動(dòng)作檢測(cè)[14-15]。時(shí)間建模方法分為兩大類:一類是直接輸入一段視頻,利用三維卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Network,3DCNN)[16]得到一個(gè)特征向量,3DCNN 通常采用三維卷積嵌入殘差模塊的網(wǎng)絡(luò)模型,即在殘差模塊架構(gòu)中采用3D 卷積核(原為動(dòng)作分類任務(wù)設(shè)計(jì)),將原始的最后分類層改為行人身份輸出,并在Kinetics 數(shù)據(jù)集[8]上預(yù)訓(xùn)練權(quán)重;另一類是采用標(biāo)準(zhǔn)的殘差模塊作為圖像層次的特征提取器的二維卷積神經(jīng)網(wǎng)絡(luò)(2D Convolutional Neural Network,2DCNN),網(wǎng)絡(luò)從一系列的圖片中提取特征,再利用時(shí)間池化、時(shí)間注意和遞歸神經(jīng)網(wǎng)絡(luò)等時(shí)間建模方法,將圖片特征聚合成視頻特征。時(shí)間池化是最簡(jiǎn)單粗暴的時(shí)間建模方法,直接對(duì)圖像層次的特征進(jìn)行最大池化或平均池化操作,即選擇圖像層次特征[17]中最大值或者平均值作為整個(gè)片段的表示特征。時(shí)間注意是針對(duì)平均或最大池化方法沒有充分利用所有圖像層次特征的問題,在圖像層次特征上應(yīng)用了一個(gè)注意力加權(quán)平均。簡(jiǎn)單來說,給質(zhì)量高的圖片高權(quán)重,質(zhì)量低的圖片低權(quán)重,加權(quán)求和。RNN 具有反饋連接,允許網(wǎng)絡(luò)隨時(shí)間記住信息,在每個(gè)時(shí)間步長(zhǎng)上RNN 接收新輸入,并基于當(dāng)前輸入和來自先前時(shí)間步的信息產(chǎn)生輸出。Karpathy 等[13]設(shè)計(jì)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來提取視頻幀級(jí)特征,并使用時(shí)間池化方法來聚合特征;Tran等[18]提出一種從視頻片段中提取時(shí)空特征的三維卷積神經(jīng)網(wǎng)絡(luò);Hara等[19]用三維卷積探索殘差網(wǎng)絡(luò)結(jié)構(gòu);Gao 等[20]提出一個(gè)時(shí)間邊界回歸網(wǎng)絡(luò),定位長(zhǎng)視頻中的動(dòng)作。

1.2 時(shí)間特征池化

時(shí)間池化被廣泛用于聚合所有時(shí)間幀上的特征;Zheng等[12]使用兩種池化方法來獲取視頻級(jí)特征,其中包括平均池化和最大池化;Li 等[21]利用部分線索和學(xué)習(xí)加權(quán)策略來融合從視頻幀中提取的特征;Suh 等[22]提出一種雙流結(jié)構(gòu)來共同學(xué)習(xí)外觀特征和部分特征,并通過池化策略融合圖像級(jí)特征得到最終的視頻級(jí)特征。這些實(shí)驗(yàn)表明時(shí)間池化具有很高的效率,但時(shí)間池化是獨(dú)立地提取幀特征,忽略了相鄰幀之間的時(shí)間順序性。

與現(xiàn)有的時(shí)間池化策略相比,本文提出的全局時(shí)間特征池化方法可以同時(shí)捕獲全局和局部時(shí)間線索,不僅能夠捕獲每幀圖片的特征,而且還充分利用了幀與幀之間的時(shí)間信息,因此能表現(xiàn)出更好的時(shí)間線索的建模能力。

2 本文方法

本文提出方法的整體框架流程如圖1所示。

圖1 整體框架流程Fig.1 Flowchart of overall framework

學(xué)習(xí)一個(gè)3D卷積神經(jīng)網(wǎng)絡(luò)模型,用網(wǎng)絡(luò)模型提取視頻特征,對(duì)探針視頻和圖庫視頻進(jìn)行匹配。首先,給定任意一段行人的探針視頻,利用均等采樣方法將輸入視頻等時(shí)長(zhǎng)劃分成視頻片段,從每個(gè)視頻片段抽取固定位置的圖片,并對(duì)抽取的圖片進(jìn)行隨機(jī)擦除操作。然后,將抽取擦除后的圖片重新組合成視頻送入到網(wǎng)絡(luò)模型進(jìn)行特征提取。特征提取時(shí),在網(wǎng)絡(luò)最后輸出行人身份前,加入全局時(shí)間特征池化層,在已經(jīng)提取的時(shí)空特征的基礎(chǔ)上,對(duì)時(shí)間特征做進(jìn)一步細(xì)化,最終輸出視頻特征。

2.1 改進(jìn)3D卷積殘差網(wǎng)絡(luò)模型

最近,有大量的研究工作將深度3DCNN 引入到視頻表示學(xué)習(xí)中。視頻表示學(xué)習(xí)通常采用2DCNN 和3DCNN,但在2DCNN中,二維卷積只能計(jì)算空間維度的特征,較之2DCNN,三維卷積更適合學(xué)習(xí)時(shí)空特征。盡管3DCNN 能夠很好地利用時(shí)序信息,但它仍然對(duì)空間錯(cuò)位敏感,需要疊加一定數(shù)量的三維卷積核,導(dǎo)致參數(shù)開銷大,增加了卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化的難度。不同于Tran 等[18]提出的用于時(shí)空特征學(xué)習(xí)的3DCNN,本文采用的3D卷積殘差網(wǎng)絡(luò)模型3D-ResNet50[8]中的3DCNN是基于二維卷積膨脹的三維卷積網(wǎng)絡(luò)模型,從多個(gè)連續(xù)視頻幀中捕獲時(shí)間信息引入三維卷積,在時(shí)間維度上增加了ImageNet[23]的預(yù)訓(xùn)練權(quán)重來初始化本文模型權(quán)重,并嵌入殘差模塊,之后訓(xùn)練模型提取時(shí)空特征,能有效改善3DResNet50[8]的性能。

2.2 均等采樣隨機(jī)擦除的數(shù)據(jù)增強(qiáng)方法

為了解決模型中視頻片段時(shí)間依賴較長(zhǎng)的問題,本文采用了均等采樣法,給定一段輸入的視頻,將其劃分成T個(gè)相等時(shí)長(zhǎng)的視頻片段,在訓(xùn)練的時(shí)候,固定取每個(gè)片段的第M張圖片。之后組成具有一定時(shí)間信息的連續(xù)幀(即視頻片段)作為輸入,以最后分類層前一層的輸出作為行人的表示。

3DCNN 對(duì)于空間錯(cuò)位比較敏感,針對(duì)目標(biāo)行人被干擾或部分遮擋的情況,提高3DCNN 的一個(gè)泛化能力,訓(xùn)練模型時(shí),本文在均等采樣之后,使用了隨機(jī)擦除[9]方法,即對(duì)于一個(gè)批次中的一個(gè)視頻幀,隨機(jī)地從幀中選擇一個(gè)矩形區(qū)域,用隨機(jī)值對(duì)這個(gè)矩形塊擦除像素,生成了不同程度遮擋的訓(xùn)練圖像來增強(qiáng)數(shù)據(jù)。均等采樣隨機(jī)擦除(ESE)的數(shù)據(jù)增強(qiáng)方法細(xì)節(jié)流程如圖2所示。

圖2 ESE流程Fig.2 Flowchart of ESE

2.3 全局時(shí)間特征池化

本文采用網(wǎng)絡(luò)框架3D-ResNet50[8]是卷積神經(jīng)網(wǎng)絡(luò)中3D卷積核嵌入殘差模塊,用來提取時(shí)空特征。由于3D-ResNet50中3DCNN 參數(shù)眾多,很難進(jìn)行優(yōu)化,導(dǎo)致提取特征效果不好。為了解決這個(gè)問題,按照時(shí)間分離卷積思想,本文在2DCNN卷積濾波器中添加一個(gè)全局的時(shí)間維,將2Dk×k內(nèi)核膨脹為3Dt×k×k內(nèi)核。接著使用2D核初始化所有3D核(在ImageNet上預(yù)先訓(xùn)練):在t×k×k內(nèi)核中的每個(gè)T維上由預(yù)先訓(xùn)練的k×k權(quán)重初始化,并按照1/t重新縮放。之后沿空間和時(shí)間維度應(yīng)用3D平均池化,將每個(gè)圖像的輸出特征聚合到一個(gè)代表性的矢量中,然后進(jìn)行批處理歸一化。全局時(shí)間特征池化(GTFP)結(jié)構(gòu)如圖3所示。

圖3 GTFP結(jié)構(gòu)Fig.3 Structure of GTFP

由于訓(xùn)練過程中網(wǎng)絡(luò)參數(shù)的變化,本文將內(nèi)部協(xié)變量偏移定義為在網(wǎng)絡(luò)激活分布中的變化[9]。為了改善訓(xùn)練效果,減少內(nèi)部協(xié)變量轉(zhuǎn)移,本文在非線性之前加上Batch Normalization 變換,消除協(xié)變量偏移,通過固定層輸入x的分布,提高訓(xùn)練的速度和質(zhì)量。

2.4 目標(biāo)損失函數(shù)

本文使用困難樣本挖掘的三元組損失[24]和標(biāo)簽平滑正則化的交叉熵?fù)p失[25]。三元組損失的本質(zhì)是拉近正樣本對(duì)之間的距離,推遠(yuǎn)負(fù)樣本對(duì)之間的距離,最后使得相同ID 的行人圖片在特征空間里形成聚類,識(shí)別行人。訓(xùn)練時(shí),本文在一個(gè)批次中,隨機(jī)抽取P個(gè)行人身份,再?gòu)拿總€(gè)行人身份中抽取K個(gè)視頻段(每個(gè)視頻段包含T幀);這樣一個(gè)批次中共有P×K個(gè)片段。對(duì)于每個(gè)樣本a,在計(jì)算三元組損失時(shí),選擇批次中最困難的正負(fù)樣本,如式(1)所示:

其中:P為行人身份,K為視頻片段,分別是從目標(biāo)樣本、正樣本和負(fù)樣本中提取的特征;α是用于控制樣本內(nèi)部距離的超參數(shù)。

本文在3D-ResNet50[8]的訓(xùn)練階段,假設(shè)標(biāo)簽可能存在錯(cuò)誤,避免“過分”相信訓(xùn)練樣本的標(biāo)簽。使用標(biāo)簽平滑正則化處理無標(biāo)簽數(shù)據(jù)(如果訓(xùn)練集的類別數(shù)是K,則該無標(biāo)簽數(shù)據(jù)屬于任意類別的概率都是1/K),所以最終行人身份識(shí)別的損失函數(shù)如式(2):

其中:N為類別數(shù),pi,a為預(yù)測(cè)概率,qi,a為真實(shí)概率,ε為平滑因子。

通過聯(lián)合三元組損失和標(biāo)簽平滑正則化交叉熵?fù)p失,對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,引導(dǎo)網(wǎng)絡(luò)探索更具判別力的特征,目標(biāo)損失函數(shù)如式(3):

3 實(shí)驗(yàn)與結(jié)果

本文在3 個(gè)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)來驗(yàn)證本文方法的有效性,數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 視頻數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statistics of video datasets

3.1 數(shù)據(jù)集

PRID-2011[10]數(shù)據(jù)集提供了2 個(gè)不同靜止監(jiān)控?cái)z像機(jī)下的多個(gè)人的視頻片段,監(jiān)控人行航道和人行道。相機(jī)A下385人,攝像機(jī)B 下749 人,有200 人同時(shí)出現(xiàn)在A 和B 兩個(gè)視角。個(gè)視頻有5 到675 幀,平均100 幀。數(shù)據(jù)集是在不擁擠的戶外場(chǎng)景下采集的,有相對(duì)簡(jiǎn)單和干凈的背景,較少的遮擋。

MARS[12]是至今最大的視頻行人重識(shí)別數(shù)據(jù)集。MARS數(shù)據(jù)集由1 261個(gè)不同身份的行人組成,每個(gè)人都至少出現(xiàn)在兩個(gè)相機(jī)鏡頭下。與iLIDS-VID 和PRID-2011 相比,MARS 的行人身份數(shù)量是iLIDS-VID 的4 倍,視頻片段總數(shù)是PRID-2011 的30 倍。MARS 的所有邊界框和軌跡都是自動(dòng)生成的,這樣的數(shù)量和復(fù)雜程度使得MARS 較之以往的視頻數(shù)據(jù)集更加逼真,當(dāng)然也更具挑戰(zhàn)性。

DukeMTMC[11]是一個(gè)針對(duì)多攝像機(jī)跟蹤的大型數(shù)據(jù)集。數(shù)據(jù)集是在具有嘈雜背景的室外場(chǎng)景中捕獲的,并且受到照明、姿勢(shì)和視角改變以及遮擋的影響。為進(jìn)一步提升實(shí)驗(yàn)效果,使用DukeMTMC 的子集作為DukeMTMC-VideoReID 數(shù)據(jù)集,專門用于基于視頻的重識(shí)別。由于數(shù)據(jù)集是手動(dòng)注釋的,因此每個(gè)標(biāo)識(shí)在攝像機(jī)下只有一個(gè)視頻片段。數(shù)據(jù)集包括702個(gè)用于訓(xùn)練的身份,702個(gè)用于測(cè)試的身份,以及408個(gè)身份作為干擾者。共有2 196 個(gè)視頻用于訓(xùn)練,2 636 個(gè)視頻片段用于測(cè)試。視頻包含每12幀采樣的人物圖像。

本文使用兩個(gè)行人重識(shí)別通用指標(biāo):rank-k和平均精度均值(mean value of Average Precision,mAP)來評(píng)估方法的性能:rank-k表示在排名前k個(gè)列表中正確匹配的概率,反映的是檢索精度;mAP反映的是召回率。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文采用3D-ResNet50[8]作為特征提取的主干網(wǎng)絡(luò),第1個(gè)全連接層的輸出為1 024 維,第2 個(gè)全連接層的輸出是N維,其中N代表訓(xùn)練集中的類別數(shù)。對(duì)MARS、DukeMTMCVideoReID 和PRID-2011視頻數(shù)據(jù)集,本文設(shè)置N分別為625,751和89。

本文使用一種可以替代傳統(tǒng)隨機(jī)梯度下降過程的一階優(yōu)化算法:適應(yīng)性矩估計(jì)[26]優(yōu)化器進(jìn)行訓(xùn)練,它能基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。訓(xùn)練前,先將數(shù)據(jù)集劃分成T=15個(gè)相等時(shí)長(zhǎng)的視頻片段,取每個(gè)片段的固定位置的圖片,隨后對(duì)所取圖片做隨機(jī)擦除處理,實(shí)驗(yàn)中將擦除的概率設(shè)置不同值,同時(shí)將圖片大小調(diào)整256×128,之后將處理后圖片按時(shí)間順序重新組成視頻片段作為每個(gè)訓(xùn)練周期的輸入。對(duì)3DResNet50 網(wǎng)絡(luò)訓(xùn)練的過程中,每個(gè)批次包含32 個(gè)視頻片段,480 幅圖像。為了使得目標(biāo)函數(shù)能夠得到收斂,優(yōu)化網(wǎng)絡(luò)模型,將適應(yīng)性矩估計(jì)優(yōu)化器的學(xué)習(xí)率初始值設(shè)置為0.01,每20 個(gè)周期縮小至原來的1/10,直至學(xué)習(xí)率達(dá)到0.000 1。網(wǎng)絡(luò)模型采用標(biāo)簽平滑正則化的交叉熵?fù)p失和三元組損失聯(lián)合進(jìn)行優(yōu)化訓(xùn)練。測(cè)試階段,每一張輸入圖片最終提取的特征為2 048維并且通過歐氏距離來衡量圖片之間的相似性。

整個(gè)實(shí)驗(yàn)基于Ubuntu 16.04、Cuda10 和Cudnn7.6 的環(huán)境和Python 3.7、Pytorch 1.3.1 和torchvision 0.4.2 深度學(xué)習(xí)框架進(jìn)行,實(shí)驗(yàn)的硬件配置包括:4 塊GPU:GTX 2080Ti(顯存為11 GB)。

3.3 實(shí)驗(yàn)評(píng)估

3.3.1 均等采樣隨機(jī)擦除、全局時(shí)間特征池化對(duì)性能的改進(jìn)

本文在3 個(gè)視頻行人重識(shí)別的數(shù)據(jù)集上進(jìn)行了3DResNet50 基線(Baseline)方法、僅帶有均等采樣隨機(jī)擦除的3D-ResNet50(ESE)和僅帶有全局時(shí)間特征池化的3DResNet50(GTFP)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表2~4所示。

表2 基線方法和僅均等采樣隨機(jī)擦除、僅全局時(shí)間特征池化的方法在3個(gè)數(shù)據(jù)集上的性能比較 單位:%Tab.2 Performance comparison of methods of baseline,ESE,GTFP on PRID-2011,DukeMTMC-VideoReID and MARS datasets unit:%

基線方法是采用聯(lián)合三元組損失和標(biāo)簽平滑正則化的交叉熵?fù)p失訓(xùn)練3D-ResNet50。使用均等采樣隨機(jī)擦除方法和基線方法之間的效果是明顯的,主要表現(xiàn)在以下的方面:在基線的方法上,加入均等采樣隨機(jī)擦除之后,在PRID-2011 數(shù)據(jù)集上,rank-1從83.2%提高到了85.3%,mAP 從85.6%提高到了89.2%;在DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 從86.5%提高到了90.2%,mAP 從82.1%提高到了84.3%;在MARS 數(shù)據(jù)集上,rank-1 從79.0%提高到了81.6%,mAP 從70.9%提高到了73.4%。使用全局時(shí)間特征池化方法和基線方法之間的差距是顯而易見的,主要表現(xiàn)在以下的方面:在基線的方法上,加入全局時(shí)間特征池化之后,在PRID-2011 數(shù)據(jù)集上,rank-1從83.2%提高到了91.0%,mAP 從85.6%提高到了94.0%;在DukeMTMC-VideoReID 數(shù)據(jù)集上,rank-1 從86.5%提高到了91.3%,mAP 從82.1%提高到了90.1%;在MARS 數(shù)據(jù)集上,rank-1 從79.0%提高到了84.3%,mAP 從70.9%提高到了77.9%。這表明從全局的角度對(duì)時(shí)間進(jìn)行池化,能夠有效地細(xì)化時(shí)間特征,進(jìn)一步提升行人識(shí)別的性能。

3.3.2 聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化方法對(duì)性能的改進(jìn)

從表3中可以看出:在Baseline+GTFP的基礎(chǔ)上,使用均等采樣隨機(jī)擦除方法,精度有了明顯提升。在PRID-2011、DukeMTMC-VideoReID和MARS數(shù)據(jù)集上rank-1上分別提升了4.5個(gè)百分點(diǎn)、2.3個(gè)百分點(diǎn)和1.8個(gè)百分點(diǎn),對(duì)應(yīng)的mAP分別提升了3.0個(gè)百分點(diǎn)、2.7個(gè)百分點(diǎn)和2.6個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果充分說明了本文方法能有效地改善行人重識(shí)別的性能。

表4 顯示了不同長(zhǎng)度的視頻序列進(jìn)行的性能比較的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中,只改變視頻序列的長(zhǎng)度T,其他參數(shù)均保持不變。從表4 中可以看出,隨著序列長(zhǎng)度T的增加,mAP 和rank的整體結(jié)果是變好的,當(dāng)T=15 時(shí),本文使用的均等采樣隨機(jī)擦除和全局時(shí)間特征池化方法的整體性能表現(xiàn)最佳。

表3 聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化的方法在PRID-2011、DukeMTMC-VideoReID和MARS數(shù)據(jù)集上的性能比較 單位:%Tab.3 Performance comparison of method of jointing evenly sampling-random erasing and global temporal feature pooling on PRID-2011,DukeMTMC-VideoReID and MARS datasets unit:%

表4 不同長(zhǎng)度的視頻序列在MARS、DukeMTMC-VideoReID和PRID-2011數(shù)據(jù)集上的性能比較 單位:%Tab.4 Performance comparison of video sequences with different lengths on MARS,DukeMTMC-VideoReID and PRID-2011 datasets unit:%

3.3.3 和先進(jìn)方法比較

除了以上對(duì)比實(shí)驗(yàn)外,本文方法也和目前一些先進(jìn)方法做了比較,包括MARS[12]、Temporal Attention Model+Spatial Recurrent Model(TAM+SRM)[27]、Sequential Decision Making(SDM)[28]、TriNet[24]、End-to-end CNN model with Temporal Average Pooling(ETAP-Net)[29]、SpatioTemporal Attention Network(STAN)[21]、Attribute-Driven Feature Disentangling and Temporal Aggregation(ADFD-TA)[30]、Spatial and Temporal Mutual Promotion(STMP)[31]、3D Convolutional Networks and Non-Local Attention (3DCNN+NLA)[8]和 K-reciprocal Harmonious Attention Network[32](KHAN)等方法,如表5所示。

表5 不同方法在MARS、DukeMTMC-VideoReID和PRID-2011數(shù)據(jù)集上的性能比較 單位:%Tab.5 Performance comparison of different methods on MARS,DukeMTMC-VideoReID and PRID-2011 datasets unit:%

表5 中,在PRID-2011 小型視頻數(shù)據(jù)集上,本文方法能夠在rank-1 達(dá)到95.5%,mAP 達(dá)到97.0%;在DukeMTMCVideoReID 較新的視頻數(shù)據(jù)集上,本文方法能夠在rank-1達(dá)到93.6%,mAP 達(dá)到92.8%。在MARS 這個(gè)更具挑戰(zhàn)性的視頻數(shù)據(jù)集上,本文方法也能夠在rank-1 達(dá)到86.1%,mAP 達(dá)到80.5%。由此可見,本文提出的聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化的方法在綜合性能上要優(yōu)于目前先進(jìn)方法,在有效豐富行人特征信息的基礎(chǔ)上,進(jìn)一步提升了視頻行人重識(shí)別的識(shí)別率。

4 結(jié)語

本文對(duì)基于視頻行人重識(shí)別的時(shí)間建模方法做了改進(jìn),對(duì)行人的時(shí)間信息做了細(xì)化處理,顯著地提高了視頻行人重識(shí)別的精度;同時(shí)采用均等采樣隨機(jī)擦除的數(shù)據(jù)增強(qiáng)方法,豐富了視頻行人特征表示。本文在PRID-2011 小型的數(shù)據(jù)集上和DukeMTMC-VideoReID 大型視頻數(shù)據(jù)集上做了評(píng)估實(shí)驗(yàn),特別地,也在最具有代表性的MARS 大型視頻數(shù)據(jù)集做了一系列對(duì)比實(shí)驗(yàn)。在3 個(gè)視頻數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合均等采樣隨機(jī)擦除和全局時(shí)間特征池化的方法能有效地提取具有判別力的行人特征表示,在準(zhǔn)確度和效率方面優(yōu)于許多已有的視頻行人重識(shí)別方法。因此,本文方法是可行且高效的。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
可能是方法不對(duì)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 91在线中文| 亚洲 欧美 日韩综合一区| 怡红院美国分院一区二区| 青青久久91| 日韩小视频在线观看| 欧美精品xx| 亚洲男人的天堂久久香蕉网| 日韩av在线直播| 青青草国产一区二区三区| 99无码中文字幕视频| 亚洲成A人V欧美综合天堂| 亚洲中文无码av永久伊人| 孕妇高潮太爽了在线观看免费| 麻豆AV网站免费进入| 欧美成人日韩| 国产成人AV综合久久| 亚洲AV无码一区二区三区牲色| 免费a级毛片视频| 久久99国产综合精品1| 伊人久久大香线蕉影院| 亚洲精品无码在线播放网站| A级毛片无码久久精品免费| 亚洲国产精品不卡在线 | 日韩无码视频专区| 亚洲一级毛片在线播放| 92精品国产自产在线观看| 永久毛片在线播| 国产主播喷水| 久久国产V一级毛多内射| 四虎精品黑人视频| 国产无码网站在线观看| 精品国产中文一级毛片在线看| 国产自产视频一区二区三区| 国产成人免费视频精品一区二区| 人妻出轨无码中文一区二区| 久久99国产综合精品女同| 92午夜福利影院一区二区三区| 亚洲第七页| 成人在线不卡视频| 亚洲黄网视频| 亚洲天堂网视频| 精品无码一区二区三区在线视频| 日韩在线第三页| 91蝌蚪视频在线观看| 亚洲国产av无码综合原创国产| 亚洲欧洲日韩综合色天使| 香蕉伊思人视频| 国产精品免费电影| 在线观看无码av免费不卡网站 | 国产9191精品免费观看| 精品免费在线视频| 午夜影院a级片| 亚洲欧洲日韩综合| 国产激爽大片在线播放| 欧美特黄一免在线观看| 综合网天天| 无码人中文字幕| 久久综合色视频| 亚洲视频影院| 午夜精品区| 国产精品久久久久久影院| 波多野结衣久久高清免费| 中文无码日韩精品| 国产青榴视频| 伊人久久大香线蕉成人综合网| 永久在线播放| 国产免费怡红院视频| 免费看一级毛片波多结衣| 亚洲成人一区在线| 色婷婷在线影院| 国产欧美日韩综合在线第一| 欧美中文字幕第一页线路一| 福利在线免费视频| 青青草91视频| 国产成人AV男人的天堂| 亚洲欧美人成人让影院| 亚洲欧洲日韩国产综合在线二区| 91在线视频福利| 国产精品网曝门免费视频| 久久久波多野结衣av一区二区| 熟女视频91| 激情无码视频在线看|