劉紫燕,朱明成,袁 磊,馬珊珊,陳霖周廷
(1.貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025;2.貴州理工學(xué)院航空航天工程學(xué)院,貴陽 550003)
(*通信作者電子郵箱Leizy@sina.com)
行人重識別是利用計算機(jī)技術(shù)判斷圖像或視頻中是否存在特定行人的技術(shù),作為計算機(jī)視覺領(lǐng)域中圖像檢索的子任務(wù),它的目的是解決跨非重疊攝像機(jī)之間的行人匹配問題,被廣泛應(yīng)用于智能安防、智能尋人系統(tǒng)、相冊聚類和家庭機(jī)器人等領(lǐng)域。由于不同相機(jī)存在差異,同時行人特征多樣復(fù)雜,易受穿著、尺度、遮擋、姿態(tài)、視角和光照等影響,因此行人重識別成為了一個具有挑戰(zhàn)性和研究價值的熱門課題。
傳統(tǒng)方法主要集中在基于圖像的行人重識別上[1],只包含空間特征,缺少時序信息,在復(fù)雜條件下的精度不高;視頻序列則包含豐富的行人時序特征,因此對視頻行人重識別的研究具有重要意義[2-3]。隨著基于視頻的大規(guī)模數(shù)據(jù)集的出現(xiàn)[4],研究者設(shè)計了多種深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)視頻的魯棒表示[5-6]。
在基于視頻的行人重識別研究中,經(jīng)典方法是將視頻序列投影到低維特征空間,然后通過計算樣本之間的距離來執(zhí)行身份匹配排序。目前使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取行人特征已經(jīng)遠(yuǎn)遠(yuǎn)優(yōu)于手工特征方案[7-9]。文獻(xiàn)[10]中采用三維梯度方向直方圖(3D Histogram of Oriented Gradients,HOG3D)和步態(tài)能量圖像(Gait Engery Image,GEI)結(jié)合CNN 來學(xué)習(xí)行人子空間下的特征,當(dāng)對具有遮擋、復(fù)雜背景和姿態(tài)變化等多種情況的數(shù)據(jù)集進(jìn)行特征學(xué)習(xí)時,運(yùn)動特征的效果較差;文獻(xiàn)[11]中設(shè)計了遞歸深度神經(jīng)網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,DRCN)模型學(xué)習(xí)視頻行人特征,該方法只關(guān)注短期時間特征;文獻(xiàn)[12]中提出了一種順序漸進(jìn)融合模型將人工特征(如局部二值特征(Local Binary Pattern,LBP)和顏色)嵌入到長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),雖然融合多種特征,但是對全局特征提取不足,無法有效獲取長時間時序特征;文獻(xiàn)[13]中提出了兩個CNN 流來同時捕獲時間和空間信息,由于此模型對圖像采取同等關(guān)注度而無法處理序列中的遮擋或空間不對齊問題;文獻(xiàn)[14]中提出注意力機(jī)制結(jié)合多粒度特征表示法來對特定空間位置進(jìn)行聚集獲得更好的表示形式,但它們注重局部特征而忽略了全局特征;文獻(xiàn)[15]中利用相似性聚合方法對視頻片段進(jìn)行剪輯從而提取出代表性的位置信息,但該方法注重空間特征而忽略了時間特征;文獻(xiàn)[16]中對時間特征進(jìn)行了有效的提取和表示,但著重提取高級特征而忽略了跟中低層特征的融合;文獻(xiàn)[17]中提出了一個兼顧全局和局部特征的網(wǎng)絡(luò)來提取時間特征,但該網(wǎng)絡(luò)注重高級特征忽略了對中低級特征的提取;文獻(xiàn)[18]中采用生成對抗網(wǎng)絡(luò)對被遮擋行人進(jìn)行數(shù)據(jù)增強(qiáng),存在引入低質(zhì)量圖像的問題;文獻(xiàn)[19]中使用自然語義研究中的全局關(guān)注機(jī)制進(jìn)行視頻行人重識別研究,然而存在使用特征較為單一而無法適應(yīng)復(fù)雜環(huán)境的問題。
鑒于現(xiàn)有方法沒有深入挖掘視頻序列的全局特征和時序信息,本文提出一種基于非局部關(guān)注(Non-local Attention)和多重特征融合的網(wǎng)絡(luò)。主要工作如下:1)在ResNet-50殘差網(wǎng)絡(luò)中嵌入多層非局部關(guān)注塊提取全局時空特征;2)在主干網(wǎng)絡(luò)的中間層和全連接層提取中低級特征和局部特征,在特征池化階段進(jìn)行多重特征融合獲取魯棒性強(qiáng)的特征表示。本文提出的網(wǎng)絡(luò)能有效提取視頻連續(xù)幀之間的時空信息,充分利用全局特征、局部特征和中低級特征的信息,可以有效緩解單一特征帶來的適應(yīng)性差的問題。
圖1 是本文提出的非局部關(guān)注和多重特征融合網(wǎng)絡(luò)結(jié)構(gòu)示意圖,主體網(wǎng)絡(luò)為嵌入非局部關(guān)注塊的ResNet-50 殘差網(wǎng)絡(luò),用以提取全局特征;在主體網(wǎng)絡(luò)的第二殘差層(Res2)和全連接層(Fully Connected layer,F(xiàn)C)引出兩個特征提取分支,分別提取低中級特征和局部特征;經(jīng)過多重特征融合將中低級特征和局部特征輸入到全局特征中融合得到行人顯著特征,通過特征池化后,對整個行人特征進(jìn)行相似性度量和排序;最后對待測行人進(jìn)行身份預(yù)測,計算出視頻行人重識別的精度。

圖1 基于非局部關(guān)注和多重特征融合網(wǎng)絡(luò)示意圖Fig.1 Schematic diagram of network based on non-local attention and multi-feature fusion
計算機(jī)視覺中非局部關(guān)注是一種全局注意力機(jī)制,被用來捕獲長距離依賴信息,即建立視頻幀之間的聯(lián)系,不孤立學(xué)習(xí)單個圖像的特征[19]。非局部關(guān)注在計算某個位置的響應(yīng)時考慮到所有時空位置特征的加權(quán),因此本文提出的網(wǎng)絡(luò)模型采用嵌入的非局部關(guān)注塊對連續(xù)視頻幀進(jìn)行特征提取。
根據(jù)非局部關(guān)注的定義,在深度神經(jīng)網(wǎng)絡(luò)中的非局部關(guān)注操作可用下式表示:

其中:x表示輸入序列(特征),y表示輸出特征;f(xi,xj)表示對于某一特定位置i對所有可能關(guān)聯(lián)的位置j之間的關(guān)系函數(shù),反映了位置i和j之間聯(lián)系;g(j)表示在位置i處輸入的特征值;c(x)表示歸一化參數(shù)。根據(jù)式(1)可知,非局部關(guān)注是一種全局注意力機(jī)制,是當(dāng)前特征輸出與任意時空的綜合關(guān)系的輸出。由于輸入值xi和xj之間的關(guān)系會影響最終輸出,因此非局部關(guān)注要對位置相關(guān)性進(jìn)行學(xué)習(xí)。
為了將非局部關(guān)注塊嵌入到ResNet-50主體網(wǎng)絡(luò)中,將非局部關(guān)注的操作表示為:

其中:Wz表示的是權(quán)重矩陣,zi表示非局部關(guān)注經(jīng)過殘差連接的輸出,+xi表示的是殘差連接。
圖2 顯示的是一個非局部關(guān)注塊,其中特征圖以張量形式表示,1 024 表示通道數(shù),?表示矩陣乘法,⊕表示元素求和,激活函數(shù)采用softmax 函數(shù)。由于原始非局部關(guān)注塊計算量很大,使用稀疏化計算技術(shù)將圖中Wg、Wθ、Wφ的通道數(shù)相對輸入通道數(shù)減為一半(1024 →512),最后將Wz放大至輸入通道數(shù)以保證輸入輸出的尺寸一致。
給定的從一系列大小為C×H×W的T個特征圖獲得的輸入特征張量X∈QC×T×H×W,按照非局部關(guān)注的要求在所有空間位置和幀之間的特征中交換信息。假設(shè)從輸入X采樣得xi∈QC,那么經(jīng)過非局部關(guān)注的相應(yīng)輸出yi的公式如下:

其中:i、j∈[1,T×H×W]表示特征圖上全部位置和所有視頻幀。如圖2,首先通過使用線性變換函數(shù)(1× 1× 1的卷積)將輸入X投影到低維的嵌入空間QClow;然后通過使用嵌入式高斯實(shí)例化,計算所有xj位置的加權(quán)平均值來得出每個位置xi的響應(yīng);最終輸出Z=WzY+X,其輸出為原始特征張量X加上通過卷積Wz(1× 1× 1 的卷積)將Y映射到原始特征空間QC。

圖2 非局部關(guān)注塊Fig.2 Non-local attention block
經(jīng)過上述設(shè)置將非局部關(guān)注塊嵌入到ResNet-50 的任意層中,根據(jù)輸入視頻幀的長度來提取相應(yīng)長度的幀間時序信息。非局部關(guān)注塊可以靈活嵌入到網(wǎng)絡(luò)中,同時能在長序列視頻下提取長時間的特征信息,比LSTM 等應(yīng)用循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò)的模型更能對視頻幀信息做到全局關(guān)注。
非局部關(guān)注對長時間的幀間信息進(jìn)行特征提取,能有效避免個別圖像中出現(xiàn)遮擋、光照、角度偏移等問題。對于視頻來說,連續(xù)變化的圖片會將同一行人的不同狀態(tài)下的特征保留在幀間信息即時序信息中,非局部關(guān)注可以有效提取全局時序信息,這恰好解決了行人重識別存在的遮擋、光照、視角等問題。
上述非局部關(guān)注塊提取的是全局特征,由于單一的行人特征無法較好提升行人重識別的精度,因此本文提出一種多重特征融合網(wǎng)絡(luò)對多個特征進(jìn)行融合以獲取顯著的行人特征。本文在行人重識別網(wǎng)絡(luò)中設(shè)置兩個特征提取分支,分別提取低中級特征和局部特征。完整的多重特征融合網(wǎng)絡(luò)如圖3所示。
低中級特征提取層位于Res2 下的非局部關(guān)注層(Nonlocal Layer)之后經(jīng)時間池化層進(jìn)入特征融合階段;局部特征提取層位于全連接層后,通過將特征切分成三部分經(jīng)卷積層、合并層(Concatenate Layer)和時間池化層后進(jìn)行特征融合。兩個特征提取分支與非局部關(guān)注主體網(wǎng)絡(luò)提取出的多重特征通過加法拼接和特征池化完成特征融合。
需要注意的是,在局部特征提取層上采用切片法將視頻幀中的行人均分為上中下三部分,經(jīng)過卷積層和全連接層進(jìn)行局部特征映射;最后通過合并層將三部分特征進(jìn)行組合。池化層采用最大池化盡可能減少紋理信息受卷積層參數(shù)誤差的影響;激活函數(shù)采用ReLU 函數(shù)避免梯度消失和梯度爆炸問題。
對于長度l一定的視頻序列Vin,經(jīng)過局部特征層可得,然后經(jīng)平均時間池化層得到flocal(vin)=;在低中級特征提取時同樣經(jīng)過平均時間池化層為;經(jīng)過整個主體網(wǎng)絡(luò),則得到;最后將三者進(jìn)行特征拼接,本文采用加法拼接進(jìn)行融合,得到最終特征表示ffinal(vin)=flocal(vin)+flm(vin)+fnonlocal(vin)。
利用多重特征融合,對全局特征、局部特征、高級特征和中低級特征進(jìn)行融合。由于不同的攝像機(jī)在不同的時間拍攝的行人視頻具有復(fù)雜多變的特性,靠單一特征進(jìn)行重識別容易出現(xiàn)識別性能參差不齊的情況,通過多重特征融合可以提升適應(yīng)性和重識別精度。

圖3 多重特征融合網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of multi-feature fusion network
本文的網(wǎng)絡(luò)架構(gòu)主要由數(shù)據(jù)預(yù)處理、非局部關(guān)注網(wǎng)絡(luò)、多重特征融合網(wǎng)絡(luò)、特征池化和行人身份排序五個部分組成。
1)數(shù)據(jù)預(yù)處理:通過隨機(jī)抽樣方法[12]選擇視頻幀的子集,然后通過非局部關(guān)注網(wǎng)絡(luò)和特征池化進(jìn)行特征提取得到特征向量。將給定輸入視頻Vin劃分為相等長度的K個塊{Ci}i=[1,K],訓(xùn)練時在每個塊中隨機(jī)抽取一個圖像;測試時使用每塊的第一個圖像作為測試。所有訓(xùn)練視頻序列由采樣幀的有序集合表示{Ii}i=[1,K]。
2)非局部關(guān)注網(wǎng)絡(luò):本文設(shè)計的主體網(wǎng)絡(luò)中共嵌入了5層非局部關(guān)注塊,具體嵌入形式如圖4 所示,其中非局部關(guān)注塊有大小兩個尺寸,設(shè)計大小根據(jù)輸入的視頻長度進(jìn)行變化。本文設(shè)計的網(wǎng)絡(luò)按16 幀和8 幀大小切分視頻,通過對于長短連續(xù)視頻幀的特征提取,獲取短時間和長時間兩種維度的特征信息,保證時序特征的多樣性。這種做法通過將大尺寸分成兩個小尺寸可以明顯減少計算量,而保留兩個大尺寸是為了提取較為完整的全局特征。
3)多重特征融合網(wǎng)絡(luò):本文采用的特征融合網(wǎng)絡(luò)使用合并(Concat)融合策略,屬于早融合(Early Fusion)策略,即對不同特征進(jìn)行拼接形成最終的行人顯著特征。由于全局特征屬于主要特征,低中級特征和局部特征屬于旁支特征,因此為體現(xiàn)其所占比重,在特征維數(shù)上對三種特征進(jìn)行設(shè)計,全局特征維數(shù)占最終特征的1/2,中低級特征和局部特征各占1/4。
4)特征池化:融合特征沿時空維度應(yīng)用3D 平均池化,將每個視頻幀的融合特征聚合到一個代表性的矢量中,然后進(jìn)行批處理歸一化(Batch Normalization,BN)以及共同優(yōu)化的交叉熵?fù)p失和難例挖掘三元組損失來訓(xùn)練網(wǎng)絡(luò)。相關(guān)研究[20]表明,在BN層之前進(jìn)行三元組損失優(yōu)化,在BN層之后采用交叉熵?fù)p失優(yōu)化會產(chǎn)生最佳的行人重識別性能。沒有歸一化的嵌入空間更適用于三元組損失這樣的距離度量學(xué)習(xí);歸一化的特征空間使模型在交叉熵?fù)p失下分類[21]效果好。
5)行人身份排序:該部分主要對基于查詢集和圖庫集的身份(Identity,ID)間距離的相似性分?jǐn)?shù)進(jìn)行排序,本文采用計算馬氏距離來對行人進(jìn)行排序。通過計算累積匹配特征曲線和平均精度均值來獲得重識別精度。

圖4 非局部塊嵌入形式圖Fig.4 Non-local block embedding form diagram
交叉熵?fù)p失函數(shù)(Cross-entropy Loss)作為行人重識別領(lǐng)域的常用損失函數(shù),是一種利于分類網(wǎng)絡(luò)進(jìn)行標(biāo)簽置信度排序的函數(shù),其中概率分布采用softmax 激活函數(shù)來計算。該損失函數(shù)的一般公式為:

其中:i表示身份ID 標(biāo)簽序號,p(xi)表示真實(shí)概率,q(xi)表示預(yù)測概率。
難例挖掘三元組損失函數(shù)是通過對樣本空間中的正樣本對進(jìn)行聚合、負(fù)樣本對進(jìn)行推離來進(jìn)行優(yōu)化的,一般公式為:

每輸入一個批次的視頻幀時,隨機(jī)挑選P個ID 的行人,每個行人中隨機(jī)挑選K張不同視頻幀,則每個批次有P×K張。對于該批次中每個視頻幀,挑選一個最難的正樣本p和最難的負(fù)樣本q與a構(gòu)成一個三元組,α是閾值。難例挖掘損失函數(shù)通過計算a和同一批次中其他視頻幀的歐氏距離,選出與a距離最遠(yuǎn)的正樣本p和距離最近的負(fù)樣本q來計算三元組損失。
最終的損失函數(shù)是對以上兩項(xiàng)損失函數(shù)進(jìn)行組合,其表達(dá)式為:

本文的實(shí)驗(yàn)平臺采用Ubuntu16.04 操作系統(tǒng),NVIDIA TITAN V100 顯卡的硬件環(huán)境,使用預(yù)訓(xùn)練的ResNet-50 分別在三個視頻行人重識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。設(shè)定視頻序列長度L為8,并按此長度分割整段序列,長度不夠的視頻段舍去。每幀大小按照數(shù)據(jù)集的不同分為128× 64和256 × 128兩種。實(shí)驗(yàn)以ImageNet 圖像數(shù)據(jù)集預(yù)訓(xùn)練ResNet-50,使用交叉熵?fù)p失和難例挖掘三元組損失函數(shù),采用Adam 優(yōu)化器。初始學(xué)習(xí)率為1× 10-4,每隔50 個epoch 衰減0.1,總批次為300 個epoch。
PRID2011數(shù)據(jù)集[22]包含934個身份共1 134段視頻序列,由兩個攝像機(jī)采集數(shù)據(jù),平均長度為5 到675 幀之間,其中200 個身份同時出現(xiàn)在兩個攝像機(jī)內(nèi)。該數(shù)據(jù)集在視角、光照和背景上有明顯差異。
MARS 數(shù)據(jù)集[4]包含1 261 個身份,總計17 503 個軌跡和3 248 個干擾軌跡,由6 個攝像頭采集數(shù)據(jù)。625 個身份用于培訓(xùn),636 個身份進(jìn)行測試,每個身份平均有13 個視頻軌跡,平均幀數(shù)為59幀。
DukeMTMC-VideoReID 數(shù)據(jù)集[5]是DukeMTMC 數(shù)據(jù)集的子集,總計1 812 個身份,702 個用于訓(xùn)練,702 個用于測試,408 個作為干擾,共有2 196 個視頻用于訓(xùn)練,2 636 個視頻用于測試,每個視頻包含每12幀采樣的人物圖像。
本文在PRID 2011、MARS 和DukeMTMC-VideoReID 三大公共視頻數(shù)據(jù)集中進(jìn)行訓(xùn)練與測試,主要參數(shù)如表1所示。

表1 三大視頻行人重識別數(shù)據(jù)集Tab.1 Three video person re-identification datasets
視頻行人重識別主要使用累積匹配特征(Cumulative Match Characteristic,CMC)曲線和平均精度均值(mean Average Precision,mAP)作為評價指標(biāo),兩者值越大表明精度越高。
CMC 曲線是表示top-k的擊中概率的曲線,指在候選庫(Gallery)中檢索待測試行人,前k個檢索結(jié)果中包含正確匹配結(jié)果的概率。Rank-k表示在前k個候選匹配目標(biāo)中存在待測試行人的概率。通常CMC 曲線由Rank-1、Rank-5、Rank-10、Rank-20 來表示,其中Rank-1 表示真實(shí)的識別能力。CMC的表達(dá)式可以如下表示:

其中:給定候選集M中有N個行人,k表示前k個候選目標(biāo),pi表示查找集中行人在候選集中匹配正確的位置序號(即pi≤k表示能在前k個目標(biāo)中匹配正確)。
mAP 是計算所有查詢中平均精度的平均值,對于每個查詢,其平均精度(Average Precision,AP)是從其精度調(diào)用曲線計算得出的。mAP 可以反映模型的評測精度的穩(wěn)定性。AP和mAP的表達(dá)式為:

其中:i表示查詢圖像的序號,p(i)表示第i序號圖像在全體圖像中比例,r(i)表示i號圖像與待識別圖像匹配特性(正確為1,不正確為0);m表示與待識別圖像匹配的個數(shù);C表示待識別圖像的個數(shù)。
本文實(shí)驗(yàn)首先對提出的非局部關(guān)注塊和多重特征融合網(wǎng)絡(luò)在視頻行人重識別的數(shù)據(jù)集上使用效果進(jìn)行測試,其中,NLA(Non-Local Attention)表示非局部關(guān)注塊,MLF(Multi-Layer Feature)表示多重特征融合。
根據(jù)圖5 和圖6 顯示的本文方法在數(shù)據(jù)集MARS 和DukeMTMC-VideoReID 上幀級ID 損失趨勢圖可以明顯看出,加入非局部關(guān)注塊和多重特征融合可以降低損失值并且損失降低速率加快,在兩個數(shù)據(jù)集上都比原始網(wǎng)絡(luò)快30 至40 個epoch;此外可以發(fā)現(xiàn)加入非局部關(guān)注塊在降低損失值方面更加明顯。
表2 給出了在兩個數(shù)據(jù)集上使用基本網(wǎng)絡(luò)和加上非局部關(guān)注塊、多重特征融合的改進(jìn)網(wǎng)絡(luò)輸出的Rank-k和mAP 的值。在MARS 數(shù)據(jù)集上:當(dāng)加入非局部關(guān)注塊時,Rank-1、mAP分別提升3.6個百分點(diǎn)和3.8個百分點(diǎn);當(dāng)加入多重特征融合時,Rank-1、mAP分別提升2.5個百分點(diǎn)和1.4個百分點(diǎn);當(dāng)加入兩種功能時,Rank-1、mAP 分別提升6.2 個百分點(diǎn)和7.2 個百分點(diǎn)。這說明非局部關(guān)注塊對精度的提升作用優(yōu)于多重特征融合,同時當(dāng)兩種功能都采用時精度提升明顯。在DukeMTMC-VideoReID 數(shù)據(jù)集上,當(dāng)分別加入非局部關(guān)注塊和多重特征融合時,Rank-1、mAP 分別提升4.3 個百分點(diǎn)、5.3個百分點(diǎn)和3.5 個百分點(diǎn)、4.4 個百分點(diǎn),這表明所提方法具有普適性,在不同視頻數(shù)據(jù)集上精度都有明顯提升。
因此在視頻行人重識別上,本文所提網(wǎng)絡(luò)可以明顯加快重識別時收斂速度,更快捷地獲取行人顯著特征;同時,非局部關(guān)注塊對精度提升由于多重特征融合,說明非局部關(guān)注對視頻行人重識別有明顯的提升精度價值。

圖5 MARS數(shù)據(jù)集上幀級ID損失Fig.5 Frame-level ID loss on MARS dataset

圖6 DukeMTMC-VideoReID數(shù)據(jù)集上幀級ID損失Fig.6 Frame-level ID loss on DukeMTMC-VideoReID dataset

表2 含不同模塊的基本網(wǎng)絡(luò)在MARS和DukeMTMC-VideoReID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Results of the baseline network with different modules on MARS and DukeMTMC-VideoReID datasets unit:%
本文模型與其他模型進(jìn)行精度比較的分析如下,其中不同數(shù)據(jù)集的主流模型是不同的,因?yàn)椴煌P偷膫?cè)重和提出時間不同。
從表3 可以看出:本文模型比傳統(tǒng)的AMOC(Accumulative Motion Context)[2]模 型 在Rank-1、mAP 上分別提升約20.4 個百分點(diǎn)和28.5 個百分點(diǎn),比TriNet[6]高8.9 個百分點(diǎn)和13.7 個百分點(diǎn),說明僅采用運(yùn)動特征和三元損失的效果較差;比應(yīng)用3D 卷積的3D-Conv+NLA(3D Convolutional Networks and Non-Local Attention)[7]和M3D(Multi-scale 3D Convolution)[8]模型高4.4 個百分點(diǎn)、4.4 個百分點(diǎn)和4.3 個百分點(diǎn)、7.3個百分點(diǎn),說明3D卷積對時空特征的挖掘沒有非局部關(guān)注深入,另外前者的非局部關(guān)注只是嵌入到3D卷積殘差塊中作為補(bǔ)充,對全局特征的挖掘較淺;比應(yīng)用擴(kuò)張卷積和時間自關(guān)注的GLTR(Global-Local Temporal Representations)[17]高0.3 個百分點(diǎn)和2.9 個百分點(diǎn)。相對于數(shù)據(jù)增強(qiáng)的VRSTC[18]模型,本文模型的Rank-1 結(jié)果略高0.2 個百分點(diǎn),mAP 低了0.9 個百分點(diǎn),說明本文模型在首張命中率表現(xiàn)更好。

表3 MARS數(shù)據(jù)集上不同模型的Rank-1和mAP比較單位:%Tab.3 Comparison of Rank-1 and mAP by different models on MARS dataset unit:%
從表4 可以看出,本文模型在DukeMTMC-VideoReID 數(shù)據(jù)集上的表現(xiàn)良好,在Rank-1、mAP 上比只采用平均池化ResNet-50 的EUG(Exploit the Unknown Gradually)[4]模 型 高22.5個百分點(diǎn)和30.2個百分點(diǎn);比采用學(xué)習(xí)片段相似度聚合(Learned Clip Similarity Aggregation,LCSA)[15]模型高6個百分點(diǎn)和4.9 個百分點(diǎn);比GLTR 模型低1 個百分點(diǎn)和0.3 個百分點(diǎn),這是因?yàn)樵撃P筒捎昧藢π∧繕?biāo)特征敏感的擴(kuò)張卷積技術(shù),通過擴(kuò)大感受野能獲取較好的細(xì)節(jié)特征,另外該數(shù)據(jù)集復(fù)雜性比MARS低,GLTR模型在簡單環(huán)境下表現(xiàn)較好。

表4 DukeMTMC-VideoReID數(shù)據(jù)集上不同模型的Rank-1和mAP比較 單位:%Tab.4 Comparison of Rank-1 and mAP by different models on DukeMTMC-VideoReID dataset unit:%
表5 是在小數(shù)據(jù)集PRID2011 上不同模型的結(jié)果,由于在小數(shù)據(jù)集上各種模型的研究者并沒有進(jìn)行mAP 的精度測試,因此只比較Rank-1 的結(jié)果。本文模型比傳統(tǒng)AMOC 模型高11.1 個百分點(diǎn),比應(yīng)用3D 卷積的M3D 和3D-Conv+NLA 的模型高0.4 個百分點(diǎn)和3.6 個百分點(diǎn);現(xiàn)有的GLTR 模型比本文模型的結(jié)果僅高0.7 個百分點(diǎn)。由結(jié)果對比可知,在小數(shù)據(jù)集上本文的模型沒有過擬合問題。

表5 PRID2011數(shù)據(jù)集上不同模型的Rank-1比較 單位:%Tab.5 Comparison of Rank-1 by different models on PRID2011 dataset unit:%
綜上所述,本文提出的模型在各種尺寸和環(huán)境的數(shù)據(jù)集中都取得了較高的精度,采用非局部關(guān)注塊和多重特征融合的深度殘差網(wǎng)絡(luò)可以提取顯著的視頻幀之間的時序特征,提高視頻行人重識別的精度。
本文針對當(dāng)前視頻行人重識別中無法有效地提取連續(xù)視頻幀之間的全局時空特征的問題,結(jié)合自然語義中的全局關(guān)注技術(shù),設(shè)計非局部關(guān)注塊嵌入到ResNet-50 中,提取全局幀間特征;隨后提出一種多重特征融合網(wǎng)絡(luò),提取顯著性強(qiáng)的行人特征。在三個視頻行人重識別數(shù)據(jù)集PRID 2011、MARS 和DukeMTMC-VideoReID 上的實(shí)驗(yàn)結(jié)果表明,本文模型對視頻行人重識別精度有明顯提升。下一步工作是要探尋生成對抗網(wǎng)絡(luò)對視頻行人重識別精度提升的效果和跨模態(tài)視頻行人重識別。