




摘 要: "針對監控視頻中行人外觀、姿態相似等現象導致的視頻行人重識別準確率低的問題進行了研究,提出了一種基于圖模型的視頻行人重識別方法,有效利用了視頻中的時序信息,實現跨幀及幀內區域的信息交互。具體來說,利用跨幀分塊區域間的關聯信息建立區域節點間的固有關系,并進行特征傳播迭代更新區域信息。另一方面,在度量學習過程中,提出了一種加權損失函數策略,這個方法將先前挖掘策略中的二進制分配法(即丟棄或保留該樣本)優化為連續分數分配法,解決了可用樣本未被有效利用的問題。將模型在MARS和DukeMTMC-VideoReID兩個數據集上進行了評估,實驗結果證實了提出方法的有效性。
關鍵詞: "視頻行人重識別; 深度學習; 圖模型; 加權損失策略; 注意力機制
中圖分類號: "TP391.41 """文獻標志碼: A
文章編號: "1001-3695(2022)02-048-0598-06
doi:10.19734/j.issn.1001-3695.2021.06.0235
Video-based person re-identification based on "graph model and weighted loss strategy
Xu Zhichen, Wang Hongyuan, Qi Pengyu, Xin Zihao
(Aliyun School of Big Data, School of Computer Science amp; Artificial Intelligence, Changzhou University, Changzhou Jiangsu 213164, China)
Abstract: "Aiming at the problem of low person re-identification accuracy caused by similar appearance and posture of person in surveillance videos,this paper proposed a video-based person re-identification method based on a graph model,which effectively utilized the time sequence information in the video to realize the information interaction across frames and intra-frame regions.Specifically,it used the correlation information between the cross-frame block regions to establish the inherent relationship between the regional nodes,and iteratively updated the regional information through feature propagation.On the other hand,in the metric learning process,it proposed a weighted loss function strategy,which optimized the binary allocation method(that is,discarding or retaining the sample) in the previous mining strategy into a continuous score allocation method,which solved the problem that the available samples were not used efficiently.Finally,it evaluated the model on MARS and DukeMTMC-VideoReID datasets,and the experimental results confirm the effectiveness of the proposed method.
Key words: "video-based person re-identification; deep learning; graph model; weighted loss strategy; attention mechanism
0 引言
行人重識別(person re-identification)作為計算機視覺中一個重要且具有挑戰性的問題,其目的是給定一個特定的身份,從數據庫中精確地檢索出相同的身份,并給出查詢結果。近年來,行人重識別在智能監控和人員跟蹤領域有著廣泛的應用[1]。現有的行人重識別方法主要分為基于圖片的行人重識別[2]和基于視頻的行人重識別[3~11]兩類。基于圖片的行人重識別是將一幅或者多幅圖像作為輸入,側重于提取與衣服的顏色、質地等信息相關的外觀特征,無須考慮圖像與圖像之間的時間信息。然而,如果給定的圖像存在大量噪點影響或出現大面積遮擋等情況,這些基于外觀獲取信息的方法效果會變得很差,使得基于圖像的行人重識別無法正常工作。相反,基于視頻的行人重識別通過將短視頻剪輯成多幀圖片作為輸入,可以利用更加豐富的圖片和時間信息,如行人的姿態或步態變化[12],有利于減少外觀特征對重識別功能的影響,獲取更有效的行人特征。
目前,大多數基于視頻行人重識別的方法都采用了深度學習的算法,包括三維卷積神經網絡(3D convolutional neural networks,3D CNN)[9]、循環神經網絡(recurrent neural network,RNN)[13]、注意力機制(attention mechanism)[4,14~17]等。這些方法大多是先逐幀提取特征向量,再通過時間聚合方法生成視頻級特征表示。倘若直接對不同幀圖片進行時間建模, 就僅利用了視頻中的小部分時間信息,忽略了幀內圖片或跨幀圖片的身體不同部位的潛在關系,而這些部分可能包含了更加鮮明的、更具魯棒性的信息,這往往是解決行人重識別難題的關鍵。例如,如果身體部分在某一幀被遮擋,可以根據其他幀的外觀提示和前后幀信息對其進行補全,獲得更完整的行人特征信息。
如圖1所示,在圖(a)中,人的不同身體部位在不同的幀中出現了被遮擋或者不對齊的現象,這通常會影響行人重識別的準確性。然而,在其他幀中行人被遮擋的部分又再次出現,如果利用這些信息將行人特征補全,可有效減輕遮擋和不對齊等問題的影響。另外,通過穿著外觀可以輕松分辨出圖(b)和(d)的行人,但在外觀相似的情況下,如圖(c)和(d)的行人就需要借助身體結構等信息,挖掘更多的行人特征信息來進行識別。因此,要利用行人的外觀信息和身體結構信息進行互補,通過幀的空間關系建模區分人體結構信息也至關重要。
基于以上研究,為有效利用視頻中冗余的行人信息,本文提出了一種基于圖神經網絡的方法。一方面,本文構建了特征關系圖,挖掘了不同幀內不同節點之間的關聯信息,為圖模型提供了時空信息,從而減輕遮擋和視覺誤差問題。另一方面,考慮到幀內結構信息,本文使用分塊結構和全局結構兩個分支挖掘互補信息。最后,為了彌補度量學習中丟失樣本信息過多問題,本文采用加權對比損失策略,為每個樣本分配一個連續分布的分數,充分利用小批次中的樣本信息。
本文構建了特征關系圖(graph of feature relationship,GFR),能夠自適應地捕獲幀內及跨幀區域之間的時間和空間結構關系,為后續圖模型提供有效信息,緩解了遮擋和視覺誤差問題;提出了一種加權對比損失函數策略(weighted loss function strategy,WLFS),在現有的樣本挖掘策略中加入中心損失和在線軟挖掘損失,有效利用每個樣本信息,彌補現有方法在度量學習過程中丟失大部分樣本信息的不足。
本文的方法在MARS和DukeMTMC-VideoReID數據集上進行了實驗,結果證明了該方法的有效性。
1 相關工作
1)視頻行人重識別 目前,由于行人重識別在視頻監控領域的應用更接近于實際情況,更多的研究人員開始關注基于視頻的行人重識別。早期的基于視頻的行人重識別方法集中于手工制作的視頻表示和度量學習[18~22],自從深度卷積網絡和循環神經網絡取得突破以來,深度學習已成為視頻行人重識別的主流方法。在深度學習技術的推動下,視頻行人重識別在近幾年取得了令人矚目的進步。McLaughlin等人[23]首先提出了一個CNN-RNN的基準模型,先通過CNN用平均池化或最大池化的方法從視頻幀中提取特征,再采用RNN進行時間建模建立序列間關聯。Wu等人[24]利用注意力機制拓展了門控循環單元(gated recurrent unit,GRU),選擇性傳播更顯著的特征,用來訓練網絡記憶其空間依賴性。Gao等人[25]對視頻行人重識別中的時間建模方法進行了詳細的實驗調查和整合。
近年來,研究人員更多地對注意力網絡進行了研究,并將其應用于時間特征融合中。Xu等人[15]通過注意力機制對時間序列幀進行判別,為每個幀分配一個質量得分,再將其融合到最后的視頻特征表示中。文獻[8,16]將注意力機制在時間方面的應用拓展到時空方面,在篩選關鍵幀的同時,對幀圖像進一步篩選信息區域,取得了顯著的改進。Liu等人[10]將非本地模塊(non-local modules)嵌入ResNet-50中,提出了非本地視頻注意網絡(non-local video attention network,NVAN),是一種在時間和空間信息提取上均有提升的變體。Zhang等人[26]提出從全局視角準確判別某個時空特征信息在整個視頻片段中的重要程度,并從多個粒度更新特征信息,最后通過級聯獲取具有魯棒的視頻特征。Yang等人[27]提出了一個新的時空圖卷積網絡(spatial-temporal graph convolutional network,STGCN),包括提取人體結構的信息的空間層和挖掘相鄰幀關聯線索的時間層。
2)圖神經網絡方法 近年來,由于圖神經網絡(graph neural network,GNN)及其變體優秀的關系建模能力已成功應用于人體動作識別[28]、視頻分類[29]和多標簽圖像識別[30]等計算機視覺任務中。在行人重識別領域中,也引入了圖網絡模型相關的方法。Barman等人[31]提出了一種將排名過程映射到圖理論問題中的算法。Cheng等人[32]將距離關系公式轉換為結構化的圖拉普拉斯形式來優化訓練樣本的特征學習。Ye等人[33]為了解決無監督行人重識別問題,將圖模型匹配到一個迭代更新過程中,用來進行更可靠的標簽估計。另外,有兩種類似的基于圖的方法,文獻[34]將圖注意力網絡(graph attention network,GAT)與特征提取網絡結合在一起,從時空域的視頻序列中提取具有判別性的特征并使網絡專注這些優秀的特征區域,再通過時空圖發現幀與區域間的關系變化來學習特征圖中的權重矩陣。同樣,Wu等人[35]介紹了一種圖神經網絡,通過利用姿態對齊和特征親和力關系兩個分支實現相關區域特征之間的關聯。然而,提取姿態等信息需要額外的計算,并且沒有集成到整個網絡中實現端到端的訓練,這可能達不到最優結果。
在本文方法中,一方面,構建特征關系圖描述跨幀區域的關系,通過圖特征傳播模塊迭代更新區域信息,最終輸入圖神經網絡融合學習有判別性的特征;另一方面,利用注意力機制學習圖像幀的時空全局特征;最后融合兩路特征得到最終的視頻特征表示。
2 方法
視頻行人重識別旨在通過給定對象從圖庫中檢索目標身份。本文方法的整體結構如圖2所示。對于一個給定身份的長距離視頻,使用隨機采樣的方法,從視頻中抽取 T幀圖像,并創建為圖像序列{I t} t=1,…,T 。為了增強模型對于遮擋的泛化性能,本文首先將這些圖片隨機擦除小塊區域像素,再送入到圖片級的特征提取器ResNet-50[36]中,并將網絡中最后一層卷積層的池化步長設置為1。接下來,本文將模型劃分為兩個分支,上分支是圖分支,用于提取相鄰幀中的時間線索和幀間的行人結構線索;下分支是用于提取行人外觀特征的全局分支。在圖分支中,輸入的圖片幀被等分切割,劃分成為區域節點 X={x i}T·N i=1 ,在本文的實驗模型中,將圖片幀水平等分為四個區域( N =4)。然后,構建自適應的特征關系圖,獲取這些區域節點之間的內在聯系。在得到節點間的關聯信息后,本文通過搭建的圖特征傳播模塊迭代更新區域特征信息,即在每層特征傳播層中,用圖神經網絡聚合前后節點的特征信息,得到圖分支的視頻特征表示 f graph∈"Euclid Math TwoRAp
c 。在全局分支中,使用時空注意模塊[37]將一個視頻內不同幀的特征聚合成一個視頻特征表示 f global∈"Euclid Math TwoRAp
c 。在訓練過程中,本文聯合使用了多個損失,對于行人重識別任務,除了難樣本挖掘三元組損失(batch hard triplet loss)和交叉熵損失(softmax loss),還加入了在線軟挖掘損失(online soft mining loss,OSM Loss)和中心損失(center loss),分別用來優化前兩個損失函數。本文將在下面的段落逐個介紹相關模塊。
2.1 特征關系圖
如第1章所述,基于視頻的行人重識別相比基于圖片的行人重識別具有更多的圖像幀,覆蓋更多的行人視角和姿勢,針對同一身份的結構信息更加完整和精確,因此,行人結構信息可以提供額外的區分性信息。針對上述問題,本文通過構建特征關系圖優先學習圖像區域節點之間的關聯信息。
研究表明[38],動態圖可以比固定圖結構更有效地學習圖表示形式。為了探索和利用節點之間的關系,本文引入特征關系圖 Af 來獲取區域節點之間的關聯程度。對于兩個節點 x i 和 x j ,節點特征分別表示為 y i 和 y j ,則關系圖 Af 的公式表示為
Af ij=S(y i,y j)= 2 "e ‖y i-y j‖ 2+1 """(1)
考慮到每個關系圖上對于節點 x i 與其他節點關系的元素值總和為1,且每個元素的值應在(0,1)內,本文通過特征關系圖矩陣計算得到連接節點之間邊緣的權重矩陣 A :
A "ij= Af ij ∑ jAf ij """(2)
矩陣 A "ij 描述了節點 x i 與其他區域節點的關聯信息,它能夠自適應地選擇和學習一幀內或者跨不同幀的節點間的相關性,并作為先驗信息與輸入圖神經網絡的特征相融合。在獲得節點的特征關系圖后,本文將進一步探究節點間的時間信息。
由于視頻中不同幀的節點可以提供額外信息緩解遮擋和噪聲問題,本文模型采用圖形特征傳播模塊捕獲視頻幀間的時間動態關聯,進行視頻內前后信息的傳播以及節點空間區域特征的迭代更新。
如圖3所示,(a)為圖形特征傳播模塊,給定自適應的特征關系圖 A,初始的空間區域特征將通過K 層特征傳播層進行迭代更新;(b)為特征傳播層,來自前一層的特征經全連接層 F 處理,與關系圖的權重進行特征融合,并使用圖神經網絡聚合來自節點間的關系信息。在圖特征傳播模塊中,堆疊了 K 個特征傳播層,在第 k 層中,聚合和更新操作的定義為
y(k) i=(1-α)y(k-1) i+α∑ T·N j=1 "A (k) ijF(k)(y(k-1) j) ""(3)
其中: i∈{1,2,…,T·N};k∈{1,2,…,K};y(k) i表示從第k個特征傳播層輸出的第i個區域特征;y(0) i 則表示為原始的區域節點特征; F(k)(·) 是組合了全連接層和批次正則化層的操作,用來對來自上一層的節點特征信息進行編碼; A(k) 表示自適應的特征關系圖;參數 α 用于調整聚合特征和原始特征之間的權重比例。在實驗中設置 K=2,α =0.1。
在經過圖特征傳播模塊后,輸出表示為 Y "^ =[ y "^ "1,y "^ "2,…,y ""^ "T·N],其中 y ""^ "i∈"Euclid Math TwoRAp
c 是更新后的區域特征向量。最后通過注意機制獲得圖分支整個視頻的特征表示。
2.2 時空注意模塊
在全局分支中,為了提升模型的整體運行速率,同時能夠從圖像幀中提取更有效的特征信息,本文使用了一個計算量小且有效的時空注意模塊。如圖4所示,時空注意模塊首先將框架特征作為輸入,通過二維卷積層將幀特征的通道尺寸降至1,并輸出空間注意力向量。其次,經過重組和轉置操作,將注意力向量轉換為 128×T 。隨后,注意力向量通過一維時間卷積層處理,通過在時間軸上的一維卷積運算,將 128×T 的空間注意向量作為輸入,并生成與輸入維度大小相同的時空注意向量。本文定義該一維卷積層輸入和輸出通道為128,內核大小為3,填充為2,步長為1。最后,將注意力向量重組為初始維度大小,并使用sigmoid激活函數進行數據歸一化操作。本文將該模塊嵌入全局特征分支中,用于對輸入特征向量進行編碼。
2.3 加權對比損失策略
深度學習在訓練過程中由于大量的平凡樣本而收斂緩慢,現有的方法通常使用樣本挖掘策略篩選非平凡的樣本來加快收斂速度[39]。例如難樣本挖掘三元組損失中,在一個批次里,拉近距離樣本最遠的正樣本并推遠距離最近的負樣本,卻丟棄了剩下的樣本,浪費了大量有效信息。鑒于此,本文使用了在線軟挖掘損失,該損失可分為正樣本挖掘和負樣本挖掘。
在正樣本挖掘損失中,任務目標是為每個正樣本分配連續的分數。具體來說,對于正樣本中的每個相似樣本組 (p i,p j)∈P,在L 2歸一化后計算其特征之間的歐氏距離d ij。為了將更高的挖掘分數分配給更多相似的樣本組,使用均值為0的高斯函數將距離d ij 轉換為OSM分數 s+ ij。s+ ij 得分定義為
s+ ij= exp (- d2 ij σ2 OSM ) ""(4)
其中: d ij=‖f p i-f p j‖ 2 為正樣本組中兩個樣本特征的歐氏距離; σ2 OSM 是用于控制OSM分數分布的超參數。
此外,對于負樣本 N 中的不相似樣本組,本文通過設置一個邊距閾值 θ ,比較樣本組距離與閾值大小,將小于閾值的負樣本組推開。類似于文獻[35],要舍棄大部分對學習無用的樣本組,并將較高的OSM分數分配給距離小于邊距閾值 θ 的負樣本組,而距離大于閾值 θ 的組分數則設置為0,因為這些樣本對優化模型未起到作用。簡單起見,每個負樣本組 (n i,n j)∈N 的OSM分數 s- ij 直接由邊距計算而得:
s- ij= max (0,θ-d ij) ""(5)
最后,得到了每個樣本組的OSM分數,本文將正負樣本組的得分整合到同一個對比損失中:
L osm(P)= 1 2 ""∑ (p i,p j)∈P s+ ij·d2 ij ∑ (p i,p j)∈P s+ ij """(6)
L osm(N)= 1 2 ""∑ (n i,n j)∈N s- ij· max (0,θ-d ij) ∑ (n i,n j)∈N s- ij """(7)
L osm(P,N)= 1 2 (L osm(P)+L osm(N)) ""(8)
另外,本文采用了交叉熵損失、難樣本挖掘三元組損失和中心損失三種損失來聯合訓練網絡模型,交叉熵損失和三元組損失的公式[40]定義如下:
L xent=- 1 P·K ∑P·K i=1 log (p(z i|x i)) ""(9)
L htri=∑ P i=1 ∑ K a=1 "[m+ max "p=1,…,K D(yi a,yi p) "hardest positive - min ""j=1,…,P n=1,…,K j≠i "D(yi a,yj n) "hardest negative ] + "(10)
其中: P和K 分別是身份數量和每個身份的采樣圖像數,因此一個批次中有 P·K 個圖像; p(z i|x i)表示對于輸入圖像x i和標簽z i ,在經過softmax分類后, x i 被正確預測為 z i 類的概率; yi a、yi p和yj n 分別表示指定樣本及其正樣本和負樣本的特征; D(·)表示兩個特征向量的L 2 范數距離。
中心損失[41]是用來聚合每個標簽中樣本的特征,它希望一個批次中每個樣本的特征與特征中心距離的平方和盡量小,換言之,就是類內距離越小越好。公式定義如下:
L cent= 1 2 ∑ B i=1 ‖y i-c z i‖2 2 ""(11)
對于批次大小 B ,要拉近樣本特征 y i 和第 z i 個類別特征中心的距離,這就是中心損失的作用。最終,本文的聯合損失定義為
L total=L xent+βL cent+λL htri+(1-λ)L osm ""(12)
3 實驗
3.1 數據集和評估
1)數據集 本文在兩個大型的基于視頻行人重識別的數據集上評估了本文的模型,兩個數據集分別為MARS[42]和DukeMTMC-VideoReID[43]。
MARS是目前數據量最大的視頻行人重識別數據集,共有1 261個行人身份和大約20 000個行人視頻序列,其中訓練集包含625個身份,測試集包含636個身份。數據集由六個攝像機拍攝組成,每個身份至少由兩個攝像機拍攝捕獲而成,并且平均有13.2個視頻序列。同時,數據集中有3 248個干擾項序列,這也增加了重識別的難度。
DukeMTMC-VideoReID是另一個大規模的視頻行人重識別數據集,它衍生于DukeMTMC行人跟蹤數據集。該數據集由702個訓練身份、702個測試身份和408個干擾項組成,包含2 196個用于訓練的視頻和2 636個用于測試的視頻。每段視頻平均有168幀,并且提供了手動標注的邊框。
2)評估 在本文的實驗中,采用了累積匹配特性曲線(CMC)和平均查準率(mAP)來評估提出方法的性能。CMC曲線是反映檢索的準確率,用來判斷Re-ID模型的排名能力;mAP反映真實排名結果,根據準確率和召回率曲線計算而得。對于MARS和DukeMTMC-VideoReID數據集,本文將同時計算CMC和mAP來反映模型性能。
3.2 實施細節
本文的所有實驗模型均在PyTorch和兩個RTX2080Ti上進行。在實驗中,所有行人圖片的大小都調整為256×128,并在圖片特征提取網絡ResNet50上進行預訓練。在訓練階段,本文采用隨機采樣策略,從每個視頻片段中隨機選取4幀( T =4)作為圖片序列,這恰好遵循了文獻[6]中基準模型的最佳設置。本文選擇使用Adam作為優化器,初始學習率設置為0.000 35,之后每100個訓練批次衰減至之前的三分之一。
3.3 方法對比
為了驗證本文方法的有效性,在MARS和DukeMTMC-VID數據集上本文方法與一些最新的基于視頻的行人重識別方法分別進行了比較,包括IDE+XQDA[42]、SeeForest[13]、ASTPN[15]、RQEN[44]、Snippet[5]、STAN[4]、DSAN+KISSME[24]、TRL+XQDA[7]、M3D[9]、STA[16]、VRSTC[46]、GLTR[17]、AITL[37]等。
從表1、2中可以看出,本文方法優于大部分現有方法。在MARS數據集上,本文方法比AITL在mAP和Rank-1上分別高了0.7%和0.6%。在DukeMTMC-VideoReID數據集上,本文方法在mAP和Rank-1上精度分別達到了95.6%和95.9%,結果也超過了最新的方法AITL。實驗結果證實了本文方法的有效性。
3.4 消融實驗
為了驗證本文方法中各個模塊的有效性,本文在MARS數據集上分別用幾種模型進行了實驗:a)文獻[6]中的基于全局特征的時間池化基準模型;b)加入時空注意模塊的基準模型FA[37];c)加入圖特征傳播模塊,使用圖神經網絡挖掘圖片間關聯,得到圖編碼特征的模型FG;d)融合FA和FG兩路特征的基準模型;e)加入中心損失(CL)和在線軟挖掘損失(OSML)的基準模型;f)本文提出的結合全局特征和圖編碼特征,同時加入中心損失和在線軟挖掘損失的模型。實驗結果如表3所示。
1)模塊消融分析 從表3中可以看到,基準模型使用了ResNet-50圖片級特征提取器和時間平均池化時間建模方法,損失函數由交叉熵損失和三元組損失構成,mAP和Rank-1精度分別是79.4%和84.9%。在此基準上,去除平均池化方法,加入時空注意模塊,精度各提升到82%和86.3%,并記為全局分支特征表示,作為新的基準。接著測試了僅圖分支的模型性能,mAP和Rank-1精度為83%和86.5%,并與全局分支融合,從表中可以看到,融合后的精度結果比融合前都有所提升。最后,分別在全局分支模型和融合后的模型中引入新的加權損失函數策略。在全局分支模型上,精度有略微的提升,但在融合后的模型上,精度各提升了1.5%和1.1%,可見新的加權損失函數策略對于優化圖分支中的特征節點收斂有較大提升。通過加入以上模塊,mAP和Rank-1精度分別從82%和86.3%提升到了85.1%和88.8%。
2)切分策略分析 本文進行多次實驗,研究了通過改變圖像切分塊數對模型性能的影響。在不改變其他條件的情況下,本文分別評估了將每幀圖像等分為1、2、4和8塊對識別性能的影響。如表4所示, N是幀圖像切分后的區域數,可以發現N 設置為4時性能最優,因此本文的模型在實驗中將圖像等分為四塊區域。
3)加權系數分析 在加權對比損失函數策略中,式(12)中設置了 β 和 λ 兩個參數,其中,根據Wen等人[41]的研究,本文將 β 固定設置為0.000 5。而對于參數 λ ,它定義了三元組損失和在線軟挖掘損失的權重比例,本文通過改變參數 λ 的值進行實驗,來驗證模型的最優性能。如表5所示,分別設置 λ 的大小為0.7、0.5、0.3、0.1,四種結果在mAP和Rank-1上的精度都分別高于84.8%和88%,通過對比發現,在 λ 大于或小于0.5時,模型在mAP和Rank-1上的精度都呈下降趨勢, λ =0.5時,精度最高。這也驗證了本文模型參數設置的最優性。
4 結束語
本文提出的圖特征學習方法可以有效地構建跨幀分塊區域的關系圖,匯總來自每個區域節點的關聯信息,并進行特征傳播迭代優化區域節點更具代表性的特征表示。另外,本文將全局特征分支和圖特征分支融合到一個的框架中,共同優化模型,取得了更好的效果。最后,本文提出的加權損失函數策略合理使用了度量學習中每個樣本信息,優化了現有樣本挖掘策略。在MARS和DukeMTMC-VideoReID兩個數據集上的實驗結果證明了本文方案的有效性,消融實驗結果也證明了網絡中各個模塊的可行性。但筆者在實驗中注意到一部分圖片由于拍攝距離過遠等問題,導致行人拍攝過小且未處于圖像中心位置,這對行人特征提取影響較大。因此,如何篩選出高質量的行人圖片或是優先進行人體部位結構的對齊操作,實現更高精度的識別是本文下一步要研究的內容。
參考文獻:
[1] "Zajdel W,Zivkovic Z,Krose B J A.Keeping track of humans:have I seen this person before?[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2005:2081-2086.
[2] 戴臣超,王洪元,倪彤光,等.基于深度卷積生成對抗網絡和拓展近鄰重排序的行人重識別[J].計算機研究與發展,2019, 56 (8):1632-1641. (Dai Chenchao,Wang Hongyuan,Ni Tongguang, et al. Person re-identification based on deep convolutional generative adversarial network and expanded neighbor reranking[J]. Journal of Computer Research and Development ,2019, 56 (8):1632-1641.)
[3] 陳莉,王洪元,張云鵬,等.聯合均等采樣隨機擦除和全局時間特征池化的視頻行人重識別方法[J].計算機應用,2021, 41 (1):164-169. (Chen Li,Wang Hongyuan,Zhang Yunpeng, et al. Video-based person re-identification method by jointing evenly sampling-random erasing and global temporal feature pooling[J]. Journal of Computer Applications ,2021, 41 (1):164-169.)
[4] Li Shuang,Bak S,Carr P, et al. Diversity regularized spatiotemporal attention for video-based person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:369-378.
[5] Chen Dapeng,Li Hongsheng,Xiao Tong, et al. Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1169-1178.
[6] Si Jianlou,Zhang Honggang,Li Chunguang, et al. Dual attention ma-tching network for context-aware feature sequence based person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5363-5372.
[7] Dai Ju,Zhang Pingping,Wang Dong, et al. Video person re-identification by temporal residual learning[J]. IEEE Trans on Image Processing, 2018, 28 (3):1366-1377.
[8] Liu Yiheng,Yuan Zhenxun,Zhou Wengang, et al. Spatial and temporal mutual promotion for video-based person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8786-8793.
[9] Li Jianing,Zhang Shiliang,Huang Tiejun.Multi-scale 3D convolution network for video based person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8618-8625.
[10] Liu C T,Wu C W,Wang Y C F, et al. Spatially and temporally efficient non-local attention network for video-based person re-identification[EB/OL]. (2019).https://arxiv.org/abs/1908.01683.
[11] 賁晛燁,徐森,王科俊.行人步態的特征表達及識別綜述[J].模式識別與人工智能,2012, 25 (1):71-81. (Ben Xianye,Xu Sen,Wang Kejun.Review on pedestrian gait feature expression and recognition[J]. Pattern Recognition and Artificial Intelligence ,2012, 25 (1):71-81.)
[12] Zhang Peng,Xu Jingsong,Wu Qiang, et al. Learning spatial-temporal representations over walking tracklet for long-term person re-identification in the wild[J]. IEEE Trans on Multimedia ,2021, 23 :3562-3576.
[13] Zhou Zhen,Huang Yan,Wang Wei, et al. See the forest for the trees:joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4747-4756.
[14] Liu Yu,Yan Junjie,Ouyang Wanli.Quality aware network for set to set recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5790-5799.
[15] Xu Shuangjie,Cheng Yu,Gu Kang, et al. Jointly attentive spatial-temporal pooling networks for video-based person re-identification[C]// Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4733-4742.
[16] Fu Yang,Wang Xiaoyang,Wei Yunchao, et al. STA:spatial-temporal attention for large-scale video-based person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8287-8294.
[17] Li Jianing,Wang Jingdong,Tian Qi, et al. Global-local temporal representations for video person re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3958-3967.
[18] Wang Taiqing,Gong Shaogang,Zhu Xiatian, et al. Person re-identification by video ranking[C]//Proc of European Conference on Computer Vision.Cham:Springer,2014:688-703.
[19] Gou Mengran,Zhang Xikang,Rates-Borras A, et al. Person re-identification in appearance impaired scenarios[EB/OL].(2016).https://arxiv.org/abs/1604.00367.
[20] Liu Kan,Ma Bingpeng,Zhang Wei, et al. A spatio-temporal appea-rance representation for video-based pedestrian re-identification[C]//Proc of IEEE International Conference on Computer Vision.Pisca-taway,NJ:IEEE Press,2015:3810-3818.
[21] You Jinjie,Wu Ancong,Li Xiang, et al. Top-push video-based person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1345-1353.
[22] Wang Taiqing,Gong Shaogang,Zhu Xiatian, et al. Person re-identification by discriminative selection in video ranking[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2016, 38 (12):2501-2514.
[23] McLaughlin N,Del Rincon J M,Miller P.Recurrent convolutional network for video-based person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1325-1334.
[24] Wu Lin,Wang Yang,Gao Junbin, et al. Where-and-when to look:deep Siamese attention networks for video-based person re-identification[J]. IEEE Trans on Multimedia ,2018, 21 (6):1412-1424.
[25] Gao Jiyang,Nevatia R.Revisiting temporal modeling for video-based person ReID[EB/OL].(2018).https://arxiv.org/abs/1805.02104.
[26] Zhang Zhizheng,Lan Cuiling,Zeng Wenjun, et al. Multi-granularity reference-aided attentive feature aggregation for video-based person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10407-10416.
[27] Yang Jinrui,Zheng Wei Shi,Yang Qize, et al. Spatial-temporal graph convolutional network for video-based person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2020:3289-3299.
[28] Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018.
[29] Wang Xiaolong,Gupta A.Videos as space-time region graphs[C]//Proc of European Conference on Computer Vision.Washington DC:IEEE Computer Society,2018:399-417.
[30] Chen Zhaomin,Wei Xiushen,Wang Peng, et al. Multi-label image recognition with graph convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:5177-5186.
[31] Barman A,Shah S K.Shape:a novel graph theoretic algorithm for making consensus-based decisions in person re-identification systems[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:1115-1124.
[32] Cheng De,Gong Yihong,Chang Xiaojun, et al. Deep feature learning via structured graph Laplacian embedding for person re-identification[J]. Pattern Recognition ,2018, 82 :94-104.
[33] Ye Mang,Ma A J,Zheng Liang, et al. Dynamic label graph matching for unsupervised video re-identification[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5142-5150.
[34] Wu Xinhui,An Weishi,Yu Shiqi, et al. Spatial-temporal graph attention network for video-based gait recognition[C]//Proc of Asian Conference on Pattern Recognition.Cham:Springer,2019:274-286.
[35] Wu Yiming,Bourahla O E F,Li Xi, et al. Adaptive graph representation learning for video person re-identification[EB/OL]. (2019).https://arxiv.org/abs/ 1909.02240.
[36] He Kaiming,Zhang Xiangyu,Ren Shaoqing, et al. Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[37] Chen Zhiyuan,Li Annan,Jiang Shilu, et al. Attribute-aware identity-hard triplet loss for video-based person re-identification[EB/OL]. (2020).https://arxiv.org/abs/2006.07597.
[38] Simonovsky M,Komodakis N.Dynamic edge-conditioned filters in convolutional neural networks on graphs[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3693-3702.
[39] Wang Xinshao,Hua Yang,Kodirov E, et al. Deep metric learning by online soft mining and class-aware attention[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:5361-5368.
[40] Hermans A,Beyer L,Leibe B.In defense of the triplet loss for person re-identification[EB/OL].(2017).https://arxiv.org/abs/1703.07737.
[41] "Wen Yandong,Zhang Kaipeng,Li Zhifeng, et al. A discriminative feature learning approach for deep face recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:499-515.
[42] Zheng Liang,Bie Zhi,Sun Yifan, et al. MARS:a video benchmark for large-scale person re-identification[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:868-884.
[43] Ristani E,Solera F,Zou R, et al. Performance measures and a data set for multi-target,multi-camera tracking[C]//Proc of European Confe-rence on Computer Vision.Cham:Springer,2016:17-35.
[44] Song Guanglu,Leng Biao,Liu Yu, et al. Region-based quality estimation network for large-scale person re-identification[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018.
[45] Zhao Yiru,Shen Xu,Jin Zhongming, et al. Attribute-driven feature disentangling and temporal aggregation for video person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4913-4922.
[46] Hou Ruibing,Ma Bingpeng,Chang Hong, et al. VRSTC:occlusion-free video person re-identification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7183-7192.
[47] Wu Yu,Lin Yutian,Dong Xuanyi, et al. Exploit the unknown gradually:one-shot video-based person re-identification by stepwise learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:5177-5186.