王晶 韋永來



摘要:跨攝像頭的行人再識別是智能監控系統的基本功能,它為公安干警追蹤犯罪嫌疑人、監控犯罪行為提供了有力的技術支持。文中首先簡單地介紹了行人再識別的概念與難點,然后分別從傳統方法和深度學習方法兩個方面詳細闡述了行人再識別技術的研究進展,最后針對公安監控系統的實際應用展望了行人再識別技術的未來研究方向。
關鍵詞:行人再識別;深度學習;公安監控
中圖分類號:TP18? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)35-0191-03
Abstract: Cross-camera person re-identification is the basic function of intelligent monitoring system. It provides strong technical support for police to track criminal suspects and monitor criminal acts. This paper first briefly introduces the concept and difficulties of person re-identification, then elaborates the research progress of person re-identification technology from two aspects of traditional methods and deep learning methods, and finally looks forward to the future research direction of person re-identification technology in view of the practical application of public security monitoring system.
Key words: person re-identification; Deep learning; Public security monitoring
隨著我國“平安城市”建設的穩步推進,視頻監控設備已經遍布在城市的大街小巷中,形成了一個巨大的視頻監控網絡,這些監控設備捕獲的視頻為公安干警抓捕犯罪嫌疑人、尋找丟失兒童等提供了有力的線索。每當類似案件發生時,目標人物一定會在移動過程中出現在某些攝像頭下,相關部門需要在這些監控視頻中尋找目標人物。如今的監控系統大多采用攝像頭實時錄像加人工監察的方式進行,監查人員需要持續的觀察視頻場景的變化,這對監查人員的要求極度苛刻。因此,這種以人工監察為主的監控系統已無法滿足如今監控系統的網絡化發展趨勢。所以利用計算機自動完成監控任務的智能監控系統應運而生。最初這類系統普遍采用較為成熟的人臉識別技術來搜索目標行人,但是由于監控攝像頭的安裝位置較高、監控范圍較廣導致無法獲得較為清晰的人臉圖像,因此這類系統逐漸放棄單純的使用人臉識別技術來搜索行人,而是選擇使用全身信息作為人臉之外的重要補充,實現對行人的跨攝像頭追蹤。這種被稱之為“行人再識別”的技術使得智能監控系統的命中率發生了質的變化。但是,目前的行人再識別算法依然面臨著巨大的挑戰。例如行人姿態差異、場景光照變化、攝像頭的視角以及相機成像質量等都會使得同一行人在不同攝像頭下的外觀發生較大的變化。本文將從傳統方法和深度學習方法兩個方面詳細闡述行人再識別技術的研究進展,并對其未來的研究方向進行了展望。
1 傳統方法
現存的傳統方法主要從兩個方面來提升算法性能:(1)提取更加魯棒性的行人特征描述子來解決行人外觀變化問題;(2)設計更具判別力的距離測度來計算行人圖像之間的差異。
1.1 特征描述子
特征設計主要是為了尋找出對光照變化、視角變化、人體形變以及行人遮擋等具有不變性的特征描述子,增強不同行人間的特征差異,同時維持相同行人在不同攝像頭下的外觀不變性。常用的底層特征有顏色特征(RGB、HSV、LAB等)和紋理特征(LBP、SILTP等),但是僅使用底層特征來表示行人圖像難以取得理想效果。近年來,研究人員以底層特征為基礎提出了多種更具魯棒性的特征描述子。Liao等人[1]提出的局部最大發生特征(LOMO)將顏色特征(HSV)和紋理特征(SILTP)進行了有效的融合,并加入了Multi-scale操作,對圖像進行縮放處理,因此該特征具有良好的尺度魯棒性。Chen等人[2]通過改進LOMO特征得到了多項式特征,該特征由HSV/SILTP、 HSV/HOG、LAB/SILTP、LAB/HOG組合而成,并通過將圖像分成四個子區域,每個區域獨立計算匹配距離來挖掘圖像的局部細節信息(圖1)。文獻[3]的提取特征方式與上文所述不同,它具體到圖像的每個像素,通過提取每個像素點的坐標、梯度、顏色特征作為基礎信息,再經過兩級不同的高斯變化得到最終的GOG特征。
圖1中,(a)為特征提取,首先將待提取特征區域通過滑動窗口劃分出r個局部區域,再對r個局部區域提取出c個視覺線索(HSV、HOG等),最后將它們串聯后降維得到最終區域特征。(b)為距離測度,首先通過(a)中特征提取方法提取出整幅圖像和四個子區域的圖像特征,再將它們一一對應計算出相應的相似度,最后融合五種相似度得到最終的圖像相似度。
1.2 距離測度
通過推導或者優化訓練尋找一個使得相關目標之間的距離減小,不相關目標之間的距離增大的距離測度方法就稱之為距離測度學習。經典的距離測度學習就是馬氏距離,它首先給出一個先驗的相似度函數(公式1),然后通過標記的訓練樣本優化求解得到M,最后利用M計算測試樣本之間的距離來衡量樣本之間的相似度。
基于馬氏距離測度學習的思想,近年來不斷地有新的距離測度算法被提出,如文獻[4]提出的KISSME算法將相關行人對與不相關行人對的概率比值作為相似度表達,進而推導出測度矩陣M。Liao等人[1]提出的子空間學習與距離度量學習相結合的算法(XQDA),其測度矩陣是在學習得到的子空間中計算的。同樣利用子空間學習來實現行人再識別的還有文獻[5]提出的KCCA算法。還有一些學者通過將馬氏距離與其他距離相結合的方法來提高行人再識別性能,如Chen等人[2]提出的SCSP算法同時考慮了馬氏距離和雙線性距離,并利用ADMM優化函數學習得到M。最終使得該算法較大程度地提升了行人再識別性能。
隨著各種不同特征描述子和距離測度函數不斷被提出,部分學者開始融合這些特征描述子和距離測度函數以達到更好的識別效果。比如文獻[11]中提出的融合算法使得其在VIPeR數據上的首位命中率(Rank-1)達到了66.01%,據我們所知,這也是目前傳統方法在VIPeR數據集上取得的最高識別率。需要指出的是不論哪種特征組合都需要尋找出一種與之相適應的距離測度,因為只有一個好的特征表達與有效的度量學習相結合才能實現高效的行人再識別。
2 深度學習方法
近年來,深度學習在圖像分類、目標檢測、人臉識別等各種計算機視覺領域都取得了很大的成功。因此越來越多的學者將深度學習方法應用到行人再識別的研究中。比如,Yi等人[6]提出了一種針對行人再識別的Siamese網絡,該網絡將輸入圖像劃分為三個重疊的水平部分,經過兩個卷積層后再通過一個全連接層進行融合,最終得到原始行人圖像的特征向量。Ahmed等人[7]改進了Siamese網絡,通過計算兩幅輸入圖像的領域差來學習視角不變性特征。Cheng等人[8]使用三元組樣本來訓練網絡,使相同行人之間的特征距離縮小,不同行人之間的特征距離增大。諸如此類的網絡還有很多,但是這些網絡的關注點主要還是在全局特征上,就是利用整幅圖像得到一個特征向量進行圖像匹配。但是后來發現全局特征遇到了瓶頸,于是漸漸開始研究起局部特征。目前最具代表性的就是曠視科技Face++[9]提出的AlignedReID網絡,該網絡利用空間局部距離的自動對齊模型,在不需要額外信息的情況下自動對齊局部特征。
和其他的行人再識別網絡類似,AlignedReID同樣利用卷積神經網絡提取圖像特征,用難樣本開采后的三元損失作為損失函數,把圖像特征之間的歐式距離作為兩張圖像的相似度。不同之處在于AlignedReID在學習圖像相似度的時候考慮了人體結構的對齊,雖然之前有學者考慮過這一點,比如:簡單地把行人圖像分成頭、身、腿三部分進行對齊;還有更精細一點的是通過人體骨架估計,然后再通過骨架信息來對齊,但是這些網絡要么在結果上差強人意要么就需要額外的標注工作。而AlignedReID通過引入端到端的思想,讓網絡自動學習人體對齊,進而提高行人再識別性能。
AlignedReID不僅提取全局特征,同時也會對各局部提取局部特征。對于兩張行人圖像中的任意一對局部特征,計算它們之間的距離,構成一個距離矩陣如圖3所示。再通過動態規劃的方法尋找一條從距離矩陣左上角到右下角的最短路徑,這條最短路徑上的一條邊就代表一對局部匹配,這樣的人體對齊方式在保證身體各部分的相對位置時總距離也是最短的。在訓練階段,最短路徑長度被加入損失函數中輔助行人圖像的特征學習。仔細觀察圖3不難發現,最短路徑中的有些邊是冗余的,例如圖中的第一條邊。其實局部特征不僅要自我匹配,同時也要考慮到整個人體的對齊。為了使局部匹配能夠從頭到腳按順序執行,存在一些冗余的匹配是不可避免的。
AlignedReID使得計算機在Market1501和CUHK03上的首位命中率分別達到了94.0%和96.1%,而一個熟練的標注員在Market1501和CUHK03數據集上的命中率卻只有93.5%和95.7%。當然,目前利用局部信息提升行人再識別性能的不僅僅只有曠世科技的這篇AlignedReID,還有云從科技的MGN[11]、Zhao等人[12]的Spindle net等,其中云從科技的MGN更是將Market1501數據集上的首位命中率提升至96.6%。這樣的結果還是相當振奮人心的,但是還不能說行人再識別的任務被很好地解決了。因為在實際應用場景中不可能在所有監控環境下對數據進行標注、訓練再測試。一個可行的思想便是在現有的一些標注過的數據集上訓練,再將訓練后的模型在實際場景中微調應用。Deng等人[10]就是基于這樣的思想提出了“Learning via Translation”框架。該框架主要包含兩個部分:1)將源域上帶標簽的訓練數據的風格遷移到目標域的風格之上;2)利用風格遷移后的數據訓練一個行人再識別模型。由于遷移之后的圖像需要用于行人再識別的模型訓練,因此需要在圖像遷移前后保證圖像的ID不發生變化。
基于以上的要求,作者提出了SPGAN網絡(圖5),該網絡由兩部分組成:(1)改進的CycleGAN;(2)控制正負樣本對遠近的SiaNet。對于CycleGAN部分作者添加了一個identity loss(公式2)來保證轉換前后的相似性,而對于SiaNet部分作者同樣設計了獨立的損失函數(公式3)。最后再將這兩個網絡的所有損失函數聯合起來(公式4),對整個SPGAN網絡進行訓練。
將在DukeMTMC-reID數據集上訓練的網絡模型通過SPGAN遷移到Market-1501上時,首位命中率可以達到57.7%;這樣的命中率雖然相對于有監督訓練還有較大的差距,但是對于在缺少標簽信息指導的情況下還是相當可觀的,同時這樣的遷移學習方法更接近于實際應用場景。
3 總結與展望
行人再識別技術是當前計算機視覺的熱門研究方向,主要解決跨攝像頭下的行人匹配問題,具有非常重要的理論意義和研究價值。例如,在大型公眾場所小朋友與其父母走失后,公安干警可通過行人再識別技術幫助其父母迅速找回丟失兒童;而犯罪嫌疑人在犯罪逃竄后,公安干警同樣可利用行人再識別技術追蹤犯罪嫌疑人的逃跑路徑。
本文從傳統方法和深度學習方法兩個方面分別闡述了最近幾年的研究進展。傳統行人再識別算法的主要目標是尋找更具魯棒性的行人特征和學習更具判別性的距離測度,這種算法的實現簡單、實時性好且不需要大量的訓練數據;但是這種算法易受數據量影響,在數據量增大時其性能會顯著下滑?;谏疃葘W習的行人再識別算法會通過深度神經網絡提取出圖像的深度特征,具有較強的泛化能力,在大數據集上表現也是異常優秀。同時利用遷移學習技術可以有效地解決實際應用場景中缺乏標注數據的問題。
雖然行人再識別技術已經發展多年,但是因為實際監控系統的復雜性及不穩定性使得其依舊面臨著諸多挑戰:1)有限的訓練數據;從現有的行人再識別數據集來看,當前收集的數據相對于真實數據的時空分布是非常有限的和局部的。同時,與其他計算機視覺任務的數據集相比其數據規模也是非常小的。2)非理想場景下行人外觀變化大;行人不對齊、圖像質量低和部分遮擋都會使得行人外觀發生巨大變化。3)大規模數據集下的算法效率問題;雖然現有行人再識別算法在小數據集上的表現優異,但是隨著監控網絡的擴大,其運算量將呈指數增長。這一系列的問題阻止了行人再識別技術的落地應用,但同時也為未來的技術研究提供了方向,例如,可以通過優化算法,提高計算機運算速度來解決大規模數據集下的算法速率問題;總而言之,隨著技術的發展,這一個個問題終將在不久的將來被一一解決。
參考文獻:
[1] S. Liao, Y. Hu, X. Zhu, and S. Z. Li. Person re-identification by local maximal occurrence representation and metric learning. In CVPR, 2015.
[2] D. Chen, Z. Yuan, B. Chen, N. Zheng. Similarity Learning with Spatial Constraints for Person Re-identification. In CVPR, 2016.
[3] T. Matsukawa, T. Okabe, E. Suzuki, Y. Sato. Hierarchical Gaussian Descriptor for Person Re-Identification. In CVPR, 2016.
[4] M.Koestinger,M.Hirzer,P.Wohlhart,et al.Large scale metric learning fromequivalence constraints.In CVPR,2012.
[5] Zhang L,Xiang T,Gong S.Learning a Discriminative Null Space for Person Re-identification.In CVPR, 2016,1239-1248.
[6] D. Yi, Z. Lei, S. Liao, S. Z. Li et al.Deep metric learning for person re-identification. In ICPR,vol. 2014, 2014, 34-39.
[7] E. Ahmed, M. Jones, and T. K. Marks. An improved deeplearning architecture for person re-identification. In CVPR,2015.
[8] D. Cheng, Y. Gong, S. Zhou, J. Wang, and N. Zheng. Personre-identification by multi-channel parts-based cnn withimproved triplet loss function. In CVPR, 2016.
[9] Zhang X, Luo H, Fan X, et al. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification[J]. 2017.
[10] Deng W, Zheng L, Ye Q, et al. Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification[J]. 2017.
[11] Mumtaz S, Mubariz N, Saleem S, et al. Weighted hybrid features for person re-identification[C]//International Conference on Image Processing Theory. IEEE, 2018:1-6.
[通聯編輯:唐一東]