孫 鑫 莊珊娜 王正友
(1.石家莊鐵道大學信息科學與技術學院 石家莊 050043)(2.河北省電磁環境效應與信息處理重點實驗室 石家莊 050043)
人工智能系統可感知環境并為執行特定任務而采取行動[1]。計算機視覺通過計算機獲取有效視覺信息,是人工智能的核心元素之一,在工業、農業、交通、醫療等領域廣泛應用,并不斷推進產業智能化。行人重識別[2~5]技術是當前計算機視覺研究的熱門方向,為圖像檢索問題,即根據行人的衣著、姿態、發型等信息從非重疊攝像機視角下的行人圖像庫中找到與某行人屬于同一身份的圖像。實際中,監控視頻被采集于不同場景,由于光線、檢測、跟蹤的誤差、遮擋和背景雜波等因素,圖片中行人外觀常存在嚴重變化。另一方面,受限于視頻監控探頭的安裝高度及密度,實際拍到更多的是行人的頭頂、背部或側臉。此外,即使拍到行人正面,由于距離、行走速度等原因,也可能導致拍攝圖像模糊不清。加之各種攝像機分辨率也不盡相同,給行人重識別帶來了極大挑戰。
針對行人重識別的研究起始于20世紀90年代中期。研究者們借鑒并引入了圖像處理和模式識別領域的成熟方法,側重研究行人的可用特征與簡單分類算法。傳統行人重識別方法采用多種手工標注的特征,如顏色[6]、紋理[7]和漸變[8]等,在小型數據集上取得了一定的成效。但由于手工標注數據耗費巨大,并不適用于大規模搜索。類似的限制也發生在通過優化特征距離函數的傳統距離矩陣學習方法上[9]。因此,隨著數據量的逐漸增大,傳統方法的泛化能力局限性愈加突顯。
隨著深度學習的興起[10~12],文獻[13]和[14]首次引入卷積神經網絡(Convolutional Neural Network,CNN)處理行人重識別問題,迅速成為行人重識別問題的主流研究方向。深度學習一方面可更有效地提取特征,且可根據目標變化自適應調整,另一方面具有豐富的架構和較強的學習能力,可通過線性或非線性映射進行目標識別。目前已有大量研究工作利用深度學習網絡提高行人重識別準確率[15],本文著重圍繞2018-2020年期間深度學習應用于行人重識別的研究成果進行梳理和介紹。
在深度學習應用到行人重識別初期,大多研究者使用有監督學習網絡模型,即采用標記數據訓練網絡,以有效提升識別準確度。然而隨著數據量的不斷增大,數據標記工作耗費巨大,研究者們對無監督學習的研究逐步深入。無監督學習無需標記數據,為行人重識別提供了更好的可擴展性,有利于實際應用。本節將從有監督與無監督深度學習網絡模型兩方面對行人重識別研究狀況展開論述。
在行人重識別問題中,特征相似度是判斷不同圖片中行人是否屬于同一身份的依據,故特征提取尤為重要,有監督學習可利用標注信息有效提取判別力較強的特征。本節將分別從基于局部分塊,基于細粒度信息,基于注意力機制以及基于對抗生成網絡(Generative Adversarial Network,GAN)[16]四個方面來介紹有監督學習行人重識別網絡模型。
2.1.1 基于局部分塊的行人重識別
解決行人重識別問題普遍需要獲取全局特征,但全局特征的局部信息表示能力有限,輔以局部特征可為判別提供更多依據,從而提高行人重識別準確率。一方面,獲取身體對應的局部特征可以解決空間錯位問題。文獻[17]和[18]采用分析圖像結構的方法來獲取特征對應的部分,例如頭部、胸部、大腿和小腿,并分別提取每個部分的顏色特征進行匹配,但位姿估計誤差會對判別結果產生較大影響。文獻[19]使用基于CNN的姿態估計器提出了動作框融合(PoseBox Fusion)網絡,并引入置信度,減輕了錯誤姿態估計的影響,同時獲取人體不同部位的信息,將之進行組合獲取準確豐富的特征。但通常預訓練數據集與目標數據集存在一定差異,這類使用標注數據集預訓練網絡的方法泛化能力不足。文獻[20]提出了水平金字塔匹配(Horizontal Pyramid Matching,HPM)方法,將一張行人圖片水平進行分割為1、2、4、8個子部分,分別利用各子部分訓練網絡提取子特征,最后將所有子特征融合進行身份分類,提高了局部特征的魯棒性,且可嵌入其他網絡框架以獲取性能的進一步提升。
2.1.2 基于細粒度信息的行人重識別
如何區分外觀相似的行人是行人重識別的挑戰之一,解決此類問題的關鍵是提取細粒度信息,諸如姿態估計、人體解析等。文獻[21]提出了語義緊密一致(Densely Semantically Aligned)網絡模型,將人體特征映射到三維空間,人體表面被分成24個部分獲取細粒度語義信息,但該方法往往需要同一人的正反面圖片,有一定局限性。文獻[22]提出了一種類激活映射方法,通過重疊激活懲罰(Overlapped Activation Penalty)損失函數來判斷激活區域,不斷擴展CNN的空間感知范圍。文獻[23]提出交互聚合模塊(Interaction-and-Aggregation Block,IA-Block)可用于任意CNN層,不僅可獲取像素級別的細粒度信息,還可引入通道信息,以此獲得更全面的特征表示。與前文所述針對圖片本身的方法不同,文獻[24]提出對行人進行屬性標注,如“粉色短裙”等,并推導了屬性間的相關度信息,證明了屬性標注信息可與身份標簽互補,進一步提升行人重識別的準確率。文獻[25]同樣將屬性融入特征,提出了基于屬性驅動的特征分離和時間聚合行人重識別方法,該方法在空間上對屬性進行分割,并從時間上對屬性預測概率進行聚合。
2.1.3 基于注意力機制的行人重識別
若用熱度圖顯示特征激活分布圖,可發現一般基線網絡[26]總會選取人體最具判別力的部分作為行人重識別的判斷依據,但研究者們并不希望只關注部分區域,而是能夠提取出較為完整的人體信息,即尋找更多值得注意的區域。文獻[27]使用注意力圖判斷未被注意到的區域是否包含能夠提供判斷依據的特征,以獲取完整人體特征。文獻[28]學習了多個預定義的注意力模型,每個模型對應一個特定的身體部位,之后通過時間注意力模型將這些部位模型的輸出聚合起來。
由于存在攝像機視角、背景、光線亮度的差異,同一行人的外觀在不同相機下差異較大,而且行人常被部分遮擋,也可采用注意力機制引導網絡專注于需要注意的位置。文獻[29]提出了動作引導的特征對齊(Pose-Guided Feature Alignment,PGFA)方法,通過標記地標來獲取連接人體部位所在區域特征,最終使用融合特征結合水平分塊進行相似度計算,但該方法僅關注未遮擋部分且只比較部分共享區域。文獻[30]針對行人下半身遮擋問題,提出了時空補全網絡(Spatio-Temporal Completion network,STCnet),空間生成器生成需要補全的幀,之后使用時間注意生成器找到相鄰關鍵幀進行補全操作。
2.1.4 基于GAN網絡的行人重識別
GAN網絡也是常被用于解決行人重識別問題的方法之一。首先,GAN網絡可處理圖像補全問題,早期針對圖像缺失問題,大多方法通過匹配和復制背景補丁[31~32]到缺失的區域來獲得完整圖像,但對大型數據集,匹配所用圖片是通過隨機搜索獲得,效率較低。文獻[33]使用完全卷積神經網絡,通過填充任何形狀的缺失區域來完成任意分辨率的圖像,保持圖像在局部和全局一致,為解決部分遮擋行人重識別問題提供了一種圖像補全方式。其次,GAN網絡可輔助生成更多樣本,文獻[34]提取數據集中人體的姿態,利用GAN網絡生成具有其他相機風格與不同姿態的逼真樣本來豐富訓練集,解決了因缺乏不同姿態的行人訓練數據而導致難以匹配的問題。文獻[35]提出統一網絡中的判別式和生成式學習網絡(Discriminative and Generative Learning in a Unified Network,DG-Net),分別提取行人的結構與外觀特征,再進行交叉組合,一方面豐富了樣本,另一方面可挖掘與服裝無關的身份屬性。
隨著行人重識別模型對可擴展性要求的提高,有監督學習需要付出較大代價完成手工標注,不利于實際應用,為此研究者們提出了多種無監督學習算法,下文將分別從基于聚類、基于軟標簽和基于Tracklet的無監督行人重識別模型三個方面對無監督學習行人重識別網絡模型研究現狀展開介紹。
2.2.1 基于聚類的行人重識別
基于聚類的行人重識別方法通常會根據圖像特征進行聚類操作,并基于聚類結果為圖片標注偽標簽,為特征提取提供一定判斷依據。文獻[36]提出了一種自下而上的聚類方法,首先將每張圖片均視為一個單獨個體,即屬于不同身份(類),最大化類的多樣性,之后通過聚類,逐漸將相似樣本歸為同一個身份,增加了每個身份內部的相似性。但該方法沒有考慮跨相機的差異,無法準確匹配同一個人跨相機的身份標簽。為獲取更細致的特征,文獻[37]提出了一種自相似分組(Self-similarity Grouping,SSG)方法,利用未標記樣本的潛在相似性(從全局到局部),將圖片分為整體、上、中和下四個區域自動構建多個集群。為了更加靈活地劃分區域,文獻[38]通過定位網絡將人體進行分割,提出基于塊的無監督學習(Patch-based unsupervised learning,PBUL)框架,不僅單獨針對相應的分割部位進行聚類,同時也對整體進行聚類,最后將全局與局部結果相結合進行判別。
2.2.2 基于軟標簽的行人重識別
在缺乏標記數據且行人重識別應用場景各異的情況下,使用迭代聚類和標注軟標簽是目前較有效的兩類方法,但迭代聚類的聚類數量通常難以確定,此外,聚類誤差易導致錯誤的偽標簽和訓練損失。以相似度為依據計算目標圖片中行人屬于某身份的概率,并以此作為圖片軟標簽,可避免錯誤偽標簽帶來的損失。文獻[39]提出軟多表示學習(Soft Multilabel Reference Learning)方法,首先將無標簽的目標圖片與輔助域中的數據進行比較,選擇相似的圖片作為已知參考人得出參考代理,然后根據圖片與代理的相似度為每個無標簽目標學習軟多標記。文獻[40]將提取的目標圖片特征存儲到特征空間,計算任意兩特征之間的相似性,之后降序排列,選取前K張圖片獲取候選人列表,并標記為依賴集,視作同一身份并為其標注軟標簽作為后續特征提取的依據。
2.2.3 基于Tracklet的行人重識別
值得注意的是,當無監督行人重識別方法應用到視頻數據集時,可提取行人所在的多個連續幀,記為一個Tracklet(關聯軌跡),提取Tracklet的同時可獲取相機標簽信息(Tracklet來自同一視頻),此時無監督行人重識別任務轉換成無監督Tracklet識別問題。文獻[41]提出了一種無監督Tracklet關聯學習框架,通過學習相機內部以及跨相機Tracklet的關聯性,為每個相機建立內部Tracklet標簽空間,同時在全局尋找相似的Tracklet,即跨相機尋找屬于同一身份的Tracklet。文獻[42]提出了一種新穎的Tracklet自監督學習方法,利用大量未標記Tracklet數據,依次通過Tracklet幀一致,Tracklet鄰域緊湊以及Tracklet聚類三種方法完成行人重識別任務。
根據采集形式不同可將行人重識別常用數據集分為兩種,圖片數據集有:CUHK03、Market-1501、DukeMTMC-reID、DukeMTMC-attribute和Market1501-attribute,視頻數據集為:PRID2011、iLIDS-VID、MARS、和DukeMTMC-VideoReID。各個數據集包含至少兩個攝像頭以提供不同的視角,具有不同采樣時間、地點、目標人群。
表1展示了近年來行人重識別領域常用數據集,包括五個圖片數據集和四個視頻數據集。表中分別展示了每個數據集的發布時間,身份數,圖片數,相機數以及標注方式。其中DPM+GMMCP表示檢測器自動切割[43]。
常見的試驗標準有Rank-n和mAP,其中Rank-n表示n張圖片以內可找到正確圖片的概率,mAP用來評估整個模型的平均性能。

表1 行人重識別常用數據集
表2給出了有監督學習在圖片數據集上的實驗表現,可以看出局部分塊方法近幾年進步最為顯著,在Market1501數據集上Rank-1提升了15%左右。在Market1501數據集上,文獻[21]取得了最好的效果,mAP達到了87.6%。在DukeMTMC-ReID數據集上,文獻[44]取得了最好的效果,mAP達到了78.4%。

表2 有監督學習實驗比較(圖片數據集)
表3給出了無監督學習在圖片數據集上的實驗數據,可以看出無監督學習中Market1501數據集和DukeMTMC-ReID數據集使用較多。從2019年到2020年,在Market1501數據集上,mAP性能從38.3%提升到了68.3%,在DukeMTMC-ReID數據集上,mAP值提升了26.6%。其中使用聚類的無監督效果最好,提升最多。
表4比較了無監督學習在視頻數據集使用三種方法的實驗數據,可以看出現階段針對視頻行人重識別的無監督學習研究較少,大多使用MARS數據集。由于針對視頻處理時,需從中提取關鍵幀,而提取過程未必完全準確,從而對模型的效果產生影響,故針對視頻的行人重識別效果相比于針對圖片行人重識別效果較差。另一方面,在使用視頻數據集的行人重識別處理中,基于Tracklet關聯是目前較常采用的方法,而其他方法則相對較少。

表3 無監督學習實驗比較(圖片數據集)

表4 無監督學習實驗比較(視頻數據集)
深度學習在行人重識別問題上已取得較大進展,利用豐富的架構可提取更精確、更細致的特征,目前各數據集上的有監督行人重識別準確率均已較高,Rank-1可達95.7%。但仍存在一些方面有待進一步研究,如:
1)跨域識別。將訓練好的行人重識別模型應用于另一場景時,場景之間的差異會導致網絡性能大幅下降,研究如何增強行人重識別網絡的可擴展性以及消除不同數據集差異的影響,可減輕在跨數據集時產生的識別性能下降問題,有待深入研究。
2)無監督學習。無監督學習無需數據標注且具有較高的可擴展性和可移植性,更適用于實際應用。但因缺少標記數據來引導網絡訓練,目前識別準確率較低,研究如何利用無監督網絡提取高鑒別性的特征提高行人重識別準確率有利于增強深度學習網絡的實際可用性,具有較高的研究價值。
3)網絡復雜度。深度學習網絡能夠為行人重識別提供更具有鑒別力的特征,但實際情況中常存在諸如行人遮擋、分辨率低等問題,深度學習網絡需要大量復雜的參數,其中不乏需要人工設定的參數。如何減輕網絡復雜度,降低人工干預度,提高網絡架構的自適應能力是一個值得進一步研究的方向。
本文主要圍繞有監督學習與無監督學習梳理了2018-2020年行人重識別方面主要研究工作,列舉常用數據集,介紹各類方法目前所能達到的識別效果,最后對行人重識別的未來研究方向做了簡單分析和討論。