田智慧,鄭付科,高 需
(1.鄭州大學信息工程學院,鄭州 450001;2.鄭州大學地球科學與技術學院,鄭州 450052;3.鄭州大學河南省超級計算中心,鄭州 450052)
針對公共場所某個視頻監控攝像頭捕捉的目標行人,基于視頻監控網絡和計算機視覺技術對其再次出現時識別的過程稱為行人重識別[1]。行人重識別技術由于能直觀、準確地反映犯罪嫌疑人與犯罪行為之間的聯系,因此被廣泛應用,特別是近年來得到快速發展,成為維護公共安全和社會穩定的重要手段。目前在可控環境下,基于人臉等生物特征的目標識別技術己比較成熟,但在實際監控場景下,受視角變換、行人姿態變化、圖像分辨率低、目標被遮擋以及光照變化等因素的影響,通常難以獲得高質量人臉圖像,無法利用人臉信息進行行人重識別。因此,研究人員通過行人衣著與攜帶的物品等外貌特征來實現行人重識別[2]。
現有行人重識別算法分為基于距離度量學習的算法和基于特征描述的算法[2]。其中:基于距離度量學習的算法主要學習度量目標特征分布的距離函數,通常不同目標行人的特征距離值較大,而同一個目標行人的特征距離值較小[3];基于特征描述的算法常用來設計可靠、魯棒且具有判別性的行人圖像特征,該特征能有效區分不同目標行人,且不受圖像尺度、視角及光照等變化因素的影響。傳統行人重識別算法主要基于顏色、紋理和局部描述[4-6]等低維特征,自2012 年HINTON 團隊利用深度卷積神經網絡在ImageNet 圖像分類比賽中獲勝后,深度卷積神經網絡[7-8]被廣泛應用于行人重識別的研究。在早期,研究人員主要關注行人圖像的全局特征,發現存在以下問題:目標行人有缺失及被格擋現象;目標行人檢測不準確;目標行人姿態發生變化;目標行人之間相似度高;復雜背景的干擾使模型學習到的全局特征魯棒性不強。因此,研究人員將工作重點轉移到對行人圖像局部特征的研究上。
由行人身體姿態識別領域近期的研究成果可知,研究人員對行人身體關鍵點進行定位并將其劃分為頭部、上肢和下肢三部分,分別提取局部特征并與整體特征融合后作為行人特征,最終得到比全局特征更高的準確率[9-10]。但是該方法需引入外部數據集,而外部數據集與行人重識別數據集差異較大且訓練過程較繁瑣,因此研究人員轉而采用行人圖像的內在特征,并達到與利用外部數據集相同的準確率[11-13]。文獻[14]提出一種精簡的PCB 模型,將行人圖像經過卷積神經網絡后所得張量自上而下等分為N個區域,并分別提取各區域特征進行同步訓練,該方法所得局部特征識別率比關鍵點定位更高。利用行人圖像的局部特征雖然識別率更好,但是行人圖像局部結構劃分后會出現離異值,導致所提取局部特征可區分性降低。
本文提出一種基于局部區域特征選擇的內容一致性行人重識別(Content-Consistent Pedestrian Reidentification,CCreID)算法。根據局部區域內容一致性,從行人圖像張量中選擇特征向量,結合Softmax函數計算其局部區域概率重新生成局部區域,并分別在Market-1501[15]和DukeMTMC-reID[16]數據集上進行重識別性能分析。
本文所提算法以殘差卷積神經網絡ResNet50[17]為主干網絡,其結構如圖1 所示。行人圖像輸入主干網絡后獲得三維張量T,使用CCreID算法對張量T進行處理后得到p個局部區域,再對局部區域進行全局平均池化操作獲得特征向量,然后對其進行降維與分類。由于每個區域內出現離異值造成各區域內容不一致,為解決該問題,本文提出基于局部特征選擇的內容一致性算法CCreID。

圖1 本文算法的網絡結構Fig.1 Network structure of the proposed algorithm
為得到每個局部區域的訓練權重Wi,建立預訓練模型進行預訓練,其結構如圖2 所示。該模型采用ResNet50 網絡中全局平均池化層前的結構,行人圖像輸入主干網絡后生成三維張量T,經過平均池化操作將張量T自上而下等分為p個局部區域,使用1×1 卷積對p個局部區域進行降維。在張量T后加上分類器,每個分類器由1個全連接層(FC)和1個Softmax 函數實現。然后采用交叉熵損失函數進行監督,直至收斂,最終得到p個訓練權重Wi(i=1,2,…,p)。

圖2 預訓練模型結構Fig.2 Structure of pre-trained model
將行人圖像輸入卷積神經網絡后所得張量T自上而下等分為p個局部區域,得到p個局部區域特征。在p個局部區域內存在不屬于自身區域的離異值,該離異值與其他局部區域更相似[14]。有部分研究因為未考慮局部區域間的離異值,所以在復雜背景、位姿變化以及遮擋等因素的影響下,提取的行人特征魯棒性不強[17-18]。由此可知,局部區域劃分的前提是p個局部區域中各區域具有內容一致性,即:1)各局部區域不存在不屬于自身區域的離異值;2)各局部區域之間的內容存在差異。
行人圖像輸入主干網絡后得到張量T大小為24×8×2 048。基本單位向量是張量T中最小的特征向量,其大小為1×1,維度為2 048。本文網絡共有192 個基本單位向量,如圖3 所示。張量T被等分為6 個局部區域,每個局部區域包含32 個基本單位向量,其均由張量T中某一個大小為4×8的固定空間得到。在每個局部區域內均存在不屬于自身區域的離異值,該離異值與其他局部區域更相似,使得所提取特征的魯棒性較差。為解決該問題,本文從張量T中選擇基本單位向量組成各局部區域,并通過閾值α控制局部區域以選擇基本單位向量的最低可能性,通過重新分配每個基本單位向量的歸屬可得到6 個新局部區域,且各區域內容一致。

圖3 局部特征的選擇過程Fig.3 Selection process of local features
為解決等分為p個局部區域所產生的離異值問題,需對所得p個局部區域進行重新生成。使用Softmax函數計算張量T中每個基本單位向量屬于局部區域Pi(i=1,2,…,p)的概率,計算公式如下:

其中:Wi為預訓練得到的權重;fm為在張量T中第m個基本單位向量,且滿足{m≥1,j≤192,m,j∈?*},n=192,P(Pi|fm)代表著第m個基本單位向量屬于Pi的概率,本文中p=6。
根據P(Pi|fm)(i=1,2,…,6)可得到6 個概率圖,每個局部區域對應1 個概率圖。張量T中192 個基本單位向量只有部分屬于每個局部區域,按照理想標準[14]只有32 個基本單位向量屬于各局部區域,其余均為干擾因素。對于每個基本單位向量,存在某個閾值,如果基本單位向量小于此閾值,則表明其不屬于該局部區域;否則表明其屬于該局部區域。假設閾值為α,則新的函數記為,其表達式如下:

其中,P(Pi|fn)表示已清零數值P(Pi|fn)隨機加到未清零數值P(Pi|fm)上,式(2)可記為:

1 個局部區域對應1 個概率圖,其中包括192 個基本單位向量,表達式如下:

局部區域Pi的表達式如下:

其中,V為基本單位向量的完備集。
本文通過實驗分析閾值α、張量T和局部區域個數p對行人重識別性能的影響。實驗采用Market-1501 數據集和DukeMTMC-reID 數據集,其為目前行人重識別數據量最大的兩個數據集,部分圖例和具體參數分別如圖4 與表1 所示。

圖4 2 個數據集的圖例Fig.4 Legend of two datasets

表1 Market-1501 數據集和DukeMTMC-reID 數據集的具體參數Table 1 Specific parameters of Market-1501 dataset and DukeMTMC-reID dataset
Market-1501 數據集為2015年研究人員在清華大學使用5 個高清攝像頭和1 個低清攝像頭采集得到。行人矩形檢測框采用可變形部件模型[19](Deformable Part Model,DPM)標注。將該數據集分為訓練集和測試集,其中:訓練集有12 936張圖像,包含751個行人;測試集有19 732張圖像,包含750個行人。
DukeMTMC-reID 數據集為DukeMTMC 數據集的行人重識別子數據集。該數據集為2017 年研究人員在杜克大學使用8 個攝像頭采集的85 min 高分辨率視頻,并提供人工標注的行人檢測矩形框。對視頻每隔120 幀采樣1 張圖像,共得到36 411 張圖像組成DukeMTMC-reID 數據集。其中,408 個行人由一個攝像頭采集,1 404 人由兩個及兩個以上攝像頭采集,在訓練集和測試集中分別有702 個行人。此外,該數據集中查詢圖像均為每個攝像頭下每個ID的1 張圖像,其他行人圖像放入測試的行人查詢集,并將另外408 個行人圖像作為干擾項也放入行人查詢集。DukeMTMC-reID 數據集共有16 522 張訓練圖像、2 228 張查詢圖像以及包含17 661 張圖像的查詢集。
目前評價行人重識別準確率的標準[20]主要有平均查準率(mean Average Precision,mAP)和Rank-n。其中,mAP 是對多類任務中的平均精度求和再取平均值,該指標反映學習所得模型在多類任務上性能的優劣,主要是通過對相似度排序,從高到低統計從第一項到最后一項相同行人圖像的重識別準確率,其更強調查準率和查全率之間的平衡。Rank-n是給定查詢集中一幅圖像,計算其與圖庫數據集中所有圖像的相似度并將其按從高到低排序,如果前n項中有相同行人則說明識別準確,該評價方式所得第一次成功匹配的概率Rank-1 最重要,Rank-5 與Rank-10 作為輔助參考。本文以mAP 和Rank-n作為行人重識別準確率性能的評價指標,其中,Rank-1 為主要評價指標,Rank-5 和Rank-10 為輔助評價指標。此外,為更好地評估模型性能,本文給出包括測試集特征提取時間、特征間距離計算時間、Rank-n計算時間和mAP 計算時間在內的模型測試時間。
本文實驗采用深度學習工具包PyTorch0.4.0 并以ResNet50 為模型主干網絡。由于圖像尺寸較大有利于學習局部區域特性,且mAP 和Rank-1 的精度均隨著圖像大小的增加而提升,若下采樣率較小則張量T的空間尺寸較大,識別性能更好[14],因此本文將數據集中行人圖像設置為384像素×128 像素,所得張量T大小為24×8×2 048,并對訓練圖像進行水平翻轉和歸一化處理。批大小設置為64,初始化學習率設置為0.1,在50 次迭代后學習率衰減為0.01。
閾值α決定基本單位向量是否被選中,本文使用控制變量法確定閾值α的大小,并根據經驗將局部區域個數p設置為6。圖5 和圖6 分別為模型的mPA 值和Rank-1 值隨閾值α的變化情況。可以看出:當α=0 時,局部區域公平性地選擇基本單位向量;當α=0.038 時,模型的mPA 值和Rank-1 值達到最大;當α>0.038 時,模型的mPA 值和Rank-1 值出現下降。因此,本文采用α=0.038。

圖5 mPA 隨閾值α 的變化曲線Fig.5 The change curve of mPA with threshold α

圖6 Rank-1 隨閾值α 的變化曲線Fig.6 The change curve of Rank-1 with threshold α
局部區域個數p決定特征可區分性強度,本文使用控制變量法確定p的大小,閾值α=0.038。圖7和圖8 分別為模型的mPA 值和Rank-1 值隨p的變化情況。可以看出:當p=1 時,模型學習的行人特征為全局特征;當p=6 時,模型的mPA 值和Rank-1 值達到最大;當p>6 時,模型的mPA 值和Rank-1 值出現下降,其原因是p過大會減弱局部區域的識別能力。因此,本文采用p=6。

圖7 mPA 隨p 的變化曲線Fig.7 The change curve of mPA with p

圖8 Rank-1 隨p 的變化曲線Fig.8 The change curve of Rank-1 with p
為驗證本文所提CCreID 算法的有效性,將其與基準ResNet50 算法、利用關鍵點定位產生行人身體局部區域的Spindel 算法[10]、利用GAN 網絡對齊特征的PN-GAN 算法[21]以及等比例劃分局部特征的PCB 算法[14]進行對比。在Market-1501 數據集上不同算法的測試時間對比結果如表2 所示,可以看出CCreID 算法的測試時間較ResNet50 算法和PCB 算法更長,但是較Spindel 算法和PN-GAN 算法更短。在Market-1501 數據集和DukeMTMC-reID 數據集上不同算法的重識別性能的對比結果分別如表3 和表4 所示,可以看出CCreID 算法在兩個數據集上的mPA 值和Rank-n(n=1,3,5)值均高于其他算法,說明其所提取局部區域特征的可區分性和豐富度更優,提高了行人重識別準確率。

表2 5 種算法在Market-1501 數據集上的測試時間Table 2 Test time of five algorithms on Market-1501 datasets

表3 5 種算法在Market-1501 數據集上的重識別性能Table 3 Re-identification performance of five algorithms on Market-1501 dataset%

表4 5種算法在DukeMTMC-reID數據集上的重識別性能Table 4 Re-identification performance of five algorithms on DukeMTMC-reID dataset%
圖9 為本文實驗中部分Rank-1 查詢結果(第1 行是查詢圖像,第2 行是查詢結果,圖9(e)和圖9(f)中第2 行圖像是錯誤結果)。可以看出,6 張查詢圖像均存在不同程度的背景干擾,其中:圖9(a)中查詢圖像存在木質柜子格擋,查詢結果準確;圖9(b)中查詢圖像和查詢結果的行人姿態不同,分別為騎自行車和正常行走,但仍為同一個行人;圖9(c)和9(d)中查詢圖像無行人面部特征,無法利用行人面部特征,需根據行人屬性特征來識別,此查詢結果驗證了該結論。圖9(a)~圖9(d)的查詢結果均準確,圖9(e)和圖9(f)的查詢結果錯誤,說明當行人屬性非常接近時,無法用本文模型進行識別。

圖9 本文實驗中部分Rank-1 查詢結果Fig.9 Partial Rank-1 query results of the proposed experiment
基于特征描述的行人重識別算法要求所提取的特征魯棒、具有判別性且不受環境變化因素的影響,針對現有重識別算法在行人圖像局部區域存在離異值的問題,本文提出一種內容一致性行人重識別算法。根據局部區域特征的內容一致性,使用Softmax函數計算生成新局部區域,以減少其內部特征差異,并增加局部區域之間的特征差異。實驗結果表明,該算法較Spindel、PN-GAN 等算法重識別準確率更高,行人特征具有更好的可區分性和魯棒性。后續將研究不同行人屬性對識別準確率的影響,以提升行人屬性相近時算法的重識別性能。