










摘要: 行人再識別在智慧安防、智慧城市和智慧交通等領(lǐng)域具有廣泛的研究和應(yīng)用價值,但是就目前的研究和應(yīng)用需求來看,面向真實場景的行人再識別仍然是一項挑戰(zhàn). 針對真實場景下行人目標(biāo)具有復(fù)雜的圖像變化,本文提出一種全局和局部令牌變換(GLTT)框架,以學(xué)習(xí)具有鑒別性和魯棒性的行人特征. 首先,在GLTT 框架上引入一種全局令牌變換(GTT)模塊,考慮到單個類別令牌難以應(yīng)對復(fù)雜的行人圖像變化,該模塊利用多個類別令牌從不同語義空間中學(xué)習(xí)多個全局行人特征,提升行人再識別模型的全局魯棒性. 然后,考慮到行人局部細(xì)節(jié)包含關(guān)鍵身份信息,本文設(shè)計一種局部令牌變換(LTT)模塊,通過融合自注意力權(quán)重來動態(tài)選擇具有語義相關(guān)性的塊令牌,并在所選擇的塊令牌和類別令牌之間進(jìn)行信息交互,從而提升行人再識別模型的局部鑒別性. 最后,本文提出一種簡單有效的類別令牌正則化(CTR)方法,以使每個類別令牌的特征空間不重疊,從而提高多個類別令牌特征的表示能力.實驗結(jié)果表明,與多種行人再識別方法相比,本文所提出的GLTT 框架在Market1501、CUHK03、DukeMTMC 和MSMT17 數(shù)據(jù)集上均取得最優(yōu)的識別效果,驗證了此框架具有良好的鑒別性和魯棒性.
關(guān)鍵詞: 行人再識別;全局令牌變換;局部令牌變換; 類別令牌正則化
中圖分類號: TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j. 0490-6756. 240155
1引言
行人再識別是一種利用計算機(jī)視覺方法在圖像或視頻庫中檢索特定行人的身份識別技術(shù),旨在對一個攝像機(jī)的視頻圖像中出現(xiàn)的某個目標(biāo)行人,識別出其在不同時間、不同位置的攝像頭中的再次出現(xiàn). 當(dāng)攝像機(jī)中出現(xiàn)的行人目標(biāo)消失于當(dāng)前視頻,行人再識別的任務(wù)是在與當(dāng)前攝像機(jī)不存在重疊區(qū)域的其它攝像機(jī)中對行人目標(biāo)進(jìn)行檢索,重新找到行人目標(biāo). 在對行人目標(biāo)進(jìn)行分析時,行人身份的驗證是整個智能視頻監(jiān)控系統(tǒng)的根本所在,只有確定行人目標(biāo)的身份,才能使后續(xù)的行人跟蹤和行為分析具有意義[1,2]. 當(dāng)下的智能視頻監(jiān)控系統(tǒng)通常由大量攝像機(jī)組網(wǎng)構(gòu)成,不論是對行人目標(biāo)進(jìn)行跟蹤還是行為理解時都需要考慮行人在整個攝像機(jī)網(wǎng)絡(luò)中的活動歷程. 因此,如何建立行人目標(biāo)在不同攝像機(jī)之間的身份關(guān)聯(lián),不僅是智能視頻監(jiān)控中行人目標(biāo)分析處理的前提條件,也是眾多單攝像機(jī)視頻處理技術(shù)在多攝像機(jī)監(jiān)控網(wǎng)絡(luò)中推廣和使用的基礎(chǔ).
在智能視頻監(jiān)控系統(tǒng)中,由于行人是非剛性的,所以行人的形狀和身體各部位的位置都存在變化. 此外,行人的外觀還會受到攝像機(jī)視角、光照條件、身體遮擋和相機(jī)參數(shù)差異等因素的影響,這些都給行人外觀的特征描述增加了難度. 考慮到局部特征對圖像變化具有一定的魯棒性,國內(nèi)外研究學(xué)者在對行人的外觀特征進(jìn)行描述時,通常會先將行人圖片分割成不同的局部區(qū)域,再提取每個局部區(qū)域的特征表示. 根據(jù)是否使用人體部件標(biāo)注信息(比如姿態(tài)估計、部件檢測及語義分割等),本文將從部件先驗信息學(xué)習(xí)和部件監(jiān)督信息學(xué)習(xí)這兩個方面對現(xiàn)有工作進(jìn)行回顧和介紹.
部件先驗信息學(xué)習(xí)方法只使用行人類別標(biāo)簽來訓(xùn)練網(wǎng)絡(luò),而且不使用額外的任何行人部件的標(biāo)注信息,基于部件空間分布的先驗信息來劃分人體區(qū)域. 比如,Sun 等[3]提出了一種基于局部特征學(xué)習(xí)的卷積基線模型,將最后一層輸出的卷積特征以橫向切分方式均勻地分割為多個局部特征. 此外,作者還提出了一種細(xì)化局部區(qū)域的池化方法通過計算特征區(qū)域概率分布來自適應(yīng)地分配離群點,有助于加強區(qū)域內(nèi)特征. 為了緩解行人部件非對齊的問題,考慮到人體部件的空間分布在行人圖像中變化不大,這些方法一般采用橫向特征分割方法來學(xué)習(xí)行人圖像的部件特征. 為了緩解行人部件非對齊的問題,MGN[4]、PyramidNet[5]和HPM[6]將行人卷積特征劃分為多尺度行人局部特征,以便充分挖掘粗粒度和細(xì)粒度的行人姿態(tài)信息. 為了將變換器遷移到行人再識別任務(wù)中,He 等[7]提出了一種基于變換器的行人再識別模型TransReID,該模型通過塊偏移和亂序重新排列塊令牌嵌入,生成具有更高區(qū)分能力和更多樣化的魯棒特征. 此外,該模型還引入邊信息嵌入,通過插入可學(xué)習(xí)的嵌入來納入這些非視覺線索,以減輕對相機(jī)/視圖變化的特征偏差. 為了增強高頻分量的特征表示能力,Zhang 等[8]提出一種高頻增強方法,該方法對高頻分量進(jìn)行離散Haar 小波分解,并將分解后的子塊作為輔助輸入. 其次,為了防止在網(wǎng)絡(luò)優(yōu)化時將整個序列作為輸入時高頻分量被低頻分量稀釋,還提出了一種新的塊級對比度損失,有利于變換器捕捉關(guān)鍵的高頻成分,以提取有判別力的人物表示. 考慮到單個分類器難以識別相似類別,Li 等[9]提出了一種多樣化和緊湊的變壓器,通過將嵌入空間分裂為多個多樣化和緊湊的子空間,幫助模型學(xué)習(xí)更魯棒和有判別力的嵌入來識別相似的類別,并將這些包含更多細(xì)粒度信息的不同嵌入進(jìn)行融合,可以進(jìn)一步提高再識別的效果. 考慮到密集人群的遮擋問題,Wu等[10]提出了一種用于視頻行人再識別的時間相關(guān)視覺變換器,首先對齊幀級特征以恢復(fù)視頻中的語義連貫性,然后根據(jù)時間相關(guān)性增強目標(biāo)人物的特征.Yu 等[11]提出了一種新的基于片段的單階段無文本學(xué)習(xí)框架TF-CLIP,允許序列中的幀級存儲器相互通信,并根據(jù)序列內(nèi)部的關(guān)系提取時間信息,將時序記憶進(jìn)一步擴(kuò)散到原始特征中的每個詞項,以獲得更魯棒的序列特征.
部件監(jiān)督信息學(xué)習(xí)方法使用額外的行人部件監(jiān)督信息來輔助行人再識別模型學(xué)習(xí)具有鑒別性的行人部件特征. 由于人體關(guān)鍵點能夠直觀地表示行人姿態(tài)信息,因此Su 等[12]首先通過姿態(tài)估計模型得到14 個人體關(guān)鍵點,然后使用這些關(guān)鍵點將人體劃分為6 個局部區(qū)域,然后對不同局部區(qū)域提取局部特征. Suh 等[13]首先使用雙流網(wǎng)絡(luò)結(jié)構(gòu)分別提取外觀和姿態(tài)特征表示,然后融合這兩種特征來增強再識別模型對抗姿態(tài)變化的魯棒性. 為了實現(xiàn)更加精細(xì)化的姿態(tài)對齊,Zhang 等[14]首先構(gòu)建一系列密集語義對齊的圖像來保證行人圖像的空間位置相同的區(qū)域具有相同的語義特征,然后使用這些構(gòu)建的圖像來輔助行人再識別模型從原始行人圖像中學(xué)習(xí)對圖像變化魯棒的行人特征.Zheng 等[15]首先通過姿態(tài)估計和仿射變換引入一種PoseBox 結(jié)構(gòu)來使圖像中的行人姿態(tài)與標(biāo)準(zhǔn)行人姿態(tài)對齊,然后設(shè)計一種以原始圖像、PoseBox和姿態(tài)估計置信度為輸入的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),以便減少姿態(tài)估計誤差和姿態(tài)信息丟失對Pose?Box 構(gòu)建的影響. 任雪娜等[16]提出了一種語義引導(dǎo)對齊的注意力網(wǎng)絡(luò)以行人的語義掩膜作為監(jiān)督信息,通過全局語義引導(dǎo)和局部語義引導(dǎo)提取行人的全身和局部特征,并根據(jù)人體不同部件的可見性動態(tài)調(diào)整模型訓(xùn)練. 在推理階段過程中,依據(jù)注意力模型獲得局部區(qū)塊的可見性,利用共享可見的人體部分的匹配策略自適應(yīng)地對特征進(jìn)行相似度的計算.
總結(jié)分析以上研究工作可知,在行人再識別技術(shù)發(fā)展的同時,國內(nèi)外研究人員已經(jīng)開始關(guān)注于學(xué)習(xí)具有魯棒性和鑒別性的行人特征,并且取得一定的研究成果. 然而,部件先驗信息學(xué)習(xí)方法僅能實現(xiàn)粗粒度的部件對齊,卻不能對局部特征進(jìn)行精細(xì)的語義對齊. 行人所在的真實環(huán)境常使得攝像機(jī)所拍攝的行人圖像存在豐富的圖像變化,所以該方法可能難以適應(yīng)復(fù)雜圖像變化的真實場景,這會嚴(yán)重影響行人再識別模型的檢索性能. 此外,部件監(jiān)督信息學(xué)習(xí)方法嚴(yán)重依賴于部件標(biāo)注信息,但是在現(xiàn)實環(huán)境中很難獲得充足的具有部件標(biāo)注的行人圖像和高精度的部件檢測網(wǎng)絡(luò). 低精度的部件標(biāo)注和部件檢測會引入額外的誤差,影響提取到的局部特征的質(zhì)量,從而不能很好地泛化到具有新變化的行人圖像.
根據(jù)行人圖像特點,可以將行人特征分為全局特征和局部特征. 一般來說,全局特征(比如服裝款式、服裝顏色等)對全局圖像變化(比如姿態(tài)變化、人體遮擋等)具有魯棒性,但包含較少的身份鑒別信息;而局部特征(比如人臉區(qū)域、背包挎包等)包含較多的身份鑒別信息,但對全局圖像變化具有敏感性. 因此,全局和局部特征具有潛在的互補性,有助于提高再識別模型對新圖像變化的泛化能力. 受到全局和局部特征具有互補性的啟發(fā),本文提出一種全局和局部令牌變換(Globaland Local Token Transformer,GLTT)框架,利用自注意力機(jī)制的信息交互模式來學(xué)習(xí)具有鑒別性和魯棒性的全局和局部行人信息. 針對全局特征學(xué)習(xí),本文設(shè)計一種全局令牌(Global TokenTransformer,GTT)模塊,通過引入多個類別令牌,從多個語義空間角度來學(xué)習(xí)具有豐富語義的全局行人特征. 針對局部特征學(xué)習(xí),本文設(shè)計一種局部令牌(Local Token Transformer,LTT)模塊,通過融合前面所有變換塊(Transformer Block)的自注意力權(quán)重來動態(tài)選擇具有語義相關(guān)性的塊令牌(Patch Token),并在所選擇的塊令牌和類別令牌之間進(jìn)行信息交互,從而學(xué)習(xí)到具有魯棒性的局部特征. 為了進(jìn)一步增強再識別模型的識別能力,本文提出一種簡單有效的類別令牌正則化(ClassToken" Regularization,CTR)方法,以減少不同類別令牌之間的特征相似度,使得不同類別令牌聚焦于不同的語義區(qū)域. 最后,在測試過程中,本文融合全局和局部類別令牌特征當(dāng)作最終的行人特征,以提高再識別模型的泛化能力. 此外,本文在Market1501、CUHK03、DukeMTMC 和MSMT17等4 個公開數(shù)據(jù)集上進(jìn)行了對比實驗和消融實驗,
實驗結(jié)果證明了本文所提出的GLTT 框架的有效性,并在4 個數(shù)據(jù)集上表現(xiàn)出更好的識別性能和更強的穩(wěn)定性,為行人圖像的處理和分析提供了新的參考.
2方法
2. 1整體網(wǎng)絡(luò)框架
如圖1 所示,所提出的全局和局部令牌變換(Global and Local Token Transformer,GLTT)框架可分為4 個關(guān)鍵組件,即塊線性投影、主干網(wǎng)絡(luò)、全局令牌變換模塊和局部令牌變換模塊. 給定一幅行人圖像X∈RH × W × C,其中H、W 和C 分別表示行人圖像的長度、寬度和通道數(shù),使用滑動窗口(Sliding Window)來生成具有重疊像素的塊區(qū)域(Patch Region),同時維護(hù)每塊區(qū)域周圍的局部鄰近結(jié)構(gòu). 假設(shè)滑動窗口的窗口尺寸為P 和滑動步長為S,那么相鄰的兩個塊區(qū)域之間的重疊面積為P × ( P - S). 因此,行人圖像X 可以被切分為N 個不同的圖像塊X = [ X1,X2,…,XN ] ∈ RN × C ′,如下式..
在視覺變換(Vision Transformer)模型中,堆疊的自注意力(Self-Attention)可以逐漸地將所有塊令牌特征的信息匯聚到一個類別令牌中. 換言之,類別令牌相當(dāng)于信息收集器,從每個塊令牌提取有效信息,并根據(jù)當(dāng)前類別信息動態(tài)地調(diào)整類別令牌,因此可以有效地學(xué)習(xí)粗粒度的行人身份特征. 然而,考慮到不同行人身份區(qū)別主要取決于局部細(xì)節(jié)線索,單個類別令牌往往難以學(xué)習(xí)到細(xì)粒度行人特征,從而限制了行人再識別模型對未知行人類別的識別能力.
為了解決上述問題,本文采用多個類別令牌來同時學(xué)習(xí)多個語義空間的行人特征. 不同于ViT 模型[17],本文提出的GLTT 框架將T 個類別令牌與N 個塊令牌組合,形成一個長度為T + N的令牌序列,并且還添加每個令牌的空間位置嵌入來加強每個令牌的空間信息,
3實驗結(jié)果分析
3. 1數(shù)據(jù)集介紹
Market1501[18]是由清華大學(xué)研究團(tuán)隊構(gòu)建并發(fā)布的行人再識別數(shù)據(jù)集. 研究者使用5 個高分辨率攝像機(jī)和1 個低分辨率攝像機(jī)對清華校園的行人進(jìn)行拍攝. 在該數(shù)據(jù)集中,每個行人至少包含兩個攝像機(jī)所采集的行人圖像,并且允許單個攝像機(jī)對每個行人拍攝多幅圖像. 該數(shù)據(jù)集總共包含1501 個行人類別和32 668 個行人圖像;訓(xùn)練集包含751 個行人類別和12 936 幅行人圖像;測試集包含750 個行人類別和19 732 幅行人圖像. 在測試集中,查詢圖像采用人工標(biāo)注的檢測邊界框,而候選圖像采用形變部件模型[19](Deformable PartModel,DPM)生成的檢測邊界框. 此外,該數(shù)據(jù)集還提供了單鏡頭(Single-Shot)和多鏡頭(Multishot)這兩種測試模式. 由于單鏡頭模式比多鏡頭模式更加具有挑戰(zhàn)性,因此本文采用基于單鏡頭測試模式的Market1501 數(shù)據(jù)集來評估所有模型的再識別性能.
CUHK03[20]是由香港中文大學(xué)研究團(tuán)隊構(gòu)建并發(fā)布的行人再識別數(shù)據(jù)集. 研究者使用兩個攝像機(jī)對香港中文大學(xué)內(nèi)的行人進(jìn)行拍攝,總共收集了1467 個行人類別和14 097 個行人圖像,并且它提供了兩種類別的邊界框:人工標(biāo)注的邊界框和DPM 檢測器輸出的邊界框. 由于DPM 檢測器標(biāo)注的行人圖像具有行人姿態(tài)、身體遮擋等諸多變化,因此本文采用DPM 檢測器輸出的邊界框,這使得CUHK03 數(shù)據(jù)集要盡可能地模擬真實場景下的行人再識別問題. 此外,CUHK03 數(shù)據(jù)集有兩種測試協(xié)議:舊版測試協(xié)議[20]和新版測試協(xié)議[21].由于舊版測試協(xié)議流程比較繁瑣,需要重復(fù)20 次測試才能獲得測試結(jié)果,因此本文采用新版測試協(xié)議將CUHK03 數(shù)據(jù)集分為訓(xùn)練集和測試集,其中訓(xùn)練集包含767 個行人類別,測試集包含700個行人類別. 在測試過程中,首先測試集中每個行人類別隨機(jī)選擇一幅圖像構(gòu)建查詢集,然后使用其余的不同攝像機(jī)所拍攝的圖像構(gòu)建候選集,這樣可以確保每個行人的查詢圖像都由2 個攝像機(jī)組成,以便實現(xiàn)跨攝像機(jī)行人檢索任務(wù).
DukeMTMC[22]是由美國杜克大學(xué)研究團(tuán)隊構(gòu)建并發(fā)布的多目標(biāo)、多攝像機(jī)的行人跟蹤數(shù)據(jù)集. 研究者采用8 個攝像機(jī)來拍攝8 段85 min 的高分辨率視頻. 該數(shù)據(jù)集的行人再識別版本是原始數(shù)據(jù)集的一個子集,總共包含1404 個行人類別,并且至少由2 個不同的攝像機(jī)拍攝的圖像來構(gòu)成每個行人的數(shù)據(jù). 該數(shù)據(jù)集包含16 522 幅訓(xùn)練圖像、2228 幅查詢圖像和17 661 幅候選圖像. 其中,訓(xùn)練集和測試集都包含702 個行人類別. 在測試過程中,對于每個行人類別,從每個攝像機(jī)拍攝的圖像中隨機(jī)選擇一幅作為查詢圖像,剩余的所有圖像當(dāng)作候選圖像.
MSMT17[23]是由北京大學(xué)研究團(tuán)隊構(gòu)建并發(fā)布的行人再識別數(shù)據(jù)集. 該數(shù)據(jù)集是目前最大、最接近真實場景的行人再識別數(shù)據(jù)集,總共包含12個戶外攝像機(jī)和3 個室內(nèi)攝像機(jī). 為了提高行人數(shù)據(jù)集的多樣性,選擇具有不同天氣的4 d,分別拍攝上午、中午、下午3 個時間段的行人視頻,每天拍攝3 h 的視頻數(shù)據(jù),因此所有視頻數(shù)據(jù)的總時長為180 h. 采用基于Faster-RCNN[24]的行人檢測器來檢測行人區(qū)域,最后收集的數(shù)據(jù)集包含4101 個行人類別和126 441 幅行人圖像. 其中,訓(xùn)練集包含1041 個行人類別和32 621 幅行人圖像;測試集包含3060 個行人類別和93 820 幅行人圖像. 對于測試集,11 659 幅行人圖像被隨機(jī)選出來當(dāng)作查詢圖像,而剩余的82 161 幅行人圖像當(dāng)作候選圖像.
3. 2實驗設(shè)置細(xì)節(jié)
本文采用ViT 模型[17]作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)包含12 個變換層,隱藏特征維度為768. 在本次實驗中,設(shè)置滑動窗口尺寸為P = 16,滑動步長為S = 12,使得相鄰塊令牌之間存在重疊區(qū)域. 此外,本文還引入一種邊緣信息嵌入,將非視覺信息(如相機(jī)視角標(biāo)簽),引入到嵌入表示中,以學(xué)習(xí)視角不變特征. 除非特別說明,所有行人圖像的尺寸都被調(diào)整為256 × 128. 在模型訓(xùn)練過程中,行人圖像通過隨機(jī)水平縮放、隨機(jī)填充、隨機(jī)裁剪、隨機(jī)擦除和隨機(jī)灰度進(jìn)行數(shù)據(jù)增強. 使用ImageNet預(yù)訓(xùn)練模型對行人再識別模型的參數(shù)進(jìn)行初始化. 根據(jù)ImageNet 預(yù)訓(xùn)練模型的歸一化方式,每幅輸入圖像先要逐像素減去均值[0. 485,0. 456,0. 406],再逐像素除以標(biāo)準(zhǔn)方差值[0. 229,0. 224,0. 225]來進(jìn)行圖像歸一化操作. 在模型測試過程中,從行人再識別模型提取所有的全局類別令牌特征C L 和局部類別令牌特征C?L,然后將提取的全局和局部特征進(jìn)行拼接,最后使用拼接后的特征余弦值來表示行人圖像的相似度.
3. 3評價指標(biāo)
行人再識別通常被視為圖像檢索的子問題,在給定查詢集和候選集的情況下,利用行人再識別模型所提取的行人特征來計算所有查詢圖像和候選圖像之間的相似度,然后針對每個查詢圖像將所有候選圖像按照相似度的高低排序,使得與查詢圖像屬于同一行人的候選圖像排在靠前的位置. 類似于之前的方法,本文采用Rank1 準(zhǔn)確率和平均準(zhǔn)確率(Mean Average Precision,mAP)這兩種評價指標(biāo)常來比較不同行人再識別方法的性能.
3. 4對比實驗
為了驗證本文所提出的GLTT 框架的行人再識別性能,本文將GLTT 框架行人再識別結(jié)果與MHN[25] 、RGA-SC[26] 、TransReID[7] 、RFC[27] 、DFLN[28] 、DC-Former[9] 、AdaSP[29] 及PHA[8]等先進(jìn)方法分別在Market1501、CUHK03、DukeM ?TMC 和MSMT17 數(shù)據(jù)集上進(jìn)行對比實驗. 在表1~4 中,基線方法表示行人再識別模型采用ViT模型作為骨干網(wǎng)絡(luò),并只使用一個類別令牌來學(xué)習(xí)全局行人特征.
如表1 所示,在Market1501 數(shù)據(jù)集中,基線方法在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了95. 01%和88. 64%,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到96. 12% 和90. 85%. 相比基線方法,GLTT在Rank1 和mAP 準(zhǔn)確率上分別提高了1. 11% 和2. 21%. 如表2 所示,在CUHK03 數(shù)據(jù)集中,基線方法在Rank1 和mAP 準(zhǔn)確率分別達(dá)到了77. 79%和76. 22%,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了80. 73% 和78. 45%. 相比于基線方法,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別提高了2. 94% 和2. 23%. 如表3 所示,在DukeMTMC 數(shù)據(jù)集中,基線方法在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了90. 80% 和81. 56%,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了91. 83% 和83. 68%. 相比于基線方法,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別提高了1. 03% 和2.12%. 如表4 所示,在MSMT17 數(shù)據(jù)集中,基線方法在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了84. 18% 和66. 39%,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別達(dá)到了86. 95% 和70. 97%. 相比于基線方法,GLTT 在Rank1 和mAP 準(zhǔn)確率上分別提高了2. 77% 和4. 58%.
與其它方法相比,本文所提出的GLTT 行人再識別框架在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上均取得最佳性能,并在CUHK03 數(shù)據(jù)集上取得較高的再識別性能. 與基于ViT 骨干網(wǎng)絡(luò)的TransReID[7]相比,本文所提出的GLTT 框架在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上的Rank1 準(zhǔn)確率分別提高了0. 92%、1. 13% 和1. 65%,同時mAP 準(zhǔn)確率分別提高了1. 95%、1. 68% 和3. 57%. 雖然TransReID方法利用單個類別令牌來學(xué)習(xí)全局行人特征,但是忽略了關(guān)鍵的行人局部特征. 不同于TransReID方法,本文所提出的GLTT 框架可以利用多個類別令牌學(xué)習(xí)到具有鑒別性的局部行人特征,因此可以明顯地提升行人再識別模型的識別性能. 此外,與基于ViT 骨干網(wǎng)絡(luò)的DC-Former[9]相比,本文所提出的GLTT 框架在Market1501 和MSMT17 數(shù)據(jù)集上的Rank1 準(zhǔn)確率分別提高了0. 12% 和0. 05%,同時mAP 準(zhǔn)確率分別提高了0. 25% 和0. 27%. 雖然DC-Former 方法利用多個類別令牌來學(xué)習(xí)多個局部特征,但是該方法不能篩選出每個類別令牌所對應(yīng)的關(guān)鍵塊令牌特征,這樣容易使得不同的類別令牌之間具有冗余的行人部件信息. 有趣的是,本文所提出的GLTT 方法采用一種ATS 方法可以通過融合所有前層的自注意力權(quán)重,以準(zhǔn)確地估計每個塊令牌相對于類別令牌的重要性,有助于降低不同類別令牌之間的語義冗余程度,提高再識別模型的識別能力.
綜上所述,本文所提出的GLTT 框架在3 個行人數(shù)據(jù)集上比其它先進(jìn)方法均取得更高的再識別準(zhǔn)確率,并且從方法技術(shù)層面分析了GLTT 框架的優(yōu)勢. 由此可見,學(xué)習(xí)具有鑒別性的全局和局部類別令牌特征有助于提高行人再識別模型的泛化能力.
3. 5消融實驗
3. 5. 1不同模型架構(gòu) 在圖1 中,所提出的GLTT框架包含GTT、LTT 和CTR 這3 個關(guān)鍵組件,因此有必要去分析不同模塊對行人再識別準(zhǔn)確率的影響. 如表5 所示,這里展示了不同模塊對Duke?MTMC 和MSMT17 數(shù)據(jù)集中mAP 準(zhǔn)確率的影響. 其中,“√”表示GLTT 框架使用該模塊;“×”表示GLTT 框架不使用該模塊. 比如,第二列包含三個“×”,表示GLTT 框架不使用GTT、LTT 和CTR 模塊,因此等價于表3 和表4 中的基線方法.
相比于基線方法,GTT 在DukeMTMC 和MSMT17 數(shù)據(jù)集的mAP 準(zhǔn)確率上分別高出0. 42% 和1. 13%,這說明學(xué)習(xí)多個類別令牌有利于提高全局行人特征的鑒別性和魯棒性. 相比于GTT,“GTT+LTT”在DukeMTMC 和MSMT17數(shù)據(jù)集的mAP 準(zhǔn)確率上分別高出1. 05% 和3. 45%,這說明學(xué)習(xí)全局和局部類別令牌特征有助于挖掘行人圖像的完整視覺信息. 相比于“GTT+LTT”,“GTT+LTT+CTR”在DukeM ?TMC 和MSMT17 數(shù)據(jù)集的mAP 準(zhǔn)確率上分別高出2. 12% 和1. 56%,這說明增大類別令牌之間的語義差異有助于提高行人再識別模型的泛化能力. 綜上所述,本文所提出的GTT、LTT 和CTR對GLTT 框架的行人再識別性能具有突出的貢獻(xiàn),因此本文在GLTT 框架中同時使用上述3個模塊.
3. 5. 2不同層次注意力融合方法 在式(8)中,本文通過融合前L - 1 個變換塊的自注意力權(quán)重來獲取塊令牌與類別令牌之間的交互關(guān)系,因此有必要去分析不同層次注意力融合對塊令牌選擇的影響. 如圖4 所示,這里展示了ATS 方法融合不同層次的自注意力權(quán)重對Market1501、DukeM ?TMC 和MSMT17 數(shù)據(jù)集中mAP 準(zhǔn)確率的影響.其中,pre ≥ 2 表示融合從第1 個到第L - 2 個變換塊的自注意力權(quán)重;pre = 1 表示只融合第L - 1 個變換塊的自注意力權(quán)重;pre ≥ 1 表示融合從第1個到第L - 1 個變換塊的自注意力權(quán)重.
為了實驗公平性,只改變自注意力的融合層次,同時其它模型架構(gòu)和參數(shù)保持不變. 相比于pre = 1,基于pre ≥ 2 的ATS 方法在3 個數(shù)據(jù)集上都取得更高的再識別準(zhǔn)確率. 這個現(xiàn)象說明了多層級的信息交互導(dǎo)致令牌嵌入缺乏鑒別性,從而原始的自注意力權(quán)重難以凸顯令牌之間的相對重要性. 有趣的是,相比于pre = 1 和pre ≥ 2,基于pre = 1 的ATS 方法在3 個數(shù)據(jù)集上都取得更好的行人再識別性能. 這說明了融合多層次的自注意力權(quán)重有助于選擇更加相關(guān)的塊令牌,從而提高行人再識別模型的泛化性能.
3. 5. 3不同類型注意力融合方法 在式(8)中,本文采用逐元素乘積方式來融合所有前L - 1 個變換塊的自注意力權(quán)重,因此有必要去分析不同類型注意力融合方式對塊令牌選擇的影響. 如圖5所示,這里展示了ATS 方法采用不同注意力融合方式對Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集中mAP 準(zhǔn)確率的影響. 其中,Avg 表示利用逐元素平均方式來融合自注意力權(quán)重;Max 表示利用逐元素最大值方式來融合自注意力權(quán)重;Mul表示利用逐元素乘積方法來融合自注意力權(quán)重.
為了實驗公平性,只改變自注意力的融合方式,同時其它模型架構(gòu)和參數(shù)保持不變. 如圖5 所示,基于Avg 和Max 的ATS 方法在3 種數(shù)據(jù)集上的行人再識別正確率較為接近. 如基于Avg 的ATS方法在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上取得的再識別正確率分別是90. 31%、83. 49% 和70. 57%;基于Max 的ATS 方法在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上取得的再識別正確率分別是90. 42%、83. 25% 和70. 26%. 相比于Avg 和Max,基于Mul 的ATS 方法在3 個數(shù)據(jù)集上取得了更好的行人再識別性能,在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上取得的再識別正確率分別是90. 85%、83. 68%和70. 97%. 綜上所述,由于逐元素乘積方式取得更高的再識別性能,本文采用逐元素乘積方式來融合自注意力權(quán)重,這樣可以挖掘更加可靠的令牌交互關(guān)系,有助于學(xué)習(xí)具有鑒別性的局部類別令牌特征.
3. 5. 4類別令牌數(shù)量 在式(7)中,本文采用多個類別令牌來學(xué)習(xí)具有鑒別性的行人特征,因此有必要去分析不同類別令牌數(shù)量對行人再識別性能的影響. 如圖6 所示,這里展示了類別令牌數(shù)量T ∈ [1,5] 對Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集中mAP 準(zhǔn)確率的影響. 當(dāng)T = 1時,所提出的GLTT 框架只學(xué)習(xí)一個類別令牌特征,因此等價于表1、表3 和表4 中的基線方法.
為了實驗公平性,只改變類別令牌數(shù)量T,同時其它模型框架和參數(shù)保持不變. 如圖6 所示,3個數(shù)據(jù)集的mAP 準(zhǔn)確率隨著類別令牌數(shù)量T 的增加而增加,直到保持一個較為穩(wěn)定的狀態(tài). 例如,相比于T=1,基于T = 3 的GLTT 框架在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集的mAP準(zhǔn)確率分別高出2. 21%、2. 12% 和4. 58%. 然而,相比于T = 3,進(jìn)一步提高類別令牌數(shù)量T 對再識別準(zhǔn)確率的提升貢獻(xiàn)是有限的. 這說明超過3 個類別令牌已經(jīng)在很大程度上將mAP 準(zhǔn)確率提升到飽和區(qū)域. 綜上所述,本文設(shè)置類別令牌數(shù)量為T = 3.
3. 6可視化實驗
為了直觀地比較不同方法的行人再識別效果,本文對提出GLTT 框架的行人圖像檢索結(jié)果進(jìn)行可視化展示. 如圖7 所示,第1 列表示查詢圖像,第2 列到最后1 列表示檢索排序在前8 名的候選圖像. 藍(lán)色框標(biāo)記為正確檢索樣本,紅色框標(biāo)記為錯誤檢索樣本. 相比于基線方法,對于具有豐富表觀信息(如背包、衣服和褲子的樣式)的行人圖像,所提出的方法可以取得較好的檢索效果. 該實驗結(jié)果也直觀地證明了所提出方法對行人再識別任務(wù)的有效性.
4結(jié)論
針對真實場景下行人目標(biāo)存在復(fù)雜的圖像變化的問題,本文提出一種全局和局部令牌變換GLTT 框架,以提高行人再識別模型在真實場景下的泛化能力. 該框架包含3 個關(guān)鍵部分,即全局令牌變換GTT 模塊、局部令牌變換LTT 模塊和類別令牌正則化CTR 方法. 具體而言,GTT 模塊利用多個類別令牌嵌入學(xué)習(xí)多個全局行人特征,以豐富行人特征的全局信息;LTT 模塊通過融合多層次自注意力權(quán)重來動態(tài)選擇塊令牌,并與對應(yīng)的類別令牌進(jìn)行信息交互,以增強行人特征的局部細(xì)節(jié);CTR 方法通過約束多個類別令牌特征的語義相似度,以維護(hù)多個類別令牌特征的鑒別性.實驗結(jié)果表明,所提出的GLTT 框架的Rank1 和mAP 準(zhǔn)確率在Market1501、DukeMTMC 和MSMT17 數(shù)據(jù)集上都在不同程度上優(yōu)于其它行人再識別模型,并在CUHK03 數(shù)據(jù)集上取得較高的再識別準(zhǔn)確率. 這些實驗結(jié)果較為客觀地證明了GLTT 框架在再識別性能和泛化能力上更有優(yōu)勢.