







摘要:
針對行人重識別任務中數據標注困難以及服裝變化問題,基于無監督方法PPLR(Part-based Pseudo Label Refinement)提出了一個多粒度特征網絡(Multi-grained Feature Network, MGFNet)。僅輸入RGB圖像,即可充分提取圖像中行人的全局、局部和臉部特征,根據注意力機制針對性地抑制特征中的服裝信息,挖掘行人的本質特征。融合全局、臉部和局部特征,根據聚類算法生成精確的偽標簽監督模型訓練。在公開的換裝數據集上測試MGFNet性能,并設計消融實驗驗證MGFNet的有效性。實驗結果表明,MGFNet的mAP和Rank-1指標在PRCC數據集上分別比基準模型PPLR提高了6.9%和15.8%。
關鍵詞:
換裝行人重識別;無監督學習;雙分支網絡;注意力機制;特征對齊
中圖分類號:TP391.4
文獻標志碼:A
文章編號:10061037(2024)03006009
doi:10.3969/j.issn.10061037.2024.03.10
收稿日期:2024-03-10
基金項目:
山東省自然科學基金(批準號:ZR2021MF025)資助。
通信作者:
楊杰,男,副教授,主要研究方向為圖像識別。E-mail:yangjie@qdu.edu.cn
行人重識別(person re-identification,ReID)是一項從分布在不同區域的攝像機視圖中檢索特定人員的技術,廣泛應用于公共安全和智慧城市等領域。傳統的行人重識別方法依賴于手工提取圖像的顏色、紋理等淺層特征,存在效率低和魯棒性差等問題?;谏疃葘W習的方法能夠自動學習并提取圖像中的高層語義特征,提高了特征提取的效率和準確性。根據時間跨度可以將行人重識別方法分為短期行人重識別(Short-Term person Re-identification,ST-ReID)和長期行人重識別(Long-Term person Re-identification,LT-ReID)。ST-ReID方法[1]主要關注較短時間跨度的識別問題,行人的服裝基本保持一致,外觀作為關鍵的識別依據,識別的難度較低。在LT-ReID任務中,行人的服裝可能會因為各種原因而發生變化,因此更接近現實的應用場景。為增強重識別方法的現實適用性,研究人員對換裝行人重識別任務展開研究,以更好地適應實際場景中復雜多變的情況。如引入行人的輪廓作為輸入提取形狀特征[2],利用掩膜學習行人的身體形狀信息并轉移到外觀特征中,以減少服裝變化對外觀特征的影響[3]。多模態信息的引入能夠提高模型對換裝的魯棒性,但當服裝發生較大變化時,輪廓和掩膜不再可靠。目前換裝行人重識別方法大多依賴有標簽的數據進行訓練,而服裝的變化增加了數據收集與標注的難度。在ST-ReID任務中,無監督方法的表現取得了顯著進步,如聚類操作為無標簽樣本分配偽標簽監督模型訓練[4];為提高偽標簽的精度,從行人的局部特征中挖掘細粒度的身份信息優化偽標簽[5]。但在LT-ReID任務中,尤其是無監督換裝行人重識別場景,相關研究較少。因此,本文提出了一種包含多粒度特征分支和臉部特征輔助分支的多粒度特征網絡(Multi-grained Feature Network, MGFNet)來解決無監督換裝行人重識別問題,充分利用RGB圖像中豐富的信息,采用注意力機制引導模型減少對服裝特征的響應,從而提高模型的識別準確率。
1" 無監督換裝行人重識別算法
1.1" 多粒度特征網絡框架
多粒度特征網絡整體框架如圖1所示,包括主干網絡ResNet50、多粒度特征分支和臉部特征輔助分支。主干網絡從圖像中提取樣本i池化前的全局特征Fgi∈R2048×24×8和臉部特征Ffi∈R2048×14×14。受無監督方法PPLR[5](Part-based Pseudo Label Refinement)的啟發,多粒度特征分支獲取池化后的全局特征fgi∈R2048與多粒度局部特征fpi∈R2048以獲取不同粒度的身份信息;通道競爭注意力(Channel Competitive Attention,CCA)用于挖掘行人的姿態、形狀等信息。在臉部特征輔助分支中,將增強后的臉部圖像[6]作為輸入。圖2中,增強后的臉部圖像分辨率更高,噪聲更低,臉部特征(眼睛、鼻子、嘴巴等)更加清晰,同時保持人臉的身份不變性。通過臉部特征輔助分支提取池化后的臉部特征ffi∈R2048,其中通道注意力(Channel Attention,CA)用于增強臉部的關鍵信息。模型采用聚類獲取偽標簽和局部—全局表示學習兩階段的交替訓練模式。在聚類階段(圖1中虛線箭頭),臉部與全局特征融合得到行人的融合特征ffusi∈R4096,并利用聚類算法DBSCAN[7]進行聚類,為樣本分配偽標簽yi。在局部—全局表示學習階段(圖1中實線箭頭),利用多粒度局部特征提煉更精確的偽標簽,并在偽標簽的監督下通過優化策略優化網絡參數。
1.2" 多粒度特征分支
ReID模型對行人的服裝顏色等外在因素表現出較高的敏感性,容易忽略其它同樣重要的判別線索。為了克服這一局限性,采用CCA機制來挖掘更多的行人身份信息(圖3)。CCA機制通過抑制高響應通道中的特征,削弱顏色外觀等受服裝影響的外在因素對模型的干擾,從而引導模型更加專注于其它通道中魯棒的身份線索。Fgi通過全局平均池化GAP和Sigmoid函數激活得到2 048維的各通道響應值SCCA。
利用閾值τ1屏蔽高響應通道,生成通道掩膜MCCA
MjCCA=0if" SjCCAgt;τ11else(1)
其中,MjCCA表示第j個通道的掩膜,SjCCA表示第j個通道的響應值,閾值τ1控制通道競爭的強度。采用CCA策略,可以挖掘更多的換裝魯棒特征。
與全局特征相比,局部特征包含更多的細粒度信息。針對F︿gi∈R2048×24×8,采用不同比例(1/4,1/2,3/4)進行水平劃分并池化得到多粒度局部特征fpi,通過建立局部與全局特征的層級關系,實現區域與全局特征的一致性表示與特征對齊。如圖4所示,通過構建多粒度特征的層級關系,充分挖掘RGB圖像中行人豐富的細粒度信息。當局部區域中某些部位受到干擾時,其它粒度特征仍能提供有用信息。
1.3" 臉部特征輔助分支
行人的臉部區域不易受換裝影響,并且包含了細粒度的身份信息。使用CA機制提高模型對高響應通道的關注,有助于提取魯棒的臉部特征。如圖5所示,臉部特征Ffi通過全局最大池化GMP和Sigmoid函數獲取2 048維的各通道響應值SCA。
利用閾值τ2生成掩膜MCA增強高響應通道中特征的權重
MjCA=10if" SjCAgt;τ2else(2)
在全局聚類階段,通過級聯臉部特征與全局特征的方式得到融合特征ffusi
ffusi=concate(fgi,ffi)(3)
融合特征能夠引導模型對行人的體態、外觀等全局信息和臉部信息的表示學習,從而提高識別的準確性和可靠性。
1.4" 優化策略
MGFNet采用聚類獲取偽標簽和局部—全局表示學習兩階段的交替訓練模式。在聚類階段,引入交叉一致性評分[5]評估行人局部與全局特征間的相關性
Cpi=|Ri(fgi,k)∩Ri(fpi,k)||Ri(fgi,k)∪Ri(fpi,k)|∈[0,1](4)
其中,Ri(fi,k)表示特征fi的k近鄰樣本集合,·表示集合的基數。評分Cpi代表樣本i的不同粒度特征在特征空間中分布的相似程度,相似程度越高代表能夠提供的互補信息越多。
在局部—全局表示學習階段,將Cpi歸一化為ωpi,作為局部預測向量的權重用于增強偽標簽。根據聚類階段輸出的偽標簽計算雙分支網絡中的特征表示,使用交叉熵損失以及增強后的偽標簽優化局部—全局特征表示
y~i=βyi+(1-β)∑Npn=1ωpiqpi(5)
Lgce=-∑Ni=1y~ilog qgi(6)
Lpce=-1Npn∑Ni=1∑Npn=1y~ilog qpi(7)
其中,qgi和qpi分別表示全局和局部預測向量;y~i表示增強后的偽標簽;N表示數據集中圖像的數量;Np表示單個樣本中局部特征的個數;β∈[0,1]是控制聚類偽標簽與預測向量權重的參數?;诙嗔6染植刻卣髟鰪娙謧螛撕?,使全局特征能夠從不同粒度的局部特征中學習到豐富的一致性身份信息。
對于臉部預測向量qfi,在偽標簽的監督下利用交叉熵損失訓練臉部特征
Lface=-∑Ni=1y~ilog qfi(8)
三元組損失能夠捕捉特征之間的依賴關系,使網絡學習更豐富的語義表示。利用三元組損失提高全局特征和臉部特征的魯棒性
Ltriplet=-∑Ni=1log(e‖fgi-fgi-‖e‖fgi-fgi+‖+e‖fgi-fgi-‖)-∑Ni=1log(e‖ffi-ffi-‖e‖ffi-ffi+‖+e‖ffi-ffi-‖)(9)
其中,‖·‖表示歐式距離;i、i+和i-分別表示每批次中的錨點樣本、最難正樣本和最難負樣本。通過三元組損失拉近錨點與正樣本并推遠負樣本,使得各類簇內部更加緊密。
最終,模型的總損失函數為
L=Lgce+Lpce+λLface+Ltriplet(10)
其中,λ為控制臉部特征損失函數的權重因子。
2" 實驗
2.1" 數據集與評價指標
MGFNet的實驗測試在PRCC[8]、Celeb-ReID[9]和Celeb-ReID-light[10]3個公開的換裝數據集上展開,數據集的詳細信息見表1。為了評估模型性能,采用大多數ReID模型使用的標準指標,即mean average percision(mAP)和Cumulative Matching Characteristic(CMC)。
2.2" 實驗設置
實驗采用CPU為Intel(R)Core(TM) i7-7820X CPU @ 3.60 GHz,GPU為2個NVIDIA GeForce RTX 2080 Ti;深度學習框架為pytorch1.7.1。ResNet50網絡首先在ImageNet數據集[11]上進行預訓練。行人的全身和臉部圖像分別調整為384×128和224×224,并采用隨機水平翻轉、裁剪、擦除等預處理操作。Batchsize設置為32,epoch設置為50。初始學習率為5×10-4,且每20個epoch降低10倍。優化器使用權重衰減為5×10-4的Adam,DBSCAN的參數鄰域半徑為0.5,最小點數為4,參數τ1=τ2=0.8,λ=0.7,β=0.6;交叉一致性評分的參數k=60。
2.3" 對比實驗
為驗證MGFNet的性能,分別在換裝數據集PRCC、Celeb-ReID和Celeb-ReID-light上與PCB[12]、MGN[13]、SpCL[14]、ICE[15]、CC[16]、C3AB[17]等ST-ReID方法以及RCSANet[18]、Syn-Person-Cluster[19]、MaskCL[20]、DeSKPro[6]、CPC[21]、CASE-Net[22]、IRANet[23]等LT-ReID方法進行對比,S和U分別表示有監督方法和無監督方法(表2、表3)。
PRCC數據集上MGFNet在所有基于RGB的方法中優勢明顯。與有監督方法相比,MGFNet優于RCSANet,mAP和Rank-1分別提高1.9%和10.8%。與無監督換裝方法比較,MGFNet的mAP和Rank-1分別比Syn-Person-Cluster提高10.7%和17.3%;Rank-1比CPC高20.2%。表明MGFNet提取的外觀特征更具全局性,覆蓋的粒度更豐富。與使用人體掩膜的MaskCL方法相比性能接近,MGFNet的mAP降低4.6%,Rank-1提高17.3%。
在Celeb-ReID和Celeb-ReID-light這類場景更加復雜的數據集中,無監督方法的性能普遍較低,與有監督方法之間存在較大差距。在無監督方法中,MGFNet性能優于SpCL、ICE、CC、C3AB等方法,mAP和Rank-1指標在Celeb-ReID-light數據集中比SpCL分別提高3.4%和7.4%,表明臉部信息和細粒度的身份信息能夠降低服裝變化對模型的影響。與MaskCL對比,MGFNet在Celeb-ReID數據集上表現較差,mAP和CMC指標分別降低0.9%和3.6%,但MGFNet的模型復雜度要低于MaskCL。例如,MGFNet的計算量為12.2 GFLOPs,參數數量為45.6 M;MaskCL的計算量為16.3 GFLOPs,參數數量為47.1 M。在Celeb-ReID-light數據集上,MGFNet的mAP和Rank-1指標比MaskCL分別高了0.3%和1.0%。
2.4" 消融實驗
為驗證MGFNet有效性,消融實驗在PRCC數據集上進行(表4)?;鶞誓P蚉PLR的mAP和Rank-1分別為43.6%和45.2%。當提取多粒度的局部特征后,mAP和Rank-1分別提高了2.3%和3.6%,表明通過挖掘行人的多粒度信息能夠幫助提取關鍵身份信息。添加臉部特征輔助分支,mAP和Rank-1又分別提高2.6%和7.6%,表明行人的臉部特征作為輔助項對服裝變換是魯棒的,有效降低了換裝對重識別網絡的影響。在多粒度特征分支通道引入通道競爭注意力后,mAP和Rank-1分別提高了0.7%和1.3%;在臉部特征輔助分支中引入通道注意力后,mAP和Rank-1分別提高了1.3%和2.2%。表明注意力機制有效地減少了全身特征中的服裝顏色等信息并增強了臉部特征中關鍵的身份信息,從而提高了網絡對換裝的魯棒性。最終,MGFNet網絡比基準模型的mAP和Rank-1分別提高了6.9%和15.8%。
分析ResNet50分別采用單、雙分支以及不同特征融合方式(級聯ffus、相加f~fus)對性能的影響(表5)??芍捎脝畏种r模型性能更低,原因在于不同粒度的圖像會對主干網絡參數造成干擾,降低特征提取的能力。級聯融合特征的方法性能更高,級聯操作能夠保存原始特征中的關鍵信息,而相加操作會丟失部分關鍵信息,破壞原始特征的分布,使融合特征失真,降低了區分性。
參數β為精煉偽標簽過程中調節局部特征與聚類偽標簽所占比重的因子,對模型的影響見圖6(a)。當β=0.6時,模型的mAP和CMC指標均達到最優。參數λ為控制臉部損失函數的權重。由圖6(b)可知,當λ=0.7時,模型的指標mAP和CMC指標達到最優。參數τ1和τ2對模型的影響結果如圖6(c)、6(d)所示,最終τ1和τ2取值0.8。
2.5" 檢索結果與熱力圖可視化
在PRCC數據集上,可視化對比基準模型PPLR與MGFNet的Top5檢索結果,藍色框表示正確匹配,錯誤匹配由紅色框表示(圖7)。可知,基準模型容易受到的服裝影響將服裝相似但身份不同的行人識別為一類,而MGFNet利用臉部及關鍵的身份信息克服了換裝干擾,正確匹配行人。
行人特征熱力圖中,同一行人的圖像基準模型特征可視化展示于左側,MGFNet的可視化結果展示于右側(圖8)?;鶞誓P椭饕P注行人的身體,如軀干、腳等容易受服裝干擾的區域,忽略了重要的臉部區域。MGFNet不僅關注身體區域,更加關注對識別產生重要影響的臉部特征。臉部特征包含了對換裝魯棒的細粒度身份信息,提升了模型在換裝場景下的性能。
3" 結論
本文提出的多粒度特征網絡MGFNet,僅從單一模態中提取對換裝魯棒的行人特征。在嵌入注意力機制后,與服裝相關度高的特征在一定程度上被抑制,提高換裝行人重識別算法的識別準確率,在公共換裝數據集上的實驗驗證了MGFNet的有效性,與其它無監督換裝方法相比MGFNet具有優越表現。但與先進的有監督換裝方法相比,仍然存在一定差距。后續的工作考慮引入多模態特征,通過引入對服裝不敏感的姿態等特征,增強模型的性能。
參考文獻
[1]ZHU K, GUO H Y, LIU Z W, et al. Identity-guided human semantic parsing for person re-identification[C]// European Conference on Computer Vision. Glasgow, 2020: 346-363.
[2]ZHENG J H, HU X M, XIANG T Y, et al. Dual-path model for person re-identification under cloth changing[C]// International Conference on Machine Learning and Cybernetics. Adelaide, 2020: 291-297.
[3]HONG P X, WU T, WU A C, et al. Fine-grained shape-appearance mutual learning for cloth-changing person re-identification[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, 2021: 10508-10517.
[4]LIN Y T, DONG X Y, ZHENG L, et al. A bottom-up clustering approach to unsupervised person re-identification[C]// AAAI Conference on Artificial Intelligence. Hawaii, 2019: 8738-8745.
[5]CHO Y, KIM W J, HONG S, et al. Part-based pseudo label refinement for unsupervised person re-identification[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, 2022: 7298-7308.
[6]WU J B, LIU H, SHI W, et al. Identity-sensitive knowledge propagation for cloth-changing person re-identification[C]// IEEE International Conference on Image Processing. Bordeaux, 2022: 1016-1020.
[7]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]// 2nd International Conference on Knowledge Discovery and Data Mining. Portland, 1996: 226-231.
[8]YANG Q Z, WU A C, ZHENG W S, et al. Person re-identification by contour sketch under moderate clothing change[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 2029-2046.
[9]HUANG Y, XU J S, WU Q, et al. Beyond scalar neuron: Adopting vector-neuron capsules for long-term person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(10): 3459-3471.
[10] HUANG Y, WU Q, XU J S, et al. Celebrities-ReID: A benchmark for clothes variation in long-term person re-identification[C]// International Joint Conference on Neural Networks. Budapest, 2019: 1-8.
[11] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition. Miami, 2009: 248-255.
[12] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline)[C]// European Conference on Computer Vision. Cham, 2018: 501-518.
[13] WANG G S, YUAN Y F, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification[C]// 26th ACM International Conference on Multimedia. Seoul, 2018: 274-282.
[14] GE Y X, ZHU F, CHEN D P, et al. Self-paced contrastive learning with hybrid memory for domain adaptive object Re-ID[C]// 34th International Conference on Neural Information Processing Systems. Vancouver, 2020: 11309-11321.
[15] CHEN H, LAGADEC B, BREMOND F. Ice: Inter-instance contrastive encoding for unsupervised person re-identification[C]// IEEE/CVF International Conference on Computer Vision. Montreal, 2021: 14960-14969.
[16] DAI Z Z, WANG G Y, YUAN W H, et al. Cluster contrast for unsupervised person re-identification[C]// 16th Asian Conference on Computer Vision. Macau, 2022: 319-337.
[17] LI M K, SUN H, LIN C Q, et al. The devil in the tail: Cluster consolidation plus cluster adaptive balancing loss for unsupervised person re-identification[J]. Pattern Recognition, 2022, 129: 108763.
[18] HUANG Y, WU Q, XU J S, et al. Clothing status awareness for long-term person re-identification[C]// IEEE/CVF International Conference on Computer Vision. Montreal, 2021: 11875-11884.
[19] ZHANG Z Y, JIANG S, HUANG C Z T, et al. Unsupervised clothing change adaptive person ReID[J]. IEEE Signal Processing Letters, 2022, 29: 304-308.
[20] LI M K, XU P, LI C G, et al. Maskcl: Semantic mask-driven contrastive learning for unsupervised person re-identification with clothes change[DB/OL]. [2023-11-14]. https://arxiv.org/abs/2305.13600.
[21] LI M K, CHENG S P, XU P, et al. Unsupervised long-term person re-identification with clothes change[C]// 8th IEEE International Conference on Network Intelligence and Digital Content. Beijing, 2023: 167-171.
[22] LI Y J, LUO Z Y, WENG X S, et al. Learning shape representations for clothing variations in person re-identification[DB/OL]. [2023-11-14]. https://arxiv.org/abs/2003.07340.
[23] SHI W, LIU H, LIU M Y. Iranet: Identity-relevance aware representation for cloth-changing person re-identification[J]. Image and Vision Computing, 2022, 117: 104335.
Unsupervised Cloth-changing Person Re-identification Algorithm Based on Multi-grained Feature Network
GUO Chuan-lei1, YANG Jie1, ZHOU Meng-meng2,ZHANG Jing-xian1
(1.College of Mechanical and Electrical Engineering, Qingdao University, Qingdao 266071, China;
2. Qingdao QCIT Technology Co., LTD., Qingdao 266100, China)
Abstract:
Aiming at the problems of data labeling difficulties and clothing changes in person re-identification tasks, a multi-grained feature network (MGFNet) based on unsupervised method PPLR (Part-based Pseudo Label Refinement) was proposed. Only the RGB images were input to fully extract global, local and facial features of persons in the images, and the clothing information in the features was suppressed according to the attention mechanism to mine the substantive features of persons. The fusion of global, facial and local features was followed by the clustering algorithm to generate precise pseudo-labels, which were used to supervise model training. The performance of MGFNet was evaluated on public cloth-changing datasets, and ablation studies were designed to validate the effectiveness of MGFNet. The results indicate that MGFNet’s mAP and Rank-1 metrics on the PRCC dataset respectively improved by 6.9% and 15.8% compared to the baseline model PPLR.
Keywords:
cloth-changing person re-identification; unsupervised learning; dual-branch network; attention mechanism; feature alignment