999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度降噪自編碼器的遮擋行人重識別研究與應用

2025-07-28 00:00:00朱燁段少茁郭艷芬彭靜
計算機應用研究 2025年7期
關鍵詞:編碼器行人尺度

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)07-040-2220-07

doi:10.19734/j.issn.1001-3695.2024.09.0372

Abstract:Toaddress theisueofocclusioninpersonre-identification(ReID)andalleviate theimpactof insufficientocclusion datasets,this research focusedonoccudedReIand proposedamultiscaledenoising autoencoder-based method.The method usedknowledgedistllationlearninginastudent-teachermodelforjointtraining,enablingthetransferofknowledgefromthe teachermodel tothestudentmodel.Usingartificiallyccludedimages totraintheautoencoder,compressedtheinputdatainto alatentspacefeaturerepresentation,decoded toreconstructdatathatcloselyresemblestheoriginalinput,achievingdenoising reconstruction.Basedonthetrainedautoencoder,further trainingwithealocludedimagesandincorporatinganatentionmo duletodiferentiatebetweenthefeaturerepresentationsofoludedimagesandholisticimages,enhancedthemodel’srobustnesand recognition performance foroccluded images.Experimentsdemonstrate thattheproposed methodachievessuperior performance onthe Occude-Duke,Occluded-ReID,and Partial-ReIDdatasets compared tocurrentlyadvancedoccluded pedestrianre-identification approaches.

Key words:person re-identification;occlusion;denoising autoencoder;knowledge distillation

0 引言

行人重識別(ReID)是計算機視覺領域的一個重要研究方向,旨在解決如何在不同監控攝像頭中識別同一行人的問題。在視頻監控、安防、智能交通等領域具有廣泛的應用。通常監控系統包含多個攝像頭,這些攝像頭可能安裝在不同的位置,并且具有不同的角度和光照條件,從而導致同一個行人在不同攝像頭下可能會出現被遮擋[1\~3]、姿勢變化[4]以及分辨率不一致等問題。其中遮擋是最常見的情況之一,嚴重影響了行人識別的準確性。因此,解決遮擋對行人重識別的影響,并提高算法的魯棒性和準確性,是行人重識別領域中的一個重要研究課題。

一些研究工作側重于利用人體姿態或關鍵點定位來提取行人的局部特征[5\~9],以及利用圖卷積神經網絡(graph convo-lutional network,GCN)來建模行人圖像中的關鍵點關系[10]Wang等人[5]提出基于Transformer的姿態引導方法,利用姿態信息清晰地分離人體或關節部位,并選擇性地匹配相應的非遮擋部份。Yang等人°借助現有的姿態估計將姿態信息離散到行人的可見性標簽,從而抑制遮擋區域的影響。Somers等人[7設計了預測身體部位的注意力圖,其利用外部語義信息生成基于身體部位的特征。由于對抗生成網絡(generativead-versarialnetwork,GAN)強大的圖像生成能力,許多研究者也提出了面向各種復雜情況下基于GAN 的行人重識別方法[11\~14]Wang等人\"使用多粒度GAN來恢復遮擋的行人圖像,通過在粗粒度分支上添加高效通道注意力網絡(ECA-Net)和在細粒度分支上使用高分辨率網絡(HRNet)進行姿態估計。楊婉香等人[]利用多尺度GAN逐步去除遮擋,通過低分辨率輸入重構高分辨率行人圖像,提高去遮擋性能,并用數據增強來增加訓練樣本的多樣性。Zhao等人[13]使用GAN生成不同角度和光照下的行人圖像,幫助解決遮擋問題。還有一些研究工作利用基于整體的方法。Kiran等人[15提出了一個基于整體指導(holisticguidance,HG)方法的學生-教師網絡,將被遮擋樣本的類間和類內距離的分布與整體(未被遮擋)樣本的分布相匹配,提高了學生網絡對遮擋的魯棒性。

以上方法主要借助姿態估計和GAN等來處理遮擋問題。

雖然在一定程度上提高了識別的準確性,但使用這些先進的方法,掩碼生成的外部機制在運行時增加了相當大的時間復雜度。在實際應用中,需要權衡時間復雜度增加和依靠外部機制可能帶來的種種挑戰和風險,以確保模型能夠在應對更復雜的遮擋、背景或分辨率變化時仍保持高效和準確。

為避免上述問題,并同時減輕遮擋數據集不充分的影響,本文在整體指導HG方法[的基礎上,提出了一種基于多尺度降噪自編碼器(multiscaledenoi-singautoencoderofholisticguidance,MDAE-HG)的遮擋行人重識別方法。該方法依賴于從整體數據中學習的屬性特征來指導遮擋數據的特征學習。無須借助外部機制,僅需行人身份標簽作為監督,通過多尺度降噪自編碼器重構無遮擋的行人圖像,恢復更多行人特征信息,從而有效減少遮擋在行人特征表示學習過程中的干擾,并規避了外部機制帶來的潛在問題。本文的主要貢獻包括以下三點:a)設計了一個新型的多尺度降噪自編碼器(multiscaledenoi-singautoencoder,MDAE),通過重構三種不同尺度的遮擋行人圖像來有效提取更多細節特征;b)提出了一種漸進式隨機遮擋(progressiverandomocclusion,PRO)模塊來模擬遮擋,并引入了一種多尺度重建損失來優化模型;c)在多個有挑戰性的行人重識別數據集中,通過大量的實驗設計與分析驗證了所提方法的有效性。

1相關工作

1.1 行人重識別

a)常規行人重識別。隨著科技的不斷進步,攝像頭廣布在各個生活場所,城市安全愈加依賴于智能視頻監控系統。利用視頻監控系統進行排查和搜尋,已經成為重要的技術偵察手段。盡管人臉識別技術已經相當成熟,但由于拍攝角度等原因,監控攝像頭常常無法捕捉到清晰的人臉圖像。行人重識別就成為了一種有效的人臉識別替代方法。

深度學習的快速發展在行人重識別領域取得了顯著成就。近年來,已經提出了大量解決 ReID 問題的方法[16\~18]。具體而言,基于深度度量的方法專注于設計損失函數,以學習圖像之間的相似性和差異性。基于局部特征的方法通過引入注意力機制[16]和多分支結構提取局部特征,以增強行人識別的準確性。基于細粒度信息的方法通過整合姿勢估計[17]和關鍵點模型來提取個體的細粒度特征,從而提升行人重識別的性能。此外,基于GAN的方法[18]通過生成圖像來補充樣本,豐富圖像樣本并改善模型的訓練效果。

b)遮擋行人重識別。大多數關于行人重識別的研究主要依賴于行人的完整形象,較少考慮到被遮擋的情況。然而在現實生活中,尤其在擁擠的場景中,行人往往會被物體或者其他行人遮擋,導致難以獲取完整的行人形象。由此,遮擋行人重識別任務應運而生,成為一個重要的研究方向。

遮擋行人重識別系統面臨著巨大挑戰:(a)遮擋物的多樣性。遮擋物種類繁多,包括非目標行人、車輛、植物、建筑物等[19]。不同類型的遮擋物對行人外觀的影響各不相同,有些可能只部分遮擋行人特征,而有些可能完全遮擋了行人的臉部或身體。(b)特征信息的干擾。遮擋導致行人圖像中部分信息的丟失或變形,引入額外的背景噪聲。此外,遮擋物可能與目標行人具有相似的外觀,影響特征的準確提取。這些情況都會對網絡的特征學習和訓練產生負面影響。(c)數據集的局限。目前可用的遮擋ReID數據集相對較少且規模較小,通常僅涵蓋少量遮擋類型。這導致難以充分學習和評估模型在真實場景中的性能,限制了算法的泛化能力和實際應用中的效果驗證。

現有處理遮擋行人重識別的方法有[12]:(a)重構遮擋圖像。通過重構被遮擋的行人圖像的方法,還原被遮擋部分的人體,從而實現去除遮擋的效果。(b)特征提取。通過優化特征提取過程,特別是對非遮擋區域的特征提取,以及降低遮擋區域特征的比重,來減輕遮擋引入的噪聲對行人特征的干擾。(c)擴充數據集。將模擬遮擋的數據添加到訓練集中,作為數據集的擴充[1,20]。通過引入不同類型和程度的遮擋,可以使模型更好地學習和適應真實場景中的遮擋情況。在特征提取過程中,類距離分布(distributionofclassdistance,DCD)對于描述不同行人之間的相似度或距離分布非常重要。對于同一行人的不同圖像之間應具有較小的類內距離(within-classdis-tance),即圖像間的相似度較高;對于不同行人的圖像之間則應具有較大的類間距離(between-classdistance),即圖像間的相似度較低。由于遮擋的影響,類別之間的邊界可能變得模糊不清。如圖1所示,即使是同一行人的不同圖像也可能因為遮擋或拍攝條件的變化而表現出相似度較低的特征。文獻[15]研究發現,整體數據的DCD明顯優于遮擋數據的DCD,并提出方法解決由類重疊引起的訓練模型過擬合問題。本文提出一種新型的基于多尺度降噪自編碼器的行人重識別方法框架,旨在緩解遮擋數據集樣本較少和不同分辨率導致的特征差異的影響。該方法建立在HG基礎上,保留其處理類距離分布差異的措施,不同之處在于:(a)本文方法采用多尺度降噪自編碼器來捕捉不同尺度的特征信息,并處理不同分辨率的圖像;(b)本文方法使用漸進式隨機遮擋模塊來模擬遮擋行人圖像。

Fig.1Within-classvariations of the same person captured by different cameras

1.2 知識蒸餾

知識蒸餾(knowledgedistillation,KD)是一種用于跨網絡知識轉移的技術。最初這項技術用于模型壓縮,通過讓一個輕量級的小模型(學生)學習一個重量級的大模型(教師)的輸出來提升學生模型的性能和精度。具體而言,知識蒸餾方法將教師網絡輸出的預測分布視為軟標簽,用這些軟標簽來指導學生網絡的預測分布。軟標簽包含了更豐富的類別信息隱含關聯,比硬標簽(單一的類別標簽)更具表達力。知識蒸餾目前主要分為兩個研究方向:(a)相同輸入數據的知識蒸餾。從具有相同輸人數據的教師模型中學習輕量級學生模型。Hinton等人[21]提出通過最小化兩個網絡產生的分類邏輯之間的Kullback-Leibler散度,再將知識從教師網絡轉移到學生網絡。Romero等人[22]則通過最小化輸出的均方誤差來傳遞知識。Park等人[23]進一步提煉了樣本間的相互關系,將其從教師模型傳遞到學生模型。(b)不同輸入數據的知識蒸餾。從不同輸入數據的教師模型中學習,以賦予學生模型特定的能力。Gu等人[24]訓練學生模型模仿以視頻數據為輸入的教師模型的輸出,讓學生模型能夠對時間序列進行建模。Wang等人[25]提出使用知識更清潔的教師模型來傳授帶有噪聲輸入的學生模型去噪能力。Zhang等人[26提出了深度相互學習策略,讓學生在訓練過程中相互協作和教學。本文將跨網絡知識轉移技術應用在遮擋ReID領域,使用來自不相似空間中更大的整體數據的未損壞特征的指導來緩解類重疊問題。具體來說,學生網絡和教師網絡從不同輸入的情況下聯合訓練,并將教師網絡的知識遷移給學生網絡,以便學生網絡能夠在處理遮擋時表現出色。

2 研究方法

2.1 網絡框架

本文提出的基于多尺度降噪自編碼器的遮擋行人重識別方法包括兩個網絡:整體訓練網絡(integraltrainingnetwork,ITN)和遮擋訓練網絡(occlusiontrainingnetwork,OTN),兩個網絡共享一個網絡框架。整體框架如圖2所示,該框架包括一個多尺度降噪自編碼器和一個源域與目標域混合訓練的行人重識別模型,具體將在2.2和2.3節詳細說明。ITN的訓練數據是整體數據集(如Market1501等),使用大型整體數據集模擬更多樣化的遮擋數據集。OTN的訓練數據是遮擋和部分數據集(Occluded-ReID、Partial-ReID等),專注于真實的遮擋數據,以學習在整體數據中表現良好的 DCD 本文方法的實現包括兩步,具體流程如下:

a)訓練ITN。該網絡的源域為整體數據集,目標域為人工遮擋數據集,選用一個大型的整體數據集構建人工(增強)遮擋的數據集。整體和人工遮擋圖像經過多尺度降噪自編碼器重構,最后進行分類和識別訓練,得到一個具有良好類距離分布的教師網絡。僅通過裁剪和遮擋等數據增強的方式處理圖像顯然是不夠的。為更好地模擬遮擋圖像,以及受到由易到難學習策略的啟發,本文提出了漸進式隨機遮擋模塊PRO 處理數據。即給定一張圖像 X∈R3×H×W ,通過PRO在 X 上隨機生成遮擋區域塊 o ,每個遮擋塊 o 的面積為 s ,其中 H 和 W 分別為圖像的高和寬。如圖3所示,隨著epoch次數增加,網絡的學習能力增強,PRO模塊逐漸增大遮擋面積 s ,并由易到難地隨機生成遮擋。

b)依賴于第一步得到的整體數據在不相似空間中的良好類距離分布,再在遮擋數據集上訓練 OTN 該網絡的源域為整體數據集,目標域為遮擋數據集。選用真實遮擋的數據集,在步驟a)(ITN)的基礎上遷移其處理遮擋的方式繼續訓練。再用整體圖像良好的DCD指導遮擋圖像的 DCD 此外,在學生網絡中嵌人額外的注意力機制,使模型關注到非遮擋區域,并提取能夠區分類重疊的顯著特征。最后進行分類識別訓練,直至收斂。

圖2本文方法的整體框架
圖3漸進式隨機遮擋可視化 Fig.3Progressive random occlusion visualization

2.2 多尺度降噪自編碼器

自編碼器(autoencoder,AE)是一種無監督的神經網絡,可以用函數 來描述,其中編碼函數用 X=E(X) 表示,解碼函數用 表示,輸出 與原始輸入 X 相近。降噪自編碼器(denoising autoencoder,DAE)由Vincent 等人[27]提出,在自編碼器的基礎上,DAE在訓練期間向輸入數據引入噪聲,并訓練模型預測原始(未損壞)的數據,從而達到去除噪聲、恢復數據的目的。不同于傳統的自編碼器捕捉單一的尺度特征,本文提出一種新型的多尺度降噪自編碼器MDAE,通過重構不同尺度的圖像使網絡學習到更完整的特征信息。使用大尺度的遮擋行人圖像作為輸入,并將其重構為大、中、小尺度的圖像,有效掌握多個尺度的圖像細節信息,提高網絡提取特征的能力。

MDAE結構簡單,包括一個編碼器E、壓縮表示Code和一個多尺度解碼器 mD 。E的輸人為大尺度遮擋圖像,輸出低維的編碼Code, mD 的輸人為帶著潛在特征信息的編碼Code,輸出為三種不同尺度的遮擋重建圖像。具體來說,編碼器E采用預訓練的ResNet50模型作為基礎,通過深度堆疊8個Bottle-neck殘差塊,逐步提取輸入數據的高級特征,每個Bottleneck塊通過 1×1 和 3×3 的卷積操作,有效捕捉不同尺度和層次的特征信息。解碼器 mD 包括小尺度、中尺度和大尺度三個解碼器,代表了三種尺度的解碼路徑,從低分辨率向高分辨率恢復。它們由反卷積層、批歸一化層和激活函數構成,反卷積層共包含13個大小為 3×3 的反卷積核。

MDAE工作原理如圖4所示,將輸入層的原始數據壓縮成潛在空間的特征表示,提取主要的特征信息,并通過解碼器mD 將這些特征解碼成與原始輸入最相似的形式,以實現數據的降噪重構。具體來說:

a)將一個遮擋圖像(大尺度) X 映射到隱藏層中通過E編碼成 X ,將高維數據轉換為低維特征,這一過程表示為

其中: w 是編碼權重; b 是偏置量; σ 是激活函數ReLU; X 是 X 在潛在空間中的表達 ?;f(???) 是編碼函數。

b)將潛在特征 X 輸入到多尺度解碼器 mD 中進行逐步上采樣,還原至原始數據的空間分辨率,得到高、中、低三種尺度的重構樣本recons_hrrecons_mr和recons ,這一過程表示為

其中: w,w′′,w′′′ 是編碼權重; b,b′′,b′′′ 是偏置量;recons 、recons_mrrecons -lr 是 X 經過 mD 重構后的樣本; g(?),h(?) 、y(?) 分別是對應的解碼函數。

c)三種尺度的重構樣本分別與原始輸入圖像(由原始大尺度圖像插值得到原始中、低尺度圖像)對比,因此可以得到重構誤差為

解碼圖像是對原始圖像的有損重建,通過在潛在空間中進行重構而生成。因此,在E和 mD 之間的壓縮表示Code可以決定原始輸人數據的主要信息和舍棄信息。MDAE最小化生成的去噪圖像與原始圖像之間的重建誤差,從而迫使MDAE能夠提取融合三種尺度的高維深層特征。

圖4MDAE原理 Fig.4MDAE principle

由于MDAE編碼器E在提取特征方面表現出色,所以被用作模型的特征提取器,具體將在2.3節中詳細說明。本文使用的圖像尺寸為:大尺度 384×128 ,中尺度 192×64 ,小尺度 96×32 。

2.3基于知識蒸餾的行人重識別模型

本文引入了編碼器E作為特征提取的主干網絡,并在此基礎上設計了一個聯合生成和判別的主干模型,使用多尺度降噪自編碼器進行訓練。具體而言,本文方法結合了多尺度降噪自編碼器和分類網絡的聯合學習框架,通過多種數據增強技術對輸入圖像進行處理,并利用實際圖像計算重建損失,從而提升模型的魯棒性和識別性能。設 為重構圖像,則 E(Xr) 為編碼器的潛在特征表示,其中 r∈{N,O} (整體圖像和遮擋圖像), Xr 為輸入圖像。 X ,的大小為 B×C×w×h ,其中B 為批次大小, c 為編碼器E的輸出通道數, w,h 分別為特征圖的寬度和高度。在潛在特征表示 Xr 上采用基于部分的池化方法,將其分為 p 部分特征條紋,并對每個部分進行全局平均池化(GAP),得到 p 個特征向量,每個特征向量的大小為 C 然后將這些特征向量分配給 p 個唯一的分類器,并使用相應數據集的身份標簽進行訓練。

對于每個給定的圖像 Xr ,分類器的預測輸出為 ,其中i=1,…,p 個部分。各部分的身份預測損失函數為

其中: SCE,r 為交叉熵損失; K 為批次大小;類標簽 yi∈{1,2,… |N 與第 i 個訓練圖像相關聯。 Wyi 和 byi 是最后一個全連接層對應類別 y 的權重和偏置。同樣, Wj 和 bj 是第 j 類的權重和偏置。

本文方法中,主干網絡被用作教師網絡和學生網絡,兩者共享同一網絡結構進行知識蒸餾,實現知識從教師模型跨網絡轉移到學生模型。與整體數據集相比,從遮擋圖像中提取的類內深層特征和類間深層特征在DCD上存在顯著重疊。因此,為了有效地處理遮擋問題,除了主干網絡之外,學生模型中還嵌人了一個注意力模塊。這個注意力模塊讓學生網絡能夠更好地從遮擋數據中學習教師網絡在整體數據上的良好DCD。

圖2展示了學生-教師網絡架構以及基于多尺度編碼器的深度特征提取器。網絡同時獲取兩個輸入圖像,一個來自整體數據集,另一個來自遮擋數據集。使用兩個獨立的分類器,一個用于教師模型學習整體數據身份,另一個用于學生模型學習遮擋數據身份。通過學習一組兩個完全連接層進行分類,再對提取的深度特征進行身份損失優化。

由于存在較大類重疊,學生模型可能會在被遮擋的數據集上過擬合,所以網絡中引入注意力機制,通過注意力圖來對遮擋圖像的部分特征進行加權,使被關注的部分特征能夠區分類間和類內的距離分布,從而形成學生模型能夠學習到類似于教師模型的效果。注意力機制包括一組兩層 1×1 卷積濾波器、ReLU層、sigmoid激活函數和批處理歸一化層。為了學習注意力,學生網絡依賴于輸入的遮擋圖像和距離分布匹配。學生網絡在比較遮擋圖像特征和整體圖像特征的DCD時,給定一小批圖像輸入,其中包含遮擋和整體圖像 Xo 和 Xn ,提取整體數據的部分特征 fni 和遮擋數據的部分特征 fai (注意力圖關注的部分特征)。運用 u 和 v 表示特征的類別身份。對于每對小批量圖像,本文按照以下方式提取批內不同組合的圖像特征對:

式(5)將特征轉換為不相似空間。 Pi 表示部分特征;距離分布從 diwr 和 dibr 中提取,分別適用于整體數據和遮擋數據。通過使用最大均值差異(maximummeandiscrepancy,MMD)最小化整體數據和遮擋數據DCD之間的差異來產生良好的注意力圖。設 Drwr 和 Drbr 表示從 drwr 和 drbr 中提取的分布。測量整體數據和遮擋數據類分布差異的損失(DCDLoss)為

其中: 計算類內分布差異損失; 計算類間分布差異損失; 計算所有類分布差異損失; Sglobal 計算教師特征和學生特征之間的距離分布損失; λ1、λ2、λ3 分別取值 0.8?0.5?1 。

通過固定教師網絡的 Drwr 和 Drbr 來優化損失 ,使得學生網絡的距離分布與教師網絡的距離分布相匹配。類距離分布損失使相同類別(身份)的樣本在特征空間中更加緊密地聚集,同時使不同類別的樣本之間保持較大的距離。最小化式(6)的損失可以讓學習網絡學習到一個良好的注意力圖,以關注被遮擋圖像的非遮擋區域。

2.4損失函數

整個模型針對遮擋數據和整體數據的多尺度重構損失和身份損失進行了優化,最后是對類分布損失進行優化。在訓練ITN時,為優化網絡的訓練,提取泛化能力更強的行人特征,聯合使用多尺度重構損失和身份損失進行優化,總的損失函數定義為

在訓練OTN時,為指導網絡的學習,要盡可能平衡生成式判別損失(多尺度重構損失和身份損失)和類分布差異損失,總的損失函數定義為

其中: αβ?γ 和 μ 是平衡損失的權重因子。

3 實驗和結果分析

3.1 數據集和評價標準

為了驗證提出方法的有效性,本文使用了整體數據集(Market1501、DukeMTMC-ReID、MSMT17)、遮擋數據集(Occluded-Duke、Occluded-ReID)和部分數據集(Partial-ReID)進行實驗評估。Market1501數據集包含1501名行人的數據,通過5個高分辨率相機和1個低分辨率相機拍攝獲得。DukeMTMC-ReID是一個大規模標注的行人重識別數據集,由8個高分辨率攝像機拍攝,共有36411張1812名行人的圖像。MSMT17數據集由15個攝像機采集,共126441張4101名行人的圖像,其中32621張1041名行人的圖像用于訓練,93820張3060名行人的圖像用于測試。Occluded-Duke是專為遮擋行人重識別設計的數據集,是目前最大的公開遮擋數據集。訓練集包含15618張702名行人的圖像,查詢集包含2210張519名行人的圖像,圖庫集包含17661張1110名行人的圖像。Occluded-ReID數據集包括200名行人,每人5張全身圖像和5張各種遮擋情況的圖像。Partial-ReID數據集包含60名行人,每人5張全身圖像、5張局部圖像和5張遮擋圖像。

在訓練過程中,本文僅使用每個數據集訓練集中的圖像和相機標簽,不使用其他任何注釋信息。模型評價指標采用廣泛使用的累積匹配曲線(cumulativematchcharacteristic,CMC)和平均精度均值(meanaverageprecision,mAP)進行評估。mAP是將所有類別的平均精度進行綜合加權平均得到。CMC是Rank- ?n 準確率的曲線,用于評估行人重識別算法性能。

3.2 實驗設置

本文實驗訓練測試的硬件設備:操作系統為Ubuntu20.04,中央處理器為Intel °ledast Xeon ? Gold 6342 CPU @ 2.80GHz ,顯卡為NVIDIAA10,顯存為24GB,使用的集成開發環境為PyCharm。軟件環境采用PyTorch深度學習框架,編程語言為Python3.8。

訓練細節:對于MDAE-HG模型,輸入圖像大小為 384× 128;模型訓練過程中,采用漸進式隨機遮擋PRO模塊實現數據增強處理,初始隨機擦除面積的最大比例設置為0.15,每訓練15個epoch后最大比例增加0.05,生成人工遮擋數據。批大小設置為128,ITN學習70輪,OTN學習80輪,共學習150輪。用Adam優化器進行梯度更新,ITN初始學習率設置為3×10-4 ,在第15輪和35輪時分別衰減為 3×10-5 和 3×10-6 。OTN初始學習率設置為 3.5×10-4 ,30個epoch之后下降為之前的0.1倍,即在100個epoch后衰減為 3.5×10-5

3.3 參數分析

為了說明超參數取值的最優或較優取值,以Occluded-Duke數據集為例,分別測試了超參數平衡因子 αβ?γ 和 μ 不同選擇及調整,其中 α=0.8,β=0.5,γ=0.3,μ=0.5 時,效果最優。

a)損失函數中三個尺度的超參數 α,β,γ 的影響。小尺度通常捕捉最細節的特征,參數 γ 范圍通常較小;中尺度捕捉中等細節和結構特征,參數 β 范圍介于小尺度和大尺度之間,設為0.5;大尺度捕捉整體結構和全局特征,參數 α 范圍較大。為確定參數 α,β,γ 的最優或較優取值,固定 μ=0. 5 ,以Occluded-Duke數據集為例,將權重因子 α 分別設置為0.5、

0.6、0.7、0.8 做實驗;將權重因子 γ 分別設置為 0.2、0.3、0.4 0.5,圖5給出 mAP 和Rank-1指標隨 α,β,γ 值的變化曲線圖。當 α=0.8,β=0.5,γ=0.3 時,Rank-1和mAP達到了最高。

圖5不同 αβ?γ 值時Rank-1和 mAP 變化Fig.5Changes in Rank-1 and mAP with different values of α,β,γ

b)損失函數中超參數 μ 的影響。 μ 可以平衡多個損失函數,使網絡性能達到最優。固定 α=0.8,β=0.5,γ=0.3 ,測試不同的 μ 對實驗結果的影響。測試集為Occluded-Duke時,Rank-1和 mAP 的結果如圖6所示。可知,當 μ=0.5 時,Rank-1和mAP達到了最高。

圖6不同 μ 值時Rank-1和 mAP 變化 Fig.6Changes in Rank-1 and mAP with different values of μ

3.4 與現有方法比較

遮擋行人重識別效果:本節在Occluded-Duke、Occluded-ReID、Partial-ReID數據集上與現有的一些先進方法進行比較。實驗結果如表1和2所示,MDAE-HG方法具有最佳性能。

分析表1,在Occluded-Duke數據集上Rank-1和 mAP 分別達到了 66.2% 和 55.6% 。本文方法與HG相比,在Occluded-Duke數據集中, .mAP 和Rank-1指標超過效果最優的 HG0.9% 和 1.1% 。

分析表2,在Occluded-ReID數據集上Rank-1和 mAP 分別達到了 83.5% 和 73.6% ;在Partial-ReID數據集上Rank-1和mAP分別達到了 69.7% 和 72.4% 。在使用遮擋數據集Occluded-ReID和Partial-ReID來評估本文方法時,由于Occluded-ReID和Partial-ReID數據集上沒有劃分訓練集和測試集,模型在Marketl501數據集上進行訓練,在Occluded-ReID和Partial-ReID數據集上進行測試。由表2可知,本文方法在Partial-ReID數據集的mAP和Rank-1超過 HG 1. 3% 和 1.4% 。在Occluded-ReID數據集的 mAP 和Rank-1指標上,本文方法超過效果最優的 HG1.6% 和 0.7% 。這證明了本文方法的有效性。

表1不同方法在Occluded-Duke數據集上的結果對比Tab.1 Comparison ofresults of different
表2不同方法在Occluded-ReID和Partial-ReID數據集上的結果對比Tab.2Comparison of results of different methodsonthe

常規行人重識別效果:本文在Market1501、DukeMTMC-ReID和MSMT17數據集上與現有先進方法對比,實驗結果如表3所示。相比于其他方法,本文方法達到了較高的準確率,在Market1501和MSMT17數據集上,Rank-1分別達到了95.7% 79.8% ;mAP分別達到了 87.8% , 56.5% 。在DukeMT-MC-ReID數據集上,Rank-1和mAP分別達到 89.0% 和 78.3% ,超過了 HG1.9% 和 0.8% 。多個實驗證明,本文方法不僅對遮擋行人重識別作出了提升,對常規行人重識別也有顯著效果。

表3不同方法在多個整體數據集上的結果對比Tab.3Comparisonofresultsoftheholisticdatasets /%

3.5 消融實驗

本節將研究本文MDAE-HG模型中每個模塊的有效性。以HG模型為基礎,進行了漸進式隨機遮擋模塊、多尺度降噪自編碼器及網絡結構的消融實驗。表4為Occluded-Duke數據集消融實驗結果,驗證了各模塊在遮擋行人重識別的有效性。

表4在Occluded-Duke數據集上的消融實驗結果Tab.4Ablation studyresultsonthe Occluded-Dukedataset /9
注:P代表漸進式隨機遮擋模塊;M代表多尺度降噪自編碼器。

漸進式隨機遮擋模塊的有效性:漸進式隨機遮擋模塊有助于模擬遮擋行人圖像,且可以方便地加入到網絡中。實驗結果如表4所示。可知,與index1相比,漸進式隨機遮擋模塊的加入對行人重識別的準確率有所提升,在Occluded-Duke上mAP提高了1.1百分點。結果表明,PRO模塊有效地模擬圖像中的真實遮擋情況,豐富了數據集并增加了多樣性。這對于遮擋數據集局限的行人重識別任務來說,無疑是進一步提升了網絡性能。

多尺度降噪自編碼器的有效性:本文在降噪自編碼器的基礎上添加多尺度操作,通過在不同尺度上學習數據的特征表示,使其能夠捕捉更豐富的信息。如表4所示,相較于index1,在Occluded-Duke數據集上mAP和Rank-1分別提高了4百分點和2.4百分點。實驗結果表明,多尺度降噪自編碼器在處理復雜數據庫時,將噪聲引入到輸人數據,并從帶噪聲的輸入數據中重構出多尺度的原始無噪數據。該模塊有效增強了網絡提取和恢復被遮擋圖像特征的能力。

本文還對網絡結構進行了消融實驗,研究漸進式隨機遮擋模塊和多尺度降噪自編碼器對性能的影響,如表4所示。漸進式隨機遮擋模塊和多尺度降噪自編碼器的加入能夠使模型性能顯著提升,相較于index1,Rank-1提升了4.8百分點,mAP提升了5.1百分點。實驗結果表明,MDAE-HG結合兩個模塊相比于單一模塊有明顯的性能提升,更好地學習到判別性的特征信息。

3.6 可視化實驗

為進一步驗證本文方法的有效性,對不同遮擋情況進行可視化分析。具體地,在數據集Partial-ReID中選出5幅圖像,分別包括遮擋角度變化及遮擋物變化等行人重識別中常見問題,期望觀察到MDAE-HG關注人體多個不同部位。MDAE-HG在HG基礎上進行改進,通過在多個尺度上重構非遮擋圖像來學習更豐富的特征,相關可視化特征如圖7所示。圖中可以觀察到,在處理不同角度的遮擋及遮擋物變化時,相較于HG,MDAE-HG提取的特征圖響應區域更精確,能夠覆蓋到如行人頭部、手臂、衣服和褲子等更多細節特征。

圖7可視化特征 Fig.7Visualized features

3.7跨數據集測試

訓練好的ReID模型需要部署到新場景中,但新場景是沒有標簽訓練的,因此ReID方法的泛化能力成為部署到真實場景時的關鍵因素。為了評估MDAE-HG的泛化能力,本文進行了跨數據集評估,即在一個數據集上進行訓練,在另一個數據集上進行測試。如表5所示,與HG相比,三個跨數據集的性能指標都有上升,并且和CSGAN相比也有所提升,結果表明,MDAE-HG與HG相比能更有效地提高模型的泛化能力。

表5本文方法與其他行人重識別方法跨域結果對比Tab.5Cross-domain comparison of the proposed method with
注:M:Market1501數據集;D:DukeMTMC-ReID數據集;OR:Occluded-ReID數據集;OD:Occluded-Duke數據集;“→\"表示在左側的數據集下訓練,在右側未訓練過的數據集下測試。

4結束語

行人重識別問題是一項應用背景強且具有挑戰性的領域。本文給出了一種基于多尺度降噪自編碼器的行人重識別方法處理遮擋。該方法利用多尺度降噪自編碼器重構遮擋圖像,從而恢復更詳細的特征信息。此外,采用了漸進隨機遮擋模塊來模擬真實的遮擋數據,有效地緩解遮擋數據集不足的限制。a)實驗證明,本文方法可以顯著提升行人識別的準確率,在Occluded-DukeMTMC、Occluded-ReID、Partial-ReID、Market1501、DukeMTMC-ReID、MSMT17數據集上,Rank-1分別達到了

66.2% 83.5% 69.7% 95.7% .89.0% 和 79.8% ,充分證明了有效性。b)在四個數據集上分別進行了跨域驗證,在跨域數據集DukeMTMC-ReID、Market1501、Marketl501、Occluded-ReID和DukeMTMC-ReID、Occluded-Duke上mAP分別達到 31.2% 、73.6% 和 51.1% 。本文方法雖然在提高識別精度和跨數據集的應用上有一定的效果,但還有進一步的提升空間,如何提高降噪自編碼器的性能和泛化能力,將其應用于更復雜的問題中,仍是需要研究和探索的問題。此外,弱光壞境和遮擋的行人重識別也是當前研究熱點,但這兩方面的研究都是獨立的,后續的工作將研究在光照條件差的情況下行人被遮擋等問題,從而使其能夠方便部署在實際生活中,以達到更好的效果。

參考文獻:

[1]Zhuo Jiaxuan,Chen Zeyu,Lai Jianhuang,etal.Occluded personreidentification[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2O18:1-6.

[2]Luo Hao,JiangWei,Fan Xing,et al. STNReID:deep convolutional networkswith pairwise spatial Transformer networks for partial person re-identification[J]. IEEE Trans on Multimedia,2020,22(11): 2905-2913.

[3]Zhong Zhun,Zheng Liang,Kang Guoliang,et al. Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2020:13001-13008.

[4] Gong Shaogang,Xiang Tao.Person re-identification[M]//Visual Analysisof Behaviour.Berlin:Springer,2011:301-313.

[5]Wang Tao,Liu Hong,Song Pinhao,et al.Pose-guided feature disentangling for occluded person re-identification based on Transformer [C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto, CA:AAAI Press,2022:2540-2549.

[6] YangJinrui,ZhangJiawei,YuFufu,et al.Learning toknowwhere to see:avisibility-aware approach for occludedperson re-identification [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021:11865-11874.

[7]SomersV,De Vleschouwer C,Alahi A.Bodypart-based representationlearningfor occluded person re-identification[C]//Procof IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press,2023 :1613-1623.

[8]Miao Jiaxu,Wu Yu,Liu Ping,et al.Pose-guided feature alignment for occluded person re-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2019:542-551.

[9]Gao Shang,Wang Jingya,Lu Huchuan,et al.Pose-guided visible part matching for occluded person ReID[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEEPress,2020:11741-11749.

[10]Wang Guan’an,Yang Shuo,Liu Huanyu,et al. High-order information matters: learning_relation and topology for occluded person reidentification[C]//Proc of IEEE/CVF Conference onComputer Visionand Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 6448-6457.

[11]Wang Yanqi,Sun Yanguo,Lan Zhenping,et al. Occluded person reidentification by multi-granularity generationadversarial network[J]. IEEE Access,2023,11:59612-59620.

[12]楊婉香,嚴嚴,陳思,等.基于多尺度生成對抗網絡的遮擋行人重 識別方法[J].軟件學報,2020,31(7):1943-1958.(YangWanxiang,Yan Yan,Chen Si,et al.Multi-scale generativeadversarial network for person re-identification under occlusion[J].Journal of Software,2020,31(7):1943-1958.)

[13]Zhao Yunbin,Zhu Songhao.Occluded pedestrianre-identification via Res-ViTdouble-branchhybrid network[J].Multimedia Systems, 2024,30(1) :5.

[14]Gao Liying,Jiao Bingliang,Long Yuzhou,et al. Contrastive pedestrian attentive and correlation learning network for occluded person reidentification[J].IEEETranson Circuitsand Systems forVideo Technology,2024,34(9) :8862-8880.

[15]KiranM,PraveenRG,Nguyen-MeidineLT,etal.Holisticguidance foroccluded person re-identification[C]//Proc of British Machine VisionConference.2024.

[16]黃盼,朱松豪,梁志偉.三重注意力特征聚合的跨模態行人再識別 [J].南京郵電大學學報:自然科學版,2021,41(5):101-112. (Huang Pan,Zhu Songhao,Liang Zhiwei.Cross-modality person reidentification with triple-attentional feature aggregation[J]. Journal of Nanjing University of Postsand Telecommunications:Natural Science Edition,2021,41(5) :101-112.)

[17]Li Fei,Fan Shiwei,Chen Pengzhen,et al.Pedestrian motion stateestimation from 2Dpose[C]//Procof IEEE Inteligent Vehicles Sympsium.Piscataway,NJ:IEEEPress,2020:1682-1687.

[18] Zheng Zhedong,Yang Xiaodong,Yu Zhiding,et al. Joint discriminative andgenerativelearning forperson re-identification[C]//Procof IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEEPress,2019:2133-2142.

[19]Li Yulin, He Jianfeng,Zhang Tianzhu,et al. Diverse part discovery: occluded person re-identification with part-aware transformer[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition. Piscataway,NJ:IEEE Press,2021:2897-2906.

[20]Huang Houjing,Li Dangwei,Zhang Zhang,et al. Adversarially occluded samples for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2018:5098-5107.

[21]Hinton G,Vinyals O,Dean J. Distilling theknowledge in a neural network[EB/OL]. (2015-03-09). htps://arxiv.org/abs/1503.02531.

[22]Romero A,BallasN,Kahou SE,et al.FitNets:hints forthin deep nets [EB/OL].(2014-12-19).htps://arxiv.or/abs/1412.6550.

[23]Park W,KimD,LuYan,etal.Relational knowledge distillation [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2019:3962-3971.

[24]Gu Xinqian,Ma Bingpeng,Chang Hong,et al. Temporal knowledge propagation forimage-to-videopersonre-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ:IEEE Press,2019:9646-9655.

[25] Wang Fengyun, Zhang Dong,Zhang Hanwang,et al. Semantic scene completion with cleaner self[ C]//Proc of IEEE/CVF Conference on Computer VisionandPattrnRecognition.Piscataway,NJ: IEEE Press,2023:867-877.

[26] Zhang Ying,Xiang Tao,Hospedales TM,et al. Deep mutual learning [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4320-4328.

[27]VincentP,Larochelle H,Bengio Y,et al.Extracting andcomposing ro bust features with denoising autoencoders[C]//Proc of the 25th International Conference on Machine Learning. New York:ACM Press, 2008 :1096-1103.

[28]Sun Yifan,Zheng Liang,Yang Yi,et al. Beyond part models: person retrieval with refined part pooling(and a strong convolutional baseline)[C]//Proc of European Conference on Computer Vision. Cham: Springer,2018:501-518.

[29]Zhou Shuren,Wu Jie,Zhang Fan,etal.Depthoclusion perception feature analysis for person re-identification[J]. Pattern Recognition Letters,2020,138:617-623.

[30] Jia Mengxi,Cheng Xinhua,Zhai Yunpeng,et al. Matching on sets: conquer occuded person re-identification without alignment[C]// Proc of AAAI Conference on Artificial Intellgence.Palo Alto, CA: AAAI Press,2021 :1673-1681.

[31] Tan Hongchen,Liu Xiuping,Yin Baocai,et al. MHSA-Net: multihead self-attentionetwork foroccluded personre-identification[J]. IEEE Transon Neural Networksand Learning Systems,2023,34 (11) :8210-8224.

[32]Wang Guanshuo,Yuan Yufeng,Chen Xiong,et al. Learning discriminative features with multiple granularities for personre-identification [C]//Proc of the26th ACM International Conference on Multimedia. New York:ACMPress,2018:274-282.

[33]Fang Pengfei,Zhou Jieming,Roy S,et al. Bilinear attention networks for person retrieval[ C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8029-8038.

[34]Zhuang Zijie,Wei Longhui,Xie Lingxi,et al.Rethinking the distribution gap of person re-identification with camera-based batch normalization[C]//Procof European Conference on Computer Vision. Cham:Springer,2020:140-157.

[35]Gu Hongyang,Li Jianmin,Fu Guangyuan,etal.AutoLoss-GMS: searching generalized margin-based softmax loss function for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision andPatterm Recognition.Piscataway,NJ: IEEE Press,2022: 4734-4743.

[36] Zhang Wenyuan,Zhu Li,Lu Lu. Improving the style adaptation for unsupervised cross-domain person re-identification[C]//Proc of International Joint Conferenceon Neural Networks.Piscataway,NJ: IEEE Press,2020:1-8.

猜你喜歡
編碼器行人尺度
基于Transformer模型的圖書館借閱量預測研究
人類世尺度批評視角下《樹語》慢性暴力的多維探析
基于位置掩碼引導的換裝行人重識別模型
反鐵磁材料電信號實現可讀可控
科學導報(2025年48期)2025-08-08 00:00:00
外部知識與內部上下文語義聚合的短文本新聞虛假檢測模型
基于多模態表征學習的自動音頻字幕方法
面向視覺-語言模型的遞進互提示學習
雨天的快樂
雨燕與螞蟻
意林(2025年10期)2025-07-31 00:00:00
基于改進YOLOv5s的紅外圖像行人檢測算法
主站蜘蛛池模板: 亚洲国产日韩在线成人蜜芽| 亚洲综合极品香蕉久久网| 国产AV无码专区亚洲精品网站| 亚洲天堂福利视频| 婷五月综合| 久久综合结合久久狠狠狠97色| 亚洲丝袜中文字幕| 国产在线无码av完整版在线观看| 国产91无码福利在线| 97国产成人无码精品久久久| 波多野结衣无码视频在线观看| 国产亚洲欧美日韩在线观看一区二区| 青青操视频在线| 国产jizz| 日本尹人综合香蕉在线观看 | 国产一区二区三区夜色| 国产欧美精品一区aⅴ影院| 久热这里只有精品6| 凹凸精品免费精品视频| 亚洲三级色| 国产成人1024精品下载| 亚洲高清在线天堂精品| 婷婷午夜天| 激情综合婷婷丁香五月尤物| 久久久久中文字幕精品视频| 亚洲成人动漫在线| 1769国产精品免费视频| 久久精品电影| 中文字幕在线一区二区在线| 麻豆精品在线播放| 色综合热无码热国产| 国产黄色免费看| 香蕉在线视频网站| 国产区成人精品视频| 亚洲精品老司机| 亚洲系列无码专区偷窥无码| 亚洲高清无在码在线无弹窗| 青青草欧美| 五月天香蕉视频国产亚| 中文字幕佐山爱一区二区免费| 亚洲婷婷六月| 日韩一区精品视频一区二区| 99精品视频九九精品| 88av在线看| 久久人妻xunleige无码| 国产白浆视频| www中文字幕在线观看| 国产一区二区三区视频| 99视频全部免费| 99精品高清在线播放| 欧美在线三级| 狠狠色狠狠色综合久久第一次| 亚洲精品第1页| 国产精品一区二区国产主播| 亚洲欧洲日本在线| 久青草国产高清在线视频| 久久精品人人做人人综合试看| 国产91麻豆免费观看| 一本一道波多野结衣av黑人在线| 亚洲欧美另类中文字幕| 在线观看亚洲成人| 国产福利观看| 日本在线国产| 免费一级毛片不卡在线播放| 国产成人无码Av在线播放无广告| 国产a在视频线精品视频下载| 亚洲av无码成人专区| 91久久国产热精品免费| 蜜臀av性久久久久蜜臀aⅴ麻豆| 美女被操黄色视频网站| 91久久国产综合精品女同我| 精品无码日韩国产不卡av| 国内黄色精品| 最新国产午夜精品视频成人| 国内a级毛片| 国产午夜福利亚洲第一| 国产9191精品免费观看| 成人日韩精品| 色综合天天综合| 9966国产精品视频| 久久永久视频| 老色鬼久久亚洲AV综合|