蔡歡歡,王 超,李曉偉
(濟寧職業技術學院實訓中心 山東 濟寧 272103)
行人重識別的目的是在從不同攝像機拍攝的視頻中檢索相同身份行人的圖像,具有重要的實際應用價值[1]。監督學習的行人重識別方法由于需要標注全部樣本會耗費大量的人力成本,因此,出現了一些無監督學習的行人重識別方法[2-3]以及半監督行人重識別方法[4]。本文研究基于單樣本半監督行人重識別研究,即每個身份的行人只標注一個樣本[5]?;趩螛颖景氡O督行人重識別任務由于標注信息少,因此提取有區分力的特征十分關鍵?;趩螛颖狙芯吭O計了網絡結構,但未充分考慮提取細節特征,考慮到提取了有細節特征,但是僅合適有監督學習。因此本文基于單樣本的半監督行人重識別任務,設計了多分支網絡結構,多分支網絡由分支網絡和聚合模塊組成。多分支網絡包括全局分支、水平切塊分支、部件分割分支。全局分支用于提取全局特征,關注身體軀干;水平切塊分支表示來自整體身體的水平切塊的局部信息,沒有任何語義信息,用于提取細節特征;部件分割分支用于部件分割約束,有利于行人樣本實現部件對齊,減小由于姿勢改變導致行人部件不對齊的問題。這是因為全局特征只能捕捉軀干特征,忽略細節信息,而兩個局部分支提取細節信息,對全局特征進行補充。而部件分割約束過濾了與部件不相關信息的干擾,幫助水平切塊分支提取到的信息更具有魯棒性,因此兩個局部分支相互補充有利于減少姿勢不對齊帶來的干擾,提取到更好的細節信息。聚合模塊將全部分支的損失、水平切塊分支、部件分割分支的損失融合,在訓練過程中通過不斷減小融合后的損失,優化網絡模型。由于樣本是不同攝像頭下選取的,因此對減小跨攝像頭下差異具有重要的意義。
特征學習的目的是從圖像中人的整個身體中捕獲最重要的外觀特征,以區分不同身份的人。如圖1所示,由于姿勢變化、背景雜亂、人體較高的復雜性和靈活性以及人形探測器的不完善,導致行人部件未對齊,這是單樣本半監督行人重識別的關鍵挑戰之一。我們將行人部件分割約束應用于單樣本半監督行人重識別任務,以解決部件錯位問題,這種部件約束策略能夠減小部件不對齊帶來的影響,從而提高了行人重識別準確性。

圖1 部分Market-1501和DukeMTMC-reID數據集的樣本
由于行人在不同的攝像機中以不同的姿勢、視角出現,因此相應的身體部件對齊。

圖2 多分支網絡結構圖
多分支網絡體系結構分為三個分支:全局分支、部件分割分支和水平切塊分支。表示基于全局特征的分類損失;Lps表示部件分割損失;表示基于水平切塊的分類損失;“Horizontal Stripes Branch”表示水平切塊分支;“Global Branch”表示全局分支;“Part Segmentation Branch”表示部件分割分支。
本文設計一種多分支網絡結構,如圖2所示,多分支網絡由三個分支網絡和一個聚合模塊組成,三個分支網絡從Conv5特征圖中分為全局分支、部件分割分支和水平切塊分支,將全局信息、部件分割約束和水平切塊相結合。全局分支一般不注重身體的細節,如胳膊、腿、腳等,而是關注身體的主體。在局部分支中,更多的響應集中在局部分支。例如,水平切塊的局部分支的響應集中在均勻劃分的水平切塊中,部件分割分支可以更準確地定位人的不同部件,如圖3所示。我們的多分支網絡結構的三個分支實際上學會了表示具有不同細節的信息。由于人體結構的特殊性,水平切塊和部件分割分支學習可以協同補充全局分支學習的低級判別信息,這是提高全局分支性能的原因。即在我們學習過程中,具有不同偏好的局部特征學習可以很大程度上緩解全局特征學習的弊端,因此多分支網絡在一定程度上對姿勢改變導致的部件錯位問題具有魯棒性。如圖4所示。

圖3 來自公共數據集Market-1501的一些樣本示例
使用 COCO Densepose 部件信息作為部件分割的標簽信息。

圖4 部件分割模型
我們利用部件標簽在標簽樣本、偽標簽樣本和無標簽樣本的特征圖上實施部件分割約束[6-7]。標簽和偽標簽樣本使用卷積神經網絡提取特征,通過部件分割模塊計算部件分割損失,通過水平切塊模塊計算基于水平切塊的分類損失,并根據全局特征計算分類損失。無標簽樣本根據提取的特征計算差異性損失,并根據部件分割模塊計算部件分割損失,如圖5所示?!癓abeled set”表示標簽樣本;“Pseudo-Labeled set”表示偽標簽樣本;“Unlabeled data”表示無標簽樣本;“CE loss”表示基于全局特征的分類損失;“P loss”表示基于水平切塊的分類損失;“PS loss”表示部件分割損失;不同顏色的箭頭表示不同的數據流。

圖5 損失函數融合
本文我們設計一個多任務損失函數融合策略,如圖5所示。網絡訓練過程中,標簽樣本和偽標簽樣本使用卷積神經網絡提取的特征,根據全局特征計算分類損失,利用水平切塊模塊基于水平切塊計算分類損失,通過部件分割模塊計算部件分割損失,無標簽樣本根據提取的特征計算差異性損失,并根據部件分割模塊計算部件分割損失[8]。換句話說,網絡訓練過程中,標簽樣本和偽標簽樣本、無標簽樣本共同參與網絡訓練過程,標簽樣本以及偽標簽樣本在分類損失和部件分割損失的約束下進行訓練,無標簽樣本在差異性損失和部件分割損失的約束下進行訓練??倱p失定義如下。

如以上公式所示,其中Lall表示所有樣本的所有損失的和,所有數據包括標簽樣本和偽標簽樣本、無標簽樣本。Lide表示所有標簽樣本和偽標簽樣本的損失,標簽樣本和偽標簽樣本的損失包括基于全局特征的分類損失和基于水平切塊的分類損失、部件分割損失。Lu表示無標簽樣本的所有損失,無標簽樣本的所有損失包括基于無標簽樣本計算的差異性損失和部件分割損失。LideCE表示基于標簽樣本和偽標簽樣本的全局特征的分類損失,Lidep表示基于標簽樣本和偽標簽樣本的水平切塊的分類損失,Lideps和Lups表示標簽樣本(以及偽標簽樣本)的部件分割損失和無標簽樣本的差異性損失,β是平衡不同任務的損失權重,本文設置為0.8。
在每次迭代的訓練過程中,分別對標簽樣本和偽標簽樣本進行部件分割訓練,并根據全局特征和水平切塊特征進行分類訓練,對于無標簽樣本,進行部件分割訓練和排他性訓練。此外,歐氏距離是根據無標簽樣本與標簽樣本的特征距離來測量相似性。歐氏距離越小,圖像越相似,為無標簽樣本分配的偽標簽越可靠?!癈E loss”表示基于全局特征的分類損失;“PS Loss”表示部件分割損失;“P Loss”表示基于水平切塊的分類損失。我們選擇一些可靠的無標簽樣本分配偽標簽作為偽標簽樣本,偽標簽被當作標簽樣本共同參與網絡的訓練,我們通過分類損失和部件分割損失來優化網絡模型,剩余的無標簽樣本仍然可以通過部件分割損失和差異性損失優化模型。
我們以端到端多任務的方式訓練多分支網絡,標簽樣本、無標簽樣本和偽標簽樣本三個部分的樣本數據參與訓練過程。由式(1)可以看出,訓練過程由標簽樣本的訓練任務和無標簽樣本的訓練任務組成。通過公式可以看出,標簽樣本和偽標簽樣本通過基于全局特征的分類任務、基于水平切塊的分類任務和式(2)的部件分割任務進行訓練,無標簽樣本通過式(3)進行排他性任務和部件分割任務的訓練。此外,歐氏距離是根據特征計算無標簽樣本與標簽樣本的相似性。歐氏距離越小,樣本越相似,即歐氏距離是為無標簽樣本分配的防偽標簽的依據。如圖6所示,偽標簽樣本St與標簽樣本L一樣進行分類任務和部件分割任務共同優化模型。對于無標簽樣本Mt,不能進行分類訓練,利用部件分割任務和排他性任務來優化模型。綜上所述,我們分別對標簽樣本和偽標簽樣本利用基于全局特征和水平切塊特征的計算分類損失和部件分割約束優化模型,所有無標簽樣本利用差異性損失、部件分割約束對模型進行優化。我們在每個迭代步驟中對驗證集的模型進行評估,并輸出最佳模型。

圖6 網絡迭代訓練的框架
綜上所述,針對單樣本行人重識別任務,在數據集中跨攝像頭下為每個身份的行人僅標注一個樣本。由于標注樣本為跨攝像頭選取,因此對于跨攝像頭差異具有魯棒性。對于人體姿勢改變導致的部件錯位的難題,本文設計多分支網絡并且是端到端多任務訓練的網絡結構,而損失函數融合是一種有效的途徑。使用部件分割約束來處理部件不對齊問題,部件分割約束結合水平切塊的局部特征對全局特征進行補充,顯著提高單樣本半監督行人重識別的性能。對于模型訓練提出的聯合訓練方法可以有效地利用標簽樣本、偽標簽樣本和無標簽樣本共同參與網絡模型的優化。在標簽樣本和偽標簽樣本數據集上,我們通過基于水平切塊特征、基于全局特征的分類損失和部件分割損失來優化CNN模型。同時,在沒有可靠標注信息的無標簽樣本上,我們用差異性損失和部件分割損失來優化模型,而無需任何標注信息。