摘 要:在深度學習大熱的背景之下,選取了幾種基于深度學習的優秀的行人重識別算法,并比較這些方法在不同數據集上面的表現,分析它們之間的優勢和劣勢,以及這些算法適用的場合。
關鍵詞:行人重識別;卷積神經網絡;triplet loss
一、幾種行人重識別深度學習經典方法的比較
(一)Multi-Channel Parts-based CNN Model with Improved Triplet Loss Function
2016年,De Cheng等人提出了一種多通道基于身體部位的卷積神經網絡模型,并結合改善的triplet loss函數來進行最終的行人再識別。本文對傳統triplet loss做了一個改進,改進后損失函數進一步達到類內距小于預設定的邊界。
1、Multi-Channel Parts-Based CNN。一是全局模型,通過Crop全圖做卷積神經網絡;二是部分比較模型,將圖像水平分割為多個部分。本文將圖像分隔為4個部分,最后通過全連接形成N維特征。
2、improved triplet loss。通過構造一個三元組()進行樣本訓練,來驅動卷積神經網絡的改進。其中,I為原樣本,I+為陽性樣本,I-為陰性樣本,通過Triplet構造約束滿足:Dist(I,I+)+T1 3、訓練算法。采用隨機梯度下降法(SGD)進行訓練。 4、在數據集上的表現(見圖1)。 其中,oursT是從深度卷積網絡模型移除4個身體部分通道,運用原始的tripletsloss去訓練這個網絡;TC 與T屬于相同的網絡模型,但運用了improved triplet loss去訓練;TP是用了多通道卷積神經網絡模型的全視角訓練;TPC與TP屬于一樣的網絡模型,但納入了improved triplet loss。 5、總結。這個方法把身體水平分成了四個部分,通過賦予較大的權值,得到一個避免動作造成誤差的方法,改善了圖像識別中由于人的動作造成的誤差。 (二)A Discriminatively Learned CNN Embedding for Person Re-identification 1、identification model。2015年,Zhedong Zheng等人融合了identification model和verification model,在數據有限的時候,verification用contrastive loss會導致過擬合,所以采用了cross-entropy。本文采用的dropout擁有降低數據過擬合風險的性質,同時還擁有模型融合的效果。 2、測試方法。對于gallery圖庫圖像,前向計算卷積特征f,并保存在本地;對于probe圖片,前向提取特征后保存在本地中;通過比較兩者的歐式距離來對gallery中的圖進行rank。 3、數據集上的表現(見圖2)。 4、總結。本文同時考慮 identifi-cation loss和 verification loss的siamese網絡,可以在同一時間學習一個discrimi-native embedding和similarity measurem-ent,這個方法在兩個主流行人重識別的benchmark上超過了基準。另外,這個方法在實例檢索任務中顯示出了潛在的能力。 (三)Top-push Video-based Person Re-identification 1、TDL方法。2016年,Jinjie You 等人通過對“Top Rank Optimization in Linear Time”這篇文章的拓展,提出了TDL,即Top-push distance learning模型。TDL是一種空間映射,目的在于減少類內距離,增加類間距離,提高目標的可區分度。 2、TDL目標。 3、算法。采用馬氏距離度量,將距離轉換為矩陣的Trace,Dx(x,y)= tr(M Xi,j),訓練過程采用隨機剃度下降法,通過不斷迭代更新來優化M。 4、數據集表現。我們在PRID數據集上測試了10次,取平均值,分別為:58.5393,80.7865,87.4157,91.4607,93.2584;在iLIDS上的表現:平均值分別為:56.2000,88.2667,95.2667,97.0667,97.8000。 5、總結。TDL方法采用了一個top-push約束來量化模糊video represent-ation,形成的距離模型可以更有效地實現基于視頻的行人重識別的top-rank 性能。 (四)用生成對抗網絡方法生成的圖像做訓練 數據集的數據量不足也同樣是行人重識別的一個限制因素,針對這個問題,Zhedong Zheng在2017年提出了利用當今比較流行的生成對抗網絡來生成圖像做訓練,彌補現在re-ID里面每類樣本比較少的問題。 二、不同方法的對比 這里選取了i-LIDS 和 PRID數據集作為對比標準來對比三種算法的表現。 (一)三種算法平均表現 因為不同數據集的側重點不同,三種深度學習的re-ID方法在不同數據集上的平均表現做了對比,見圖5。 (二)結果分析 就以上三種方法,A Discriminatively Learned CNN Embedding for Person Re-identification方法平均表現最佳,即可在光照變化較大的環境下,又可在有遮擋物的環境下體現出較為優秀的人員識別狀態。而Multi-Channel Parts-based CNN方法對于bias變化較為敏感,尤其在PRID2011數據集上表現欠佳。 (三)用生成對抗網絡做數據增強 通過LSRO方法,將無標記的生成對抗網絡圖像與標記的真實訓練圖像混合,同時進行半監督學習后的數據集測試平均數見圖6。 可以看出,通過生成對抗網絡做數據增強(虛線),可以防止過擬合,不同程度上提高算法的行人重識別效果。用生成對抗網絡做訓練被認為是深度學中很具有發展前景的方法,在行人重識別中也具有很大的潛力。 三、結論 這篇文章主要介紹了基于深度學習的三種經典方法,并根據它們在數據集上的平均表現對這些算法做了一些評估與優勢略施分析。 我們發現,Zhedong Zheng 等人融合了identification 模型和verification 模型,采用了cross-entropy,降低了數據過擬合風險,從而展現出了相對優于其他兩種方法的表現。尤其是RANK 1,以絕對的優勢超越了另外兩種方法。這種方法具有深入研究的價值。其次,TDL方法采用了一個top-push約束來量化模糊video representation,適用于基于視頻的行人重識別。另外,由于不同數據集的側重點有不同程度的差別(如光照,對比度等),用生成對抗網絡生成圖像是從原來的訓練數據里生成出來的,和原來的數據集更相似,接近實際的test 數據集。因此,比直接多個數據集聯合訓練更容易提高效果。所以,對于行人重識別來說,用生成對抗網絡去生成圖像做訓練可以擴大數據集的數據量,可以更好地為深度學習方法做訓練。 作者簡介:王蘊綺(1996-),女,山西太原人,本科生,研究方向:計算機視覺。 (責任編輯 劉常興)