基于EfficientNet的雙分路多尺度聯合學習行人再識別

2022-07-29 07:38:52仇天昊陳淑榮

計算機應用 2022年7期

仇天昊，陳淑榮

仇天昊*，陳淑榮

（上海海事大學信息工程學院，上海 201306）（ ? 通信作者電子郵箱2276523712@qq.com）

針對視頻圖像中因小目標行人、遮擋和行人姿態多變而造成的行人再識別率低的問題，建立了一種基于高效網絡EfficientNet的雙分路多尺度聯合學習方法。首先采用性能高效的EfficientNet-B1網絡作為主干結構；然后利用加權雙向特征金字塔（BiFPN）分支對提取的不同尺度全局特征進行融合，并且得到包含不同層次語義信息的全局特征，從而提高小目標行人的識別率；其次利用PCB分支提取深層局部特征來挖掘行人的非顯著信息，并減輕行人遮擋和姿態多變性對識別率的影響；最后在訓練階段將兩個分支網絡分別提取的行人特征通過Softmax損失函數得到不同子損失，并把它們相加進行聯合表示；在測試階段將獲得的全局特征和深層局部特征拼接融合，并計算歐氏距離得到再識別匹配結果。該方法在Market1501和DukeMTMC-Reid 數據集上的Rank-1的準確率分別達到了95.1%和89.1%，與原始EfficientNet-B1主干結構相比分別提高了3.9個百分點和2.3個百分點。實驗結果表明，所提出的模型有效提高了行人再識別的準確率。

行人再識別；EfficientNet；局部特征提取；多尺度特征提取；聯合學習

0 引言

行人再識別（Person Re-identification）是指在非重疊視域的多攝像頭網絡中進行的行人匹配，即當一個行人的圖像在某一時刻被攝像頭捕獲后，根據該圖像可檢索該網絡其他區域中是否還有該行人的蹤跡，因此也被稱為非重疊視域攝像頭網絡中的行人檢索問題［1］。行人再識別在智能監控、公共安全、身份認證等方面有重要的研究意義。

行人再識別方法分為傳統的方法和基于深度學習的方法。傳統的方法，主要采取手工設計算法提取特征，由于數據量過大和采集的行人圖像分辨率較低，使得傳統方法在行人再識別上遇到瓶頸。近年來基于深度學習的方法在行人再識別領域取得較好表現。

由于行人圖像抓拍中存在差異，如行人大小、圖像分辨率、視角、遮擋等，導致提取的行人特征直接影響行人再識別的精度。因此，如何有效且準確提取行人特征是實現行人再識別的關鍵［2］。

文獻［3］中提出用卷積神經網絡（Convolutional Neural Network， CNN）組成的孿生網絡構建行人再識別驗證模型和識別模型，同時計算分類損失和驗證損失。但這種單一利用全局特征表示的方法容易忽略人體不顯著的細節信息，導致行人再識別準確率低。為了充分利用行人圖片各部位之間相關性較小、局部特征之間互補性較強的特點，Sun等［4］提出了PCB（Part-based Convolutional Baseline）分塊模型，通過對圖片進行分割來提取行人局部特征，以減小視頻和圖片中遮擋行人和姿態多變對識別率的影響。Zheng等［5］則基于金字塔模型，通過不同尺度的水平劃分來學習多尺度的局部和全局特征，并對這些特征聯合學習，提高行人再識別的性能。文獻［6］中建立了行人再識別的多尺度融合網絡，以ResNet50作為主干網絡，結合特征金字塔（Feature Pyramid Network， FPN）結構來提取不同尺度的全局特征，以提高行人再識別的準確率。

為進一步提高行人再識別的準確率，本文結合雙向特征金字塔（Bidirectional Feature Pyramid Network， BiFPN）多尺度特征融合網絡［7］和PCB算法思想，建立了一種基于高效網絡EfficientNet［8］的雙分路多尺度聯合學習模型。首先對行人數據集進行數據增強和擴充，以避免模型訓練中出現過擬合現象，提高網絡模型的魯棒性；其次采用EfficientNet-B1（EfficientNet-Baseline1）作為主干結構，利用其強大的分類能力和高計算效率，通過更深的網絡層實現特征提取；然后通過加權雙向特征金字塔網絡（BiFPN）多尺度融合分支，得到包含不同層次語義信息的全局特征，以提高小目標行人的識別率；在PCB局部特征提取支路，利用均分策略對深層全局特征進行水平切割，得到深層局部特征來挖掘行人的非顯著信息，以減小行人遮擋和姿態多變對識別率的影響。在訓練階段將兩個分支網絡提取的全局特征和深層局部特征分別通過Softmax損失函數進行分類訓練；而在預測行人階段，對所獲得的不同尺度全局特征和深層局部特征進行拼接融合，再進行相似度匹配得到行人再識別結果。

1 網絡結構

本文網絡模型如圖1所示，主要分為3個模塊，即以MBConv（Mobile inverted Bottlenneck Convolution）移動倒置瓶頸卷積模塊組成的EfficientNet-B1特征提取主干結構、BiFPN多尺度特征融合支路［9］和PCB局部特征提取支路。首先對行人數據集進行預處理，利用圖片翻轉、隨機擦除進行數據增強和擴充；再通過EfficientNet-B1主干結構進行特征提取，從主干結構中提取4（48×24）、5（24×12）、6（24×12）這3個特征圖，對6經過兩次下采樣后分別得到7（12×6）、8（6×3）這2個特征圖，然后將4，5，…，8輸入到BiFPN支路進行特征融合，輸出_4_5，…，_8這5個包含多層語義信息的全局特征。而6經過1×1卷積后得到特征圖，輸入PCB局部特征提取支路得到0、1、2、3四個深層局部特征。在訓練階段將兩個分支網絡提取的全局特征和深層局部特征分別通過Softmax損失函數進行分類訓練，得到9個子損失（Loss）并相加進行聯合表示；而在預測行人階段，對所獲得的不同尺度全局特征和深層局部特征進行拼接融合得到行人特征，并計算歐氏距離得出行人再識別結果。

圖1　基于EfficientNet的雙分路多尺度聯合學習網絡結構

1.1　數據預處理

為避免網絡模型訓練出現過擬合和提高遮擋行人的識別率，實驗中采用隨機翻轉和隨機擦除的方法，對數據集進行了擴充和增強處理。先將圖片歸一化為384×192，然后對輸入圖片以一定概率隨機水平翻轉來增強圖像的差異性并進行數據擴充，采用文獻［10］的隨機擦除（Random Erasing Augmentation， REA）方法來增加遮擋圖像的數據量。

經REA處理的數據效果如圖2所示，圖2（a）為數據集原始圖像，圖2（b）為經過REA的圖像。

將隨機翻轉和隨機擦除預處理后的圖片加入到原數據集，實現對數據集的增強及擴充，行人圖片數量擴充為原來的兩倍，能有效防止因數據集過小且圖片過于單一而帶來的模型過擬合問題，并且能提高模型對遮擋行人的識別率。

圖2　隨機擦除后的數據集圖像效果

1.2　EfficientNet-B1的特征提取

通常采用深層CNN提取行人特征信息，訓練時間長，也易導致梯度爆炸或消失。本文模型采用具有少量模型參數且保持較高分類準確率的EfficientNet-B1［8］對行人特征進行提取，具體原理如圖1的虛框所示，對輸入的圖像首先用卷積核為3×3、步長為2的Conv1進行淺層特征提取，再加入 BN（Batch Normalization）層進行批量歸一化，加快網絡訓練的收斂防止過擬合，經過Swish激活函數并產生192×96大小的特征圖，通道數為32；接著采用7個由移動倒置瓶頸卷積（MBConv）模塊重復堆疊的結構M1，M2，…，M7串聯進行深層特征提取，其中MBConv1模塊和MBConv6模塊結構基本相同，區別是MBConv6模塊的卷積運算中會將輸入特征矩陣的通道擴充6倍。去掉M6中的空間下采樣操作，將改為1，以增大最終模型提取特征的感受野，增加輸出特征圖的大小，便于接入的PCB局部特征提取支路對圖片分割處理。通過EfficientNet-B1模塊提取的多尺度特征4（48×24）、5（24×12）、6（24×12）這3個特征圖與6經過兩次下采樣分別得到7（12×6）和8（6×3），用作BiFPN多尺度全局特征融合分支的輸入，而6經過卷積核大小為1×1的卷積層處理后輸出大小為24×12通道為1 280的特征圖作為PCB局部特征提取支路的輸入。

采用Swish函數作為EfficientNet-B1主干結構的激活函數，以加快網絡訓練的收斂防止梯度消失和過擬合，表達式如式（1）所示：

EfficientNet-B1主要由MBConv模塊組成。MBConv模塊對輸入特征圖進行卷積計算，獲得特征圖全部像素點之間的相關信息，進而提取全局特征。以圖1中M2的MBConv6模塊為例，特征提取過程如圖3所示。

圖3　MBConv6模塊

經過M1后產生192×96大小的特征圖，通道數為16，進入M2中的MBConv6模塊后先通過Conv2D（1×1）卷積將通道擴展為原來的6倍，再經過BN歸一化處理和Swish激活函數后，進入卷積核大小為3×3、步長為2、通道數為64卷積層進行深度卷積，再次經BN歸一化處理和Swish函數激活后，輸出大小為96×48且通道數為64的特征圖1、2。該模塊引入了壓縮與激發網絡（Squeeze-and-Excitation Network，SENet）［11］的注意力思想，更能關注信息量大的通道特征，而抑制不重要的通道特征，使提取到的行人特征向量更準確地表達行人，以提高識別精度。2在SENet模塊中先全局平均池化（Global Average Pooling，GAP）輸出1×1×64的特征圖，再經過卷積核大小為1×1通道為16維的卷積層后降維輸出大小為1×1×16的特征圖，經過Swish激活函數后用通道數為64的卷積層進行升維，輸出大小為1×1×64的特征圖，之后用Sigmoid激活函數進行激活。SENet模塊輸出的特征圖3（1×1×64）與特征圖1（96×48×64）共同輸入到卷積核大小為1×1通道數為24的卷積層，即1與3相乘后得到96×48×64的特征圖4進行卷積運算，再經過BN歸一化處理和Dropout處理后輸出大小為96×48×24的特征圖5。MBConv6模塊引入了殘差模塊的短接路徑，使梯度在非常深的網絡中連貫地傳播防止梯度疊加，以解決模型卷積層數過多而帶來的梯度消失與梯度爆炸問題，特征圖5和短接的特征圖相加作為MBConv6模塊的輸出并進入后續的MBConv6模塊處理。

在EfficientNet-B1模塊，經過多次MBConv6模塊的類似處理和下采樣，分別提取得到特征圖4（48×24）、5（24×12）、6（24×12）、7（12×6）和8（6×3），用作BiFPN多尺度全局特征融合分支的輸入部分；6經過大小1×1的卷積層處理后輸出大小為24×12通道為1 280的特征圖作為PCB局部特征提取分支的輸入。

1.3　BiFPN多尺度全局特征融合支路

視頻圖像中如果行人目標太小，會造成EfficientNet-B1提取的特征信息忽略行人信息，導致識別率下降。本文采用BiFPN多尺度特征融合［7］，利用跨尺度連接（Cross-Scale Connection）和加權特征融合（Weighted Feature Fusion），得到包含高層和底層語義信息的全局特征，以提高小目標行人的識別率。

具體原理如圖4所示。4、5、6、7、8，經過1×1卷積且全局池化后獲得特征圖_4、_5、_6、_7、_8，對8進行上采樣后與_7堆疊得到_7；對_7進行上采樣后與_6進行堆疊得到_6；對_6進行上采樣后與_5進行堆疊得到_5，以此類推，分別獲得特征圖_4、_5、_6、_7、_8。這里以_7、_7為例，具體運算如式（3）（4）所示：

經過BiFPN支路的多尺度特征融合，輸出_4、_5、_6、_7、_8這5個包含高層和低層語義信息的全局特征。在識別小目標行人的情況下融合后的全局特征能更好地表達行人信息，以此來提高識別準確率。

圖4　BiFPN結構

1.4　PCB局部特征提取支路

通常行人各部位之間的相關性較小，局部特征之間互補性較強，利用PCB算法進行局部特征提取并進行行人匹配，可有效減小遮擋行人和姿態多變對識別率的影響，提高行人再識別的精度［4］。具體流程如圖5所示。

圖5中，輸入大小為384×192的圖像經過EfficientNet-B1主干結構特征提取后得到24×12的特征圖，通道數為1 280。在PCB支路將特征圖進行水平方向等距分割成4份，即4個空間大小為6×12的特征圖，然后分別進行平均池化得到4個維度為1 280的列向量，使用1×1卷積將4個列向量通道數降維成512，經過BN層和Dropout處理后得到4個維度為512的列向量，從而得到行人的深層局部特征。

圖5　PCB局部特征提取流程

1.5　多尺度聯合的行人分類輸出

圖1中，BiFPN支路進行多尺度特征融合輸出的5個全局特征_4、_5、_6、_7、_8，和PCB支路提取的4個深層局部特征0、1、2、3，經過全局池化、BN層和Dropout層處理后得到9個維度為512的列向量。在模型訓練中，每個列向量分別輸入到9個由權值參數不共享的FC全連接層（Fully-Connected layer）和Softmax函數構成的分類器中，每個分類器由交叉熵損失函數監督并輸出圖像的ID（Identity Document），從而得到9個子損失：0，1，…，8，模型的最終為9個子之和。其中Loss為交叉熵損失函數，如式（5）所示：

其中：表示標簽向量，p表示FC層輸出的概率值。

在模型測試階段，將測試圖片通過本文模型提取到的5個全局特征向量和4個局部特征向量進行拼接融合得到一個4 608維的行人特征并與測試集中的其他行人特征通過計算歐氏距離進行行人匹配，并輸出行人再識別結果。

2 實驗結果與分析

2.1　實驗數據集

實驗分別在數據集Market1501［12］和DukeMTMC-Reid［13］上進行。Market1501包含從6個不同攝像頭拍攝到的1 501個行人：訓練集有751個行人，共12 936張圖片；測試集有751個行人，共19 732張圖片。Duke數據集包含1 404個行人：訓練集含702個行人，共16 522張行人圖片；測試集包含702個行人，共17 661張行人圖片。數據集包含有姿態變化、光照變化、遮擋、小目標等行人圖片，符合實際應用場景中常見的情況。

2.2　實驗設置與評估

實驗在Windows 10系統下進行，計算機配置為NVIDIA GeForce GTX1060Ti顯卡，使用PyTorch深度學習框架，共做了三類實驗，第一類是不同主干網絡的對比實驗，在5組卷積神經網絡中選出性能最佳的主干網絡；第二類實驗是在選用EfficientNet-B1作為主干結構的基礎上，分析數據預處理和BiFPN支路提取的全局特征對網絡模型輸出結果的影響；第三類實驗是在第二類實驗的基礎上采用PCB方法提取深層局部特征并得出最優分割方法。

2.3　不同主干網絡實驗結果對比

為了驗證EfficientNet-B1網絡在少量模型參數的情況下的高準確率，采用5個常用的卷積神經網絡作為主干網絡并在有數據預處理的情況下進行行人再識別，選用Market1501數據集進行實驗對比，結果如表1所示。

表1實驗結果表明EfficientNet-B1網絡相對于其他網絡的行人再識別精度最高，且除MobileNet-V3以外參數量（Params）最小。由此得出EfficientNet-B1網絡能夠在少量模型參數的情況下同時保持較高的行人再識別準確率，因此本文模型選用EfficientNet-B1作為主干結構。

表15種主干網絡的行人再識別性能對比

Tab.1　Pedestrian re-identification performance comparison of five backbone networks

2.4　數據預處理和采用BiFPN支路的識別結果對比

在選用EfficientNet-B1作為主干結構的基礎上，本文做了第2類實驗，以驗證數據預處理和引入BiFPN多尺度特征融合支路對網絡模型輸出結果的影響。數據預處理采用隨機翻轉、隨機擦除的數據增強和擴充。圖6給出了在原始和預處理后的Market1501數據集的損失曲線比較，由圖可見原始數據集的測試集損失在0.5時趨向于平穩，而預處理后數據集的測試集損失在0.4時趨向于平穩，表明數據預處理有效地改善了模型過擬合。

圖6　原始和預處理后的數據集損失曲線對比

表2前三行數據列出了在Market1501數據集中EfficientNet-B1主干網絡在無數據預處理和在數據預處理的情況下引入BiFPN多尺度特征融合處理后的實驗結果。為驗證BiFPN支路對小目標行人識別結果的影響，如圖7所示，手工選取Market1501數據集中行人占據圖片面積較少的小目標行人圖片作為驗證集的行人檢索對象，并在表2后3行列出在此條件下的實驗結果。

圖7　小目標行人圖片

表2實驗結果表明采用數據預處理通過數據增強和擴充數據集后，可以有效防止過擬合，提高了行人再識別的準確率。以小目標行人為檢索對象的情況下，引入BiFPN支路后Rank-1達到86.3%，比數據增強和擴充條件下提高了3.9個百分點；常規行人檢索情況下，引入BiFPN支路后Rank-1達到了92.4%，比數據增強和擴充條件下提高了1.2個百分點。實驗結果表明，引入BiFPN多尺度特征融合處理使全局特征包含底層和高層語義信息，有利于改善小目標行人識別準確率，進一步提高了行人再識別準確率。

表2數據預處理和BiFPN對識別結果的影響單位： %

Tab.2　Influence of data preprocessing and BiFPN on identification results unit：%

2.5　PCB算法中不同局部特征分割方式對實驗結果的影響

為減小遮擋和行人姿態多變對識別率的影響，在第2類實驗的基礎上，引入PCB算法提取深層局部特征，并驗證特征圖的最優分割方式。此時模型使用EfficientNet-B1進行預處理，并采用BiFPN支路提取全局特征，經EfficientNet-B1輸出特征圖尺寸為24×12。用表示PCB支路提取的局部特征數量。基于不同在 Market1501與 DukeMTMC-Reid 上的行人再識別率Rank-1實驗結果如表3所示。

表3　不同L情況下Market1501和DukeMTMC-Reid數據集上的行人再識別結果單位：%Tab.3　Pedestrian re-identification results on Market1501 and DukeMTMC-Reid datasets under different Lunit：%

由表3可見，采用PCB局部特征提取Rank-1明顯高于表2結果。表明通過PCB支路來挖掘行人的非顯著信息對行人再識別的性能有顯著提高。另外，特征圖的不同分割方式，會影響網絡的行人再識別性能。當=4時，PCB對特征圖分割數為4，本文模型取得較好的識別性能，Rank-1達到95.1%。

2.6　本文方法與其他方法的比較

為了驗證本文方法的有效性，在 Market1501和DukeMTMC-Reid兩種數據集上與其他先進方法進行比較，其中包括IDE（ID-disciminative Embedding）［15］、PCB、PCB+RPP（Refined Part Pooling）［4］、HPM（Horizontal Pyramid Matching）［16］和MGN（Multiple Granularity Network）［17］等先進方法。結果如表4所示。

表4　本文方法與其他方法的行人再識別準確率比較單位：%

由表4可以看出，本文方法在Market1501數據集上的Rank1和mAP分別為95.1%和86.3%；在DukeMTMC-Reid數據集上的Rank1和mAP分別達到了89.1%和77.2%。與主干結構為ResNet50的IDE、PCB、HSP等方法相比在2個數據集上識別效果顯著提升。MGN方法用PCB方法在多個融合后的特征上進行局部特征提取，識別效果優于在單個融合特征上用PCB方法進行局部特征提取的本文方法。實驗結果表明，本文方法將局部特征圖提取和多尺度特征融合兩種方法進行結合，可得到更好的實驗結果。

2.7　行人再識別可視化結果

本文方法采用了數據增強和擴充，利用BiFPN多尺度特征融合提取包含多層語義信息的全局特征改善了小目標行人識別效果，利用PCB局部特征提取改善了遮擋行人識別效果，行人再識別率有所提高。為了驗證本文模型對小目標行人和遮擋行人識別率的改善情況，選取Market1501查詢集中的遮擋和小目標兩類行人使用第一類實驗中EfficientNet-B1方法和本文模型進行行人再識別檢索，并將檢索結果中的前10張圖片可視化，如圖8所示，排序數字后加字母R表示為檢索結果正確，加字母W則代表檢索結果錯誤。從圖8可觀察到：圖8（a）圖片1到5是識別正確的圖片，圖8（b）相比圖8（a）多出圖片6和8兩個正確結果，且圖8（b）的第8張圖片也屬于小目標行人；圖8（c）中第4、5、8、10張圖片是識別錯誤的圖片，圖8（d）只有第9張圖片是識別錯誤的圖片，相比圖8（c）多出3個正確結果。由此可以得出在小目標行人和遮擋行人識別方面，本文方法優于第一類實驗中的EfficientNet-B1方法。驗證了本文建立的方法可以有效地改善遮擋行人和小目標行人對識別率的影響，由此提高了行人再識別的準確率。

圖8　行人再識別可視化結果

3 結語

本文建立了一種基于EfficientNet的雙路多尺度聯合學習行人再識別方法，首先采用隨機翻轉和隨機擦除的方法，對數據集進行增強和擴充處理；然后通過EfficientNet-B1主干結構進行行人特征提取，采用BiFPN支路進行多尺度特征融合來豐富全局特征的語義信息，以提高小目標識別率，采用PCB支路進行深層局部特征提取，以解決遮擋行人和姿態多變對識別的影響；最后將兩個支路提取的特征在訓練和測試采用不同策略進行聯合學習，并輸出識別結果。本文在兩個不同的行人再識別數據集上進行了實驗，在Market1501數據集和DukeMTMC-Reid 數據集上Rank-1的準確率分別達到了95.1%和89.1%的識別精度，高于多數主流方法，驗證了本文方法的有效性。本文方法雖在精度方面有所提升，但在實時性和實用性方面都比較欠缺，可利用更高效的特征提取網絡把行人檢測和行人再識別相結合起來，尋求更優的行人再識別解決方案。

[1] 劉娜. 基于卷積神經網絡的行人重識別算法［D］. 上海：華東師范大學， 2017：977-983.（LIU N. Person re-identification based on convolutional neural networks［D］. Shanghai： East China Normal University， 2017：977-983.）

[2] 李姣，張曉暉，朱虹，等. 多置信度重排序的行人再識別算法［J］. 模式識別與人工智能， 2017， 30（11）：995-1002.（LI J， ZHANG X H， ZHU H， et al. Person re-identification via multiple confidences re-ranking［J］. Pattern Recognition and Artificial Intelligence， 2017， 30（11）：995-1002.）

[3] AHMED E， JONES M， MARKS T K. An improved deep learning architecture for person re-identification［C］// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2015： 3908-3916.

[4] SUN Y F， ZHENG L， YANG Y， et al. Beyond part models： person retrieval with refined part pooling （and a strong convolutional baseline）［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11208. Cham： Springer， 2018：501-518.

[5] ZHENG F， DENG C， SUN X， et al. Pyramidal person re-identification via multi-loss dynamic training［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 8506-8514.

[6] HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 770-778.

[7] ZHANG J P， JIANG F. Multi-level supervised network for person re-identification［C］// Proceedings of the 2019 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway： IEEE， 2019： 2072-2076.

[8] TAN M X， LE Q V. EfficientNet： rethinking model scaling for convolutional neural networks［C］// Proceedings of the 36th International Conference on Machine Learning. New York： JMLR.org， 2019： 6105-6114.

[9] TAN M X， PANG R M， LE Q V. EfficientDet： scalable and efficient object detection［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020：10778-10787.

[10] ZHONG Z， ZHENG L， KANG G L， et al. Random erasing data augmentation［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 13001-13008.

[11] HU J， SHEN L， ALBANIE S， et al. Squeeze-and-excitation networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（8）： 2011-2023.

[12] RISTANI E， SOLERA F， ZOU R， et al. Performance measures and a data set for multi-target， multi-camera tracking［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9914. Cham： Springer， 2016： 17-35.

[13] LI W， ZHAO R， XIAO T， et al. DeepReID： deep filter pairing neural network for person re-identification［C］// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2014： 152-159.

[14] KINGMA D P， BA J L. Adam： a method for stochastic optimization［EB/OL］. （2017-01-30）［2020-01-20］.https：//arxiv.org/pdf/1412.6980.pdf.

[15] ZHENG Z， ZHENG L， YANG Y. A discriminatively learned CNN embedding for person re-identification［EB/OL］. （2016-11-17）［2020-02-21］. https：//arxiv.org/pdf/1611.05666.pdf.

[16] FU Y， WEI Y C， ZHOU Y Q， et al. Horizontal pyramid matching for person re-identification［C］// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2019： 8295-8302.

[17] WANG G S， YUAN Y F， CHEN X， et al. Learning discriminative features with multiple granularities for person re-identification［C］// Proceedings of the 26th ACM International Conference on Multimedia. New York： ACM， 2018： 274-282.

QIU Tianhao， born in 1997， M. S. candidate. His research interests include image processing， pattern recognition.

CHEN Shurong， born in 1972， M. S， associate professor. Her research interests include modern communication network and control， image and video analysis and processing.

EfficientNet based dual-branch multi-scale integrated learning for pedestrian re-identification

QIU Tianhao*， CHEN Shurong

（，，201306，）

In order to deal with the problem of low pedestrian re-identification rate in video images due to small target pedestrians， occlusions and variable pedestrian postures， a dual-channel multi-scale integrated learning method was established based on efficient network EfficientNet. Firstly， EfficientNet-B1 （EfficientNet-Baseline1） network was used as the backbone structure. Secondly， a weighted Bidirectional Feature Pyramid Network （BiFPN） branch was used to integrate the extracted global features at different scales. In order to improve the identification rate of small target pedestrians， the global features with different semantic information were obtained. Thirdly， PCB （Part-based Convolutional Baseline） branch was used to extract deep local features to mine non-significant information of pedestrians and reduce the influence of pedestrian occlusion and posture variability on identification rate. Finally， in the training stage， the pedestrian features extracted by the two branch networks respectively were calculated by the Softmax loss function to obtain different subloss functions， and they were added for joint representation. In the test stage， the global features and deep local features obtained were spliced and fused， and the Euclidean distance was calculated to obtain the pedestrian re-identification matching results. The accuracy of Rank-1 of this method on Market1501 and DukeMTMC-Reid datasets reaches 95.1% and 89.1% respectively， which is 3.9 percentage points and 2.3 percentage points higher than that of the original backbone structure respectively. Experimental results show that the proposed model improves the accuracy of pedestrian re-identification effectively.

pedestrian re-identification; EfficientNet; local feature extraction; multi-scale feature extraction; integrated learning

TP391.4

1001-9081（2022）07-2065-07

10.11772/j.issn.1001-9081.2021050852

2021?05?24；

2021?09?18；

2021?09?24。

仇天昊（1997—），男，江蘇徐州人，碩士研究生，主要研究方向：圖像處理、模式識別；陳淑榮（1972—），女，山西稷山人，副教授，碩士，主要研究方向：現代通信網絡及控制、圖像和視頻分析處理。

基于EfficientNet的雙分路多尺度聯合學習行人再識別

0 引言

1 網絡結構

1.1 數據預處理

1.2 EfficientNet-B1的特征提取

1.3 BiFPN多尺度全局特征融合支路

1.4 PCB局部特征提取支路

1.5 多尺度聯合的行人分類輸出

2 實驗結果與分析

2.1 實驗數據集

2.2 實驗設置與評估

2.3 不同主干網絡實驗結果對比

2.4 數據預處理和采用BiFPN支路的識別結果對比

2.5 PCB算法中不同局部特征分割方式對實驗結果的影響

2.6 本文方法與其他方法的比較

2.7 行人再識別可視化結果

3 結語

1.1　數據預處理

1.2　EfficientNet-B1的特征提取

1.3　BiFPN多尺度全局特征融合支路

1.4　PCB局部特征提取支路

1.5　多尺度聯合的行人分類輸出

2.1　實驗數據集

2.2　實驗設置與評估

2.3　不同主干網絡實驗結果對比

2.4　數據預處理和采用BiFPN支路的識別結果對比

2.5　PCB算法中不同局部特征分割方式對實驗結果的影響

2.6　本文方法與其他方法的比較

2.7　行人再識別可視化結果