王楠 吳健 盧杏堅 鐘震宇 黃凱
學術研究
一種針對復雜場景的行人再識別優化方法*
王楠 吳健 盧杏堅 鐘震宇 黃凱
(廣東省科學院智能制造研究所/廣東省現代控制技術重點實驗室,廣東 廣州 510070)
針對室外場景中,因攝像頭角度不統一、室外光照多變等因素導致行人難識別的問題,提出一種針對復雜場景的行人再識別優化方法。通過在ResNet的淺層嵌入實例-批歸一化層和空間變換網絡,引入Mish激活函數,構建改進的ResNet-50特征提取骨干網絡,建立面向復雜場景的行人再識別模型。經在MSMT17數據集上驗證,rank-1和分別達到79.8%、58.5%,說明了該算法的有效性。
復雜場景;行人再識別;實例-批歸一化;空間變換網絡;Mish激活函數
公共安全是國家安全的重要組成部分,安防監控系統的規模化普及,構建了良好的社會治安防控體系。安防監控系統中大量的監控設備帶來海量視頻數據,傳統基于人工的視頻分析方式耗時費力,已無法滿足高效、快速處理的實際需求。隨著計算機視覺技術快速發展,其在眾多領域大放異彩[1-3],尤其在公共安全的識別、定位、檢測等方面,取得了令人矚目的成績。其中人臉識別、指紋識別為最典型的應用,但多適用于支付、銀行、門禁等近距離約束場景,在跨域遠距離監控系統中難以應用。
行人再識別技術是近年來提出的更具挑戰性的計算機視覺任務,旨在對處于不同位置且不同監控攝像頭里的指定人員進行身份信息檢索。行人再識別技術以整個行人的特征作為相似性度量的依據,且行人特征不受面部遮擋、低頭或背對攝像頭的影響,識別準確率更高,可應用于行人查找、追蹤等領域,能顯著提升破案偵查、行人追蹤等效率,對維護公共安全和社會穩定具有重要意義。
近年來,許多專家學者對行人再識別技術開展相關研究。FARENZNA等采用將人體分為多個小部塊的方式進行行人再識別研究[4]。PEDAGADI等利用局部線性判定分析方法進行行人再識別[5]。魯臣等采用串聯多個特征層的方式,將最后深層特征和淺層特征利用特征層融合的機制提取行人圖像特征[6]。潘少明等采用圖卷積神經網絡的行人再識別方法,將一個域的數據信息遷移到目標域的數據中,提升了模型跨域能力[7]。陳瑩等基于深度學習框架,提出一種困難樣本的三元組損失的行人再識別網絡,以身份和屬性標簽的方法獲得更多行人判別[8]。
盡管以上專家學者利用行人再識別技術在公共安全領域做了很多探索并取得一定成效,但當前方法存在2個問題限制了其在實際場景的應用。1)光照干擾。在實際場景下,跨域遠距離監控系統通常由多個攝像頭獲取監控圖像,不同地點的攝像頭可能處于不同的光照亮度下,導致獲取的圖像具有不同的光照強度,給檢測模型帶來一定誤差,影響檢測精度。2)角度多變。為監控特定區域,同一地點的攝像頭可能有不同的安裝角度,導致圖像中的人物存在視覺畸變現象和圖像特征差異性大的問題,使跨域遠距離監控系統因誤判而丟失目標。
針對上述問題,本文提出一種針對復雜場景的行人再識別方法。首先,采用改進的Mosaic數據增強方法生成背景復雜的行人圖像,增加網絡對復雜場景的魯棒性;然后,設計基于實例-批歸一化(instance- batch normalization, IBN)[9]的行人圖像矯正網絡和基于空間變換網絡(spatial transformer network, STN)[10]的行人特征空間變換網絡,提升網絡的外觀變化適應性和空間不變性;接著,采用Mish激活函數優化網絡激活函數;最后,構建改進的ResNet行人再識別模型進行訓練。
MSMT17數據集包含15個攝像頭(室外12個、室內3個);覆蓋一個月內不同的天氣;每天采樣3 h,涵蓋早、中、晚3個時段;共采集4101個行人,其中訓練集包括1 041個行人,測試集包括3 060個行人。該數據集具有如下特點:行人和攝像頭數量多;場景和背景更加復雜;光照變化更為復雜;較接近真實場景。因此,本文選擇MSMT17數據集作為訓練集和測試集。
為提高數據的魯棒性和多樣性,采用改進的Mosaic數據增強方法對行人再識別數據集進行背景復雜化。隨機選取4幅行人圖像,分別對這些圖像作如下4種操作:
1)亮度增強。考慮到室外場景的光照變化,對圖像進行整體的亮度提升。
2)隨機旋轉。設置隨機旋轉角度為10°~60°,隨機翻轉圖像。
3)水平翻轉。通過水平翻轉圖像的方式改變圖像的特征分布。
4)縮放。減小原始圖像尺寸,使數據多樣化。
將處理后的4幅圖像進行拼接,形成Mosaic增強后的圖像。圖像增強前后對比圖如圖1所示。

圖1 圖像增強前后對比圖
針對室外復雜場景下光照變化導致行人衣著顏色改變、行人姿態多樣等特點,設計基于IBN的行人圖像矯正網絡和基于STN的行人特征空間變換網絡,引入Mish激活函數,重構基于IBN和STN改進的ResNet-50特征提取骨干網絡,增強網絡對行人外觀變化的抗干擾能力,提高網絡在跨域場景下的魯棒性。基于改進的ResNet行人再識別模型結構如圖2所示。
在訓練階段,利用改進的Mosaic數據增強方法對訓練集進行數據增強;以訓練集為輸入,STN自適應調整行人異常姿態;STN提取的特征輸入改進的ResNet-50特征提取骨干網絡,該網絡由5個模塊組成,均嵌入IBN模塊,以提升網絡因光照變化而引發的外觀變化的適應性;用Mish激活函數代替殘差模塊中的ReLU激活函數,解決負輸入失效問題。

圖2 基于改進的ResNet行人再識別模型結構
行人再識別模型因行人姿態和視角不同可能出現行人特征無法匹配的現象,導致其難以在室外真實場景下部署。圖3(a)為同一行人在同一攝像頭下表現出雙腿打開/交叉、打電話/低頭、手部彎曲等姿態;圖3(b)為一個行人由遠到近的視角變化。因STN具有平移不變性和旋轉不變性的特點,故本文利用STN自適應(旋轉、平移、縮放等)調整行人姿態異常,并基于ResNet-50網絡,構建基于STN的行人特征空間變換網絡。

圖3 行人姿態和視角變化
基于STN的行人特征空間變換網絡由定位網絡(Localization net)、網絡生成器(Grid generator)、采樣器(Sampler)3個基本模塊構成,如圖2所示。


然后,在網絡生成器中,根據式(2)得到優化后的輸入圖像:

在室外真實場景下,光照隨時間變化,不同強度的光照照射在行人身上,會發生不同程度的“變色”現象,如圖4所示。

圖4 室外光照變化引發的“變色”現象
行人外觀變化會影響行人再識別模型的準確度。此外,當訓練數據集和測試數據集有較大的外觀差異時,模型性能也會顯著下降。如數據集中目標光線強烈,訓練得到的模型學習了光線強烈的特征,在模型對光線昏暗的數據進行測試時,測試效果較差。為此,本文提出基于IBN的行人圖像矯正網絡,提升模型對圖像外觀變化的適應性。
嵌入IBN的殘差模塊如圖5所示。

圖5 嵌入IBN的殘差模塊
首先,經過卷積層的特征向量被平分為2組;然后,分別經過IN層和BN層再拼接在一起,以提升模型的學習能力和泛化能力。考慮室外真實場景下,行人再識別數據集中的數據存在跨域問題,將IBN層嵌入到ResNet網絡,用于提升模型在外觀變化下的適應能力。
相比于Sigmoid、ReLU、Tanh這3種激活函數,Mish激活函數能在一定程度上解決梯度消失問題;而且相比于ReLU激活函數,Mish激活函數存在一小段負區間,解決了負輸入失效問題。
Mish激活函數表達式為

Mish激活函數沒有上界有下界,沒有上界避免了由于封頂而導致的飽和問題;有下界有助于加快訓練過程,且具有較好的光滑性,可提升泛化能力和優化能力,提高結果質量。因此,本文使用Mish激活函數代替殘差模塊中的ReLU激活函數,提高模型的泛化能力。
實驗在Linux系統Visual Studio Code環境下,基于pytorch深度學習框架,采用python語言編程完成。實驗平臺硬件配置:英特爾i7-7700HQ處理器、Nvidia GeForce GTX2080、AOC顯示器。本文基于改進的ResNet行人再識別模型的超參數設置如表1所示。

表1 基于改進的ResNet行人再識別模型的超參數設置
基于改進的ResNet行人再識別模型性能評價指標主要包括rank-和平均精度均值(mean average precision, mAP),其中rank-表示排序前位中含有正確行人的概率。
在單目標分類任務中,通常給定查詢圖像,然后在測試集中通過距離度量函數計算圖像相似度。計算公式為



式中,為標簽為真,預測為真的數量;為標簽為真,預測為假的數量;為該類別圖像數量;為查詢類別的數量;為平均準確率(average precision, AP);為精確率(precision)。
3.3.1 復雜光照條件下的實驗結果分析
為驗證本文方法的實用性,采用多重粒度網絡(multiple granularity network, MGN)、ResNet-50+ CircleLoss這2種常用的行人再識別方法與本文提出的方法進行對比測試。此外,考慮到MSMT17測試集中圖像光照的多變性,首先,對MSMT17測試集中過暗的圖像進行亮度增強,過亮的圖像進行亮度消減,處理流程如圖6所示;然后,采用基于改進的ResNet行人再識別模型進行測試,測試結果如表2所示。

圖6 MSMT17測試集光照處理流程圖

表2 3種方法測試結果
由表2可知,經過光照處理后,本文基于改進的ResNet行人再識別模型的rank-1和分別比未經過光照處理的實驗高0.8%和0.7%,說明本文方法對光照變化復雜的場景具有一定的作用。
3.3.2 復雜光照條件下的綜合對比分析
為綜合對比本文基于改進的ResNet行人再識別模型對光照干擾和角度變化的處理效果,采用MGN、ResNet-50+CircleLoss兩種常用的行人再識別方法進行對比分析,測試結果如表3所示。

表3 2種方法測試結果
由表3可知:經過光照、異常姿態處理后的數據集作為基于改進的ResNet行人再識別模型的測試數據集,rank-1分別高于MGN和ResNet-50+CircleLoss方法2.9%和3.5%;分別高于MGN和ResNet-50+ CircleLoss方法6.4%和8.3%。
由此可以得出結論,本文方法對于光照干擾和角度變化下的復雜場景具有一定的改善效果。
本文提出基于改進的ResNet行人再識別模型,在ResNet的淺層嵌入IBN和STN,提升網絡的外觀變化適應性和空間不變性;采用改進的Mosaic數據增強方法模擬復雜背景,增加數據集的多樣性;同時使用Mish激活函數替換ReLU激活函數。在MSMT17數據集上rank-1和分別達到79.8%和58.5%,驗證了算法的有效性。
[1] 雷歡,吳亮生,焦澤昱,等.果園環境中成熟楊梅自動檢測方法研究[J].自動化與信息工程,2021,42(3):9-14,26.
[2] HUANG K, LEI H, JIAO Z, et al. Recycling Waste Classifica-tion Using Vision Transformer on Portable Device[J]. Sustaina-bility, 2021,13(21):11572.
[3] 游青山,冉霞.基于機器視覺的礦井作業人員行為監測及違章識別系統[J].自動化與信息工程,2021,42(4):20-24.
[4] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features [C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010:2360-2367.
[5] PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian re-identification [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013.
[6] 賈熹濱,魯臣,Siluyele Ntazana,等.行人再識別中的多尺度特征融合網絡[J].北京工業大學學報,2020,46(7):788-794.
[7] 潘少明,王玉杰,種衍文.基于圖卷積神經網絡的跨域行人再識別[J].華中科技大學學報(自然科學版),2020,48(9):44-49.
[8] 陳巧媛,陳瑩.基于困難樣本三元組損失的多任務行人再識別[J].計算機輔助設計與圖形學學報,2019,31(7):1156-1165.
[9] ULYANOV D, VEDALDI A, LEMPITSKY V. Instance nor-malization: The missing ingredient for fast stylization[J]. arXiv preprint arXiv:1607.08022, 2016.
[10] JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks[J]. Advances in neural information processing systems, 2015,28:2017-2025.
[11] WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:79-88.
[12] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.
A Pedestrian Re-identification Optimization Method for Complex Scenes
Wang Nan Wu Jian Lu Xingjian Zhong Zhenyu Huang Kai
(Institute of Intelligent Manufacturing, Guangdong Academy of Science/Guangdong Key Laboratory of Modern Control Technology, Guangzhou 510070, China)
Aiming at the problem that it is difficult to recognize pedestrians in outdoor scenes due to different camera angles and changeable outdoor lighting, an optimization method for pedestrian re- identification in complex scenes is proposed. By embedding the instance-batch normalization layer and spatial transformer network in the shallow layer of ResNet, introducing the mish activation function, building an improved ResNet-50 feature extraction backbone network, and establishing a pedestrian re- identification model for complex environment. Verified on MSMT17 data set, rank-1 and map reach 79.8% and 58.5% respectively, which shows the effectiveness of the algorithm.
complex scene; pedestrian re-identification; instance-batch normalization; spatial transformer network; Mish activation function
廣東省重點領域研發計劃項目(2018B010108006)
王楠,女,1989年生,碩士研究生,高級工程師,主要研究方向:機器視覺、深度學習。E-mail: n.wang@giim.ac.cn
黃凱(通信作者),男,1995年生,碩士研究生,主要研究方向:機器視覺、人工智能。E-mail: 2111904371@mail2.gdut.edu.cn
S225
A
1674-2605(2021)06-0005-06
10.3969/j.issn.1674-2605.2021.06.005