基于YOLOv5和DeepSort的視頻行人識(shí)別與跟蹤探究

2022-06-20 05:12:29張夢(mèng)華

現(xiàn)代信息科技 2022年1期

摘? 要：視頻監(jiān)控在信息化時(shí)代尤其是交通系統(tǒng)中占據(jù)重要地位，文章提出一種基于Yolov5和DeepSort在可見光環(huán)境下將行人識(shí)別和行人跟蹤兩大模塊相結(jié)合的多目標(biāo)跨鏡頭跟蹤算法。首先使用Yolov5算法通過保存視頻號(hào)、行人序號(hào)和位置信息給視頻中行人賦予標(biāo)簽，得到視頻中所有行人的信息;然后根據(jù)信息用DeepSort實(shí)現(xiàn)行人跟蹤。經(jīng)過測(cè)試和訓(xùn)練可以快速準(zhǔn)確地完成任務(wù)，有一定的理論探索意義和實(shí)用價(jià)值。

關(guān)鍵詞：Yolov5;DeepSort;行人識(shí)別;行人跟蹤

中圖分類號(hào)：TP391.4? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：2096-4706（2022）01-0089-04

Abstract： Video surveillance plays an important role in the informatization age， especially in traffic system. This paper proposes a multi-target cross-shot tracking algorithm， which combines two modules of pedestrian recognition and pedestrian tracking in the visible light environment based on Yolov5 and DeepSort. Firstly， Yolov5 algorithm is used to label the pedestrian in the video by saving the video number， pedestrian serial number and location information， and obtain the information of all pedestrians in the video. Then， according to the information， DeepSort is used to achieve pedestrian tracking. After testing and training， it can complete the task quickly and accurately， which has a certain theoretical exploration significance and practical value.

Keywords： Yolov5; DeepSort; pedestrian recognition; pedestrian tracking

0? 引? 言

計(jì)算機(jī)視覺中的目標(biāo)檢測(cè)是較早開始的研究方向，在智能視頻監(jiān)控、工業(yè)檢測(cè)、航空航天等諸多領(lǐng)域上經(jīng)過幾十年的不斷探索后取得了顯著的發(fā)展。其中智能視頻監(jiān)控中的行人檢測(cè)是通過計(jì)算機(jī)視覺中的方法來獲取圖像或視頻中行人的位置。由于行人剛?cè)醿煞矫娴奶匦?，穿戴、比例、遮掩物、行為等都會(huì)影響檢測(cè)的準(zhǔn)確性，因此研究行人檢測(cè)變成計(jì)算機(jī)視覺領(lǐng)域中富有挑戰(zhàn)價(jià)值的熱門課題[1]。

傳統(tǒng)的方法是基于圖像上的行人識(shí)別和跟蹤，只包含空間特征，缺少時(shí)序信息，在復(fù)雜條件下的精度不高;而在視頻序列中兩者都包含進(jìn)去，因此在視頻行人識(shí)別的研究中有重要意義。

隨著大規(guī)模視頻數(shù)據(jù)集的出現(xiàn)，研究者設(shè)計(jì)了多種模型來實(shí)現(xiàn)行人識(shí)別與行人跟蹤。對(duì)于行人識(shí)別的實(shí)現(xiàn)，文獻(xiàn)[2]運(yùn)用背景差法把當(dāng)前圖像與背景圖像做差判斷像素，根據(jù)建模獲得的近似圖像判斷跟蹤效果。文獻(xiàn)[3]運(yùn)用幀差法將鄰近的兩幅圖像做差，二值化后獲得目標(biāo)，因?yàn)閷?duì)噪聲的敏感性導(dǎo)致獲取的目標(biāo)不完整。文獻(xiàn)[4]運(yùn)用光流法對(duì)光流場(chǎng)進(jìn)行檢測(cè)分割，可以輕易地檢測(cè)到目標(biāo)和獲取背景圖像，計(jì)算量較大。對(duì)于行人跟蹤的實(shí)現(xiàn)，文獻(xiàn)[5]運(yùn)用基于特征的跟蹤方法在原始圖像中提取最明顯的特征。SIFT算法、KLT算法、Harris算法和SURF算法都有很好的魯棒性，是典型算法[6-9]。文獻(xiàn)[10]運(yùn)用基于貝葉斯的跟蹤方法將行人跟蹤轉(zhuǎn)為貝葉斯估計(jì)。Kalman濾波（KF）[11]可以精準(zhǔn)的預(yù)測(cè)行人下一個(gè)時(shí)間點(diǎn)的位置，是目前已成熟的方法。

根據(jù)已經(jīng)提出的方法進(jìn)行改進(jìn)，本文提出基于Yolov5和DeepSort的視頻行人識(shí)別與跟蹤，在可見光的環(huán)境下實(shí)現(xiàn)多目標(biāo)跨鏡頭識(shí)別與跟蹤，有較高的準(zhǔn)確性和實(shí)時(shí)性。

1? Yolov5實(shí)現(xiàn)行人識(shí)別

Yolov5是Yolov4工程化的版本，它有更好的靈活性和更快的速度，在模型的快速部署上具有極強(qiáng)優(yōu)勢(shì)。相比Yolov4，該算法有以下優(yōu)點(diǎn)：

（1）數(shù)據(jù)增強(qiáng)，通過隨機(jī)選取訓(xùn)練集中四張圖片的中心點(diǎn)，在其四角位置分別放置一張圖片，可以增加batch size。

（2）DropBlock機(jī)制。通過Dropout防止過擬合，通過DropBlock隨機(jī)去除神經(jīng)元。標(biāo)簽平滑，使神經(jīng)網(wǎng)絡(luò)減弱。

（3）損失函數(shù)：使用CIoU進(jìn)行邊框回歸;使用BCEWithLogitsLoss和CIoU進(jìn)行Objectness;使用BCEWithLogitsLoss進(jìn)行分類損失。

Yolov5算法中的四種網(wǎng)絡(luò)結(jié)構(gòu)Yolov5s、Yolov5m、Yolov5l和Yolov5x在原理和內(nèi)容上基本一樣，但在寬度和深度上不同。網(wǎng)絡(luò)深度通過depth_multiple參數(shù)控制，網(wǎng)絡(luò)寬度通過width_multiple參數(shù)控制。CSP1和CSP2是Yolov5的兩種CSP結(jié)構(gòu)，Backbone主干網(wǎng)絡(luò)儲(chǔ)存CSP1，Neck網(wǎng)絡(luò)儲(chǔ)存CSP2，四種網(wǎng)絡(luò)中每個(gè)CSP結(jié)構(gòu)的深度都不相同，且隨著網(wǎng)絡(luò)層數(shù)的加深網(wǎng)絡(luò)的特征提取和融合能力也不斷升高。網(wǎng)絡(luò)寬度中特征圖第三維度受卷積核數(shù)影響，核數(shù)越多，特征圖越寬，網(wǎng)絡(luò)提取特征能力越強(qiáng)。各部分具有的主要功能結(jié)構(gòu)為：

輸入端：Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算，以及自適應(yīng)圖片縮放。

主干網(wǎng)絡(luò)：Focus結(jié)構(gòu)、CSP結(jié)構(gòu)。

Neck網(wǎng)絡(luò)：FPN+PAN結(jié)構(gòu)。

輸出端：GIOU_Loss。

1.1? 輸入端

1.1.1? Mosaic數(shù)據(jù)增強(qiáng)

在輸入端選擇Mosaic數(shù)據(jù)增強(qiáng)方式，首先可以增加數(shù)據(jù)集的復(fù)雜度，其次可以減少GPU 的內(nèi)存使用。數(shù)據(jù)集的復(fù)雜性體現(xiàn)在對(duì)多張圖片進(jìn)行隨機(jī)裁剪縮放，提高訓(xùn)練后的精度。由于訓(xùn)練的圖片數(shù)量不需要設(shè)置的非常大，因此可以減少GPU的內(nèi)存使用。

1.1.2? 自適應(yīng)錨框計(jì)算

在Yolov5算法中，所有視頻中的行人都使用默認(rèn)的標(biāo)簽框距，訓(xùn)練時(shí)會(huì)在此基礎(chǔ)上輸出一個(gè)預(yù)測(cè)框，方便將初始框與預(yù)測(cè)框?qū)Ρ扔?jì)算差值。

1.1.3? 自適應(yīng)圖片縮放

對(duì)于數(shù)據(jù)集中一幀一幀的圖片尺寸不同的現(xiàn)象，都會(huì)在初始時(shí)設(shè)置固定的尺寸，在處理完成后可以對(duì)其進(jìn)行縮放裁剪，提高精度。

1.2? 主干網(wǎng)絡(luò)

1.2.1? Focus結(jié)構(gòu)

在提取視頻行人特征的過程中，方便對(duì)其進(jìn)行切片處理，對(duì)不同層的特征圖有不同的切片選擇，最終卷積后形成特征圖。

1.2.2  CSP結(jié)構(gòu)

在視頻行人識(shí)別中使用CSP結(jié)構(gòu)，可以使網(wǎng)絡(luò)模型輕量化，便于數(shù)據(jù)集的訓(xùn)練，減少了GPU內(nèi)存的使用，還降低了計(jì)算的時(shí)間，使效率提高。

1.3? Neck網(wǎng)絡(luò)

首先使用自頂向下的FPN層可以使語義特征順利傳達(dá)下去，通過PAN結(jié)構(gòu)可以有效定位特征，使每一個(gè)主干層中的檢測(cè)層完成參數(shù)聚合。

1.4? 輸出端

輸出端中的損失函數(shù)由分類損失函數(shù)（Classificition Loss）和回歸損失函數(shù)（Bounding Box Regeression Loss）組成。

由初始框與預(yù)測(cè)框?qū)Ρ龋珹為交集，B為并集，C為最小外接集合，可以計(jì)算差值得到IOU的Loss：

然后得到GIOU_Loss的值：

2? DeepSort實(shí)現(xiàn)行人跟蹤

DeepSort是在Sort目標(biāo)跟蹤基礎(chǔ)上進(jìn)行的改進(jìn)。其優(yōu)點(diǎn)為：

（1）增加Deep Association Metric：可以實(shí)現(xiàn)行人檢測(cè)，是在學(xué)習(xí)卡爾曼濾波和匈牙利算法的基礎(chǔ)上改進(jìn)的。

（2）添加外觀信息：通過卡爾曼濾波算法和匈牙利算法對(duì)行人進(jìn)行識(shí)別和目標(biāo)分配，添加外觀信息對(duì)行人跟蹤有更好的效果。

由于存在多目標(biāo)跟蹤中一個(gè)目標(biāo)覆蓋多個(gè)目標(biāo)或多個(gè)檢測(cè)器檢測(cè)一個(gè)目標(biāo)的情況，DeepSort算法使用八維狀態(tài)空間（u，v，γ，h，x，y，γ，h）定義跟蹤場(chǎng)景。根據(jù)算法可知馬氏距離計(jì)算公式為：

在設(shè)置運(yùn)動(dòng)狀態(tài)關(guān)聯(lián)成功后，可以得到示性函數(shù)為：

由此類推可以得到d（2）（i，j）和bi，j（2），最終得到2種度量方式線性加權(quán)的度量：

當(dāng)Ci，j位于2種度量閾值交集內(nèi)，則認(rèn)為實(shí)現(xiàn)了正確的關(guān)聯(lián)。

為了實(shí)現(xiàn)行人跟蹤，使用神經(jīng)網(wǎng)絡(luò)對(duì)視頻行人識(shí)別數(shù)據(jù)集訓(xùn)練。通過DeepSort算法，在行人特征提取后得到一幀一幀的圖像，完成對(duì)行人的跟蹤。此方法可以有效改善遮擋問題。

3? 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證Yolov5和DeepSort對(duì)視頻中行人識(shí)別和跟蹤的效果，本文選取了一段交通環(huán)境下的行人視頻，該視頻在AMD Ryzen 5 4600U with Radeon Graphics 2.10 GHz處理器、16 GB內(nèi)存、Windows 10操作系統(tǒng)的電腦上完成。

訓(xùn)練過程的各種數(shù)值隨著迭代次數(shù)的增加而變化，本次實(shí)驗(yàn)迭代次數(shù)100次，各種數(shù)值的變化如圖1所示。

GIoU和val Glou：數(shù)值越接近0，目標(biāo)框畫的越準(zhǔn)確。

Objectness和val Objectness：數(shù)值越接近0，對(duì)行人識(shí)別得越準(zhǔn)確。

Precision：準(zhǔn)確率（標(biāo)記的正確個(gè)數(shù)除以標(biāo)記的總個(gè)數(shù)）越接近1越高。

Recall：召回率（標(biāo)記的正確個(gè)數(shù)除以需要標(biāo)記的總個(gè)數(shù)）越接近1越高。

mAP@0.5 和mAP@0.5：0.95：AP （以Precision和Recall為坐標(biāo)軸作圖圍成的面積）越接近1，準(zhǔn)確率越高。

從圖1可以看出，訓(xùn)練迭代次數(shù)越接近100，各項(xiàng)數(shù)值變化越趨于平穩(wěn)。

為了驗(yàn)證視頻中行人的識(shí)別與跟蹤效果，這里隨機(jī)截取了幾幀行人圖片，如圖2所示。

從圖中可以看到，本次截取了第80幀，第97幀和第115幀的圖片，可以清楚地看到視頻中序號(hào)為10，20，23和33的行人被label標(biāo)簽準(zhǔn)確的框起來，并且實(shí)現(xiàn)了對(duì)序號(hào)為10的行人和序號(hào)為20的行人的跟蹤，從圖2中可以準(zhǔn)確地看到運(yùn)動(dòng)軌跡。使用Yolov5算法保存視頻號(hào)、行人序號(hào)和位置信息給視頻中行人賦予了標(biāo)簽，得到了視頻中所有行人的信息，實(shí)現(xiàn)行人識(shí)別。然后根據(jù)行人特征信息用DeepSort算法實(shí)現(xiàn)了行人跟蹤。經(jīng)過測(cè)試和訓(xùn)練后快速準(zhǔn)確的完成了行人識(shí)別與跟蹤任務(wù)。

4? 結(jié)? 論

由于Yolov5在目標(biāo)檢測(cè)上有更好的靈活性和更快的速度，DeepSort在目標(biāo)跟蹤過程中可以改善有遮擋情況下的目標(biāo)追蹤效果，減少了目標(biāo)ID跳變的問題，本文將兩者相結(jié)合，實(shí)現(xiàn)視頻行人識(shí)別與跟蹤。實(shí)驗(yàn)結(jié)果表明，結(jié)合后的Yolov5和DeepSort可以快速有效地實(shí)現(xiàn)行人識(shí)別與跟蹤。但是，在行人有重疊或被遮擋的情況下不能準(zhǔn)確的識(shí)別出來，還需進(jìn)一步的改進(jìn)。

參考文獻(xiàn)：

[1] 宋艷艷，譚勵(lì)，馬子豪，等.改進(jìn)YOLOV3算法的視頻目標(biāo)檢測(cè) [J].計(jì)算機(jī)科學(xué)與探索，2021，15（1）：163-172.

[2] 張?jiān)仯钐蠲斗?利用改進(jìn)的背景差法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè) [J].現(xiàn)代電子技術(shù)，2012，35（8）：74-77.

[3] 楊陽，唐慧明.基于視頻的行人車輛檢測(cè)與分類 [J].計(jì)算機(jī)工程，2014，40（11）：135-138.

[4] SUN S J，HAYNOR D，KIM Y M. Motion estimation based on optical flow with adaptive gradients [C]//Proceedings 2000 International Conference on Image Processing （Cat. No.00CH37101）.Vancouver：IEEE，2002：852-855.

[5] 王亮，胡衛(wèi)明，譚鐵牛.人運(yùn)動(dòng)的視覺分析綜述 [J].計(jì)算機(jī)學(xué)報(bào)，2002（3）：225-237.

[6] 侯躍恩，李偉光.時(shí)間連續(xù)貝葉斯分類目標(biāo)跟蹤算法 [J].計(jì)算機(jī)工程與設(shè)計(jì)，2016，37（8）：2125-2131.

[7] DAVID G L. Distinctive Image Features from Scale-Invariant Keypoints [J].International Journal of Computer Vision，2004，60（2）：91-110.

[8] 楊陳晨，顧國華，錢惟賢，等.基于Harris角點(diǎn)的KLT跟蹤紅外圖像配準(zhǔn)的硬件實(shí)現(xiàn) [J].紅外技術(shù)，2013，35（10）：632-637.

[9] HARRIS C，STEPHENS M. A Combined Corner and Edge Detector [C]//Proceedings of the 4th Alvey Vision Conference. Manchester：Alvety Vision Club，1988：147-151.

[10] KASHIF M，DESERNO T M，HAAK D. Feature description with SIFT，SURF，BRIEF，BRISK，or FREAK？ A general question answered for bone age assessment [J].Computers in Biology and Medicine，2016，68（C）：67-75.

[11] 梁錫寧，楊剛，余學(xué)才，等.一種動(dòng)態(tài)模板匹配的卡爾曼濾波跟蹤方法 [J].光電工程，2010，37（10）：29-33.

作者簡(jiǎn)介：張夢(mèng)華（1996—），女，漢族，山西臨汾人，碩士在讀，研究方向：計(jì)算機(jī)視覺。

現(xiàn)代信息科技2022年1期

現(xiàn)代信息科技的其它文章: 中醫(yī)院校計(jì)算機(jī)網(wǎng)絡(luò)課程的實(shí)踐與探索; 單線雙方向自動(dòng)閉塞軟件的分析與研究; 基于“互聯(lián)網(wǎng)+”的“寬帶與數(shù)據(jù)傳輸”O(jiān)2O教學(xué)模式創(chuàng)新改革與研究; “互聯(lián)網(wǎng)+”背景下混合教學(xué)模式實(shí)踐; 后疫情時(shí)代課程思政融入在線開放課程的建設(shè)與實(shí)踐; 醫(yī)學(xué)文獻(xiàn)檢索線上線下教學(xué)實(shí)踐與評(píng)價(jià)