胡培培 李丹




摘 ?要:一場突如其來的新冠疫情,對我國公共衛(wèi)生制度體系及社會經(jīng)濟發(fā)展都造成了重大影響。由于新型冠狀病毒很容易在人群之間傳播,進而導(dǎo)致聚集性感染。針對此問題,提出了一種基于YOLOv4-tiny以及DEEPSORT算法的人流量檢測及反饋應(yīng)用。在訓練模型時使用vocc2012數(shù)據(jù)集中含有人類的圖像作為訓練集,使得模型只對人類進行檢測。
關(guān)鍵詞:YOLOv4-tiny;目標檢測;疫情;人群;DEEPSORT
中圖分類號:TP391.4 ? ? ?文獻標識碼:A文章編號:2096-4706(2021)14-0071-04
Abstract: The sudden arrival of COVID-19 epidemic has had a major impact on China’s public health system and socio-economic development. Because the Corona virus spreads easily among crowd, so it easily leads to clustering infection. To solve this problem, a people traffic detection and feedback application based on YOLOv4-tiny and DEEPSORT algorithm is proposed. When training the model, the image containing human in the vocc2012 data set is used as the training set, so that the model can only detect human.
Keywords: YOLOv4-tiny; target detection; epidemic situation; crowd; DEEPSORT
0 ?引 ?言
由于全球還沒有對新型冠狀病毒疫苗接種的普及,特別是對最近傳染力,危害性更強的“德爾塔”等變異的新冠病毒沒有一種有效的疫苗進行保護。所以在未來比較長的一段時間內(nèi),我們?nèi)匀粫扇〈骺谡?,保持社交距離,勤洗手等預(yù)防措施來保護自己。針對上述問題,急需一種可以部署到任何地方的輕量化,計算力要求大的安全監(jiān)控系統(tǒng)在一些人流量密度較大的區(qū)域進行監(jiān)控,如果人流量超出某一規(guī)定的范圍能及時反饋給行政管理人員,確保能進行發(fā)現(xiàn)和規(guī)避風險。
卷積式的神經(jīng)網(wǎng)絡(luò)在這些年里有著飛速的進步,其在對目標的檢測及信息識別等技術(shù)方面都有著很高的水平和地位,根據(jù)該算法的工作流程可將對目標進行檢測的算法大致分為兩個類型,一種是以faster r-CNN 2為主要代表的Two-stage神經(jīng)網(wǎng)絡(luò)算法,它所要檢測的目標主要可以分為兩個部分:(1)通過專門模塊去生成候選框,尋找前景;(2)調(diào)整邊界框。另一種計算方法也就是以ssd3、yolo1作為主要函數(shù)代表One-stage函數(shù)算法,它是直接基于anchor直接進行分類以及調(diào)整邊界框。Two-Stage很明顯檢測的精度要高一點,但是檢測速度慢;One-Stage放棄了高精度,但是換來了速度,速度比Two-Stage算法快很多。在這個應(yīng)用中選擇的是YOLOv4算法,簡要概括原因就是速度差不多的精度碾壓;精度差不多的速度碾壓。在統(tǒng)計人流量上面選擇目前比較主流的DEEPSORT算法,所以YOLOv4及DEEPSORT算法因其高效性和對資源較低的需求成為部署在這類設(shè)備上面的最佳選擇。
1 ?YOLO系列簡介
YOLO(you only look once)指只需要瀏覽一次就可以識別出圖中的物體的類別和位置。一個典型的Region-base方法的流程是這樣的:先通過計算機圖形學的方法,對圖片進行分析,找出若干個可能存在物體的區(qū)域,將這些區(qū)域裁剪下來,放入一個圖片分類器中,由分類器分類。
因為YOLO這樣的Region-free方法只需要一次掃描,也被稱為單階段(1-stage)模型。在YOLOv1算法中的工作者將一個新的圖片目標劃分分割成7×7個小小的格子,每個小格子分別可以用來預(yù)測兩個目標boundingbox,如果某一個新的圖像已經(jīng)在圖片目標圖的中心位置掉入一個新的網(wǎng)格預(yù)測單元中,則作者認為這就是這個圖像目標屬于一個網(wǎng)格預(yù)測單元而它負責進行監(jiān)督或者檢測這個圖像目標。對每個被節(jié)點切割的最小節(jié)點單元格可以進行空間預(yù)測(包括置信度、邊界和圖框上的節(jié)點位置),每個節(jié)點boundingbox都可能需要4個相同的空間數(shù)值,該符號可用來準確地分別表示它們的空間位置,(center_x,center_y,width,height),YOLOv4-tiny的一項貢獻就是把檢測到的問題直接變成了回歸的問題。YOLOv4在與efficientdet性能相同的條件下,推理的速度比其快了兩倍。與YOLOv3相比ap與fps分別增加了10%與12%。YOLOv4-tiny提出了一種實時、精度較高的目標檢查模型。
1.1 ?主干網(wǎng)絡(luò)
CspNet(cross stage paritial network)主要目的是從數(shù)據(jù)網(wǎng)絡(luò)推理架構(gòu)設(shè)計的一個視角出發(fā)來研究解決數(shù)據(jù)推理中關(guān)于數(shù)據(jù)分析計算需求量多的復(fù)雜問題。CspNet的一些研究工作人員一致認為存在推理網(wǎng)絡(luò)計算機中誤差太大的一個問題其實應(yīng)該認為是由于推理網(wǎng)絡(luò)中的優(yōu)化推理過程使其中的一個梯度推理信息不被重復(fù)使用造成。因此我們可以采用公式cross-stage-partial-connections先將一個基礎(chǔ)層的每個特征層和映射分別劃分并作為兩個組成部分,然后再考慮利用其橫跨兩個階段的層次結(jié)構(gòu)將它們分別進行層次合并,在大大減少我們計算單個數(shù)據(jù)量的難度同時,也就是可以有效地充分保證其進行計算的數(shù)據(jù)準確率。
1.2 ?SPP4模塊
在YOLOv4中,對SPP進行了修改以保證輸出為空間維度。最大池化的核大小為k={1×1、5×5、9×9、13×13}。將來自不同核大小池化后的特征圖串聯(lián)在一起作為輸出。
1.3 ?PAN4模塊
PAN模塊在YOLOv4中通過先自頂向下的方式進行上采樣,使得特征圖維度變?yōu)樵瓉淼?倍,再自底向上完成下采樣,使得維度變?yōu)樵瓉淼囊话?,通過這一模塊完成圖像的特征融合,最后輸出三個head完成預(yù)測。
1.4 ?YOLOv4-tiny4
YOLOv4-tiny(網(wǎng)絡(luò)結(jié)構(gòu)圖1)的網(wǎng)絡(luò)結(jié)構(gòu)只有38層,訓練參數(shù)只有5 918 006個,屬于輕量化模型,而YOLOv4的網(wǎng)絡(luò)結(jié)構(gòu)共有168層,訓練參數(shù)有64 363 101個,YOLOv4-tiny的訓練參數(shù)比YOLOv4少了近十倍左右,所以大大精簡了網(wǎng)絡(luò)結(jié)構(gòu),這使得YOLOv4-tiny在進行圖像檢測時具有比YOLOv4較大的速度優(yōu)勢。在進行特征提取,YOLOv4-tiny并沒有與YOLOv4一樣采用Mish激活函數(shù),并且在特征加強層只采用了一個特征金字塔(即FPN網(wǎng)絡(luò)),也沒有像YOLOv44一樣采用向下取樣的方式。YOLOv4-tiny使用leakyReLU作為激活函數(shù),但它仍然和YOLOv4一樣采用的是CSPnet網(wǎng)絡(luò)結(jié)構(gòu),并且對特征提取網(wǎng)絡(luò)進行通道分割,將經(jīng)過卷積后輸出的特征層通道切割為兩部分,并且只取第二部分。YOLOv4-tiny具有能夠同時實現(xiàn)目標的分類與回歸,也能夠?qū)崿F(xiàn)參數(shù)共享,以及防止出現(xiàn)過擬合等特點。
2 ?DEEPSORT算法簡介
DEEPSORTg這是多媒體目標計算跟蹤(multi-object tracking)中比較常見的用到的一種跟蹤算法,是一種detection based tracking的目標計算跟蹤方法。這個算法的一個核心確實也就是我們在實際的應(yīng)用中得到的一個可以使用較為廣泛的算法,其中最重要的就是兩種算法:卡爾曼濾波算法和匈牙利算法。卡爾曼濾波器的算法流程可以從詳細分為如下兩個步驟,預(yù)測與數(shù)據(jù)更新。此種定義的算法將運動目標位于一個運動空間的一個狀態(tài)時間邊界函數(shù)定義為一個作為8個正態(tài)時間分布的運動向量。預(yù)測:確定當前在上一幀的移動目標已經(jīng)成功經(jīng)過了一次移動,通過預(yù)測計算上一幀的移動目標框和移動速度等各種移動參數(shù),預(yù)測可以得出當前幀的移動目標框和速度位置及其移動速度等各種預(yù)測參數(shù)。更新:對正常預(yù)測值和兩個觀察點的分布預(yù)測值,兩個正常狀態(tài)點之間的分布預(yù)測狀態(tài)之間的差值進行了一次線性化加權(quán),得到目前預(yù)測系統(tǒng)所需要進行預(yù)測的分布狀態(tài)。匈牙利分配算法:它所說的一個需要有效幫助我們解決的一個問題其實就是一個相似度上的分配矩陣問題,在mot10主要的步驟中它本身就是一個用于分配和計算相似度的,得到前后兩幀相似度分配的矩陣。匈牙利矩陣算法目標是一種指通過快速求解該相似度上的矩陣,從而精確來源地實現(xiàn)前后兩幀真實度相匹配的計算目標。
3 ?實驗及結(jié)果
3.1 ?數(shù)據(jù)集
本文主要采用的是一個原始數(shù)據(jù)集,它采用了voc2012數(shù)據(jù)集,提取得出其中共計12 000張有人類生活中出現(xiàn)的圖片進行了訓練,選取其中300張數(shù)據(jù)集作為測試集,選取其中余下的5 000張圖片進行作為訓練集。
3.2 ?實驗對比
在進行訓練之前進行了對是否采取YOLOv4-tiny模型訓練的效果進行對比結(jié)果如圖2所示。從圖中我們能清楚直觀地感受到基于YOLOv4-tiny模型進行檢測的好處,擁有豐富檢測目標的背景,可以獲得實時的,高精度的檢測結(jié)果,能夠完全滿足我們對此的要求。
3.3 ?模型訓練
在colab平臺上對YOLOv4-tiny模型進行訓練和測試,YOLOv4-tiny的迭代次數(shù)為4 800,GPU為TeslaT4。從訓練過程圖得知YOLOv4-tiny在訓練迭代到1 800輪之后損失值處于收斂狀態(tài)。圖像如圖3所示。
以map作為模型評價指標,最終訓練結(jié)果得到Y(jié)OLOv4-tiny的map為79%。79%的map在大多數(shù)應(yīng)用場景下能夠輕松勝任。把訓練好的模型拿到1660Ti的機器上測試發(fā)現(xiàn)YOLOv4-tiny能夠達到35幀左右的檢測速度,畫面流暢。再通過DEEPSORT算法進行人流量檢測。結(jié)果如圖4所示。
通過在一些人流量密集區(qū)域的監(jiān)控設(shè)備上部署一個檢測反饋系統(tǒng),整個系統(tǒng)由3個子系統(tǒng)構(gòu)成。監(jiān)控系統(tǒng)負責圖像的輸入,將圖像提取到檢測系統(tǒng)中,檢測系統(tǒng)根據(jù)YOLOv4-tiny以及DEEPSORT算法實現(xiàn)人類識別以及人流量檢測,檢測系統(tǒng)通過網(wǎng)絡(luò)接口與示警系統(tǒng)相連接,當檢測系統(tǒng)監(jiān)測出人流量超過某一特定的值時,通過網(wǎng)絡(luò)接口反饋給示警系統(tǒng),示警系統(tǒng)通過聲音、圖片、視頻等形式可以向行政管理人員反饋該區(qū)域的人流量密集程度。
4 ?結(jié) ?論
本文所實現(xiàn)的是人流量密集區(qū)域部署監(jiān)控設(shè)備,當人流量超過規(guī)定值是進行一個反饋,從而幫助管理人員及時發(fā)現(xiàn)和規(guī)避風險。YOLOv4-tiny的map能達到79%,完全能部署到大部分監(jiān)控系統(tǒng)并能完成實時監(jiān)測任務(wù)。
參考文獻:
[1] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot MultiBox detector [C]//Computer Vision – ECCV 2016.[S.L.]:Springer,Cham,2016:21-37.
[2] HE K,GKIOXARI G,DOLLAR P,et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017(2):2980–2988.
[3] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015(1):1440-1448.
[4] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:779-788.
[6] REDMON J,F(xiàn)ARHADI A. YOLO9000:Better,F(xiàn)aster,Stronger [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6517-6525.
[7] ZHANG L,LI Y,NEVATIA R. Global data association for multi-object tracking using network flows [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:1–8.
[8] PIRSIAVASH H,RAMANAN D,F(xiàn)OWLKES C C. Globally-optimal greedy algorithms for tracking a variable number of objects [C]//CVPR 2011.Colorado Springs:IEEE,2011:1201–1208.
[9] BERCLAZ J,F(xiàn)LEURET F,TURETKEN E,ET AL. Multiple Object Tracking Using K-Shortest Paths Optimization [J].//IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(9):1806–1819.
[10] YANG B,NEVATIA R. An online learned CRF model for multi-target tracking [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.2012:2034–2041.
作者簡介:胡培培(1999.06—),男,漢族,四川德陽人,本科在讀,研究方向:高級算法。