999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的YOLOv4-tiny行人檢測算法研究

2021-07-13 07:41:18周華平孫克雷
無線電通信技術(shù) 2021年4期
關(guān)鍵詞:特征結(jié)構(gòu)檢測

周華平,王 京,孫克雷

(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南 232001)

0 引言

作為目標(biāo)檢測重要研究領(lǐng)域之一,行人檢測在視頻監(jiān)控、自動駕駛及無人機等方面的應(yīng)用十分廣泛[1]。使用深度卷積來構(gòu)建目標(biāo)檢測網(wǎng)絡(luò),給行人檢測領(lǐng)域帶來了深遠影響[2]。RCNN及其改進系列模型[3]在候選建議框的基礎(chǔ)上對框進行分類和回歸,對提高精確度幫助很大,但檢測速度降低。SSD[4]和YOLO系列[5]等一階段算法,同時完成目標(biāo)分類和定位任務(wù),極大地提升了檢測速度。YOLO系列的簡化版本對硬件要求低、速度快,在小型設(shè)備平臺上使用更廣泛[6]。李文濤等人[7]通過選擇更小的預(yù)選框,并混合使用SE (Squeeze and Excitation)模塊與卷積塊注意模塊 (Convolutional Block Attention Module,CBAM)對行人和農(nóng)機障礙物進行檢測。單美靜等人[8]基于TinyYOLO輕量級網(wǎng)絡(luò)的交通標(biāo)志檢測,使用部分殘差連接增強網(wǎng)絡(luò)的學(xué)習(xí)能力。但各種深度學(xué)習(xí)檢測模型權(quán)重體積較大,不能很好支撐實時行人檢測。因此,該文對YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)進行改進,引入新的注意力機制——殘差機制(Enhanced Spatial Attention_CSP,ESA_CSP)以及多尺度特征融合模塊(Ring-fenced Bodies,RFBs),在維持較快的檢測速度和較小的權(quán)重體積為前提,提高檢測精度,更適合小型設(shè)備的實時行人檢測。

1 理論基礎(chǔ)

1.1 YOLOv4-tiny算法

區(qū)別于YOLOv4的深層復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),YOLOv4-tiny的網(wǎng)絡(luò)結(jié)構(gòu)在其基礎(chǔ)上要精簡許多,計算量小,能夠在移動端或設(shè)備端運行。YOLOv4-tiny的網(wǎng)絡(luò)模型如圖1所示,其中骨干網(wǎng)絡(luò)采用的是CSPDarknet53-tiny的網(wǎng)絡(luò)結(jié)構(gòu),主要包括普通卷積過程、殘差結(jié)構(gòu)堆疊過程和下采樣過程。普通卷積過程采用CBL結(jié)構(gòu),由卷積層(Convolutional)、批量標(biāo)準(zhǔn)化層(BN)以及激活函數(shù)層(LeakyRelu)構(gòu)成,下采樣過程通過最大池化(Maxpool)操作完成。殘差結(jié)構(gòu)堆疊過程采用了CSP(Cross Stage Partial Connections)結(jié)構(gòu)。CSP結(jié)構(gòu)將輸入特征在殘差塊堆疊通道旁再增加一條殘差邊通道,然后將兩個通道進行Concat操作后輸出結(jié)果。

圖1 YOLOv4-tiny網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 YOLOv4-tiny network structure

主干網(wǎng)絡(luò)會將13×13的特征層進行上操作后與26×26的特征層進行融合,提高特征提取能力,最后會分別生成通道數(shù)為na×(nc+5)的兩個輸出通道,na代表錨框數(shù)量;nc為類別數(shù)。26×26的通道預(yù)測小目標(biāo),13×13的通道預(yù)測大目標(biāo)。

1.2 注意力機制

1.2.1 CBAM

CBAM[9]是把通道注意力和空間注意力串聯(lián)相結(jié)合組成的注意力模塊。首先將輸入特征分為兩部分,部分1生成通道注意力塊(Channel Attention Moudle,CAM),再與部分2在通道上進行相乘得到融合通道注意力的特征圖;然后將該特征圖繼續(xù)分為兩部分,部分1生成的空間注意力塊(Spatial Attention Moudle,SAM),再與部分2在空間上相乘輸出融合通道和空間注意力的最終特征圖,CBAM注意力模塊如圖2所示。

圖2 CBAM注意力模塊Fig.2 CBAM attention module

1.2.2 ECA注意力機制

ECA(Efficient Channel Attention)注意力機制[10]是對SE模塊[11]增加一些改進策略:在對特征通道不降維的情況下,實現(xiàn)局部跨信道信息融合策略,可動態(tài)調(diào)整選擇一維卷積核尺寸,減少模型的復(fù)雜度和計算量。

SE模塊首先在輸入特征的每個通道空間上進行全局平均池化對其壓縮(Squeeze),然后通過兩個非線性的全連接層(Fully Connected Layers,FC)來對特征層激發(fā)(Excitation),SE模塊如圖3(a)所示。實證分析表明,激發(fā)過程中的降維會對通道關(guān)注度的預(yù)測結(jié)果產(chǎn)生影響[10],且對所有通道的信息進行融合時效率比較低。ECA在對輸入特征進行全局平均池化之后,不改變通道的維度,使用大小為k的快速一維卷積來捕獲每個通道的局部跨通道交互信息。如圖3(b)所示,是k=3時的ECA注意力機制塊。

(a) SE注意力機制

圖3(b)中,k代表該通道附近通道中,參與該通道的注意力預(yù)測的通道數(shù)。k值可以通過總通道數(shù)C的函數(shù)自適應(yīng)地確定,計算公式為:

(1)

式中,|x|odd表示x最近的奇數(shù),b=1,γ=2。

1.3 空洞卷積

空洞卷積 (Dilated/Atrous Convolution)[12]可以在保證特征圖分辨率不下降、網(wǎng)絡(luò)參數(shù)量不增加的情況下,增大卷積操作的感受野,有效捕獲多尺度特征信息。空洞卷積就是在普通卷積過程中加入大小不同的間隔,間隔的大小用擴張率(Dilation Rate)表示,普通卷積相當(dāng)于擴張率為1的空洞卷積。圖4為擴張率分別為1、2、3的空洞卷積過程。

(a) 擴張率=1

2 改進的YOLOv4-tiny算法

對YOLOv4-tiny網(wǎng)絡(luò)進行分析后,提出了3種改進的新網(wǎng)絡(luò)結(jié)構(gòu)(YOLOv4-tinye、YOLOv4-tinyr和YOLOv4-tinyer)。YOLOv4-tinye模型對原模型的CSP結(jié)構(gòu)進行分析,在CSP結(jié)構(gòu)尾部添加ESA-CSP,計算特征圖在通道位置和空間位置上的權(quán)重信息,根據(jù)權(quán)重分配使網(wǎng)絡(luò)更多關(guān)注特征圖中有利于檢測任務(wù)的行人區(qū)域特征信息,抑制背景及其他非行人次要信息,從而提升網(wǎng)絡(luò)模型性能[13]。

低層特征含有的目標(biāo)位置信息比較準(zhǔn)確,使用最大池化層能降低圖像尺寸,但最大池化層不更新權(quán)值參數(shù),可能會丟失目標(biāo)位置信息[14]。帶參數(shù)的卷積層會保留更多特征圖信息,因此使用大小2×2、步長為2的卷積核代替主干網(wǎng)絡(luò)結(jié)構(gòu)中的最大池化過程。

經(jīng)過一系列下采樣CBL結(jié)構(gòu)和多次卷積操作,會使得深層網(wǎng)絡(luò)的目標(biāo)定位存在誤差,因此在主干網(wǎng)絡(luò)后,構(gòu)建一個RFBs結(jié)構(gòu)增大提取目標(biāo)的感受野,得到Y(jié)OLOv4-tinyr模型,提高網(wǎng)絡(luò)的特征融合能力。融合YOLOv4-tinye和YOLOv4-tinyr得到最終的YOLOv4-tinyer模型。改進后的3種模型獲得兩種不同尺度的檢測頭輸出,分別檢測大目標(biāo)和小目標(biāo)。YOLOv4-tinyer模型結(jié)構(gòu)圖5所示。

圖5 YOLOv4-tinyer網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 YOLOv4-tinyer network structure

2.1 改進的ESA_CSP結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)除了學(xué)習(xí)到目標(biāo)的特征外,還包含了大量無效背景信息,這就會導(dǎo)致在神經(jīng)元中含有大量背景信息,影響檢測性能。另外,YOLOv4-tiny中使用剪枝處理后的CSPDarknet53-tiny主干網(wǎng)絡(luò)結(jié)構(gòu),大量剪枝的卷積層和殘差單元造成了邊緣特征信息不易捕捉,學(xué)習(xí)的特征表現(xiàn)不夠好,有效特征不夠明顯影響識別精度。針對這個問題,借鑒CBAM和ECA注意力機制思想,在CSP殘差結(jié)構(gòu)輸出通道后添加ESA注意力機制,提出ESA_CSP注意力殘差塊結(jié)構(gòu),如圖6所示。

圖6 ESA_CSP注意力殘差塊結(jié)構(gòu)Fig.6 ESA_CSP attention residual block structure

ESA_CSP中的ESA注意力塊借鑒CBAM思想,首先根據(jù)模型的首層特征圖,獲得通道、空間注意力權(quán)重圖,然后分別將其和原特征圖點乘,得到帶有權(quán)重的空間和通道特征圖。最后對空間和通道特征圖進行并聯(lián)相加操作,得到帶有注意力權(quán)重的特征圖,ESA注意力結(jié)構(gòu)如圖7所示。

圖7 ESA注意力結(jié)構(gòu)Fig.7 ESA attention structure

其中,ESA注意力機制中的SAM在空間位置上對輸入特征圖上相同位置的像素值進行全局的MaxPooling和AvgPooling操作,分別得到兩個空間注意力權(quán)重FSA和FSM,通過Concat操作將FSA和FSM在通道維度合并為一個2通道的特征圖。然后使用3×3的卷積核構(gòu)成的卷積層,對FSA和FSM壓縮通道為1,得到的特征圖大小為W×H×1,最后經(jīng)過Sigmoid函數(shù)對其激活,得到空間注意力塊。ESA注意力機制中SAM注意力塊,如圖8所示。

圖8 SAM注意力模塊Fig.8 SAM attention module

圖9 ESA中的通道注意力結(jié)構(gòu)Fig.9 Channel attention structure in ESA

ESA_CSP結(jié)構(gòu)將經(jīng)過殘差結(jié)構(gòu)操作后特征層的空間位置、通道位置等相對重要的特征提取出來并賦予較高權(quán)重,從而保留目標(biāo)區(qū)域特征,提高檢測性能。

2.2 改進的RFBs結(jié)構(gòu)

為了捕獲行人的多尺度特征信息,在改進后的主干網(wǎng)絡(luò)后連接RFBs結(jié)構(gòu)模塊。該結(jié)構(gòu)模塊主要引入空洞卷積,實現(xiàn)增大感受野、融合不同尺寸特征的目的。

RFBs結(jié)構(gòu)首先將特征圖進行1×1卷積進行通道變換,然后進行多分支空洞結(jié)構(gòu)處理,用來獲取目標(biāo)多尺度信息特征。多分支結(jié)構(gòu)中采用普通卷積層+空洞卷積層的結(jié)構(gòu),普通卷積層中原RFB結(jié)構(gòu)中的3×3卷積核用并聯(lián)的1×3和3×1卷積核代替,5×5卷積核用兩個串聯(lián)的1×3和3×1卷積核代替,這樣可以有效減少網(wǎng)絡(luò)的計算量,保證整個網(wǎng)絡(luò)輕量化。空洞卷積層分別由3個大小為3×3的卷積核組成,卷積核的擴張率分別為1、3、5,防止擴張率太大造成卷積層退化。最后將經(jīng)過多分支空洞結(jié)構(gòu)處理過后的不同尺寸的特征層進行Concat操作,并輸出新的融合特征層。為了保留輸入特征圖的原有信息,將新的融合特征層經(jīng)過1×1卷積層變換通道,與原特征圖構(gòu)成的大殘差邊進行累加操作后輸出。多分支結(jié)構(gòu)中的RFBs連接結(jié)構(gòu)如圖10所示。

圖10 RFBs結(jié)構(gòu)Fig.10 RFBs structure

3 實驗

實驗所使用的操作系統(tǒng)為Win10 64位;內(nèi)存大小為32 G;GPU為NVIDIA GeForce GTX1080ti;學(xué)習(xí)框架采用Tensorflow2.2.0/cuda10.1/cudnn7.6.3;編譯環(huán)境為Pycharm/Python語言。

3.1 數(shù)據(jù)集

實驗所使用的數(shù)據(jù)集是WiderPerson。該數(shù)據(jù)集是戶外的行人檢測基準(zhǔn)數(shù)據(jù)集,其圖像不再局限于交通場景,而是從多種場景中選擇更符合視頻監(jiān)控的真實場景。數(shù)據(jù)集中共包含5種類型的行人實體:pedestrians、riders、partially-visible persons、ignore regions和crowd,實驗時選擇前3種行人實體。原數(shù)據(jù)集中共包含13 382張圖像,訓(xùn)練集、驗證集和測試集分別有8 000、1 000和4 382張圖片。由于原數(shù)據(jù)集中的測試數(shù)據(jù)集真實框標(biāo)簽未公布,實驗中將原8 000張訓(xùn)練集圖像根據(jù)9:1的比例劃分為訓(xùn)練集和驗證集,將原驗證集圖像作為測試集。

3.2 先驗框聚類分析

為了適應(yīng)實驗數(shù)據(jù)集中行人寬高比固定的特點,需要對數(shù)據(jù)集重新聚類出符合目標(biāo)的anchor boxes。先驗框的大小與檢測目標(biāo)越接近,檢測效果越好。實驗選用k-means++聚類算法[15]對聚類中心的選擇進行改進,得到更符合行人目標(biāo)的anchor boxes。k-means++算法具體步驟如下所示。

算法 k-means++錨框聚類算法 輸入 數(shù)據(jù)集中行人寬高集合S和聚類中心數(shù)量k輸出 k組錨框① 隨機從集合S中選某個點,成為第一個聚類中心О1。② 計算S中其余各點x到其最近聚類中心Оx的距離D(x),距離越遠的錨框點成為下一個聚類中心的概率P(x)越大。重復(fù)此步驟,直到找到k個聚類中心。③ 計算所有S中的點分別到k個聚類中心的距離D(x),將該點劃分到距離最小的聚類中心類別中。針對聚類結(jié)果,重新計算每個聚類類別的聚類中心Ci。④ 重復(fù)步驟③,每個聚類類別的聚類中心Ci不再變化時,輸出k個聚類中心結(jié)果。

在k-means ++算法中,選擇IOU作為距離D(x)度量標(biāo)準(zhǔn),IOU為真實框x和與x最近的聚類中心錨框Оx的交并比。距離D(x)、概率P(x)和聚類中心Ci的計算公式分別為:

(2)

(3)

(4)

經(jīng)過聚類,得到了6組錨盒:(6,14)、(10,27)、(15,47)、(21,77)、(33,118)、(51,188),avg-iou值為71.63%。

3.3 評價指標(biāo)

實驗中使用的評價指標(biāo)為FPS和 mAP。FPS為每秒檢測圖像的幀率;mAP為多分類檢測模型中所有類別的AP均值,其值越大表示該模型的定位與識別的準(zhǔn)確率越高,mAP的計算公式為:

(5)

式中,C表示類別數(shù);AP表示每個類別的平均精確率,由Precision-Recall曲線下的面積計算得出。

3.4 實驗結(jié)果與分析

實驗中訓(xùn)練行人檢測網(wǎng)絡(luò)模型的參數(shù)設(shè)置如下:采用的初始學(xué)習(xí)率為1×10-4,當(dāng)驗證集的準(zhǔn)確率在10個時期內(nèi)沒上升,則學(xué)習(xí)率衰減1/2;優(yōu)化器使用Adam;根據(jù)顯存大小,將批處理數(shù)量設(shè)為16。網(wǎng)絡(luò)訓(xùn)練迭代時期設(shè)為200,并設(shè)置了早停(Early Stopping)機制,即在網(wǎng)絡(luò)性能連續(xù)20個時期沒有改善或完成最大200個時期的循環(huán)時,訓(xùn)練過程就會終止,并保存訓(xùn)練模型的權(quán)重。

為了進行充分對比實驗,分別對YOLOv4-tiny模型與加入ESA_CSP的模型(YOLOv4-tinye)、加入RFBs的模型(YOLOv4-tinyr)以及同時加入ESA_CSP和RFBs的模型(YOLOv4-tinyer)進行訓(xùn)練對比,實驗結(jié)果如表1所示。

表1 各模型的實驗效果對比

由表1可知,與模型參數(shù)量相差不大的YOLOv4-tiny模型相比,YOLOv4-tinye模型、YOLOv4-tinyr模型和YOLOv4-tinyer在整個數(shù)據(jù)集中平均準(zhǔn)確率分別提高了2.27%、2.45%和4.78%。其主要原因是加入注意力機制的ESA_CSP殘差結(jié)構(gòu)能更關(guān)注特征圖中空間和通道位置上的關(guān)鍵信息,更好提取圖像特征,多尺度融合增強模型RFBs加強對特征的利用率,提高行人檢測的準(zhǔn)確率。FPS略低則是由于隨著mAP的提高,會檢測出更多目標(biāo)框,增加了時間開銷,但該檢測速度仍符合實際檢測場景的實時性要求。

為了直觀展示出原YOLOv4-tiny算法和提出的YOLOv4-tinyer檢測算法的不同之處,選取了一些檢測圖像進行對比分析,YOLOv4-tiny和YOLOv4-tinyer的檢測結(jié)果,分別如圖11和圖12所示。

由圖11和圖12可以看出,YOLOv4-tinyer檢測算法與YOLOv4-tiny檢測算法相比,行人檢測的目標(biāo)框定位的精確度提高。同時,對于相對較遠的目標(biāo)來說,YOLOv4-tinyer算法仍能夠識別出,但是原YOLOv4-tiny則無法檢測。因此,相較于原YOLOv4-tiny算法,YOLOv4-tinyer檢測算法的檢測效果更好。

圖11 YOLOv4-tiny檢測結(jié)果Fig.11 Detection results of YOLOv4-tiny

圖12 YOLOv4-tinyer檢測結(jié)果Fig.12 Detection results of YOLOv4-tinyer

4 結(jié)束語

本文基于YOLOv4-tiny網(wǎng)絡(luò)模型提出了3種改進的YOLOv4-tinye、YOLOv4-tinyr和YOLOv4-tinyer網(wǎng)絡(luò)行人檢測模型。YOLOv4-tinye模型中將注意力機制引入到CSP殘差網(wǎng)絡(luò)結(jié)構(gòu)中,提出ESA_CSP結(jié)構(gòu),使網(wǎng)絡(luò)對圖像中主要的特征信息附有更多的權(quán)重。YOLOv4-tinyr模型中在主干網(wǎng)絡(luò)后添加RFBs結(jié)構(gòu),通過不同尺度的空洞卷積獲得更大的感受野,并對多尺度信息進行融合,有效提升了模型特征利用率。YOLOv4-tinyer模型是YOLOv4-tinye和YOLOv4-tinyr模型的結(jié)合版。在實驗過程中,使用k-means++算法重構(gòu)WinderPerson數(shù)據(jù)集中的錨框,使目標(biāo)定位更加準(zhǔn)確,加快模型損失收斂速度。實驗結(jié)果表明,在WinderPerson數(shù)據(jù)集中,本文模型的參數(shù)量和檢測速度與原模型相當(dāng),但檢測精確度均取得了更好的效果,更適用于小型設(shè)備的實時行人檢測任務(wù)。

猜你喜歡
特征結(jié)構(gòu)檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
如何表達“特征”
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
不忠誠的四個特征
抓住特征巧觀察
論《日出》的結(jié)構(gòu)
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 伊人欧美在线| 久久黄色免费电影| 伊人久久综在合线亚洲91| 五月天福利视频| 亚洲天堂视频在线观看免费| 黄色片中文字幕| 国产美女主播一级成人毛片| 国产综合精品日本亚洲777| 日韩毛片免费| 欧美高清国产| 欧美丝袜高跟鞋一区二区| 欧美激情二区三区| 久久成人18免费| 久久国产毛片| 久久99蜜桃精品久久久久小说| 国产精品自在拍首页视频8| 国产成人AV综合久久| 丁香综合在线| 欧美yw精品日本国产精品| 这里只有精品在线播放| 亚洲视频色图| 欧美五月婷婷| 无码人中文字幕| 亚洲男人的天堂在线| 国产丝袜无码精品| 扒开粉嫩的小缝隙喷白浆视频| 国产精品一区不卡| 亚洲侵犯无码网址在线观看| julia中文字幕久久亚洲| 日韩精品毛片人妻AV不卡| 中文字幕亚洲精品2页| 国产后式a一视频| 免费人欧美成又黄又爽的视频| 久久香蕉国产线看观看式| 国产一区二区三区在线观看视频| 精品一区二区三区视频免费观看| 成人国产免费| 成人亚洲天堂| 亚洲国产成人久久精品软件| 亚洲,国产,日韩,综合一区| 日韩无码视频专区| 日韩无码真实干出血视频| 亚洲精品第五页| 日本不卡在线播放| 91口爆吞精国产对白第三集| 精品视频免费在线| 久久亚洲国产一区二区| 欧美a级在线| 国产人碰人摸人爱免费视频| 激情综合网址| 日韩国产高清无码| 成人无码一区二区三区视频在线观看| 国产日韩欧美精品区性色| 一级一毛片a级毛片| 久久青草精品一区二区三区| 在线另类稀缺国产呦| 国产精品开放后亚洲| 狠狠做深爱婷婷久久一区| 亚洲欧美日韩综合二区三区| 久青草国产高清在线视频| 欧美亚洲国产精品第一页| 亚洲无码视频一区二区三区| 精品国产aⅴ一区二区三区| 欧美一级99在线观看国产| 97影院午夜在线观看视频| 欧美午夜网| 久久伊人久久亚洲综合| 国产伦片中文免费观看| 久久99热66这里只有精品一| 亚洲国产天堂久久九九九| 尤物视频一区| 国产一区二区视频在线| 亚洲AⅤ永久无码精品毛片| 精品综合久久久久久97| 日本a级免费| 97se综合| 亚洲无码高清一区| 国内精品91| 成年人久久黄色网站| 色欲综合久久中文字幕网| 欧美日本在线播放| 亚洲一级毛片在线播放|