張倫 譚光興



摘 要:針對(duì)目前主流的目標(biāo)檢測(cè)算法在檢測(cè)行人時(shí)無法兼顧精度與實(shí)時(shí)性的問題,提出一種改進(jìn)單次多框檢測(cè)器(single shot multibox detector,SSD)的行人檢測(cè)算法。首先,將高效通道注意力機(jī)制引入淺層網(wǎng)絡(luò)中并重新分配特征權(quán)重,引導(dǎo)網(wǎng)絡(luò)更加關(guān)注小尺度行人的特征信息;其次,構(gòu)造一種新的特征融合模塊以改善淺層特征語義信息不足的問題;最后,通過優(yōu)化原始先驗(yàn)框的參數(shù)來生成適用于檢測(cè)行人的先驗(yàn)框。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法在PASCAL VOC2007行人測(cè)試集上的平均精度達(dá)到82.96%,較SSD提高了3.83%,在小尺度行人測(cè)試集上提高了5.48%,同時(shí)檢測(cè)速度達(dá)到了69.2FPS,滿足實(shí)時(shí)性的要求。
關(guān)鍵詞:?jiǎn)未味嗫驒z測(cè)器(SSD);行人檢測(cè);注意力機(jī)制;特征融合
中圖分類號(hào):TP391.41 DOI:10.16375/j.cnki.cn45-1395/t.2023.03.013
0 引言
行人檢測(cè)作為計(jì)算機(jī)視覺領(lǐng)域中的研究熱點(diǎn)之一,是指判斷圖像或視頻幀中是否存在行人并標(biāo)記其具體位置,在視頻監(jiān)控、智能安防以及自動(dòng)駕駛等領(lǐng)域應(yīng)用越來越廣泛[1]。雖然現(xiàn)有的方法在行人檢測(cè)任務(wù)中已取得一些研究進(jìn)展,但由于行人姿態(tài)多變、相互遮擋以及小尺度行人目標(biāo)特征信息較少等因素的影響,仍然存在被誤檢、漏檢的問題,因此對(duì)行人檢測(cè)方法還需進(jìn)一步研究。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,基于深度學(xué)習(xí)的行人檢測(cè)方法在行人檢測(cè)技術(shù)中占據(jù)了主導(dǎo)地位,該方法主要分為兩階段檢測(cè)算法和單階段檢測(cè)算法。兩階段檢測(cè)算法首先生成目標(biāo)的候選區(qū)域,然后將其送入分類器中進(jìn)行分類和回歸[2]。此類算法檢測(cè)精度較高,但由于模型復(fù)雜度高、計(jì)算量龐大,導(dǎo)致其檢測(cè)速度較慢。代表性算法有Faster R-CNN[3]、Mask R-CNN[4]等。單階段檢測(cè)算法無需生成候選區(qū)域,而是直接通過回歸來預(yù)測(cè)目標(biāo)框,將檢測(cè)轉(zhuǎn)化為回歸問題,雖然精度會(huì)有所損失,但是檢測(cè)速度比兩階段算法更快。代表性算法有YOLO(you only look once,YOLO)[5]、單次多框檢測(cè)器(single shot multibox detector,SSD)[6]、YOLOv2[7]以及YOLOv3[8]等。
YOLO是典型的單尺度目標(biāo)檢測(cè)算法,對(duì)于多尺度目標(biāo)檢測(cè)任務(wù)并不適用。SSD首次從多尺度特征圖中檢測(cè)不同尺度的目標(biāo),在提高精度的同時(shí)兼顧了速度,但該算法對(duì)小尺度目標(biāo)的檢測(cè)能力較弱。為了進(jìn)一步提高對(duì)小尺度目標(biāo)的檢測(cè)能力,研究者們?cè)赟SD的基礎(chǔ)上提出了多種改進(jìn)算法。DSSD[9]將主干網(wǎng)絡(luò)替換為殘差網(wǎng)絡(luò)ResNet101,并利用反卷積和跨連接融合上下文信息,改善了對(duì)小尺度目標(biāo)的檢測(cè)效果。DF-SSD[10]構(gòu)造了主干網(wǎng)絡(luò)DenseNet-s-32-1,并提出一種多尺度特征融合方法,使淺層位置特征與深層語義特征相結(jié)合,在一定程度上解決了小尺度目標(biāo)的檢測(cè)問題。然而,上述算法主要是通過使用更深的主干網(wǎng)絡(luò)來增強(qiáng)模型的特征提取能力,或者是利用反卷積將深層特征與淺層特征進(jìn)行有效融合等方法來提高對(duì)小尺度目標(biāo)的檢測(cè)能力,在提升檢測(cè)精度的同時(shí)卻犧牲了網(wǎng)絡(luò)的運(yùn)算速度,無法滿足實(shí)時(shí)檢測(cè)場(chǎng)景的要求。
綜上所述,針對(duì)圖像背景復(fù)雜、行人目標(biāo)存在遮擋或重疊以及遠(yuǎn)距離下行人尺度過小等問題,同時(shí)考慮精度和實(shí)時(shí)性檢測(cè)的要求,本文在保留SSD主干網(wǎng)絡(luò)的基礎(chǔ)上,首先,通過引入一種輕量級(jí)注意力機(jī)制來增強(qiáng)小尺度行人的特征表達(dá)能力;然后,構(gòu)造一種新的特征融合模塊來增強(qiáng)淺層特征圖中的語義信息,提升對(duì)小尺度行人的檢測(cè)能力;最后,根據(jù)行人目標(biāo)的寬高比特性對(duì)原始先驗(yàn)框進(jìn)行優(yōu)化,使其更加適用于檢測(cè)行人目標(biāo),提高檢測(cè)效率。
1 SSD算法
SSD算法是一種經(jīng)典的單階段多尺度目標(biāo)檢測(cè)算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,對(duì)原始圖像進(jìn)行預(yù)處理后作為網(wǎng)絡(luò)輸入;其次,使用VGG16網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)來提取淺層特征圖,并將VGG16末端的2個(gè)全連接層FC6、FC7替換為2個(gè)卷積層Conv6、Conv7;然后,在此基礎(chǔ)上額外增加4組卷積層來提取深層特征圖,從而一共提取出層次由淺到深的6個(gè)多尺度特征圖:Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2,其中,淺層特征圖感受野小,適合檢測(cè)小目標(biāo),深層特征圖感受野大,適合檢測(cè)大目標(biāo);最后,在不同尺度的特征圖上設(shè)置不同尺寸和數(shù)量的默認(rèn)先驗(yàn)框,并通過2個(gè)大小為3*3的卷積核分別輸出先驗(yàn)框的位置偏移量和類別置信度,使用非極大值抑制(non-maximum suppression,NMS)以及置信度過濾的后處理方法來獲取最終精準(zhǔn)的檢測(cè)結(jié)果。
為了適應(yīng)圖像中不同大小和形狀的目標(biāo),SSD算法引入了Faster R-CNN算法中所使用的先驗(yàn)框機(jī)制。若使用[m]個(gè)特征圖進(jìn)行預(yù)測(cè),則在第[k]個(gè)特征圖上的先驗(yàn)框尺寸計(jì)算公式如下:
[Sk=Smin+Smax?Sminm?1k?1, k∈[1,m]]. (1)
式中:[Smin]=0.2,[Smax]=0.9,分別代表最淺層和最深層先驗(yàn)框的尺度;k表示先驗(yàn)框尺寸相對(duì)于原圖像的比例。然后對(duì)每個(gè)先驗(yàn)框尺寸設(shè)置不同的寬高比,將其標(biāo)記為[a∈1,2,3,12,13],則每個(gè)先驗(yàn)框的寬([wak])、高([?ak])計(jì)算公式為:
[wak=Ska,?ak=Sk/ ? ? ? .] (2)
當(dāng)[a ]=1時(shí),會(huì)額外添加一個(gè)尺寸為[S'k=SkSk+1]的先驗(yàn)框,于是特征圖上的每個(gè)網(wǎng)格均生成6個(gè)先驗(yàn)框。但實(shí)際實(shí)現(xiàn)時(shí),SSD在特征圖Conv4_3、Conv10_2和Conv11_2上并不使用[a]=3和[a]=[13]的先驗(yàn)框,即只設(shè)置了4個(gè)先驗(yàn)框。因此,SSD總共生成8 732(38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8 732)個(gè)先驗(yàn)框來進(jìn)行目標(biāo)檢測(cè)。
2 本文算法
SSD算法利用淺層網(wǎng)絡(luò)檢測(cè)小目標(biāo),深層網(wǎng)絡(luò)檢測(cè)大目標(biāo),于是減少了整個(gè)模型的檢測(cè)負(fù)擔(dān)。但是淺層網(wǎng)絡(luò)存在特征提取不充分的問題,導(dǎo)致小尺度目標(biāo)的檢測(cè)效果較差。為了改善小尺度行人檢測(cè)困難的問題,提高行人檢測(cè)精度,本文在原始的網(wǎng)絡(luò)中引入了高效通道注意力機(jī)制(efficient channel attention,ECA)和特征融合模塊(feature fusion module,F(xiàn)FM)。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1 注意力機(jī)制模塊
圖像中背景信息干擾以及遮擋等情況的存在增加了檢測(cè)行人的難度。如今,將注意力機(jī)制應(yīng)用于目標(biāo)檢測(cè)模型上取得了顯著的效果。Hu等[11]最早在2017年提出了通道注意力機(jī)制(squeeze-and-excitation,SENet),能夠自適應(yīng)地對(duì)通道特征進(jìn)行加權(quán),有效放大特征的關(guān)鍵信息。Woo等[12]設(shè)計(jì)了混合域卷積注意力模塊(convolutional block attention module,CBAM),通過將通道注意力機(jī)制與空間注意力機(jī)制相結(jié)合,幫助網(wǎng)絡(luò)自適應(yīng)地在通道和空間維度上調(diào)節(jié)特征權(quán)重,能夠獲得比SENet更好的效果,但增加了網(wǎng)絡(luò)模型的復(fù)雜度與計(jì)算量。Wang等[13]在CVPR2020中提出了ECA,在引入極少的額外參數(shù)和可忽略的計(jì)算量的情況下,能使網(wǎng)絡(luò)具有更優(yōu)的性能。如圖3所示,在對(duì)輸入進(jìn)行全局平均池化(global average pooling,GAP)后,并未減少特征通道數(shù),而是直接使用大小為k的一維快速卷積進(jìn)行局部跨通道交互學(xué)習(xí),然后使用Sigmoid函數(shù)來獲取每個(gè)通道的權(quán)重,最后將權(quán)重與原輸入特征圖進(jìn)行逐通道相乘得到關(guān)鍵信息表達(dá)能力更強(qiáng)的特征圖。其中k的取值是由輸入通道數(shù)C自適應(yīng)確定,如式(3)所示,式中[todd]表示取最接近t的奇數(shù),[γ]和b表示常量,分別取值為2和1。
[k=ψC=|t|odd=log2Cγ+bγodd]. (3)
考慮到網(wǎng)絡(luò)參數(shù)量和計(jì)算量,選擇將輕量級(jí)ECA模塊引入SSD模型輸出的淺層網(wǎng)絡(luò)中,引導(dǎo)網(wǎng)絡(luò)關(guān)注小尺度行人特征,同時(shí)降低干擾信息的影響,從而提高檢測(cè)精度。本文在ECA模塊的基礎(chǔ)上添加了一條跨連接通路Shortcut,通過Shortcut可以實(shí)現(xiàn)網(wǎng)絡(luò)前后層的特征復(fù)用,使網(wǎng)絡(luò)學(xué)習(xí)到更多的特征信息,防止模型性能退化。
2.2 特征融合模塊
SSD利用多尺度特征圖進(jìn)行檢測(cè),能夠同時(shí)檢測(cè)到不同大小的目標(biāo)。由于淺層特征圖Conv4_3所經(jīng)歷的卷積運(yùn)算較少,提取到的特征缺乏語義信息,導(dǎo)致在檢測(cè)小目標(biāo)時(shí)會(huì)存在嚴(yán)重漏檢和誤檢的情況。因此,將深層豐富的語義信息傳遞回淺層,有利于提高小目標(biāo)的檢測(cè)性能??焖傩∧繕?biāo)檢測(cè)(feature-fused SSD,F(xiàn)FSSD)[14]利用反卷積的方式對(duì)不同深度的特征圖進(jìn)行了可視化,可以看出層次越深的特征圖雖然包含的語義信息越豐富,但也會(huì)引入更多的背景噪聲;并指出Conv5_3包含的小尺度目標(biāo)的細(xì)節(jié)信息比Conv4_3更豐富,同時(shí)相較于Conv6、Conv7,引入的背景噪聲更少,因而更加適合與Conv4_3進(jìn)行有效融合。
對(duì)此,本文提出一種新的特征融合模塊以進(jìn)一步提升模型對(duì)小尺度行人的檢測(cè)性能。如圖4所示,為了減少計(jì)算量,首先使用1*1卷積將特征圖Conv4_3、Conv5_3的通道數(shù)都減少為256個(gè),然后對(duì)Conv5_3進(jìn)行2倍上采樣,使得特征圖尺寸與Conv4_3保持一致。這里使用雙線性插值上采樣的方式來代替反卷積,一方面是因?yàn)榭梢赃M(jìn)一步減少計(jì)算量,另一方面是因?yàn)榉淳矸e需要訓(xùn)練參數(shù),但雙線性插值可以由已知臨近像素值進(jìn)行計(jì)算而無需參數(shù)。其次通過Concatenate的融合方式對(duì)待融合的2個(gè)特征圖在通道維度上進(jìn)行拼接,得到尺寸大小為38×38、通道數(shù)為512的融合特征圖。最后通過大小為3*3的卷積核進(jìn)行卷積來獲取語義信息增強(qiáng)的淺層特征圖。在該模塊中添加BatchNorm歸一化層有利于防止梯度消失,提高網(wǎng)絡(luò)的泛化能力;在BatchNorm層后加入ReLU激活函數(shù)有利于增加網(wǎng)絡(luò)的非線性能力。實(shí)驗(yàn)結(jié)果表明,所提的特征融合模塊在不明顯影響模型的推理速度下,能顯著提高對(duì)小尺度行人目標(biāo)的檢測(cè)精度。
2.3 優(yōu)化先驗(yàn)框
SSD算法中的先驗(yàn)框是針對(duì)多類目標(biāo)而設(shè)置的,而實(shí)際場(chǎng)景下的行人目標(biāo)的真實(shí)框多數(shù)為“瘦高型”,因此原始的先驗(yàn)框?qū)τ谛腥藱z測(cè)任務(wù)而言具有明顯缺陷。文獻(xiàn)[15]對(duì)PASCAL VOC數(shù)據(jù)集的所有行人樣本的寬高比進(jìn)行了統(tǒng)計(jì),指出寬高比集中分布在0.2~0.5。對(duì)此,本文將原始先驗(yàn)框的寬高比調(diào)整為[a∈1,12,13],舍棄了其中寬大于高的先驗(yàn)框;然后對(duì)每一種寬高比均設(shè)置2個(gè)不同尺寸的先驗(yàn)框,分別為[Sk]和[S'k,S'k=SkSk+1],所以特征圖上的每個(gè)網(wǎng)格均會(huì)生成3種不同的寬高比匹配2個(gè)不同尺寸的6個(gè)先驗(yàn)框;最后與SSD保持一致,對(duì)特征圖Conv4_3、Conv10_2和Conv11_2不使用[a ]=[13]的先驗(yàn)框,因此先驗(yàn)框優(yōu)化后的數(shù)量不變。圖5為先驗(yàn)框優(yōu)化前后的示意圖對(duì)比,可以看出優(yōu)化后的先驗(yàn)框與行人目標(biāo)更為對(duì)齊,使得與行人目標(biāo)的交并比(IOU)更高,因此所匹配的正樣本數(shù)量會(huì)更多,從而加快模型收斂速度,提升檢測(cè)精度。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
使用通用目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC評(píng)估改進(jìn)后的網(wǎng)絡(luò)性能。PASCAL VOC2007 trainval和PASCAL VOC2012 trainval共計(jì)16 551張圖像,包含常見的20類目標(biāo)。經(jīng)過數(shù)據(jù)處理,將其中具有行人標(biāo)簽的所有圖像作為訓(xùn)練集,共有6 095張圖像,包含13 256個(gè)行人樣本。PASCAL VOC2007 test有4 952張圖像,將其中具有行人標(biāo)簽的所有圖像作為測(cè)試集,共有2 007張圖像,包含4 528個(gè)行人樣本。再?gòu)臏y(cè)試集中隨機(jī)選取出138張行人高度小于60的圖像構(gòu)建成小尺度行人測(cè)試集。
分別使用平均精度(average precision,AP)、F1分?jǐn)?shù)和每秒傳輸幀數(shù)(frame per second,F(xiàn)PS)作為算法檢測(cè)精度與速度的評(píng)價(jià)指標(biāo),平均精度與F1分?jǐn)?shù)值越高則表示算法檢測(cè)行人目標(biāo)的精準(zhǔn)率和召回率越高,其相關(guān)衡量指標(biāo)的計(jì)算公式分別為:
[P=NTPNTP+NFP], (4)
[R=NTPNTP+NFN], (5)
[F1=2×P×RP+R]. (6)
式中:P表示精準(zhǔn)率,R表示召回率,NTP指正樣本被正確地預(yù)測(cè)為正樣本的數(shù)量,NFP指負(fù)樣本被錯(cuò)誤地預(yù)測(cè)為正樣本的數(shù)量,NFN指正樣本被錯(cuò)誤地預(yù)測(cè)為負(fù)樣本的數(shù)量。以召回率R為橫軸,精準(zhǔn)率P為縱軸,作出一條PR曲線,PR曲線與坐標(biāo)軸圍成的面積就是平均精度值。
3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境配置如表1所示,程序運(yùn)行在Python3.8以及深度學(xué)習(xí)框架Pytorch1.7的環(huán)境下。網(wǎng)絡(luò)訓(xùn)練階段,使用Adam優(yōu)化器對(duì)模型的權(quán)重進(jìn)行更新優(yōu)化,批量處理大小設(shè)為16,初始學(xué)習(xí)率設(shè)置為0.000 5,訓(xùn)練輪數(shù)epoch設(shè)置為120,在每5個(gè)epoch后學(xué)習(xí)率調(diào)整為原來的0.9倍。在訓(xùn)練過程中對(duì)圖像執(zhí)行平移縮放、顏色變換、水平翻轉(zhuǎn)等操作,以進(jìn)一步提高模型的泛化能力。
3.3 檢測(cè)性能對(duì)比實(shí)驗(yàn)
表2為本文算法和Faster R-CNN、SSD、FFSSD、YOLOv2等目前主流的目標(biāo)檢測(cè)算法在VOC2007行人測(cè)試集上的檢測(cè)性能對(duì)比。
由表2可知,本文算法在測(cè)試集上的平均精度和F1分?jǐn)?shù)分別達(dá)到了82.96%和81.17%,相比于SSD算法分別提升了3.83%和5.81%,同時(shí)檢測(cè)速度可以達(dá)到69.2FPS,完全實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。Faster R-CNN在測(cè)試集上的檢測(cè)精度不僅低于本文算法,而且檢測(cè)速度只有10.6FPS,無法滿足實(shí)時(shí)性要求;與FFSSD相比,本文算法在速度上幾乎與之持平,但檢測(cè)精度明顯更高;YOLOv2雖然具有優(yōu)異的檢測(cè)速度,但檢測(cè)精度遠(yuǎn)低于本文算法;YOLOv3的平均精度與F1分?jǐn)?shù)只比本文分別高出1.72%和2.37%,但本文算法的檢測(cè)速度具有明顯優(yōu)勢(shì)。從上述分析可知,本文所提算法在提升檢測(cè)精度的同時(shí)具有良好的檢測(cè)速度,兼顧了行人檢測(cè)的精度與實(shí)時(shí)性。
3.4 消融實(shí)驗(yàn)
通過消融實(shí)驗(yàn)來分析引入新的模塊以及優(yōu)化先驗(yàn)框(I-Anchor)后對(duì)模型檢測(cè)性能的影響,結(jié)果如表3所示。
對(duì)比SSD和模型A、B可知,引入注意力機(jī)制和特征融合模塊后在平均精度上分別提高了0.82%、2.85%;而從檢測(cè)速度來看,只比原來降低了3.6FPS和5.2FPS,這主要是由于注意力機(jī)制的輕量級(jí)和特征融合模塊結(jié)構(gòu)的簡(jiǎn)單。對(duì)比SSD和模型C可知,優(yōu)化先驗(yàn)框后,模型的平均精度提高了2.11%,證明了在提供相同數(shù)量的先驗(yàn)框的情況下,優(yōu)化后的先驗(yàn)框區(qū)域質(zhì)量更高;同時(shí)由于先驗(yàn)框數(shù)量沒有增加,模型結(jié)構(gòu)也沒有改變,所以檢測(cè)速度并未受到影響。對(duì)比SSD和模型D、E、F可知,任意組合其中2種方法均能提升模型的檢測(cè)精度,而最終集合3種方法的本文算法模型則在平均精度上取得了最優(yōu)結(jié)果。
3.5 小尺度行人檢測(cè)實(shí)驗(yàn)
為驗(yàn)證本文算法在檢測(cè)小尺度行人時(shí)的有效性,將其與原SSD算法在構(gòu)建的小尺度行人測(cè)試集上進(jìn)行檢測(cè)對(duì)比,結(jié)果如表4所示。由表4可知,本文算法對(duì)小尺度行人的平均精度和F1分?jǐn)?shù)比SSD分別提高了5.48%和7.74%,這表明本文對(duì)于檢測(cè)小尺度行人的改進(jìn)是有效的,大幅度提升了對(duì)小尺度行人的檢測(cè)能力。圖6為檢測(cè)結(jié)果部分可視化對(duì)比。
從圖6中能夠看出,SSD對(duì)大尺度行人具有不錯(cuò)的檢測(cè)效果,但很難檢測(cè)到距離較遠(yuǎn)的小尺度行人。而本文算法能夠精準(zhǔn)地檢測(cè)到更多數(shù)量的小尺度行人,也檢測(cè)到了部分被遮擋的行人,說明本文算法對(duì)遮擋行人也具有一定的有效性。此外,本文算法識(shí)別出行人的置信度更高,說明對(duì)目標(biāo)的辨識(shí)能力更強(qiáng)。綜上充分表明本文算法在保證實(shí)時(shí)性的前提下,可以減少小尺度行人漏檢的問題,提高行人檢測(cè)精度。
4 結(jié)論
為了更好地檢測(cè)行人目標(biāo),與目前大多數(shù)目標(biāo)檢測(cè)算法利用更深的主干網(wǎng)絡(luò)或采取較為復(fù)雜的特征融合方式以犧牲大量的檢測(cè)速度來提高檢測(cè)精度不同,本文在SSD網(wǎng)絡(luò)的基礎(chǔ)上,通過引入通道注意力機(jī)制來增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵信息的表達(dá)能力,構(gòu)造一種新的特征融合模塊,使淺層特征圖充分利用上下文信息,提升對(duì)小尺度行人的檢測(cè)能力;最后根據(jù)實(shí)際場(chǎng)景下行人的寬高比特性,對(duì)原始先驗(yàn)框進(jìn)行優(yōu)化,提高對(duì)行人的檢測(cè)效率。實(shí)驗(yàn)結(jié)果表明,本文算法在PASCAL VOC2007行人測(cè)試集和構(gòu)建的小尺度行人測(cè)試集上的整體性能要優(yōu)于SSD和其他大多數(shù)目標(biāo)檢測(cè)算法,在保證實(shí)時(shí)檢測(cè)的同時(shí)顯著提升了對(duì)行人的檢測(cè)精度。下一步工作則是對(duì)模型體積進(jìn)行量化,使其便于部署到嵌入式設(shè)備上。
參考文獻(xiàn)
[1] 鄧杰,萬旺根.基于改進(jìn)YOLOv3的密集行人檢測(cè)[J].電子測(cè)量技術(shù),2021,44(11):90-95.
[2] 朱宗洪,李春貴,李煒,等.改進(jìn)Faster R-CNN模型的汽車噴油器閥座瑕疵檢測(cè)算法[J].廣西科技大學(xué)學(xué)報(bào),2020,31(1):1-10.
[3] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//29th Annual Conference on Neural Information Processing Systems (NIPS),2015:91-99.
[4] HE K M,GKIOXARI G,DOLLAR P,et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision,2017:2961-2969.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[6] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[C]//European Conference on Computer Vision. Springer,Cham,2016:21-37.
[7] REDMON J,F(xiàn)ARHADI A.YOLO 9000:better,faster,stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,HI,USA,2017:6517-6525.
[8] REDMON J,F(xiàn)ARHADI A.Yolov3:an incremental improvement[J].ArXiv,2018.DOI:10.48550/arXiv.1804. 02767.
[9] FU C Y,LIU W,RANGA A,et al. DSSD:deconvolutional single shot detector[J].arXiv,2017.DOI:10.48550/arXiv.1701.06659.
[10] ZHAI S P,SHANG D R,WANG S H,et al.DF-SSD:an improved SSD object detection algorithm based on DenseNet and feature fusion[J].IEEE Access,2020,8:24344-24357.
[11] HU J,SHEN L,ALBANIE S,et al.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[12] WOO S,PARK J,LEE J Y,et al.Cbam:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV),2018:3-19.
[13] WANG Q L,WU B G,ZHU P F,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:11531-11539.
[14] CAO G M,XIE X M,YANG W Z,et al.Feature-fused SSD:fast detection for small objects[C]//International Conference on Graphic and Image Processing,2017.
[15] 熊壽禹,陶青川,戴亞峰.一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(9):220-225,231.
Pedestrian detection algorithm based on improved SSD
ZHANG Lun,TAN Guangxing*
(School of Automation, Guangxi University of Science and Technology, Liuzhou 545616, China)
Abstract: Aimed at the problem that the current mainstream object detection algorithms cannot balance precision and real-time performance in pedestrian detection, a pedestrian detection algorithm based on improved single shot multibox detector (SSD) is proposed. Firstly, in order to guide the network to pay more attention to the feature information of small-scale pedestrians, the efficient channel attention mechanism is introduced into the shallow network to redistribute feature weights. Then, a new feature fusion module is designed to improve the insufficient semantic information of shallow feature. Finally, by optimizing the parameters of the original anchor to generate the anchor suitable for detecting pedestrians. Experimental results show that the proposed algorithm has an average accuracy of 82.96% on the PASCAL VOC2007 test set, which is 3.83% higher than that of the SSD, and 5.48% higher than that on the small-scale pedestrian test set respectively. At the same time, the detection speed reaches 69.2 frames per second, which meets the requirement of real-time performance.
Key words: single shof multibox detector (SSD); pedestrian detection; attention mechanism; feature fusion
(責(zé)任編輯:黎 婭)