


摘? 要:近年來目標檢測技術發展十分迅速,出現了很多優秀的目標檢測算法,諸如Faster RCNN、YOLO和SSD等,其中尤以SSD目標檢測算法表現突出,其運行速度可以和YOLO媲美,檢測精度可以和Faster RCNN媲美,但SSD目標檢測算法已生成六個特征圖,接著單獨送進網絡里面檢測,并沒有考慮到多尺度特征融合問題。基于此,文章對SSD目標檢測算法的多尺度特征融合技術進行了研究,使用特征圖融合技術和三支路多尺度特征融合技術改進SSD目標檢測算法,并獲得更優的效果。
關鍵詞:SSD;目標檢測;多尺度特征融合;FPN
中圖分類號:TP391.41? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)18-0122-03
Abstract:In recent years,the development of target detection technology has been very rapid,and there have been many excellent target detection algorithms,such as Faster RCNN,YOLO,and SSD. Among them,the SSD target detection algorithm has outstanding performance,its running speed can be comparable to YOLO,and the detection accuracy can be comparable to Faster RCNN. The SSD target detection algorithm generated six feature maps separately and sent them to the network for detection,and does not take into account the problem of multi-scale feature fusion. Based on this,the article studies the multi-scale feature fusion technology of the SSD target detection algorithm,and uses feature map fusion and three-branch multi-scale feature fusion technology to improve the SSD target detection algorithm and obtain better results.
Keywords:SSD;target detection;multi-scale feature fusion;FPN
0? 引? 言
目標檢測目前是圖像處理領域的一個基本方向,是近些年來理論和應用的研究熱點。目標檢測技術應用十分廣泛,其主要目標是在圖像或圖像序列中精確識別出各種目標的類別和位置信息。近年來,無人駕駛市場熱度很高,各種報道層出不窮,無人駕駛技術尤其在軌道交通領域具有深遠影響,其運用了深度學習圖像識別技術,汽車或者機器人要對駕駛路徑進行目標檢測,特別是對行人、汽車、自行車和摩托車等重要目標的識別。筆者作為工科學校的控制科學與工程專業的研究生,對目標檢測在軌道交通場景中的運用進行了研究,駕駛場景的目標檢測需要實時性和高精度性,Faster RCNN和YOLO都有各自的不足,筆者通過改進SSD目標檢測算法的多尺度特征融合技術(特征圖融合技術和三支路多尺度特征融合技術皆為多尺度特征融合技術),提升了SSD目標檢測算法精度,使其適用于無人駕駛等軌道交通場景。
1? SSD目標檢測簡介
SSD采用VGG16作為基礎模型,然后在VGG16的基礎上用Conv6和Conv7替換掉了FC6和FC7,用卷積層來獲得更多的特征語義用于檢測。SSD提取了Conv4_3、Conv7和四個額外添加的特征圖Conv8_2、Conv9_2、Conv 10_2、Conv11_2,其大小分別是(38,38)(19,19)(10,10)(5,5)(3,3)(1,1),將總共六個特征圖送進后續的回歸網絡進行定位和分類,SSD使用感受野大的特征圖去檢測大目標,使用感受野小的特征圖去檢測小目標。SSD的損失函數包括兩部分的加權:(1)位置損失函數Lloc(x,l,g);(2)置信度損失函數Lconf(x,c)。整個損失函數為:
其中,N為先驗框的正樣本數量,c為類別置信度預測值,l為先驗框對應bounding box的位置對應值,g為ground truth的位置參數,α一般取1。
2? 基于SSD目標檢測算法的多尺度特征融合技術
2.1? 金字塔網絡
多尺度特征融合技術中最出名的是特征金字塔網絡(FPN),如圖1所示,特征金字塔網絡在正向傳播時,特征圖在每個階段進行下采樣(即降為原來的1/2),將高層特征經過兩倍上采樣,與經過1×1卷積核的底層特征相加可以得到更豐富的語義信息。特征金字塔網絡加強了各特征圖之間的聯系,增強了特征圖之間的融合,并成功改進了Faster RCNN算法,使其獲得了不錯的提升。
2.2? 特征圖融合
如圖2所示,SSD網絡中提取了六個特征圖,我們先進行預處理操作(把C1、C2、C3、C4、C5和C6用1×1的卷積統一將通道數轉變為256),然后將C2、C3和C4采樣至與C1分辨率相同,接著進行concat操作,再通過1×1的卷積將通道數由1 024轉為512,從而生成D1特征圖取代原有的C1特征圖。D1是由38×38、19×19、10×10和5×5的特征圖進行融合而成,具有自下而上多層信息,同時保持C2、C3、C4特征圖不變。1×1的特征圖C6和3×3的特征圖C5相對38×38實在太小,采樣到38×38的分辨率只能攜帶很少信息,基于實時性考慮,并沒有采樣C5和C6。最后將特征融合后的D1與C2、C3、C4、C5和C6配合下文的雙路多尺度特征融合送入檢測頭進行定位和置信度分析。
特征圖融合公式可表示為:
其中,Ci{i∈(1,2,3,4)},代表SSD提取的前四個特征圖,Ti代表Ci的通道數轉換和分辨率轉換,f代表concat融合Ci,φ代表送入檢測頭定位和分類操作,(1,2,3,4,5,6)代表特征圖的序號。
2.3? 三支路多尺度特征融合
SSD目標檢測算法的六個特征圖是獨立地傳進網絡中進行目標定位和目標識別,由于特征圖與特征圖之間沒有聯系,導致SSD出現兩個問題:(1)底層特征語義不夠;(2)最高分辨率不高。
本文將基于SSD目標檢測算法提出新的多尺度特征融合技術,如圖3所示,SSD算法總共提取了六個特征圖(C1、C2、C3、C4、C5、C6),C1和C3通道數為512,C2通道數為1 024,C4、C5和C6通道數都是256,我們統一讓六個特征圖都先經過1×1的卷積(通道數為256),將六個特征圖的通道數都調整為256,然后讓經過調整后的C1…C6分別經過卷積核為1×1、通道數為256的卷積,生成C1_1…C6_1;然后讓輸入的C1…C6分別經過卷積核為3×3、通道數為256的卷積,生成C1_2…C6_2,最后讓輸入的C1…C6分別經過卷積核為5×5、通道數為256的卷積,生成C1_3…C6_3。
以C5和C6為例,由輸入C6,經過通道數為256,卷積核分別為1×1、3×3、5×5的卷積,分別生成了C6_1、C6_2、C6_3;由輸入C5,經過通道數為256,卷積核分別為1×1、3×3、5×5的卷積,分別生成了C5_1、C5_2、C5_3,可得:
3? 實驗結果
如表1所示,表1展示了Faster RCNN、YOLO、SSD300*和本文算法的實驗結果對比圖,train數據為VOC07+12,test數據為VOC07,對比得出SSD300*效果明顯好于Faster RCNN和YOLO。SSD300*的FPS可以實現在100左右,在精度上不遜色于Faster RCNN,在速度上不輸YOLO;SSD300*經過本文多尺度特征融合技術改進之后,FPS可以實現在55左右,mAP比SSD300*提高了1.5。經過本文多尺度特征融合技術改進后的算法對比SSD300*可以得出,無論是大目標和小目標,特別是對于較難識別的bottle和plant類別,改進后的算法相較于SSD300*分別有5.3%和2.9%的提升。
如圖4所示,圖4(a)和圖4(b)為SSD目標檢測算法的檢測效果圖,圖4(c)和圖4(d)圖為使用多尺度特征融合技術后的SSD目標檢測算法檢測效果圖。由圖4(a)和圖4(c)對比、圖4(b)和圖4(d)對比可以看出,加入多尺度特征融合技術后的SSD算法準確框出了人、自行車、汽車等物體,在人群、車輛等密集的情況下,使用多尺度特征融合技術的SSD算法比原SSD算法框住了更多的目標,同時實現了位置定位和目標識別精度的超越。
4? 結? 論
特征融合一共有三條支路,分別為1×1、3×3、5×5,1×1卷積自頂而下,3×3卷積自下而上,5×5卷積自頂而下,三支路多尺度特征融合技術融合了高尺度語義信息和低尺度圖像信息,同時采用了三種不同的卷積核,有效解決了傳統FPN唯一的自頂而下的單向提取特征融合模式。在送入三支路多尺度特征融合模塊之前先進行特征圖融合,融合后的特征圖有更豐富的語義,在不影響實時性的同時還取得了比SSD算法更優的結果。
參考文獻:
[1] 黃健,張鋼.深度卷積神經網絡的目標檢測算法綜述 [J].計算機工程與應用,2020,56(17):12-23.
[2] LIN T Y,DOLL?R P,GIRSHICK R,et al.Feature Pyramid Networks for Object Detection [C]//Proceedings of the 2017 IEEE conference on computer vision and pattern recognition. 2017:2117-2125.
[3] LIU W,ANGUELOV D,ERHAN D,et al.SSD:Single Shot MultiBox Detector [C]// Computer Vision-ECCV 2016,2016:21-37.
[4] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[5] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE transactions on pattern analysis and machine intelligence,2017,39(6):1137-1149.
[6] LI Z,ZHOU F. FSSD:Feature Fusion Single Shot Multibox Detector [J/OL]. arXiv:1712.00960 [cs.CV].(2017-12-04).https://arxiv.org/abs/1712.00960v1.
作者簡介:黃和錕(1996—),男,漢族,廣西玉林人,碩士,研究方向:目標檢測。