徐元澤 王勇
摘要:針對實際駕駛時獲取的自然交通場景圖像中,交通標志占圖像比例較小導致檢測精度低問題,同時要求交通標志檢測速度快,提出一種改進的單發多框檢測(SSD)神經網絡模型。該模型在SSD基礎上融合特征金字塔網絡(FPN),在后處理方法應用中心點距離非極大值抑制(DIoU-NMS),提高了交通標志小目標的檢測精度。實驗結果表明,改進后的SSD 網絡型檢測性能顯著提高,其均值平均精度(mAP)比原SSD提高了7.6個百分點,其每秒幀率(FPS)達到31.4具備實時檢測能力。
關鍵詞:交通標志;實時檢測;單發多框檢測(SSD);特征金字塔網絡(FPN)
中圖分類號:TP183? 文獻標識碼:A
文章編號:1009-3044(2021)29-0092-03
Real-time Traffic Signs Detection Based on Improved SSD
XU Yuan-ze,WANG Yong
(School of Computers, Guangdong University of Technology, Guangdong 51000 China )
Abstract:In the natural traffic scene images obtained during actual driving, the small proportion of traffic signs in the image leads to the problem of low detection accuracy. At the same time, the detection speed of traffic signs is required to be fast. An improved single-shot multibox detector (SSD) neural network model is proposed. The model integrates Feature Pyramid Network (FPN) on the basis of SSD, and applies center point distance non-maximum suppression (DIoU-NMS) in the post-processing method to im? prove the average detection accuracy of small targets of traffic signs. Experimental results show that the improved SSD network model not only significantly improves the detection performance, its mean average accuracy (mAP) is 7.6 percentage points higherthan the original SSD, and it has real-time detection capabilities that the frame per second reaches 31.4.
Key words:traffic sign; real-time detection; single shot mulitboxdetector(SSD); feature pyramid networks(FPN)
1引言
隨著5G、人工智能、邊緣計算等科學技術的進步和發展,輔助駕駛、無人駕駛等智能駕駛技術也越來越成熟,交通標志檢測(Traf-fic Sign Detection,TSD)作為智能交通系統的重要組成部分之一,在安全出行中發揮著不可替代的作用[1]。為了保障駕駛員的安全,在真實的駕駛場景中,需要盡早識別出自然場景中的交通標志,會使得交通標志在拍攝的交通圖像中所占比例較小,可視為小目標檢測。Bell S[2]等在COCO數據集中定義小于等于32*32像素的目標為小目標;在實際駕駛應用場景中交通標志檢測還需要滿足實時性的要求,Jiwoong C[3]等人提出自動駕駛應用的前提條件是實時監測速度也就是每秒幀率30fps 以上。
近年來,深度學習技術廣泛應用于各種目標檢測領域,現有的檢測算法大致分為兩大類:一類是基于候選框提取的兩階段目標檢測算法,如R-CNN[4]、FasterR-CNN[5]、R-FCN[6]等神經網絡,雖然這類網絡檢測精度較高,但是由于其需要在檢測前生成候選區域,遠不能滿足實時性要求;另一類是基于回歸方法的單階段目標檢測算法,如SSD[7]、YOLO[8]等算法,這類算法只需經過卷積神經網絡無需生成候選區域,其檢測速度大幅提升滿足實時性要求,但是這類算法對小目標檢測效果較差。
本文以SSD算法模型為基礎,提出一種改進的SSD 網絡模型,參照FPN[9]網絡結構思想,從原網絡結構中的Con10層開始對其進行卷積和上采樣操作,而后與前一層特征圖(Con9)進行側向連接作為特征圖,融合多尺度特征圖進行預測,最后采用中心點距離非極大值抑制方法(DIou-NMS)[10],降低漏檢率,提高對于目標較小的交通標志檢測均值平均精度。
2相關內容
2.1 SSD算法
SSD 是Wei.L等人設計的一種目標檢測器,該模型以VGG16網絡作為基礎,SSD 網絡模型結構如圖1 所示。用 VGG16主干網絡提取特征,在Con4_3層后將原VGG16的全連接層替代為卷基層 Con7,再進行四次卷積操作得到 Con8、 Con9、Con10、Con11,最終對每一特征層進行預測,實現多尺度特征圖的檢測。
該算法借鑒特征圖像金字塔結構方式,對于深層次的特征圖尺寸較小,包含豐富的語義特征信息,使其對大物體檢測更為適宜;而淺層次的特征圖尺寸較大,包含豐富的細節特征,因而可以更好的檢測小物體。SSD利用了不同卷積層的特征圖,實現不同尺度特征圖的預測,利用不同特征圖之間的互補,相較于使用單一層特征圖目標檢測算法,平均檢測精度更高,檢測效果更優。但是SSD低層特征圖語義信息不夠,而且從高層特征圖開始構建金字塔結構,錯過了重復使用低層高分辨率的特征圖,即沒有有效利用低層特征圖中空間信息,從而對小物體檢測效果不理想。
2.2 FPN神經網絡
FPN神經網絡的提出正是為了解決上述出現的問題,其網絡結構模型如圖2。結構分為三個線路,一個自底向上的線路,一個自頂向下的線路,一個側向連接。自底向上是網絡的向前傳播過程;自頂向下過程采用上采樣的方式,將頂層的小特征圖放大到上一級特征圖的大小,側向連接將上采樣的結果和自底向上生成的特征圖進行融合,形成新的特征圖,用于預測。
該算法同時利用低層特征圖的高分辨率和高層特征圖的豐富語言信息,通過融合這些不同層的特征達到預期的效果,顯著提高小目標檢測精度。
2.3改進的SSD模型
改進模型方法保留原SSD 網絡結構中VGG16 Con4_3層,以此特征層為開始,構建特征金字塔網絡結構,原網絡中的 Con11特征層已經較深,對小目標檢測提升不大,因此保留此特征層不動,從 Con4_3到 Con10共五層構建特征金字塔。改進 SSD 的神經網絡模型結構如圖3所示。
其執行步驟為:Con11層先經過1×1卷積,改變通道特征數,此處設置為256,F10通過上采樣,與Con9經過1×1卷積后的特征圖進行側向連接操作,得到F9。重復上述過程,每一層通道特征數與上一層設置相同,分別得到F8、F7、F4特征層,將得到特征層經過3×3卷積,得到最終用于預測的特征層。
2.4 DIoU-NMS使用
原SSD模型經過預測后需要經過NMS后處理,其主要作用是去除檢測任務的重復檢測框,以得到最終的檢測結果。在實際應用場景中,當兩個不同物體距離很近時,由于交并比(IOU)值比較大,經過NMS處理后,只剩下一個檢測框,這樣導致漏檢的錯誤情況發生。
DIoU-NMS 的更新公式的正式定義如下公式(1):
式中si表示分類得分,ε表示非極大值抑制(NMS)的閾值,通常設置0.5,M表示最高分類得分的檢測框,Bi表示其余初始
檢測框,具體定義如公式(2):
式中ρ表示歐氏距離,b,bgt表示預測框B 和目標框Bgt的中心點,c 表示覆蓋兩個框最小封閉區間的對角線長度,如圖4所示。
公式中不難看出,在抑制準則中不僅考慮了重疊區域,還加入考慮兩個框的中心點距離的考量,兩個中心點較遠的框可能由于不同對象產生,不應將其刪除,降低漏檢率。在實際應用中還引入參數β,用于控制對距離的影響因素。
3實驗結果與分析
實驗基于Liunx操作系統Ubuntu18.04, 在Pytorch深度學習框架上完成訓練與測試等相關工作,實驗硬件平臺:CPU:i7-87003.2GHZ,內存:16GB RAM,顯卡 GPU:NVIDIA GER? FORCE GTX 2070 Super 8GB 內存。
選用清華大學騰訊聯合實驗室的公開數據集(Tsinghua- Tencent 100k)TT100K作為改進算法的訓練和測試數據集,該數據集取自中國5個不同城市各10個區域內真實的駕駛場景,包含有不同天氣條件、不同光照角度下的交通標志;并選取原 SSD 網絡模型進行實驗參照對比。實驗評價指標選用均值平均精度(mAP)、檢測每秒幀率(FPS)和召回率-準確率(P-R)曲線等。實驗設置 Batch size 為4,初始學習率0.001,每迭代40000次學習率縮小為上次學習率的0.1,最大迭代次數設置為400000次。
實驗結果見表1,我們可以發現雖然經過改進后的網絡模型在FPS指標下降明顯,由于經過FPN結構增加了計算量,在后處理階段使用DIoU-NMS也會比原有計算量更大,從而導致 FPS 降低,但是FPS依然能夠達到31.4,具備實時檢測能力;從表 1中我們可以看出,改進后的SSD算法mAP由原來的53.7%提高到61.3%,提升了7.6%;在圖5中P-R 曲線表明,改進后的模型曲線更靠近右上方,證明融合金字塔特征結構后,使得交通標志經過卷積后的特征層包含信息更豐富,后處理使用DI?oU-NMS,提高了召回率,改進SSD 網絡模型能更好地檢測出圖像中小目標的交通標志。
4結束語
SSD神經網絡模型,具有檢測速度快優點,但檢測小目標能力較弱,本文參考金字塔特征結構網絡思想,將淺層特征層和深層特征層融合為新的特征層,提出了一種改進的SSD神經網絡模型,并在后處理時改用DIoU-NMS方法,提高對于小目標交通標志的檢測能力,雖然增加了一定計算過程使得檢測時間上升,但是仍然具有一定的實時性。車載平臺的計算能力有限,在計算資源有限的條件下進行能夠實現精確度高、速度快的檢測,是下一步的研究方向。
參考文獻:
[1]董曉華,韋玉科.交通標志識別技術方法綜述[J].電腦知識與技術,2020,16(25):193-194,199.
[2] Bell S,Zitnick C L,BalaK,etal.Inside-outside net:detectingob? jects in context with skip pooling and recurrent neural net? works[C]//2016 IEEE Conference on Computer Vision and Pat? tern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.
IEEE 2016:2874-2883.
[3] Choi J,ChunD,KimH,etal.Gaussian YOLOv3:an accurate and fast ect detector using localization uncertainty for autono?mous driving[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27- November 2,2019,Seoul, Korea (South).IEEE,2019:502-511.
[4] GirshickR,DonahueJ,DarrellT,etal.Rich feature hierarchies for accurate ect detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Rec?ognition. June 23-28, 2014, Columbus, OH, USA. IEEE, 2014:580-587.
[5] Ren S Q,He K M,GirshickR,etal.FasterR-CNN:towards real- time ect detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE,:1137-1149.
[6] Dai J F,LiY,He K M,etal.R-FCN:ect detection via region- based fully convolutional networks[EB/OL].2016
[7] Liu W,AnguelovD,ErhanD,etal.SSD:single shot MultiBox de?tector[M]//Computer Vision – ECCV 2016.Cham:Springer In?ternational Publishing,2016:21-37.
[8] Redmon J,DivvalaS,GirshickR,etal.You only look once:uni?fied, real-time ect detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30, 2016,Las Vegas,NV,USA.IEEE,2016:779-788.
[9] Lin T Y,DollárP,GirshickR,etal.Feature pyramid networks for ect detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Ho? nolulu,HI,USA.IEEE,2017:936-944.
[10] Zheng Z H,WangP,LiuW,etal.Distance-IoUloss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):12993-13000.
【通聯編輯:唐一東】