李彬 中國科學技術(shù)大學
引言:隨著計算機技術(shù)和人工智能的發(fā)展,智能輔助駕駛已成為未來汽車行業(yè)發(fā)展的趨勢之一。實時準確的行人與交通標識牌檢測是智能輔助駕駛領(lǐng)域的重要研究內(nèi)容。與此同時,深度學習方法近幾年發(fā)展迅猛,在物體檢測和圖像識別等領(lǐng)域?qū)矣型黄菩缘倪M展。由于汽車在高速運動條件下,算法的實時性一直是制約著其發(fā)展的難點和痛點,能否提出一種既能夠滿足實時性要求且檢測準確率優(yōu)異的深度學習目標檢測模型具有重要的研究意義。同時,在汽車行駛過程中,容易受到天氣、光照、視角、目標物遮擋等外在因素的影響,這無疑也給行人以及交通標識牌的檢測帶來了巨大的挑戰(zhàn)。
目標檢測從本質(zhì)上是檢測圖像中是否有待檢測目標的存在,如果存在,輸出檢測目標的置信度以及目標的位置。現(xiàn)有行人檢測算法大致分為兩種:基于機器學習的傳統(tǒng)目標檢測算法和基于深度學習的目標檢測算法。
傳統(tǒng)目標檢測算法一般使用滑動窗口的框架,主要包括三個步驟:提案候選區(qū)域、提取候選區(qū)域相關(guān)的視覺特征和利用分類器進行識別。其中最經(jīng)典的算法是2010年,P.F.等人[1]提出了變形部分模型( DPM )的目標檢測算法。DPM算法考慮到了目標內(nèi)部的結(jié)構(gòu),將行人視為多個組成部分(例如手、腿等),用不同部位間關(guān)系描述物體,有效的提高了檢測的準確率。但是DPM算法較復(fù)雜,檢測效率不高,另外人工設(shè)計的行人特征很難適應(yīng)光照差異以及遮擋帶來的復(fù)雜變化。
隨著基于深度學習的目標檢測算法的發(fā)展,其檢測性能逐漸體現(xiàn)。目前基于深度學習的目標檢測算法大致分為兩種:基于區(qū)域提案(Region Proposal)的深度學習目標檢測算法和端到端(End-to-End)的無區(qū)域提案的深度學習目標檢測算法。
(1)基于區(qū)域提案的深度學習目標檢測算法的開山之作是2013年G. R. 提出的具有卷積網(wǎng)絡(luò)特征的RCNN[2],自此之后Fast RCNN、Faster RCNN等一系列相關(guān)網(wǎng)絡(luò)相繼被提出,這些網(wǎng)絡(luò)的出現(xiàn)一步步的提高了目標檢測的準確率和實時性。其中 Faster RCNN不僅檢測速度達到了198ms, 而且在競賽數(shù)據(jù)集上獲得了70%多的準確率。但是,198ms的圖片處理速度還是無法滿足智能輔助駕駛的實時性要求。因此,端到端的無區(qū)域提案的目標檢測算法開始走進研究人員的視線。
(2)端到端的深度學習行人檢測算法的第一次嘗試是YOLO網(wǎng)絡(luò)[3],YOLO網(wǎng)絡(luò)的檢測速度很快,達到了45幀每秒,基本達到了實時檢測的需求,但是YOLO網(wǎng)絡(luò)的準確率不是很理想。因此研究人員又緊接著提出了SSD目標檢測網(wǎng)絡(luò)和結(jié)合Anchor機制的YOLOv2[4]網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)不僅在檢測速度上達到了智能輔助駕駛中對于實時性的要求,而且兩者的檢測精度都很高。
針對目標檢測算法對實時性以及準確性的要求,本文改進了基于YOLOv2的實時目標檢測算法,在保證目標檢測實時性要求的前提下,將特征金字塔網(wǎng)絡(luò)與YOLOv2的目標檢測網(wǎng)絡(luò)進行結(jié)合,提出了一種新的目標檢測網(wǎng)絡(luò)模型YOLOv2-P。在網(wǎng)絡(luò)訓(xùn)練階段,首先對訓(xùn)練集標簽bbox進行k-means聚類得到符合行人與交通標識牌邊界規(guī)格的初始候選框參數(shù),設(shè)定候選框的初始尺寸參數(shù)和數(shù)量,然后對網(wǎng)絡(luò)進行多尺度訓(xùn)練,每隔幾次迭代隨機設(shè)定網(wǎng)絡(luò)的輸入尺寸,最終得到目標檢測網(wǎng)絡(luò)模型。在網(wǎng)絡(luò)測試階段,首先把訓(xùn)練好的行人與交通標識牌檢測模型的相關(guān)參數(shù)賦值給目標檢測模型框架,然后將待檢測圖片輸入給訓(xùn)練好的目標檢測模型,并將這些區(qū)域進行非最大值抑制(NMS)處理,得到最終的檢測行人與交通標識牌區(qū)域結(jié)果。
為驗證本文提出的行人與交通標識牌檢測算法的準確性,以行人檢測數(shù)據(jù)集INRIA和文本檢測數(shù)據(jù)集MSRA-TD500作為實驗數(shù)據(jù)集。在訓(xùn)練過程中各超參數(shù)分別設(shè)置為:學習率0.0001,動量0.9,權(quán)值衰減值0.1,同時采用批次正則化穩(wěn)定模型訓(xùn)練。對比傳統(tǒng)的YOLOv2模型和本文中改進的YOLOv2-P模型,通過詳細的實驗驗證,在FPPI(單圖誤檢率)相同時,YOLOv2-P檢測器的漏檢率明顯低于YOLOv2檢測器。 當FPPI = 0.1時,YOLOv2-P檢測器的漏檢率為7.5%,YOLOv2檢測器的漏檢率為11%,想較YOLOv2檢測器降低了3.5%。同時,該模型的準確率接近99%,檢測速度達到50幀每秒,在保證目標檢測實時性的前提下有效的提高了目標的檢測準確率。
行人以及交通標識牌是智能輔助駕駛中的重要目標物,如何在保證目標檢測實時性的前提下提高檢測的準確率一直以來都是該領(lǐng)域的難點和痛點。本文通過對現(xiàn)有目標檢測算法和深度學習的研究分析,將深度學習方法應(yīng)用于行人以及交通標識牌的檢測中,提出了一種將特征金字塔網(wǎng)絡(luò)與YOLOv2的目標檢測網(wǎng)絡(luò)進行結(jié)合的網(wǎng)絡(luò)模型YOLOv2-P。最后通過在行人檢測數(shù)據(jù)集INRIA和文本檢測數(shù)據(jù)集MSRA-TD500上進行實驗仿真,進一步驗證了該網(wǎng)絡(luò)模型的有效性和可行性。