楊愷 徐友春 安相璧 李永樂 劉鯤鵬
摘要:針對城區道路環境下智能車輛自主規劃決策對周圍其他車輛的感知需求,提出將全卷積網絡技術引用到三維掃描數據上,進行結構化道路上車輛目標檢測的研究。使用Velodyne64E激光雷達得到道路場景的三維數據,完成車輛檢測任務。將雷達掃描得到的三維數據呈現在2D點云圖中。利用三維點云與二維柵格相結合的特征提取方法,結合區域候選網絡構成一個單個2D端到端的全卷積網絡并對車輛的目標和邊框進行檢測。使用KITTI數據集進行實驗,顯示了所提方法的性能。結果表明該方法能夠在城市道路上以每幀1.24 s的速度準確檢測到周圍環境的車輛。
關鍵詞:全卷積網絡;區域候選網絡;車輛檢測
中圖分類號:TP312文獻標志碼:A文章編號:1008-1739(2018)19-58-4
Vehicle Detection Method Based on Deep Learning
YANG Kai, XU Youchun, AN Xiangbi, LI Yongle, LIU Kunpeng(Army Military Transportation University, Tianjin 300161, China)
0引言
近年來隨著人工智能與機器人的發展,智能車作為一個研究分支,引起了國內學者的關注與研究。智能車是一個包括感知、決策及控制等技術的復雜系統[1-2]。環境感知是智能車進行路徑規劃和控制決策的根本信息,決定了智能車行駛的安全性與合理性,車輛檢測是環境感知的一個重要組成部分。
3D傳感器技術的快速發展促進了很多學者對點云中物體做檢測與定位的研究。一些早期的特征表示方法,例如P. Bariya[3]等利用提取物體的固有特征完成檢測與識別任務,這種人為提取物體特征形狀信息的方法要想得到顯著的效果,必須將特征形狀信息提取的十分詳細。然而,由于人為從數據中提取特征的方法存在有限性和不變性,導致了這些方法只適用于相對簡單的場景。還有一些方法以圖像為數據源,圖像能夠提供十分詳細的紋理信息,因此許多方法從2D圖像中獲取3D邊界框,例如X.Chen等人提出的方法。但是,這些基于圖像的3D檢測方法的準確性受到數據本身的深度紋理信息的局限性,得到的結果存在一定的誤差。卷積神經網絡是深度學習領域中突出的網絡架構,其中格外突出的是R-CNN方法提出的候選區域網絡,在目標檢測領域取得了顯著的成果[4-5]。利用Bo Li等人全卷積網絡的思想,結合區域候選網絡完成車輛檢測任務。
1檢測方法
1.1數據預處理
本文使用的是64線三維激光雷達采集數據,每一幀的數據量約13萬個點,直接使用原始數據作為訓練數據集,計算量是很大的,因此本文將64線激光雷達捕獲的點云數據,進行柵格化處理[6]。根據激光雷達得到的原始三維點云數據,將其轉換到車體坐標系中,再投影到二維柵格平面上。在本文將每一幀點云數據處理得到10 cm伊10 cm大小的柵格[7],對柵格化后的每個柵格的屬性進行賦值。
1.2網絡結構
1.2.1卷積層
采用的CNN網絡架構主干部分與Long J[9]等人的方法相似,處理過的柵格化點云在前3個卷積層中進行連續卷積采樣提取特征,并且在這3個卷積層的中間分別加入BN層和ReLU層,其作用為:①防止訓練時網絡模型過擬合的發生;②允許更大的學習率,縮短學習周期大幅提高訓練速度;③減少了網絡對初始化的強烈依賴。
1.2.2區域候選網絡
區域候選網絡是將一個任意大小的圖像作為輸入,輸出矩形目標建議框的集合,選出最佳邊框。區域候選網絡已經成為一些表現最好的目標檢測方法的重要組成部分。在本文中,對R-CNN方法的RPN體系結構與特征學習網絡層和卷積中間層結合起來,形成一個端到端的全卷積網絡。該網絡的體系結構如圖1所示。通過卷積并由BN層和ReLU層進行處理的目標特征信息損失了很多細節信息,所以定位結果并不精準。因此,將第3次卷積得到的結果利用上采樣的方式進行處理,利用多層特征融合的思想將第1次和第2次卷積的結果同樣做上采樣處理,得到與第4層結果倍數大小相同的數據。最終融合得到的特征結果作為分類層和邊框回歸層的輸入,從而利用區域候選網絡形成目標邊框。
2實驗測試
提出的方法是在KITTI目標檢測中的車輛檢測任務上進行驗證,KITTI最初是用來評估圖像中車輛、行人和自行車的目標檢測,現在加入了相應的Velodyne 64E掃描得到的點云數據集,它提供足夠的數據來訓練和測試目標檢測算法。KITTI包含了7 481幀的訓練數據集和7 518幀的測試數據集。實驗中使用所有的訓練數據對本文修改的網絡做訓練,并使用測試數據集對得到的結果做分析。
與此同時,使用KITTI在線評估對提出的方法和之前的相關工作進行比較。KITTI根據圖像中目標的二維邊框的大小和遮擋情況,將目標樣本劃分為2個難度級別,分別在這2個難度級別的測試集中驗證方法的有效性,并通過KITTI在線評估系統將所提出的方法與先前的幾種檢測算法進行比較。
2.1實驗結果
KITTI中的測試數據集中的標簽是可以公開訪問的。因此,挑選其中的一部分對提出方法的檢測性能做離線評估。通過計算檢測目標邊框與ground truth邊框的重疊程度(IoU)來判定檢測是否正確。依據KITTI官方的評價標準車輛,目標檢測的IoU的閾值為0.7。同時通過平均正確率(AP)和平均方向相似性(AOS)來驗證本文方法的優勢。AP是判定檢測方法準確性的參照標準,AOS是判定檢測物體方向性準確性的標準。距離50 m以上的檢測結果如圖2所示,激光雷達對前方有多輛車擁擠的交通場景的檢測結果如圖3所示。本文的算法完成了車輛目標的檢測,可以有助于對道路上的車輛目標進行更穩定的跟蹤,并對智能車本身做路徑規劃。

2.2在線評估
在KITTI平臺上測試評價過一些基于激光點云的檢測方法,這些檢測方法的準確度低于最先進的基于視覺的方法。這是由于圖像數據具有更高的分辨率,顯著提高了對遠處和被遮擋物體的檢測性能。然而,基于圖像數據的檢測方法并不能反映出目標方向性這一特性。因此在本文實驗中,只對Vote3D和VeloFCN這2個方法進行比較。利用KITTI在線對3種檢測方法的AP進行測試,得到的結果如表1所示,呈現的結果顯示了利用本文的檢測方法,在2個等級的數據集上測試得到的AP結果都優于另外2種方法,結果的準確率有所提高。
本文是在裝有i7,2.8 GHz的CPU電腦上使用python進行仿真測試,完成檢測所需要的時間為1.24 s,其中點云預處理及輸入特征運算需要100 ms,卷積中間層需要600 ms,區域候選網絡生成目標邊框需要540 ms,可以滿足在城市道路上行駛的智能汽車的車輛檢測要求。
3結束語
與傳統的基于激光點云數據的車輛檢測方法不同,本文采用深度學習的方法在VeloFCN的端對端的全卷積神經網絡進行改進優化。利用KITTI的點云數據集訓練完成本文提出的方法。通過實驗驗證本文的方法對車輛目標檢測的平均精確度有一定程度的提高。將本文方法針對國內公路狀況采集相應數據,訓練并改進網絡進一步提高檢測精度,提高算法速度。
參考文獻
[1] Behringer R, Sundareswaran S, Gregory B,et al. The DARPA GrandChallenge-developmentofAnAutonomousvehicle[C]// Intelligent Vehicles Symposium,July 14-17,2004,University of Parma,Italy,2004:226-231.
[2] Broggi A, Bertozzi M, Fascioli A, et al. The Argo Autonomous Vehicles Vision And Control Systems[J]. International Journal of Intelligent Control & Systems,2000(3): 409-441.
[3] Bariya P, Nishino K. Scale-hierarchical 3D Object Recognition in Cluttered Scenes[C] //2010,119(5):1657-1664.
[4]尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015,41(1):48-59.
[5]孫志遠,魯成祥,史忠植,等.深度學習研究與進展[J].計算機科學,2016,43(2):1-8.
[6]蘇致遠,徐友春,李永樂.基于三維激光雷達的車輛目標檢測方法[J].軍事交通學院學報,2017,19(1):45-49.
[7]程健,項志宇,于海濱,等.城市復雜環境下基于三維激光雷達實時車輛檢測[J].浙江大學學報:工學版,2014,48(12): 2101-2106.
[8] Kidono K, Miyasaka T, Watanabe A, et al. Pedestrian Recognition using High-definition LIDAR[J]. Journal of the Robotics Society of Japan,2011,29(10):405-410.