郭 熙,胡廣地,楊雪艷
(西南交通大學(xué) 機械工程學(xué)院,四川 成都 610031)
智能駕駛汽車極大地方便了交通出行,同時可以減少交通事故的發(fā)生,是汽車技術(shù)的未來發(fā)展方向。在智能駕駛汽車行駛過程中,其他車輛是道路場景中最常見也是最容易發(fā)生碰撞危險的目標(biāo),因此準(zhǔn)確的車輛檢測對于智能駕駛汽車安全平穩(wěn)運行具有重要意義。常用于車輛檢測的算法根據(jù)傳感器可以分為基于毫米波雷達(dá)的檢測算法、基于攝像頭的檢測算法及毫米波雷達(dá)攝像頭傳感器融合檢測算法。文獻(xiàn)[4]對目標(biāo)運動特征和電磁散射特征進(jìn)行提取,提出了基于多特征融合的毫米波雷達(dá)目標(biāo)檢測方法。近年來,深度學(xué)習(xí)在許多領(lǐng)域取得了令人矚目的成果,文獻(xiàn)[5]提出了一種基于CNN(Convolutional Neural Network,CNN)和AdaBoost結(jié)合的雷達(dá)檢測算法,該算法使用淺層CNN提取特征后將數(shù)據(jù)輸入AdaBoost分類器完成車輛檢測,提高了車輛檢測的魯棒性和實時性。毫米波雷達(dá)檢測算法常用輸入特征是距離多普勒(Range-Doppler)圖和雷達(dá)散射截面(Radar Cross Section,RCS),多普勒圖描述目標(biāo)的距離與速度,RCS表征目標(biāo)反射雷達(dá)波的強度。毫米波雷達(dá)檢測算法根據(jù)車輛的物理特征信息檢測車輛,未考慮車輛形狀等幾何特征。攝像頭車輛檢測算法分為基于圖像特征機器學(xué)習(xí)的檢測方法和基于深度學(xué)習(xí)的檢測方法。常見的圖像特征有方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征、Haar特征。文獻(xiàn)[8]提出了一種基于HOG特征和支持向量機(Support Vector Machine,SVM)的單目攝像機前向車輛檢測方法。文獻(xiàn)[9]提出了一種基于Haar特征和改進(jìn)AdaBoost分類器的車輛圖像檢測算法,該方法在保證檢測準(zhǔn)確率的前提下解決了AdaBoost算法訓(xùn)練時間長的問題。相比基于圖像特征的檢測方法,基于深度學(xué)習(xí)的檢測方法不需要人工提取車輛特征。文獻(xiàn)[10]針對YOLO網(wǎng)絡(luò)嵌入式檢測實時性差的問題對網(wǎng)絡(luò)進(jìn)行了修改,可對車輛進(jìn)行實時檢測。攝像頭檢測算法基于計算機視覺,根據(jù)車輛目標(biāo)在圖像中的梯度、形狀等幾何信息進(jìn)行檢測,未考慮車輛的物理特征。常用的融合算法首先通過毫米波雷達(dá)得到目標(biāo)大體位置,然后將位置信息映射到圖像中,產(chǎn)生較少感興趣區(qū)域(Region of Interest,ROI),最后對ROI進(jìn)一步檢測并準(zhǔn)確分類。文獻(xiàn)[12]使用毫米波雷達(dá)探測潛在車輛目標(biāo)后得到感興趣區(qū)域,采用對稱性檢測和主動輪廓檢測在感興趣區(qū)域檢測車輛。基于傳感器融合的檢測算法中,毫米波雷達(dá)只用于提供ROI輸入后續(xù)視覺算法,分類任務(wù)僅由視覺算法完成,同樣存在未考慮車輛物理特征的不足。
檢測算法根據(jù)獲得的特征對目標(biāo)建模并分類,特征的豐富程度極大影響了檢測準(zhǔn)確率。上述僅通過物理特征或幾何特征檢測車輛的方法只在某一角度描述目標(biāo),用于檢測的特征維度不夠豐富,算法對于目標(biāo)的建模較為片面,導(dǎo)致準(zhǔn)確率不高。針對以上問題,本文提出了一種融合雷達(dá)與視覺特征的車輛檢測方法,從雷達(dá)與攝像頭2個角度提取車輛特征,綜合利用幾何特征信息與物理特征信息對目標(biāo)建模,構(gòu)建輸入為雷達(dá)與視覺融合特征的深度神經(jīng)網(wǎng)絡(luò)R-V-DenseNet,制作數(shù)據(jù)集并訓(xùn)練該網(wǎng)絡(luò),實現(xiàn)車輛的準(zhǔn)確檢測。
本算法主要用于對縱向行駛的非靜止機動車進(jìn)行檢測。根據(jù)《道路交通安全法》規(guī)定,汽車最高車速為120 km/h,即33.33 m/s,探測目標(biāo)速度超過此限制即可認(rèn)為是非車輛目標(biāo),可過濾;行人步行速度最高約為1.8 m/s,探測目標(biāo)速度小于此限制即可認(rèn)為是非車輛目標(biāo),可過濾。進(jìn)一步,根據(jù)車道寬度范圍篩選,選取自車所在車道及相鄰車道為橫向車道寬度限制并適量放寬,放寬原因如下:
(1)實際行車時車輛不一定位于車道正中間;
(2)適量增大探測范圍有助于傳感器盡早檢測目標(biāo)。
綜合考慮并實地測量后,取橫向位置y的范圍為-9.1~9.1 m。
真實目標(biāo)初選后仍有部分持續(xù)時間不長,且與機動車目標(biāo)點位置接近的噪點無法濾除。提取噪點存在的連續(xù)4幀圖像如圖1所示。

圖1 噪點圖像
圖1中,標(biāo)號18為機動車點,標(biāo)號86為噪點,參數(shù)見表1所列。

表1 噪點及真實點參數(shù)
分析表1數(shù)據(jù),發(fā)現(xiàn)噪點產(chǎn)生的可能原因是車身回波不均勻。此類噪點的橫縱向距離、橫縱向速度與真實點較為接近,采用上文對距離、速度的篩選方法難以去除,因此該部分噪點應(yīng)通過神經(jīng)網(wǎng)絡(luò)判斷、分類后進(jìn)行過濾。
毫米波雷達(dá)輸出的目標(biāo)原始特征有17個,每個特征都會增加計算量,因此需要對特征進(jìn)行選擇,去除對結(jié)果影響不大的特征,以提高實時性。初步分析發(fā)現(xiàn),橫向加速度特征數(shù)值基本不變,對分類任務(wù)無幫助,因此去除。進(jìn)一步分析剩下的16個特征,包括橫縱距離、橫縱速度、縱向加速度、方位角、RCS、橫縱向距離RMS、橫縱向速度RMS、橫縱向加速度RMS、方位角RMS、目標(biāo)長寬,統(tǒng)計各特征與目標(biāo)分類結(jié)果的相關(guān)系數(shù)絕對值,并按照從大到小排列。雷達(dá)特征相關(guān)系數(shù)絕對值見表2所列。

表2 雷達(dá)特征相關(guān)系數(shù)絕對值
分析表2可知,縱向距離、橫向加速度RMS的相關(guān)系數(shù)絕對值相比其他特征小了數(shù)個量級,可以考慮去除,分別將16維特征、去掉縱向距離的15維特征、去掉橫向加速度RMS的15維特征輸入R-V-DenseNet,根據(jù)測試集準(zhǔn)確率是否明顯下降來判斷是否去除該特征,結(jié)果見表3所列。
分析表3可知,與完整的16維輸入相比,去掉縱向距離的15維輸入,準(zhǔn)確率約下降0.01,因此應(yīng)保留;去掉橫向加速度RMS的15維輸入準(zhǔn)確率基本不變,證明橫向加速度RMS特征對分類任務(wù)幫助不大,與橫向加速度RMS相關(guān)系數(shù)絕對值大小情況相符,因此可以去除。

表3 16維特征輸入與15維特征輸入準(zhǔn)確率
綜上,最后得到的毫米波雷達(dá)特征共15維,包括橫縱距離、橫縱速度、縱向加速度、方位角、RCS、橫縱向距離RMS、橫縱向速度RMS、縱向加速度RMS、方位角RMS、目標(biāo)長寬。
感興趣區(qū)域獲取涉及雷達(dá)攝像頭數(shù)據(jù)的空間融合及時間融合。
(1)空間融合
空間融合的實質(zhì)是將毫米波雷達(dá)得到的目標(biāo)橫縱坐標(biāo)信息投影到圖片上,攝像頭坐標(biāo)系為媒介。首先將坐標(biāo)系旋轉(zhuǎn)平移,實現(xiàn)毫米波雷達(dá)坐標(biāo)系到攝像頭坐標(biāo)系的轉(zhuǎn)換,見式(1):




(2)時間融合
毫米波雷達(dá)的采樣周期約為72 ms,每秒14幀;攝像頭的采樣周期約為33 ms,每秒30幀。如不進(jìn)行時間融合處理,隨著時間的累積,誤差將越來越大,導(dǎo)致毫米波雷達(dá)與攝像頭檢測結(jié)果無法對應(yīng)輸出。本文采用的解決方案是選擇2個傳感器采樣周期中較大的1個作為融合后的采樣周期,即毫米波雷達(dá)按照本身的采樣周期正常采樣,在每次雷達(dá)開始采樣一幀時觸發(fā)攝像頭采樣一幀,認(rèn)定這2個數(shù)據(jù)幀具有對應(yīng)關(guān)系,時間融合方案如圖2所示。

圖2 時間融合方案
一個雷達(dá)數(shù)據(jù)幀按照時間順序由0x60A、0x60B、0x60C、0x60D組成。其中,0x60A幀僅表示本周期目標(biāo)數(shù)不包含目標(biāo)參數(shù)信息,且該幀位于一個雷達(dá)檢測周期的開始,因此將該幀設(shè)為標(biāo)志幀,表示雷達(dá)開始一個檢測周期。在第N個檢測周期,當(dāng)接收到0x60A幀時會觸發(fā)攝像頭保存此幀圖片,將此幀圖片同樣標(biāo)號為N,表示此圖片為第N個毫米波雷達(dá)檢測周期對應(yīng)的攝像頭輸出,實現(xiàn)毫米波雷達(dá)攝像頭時間融合。
實現(xiàn)毫米波雷達(dá)攝像頭數(shù)據(jù)融合后即可進(jìn)行感興趣區(qū)域獲取,將毫米波雷達(dá)點投影到圖片。根據(jù)相關(guān)規(guī)定,汽車高寬應(yīng)小于2 m、2.6 m,以圖像上雷達(dá)點為中心,將汽車根據(jù)投影原理投影到圖片上即得到雷達(dá)目標(biāo)框,將雷達(dá)目標(biāo)框按一定比例放大得到該目標(biāo)的圖像感興趣區(qū)域ROI。
HOG特征通過統(tǒng)計圖像區(qū)域的梯度方向來構(gòu)成特征,是一種使用邊緣方向表征物體形狀的特征算子,具有良好的幾何不變性。在實際應(yīng)用中,將圖像分割成大小相等的單元格,每一單元格稱為一個cell,計算每個cell的梯度方向直方圖,并將相鄰的cell合并成更大的塊,稱為block,block在圖像上滑動,整合所有block梯度方向直方圖即HOG特征。本文使用OpenCV中的HOGDescriptor函數(shù)計算HOG特征,設(shè)置cell尺寸為(4,4),block尺寸為(8,8),輸出梯度的統(tǒng)計信息。在ROI上使用HOGDescriptor函數(shù)得到該目標(biāo)的HOG特征,其為向量,統(tǒng)計該向量中所有元素的標(biāo)準(zhǔn)差、中位數(shù)、平均數(shù),即得到視覺特征。
視覺特征同樣需要選擇,統(tǒng)計視覺特征與目標(biāo)分類結(jié)果的相關(guān)系數(shù)絕對值,并按照從大到小排列。視覺特征相關(guān)系數(shù)絕對值見表4所列。

表4 視覺特征相關(guān)系數(shù)絕對值
分析表4數(shù)據(jù),相關(guān)系數(shù)絕對值都較高,因此全部保留。
上文得到的毫米波雷達(dá)特征與視覺特征總計18個,包括15個毫米波雷達(dá)特征與3個HOG統(tǒng)計特征,將這18個特征作為輸入,構(gòu)建BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)并訓(xùn)練。
BP神經(jīng)網(wǎng)絡(luò)通過一定的結(jié)構(gòu)將功能簡單的神經(jīng)元組織起來,按照誤差逐層反向傳播的方式,將誤差分給各層的所有神經(jīng)元,實現(xiàn)各神經(jīng)元權(quán)重的修正和更新的多層前饋神經(jīng)網(wǎng)絡(luò)。對于只有輸入層和輸出層的神經(jīng)網(wǎng)絡(luò),假設(shè)x,x,...,x是輸入數(shù)據(jù),w,w,...,w為輸入層和輸出層權(quán)值,Y為輸出,b為偏置,f(x)為激活函數(shù),則雙層神經(jīng)網(wǎng)絡(luò)可以表示如下:

本文根據(jù)輸入特征的數(shù)據(jù)特點構(gòu)建BP神經(jīng)網(wǎng)絡(luò)并命名為R-V-DenseNet,每一層均由若干非線性處理神經(jīng)元組成,鄰近層之間通過不同的權(quán)重矩陣連接,結(jié)構(gòu)如圖3所示。

圖3 R-V-DenseNet架構(gòu)
R-V-DenseNet網(wǎng)絡(luò)由輸入層、隱藏層、輸出層組成。輸入層使用BN(Batch Normalization)層,可以加快梯度下降與模型收斂速度。中間的隱藏層由2個Dense-Block堆疊而成,每一個Dense-Block由全連接層和Dropout順序連接而成,Dropout層可以緩解數(shù)據(jù)量過少引起的過擬合,Dense-Block中的全連接層激活函數(shù)選擇ReLU激活函數(shù)。通過堆疊的隱藏層學(xué)習(xí)參數(shù)與標(biāo)簽的對應(yīng)關(guān)系。輸出層為全連接層,由于是二分類問題,設(shè)置輸出層節(jié)點數(shù)為1,激活函數(shù)設(shè)置為sigmoid,該激活函數(shù)處理非線性問題效果較好,輸出為該目標(biāo)是車輛的概率。


擴展到隱藏層,如式(5):

擴展到輸入層,如式(6):

BP神經(jīng)網(wǎng)絡(luò)由以上過程實現(xiàn)了誤差反向傳播,使網(wǎng)絡(luò)的參數(shù)逐漸迭代到最優(yōu)估計。R-V-DenseNet參數(shù)分布見表5所列。

表5 R-V-DenseNet參數(shù)分布
R-V-DenseNet共有521個參數(shù),其中485個需要訓(xùn)練,剩余36個無需訓(xùn)練。
采集雷達(dá)攝像頭數(shù)據(jù)并預(yù)處理后建立融合特征數(shù)據(jù)集,共采集到12 395條數(shù)據(jù),標(biāo)簽0.0代表非車輛目標(biāo),有6 523條;標(biāo)簽1.0代表機動車目標(biāo),有5 872條。設(shè)置80%的數(shù)據(jù)集為訓(xùn)練集,剩余20%為測試集,同時,訓(xùn)練集中還需設(shè)置20%為驗證集。訓(xùn)練100代,損失(Loss)變化如圖4所示。

圖4 R-V-DenseNet損失變化
如圖4所示,前20代Loss迅速下降,之后緩慢下降,最終穩(wěn)定。經(jīng)過100代訓(xùn)練后,訓(xùn)練集Loss由0.746 5下降到0.076 1并保持穩(wěn)定,驗證集Loss由0.496 6下降到0.053 3并保持穩(wěn)定,證明R-V-DenseNet訓(xùn)練效果良好。
基于不同圖像特征及分類器的車輛檢測方法較多,其中最常用的是HOG-SVM方法。將測試集上使用的HOGSVM算法、15維毫米波雷達(dá)特征作為輸入的R-V-DenseNet、3維HOG統(tǒng)計特征作為輸入的R-V-DenseNet及融合特征作為輸入的R-V-DenseNet網(wǎng)絡(luò)進(jìn)行測試并對比,結(jié)果見表6所列。

表6 算法準(zhǔn)確率對比
由表6可知,相比HOG-SVM算法,融合特征輸入R-VDenseNet準(zhǔn)確率有所提高,證明融合特征輸入R-V-DenseNet網(wǎng)絡(luò)分類性能相比SVM分類器更好;相比僅雷達(dá)特征輸入R-V-DenseNet、僅HOG特征輸入R-V-DenseNet,融合特征輸入R-V-DenseNet的準(zhǔn)確率分別提高了0.016和0.076,證明相比單傳感器特征,融合特征描述目標(biāo)更加全面,檢測更準(zhǔn)確。統(tǒng)計融合特征輸入R-V-DenseNet的混淆矩陣,如圖5所示。

圖5 R-V-DenseNet混淆矩陣
測試集中真實車輛目標(biāo)共1 297個,其中有1 285個車輛目標(biāo)被準(zhǔn)確檢測出,真實車輛目標(biāo)檢測準(zhǔn)確率為0.991;真實非車輛目標(biāo)共1 498個,其中有1 487個非車輛目標(biāo)被準(zhǔn)確檢測出,非真實車輛目標(biāo)準(zhǔn)確率為0.993。本文提出的融合特征輸入R-V-DenseNet對于車輛分類較為準(zhǔn)確。
本文綜合毫米波雷達(dá)得到物理特征與攝像頭得到的幾何特征,融合2個傳感器的觀測角度以增加特征維度,構(gòu)建基于融合特征的BP神經(jīng)網(wǎng)絡(luò),實現(xiàn)了一種融合雷達(dá)與視覺特征的車輛檢測方法。實驗證明,該方法相比單傳感器特征檢測方法準(zhǔn)確率更高。
本文算法有以下優(yōu)化方向:
(1)本文使用毫米波雷達(dá)與攝像頭提取的特征,后續(xù)可以增加激光雷達(dá),目標(biāo)匹配后提取點云特征進(jìn)一步豐富目標(biāo)特征維度;
(2)HOG特征參數(shù)量較大,對于車載實時計算系統(tǒng)算力提出挑戰(zhàn),后續(xù)可以調(diào)整提取HOG特征函數(shù)的窗口大小、步長等參數(shù),在檢測性能不下降的情況下減少計算量,實現(xiàn)準(zhǔn)確率與實時性的統(tǒng)一。