趙越坤,羅素云,魏 丹,王 琦
(1.上海工程技術(shù)大學 機械與汽車工程學院,上海 201620;2.濱海縣科技館,江蘇 鹽城 224500)
環(huán)境感知作為自動駕駛領(lǐng)域的關(guān)鍵技術(shù)之一,主要是通過傳感器快速獲取車輛周圍的環(huán)境,是實現(xiàn)自動駕駛規(guī)劃與控制的基礎(chǔ)[1]。
在自動駕駛車輛的環(huán)境感知任務(wù)中常用的傳感器有攝像頭、激光雷達、毫米波雷達、超聲波雷達等[1]。視覺傳感器是目前環(huán)境感知領(lǐng)域中最廣泛使用的傳感器,但在暴雨雪天氣以及其他惡劣路況條件下能見度降低,甚至會被雨雪泥濘遮擋而無法使用[2]。只依靠視覺傳感器的感知系統(tǒng)不能夠完全保障車輛的安全行駛。
激光雷達測量分辨率高,但在極端天氣下性能較差,價格昂貴,目前未廣泛使用。毫米波雷達抗干擾能力強,但點云稀疏,無法對目標進行精準建模,且沒有目標高度的探測能力[3]。
在環(huán)境感知系統(tǒng)中,通常使用兩種或多種傳感器同時進行數(shù)據(jù)采集,再進行信息融合,以實現(xiàn)優(yōu)勢互補,提高抗干擾能力和可靠性[4]。其中毫米波雷達與視覺結(jié)合的方式對環(huán)境的魯棒性較好,并且成本可控。
毫米波與視覺融合算法根據(jù)融合的階段不同可分為前融合和后融合,前融合在初始層將數(shù)據(jù)融合,只使用一種感知算法,對融合后的綜合數(shù)據(jù)進行感知;后融合中傳感器各自有一套獨立的感知算法,在主處理器將感知結(jié)果進行融合[4]。文獻[5]通過幀差法實現(xiàn)了動態(tài)障礙物檢測,并根據(jù)ROI(感興趣區(qū)域)大小進行危險級別分類與識別。文獻[3]對圖像進行形態(tài)學開閉運算,增強了融合網(wǎng)絡(luò)對車輛的夜間檢測能力。文獻[6-8]提出了先通過雷達點云在圖像上形成感興趣區(qū)域,再對區(qū)域內(nèi)進行驗證的特征級融合策略,其中文獻[8]針對毫米波雷達橫向誤差較高,通過求和歸一化互相關(guān)匹配算法和對稱檢驗,對點云的橫向位置進行修正。文獻[9]提出了中間層融合的概念,通過視錐匹配的方法將點云與一次預(yù)測目標進行匹配,并對匹配結(jié)果進行二次預(yù)測以獲得最終結(jié)果。
該文提出了一種基于毫米波雷達點云和圖像的目標檢測方法,該方法首先將毫米波雷達點云信息通過坐標轉(zhuǎn)換投影至圖像平面,形成雷達特征圖像,再將雷達特征圖像作為輔助通道與視覺圖像進行分級融合,并通過注意力機制分配通道權(quán)重,以提高網(wǎng)絡(luò)的檢測精度。通過實驗對該融合算法的有效性進行了驗證。
該文所使用的圖像信息由單個視覺傳感器獲取,點云信息由多個雷達傳感器共同獲取。為增強圖像信息的豐富度,對雷達傳感器與視覺傳感器使用多重對應(yīng)關(guān)系,使一個視覺傳感器所獲取的圖像信息,由多個雷達傳感器整合后的點云數(shù)據(jù)進行增強。根據(jù)傳感器配置和安裝位置,正前視覺傳感器獲取到的圖像信息由左前、正前和右前毫米波雷達的點云進行增強;正后視覺傳感器獲取到的圖像信息由左后、右后毫米波雷達的點云進行增強。
雷達點云的預(yù)處理過程如圖1所示,確定傳感器間的對應(yīng)關(guān)系后,點云需經(jīng)過坐標轉(zhuǎn)換等步驟,首先獲取位于雷達坐標系下的點云,再通過外參轉(zhuǎn)換至車輛坐標系下,最后再從車輛坐標系根據(jù)投影關(guān)系轉(zhuǎn)移到像素坐標系中[10]。

圖1 毫米波雷達點云預(yù)處理過程
該文對雷達點云進行了兩種濾波,分別過濾掉不在雷達有效距離內(nèi)的異常點和不在視覺傳感器感受野范圍內(nèi)的無效點,并根據(jù)深度對雷達點按照深度重新排序,以保證增強區(qū)域的灰度值遞進。
由于毫米波雷達無法準確獲得物體的高度信息,實際得到的點云縱坐標位置偏低,會出現(xiàn)近處物體未被增強區(qū)域完全覆蓋的問題,因此,首先對預(yù)處理后的點云進行了歸一化。距離越遠的目標點云,歸一化產(chǎn)生的誤差越小,由于遠處的雷達點深度增加,對應(yīng)的目標投影在像素平面的面積變小,因此受歸一化的影響較小。ROI模型中心的縱坐標歸一化計算如公式(1)所示:

(1)
式中,Y為歸一化后的ROI中心點的縱坐標,y為圖像中每個雷達點的縱坐標,n為雷達點個數(shù)。
完成雷達點的縱坐標修正后,以歸一化后的雷達點為中心構(gòu)建ROI模型。ROI形狀為矩形,包括灰度值與尺寸兩個參數(shù),灰度值與雷達點的深度呈正相關(guān),雷達點深度越大,其在像平面內(nèi)灰度值越高;ROI的尺寸與雷達點深度呈負相關(guān),雷達點深度越大,其在像平面內(nèi)所形成的ROI越小。ROI模型的灰度值計算如公式(2)所示:

(2)
式中,D為當前雷達點對應(yīng)ROI的灰度值,d為當前雷達點深度,max(d)為當前圖像中所包含雷達點的深度最大值,i為比例系數(shù),該文取10。ROI模型的尺寸參數(shù)計算如公式(3)和公式(4)所示:
(3)
H=1.2×W
(4)
式中,W為當前雷達點對應(yīng)ROI的寬度值,H為當前雷達點對應(yīng)ROI的高度值。d為當前雷達點深度,max(d)為當前圖像中所包含雷達點的深度最大值,min(d)為當前圖像中所包含雷達點的深度最小值,b為偏置系數(shù),文中b取180。
現(xiàn)有的其他用于特征增強的ROI模型主要是線增強模型,這種模型以投影在圖像平面上的雷達點為中心,以在世界坐標系下預(yù)設(shè)高度的投影作為增強線的長度,雷達點深度越大,增強線長度越短。線增強模型參數(shù)量較大,為了在網(wǎng)絡(luò)上獲得更好的訓練效果,需要使用復(fù)雜的訓練方式,并且由于毫米波雷達點云稀疏,需要整合多個時間戳的點云數(shù)據(jù),增加了增強效果的不確定性。文中的ROI模型為矩形增強模型,參數(shù)量更少,增強區(qū)域更大,實現(xiàn)更加簡單,且無需使用額外的數(shù)據(jù)彌補單幀點云數(shù)量不足。
ROI模型寬高比是1∶1.2,正方形ROI對近距離的高大物體覆蓋效果并不理想,這種矩形ROI與正方形的ROI相比對目標的覆蓋效果更好。使用細長型的ROI也可改善ROI重疊的問題,使每一個雷達點對應(yīng)的ROI更關(guān)注相應(yīng)的目標。
如圖2所示,(a)為原始圖像,(b)為雷達點云轉(zhuǎn)換到像素坐標下的圖像,(c)為雷達ROI模型圖像,(d)為雷達ROI模型圖像疊加到原始圖像上的示意圖。

圖2 ROI模型
該文所使用的雷達增強特征保存形式為圖像格式,首先遍歷數(shù)據(jù)集中的關(guān)鍵幀,得到關(guān)鍵幀中有對應(yīng)關(guān)系的雷達點云文件和圖像文件,隨后分組遍歷關(guān)鍵幀中的傳感器數(shù)據(jù),對雷達點云數(shù)據(jù)進行預(yù)處理,預(yù)處理環(huán)節(jié)包括點云的坐標轉(zhuǎn)換,點云過濾,雷達點重新排序等步驟,然后根據(jù)1.2節(jié)中的ROI模型得到雷達特征圖像。生成雷達特征圖像的流程如圖3所示。

圖3 雷達圖像生成過程
基于YOLOv4[11]目標檢測網(wǎng)絡(luò)來驗證毫米波雷達特征圖像模型的有效性。YOLOv4網(wǎng)絡(luò)的主干部分主要由多個殘差結(jié)構(gòu)塊堆疊而成,基于YOLOv4目標檢測網(wǎng)絡(luò)構(gòu)建包含附加雷達通道的增強網(wǎng)絡(luò)更易于驗證雷達增強圖像模型的有效性。
該文使用的網(wǎng)絡(luò)結(jié)構(gòu)主要分為四個部分,分別是主干特征提取模塊、雷達特征模塊、增強特征提取模塊以及預(yù)測模塊。基于點云和圖像的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)的輸入尺寸為416×416×4,其中前三個通道為視覺特征,第四個通道為雷達特征。在預(yù)處理階段將雷達特征作為圖像特征的第四通道輸入網(wǎng)絡(luò),一方面易于在批次訓練時完成雷達特征與圖像特征的匹配,網(wǎng)絡(luò)讀取數(shù)據(jù)效率高;另一方面雷達特征圖與圖像特征尺寸相同,易實現(xiàn)主干特征提取模塊在原CSPDarknet53的基礎(chǔ)上進行改進,保留了由卷積、正則化和Mish激活函數(shù)組成的基本單元。CSPnet是該主干網(wǎng)絡(luò)的主要組成部分,該結(jié)構(gòu)將殘差塊拆分為兩個部分,其中的主干部分繼續(xù)進行殘差塊堆疊,另一部分則以殘差邊的形式連接到結(jié)構(gòu)塊的輸出部分。

圖4 基于雷達特征圖像的YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)
圖像完成第一次卷積正則化激活操作后,形成長寬相同但通道數(shù)變?yōu)?2的圖像特征,此時將形成的圖像特征與第一級雷達特征進行初次融合,形成416×416×33的初級融合特征。在形成初級融合之后加入了通道注意力[12]模塊, 將33個通道進行特征壓縮,作為融合特征層的評價分數(shù),對原始的融合特征層逐通道進行加權(quán)。通過通道注意力機制可以使網(wǎng)絡(luò)對圖像特征與融合特征的重要性進行調(diào)節(jié),將重要的特征增強,不重要的特征減弱。
在增強特征提取模塊和預(yù)測模塊保留了YOLOv4的基本結(jié)構(gòu),在增強特征提取部分使用了SPP[13]結(jié)構(gòu)和PANet[14]結(jié)構(gòu),其中SPP結(jié)構(gòu)以不同尺寸對特征圖進行池化形成新的特征,擴大了網(wǎng)絡(luò)的感受野;PANet通過多次的上采樣和下采樣,實現(xiàn)了對特征的重復(fù)利用。在預(yù)測模塊中保留了三個尺度的預(yù)測模式,用于對不同尺度的目標進行檢測。
該模型基于Pytorch深度學習框架實現(xiàn),訓練以及測試均基于Linux系統(tǒng), Ubuntu16.04,CUDA11.1,Python3.10,Pytorch1.10。硬件條件為Intel(R) XEON (R) W-2150B CPU @3.00 GHz,GPU為GeForce RTX 3070×2,16 GB顯存。
訓練過程中不載入預(yù)訓練權(quán)重,訓練階段采用凍結(jié)訓練策略,先凍結(jié)主干網(wǎng)絡(luò)訓練,隨后解凍主干網(wǎng)絡(luò),最后調(diào)整學習率使網(wǎng)絡(luò)收斂。最大學習率為0.001,最小學習率為0.000 1,凍結(jié)階段的訓練批次為16,解凍階段的訓練批次為4。模型訓練完成后對特征增強的網(wǎng)絡(luò)進行測試,測試階段非極大值抑制(NMS)閾值為0.5。
為驗證基于點云和圖像的目標檢測方法的可行性,基于Nuscenes數(shù)據(jù)集[15]進行了實驗驗證,并與其他目標檢測網(wǎng)絡(luò)進行比較。數(shù)據(jù)采集車輛配備6臺采樣頻率為12 Hz的彩色周視相機,5臺77 GHz的毫米波雷達等多種傳感器,數(shù)據(jù)集內(nèi)目標種類多,數(shù)據(jù)量充足,滿足實驗要求。數(shù)據(jù)采集車輛傳感器安裝位置及設(shè)定的增強關(guān)系如圖5所示。

圖5 傳感器位置及對應(yīng)關(guān)系
該文選取正前和正后的視覺傳感器獲取的圖像作為數(shù)據(jù)集,左前、右前、正前毫米波雷達對應(yīng)正前視覺傳感器,左后、右后毫米波雷達對應(yīng)正后視覺傳感器。去除前170個場景中的無效圖片和雷達點云文件后,共計獲取到12 420個有效雷達-視覺特征對,并按照8∶1∶1的比例劃分訓練集、驗證集和測試集。完整數(shù)據(jù)集中共有23種類別,在訓練過程中保留了日常行車路況中出現(xiàn)頻率較高的6個類別,包括行人、車輛、貨車、救援車輛、自行車和巴士。
基于點云和圖像的YOLOv4網(wǎng)絡(luò)和基于圖像的YOLOv4網(wǎng)絡(luò)在訓練過程中的損失函數(shù)如圖6和圖7所示。兩個網(wǎng)絡(luò)在起始階段都可實現(xiàn)損失的快速下降,由于學習率設(shè)置較大,損失有一定波動,但總體趨勢下降平穩(wěn)。在100次迭代后網(wǎng)絡(luò)解凍,兩個網(wǎng)絡(luò)的損失函數(shù)都發(fā)生了較大幅度的下降。再次降低學習率后,兩個網(wǎng)絡(luò)都進入了收斂狀態(tài)。

圖6 基于點云和圖像的YOLOv4損失函數(shù)

圖7 基于圖像的YOLOv4損失函數(shù)
基于點云和圖像的YOLOv4網(wǎng)絡(luò)在經(jīng)過350次迭代后收斂,基于圖像的YOLOv4網(wǎng)絡(luò)在經(jīng)過300次迭代后收斂。基于點云和圖像的YOLOv4損失函數(shù)下降趨勢與基于圖像的YOLOv4相似,但由于雷達特征的引入,需要更多的批次才能進入收斂狀態(tài)。最終基于點云和圖像的YOLOv4網(wǎng)絡(luò)的訓練損失值為2.37,在驗證集上的損失值為2.87,基于圖像的YOLOv4網(wǎng)絡(luò)訓練損失值為2.42,在驗證集上的損失值為2.75。
該文的研究重點在于包含雷達通道的目標檢測模型相對于純視覺的目標檢測模型的檢測精度提升,主要采用AP(平均精度)和mAP(整體平均精度)作為評價指標。AP為單一類別在0到1之間的所有召回值上平均的精度,mAP為各類別AP值的平均值。
從圖8中可以看出,基于點云和圖像的YOLOv4網(wǎng)絡(luò)整體平均精度與基于圖像的YOLOv4網(wǎng)絡(luò)相比有較大提升,由55.82%提升到了66.75%。具體到每個類的AP情況,對car類提升效果不明顯,而對bus和truck類提升效果顯著。其中car類提升約3%,bus和truck分別提升了15%和13%。這種現(xiàn)象可能是因為大部分客車和貨車體積較大,且為大面積的金屬材質(zhì),雷達特征強。而car類的精度提升不大,可能是因為數(shù)據(jù)集內(nèi)該類目標數(shù)量較多,而基于圖像的YOLOv4網(wǎng)絡(luò)對這類目標的檢測性能足夠優(yōu)秀。

圖8 基于點云和圖像的YOLOv4網(wǎng)絡(luò)與基于圖像的YOLOv4網(wǎng)絡(luò)各類別AP值和mAP值對比
為進一步驗證所提出的基于點云和圖像的目標檢測算法的有效性,與文獻[16-17]使用檢測準確率作為評價指標進行對比分析。由表1可見,文中方法的檢測效果與其他方法相比有一定提升。

表1 不同算法的檢測結(jié)果統(tǒng)計
文獻[16-17]中的融合策略為決策級融合策略,這種融合方法需要雷達模塊和視覺模塊分別進行獨立檢測,再進行加權(quán)融合,對于多個不同分布的數(shù)據(jù)較難找到合適的權(quán)重。相比決策級融合,文中方法更側(cè)重使用雷達特征來增強視覺特征的豐富性,只使用視覺作為最終檢測頭,算法的規(guī)模更小,且無需因環(huán)境的變化進行權(quán)重調(diào)整。
基于點云和圖像的YOLOv4網(wǎng)絡(luò)與基于圖像的YOLOv4網(wǎng)絡(luò)實際檢測結(jié)果如圖9所示,第一組場景為遠距離目標檢測效果對比。從中可以看出,基于點云和圖像的YOLOv4網(wǎng)絡(luò)和基于圖像的YOLOv4網(wǎng)絡(luò)都可以檢測到近距離的行人目標,但基于圖像的YOLOv4網(wǎng)絡(luò)對距離較遠的車輛目標發(fā)生了漏檢。第二組場景為光照條件較差場景中檢測效果對比,從中可以看出,在逆光條件下,基于圖像的YOLOv4網(wǎng)絡(luò)發(fā)生了漏檢和誤檢,將左側(cè)的行人識別為了自行車。第三組場景為置信度對比,從中可以看出,兩組網(wǎng)絡(luò)都完成了正確識別,由于雷達特征的引入,基于點云和圖像的網(wǎng)絡(luò)提高了視野邊緣目標的置信度。
測試結(jié)果表明,所提出的基于點云和圖像的YOLOv4算法提升了平均檢測精度,在各個類別上均有一定提升。在具體場景中,該算法對遠距離目標的檢測能力也有提升,并提高了在弱光照場景中的檢測能力,驗證了雷達特征模型的有效性。
為改善目標檢測任務(wù)中單一傳感器對環(huán)境的適應(yīng)能力,提高目標檢測網(wǎng)絡(luò)的檢測性能,提出了一種毫米波雷達特征圖像模型和一種基于該模型和視覺傳感器的多源目標檢測方法,提升了檢測精度。實驗表明:
(1)基于點云和圖像的YOLOv4目標檢測網(wǎng)絡(luò)采用逐級下采樣的方式融合雷達特征,并使用通道注意力機制能夠有效提升網(wǎng)絡(luò)的檢測性能。在Nuscenes數(shù)據(jù)集中總體精度提升為10.93%。
(2)對比各類別的提升效果,基于點云和圖像的YOLOv4目標檢測網(wǎng)絡(luò)對卡車、巴士這種雷達特征明顯的目標提升效果最為顯著,其中對卡車的檢測精度提升約13%,對巴士提升約15%。