,,
(長安大學電子與控制工程學院,陜西 西安 710064)
無人駕駛汽車能夠提高交通系統運行效率和安全性,已經成為未來世界交通發展的主流方向。在對無人車的研究中,車輛檢測是保證無人駕駛汽車安全行駛的關鍵。目前對車輛檢測的研究主要集中在利用圖像數據進行檢測。
目前基于視覺的目標檢測方法主要以深度學習為主[1]。通常將基于深度學習的目標檢測方法分為2類:兩階段和一階段的方法。兩階段的目標檢測方法又稱為基于區域的目標檢測方法,經典模型有R-CNN[2],Faster R-CNN[3],MS-CNN[4],SubCNN[5]等。兩階段的目標檢測方法具有很高的檢測精度,但是檢測速度較慢,不能滿足實時性的要求。為了提高檢測速度,一階段的目標檢測方法孕育而生。其無需產生候選框,直接從圖像得到預測結果。雖然檢測精度有所降低,但是整個過程只需要一步,極大縮短了檢測時間,實現了實時檢測。其代表模型有SSD[6]和YOLO[7]。
然而攝像頭卻易受到光線、探測距離等因素的影響。無法穩定地應對復雜多變的交通環境下車輛檢測任務,無法滿足無人駕駛汽車穩定性的要求。而激光雷達具有探測距離遠、不受光線影響并且能夠準確獲得目標距離信息等優點,能夠彌補攝像頭的缺點。
在此,提出了一個實時魯棒性融合方法,將激光雷達點云和圖像進行融合處理,提高了目標檢測的精度,而且具有很強的抗干擾性。
整個系統由3部分組成,分別為深度補全、車輛檢測和決策級融合。系統整體結構如圖1所示。
首先通過攝像頭與激光雷達聯合標定,將激光雷達三維點云轉換為稀疏二維深度圖,再通過深度補全將其補全為密集深度圖,使激光點云數據和圖像具有相同的分辨率,并且在空間、時間上彼此對齊。而后將彩色圖像和激光雷達密集深度圖分別輸入YOLOv3檢測框架,得到各自檢測車輛的邊界框和置信度。最后通過邊界框融合和改進的DS證據理論得到最終檢測結果。

圖1 系統整體結構
在深度補全之前,需要先進行預處理操作,將三維激光點云轉換為二維稀疏深度圖。在預處理過程中,要將激光雷達和攝像頭進行精確校準和聯合標定,從而可以精確地將每個三維激光雷達點云幀投影到二維彩色圖像平面上,形成稀疏的深度圖。傳感器之間的坐標轉換關系如圖2所示。

圖2 圖像與激光雷達轉換關系
在預處理工作完成之后,再將稀疏深度圖通過深度補全轉換為密集深度圖,使其和相機具有相同的分辨率。深度補全方法可以分為2種:通過圖像引導的深度補全和無需圖像引導的深度補全。由于攝像頭能夠采集到清晰的高分辨率圖像,可以幫助區分物體邊界和連續平滑表面,所以圖像對于指導深度補全是很有效的。因此本文提出了一種通過圖像引導的深度補全方法。
本文的深度補全方法主要基于2個假設:認為距離相近的像素點有著相似的深度值;認為相似的顏色區域具有相似的深度值。
對于所有深度未知的像素點,深度值Dp為
(1)
歸一化因子Wp為
(2)
G為高斯函數;p和q是像素點的坐標;I為圖像的像素值;D為與圖像對應的深度值;Ω為高斯函數的核;σI,σD分別是顏色、距離的高斯函數的σ值。
本文選用YOLOv3進行車輛檢測,YOLOv3在2個訓練集(彩色圖像和密集深度圖)上分別進行訓練,最終得到2個訓練好的模型。
YOLO全名You Only Look Once,是一個最先進的實時目標檢測系統。發展至今,已經經過了3個版本的迭代。YOLO的前兩代模型YOLOv1和YOLOv2運行速度極快,能夠達到以45幀/s的速率處理圖像,缺點是精確度比較低。YOLOv3的出現彌補了前兩代對小目標的檢測能力差的問題,而且保持了它的速度優勢。YOLOv3在COCO數據集上得到mAP值為57.9%,比SSD和RetinaNet的mAP值略高,但是運行速度比它們快2~4倍,比Fast R-CNN快100倍,比R-CNN快1 000倍。
本部分依據深度圖像和彩色圖像在YOLOv3中的檢測結果,將得到的邊界框信息和相應的置信度進行融合,從而得到最終的檢測結果。
首先將邊界框進行融合,通過判斷深度圖像目標邊界框和彩色圖像目標邊界框交并比(IOU)的大小,選擇不同的融合策略:當交并比小于0.5時,認為是2個獨立的檢測目標,不進行融合;交并比在0.5~0.8之間時,2組邊界模型沒有完全重合,將重疊區域作為最終目標區域;交并比在0.8~1之間時,2組邊界模型基本上完全重合,此時認為所有的模型邊界都是有效的,將邊界框的擴展區域作為新的檢測區域。融合示例如圖3所示,其中點劃線區域表示深度圖像檢測到的邊界框,實線區域表示彩色圖像檢測到的邊界框,陰影區域為融合后最終的檢測結果。

圖3 邊界框分類融合示意
融合后邊界框的置信度,以原始邊界框相應的置信度為基準,通過改進的D-S證據理論進行計算。D-S證據理論[8]是一種非精確推理理論,是多傳感器信息融合最常用的方法之一,十分適用于決策級信息融合。算法具體流程如下。
設Θ為一辨識框架,且滿足:
m(φ)=0
(3)

(4)
m∶2θ→[0,1],其中2θ為Θ的所有子集構成的集合,稱m(A)為A的基本概率分配(BPA),也稱mass函數。
假設在辨識框架Θ下有2個證據E1和E2:E1的基本概率賦值和焦元分別是m1和A1,A2,…,Ak;E2的基本概率賦值和焦元分別是m2和B1,B2,…,Bk。根據Dempster的組合規則,可以將上述證據進行融合。
m(A)=m1⊕m2=
(5)

但是當Dempster的組合規則被用來組合高沖突的證據時,可能會產生一個錯誤的結論。因此本文采用Murphy的改進方法以克服其局限性。該方法完全忽略了證據之間的沖突和聯系,將各個證據的基本概率賦值求平均值,得到平均證據。然后利用D-S證據理論組合規則對平均證據進行合成。計算過程如下。
假設有n個證據,對證據進行平均,得到期望證據
(6)
然后將利用D-S證據理論對期望證據M迭代組合n-1次后的結果作為最終的合成結果。
本文在KITTI數據集上對算法進行評估,KITTI數據集是目前世界最大的自動駕駛場景下計算機視覺評測數據集。采集車上裝備有彩色相機和Velodyne HDL-64E激光雷達。實驗測試平臺配備有Intel Xeon E5-2670 CPU和 NVIDIA GeForce GTX 1080Ti GPU。
KITTI目標檢測數據集包含有7 481幀訓練數據和7 518幀測試數據。每一幀數據包含有彩色圖片和與其同步的激光雷達數據。
由于本文選用KITTI數據集,它提供了激光雷達和攝像機的標定數據,包括激光雷達坐標系到攝像機坐標系剛體變化矩陣Tr_velo_to_cam、攝像頭內參矩陣P以及攝像頭矯正矩陣R0_rect等參數。通過式(7)可以將激光雷達點云投影到相機平面上形成稀疏深度圖。

(7)
u和v為相機坐標;x,y,z為激光雷達三維坐標。
稀疏深度圖轉換結果如圖4所示。在融合圖中可以清楚地在柱子處看出激光和圖像已經完美對齊。而在稀疏深度圖中,很難直接得到有用的信息。
深度補全結果如圖5所示。由圖5可以看出補全圖像的邊緣輪廓更為清晰,很容易看到車體的基本輪廓。

圖4 三維激光雷達轉換為二維稀疏深度

圖5 密集深度示意
本文將彩色圖像和密集深度圖分別在YOLOv3中進行訓練,并將彩色圖像和密集深度圖得到的結果進行融合。本文和KITTI數據集的評價方法保持一致,采用平均精度(AP)和IOU來評估檢測性能。當IOU重疊閾值大于0.7時,認為檢測成功。并且將整個數據按照邊界框盒子的大小、截斷程度和可見程度分為簡單、中等以及困難3個不同的難度水平分別進行評估。表1展示它們的AP值。從表1中可以看出這3種圖像都有著良好的檢測精度,并且通過融合之后,提升了精確度。融合檢測的結果和圖像檢測的結果相比,在簡單、中等、復雜上AP值分別提高了2.46%,2.42%和1.56%。

表1 檢測器性能評估 %
融合檢測過程的示例如圖6所示。圖像從上至下為彩色圖像的檢測結果(實線)、密集深度圖的檢測結果(點劃線)、前兩者的融合過程、融合結果(雙點劃線)以及真實值(虛線)。由圖6可以看出單獨通過彩色圖像和密集深度圖都可以得到較好的檢測結果,并且綜合考慮了兩者的檢測優勢,通過融合之后,最終得到了更為精確的結果。

圖6 融合檢測過程示意
為了進一步評估所提出算法的有效性,在KITTI數據集上和其他先進的車輛檢測方法進行了比較,比較結果如表2所示。

表2 本文算法和其他先進算法對比結果
在精度方面,以中等難度進行排名,本文算法在7種算法中排名第3,已經達到了很高的檢測精度,完全滿足實際應用的要求。
在速度方面,本文算法有著0.055 s的極快檢測速度,僅比YOLOv2慢了0.025 s,但是平均檢測精度卻比它高出14.8%。和比它檢測精度高的MS-CNN,SubCNN算法相比,分別快7倍和36倍。
綜上所述,本文算法與其他模型相比,已經達到了先進的檢測精度,并且擁有著很快的檢測速度,另外還具有很強的抗干擾能力,因此完全能夠勝任無人車車輛檢測任務。
提出了一個實時魯棒性融合框架,將激光雷達點云和圖像通過深度補全、車輛檢測和決策級融合3個步驟實現了快速穩定的車輛檢測。實驗結果表明,本文提出的深度補全算法對于提高激光雷達數據的分辨率以及后續的車輛檢測是很有幫助的,并且相對于彩色圖像的檢測結果,本文所提出的決策級融合方案平均檢測精度提高了2.15%。每幀數據的處理時間只需0.055 s,遠小于人類駕駛員0.2 s的反應時間,完全滿足實時性要求。與單傳感器車輛檢測相比,本文提出的融合方法不僅顯著提高了車輛檢測的檢測率,更重要的是提高了整個系統的魯棒性。而且本文的深度補全算法和決策級融合方法在機器人、機器視覺和傳感器融合領域也有通用性。