王 海,徐巖松,蔡英鳳,陳 龍
(1. 江蘇大學 汽車與交通工程學院,鎮江 212013,中國;2. 江蘇大學 汽車工程研究院,鎮江 212013,中國)
相較于傳統汽車,智能汽車在防止交通事故、緩解交通擁堵、提高生產效率、減少大氣污染等方面具有顯著的優勢[1],國內外車企、互聯網公司、高校因此紛紛加入研究智能汽車行列。傳統汽車行業深厚的積累、基于深度學習的計算機視覺領域的迅速崛起,以及激光雷達等傳感器生產成本的降低,促進了智能汽車領域的快速發展。根據功能的不同,智能汽車系統可分為環境感知系統、決策規劃系統和車輛控制系統3部分[2]。根據國家出臺的《汽車駕駛自動化分級》(GB/T 40429-2021),汽車自動化程度可分為6個等級:0級(應急輔助)、1級(部分駕駛輔助)、2級(組合駕駛輔助)、3級(有條件自動駕駛)、4級(高度自動駕駛)、5級(完全自動駕駛),具體級別信息見表1。雖然不同級別的自動駕駛程度不同,但都需要一個穩定可靠的感知系統,自動駕駛程度越高對環境感知的要求越高。環境感知是智能汽車完成運輸任務的開始,是其余2大系統的基礎,對周圍環境感知結果的好壞是智能汽車能否完成運輸任務的前提,如果智能汽車沒有環境感知功能,就像是人沒有感覺器官,將不能和外界進行交互。

表1 駕駛自動化等級與規劃要素的關系
智能汽車所在的駕駛環境不同于其他人工智能機器所處的工作環境,具有高速、復雜的特點,用于獲取圖像數據的相機易受光線影響,獲取點云數據的激光雷達易受惡劣環境的影響,毫米波雷達不擅長檢測靜止的目標,傳感器本身的缺陷使得智能汽車只靠單一傳感器無法完成感知任務。本文著重研究了如何通過融合多傳感器數據來實現周圍環境檢測。
綜述[2-3]涵蓋了用于多模態數據融合的多種傳感器(毫米波雷達、相機、激光雷達、超聲波雷達、慣性傳感器IMU、光學計等),綜述[4]只關注激光雷達和相機的融合,綜述[5]概述了感知任務中的語義分割和目標檢測,綜述[6]概述了基于相機的多目標檢測。相較于上述工作,本文主要總結了駕駛場景下用于多目標檢測任務的激光雷達、毫米波雷達和相機融合技術,第1章介紹了多傳感器融合的背景,第2章介紹了多傳感器融合技術,第3章對多傳感器融合技術進行了總結和分析。
智能汽車在復雜的交通環境下需要對周圍環境進行準確的檢測,檢測的對象可分為靜態對象和動態對象,其中靜態對象包括車道線、交通信號燈和交通標志牌等,動態對象主要包括交通參與者,如不同類型的汽車、行人、自行車等。圖1是典型的城市工況下智能汽車所處的駕駛環境。
可靠的感知系統是智能汽車在復雜交通工況下正常運行的先決條件,主要體現在以下3個方面:1)準確性,是指在復雜的交通場景下,能以高指標完成感知任務(檢測、定位、預測、跟蹤、分割等)的性能;2)實時性,是指在保證一定感知精度的前提下,盡可能快的完成感知任務,這對自動駕駛汽車尤為重要,因為高延遲的感知系統能會造成車輛決策和控制的遲后,可能導致交通堵塞,甚至是致命的交通事故[7]; 3) 魯棒性,指的是在感知環境惡劣的情況下,如雨霧天氣、弱光環境,感知系統還能正常運行性能。
根據數據來源,車載傳感器通常可分為外部傳感器和內部傳感器[8],內部傳感器用于采集智能汽車自身的數據,如車速、車輪轉角、加速度等;外部傳感器是對智能汽車所處的外部環境進行采集數據,如車載相機、毫米波雷達、激光雷達等;智能汽車的環境感知技術離不開外部傳感器,神經網絡算法更是需要車載外部傳感器采集的數據進行訓練,傳感器的性能直接影響智能汽車最終的決策。在不同的駕駛環境下,各種傳感器的檢測性能和魯棒性不同,多傳感器融合可以提高智能汽車的感知能力。本文主要研究的是對周圍物體進行檢測的外部傳感器,主要包括:車載相機、毫米波雷達、激光雷達。表2總結了上述各種傳感器的優缺點、用途和成本,圖2展示了不同的車載傳感器以及檢測結果。

表2 不同傳感器之間對比
1.2.1 相 機
車載相機主要包括單目相機、雙目相機、深度相機(RGB-D)和全景相機。車載相機成本低,是智能汽車感知系統的基礎傳感器,也是目前工業界和學術界的主要選擇。車載相機主要用于多目標檢測、跟蹤、語義分割、車道線檢測等任務,其能捕捉周圍環境中目標的顏色、紋理、形狀等信息,可以在非極端環境下識別不同的目標,相較于毫米波雷達和激光雷達具有數據稠密、分辨率高等優點[9-10];但其缺點也顯而易見:易受天氣影響,在雨霧天、夜晚環境下感知性能大幅下降,對光線突變的場景也非常敏感,如智能汽車駛入和駛出隧道,對面車輛突然打開遠光燈等。此外單目相機無法提供環境建模所需要的深度和距離原始信息,而雙目和深度相機相較于雷達和激光雷達結構復雜,在檢測范圍和測距精度、分辨率方面,與毫米波雷達和激光雷達仍然存在較大差距。
1.2.2 雷 達
隨著3D數據采集技術的飛速發展,雷達等傳感器的硬件成本和軟件技術也形成了一定的規模,在無人駕駛感知領域逐漸得到應用。雷達相較于相機能夠提供物體的3D信息和距離信息等,數據形式更加豐富,這使得智能汽車在理解周圍環境時能更容易。雷達主要包括激光雷達、毫米波雷達和超聲波雷達。超聲波雷達主要感知近距離的環境,比如自動泊車等任務,對于檢測任務作用較小。本小節主要來介紹毫米波雷達和激光雷達。
1) 毫米波雷達。發射無線電波后,通過接收天線采集目標散射波,進行一系列信號處理,獲取目標信息[11]。根據檢測范圍的大小可分為遠程、中程、短程毫米波雷達。毫米波雷達不僅可以獲得多目標的精確距離,還可以利用多普勒頻移效應測量相對速度[12],廣泛應用于障礙物檢測[13]、行人識別和車輛識別[14-15]。與車載相機相比,毫米波雷達受天氣影響小,具有較好的防阻隔和抗污染能力。毫米波雷達在視角比較窄的情況下檢測效果較為理想,但其不適用于動態物體的檢測,易產生誤檢[16]。與激光雷達相比,毫米波雷達具有更長的波長,可以應對雨雪霧天氣和黑暗環境。脈沖雷達在接收回波信號時,要求發射信號嚴格隔離,而大功率信號在短暫的連續周期內發射,因此對硬件要求高,結構復雜[2]。雷達生成的點云數據包括X,Y坐標雷達反射面積(radar cross section, RCS)和速度(Doppler),與激光雷達的點云數據相比更加稀疏,需要對原始的毫米波點云進行處理。
2) 激光雷達。按有無機械旋轉部件,激光雷達可分為固態、機械和混合固態激光雷達。激光雷達的工作原理與毫米波雷達相似,但它發射的是光波而不是無線電波[17],激光雷達可用于定位、障礙物檢測和環境重建任務[18-19]。固態激光雷達只能獲得一定角度的點云數據,而機械激光雷達和混合固態激光雷達則能獲得的智能汽車周圍360°的點云數據,點云數據包括點的X,Y,Z坐標和反射強度等,不同的材質反射強度不同,因此點云能區分不同材質的物體。激光雷達在測距方面優勢明顯,且由于激光雷達是通過發射可見光波長外的光波獲得點云數據,故不受光照等條件的限制,能在黑夜工作。其與相機具有相同的缺點,受天氣影響大,雨霧天氣工作效果差。激光雷達在檢測與遠距離物體時,點云數據會變得稀疏,這會導致檢測效果變差。激光雷達是智能汽車必需的傳感器之一,目前隨著成本的不斷降低,有望大規模部署應用。
采用多傳感器組合使用的方式可以互補各個傳感器之間的不足,克服單個傳感器的局限性,在檢測精度方面能夠提高冗余性,避免某個傳感器誤檢甚至是停止工作而引起的檢測失效,以此提高感知系統的檢測精度和魯棒性[20]。
物體檢測是計算機視覺最基本和最具挑戰性的問題之一,作為計算機視覺的基石,是解決復雜或高水平問題的基礎化任務,如分割、場景理解、對象跟蹤等。基于深度學習的目標檢測算法作為計算機視覺領域的后起之秀,隨著近幾年來數據量的不斷提升和硬件水平的突飛猛進,在檢測速度上已經能與傳統基于手工特征的車輛檢測算法相媲美,同時在檢測精度上遠遠超過傳統算法。2012年,A.Krizhevsky等提出的AlexNet[21]深度卷積網絡在ILSVRC挑戰賽取得冠軍,自此以后,計算機視覺的絕大多數方向都集中于深度學習神經網路結構的創新,并取得了不錯的成績。近年來,相關檢測算法也逐步延伸并拓展到面向激光雷達3D點云本處理中,本節簡要介紹基于深度學習的視覺檢測算法和點云檢測算法。
1.3.1 視 覺
基于視覺的檢測算法主要是通過處理由相機采集的圖像來感知周圍的環境。相比傳統方法通過人工提取特征信息、需要領域專家通過多年的積累和經驗才能手工設計出來的特征,深度學習方法則是具有通過大量的數據自動學習到能夠反應數據差別的特征,從而更具有代表性。同時對于視覺識別來說,卷積神經網絡分層提取的特征與人的視覺機理類似,都是進行邊緣到部分到全體的過程[22]。而近幾年隨著數據量的不斷擴充和硬件設備更新迭代,深度學習目標檢測算法開始得到工業界的認可。在學術界,根據神經網絡按照是否生成錨框(anchor),視覺檢測算法可分為基于錨框(anchor-based)檢測算法和無錨框檢測算法(anchor-free)[23-25]。由于對實時性和檢測精度的不同側重,基于錨框的檢測算法又可分為2類:一類是側重于檢測精度的2階段目標檢測算法[26-27],這類算法也稱為基于區域的方法,其主要思路是先產生一系列稀疏的候選框,然后對這些候選框進行分類與回歸;另一類是側重于檢測速度的單階段目標檢測算法[28-32],此類算法沒有中間的區域檢出過程,直接從圖片獲得預測結果,其主要思路是均勻地在圖片的不同位置進行密集抽樣,抽樣時可以采用不同尺度和長寬比,然后利用卷積神經網絡(convolutional neural networks, CNN)提取特征后直接進行分類與回歸,整個過程只需要一步。
1.3.2 點 云
目前基于點云的檢測算法主要包括基于點的檢測算法(point-based)、基于體素的檢測算法(voxel-based)和二者結合的檢測算法。
PointNet[33]和PointNet++[34]是典型的基于點的3D目標檢測算法,其聚集臨近點并進行特征提取,獲得局部和全局的特征表達。PointRCNN[35]是第1個直接從原始點來預測物體3D邊界框的算法,其一階段利用PointNet++獲得逐點的特征,對每個點進行前景點分割并對每個前景點預測3D框作為候選框,在第2階段運用感興趣區域池化操作(average pooling)并對邊界框進行微調。基于體素的檢測算法首先將輸入的點云體素化,然后用3D卷積對整個場景的體素進行特征提取。在VoxelNet[36]中,點云首先被等分成大量均勻的體素,然后用體素編碼層來編碼每個體素的特征,隨后根據每個體素的特征生成3D的候選框。SECOND[37]設計了一種高效的體素編碼算法:稀疏卷積算法,即只對非空的體素進行特征提取,該方法極大地提高了基于體素的3D目標檢測算法的訓練和推理速度。基于點的檢測算法能夠保留目標準確的結構信息和位置信息,但是計算量大,對計算單元算力要求較大,檢測實時性差。基于體素的方法可以高效地對點云進行特征提取,但是會損失部分結構信息和精確的位置信息。一些方法充分利用二者的優點對點云進行特征提取。PVRCNN[38]用稀疏卷積對體素進行特征提取并生成候選框,將多尺度的體素特征編碼到關鍵點,第2階段聚集候選區域中網格點周圍的關鍵點的特征對物體邊界框做微調。SA-SSD[39]在訓練時設計了輔助網絡將體素特征轉化成逐點特征進行前景點分割和中心點預測。
為了節省開發的成本,保證實驗的安全,研究人員往往先將構造好的檢測算法用開源的車載數據集進行訓練和驗證[2]。優秀的數據集往往能訓練出速度快精度高的檢測算法,有的數據集還提供了較公平的算法評估平臺和基準,這有利于研究人員進行橫向和縱向的比較,從而研究出更優異的模型。Y. Kang等[40]總結了目前絕大多數的數據集,表3是對KITTI[41]、BDD[42]、nuScenes[43]、Waymo[44]、ONCE[45]幾 個 著 名的車載數據集進行的簡述與對比。

表3 著名智能汽車數據集簡述與對比
1) KITTI數據集,是由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是當前最著名的自動駕駛數據集,為立體視覺評估、光流、場景流、視覺測程、同步定位與建圖 (simultaneous localization and mapping,SLAM)、目標檢測與跟蹤、道路車道檢測、語義分割提供了許多優秀的基準。KITTI包含市區、鄉村和高速公路等,白天和晴天場景的真實圖像數據,共約1.5萬張圖像,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖,39.2 km視覺測距序列以及超過20萬個3D標注物體的圖像組成,以10 Hz的頻率采樣及同步。KITTI數據集的數據采集平臺裝配有2個灰度攝像機、2個彩色攝像機、一個Velodyne 64線激光雷達、4個光學鏡頭,以及1個GPS導航系統。
2) BDD數據集,是由伯克利大學AI實驗室(BAIR)創辦,是由單目RGB相機、GPS、IMU、陀螺儀采集而成。數據集包括10萬段高清視頻,每個視頻約40 s、720P、30 fps,每個視頻的第10 s對關鍵幀進行采樣,得到10萬張尺寸為1 280 × 720的圖片,并進行標注,真值的標簽包含10類,分別是公交車、交通標志、行人、自行車、卡車、摩托車、汽車、火車和騎車人。相較于KITTI數據集,BDD數據集包含更多的天氣場景:晴天、多云、陰天、雨天、雪天、霧天6種天氣,以晴天為主,時間有黎明、黃昏、白天、夜晚4個時間段,其中,白天、夜晚居多,這為研究人員的感知算法帶來了更大的挑戰。
3) nuScenes數據集,是由Motional團隊開發的用于無人駕駛的公共大型數據集,共有1 000個場景,該數據集包括約140萬張圖像,39萬的激光雷達數據,140萬毫米波雷達掃描數據和1.4萬個對象邊界框,該數據集來自自動駕駛車輛的整個傳感器套件(6個攝像頭、1個激光雷達、5個毫米波雷達、GPS、IMU)的數據。與KITTI相比,nuScenes包含7倍多的對象注釋。之前發布的大多數數據集都是基于相機的對象檢測(Cityscapes,Mapillary Vistas,Apolloscapes,BDD),而nuScenes數據集提供的是整個傳感器套件。
4) Waymo數據集,是由谷歌旗下的無人駕駛公司Waymo在2019年發布的自動駕駛數據集。該數據集由5個激光雷達和5個相機采集而成,其中包括片長為20 s的駕駛畫面1 150個,密集的標簽信息更是達到1 200萬個3D標簽和1 000萬個2D標簽,其中包括行人、汽車、交通標志等信息。Waymo數據集的駕駛環境也多種多樣,采集場景包含城市、鄉村郊區,天氣包括白天、黑夜、黎明、黃昏、雨天和晴天。
5) ONCE數據集,是由華為的諾亞方舟實驗室在中國駕駛144 h采集的車載數據集,該數據集是目前最大、最多樣化的無人駕數據集。ONCE包含1.6萬典型場景,3D標注框有41.7萬個,2D標注框有76.9萬個,標注類別包括汽車、行人、公交車、卡車、騎車人,采集場景的天氣包括晴天、多云和雨天,時間包括上午、中午、下午和晚上。
基于以上對各種傳感器的分析,不同傳感器的工作原理和采集的數據各不相同,對不同的駕駛環境的適應性也各不相同,各種主流的車載傳感器有各自的優勢與劣勢,這使得單一傳感器很難滿足無人駕駛車輛的感知需求。基于多傳感器融合的檢測方式能結合各種傳感器的優勢,打破單一傳感器固有的局限,為智能汽車后續的決策規劃和車輛控制提供更可靠的信息,提高智能汽車的安全性。例如前面對毫米波雷達和相機的概述,毫米波雷達最大的優勢是可以全天候工作,極端天氣和惡劣的駕駛環境(如夜晚,霧天等)不影響其正常工作,但是其分辨率低,不能識別物體的種類;相反,相機能捕獲物體詳細的外觀信息,分辨力高,但受外界環境影響大,也就是對工作的環境要求苛刻,若將兩者進行傳感器融合,將會得到高分辨率、全天候的外界環境信息。基于以上的概述,多傳感器融合技術對于無人駕駛技術的實現是至關重要,必不可少的。本節將從融合算法的分類、融合結構以及經典的融合檢測算法對多傳感器融合技術進行全面的總結。
隨著傳感器的生產成本不斷降低,多傳感器融合的硬件水平已經滿足基本的工業要求,多傳感融合算法成為研究的熱點。多傳感器融合算法大致可分為2類:隨機類方法和人工智能方法。隨機類方法的代表算法包括:Kalman濾波法(Kalman Filtering)、加權平均法、Bayesian估計法(Bayesian estimation)、DS(Dempster-Shafer)證據理論等;人工智能算法包括專家系統、遺傳算法、模糊邏輯理論、人工神經網絡等算法。
1) Kalman濾波法,是遞歸算法的一種,可以通過之前的目標狀態估計和當前狀態的測量值來估計當前目標的狀態,Kalman濾波法具有遞推特性,能夠估計當前狀態,也可以預測未來目標的狀態,因此,Kalman濾波法可用于傳感器融合跟蹤多目標問題。
2) 加權平均法,相較于其他算法,理解起來較簡單。首先各種傳感器分別進行數據采集工作,將分別采集的數據集按一定的加權規則進行加權并取平均值,得出的結果作為融合的最終結果。加權平均法相較于其他算法計算簡單,原理易懂,但是加權規則人為設定,具有較大的主觀性,融合效果因加權規則的變化相差很大。
3) Bayesian估計法,基于先驗概率,將新的數據信息和先驗信息進行融合得到新的概率,以此循環進行多傳感器融合感知任務。基于Bayesian估計法的多傳感器融合算法缺點明顯,即可能需要耗費大量的時間和精力,原因是Bayesian估計法基于先驗概率,在沒有提供先驗概率的情況下,需要大量的數據統計來充當先驗概率,這需要大量的時間和精力。
4) DS證據理論,是基于Bayesian估計發展而來的,其克服了Bayesian估計需要先驗概率的缺陷,提出了置信區間和不確定區間新概念,DS證據理論實質就是將多個傳感器獲得的信息按一定的規則進行選擇組合,最終對檢測目標進行分類和定位。
5) 模糊邏輯理論法,基于多值邏輯但又與傳統的二值邏輯不同,其對人的不確定性概念判斷和推理思維方式進行模仿。模糊邏輯推理相較于其他的算法,其大大提高了融合的精度,但主觀性較大,融合的精度受人為因素影響大。
6) 人工神經網絡法,是模擬人的網絡神經設計而成。相較于其他的算法,神經網絡算法能夠從大量的數據集中學習到關鍵的特征,具有很強的自學習能力,通過手工設計的神經網絡可以模擬復雜的非線性映射。神經網絡在多傳感器融合檢測系統中具有很大的優勢,當處理帶有有害信息的噪聲時,神經網絡的檢測效果比其他方法優秀的多,但是基于監督方式的神經網絡算法需要大量的訓練數據集,數據集的標簽往往需要大量時間和精力去標注。
隨著深度學習的不斷發展,基于手工設計的神經網絡算法在計算機視覺等方向大放異彩,近幾年也是受到高校和企業的關注,本文接下來將對基于深度學習的多傳感器融合檢測技術進行詳盡的闡述。
根據融合網絡輸入數據的不同可以把基于神經網絡的融合算法分為數據級融合,特征級融合和決策級融合。CUI Yaodong等[4]也將這3種融合算法稱為低級數據融合、中級數據融合、高級數據融合。之前的研究[46]根據融合網絡輸入輸出的不同將融合網絡分為:1) 輸入數據輸出數據型(Data in, Data out):輸入的數據是各個傳感器采集的數據,輸出則是經過預處理的數據,如數據增強,數據對齊等;2) 輸入數據輸出特征型(Data in, Feature out):輸入的數據是各個傳感器采集的數據,輸出是從原始數據中提取的特征向量;3) 輸入特征輸出特征型(Feature in, Feature out):輸入和輸出是特征向量,這類通常也被稱為特征融合、符號融合或信息融合; 4) 輸入特征輸出決策型(Feature in, Decision out):輸入是特征向量,輸出是決策; 5) 輸入決策輸出決策型(Decision in, Decision out):輸入和輸出都是決策,通常被稱為決策融合網絡。接下來將對數據融合方式,特征融合方式和結構融合方式進行闡述。
2.2.1 數據融合方式
數據級融合方式是底層的融合方式,其首先將來自相同傳感器或不同傳感器采集的原始數據先進行數據對齊、數據關聯等融合操作,然后將融合后的數據進行數據預處理并送入特征提取算法進行特征提取,最后根據提取的特征得到最后的檢測結果。數據級融合的優勢是盡可能的保留原始數據中物體的信息,避免信息的丟失,來自多源的數據也會相互補償,豐富數據信息,捕捉到單一傳感器捕捉不到的信息,例如相機和激光雷達的數據融合就能通過激光雷達信息補充物體的深度信息。但是數據級融合也面臨著計算量大、數據對齊(時間對齊和空間對齊)等問題,由于原始數據采用不同格式和不同傳感器類型,因此在架構中添加新傳感器需要對融合模塊進行重大更改,對硬件內存和算力要求較高[47]。多源數據的數據信息絕大多數是互補的,但也存在互相矛盾的情況,這種情況下就會引入噪聲,影響最終的感知結果,其融合結構見圖3(a)。
2.2.2 特征融合方式
特征級融合方式首先將各個傳感器采集的數據分別送入對應的特征提取算法,對數據進行特征提取,然后將提取后的特征進行融合,最后得到融合后的檢測結果。根據數據的不同,提取的特征也不相同,基于圖像數據提取的特征會包含檢測物體的邊界、尺寸大小、類別等,基于激光雷達數據提取的特征包含物體的3D尺寸數據、物體表面材料、物體距離信息等。大多數基于深度學習的方法利用神經網絡提取特征,對不同傳感器提出的特征之間做級聯或者加權,如RoarNet[48]、AVOD[49]、MV3D[50]、F-PointNet[51]等。特征級融合的主要優點是能夠減少傳感器數據到融合模塊的帶寬,特征級融合保留了低級融合的分類和預處理能力,能夠將相關數據有效地集成到跟蹤算法中[46],并且可以通過提升特征的互補性來提升檢測精度。相較于數據級融合方式,由于對各個傳感器的原始數據首先進行了特征的提煉,使得傳入檢測網絡的數據量大大減少,故特征級融合方式檢測速度快、實時性好,但也會丟失部分細節,檢測精度往往不如數據級融合方式高,融合結構見圖3(b)。
2.2.3 決策融合方式
決策級融合是對各個傳感器采集的信息分別進行特征提取并做出決策,然后對所有的決策信息進行融合,進行相關的處理并作出最終的決策。決策級融合具有2個優勢:一是其模塊化和傳感器特定細節的封裝,當某個傳感器出現故障不能做出決策時,不影響其他的傳感器工作,繼而提高了感知系統的魯棒性,保證了智能汽車感知系統的正常工作; 二是決策級融合方式的數據流在中間沒有融合,沒有中間的復雜融合過程,因此,速度會更快,融合結構見圖3(c)。
不同的傳感器組合能互補各自的缺點,擴大智能汽車的使用場景,增加智能汽車的魯棒性,面對不同的檢測任務使用不同的傳感器組合方式能充分利用計算資源,達到要求的感知任務。本節將從不同的傳感器組合方式角度來概述不同傳感器融合之間的優劣。
2.3.1 圖像+激光點云
相機和激光雷達融合是目前無人駕駛多目標檢測的最熱門的多傳感器融合模式,相機能夠提供高分辨的圖像信息,激光雷達提供稠密的點云信息,融合算法也相對簡單,檢測精度高,但是, 相機和激光雷達在惡劣工況下檢測性能差,成本相對較高,實時性較差。基于深度學習的圖像和激光點云的融合方式可大致分為:基于視錐體(frustum)的融合方式、基于點的融合方式、基于多視角的融合方式、基于體素的融合方式。基于視錐體的融合方式是先進行圖像檢測生成2D感興趣區域,然后將2D的感興趣區域投影到3D空間,生成視錐體,融合視錐體內的點進行車輛、行人等識別;基于點的融合方式是將圖像的高語義特征和對應的點云進行逐點融合,然后將融合后的點云送入3D物體檢測網絡進行檢測;基于多視角的融合方式是在鳥瞰圖(bird's eye view,BEV)上先生成3D感興趣區域,然后利用生1成的感興趣區域回2歸3D檢測框;基3于體素的融合方式是將3D空間先分成一個個的體素(voxel)然后用圖像和體素中的點云進行融合。
F-PointNet[52]是典型的基于視錐體的融合檢測網絡,該網絡結構主要分為3部分:生成候選視錐體部分(frustum proposal)、3D實例分割部分(3D instance segmentation)和物體3D邊界2框回歸部分(amo3dal3d boxestimation)。首先使用基于圖像的神經網絡生成視錐體,后續的定位和分類只需要在視錐體內進行,這大大減少了需要后續處理的數據量。由于相機中心坐標和視錐體中心坐標并不重合,故需要做一次坐標軸的旋轉,使融合網絡具有更好的平移不變性。接下來在生成的視錐體內使用PointNet進行實例分割,由于視錐體的中心點和物1體的中心點不重合,需要進行一次平移3,使網絡具有更好的平移不變性。最后利用T-Net[53]結構細化物體的邊界框,通過3D邊界框估計模塊生成之后的檢測結果。F-PointNet是先根據圖像生成的檢測結果再做后續的操作,故檢測性能受圖像檢測性能的限制,其次F-PointNet并沒有充分利用到多傳感器融合的冗余性優勢,F-PointNet網絡結構見圖4。
Pointpainting[54]并不是端到端的檢測網絡,其檢測流程主要分為2個階段,第1個階段是將圖像信息做語義分割,分割出需要檢測的目標;第2個階段是Pointpainting,即將第1階段生成的語義信息和點云相融合,然后將融合后的信息輸入到經典的3D點云檢測網絡,得到最終的檢測結果。將語義信息和點云數據融合是Pointpainting最主要的創新點,首先將圖像和點云通過傳感器的參數確定位置關系,然后將生成的語義信息和點云數據進行拼接操作(concatenate)。Pointpainting理論上可以應用在任何基于點云檢測的網絡之前,來提高檢測性能,通過將語義信息和點云融合解決了圖像信息和深度信息不匹配的問題,但是原始的點云信息沒有進行預處理,這需要消耗更多的計算資源;其次,第1階段的語義分割模型和第2階段的3D點云檢測模型需要高度的耦合性,這會限制該網絡結構的適用范圍。Pointpainting網絡結構圖見圖5。
MV3D采用的是不同傳感器下的多視角的融合方案,其輸入是RGB圖像和原始激光點云處理成的鳥瞰圖和前視圖,輸出的是目標在三維空間中的中心位置坐標、長寬高以及前進方向。該網絡的處理過程可以概括為:首先從點云的鳥瞰圖形式中使用一個3D區域建議網絡產生3D候選區域,然后將這些候選區域根據坐標變換分別投影到前視圖和RGB圖像上,從而產生3種形式的候選區域;接著借助由3組全連接層構建的深度特征融合網絡,融合來自3種形式數據特征,從而回歸出目標的所有待求參數。MV3D在特征融合階段進行了創新,提出了深度融合方法(deep fusion),該方法是將多視圖的特征圖進行分層融合,相較于前文提到融合方式,采用深度融合方法檢測精度更高。MV3D的檢測效果雖然優于同期提出的算法,但是其存在一些弊端,針對小目標,在點云鳥瞰圖中經過下采樣之后占據像素少,容易產生漏檢,MV3D網絡結構見圖6。
MVX-Net[55]是基于體素進行融合的算法,該網絡首先使用Faster-RCNN對圖像進行特征提取,將點云通過校正矩陣投影到圖像上,然后和Fatster-RCNN生成的最后一層特征圖進行特征的匹配,將匹配后的特征進行進一步的特征圖提取,同時將點云進行體素化處理和上一步的特征進行逐點拼接(pointwise concatenate),再通過幾個VFE模塊生成3D候選區域,其中VFE模塊是在VoxelNet中提出的特征提取結構,最后進行3D檢測。基于體素的融合方式可以和標準的3D卷積操作結合,這拓寬了體素融合方式的適用范圍,但是在體素化過程中,點云數據會丟失幾何信息,體素越小檢測精度越好,但是消耗的計算資源更大,MVXNet結構圖見7。
2.3.2 圖像+毫米波點云
相機和毫米波雷達已發展多年,二者硬件技術儲備足,生產成本也較低,但是用于無人駕駛的圖像+毫米波點云的公開數據集很少。圖像與毫米波點云融合算法起步較晚,相較于激光點云、毫米波雷達生成的點云較稀疏,捕獲的信息較少,近幾年這方面的研究才起步。
JIANG Qiuyu等[56]提出了一種基于毫米波雷達和相機融合的車輛周圍感知算法,該算法以毫米波雷達為主,以相機為輔。相機模塊首先進行視覺檢測(基于改進的Faster-RCNN),并將檢測結果發送給毫米波雷達,根據馬氏距離(Mahalanobis distance)的思想,對檢測結果進行融合,該框架屬于決策級融合,硬件設備主要有美國德爾福公司生產的德爾福ESR毫米波雷達和德國聯合視覺公司的Mako G-192B單目相機。該框架的主要創新點如下:1) 對Faster-RCNN進行改進,為區域建議網絡和分類回歸網絡(classification regression network)分別提供單獨的特征,以提高視覺檢測的性能,在候選區域生成網絡添加一個候選區域優化網絡,目的是過濾掉質量差的候選區域,以減少計算并提高檢測速度;2) 在融合部分,根據馬氏距離的思想,利用2個傳感器輸出目標序列對觀測值進行匹配,利用聯合概率數據關聯方法(joint probabilistic data association,JPDA)進行融合,建立系統匹配模型和狀態模型,其網絡結構圖見圖8。S. Chadwick等[57]設計了一種特征級融合結構,該網絡首先使用ResNet[58]網絡對圖像和毫米波雷達的反射面積和速度信息分別進行特征提取,然后將圖像特征和雷達點云特征進行拼接操作,將拼接后的特征繼續使用ResNet進行特征提取,生成3個分辨率不同特征圖,用于不同感知任務,其網絡結構圖見圖9。V. John等[59]的融合檢測網絡也提出了類似的檢測算法,不同的是在處理融合后的特征時,使用的是一階段的圖像檢測算法YOLO。這2種檢測算法結構相對簡單,沒有使用雷達點云的全部數據,檢測速度會更快,但是物體定位不是很準確。WANG Xiao等[60]使用單目相機和毫米波雷達進行融合,提出了一種協同的融合方法,以實現車輛檢測精度和計算效率之間的最優平衡,整體的檢測流程:首先, 毫米波雷達檢測車輛以生成感興趣區域(region of interest, ROI), 然后, 將感興趣區域送入視覺處理模塊來生成邊界框,采用主動輪廓法檢測邊界框內的車輛,如果主動輪廓方法失敗,則是毫米波雷達的虛警,視覺處理模塊應消除這種檢測。WANG Jiangang等[61]提出了一種在雨天車輛檢測融合系統,首先對雷達和相機進行地面標定,然后將雷達檢測結果投影到相機圖像上進行目標尺寸估計,利用雷達提供的精確的縱向距離和方位角,減小由圖像模糊引起的車輛寬度誤差。
2.3.3 毫米波點云+激光點云
由于激光點云和毫米波點云的數據結構類似,因此, 數據融合相對簡單; 由于點云數據提供的數據精確,因此基于毫米波點云和激光點云的融合檢測算法精測精度較高; 但是整體成本較高,點云在遠處較稀疏,對于檢測遠處的物體效果不如視覺傳感器。
王海等[62]提出了一種基于激光雷達和毫米波雷達融合的車輛目標檢測算法。該算法首先采用歸一化方法對點云做預處理,并利用預處理后的點云生成特征圖,之后融合毫米波雷達數據生成感興趣區域,最后設計了多任務分類回歸網絡實現車輛目標檢測。該文章的主要創新點有:1) 設計了基于點云鳥瞰圖(BEV)視角的目標檢測算法;2) 加入毫米波雷達數據設計算法預瞄框,相對于單一點云檢測算法檢測精度有所提高,網絡結構圖見圖10。
2.3.4 圖像+激光點云+毫米波點云
圖像、激光點云和毫米波點云三者融合的方式是最理想的結果,檢測的魯棒性最高,檢測精度也最好。但是基于三者的融合算法很難設計,難以融合,對車載算力要求也非常高,是多傳感器融合方向上的一大難題。
蔡英鳳等[63]提出了一種基于相機、毫米波雷達和激光雷達融合用于檢測、跟蹤、分類的檢測模塊(FOP模塊),激光雷達和相機分別提供原始的點云和圖像數據,而雷達提供檢測目標的高語義數據。融合方法是基于DS理論,其將所有傳感器提供的物體的單獨列表作為證據來源。對于每個對象,其完整狀態包括其位置、形狀、大小和速度的信息,以及單個對象的分類。利用DS理論,可以表示來自不同傳感器探測器的關于這些目標特征的證據,并將它們的分類似然化為一個共同的表示。融合過程主要依賴于2個部分:瞬時融合,即單個傳感器和單個目標在同一時刻提供的證據相結合; 動態融合則是將以往的證據與瞬時融合結果相結合,具體網絡結構圖見圖11。
智能汽車對周圍環境的感知能力決定了后續的規劃決策和整車控制,是智能汽車安全行駛的前提條件,單傳感器本身具有不同的感知缺陷,多傳感器融合成為無人駕駛檢測技術的重點研究方向,本節對多傳感器融合技術進行總結分析,提出了具有挑戰性問題和發展趨勢。
1) 數據集。為了完成車輛、行人、車道線、交通指示燈等目標檢測任務,以及面對不同的場景,如高速路、城區、鄉間等,融合的算法也層出不窮。不同的算法往往基于不同的開源數據集訓練而成,但涵蓋所有傳感器數據的開源數據集數量較少,不能覆蓋所有的駕駛場景。很多算法不能得到充足的訓練,所有數據集都存在數據不平衡問題。為了解決這問題,研究人員從算法的角度給出了一定的解決辦法(數據增強)[64-66],但是采集更加平衡的數據集才是最根本的解決方式,但數據集的采集和標注極其消耗人力物力;其次數據集的數據質量、數據數量、數據種類和數據采集的場景都各不相同,這很難指定一個衡量標準,來衡量不同融合算法之間的優劣。
2) 評估標準。不同的融合算法一般基于不同的數據集,不同數據集對精度等指標的計算會存在差異,其次絕大多數的融合算法不開源,這就導致不能在相同的硬件環境(相同的相機、激光雷達和毫米波雷達參數、計算單元相同的算力)下進行橫向比較,這使得不同算法之間的檢測精度和檢測速度失去了意義。
3) 工業落地。參考文獻中的檢測速度和檢測精度都是在高算力平臺下實現的。多傳感器融合算法相較于單一傳感器檢測算法需要消耗更多的計算資源。在車載計算資源有限的情況下,檢測速度會大打折扣,這在高速的無人駕駛環境下是非常危險的,絕大多數算法還沒有達到工業落地的程度。
4) 融合深度。雖然基于深度學習的融合網絡形式越來越多,但是大多融合操作為了提高平均精度,只是將數據、特征向量等簡單的相加、拼接或取平均值,操作單一并沒有考慮到數據之間的空間關聯等屬性,沒有充分的考慮融合系統的魯棒性。在調查過程中不難發現,相機和激光雷達、相機和毫米波雷達的融合算法最多,大多數的融合網絡在融合過程中只是用到了單幀的圖像與點云進行融合,而沒有充分利用圖像前后幀的關系進行感知,也就是沒有利用時間信息維度,這樣會導致在時間上不連續,不同數據在時間上不能實現同步。
根據最新的研究進展以及上述分析的所面臨的挑戰,多任務融合模塊[49,67]能充分利用各個傳感器捕獲的數據,在完成多任務的同時而不增加系統的復雜程度。由于傳感器本身檢測的距離有限、角度有限、捕捉的物體的屬性有限,隨著車載傳感器在智能汽車上部署的越來越多,相應的算法也越來越復雜,參數也隨之增加,加入車載通信技術(vehicle-to-everything,V2X)是一個不錯的選擇。當智能汽車與周邊其他交通參與者建立聯系,感知范圍將更大、更精確,則遮擋問題、跟蹤問題將迎刃而解,數據的共享將大大減小對車載感知系統的依賴,隨之對計算資源占用也會降低。
目前絕大多數的融合算法都是基于有監督方式,訓練出優秀的融合算法需要優秀的數據集,但是基于上述的討論,目前的無人駕駛數據集都存在或多或少的缺陷,針對極端場景的數據尤其缺乏。因此,基于無監督的融合算法將成為新的研究方向,這會大大降低對數據集需求,降低訓練的成本。
車載計算單元的算力有限,但是需要完成的計算任務卻很多。在感知方面,智能汽車往往需要進行多目標檢測、跟蹤、語義分割、定位等任務同時進行,若每項任務都單獨部署一個感知算法,則車載計算單元算力明顯不夠,若能設計出一種檢測算法同時能滿足多種感知需求,算力不足問題將會迎刃而解。在2D目標檢測方向,CenterNet設計出了可用是用于3D檢測、2D檢測和人體關鍵點檢測的神經網絡;基于圖像和激光點云融合算法MMF[68]也實現了同時完成地圖繪制、3D檢測、2D檢測和深度估計(depth completion)任務。之前的研究基本是基于單一融合方式,即數據級融合、特征級融合和決策級融合中的一種,MV3D證明了融合方式不只有3種主流的融合方式,不同融合方式的組合使用可能會帶來更好的檢測出效果。
本文首先對基于深度學習的多傳感器融合檢測技術的背景做了相關介紹,主要包括主流的車載傳感器、視覺和點云的檢測算法,對比了各種傳感器的優劣勢,提出了多傳感器融合的必要性;然后對多傳感器融合技術進行了深入的探討,總結了傳統融合算法和基于深度學習的融合算法,分析了基于深度學習的融合算法的優勢,歸納了3種融合層次(數據級融合、特征及融合以及決策級融合) 的特點、應用場景和優缺點,列舉了主流的傳感器組合方式以及典型的網絡結構,總結了各種組合方式的優缺點和使用場景,最后對現階段多傳感器融合檢測技術的研究做出了分析、總結與展望,有望對今后更深入的研究提供了思路。