賴際舟,袁 誠,呂 品,劉建業,何洪磊
(南京航空航天大學自動化學院,南京 210016)
無人系統作為社會智能化水平提升的典型代表,是一種可在復雜環境下工作且具有自主定位、自主運行、自主規劃能力的智能機器人,如無人車、無人機等。近年來,無人系統在越來越多的行業中發揮了重要作用,如工廠自動化、建筑、采礦、排險、服務、農業、太空探測以及軍事應用等領域,可有效保障社會公共安全、提高社會生產效率、優化工業智能化水平。
近年來,無人系統的應用及相關研究不斷深入,感知與導航作為其智能核心尤為受關注,美國國防部高級研究計劃局(Defense Advanced Resear-ch Projects Agency,DARPA)針對無人系統在環境感知和自主導航技術等方面投入了龐大的資金。2018年8月,美軍發布了《無人系統綜合路線圖(2017—2042)》,明確了無人系統需要著重提高感知及導航能力。同年,DARPA舉辦地下挑戰賽,在復雜無衛星信號環境下探索無人系統的感知與導航能力,力求快速提升無人系統的智能化水平,DARPA希望上述計劃可以輔助美國在未來取得主導優勢。國內也十分重視此方面發展,2015年,國務院印發《中國制造2025》,要求提高無人系統的感知智能水平。2020年,中國科協[1]將“無人車如何實現在衛星不可用條件下的高精度智能導航”列為十大工程技術難題之一。
隨著應用需求的增加與細分,無人系統需要在一些室內、地下、隧道、對抗干擾等復雜、隨機、多變的環境下進行自主作業,由于衛星導航系統信號被遮擋或屏蔽,視覺和激光雷達等自主傳感器成為該環境下常用的自主感知與導航手段。
視覺傳感器可以感知環境中豐富的信息,且由于其體積較小、成本較低,在小型化無人系統上得到了廣泛應用。以蘇黎世大學機器人感知團隊(Robotics and Perception Group,RPG)、蘇黎世聯邦理工學院自主機器人團隊(Autonomous Systems Lab,ASL)、德國慕尼黑工業大學機器視覺團隊和香港科技大學空中機器人團隊為代表,提出了豐富的不依賴衛星的視覺感知及導航算法,并在室內小型無人車、小型無人機等無人系統上進行了驗證與應用。
激光雷達雖體積、功耗較大,但可以感知高精度的測距信息且不依賴外部光源,同樣在無人系統上得到了廣泛應用。芝加哥大學豐田技術研究所、百度Apollo和谷歌Waymo等研究機構已經將其應用于不依賴衛星的無人車等無人系統的自主感知及導航。同時,這些團隊發布了EuRoC MAV、TUM RGB-D、KITTI等一系列包括真實參考值的數據集,對無人系統不依賴衛星的導航以及感知技術提供了可靠的驗證數據支持,降低了算法研究的硬件門檻,并為算法性能的比較提供了基準。
如圖1所示,無人系統的視覺/激光雷達環境感知與自主導航技術一般可以分為感知信息獲取、里程計位姿估計、地圖匹配位姿估計和地圖構建等模塊,為無人系統在自主執行任務的過程中提供豐富的環境感知信息與自身準確的位姿信息,各模塊包括不同的關鍵技術。

圖1 無人系統視覺/激光雷達感知與自主導航技術框架圖
本文以圖1框架圖為基礎,分析了視覺/激光雷達感知與自主導航技術及其國內外最新進展,對算法性能進行了評估和對比,并對其技術發展方向進行了分析和總結。
在無人系統自主執行任務的過程中,通過感知環境中的信息,可以為其提供可靠的決策數據基礎。無人系統通過深度估計建立感知傳感器與真實世界的尺度模型,使得感知信息可用于無人系統在真實世界的參考。通過目標檢測技術可以獲得更豐富、高層次的環境語義信息,對環境信息進行理解,可以提高無人系統的智能化水平。通過上述技術,可以確保無人系統自主、可靠的完成預定任務。
如圖2所示,本節將基于視覺、激光雷達以及融合感知情況下的深度估計與目標檢測技術,具體闡述技術機理、優缺點及應用場景。

圖2 無人系統視覺/激光雷達感知技術框架圖
如圖3所示,深度信息在無人系統的感知中具有重要意義,機器人控制算法常使用深度信息來確定如何執行任務。視覺傳感器與激光雷達都可以通過對深度進行估計獲得點云信息。基于感知點云信息,通過迭代最近點(Iterative Closest Point,ICP)算法比較感知點云與地圖點云,可以實現無人系統的位姿估計。點云信息也可用于同步定位與地圖構建(Simultaneous Localization and Mapping, SLAM)技術,通過融合多個不同位置的感知點云,實現對整個環境完整地圖的構建。這些算法的性能很大程度上依賴于輸入點云的深度信息質量。深度估計可以基于硬件測量、幾何算法與深度學習理論,其各有特點。

圖3 室外深度估計圖
? 基于視覺的深度估計技術
在視覺傳感器深度估計方面,深度信息早期主要通過結構光、飛行時間法(Time of Flight,ToF)等硬件技術直接獲得。此種方式獲得的深度范圍有限,根據M. Hansard等[2]的分析,此類相機在5m內可以獲得較為精確的深度信息,雖然不依賴外部光源,但在外界光照強度大于100 lm時,深度估計結果會產生較大誤差。同時,此類相機無法處理外觀上涉及光干擾的物體,即黑色、透明和反射物體,因此在室內或者特定外部環境中應用較多。
伴隨硬件計算水平的提升,利用多目視覺幾何算法進行深度估計成為近年來學者們研究的熱門課題。這種算法由于不依賴額外機械結構,可適用于室外光照良好、強烈等環境。基于視覺幾何原理的深度感知算法,通過雙目或多目之間成像的視差對深度信息進行估計,可以分為局部和全局的立體視覺視差計算方法。
局部方法主要包括基于區域的立體匹配與基于窗口的立體匹配方法,僅計算給定區域內的視差,具有低計算復雜度與實時運行的優勢。為了進一步降低算法的計算量,L.D.Stefano等[3]在匹配過程中利用唯一性約束,對常用的絕對誤差和算法(Sum of Absolute Differences,SAD)進行改進,實現了快速實時可靠的區域深度估計。W.Lui等[4]在此基礎上實現了室外低算力機器人的自主深度感知。為了讓無人系統在多任務情況下能夠獲得更好的深度估計精度自適應能力,S. Mattoccia等[5]建立了精度和實時性平衡策略,在算力限制的情況下可以獲得更優的深度估計精度。
全局方法將視差計算視為最小化全局能量函數的問題,可以實現對全局像素更高精度的深度估計,但其計算量較大,不適用于實時系統。針對此問題,H.Hirschmuller等[6]提出了半全局匹配 (Semi-Global Matching,SGM) 方法,利用基于互信息和全局平滑度約束近似像素匹配的全局匹配方法,將深度精確至亞像素等級的同時,實現了實時計算,被廣泛應用于低成本機器人的深度估計中。在相機深度估計硬件改進上,利用雙目算法與結構光原理組合的深度相機也成為了目前深度感知傳感器之一。隨著圖形處理器(Graphics Processing Unit,GPU)的應用與算力的進一步提升,利用深度學習技術,可以通過雙目圖像甚至單目圖像實現實時全局深度估計。
? 基于激光雷達的深度估計技術
激光雷達傳感器通過主動發射激光計算返回信號,可以在室內外場景對深度信息進行準確估計。現有激光雷達傳感器的測距方法可以分為三角測距法與ToF。三角測距法通過激光器發射激光,照射到物體后產生反射,反射光由線性電荷耦合器件(Charge Coupled Device,CCD)接收。由于激光器與探測器間隔一定距離,反射光依照光學路徑,不同距離的物體將會成像在CCD上不同的位置,依據三角公式對不同位置進行計算,從而求出被測物體的深度信息。ToF則是通過激光器發射激光脈沖,由計時器記錄出射時間,回返激光脈沖經接收器接收,并由計時器記錄返回時間。將出射時間與返回時間相減得到時間差,通過計算即可得到深度。
激光雷達目前存在點云較為稀疏的問題,二維激光雷達僅可以發射一束激光感知深度信息,三維激光雷達通過在豎直方向上排布多束激光,從而可以感知更豐富的深度信息。為了追求更豐富的深度信息,固態激光雷達依靠波的反射接收來探測目標特性,從而獲得更高密度的深度感知信息。
? 基于視覺/激光雷達融合的深度估計技術
僅依靠單一傳感器感知深度信息目前存在無法滿足無人系統對深度感知需求的問題,因此激光雷達傳感器常與視覺傳感器融合互補,應用于無人系統的深度感知技術。例如百度Apollo無人車使用的Pandora[7]感知系統,由1臺Pandar40激光雷達和5個環視攝像頭(4個黑白,1個彩色)組成的視覺感知模組組成,該感知系統通過硬件外部對齊,為無人系統提供可靠的深度信息;谷歌DeepLab在2020年提出的ViP[8]深度估計深度學習模型,利用視覺與激光雷達融合數據,實現了目前在較多數據集上較高精度的深度估計。
本文以KITTI[9]Depth 2017數據集提供的視覺/激光雷達感知數據為基準,列出了目前較高精度的深度估計算法性能,如表1所示,主要以尺度不變對數誤差(Scale Invariant Log Error,SILE)的平方根進行排序,并通過相對平方誤差(Relative Square Error,RSE)、相對絕對誤差(Relative Absolute Error,RAE)和反深度的均方根誤差(Inverse Root Mean Square Error,IRMSE)進行全面對比。

表1 圖像深度估計方法性能對比(2021年1月)
可以看出,在深度估計方面,基于傳感器硬件深度估計如結構光、ToF、三角法等,由于感知深度信息穩定、可靠等特點,更廣泛用于工業生產。但基于目前技術的傳感器硬件深度估計由于功耗和體積受限,無法在深度感知密度與深度感知距離上得到較好的平衡。在基于軟件算法的深度估計上,利用深度學習方法進行深度信息估計,相較于傳統模型匹配方法估計精度存在明顯的優勢,但此類方法需要依靠大量的數據,且依賴較高的GPU計算能力,在復雜未知環境下的估計精度不太理想。
無人系統的目標檢測是對感知信息進行語義提取與場景理解。通過對場景中的車輛、人物、標志等物體以及背景的識別理解,可以輔助無人系統進行有目的的行動。除此之外,提取的高級語義特征相對于傳統灰度相關的底層特征,對于光照變化、視角變化甚至部分遮擋情況下的抗擾性大大增強,可以顯著提高無人系統的自主性。
? 基于人工特征的目標檢測技術
目標檢測技術的主要發展先后經歷了人工特征檢測識別階段(2001年—2013年)和機器自主學習特征的目標檢測階段(2013年至今)。在前期,對于目標的檢測以及分析十分依賴人工特征的設計,研究人員致力于提出更全面的特征描述方法,包括尺度不變特征轉換(Scale-Invariant Feature Transform,SIFT)、快速的圖像匹配算法與定向二進制簡單描述符(Oriented FAST and Rotated BRIEF,ORB)等特征,使得目標檢測算法性能更為優異。但由于算力限制,魯棒性與準確性有時無法滿足實際應用的需求。
? 基于機器自主學習特征的目標檢測技術
隨著GPU硬件的推廣帶來的并行算力的提升,以G.E.Hinton等[15]在2012年提出的以Alex-Net為代表的深度學習卷積神經網絡(Convolutional Neural Network, CNN),實現了識別準確率以及魯棒性的大幅提升,將目標檢測帶入新階段。后人在此基礎上提出了更深層的神經網絡以及訓練速度更快、檢測正確率更高的R-CNN[16]、fast R-CNN[17]、faster R-CNN[18]和mask R-CNN[19]等算法,但此類算法為兩步法,先檢測目標在圖像中的位置,再對目標進行分類識別,還無法滿足無人系統的實時控制需求。以YOLO[20]算法為代表的一步法,把物體檢測問題作為回歸問題,用單個卷積神經網絡結構實現了從輸入圖像直接預測物體位置和類別概率,大幅提高了檢測效率,使得無人系統實現了實時的目標檢測與場景理解。
隨著無人系統應用場景的拓展與三維激光雷達傳感器技術的成熟,基于二維圖像的目標檢測有時無法滿足復雜環境下無人系統自主運行的需求,需要基于三維目標檢測的自主避障以及路徑規劃為無人系統提供更為可靠的輔助參考。但與二維圖像目標檢測相比,三維目標檢測需要更多參數描述檢測結果,更具挑戰性。三維目標檢測主要包含三種方式:基于二維圖像的識別、基于激光雷達點云的識別和基于相機/激光雷達融合信息的識別。基于二維圖像的目標檢測如圖4(a)所示,它在單目深度估計的基礎上,對場景中的目標輪廓進行估計。基于激光雷達點云的檢測方法主要為基于網格的方法,以蘋果公司提出的VoxelNet[21]架構為代表,將點云細分為體素,進行編碼以及特征提取與識別,輸出物體的類別概率以及外接邊框參數。基于相機/激光雷達融合信息的檢測如圖4(b)所示,基于多傳感器性能互補感知,利用二維圖像識別目標并利用三維點云估計輪廓,可以檢測出較遠距離的三維物體。

(a)圖像二維目標檢測

(b)視覺/激光雷達混合三維目標檢測圖4 目標檢測示意圖[22]
本文以KITTI[9]Object 2012數據集提供的二維目標檢測數據和KITTI Object 2017數據集提供的三維目標檢測庫為基準,分別列出了目前一些較高精度目標檢測算法的性能,如表2和表3所示。其中,汽車目標以70%的重疊率作為識別成功基準,行人目標則以50%的重疊率為基準。并且根據數據集中目標的大小以及遮擋程度,將檢測分為簡單、普通與困難等級,以普通作為排行標準。

表2 二維目標檢測方法性能對比(2021年1月)

表3 三維目標檢測方法性能對比(2021年1月)
可以看出,基于深度學習的目標識別方法已經在社會中廣泛應用。目前在多數場景下,基于二維圖像的目標檢測方法的準確率已高于95%,在安防監控、犯罪追蹤和國防中得到了積極應用。但三維目標檢測方法的準確率仍存在較大的提升空間,二維圖像的三維目標檢測,雖然成本較低,但精度上與其余方式仍存在一定差距。受限于激光雷達點云密度,激光雷達三維目標檢測方法對遠距離物體的檢測性能較差。從方法性能對比表中可以看出,采用視覺/激光雷達融合三維目標檢測方法,可能在多傳感器融合過程中引入新誤差,導致性能上略低于基于激光雷達點云的三維目標檢測方法。
對感知信息進行處理后,無人系統可利用處理后的信息進行導航解算,獲取自身的位姿,以執行預定的操作。無人系統的視覺/激光雷達導航按應用場景可分為合作或非合作場景。在合作場景下,可以通過提前儲存的數據或地圖進行導航解算,確保無人系統在已知的合作環境中保持較高的導航精度。在非合作場景下,無人系統則是自主地進行導航解算,典型的方案有視覺、激光雷達及多信息融合SLAM技術。如圖5所示,本節將按應用場景及具體導航算法的不同,根據不同傳感器類型,分別介紹涉及的導航關鍵技術。

圖5 無人系統視覺/激光雷達自主導航技術框架圖
合作場景中,視覺、激光雷達導航系統可以通過提前已知的數據庫或地圖信息,在無人系統執行任務的過程中作為導航系統參考用于解算導航信息。
? 基于數據庫匹配的自主導航方法
基于數據庫匹配的自主導航方式主要為景象匹配方法,景象匹配一般通過自身搭載的視覺、激光雷達傳感器對自身環境進行感知,通過匹配提前儲存的數據幀與當前感知的數據幀,利用相同點關系求解出無人系統的位姿。研究人員主要通過尋找更魯棒的特征以及更精確的位姿計算方法以提高精度。Y.Wang等[33]針對傳統特征點匹配性能穩定性較差的問題,提出了基于最大類間方差算法的自適應閾值匹配方法,提高了景象匹配中特征點的提取數量、穩定性和最終匹配精度。
? 基于地圖匹配的自主導航方法
隨著先進駕駛輔助系統(Advanced Driver Assistance Systems,ADAS)技術的廣泛使用與更新迭代,對于導航定位精度的需求也在逐步增加,傳統的景象匹配方式已經無法滿足厘米級的定位需求。如圖6所示,地圖匹配尤其是高精度地圖匹配成為了無人系統的導航方法之一。高精度地圖[34]預先由載波相位實時動態差分全球定位系統 (Real-Time Kinematic Carrier Phase Differential Global Navigation Satellite System, RTK-GNSS)、激光雷達、視覺、里程計和慣性傳感器等組合構建,精度一般優于20cm,相對于傳統地圖有著更多維度的數據,例如道路標志物、車道線、道路形狀、坡度、曲率和航向等。更多維的數據也對無人系統在匹配時的技術提出了新的挑戰,為了提高高精度地圖定位的精度與可靠性,在匹配特征方面,S.Ratz等[35]提出了一種基于激光雷達單次掃描的全局匹配方法,并利用定制神經網絡的激光雷達/視覺段描述符提高了匹配的準確性,定位誤差小于15cm。在位姿估計方面,R.Asghar等[36]將基于ICP的車道級地圖匹配和基于決策規則的拓撲地圖匹配相結合,實現了車輛速度60km/h下80cm的導航精度。多維數據也會帶來更大的存儲及搜索成本,為了提高在大范圍環境地圖中匹配的快速性,S.Garg等[37]基于視覺傳感器使用更短的代碼特征和相應更長的候選匹配,提出了連續數據哈希和反索引融合列表,提高了大數據場景庫下的匹配速度與正確率。為了應對環境隨季節變化帶來的匹配錯誤,H.Zhang等[38]提出了一種區分度匹配方法,將地標的空間關系與它們的外觀相結合,實現了季節變化環境外貌改變下的地圖可靠匹配。

圖6 視覺與激光雷達地圖匹配示意圖
目前,合作環境下導航的研究已經取得了一定進展,在軍事、生產和運輸方面已經得到了一定應用,但需要提前構建海量數據庫,在特征匹配方法、匹配速度及數據庫儲存技術上受到很多研究人員的關注。
非合作環境一般指無先驗信息的環境,隨著相機/激光雷達傳感器技術的成熟與硬件平臺計算能力的增長,利用此類傳感器可以在非合作場景下進行實時遞推導航。這類方法為無人系統的導航提供了全面的環境參考,支撐其更智能地自主執行任務。此類方法可以分為里程計及地圖構建技術。
視覺/激光雷達里程計技術通過連續感知無人系統周圍的環境信息,形成多幀數據,并利用幀間的關聯性對載體的位姿進行遞推估計。此類技術可以分為視覺里程計、激光雷達里程計以及多信息融合里程計技術。按融合算法的不同可以分為基于濾波的里程計、基于優化的里程計與基于深度學習的里程計技術。
? 視覺里程計自主導航技術
視覺里程計(Visual Odometry,VO)利用攝像頭作為傳感器進行感知獲得連續圖像數據幀,并通過匹配幀間像素關聯實現遞推導航,如圖7所示。VO按幀間的匹配方法不同可以分為間接法與直接法。間接法通過提取圖像內具有一定不變性質的特征點進行前后幀匹配,如加速分割檢測特征[39](Features from Accelerated Segment Test,FAST)、ORB[40]和加速魯棒特征[41](Speeded Up Robust Features,SURF)等,通過特征點計算描述子的相似度進行匹配;直接法則是利用圖像中的所有像素的梯度關系進行匹配。特征點法在特征豐富的情況下對光照變化等影響具有更好的魯棒性。直接法基于光照不變的假設,利用圖像中更多的冗余信息,可以獲得更高精度的位姿估計精度,適用于特征較稀疏的環境,且由于無需計算描述子,實時性也更佳。

圖7 視覺匹配位姿求解示意圖
在VO技術框架方面,早期VO技術是以A.J.Davison等[42]提出的MonoSLAM為代表的基于KF架構的VO,特點是利用單線程進行位姿估計以及地圖更新,但高維情況下復雜度較高,僅能在12個特征點數量左右實現實時跟蹤。目前的VO技術主要以G.Klein等[43]在并行跟蹤和構圖(Parallel Tracking and Mapping,PTAM)中提出的位姿估計與構圖并行雙線程優化框架為代表,利用FAST作為特征點進行匹配求解,采用5點法和隨機采樣一致外點剔除方法估計本質矩陣,實現單目攝像頭特征點的深度估計;同時利用非線性優化算法進行實時導航解算,這讓基于離線運動恢復結構(Structure from Motion,SfM)技術的光束平差法[44](Bundle Adjustment,BA)在VO中得到應用,從而使精度得到了提升。J.Engel等[45]在此框架的基礎上提出了大范圍直接法單目SLAM(Large-Scale Direct Monocular SLAM,LSD-SLAM),利用圖像中的像素梯度信息與極線方向在稠密深度恢復中的角度關系,實現了移動端處理器上的實時位姿估計與半稠密場景構建。R.Mur-Artal等[46]在此框架的基礎上,改用ORB特征點加強魯棒性,并改進深度初始化方法,無需場景平面假設,同時加入了基于詞袋算法的回環檢測流程,提出了性能更好的ORB-SLAM算法。
但由于單目視覺成像過程中的深度信息丟失,且初始化的過程對載體的機動性要求較高,較難推廣用于無人系統的導航。為了減少此限制的影響,J.Engel等[47]提出了利用雙目視覺的直接法Stereo LSD SLAM,R.Mur-Artal等[48]提出了利用雙目、深度視覺的特征點法ORB-SLAM2,通過雙目或深度相機直接獲取深度信息,無需復雜的初始化過程,可實現無人系統在多種環境中的應用。C.Campos等[49]提出的ORB-SLAM3算法,將ORB-SLAM2拓展至魚眼鏡頭,以利用更豐富的環境信息,并將初始化過程加入優化函數中進行實時優化;同時采用多子地圖算法,將累積遞推分割為多個子地圖,在場景重疊較多時進行無縫融合,在所有算法階段重用所有先前信息,進一步提高了導航解算精度。
深度學習也同樣被用于VO的位姿解算,B.Li等[50]利用場景中的文字語義信息輔助VO,將每個檢測到的文本視為一個平面特征與VO系統進行緊組合,提高了VO系統的魯棒性。S.Wang等[51]提出了一種基于遞歸卷積神經網絡的單目視覺端到端框架DeepVO,直接從圖像數據學習位姿變化,不考慮相機模型誤差等一系列參數,實現了自身位姿的遞推估計。N.Yang等[52]提出了一種單目VO深度學習框架,同時利用自監督深度網絡估計深度、姿態和不確定性,將其與傳統VO系統框架進行緊組合,實現了較高的遞推精度。
? 激光雷達里程計自主導航技術
激光雷達測距誤差模型較為簡單穩定,測距范圍較廣,如圖8所示。激光雷達里程計(LiDAR Odometry,LO)可以通過較為精確的測距點云進行點云匹配位姿解算,無需復雜的初始化尺度估計過程,目前在工業生產中得到了較為成熟的應用,如掃地機器人、工業物流機器人等。

圖8 激光雷達點云匹配示意圖
LO可以分為基于二維激光雷達傳感器與三維激光雷達傳感器的導航技術。在二維激光雷達導航技術方面,在M.Montemerlo等[53]提出的Fast SLAM為代表的網格地圖基礎上,G.Grisettiyz等[54]提出了Gmapping是目前基于RB粒子濾波(Rao-Blackwellisation Partical Filter,RBPF)常用的算法,通過增加掃描匹配過程,提高了位姿估計精度。同樣基于掃描匹配過程,S.Kohlbrecher等[55]將其與慣性三維導航系統組合,提出了Hector SLAM,通過使用快速近似地圖梯度和多分辨率網格,提高了系統的魯棒性。為了進一步提升LO系統的精度,基于位姿圖非線性優化的方法被提出,如Karto SLAM[56]、Lago SLAM[57]和Cartographer[58]等,Cartographer同時還加入了子圖構建和回環檢測等環節,提高了算法的整體魯棒性。
三維激光雷達導航技術方面,更豐富的感知點云數據為更高精度與魯棒性的導航算法奠定了基礎,J.Zhang等[59]提出的LOAM將位姿遞推與優化分為并行線程,遞推線程以高頻率但較低精度進行位姿遞推估計,以確保三維激光雷達的解算速度;優化線程以較低的頻率運行,用于點云的精細匹配和配準,提高了定位性能。以LOAM為基礎,T.Shan等[60]提出了LeGO-LOAM,增加了特征分割模塊,將地面進行分割作為單獨約束,在減少計算量的同時提高了動態環境下的穩定性。為了提高LO系統的適應性,J.E.Deschaud[61]提出了IMLS-SLAM,利用隱式移動最小二乘算法對環境地面區域進行提取,隨后對剩下點云聚類,并剔除小尺寸的聚類點,利用掃描點與模型進行匹配,實現了復雜城市環境下的高精度遞推導航,但由于地圖需要持續全局更新,實時性較差。
新類型的激光雷達傳感器也催生了不同的算法,J.Lin等[62]提出的Loam_livox針對固態激光雷達如Livox的小視場和不規則采樣的點云特性,設計了一種魯棒的實時導航算法。深度學習的方法也被應用于LO系統,如LO-net[63]、Deeppco[64]等,用于估計載體的位姿變化。
與視覺受限于無法給出可靠的尺度估計相同,激光雷達存在點云數量較少、頻率較低等問題,J.Zhang等[65]提出了V-LOAM,利用視覺較高頻率60Hz進行粗匹配,激光雷達1Hz進行精匹配,將像素與點云深度進行關聯以消除尺度不確定性,實現了無人系統上0.54%的導航精度。
多傳感器融合里程計技術由于可以利用異類傳感器進行優勢互補,受到廣泛關注。T.Qin等[66]提出了VINS-Fusion,通過慣性傳感器感知估計視覺尺度,同時利用重力信息估計兩自由度姿態角,降低了后端估計消耗,同時慣性的高頻率性能也讓其可直接用于無人系統的控制輸入。慣性傳感器也可以提高激光雷達的魯棒性,C.Qin等[67]提出了LINS算法,通過迭代誤差狀態卡爾曼濾波器緊組合慣性與激光雷達數據,使得無人系統在具有挑戰性的環境(如無特征場景)中實現魯棒和高效的導航。X.Ding等[68]將慣性和激光雷達強度信息整合到基于占用網格的激光雷達里程測量中,提出了環境變化檢測方法,通過對地圖的增量更新,實現了在動態變化的城市場景下的準確導航。
此外,多傳感器融合里程計技術使得無人系統可以在更惡劣的野外非結構化環境中進行作業,相比傳統結構化環境中豐富的特征點以及明顯的幾何特征,野外非結構化環境對無人系統環境感知能力提出了更嚴格的要求。Y.Yue等[69]提出了一種基于視覺/激光雷達多模態環境感知的動態協同映射方法,使得無人系統可以長期在包括日夜變化的野外非結構化環境中進行魯棒定位。D.Wisth等[70]提出了一種多模態視覺/激光雷達/慣性緊組合導航方法,利用視覺像素信息與激光雷達深度信息融合感知,實現了在DARPA地下挑戰賽非結構化洞穴環境內的無人車魯棒自主導航。P.Burger等[71]提出了在非結構化環境中基于B曲線的激光雷達道路分割方法,并利用無跡卡爾曼濾波進行預測跟蹤,通過將道路信息加入后端圖優化框架進行位姿估計,實現了無人車在野外非結構環境中的自主運行與道路建模。
本文以KITTI Odometry 2012數據集提供的慣性/視覺/激光雷達感知數據集為基準,列出了目前較高精度的里程計算法性能,如表4所示,主要以平移誤差進行排序,并通過旋轉誤差、感知手段和運行時間進行全面對比。

表4 里程計方法自主導航精度對比(2021年1月)
可以看出,以里程計技術為代表的非合作環境自主導航技術已經取得了一定進展,學者們更關注在特定環境數據下通過改進特征提取方法、匹配方法或融合新類型傳感器等實現精度的提升,在對傳感器硬件與導航算法的兼容上研究較少。目前的算法在特定、小范圍、光照穩定、環境特征豐富的環境下可以進行精確的導航,但是在隨機、大范圍、環境特征較為稀疏的情況下,仍存在較大的提升空間。同時,目前導航算法主要依賴高性能處理器才可達到實時處理,實時性仍有待加強。
? 地圖構建技術
在通過里程計技術獲取精準位姿的基礎上,將感知信息處理后投影至統一坐標系,可以對環境進行建模,從而實現環境地圖的構建。實際應用中,根據無人系統不同的任務需求,可以構建包括度量地圖、拓撲地圖及語義地圖在內的不同類型的地圖。度量地圖的特點是可以通過精確的坐標唯一表示地圖中的所有物體,如視覺特征點圖和激光雷達占用柵格圖等,可以用于固定場景內無人系統的精確導航與路徑規劃。拓撲地圖著重于兩地點間的連通性,通過帶節點和相關連接線用圖的方式表達環境,更適用于場景的快速探索。語義地圖則通過對場景的理解,對場景中的物體打上語義標簽,將場景中的道路或目標點以標簽的集合作為表示,可以顯著提高無人系統的智能性及自主性,但語義的提取需要較大的精確感知數據量且后續維護工作繁雜。
在實際使用時,結合多種地圖類型的特性,如圖9所示,自動駕駛的高精度地圖融合了多種地圖類型,包括度量及語義地圖。在規劃時利用拓撲地圖可以實現無人系統的高智能自主行駛,但其獲取高精度數據感知成本較高。為了降低獲取精確感知數據的成本,J.Zhang等[75]提出的LiStereo采用自我監督的訓練網絡,將視覺與激光雷達數據融合,提高了獲取感知數據的分辨率與精度,并將其用于高分辨率地圖構建。A.Parikh等[76]為了提高語義地圖的構建效率,通過融合語義和幾何信息聯合構圖,采用增量式對象分割和分類方法實時更新地圖,并引入信息論和啟發式度量算法,用于快速規劃載體的運動和降低地圖構建的不確定性。M.Narayana等[77]針對地圖中動態物體變化和長時間下場景變化的問題,通過引入元語義映射層解決長時間情況語義不一致問題,并在語義發現層允許語義更新,從而實現了無人系統上的終身室內地圖更新。

(a)激光雷達高精度地圖示意
可以看出,在地圖構建上,單一的地圖表達方式已無法滿足無人系統的智能化需求,需要結合多地圖特性構建更抽象、可靠、豐富的新型地圖表述方式,且地圖應具備長時間甚至終身更新的能力,使得無人系統具備在運行過程中持續優化導航精度的能力。
無人系統智能化水平的快速提升離不開感知與自主導航技術的飛速發展,依靠全球衛星定位系統的高精度定位,已經可以在室外開闊環境下實現自主運行。但在室內、地下、隧道和對抗等衛星信息被遮擋或屏蔽的環境下,目前還亟待對自主的高精度無人系統感知與導航技術進行研究和實現。
視覺傳感器由于缺少尺度信息及依靠外界光源,雙目與RGB-D傳感器無法感知遠距離尺度信息,且視覺傳感器感知信息存在映射過程,對傳感器模型建立精度要求較高,單純基于視覺的導航誤差目前仍然大于1%里程(Distance,D),因此需要在低動態、良好光照環境下應用。
激光雷達利用深度感知原理,可以在結構良好、特征豐富的環境下實現0.5%D的定位精度,但存在感知信息較為稀疏的問題,需要環境中存在較為明顯的特征結構。
由于視覺與激光雷達傳感器感知信息量和信息特征差異較大,目前傳統融合估計方法仍然無法克服兩種傳感器的缺陷,融合框架多為視覺輔助激光雷達導航,導航精度仍與單一激光雷達傳感器定位精度相同。基于深度學習的感知與導航算法雖然可以在限定的數據下取得較好的性能,但在存在動態變化的復雜環境,尤其是未知環境下,其導航與感知結果會出現較大的誤差,算法適用性較差;且深度學習的感知與導航算法需要較高的硬件計算能力與功耗。目前,不依賴衛星的感知與自主導航技術仍然需要在小范圍、靜態、良好光照條件下應用。
隨著研究的深入與應用的拓展,未來無人系統的感知與自主導航技術存在著以下挑戰與機遇。
1)更大范圍的作業需求對無人系統多層次協同感知技術提出了挑戰。無人系統往往處于大范圍作業環境下,由于其自身體積有限,依靠單一信息源和單一觀測角度的感知方式將難以準確全面地進行環境感知。同時,更大范圍的作業場景也會帶來更大的尺度誤差與激光雷達的點云稀疏物體,需要結合視覺圖像與激光雷達點云的像素及深度多層次信息、空地協同多角度感知信息,對環境進行多角度多層次建模。因此,多傳感器的聯合感知及多無人系統間聯合感知是未來本領域的一個主要研究方向。
2)場景中的隨機、動態因素與無人系統自身的動態特性對感知與導航技術提出了新的挑戰。現實中,巡檢、安防與運輸等任務都要求無人系統具備長時間自主作業的能力,長期工作環境中不僅面臨作業人員、突發事件的短期隨機干擾,還伴隨著日夜交替、季節交替及物體交替的長期不穩定變化,同時場景也會包括結構化與非結構化環境。此外,無人系統在不同任務下自身運動特性的不同也會對感知誤差模型造成影響。這要求無人系統不僅需要感知可靠的幾何特征,還需要具備多動態環境下準確穩定的環境認知與重構能力,對環境中的障礙物和適用于導航的物體進行語義識別與抽象儲存,實現對長期變化場景的穩定不變理解與穩定可靠導航。因此,傳感器動態感知模型的建立及動態場景的理解和更新也是未來本領域的一個主要研究方向。
3)長期作業的需求對無人系統的長航時環境導航自適應技術提出了挑戰。未來無人系統環境要求具備終身作業能力,但環境中不僅存在動態物體的干擾,還存在長航時作業中由于作業目標場景改變,在自主前往新目標時途中出現的室內/外交替帶來的感知信息源的變化。無人系統需要面對信息源變化對整體導航系統架構帶來的干擾,在部分特殊場景,還會出現地面無人系統視角受限、導航解算參考信息不足,導致導航定位精度降低。因此,對無人系統的終身導航技術研究也是未來本領域的另一個主要研究方向。
除了技術上的挑戰,在算法實際落地過程中,如何提高算法的計算效率,如何實現芯片級的運行,以及如何擺脫對特殊傳感器和高能耗計算平臺的依賴等關鍵問題,同樣也亟待解決和突破,最終使得無人系統真正步入自主、智能的全新時代。