
中圖分類號(hào):TB9;TB3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-5124(2025)06-0001-16
Overview prospect vision lidar SLAM
CHENG Liang12, LUO Zhoul2, HE Yunze3, CHEN Yongcan3
(1. School , , 2. , 519085, 3. , University, Changsha 41oo82, China)
Abstract: Simultaneous localization mapping (SLAM) technology has a wide range applications in unmanned equipment, which can achieve indoor or outdoor autonomous localization mapping tasks. In this paper, the basic framework vision SLAM laser SLAM is introduced, the functions algorithms front-end odometer,back-end optimization,loop detection map construction are described indetail. After this,theclasic algorithms in the development visual/laser SLAMare summarized their advantages disadvantages areanalyzedas wellas the excelent improvement schemes after this.Inaddition,the typical application scenarios SLAM technology in life are listed, the important role SLAM technology in the fields automatic driving unmanned equipment is shown. Finally, the curent development trends research progress SLAM systems are discussed,as well as challenges issues to be considered in future applications, including multi-type sensor fusion, integration with deep learning technologies, the key role interdisciplinary collaboration. Through the comprehensive analysis discussion SLAM technology, it provides pround theoretical guidance practical reference for further promoting the development application SLAM technology.
Keywords:SLAM; camera; lidar;multi-sensor fusion
0 引言
近些年來(lái)隨著人工智能的迅速發(fā)展,人們對(duì)便捷的生活以及智能化生產(chǎn)的需求越來(lái)越高,在這種需求的驅(qū)使下,機(jī)器人行業(yè)快速發(fā)展,而移動(dòng)機(jī)器人是眾多機(jī)器人種類中的一種,是許多企業(yè)與高校的研究熱點(diǎn)[1]。同時(shí)定位與地圖構(gòu)建(simultaneouslocalizationmapping,SLAM)最早是由Smith和Cheeseman[2]在1986的IEEE機(jī)器人與自動(dòng)化會(huì)議上提出,發(fā)展至今已有30多年。SLAM技術(shù)回答了在沒(méi)有環(huán)境先驗(yàn)信息的場(chǎng)景下,如何通過(guò)機(jī)器人搭載的傳感器來(lái)確認(rèn)自身所處的位置以及構(gòu)建該環(huán)境地圖的問(wèn)題。根據(jù)使用的傳感器類別不同,當(dāng)前主流的SLAM系統(tǒng)主要分為激光SLAM、視覺(jué)SLAM以及各類傳感器輔助激光/視覺(jué)的多傳感器融合SLAM技術(shù)[3]。視覺(jué)SLAM以相機(jī)為主傳感器,因其獲取信息直觀豐富、成本低廉受到眾多研究者的青睞,常用的視覺(jué)傳感器有單目/雙目攝像頭、RGB-D相機(jī)等。但此方法在光線劇烈變化時(shí)容易受到曝光問(wèn)題的影響,且在微光或無(wú)光環(huán)境下存在失能等問(wèn)題。而激光SLAM系統(tǒng)可以很好地解決上述存在的問(wèn)題,相較于攝像頭,激光雷達(dá)對(duì)環(huán)境的感知更加精確且在長(zhǎng)時(shí)間的運(yùn)行中激光SLAM也表現(xiàn)的比視覺(jué)SLAM更加穩(wěn)定,但激光雷達(dá)的價(jià)格普遍高于普通相機(jī),這限制了其在成本預(yù)算有限的項(xiàng)目中應(yīng)用,同時(shí)激光雷達(dá)重量較大不利于在便攜式設(shè)備上使用。
視覺(jué)SLAM和激光SLAM在技術(shù)實(shí)現(xiàn)上雖然共同致力于解決定位和地圖構(gòu)建的問(wèn)題,但它們?cè)谔幚矸椒ê图夹g(shù)細(xì)節(jié)上存在差異??偟膩?lái)說(shuō),兩者都涵蓋了SLAM系統(tǒng)的核心組成部分:前端里程計(jì)、后端優(yōu)化、回環(huán)檢測(cè)以及地圖構(gòu)建。這些技術(shù)的不同實(shí)現(xiàn)方式,使得視覺(jué)SLAM和激光SLAM各有其適用場(chǎng)景和特定優(yōu)勢(shì)。
1視覺(jué)和激光SLAM工作原理
1.1 前端里程計(jì)
前端里程計(jì)是SLAM系統(tǒng)的關(guān)鍵組成部分,其主要功能是估計(jì)傳感器的運(yùn)動(dòng)信息,以提供準(zhǔn)確的姿態(tài)估計(jì)。
1.1.1 視覺(jué)里程計(jì)
對(duì)于視覺(jué)里程計(jì)(visualodometry,VO)而言,它通過(guò)分析視覺(jué)傳感器捕捉到的連續(xù)圖像幀來(lái)估計(jì)設(shè)備在場(chǎng)景中的運(yùn)動(dòng)和位置。視覺(jué)里程計(jì)通常分為基于幾何的視覺(jué)里程計(jì)、基于學(xué)習(xí)的視覺(jué)里程計(jì)兩種方法。
1)基于幾何的方法
基于幾何的視覺(jué)里程計(jì)方法根據(jù)采集的圖像不同又可分為特征點(diǎn)法VO、直接法VO[4J
特征點(diǎn)法VO從圖像中進(jìn)行檢測(cè)和匹配特征點(diǎn)來(lái)獲取相機(jī)的位姿,此方法不僅保存了圖像的關(guān)鍵信息,又顯著減少了計(jì)算量。其工作流程主要可分為特征提取、特征匹配、運(yùn)動(dòng)估計(jì)、三角化、局部地圖構(gòu)建幾個(gè)步驟。
與其相比,直接法VO的核心思想是基于連續(xù)圖像幀之間的像素灰度值差異進(jìn)行圖像配準(zhǔn),通常采用如光度一致性假設(shè)或最小化光度誤差的策略。這種方法能夠有效地適應(yīng)環(huán)境中的動(dòng)態(tài)變化,尤其是在缺乏顯著特征點(diǎn)的場(chǎng)景中仍能保持較好的性能。特征點(diǎn)法VO與直接法VO對(duì)比見(jiàn)表1。
2)基于學(xué)習(xí)的方法
近些年來(lái)隨著深度學(xué)習(xí)技術(shù)的興起,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被應(yīng)用于提取圖像中的關(guān)鍵特征,不同于傳統(tǒng)特征提取方式,CNN能夠?qū)W習(xí)圖像中深層次特征,這些特征對(duì)光照、動(dòng)態(tài)場(chǎng)景都具有更好的魯棒性。如:在DeepVO[5]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的單目VO端到端框架,直接從原始圖像幀中預(yù)測(cè)位姿,減少了傳統(tǒng)方法對(duì)特征的依賴;DeepVIO[6]在DeepVO的基礎(chǔ)上耦合了IMU數(shù)據(jù)來(lái)提高模型估計(jì)出的位姿運(yùn)動(dòng)狀態(tài);2023年Deng[設(shè)計(jì)了一種輕量級(jí)卷積網(wǎng)絡(luò)模型,該模型通過(guò)逐層減小卷積核尺寸和采用輕量級(jí)卷積塊的策略,有效地實(shí)現(xiàn)了模型輕量化的同時(shí)保證了性能,這種設(shè)計(jì)思路尤其適用于計(jì)算資源有限且環(huán)境復(fù)雜的應(yīng)用場(chǎng)景。

1.1.2 激光里程計(jì)
同視覺(jué)里程計(jì)相類似,激光里程計(jì)通過(guò)分析激光雷達(dá)掃描到的數(shù)據(jù)之間的變化來(lái)計(jì)算激光雷達(dá)在運(yùn)動(dòng)中的位姿變化。通常,在激光SLAM的前端里程計(jì)中會(huì)完成點(diǎn)云數(shù)據(jù)預(yù)處理、點(diǎn)云配準(zhǔn)等操作。
1)點(diǎn)云數(shù)據(jù)預(yù)處理
激光雷達(dá)最初采集到的點(diǎn)云數(shù)據(jù)量通常很龐大,且存在點(diǎn)云數(shù)據(jù)密度不規(guī)則、噪聲點(diǎn)等問(wèn)題,因此需要對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行濾波、去離群點(diǎn)等數(shù)據(jù)預(yù)處理操作,常見(jiàn)方法如:體素濾波、統(tǒng)計(jì)學(xué)方法等。在某些場(chǎng)景下還需要平面擬合,例如:無(wú)人艇在水面工作時(shí),由于在水面上通常會(huì)受到風(fēng)浪等外部因素的影響,使得激光雷達(dá)掃向水面時(shí)不可避免的產(chǎn)生噪聲點(diǎn)和異常值,當(dāng)前較為傳統(tǒng)的擬合方法是最小二乘法、RANSAC算法,詳見(jiàn)表2。

同時(shí),在激光雷達(dá)載體機(jī)器人運(yùn)動(dòng)中會(huì)引起點(diǎn)云數(shù)據(jù)的失真,即畸變。這種運(yùn)動(dòng)畸變會(huì)導(dǎo)致其采集到的數(shù)據(jù)模糊、形變等后果,通常面對(duì)點(diǎn)云運(yùn)動(dòng)畸變時(shí)采用傳感器輔助法。為了補(bǔ)償點(diǎn)云的運(yùn)動(dòng)畸變,利用IMU模塊或者視覺(jué)模塊來(lái)輔助估計(jì)設(shè)備的實(shí)時(shí)位姿變化,可以使得點(diǎn)云能夠在全局坐標(biāo)中更精確的定位。
2)點(diǎn)云配準(zhǔn)
基于激光雷達(dá)掃描相鄰幀,利用大量重復(fù)的點(diǎn)云信息求出幀與幀之間的轉(zhuǎn)換關(guān)系,使得兩幀點(diǎn)云之間的距離無(wú)限接近,此過(guò)程稱為點(diǎn)云配準(zhǔn)[8]。
點(diǎn)云配準(zhǔn)分為粗配準(zhǔn)和精配準(zhǔn),當(dāng)對(duì)位姿完全未知時(shí)使用粗配準(zhǔn)將原目標(biāo)點(diǎn)云與目標(biāo)坐標(biāo)點(diǎn)云轉(zhuǎn)換到統(tǒng)一坐標(biāo)系中,其主要目的是為精匹配提供較好的變換初值。目前應(yīng)用最廣泛的點(diǎn)云匹配算法是迭代最近點(diǎn)(iterativeclosestpoint,ICP)算法、基于數(shù)學(xué)特 征 NDT(normalized distribution transform,NDT)類方法和基于學(xué)習(xí)的方法。
① ICP算法
ICP算法在1992年由Besl和Mckay提出,在點(diǎn)云配準(zhǔn)中廣泛應(yīng)用。假設(shè)有一組點(diǎn)云 p(p1,p2...pm) 在經(jīng)過(guò)空間變換后為 q(q1,q2...qn) ,其中點(diǎn)云數(shù)量與順序不保證一致, T(R,t) 為變換矩陣, E(R,t) 為點(diǎn) p 經(jīng)過(guò)變換矩陣 T 后與點(diǎn) q 的誤差,詳見(jiàn)式(1),其中 R 為旋轉(zhuǎn)矩陣, t 為平移向量,使得該問(wèn)題變?yōu)榍蠼?ΨE(R,t) 的最小值問(wèn)題。

流程如圖1。

最初的ICP算法通過(guò)對(duì)全局點(diǎn)的位姿采用暴力匹配來(lái)找到最優(yōu)點(diǎn),計(jì)算開(kāi)銷較大,在此之后衍生出的各種ICP變種算法,如PL-ICP、PP-ICP與原始ICP最大的區(qū)別是不再把點(diǎn)配準(zhǔn)到某個(gè)點(diǎn)上,而是與某一個(gè)數(shù)據(jù)量進(jìn)行配準(zhǔn),其目的是為了更容易收斂。GICP則是在ICP算法的基礎(chǔ)上附加了一個(gè)高斯模型用以降低復(fù)雜度。各種ICP算法變種主要有兩個(gè)優(yōu)化目標(biāo):一是增加魯棒性,防正尋找到錯(cuò)誤的對(duì)應(yīng)匹配點(diǎn);二是為了加快運(yùn)行速度,主要思想是降低復(fù)雜度。
② 基于數(shù)學(xué)特征的方法(NDT算法)
NDT(normaldistributiontransform)算法即正態(tài)分布變換算法,是一種基于高斯分布的點(diǎn)云配準(zhǔn)算法。NDT方法的主要原理為將目標(biāo)點(diǎn)云進(jìn)行整理并按照分辨率分成具有分布特性的網(wǎng)格,然后根據(jù)這些網(wǎng)格塊來(lái)對(duì)不同幀的點(diǎn)云進(jìn)行匹配,具體操作是假設(shè)存在兩個(gè)連續(xù)幀的點(diǎn)云 P{x},Q 將點(diǎn)云
劃分為若干個(gè) l×l×l 的體素,分別計(jì)算點(diǎn)云
每個(gè)體素的均值 μ 和協(xié)方差矩陣 Σ


將 P,Q 之間的變化參數(shù)定義為 R(a,b,θ)T ,并使用變換參數(shù) R 將
中任意體素內(nèi)一點(diǎn) qi 轉(zhuǎn)換為原點(diǎn)云 P 中一點(diǎn) ppre,i 。某點(diǎn)落到以 μ 和 Σ 為正態(tài)分布的立方體上,則該點(diǎn)概率密度為式(4)

其中, D 表示維度,對(duì)
中所有點(diǎn),均按上述操作轉(zhuǎn)換為 P 中預(yù)測(cè)點(diǎn),計(jì)算概率密度并求和。得到兩點(diǎn)云匹配的置信度 S(R) 。

求出 S(R) 的極小值,計(jì)算雅可比矩陣 Y 以及海森矩陣 H, ,不斷更新參數(shù)直至 ΔR 很小,則完成匹配輸出變換矩陣 R ,反之則繼續(xù)上述迭代直至收斂。
NDT算法速度快且能夠應(yīng)對(duì)點(diǎn)云之間存在較大變形和噪聲的情況,適用于大規(guī)模點(diǎn)云數(shù)據(jù)且NDT算法尤其適合使用GPU加速,可以高效運(yùn)行。如今工程中處理大規(guī)模點(diǎn)云數(shù)據(jù)時(shí)往往首先使用NDT算法進(jìn)行快速粗略匹配,得到大致對(duì)齊位置隨后利用ICP算法進(jìn)行調(diào)整。
③ 基于學(xué)習(xí)的方法
基于深度學(xué)習(xí)的點(diǎn)云配準(zhǔn)方法有基于深度學(xué)習(xí)的點(diǎn)云特征提取和基于深度學(xué)習(xí)的端到端配準(zhǔn)兩種前者主要利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)具有空間不變性、魯棒性強(qiáng)的點(diǎn)云幾何特征,然后使用簡(jiǎn)單優(yōu)化方法(隨即采樣一致性,RANSAC)進(jìn)行迭代即可得到最終的變換矩陣[9]。后者僅使用神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算點(diǎn)云的變換矩陣。
PointNet[10]是首個(gè)處理點(diǎn)云的深度學(xué)習(xí)網(wǎng)絡(luò),其通過(guò)一個(gè)共享的MLP(多層感知器)網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)特征,然后用全局最大化池層捕捉整個(gè)點(diǎn)云的全局特征。在此之后的PointNei ++[11] 引入了多尺度分組機(jī)制即對(duì)每個(gè)點(diǎn)的領(lǐng)域在不同半徑范圍內(nèi)進(jìn)行采樣并獨(dú)立提取特征來(lái)實(shí)現(xiàn),從而改善對(duì)復(fù)雜場(chǎng)景的處理能力。Zhao[12]在PointNe ++ 的基礎(chǔ)上提出密度相關(guān)最遠(yuǎn)點(diǎn)采樣(DR-FPS)算法,提高局部特征的提取能力,使得采樣結(jié)果能夠更好的表達(dá)物體的特征信息。
而基于深度學(xué)習(xí)的端到端點(diǎn)云配準(zhǔn)方法直接從原始數(shù)據(jù)中學(xué)習(xí)變換矩陣,省去了手動(dòng)特征設(shè)計(jì)的步驟,它整合了傳統(tǒng)配準(zhǔn)流程中的多個(gè)步驟到一個(gè)單一的學(xué)習(xí)框架中,提供了一種直接從輸入到輸出的解決方法,如:PointNetLK[13]、DCP[14]、3DRegNet[15]等。
1.2 后端優(yōu)化
在SLAM系統(tǒng)中的后端優(yōu)化是為了解決系統(tǒng)長(zhǎng)時(shí)間運(yùn)行中積累的誤差,提高地圖精度以及行動(dòng)軌跡的準(zhǔn)確性。SLAM后端一般采用兩種普遍做法:一是基于濾波器的后端優(yōu)化;二是基于圖優(yōu)化的后端優(yōu)化。
1.2.1 基于濾波器
基于濾波器的方法源于貝葉斯估計(jì)理論,是早期解決SLAM問(wèn)題的方法,它假設(shè)當(dāng)前時(shí)刻狀態(tài)僅與上一時(shí)刻的狀態(tài)有關(guān)。常用濾波器算法見(jiàn)表3。
基于濾波器的后端優(yōu)化算法在室內(nèi)或小范圍場(chǎng)景中具有不錯(cuò)的效果,然而卻在處理大規(guī)模數(shù)據(jù)以及非線性約束時(shí)存在一些限制。因此,近年來(lái)后端濾波器優(yōu)化算法逐漸被圖優(yōu)化的方法取代,對(duì)比于基于濾波器的優(yōu)化算法,圖優(yōu)化的方法更容易的融合多種傳感器數(shù)據(jù)和多種約束條件并且圖優(yōu)化方法可以更高效的處理大規(guī)模數(shù)據(jù)。
1.2.2 基于圖優(yōu)化
圖優(yōu)化SLAM算法由LU與Milios[21]首先提出,已成為SLAM研究領(lǐng)域內(nèi)應(yīng)用最為廣泛且極具影響力的框架之一。
圖優(yōu)化算法是將一個(gè)SLAM問(wèn)題表達(dá)為一個(gè)圖模型(因子圖或權(quán)重圖),其中將狀態(tài)變量作為圖中的節(jié)點(diǎn),將約束信息作為連接這些節(jié)點(diǎn)的邊。這種圖形模式允許算法以簡(jiǎn)明高效的方式表示復(fù)雜的關(guān)系和約束條件,算法核心在于對(duì)圖模型的優(yōu)化處理,通過(guò)求解誤差最小化的最優(yōu)狀態(tài)估計(jì)獲得機(jī)器人的最優(yōu)軌跡地圖。此時(shí)SLAM系統(tǒng)前后端之間的關(guān)系如圖2。


但同時(shí)圖優(yōu)化SLAM也存在諸如依賴初值、計(jì)算復(fù)雜度高等問(wèn)題,面對(duì)這些挑戰(zhàn),如今高效的優(yōu)化算法、數(shù)據(jù)降維技術(shù)是當(dāng)今該領(lǐng)域的研究熱點(diǎn)。如MIT的研究團(tuán)隊(duì)開(kāi)發(fā)的基于增量平滑與映射的iSAM[22]和iSAM2[23]算法。iSAM能夠有效處理長(zhǎng)時(shí)間運(yùn)行的SLAM系統(tǒng)產(chǎn)生的累積誤差,其核心優(yōu)勢(shì)在于其增量求解的特性能夠在新的觀測(cè)數(shù)據(jù)傳入時(shí)快速更新?tīng)顟B(tài)估計(jì),而無(wú)需重新計(jì)算整個(gè)過(guò)程。iSAM2在其基礎(chǔ)上引入了BayesTree數(shù)據(jù)結(jié)構(gòu)來(lái)高效地表述數(shù)據(jù)的增量解,提高了SLAM系統(tǒng)在處理大規(guī)模數(shù)據(jù)集時(shí)的效率和精度;在iSAM2的基礎(chǔ)上,Zhang[24]等提出了一個(gè)支持多機(jī)器人協(xié)同工作的系統(tǒng)MR-iSAM2,MR-iSAM2使用分布式圖優(yōu)化技術(shù),允許每個(gè)機(jī)器人獨(dú)立處理各自的局部地圖與位姿估計(jì)的同時(shí)共享一個(gè)因子圖框架,使得所有信息都可以被整合到一個(gè)全局模型中,這種方法既減輕了單機(jī)器人的計(jì)算負(fù)擔(dān)又確保了數(shù)據(jù)的一致性;Aiba[25]及其團(tuán)隊(duì)通過(guò)引入最小成本多切割方法來(lái)解決圖優(yōu)化SLAM中的地標(biāo)誤識(shí)別問(wèn)題
1.3 回環(huán)檢測(cè)
回環(huán)檢測(cè)模塊在SLAM系統(tǒng)中發(fā)揮著至關(guān)重要的作用,特別是在長(zhǎng)時(shí)間運(yùn)行下由于傳感器的信息偏差和計(jì)算的累積誤差,SLAM系統(tǒng)的前后端處理可能會(huì)遂步偏離真實(shí)狀態(tài)?;丨h(huán)檢測(cè)通過(guò)全局?jǐn)?shù)據(jù)分析來(lái)識(shí)別是否到達(dá)過(guò)歷史場(chǎng)景,從而修正漂移誤差并構(gòu)建全局一致的軌跡地圖。
在視覺(jué)SLAM中,詞袋模型(bag words)[26]是一種常用方法。該模型通過(guò)構(gòu)建一個(gè)由視覺(jué)單詞(即一組相似描述子的集合)組成的字典,并將每幀圖像表示為存在或缺少這些單詞的向量,當(dāng)兩幀圖像的單詞向量高度相似,便可判定發(fā)生了回環(huán)。相比之下,激光SLAM通過(guò)點(diǎn)云掃描匹配來(lái)實(shí)現(xiàn)回環(huán)檢測(cè),即通過(guò)比較兩幀點(diǎn)云數(shù)據(jù)的相似性來(lái)判斷是否處在同一位置。M2DP(multiview 2D projection)[27]于2016年提出,通過(guò)將不同視角的點(diǎn)云圖投影到二維平面并提取全局描述子,有效地實(shí)現(xiàn)了點(diǎn)云間的匹配和配準(zhǔn),尤其在多模態(tài)點(diǎn)云配準(zhǔn)領(lǐng)域表現(xiàn)突出。近些年來(lái)發(fā)現(xiàn)點(diǎn)云的掃描匹配方法和圖像的特征提取方法也可以作用于回環(huán)檢測(cè)模塊,2020年,Chen[28]發(fā)表的OverlapNet提出了一種基于激光雷達(dá)的SLAM回環(huán)檢測(cè)的深度學(xué)習(xí)模型,該模型利用激光雷達(dá)數(shù)據(jù)的重疊區(qū)域來(lái)評(píng)估兩個(gè)場(chǎng)景的相似度,顯著提高了在復(fù)雜的環(huán)境下回環(huán)檢測(cè)的功能。
1.4 地圖構(gòu)建
地圖構(gòu)建模塊負(fù)責(zé)根據(jù)從環(huán)境中收集到的數(shù)據(jù)生成地圖,在此過(guò)程中不僅要實(shí)時(shí)定位傳感器的位姿,同時(shí)需要在此基礎(chǔ)上構(gòu)建出對(duì)環(huán)境的精確表示。常見(jiàn)地圖類型有柵格地圖、特征地圖、點(diǎn)云地圖等。
2視覺(jué)和激光SLAM方案介紹
2.1 視覺(jué)SLAM
在視覺(jué)SLAM中2D-SLAM通常使用單目或雙目攝像頭,而立體相機(jī)、RGB-D相機(jī)等獲取深度信息則用于3D-SLAM。視覺(jué)SLAM實(shí)現(xiàn)的算法有很多,主要分為基于特征點(diǎn)的視覺(jué)SLAM和基于直接法的SLAM以及結(jié)合深度學(xué)習(xí)的視覺(jué)SLAM。
2.1.1 基于特征點(diǎn)的視覺(jué)SLAM
首篇視覺(jué)SLAM在2007年由Davison提出的MonoSLAM[29],這是第一個(gè)基于EKF方法的單目視覺(jué)SLAM,雖然存在著魯棒性差,計(jì)算負(fù)載大等問(wèn)題,但MonoSLAM在視覺(jué)SLAM的起步階段發(fā)揮著重要的推動(dòng)作用。同年Klein等提出了PTAM[30](parallel tracking mapping), 它改進(jìn)了MonoSLAM無(wú)法長(zhǎng)時(shí)間穩(wěn)定工作在大規(guī)模場(chǎng)景的問(wèn)題并首次在后端采用非線性優(yōu)化的方法,它將視覺(jué)SLAM問(wèn)題分為tracking、mapping兩個(gè)線程,核心思想為通過(guò)并行的線程同時(shí)實(shí)現(xiàn)相機(jī)的跟蹤和地圖構(gòu)建,從而提高大規(guī)模環(huán)境下視覺(jué)定位和建圖的能力。2015年Raul Mur-Artal及其團(tuán)隊(duì)提出的 ORB-SLAM[31]是視覺(jué)SLAM領(lǐng)域的一個(gè)重要代表,它在PTAM的雙線程基礎(chǔ)上又增加了回環(huán)檢測(cè)模塊,并利用ORB(orientedFASTrotatedBRIEF)描述子來(lái)檢測(cè)圖像中的特征點(diǎn),并依賴這些特征點(diǎn)進(jìn)行定位與建圖,由于ORB特征結(jié)合了FAST關(guān)鍵點(diǎn)檢測(cè)的高效性和BRIEF描述子的旋轉(zhuǎn)不變性的特點(diǎn),這兩者的結(jié)合為視覺(jué)SLAM系統(tǒng)提供了一種既魯棒又快速的特征點(diǎn)匹配方法。在這之后的ORB-SLAM2[32]是ORB-SLAM的改進(jìn)版本,其引人了新的特征點(diǎn)選取和描述子匹配策略,提高了特征點(diǎn)匹配的準(zhǔn)確性,此外還加人了詞袋模型的回環(huán)檢測(cè)算法,提高了ORB-SLAM系統(tǒng)在大規(guī)模場(chǎng)景下的魯棒性。于2021年Campos 提出的ORB-SLAM3[33]是一種支持多種相機(jī)的視覺(jué)SLAM算法,他對(duì)各階段都進(jìn)行了優(yōu)化,在運(yùn)行效率、構(gòu)圖精度上都有出色的表現(xiàn)。但是ORB-SLAM系列算法特別依賴環(huán)境特征,這也是眾多特征點(diǎn)法SLAM的通病,在低紋理場(chǎng)景下(長(zhǎng)廊等)很難檢測(cè)到足量的特征點(diǎn)用以提取,從而導(dǎo)致系統(tǒng)的魯棒性和準(zhǔn)確性降低。為此,Jiang[34]在視覺(jué)里程計(jì)部分采用線條特征作為補(bǔ)充特征,然后改進(jìn)線特征重投影誤差模型,構(gòu)造基于點(diǎn)-線仿射不變性的約束。
2.1.2基于直接法的視覺(jué)SLAM
DTAM[35]( dense tracking mapping in real-time)是2011年提出的基于直接法的視覺(jué)SLAM算法,DTAM通過(guò)光度一致性檢測(cè)相機(jī)位姿,同時(shí)使用優(yōu)化算法來(lái)提高位姿估計(jì)的準(zhǔn)確性,通過(guò)這些位姿信息和相鄰幀之間的圖像信息構(gòu)建三維稠密地圖。DTAM有著較為穩(wěn)定的建圖效果,但是對(duì)計(jì)算資源的消耗較大。LSD-SLAM[36是2014年由JakobEngel等人提出一種基于直接法的半稠密視覺(jué)SLAM算法,它通過(guò)連續(xù)圖像幀光度一致性來(lái)實(shí)現(xiàn),并且構(gòu)建的地圖為半稠密的,即保留了一部分地圖點(diǎn)以提高計(jì)算效率。同年,F(xiàn)orster等人提出了SVO[37l(semi-direct monocular visual odometry) 是一種稀疏直接法視覺(jué)里程計(jì),需要注意的是SVO中有特征點(diǎn)法相關(guān)元素。在SVO中,也會(huì)檢測(cè)圖像幀中的一些特征點(diǎn),不過(guò)這些特征點(diǎn)與SIFT、SURF提取的特征點(diǎn)有所區(qū)別,它是直接通過(guò)檢測(cè)圖像像素與紋理信息得到的。SVO尋找了稀疏地圖的特征點(diǎn),而且不用對(duì)描述子進(jìn)行計(jì)算,所以運(yùn)行速率很快,同時(shí),SVO相對(duì)于其他SLAM系統(tǒng)來(lái)說(shuō)比較輕量級(jí),適用于低成本的嵌入式系統(tǒng)。在這之后,Jakob Engel提出 的 DSO[38](Direct SpaceOdometry)是一個(gè)基于稀疏直接法的視覺(jué)里程計(jì),DSO使用幾何和光度相機(jī)校準(zhǔn)結(jié)果進(jìn)行高精度估計(jì)但嚴(yán)格上來(lái)講DSO并不是一個(gè)完整的SLAM,它同SVO一樣沒(méi)有閉環(huán)檢測(cè),因此不可避免的會(huì)出現(xiàn)累積誤差。
VINS-MONO[39]( visual-inertial navigation systemformonocularcamera)是一種基于單目相機(jī)和慣性測(cè)量單元(IMU)的視覺(jué)慣性導(dǎo)航系統(tǒng),相較于僅使用單目相機(jī)的視覺(jué)SLAM,VINS-MONO緊耦合了imu模塊,利用其提供慣性測(cè)量值以及視覺(jué)數(shù)據(jù)能夠更穩(wěn)健的建圖,其在動(dòng)態(tài)環(huán)境以及在光照變化較大的場(chǎng)景下表現(xiàn)較好。
2.1.3 基于深度學(xué)習(xí)的視覺(jué)SLAM
基于深度學(xué)習(xí)的視覺(jué)SLAM利用深度學(xué)習(xí)模型來(lái)增強(qiáng)視覺(jué)SLAM各個(gè)環(huán)節(jié),特別是在特征提取、匹配和環(huán)境理解方面[40-41],同時(shí)深度學(xué)習(xí)也常用于改善閉環(huán)檢測(cè)[42]使得SLAM系統(tǒng)更好的處理動(dòng)態(tài)環(huán)境,提高系統(tǒng)長(zhǎng)期運(yùn)行的穩(wěn)定性。自從2015年Kendal1等提出在視覺(jué)里程計(jì)中引人深度學(xué)習(xí)方法開(kāi)始,經(jīng)過(guò)近十年的發(fā)展,基于深度學(xué)習(xí)的視覺(jué)SLAM系統(tǒng)框架日趨成熟[43]。Tateno等人在LSD-SLAM的框架下開(kāi)發(fā)的CNN-SLAM[44]是一種結(jié)合了傳統(tǒng)單目視覺(jué)SLAM框架并引入CNN進(jìn)行深度預(yù)測(cè)模塊從圖像中預(yù)測(cè)深度信息,該模塊能夠?qū)崟r(shí)生成稠密深度圖并在之后被整合到SLAM的地圖構(gòu)建和位姿估計(jì)中提高定位與精度,與之相類似使用CNN獲取深度信息的還有CodeSLAM[45]D3VO[46]等。
傳統(tǒng)的視覺(jué)SLAM方法通?;诃h(huán)境相對(duì)靜態(tài)的假設(shè),這使得在面臨動(dòng)態(tài)復(fù)雜的場(chǎng)景時(shí),而將語(yǔ)義信息引入視覺(jué)SLAM系統(tǒng)后能夠利用深度學(xué)習(xí)和語(yǔ)義信息對(duì)環(huán)境中的元素進(jìn)行識(shí)別和理解,從而更好地適應(yīng)環(huán)境的變化。A.Eslamian等結(jié)合了Detectron2目標(biāo)檢測(cè)算法和ORB-SLAM3框架提出的Det-SLAM[47]系統(tǒng),它利用Detectron2識(shí)別出圖像中的動(dòng)態(tài)物體并分割出物體的精確輪廓,從而實(shí)現(xiàn)對(duì)動(dòng)態(tài)點(diǎn)的識(shí)別和分割;Bescos等研究者在ORB-SLAM2基礎(chǔ)上開(kāi)發(fā)的DynaSLAM[48]是一種針對(duì)處理動(dòng)態(tài)環(huán)境的視覺(jué)SLAM系統(tǒng),該系統(tǒng)通過(guò)使用預(yù)訓(xùn)練的深度學(xué)習(xí)模型MaskR-CNN來(lái)對(duì)動(dòng)態(tài)對(duì)象檢測(cè)、分割和分類;之后的DM-SLAM[49]在DynaSLAM基礎(chǔ)之上擴(kuò)充了多傳感器融合的能力用以增強(qiáng)SLAM過(guò)程的魯棒性和精度。但是無(wú)論是DM-SLAM還是DynaSLAM都是為每一幀單獨(dú)生成語(yǔ)義結(jié)果,這種分割方法存在冗余操作的問(wèn)題,Chen[50]作出改進(jìn)策略,他只對(duì)關(guān)鍵幀分割,由于關(guān)鍵幀與其相鄰幀具有一定的時(shí)空一致性,因此關(guān)鍵幀的分割結(jié)果可以轉(zhuǎn)移到相鄰幀中以減少計(jì)算量[50]。此外深度學(xué)習(xí)與視覺(jué)SLAM結(jié)合的算法還有DVSO[51]、DSP-SLAM[52]、DeepSLAM[53]等等。
2.2 激光SLAM
激光SLAM按照維度可分為2D-SLAM和3D-SLAM。激光雷達(dá)能夠提供高精度的距離數(shù)據(jù),這使得激光SLAM在復(fù)雜環(huán)境下的定位和建圖具有較高的準(zhǔn)確性和穩(wěn)定性。
2.2.1 2D-SLAM
2D-SLAM構(gòu)建的地圖主要形式為柵格地圖,它將環(huán)境分割成網(wǎng)格,每個(gè)網(wǎng)格表示一個(gè)特定區(qū)域的狀態(tài),易于表示和處理,柵格地圖適用于平面環(huán)境。2D-SLAM首個(gè)算法是在90年代由Durrent-Whyte教授和TimBailey教授提出的EKF-SLAM[54]這是一種基于擴(kuò)展卡爾曼濾波器的方法在SLAM問(wèn)題上的延伸,用于處理非線性優(yōu)化以及估計(jì)載體機(jī)器人的軌跡和環(huán)境地圖。隨后在2003年MichaelMontemerlo等人提出了一種基于粒子濾波器的方法Fast-SLAM[55],與傳統(tǒng)的EKF-SLAM相比,F(xiàn)ast-SLAM通過(guò)粒子集合來(lái)估計(jì)機(jī)器人的軌跡以及地圖的構(gòu)建,能夠有效的處理非線性優(yōu)化問(wèn)題和非高斯分布問(wèn)題,且在復(fù)雜環(huán)境下表現(xiàn)更好。
在Fast-SLAM中使用了RBPF方法將SLAM問(wèn)題分離為定位和建圖兩步,雖然這使得SLAM問(wèn)題的復(fù)雜度降低了,但是在實(shí)際操作中存在著兩個(gè)主要問(wèn)題,一是對(duì)粒子的數(shù)量以及位姿有較高要求,二是頻繁重采樣導(dǎo)致粒子的耗散問(wèn)題。隨后提出的GMapping[56]是一種基于Fast-SLAM針對(duì)于柵格地圖的算法,GMapping可以動(dòng)態(tài)的根據(jù)環(huán)境特征和載體機(jī)器人的運(yùn)動(dòng)情況調(diào)整粒子的數(shù)量,在需要更高精度的區(qū)域或者環(huán)境不明的情況下,會(huì)增加粒子的數(shù)量用以提高精度,而在相對(duì)穩(wěn)定的情況下會(huì)減少粒子數(shù)量降低計(jì)算成本;同時(shí)限制了重采樣的次數(shù),盡量保證了粒子的多樣性,避免了所有粒子聚集在幾個(gè)區(qū)域?qū)е铝W油嘶膯?wèn)題。GMapping是當(dāng)前應(yīng)用廣泛的2D-SLAM算法之一,在室內(nèi)地圖構(gòu)建有較高的精度尤其在長(zhǎng)廊以及其他低特征環(huán)境下的建圖效果較好。
karto[57]是一種基于圖優(yōu)化理論的2D-SLAM方法,它使用高度優(yōu)化且非迭代的Cholesky矩陣分解作為優(yōu)化問(wèn)題的求解器,并使用SqarePoseAdjustment進(jìn)行掃描匹配和回環(huán)檢測(cè)。Hector[58]是基于全局優(yōu)化的點(diǎn)云配準(zhǔn)方法,配準(zhǔn)時(shí)將當(dāng)前幀與已有的地圖數(shù)據(jù)構(gòu)建誤差函數(shù),再求得最優(yōu)解,提高了匹配效率同時(shí)又保證了實(shí)時(shí)性。Google在Hector的基礎(chǔ)上開(kāi)發(fā)的Cartographer[59改進(jìn)為三線性插值并使用了ceres庫(kù)求解非線性優(yōu)化問(wèn)題,它是基于圖優(yōu)化的激光SLAM算法,同時(shí)支持2D/3DSLAM,且支持多種傳感器融合,是目前廣泛應(yīng)用的激光SLAM算法之一。在Cartographer中引入了submap(子圖)的概念,利用submap來(lái)組織整個(gè)地圖,能夠有效的避免在建圖過(guò)程中移動(dòng)物體的干擾,同時(shí)采用了分支界限法進(jìn)行優(yōu)化搜索。
2.2.2 3D-SLAM
3D-SLAM中點(diǎn)云地圖是一種常見(jiàn)的地圖類型,它以點(diǎn)云數(shù)據(jù)的形式表示環(huán)境,該類型地圖主要由激光雷達(dá)采集到的點(diǎn)云構(gòu)建而成。由于激光雷達(dá)點(diǎn)云數(shù)據(jù)量龐大且不如圖像直觀,甚至從不同角度看兩幀相鄰點(diǎn)云在沒(méi)有明顯參照物的情況下很難辨別,同時(shí)由于點(diǎn)云數(shù)據(jù)量較大需要強(qiáng)大的計(jì)算單元與高效的算法,這使得3D-SLAM起步時(shí)并不順利,直到Zhang等在2014年提出的LOAM(lidarodometrymapping)算法,該算法是目前最具代表性的3D激光SLAM算法。LOAM為了提高效率,使用特征點(diǎn)法代替了傳統(tǒng)的icp、ndt。根據(jù)點(diǎn)的曲率來(lái)計(jì)算平面光滑度 Ψc 作為提取當(dāng)前幀的特征信息的指標(biāo),得到平滑度這一指標(biāo)后,可以將特征點(diǎn)分為兩類,即平面點(diǎn)與邊緣點(diǎn),這些特征點(diǎn)的選擇和匹配對(duì)后續(xù)的定位和建圖都至關(guān)重要,LOAM框架如圖3。

LOAM整體將定位與建圖分開(kāi)處理,這有助于提高算法的效率和準(zhǔn)確性。通過(guò)分割這兩個(gè)過(guò)程,LOAM能夠更好的專注于每個(gè)任務(wù),并能精準(zhǔn)地實(shí)現(xiàn)定位和建圖的功能,同時(shí)LOAM作為純激光SLAM也可以加入IMU模塊,這可以提供更準(zhǔn)確的運(yùn)動(dòng)估計(jì)和姿態(tài)信息。LOAM也存在著一些問(wèn)題,最主要的是LOAM在特征提取、匹配和建圖的過(guò)程中需要大量的計(jì)算資源且沒(méi)有回環(huán)檢測(cè)功能,在長(zhǎng)時(shí)間的運(yùn)行中可能會(huì)出現(xiàn)定位累計(jì)誤差。因此2018年T.Shan提出了針對(duì)LOAM存在問(wèn)題的LeGO-LOAM[61](lightweight groundoptimizedLIDAR odometry mapping on variable terrain) 框架。LeGO-LOAM系統(tǒng)框架如圖4。

LeGO-LOAM算法框架的核心在于:分割、特征提取、激光雷達(dá)里程計(jì)、雷達(dá)建圖四部分。對(duì)比于LOAM,LeGO-LOAM的主要提升在于輕量級(jí)和地面優(yōu)化并且增加了回環(huán)檢測(cè),輕量級(jí)表明它可以在低功率的嵌入式系統(tǒng)上實(shí)現(xiàn)實(shí)時(shí)的位姿估計(jì),地面優(yōu)化優(yōu)點(diǎn)在于它集成了深度學(xué)習(xí)的方法來(lái)改進(jìn)特征提取和匹配的過(guò)程,首先對(duì)地面進(jìn)行分割,將非地面點(diǎn)分割出來(lái),隨后基于分割出的點(diǎn)提取邊緣點(diǎn)和平面點(diǎn)而非原始點(diǎn)云,通過(guò)這種方法可以大幅提高點(diǎn)云配準(zhǔn)的速度準(zhǔn)確率。之后在2020年T.Shan又提出了LIO-SAM[6]算法,是一種基于因子圖構(gòu)建的激光-IMU緊耦合的框架,該框架可以看作LeGO-LOAM添加了IMU預(yù)積分因子和GPS因子的擴(kuò)展版本。激光雷達(dá)和慣性測(cè)量單元(inertialmeasurementunit,IMU)的融合可以克服激光SLAM過(guò)程中激光雷達(dá)垂直分辨率低、更新速率低以及由運(yùn)動(dòng)引起的失真等問(wèn)題。
基于深度學(xué)習(xí)的激光SLAM算法主要體現(xiàn)在點(diǎn)云的特征提取、配準(zhǔn)、回環(huán)檢測(cè)以及語(yǔ)義點(diǎn)云地圖上,其中特征提取、配準(zhǔn)以及回環(huán)檢測(cè)已在第一部分說(shuō)明。對(duì)于語(yǔ)義點(diǎn)云地圖,其目的在于賦予點(diǎn)云類別信息,幫助對(duì)環(huán)境的理解能力。如 SuMa+Δ[63] 是第一個(gè)較為完善的點(diǎn)云語(yǔ)義SLAM系統(tǒng),它利用RangeNet ++ 對(duì)點(diǎn)云進(jìn)行語(yǔ)義分割剔除動(dòng)態(tài)點(diǎn),而后生成帶有語(yǔ)義標(biāo)簽的語(yǔ)義點(diǎn)云地圖;SegMap[64]利用數(shù)據(jù)驅(qū)動(dòng)的描述符對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行分割和描述同時(shí)構(gòu)建一個(gè)基于特征的環(huán)境表示,通過(guò)對(duì)地圖的精準(zhǔn)分割提高了地圖的準(zhǔn)確性和導(dǎo)航的可靠性。表4匯總了上述視覺(jué)/激光SLAM方案。
2.3 傳感器融合SLAM
在過(guò)去的20年中,盡管使用單個(gè)傳感器進(jìn)行實(shí)時(shí)狀態(tài)估計(jì)和建圖已經(jīng)取得了巨大成功,但是單傳感器由于設(shè)備特性以及外界環(huán)境的多變性始終存在一定的局限性,因此近些年來(lái),基于激光雷達(dá)、視覺(jué)模塊的融合SLAM深受關(guān)注,同時(shí)耦合IMU模塊,提高他們各自的魯棒性與精度。根據(jù)融合的方式又可以分為緊耦合與松耦合,在松耦合系統(tǒng)中,傳感器的數(shù)據(jù)融合相對(duì)獨(dú)立,可以容易的添加或更換傳感器,每個(gè)模塊可以獨(dú)立運(yùn)行,不會(huì)過(guò)度依賴其他模塊;而在緊耦合系統(tǒng)中,傳感器數(shù)據(jù)的輸出直接互相影響,并且互相之間融合的更加密切和復(fù)雜,這個(gè)過(guò)程通常需要較高的計(jì)算復(fù)雜度,但也同時(shí)也提供了更高的精度和魯棒性。
在 2023 年,TIAN[65]等改進(jìn)GMapping算法的多傳感器融合系統(tǒng)并引入了深度學(xué)習(xí)的閉環(huán)檢測(cè)算法提高了系統(tǒng)的整體性能,同時(shí)由于GMapping算法存在的粒子退化問(wèn)題選擇性重采樣和KLD采樣交替進(jìn)行,并在室內(nèi)測(cè)試下改進(jìn)后的GMapping效果優(yōu)于經(jīng)典的Hector 算法與Cartographer 算法[65]。2021年T.Shan提出的LVI-SAM[6]框架,這是一種基于平滑化和映射實(shí)現(xiàn)的激光雷達(dá)-視覺(jué)-慣性導(dǎo)航緊耦合的里程計(jì)框架,能夠?qū)崿F(xiàn)高精度和魯棒性的實(shí)時(shí)狀態(tài)估計(jì)和地圖構(gòu)建。LVI-SAM可以看作是他在LIO-SAM工作的基礎(chǔ)上耦合了視覺(jué)慣性里程計(jì),該算法建立于包含兩個(gè)子系統(tǒng)的因子圖上,即:視覺(jué)-IMU子系統(tǒng)(VIS)和激光-IMU子系統(tǒng)(LIS),視覺(jué)慣性里程計(jì)采用VINS-MONO,文獻(xiàn)[67]、[68]介紹了VINS-MONO在面臨特殊環(huán)境時(shí)的改進(jìn)。其中VIS利用LIS進(jìn)行初始化,利用激光雷達(dá)測(cè)量數(shù)據(jù)提取視覺(jué)特征的深度信息,反之,LIS利用VIS的估計(jì)結(jié)果作為描述匹配的初始值,回環(huán)檢測(cè)首先由VIS識(shí)別,再由LIS確認(rèn)。值得一提的是兩個(gè)子系統(tǒng)中任意一個(gè)失效,LVI-SAM任可以繼續(xù)工作,原因在于LVI-SAM可以通過(guò)故障檢測(cè)繞過(guò)失效的子系統(tǒng),具有較強(qiáng)的魯棒性LVI-SAM更多的是在Lidar退化時(shí),使用視覺(jué)里程計(jì)代替退化方向位姿同時(shí)LVI-SAM中丟棄了使用IMU預(yù)積分模塊預(yù)測(cè)值作為當(dāng)前前段里程計(jì)的初始值,預(yù)測(cè)值全部來(lái)自視覺(jué)里程計(jì)。

由圖5LVI-SAM框架可看出該系統(tǒng)接受3D激光雷達(dá)、攝像頭和IMU的輸入,可以分為兩個(gè)部分,也稱VIS和LIS,他們可以獨(dú)立工作,同時(shí)互相影響,利用彼此的信息來(lái)提高系統(tǒng)的精確性和魯棒性。

3視覺(jué)和激光SLAM典型應(yīng)用
當(dāng)前SLAM技術(shù)在各個(gè)領(lǐng)域的應(yīng)用都不斷拓展深化,在某些應(yīng)用中SLAM技術(shù)甚至是不可或缺的,例如:自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)(AR)、無(wú)人化裝備等。
3.1 自動(dòng)駕駛
自動(dòng)駕駛是當(dāng)前SLAM領(lǐng)域的研究熱門話題其作用于汽車中幫助車輛實(shí)時(shí)的感知周圍環(huán)境并確定自身的位置,從而進(jìn)行精確導(dǎo)航與避障,是當(dāng)前國(guó)內(nèi)外車企的研究的重點(diǎn)。國(guó)外無(wú)人駕駛技術(shù)的研發(fā)可以追溯到上世紀(jì)七十年代的研究所中,在谷歌于2009年宣布研發(fā)無(wú)人駕駛技術(shù)后眾多新興技術(shù)與企業(yè)紛紛加人無(wú)人駕駛領(lǐng)域,尤其是在2012年前后深度學(xué)習(xí)在圖像識(shí)別、場(chǎng)景理解等領(lǐng)域取得重大突破后,自動(dòng)駕駛與深度學(xué)習(xí)的融合標(biāo)志著該領(lǐng)域的重大飛躍。2020年12月谷歌旗下的自動(dòng)駕駛公司W(wǎng)aymo在經(jīng)過(guò)三年試點(diǎn)運(yùn)行后正式全面開(kāi)放了無(wú)人駕駛出租車服務(wù);對(duì)比于Waymo旗下自動(dòng)駕駛汽車搭載激光雷達(dá)的策略不同,Tesla堅(jiān)信視覺(jué)的力量,其依賴擁有的大量場(chǎng)景數(shù)據(jù)和大規(guī)模算力(Dojo)基礎(chǔ)設(shè)施開(kāi)發(fā)的輔助駕駛系統(tǒng)(Autopilot)和全自動(dòng)駕駛系統(tǒng)(FSD)主要使用的攝像頭而并非傳統(tǒng)的激光雷達(dá),這種方法依靠強(qiáng)大的神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)實(shí)時(shí)圖像進(jìn)行解釋處理。
與歐美發(fā)達(dá)國(guó)家相比,我國(guó)在自動(dòng)駕駛汽車方面的研究起步稍晚。當(dāng)前國(guó)內(nèi)自動(dòng)駕駛用車主要應(yīng)用于半封閉式場(chǎng)景,且線路相對(duì)固定。如2021年,上海市首輛自動(dòng)駕駛公交上線,其依賴SLAM、車聯(lián)網(wǎng)、GPS/北斗定位等技術(shù)以及四周與車頂?shù)募す饫走_(dá)、毫米波雷達(dá)等傳感器實(shí)現(xiàn)公交的智能駕駛以及智能調(diào)控;2022年,小馬智行和百度Apollo旗下的\"蘿卜快跑\"自動(dòng)駕駛出租車在北京經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)試點(diǎn)商業(yè)化運(yùn)行;2023年,滴滴旗下的KargoBot團(tuán)隊(duì)開(kāi)發(fā)的智能列隊(duì)的卡車車隊(duì)自動(dòng)駕駛,其中整個(gè)車隊(duì)進(jìn)行端到端的運(yùn)輸工作且只需要一名駕駛員控制頭車后續(xù)就可以跟隨1\~5輛L4級(jí)的自動(dòng)駕駛汽車。
3.2 無(wú)人化裝備
無(wú)人化裝備(如:無(wú)人機(jī)、無(wú)人船等)通常根據(jù)攜帶傳感器模塊的不同執(zhí)行巡航、警戒、搜救等各種任務(wù)。
無(wú)人機(jī)通常在開(kāi)闊的空中運(yùn)動(dòng),需要面對(duì)復(fù)雜的空中動(dòng)態(tài)環(huán)境。當(dāng)前無(wú)人機(jī)在民用領(lǐng)域廣泛應(yīng)用于航拍、農(nóng)業(yè)灌溉、地形地貌測(cè)繪、文旅表演等,國(guó)內(nèi)無(wú)人機(jī)產(chǎn)品具有代表性有大疆、億航等,如大疆DJIPhantom系列無(wú)人機(jī)便是配備的視覺(jué)SLAM系統(tǒng)主要用于航拍的產(chǎn)品。
隨著“海洋強(qiáng)國(guó)\"戰(zhàn)略的提出,無(wú)人船也逐步進(jìn)入人們的視野中且取得飛速發(fā)展。當(dāng)前國(guó)內(nèi)外有大量機(jī)構(gòu)進(jìn)行無(wú)人船技術(shù)的研發(fā)工作,如:美國(guó)諾格公司、法國(guó)ECA公司、中國(guó)云洲智能、美國(guó)海軍研究局、中國(guó)船舶重工旗下研究所、哈爾濱工業(yè)大學(xué)等。無(wú)人船按用途可以分為軍用和民用兩類,軍事上主要用于掃雷、反潛、情報(bào)偵察等,民用上則主要用于水文表演、測(cè)繪等。其中民用領(lǐng)域典型技術(shù)與成果如:哈工大研發(fā)的用于地貌測(cè)繪、信息采集的“天行一號(hào)\"無(wú)人船;云洲智能2022年發(fā)布的水上救生系統(tǒng),該系統(tǒng)實(shí)時(shí)檢測(cè)水面情況,準(zhǔn)確識(shí)別到落水人員后自動(dòng)釋放其研發(fā)的“海豚一號(hào)\"水面救生艇并自主規(guī)劃路線以 3m/s 的航速快速前進(jìn)到到溺水人員身旁,將其帶回安全地點(diǎn);云洲 L30° 瞭望者\(yùn)"警戒巡航無(wú)人艇,其搭載了激光雷達(dá)、攝像頭、光電設(shè)備等多種傳感器和探照燈、救生圈等功能載荷,能夠在執(zhí)勤海域不間斷的巡航排查水域安全隱患,提高水上安保效率。當(dāng)前我國(guó)有世界上最大的海上智能船測(cè)試場(chǎng):珠海的萬(wàn)山無(wú)人船測(cè)試場(chǎng),這些硬件條件為無(wú)人船產(chǎn)業(yè)發(fā)展提供了安全、全場(chǎng)景的測(cè)試平臺(tái)。
3.3 AR
AR(augmentedreality)增強(qiáng)現(xiàn)實(shí)技術(shù)通過(guò)視覺(jué)傳感器設(shè)備將虛擬信息應(yīng)用到真實(shí)世界,將真實(shí)環(huán)境與虛擬信息實(shí)時(shí)的疊加到一個(gè)空間中實(shí)現(xiàn)。這一功能的實(shí)現(xiàn)離不開(kāi)SLAM技術(shù)的實(shí)時(shí)定位。2016年Google的ATAP團(tuán)隊(duì)研發(fā)的基于視覺(jué)SLAM技術(shù)的移動(dòng)設(shè)備定位和增強(qiáng)現(xiàn)實(shí)項(xiàng)目Tango,這是一種匯聚了運(yùn)動(dòng)追蹤、區(qū)域?qū)W習(xí)、深度感知三大技術(shù)并將其融合到了移動(dòng)端的SLAM技術(shù)。Tango平臺(tái)首部手機(jī)是聯(lián)想phab2pro,其配備了專用的深度感知攝像頭和運(yùn)動(dòng)傳感器,利用這些硬件可以體驗(yàn)到增強(qiáng)現(xiàn)實(shí)的新領(lǐng)域,例如:虛擬家居布置、增強(qiáng)現(xiàn)實(shí)游戲等。表5匯總了近年來(lái)SLAM的研究與應(yīng)用進(jìn)展。
4視覺(jué)和激光SLAM發(fā)展趨勢(shì)
4.1 多傳感器融合SLAM
隨著技術(shù)的進(jìn)步,多傳感器融合已成為提高識(shí)別、導(dǎo)航和建圖的關(guān)鍵技術(shù)。不同類型的傳感器,如激光雷達(dá)、相機(jī)、紅外熱像儀、偏振光傳感器等等都有其獨(dú)特的感知優(yōu)勢(shì)和局限。通過(guò)將這些傳感器數(shù)據(jù)融合,可以互補(bǔ)各自的缺點(diǎn),從而應(yīng)對(duì)復(fù)雜多變的外部環(huán)境。例如,激光雷達(dá)能夠提供精確的距離信息和高分辨的空間信息;熱像儀能夠在視野受限時(shí)捕捉環(huán)境中的熱能分布;偏振光傳感器則能提供關(guān)于光線散射與反射的獨(dú)特信息等等。常見(jiàn)傳感器融合方案如圖6。
激光雷達(dá)與可見(jiàn)光相機(jī)、紅外熱像儀、RGB-D相機(jī)、偏振光傳感器乃至震動(dòng)傳感器融合可以產(chǎn)生不一樣的結(jié)果。例如BEV融合感知算法[78],結(jié)合鳥(niǎo)瞰圖與激光雷達(dá)的點(diǎn)云特征進(jìn)行3D重建;Yang[79]等使用熱成像技術(shù)和地面激光雷達(dá)系統(tǒng)來(lái)記錄和重建三維空間中的大褐蜂飛行軌跡,這項(xiàng)研究初步證明了熱圖像分析和激光雷達(dá)森林重建技術(shù)的耦合能力。大部分同步定位和SLAM算法在靜態(tài)環(huán)境中表現(xiàn)良好,但在動(dòng)態(tài)環(huán)境中容易失敗,對(duì)于資源受限的機(jī)器人來(lái)說(shuō),在動(dòng)態(tài)環(huán)境中應(yīng)用穩(wěn)健的定位非常重要,針對(duì)此問(wèn)題,JianhengLiu[80]提出了一個(gè)名為Dynamic-VINS的實(shí)時(shí)RGB-D慣性測(cè)距系統(tǒng),在動(dòng)態(tài)環(huán)境中展現(xiàn)出了較強(qiáng)的定位精度和魯棒性。石書(shū)堯[81]等針對(duì)多傳感器組合導(dǎo)航技術(shù)研究的難點(diǎn)構(gòu)建了GNSS拒止下特征稀疏的場(chǎng)景,借助偏振傳感器從大氣偏振模式中獲取絕對(duì)的航向角信息,引入光流傳感器彌補(bǔ)偏振傳感器無(wú)法獲取速度信息的不足。TakakiKiyozumi82]正在研究將激光雷達(dá)與振動(dòng)結(jié)合起來(lái),通過(guò)開(kāi)發(fā)一種新的激光雷達(dá)配置使其能夠?qū)Ω咚僬駝?dòng)物體進(jìn)行測(cè)量與識(shí)別。


隨著如今多傳感器融合逐漸被重視,隨之而來(lái)也出現(xiàn)了一系列問(wèn)題。如:多傳感器融合后不同的數(shù)據(jù)之間時(shí)間同步以及外參標(biāo)定;在引入大量傳感器后隨著數(shù)據(jù)量增大,數(shù)據(jù)處理耗時(shí)會(huì)隨之增加,這對(duì)SLAM系統(tǒng)的實(shí)時(shí)性是一個(gè)考驗(yàn)。
4.2 結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)SLAM
近年來(lái)隨著深度學(xué)習(xí)的飛速發(fā)展,出現(xiàn)了許多優(yōu)秀的深度學(xué)習(xí)網(wǎng)絡(luò)如YOLO、SegNet、MaskR-CNN、PSPNet、ICNet等[83]。深度學(xué)習(xí)網(wǎng)絡(luò)在感知、特征提取和語(yǔ)義理解方面的強(qiáng)大能力與SLAM系統(tǒng)在實(shí)時(shí)定位和地圖構(gòu)建任務(wù)中的優(yōu)越性相結(jié)合,用以實(shí)現(xiàn)更智能、更魯棒的自主定位建圖系統(tǒng)且已經(jīng)應(yīng)用于自動(dòng)駕駛、無(wú)人艇巡航等任務(wù)。如:深度學(xué)習(xí)與視覺(jué)SLAM的優(yōu)勢(shì)而結(jié)合的語(yǔ)義SLAM,語(yǔ)義SLAM旨在通過(guò)識(shí)別周圍環(huán)境中的語(yǔ)義信息來(lái)增強(qiáng)傳統(tǒng)的SLAM算法,這不僅創(chuàng)建了環(huán)境的幾何地圖還將環(huán)境中的物體與語(yǔ)義標(biāo)簽相關(guān)聯(lián),這種方式能夠使機(jī)器人更深層次的感知周圍環(huán)境信息。同時(shí),傳統(tǒng)的視覺(jué)SLAM方法通常基于環(huán)境相對(duì)靜態(tài)的假設(shè),這使得在面臨動(dòng)態(tài)復(fù)雜的場(chǎng)景時(shí),視覺(jué)SLAM的實(shí)時(shí)性與魯棒性始終得不到保障,而將語(yǔ)義信息與視覺(jué)SLAM結(jié)合卻能很好的處理上述問(wèn)題。
神經(jīng)輻射場(chǎng)方法NeRF(neuralradiancefields)結(jié)合SLAM是近年來(lái)新興的方向,2021年提出的適用于RGB-D相機(jī)的iMAP[84]系統(tǒng),該系統(tǒng)是真正意義上的NeRF-basedSLAM系統(tǒng)。其框架結(jié)構(gòu)與傳統(tǒng)的SLAM框架相類似并且其結(jié)構(gòu)參考了PTAM的Tracking和Mapping雙線程設(shè)計(jì),在iMAP中一個(gè)線程負(fù)責(zé)實(shí)時(shí)的跟蹤相機(jī)的運(yùn)動(dòng),另一個(gè)線程則專注于建立環(huán)境的三維地圖,這種分離模式確保了系統(tǒng)實(shí)時(shí)性與精確性之間的平衡,另外iMAP的核心創(chuàng)新之處在于它整合了NeRF技術(shù),通過(guò)深度學(xué)習(xí)模型從RGB-D數(shù)據(jù)中重建連續(xù)的體積場(chǎng)景表示,不僅增強(qiáng)了地圖的精細(xì)度,而且改善了視覺(jué)效果。Ruan[85]提出的DN-SLAM3將ORB-SLAM3和基于instant-ngp框架的NeRF相結(jié)合致力于減輕動(dòng)態(tài)目標(biāo)的影響并提高建圖精度。
自深度學(xué)習(xí)展現(xiàn)出強(qiáng)大優(yōu)勢(shì)后,眾多研究人員嘗試將端到端的深度學(xué)習(xí)思想應(yīng)用到整個(gè)SLAM系統(tǒng)中,但效果并不理想。主要影響因素有:SLAM系統(tǒng)對(duì)實(shí)時(shí)性有較高的要求,而對(duì)于大部分深度學(xué)習(xí)模型的訓(xùn)練都是較為耗時(shí)的;深度學(xué)習(xí)模型的訓(xùn)練需要大量的數(shù)據(jù)來(lái)支持,但SLAM系統(tǒng)往往需要在室內(nèi)外各種復(fù)雜多變的場(chǎng)景下運(yùn)行,這對(duì)模型的泛化能力也是一種考驗(yàn)。所以當(dāng)今大多深度學(xué)習(xí)的方法應(yīng)用到SLAM系統(tǒng)中的某一個(gè)環(huán)節(jié),如前端的特征提取、回環(huán)檢測(cè)、局部地圖構(gòu)建等等。
5 結(jié)束語(yǔ)
本文綜述了當(dāng)前視覺(jué)SLAM和激光SLAM的核心技術(shù)、主要步驟、優(yōu)勢(shì)與挑戰(zhàn),并對(duì)兩者進(jìn)行了綜合比較與發(fā)展前景分析。在機(jī)器人、自動(dòng)駕駛等領(lǐng)域,SLAM技術(shù)作為實(shí)現(xiàn)自主導(dǎo)航與環(huán)境感知的關(guān)鍵技術(shù),具有重要的研究與應(yīng)用價(jià)值。
視覺(jué)SLAM依賴于相機(jī)獲取圖像信息,具有成本低、信息豐富等特點(diǎn),但是易于受到光照與環(huán)境因素影響。對(duì)比而言,激光SLAM則依賴于激光雷達(dá)的點(diǎn)云數(shù)據(jù),具有高精度與高魯棒的優(yōu)點(diǎn),但成本較高且數(shù)據(jù)處理復(fù)雜。當(dāng)前通常采用傳感器融合的方式來(lái)結(jié)合傳感器的優(yōu)點(diǎn),在未來(lái)的研究中,需要進(jìn)一步提高SLAM系統(tǒng)的實(shí)時(shí)性與精度,通過(guò)硬件加速和算法優(yōu)化來(lái)解決計(jì)算復(fù)雜度的問(wèn)題。此外,結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),可以增強(qiáng)SLAM系統(tǒng)在動(dòng)態(tài)和復(fù)雜環(huán)境下的自主性和智能化水平。最終,隨著SLAM技術(shù)的不斷進(jìn)步,將為自主系統(tǒng)在各個(gè)領(lǐng)域的廣泛應(yīng)用提供堅(jiān)實(shí)的技術(shù)支撐。
參考文獻(xiàn)
[1]顏普,曹昊宇,雷為好.基于改進(jìn)圖優(yōu)化的激光SLAM算法 [J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,47(4):35-41. YANP,CAOHY,LEIWH.LaserSLAMalgorithmbased onimproved graph optimization[J].Journal Anhui University (Natural Science Edition),2023,47(4):35-41.
[2]SMITH R C,CHEESEMAN P.On the representation estimation spatial uncertainty[J]. The international journal robotics research, 1986, 5(4): 56-68.
[3]劉銘哲,徐光輝,唐堂,等.激光雷達(dá)SLAM算法綜述 [J/OL].計(jì)算機(jī)工程與應(yīng)用:1-17[2023-11-27]. LIUMZ,XUGH,TANGT,et.al.ReviewLiDARSLAM Algorithms[J/OL]. Computer Applications: 1- 17[2023-11-27].
[4]CHEN W,SHANGG,JIA,et al.An Overview on SLAM: From Tradition to Semantic[J]. Remote Sensing, 2022,14(13):3010.
[5]WANG S,CLARKR,WENH, et al. DeepVO:Towardsendto-end visual odometry with deep recurrent convolutional neural networks[C]//2017 IEEE International Conference on ics Automation(ICRA), Singapore,2017: 2043-2050.
[6]HANL,LINY,DUG, et al. DeepVIO:self-supervised deep learning monocular visual inertial odometry using 3D Geometric Constraints[C]//2019 IEEE/RSJ International Conference on Intelligent s Systems (IROS),2019: 6906-6913.
[7]ZHANG D, PENG T,LIU R, et al. Lightweight deep learning algorithm for visual odometry[C]//NAECON 2023-IEEE USA,2023: 210-213.
[8]王慶閃,張軍,劉元盛,等.基于NDT與ICP 結(jié)合的點(diǎn)云配 準(zhǔn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(7):88-95. WANG Q S,ZHANG J,LIU Y S,et al.Point cloud registration algorithm based on combination NDT ICP[J]. Computer Applications,2020, 56(7): 88-95.
[9]齊含,劉元盛,宋慶鵬,等.基于深度學(xué)習(xí)的點(diǎn)云配準(zhǔn)方法綜 述[C]//中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì).中國(guó)計(jì)算機(jī)用 戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2022年第二十六屆網(wǎng)絡(luò)新技術(shù)與應(yīng) 用年會(huì)論文集,2022:5. QI H,LIU Y S, SONG Q P,et al. A review point cloud registration methods based on deep learning [C]//China Computer Users Association Network Application Branch. Proceedings the 26th Annual Conference on New Network Technologies Applications, 2022: 5.
[10] QI CR, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification segmentation [C]//Proceedings the IEEE Conference on Computer Vision Pattern Recognition(CVPR),Honolulu,HI,USA,2017: 652-660.
[11] QI C R, LI Y, HAO S, et al. PointNet++: deep hierarchical feature learning onpoint setsina metricspace [C]//Proceedings the 31st International Conference on Neural Information Processing Systems(NeurIPS),Long Beach,CA,USA,2017: 5099-5108.
[12] ZHAO Y, CHEN H, ZEN L, et al. Effective stware security enhancement using an improved PointNet++[J]. Journal Systems Stware, 2023, 204: 111794.
[13] AOKI Y,GOFORTH H, SRIVATSAN R A,et al. PointNetLK: robust amp; efficient point cloud registration using pointNet[C]//2019 IEEE/CVF Conference on Computer Vision Pattern Recognition (CVPR), Long Beach, CA, USA,2019: 7156-7165.
[14] WANG Y, SOLOMON J. Deep closest point: learning representationsforpointcloudregistration[C]/2019 IEEE/CVF International Conference on Computer Vision (ICCV),2019:3 522-3531.
[15] PAIS G D, RAMALINGAM S, GOVINDU V M, et al. 3DRegNet:A deep neural network for3Dpoint registration[C]//2020 IEEE/CVF Conference on Computer Vision Pattern Recognition (CVPR), Seattle, WA, USA, 2020: 7191-7201.
[16] KALMAN R E.A new approach to linear filtering prediction problems[J]. Journal Basic ,1960, 82(1): 35-45.
[17] SMITH R, SELF M, CHEESMAN P. Estimating uncertain spatial relationships in robotics [C]//Proceedings the Autonomous Vehicles.Springer,New York,NY,1990: 167-193.
[18]MOURIKIS A I,ROUMELIOTIS S I. A Multi-state constraint Kalmanfilterforvision-aidedinertial navigation [C]//Proceedings the 2007 IEEE International Conference on ics Automation, 2007: 3565-3572.
[19] THRUN S,LIU Y.Multi- SLAM with sparse extended information filters [C]//Proceedings the 11th International Symposium ics ,2003.
[20] JULIER S J, UHLMANN J K. A New Extension the Kalman filter to nonlinear systems [C]//Proceedings the AeroSense:The1thInternationalSymposiumon Aerospace/Defense Sensing, Simulation, s. SPIE, 1997: 182-193.
[21] LU F, MILIOS E. Globally consistent range scan alignment for environment mapping [J].Autonomous s,1997, 4: 333-349.
[22] KAESS M, RANGANATHAN A, DELLAERT F. iSAM: Incremental smoothing mapping[J]. IEEE Transactions on ics, 2008, 24(6): 1365-1378.
[23] KAESS M, JOHANNSSON H, ROBERTS R, et al. iSAM2: incremental smoothing mapping with fluid relinearization incremental variable reordering [C]//Proceedings the 2011IEEE International Conference on ics Automation,2011: 3281-3288.
[24] ZHANG Y, HSIAO M, DONG J, et al. MR-iSAM2: incremental smoothing mapping with multi-root Bayes tree for multi-robot SLAM[C]/2021 IEEE/RSJ International Conference on Intelligent s Systems (IROS), Prague, Czech Republic,2021: 8671-8678.
[25] AIBA K, TANAKA K, YAMAMOTO R. Detecting lmark misrecognition in Pose-Graph SLAM via minimum cost multicuts[C]//2022 IEEE 9th International Conference on Computational Intelligence Virtual Environments for MeasurementSystemsApplications(CIVEMSA), Chemnitz, Germany,2022: 1-5.
[26] SHEKHAR R, JAWAHAR C V. Word image retrieval using bag visual words[C]/012 10th IAPR International Workshop on Document Analysis Systems, Gold Coast, QLD, Australia, 2012: 297-301.
[27] HE L, WANG X, ZHANG H. M2DP: A novel 3D point cloud descriptoritsapplicationinloopclosure detection[C]//2016 IEEE/RSJ Intermational Conference on Intelligent s Systems (IROS),Daejeon,Korea (South),2016: 231-237.
[28] CHEN X, LABE T, MILIOTO A,et al. OverlapNet: lop closingforLiDAR-basedSLAM[C]//Proceedings ics: Science Systems (RsS), 2020.
[29] DAVISON A J,REID I D,MOLTON N D,et al. MonoSLAM: Real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis Machine Intelligence, 2007,29(6): 1052-1067.
[30] KLEIN G, MURRAY D. Parallel tracking mapping for small AR workspaces[C]/2007 6th IEEE ACM International Symposium on Mixed Augmented Reality, Nara, Japan,2007: 225-234.
[31] MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORBSLAM:A versatile accurate monocular SLAM system[C]//IEEE Transactions on ics,2015,31(5): 1147- 1163.
[32] MUR-ARTAL R, TARDOS J D. ORB-SLAM2: An opensource SLAM system for Monocular, Stereo, RGB-D cameras[J]. IEEE Transactions on ics,2017,33(5): 1255-1262.
[33] CAMPOS C, ELVIRA R,RODRIGUEZ J J G, et al. ORBSLAM3:An accurate open-source library for , -Inertial, multimap SLAM[J]. IEEE Transactions on ics,2021,37(6): 1874-1890.
[34] JIANG X,YU F,SONG S, et al. On visual SLAMalgorithm basedonpoint-linefeaturesinweaktexture environment[C]//023 8th International Conferenceon Intelligent Computing Signal Processing (ICSP),Xi'an, China,2023:286-291.
[35] NEWCOMBE R A, LOVEGROVE S J,DAVISION A J. DTAM:Dense tracking mapping in real-time[C]/2011 International Conference on Computer Vision, Barcelona, Spain, 2011: 2320-2327.
[36]ENGEL J,SCHOPS T, CREMERS D. LSD-SLAM:LargeScale direct monocular SLAM [C]//Proceedings the Computer Vision-ECCV 2014, Zurich,Switzerl,2014: 834-849.
[37] FORSTER C, PIZZOLI M, SCARAMUZZA D. SVO: Fast semi-direct monocular visual odometry[C]//2014 IEEE International Conference on ics Automation (ICRA), Hong Kong, China,2014: 15-22.
[38] ENGEL J,KOLTUN V, CREMERS D. Direct sparse odometry[J]. IEEE Transactions on Pattern Analysis Machine Intelligence,2018,40(3): 611-625.
[39] QIN T,LI P, SHEN S. VINS-Mono: A Robust versatile monocularvisual-inertialstateestimator[J]. IEEE Transactions on ics, 2018, 34(4): 1004-1020.
[40] LIU H, HUANG D D, GENG Z Y. odometry algorithm based on deep learning[C]//2021 6th International Conference on Image,Vision Computing (ICIVC),Qingdao, China, 2021: 322-327.
[41]王文森,黃鳳榮,王旭,等.基于深度學(xué)習(xí)的視覺(jué)慣性里程計(jì) 技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與探索,2023,17(3):549-560. WANG W S, HUANG F R, WANG X, et al. A survey on visual-inertialodometrytechnologybasedondeep learning[J]. Journal Computer Science Exploration, 2023,17(3): 549-560.
[42] HU H, ZHANG Y, DUAN Q, et al. Loop closure detection for visual SLAM based on deep learming[C]//2017 IEEE 7th Annual International Conference on CYBER in Automation, , Intelligent Systems (CYBER),
[43]黃澤霞,邵春莉.深度學(xué)習(xí)下的視覺(jué)SLAM綜述[J].機(jī)器 人,2023,45(6): 756-768. HUANG Z X, SHAO CL.A review visual SLAM under deep learning[J]., 2023, 45(6): 756-768.
[44] TATENOK,TOMBARIF,LAINA I, et al. CNN-SLAM: realtime dense monocularSLAMwith learned depth prediction[C]//2017 IEEE Conference on Computer Vision Pattern Recognition (CVPR), Honolulu, HI, USA,2017: 6565-6574.
[45] BLOESCH M,CZARNOWSKI J,CLARK R,et al. CodeSLAM - learning a compact, optimisable representa-tion for dense visual SLAM[C]//Proceedings the 2018 IEEE/CVF Conference on Computer Vision Pattern Recognition,Salt Lake City,UT,USA,2018: 2560-2568.
[46] YANG N, STUMBERG L V, WANG R, et al. D3VO: deep depth, deep pose deep uncertainty for monocular visual odometry[C]//Proceedings the 2020 IEEE/CVF Conference on Computer Vision Pattern Recognition (CVPR), Seattle, WA,USA,2020:1278-1289.
[47] ESLAMIAN A, AHMADZADEH M R. Det-SLAM: A semantic visual SLAM for highly dynamic scenes using Detectron2[C]//2022 8th Iranian Conference on Signal Processing Intelligent Systems (ICSPIS),Behshahr,2022: 1-5.
[48]BESCOS B,F(xiàn)ACIL JM,CIVERA J,et al.DynaSLAM: tracking, mapping, inpainting in dynamic scenes[J]. IEEE ics Automation Letters,2018, 3(4): 4076-4083.
[49]李?yuàn)W,王紀(jì)凱,陳宗海.DM-SLAM: A SLAM Towards DynamicEnvironment[C]//中國(guó)自動(dòng)化學(xué)會(huì)系統(tǒng)仿真專業(yè) 委員會(huì),中國(guó)仿真學(xué)會(huì)仿真技術(shù)應(yīng)用專業(yè)委員會(huì).第21屆 中國(guó)系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)年會(huì)論文集(CCSSTA21st 2020).中國(guó)科學(xué)技術(shù)大學(xué)出版社,2020:5. LI A,WANG J K, CHEN Z H. DM-SLAM: A visual SLAM towardsdynamicenvironment[C]//System Simulation Pressional Committee China Association Automation, Simulation Application Pressional Committee China Simulation Federation. Proceedings the 21st Chinese Academic Conference on System Simulation ItsApplication (CCSSTA21st 2020). University Science China Press, 2020: 5.
[50] CHENL,LING Z,GAO Y, et al. A Real-time semantic visual SLAM for dynamic environment based on deep learning dynamic probabilistic propagation [J].Complexamp; Intelligent Systems,2023,9(4): 5653-5677.
[51] YANG N, WANG R, STUCKLER J. Deep Virtual stereo odometry: leveragingdeepdepthpredictionfor monoculardirect sparse odometry[C]/Proceedings the Computer Vision-ECCV 2018,Munich, Germany,2018: 835- 852.
[52] WANG J W,RUNZ M, AGAPITO L. DSP-SLAM: object oriented SLAM with deep shape priors [C]/Proceedings the 2021 IEEE/CVF Intermational Conference on Computer Vision (ICCV),Montreal, QC, Canada, 2021: 3410-3420.
[53] LI R,WANG S,GU D. DeepSLAM: A robust monocular SLAM system with unsupervised deep learning[J].IEEE Transactions on Industrial Electronics, 2021, 68(4): 3577- 3587.
[54] DISSANAYAKE M W M G, NEWMAN P, CLARK S, et al. A solution to the simultaneous localization map building (SLAM) problem[J].IEEE Transactions on ics Automation, 2001, 17(3): 229-241.
[55] MONTEMERLO M. FastSLAM: A factored solution to the simultaneous localization mapping problem with unknown data association [D].Pittsburgh: Carmegie Mellon University, 2003.
[56] GRISETTI G, STACHNISS C,BURGARD W. Improved techniques for grid mapping with Rao-Blackwelized particle filters[J]. IEEETransactions onics,20o7,23(1):34-46.
[57] KONOLIGE K,GRISETTI G,KUMMERLE R,et al. Efficient sparse pose adjustment for 2D mapping[C]/2010 IEEE/RSJ International Conference on Intelligent s Systems,2010: 22-29.
[58] KOHLBRECHER S, VON STRYK O, MEYER J, et al. A flexible scalable SLAM system with full 3D motion estimation[C]/2011 IEEE Intermational Symposium on Safety, Security, Rescue ics,Kyoto, Japan, 2011: 155-160.
[59] HESS W, KOHLER D,RAPP H, et al. Real-time loop closure in2DLIDAR SLAM[C]//2016IEEE Intermational Conference on ics Automation (ICRA), Stockholm, Sweden,2016:1271-1278.
[60] ZHANG J, SINGH S. LOAM: Lidar odometry mapping in real-time[C]/Proceedings the ics: Science Systems,Berkeley, CA,USA,2014: 1-9.
[61] SHAN T, ENGLOT B. LeGO-LOAM: Lightweight ground-optimized lidar odometry mapping on variable terrain[C]//2018 IEEE/RSJ International Conferenceon Intelligent s Systems (IROS),Madrid, Spain,2018: 4758-4765.
[62] SHAN T, ENGLOT B,MEYERS D.LIO-SAM: Tightlycoupledlidarinertial odometryviasmoothing mapping[C]/020 IEEE/RSJ International Conference on Intelligent s Systems (IROS), Las Vegas,NV, USA, 2020: 5135-5142.
[63]CHEN X,MILIOTO A,PALAZZOLO E, et al. \"SuMa ++ : Efficient LiDAR-based Semantic SLAM[C]/2019 IEEE/RSJ International Conference on Intelligent s Systems (IROS),2019: 4530-4537.
[64] DUBE R, CRAMARIUC A, DUGAS D,et al. SegMap: Segment-based mapping localization using data-driven descriptors[J].TheInternational Journal ics , 2020, 39(2-3): 339-355.
[65] TIAN C, LIU H, LIU Z, et al. on multi-sensor fusion SLAM algorithm based on improved Gmapping[J]. IEEE Access,2023,11: 13690-13703.
[66] SHAN T,ENGLOTB, RATTIC, etal. LVI-SAM: Tightlycoupled lidar-visual-inertial odometry via smoothing mapping[C]/021IEEEInternational Conferenceon ics Automation (ICRA), Xi'an, China,2021: 5692- 5698.
[67] ZHAO H, ZHENG R, LIU M, et al. Detecting loop closure usingenhancedimageforunderwater VINSMono[C]//Global s 2020: Singapore - U. S. Gulf Coast, Biloxi, MS,USA, 2020: 1-6.
[68] HE M, RAJKUMAR R R. Extended VINS-Mono:A systematic approach forabsolute relative vehicle localization in large-scale outdoor environments[C]//2021 IEEE/RSJ International Conference on Intelligent s Systems (IROS), Prague, Czech Republic, 2021: 4861-4868.
[69]SAUERBECK F,KULMER D, PIELMEIER,et al. MultiLiDAR localization mappingpipeline forurban autonomous driving[C]//023 IEEE SENSORS,Vienna, Austria, 2023: 1-4.
[70] LU G, YANG H,LI J,et al.A lightweight real-time 3D LiDAR SLAM for autonomous vehicles in large-scale urban environment[J].IEEE Access,2023,11: 12594-12606.
[71] KEDIA S,KARUMANCHI S H. Real-time autonomous vehicle navigation under unknown dynamics[C]//2023 IEEE 26th International Conference on Intelligent Transportation Systems (ITSC),Bilbao,Spain,2023:86-92.
[72]HU Z,ZHANG M,MENG J,et al.Semantic map-based localization USV Using LiDAR in berthing departing scene[C]//20237thInternationalConference on Transportation Information Safety (ICTIS), Xi'an, China, 2023:583-589.
[73] ZHANG H, LIU Z Q, WANG Y L. U-LOAM: A real-time 3D Lidar SLAM systemforwater-surface scene applications[C]/022 IEEE International Conference on Unmanned Systems (ICUS), Guangzhou, China, 2022: 653- 657.
[74]郭海艷,程亮,楊春利,等.面向水面無(wú)人艇的目標(biāo)檢測(cè)與船 舶分類系統(tǒng)研究[J].中國(guó)測(cè)試,2023,49(6):114-121. GUO H Y, CHENG L, YANG C L, et al. on target detection ship classification system for unmanned surface vehicles[J]. China Measurement amp; Testing,2023, 49(6): 114- 121.
[75] JI Y,DING Y,ZHOUJ, et al. Robust accurate multi-UAV cooperativesemanticSLAMleveraginglightweight YOLO[C]//2023 7th International Symposium on Computer Science Intelligent (ISCSIC),Nanjing,China, 2023: 155-159.
[76]王繼紅,吳伯彪,張亞超,等.視覺(jué)和慣導(dǎo)信息融合小型無(wú)人 機(jī)位姿估計(jì)研究[J].中國(guó)測(cè)試,2021,47(11):134-140. WANG J H, WU B B, ZHANG Y C, et al. on pose estimation small UAVs based on visual inertial information fusion[J].China Measurementamp; Testing,2021, 47(11): 134-140.
[77] SONKOLY B,NAGY B G, DOKA J, et al. Towards an edge cloud based coordination platform for Multi-User AR applications built on open-source SLAMs[C]//2023 IEEE Conference on Virtual Reality 3D User Interfaces Abstracts Workshops (VRW),Shanghai, China,2023: 923- 924.
[78] 肖榮春,劉元盛,張軍,等.BEV融合感知算法綜述[C]//中 國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2023年第二十七屆網(wǎng)絡(luò) 新技術(shù)與應(yīng)用年會(huì),江蘇鎮(zhèn)江,2023. XIAO RC,LIU Y S,ZHANG J, et al. A Review BEV fusion perception algorithms [C]/Proceedings the 27th Annual Conference on New Network Technologies Applications,Zhenjiang,,China,2023.
[79] YANG X, SCHAAF C, STRAHLER A, et al. Study bat flight behavior by combining thermal image analysis with a LiDAR forest reconstruction[J]. Canadian Journal Remote Sensing,2013, 39(S1): S1-S14.
[80]LIUJ,LIX,LIUY,et al.RGB-D inertial odometryfora resource-restricted robot in dynamic environments[J].IEEE ics Automation Let-ters, 2022, 7(4): 9573-80.
[81]石書(shū)堯.慣性/雷達(dá)/偏振/光流組合導(dǎo)航與建圖方法研究 [D].北京:北方工業(yè)大學(xué),2023. SHI S Y. on Inertial/Radar/Polarization/Optical Flow integrated navigation mapping methods [D].Beijing: North China University ,2023.
[82]KIYOZUMI T,MIYAMAE T,NODA K,et al.Pilot demonstration correlation-domain LiDAR for high-speed vibration detection[J]. APL Photonics,2021,6(10):1-9.
[83] 羅元,沈吉祥,李方宇.動(dòng)態(tài)環(huán)境下基于深度學(xué)習(xí)的視覺(jué) SLAM研究綜述[J/OL].半導(dǎo)體光電:1-10. LUO Y, SHEN J X, LI F Y. A review visual SLAM based ondeeplearningin dynamicenvironments[J/OL]. Semiconductor Optoelectronics,2024,1-10.
[84] SUCAR E, LIU S, ORTIZ J, et al. iMAP: Implicit mapping positioninginreal-time[C]//2021 IEEE/CVF International Conferenceon Computer Vision (ICCV), Montreal, QC,Canada,2021: 6209-6218.
[85] RUAN C, ZANG Q, ZHANG K, et al. DN-SLAM: A visual SLAM with ORB features NeRF mapping in dynamic environments[J]. IEEE Sensors Journal, 2024,24(4):5279- 5287.
(編輯:劉楊)