




摘 要: 針對動態(tài)物體容易干擾SLAM建圖準確性的問題,提出了一種新的動態(tài)環(huán)境下的RGB-D SLAM框架,將深度學習中的神經網絡與運動信息相結合。首先,算法使用Mask R-CNN網絡檢測可能生成動態(tài)對象掩模的潛在運動對象。其次,算法將光流方法和Mask R-CNN相結合進行全動態(tài)特征點的剔除。最后在TUM RGB-D數據集下的實驗結果表明,該方法可以提高SLAM系統(tǒng)在動態(tài)環(huán)境下的位姿估計精度,比現有的ORB-SLAM2的表現效果更好。
關鍵詞: 同步定位與建圖; 特征點; 動態(tài)環(huán)境; 語義分割
中圖分類號: TP242.6"" 文獻標志碼: A
文章編號: 1001-3695(2022)05-031-1472-06
doi:10.19734/j.issn.1001-3695.2021.09.0402
SLAM algorithm based on semantic segmentation and dynamic feature point elimination
Zhang Heng1,2, Xu Changchun1, Liu Yanli1,2, Liao Zhifang3
(1.School of Information Engineering, East China Jiaotong University, Nanchang 330013, China; 2.School of Electronic Information, Shanghai Dianji University, Shanghai 201306, China; 3.School of Computer Science amp; Engineering, Central South University, Changsha 410083, China)
Abstract: Aiming at the problem that dynamic objects tend to interfere with the accuracy of SLAM mapping,this paper proposed a new RGB-D SLAM framework for dynamic environments,which combined neural networks in deep learning with motion information.Firstly,the algorithm used the Mask R-CNN network to detect potential moving objects that might generate dynamic object masks.Secondly,the algorithm combined the optical flow method and Mask R-CNN to remove full dynamic feature points.Finally,the experimental results under the TUM RGB-D dataset show that this algorithm can improve the pose estimation accuracy of the SLAM system in dynamic environments and perform better than the existing ORB-SLAM2.
Key words: simultaneous localization and mapping; feature points; dynamic environment; semantic segmentation
0 引言
同步定位與地圖構建(SLAM)[1]是機器人在未知環(huán)境下實現自主定位與建圖的核心技術,它旨在利用自身裝載的傳感器對自身位姿進行估計,并以增量的方式對周圍環(huán)境動態(tài)構建實時地圖。經過近20年的發(fā)展,SLAM技術已經在自動駕駛、無人駕駛、虛擬現實、增強現實、無人機等領域發(fā)揮了重要作用。當前SLAM系統(tǒng)所使用的傳感器主要有相機、激光雷達、慣性測量單元(inertial measurement unit,IMU)等。由于視覺傳感器的成本較低,許多功能強大的SLAM系統(tǒng)都使用了視覺傳感器,且效果相對較好。視覺傳感器又可以分為單目相機、雙目相機、RGB-D相機以及事件相機等,均已被開源方案廣泛適用,如ORB-SLAM2[2]、LSD-SLAM[3]、SVO[4]等。視覺同步定位與地圖構建(visual SLAM,VSLAM)[5]因采用視覺傳感器逐漸成為 SLAM 領域的熱門研究方向之一。
視覺SLAM按照視覺里程計的計算方法不同可以分為直接法和特征點法[6]。直接法基于光度不變假設,它不依賴特征點的提取和匹配,直接通過兩幀之間的像素灰度值構建光度誤差(photometric error)來求解相機位姿。特征點法基于特征點的匹配,通過最小化重投影誤差(reprojection error)來計算相機位姿與地圖點的位置。Engel等人[3]提出的LSD-SLAM(large scale direct monocular SLAM)是直接法中比較完整的SLAM系統(tǒng)。該系統(tǒng)適用于大規(guī)模場景,能夠構建大尺度的、全局一致性的環(huán)境地圖。其后提出的DSO(direct sparse odometry)[7]稀疏直接法的視覺里程計,在準確性、穩(wěn)定性和速度上優(yōu)于LSD-SLAM。Forster等人[4]提出的半直接法視覺里程計SVO(semi-direct visual odoemtry)結合了基于特征點的方法和直接跟蹤光流方法的優(yōu)點。其后提出的最新版本SVO2.0[8]基于視覺慣性里程計,支持透視、魚眼和雙目相機,可以生成輕量的、全局一致性的環(huán)境地圖。以上工作[3,4,7,8]采用了直接法的視覺里程計方案。MonoSLAM[9]是第一個在單目相機上實時運行的視覺SLAM系統(tǒng),它采用EKF(extended Kalman filter)作為后端,在前端跟蹤稀疏特征點,算法效率高,但其稀疏的特征點容易跟蹤丟失。Klein等人[10]提出的PTAM(parallel tracking and mapping)是最早提出將跟蹤和建圖分開作為兩個線程的一種SLAM算法,是一種基于關鍵幀的單目視覺SLAM算法。PTAM采用FAST(features from accelerated segment test)作為特征提取方法來實現跟蹤和建圖。Mur-Artal等人[2]提出的ORB-SLAM2可以在大規(guī)模場景下實現長期運行。其增加了對雙目攝像機和RGB-D深度攝像機的支持,是基于特征點跟蹤方法的SLAM的成功應用。Campos等人[11]在ORB-SLAM2基礎上提出的ORB-SLAM3增加了視覺慣性里程計、多地圖融合等功能,支持單目、雙目以及 RGB-D相機,同時支持針孔相機和魚眼相機模型的 SLAM 系統(tǒng)。以上工作[2,9~11]采用了特征點法的視覺里程計方案。然而上述方法大多是在靜態(tài)環(huán)境下成功實現,不能實時檢測和處理動態(tài)場景中的動態(tài)物體,在定位和建圖過程中不可避免地會產生干擾。
由于傳統(tǒng)基于特征點的方法很容易受到紋理缺失導致的特征點不足,相機運動過快導致的特征不匹配,以及光照突變導致狀態(tài)估計失敗等一系列問題。為了使系統(tǒng)適應動態(tài)環(huán)境,越來越多的目標檢測和語義分割方法被引入到SLAM系統(tǒng)中。其中比較流行的目標檢測和語義分割方法有SegNet[12]、Mask R-CNN[13]和YOLOv3[14]等。深度學習的目標檢測和語義分割具有更高的準確率,在SLAM系統(tǒng)中得到了廣泛的應用。DS-SLAM[15]基于ORB-SLAM2,將語義分割網絡[11]與運動一致性檢查相結合,以減少動態(tài)對象的影響。DynaSLAM[16]同樣基于ORB-SLAM2,通過添加動態(tài)目標檢測功能,在單目、雙目和RGB-D數據集的動態(tài)場景中具有強大的功能。它可以通過結合Mask R-CNN和多視圖幾何模型對動態(tài)場景進行改進。DDL-SLAM[17]增加了動態(tài)對象分割的功能,采用DUNet[18]提供像素級的語義分割和多視圖幾何相結合的方法作為預處理階段過濾掉與動態(tài)目標相關的數據。DP-SLAM[19]基于動態(tài)關鍵點檢測的移動概率傳播模型,結合了幾何約束和語義分割的結果來跟蹤貝葉斯概率估計框架中的動態(tài)關鍵點,從而過濾掉與移動對象相關聯的關鍵點。OFM-SLAM[20]使用Mask R-CNN實例分割網絡和光流方法檢測動態(tài)特征點。RDS-SLAM[21]建立在ORB-SLAM3基礎之上,添加了語義線程和基于語義的優(yōu)化線程,以便在動態(tài)環(huán)境中實時進行可靠的跟蹤和建圖。使用移動概率來更新和傳播語義信息,該概率被保存在地圖中,并使用數據關聯算法從跟蹤中去除異常值。在遮擋了太多的背景特征而無法成功地從背景中跟蹤時,DOE-SLAM[22]可以利用物體的特征和預測的物體運動來估計攝像機的姿態(tài),從而跟蹤運動對象的姿態(tài)。然而,在某些情況,以上提出的工作會導致兩個問題。首先,當動態(tài)物體占據了場景圖像中很大比例的時候,直接去除與移動物體相關的所有特征會導致圖像特征點數量的減少,從而導致軌跡丟失,SLAM定位和建圖的準確性就會受到很大影響。其次,具有移動能力但處于靜止狀態(tài)的物體出現在圖像中,雖然它們當前是靜止狀態(tài)的,比如停靠在路上的汽車,如果直接將這些汽車上的特征點去除,一些原始的有用信息就會丟失,也會導致定位和建圖的不可靠。
為了確保該系統(tǒng)能夠適應復雜室內環(huán)境下定位和建圖的要求,本文提出了一種基于語義信息和幾何信息的動態(tài)場景下的SLAM框架,所提方法致力于從以下兩個方面改進系統(tǒng):a)提出了一種基于Mask R-CNN的語義分割的RGB-D SLAM系統(tǒng)減少動態(tài)對象的影響;b)將Mask R-CNN分割的語義信息與光流法檢測出的幾何信息相結合,提高了動態(tài)物體的識別準確率,這極大地提高了本文算法的姿態(tài)估計精度和魯棒性。
1 總體框架
作為成熟的SLAM方案之一,ORB-SLAM2系統(tǒng)方案受PTAM 提出的跟蹤過程和建圖過程并行設計的啟發(fā),創(chuàng)新性地提出了實時跟蹤特征點線程、局部建圖優(yōu)化線程和回環(huán)檢測線程三種線程模式。ORB-SLAM2的三線程結果實現了非常好的跟蹤和建圖效果,并且可以保證軌跡和建圖的全局一致性。
圖1顯示了系統(tǒng)的整體框架,在ORB-SLAM2系統(tǒng)的基礎上增加了語義分割模塊和運動目標檢測模塊。語義分割模塊用于分割出具體的實例,包括動態(tài)物體和靜態(tài)物體。運動目標檢測模塊首先對輸入的每一幀圖像進行對象檢測,用于獲取圖像中的類別信息。跟蹤線程首先提取ORB特征點[23],特征點與對象類別信息相關聯。根據特征點的類別和特征點從參考幀到當前幀的運動信息,結合上一幀地圖點的動態(tài)信息,可以得到每個特征點的動態(tài)概率,剔除動態(tài)概率高的特征點。從關鍵點生成的地圖點被賦予相應的動態(tài)概率,該概率將被傳播到下一幀。剩下的部分類似于ORB-SLAM2的流程。進入模塊判斷當前幀是否為關鍵幀后,系統(tǒng)進入局部建圖和閉環(huán)檢測線程。
3 實驗結果
3.1 TUM數據集
本文在TUM數據集[28]上進行了實驗。該數據集使用一個RGB-D Kinect攝像頭,提供彩色和深度圖像以及準確的真實軌跡,并包含不同室內環(huán)境中的39個序列。根據場景中是否有動態(tài)對象,本文將序列分為靜態(tài)場景和動態(tài)場景。實驗在CPU為Intel Xeon E5-2689,GPU為GeForce GTX1070,內存為64 GB的計算機上進行。
為了方便起見,本文用fr3、half、w、s來代表freiburg3、halfsphere、walking、sitting作為序列的名稱。從TUM RGB-D數據集中選取了八組序列,將所提系統(tǒng)與ORB-SLAM2、DS-SLAM和DynaSLAM進行比較。使用絕對軌跡誤差(absolute trajectory error,ATE)和相對位姿誤差(relative pose error,RPE)來進行定量評估。ATE是估計位姿與實際位姿之間的直接差值,可以非常直觀地反映算法精度和軌跡全局一致性。RPE包含相對平移誤差和相對旋轉誤差,直接測量里程計的誤差。
3.2 定量評估
本文給出了絕對軌跡誤差的均方根誤差(root mean square error,RMSE)和標準差(standard deviation,SD)的值,RMSE描述了所估計的值與真實值之間的偏差,因此其值越小,代表所估計的軌跡越接近真實值。SD反映了系統(tǒng)軌跡估計的離散程度。以上兩個指標相結合能更好地證明系統(tǒng)的魯棒性和穩(wěn)定性。為了更好地反映出本文算法的性能,本文將ORB-SLAM2與該系統(tǒng)作對比,如表1~4所示。RMSE和SD的值計算公式為
σRMSE=(1-αβ)×100%(9)
σSD=(1-γμ)×100%(10)
其中:σRMSE表示本文算法RMSE值的改進;α表示本文算法的RMSE值;β表示ORB-SLAM2的RMSE值;σSD表示本文算法SD值的改進;γ表示本文算法的SD值;μ表示ORB-SLAM2的RMSE值。
本文算法與ORB-SLAM2、DS-SLAM、DynaSLAM算法的比較結果如表1~4所示。對于高動態(tài)序列,本文算法的絕對軌跡誤差的均方根誤差和標準差在fr3/w/xyz序列下分別為98.92%和99.07%。該對比實驗表明本文算法在高動態(tài)環(huán)境下具有良好的性能。對于低動態(tài)序列,本文算法的絕對軌跡誤差的均方根誤差和標準差在fr3/s/rpy下分別僅為11.64%和34.35%,在fr3/s/half下分別僅為21.61%和2.38%。原因是在低動態(tài)序列中,大多數對象是靜態(tài)的,物體運動緩慢,運動物體在環(huán)境中占的比例小。ORB-SLAM2在靜態(tài)環(huán)境下可以獲得良好的效果,因此在低動態(tài)序列下很難提高性能。而且在低動態(tài)環(huán)境中可以使用對象上的特征點,并且它們不會影響跟蹤性能,所以在這種情況下,本文算法的改進并不明顯。與其他兩種動態(tài)環(huán)境下的SLAM方法相比,本文算法優(yōu)于DS-SLAM,并且大多數序列的性能都優(yōu)于DynaSLAM。
從表2可以看出,本文算法在低動態(tài)場景和高動態(tài)場景下比原始的ORB-SLAM2都有了很大的改進。在fr3/w/xyz,fr3/w/rpy等八個序列上,本文算法的結果相對更好。在fr3/w/half序列上,本文算法相對于DS-SLAM和Dyna-SLAM的結果非常接近。DS-SLAM的SD值取得了較好的結果。從表3可以看出,本文算法在fr3/w/half和fr3/w/xyz序列上得到了最好的結果。DynaSLAM在fr3/w/rpy序列上取得了更好的結果,但本文算法相對優(yōu)于DS-SLAM和ORB-SLAM2。值得注意的是,ORB-SLAM2、DS-SLAM和DynaSLAM在fr3/w/rpy序列上的RMSE值沒有明顯改善。在fr3/w/static序列上,DynaSLAM的RMSE值和本文算法的SD值分別得到了更好的結果,并且本文算法的RMSE值優(yōu)于DS-SLAM的RMSE值。事實上,這三個系統(tǒng)的結果非常接近。本文算法的RMSE值和DS-SLAM的SD值在fr3/w/xyz上分別取得了較好的結果。從表4可以看出,本文算法在高動態(tài)場景下的改進相較于ORB-SLAM2 有了很大的提升,但在低動態(tài)環(huán)境下改進效果不是那么明顯。
與原來的ORB-SLAM2系統(tǒng)相比,本文算法可以大大提升高動態(tài)序列的精度。具體來說,對于低動態(tài)序列,平均可以達到20%以上的改進。對于高動態(tài)場景,改進更加明顯,可以達到90%以上。結果表明,該方法可以進一步消除動態(tài)目標的干擾,從而減少優(yōu)化過程中的位姿誤差。
3.3 定性評估
為了更進一步地評估系統(tǒng),選取了兩個有代表性的序列與DS-SLAM、DynaSLAM和本文算法作比較。其中fr3/w/xyz是高動態(tài)環(huán)境下的序列,fr3/s/half是低動態(tài)環(huán)境下的序列。藍色實線表示DS-SLAM系統(tǒng)估計的軌跡,綠色實線表示DynaSLAM系統(tǒng)估計的軌跡,紅色實線表示本文算法估計的軌跡,黑色虛線表示相機的真實軌跡(見電子版)。本文的軌跡圖是用evo[29]工具畫出來的。該軟件包可以用于評估和比較SLAM算法的軌跡誤差,包括絕對軌跡誤差和相對位姿誤差。從圖5、6可以看出,在fr3/w/xyz序列下DS-SLAM系統(tǒng)估計的軌跡相比真實軌跡有很大的漂移,而在fr3/s/half序列下DS-SLAM和DynaSLAM系統(tǒng)估計的軌跡與本文算法估計的軌跡與真實軌跡幾乎重合。這說明DS-SLAM和DynaSLAM系統(tǒng)在低動態(tài)環(huán)境下運行情況良好,而在高動態(tài)環(huán)境下很容易造成軌跡丟失。本文算法在高動態(tài)環(huán)境和低動態(tài)環(huán)境下很好地克服了DS-SLAM和DynaSLAM系統(tǒng)的弊端。
圖7~9是DS-SLAM、DynaSLAM和本文算法在fr3/w/xyz序列下的絕對軌跡誤差曲線。在fr3/w/xyz序列下,DS-SLAM系統(tǒng)與真實軌跡有很大的差別,而本文算法預測的軌跡與真實軌跡幾乎保持一致。這是因為DS-SLAM估計的軌跡由于動態(tài)物體不移動或移動緩慢,與真實的軌跡比較有很大的差異。圖10~12是DS-SLAM、DynaSLAM和本文算法在fr3/s/half序列下的絕對軌跡誤差曲線。在fr3/s/half序列下,DS-SLAM系統(tǒng)與真實軌跡的誤差較大,DynaSLAM系統(tǒng)與真實軌跡的誤差相對較小,本文算法預測的軌跡與真實軌跡的誤差也很小。說明在低動態(tài)環(huán)境下兩個系統(tǒng)的誤差很相似,但是本文算法預測的軌跡更接近真實軌跡。
最后,DS-SLAM只將人作為分割的動態(tài)對象,而本文算法預先定義了20個潛在動態(tài)或可移動的物體,并在RGB-D數據集中進行了評估。本文算法更適用于各種復雜的場景。DynaSLAM將分割后的內容直接視為動態(tài)對象,并且只在RGB-D情況下使用多視圖幾何提取動態(tài)特征點。本文算法添加了運動目標檢測模塊,可以避免在靜態(tài)掩模上丟棄過多的特征點,能夠解決剩余靜態(tài)特征點太少的問題。因此,本文算法比直接去除掩模中所有特征點的方法具有更好的魯棒性。DS-SLAM和DynaSLAM在進行語義分割時計算量會比較大,容易降低SLAM系統(tǒng)運行效率,導致對動態(tài)特征點跟蹤失敗。本文算法在語義分割的過程中提高了算法分割的效率,計算量相對較小,能夠很好地跟蹤動態(tài)特征點。但與較為先進的SLAM系統(tǒng)相比,本文算法在實時性方面仍存在差距。因此,下一步的研究方向是進一步優(yōu)化語義分割網絡,進一步提高系統(tǒng)的實時性。上述定性結果表明,本文算法在魯棒性和準確性方面有顯著提高,特別是在高動態(tài)環(huán)境下的序列中。
4 結束語
本文提出了一種基于ORB-SLAM2的Mask R-CNN動態(tài)物體剔除方法。通過光流和語義分割過濾特征點,檢測和消除動態(tài)特征點,利用穩(wěn)定的靜態(tài)特征點進行動態(tài)場景下的運動估計,完成語義地圖的構建。本文使用公開的TUM數據集以及搭建的實驗平臺對比了ORB-SLAM2、DS-SLAM和DynaSLAM三個主流算法的位姿估計精度。評估結果表明,該系統(tǒng)在高動態(tài)場景下精度和速度方面都優(yōu)于現有的方法。實驗結果表明,本文算法在動態(tài)環(huán)境下具有可靠的優(yōu)越性、準確性和魯棒性。然而,該算法在某些大規(guī)模的室外場景下很容易跟蹤丟失,僅適用于室內場景,未來可考慮改進本文的語義分割網絡以適應各種復雜多變的情況,更好地實現機器人的路徑規(guī)劃與導航。
參考文獻:
[1]劉浩敏,章國鋒,鮑虎軍.基于單目視覺的同時定位與地圖構建方法綜述[J].計算機輔助設計與圖形學學報,2016,28(6):855-868. (Liu Haomin,Zhang Guofeng,Bao Hujun.Overview of simultaneous localization and mapping methods based on monocular vision[J].Journal of Computer Aided Design and Graphics,2016,28(6):855-868.)
[2]Mur-Artal R,Tardos J D.ORB-SLAM2:an open-source SLAM system for monocular,stereo,and RGB-D cameras[J].IEEE Trans on Robotics,2017,33(5):1255-1262.
[3]Engel J,Schps T,Cremers D.LSD-SLAM:large-scale direct monocular SLAM[C]//Proc of European Conference on Computer Vision.Cham: Springer,2014:834-849.
[4]Forster C,Pizzoli M,Scaramuzza D.SVO:fast semi-direct monocular visual odometry[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2014:15-22.
[5]吳凡,宗艷桃,湯霞清.視覺 SLAM 的研究現狀與展望[J].計算機應用研究,2020,37(8):2248-2254. (Wu Fan,Zong Yantao,Tang Xiaqing.Research status and prospects of visual SLAM[J].Application Research of Computers,2020,37(8):2248-2254.)
[6]谷曉琳,楊敏,張燚,等.一種基于半直接視覺里程計的 RGB-D SLAM 算法[J].機器人,2020,42(1):39-48. (Gu Xiaolin,Yang Min,Zhang Yi,et al.An RGB-D SLAM algorithm based on semi-direct visual odometry[J].Robot,2020,42(1):39-48.)
[7]Wang Rui,Schworer M,Cremers D.Stereo DSO:large-scale direct sparse visual odometry with stereo cameras[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:3923-3931.
[8]Forster C,Zhang Zichao,Gassner M,et al.SVO:semidirect visual odometry for monocular and multicamera systems[J].IEEE Trans on Robotics,2017,33(2):249-265.
[9]Davison A J,Reid I D,Molton N D,et al.MonoSLAM:real-time single camera SLAM[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(6):1052-1067.
[10]Klein G,Murray D.Parallel tracking and mapping for small AR workspaces[C]//Proc of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality.Piscataway,NJ:IEEE Press,2007:225-234.
[11]Campos C,Elvira R,Rodríguez J J G,et al.ORB-SLAM3:an accurate open-source library for visual,visual-inertial,and multimap SLAM[J].IEEE Trans on Robotics,2021,37(6):1874-1890.
[12]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[13]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[EB/OL]. (2018-01-24).https://arxiv.org/abs/1703.06870.
[14]鄒斌,林思陽,尹智帥.基于YOLOv3和視覺SLAM的語義地圖構建[J].激光與光電子學進展,2020,57(20):124-130. (Zou Bin,Lin Siyang,Yin Zhishuai.Semantic map construction based on YOLOv3 and visual SLAM[J].Progress in Laser and Optoelectronics,2020,57(20):124-130.)
[15]Yu Chao,Liu Zuxin,Liu X J,et al.DS-SLAM:a semantic visual SLAM towards dynamic environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2018:1168-1174.
[16]Bescos B,Fácil J M,Civera J,et al.DynaSLAM:tracking,mapping,and inpainting in dynamic scenes[J].IEEE Robotics and Automation Letters,2018,3(4):4076-4083.
[17]Ai Yongbao,Rui Ting,Lu Ming,et al.DDL-SLAM:a robust RGB-D SLAM in dynamic environments combined with deep learning[J].IEEE Access,2020,8:162335-162342.
[18]Jin Qiangguo,Meng Zhaopeng,Pham T D,et al.DUNet:a deformable network for retinal vessel segmentation[J].Knowledge-Based Systems,2019,178(8):149-162.
[19]Li Ao,Wang Jikai,Xu Meng,et al.DP-SLAM:a visual SLAM with moving probability towards dynamic environments[J].Information Sciences,2021,556:128-142.
[20]Zhao Xiong,Zuo Tao,Hu Xinyu.OFM-SLAM:a visual semantic SLAM for dynamic indoor environments[J].Mathematical Problems in Engineering,2021,2021:article ID 5538840.
[21]Liu Yubao,Miura Jun.RDS-SLAM:real-time dynamic SLAM using semantic segmentation methods[J].IEEE Access,2021,9:23772-23785.
[22]Hu Xiao,Lang Jochen.DOE-SLAM:dynamic object enhanced visual SLAM[J].Sensors,2021,21(9):article No.3091.
[23]Rublee E,Rabaud V,Konolige K,et al.ORB:an efficient alternative to SIFT or SURF[C]//Proc of International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011:2564-2571.
[24]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:8026-8037.
[25]Lin T Y,Maire M,Belongie S,et al.Microsoft coco:common objects in context[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2014:740-755.
[26]Chum O,Matas J,Kittler J.Locally optimized RANSAC[C]//Proc of Joint Pattern Recognition Symposium.Berlin:Springer,2003:236-243.
[27]Lucas B D,Kanade T.An iterative image registration technique with an application to stereo vision[C]//Proc of the 7th International Joint Conference on Artificial Intelligence.1981:674-679.
[28]Sturm J,Engelhard N,Endres F,et al.A benchmark for the evaluation of RGB-D SLAM systems[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2012:573-580.
[29]Michael G.evo:Python package for the evaluation of odometry and SLAM[EB/OL].(2017).https://michaelgrupp.github.io/evo/.