李小倩,何 偉,朱世強,李月華,謝 天
之江實驗室,杭州 311100
同步定位和建圖(Simultaneous localization and mapping, SLAM)是機器人利用自身攜帶的視覺、激光等傳感器,在完成自身定位的同時構建環(huán)境地圖的過程,是提高機器人智能性、自主性的核心環(huán)節(jié),也是機器人相關研究中的一個基本問題[1-2].通過相機采集圖像信息作為環(huán)境感知信息源的SLAM系統(tǒng)稱為視覺 SLAM[3-4](Visual SLAM,VSLAM),與其他 SLAM系統(tǒng)(如激光 SLAM[5-6])相比,V-SLAM可感知更加豐富的色彩、紋理等環(huán)境信息[7-8].
V-SLAM系統(tǒng)大多將估計相機位姿作為主要任務,通過多視幾何理論構建三維地圖. 隨著機器人的應用范圍越來越廣,使用者對于機器人的智能程度提出了更高的要求,傳統(tǒng)利用環(huán)境中點、線、面等低級別幾何特征信息的V-SLAM系統(tǒng)在系統(tǒng)定位精度和魯棒性等方面已表現(xiàn)出明顯不足,特別在應對弱紋理環(huán)境、光照變化和動態(tài)目標等方面依然有很多挑戰(zhàn)[9]. 隨著深度學習技術的迅速發(fā)展,其在計算機視覺(Computer vision,CV)的各個領域都有著非常成功的應用. 在此背景下,近年來,越來越多的SLAM研究者使用基于深度學習的方法提取環(huán)境語義信息,以獲取高層次的場景感知和理解,并應用在V-SLAM系統(tǒng)中[10],輔助視覺SLAM系統(tǒng)提升定位性能、地圖可視化,從而賦予機器人更高效的人機交互能力.
本文專注于對語義SLAM方法進行分析和討論,首先系統(tǒng)地介紹和分析環(huán)境語義信息與SLAM系統(tǒng)結合在定位精度、魯棒性和地圖形式等方面的研究進展,并將語義SLAM技術與傳統(tǒng)V-SLAM技術進行分析和比較. 最后,討論了語……