基于深度特征的視覺SLAM定位技術研究

2020-03-18 09:42:38吳雅琴徐丹妮

智能計算機與應用 2020年10期

吳雅琴, 徐丹妮

(中國礦業大學(北京) 機電與信息工程學院, 北京 100083)

0 引言

SLAM技術使用傳感器采集的數據，可以實現智能機器在未知環境中的自主定位，并構建出環境地圖，是解決智能機器定位導航的關鍵技術，廣泛應用于虛擬現實、智能家居、移動機器人以及自動駕駛等智能機器領域[1]。本文主要研究的雙目視覺SLAM系統，使用攝像機就可以完成圖像數據的采集，硬件成本低，攜帶方便，可搭載到小型設備上。

根據構建幀匹配關系時是否使用全部圖像信息來區分，視覺SLAM技術可以分為直接法和間接法。直接法是直接將圖像中的所有像素寫入姿態估計方程中，以找到幀之間的相對運動。直接法由于使用圖像的所有像素，因此計算量較大，并且對相機的采集數據速率和像素分辨率也有較高要求；間接法是基于圖像特征的方法，依賴稀疏的場景關鍵點的重投影誤差，建立約束對系統狀態向量進行更新。傳統的視覺SLAM經常使用的是一些點特征，例如Harris角點、SIFT、SURF、ORB，這些方法使用手工提取特征，易受噪聲干擾，對周圍環境要求高。然而隨著應用場景的復雜變化，傳統的特征描述子FAST特征、ORB特征不能滿足匹配需求，影響系統結果。近來有許多基于神經網絡的深度特征描述子被提出，深度特征描述子比傳統描述子性能好，大多數工作專注于網絡性能，使用復雜的網絡模型進行特征提取，導致計算量增加，降低了運行速度。本文重點研究設計卷積神經網絡模型提取圖像特征，獲取魯棒性高、可分性好且滿足實時需求的局部特征描述子，從而提高整個系統的效率。

1 基于特征點法的視覺SLAM系統架構

1.1 視覺SLAM方法架構

經典的視覺SLAM基本框架如圖1所示。

視覺SLAM流程包含的模塊及實現的功能：

(1)傳感器信息讀取。視覺SLAM以相機作為傳感器，獲取圖像數據。

(2)視覺里程計(Visual Odmetry，VO)。VO的任務包括圖像特征提取、計算描述子和特征匹配，通過連續相鄰圖像幀估算相機運動，構建局部地圖。

(3)后端優化(Optimization)。針對視覺里程計產生的累積誤差進行后端優化。計算累積誤差并優化，得到全局軌跡和地圖。主要的優化方法有基于濾波的方法和基于圖優化的方法。

(4)閉環檢測(Loop Closure Detection)。判斷機器人是否到達過之前經過的位置，檢測到閉環后，把信息交給后端優化算法，根據這些信息調整運動軌跡和地圖。

(5)構建環境地圖(Mapping)。根據估算的軌跡構建環境地圖。

本文使用基于視覺特征的視覺里程計，提取圖像特征并進行特征匹配，構建幀間的數據關聯信息。傳統圖像特征由關鍵點和描述子兩部分組成。本文使用卷積神經網絡對圖像進行特征提取與匹配，以期提高特征提取速度以及匹配準確性。

1.2 ORB特征提取方法

常用的特征提取方式是ORB(Oriented FAST AND Rotated BRIEF)算法。該算法使用改進的FAST算法進行特征點檢測和BRIEF算法對特征點進行特征描述。

(1)FAST特征檢測。FAST算法定義基于特征點周圍的圖像灰度值，如果候選點周圍領域內有足夠多的像素點與該候選點的灰度差絕對值大于一個閾值，則認為該候選點為特征點。如圖2所示，從圖像中選取一點P，以P為圓心畫一個半徑為3像素的圓，圓周上如果有N個像素點的灰度值與P點灰度值之差的絕對值大于閾值，則認為P為特征點。

圖2 FAST特征檢測

假設在圖像中提取n個特征點，通過降低判定FAST特征點的閾值，使FAST算法檢測到特征點數大于n個，然后計算每個特征點的Harris響應值，按響應值大小排序，取前n個Harris響應值大的點作為最終FAST特征點。

采用灰度質心法對提取的特征點進行描述，式(1)為圖像塊的矩定義：

(1)

其中，I(x，y)表示鄰域內像素點在(x，y)處的灰度值;r表示鄰域半徑。

通過圖像塊的矩，可以求得半徑為r的鄰域質心，如式(2)所示：

(2)

在得到r的幾何中心和質心后，將其連接，這個向量就可以表示為特征點的方向θ，式(3)：

(3)

(2)BRIEF特征描述算法。在提取到關鍵點之后，需要在這些關鍵點中加入描述子。BRIEF是一種二進制的描述算法。算法的計算過程：

①以關鍵點為中心，取大小為SXS的鄰域p，S為區域的邊長；

②在這個區域p中選取nd個點對nd(x,y)，定義τ，式(4)：

(4)

其中，p(x)是x點的像素值大小;p(y)是y點的像素值，如果y點的像素值p(y)小于x點的像素值p(x)，則τ的值為1，否則為0；(nd=128，256或512)；

③將nd個結果從低位到高位組成字符串，式(5)：

(5)

對比結果時要使用與點對選取順序相同的順序計算字符串，且計算其他特征點的描述子時也要使用同樣的順序選取點對；

④進行特征點匹配，以二個特征點字符串的漢明距離做為判斷依據。

ORB算法在特征點提取時使用圖像像素值，這種方法受環境影響大，例如在光照、煙霧等復雜環境中，特征點提取準確率低，影響定位結果。因此，本文使用神經網絡做特征提取，改進特征點的提取，以提高定位性能。

2 基于ORB-SLAM的改進視覺SLAM系統

本文使用基于特征點法的視覺里程計，即通過特征點的位置變化來得到傳感器的位姿變換。單目攝像頭在單幀圖像中，無法確定距離物體的真實距離，僅能通過相機的運動形成視差，測量物體的相對深度。單目SLAM更易受到運動過程中的噪聲影響，穩定性較雙目SLAM低，對復雜環境的適應能力較弱，無法長時間保持定位、規劃的精準性。雙目在硬件結構上更接近人類的雙眼，通過左右目圖像的視差來確定距離，也就是立體視覺。從工作原理上來說，雙目是將左右目拍攝的2D環境圖像通過三維立體解算成帶有深度信息的三維空間結構，實現更高精度及穩定性的導航定位。

研究過程中，使用雙目相機作為圖像采集器，對獲取的RGB圖像進行深度特征提取和匹配，計算左右圖像的視差，視差數據結合相機參數通過雙目相機幾何模型即可確定特征點在世界坐標系下的三維空間坐標。

傳感器會不斷記錄相關數據，可以使用一個通用的數學模型(6)來描述運動過程：

xk=f(xk-1,uk,wk).

(6)

x表示傳感器自身的位置，x1，.....，xk表示從離散時刻t=1,….k時傳感器的位置，uk表示傳感器的輸入數據，wk表示噪聲數據。在運動過程中需要一個觀測方程來(7)描述觀察到的周圍信息：

zk,j=h(yj,xk,vk,j,),

(7)

因為地圖中有很多路標點，若路標點有N個，可以用y1，…yN來表示，zk,j是在xk的地方觀測到路標點yk的觀測數據，vk,j是觀測誤差。方程(6)和(7)是對定位問題和建圖問題的提煉，通過測量得到的觀測數據，對傳感器位姿狀態進行估計。

2.1 基于深度學習的特征描述算法

隨著深度學習在計算機視覺領域的成功，其也被應用在視覺SLAM技術中。例如，使用深度特征完成回環檢測過程，使用SLAM幫助建立對應關系的大規模圖像數據集等，這些方法通過深度學習的使用獲得更好的結果。

通過神經網絡生成關鍵點和特征描述子。由于訓練集的完善和計算資源的增加，使用神經網絡的圖像局部特征描述子在尺度、旋轉、光照等變化條件下有較好的不變性、魯棒性和可區分性。網絡輸出采用二進制表示，并且將二進制描述向量符作為ORB特性，可以直接使用ORB-SLAM系統的改進進行驗證。設計用于圖像局部特征描述子提取的神經網絡，獲取性能超過傳統特征的深度特征描述子；同時，考慮特征描述子的提取速度，為保證實時性，選取淺層神經網絡作為特征提取器。

本文使用的神經網絡結構為：卷積層1(Conv2d 1)-激活函數(tanh)-池化層(MaxPooling)-卷積層2(Conv2d 2)-激活函數(tanh)-全連接層(256)，連接一個符號函數(Sign(x))，將輸出特征向量轉換為二進制表示。構建的網絡結構如圖3所示。

圖3 網絡結構示意圖

基于深度學習的圖像局部特征描述子，其網絡訓練使用隨機采樣策略構建訓練圖像三元組，使用三元組損失函數作為優化函數。神經網絡訓練過程如下：

(1)隨機選擇一對來自同一標簽的正樣例以及一個與正樣例不同標簽的負樣例作為三元組，每個三元組視為一個訓練樣本。

(2)訓練集輸入網絡，由圖3可知網絡輸出為256維的二進制特征向量，訓練使用的損失函數為三元組損失(tripletloss)，即分別計算一對正樣例的特征向量距離d1以及其中一個正樣例和負樣例的特征向量距離d2，距離計算使用歐式距離，如式(8)：

d=(f1-f2)2，

(8)

其中，f1和f2分別為提取的特征向量。

損失函數為(α為閾值)式(9)：

loss=max(d1-d2+α,0).

(9)

(3)在測試集上驗證模型的性能，調整參數優化網絡，得到更加準確的匹配。

2.2 基于深度特征的系統框架

使用開源的視覺SLAM框架ORB-SLAM2作為實驗基礎，在此基礎上使用基于深度學習的圖像局部特征描述子代替傳統的ORB、SIFT等特征描述子，改進后的算法設計主要包括以下關鍵部分：

(1)對傳感器進行標定，獲取相機內部參數，并且對系統初始化。

(2)圖像的預處理，如尺寸裁剪、去噪等，將輸入經過學習的CNN網絡結構，生成深度特征描述子，利用特征匹配算法將圖像特征與最新圖像幀進行特征匹配。

(3)對圖像進行回環檢測，檢測是否有閉環出現。如果出現閉環，以閉環圖像幀為基準，調整當前關鍵幀的偏移誤差，并調整與當前關鍵幀存在重疊關系的其他關鍵幀位姿以及其地圖點位置。

(4)當完成全局優化時，根據當前所有的關鍵幀在地圖中的位姿，以及深度關鍵幀對應深度圖像，構建稠密地圖。

改進后的算法流程如圖4所示。

圖4 基于深度特征的SLAM整體框架

整個系統圍繞深度特征進行計算，使用了3個線程完成SLAM：實時跟蹤特征點的跟蹤線程，局部優化線程(建圖)以及全局的回環檢測與優化線程。

3 實驗設計及驗證

3.1 實驗環境及數據

實驗使用Ubuntu18.04操作系統。選取卷積神經網絡對圖像進行特征提取，用深度特征代替傳統特征描述子。在回環檢測模塊使用基于深度學習的回環檢測方法，即使用前端提取的深度特征做回環檢測，提高系統的定位精度和魯棒性。為了評估改進算法的性能，使用標準的開源數據集對改進的算法進行驗證，與ORB-SLAM算法在圖像特征點提取速度和匹配的準確性、回環檢測的效率進行對比。在真實環境數據下，驗證了改進算法的有效性。在開源的Brown數據集[8]、Hpatches數據集[9]、DTU數據集[10]以及TMU數據集上訓練神經網絡，這些數據集包含一些室內環境序列，在不同紋理，不同光照和不同的條件結構下的圖像序列、相應的輪廓和完整的校準參數，因此使用這些數據集訓練得到的網絡具有很強的泛化能力，在復雜場景下依然能提取到有效的深度特征。

3.2 特征提取及匹配實驗

在完成網絡訓練后進行對比實驗，對ORB傳統特征提取算法和不同網絡結構的神經網絡特征提取進行驗證，實驗主要衡量特征點提取速度以及提取精度：

步驟1使用雙目相機采集室內場景圖像；

步驟2選取第一步中圖像的連續關鍵幀，對雙目相機的左右幀分別采用神經網絡和ORB算法進行特征點提取，并計算特征提取所用的平均時間；

步驟3對實驗結果對比分析，兩種算法的耗時對比見表1。

表1 特征點提取算法耗時對比

從表1可以看出，神經網絡算法與ORB算法相比，提取圖像特征所用時間明顯縮短，提取效率提高約30%。由于使用淺層神經網絡,網絡結構簡單，參數量小, 因而神經網絡算法的計算量小于ORB算法，耗時較短。實驗對圖5所示的室內場景分別用不同算法進行特征提取。

圖5 室內場景

圖6是ORB特征點數目為500時的提取結果。

圖7是通過神經網絡提取的特征點。

圖6 ORB特征點

為了驗證神經網絡算法在特征點匹配方面的高效性和準確性，同樣選取室內圖像進行匹配實驗，分別使用ORB算法和神經網絡算法對圖像進行特征提取和匹配。對匹配特征點對數、配對正確率以及匹配時間做對比，實驗結果見表2。

表2 特征點匹配準確率及時間對比

從表2中可以看出使用神經網絡算法進行特征點提取和匹配提高了匹配準確率，縮短了匹配時間。主要原因是ORB算法中對兩幀圖像中不重合的部分進行了匹配，在匹配點對數相同的情況下，匹配準確率下降的同時也消耗更多時間。而神經網絡算法一方面提取的特征點更加準確，另一方面特征匹配時省略不重合的區域。圖8是真實場景圖像用神經網絡完成特征提取后進行特征匹配的效果圖。

3.3 實驗結果分析

在EuRoC[11]數據集下對改進的視覺SLAM系統進行定位測試，EuRoC數據集包括11個運動速度、光照強度、場景復雜度不同的場景序列，這些序列由微型飛行器在不同房間和大型工業環境中飛行記錄，其中劇烈光照變化、運動模糊和低紋理區域的序列是實驗的重點。實驗步驟：

圖8 基于神經網絡的特征匹配

(1)訓練神經網絡模型，得到最優卷積神經網絡參數。

(2)神經網絡模型作為ORB-SLAM算法中特征提取方法器，提取圖像特征點，對每幀圖像特征點進行識別，對左右幀圖像進行特征點匹配。

(3)在EuRoC數據集上驗證定位效果，由于EuRoC數據集中包含標準的相機運動軌跡，本文采用了均方根誤差(the Root Mean Square Error，RMSE)[12]進行精度驗證，視覺軌跡與真實軌跡之間的偏差定義為式(10)：

(10)

表3 ORB_SLAM2系統與改進后系統定位精度對比

從表3可以看出對于簡單環境如無光照影響，運動速度慢的圖像序列，改進后的算法對定位精度影響不大。在復雜環境下，由于深度特征包含更豐富的環境信息，改進后算法的定位精度有所提高。

4 結束語

同時定位與地圖構建技術(SLAM)的研究是移動機器人能夠實現自主定位移動的關鍵，本文改進了基于傳統特征的視覺SLAM，使用卷積神經網絡算法代替傳統手工特征方法，對圖像進行特征點提取和匹配，實現室內復雜環境下的定位功能。在公開數據集上對改進算法實驗驗證，證明使用神經網絡方法在定位精度和實時性上均有提高。從實驗結果來看，改進算法提高了系統定位準確性和實時性，但仍存在一些問題有待研究解決。例如，可以考慮對神經網絡進一步壓縮優化，減小計算量，從而降低模型運行時間，進一步提高實時性。此外，系統采用純視覺SLAM算法，僅使用雙目相機作為傳感器，后續可擴展到多傳感器融合[13]的方法，例如慣性測量單元(IMU)等作為輔助傳感器等，來提高定位精度。視覺SLAM還有許多難點有待解決，例如環境噪聲等問題，這些問題有待深入研究。