單目視覺里程計研究綜述

2018-04-08 05:46:24祝朝政吳春曉

計算機工程與應(yīng)用 2018年7期

關(guān)鍵詞：特征優(yōu)化方法

祝朝政，何　明，楊　晟，吳春曉，劉　斌

ZHU Chaozheng1,HE Ming1,YANG Sheng2,WU Chunxiao1,LIU Bin1

1.中國人民解放軍陸軍工程大學(xué) 指揮控制工程學(xué)院，南京 211117

2.河海大學(xué) 計算機與信息學(xué)院，南京 211100

1.College of Command Control Engineer,Army Engineering University,Nanjing 211117,China

2.College of Information and Computer,HoHai University,Nanjing 211110,China

1　引言

移動機器人進入未知環(huán)境進行定位和導(dǎo)航是自主化的重要的一步，因為未知環(huán)境的復(fù)雜性，所以研究僅依靠機器人自身的傳感器構(gòu)建實時地圖并進行定位具有重要意義[1-2]。視覺傳感器是機器人上常見的一類傳感器，具有精確度高，成本低，且數(shù)據(jù)信息豐富等特點，因此利用視覺傳感器來定位成為研究熱點。視覺里程計（Visual Odometry，VO）這一概念[3]由Nister提出，指通過機器視覺技術(shù)，分析相關(guān)圖像序列來實時估計移動機器人的位姿（位置和姿態(tài)）過程，能克服傳統(tǒng)里程計的不足，更加精準(zhǔn)進行定位，并且可以運行在全球定位系統(tǒng)（Global Position System，GPS）無法覆蓋或失效的環(huán)境中，例如室內(nèi)環(huán)境、星際探索[3-4]等。

鑒于視覺里程計的特點和優(yōu)勢，VO在火星探測器上得到了成功應(yīng)用[4]，也在公共安全、虛擬現(xiàn)實（Virtual Reality，VR）[5]、增強現(xiàn)實（Augmented Reality，AR）[6]等領(lǐng)域凸顯出其重要的應(yīng)用價值。

1.1　視覺SLAM和VO的區(qū)別與聯(lián)系

基于視覺的即時定位與地圖構(gòu)建（visual Simultaneous Location and Mapping，vSLAM）[7]有兩種主流方法：濾波的方法，使用基于概率分布進行視覺信息融合[8]；非濾波的方法，選取關(guān)鍵幀進行全局優(yōu)化[9-10]。具體關(guān)于這兩種方法的評估詳見[11-12]。

表1　經(jīng)典的VO研究成果

vSLAM和VO兩者的區(qū)別在于，后者僅關(guān)注局部軌跡的一致性，而前者關(guān)注的是全局機器人軌跡的一致性。理解什么時候產(chǎn)生回環(huán)和有效集成新的約束到當(dāng)前地圖是視覺SLAM主要研究問題。VO目標(biāo)是增量式重建軌跡，可能只優(yōu)化前n個路徑的位姿，即基于窗口的捆綁調(diào)整。這個滑動窗口優(yōu)化在SLAM中只能是建立一個局部地圖。

vSLAM和VO兩者的聯(lián)系在于，后者可以視為前者中的一個模塊，能增量式重建相機的運動軌跡，所以有些學(xué)者在研究中，將vSLAM視為VO展開研究。

如表1所示，自2007年并行跟蹤與建圖（Parallel Tracking and Mapping，PTAM）之后，由于發(fā)現(xiàn)了稀疏矩陣結(jié)構(gòu)特殊性，后端研究都已經(jīng)從EKF轉(zhuǎn)換到優(yōu)化的方式。同時，最近幾年里，單目和雙目相機都取得顯著的進展[13-17]，大部分已經(jīng)具備了大范圍、室外環(huán)境的能力。

2　VO形式化描述

在k時刻，剛性機器人上的相機采集環(huán)境中運動圖像。如果是單目VO，在k時刻采集到的圖像集表示為I0:n={I0,I1,…,In}。如果是雙目VO，每個時刻都會有左右圖像產(chǎn)生，表示為Il,0:n={Il,0,Il,1,…,Il,n}和Ir,0:n={Ir,0,Ir,1,…,Ir,n}，如圖1所示。

圖1　VO問題的圖例

假設(shè)相機坐標(biāo)就是機器人的坐標(biāo)。在立體視覺系統(tǒng)中，一般左相機為原點。

兩個相機位姿在臨近時刻k，k－1形成一個剛性變換Tk,k-1∈R4×4，記為：

其中，Rk,k-1是旋轉(zhuǎn)矩陣，tk,k-1是平移矩陣。集合T1:n={T1,0,T2,1,…,Tn,n-1}包含所有運動序列。最后，相機位姿集C0:n={C0,C1,…,Cn}在k時刻初始坐標(biāo)。當(dāng)前位姿Cn能通過計算所有變換Tk(k=1,2,…,n)之間的聯(lián)系得到，因此，Cn=Cn-1Tn，C0是k=0時刻的相機位姿。

VO的主要工作就是計算從圖像Ik到圖像Ik-1相關(guān)變換Tk，然后集成所有的變換恢復(fù)出相機的全部軌跡C0:n。這意味著VO是一個位姿接著一個位姿，增量式重建軌跡。一個迭代優(yōu)化基于前m位姿可以執(zhí)行，之后可得到一個更準(zhǔn)確的局部軌跡估計。

迭代優(yōu)化通過基于前m幀最小化三維點在局部地圖中的重投影誤差（基于窗口的捆綁調(diào)整，因為它在m幀窗口上執(zhí)行）。局部地圖空間中3D點的深度值通過三角測量法進行估計，所以可構(gòu)造一個最優(yōu)化問題，調(diào)整R、t使得對于所有的特征點zj，誤差二范數(shù)累計最小，得到：

這就是最小化重投影誤差問題。實際操作中，在調(diào)整每個Xj，使得更符合每一次觀測Zj，也就是每個誤差項都盡量小。由于此原因，也稱為捆綁調(diào)整（Bundle Adjustment）。捆綁調(diào)整優(yōu)化原理如圖2所示。

圖2　捆綁調(diào)整優(yōu)化原理（C表示相機當(dāng)前幀位姿，T表示兩個相機之間位姿的變換，m表示相機總幀數(shù)）

3VO方法研究進展

在過去十多年里，大范圍場景的VO[22，31]取得了巨大的成功。從VO實現(xiàn)方法上來分，主要分為基于特征點法和基于直接法，也有人提出基于混合的半直接跟蹤的方法，即兩種方法混合使用。

3.1　基于特征點的方法

對于特征點法[3，6，16，18，23，32-33]，Nister是最早開展實時單目大場景VO相關(guān)工作[3]。稀疏特征點法的VO是當(dāng)前的主流方法[32，34]，它的基本思路是對于每幀新的圖像Ik（在立體相機中是一對圖像），前兩步是檢測和匹配2D特征點，通過與之前幀進行對比匹配。二維特征點的重投影從不同圖像幀提取共同的3D特征點，這就是圖像對應(yīng)關(guān)系（大部分VO實現(xiàn)的時候都假設(shè)相機已經(jīng)校準(zhǔn)）。第三步是計算時刻k-1和k之間的相對運動Tk。根據(jù)對應(yīng)關(guān)系是三維或二維，有三種不同的方法，包括2D-2D，對極約束、P3P、ICP[35-38]等解決這個問題。相機位姿Ck是根據(jù)之前位姿變換Tk得到。除此之外，為了實現(xiàn)迭代優(yōu)化（捆綁調(diào)整）獲得更精確的局部軌跡估計，必須基于前m幀的深度估計構(gòu)建局部地圖。如圖3是基于特征點法的VO系統(tǒng)的流程圖。

圖3　基于特征點法的VO系統(tǒng)主要流程圖

同時，注意由于存在噪聲，錯誤的測量方法，以及對數(shù)據(jù)的錯誤假設(shè)等原因?qū)е略谔卣髌ヅ溥^程中會有一些匹配的局外點。即使在異常值的情況下，進行魯棒估計是確保精確的運動估計的任務(wù)。由于局外點的比較分散性質(zhì)，會使用隨機采樣一致性（RANSAC）來挑選最優(yōu)匹配，而非最小二乘匹配算法。

VO研究的主要問題是如何根據(jù)圖像來估計相機運動。通常情況下由于灰度值極易受到光照、形變等影響，不同圖像間變化可能非常大，因此僅憑灰度值是不夠的，所以需要對圖像提取特征點。根據(jù)維基百科關(guān)于特征（計算機視覺）的定義，在計算機視覺和圖像處理中，特征是一組與計算任務(wù)有關(guān)的信息，計算任務(wù)取決于具體的應(yīng)用。特征也可能是一般鄰域操作或者特征檢測應(yīng)用到圖像的結(jié)果。特征在圖像中可能擁有特殊結(jié)構(gòu)，例如角點、邊緣，或者區(qū)塊物體[39]。不過，一般更容易找出兩幅圖像中出現(xiàn)同一個角點，同一邊緣則稍微困難些，同一區(qū)塊則是最為困難的。所以，一種直觀的特征提取方式就是辨認(rèn)尋找不同圖像角點，確定它們的對應(yīng)關(guān)系。在這種情況下，角點就是所謂的特征。

然而在實際情況中，單純的角點依然不能滿足需求。因此研究人員設(shè)計了許多更加穩(wěn)定的局部圖像特征，如SIFT[40]、SUFT[41]等。雖然SIFT和SUFT充分考慮了圖像變換過程中的各種問題，但是也帶來了較大的計算量，一般來說很難實時在CPU上計算。不過近幾年來，諸如ORB[42]、BRISK[43]等一些易于計算的特征提取/描述算法的流行，逐漸替代了之前追蹤效果不好的Harris角點或計算復(fù)雜的SIFT/SUFT，成為VO的首選。

ORB由于融合了FAST和BRIEF各自的優(yōu)勢，使得其在尺度、旋轉(zhuǎn)、亮度等方面具有良好的特性。同時，該組合也非常高效，使得ORB特征是目前實時性最好的方案[16]。一般來說特征都是由關(guān)鍵點和描述子組成。其中，F(xiàn)AST角點提取：ORB為了在描述子中增加旋轉(zhuǎn)不變性，在原版的FAST[44]基礎(chǔ)上，增加了特征點的主方向。新BRIEF描述子：對前一步提取的關(guān)鍵點周圍像素區(qū)域進行描述，由于在角點提取的時候增加了主方向，所以相對于原始的BRIEF[45]描述子，ORB的描述子具有較好的旋轉(zhuǎn)不變性。

本文主要針對特征點提取三種主要方法進行比較，分別是SIFT、SURF以及ORB，這三種方法在OpenCV里面都已實現(xiàn)。如表2所示。

表2　不同特征之間性能比較

基于特征點的實時VO早期較為成功的就是Klein等人提出的單目VO框架——PTAM[19]。雖然它的性能不是十分完善，但它提供了一個完整通用的框架，將整個里程計的實現(xiàn)分為前端、后端，分別包括跟蹤和建圖過程的并行化。目前多數(shù)的VO框架都是基于它實現(xiàn)的，包括目前最穩(wěn)定的第二代基于ORB的即時定位與地圖構(gòu)建（Simultaneous Location and Mapping based on ORB，ORB-SLAM2）[16]。同時它也是第一個使用非線性優(yōu)化的系統(tǒng)，在此之前的傳統(tǒng)VO都是基于濾波器[18]實現(xiàn)。不過，它也存在場景小，缺乏全局重定位功能，導(dǎo)致實用性較差。

由于光流法也具備跟蹤特征點的特性，并且相對其他特征點匹配的方法可以節(jié)省部分計算量，所以也有人提出基于光流的特征點法[46-47]，雖然可以大幅提高VO的速度，但是要求相機運動較緩或者幀率較高。

現(xiàn)有研究中實用性最好的基于特征的VO方法是ORB-SLAM2[16]，它提出了一個更為完整的VO框架，如圖4所示。包括跟蹤、建圖和回環(huán)檢測三個線程。其中，跟蹤線程主要負(fù)責(zé)對新一幀圖像提取ORB[42]特征點，并粗略估計相機位姿。建圖線程主要是基于Bundle Adjustment對局部空間中的特征點與相機位姿的優(yōu)化，求解誤差更小的位姿與特征點的空間位姿。而回環(huán)檢測線程負(fù)責(zé)實現(xiàn)基于關(guān)鍵幀的回環(huán)檢測，可以有效消除累計誤差，同時還可以進行全局重定位。同時它還兼容單目、雙目和RGB-D相機等模式，這使它具有良好的泛用性。

對于初始化方面，作者提出了一種自動的初始化地圖策略，同時計算單應(yīng)矩陣（假設(shè)一個平面場景）[31]和本質(zhì)矩陣（假設(shè)非平面的場景）[32]，根據(jù)啟發(fā)式的準(zhǔn)則判斷屬于對應(yīng)情況來初始化位姿。這也是文獻[16]最大的貢獻。ORB-SLAM與PTAM計算優(yōu)勢除了選取的ORB特征更加高效之外，還取了上一幀能觀測的地圖點進行匹配，而不是直接使用所有地圖點來匹配新的幀。

3.2　基于直接跟蹤的方法

特征點法一直是長期以來比較經(jīng)典的方法，不過其魯棒性主要建立于特征點的描述上。一方面越是增強魯棒性，增加特征點描述的復(fù)雜性，越會導(dǎo)致算法復(fù)雜度的大幅提高；另一方面，特征點沒法應(yīng)用在特征點較弱的場景，例如墻面、天空等。所以基于像素灰度不變性假設(shè)估計相機運動的直接法在近年發(fā)展迅猛[20-21]。直接法從光流[48]發(fā)展而來，能夠在不提特征（或不計算特征描述）的情況下，通過最小化光度誤差（特征點法中最小化特征點的重投影誤差），來估計相機運動和像素的空間位置。可以有效地解決特征點法所面臨的問題。總的來說，根據(jù)空間點P多少情況，直接法又分為三類：稀疏直接法、半稠密的直接法和稠密直接法。

早期直接的VO方法很少基于跟蹤和建圖框架，多數(shù)都是人工選擇關(guān)鍵點[49-51]。直到RGB-D相機的出現(xiàn)，研究人員發(fā)現(xiàn)直接法對RGB-D相機[26]，進而對單目相機[21-22]都是非常有效的手段。近期出現(xiàn)的一些直接法都是直接使用圖像像素點的灰度信息和幾何信息來構(gòu)造誤差函數(shù)，通過圖優(yōu)化求解最小化代價函數(shù)，從而得到最優(yōu)相機位姿，且處理大規(guī)模地圖問題用位姿圖表示[21，52]。為了構(gòu)建半稠密的三維環(huán)境地圖，Engel等人[22]提出了大尺度的直接單目即時定位與地圖構(gòu)建（Large-Scale Direct monocular Simultaneous Location and Mapping，LSD-SLAM）算法，相比之前的直接的VO方法，該方法在估計高精度相機位姿的同時能夠創(chuàng)建大規(guī)模的三維環(huán)境地圖。由于單目VO存在尺度不確定性和尺度漂移問題，地圖直接由關(guān)鍵幀直接的Sim（3）變換組成，能夠準(zhǔn)確地檢測尺度漂移，并且整個系統(tǒng)可在CPU上實時運行。與ORB-SLAM2類似，LSD-SLAM也采用位姿圖優(yōu)化，因此能形成閉環(huán)回路和處理大尺度場景。系統(tǒng)為每個新加入的關(guān)鍵幀在已有關(guān)鍵幀集合（地圖）中選取距離最近的關(guān)鍵幀位置。LSD-SLAM主要流程圖如圖5所示。

DSO[21]（Direct Sparse Odometry，直接稀疏里程計）也是由LSD-SLAM的作者Engel提出的，該方法不僅從魯棒性、精準(zhǔn)度還是計算速度都遠(yuǎn)遠(yuǎn)超過之前的ORBSLAM和LSD-SLAM等方法的效果。因為采用新的深度估計機制滑動窗口優(yōu)化代替原來的卡爾曼濾波方法，所以在精度上有了十足的提高。另外，與LSD-SLAM相比，DTAM[25]引入直接法計算基于單目相機的實時稠密地圖。相機的位姿使用深度圖直接匹配整個圖像得到。然而，從單目視覺中計算稠密深度需要大量的計算力，通常是使用GPU并行運算，例如開源的REMODE[53]。因此，也有不少研究人員在這方面做了一些平衡誕生了能達到更快計算速度的方法，例如文獻[54]和文獻[20]。

圖4　ORB-SLAM2框架結(jié)構(gòu)圖

圖5　LSD-SLAM的模塊流程圖

3.3　基于混合的半直接跟蹤的方法

雖然基于直接跟蹤的方法已經(jīng)非常流行，但是低速以及沒法保證最優(yōu)性和一致性也是限制直接法的問題所在。因此有人在基于特征的方法和基于直接跟蹤的方法兩者各自優(yōu)點的基礎(chǔ)上，提出了一種混合的半直接方法即半直接視覺里程計（Semi-direct Visual Odometry，SVO）[20]，雖然SVO依舊是依賴于特征一致性，但是它的思路主要是還是通過直接法來獲取位姿，因此避免了特征匹配和外圍點處理，極大地縮短了計算時間，算法速度非常快。在嵌入式無人機平臺（ARM Cortex A9 1.6 GHz CPU）上可以做到55 f/s，而在普通筆記本上（Intel i7 2.8 GHz CPU）上可以高達300 f/s。

深度估計是構(gòu)建局部點云地圖的核心，SVO也是采用概率模型建圖。不過跟LSD-SLAM等方法不同的是，SVO的深度濾波是采用高斯分布和均勻分布的混合模型[55]，而LSD-SLAM是基于高斯分布模型。首先使用直接法求解位姿進行匹配，其次使用了經(jīng)典的Lucas-Kanade光流法[48]匹配得到子像素精度，然后結(jié)合點云地圖計算最小化重投影誤差進行優(yōu)化。如圖6所示。

圖6　SVO的模塊流程圖

整個過程相較于傳統(tǒng)的特征點法，只有選擇關(guān)鍵幀時需要依靠特征，并且去掉了匹配描述子的計算，以及使用RANSAC去除局外點的步驟，所以更加高效。同時它相比于直接法不是對整幅圖像進行直接匹配從而獲得相機位姿，而是通過在整幅圖像中提取的圖像塊來進行位姿的獲取，這樣能夠增強算法的魯棒性。SVO最大貢獻就是在巧妙設(shè)計了三次優(yōu)化的方法（優(yōu)化灰度誤差，優(yōu)化特征點預(yù)測位置，優(yōu)化重投影誤差）來滿足精度問題的同時，也保持較為優(yōu)秀的計算速度。另外，其代碼結(jié)構(gòu)較為簡潔，非常適合深入研究學(xué)習(xí)。后來Forster又證明了該方法可以拓展到多目相機系統(tǒng)[56]，跟蹤邊緣，包括運動的先驗知識，同時也支持多種相機，例如魚眼相機和透視相機。不過在半直接法方面的研究，除了Forster最新的研究[56]之外，目前還未出現(xiàn)其他有大影響力的論文。

3.4　優(yōu)缺點分析

特征點法一直是長期以來比較經(jīng)典的方法，不過其魯棒性主要建立于特征點的描述上，一方面越是增強魯棒性，增加特征點描述的復(fù)雜性，也會導(dǎo)致算法復(fù)雜度的大幅提高；另一方面，特征點沒法應(yīng)用在特征點較弱的場景，例如墻面上。直接法是近幾年比較新穎的方法，它可以適應(yīng)于特征不夠明顯的場景下，例如走廊或者光滑的墻面上[57]，具有較強魯棒性。由于跳過了特征描述和匹配的步驟，直接法，尤其是稀疏直接法，往往能夠在極快的速度下運行。它也適用于那些需要構(gòu)建半稠密或者稠密的地圖的需求場景，這是特征點法是無法實現(xiàn)的。但是直接法也存在非凸性、單個像素沒有區(qū)分度和灰度不變性假設(shè)性太牽強等問題，因此其研究和應(yīng)用仍然沒有特征點法成熟，目前只適合于運動較小，圖像整體亮度變化不大的情形。

雖然基于特征點的VO[16，23]更為主流，但是從慕尼黑大學(xué)TUM組公布的實驗結(jié)果來看，直接法的VO[20-22]在近幾年也取得很大的突破，其中基于稀疏的直接法[21]已經(jīng)比稀疏的特征點法[16]具有更快更好的效果。直接方法使用了圖像上的所有信息，甚至是像素梯度很小的區(qū)域，因此即使在場景紋理很差，失焦，運動模糊的情況下的性能也優(yōu)于基于特征的方法。根據(jù)文獻[21]對基于直接跟蹤的方法和基于特征的方法進行的噪聲實驗對比，基于直接跟蹤的方法對幾何噪聲較為敏感，例如卷簾快門相機等；而基于特征的方法對光學(xué)噪聲更為敏感，例如模糊等。因此，在普通手機設(shè)備上（一般為卷簾快門相機），基于特征的方法效果可能更好；而在基于全局快門相機的機器人中，基于直接跟蹤的方法可能越來越流行。

基于混合的半直接跟蹤的方法[20]，由Forster最早提出，具有速度快，適合于地圖不確定性的模型，同時不受運動模型假設(shè)的影響的優(yōu)點；然而由于跟蹤的特征比較少，有些情況下可能會丟失。作者不僅發(fā)布了驚艷的實驗測試視頻，并開源了其代碼框架。雖然其開源的代碼效果魯棒性不是很好，不過由于代碼規(guī)范性較好，依舊很適合初學(xué)者進行閱讀。為了更好地對比了解當(dāng)前各個方法的進展情況，本文分別選取了當(dāng)前基于特征的方法、基于直接跟蹤的方法、基于混合的半直接跟蹤的方法法中最具代表性的方法進行實驗測試，結(jié)果分別如圖7所示。

圖7　三類VO方法實現(xiàn)效果對比

4　VO主要發(fā)展趨勢及研究熱點

目前下表中所列的國內(nèi)外學(xué)術(shù)科研機構(gòu)，對VO展開了不同側(cè)重的研究，如表3所示。

雖然VO問題研究本質(zhì)上是增量地計算相機位姿問題，為上層應(yīng)用提供自身的一個位姿估計[3]，但是如何進一步提高精度、效率、魯棒性等問題一直是研究人員不懈的追求。圍繞著上述三個問題，目前已經(jīng)形成探索新型傳感器、多傳感器數(shù)據(jù)融合、應(yīng)用機器學(xué)習(xí)、探究新的緩解特征依賴和降低計算復(fù)雜度等幾個方面入手的研究熱點。

表3　國內(nèi)外前沿機構(gòu)的研究方向

4.1　探索新型傳感器

隨著2010年微軟推出RGB-D相機Kinect的興起，它具有能夠?qū)崟r獲取深度圖的特性，能夠簡化大量的計算，也逐漸成為一種稠密三維重建系統(tǒng)的實現(xiàn)方式[7，24，26-28，30]，但是一方面由于其有效距離較短，另一方面容易受到外界光源的干擾無法在室外場景中使用，限制了它沒法真正解決VO問題。文獻[58]提出基于事件相機的VO算法，并且基于擴展卡爾曼濾波器與無結(jié)構(gòu)的測量模型，集成了IMU作為數(shù)據(jù)融合的補充，以精確得到6自由度相機的位姿。未來隨著新型傳感器的出現(xiàn)，勢必會引發(fā)一陣新的熱點。

4.2　多傳感器數(shù)據(jù)融合

對于很多移動機器人來說，IMU和視覺都是必備的傳感器，它們可以數(shù)據(jù)融合互補，滿足移動機器人系統(tǒng)的魯棒性和定位精度的需求。單目攝像頭和慣導(dǎo)融合[8-10，31，59]也是一個近幾年比較流行的一個趨勢，蘋果公司在WWDC 2017大會上推出的ARKit，主要就是基于EKF對單目相機和慣導(dǎo)數(shù)據(jù)融合的思路實現(xiàn)，為開發(fā)者做室內(nèi)定位提供良好的基礎(chǔ)平臺支撐。后來又有人提出了用優(yōu)化關(guān)鍵幀[60]方式對多目相機和慣導(dǎo)數(shù)據(jù)進行融合的思路[9]。數(shù)據(jù)融合分為緊耦合和松耦合。一方面，有時候為了限制計算復(fù)雜度，許多工作遵循松耦合的原則。文獻[31]集成IMU作為獨立姿態(tài)和相關(guān)偏航測量加入到視覺的非線性優(yōu)化問題。相反，文獻[61]使用視覺位姿估計維護一個間接IMU的EKF。類似的松耦合算法還有文獻[62]和[63]，相機的位姿估計使用非線性優(yōu)化集到了因子圖，包括慣導(dǎo)和GPS數(shù)據(jù)。另一方面，由于松耦合方法本質(zhì)上是忽略了不同傳感器內(nèi)部之間的相關(guān)性，所以緊耦合方法是將相機和IMU數(shù)據(jù)合并，將所有狀態(tài)都聯(lián)合估計成一個共同問題，因此需要考慮它們之間的相關(guān)性。文獻[9]將兩類方法進行對比，實驗表明這些傳感器內(nèi)部的相關(guān)性對于高精度的視覺慣導(dǎo)系統(tǒng)（VINS）是非常關(guān)鍵的，所以高精度視覺慣導(dǎo)系統(tǒng)都是采用緊耦合來實現(xiàn)。

有學(xué)者嘗試多傳感器的融合，首先是楊紹武提出的多相機傳感器的融合[64]，還有雙目立體視覺與慣導(dǎo)、速度等數(shù)據(jù)融合[65]，其次是Akshay提出的基于點云特征的GPS-Lidar融合算法，在3D城市建模過程中能有效地降低的位置測量誤差[66]。

4.3　應(yīng)用機器學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)方法近年來在眾多領(lǐng)域中引起了廣泛的學(xué)術(shù)轟動，VO領(lǐng)域也不例外，在匹配跟蹤部分，文獻[67]提出了一種數(shù)據(jù)驅(qū)動模型（即3DMatch），通過自監(jiān)督的特征學(xué)習(xí)從現(xiàn)有的RGB-D重建結(jié)果中獲得局部空間塊的描述子，進而建立局部3D數(shù)據(jù)之間的對應(yīng)關(guān)系。對于優(yōu)化匹配誤差，傳統(tǒng)的RANSAC可能被一種新的Highway Network架構(gòu)替代，它基于多級加權(quán)殘差的跳層連接（Multilevel Weighted Residual Shortcuts）的方式，計算每個可能視差值的匹配誤差，并利用復(fù)合損失函數(shù)進行訓(xùn)練，支持圖像塊的多級比較。在精細(xì)化步驟中可用于更好地檢測異常點。文獻[68]針對這種新架構(gòu)應(yīng)用立體匹配基準(zhǔn)數(shù)據(jù)集進行實驗，結(jié)果也表明匹配置信度遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有算法。

單目VO缺乏尺度信息一直是研究人員最為關(guān)注的問題，近期有德國研究人員Keisuke等人針對低紋理區(qū)域等單目VO恢復(fù)尺度容易失敗的情況，提出一種將CNN預(yù)測的深度信息與單目直接計算的深度信息進行融合的方法，實驗表明，它解決了單目VO的一個尺度信息丟失問題[69]。

2016年Muller提出了基于光流（直接法）和深度學(xué)習(xí)的VO[70]，光流的幀作為CNN的輸入，計算旋轉(zhuǎn)和平移，順序增量式的旋轉(zhuǎn)和平移構(gòu)建相機運動軌跡地圖。實驗證明該方法比現(xiàn)有的VO系統(tǒng)具有更高的實時性。

4.4　探究新的緩解特征依賴

VO對場景特征的依賴，本質(zhì)上是由于使用了過于底層的局部特征（點特征），因此目前出現(xiàn)了不少研究提出了利用邊、平面[71]等更為高層的圖像信息來緩解特征依賴。理論上由于邊可以攜帶方向、長短、灰度值等信息，所以具備更為魯棒的特性，基于邊的特征在室內(nèi)場景（規(guī)則物品較多）應(yīng)具有更好的魯棒性。文獻[72]提出了一種結(jié)合點與邊緣優(yōu)點的單目VO算法。該算法不僅在TUM提供的單目公開數(shù)據(jù)集[21]中表現(xiàn)優(yōu)異，而且在低紋理的環(huán)境中，可以大幅降低運動估計誤差。文獻[6]主要應(yīng)用了圖模型和圖匹配機制對平面物體進行跟蹤，并且設(shè)計一種解決最優(yōu)解尋找問題的新策略，該策略能預(yù)測物體姿態(tài)和關(guān)鍵點匹配。

4.5　降低計算復(fù)雜度

目前基于RGB-D相機的實時恢復(fù)稠密場景已經(jīng)較為完善[7，24，26-28，30]，近年來，由于AR應(yīng)用研究的爆發(fā)，較早的開始研究為AR提供基礎(chǔ)技術(shù)支撐的是谷歌的Sch?ps等人，他們提出基于TSDF來融合深度圖在Project Tango上實現(xiàn)的三維重建方法[74]，其主要計算復(fù)雜度在于半稠密或稠密重建所需計算的深度估計點太多。所以目前多數(shù)的優(yōu)化手段大多集中在優(yōu)化深度估計步驟，例如DTAM[25]引入正則項對深度圖進行全局優(yōu)化，降低錯誤匹配概率。REMODE[53]則采用了深度濾波模型，不斷優(yōu)化每幀的深度測量更新概率模型的參數(shù)。上述方法雖然都能實時重建出稠密的三維點云地圖，但大多還都依賴于GPU的并行加速運算。因此，如何提高計算效率，降低計算復(fù)雜度，只用CPU即可恢復(fù)出基于單目的半稠密或稠密三維點云地圖，仍是未來一個熱門課題。

5　結(jié)論

本文從VO與視覺SLAM的對比分析入手，對VO問題進行形式化。隨后重點探究實現(xiàn)VO的各類方法的研究進展，實驗對比分析各自優(yōu)劣。最后結(jié)合國內(nèi)外一流的科研機構(gòu)在研方向，總結(jié)今后發(fā)展研究熱點。目前多數(shù)研究人員只關(guān)注白天等視野較好的理想場景，但是場景變化（白天黑夜、四季變化等）問題在實際室內(nèi)外場景中很常見，如何讓VO系統(tǒng)在這樣的環(huán)境下依舊實現(xiàn)高魯棒性應(yīng)是科研人員一個重要研究內(nèi)容。此外，為了達到實時效果，VO的計算復(fù)雜度也不能太高。

未來也可以在以下領(lǐng)域展開新的應(yīng)用研究：在消防領(lǐng)域，消防人員可以對大型室內(nèi)火災(zāi)救援現(xiàn)場進行定位，并實時繪制出運動軌跡幫助救災(zāi)人員標(biāo)記已經(jīng)搜救完成的地方，將搜救工作效率最大化；在反恐領(lǐng)域中，針對突發(fā)事件中對警犬的行為特征進行檢測分析，以便實現(xiàn)在復(fù)雜人群中通過警犬對突發(fā)事件實現(xiàn)前方預(yù)警。將VO應(yīng)用到該場景中，對警犬的位姿進行準(zhǔn)確的定位，進而以一種低成本的方式提供預(yù)警功能。

參考文獻：

[1]Durrantwhyte H，Bailey T.Simultaneous localization and mapping：Part I[J].IEEE Robotics&Automation Magazine，2006，13（3）：108-117.

[2]Durrantwhyte H，Bailey T.Simultaneous localization and mapping：Part II[J].IEEE Robotics&Automation Magazine，2006，13（3）：108-117.

[3]Nister D，Naroditsky O，Bergen J.Visual odometry[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2004：652-659.

[4]Matthies L，Maimone M，Johnson A，et al.Computer vision on mars[J].International Journal of Computer Vision，2007，75（1）：67-92.

[5]Malleson C，Gilbert A，Trumble M，et al.Real-time fullbody motion capture from video and IMUs[C]//Proceedings of International Conference on 3D Vision，2017.

[6]Wang T，Ling H.Gracker：A graph-based planar object tracker[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，2017，99.

[7]Endres F，Hess J，Sturm J，et al.3-D mapping with an RGB-D camera[J].IEEE Transactions on Robotics，2017，30（1）：177-187.

[8]Bloesch M，Omari S，Hutter M，et al.Robust visual inertial odometry using a direct EKF-based approach[C]//Proceedings of International Conference on Intelligent Robots and Systems，2015：298-304.

[9]Leutenegger S，Lynen S，Bosse M，et al.Keyframe-based visual-inertial odometry using nonlinear optimization[J].International Journal of Robotics Research，2015，34（3）：314-334.

[10]Qin T，Li P，Shen S.VINS-Mono：A robust and versatile monocular visual-inertial state estimator[J].arXiv：1708.03852v1，2017.

[11]Strasdat H，Montiel J M M，Davison A J.Visual SLAM：Why filter?[J].Image&Vision Computing，2012，30（2）：65-77.

[12]Strasdat H，Montiel J M M，Davison A J.Real-time monocular SLAM：Why filter?[C]//Proceedings of IEEE International Conference on Robotics and Automation，2010：2657-2664.

[13]Handa A，Chli M，Strasdat H，et al.Scalable active matching[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition，2010：1546-1553.

[14]Civera J，Grasa O G，Davison A J，et al.1-Point RANSAC for extended Kalman filtering：Application to real-time structure from motion and visual odometry[J].Journal of Field Robotics，2010，27（5）：609-631.

[15]Mei C，Sibley G，Cummins M，et al.RSLAM：A system for large-scale mapping in constant-time using stereo[J].International Journal of Computer Vision，2011，94（2）：198-214.

[16]Mur-Artal R，Tardós J D.ORB-SLAM2：An open-source SLAM system for monocular，stereo，and RGB-D cameras[J].IEEE Transactions on Robotics，2016，33（5）：1255-1262.

[17]高翔.視覺SLAM十四講[M].北京：電子工業(yè)出版社，2017.

[18]Davison A J，Reid I D，Molton N D，et al.MonoSLAM：Real-time single camera SLAM[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，2007，29（6）：1052.

[19]Klein G，Murray D.Parallel tracking and mapping for small AR workspaces[C]//Proc of IEEE&ACM Int Sympo on Mixed&Augmented Reality，2007：1-10.

[20]Forster C，Pizzoli M，Scaramuzza D.SVO：Fast semidirect monocular visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Automation，2014：15-22.

[21]Engel J，Koltun V，Cremers D.Direct sparse odometry[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，2017，40（3）：611-625.

[22]Engel J，Sch?ps T，Cremers D.LSD-SLAM：Large-scale direct monocular SLAM[C]//Proceedings of European Conference on Computer Vision，2014：834-849.

[23]Mur-Artal R，Montiel J M M，Tardós J D.ORB-SLAM：A versatile and accurate monocular SLAM system[J].IEEE Transactions on Robotics，2015，31（5）：1147-1163.

[24]Labbé M，Michaud F.Online global loop closure detection for large-scale multi-session graph-based SLAM[C]//Proceedings of International Conference on Intelligent Robots and Systems，2014：2661-2666.

[25]Newcombe R A，Lovegrove S J，Davison A J.DTAM：Dense tracking and mapping in real-time[C]//Proceedings of IEEE International Conference on Computer Vision，2011：2320-2327.

[26]Kerl C，Sturm J，Cremers D.Dense visual SLAM for RGB-D cameras[C]//Proceedings of International Conference on Intelligent Robots and Systems，2014：2100-2106.

[27]Whelan T，Salas-Moreno R F，Glocker B，et al.Elastic-Fusion：Real-time dense SLAM and light source estimation[J].International Journal of Robotics Research，2016，35（14）：1697-1716.

[28]Whelan T，Leutenegger S，Moreno R S，et al.Elastic-Fusion：Dense SLAM without a pose graph[J].International Journal of Robotics Research，2016，35（14）：1-9.

[29]Bloesch M，Burri M，Omari S，et al.Iterated extended Kalman filter based visual-inertial odometry using direct photometric feedback[J].International Journal of Robotics Research，2017，36（10）：1053-1072.

[30]Izadi S，Kim D，Hilliges O，et al.KinectFusion：Real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of ACM Symposium on User Interface Software and Technology，Santa Barbara，CA，USA，2011：559-568.

[31]Konolige K，Agrawal M，Solà J.Large-scale visual odometry for rough terrain[C]//Proceedings of International Symposium on Robotics Research，November 26-29，2011：201-212.

[32]Quijada S D，Zalama E，García-Bermejo J G，et al.Fast 6D odometry based on visual features and depth[M]//Intelligent Autonomous Systems 12.Berlin Heidelberg：Springer，2013：5-16.

[33]Tang C，Wang O，Tan P.GlobalSLAM：Initializationrobust Monocular Visual SLAM[J].arXiv：1708.04814v1，2017.

[34]Scaramuzza D，F(xiàn)raundorfer F.Visual Odometry[Tutorial][J].IEEE Robotics&Automation Magazine，2011，18（4）：80-92.

[35]Hartley R I.In defense of the eight-point algorithm[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，1997，19（6）：580-593.

[36]Besl P J，Mckay N D.A method for registration of 3-D shapes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1992，14（2）：239-256.

[37]Penate-Sanchez A，Andrade-Cetto J，Moreno-Noguer F.Exhaustive linearization for robust camera pose and focal length estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（10）：2387-2400.

[38]Lepetit V，Moreno-Noguer F，F(xiàn)ua P.EPnP：An accurateO（n） solution to the PnP problem[J].International Journal of Computer Vision，2009，81（2）：155-166.

[39]Wikipedia.Feature（computer vision）[EB/OL].（2016-07-09）[2017-11-01].https：//enwikipediaorg/wiki/Feature_（computer_vision）.

[40]Lowe D G.Distinctive Image features from scale-invariant key points[J].International Journal of Computer Vision，2004，60（2）：91-110.

[41]Bay H，Tuytelaars T，Gool L V.SURF：Speeded up robust features[C]//Proceedings of European Conference on Computer Vision，2006：404-417.

[42]Rublee E，Rabaud V，Konolige K，et al.ORB：An efficient alternative to SIFT or SURF[C]//Proceedings of IEEE International Conference on Computer Vision，2012：2564-2571.

[43]Leutenegger S，Chli M，Siegwart R Y.BRISK：Binary robust invariant scalable keypoints[C]//Proceedings of International Conference on Computer Vision，2011：2548-2555.

[44]Rosten E，Drummond T.Machine learning for high-speed corner detection[C]//Proceedings of European Conference on Computer Vision，2006：430-443.

[45]Calonder M，Lepetit V，Strecha C，et al.BRIEF：Binary robust independent elementary feature[C]//Proceedings of European Conference on Computer Vision，2010：778-792.

[46]Kitt B，Geiger A，Lategahn H.Visual odometry based on stereo image sequences with RANSAC-based outlier rejection scheme[C]//Proceedings of Intelligent Vehicles Symposium，2010：486-492.

[47]Geiger A，Ziegler J，Stiller C.StereoScan：Dense 3D reconstruction in real-time[C]//Proceedings of IEEE Intelligent Vehicles Symposium，2011：963-968.

[48]Baker S，Matthews I.Lucas-Kanade 20 years on：A unifying framework[J].International Journal of Computer Vision，2004，56（3）：221-255.

[49]Favaro P，Jin H，Soatto S.A semi-direct approach to structure from motion[C]//Proceedings of International Conference on Image Analysis and Processing，2001：250-255.

[50]Benhimane S，Malis E.Integration of Euclidean constraints in template based visual tracking of piecewise-planar scenes[C]//Proceedings of International Conference on Intelligent Robots and Systems，2007：1218-1223.

[51]Silveira G，Malis E，Rives P.An efficient direct approach to visual SLAM[J].IEEE Transactions on Robotics，2008，24（5）：969-979.

[52]Gokhool T，Meilland M，Rives P，et al.A dense map building approach from spherical RGBD images[C]//Proceedings of International Conference on Computer Vision Theory and Applications，2014：656-663.

[53]Pizzoli M，F(xiàn)orster C，Scaramuzza D.REMODE：Probabilistic，monocular dense reconstruction in real time[C]//ProceedingsofIEEEInternationalConferenceon Robotics and Automation，2014：2609-2616.

[54]Engel J，Cremers D.Semi-dense visual odometry for a monocular camera[C]//Proceedings of IEEE International Conference on Computer Vision，2014：1449-1456.

[55]Vogiatzis G，Hernández C.Video-based，real-time multiview stereo[J].Image&Vision Computing，2011，29（7）：434-441.

[56]Forster C，Zhang Z，Gassner M，et al.SVO：Semidirect visual odometry for monocular and multicamera systems[J].IEEE Transactions on Robotics，2017，33（2）：249-265.

[57]Lovegrove S，Davison A J，Iba?ez-Guzmán J.Accurate visual odometry from a rear parking camera[C]//Proceedings of Intelligent Vehicles Symposium，2011：788-793.

[58]Zhu A Z，Atanasov N，Daniilidis K.Event-based visual inertial odometry[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition，2017：5816-5824.

[59]Lin Y，Gao F，Qin T，et al.Autonomous aerial navigation using monocular visual-inertial fusion[J].Journal of Field Robotics，2018，35（4）：23-51.

[60]Gui J，Gu D，Wang S，et al.A review of visual inertial odometry from filtering and optimization perspectives[J].Advanced Robotics，2015，29（20）：1289-1301.

[61]Weiss S，Achtelik M W，Lynen S，et al.Real-time onboard visual-inertial state estimation and self-calibration of MAVs in unknown environments[C]//Proceedings of IEEE International Conference on Robotics and Automation，2012：957-964.

[62]Dellaert F，Ranganathan A，Kaess M.Fast 3D pose estimation with out-of-sequence measurements[[C]//Proceedings of IEEE International Conference on Intelligent Robots and Systems，2007：2486-2493.

[63]Indelman V，Williams S，Kaess M，et al.Factor graph based incremental smoothing in inertial navigation systems[C]//Proceedings of International Conference on Information Fusion，2012：2154-2161.

[64]Yang S，Scherer S A，Yi X，et al.Multi-camera visual SLAM for autonomous navigation of micro aerial vehicles[J].Robotics&Autonomous Systems，2017，93：116-134.

[65]Usenko V，Engel J，Stückler J，et al.Direct visual-inertial odometry with stereo cameras[C]//Proceedings of IEEE International Conference on Robotics and Automation，2016：1885-1892.

[66]Shetty A P.GPS-LiDAR sensor fusion aided by 3D city models for UAVs[Z].2017.

[67]Zeng A，Song S，Niebner M，et al.3DMatch：Learning local geometric descriptors from RGB-D reconstructions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition，2017：199-208.

[68]Shaked A，Wolf L.Improved stereo matching with constant highway networks and reflective confidence learning[C]//Proceedings of Conference on Computer Vision and Pattern Recognition，2016.

[69]Tateno K，Tombari F，Laina I，et al.CNN-SLAM：Realtime dense monocular SLAM with learned depth prediction[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2017：6565-6574.

[70]Muller P，Savakis A.Flowdometry：An optical flow and deep learning based approach to visual odometry[C]//Proceedings of Conference on Applications of Computer Vision，2017：624-631.

[71]Gao X，Zhang T.Robust RGB-D simultaneous localization and mapping using planar point features[J].Robotics&Autonomous Systems，2015，72：1-14.

[72]Yang S，Scherer S.Direct monocular odometry using points and lines[C]//Proceedings of Conference on IEEE International Conference on Robotics and Automation，2017：3871-3877.

[73]Sch?ps T，Sattler T，H?ne C，et al.3D Modeling on the Go：Interactive 3D reconstruction of large-scale scenes on mobile devices[C]//Proceedings of Conference on International Conference on 3D Vision，2015：291-299.

單目視覺里程計研究綜述

1 引言

1.1 視覺SLAM和VO的區(qū)別與聯(lián)系

2 VO形式化描述

3VO方法研究進展

3.1 基于特征點的方法

3.2 基于直接跟蹤的方法

3.3 基于混合的半直接跟蹤的方法

3.4 優(yōu)缺點分析

4 VO主要發(fā)展趨勢及研究熱點

4.1 探索新型傳感器

4.2 多傳感器數(shù)據(jù)融合

4.3 應(yīng)用機器學(xué)習(xí)

4.4 探究新的緩解特征依賴

4.5 降低計算復(fù)雜度

5 結(jié)論