999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視覺里程計研究綜述

2021-06-28 06:59:08胡凱吳佳勝鄭翡張彥雯陳雪超鹿奔
南京信息工程大學學報 2021年3期
關鍵詞:深度特征

胡凱 吳佳勝 鄭翡 張彥雯 陳雪超 鹿奔

1 南京信息工程大學 自動化學院,南京,210044 2 南京信息工程大學 江蘇省大氣環境與裝備技術協同創新中心,南京,210044

0 引言

為了使得計算機能夠和人一樣通過感覺器官觀察世界、理解世界和探索未知區域,視覺里程計(Visual Odometry,VO)技術應運而生.作為同步定位與地圖構建(Simultaneous Localization and Mapping,SLAM)[1-3]的前端,它能夠估計出機器人的位姿.一個優秀的視覺里程計技術能為SLAM的后端、全局地圖構建提供優質的初始值,從而讓機器人在復雜的未知環境中實現精準自主化來執行各種任務.傳統的里程計,如輪式里程計因為輪子打滑空轉而容易導致漂移,精確的激光傳感器價格昂貴,慣性傳感器雖然可以測量傳感器瞬時精確的角速度和線速度,但是隨著時間的推移,測量值有著明顯的漂移,使得計算得到的位姿信息不可靠.而視覺里程計由于視覺傳感器低廉的成本和長距離較為精準的定位在眾多傳統里程計中脫穎而出.

所謂視覺里程計就是從一系列圖像流中恢復出相機的運動位姿,這一思想最早是由Moravec[4]提出的,他們不僅在論文中第一次提出了單獨利用視覺輸入的方法估計運動,而且提出了一種最早期的角點檢測算法,并將其使用在行星探測車上,體現了現階段視覺里程計的雛形,包括特征點檢測及匹配、外點排除、位姿估計三大塊,使得視覺里程計從提出問題階段過渡到了構建算法階段,Nister等[5]在CVPR上發表的論文中提出了一種利用單目或者立體視覺相機來獲取圖像的視覺里程計系統,宣告VO技術進入了優化算法階段.隨著ORB-SLAM[6]的問世,VO作為SLAM的前端成為了研究熱潮,也代表著主流基于特征點法VO的一個高峰.Engle等[7]提出的LSD-SLAM則成功地把直接法的視覺里程計應用在了半稠密單目SLAM中.近年來涌現了各類的新穎視覺里程計系統,比如2019年Zheng等[8]提出了一種基于RGB-D傳感器的自適應視覺里程計,可以根據是否有足夠的紋理信息來自動地選擇最合適的視覺里程計算法即間接法或者直接法來估計運動姿態.

本文重點對視覺里程計的已有研究工作進行綜述,主要選取了近年來有代表性的或取得比較顯著效果的方法進行詳細的原理介紹和優缺點分析.根據是否需要提取特征點大致分為特征點法和直接法.也可以根據是否脫離經典的位姿估計模塊方法分為經典視覺里程計和新穎視覺里程計.最后總結并提出未來的發展前景.

本文第1節介紹傳統視覺里程計框架的算法.其中包括特征點法VO的關鍵技術和直接法視覺里程計中的相關算法.第2、第3節綜述最新的視覺里程計研究方法,包括第2節中慣性視覺傳感器融合的易于工程實現輕量型的VO,以及第3節中基于深度學習的視覺里程計可以通過高性能計算機實現精密建圖等功能.第4節簡要概括視覺里程計的各類標志性算法.第5節結合視覺里程計面臨的挑戰,展望了未來的發展方向.

1 傳統視覺里程計

傳統視覺里程計沿用了Nister等[5]的VO框架,即依據相鄰幀之間特定像素幾何關系估計出相機的位姿信息,包括位置(x,y,z)和滾轉角(roll)、俯仰角(pitch)以及偏航角(yaw)三個方向信息.根據是否需要提取特征,分為特征點法和以灰度不變假設為前提的直接法.

1.1 特征點法

特征點法首先從圖像中提取出關鍵特征點,然后通過匹配特征點的手段估計出相機運動.大致分為了兩個部分,即特征點的提取匹配和相機運動的位姿估計.特征點法在視覺里程計中占據了主要地位,是因為其運行穩定,而且近年來研究者們設計了許多具有更好魯棒性的圖像特征,這些特征對于光照敏感性低,而且大多擁有旋轉不變性和尺度不變性.線面特征的提出更是使得特征點法適應了紋理信息少的場景.特征點法示意如圖1所示.

圖1 特征點法示意圖Fig.1 Schematic diagram of feature-based method

1.1.1 特征提取及匹配

經典的特征算子有SUSAN[9]、Harris[10]、FAST[11]、Shi-Tomasi[12]、SIFT[13]、SURF[14]、PCA-SIFT[15]、ORB[16],其中最為基礎也是最為經典的是Harris和SIFT(尺度不變特征變換)算法,現有的算法基本都是基于這兩者,可以看作是Harris和SIFT的簡化和改進.Harris角點檢測算法運用了微分運算和角點鄰域的灰度二階矩陣,而微分運算對圖像密度和對亮度的變化不敏感性和二階矩陣特征值不變性使得Harris角點檢測算子擁有了光照變化不敏感、旋轉不變性.后來出現了SUSAN算子,它的原理和步驟和Harris較為相似,但是SUSAN算子不僅擁有較好的邊緣檢測性能,在角點檢測方面也有較好的效果,能夠應用在需要輪廓提取的環境下.

但是Harris算子和SUSAN算子都不具備尺度不變性,這是一個很大的缺陷.因為視覺傳感器獲得的圖像除了旋轉和光照變化之外,往往尺度都不具有一致性.

而SIFT算子充分考慮了在圖像變換過程中出現的光照、尺度、旋轉等變化.SIFT算法在所有尺寸空間上通過高斯微分函數來識別出可能存在的尺度和旋轉不變的特征點,使得SIFT具有尺度不變性.然后對DoG空間進行擬合處理,找到穩定的關鍵點的精確位置和尺寸.基于圖像局部的梯度方向,分配給每個關鍵點位置方向信息,使得SFIT算子具有旋轉不變性.此時關鍵點的位置、尺度和方向信息已確定,接下來需要描述符來描述關鍵點.其描述符根據圖像局部梯度變換而來,這種表示允許比較大的局部形狀的變形和光照變化.雖然SIFT有很多優點,但計算量極大,一般SIFT算法運用在不考慮計算成本的場景中.

SURF(Speeded Up Robust Features,加速穩健特征)在SIFT基礎上進行改進,大大提升了運行速度.它采用了盒式濾波器來近似高斯濾波,對圖像進行濾波之后,計算像素的黑塞(Hessian)矩陣行列式近似值,而盒式濾波器對圖像的濾波轉化成計算圖像上不同區域間像素和的加減運算問題,只需要簡單幾次查找積分圖就可以完成.SURF節省了大量時間,兼顧了效果和精度.

Ke等[15]通過對SIFT的描述子數據進行主成分分析,對數據進行了降維,最終也達到了加快算法的運行速度的目的.PCA-SIFT構建了一個包含所有特征點和其描述子信息的特征矩陣,然后計算矩陣的協方差矩陣的特征向量,并選擇前n個較大的特征向量構成投影矩陣,再把描述子向量與投影矩陣相乘即可降維.PCA-SIFT對于旋轉和光照有較好的不敏感性,但是由于PCA-SIFT不完全的仿射不變性,投影矩陣需要在特征比較明顯的場景下才能起作用.

現階段能夠較為快速、穩定且準確地運用在視覺里程計上的是ORB算法,它充分考慮了SLAM系統需要的實時性、魯棒性和準確性,為后端提供了較好的初始值.它采用了改進的Fast關鍵點檢測,構建了圖像金字塔,在每一個尺度層檢測關鍵點,從而實現尺度不變性;特征的旋轉不變性由灰度質心法實現.ORB使用BRIEF描述子,它是一個二進制向量,是在提取關鍵點之后,在其鄰域內選擇N個點對比較像素大小,例如假設pn(xi,yi),qn(xj,yj)是某關鍵點鄰域內的第N個點對.(xi,yi)和(xj,yj)分別是pn,qn的坐標,若pn(xi,yi)的像素值小于qn(xj,yj)的像素值則取0,否則為1.經過N次比較后得到一個N維的描述子向量.

以上所述的都是傳統的特征點法,它們由于環境因素導致的特征分布不均勻、紋理信息單一甚至是相機模糊等問題而提取不到足夠的關鍵點,這種情況是普遍存在的,使得特征點法無法很好地運行,間接影響了后續位姿估計的精度.而線特征對于光照有著不敏感的特性,所以能夠使得VO系統很好地適應弱紋理環境的場景.

Lu等[17]提出了使用點線特征的視覺里程計,該算法吸收了直接法與特征點匹配法的優點,在紋理較少的環境中有不錯的效果.通過增大算法的收斂域,該算法對于光照變化和快速運動的場景有更好的魯棒性.在跟蹤部分,同時處理點特征和線特征,點特征根據實際情況選用特征提取算法,比如SURF;線特征跟蹤部分,由于在針孔相機模型中,從世界坐標系中點或者線投影到相機成像平面的投影線始終保持直線,為了檢測世界坐標系中的三維線,需要在對應的相機圖像中檢測它們的投影.所以使用LSD[18]算法來提取線特征,效果如圖2所示.

圖2 LSD算法提取線特征效果Fig.2 Line feature extraction by LSD

與點特征會有外點一樣,線特征也會有離群點.RANSAC算法在濾除離群點的同時檢測三維線段的存在,對提取到的線特征的MSLD描述符[19]進行最近鄰匹配,如圖3所示.

圖3 采樣點選擇示意圖[19]Fig.3 Schematic diagram of sampling point selection[19]

雖然結合了線特征使得VO系統在復雜惡劣的環境中更加穩定、準確,但是同時也增加了計算量,會降低實時性.比如Pumarola等[20]提出了一種基于單目相機的融合點線特征的實時PL-SLAM系統,通過引入線特征提升了ORB-SLAM算法的精度,同時也增大了計算復雜度,尤其是在特征匹配階段.PL-SLAM在單目ORB-SLAM的基礎進行改進,把LSD線段提取算法與ORB特征點提取算法融合,使得ORB-SLAM擁有了適應低紋理環境的能力,還提出了新的初始化策略,即在連續三幀圖像中只能檢測到線特征的情況下,估計出一個近似的初始化地圖.

Gomez-Ojeda等[21]則是通過點線特征的組合把PL-SLAM系統運用到立體視覺上,讓線特征在視覺里程計系統上的使用更加泛化,再利用(Pseudo-Huber)損失函數來剔除誤匹配的特征.最近文獻[22]引入了與強角點即某些屬性特別高的點相結合的邊緣,提高具有很少或高頻紋理的環境中的穩健性.Zhao等[23]提出了一種由兩個反投影平面的法線來表示線特征的參數化,從而使得線特征的重投影誤差達到最小值,這種方法可以降低PL-SLAM系統對線特征的端點進行參數化造成計算冗余的負面影響.表1中列舉了當前特征檢測算法在旋轉不變性、尺度不變性、光照不變性、可重復性、抗干擾性和計算效率幾個方面的性能比較.

表1 特征檢測算法性能比較

1.1.2 位姿估計

位姿估計是視覺里程計系統中的核心,也是其重要目標.位姿估計也就是通過分析相機與空間點的幾何關系,從而計算出把K-1時刻的相機位姿變換到K時刻相機位姿的變換矩陣Tk,k-1.根據時間序列把相鄰時刻的運動串聯起來,這樣就構成了機器人或者相機的運動軌跡.無監督學習VO、VISO2-Mono和VISO2-Stereo在KITTI數據集上的運動軌跡如圖4所示.

圖4 運動軌跡效果Fig.4 Motion track rendering

根據不同視覺傳感器獲得不同的圖像信息而分成三種基本的運動估計計算方法.

1) ICP方法.若相機能夠通過某種方式獲得深度信息如使用雙目相機或者RGB-D相機,此時通常使用ICP算法(迭代最近點算法)[24]來解決.假設在相鄰幀有一組匹配好的3D點P={p1,p2,…,pn}和P′={p′1,p′2,…,p′n},位姿估計也就是想要找到一個旋轉矩陣R和平移向量t使得?i,pi=Rp′i+t.由此3D-3D(3D即三維圖像的3D點)之間的位姿估計可以轉換為求解最小化三維點之間誤差的數學模型,即ei=pi-(Rp′i+t).

現有的ICP求解方式分為兩種,一種是線性代數的求解法比如奇異值分解法(SVD)[25],它可以分為三步:

③計算平移向量t*,t*=q-Rq′.

另一種是非線性優化方法,通過迭代的方式找到最優值.它類似Bundle Adjustment方法,構建目標函數即式(1)之后,把相機位姿作為一個變量,不斷迭代、更新、優化,得出一個最優的位姿:

(1)

其中在ξ右上角的倒三角符號∧表示把ξ六維向量(前三維是平移向量,后三維是旋轉向量)轉換為一個四維矩陣.

2) 對極幾何方法.若能獲得的圖像只有2D圖像,如機器人使用單目相機而無法獲得深度信息,此時使用對極幾何方法解決.對極幾何用在只知道匹配點的2D像素坐標的情況下,一般是機器人使用的相機傳感器為單目相機.3D-3D或者3D-2D問題都至少需要獲得一組特征點是三維的,所以需要用至少兩個單目相機或者能夠獲得深度的RGB-D相機,而解決2D-2D問題只需要一個單目相機,它以其低廉的價格在眾多里程計方案中脫穎而出.為了探索2D點之間的幾何關系,一般引入對極幾何約束.如圖5所示,pi-1,pi分別是圖像Ii-1,Ii中的由上述的特征匹配方法所得一個特征點,它們都是世界坐標系中空間點P的投影.假設這是一次正確的匹配,其中Oi-1,Oi是兩個相機的光心,li-1,li分別是Ii-1,Ii中的極線.

圖5 對極幾何約束示意圖Fig.5 Schematic diagram of polar geometric constraints

為了求解出它們之間的運動,即求解旋轉矩陣R、平移向量t,引入對極幾何約束,可以得出式(2),(3).其中t∧表示向量t的反對稱矩陣,上標T表示轉置,K為相機的內參矩陣.

(2)

(3)

從而可以從式(3)中的本質矩陣E、基礎矩陣F解出R和t,常用八點法[26]或者復雜一點的五點法[27]來求解.如果相機畫面中的特征點都落在同一平面上則需要單應矩陣來估計運動.

3) PnP方法.PnP方法用來解決相鄰時刻僅有一個時刻的圖像能獲得深度信息的情況.PnP(Perspective-n-Point)是求解相鄰兩幀圖像中特征點一幀是二維特征點而另一個是三維特征點的運動估計方法.PnP求解的方式有很多種,其中Moreno-Noguer等[28]對此有很大的貢獻.常用的解決方法有至少需要6對匹配點的直接線性變換(DLT),有只需要3對匹配點的P3P,也有后續更為復雜的EPnP和UPnP,還可以轉化為非線性優化的方式,利用迭代法求解構建的最小二乘問題.其中DLT把旋轉矩陣R和平移向量t定義成一個增廣矩陣[R|t],根據空間點與其投影到相機成像平面對應的特征點之間的關系而求解位姿估計問題;P3P則是利用給定的3個點之間形成的三角形相似性質來解決3D-2D位姿估計問題,把2D點轉換成相機坐標系下的3D坐標,然后就變成了3D-3D的位姿估計問題,如圖6所示.其中O為相機光心,A,B,C分別為3個3D點,a,b,c分別為3個2D點,L為3D點的投影平面.

圖6 P3P問題示意圖Fig.6 Schematic diagram of P3P problem

1.2 直接法

雖然特征點法是主流方法,但是相比于直接法仍然有著很多缺點.比如特征點法需要十分耗時地提取特征,計算描述子的操作丟失了除了特征點以外的很多信息,而且更加適應低紋理信息場景.直接法不同于特征點法最小化重投影誤差,而是通過最小化相鄰幀之間的灰度誤差估計相機運動,但是基于灰度不變假設:

I(x,y,z)=I(x+Δx,y+Δy,z+Δz).

(4)

例如假設空間有點P投影到相鄰兩幀圖像上有p1,p2兩點.它們的亮度分別為I1(p1,i)和I2(p2,i),其中i表示當前圖像中第i個點.則優化目標就是這兩點的亮度誤差ei的二范數.此法可以應用在紋理信息較少、無法提取到足夠的特征點的場景下,直接估計相機的運動.直接法示意如圖7所示.

圖7 直接法示意圖Fig.7 Schematic diagram of direct visual odometry

其中T和ξ分別是p1,p2之間的轉換矩陣及其李代數.式(8)ξ∧右上角的∧表示把ξ轉為一個四維矩陣,從而通過指數映射成為變換矩陣.

Ma等[29]已經成功地把直接法用于RGB-D視覺傳感器上.為了讓計算量頗大的直接法能夠實時地運行在單個CPU上,文獻[30]提出了一種半稠密型深度濾波器公式,它能夠大大降低計算復雜度,甚至還可以在智能手機上使用AR技術.LSD-SLAM[7]改進了傳統直接法,將深度噪聲加入到最小化光度誤差的公式中得到較好的效果,它是單目直接法的標志性算法,是一種半稠密直接法.

直接法應用到完整的V-SLAM系統時,如果有恰當特征點的輔助,將會使得系統變得更加魯棒和精準.如Forster等[31]提出一種半直接法SVO(Semi direct monocular Visual Odometry),它結合了特征點和直接法,在追蹤部分使用稀疏直接法對稀疏關鍵點獲得粗略的位姿信息,并利用光流法來找到當前幀和地圖點對應幀的像素塊,優化后把關鍵幀地圖點投影到當前幀.

2018年,Zhang等[32]提出的DOVO根據ORB特征獲取的關鍵點數量和一個閾值K來評估使用ORB特征進行姿態估計的可靠性.如果關鍵點的數量小于閾值K,則采用直接法保持攝像機的跟蹤,并根據場景的光度優化光度誤差來估計攝像機的姿態,否則通過優化重投影誤差來計算姿態估計.實驗結果表明,該方法保證了姿態的準確性和實時性.

Engel等[33]提出一種純使用直接法的視覺里程計DSO(Direct Sparse Odometry).不同于傳統的直接法,它將數據關聯與位姿估計轉換成一個統一的非線性優化問題.其第一創新點是通過光度標定改善由于相機參數改變引起的圖像亮度變化問題,第二個創新點則是滑動窗口優化有效地控制了優化的計算量,又有良好的優化效果.實驗結果表明,無論在跟蹤精度還是魯棒性方面,該方法在各種真實環境下都顯著優于最先進的直接和間接方法.DSO的出現將直接法的視覺里程計推上了一個新的高度.但是由于直接法相比于特征點法具有的非凸性,限制了DSO在處理視頻時的效果.2019年,Sun等[34]提出的FSMO(Fully Scaled Monocular direct sparse Odometry)基于DSO在原有的能量函數中增加了距離測量值,減少了直接法能量函數的非凸性帶來的影響.這可以理解為式(5)的一種變形,即:

Etotal=Eframe+λ·Edis,

(9)

其中Eframe表示光度誤差,Edis是距離誤差,λ用來保持Eframe和Edis在一個數量級上.

2 慣性視覺融合

不管特征點法還是直接法要準確地估計出圖像之間的變換都需要消耗很大的計算量,所以實際應用中,為了易于工程的實現,一個機器人往往攜帶多種傳感器.由于慣性傳感器(IMU)能夠在短時間內精確測量傳感器的角速度和加速度,但是如果長時間應用累積誤差嚴重.IMU與相機傳感器結合,稱為視覺慣性里程計VIO (Visual-Inertial Odometry),可以分為基于濾波和基于優化的兩大類VIO,也可以根據兩個傳感器數據應用的方法不同分為松耦合和緊耦合.松耦合是指IMU和相機分別進行位姿估計,緊耦合是指相機數據和IMU數據融合,共同構建運動方程和觀測方程進行位姿估計.

現階段基于非線性優化的方案有VINS-Mono、OKVIS等,還有基于濾波的緊耦合算法,它需要把相機圖像特征向量加入到系統的狀態向量中,使得狀態向量的維度非常高,從而也會消耗更大的計算資源,MSCKF(Multi-State Constraint Kalman Filter)[35]和ROVIO(RObust Visual Inertial Odometery)[36]是其中具有代表性的算法.傳統的基于EKF(擴展卡爾曼濾波)的視覺里程計與IMU數據融合時,EKF的更新是基于單幀觀測的,每個時刻的狀態向量保存的是當前幀的位姿信息、速度、變換矩陣和IMU的誤差等,使用IMU做預測步驟,視覺信息作為更新步驟.而MSCKF以類似滑動窗口(sliding window)的形式,使一個特征點在幾個位姿都被觀察到,從而建立約束,再進行濾波更新,它避免了僅依賴兩幀相對的運動估計帶來的計算負擔和信息損失,大大提高了收斂性和魯棒性.圖8為MSCKF的滑動窗口原理圖.

圖8 EKF點約束狀態與MSCKF點約束狀態對比Fig.8 Comparison in point constraining between EKF and MSCKF

ROVIO是一種基于單目相機的EKF濾波VIO,它直接優點是計算量小,但是需要根據設備型號調整到適合的參數,參數也是影響精度的重要因素.ROVIO應用在SLAM系統中時沒有閉環,也沒有建圖的線程,所以誤差會有漂移.

針對基于濾波的松耦合,為了降低計算量,通過把圖像信息當作一個黑盒,將VO的位姿估計結果與IMU數據進行融合,來減小狀態向量維度.是一個很好的思路.

Weiss[37]在他的博士論文中詳細介紹了視覺和IMU基于EKF的融合過程以及多傳感器下構建的融合框架.其中,Ethzasl_SSF和Ethzasl_MSF都是基于濾波的松耦合中優秀的開源算法.Ethzasl_SSF主要是處理視覺與單個慣性傳感器的融合問題,而Ethzasl_MSF 提出了與多傳感器融合框架,會使用深度相機、激光、IMU等一系列傳感器的數據來最終輸出一個穩定的姿態.濾波器的狀態向量是24維,如式(10),相比于緊耦合的方法精簡很多.

(10)

其中除了不同坐標系變換的位置和四元數之外,還加入了陀螺儀bw和加速度計ba的偏差和,以及單目視覺尺度縮放的視覺比例因子λ.

OKVIS(Open Key-frame-based Visual-Inertial SLAM)[38]和香港科技大學沈邵劼課題組的VINS[39]是基于優化方法的VIO現階段效果最好的算法.OKVIS是基于關鍵幀優化的VIO,它將視覺和IMU的誤差項和狀態量放在一起進行優化.在VO和SLAM中,通過最小化相機幀中觀察到的地標的重投影誤差來進行非線性優化以找到相機位姿和地標位置.圖9上部為純視覺VO示意圖,下部為加上IMU后VO的示意圖.IMU對相鄰兩幀的位姿之間添加約束,而且對每一幀添加了狀態量(陀螺儀和加速度計的偏差及速度).對于這樣的新結構,文獻[38]建立了一個包含重投影誤差和IMU誤差項的統一損失函數進行聯合優化:

圖9 OKVIS視覺與IMU的融合結構示意圖Fig.9 Structure of OKVIS vision fused with IMU

(11)

IMU誤差項的實現和文獻[40]一致,OKVIS優化也是預積分的思路.OKVIS 將前后幀IMU測量值做積分,因為積分會用到 IMU 的偏差,而偏差是狀態量,每次迭代時是變化的.所以每次迭代時會根據狀態量相對于偏差的雅可比重新計算預積分值,當偏差變化太大時,不能再用雅可比近似計算預積分值,這時會根據IMU測量值重新進行積分.

VINS也是類似的思路.VINS-Mono[39]是VINS開源的單目視覺慣性SLAM方案,是基于滑動窗口優化實現的VIO,使用IMU預積分構建緊耦合框架,是具備自動初始化、在線外參標定、重定位、閉環檢測,以及全局位姿圖優化功能的一套完整的SLAM系統.該算法的前端(VO)是Harris角點加LK光流跟蹤,閉環檢測添加了BoW詞袋算法.VINS-Mono主要設計用于狀態估計和自主無人機的反饋控制,但它也能夠為AR應用提供精確定位,與ROS完全集成.此外,團隊還開源了IOS版本VINS-Mobile[41],致力于部分AR的APP的研究.

3 基于深度學習的視覺里程計

除了與別的傳感器進行融合這一思路之外,由于視覺里程計獲得的都是圖像信息,而深度學習在對圖像識別、檢測、分割方面的發展尤為迅速,從而為兩者結合提供了良好的基礎.深度學習與視覺里程計的多方面都有所結合,相比傳統視覺里程計的人工特征,深度學習有著較為優秀的自動特征表征能力,且和直接法一樣不需要計算描述子,也不需要傳統視覺里程計復雜的工程,比如相機參數標定,各種傳統的人工特征或者角點在面臨光照變化、動態場景或者是圖像紋理較為單一的情況時都有一定的敏感性,對于這些問題,基于深度學習的特征提取技術使得視覺里程計的性能有了一定的改善.用來解決位姿估計問題的深度學習技術大致分為監督學習和無監督學習兩種.

監督學習網絡中,最開始Kendall等[42]提出PoseNet,他們使用CNN粗略地預測出相機運動的速度和方向,使用SFM自動生成訓練樣本的標注,在沒有大量數據標簽情況下,通過遷移學習實現了輸出較為精準的位姿信息.Costante等[43]用稠密光流代替RGB圖像作為CNN的輸入.該系統設計了三種不同的CNN架構用于VO的特征學習,實現了算法在圖像模糊和曝光不足等條件下的魯棒性.然而,同PoseNet一樣,實驗結果表明訓練數據對于算法影響很大.當圖像序列幀間運動較大時,算法誤差很大,這主要是由于訓練數據缺少高速訓練樣本.

目前效果較好的DeepVO[44],網絡結構如圖10所示.它能夠從序列原始圖像直接映射出其對應的位姿,是基于RCNN(遞歸卷積神經網絡)的,它分為兩個部分:首先通過卷積神經網絡(CNN)學習圖像的特征,然后通過深度遞歸神經網絡學習(RNN)隱式地學習圖像間的動力學關系及內在聯系,運用各種大小的卷積核來更好地提取感興趣特征使網絡能夠更好地提取各種特征.通過這種CNN網絡學習得到的特征描述不僅將原始的高維RGB圖像壓縮成一個緊湊的描述,而且提高了后續的連續圖像序列的訓練效果.將CNN的最后一個卷積層(Conv6)提取到的特征傳遞給下一部分的RNN,第二部分的RNN為了能夠發現和利用圖像之間的相關性,使用了一種LSTM(Long Short-Term Memory)在較長的運動軌跡上實現這個目的.它能夠隨著時間的推移仍然保持隱藏狀態的記憶,并且在隱藏狀態之間存在反饋回路,使得當前的隱藏狀態與之前狀態存在的函數關系.因此它能夠找出輸入圖像和姿態之間的聯系.RNN在k時刻的狀態更新公式如下:

圖10 DeepVO結構示意圖[44]Fig.10 DeepVO structure[44]

hk=H(WxhXk+Whhhk-1+bh),

(12)

yk=Whyhk+by,

(13)

其中hk和yk為k時刻的隱藏狀態和輸出,W項表示相應的權矩陣,b項表示偏置向量,H為非線性激活函數(如sigmoid).RNN根據CNN生成的視覺特征,隨著相機的移動和圖像的獲取在每一步輸出一個6維姿態估計,包括位置信息和姿態信息.

還有一種不需要數據標簽的無監督學習方法,一定程度上解決了監督學習由于缺少訓練樣本帶來的問題.文獻[45]通過無監學習的方式進行單一圖像的深度估計,該方法采用雙目數據集,通過多重目標損失訓練網絡產生視差圖.通過模型的訓練,該網絡對單個圖像深度估計達到高精度,超過了最先進的監督學習方法.Zhou等[46]提出了一種用于深度和相機運動估計的無監督深度學習框架,其深度預測和姿態估計結果較好.

2019年,Liu等[47]創建了一種單目視覺里程計的無監督訓練框架,每次位姿估計時無需根據實際值計算尺度因子,而是通過把單目圖像和深度信息輸入到訓練網絡來獲得絕對尺度.他們的框架不需要相機真實的姿態來訓練網絡,實際姿態只用來評估系統的性能.該網絡基于RCNN的框架,圖像通過卷積層提取特征后,把特征輸入到LSTM網絡中分別輸出旋轉矩陣和平移向量.為了尋到最優參數,需要最小化損失函數,其描述了RCNN生成的姿態與預期結果之間的距離.利用RCNN得出的變換矩陣和對應的點云值計算二維空間損失函數和三維空間損失函數.對于二維損失函數,首先通過變換矩陣和深度值把當前幀It的點投影到下一幀It+1,于是得到一個新幀I′t,二維損失函數如式(14)所示.三維損失函數是把當前幀的點云Ct變換到相鄰幀后得到C′t,計算變換前后點云圖的差距,如式(15)所示.最終通過加權系數λ2D和λ3D融合兩個損失函數,如式(16)所示.

(14)

(15)

L=λ2DL2D+λ3DL3D.

(16)

現階段基于深度學習的VO并不能取代傳統的基于幾何方法的VO,而是一種可行的補充.因為深度學習提取得到的都是表象特征,但幾何特征對VO是至關重要的.

4 標志性視覺里程計系統歸納

目前的基于傳統視覺里程計框架的算法中,ORB-SLAM2[48]應對各種場景已經有了較好的魯棒性和實時性,但是面對光照變化大、圖像紋理信息較少的情況或者在動態場景中,傳統VO框架無法很好地發揮作用.使用點線特征結合的PL-SLAM使得ORB-SLAM2不管是否缺少紋理特征信息都能精確地估計位姿.而當面對動態環境時本文綜述了兩個思路.一是不考慮計算成本只求精度的時候,可以使用DeepVO、SFM-Net等基于深度學習的高性能的視覺里程計,而有些問題,誤差由于VO只用相機獲取信息的途徑而無法消除避免,多傳感器融合可以很好的減小此類問題對定位帶來的影響,例如MSCKF.表2中分析了現有的VO算法的貢獻和特點,包括視覺慣性傳感器融合和基于深度學習的視覺里程計算法.表3中收集各類VO算法的開源代碼.

表2 優秀VO算法的貢獻和特點

表3 各類開源VO系統實現代碼地址表

5 總結與展望

本文對視覺里程計的三個模塊即像素跟蹤模塊、外點排除模塊和位姿估計模塊進行了綜述,介紹了近幾年的視覺里程計算法.其中著重介紹了像素跟蹤模塊,包括傳統的基于點特征法和直接法的視覺里程計(VO),還對比較新穎的線特征和線特征運用在VO系統中的優勢進行了介紹.在外點排除和運動估計模塊簡略地介紹了相關理論知識.最后結合最新的算法詳細介紹了當前較為火熱的兩個VO發展趨勢,即以視覺慣性傳感器融合為例的多傳感器融合的SLAM前端算法,以及基于深度學習的視覺里程計.

挑戰和機遇是一對“雙胞胎”,VO技術也是如此,面臨挑戰時往往會帶來機遇.未來視覺里程計可能的發展趨勢如下:

1)結合地圖語義信息.由于環境中普遍存在動態場景造成的實際樣本和檢測樣本之間誤差降低了目前大部分的算法模型的位姿估計和軌跡的精度,通過結合語義地圖的方式將從幾何和語義兩個方面來感知場景,使得應用對象對環境內容有抽象理解,獲取更多的信息,從而來減小動態場景帶來的誤差,還可以為SLAM中的回環檢測帶來更多信息從而提高精度,但是計算成本會增加很多.適合通過高性能的計算設備用于實現精密地圖構建、場景理解等功能的場合.

2)多機器人協同的視覺里程計系統.單個機器人可能無法快速熟悉環境特征及其相對于環境特征的位置,也可能在執行任務的過程中損壞.為了穩定的精準導航,開發分布式系統來實現視覺里程計將是一個發展方向.使用多個機器人可以有很多優點,例如可以減少探索一個環境所需的時間、不同的信息來源將提供更多的信息、分布式系統對故障更健壯等.但是多個機器人VO的缺點就是必須將每個機器人生成的地圖合并成一張全局地圖,同時還需要自我定位與其他機器人協作.由于單個地圖以及機器人之間的相對姿態的不確定性,使得地圖合并變得更加困難.

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 欧美一区福利| 亚洲一本大道在线| 一本久道久综合久久鬼色| 亚洲男人天堂久久| 米奇精品一区二区三区| 日本免费a视频| 亚洲综合色区在线播放2019| 伊人久久久久久久| 中文字幕在线视频免费| 免费看a毛片| 欧洲成人在线观看| 亚洲无码电影| 狠狠干综合| 美女啪啪无遮挡| 久热re国产手机在线观看| 国产成人综合亚洲欧洲色就色| 成人在线综合| 成人va亚洲va欧美天堂| 国产精品99r8在线观看| 丝袜美女被出水视频一区| 91久久国产成人免费观看| 98精品全国免费观看视频| 青青草国产免费国产| 国产午夜看片| 国产日韩欧美黄色片免费观看| 成人在线观看一区| 青草视频久久| 9966国产精品视频| 欧美日韩高清| 伊人久久大香线蕉aⅴ色| 亚洲天堂啪啪| 亚洲无码高清视频在线观看 | 国产极品嫩模在线观看91| 亚洲福利片无码最新在线播放| 欧美翘臀一区二区三区| 综合社区亚洲熟妇p| 色首页AV在线| 91毛片网| 中文字幕精品一区二区三区视频| 国内老司机精品视频在线播出| 26uuu国产精品视频| 四虎AV麻豆| 久久性妇女精品免费| 996免费视频国产在线播放| 亚洲av无码成人专区| 999精品在线视频| 欧美啪啪视频免码| 免费国产高清视频| 国产精品福利尤物youwu| 欧美精品高清| 免费在线不卡视频| 黄色网站不卡无码| 中文字幕资源站| 亚洲色图综合在线| 无码专区国产精品一区| 亚洲视频免费播放| 中日韩一区二区三区中文免费视频| 色爽网免费视频| 亚洲性日韩精品一区二区| 好吊日免费视频| 精品成人一区二区三区电影 | 国产女主播一区| 亚洲最新在线| 欧美一级大片在线观看| 亚洲二区视频| 青青青草国产| 97在线公开视频| 热久久综合这里只有精品电影| 中文字幕在线日韩91| 国产成人亚洲精品蜜芽影院| 国产精品原创不卡在线| 伊人久久久久久久| 一本大道东京热无码av| 国产视频入口| 大陆国产精品视频| 国产成人成人一区二区| 亚洲国产精品无码AV| 人妻中文久热无码丝袜| 亚洲人成网站色7799在线播放| 特级做a爰片毛片免费69| 成人av专区精品无码国产 | 国产第八页|