無監督深度學習單目視覺里程計研究

2023-04-24 02:30:38凌智琛鄧甘霖

導航定位與授時 2023年2期

李鵬,黃鵬,凌智琛,鄧甘霖

(湘潭大學自動化與電子信息學院,湖南湘潭 411100)

0 引言

移動機器人和自動駕駛技術近年來得到了快速發展,對自主定位和導航的精度要求也越來越高。在室內或弱衛星導航環境下,基于視覺的同時定位與建圖(simultaneous localization and mapping,SLAM)技術有著至關重要的作用,視覺里程計(visual odometry,VO)作為視覺SLAM的關鍵環節,也受到了越來越多的關注和研究。

視覺里程計可分為基于特征的方法和直接方法。基于特征的方法[1-2]通過檢測特征點和提取局部描述符作為中間表示,在圖像之間進行特征匹配,并且使用重投影誤差來優化相機位姿。而直接方法[3-5]則對圖像形成過程建模,通過假設灰度不變性對光度誤差函數進行優化。

深度學習近年來席卷了計算機視覺領域,基于深度學習的SLAM研究也取得了顯著進展。目前相關工作主要關注SLAM標準環節的子問題,例如特征提取[6]、特征匹配[7-8]和異常值剔除[9]等。端到端的視覺里程計框架[10-11]提出了從卷積神經網絡(convolutional neural networks, CNN)中直接回歸相機相對姿態或定位信息。CNN-SLAM[12]在LSD-SLAM[4]的基礎上,將深度估計和圖像匹配均替換成基于CNN[13]的方法,但在室外精度嚴重不足。GEN-SLAM[14]使用單目RGB相機,利用傳統幾何SLAM的結果來訓練網絡得到位姿和深度估計。文獻[15]提出了一種基于改進雙流網絡結構的VO,并在卷積層中加入注意力機制。SfM-Lear-ner[11]同時訓練姿態和深度網絡,得到了與ORB-SLAM相競爭的結果。Deep-VO-Feat[10]和D3VO[16]使用雙目相機進行訓練,可在單目相機運行下直接得到真實尺度下的軌跡。文獻[17]使用長短時記憶網絡進行時序建模,端到端地輸出位姿。然而,由于缺乏多視圖幾何約束[18],端到端的深度學習方法往往面臨著極大的尺度漂移問題,很難取得與傳統VO[19]相競爭的結果。

光流估計作為視覺SLAM的子問題,傳統方法大多是基于Horn-Schunck算法[20]與Lucas-Kanade算法[21]進行求解。最近,研究發現基于深度學習的方法可提取密集光流,在精度上大大優于傳統方法。結合人工合成和真實數據的訓練標簽,FlowNet[22]首先提出了使用CNN訓練光流,SpyNet[23]和PWC-Net[24]等使用從粗到細的金字塔結構進行迭代細化。

本文提出了一種基于無監督深度網絡和光流網絡的視覺里程計。該方法結合了深度學習提取特征的魯棒性和多視圖投影原理的幾何約束。利用深度一致性和圖像相似性損失函數得到尺度一致的深度估計網絡,并與RAFT(recurrent all-pairs field transforms)光流網絡[25]聯合訓練得到更加魯棒的光流。深度估計網絡和光流網絡作為中間信息,并不直接輸出相機位姿,而是根據前后一致性誤差,在密集光流中進行稀疏采樣,得到準確的對應關系。然后,利用多視圖幾何約束,并根據其結構關系選擇最優跟蹤方式,聯合深度網絡進行深度對齊,從而得到尺度一致的視覺里程計。

1 網絡結構

無監督學習的關鍵是使用圖像重建損失[26],利用估計的深度、位姿、光流和源圖像計算合成圖像與目標圖像之間的差異。單視圖深度網絡、光流網絡和相機相對姿態網絡是3個單獨的任務,但他們有相互關聯的圖像相似性約束關系,通過視圖合成,在現有無監督信號的基礎上,結合空間一致性損失函數和圖像相似性損失函數,耦合這3個網絡的訓練過程。

網絡框架主要包括三部分:單視圖深度估計網絡、姿態估計網絡和光流網絡。深度估計網絡接收單個RGB圖像作為輸入并輸出逆深度圖,位姿網絡和光流網絡均接收兩幀圖像作為輸入,位姿網絡輸出兩幀之間的六自由度相對位姿,光流網絡輸出兩幀之間的雙通道光流。

網絡架構整體流程如圖1所示,在訓練期間,同時估計相鄰兩幀圖像深度,使用空間一致性約束使其深度信息一致。姿態網絡和光流網絡的輸入為兩張相鄰RGB圖像,聯合相對位姿估計和深度估計得到合成圖像,采用光度一致性損失函數和圖像平滑損失函數優化深度信息和相機姿態,通過合成光流對RAFT網絡進行聯合優化。與網絡單獨訓練相比,結合多任務一致性約束,加強了網絡之間的聯系,得到了更加精確和魯棒的深度、姿態和光流估計。

圖1 無監督深度學習架構Fig.1 Architecture of unsupervised deep learning

2 優化目標

在缺少真實深度信息和光流信息的情況下,無監督網絡利用合成視圖,以幀間相似性作為監督信號訓練網絡模型。深度網絡和光流網絡通過姿態網絡進行幾何關聯,其中相對姿態估計網絡用于幫助約束深度網絡和光流網絡,且只在訓練期間使用。

考慮兩張相鄰圖像Ik和Ik+1,通過相對姿態網絡和深度估計網絡得到相機相鄰幀之間的運動Tk→k+1和單視圖深度Dk、Dk+1,根據等式

(1)

(2)

無監督訓練通常假設幀間相同物體表面外觀也相同,在簡單逐像素差的基礎上,引入結構相似度(structural similarity, SSIM)損失以學習相鄰幀之間的結構信息,使用L1和SSIM[28]損失結合作為重建圖像損失

Lp=

(3)

其中,α=0.85;SSIM使用3×3大小的窗口計算;V是相鄰幀有效共視區域。

在低紋理場景或均勻區域下,假設的光度不變性會導致預測空洞問題,為了得到平滑的深度預測,引入一階邊緣平滑項損失[29]

Ls=

(4)

對于動態物體,聯合圖像分割網絡[30]進行掩碼處理,大大增加了網絡計算負擔。本文根據Monodepth2[31],使用二進制掩碼,忽略與攝像機同步運動的對象,該掩碼在網絡的正向傳遞中自動計算

(5)

選擇使用泛化能力強、快速且準確的RAFT網絡作為光流主干網絡,與使用從粗到細的金字塔迭代式網絡[32]相比,RAFT只以高分辨率維護和更新單個光流場,并且在迭代期間共享權重,克服了從粗到細優化網絡時難以在粗分辨率下修正錯誤和難以檢測小物體的快速運動這兩大困難。通過合成光流和RAFT網絡的誤差聯合訓練進行微調

(6)

其中,Fsyn表示合成光流網絡;FR表示RAFT網絡。

在訓練中,為了得到結構一致的深度預測,通過光流網絡將Dk+1與Dk對齊,計算深度一致性損失

(7)

綜上所述,網絡總體損失函數為

L=Lp+λsLs+λfLf+λdcLdc

(8)

其中,λs、λf和λdc表示各項損失的權重,所有損失共同應用于深度網絡和光流網絡。

3 算法流程

傳統視覺里程計一般分為初始化和運動跟蹤兩個過程,在初始化環節采用對極幾何方法得到稀疏三維點云,然后在跟蹤過程中使用運動模型或者PnP方法求解[R|t],并重新三角化新的匹配點,在此過程中會引入累積誤差。本文使用深度網絡得到尺度一致的深度信息,三角化對齊過程獨立進行,可以最大限度減少尺度漂移問題。

為了從光流網絡中提取稀疏匹配,同時使用前向光流和后向光流,利用雙向一致性誤差過濾得到精確的稀疏對應關系(見圖3)。由于不依賴運動模型進行局部匹配,避免了突然的運動轉向引起的大量特征點誤匹配問題。

圖3 從前向和后向光流中提取稀疏匹配關系Fig.3 Extraction of sparse matching relation from forward and backward optical flow

受ORB-SLAM初始化方法啟發,考慮了2D-2D和3D-3D兩種跟蹤方式。ORB-SLAM使用模型得分方法僅進行初始化模型選擇,跟蹤過程則使用恒速運動模型以及PnP方法求解運動軌跡。由于同時具有2D-2D和3D-3D對應關系,不必進行復雜的初始化調試,僅使用模型得分RF進行跟蹤方式的選擇。首先求解單應矩陣Hcr和本質矩陣Fcr

(9)

其中,pc和pr為相鄰兩幀匹配點,然后為H模型和F模型分別計算SH和SF得分(M為H或F)

(10)

當發生三維點云結構退化[33]的情況時,ORB-SLAM選擇分解單應矩陣求解相對運動,經常面臨初始化失敗問題。本文通過深度網絡得到尺度一致的深度信息,避免分解單應矩陣,通過奇異值分解(singular value decomposition, SVD)[34]方法求解[R|t]

(11)

其中,p′表示與p相匹配的像素。

方法流程如下:

2)稀疏點采樣:將圖像劃分為10×10網格區域,并在每個區域中取dF小于閾值δ的前20組稀疏匹配點;

3)模型選擇:計算本質矩陣和單應矩陣,然后計算模型得分RF=SF/(SF+SH),如果RF>0.5,則選擇2D-2D跟蹤模式,反之,則選擇3D-3D跟蹤模式;

4 實驗驗證與結果分析

采用Ubuntu 20.04系統,CPU為 i5-10300H,GPU為 NVIDIA Geforce GTX 1660Ti,顯卡內存為6 GB,設備內存為16 GB。在KITTI數據集上進行視覺里程計實驗,并與傳統方法和基于端到端的深度學習的方法進行對比,以驗證方法的有效性。

4.1 網絡架構與參數設置

深度估計網絡基于通用的U-Net[35]網絡架構,即編碼器-解碼器結構,如圖4所示。以ResNet18[36]作為編碼器網絡,解碼器使用跳躍連接架構,網絡層之間的跳躍連接使其能同時融合淺層幾何信息和高層抽象特征。由于相鄰幀之間的運動很小,多尺度輸出既不準確也不必要,本文只輸出單尺度深度預測結果,這極大節省了計算資源。光流網絡使用RAFT網絡作為主干網絡,相對位姿網絡是一個具有ResNet18結構的姿態估計網絡,使用軸角表示三維旋轉。

圖4 深度估計網絡架構Fig.4 Architecture of depth estimation network

網絡模型使用Pytorch框架實現,使用Adam優化器進行兩階段訓練。第一階段訓練20個周期,學習速率設置為10-4,批量樣本大小為8。第二階段訓練100個周期,學習速率設置為10-5,批量樣本大小為4。在訓練中,設置λs=0.4,λf=0.4,λdc=0.1,將圖像序列大小調整為480×640。

4.2 深度估計

由于單目相機固有的缺陷,無法得到真實世界的絕對深度估計,為了進行比較,參照SC-SfMLearner的方法,將深度圖乘以尺度標量r與真實尺度中值匹配,在KITTI數據集上使用平均絕對相對誤差(AbsRel)、平均log10誤差(SqRel)、平均均方根誤差(RMSE)、平均均方根log誤差(RMSElog)以及不同閾值(δ<1.25,δ<1.252,δ<1.253)的精度進行深度評估。如表1所示,加粗字體表示該評估方面最好的結果,提出的方法與SfMLearner、Monodepth2及SC-SfMLearner相比,均有較大優勢,SfMLearner與Monodepth2均無法達到連續深度一致性,SC-SfMLearner與提出的方法可在長時間序列上達到深度一致性,并由此減少了視覺里程計的尺度漂移問題。

表1 KITTI數據集單視圖深度估計結果Tab.1 Single-view depth estimation results of KITTI

4.3 視覺里程計

KITTI數據集共提供了22組序列數據,其中0～10提供了真實軌跡,實驗在0～8序列進行訓練,9～10序列進行評估測試,并與ORB-SLAM2和端到端的深度學習方法進行對比研究。由于單目視覺里程計無法得到真實世界下的尺度,為了公平比較,統一將結果與真實軌跡尺度對齊。定性軌跡結果如圖5和圖6所示,相較于ORB-SLAM2、SfMLearner、SC-SfMLerner和Depth-VO-Feat,本文所提方法的軌跡平移漂移量明顯減少(見表2),這得益于尺度一致的深度估計。盡管Depth-VO-Feat使用雙目相機訓練,能夠得到與真實世界尺度一致的結果,但其尺度漂移問題卻最為嚴重。相反,由于提取了精確的匹配關系,經過尺度對齊之后,本文的方法與真實軌跡更加吻合。

圖5 KITTI 09序列軌跡Fig.5 Track of KITTI sequence 09

圖6 KITTI 10序列軌跡Fig.6 Track of KITTI sequence 10

表2 KITTI 09與10序列對比Tab.2 Comparison of KITTI sequence 09 and sequence 10

5 結論

本文提出了一種基于無監督網絡的視覺里程計方法,通過光流網絡與深度網絡進行特征匹配與尺度對齊,并結合傳統方法的幾何約束條件進行優化,提高了精度與魯棒性,實驗結果表明:

1)本文所提的基于無監督網絡的方法有效提高了單目視覺里程計的精度;

2)有效減少了傳統單目視覺里程計的尺度漂移和尺度不一致問題;

3)提出的聯合光流網絡與深度網絡訓練方法有效提高了深度網絡的精度。