






收稿日期:2023-07-31
基金項目:唐山市市級科技計劃項目(22130205H)
DOI:10.19850/j.cnki.2096-4706.2024.05.023
摘" 要:場景的深度估計在三維視覺領域有著廣泛的應用。針對單目室內場景深度估計精度低、細粒度信息預測能力差等問題,提出一種基于注意力機制和多級校正的單目深度估計網絡。該網絡首先采用混合自注意力Transformer和卷積神經網絡的雙分支模塊提取彩色圖像的多分辨率特征,然后利用基于空間域注意力機制的模塊對提取的多分辨率特征進行漸進融合,最后通過多級校正的方式處理融合后的特征,并漸進地估計出不同分辨率的深度圖像。實驗結果表明,與同類方法相比,所提出的網絡可有效提高深度圖像細粒度信息的預測能力,網絡的多個評價指標均有不同幅度的提升。
關鍵詞:單目深度估計;Transformer;注意力機制;多級校正
中圖分類號:TP391" 文獻標識碼:A" 文章編號:2096-4706(2024)05-0106-05
Depth Estimation of Monocular Indoor Scenes Based on Attention Mechanism and Multi-level Correction
LIU Peng, DING Aihua, DOU Xinyu
(Intelligence and Information Engineering College, Tangshan University, Tangshan" 063000, China)
Abstract: The depth estimation of scenes has a wide range of applications in the field of 3D vision. A monocular depth estimation network based on Attention Mechanism and multi-level correction is proposed to address the issues of low accuracy and poor prediction ability of fine-grained information in monocular indoor scene depth estimation. The network first uses a dual branch module with a self attention Transformer and a convolutional neural network to extract multi-resolution features of color images. Then, a module based on spatial domain Attention Mechanism is used to gradually fuse the extracted multi-resolution features. Finally, the fused features are processed through multi-level correction, and depth images with different resolutions are gradually estimated. The experimental results show that compared with similar methods, the proposed network can effectively improve the predictive ability of fine-grained information in depth images, and multiple evaluation indicators of the network have been improved to varying degrees.
Keywords: monocular depth estimation; Transformer; Attention Mechanism; multi-level correction
0" 引" 言
單目深度估計以單目RGB圖像為輸入,估計出圖像描述的場景對象到拍攝相機的距離信息,即深度信息。獲取的深度信息在室內場景的地圖導航、目標檢測、三維重建等任務中有著廣泛的應用。但單目深度估計缺少諸如運動、立體視覺關系等可靠的深度線索,本質上是一個不適定問題,因此一直都是計算機視覺領域的難點課題。
目前主流的單目深度估計均采用基于深度學習的數據驅動方法,借助深度學習模型強大的特征學習和特征表示能力,從大量RGB圖像到深度圖像的映射過程中提取深度線索。Eigen等[1]首次應用卷積神經網絡(Convolutional Neural Network, CNN)完成單目深度估計任務,此后,基于CNN的單目深度估計方法不斷呈現[2-11]。例如,Zheng等[2]通過自定義的特征多尺度上卷積操作將編碼器不同分辨率的層次化特征進行有效整合,實現編碼器特征從粗到精處理的映射;Chen等[3]用一種自適應密集特征聚合模塊融合多尺度特征,實現場景深度圖像結構信息的有效推斷;Liu等[5]使用跳躍連接將CNN不同階段的相同分辨率特征進行有效融合,以提高深度圖像的估計精度;Huynh等[7]引入非局部共平面性約束和非局部注意機制來提高深度圖像中平面結構區域的估計效果。
鑒于Transformer模型優秀的全局建模能力,研究人員開始將各種視覺Transformer模型應用于單目深度估計任務[12-15]。例如,Bhat等[12]用一種基于Transformer模型的全局統計分析方法細化全卷積網絡模型的輸出,提高了深度圖像的整體估計效果。Ranftl等[13]提出一種通用的密集預測Transformer模型,在語義分割和單目深度估計方面均取得不錯的效果。文獻[14,15]設計的單目深度估計網絡,均采用了Transformer模型實現編碼器和CNN實現解碼器的設計架構。
為了進一步提高單目深度估計網絡的預測精度,本文對文獻[14,15]使用的Transformer編碼器-CNN解碼器基礎框架進行優化和改進,提出一種基于注意力機制和多級校正的單目深度估計網絡。網編碼器部分將Transformer模型和CNN有效結合,捕獲場景全局上下文信息的同時,增強對細節特征的處理能力。解碼器部分采用金字塔結構的特征處理方式,利用空間域注意力機制實現特征的漸進融合,利用多級校正的方式逐步恢復深度圖像,以提高對深度圖像細粒度信息的預測精度。
1" 本文方法
1.1" 網絡整體結構
本文提出的單目深度估計網絡結構如圖1所示。對于輸入分辨率為H×W的RGB圖像,首先,利用與ResNet [16]相同的跨步卷積進行淺層特征提取和特征分塊,產生維度為H/2×W/2×48的特征。然后,通過設計的雙分支Transformer模塊進行進一步的特征提取,同時通過Patch Merge操作進行特征降維。經過四步的特征提取和特征降維,有效提取出RGB圖像的多分辨率特征,對應特征的維度分別為H/4×W/4×C、H/8×W/8×2C、H/16×W/16×4C、H/32×W/32×8C,其中的參數C設置為96。
圖1" 網絡整體結構
接著,幾個設計的空間域注意力融合模塊和校正模塊均以自上而下的層次金字塔模式協同工作。空間域注意力融合模塊對上述四組特征進行漸進融合,校正模塊對融合后特征進行校正的同時,實現深度圖像的漸進估計。估計出的深度圖像分辨率分別為H/8×W/8、H/4×W/4、H/2×W/2、H×W。
1.2" 子功能模塊結構
對RGB圖像進行多分辨率特征提取時,本文設計了一種雙分支Transformer模塊,結構如圖2所示。考慮到Transformer模型和CNN特征處理時的不同優勢,該模塊采用了并行混合Transformer和CNN的設計方式,利用CNN提取局部細節信息,利用Transformer捕獲全局上下文信息。Transformer分支使用Swin-Transformer(S-T)[17]結構。S-T通過滑動窗口和分層表示的結構設計,進一步提高了Transformer模型的計算效率。卷積分支使用殘差卷積結構,對應的Bottleneck由具有相同信道大小的1×1卷積、3×3卷積和1×1卷積串聯組成。通過Concatenation和1×1卷積的組合實現兩個分支輸出特征的融合,以同時聚合全局和局部特征表示。
圖2" 雙分支Transformer模塊
對提取的多分辨率特征進行漸進融合時,為了提高細粒度特征信息的處理能力,本文設計了一種空間域注意力融合模塊,結構如圖3所示。首先,使用3×3卷積+ Patch Shuffle + 3×3卷積的操作實現低分辨率特征的上采樣。然后,通過Concatenation實現與高分辨率特征的合并,并對合并后特征通過1×1卷積+ ReLU激活函數和3×3卷積+ ReLU激活函數的兩步操作實現特征的提取。接著,通過3×3卷積和Sigmoid函數的組合產生兩個空間域二維注意力圖。最后,將這兩個注意力圖分別與高分辨率特征和上采樣后的低分辨率特征相乘,實現對特征的細化處理。
本文通過設計的校正模塊實現融合后特征到深度圖像的映射,這種映射關系的建立使得融合后特征的指向性更強,從而達到校正特征的作用。同時,深度圖像的漸進預測也有利于對深度圖像細粒度信息的預測。校正模塊結構如圖4所示,首先,當前分辨率的校正模塊輸出特征與融合后特征進行按元素求和。然后,經過3×3卷積+ Patch Shuffle + 3×3卷積的組合實現特征的上采樣,得到下一分辨率的校正特征。最后,校正特征通過3×3卷積和Sigmoid函數的組合實現深度圖像的預測。本文將初始分辨率的校正特征設置為0。
圖3" 空間域注意力融合模塊
圖4" 校正模塊
1.3" 損失函數
損失函數的設計決定了網絡訓練時的參數調整方式,對最終估計精度影響較大。為了平衡各項損失,本文選擇的損失函數包括深度損失Ldepth和法線損失Lnormal兩項,即:
(1)
Ldepth選擇文獻[18]的尺度不變對數損失,逐點計算預測深度與真實深度的差值,計算方法如下:
(2)
其中, 和yi分別表示像素點i的真實深度值和估計深度值,n表示像素總數。
Lnormal為深度圖像轉換到三維空間后的法線損失。通過比較三維空間的表面法線損失,可更好地反映深度圖像的結構預測差異,計算方法為:
(3)
其中, 和ni分別表示像素點i的真實表面法線值和估計表面法線值,表面法線的計算按照參考文獻[19]提供的方法。
2" 實驗分析
2.1" 實驗設置
本文選取室內場景數據集NYU Depth V2 [20]進行模型的訓練和測試。
對于NYU Depth V2數據集,按照通用的分類方法,選擇249個場景,約5萬組圖像對模型進行訓練;選擇215個場景,654組圖像對模型進行測試。深度圖像和RGB圖像均居中剪切成608×456像素,以去除深度值偏差較大的邊緣區域。訓練數據集的增強操作參照文獻[18]中的通用做法。
網絡模型的搭建基于PyTorch深度學習開發框架。訓練時,使用Adam優化器不斷調整網絡參數,基本學習率設置為0.000 1,并且每5個周期將其降低10%,參數β1 = 0.9,β2 = 0.999,并使用0.000 1的衰減率。訓練參數Batch設置為16,Epoch設置為30。
選擇單目深度估計任務常用的性能指標進行定量評價,各評價指標和對應算式為:
1)均方根誤差(RMSE):
2)絕對相對差(Abs Rel):
3)均方對數誤差(Log10):
4)閾值內準確度δi,即相對誤差在1.25k以內的像素比例,其中:
2.2" 與現有方法的對比
表1顯示了本文方法與幾種先進的單目深度估計方法的性能指標比較結果,其中,↑表示指標的數值越大越好,↓表示指標的數值越小越好。
從表1可以看出,本文方法的各項性能指標均優于其他方法。相比于AdaBins[12],誤差指標Abs Rel降低了5.8%,精度指標δ1提升了1.3%。表1也給出了模型參數和運算速度FPS的對比結果,可以看出,本文所提出的網絡在深度估計效果、模型參數、運算速度上實現了很好的平衡。
表1" NYU Depth V2數據集深度估計性能指標對比
方法 誤差/%↓ 準確度/%↑ FPS↑ 模型
參數↓
Abs Rel Log10 RMSE δ1 δ2 δ3
DORN[4] 11.5 5.1 50.9 82.8 96.5 99.2 — —
BTS[18] 11.0 4.7 39.2 88.5 97.8 99.4 24.5 47.0M
DAV[7] 10.8 — 41.2 88.2 98.0 99.6 — 25.0M
DPT[13] 11.0 4.5 35.7 90.4 98.8 99.6 24.3 123.0M
VNL[6] 10.8 4.8 41.6 87.5 97.6 99.4 53.6 90.4M
文獻[14] 10.5 4.4 35.8 90.5 98.5 99.6 62.0 45.0M
AdaBins[12] 10.3 4.4 36.4 90.3 98.4 99.7 19.9 78.0M
本文方法 9.7 4.1 35.1 91.5 99.2 99.7 44.3 68.2M
圖5展示了部分測試數據集深度估計的可視化結果。可以看出,本文方法對桌椅、家居的細節深度邊界的預測效果更好。從圖5第一行和第五行的深度估計結果也可以看出,本文方法預測的深度變化更加接近深度真值的變化。因此,定量和定性的對比結果表明,本文方法進一步提高了單目深度估計的精度,對深度圖像細粒度信息的預測效果更佳。
圖5" NYU Depth V2數據集可視化結果對比
2.3" 消融實驗
在數據集NYU Depth V2上進行了一系列消融性實驗,以驗證各子功能模塊設計的有效性,結果如表2所示。
為了驗證設計的雙分支Transform模塊提取RGB圖像特征的有效性,用單分支S-T模塊進行了替換。由表2的第一行和第四行可以看出,混合S-T和殘差卷積的雙分支Transform結構的各項誤差性能指標均優于單分支S-T。
為了驗證特征融合模塊設計的有效性,對低分辨率特征上采樣后,采用了典型的跳躍連接的融合方式進行了替換,結果如表2的第二行所示。顯然,本文設計的空間域注意力模塊特征融合的效果優于局部融合方式。
此外,對多級校正的效果進行了分析。對比只在融合特征的最高分辨率處進行一次校正并預測深度的方式(表2的第三行),多級校正的方式可以獲得更準確的估計結果。
表2" 消融實驗性能指標對比
方法 誤差/%↓ 準確度/%↑
Abs Rel Log10 RMSE δ1 δ2 δ3
單分支S-T 10.2 4.4 36.4 90.8 99.0 99.7
局部融合 10.5 4.6 35.8 90.6 98.9 99.6
一次校正 11.0 4.7 39.2 90.5 98.7 99.6
本文方法 09.7 4.1 35.1 91.5 99.2 99.7
3" 結" 論
本文提出了一種基于注意力機制和多級校正的單目深度估計網絡。網絡將自注意力S-T模型和殘差卷積有效結合,用于RGB圖像的特征提取;設計空間域注意力融合模塊,用于特征的漸進融合;利用設計的校正模塊校正融合后特征,實現深度圖像的漸進輸出。室內場景公開數據集上的實驗結果表明,相較于現有的單目深度估計方法,本文網絡能取得更好的估計效果。另外,本文也做了一系列對比試驗驗證網絡子模塊設計的有效性。下一步研究工作將考慮把本文的深度估計網絡應用與室內場景的單目視覺SLAM系統。
參考文獻:
[1] EIGEN D,PUHRSCH C,FERGUS R. Depth map prediction from a single image using a multi-scale deep network [C]//Proceedings of the 28th International Conference on Neural Information Processing Systems(NIPS).Montreal:MIT Press,2014:2,2366-2374.
[2] ZHANG Z Y,XU C,YANG J,et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation [J].Pattern Recognition,2018,83:430-442.
[3] CHEN X T,CHEN X J,ZHA Z J. Structure aware residual pyramid network for monocular depth estimation [C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence(IJCAI).Macao:AAAI Press,2019:694-700.
[4] FU H,GONG M M,WANG C H,et al. Deep Ordinal Regression Network for Monocular Depth Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:2002-2011.
[5] LIU J,LI Q,CAO R,et al. A contextual conditional random field network for monocular depth estimation [J/OL].Image and Vision Computing,2020,98:103922[2023-06-30].https://doi.org/10.1016/j.imavis.2020.103922.
[6] YIN W,LIU Y F,SHEN C H,et al. Enforcing Geometric Constraints of Virtual Normal for Depth Prediction [C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).Seoul:IEEE,2019:5683-5692.
[7] HUYNH L,NGUYEN-HA P,MATAS J,et al. Guiding Monocular Depth Estimation Using Depth-Attention Volume [C]//2020 Proceedings of the European Conference on Computer Vision(ECCV).Glasgow:Springer,Cham,2020:581-597.
[8] LIU P,ZHANG Z H,MENG Z Z,et al. Monocular depth estimation with joint attention feature distillation and wavelet-based loss function [J].Sensors,2021,21(1):54-75.
[9] WANG J R,ZHANG G,YU M,et al. Attention-Based Dense Decoding Network for Monocular Depth Estimation [J].IEEE Access,2020,8:85802-85812.
[10] RANFTL R,LASINGER K,HAFNER D,et al. Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot Cross-Dataset Transfer [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(3):1623-1637.
[11] WANG Q L,WU B G,ZHU P F,et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:11531-11539.
[12] BHAT S F,ALHASHIM I,WONKA P. AdaBins: Depth Estimation Using Adaptive Bins [C]//2021 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).Nashville:IEEE,2021:4008-4017.
[13] RANFTL R,BOCHKOVSKIY A,KOLTUN V. Vision Transformers for Dense Prediction [C]//2021 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).Montreal:IEEE,2021:12159-12168.
[14] 吳冰源,王永雄. 面向全局特征Transformer架構的單目深度估計 [J/OL].控制工程,2023:1-7[2023-06-30].https://
doi.org/10.14107/j.cnki.kzgc.20220364.
[15] ZHANG C,XU K,MA Y X,et al. GFI-Net: Global Feature Interaction Network for Monocular Depth Estimation [J/OL].Entropy,2023,25(3):421[2023-06-30].https://doi.org/10.3390/e25030421.
[16] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[17] LIU Z,LIN Y T,CAO Y,et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).Montreal:IEEE,2021:9992-10002.
[18] LEE J H,HAN M K,KO D W,et al. From Big to Small: Multi-Scale Local Planar Guidance for Monocular Depth Estimation [J/OL].arXiv:1907.10326 [cs.CV].[2023-06-25].https://arxiv.org/abs/1907.10326v5.
[19] PATIL V,SAKARIDIS C,LINIGER A,et al. P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [C]//2022 Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR).New Orleans:IEEE,2022:1600-1611.
[20] SLBERMAN N,HOIEM D,KOHLI D,et al. Indoor segmentation and support inference from RGBD images [C]//Proceedings of the 12th European conference on Computer Vision.Adobe:Springer-Verlag,2012:746-760.
作者簡介:劉鵬(1982—),男,漢族,遼寧沈陽人,講師,碩士,研究方向:深度學習、計算機視覺;丁愛華(1978—),女,漢族,江蘇南通人,教授,碩士,研究方向:機器視覺、深度學習;竇新宇(1983—),男,漢族,河北唐山人,副教授,博士,研究方向:機器學習、圖像處理。