DepthMamba:多尺度VisionMamba架構(gòu)的單目深度估計(jì)

2025-04-10 00:00:00徐志斌張孫杰

計(jì)算機(jī)應(yīng)用研究 2025年3期

摘要：在單目深度估計(jì)領(lǐng)域，雖然基于CNN和Transformer的模型已經(jīng)得到了廣泛的研究，但是CNN全局特征提取不足，Transformer則具有二次計(jì)算復(fù)雜性。為了克服這些限制，提出了一種用于單目深度估計(jì)的端到端模型，命名為DepthMamba。該模型能夠高效地捕捉全局信息并減少計(jì)算負(fù)擔(dān)。具體地，該方法引入了視覺狀態(tài)空間（VSS）模塊構(gòu)建編碼器-解碼器架構(gòu)，以提高模型提取多尺度信息和全局信息的能力。此外，還設(shè)計(jì)了MLPBins深度預(yù)測模塊，旨在優(yōu)化深度圖的平滑性和整潔性。最后在室內(nèi)場景NYU_Depth V2數(shù)據(jù)集和室外場景KITTI數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明：與基于視覺Transformer架構(gòu)的Depthformer相比，該方法網(wǎng)絡(luò)參數(shù)量減少了27.75%，RMSE分別減少了6.09%和2.63%，驗(yàn)證了算法的高效性和優(yōu)越性。

關(guān)鍵詞：單目深度估計(jì)；Vmamba；Bins深度預(yù)測；狀態(tài)空間模型

中圖分類號：TP18"" 文獻(xiàn)標(biāo)志碼：A"" 文章編號：1001-3695（2025）03-039-0944-05

doi：10.19734/j.issn.1001-3695.2024.05.0226

DepthMamba：multi-scale VisionMamba architecture for monocular depth estimation

Xu Zhibin，Zhang Sunjie

（School of Optical-Electrical amp; Computer Engineering，University of Shanghai for Science amp; Technology，Shanghai 200093，China）

Abstract：

In the field of monocular depth estimation，researchers have extensively studied models based on CNN and Transformer.However，CNN struggle with inadequate extraction of global features，while Transformer exhibit quadratic computational complexity.To overcome these limitations，this paper proposed an end-to-end model DepthMamba for monocular depth estimation.The model was able to capture global information efficiently and reduce the computational burden.Specifically，the method introduced a visual state space（VSS）module to construct an encoder-decoder architecture to improve the model’s ability to extract multi-scale information and global information.Additionally，this paper designed an MLPBins depth prediction module to ensure smoother and cleaner generated depth maps.This paper conducted comprehensive experiments on indoor scenes using the NYU_Depth V2 dataset and outdoor scenes using the KITTI dataset.Compared with the Depthformer architecture based on vision Transformer，this method reduced network parameters by 27.75% and decreases the RMSE by 6.09% and 2.63%，respectively，which validates the algorithm’s efficiency and superiority.

Key words：monocular depth estimation;Vmamba;Bins depth prediction;state space model

0 引言

深度估計(jì)是眾多高層任務(wù)的基石，且在場景感知中占據(jù)重要地位，其結(jié)果廣泛運(yùn)用于自動駕駛、三維重建、虛擬現(xiàn)實(shí)等領(lǐng)域［1，2］。傳統(tǒng)方法通常依賴激光雷達(dá)或深度相機(jī)來獲取稠密且精確的深度圖，但這些設(shè)備成本高昂，限制了其廣泛應(yīng)用。然而，使用深度學(xué)習(xí)的方法，根據(jù)單張RGB圖像端到端輸出場景深度信息，無須昂貴的設(shè)備，應(yīng)用空間更加廣泛。因此，基于深度學(xué)習(xí)的單目深度估計(jì)日益受到研究學(xué)者的關(guān)注。

隨著卷積神經(jīng)網(wǎng)絡(luò)（CNN）的發(fā)展，眾多學(xué)者開始探索其在單目深度估計(jì)中的應(yīng)用。Eigen等人［3］率先提出使用卷積神經(jīng)網(wǎng)絡(luò)解決深度估計(jì)問題，他們設(shè)計(jì)的網(wǎng)絡(luò)由全局粗略尺度網(wǎng)絡(luò)（global coarse-scale network）和局部精細(xì)網(wǎng)絡(luò)（local fine-scale network）組成，這為單目深度估計(jì)的快速發(fā)展奠定了基礎(chǔ)。由于網(wǎng)絡(luò)層次較淺，感受野有限，對深層次的特征提取不夠顯著，導(dǎo)致深度信息的提取效果不佳。Liu等人［4］將深度卷積神經(jīng)網(wǎng)絡(luò)與連續(xù)條件隨機(jī)場結(jié)合，提出深度卷積神經(jīng)場，實(shí)現(xiàn)了深度信息的結(jié)構(gòu)化學(xué)習(xí)。盡管這一方法相較于之前有所提升，但引入條件隨機(jī)場增加了計(jì)算復(fù)雜性，且在訓(xùn)練過程中梯度計(jì)算更加困難，容易出現(xiàn)梯度消失的問題。張競瀾等人［5］提出DSPP模塊用于單目深度估計(jì)模型，雖然相比于傳統(tǒng)方法擴(kuò)大了感受野，但其模塊作用有限，缺乏全局信息的提取。AdaBins［6］將EfficientNet B5［7］作為編解碼模型骨干，同時提出將深度估計(jì)問題轉(zhuǎn)換為有序回歸問題，顯著提高了深度估計(jì)的精度和性能。但EfficientNet基于卷積操作，只能捕捉到有限范圍的特征。學(xué)者們提出了一系列基于CNN的單目深度估計(jì)模型。然而這些模型均受限于卷積操作的局部性，難以捕捉輸入圖像的長距離依賴關(guān)系，導(dǎo)致對全局信息的感知不足，成為性能提升的瓶頸。

為解決CNN對全局信息感知不足的問題，學(xué)者們將Transformer［8］引入到了單目深度估計(jì)領(lǐng)域。Transformer在單目深度估計(jì)任務(wù)中展現(xiàn)出了卓越性能，成功克服了CNN在全局信息感知方面的局限。例如，DPT-Hybrid［9］將視覺Transformer作為骨干網(wǎng)絡(luò)。Depthformer［10］進(jìn)一步提出將Transformer作為編碼器，CNN作為解碼器，融合全局特征與局部特征，得到多尺度特征圖，最后預(yù)測深度。由于Transformer自注意力機(jī)制作用，使模型在每個階段提取特征時有效減少了網(wǎng)絡(luò)底層語義的丟失。兩者在利用Transformer完成端到端的單目深度估計(jì)任務(wù)中取得了不錯的進(jìn)展。然而，Transformer自注意力機(jī)制的計(jì)算復(fù)雜度與輸入長度呈平方關(guān)系，面對較高分辨率圖像時計(jì)算開銷很大。

為解決Transformer自注意力機(jī)制二次計(jì)算復(fù)雜性問題，以曼巴（Mamba）［11］為代表的狀態(tài)空間模型（SSM）已成為一種很有前景的方法。它們不僅擅長對遠(yuǎn)程交互進(jìn)行建模，還保持線性計(jì)算復(fù)雜性。VMamba［12］在視覺任務(wù)中不僅計(jì)算復(fù)雜度降至線性，同時保留了Transformer的優(yōu)點(diǎn)。受此啟發(fā)，本文提出一種基于Vision Mamba的編解碼架構(gòu)模型，命名為DepthMamba。旨在結(jié)合全局信息感知能力和局部細(xì)節(jié)特征提取能力，同時保持計(jì)算復(fù)雜性的線性增長。具體而言，本文引入了視覺狀態(tài)空間（VSS）模塊構(gòu)建了編碼器-解碼器的架構(gòu)，有效融合特征信息，并在解碼器后端采用多元感知機(jī)（MLP）預(yù)測深度區(qū)域中心，與圖片每個像素處的softmax得分作為線性組合得到最后深度圖，從而使深度圖更平滑。本文模型能夠提取豐富的全局特征，且相比于Transformer模型具有較少的參數(shù)量，能夠?qū)φ麄€圖片場景有綜合的理解，為了驗(yàn)證DepthManba的有效性，本文在兩個典型的深度估計(jì)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)，一個是室外駕駛數(shù)據(jù)集KITTI［13］，另一個是室內(nèi)場景數(shù)據(jù)集NYU_Depth V2［14］。

總而言之，本文貢獻(xiàn)如下：a）提出一個基于狀態(tài)空間模型（SSM）的模型DepthMamba，為單目深度估計(jì)在SSM的模型建立上提供見解，為開發(fā)更高效的SSM方法提供基礎(chǔ);b）采用具有VSS模塊的編碼器-解碼器結(jié)構(gòu)，提高模型提取多尺度信息和全局信息的能力，在單目深度估計(jì)中具有潛在應(yīng)用;c）采用2D選擇性掃描操作和MLPBins深度預(yù)測模塊，模型具有較少的參數(shù)量且易于訓(xùn)練，相比基于Transformer的單目深度估計(jì)，得到更好的結(jié)果。

1 DepthMamba網(wǎng)絡(luò)架構(gòu)

1.1 設(shè)計(jì)過程

本文模型可以分為編碼器、解碼器和MLPBins三部分。大多數(shù)SOTA（state-of-the-art）模型均基于編碼器和解碼器的結(jié)構(gòu)。編碼器通常是使用ImageNet［15］訓(xùn)練的圖像分類網(wǎng)絡(luò)，通過逐層抽象，將輸入數(shù)據(jù)壓縮為蘊(yùn)涵主要特征及上下文信息的高維向量。解碼器則負(fù)責(zé)對這些高維向量進(jìn)行重構(gòu)，以恢復(fù)輸入數(shù)據(jù)的原始形態(tài)，便于模型傳遞關(guān)鍵特征信息，并實(shí)現(xiàn)輸入信息的有效傳遞和還原。在編碼器和解碼器之間使用跳躍連接實(shí)現(xiàn)多尺度信息的融合。設(shè)計(jì)這種結(jié)構(gòu)能夠同時捕捉局部和全局特征，增強(qiáng)模型的表現(xiàn)力。編碼器和解碼器均集成了視覺狀態(tài)空間（visual state space，VSS）模塊。該模塊源自VMamba，能夠保留Transformer全局信息的感知能力，同時將計(jì)算復(fù)雜度降至線性。相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)，VSS模塊能夠更有效地捕捉長距離依賴關(guān)系，增強(qiáng)全局特征的提取和融合。MLPBins模塊則借鑒了AdaBins［6］和Depthformer［10］的方法，將深度估計(jì)建模為一個有序回歸任務(wù)。為了簡化結(jié)構(gòu)、減少參數(shù)量并提升計(jì)算效率，本文將AdaBins和Depthformer基于Transformer的設(shè)計(jì)替換為更簡單的MLP結(jié)構(gòu)。具體而言，每個像素點(diǎn)的最終深度由該像素處的概率分?jǐn)?shù)與圖像深度中心的線性組合。這一方法巧妙結(jié)合了分類和回歸的優(yōu)勢，生成平滑和整潔的深度圖。本文模型在保證全局信息感知能力的同時，降低了計(jì)算復(fù)雜度，并通過多尺度信息的融合和有序回歸任務(wù)的設(shè)置，提高了深度估計(jì)的精度和性能。為了驗(yàn)證本文的設(shè)計(jì)選擇，進(jìn)行了多項(xiàng)實(shí)驗(yàn)，結(jié)果表明，DepthMamba模型在深度估計(jì)任務(wù)中具有顯著優(yōu)勢。

1.2 整體網(wǎng)絡(luò)架構(gòu)

DepthMamba網(wǎng)絡(luò)整體采用編碼器-解碼器結(jié)構(gòu)，如圖1所示，在編碼器階段，給定輸入圖片大小為H×W×3，首先patch embedding層對圖像分塊，得到尺寸為（H/4，W/4，C）的特征圖E1，其中C為96。然后將其輸入到網(wǎng)絡(luò)，經(jīng)過3個VSS模塊和Patch Merging層后，特征圖的分辨率分別縮減為［1/8，1/16，1/32］，通道數(shù)分別增加到［2C，4C，8C］，得到不同尺度的特征圖E2、E3、E4。E4經(jīng)過VSS模塊后直接傳入解碼器。在解碼器階段，將不同層次的特征融合并恢復(fù)到原尺寸。為保證模型參數(shù)共享并使訓(xùn)練更容易，本文設(shè)計(jì)與編碼器鏡像的解碼網(wǎng)絡(luò)，同時使用patch expanding上采樣和跳躍連接將尺寸恢復(fù)到（H/2，W/2，C）。跳躍連接僅執(zhí)行簡單的加法操作。之后通過卷積將通道數(shù)擴(kuò)展到128，得到輸出特征圖。最后，對輸出特征圖進(jìn)行深度區(qū)域中心的預(yù)測，并計(jì)算每個像素處的softmax得分，將它們線性組合得到最終深度圖。

1.3 視覺狀態(tài)空間模塊

本文使用視覺狀態(tài)空間（visual state space，VSS）模塊作為網(wǎng)絡(luò)的核心，它源于VMamba［12］。VSS模塊通過2D選擇性掃描操作（SS2D），有效促進(jìn)了全局感受野和長距離依賴的建立，并減少了計(jì)算量。將它分層設(shè)計(jì)，使它不同于卷積網(wǎng)絡(luò)，避免丟失語義信息，能夠提供豐富的全局信息，這對于生成高精度的深度圖而言至關(guān)重要。為保證網(wǎng)絡(luò)鏡像對稱，本文在編碼器四個階段設(shè)置的n值分別為2、2、27、2，在解碼器四個階段設(shè)置的n值分別為2、27、2、2。第三層提取的特征具有較高的語義層次，代表了圖像中更復(fù)雜的語義信息，所以在第三層設(shè)計(jì)27個VSS模塊能夠更好地捕獲這些復(fù)雜的信息。

解碼器第二層設(shè)計(jì)為27個VSS模塊，是為了與編碼器結(jié)構(gòu)形成對稱，在同一尺度下恢復(fù)信息。VSS模塊如圖1所示，特征圖經(jīng)過歸一化處理后進(jìn)入兩個分支，分支一依次通過線性層、深度可分離卷積、SiLU激活函數(shù)［16］，再經(jīng)過2D選擇性掃描操作和歸一化操作，所得輸出與分支二分別經(jīng)過線性層和SiLU激活函數(shù)輸出的元素進(jìn)行相乘，合并結(jié)果經(jīng)過線性層與初始輸入元素相加，最后輸出結(jié)果。2D選擇性掃描操作主要分為三步，如圖2所示，首先，圖像塊沿四條不同路徑經(jīng)過交叉掃描。接著，展平后由并行的S6模塊進(jìn)行處理，確保掃描來自不同方向的信息，得到豐富的特征。最后，將輸出從四個方向進(jìn)行交叉合并，即對序列進(jìn)行求和合并，恢復(fù)到原尺寸，從而完成整個掃描過程。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集與評估

為驗(yàn)證模型的有效性、魯棒性和泛化能力，在兩個常用的公開數(shù)據(jù)集NYU_Depth V2和KITTI進(jìn)行實(shí)驗(yàn)。NYU_Depth V2數(shù)據(jù)集包含了大量由Microsoft Kinect攝像頭捕獲的室內(nèi)場景RGB圖像和對應(yīng)的深度圖像，分辨率為640×480。這些圖像覆蓋了464種室內(nèi)環(huán)境，如臥室、客廳、廚房等，并包含了各種物體和復(fù)雜的場景布局。按照Eigen等人［3］構(gòu)建該數(shù)據(jù)集的方法，訓(xùn)練集包含了249個場景的24 231張圖片和對應(yīng)標(biāo)簽，測試集包含了215個場景的654張圖片和對應(yīng)標(biāo)簽。本文在訓(xùn)練時將圖片隨機(jī)裁剪為分辨率576×448。KITTI數(shù)據(jù)集是由安裝在行駛車輛頂端的攝像頭和多個傳感器捕獲，包含61個場景下的圖像和激光雷達(dá)掃描圖像，分辨率為1241×376。同樣采用Eigen等人的方法對數(shù)據(jù)集進(jìn)行訓(xùn)練集和測試集的拆分，訓(xùn)練集包含了32個場景的23 158張圖片和對應(yīng)標(biāo)簽，測試集包含了29個場景的652張圖片和對應(yīng)標(biāo)簽。在訓(xùn)練時將圖片分辨率隨機(jī)裁剪為704×352。為了評估測試集，本文遵循Garg等人［19］定義的裁剪區(qū)域來裁剪圖像。

本文使用Eigen等人提出的三個閾值精度，三個誤差衡量本文的模型，給定預(yù)測深度i和標(biāo)簽深度yi，其計(jì)算方法如下：

2.2 方法實(shí)現(xiàn)

為了實(shí)現(xiàn)本文的模型，在PyTorch深度學(xué)習(xí)平臺，使用在ImageNet-1k上訓(xùn)練好的Vmamba權(quán)重初始化模型參數(shù)。利用權(quán)重衰減為0.01的AdamW優(yōu)化器［20］，學(xué)習(xí)率最大值為0.000 1，采用余弦退火訓(xùn)練策略，在訓(xùn)練的前50%迭代中，學(xué)習(xí)率從最大學(xué)習(xí)率的30%線性上升到最大學(xué)習(xí)率。該方法的目的是在訓(xùn)練初期讓模型逐漸適應(yīng)較高的學(xué)習(xí)率，從而更平穩(wěn)地進(jìn)行優(yōu)化。在余弦退火階段，學(xué)習(xí)率會按照余弦函數(shù)的形狀從最大值逐漸降低到最大學(xué)習(xí)率的30%。余弦退火策略可以讓學(xué)習(xí)率在訓(xùn)練過程中更平滑地調(diào)整。硬件配置為單張48 GB顯存的L20，訓(xùn)練25輪。本文網(wǎng)絡(luò)輸出的是一半原始大小的圖片，再通過雙線性插值調(diào)整為全分辨率。

2.3 NYU_Depth V2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表1和圖3是本文方法（DepthMamba）在NYU_Depth V2數(shù)據(jù)集上獲得的定量和定性結(jié)果。在沒有額外的訓(xùn)練數(shù)據(jù)情況下，與骨干為Transformer架構(gòu)的Depthformer相比，如表1所以，本文在參數(shù)量減少了27.75%情況下，多項(xiàng)指標(biāo)均有提升，其中RMSE減少了6.09%，σ1提升了1.51%。如圖3所示，所得的深度圖整體上沒有太大的差別，質(zhì)量都很高。然而，由于Transformer本身無法動態(tài)調(diào)整對不同特征的關(guān)注度，且在解碼階段普通卷積的感受野有限，導(dǎo)致在較遠(yuǎn)深度的細(xì)節(jié)信息丟失。VMamba本身設(shè)計(jì)就依賴于卷積，在保證關(guān)注細(xì)節(jié)的同時，捕獲圖像中較長的距離依賴關(guān)系。例如第一行書柜場景的圖片中，本文方法保留了更遠(yuǎn)處的木架輪廓信息，Depthformer幾乎沒有保留信息。第二行的窗戶信息，以及第三行的架子輪廓信息，都比Depthformer保留得更加完整，且Depthformer容易產(chǎn)生橫向條紋偽影，而本文生成的深度圖更加干凈。

2.4 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本文在戶外場景KITTI數(shù)據(jù)集中進(jìn)行了相關(guān)實(shí)驗(yàn)，其定量和定性的結(jié)果如表2和圖4所示。本文方法RMSE比AdaBins和Depthformer分別降低了5.72%、2.63%。鑒于近年來數(shù)據(jù)集性能的逐漸飽和，這種模型性能的提升是顯著的。在圖4的可視化結(jié)果中，可以觀察到第一行的海報(bào)版欄桿、第二行遠(yuǎn)處柱子，以及第三行的標(biāo)識牌，本文方法保留了更多的細(xì)節(jié)信息。本文認(rèn)為，Depthformer在解碼階段僅簡單地進(jìn)行了上采樣操作，并沒有充分考慮前景和背景之間的連續(xù)性，這導(dǎo)致前景對象和背景之間的過渡顯得過于迅速，從而未能有效捕獲物體的細(xì)粒度深度變化。相比之下，DepthMamba采用鏡像對稱的網(wǎng)絡(luò)結(jié)構(gòu)則確保了特征表示能力、空間感知能力以及上下文感知能力，優(yōu)化了前景和背景之間的連續(xù)性。DepthMamba則能夠更清晰地勾勒出其深度輪廓，使得生成的深度圖在邊緣保持和細(xì)節(jié)恢復(fù)方面表現(xiàn)更出色。

2.5 消融實(shí)驗(yàn)

本節(jié)首先使用NYU_Depth V2和KITTI數(shù)據(jù)集對模型網(wǎng)絡(luò)層次進(jìn)行消融實(shí)驗(yàn)。模型參數(shù)量對比如表3所示。本文采用相同的初始化權(quán)重、映射到網(wǎng)絡(luò)中的初始通道數(shù)、訓(xùn)練輪次和訓(xùn)練方法，唯一改變的是網(wǎng)絡(luò)層次，分別構(gòu)建了為大、中、小三種規(guī)模的模型。具體而言，大模型編碼器使用VSS層數(shù)分別為2、2、27、2；中模型為2、2、16、2；小模型為2、2、9、2。結(jié)果如表4所示，更深層的網(wǎng)絡(luò)在室內(nèi)數(shù)據(jù)集上的提升較為明顯，這主要?dú)w因于室內(nèi)環(huán)境更加多樣化，在顏色變化和紋理特征更加復(fù)雜，包含了許多深度無關(guān)的信息。隨著網(wǎng)絡(luò)層次的增加，模型對紋理等細(xì)節(jié)特征的提取能力得到了增強(qiáng)。

此外，由于VMamba還提供更大版本的訓(xùn)練權(quán)重VMamba-B［10］，本文針對權(quán)重配置對模型影響進(jìn)行了實(shí)驗(yàn)。采用VMamba-B作為預(yù)訓(xùn)練權(quán)重，并將網(wǎng)絡(luò)中的初始通道數(shù)設(shè)置為128，結(jié)合表4的中規(guī)模模型VSS層數(shù)，在NYU_Depth V2數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表5中的實(shí)驗(yàn)結(jié)果表明，這種VMamba-B配置相較于VMamba-S初始化權(quán)重展現(xiàn)出了更好的性能，證明了調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的有效性。

為了明確并強(qiáng)化MLPBins深度預(yù)測模塊在模型中的有效性，本文進(jìn)行了一項(xiàng)對比實(shí)驗(yàn)。在實(shí)驗(yàn)中，本文采用表4的中規(guī)模模型，相同訓(xùn)練方式僅移除了MLPBins模塊，并相應(yīng)地將解碼器網(wǎng)絡(luò)輸出的最后一層特征圖通道數(shù)設(shè)置為1，以此作為基準(zhǔn)模型，在NYU_Depth V2數(shù)據(jù)集上直接預(yù)測深度圖。此外，本文還使用AdaBins模塊替換MLPBins模塊。實(shí)驗(yàn)結(jié)果如表6所示。本文發(fā)現(xiàn)，具有MLPBins模塊的模型在性能上優(yōu)于沒有深度預(yù)測模塊的模型，且與參數(shù)量較大的AdaBins模塊性能幾乎相當(dāng)。這一結(jié)果清晰地證明了MLPBins模塊對于提升模型預(yù)測深度圖的準(zhǔn)確性具有重要作用。

3 結(jié)束語

針對Transformer可擴(kuò)展性在很大程度上受到注意力計(jì)算二次復(fù)雜度的限制，導(dǎo)致許多基于Transformer的單目深度估計(jì)訓(xùn)練困難。本文首次提出了基于SSM的單目深度估計(jì)模型，該模型對比Transformer架構(gòu)的模型Depthformer，在應(yīng)對細(xì)節(jié)紋理特征、較遠(yuǎn)深度信息、生成深度圖質(zhì)量等方面都具有優(yōu)勢。該模型在參數(shù)量減少了27.75%情況下，NYU_Depth V2和KITTI數(shù)據(jù)集的RMSE分別減少了6.09%，2.63%。這表明基于SSM模型的單目深度估計(jì)相比于基于Transformer的模型在未來有更多的性能提升，也具有更多潛在研究的意義。

參考文獻(xiàn)：

［1］江俊君，李震宇，劉賢明.基于深度學(xué)習(xí)的單目深度估計(jì)方法綜述［J］.計(jì)算機(jī)學(xué)報(bào)，2022，45（6）：1276-1307.（Jiang Junjun，Li Zhen-yu，Liu Xianming.Deep learning based monocular depth estimation：a survey［J］.Chinese Journal of Computers，2022，45（6）：1276-1307.）

［2］王銘敏，佃松宜，鐘羽中.一種在線更新的單目視覺里程計(jì)［J］.計(jì)算機(jī)應(yīng)用研究，2024，41（7）：2209-2214.（Wang Mingmin，Dian Songyi，Zhong Yuzhong.Online-updating monocular visual odometry［J］.Application Research of Computers，2024，41（7）：2209-2214.）

［3］Eigen D，Puhrsch C，F(xiàn)ergus R.Depth map prediction from a single image using a multi-scale deep network［M］.Cambridge，MA：MIT Press，2014.

［4］Liu Fayao，Shen Chunhua，Lin Guosheng.Deep convolutional neural fields for depth estimation from a single image［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2015：5162-5170.

［5］張競瀾，魏敏，文武.基于DSPP的單目圖像深度估計(jì)［J］.計(jì)算機(jī)應(yīng)用研究，2022，39（12）：3837-3840.（Zhang Jinglan，Wei Min，Wen Wu.Monocular depth estimation based on DSPP［J］.Application Research of Computers，2022，39（12）：3837-3840.）

［6］Bhat S F，Alhashim I，Wonka P.AdaBins：depth estimation using adaptive bins［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：4009-4018.

［7］Tan M，Le Q.EfficientNet：rethinking model scaling for convolutional neural networks［C］//Proc of International Conference on Machine Learning.New York：ACM Press，2019：6105-6114.

［8］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Advances in Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：6000-6010.

［9］Ranftl R，Bochkovskiy A，Koltun V.Vision Transformers for dense prediction［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：12179-12188.

［10］Agarwal A，Arora C.Depthformer：multiscale vision Transformer for monocular depth estimation with global local information fusion［C］//Proc of IEEE International Conference on Image Processing.Pisca-taway，NJ：IEEE Press，2022：3873-3877.

［11］Gu A，Dao T.Mamba：linear-time sequence modeling with selective state spaces［EB/OL］.（2023-12-01）.https：//arxiv.org/abs/2312.00752.

［12］Liu Yue，Tian Yunjie，Zhao Yuzhong，et al.VMamba：visual state space model［EB/OL］.（2024-01-18）.https：//arxiv.org/abs/2401.10166.

［13］Geiger A，Lenz P，Stiller C，et al.Vision meets robotics：the KITTI dataset［J］.The International Journal of Robotics Research，2013，32（11）：1231-1237.

［14］Silberman N，Hoiem D，Kohli P，et al.Indoor segmentation and support inference from RGBD images［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2012：746-760.

［15］Russakovsky O，Deng Jia，Su Hao，et al.ImageNet large scale visual recognition challenge［J］.International Journal of Computer Vision，2015，115：211-252.

［16］Elfwing S，Uchibe E，Doya K.Sigmoid-weighted linear units for neural network function approximation in reinforcement learning［J］.Neural Networks，2018，107：3-11.

［17］Dosovitskiy A，Beyer L，Kolesnikov A，et al.An image is worth 16×16 words：Transformers for image recognition at scale［EB/OL］.（2020-10-22）.https：//arxiv.org/abs/2010.11929.

［18］Lee J H，Han M K，Ko D W，et al.From big to small：multi-scale local planar guidance for monocular depth estimation［EB/OL］.（2019-07-24）.https：//arxiv.org/abs/1907.10326.

［19］Garg R，Bg V K，Carneiro G，et al.Unsupervised CNN for single view depth estimation：geometry to the rescue［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2016：740-756.

［20］Loshchilov I，Hutter F.Decoupled weight decay regularization［EB/OL］.（2017-11-14）.https：//arxiv.org/abs/1711.05101.

［21］Fu Huan，Gong Mingming，Wang Chaohui，et al.Deep ordinal regression network for monocular depth estimation［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：2002-2011.

［22］Yang Guanglei，Tang Hao，Ding Mingli，et al.Transformer-based attention networks for continuous pixel-wise prediction［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：16269-16279.

［23］Song M，Lim S，Kim W.Monocular depth estimation using Laplacian pyramid-based depth residuals［J］.IEEE Trans on Circuits and Systems for Video Technology，2021，31（11）：4381-4393.

計(jì)算機(jī)應(yīng)用研究2025年3期

計(jì)算機(jī)應(yīng)用研究的其它文章: 復(fù)合因素影響下嫌疑人發(fā)型變化的深度模擬; 基于韋伯定律的彼得森圖局部人臉特征模式; 聯(lián)合時空差異注意力與層級細(xì)節(jié)增強(qiáng)的遙感影像變化檢測; 融合雙向感知Transformer與頻率分析策略的圖像修復(fù); 一種改進(jìn)的快速深度圖像先驗(yàn)降噪模型; 基于蝗蟲視覺神經(jīng)的人群匯流行為檢測神經(jīng)網(wǎng)絡(luò)