999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于局部區域強化的單目深度估計算法

2024-05-20 00:00:00王樂剛陳程立詔
青島大學學報(自然科學版) 2024年1期
關鍵詞:深度特征融合

摘要:

針對深度估計場景中復雜紋理和復雜幾何結構造成的物體邊界扭曲、局部細節信息丟失等問題,提出基于局部區域強化的單目深度估計方法。首先,利用基于卷積神經網絡的深度估計模型,得到低分辨率的圖像;然后,引入顯著目標檢測模型,得到高分辨率的顯著圖像,監督生成深度圖;最后將顯著圖與深度圖融合,以此提高整個圖像的深度估計精度。公共數據集上的實驗結果表明,該方法可以顯著提高單目深度估計的精度。

關鍵詞:

單目深度估計;局部區域強化;卷積神經網絡;深度學習

中圖分類號:

TP391.41

文獻標志碼:A

收稿日期:2023-07-09

基金項目:

國家自然科學基金(批準號:61772294)資助;山東省高等學校青年創新科技支持計劃項目(批準號:2021KJ062)資助。

通信作者:

陳程立詔,男,博士,教授,主要研究方向為計算機視覺、深度學習、數據挖掘等。E-mail: cclz123@163.com

單目深度估計的目的是獲取場景中物體表面位置與相機平面之間的垂直距離信息,廣泛應用于三維重建、場景感知、增強現實等領域。機器學習與深度學習技術出現前,完成場景中的物體距離估計需要使用多個攝像頭和激光雷達等設備,造價昂貴且笨重。機器學習應用于單目深度估計時,可通過構造馬爾科夫隨機場數學模型構建圖像中不同尺度的特征信息關系;可對圖像中物體特征的深度關系進行求解估計[1-3];通過引入中值濾波同時混合采用雙邊濾波的方法改善了單目圖像深度估計的效果[4]。上述方法均建立在假設圖像中的物體與真實場景中的物體深度滿足特定的線性映射,與真實物理原理存在一定的差距,因此預測誤差較大。利用機器學習構建圖像中的物體與真實場景中的物體深度之間的非線性數學映射模型,通過構建雙層條件隨機場模型優化深度估計任務[5],或者將超像素和馬爾科夫隨機場方法相結合[6],并構建高斯概率數學模型,能夠獲得更高精度的深度圖。上述方法雖然可以得到場景中物體的基本深度信息,但算法精度低且耗時,難以應用到實際場景。隨著卷積神經網絡的發展,深度估計網絡利用深度CNN的編碼特征,使性能得到顯著改進。例如使用兩種尺度的神經網絡結構估計單張圖片深度時,粗尺度的網絡用于預測單張圖片的全局深度,細尺度的網絡用于優化單張圖片的局部細節,并將網絡模型中的全局信息與局部優化信息相結合,得到最終深度圖像[7]。后續研究中,為了解決單目深度估計精度問題,網絡模型迭代時層數變得更多,架構更為復雜。而基于解決回歸問題思想的全卷積殘差網絡模型[8-10]進行深度估計時可以得到更高分辨率的深度圖像,但存在細節深度信息提取困難,輪廓不準確等問題。為此,本文提出基于局部區域強化的單目深度估計(Depth Salient network,DSnet)方法,添加顯著監督與顯著融合模塊,利用顯著圖豐富深度圖的細節信息,得到更高精度的深度圖。

1 算法闡述

1.1 網絡結構

本文利用一張單一的RGB圖像估計圖像中每個像素相對拍攝源的距離,得到含有深度信息的深度圖像。DSnet方法由兩部分組成:顯著監督模塊和顯著融合模塊,如圖1所示。

在顯著監督模塊中,輸入一張RGB圖像,使用KBnet[11]和EDN[12]模型分別得到深度圖和顯著圖。KBnet是深度估計模型,以RGB圖像、相應的稀疏深度圖和相機校準矩陣作為輸入,用稀疏到密集的模塊學習稀疏點的密集表示,其結果和校準矩陣用于校準提升,將圖像特征反向投影到三維空間,得到效果不錯的深度圖。EDN是一個目標檢測模型,引入極降采樣網絡,采用一種極端降采樣技術有效地學習整個圖像的全局視圖,從而實現精確的顯著目標定位,得到效果良好的顯著圖。顯著性信息表示圖像中的重要區域,將顯著圖用于深度圖的訓練模型,指導生成深度圖,能夠獲得更加精確的深度圖,有助于提高算法的準確性和魯棒性。

顯著融合模塊中的關鍵步驟是有效地融合顯著圖與深度圖的特征。雖然可以用最簡單的網絡單層MLP從兩種模式生成全局特征,并連接,但忽略了模式之間的局部差異。尤其運動模糊、遮擋和噪聲等因素是重要的局部特征,會損害全局特征相互補充的能力。為此,DSnet采用像素級特征融合技術,通過點云的三維投影,將相應的RGB特征與點云特征對齊。與密度融合[13-14]中使用的方法不同,DSnet在多尺度金字塔特征上進行逐像素融合;與簡單的連接兩個特征不同,DSnet添加了一個特征空間轉換模塊,該模塊可動態分配權重,避免了局部偏差對整體性能的影響。

1.2 編碼器

編碼階段的目標是利用RGB圖像豐富全局信息。DSnet采用了一個分層的變壓器作為編碼器,輸入一張RGB圖像,經過3×3卷積處理后,得到嵌入的補丁,作為變壓器塊的輸入,變壓器塊由多組自注意和具有殘差連接的MLP-Conv-MLP層組成。為降低自注意層的計算成本,每個注意頭的維數隨比值Ri而減小。在給定的輸出下,使用重疊卷積進行補丁合并。這個過程允許在編碼階段生成多尺度的特征,并可以在解碼階段使用。

1.3 輕量級解碼器

編碼器將輸入圖像轉換為特征F,大小為1/32H×1/32W×C。為獲得估計的深度圖,構造了一個輕量級的解碼器,將特征恢復到H×W×1。既有研究大多用卷積層或反卷積層堆疊多重雙線性上采樣,以恢復原始大小。如果設計的恢復路徑有效,模型可以通過更少的卷積和雙線性上采樣層獲得更好的性能。首先,將特征的信道維數降為1×1,以降低計算復雜度;然后利用連續雙線性上采樣將特征尺寸擴展為H×W×C;最后,輸出通過兩個卷積層和一個s型函數預測深度圖,并將深度圖乘以最大深度值(單位:m),這個簡單的解碼器可以生成與其他基線結構一樣精確的深度圖。為了進一步利用局部結構的細節,在DSnet的融合模塊中添加殘差連接。

1.4 特征融合

DSnet的特征融合模塊利用了一個選擇性特征融合(SFF)的方法,通過獲得每個特征的注意圖,自適應地選擇和集成顯著圖中局部特征和深度圖中全局特征(圖2)。為了匹配解碼特征F的維數,利用卷積層將多尺度局部上下文特征降維。沿通道維度連接降維后的特征,并通過兩個3×3合并的BatchNorm-ReLU層。最終的卷積層和s型圖層產生了一個雙通道注意圖,其中每個局部特征和全局特征均與每個通道相乘,以聚焦在重要的位置,上述特征中元素逐個相加,構建混合特征H。為了加強局部連續性,將不減少1/4個尺度特征上的維數。

1.5 損失函數

損失函數由兩部分組成:顯著監督模塊中的損失和顯著融合模塊中的損失。引入了尺度不變損失(Scale-Invariant,SI)[7]作為顯著監督模塊中的損失函數

LSI=a 1t∑ig2i-ωt2(∑igi)2(1)

其中,gi=log di-log di,di代表有效的像素數量,t為時間,a和ω為損失參數,經過多次實驗驗證,設置a=10,ω=0.85效果最好。顯著融合模塊的損失函數為

LSF=wphlph+wszlsz +wsmlsm(2)

其中,lph表示光度一致性,顯著融合方法利用光度重投影誤差作為一個監督信號,使用姿態網絡估計It和Iτ之間的相對姿態,τ∈T=(t-1,t+1),I表示不同時間下物體的姿態。在融合過程中,光度一致性損失使用L1正則化和SSIM[15]的組合來測量平均光度重投影誤差

lph=1Ω∑τ∈T∑x∈Ω|Iτ︿(x,d︿)-It(x)|+(1-SSIM(Iτ︿(x,d︿)-It(x)))(3)

其中,lsz表示稀疏深度一致性,為了將預測建立到度量尺度上,最小化預測d︿與其域上稀疏深度輸入的L1差異

lsz=1Ω∑x∈Ω|d︿(x)-z(x)|(4)

其中,lsm表示局部平滑度,通過最小化x-(X)和y-(X)方向上的L1正則化來增強局部平滑性和連通性,x與y分別為x軸與y軸方向上的位移

lsm=1Ω∑x∈ΩλX(x)|Xd︿(x)|+λY(x)|Yd︿(x)|(5)

每項均由相關的w加權,經過多次實驗驗證,設置wph=1,wsz=0.6和wsm=0.04最為合適。最終的總損失為

Ltotal=LSI+LSF(6)

2 實驗設計與結果分析

為了驗證DSnet方法的有效性,與Eigen[7]、Fu[16]、Yin[17]、DAV[18]、BTS[19]、Adabins[20]和DPT[21]等方法進行比較,實驗在NYUV2[22]和KITTI[23]數據集上展開。

2.1 數據集

NYUV2數據集包含640×480張圖像和使用微軟Kinect相機獲得的各種室內場景的相應深度圖,隨機使用了大約24K張圖像在DSnet網絡上訓練,并對654張圖像進行了測試。為了便于公平比較,對Eigen[7]預先定義的中心裁剪進行了評估,最大范圍為10 m。

KITTI數據集提供了大約80 000個原始圖像幀和相關的稀疏深度圖[8]。稀疏深度圖是激光雷達傳感器的原始輸出,每個傳感器的密度約為5%,真實深度是通過累積11個鄰近的原始激光雷達掃描來獲得的,半密集的深度可用于較低的30%的圖像空間,在1 000個指定官方樣本上進行驗證和測試(在線測試服務器上進行評估)。

2.2 實驗參數

DSnet使用PyTorch框架來實現,端到端每幀需要16 ms。訓練時,選擇Adam優化器,設置超參數β1=0.9和β2=0.999。在Nvidia GTX 3090 GPU上,KITTI訓練了56輪,耗時46 h,NYU Depth V2訓練了16輪,耗時13 h。

2.3 結果比較

表1中δ1、δ2、δ3是閾值準確率,表示預測深度和真實深度之間的最大比值在某個閾值范圍內的像素占比,δ1、δ2、δ3越大,表示準確率越高,性能越好。RMSE是均方根誤差,表示預測深度和真實深度之間的平均差值的平方根,RMSE越小,表示誤差越小,性能越好。AbsRel是絕對相對誤差,表示預測深度和真實深度之間的絕對差值與真實深度的比值的平均值,AbsRel越小,表示誤差越小,性能越好。log10是對數誤差,表示預測深度和真實深度之間的對數差值的絕對值的平均值,值越小,表示誤差越小,性能越好。DSnet在諸多指標上領先其他算法,δ1相比Adabins提高了0.8%,δ2相比DPT提高了0.4%;δ3與DPT并列第一,相比第二名的BTS提高了0.1%,AbsRel比第二名DPT低0.8%,RMSE比第二名DPT低0.9%,log10比第二名Adabins的結果低0.3%。可視化的結果如圖3所示。

除了在NYUV2數據集測試,還在室內數據集KITTI上測試了DSnet,以驗證其泛化性能。由表2可知,DSnet在所有指標上均優于其他方法,δ1、δ2、δ3相比DPT分別提高了2.3%、1.9%、0.9%。在AbsRel上比DPT結果低0.5%,RMSE比DPT結果低2.0%,log10上比Adabins結果低1.0%。

2.4 魯棒性比較

現分析DSnet對自然圖像損壞的魯棒性。深度估計方法的魯棒性是至關重要的,因為現實中圖像大概率存在一定程度的破壞,此時,需要方法具有穩定性。根據之前神經網絡對魯棒性的研究,在4種不同破壞類型的圖像上測試了DSnet,分別是高斯噪聲、運動模糊、惡劣天氣和對比度差,并分別與BTS和Adabins兩種方法做了比較。

由表3可知,在不同損壞類型下的所有指標均呈現下降趨勢,但是相較于另外兩種方法,DSnet下降幅度最低,在不同損壞類型下依然表現出了不錯的性能。

3 結論

本文提出了一種新的單目深度估計方法DSnet,用于單個RGB圖像進行深度估計,利用顯著圖提升深度圖的精度,在絕對相對誤差和均方根誤差方面都取得了更好的效果;DSnet中的顯著融合模塊通過顯著圖與深度圖的融合得到了精度更高的深度圖。實驗在公共數據集NYUV2和KITTI上展開,并對比多個方法,證明了DSnet的有效性和魯棒性。在未來的工作中,嘗試將DSnet應用到其他任務,例如目標檢測、圖像分割、三維重建等。

參考文獻

[1]SAXENA A, CHUNG S H, NG A Y. Learning depth from single monocular images[C]// Advances in Neural Information Processing Systems 18(NIPS). Cambridge, 2005: 1161-1168.

[2]SAXENA A, SUN M, NG A Y. Learning 3-D scene structure from a single still image[C]// 11th IEEE International Conference on Computer Vision. Rio de Janeiro, 2007: 1-8.

[3]LIU B Y, GOULD S, KOLLER D. Single image depth estimation from predicted semantic labels[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR). San Francisco, 2010: 1253-1260.

[4]KONRAD J, WANG M, ISHWAR P. 2D-to-3D image conversion by learning depth from examples[C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR). Providence, 2012: 16-22.

[5]趙信宇, 朱曉蕊, 余錦全. 單幅圖像深度信息的提取[J]. 制造業自動化, 2010(3): 22-24.

[6]陸振杰, 宋進. 單幅數字圖像多尺度空間下的場景深度估計[J].計算機技術與發展, 2013(1): 51-53.

[7]EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network[J]. Advances in Neural Information Processing Systems, 2014: 2366-2374.

[8]LAINA I, RUPPRECHT C, BELAGIANNIS V. Deeper depth prediction with fully convolutional residual networks[C]// 4th International Conference on 3D Vision (3DV). San Francisco, 2016: 239-248.

[9]CAO Y Z H, WU Z F, SHEN C H. Estimating depth from monocular images as classification using deep fully convolutional residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(11): 3174-3182.

[10] MOUKARI M, PICARD S, SIMON L. Deep multi-scale architectures for monocular depth estimation[C]// 25th IEEE International Conference on Image Processing(ICIP). Athens, 2018: 2940-2944.

[11] WONG A, SOATTO S. Unsuperviseddepth completion with calibrated back projection layers[C]// IEEE/CVF International Conference on Computer Vision(ICCV). Montreal, 2021:12727-12736.

[12] WU Y H, LIU Y, ZHANG L. EDN: Salient object detection via extremely down sampled network[J]. IEEE Transactions on Image Processing, 2022, 31:3125-3136.

[13] 劉東華,魏賓,王國棟.基于多尺度特征融合與注意力機制的人群計數算法[J].青島大學學報(自然科學版),2022,35(1):40-47.

[14] 鄒廣群,張維忠,卞思琳.上采樣深度圖像與RGB圖像的融合[J].青島大學學報(自然科學版),2016,29(1):71-74.

[15] WANG Z, BOVIK A C, SHEIKH H R. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600-612.

[16] FU H, GONG M M, WANG C H, et al. Deep ordinal regression network for monocular depth estimation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018:2002-2011.

[17] YIN X C, WANG X W, DU X W, et al. Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Venice, 2017:5871-5879.

[18] HUYNH L, MATAS J, RAHTU E, et al. Guiding monocular depth estimation using depth-attention volume[C]// European Conference on Computer Vision. Glasgow, 2020: 581-597.

[19] LEE J H, HAN M K, WOOK KO D, et al. From big to small: Multi-scale local planar guidance for monocular depth estimation[DB/OL]. [2023-06-23]. https://arxiv.org/pdf/1907.10326.pdf.

[20] BHAT S F, ALHASHIM I, WONKA P. Adabins: Depth estimation using adaptive bins[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Kuala Lumpur, 2021: 4008-4017.

[21] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// 31st Annual Conference on Neural Information Processing Systems(NIPS). Long Beach, 2017:5998-6008.

[22] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images[C]// European Conference on Computer Vision. Berlin, 2012:746-760.

[23] GEIGER A, LENZ, P, STILLER, C, et al. Vision meets robotics: The KITTI dataset[J]. International Journal of Robotics Research, 2013, 32(11):1231-1237.

Monocular Depth Estimation Methcd Based on Local Regional Reinforcement

WANG Le-gang1, CHEN Cheng-li-zhao2

(1.College of Computer Science and Technology, Qingdao University, Qingdao 266071, China;

(2.College of Computer Science and Technology, China University of Petroleum, Qingdao 266555, China)

Abstract:

A monocular depth estimation method based on local regional reinforcement was proposed to address the issues of object boundary distortion and loss of local detail information caused by complex texture and geometry structare in depth estimation scene. First, the depth estimation model based on the convolutional neural network was used to obtain the low- resolution image. Then, the saliency object detection model was introduced to obtain the high-resolution saliency map which supervised the generation of depth map. Finally, the salient map and depth map were fused to improve the overall depth estimation accuracy of the image. Experimental results on public datasets show that the proposed method can significantly improve the precision of monocular depth estimation.

Keywords:

monocular depth estimation; local regional reinforcement; convolutional neural network deep learning

猜你喜歡
深度特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
深度理解一元一次方程
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 青青草a国产免费观看| 四虎成人精品| 91福利一区二区三区| 国内精品久久久久久久久久影视| 国产精品亚洲一区二区三区在线观看| 少妇人妻无码首页| 亚洲无码免费黄色网址| 欧美97色| 成人毛片免费在线观看| 欧美、日韩、国产综合一区| 久久天天躁夜夜躁狠狠| 超清无码熟妇人妻AV在线绿巨人| 中文字幕有乳无码| 亚洲 欧美 偷自乱 图片| 午夜视频免费试看| 国产原创自拍不卡第一页| 免费看a级毛片| 亚洲天堂久久新| 国产精品成人啪精品视频| 国产精品入口麻豆| 欧美国产日韩在线观看| 亚洲国产成人久久77| 亚洲第一黄色网址| 亚洲国产欧洲精品路线久久| 久久视精品| 精品乱码久久久久久久| 97在线国产视频| 国产高清不卡| 伊人中文网| 国产嫩草在线观看| 国产精品香蕉在线| 午夜性爽视频男人的天堂| 亚洲男女在线| 免费一级毛片完整版在线看| 精品国产乱码久久久久久一区二区| 九九视频免费在线观看| 亚洲一区第一页| 久青草网站| 一级成人a毛片免费播放| 国产资源免费观看| 国产传媒一区二区三区四区五区| 久久香蕉国产线| 免费国产黄线在线观看| 在线观看亚洲成人| 欧美精品亚洲二区| 人妻中文字幕无码久久一区| 国产精品免费露脸视频| 永久免费精品视频| 国产成人超碰无码| 久久久久亚洲精品无码网站| 国产成人a在线观看视频| 国内黄色精品| 婷婷激情亚洲| 亚洲免费播放| 色AV色 综合网站| 欧美一级视频免费| 国产亚洲精品自在线| 亚洲精品桃花岛av在线| 日韩无码黄色| h视频在线观看网站| 国产成人久久综合777777麻豆| 中文字幕人成乱码熟女免费| 亚洲综合狠狠| 亚洲色欲色欲www在线观看| 日韩激情成人| 日韩精品成人网页视频在线 | 亚洲毛片一级带毛片基地 | 久久中文字幕av不卡一区二区| 国产日韩精品欧美一区喷| 色综合五月婷婷| 91精品国产无线乱码在线| 亚洲国产黄色| 日本午夜视频在线观看| 国产玖玖视频| 色欲综合久久中文字幕网| 亚洲首页在线观看| 亚洲综合九九| 国产香蕉97碰碰视频VA碰碰看| 精品一区二区三区自慰喷水| 日本不卡视频在线| 男女性色大片免费网站| 欧美在线导航|