999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于場景對象注意與深度圖融合的深度估計

2023-02-20 09:39:06溫靜楊潔
計算機工程 2023年2期
關鍵詞:深度融合模型

溫靜,楊潔

(山西大學 計算機與信息技術學院,太原 030006)

0 概述

深度估計被廣泛應用于自動駕駛、無人機導航等各種智能任務。EIGEN等[1]提出利用深度學習進行深度估計的方法,該方法相較于傳統方法的估計性能得到顯著提升。LIU等[2]為簡化訓練過程并增強細節信息,提出一種新的深度估計算法,該算法將深度卷積神經網絡與連續條件隨機場相結合進行深度估計。LI等[3]在文獻[2]的基礎上,提出一種多尺度方法,結合超像素與像素來優化深度估計的預測性能。LAINA等[4]結合殘差網絡的優點,提出一種殘差學習的全卷積網絡架構,獲得較優的估計結果。GARG等[5]提出一種類似于自動編碼機的深度估計算法,利用立體圖像對代替深度標簽,從而實現無監督單目深度估計的目的。該方法雖然能夠訓練單目深度估計模型,但是依賴基于立體信息的訓練數據。GODARD等[6]提出一種新的自監督單目深度估計方法,該方法不依賴基于立體信息的訓練數據。信息損失是深度估計任務中的主要問題。GUIZILINI等[7]基于GODARD等[6]的工作,提出一種新的卷積網絡結構,稱為PackNet。針對深度估計方法的精度低、網絡臃腫復雜的問題,王亞群等[8]設計了密集卷積網絡。

針對深度估計任務中相鄰深度邊緣細節模糊以及對象缺失的問題,本文提出一種基于場景對象注意機制與加權深度圖融合的深度估計算法。利用卷積網絡計算特征圖任意位置之間的相似度向量,以增大網絡的感受野并增強特征圖的上下文信息,有效解決對象缺失的問題。將不同網絡層的深度圖進行融合,在融合之前利用權重生成器為每一個深度圖賦予權重,提高深度圖的預測精度。

1 相關工作

自監督單目深度估計是深度估計算法研究的主流。GODARD等[6]提出的Monodepth2 模型具有較優的深度估計性能。為進一步提升算法的性能,GUIZILINI等[7]提出一種新的自監督單目深度估計模型,該模型由獨特的卷積網絡結構PackNet 組成,當傳統編碼器-解碼器恢復原分辨率時,PackNet中的打包解包模塊可以有效地解決信息量丟失問題。

近年來,注意力機制在計算機視覺領域具有重要作用。文獻[9]提出將注意力機制引入計算機視覺中。文獻[10]在圖像分類模型中使用空間注意力,顯著提高分類任務的準確率。HU等[11]提出一種通道注意力機制,該機制賦予各通道不同的權重,不同的權值代表不同的關注程度。WOO等[12]采用級聯和并行的方式連接不同的注意力。YANG等[13]結合非局部均值與注意力機制的基本原理,提出一種可以捕獲特征圖中像素點間的長距離依賴關系模塊,文獻[14-15]詳細介紹了該模塊的的原理及應用。

HE等[16]提出一種全新的池化層,該池化層使用多個卷積窗口對特征圖進行池化。ZHAO等[17]提出金字塔場景解析網絡PSPNet,該網絡采用步長和池化尺寸均不同的平均池化層進行池化。LIU等[18]提出ParseNet,通過全局池化提取圖像的全局特征,并將全局特征與局部特征相融合。

WU等[19]提出一種多級上下文與多模態融合網絡MCMFNet,用于融合多尺度多級上下文特征映射關系,并從深度信息中學習對象邊緣。文獻[20]提出低分辨率的深度圖,在深度信息預測方面具有較優的性能。文獻[21]提出的低分辨率深度圖沒有場景的空間信息和對象信息,在高分辨率深度圖中存在豐富的場景信息和細節信息,但不含任何深度信息。文獻[22]通過融合不同尺度的深度圖得到包含深度信息和場景對象信息的深度圖。本文基于以上原理,提出加權深度圖融合模塊。

2 本文算法

本文結合場景對象注意機制和加權深度圖融合模塊,提出一種自監督單目深度估計算法,通過場景對象注意機制有效地解決深度圖中明顯的對象缺失問題。加權深度圖融合模塊提高深度預測的準確度,同時,相鄰深度邊緣細節模糊的問題也得到有效解決。

2.1 網絡模型整體結構

本文所提自監督單目深度估計網絡模型的基線是PackNet,用于解決信息丟失問題。圖1 所示為自監督單目深度估計網絡結構。

圖1 本文網絡結構Fig.1 Structure of the proposed network

本文網絡基于傳統的編碼器-解碼器結構,在編碼器-解碼器中加入場景對象注意機制和加權深度圖融合模塊。輸入圖片首先經過一個5×5 的卷積層,通過編碼器獲取高維特征。深度估計網絡結構將不同層的深度圖輸入到加權深度圖融合模塊中進行融合。編碼器模塊Enc_Block 的結構如圖2 所示,該結構由三個Conv2D 3×3 的卷積層、場景對象注意模塊和PackingBlock 模塊[7]順序連接組成。

圖2 Enc_Block 網絡結構Fig.2 Structure of Enc_Block network

解碼器模塊主要由Dec_Block 組成,Dec_Block的結構如圖3 所示。從圖3 可以看出:Dec_Block 由UnpackingBlock 模塊、場景對象注意模塊和Conv2D 3×3 組成。

模型中采用反向映射原理合成目標圖像,根據目標圖像的二維像素點坐標,利用相機內參矩陣和位姿網絡得到的變換矩陣進行坐標變換,進而計算出與原圖像對應的坐標,根據得到的坐標在原圖像中進行采樣,將采樣值作為目標圖像對應位置的像素值。整體過程如式(1)所示:

其中:t′為源圖像;t為目標圖像;It′→t為利用深度和相機位姿對源圖像進行采樣的圖像為采樣符號;Dt為深度信息;K為相機內參;Tt→t′為旋轉矩陣;proj()為依據深度投影到源圖像It′上的二維坐標。

在得到合成目標圖像后,結合原目標圖像計算整體光度損失,整體光度重投影誤差[6]如式(2)所示:

其中:pe 為單張光度重投影誤差。其表達式如式(3)所示:

因圖片邊緣信息的重要性,本文利用邊緣感知平滑損失LS來改善邊緣預測結果,如式(4)所示[20]:

其中:為平均歸一化逆深度。

本文參考文獻[7],將高于合成目標圖相應未扭曲的光度損失像素進行移除操作,通過這種方式來掩蓋靜態像素。自動遮罩會移除外觀在幀之間不發生變換的像素,使得本文實驗具有場景和場景對象較小的光度損失。移除操作過程如式(5)所示:

如果不對相機位姿進行約束,那么會導致估計深度的準確率降低。因此,本文使用瞬時速度對估計出相機位姿中的平移分量進行約束。速度監督損失如式(6)所示[7]:

其中:為位姿網絡預測的位姿平移分量;v為瞬時速度;ΔTt→t′為目標幀與源幀之間的時間差。

2.2 場景對象注意機制

2D 和3D 卷積只能處理局部像素領域的圖像信息,無法探索全局環境上下文信息。本文所提的場景對象注意機制可以學習到上下文中具有相似語義的特征組及其之間的關系,因此,能夠更加充分地利用全局上下文信息。當使用標準卷積時,由于這些信息可能位于卷積無法到達的非連續位置,因此模型未得到用于預測像素深度的正確上下文信息。

此外,光照、姿態、紋理、形變、前后遮擋等信息的處理都與上下文信息密切相關。場景對象注意機制能增強屬于同一對象的像素相關性,以確保同一對象深度具有一致性、連續性,從而提高深度估計的準確性,減少對象缺失的視覺錯誤。

場景對象注意模塊的結構如圖4 所示。利用1×1 卷積層調整特征圖通道數,再將特征圖的維度進行變換,使得特征圖矩陣符合矩陣點乘的維度要求,通過激活函數處理特征圖矩陣點乘后的結果,進而得到全局任意兩個元素之間的依賴關系。

圖4 場景對象注意模塊結構Fig.4 Structure of scene object attention module

2.3 加權深度圖融合模塊

在深度學習中,高層網絡的語義信息表達能力較強,但是幾何信息的表達能力較弱,并缺乏空間幾何特征細節信息。由于低層網絡的特征圖具有與高層網絡特征圖互補的特點,因此本文將不同尺度的特征圖相融合,得到具有較優的語義表達能力和多種空間特征細節信息的融合特征。該融合特征有助于深度網絡學習更準確的深度,緩解相鄰深度的細節模糊問題。

本文基于多尺度特征圖融合的優點,設計加權深度圖融合的網絡結構。從深度估計網絡模型中可以得到不同分辨率的深度圖,每一個不同分辨率的深度圖都有不同的細節特征,通過融合不同分辨率的深度圖,不僅有助于網絡模型估計出更精確的深度信息,還可以得到具有豐富輪廓信息的深度圖。

在融合深度圖之前,本文所提的網絡結構給每個深度圖賦予權值,即給深度圖中每一個像素級單位一個權值。加權深度圖融合網絡模型通過對不同分辨率的深度圖調整分辨率大小,使用Resize 模塊將三種不同大小分辨率的深度圖調整到相同分辨率,利用深度圖計算權值。為保證賦予深度圖的每個權值都是非負數,且滿足三個權值和為1,本文在上述卷積層后增加一個Softmax 函數。在得到權值后與深度圖進行逐元素相乘,得到加權后的深度圖,最后把三幅加權深度圖進行逐元素相加,得到最終的深度圖。加權深度圖融合模塊如圖5 所示,圖中D_A 表示深度圖,D_A1 表示調整分辨率后的深度圖,DepthMap 表示最終得到的加權深度圖。

圖5 加權深度圖融合模塊結構Fig.5 Structure of weighted depth map fusion module

為增強特征之間的空間信息和通道信息的依賴性,本文在加權深度圖融合網絡模型中加入CBAM模塊[11]。

3 實驗結果與分析

3.1 實驗數據集與評估指標

本文實驗采用的數據集是KITTI[23]和DDAD[7]。KITTI 數據集是自動駕駛場景下最大的計算機視覺算法評測數據集。本文采用EIGEN 等使用的訓練協議,并使用文獻[24]所提的預處理去除靜態幀,使用39 810 張圖像用于訓練,4 424 張用于驗證。

DDAD 數據集包含單目視頻和準確的地面深度,這些深度是由安裝在自動駕駛汽車車隊上的高密度LiDAR生成的。本文實驗使用兩組指標來評估模型[25]:第一組指標分別是絕對相對誤差(AbsRel)、平均相對誤差(SqRel)、均方根誤差(RMSE)、對數均方根誤差(RMSElog);第二組指標是精確度σ1、σ2、σ3。第一組指標的數值越小表明模型性能越好,則第二組指標相反,其數值越大表明網絡模型的性能越優。評估指標如下:

其中:N表示像素總數;Di表示第i個像素的深度估計值;表示第i個像素真實深度值。

3.2 網絡參數設置

本文網絡模型的輸入圖片大小為640×192 像素,深度估計網絡模型首先將一個卷積核大小設置為5×5,調整輸入圖片的維度,然后將調整維度后的圖片輸入到編碼器中。編碼器中的殘差塊是由3 個2D 卷積組成的序列,2D 卷積層的卷積核大小均為3。Packing 模塊中卷積層的卷積核大小為3×3,場景對象注意模塊中卷積層的卷積核大小為1×1,3×3,其中1×1 卷積的作用是修改特征圖的通道大小并增加非線性。解碼器模塊由Unpacking 模塊、卷積層和場景對象注意機制網絡模塊組成。Unpacking 模塊和卷積層的卷積核大小均為3×3。在加權深度圖融合模塊中有兩種不同大小的卷積,分別是1×1和3×3。以上網絡模型的超參數都是通過實驗手動進行調參,得到的最優參數。

本文在開源的深度學習框架PyTorch 上實現并訓練所提的網絡模型,并在兩個NVIDIA1080 TI 上訓練模型。在實驗過程中使用Adam 優化器,指數衰減率β1=0.9,β2=0.999,初始深度和姿態網絡學習率分別為2×10-4和5×10-4。每40個迭代次數學習率會衰減1/2,SSIM 中權重值α=0.85。批處理大小設置為4,訓練的最大迭代次數設置為100。本文每經過一個迭代次數測試一次模型的預測性能,依據當前測試結果和之前的測試結果對網絡模型的參數進行調整。

3.3 結果分析

本文的基線網絡PackNet 利用深度估計網絡來估計目標圖像逐像素點的深度信息,采用姿態網絡估計相機旋轉和平移的分量,通過變換關系建立自監督關系,從而實現訓練與收斂。相比之前的自監督單目深度估計算法,基線算法具有較優的性能。

在數據集DDAD 上不同算法的評價指標對比如表1 所示,加粗表示最優數據。從表1 可以看出:本文算法的評估指標優于現有算法的評估指標。

表1 在數據集DDAD 上不同算法的評價指標對比 Table 1 Evaluation indicators comparison among different algorithms on dataset DDAD

在數據集KITTI 上不同算法的評價指標對比如表2 所示,M 表示使用單目圖像,M+v 表示附加速度的弱監督模式,K 表示在數據集KITTI 上進行訓練,CS+K 表示使用CityScapes 和KITTI 數據集進行訓練。從表2 可以看出:本文算法的平均相對誤差明顯優于對比算法。

表2 在數據集KITTI 上不同算法的評價指標對比 Table 2 Evaluation indicators comparison among different algorithms on dataset KITTI

圖6 所示為在KITTI 數據集上不同算法的可視化結果對比。從圖6 可以看出:本文算法能夠捕捉更加清晰的結構,改善相鄰深度邊緣細節模糊的問題,有效地解決場景對象缺失的問題。本文所提的自監督單目深度估計算法預測的深度圖具有更加完整的場景對象輪廓和精確的深度信息。

圖6 不同算法的深度預測結果對比Fig.6 Depth prediction results comparison among different algorithm

3.4 網絡模型中每個模塊的作用

本文所提的場景對象注意機制通過計算非連續位置的相似特征向量,利用相似特征向量增強場景中對象之間的相關性,以有效解決場景對象缺失的問題。場景對象注意機制對預測結果的影響如圖7所示。

圖7 場景對象注意機制對預測結果的影響Fig.7 Influence of scene object attention mechanism on prediction results

以第一行的三幅圖為例,在文獻[7]算法預測結果中第三幅圖像缺失了路邊的路標,而本文算法預測的深度圖能夠清晰展現出路標。此外,相比文獻[7]算法,本文算法在第三行的第一幅圖中預測的廣告牌形狀更符合原圖廣告牌的形狀。

加入和未加入速度的弱監督模式下的消融實驗結果分別如表3 和表4 所示。從表3 和表4 可以看出:場景對象注意機制和加權深度圖融合模塊能有效改進現有深度估計網絡的預測性能。加權深度圖融合模塊的加入對模型的預測性能有所改善,但場景對象注意機制的加入對模型性能的改進效果更加明顯。

表3 加入速度的弱監督模式下消融實驗結果 Table 3 Results of ablation experiment under weak supervision mode with speed

表4 弱監督模式下消融實驗結果 Table 4 Results of ablation experiment under weak supervision mode

3.5 網絡模型保留細節信息的能力對比

為對比不同網絡模型的細節信息保留能力,本文設計3 組圖像重建實驗:第1 組是由最大池化和雙線性上采樣構成的網絡模型;第2 組是由編碼塊和解碼塊組成的網絡模型;第3 組是由編碼塊和解碼塊結合場景對象注意網絡結構組成的模型。3 組實驗的損失函數均采用L1 損失函數。第1~3 組網絡的圖像重建結果如圖8~圖10 所示。

圖8 最大池化與雙線性上采樣構成網絡模型的重建結果Fig.8 Reconstruction results of the network model composed of maximized pooling and bilinear upsampling

圖9 編碼塊與解碼塊構成網絡模型的重建結果Fig.9 Reconstruction results of network model composed of encoding block and decoding block

圖10 編碼塊與解碼塊結合場景對象注意結構的重建結果Fig.10 Reconstruction results of encoding block and decoding block combining scene object attention structure

第1 組實驗最終的損失值為0.040 8。第2 組網絡模型的最終圖像重建損失值為0.006 9,第3 組實驗的圖像重建損失值為0.006 1。

3.6 模型收斂性與執行效率對比

在模型訓練過程中,本文所提模型的損失函數值在訓練迭代次數中會逐漸減小至穩定值,未出現損失函數不下降或劇烈抖動的現象。因此,本文所提模型具有較優的收斂性。

為對比模型的執行效率,本文對不同網絡的測試時間和預測性能進行對比,預測性能指標選取均方根誤差(RMSE)。在KITTI 數據集上不同網絡的測試時間與均方根誤差的對比如圖11 所示。從圖11 可以看出:本文網絡的計算時間遠低于文獻[6,28]網絡,雖然本文網絡單張圖像的測試時間略高于文獻[7]網絡,但是本文網絡的均方根誤差最小,且遠小于其他網絡的均方根誤差。因此,基于場景對象注意機制和加權深度圖融合的深度估計模型具有更高的執行效率。

圖11 不同網絡的測試時間與均方根誤差對比Fig.11 Test time and root mean square error comparison among different networks

4 結束語

本文提出一種基于場景對象注意機制與深度圖融合的深度估計算法。利用場景對象注意機制來增強圖像、深度和場景語義之間的相關性,增強上下文信息與屬于同一對象的像素相關性。通過相似深度區域的上下文信息來指導自監督單目深度估計網絡中的幾何表示學習,解決場景對象缺失的問題。此外,本文提出加權深度圖融合模塊,有助于網絡預測包含豐富目標信息的深度圖。在KITTI 和DDAD 數據集上的實驗結果表明,相比Monodepth2 和PackNet-SfM 算法,本文算法的絕對相對誤差和平均相對誤差均較低。后續將通過增強語義信息來提高預測精度,在保證預測精度的前提下,減少網絡模型的參數和縮短模型的訓練時間。

猜你喜歡
深度融合模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
深度理解一元一次方程
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
主站蜘蛛池模板: 在线五月婷婷| 欧美不卡在线视频| 一本大道视频精品人妻| 久精品色妇丰满人妻| 婷婷综合缴情亚洲五月伊| 亚洲天堂精品视频| 亚洲区视频在线观看| 国产日韩欧美一区二区三区在线| 国产欧美日韩综合在线第一| 广东一级毛片| 国产精品美女在线| 日韩区欧美国产区在线观看| 亚洲欧美成人综合| 欧美无遮挡国产欧美另类| 精品国产成人高清在线| 免费一级毛片完整版在线看| 久久青草热| 免费福利视频网站| 欧美天堂在线| 99在线免费播放| 免费99精品国产自在现线| 免费xxxxx在线观看网站| 亚洲精品国产首次亮相| 亚洲国产精品日韩专区AV| 性色一区| 国产一线在线| 国产高潮视频在线观看| 亚洲精品天堂在线观看| 亚洲欧美另类视频| 亚洲无码精品在线播放 | 波多野结衣中文字幕一区| 又大又硬又爽免费视频| 五月婷婷中文字幕| 91免费观看视频| 亚洲一区二区日韩欧美gif| 青青网在线国产| 天天躁夜夜躁狠狠躁图片| 亚洲欧美一区二区三区蜜芽| 欧美成人午夜视频免看| 亚洲无码高清一区| 国产永久免费视频m3u8| 国产视频资源在线观看| 伊人久热这里只有精品视频99| 国产一级妓女av网站| 亚洲av成人无码网站在线观看| 国产午夜在线观看视频| 国产在线观看一区二区三区| 欧美一区二区三区香蕉视| 国产日韩欧美在线视频免费观看 | 国产精品第三页在线看| 欧美亚洲第一页| 亚洲无线观看| 国产精品午夜电影| 奇米精品一区二区三区在线观看| 亚洲最大福利视频网| 国产欧美日韩免费| 国内精品久久九九国产精品| 小13箩利洗澡无码视频免费网站| 欧美精品在线看| 狠狠做深爱婷婷久久一区| 国产黄在线观看| 女人18毛片久久| 色综合狠狠操| 亚洲成人网在线观看| 伊人激情久久综合中文字幕| 手机永久AV在线播放| 精品伊人久久久香线蕉 | 久久精品国产精品国产一区| 97久久人人超碰国产精品| 国产一国产一有一级毛片视频| 91亚洲免费| 米奇精品一区二区三区| 国产成人一区在线播放| 粉嫩国产白浆在线观看| 国产香蕉国产精品偷在线观看| 国产69精品久久久久妇女| 亚洲无码37.| 国产真实乱人视频| 亚洲精品麻豆| 国产天天色| 国产日韩欧美成人| 在线不卡免费视频|