999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于帶squeeze-and-excitation模塊的ResNeXt的單目圖像深度估計方法

2021-01-21 03:23:30李智宏
計算機應用 2021年1期
關鍵詞:深度特征信息

溫 靜,李智宏

(山西大學計算機與信息技術學院,太原 030006)

0 引言

深度估計對理解三維場景具有重要作用,在機器人、增強現實、三維重建、自動駕駛、即時定位與地圖構建(Simultaneous Localization and Mapping,SLAM)[1]等領域有著重要的應用。傳統方法獲取目標深度信息主要通過深度傳感器實現,包括激光雷達、基于結構光的深度傳感器以及立體相機等。然而,這些方法獲取深度圖像成本較高,受環境影響較大,尚未大規模應用。相比較而言,基于圖像信息進行深度估計[2]可以有效克服上述傳感器的不足。但是由于計算機很難像人類的大腦一樣從單目圖像中自動構建或感知到充足的三維結構信息,同時,從單幅圖像映射到深度圖存在大量不確定性,因此單目圖像的深度估計面臨著信息的“無中生有”的挑戰,它的研究具有很大的困難同時也具有重要意義。

近些年來,隨著深度學習的發展,卷積神經網絡(Convolutional Neural Network,CNN)[3]在圖像處理等領域發揮著越來越重要的作用。CNN 在特征提取、結果分類等方面無須人工干預,大大提高了模型的通用性。因此,國內外許多學者開始廣泛使用CNN 來研究單目圖像的深度估計問題。廖斌等[4]提出一種基于孔卷積神經網絡的深度估計模型。隨著條件隨機場(Conditional Random Field,CRF)[5]在語義分割上表現優異,Liu 等[6]提出將卷積神經網絡與連續CRF 相結合;但是,文中提到的超像素分割仍然需要人工劃分。Eigen等[7]提出了一種基于多尺度網絡結構的深度學習方法,通過兩個尺度對圖像分別進行全局與局部的特征采樣,獲得最終輸出,此方法無須提供任何人工分類特征,直接在原始圖片上進行訓練并獲得像素級別的深度信息結果。在此基礎上,Laina 等[8]提出一種使用殘差網絡(Residual Network,ResNet)[9]的模型,該模型利用ResNet 特征前向傳播高效的特性,結合更深、更復雜的網絡,有效提高了深度預測圖的精度。最近,Yang 等[10]進一步推導法線表示,并提出了管道內密集的深度-法線一致性,這不僅可以更好地規范預測深度,而且還可以學習產生法線估計;但是,正則化僅在局部應用,并且容易會受到圖像梯度的影響,從而在平滑表面內產生錯誤的幾何不連續性。隨后,他們在文獻[11]中開始縮小單眼和基于立體信息的自我監督之間的性能差距,并且通過強制邊緣一致性進一步提升性能。Godard等[12]提出一種利用左右眼視圖一致性的無監督學習方法,通過最小化圖像重建損失和左右眼圖像一致性損失提高深度估計性能。但上述方法在特征提取過程中都只關注于特征的局部區域進行空間和通道維度的信息融合,缺乏對于特征通道之間相互關系的研究,且在精度上仍有提升空間。

針對上述問題,本文根據深度估計的問題特性,對ResNeXt[13]的網絡結構進行了改進,并且引入文獻[14]中提出的SE-Module(Squeeze-and-Excitation Module),提出了一種SE-ResNeXt(Squeeze-and-Excitation-ResNeXt)的編碼器解碼器網絡結構,并將其應用到單目圖像深度估計的研究中,從特征通道之間的全局信息關系方面提升性能。

1 單目深度估計模型

1.1 模型概述

本文提出了一種基于SE-ResNeXt 的單目圖像深度估計方法。本文采用了無監督的方法,通過訓練網絡生成視差圖像,然后從視差圖中恢復深度預測圖像。具體地,在訓練過程中,將左眼圖像輸入到網絡中,同時輸出兩張分別對應雙目左視圖和右視圖的視差圖,然后通過真實的右眼視圖和左眼視圖對應視差圖得到重建后的左眼視圖,類似地也可以得到重建后的右眼視圖,并且通過最小化圖像重建損失和左右眼圖像一致性損失提高深度估計性能。網絡結構采用編碼器解碼器網絡,編碼器網絡基于ResNet50 結構來設計,首先本文算法引入ResNeXt 模塊來代替ResNet 模塊的使用,并且根據深度估計任務的特性和需求,對ResNeXt 結構進行了改進,獲得恰當數量的網絡分支,以實現在不增加參數復雜度的前提下有效地提高模型的準確率。然后,在ResNeXt 塊后加入SEModule,通過壓縮操作、激勵操作以及權重的重新分配從特征通道之間的全局信息關系方面進一步提升網絡性能。在解碼器網絡部分,本文沿用了文獻[12]提出的網絡結構,通過一系列的上采樣操作得到最終的視差圖像,然后從視差圖像恢復深度圖。整體網絡結構如圖1 所示。其中,Upconv 表示雙線性插值上采樣操作,Disparity表示最終得到的視差圖像。

圖1 整體網絡結構Fig.1 Overall network structure

1.2 ResNeXt模塊

ResNeXt 結構最早應用于圖像分類領域,其優點是在不增加參數復雜度的前提下提高準確率。現有大部分深度學習方法為了提高模型的準確率,通常的思路都是加深或加寬網絡,但是隨著超參數數量的增加,網絡設計的難度和計算開銷也會增加。圖2 列出ResNet 和ResNeXt 的基本單元。其中,C表示分支數,如1×1×64 的內容分別表示卷積核大小為1×1,通道數為64。經過消融實驗表明,與ResNet 圖2(a)所示相比,相同的參數個數條件下,ResNeXt 圖2(b)所示的結果更好。

圖2 ResNet和ResNeXt的基本單元Fig.2 Basic units of ResNet and ResNeXt

ResNeXt 結構的具體計算公式如式(1)所示。x表示輸入特征,Ti可以是任意函數,在此處為三個卷積層的堆疊,C表示網絡輸入寬度。

考慮到ResNeXt 結構中分支數的選擇對于單目深度估計模型訓練時間和實驗結果的影響,由于ResNeXt 結構中分支數越多,會造成深度估計模型訓練時間越長,而性能不會獲得顯著的提升。本文通過尋找ResNeXt 的合適分支數量,以提高估計任務中的模型準確性。經過實驗對比發現,當分支數為8 時,可以在保證提高模型的準確率的同時不影響模型訓練時間,圖3 所示為選擇不同的分支數時模型的性能表現和訓練時間。具體地,本文采用2.1 節所述的均方根誤差(Root Mean Squared Error,RMSE)作為模型性能的評價標準,由于RMSE 越小,網絡性能越好,由圖3(a)可知,當分支數為8 時,模型性能達到最佳;且由圖3(b)可以看出,隨著分支數增加到訓練時長也逐漸變長,當分支數增加到8 時訓練時間變化不太明顯,此后分支數繼續擴大,模型性能不再提升,但是訓練時間明顯變長。

圖3 模型不同分支數對比Fig.3 Comparison of the model with different branches

1.3 SE-Module(Squeeze-and-Excitation Module)

考慮到特征提取過程只是在局部區域進行信息融合,缺乏特征通道之間的全局信息關系,本文采用文獻[14]提出的SE-Module,通過建模特征通道間的動態、非線性關系來提高網絡的全局信息表示能力,然后采用特征重標定策略校準特征響應,以實現對原先卷積層不同通道的重新校準,改變不同通道的權重比值,從而使網絡能夠在通道信息中加入全局特征,進一步提升了深度圖像的質量,并且場景中物體的邊緣結構信息更加清晰、完整。

首先對于輸入的特征圖在空間維度上通過全局平均池化(Global Average Pooling,GAP)對特征進行壓縮,然后通過兩個全連接層以及激活函數對通道重新加權校準。最后,在Scale 層將重新校準后的權重作為特征選擇后的每個特征通道的重要性,然后通過乘法將權重逐個加權到之前的特征上,完成在通道維度上對原始特征的重標定。

SE-Module 結構的示意圖如圖4 所示。GAP 表示全局平均池化,FC(Fully Connected Layer)表示全連接層,ReLU(Rectified Linear Unit)和Sigmoid 為激活函數,Scale 為特征權重表示層,?表示逐元素相乘。

Fig.4 SE-Module結構示意圖Fig.4 Structure of SE-Module

1.4 基于SE-ResNeXt的單目深度估計網絡

本文提出并設計了一種基于SE-ResNeXt 的單目深度估計網絡。如圖1 所示,在編碼器網絡部分不再使用原始的ResNet 結構,而在第1、2 層采用ResNeXt 模塊,第3、4 層采用SE-ResNeXt 網絡結構。其中,SE-ResNeXt 的結構就是采用2.2 節以及2.3 節介紹的兩個結構級聯構成。本文提出的ResNeXt 模塊級聯SE-Module 的這種網絡結構,可以從特征通道之間的全局信息關系方面提升網絡性能。

在第3、4 層采用SE-ResNeXt 網絡結構,是考慮到在單目深度估計網絡中淺層網絡提取的特征含有很多圖像局部細節信息,并且特征通道較少,而深層的網絡提取的特征包含更多表征圖像空間結構的高級語義信息,因而所提取的特征重要性差別較大,且特征通道較多。因此,在編碼器網絡部分的第3、4 層采用SE-ResNeXt 網絡結構,最大限度地提升了特征的利用率。經過實驗證明,SE-Module 在編碼器網絡部分的第3、4層ResNeXt模塊之后使用時效果最佳,具體實驗對比在消融實驗分析部分介紹。

此外,本文還通過實驗選取了ResNeXt 結構中合適的分支數,確保在不增加參數復雜度的前提下有效地提高模型的準確率。

1.5 損失函數

在本文中,本文算法沿用了文獻[12]所提出的損失函數。總的損失Ssum由三部分組成:

在訓練過程中,網絡通過從立體對圖像學習生成圖像。利用輸入左眼圖像和輸入圖像重建原圖像過程中的損失函數約束,提高視差圖的準確度。在本文中,采用L1 損失和結構相似性(Structural SIMilarity,SSIM)的組合,它比較輸入圖像及其重建圖像來進行約束,其中N是像素值,SSIM使用3×3濾波器,α=0.85。

為了產生更準確的視差圖像,訓練網絡只將左眼視圖作為網絡卷積部分的輸入,同時預測左右眼圖像的視差圖,為了確保左右眼視差的一致性,采用左右視差一致性損失函數

同時,為了使網絡生成的視差圖像在局部上保持平滑,對視差梯度?d采用L1損失,圖像視差平滑損失函數表示為

2 實驗結果與分析

2.1 實驗設置

為了驗證本文算法的有效性,實驗采用KITTI2015[15]數據集。KITTI2015 數據集包含來自61 個場景的42 382 個立體對圖像,圖像大小為1 242×375 像素。實驗中,本文采用KITTI Split 分割來呈現KITTI 數據集的結果,網絡基于TensorFlow實現,使用ResNet50作為網絡基本架構。

本文將模型的實驗結果與同樣在KITTI 數據集上進行訓練的相關工作進行對比,采用了常用的衡量指標評估結果,其中Di表示預測的深度值,Di*表示真實的深度值,N表示測試集中所有圖像的總像素點的個數。指標表達式如下。

1)絕對相對誤差(Absolute Relative error,AbsRel):

2)平方相對誤差(Squared Relative error,SqRel):

3)均方根誤差(Root Mean Squared Error,RMSE):

4)準確率:

2.2 網絡消融分析

本文算法包含兩個消融因素,即SE-Module和ResNeXt模塊。為了驗證本文算法的有效性,采用如下方式進行消融分析:

a)采用文獻[12]中的基礎網絡結構作為基準網絡(Baseline)。

b)僅將Baseline中的ResNet替換為ResNeXt模塊。

c)僅對Baseline添加SE-Module模塊,并且在編碼器網絡中不同位置添加以得到最佳效果。

d)對b)中的網絡添加SE-Module 模塊即為本文最終算法。

部分實驗結果如表1 所示,其中f表示模塊添加在編碼器網絡的第1、2 層;l 表示模塊添加在第3、4 層。從表1 中結果可以看出,本文模型中兩個消融因素都可以提高網絡的性能,在多種評價指標中都有明顯提升;并且,實驗結果表明SEModule在編碼器網絡部分的第3、4層使用時效果最佳。

表1 網絡消融分析Tab.1 Ablation analysis of networks

2.3 對比實驗分析

通過實驗,將本文方法與文獻[10]、文獻[11]、文獻[12]、本文Baseline 中添加文獻[14]中提出的嵌入結構的SEResNeX 以及文獻[16]的評估結果進行對比,其結果如表2 所示。首先,可以看出,本文提出的基于SE-ResNeXt 方法的深度估計結果明顯優于最近相關工作,這主要得益于在訓練過程中,通過建模特征通道間的動態、非線性關系來提高特征通道對全局信息的表示能力,然后通過特征重標定策略重新校準特征,進一步強調有用特征并抑制對任務用處不大的特征。相較于文獻[14]中提出的嵌入結構SE-ResNeXt,本文所采用的結構具有更良好的性能。

表2 KITTI數據集上實驗結果對比Tab.2 Comparison of experimental results on KITTI dataset

通過基于SE-ResNeXt 的深度估計模型中得到的深度圖明顯優于目前常見方法,并且在細節處理方面,本文方法具有更強大的能力。

為驗證深度圖像的質量,對不同方法生成的圖像進行主觀效果比較,圖5為彩色圖像及其真實深度圖像以及4種方法生成的深度圖像,按照從左到右依次命名為image1、image2和image3;從上到下依次為原圖、真實深度圖、文獻[10]、文獻[11]、文獻[12]、文獻[14]、文獻[16]以及本文方法生成的深度圖。

圖5 各模型深度預測結果Fig.5 Depth prediction results of different models

可以看出,本文方法深度圖像的質量更高,細節以及場景結構的表現更為細致。如image1 方框所示,相較于其他方法,本文方法的深度分辨率更高,對于深度更深的物體信息識別更為完整;如image2 方框所示,在光照不均勻的場景下,本文方法對于圖像左側建筑物以及旁邊的樹木保留了更為豐富的紋理信息,并且細節處理更加平滑;如image3 方框所示,對于環境嘈雜,分辨率和尺寸微小且相對深度對比度不清晰的場景下,本文方法識別樹木的輪廓更清晰完整,且不同物體間的區分度更大。

本文方法生成的深度圖像在細節處理方面更加清晰,并且邊緣結構更加平滑,包含更豐富而完整的紋理信息,這主要得益于本文提出的深度估計網絡結構可以有效聚合不同通道中包含的全局信息,進一步有效提高生成深度預測圖像的質量,保證圖像中物體的完整性。然而,本文方法對于復雜環境下的深度估計效果仍有提升空間,對場景中距離較遠的物體識別效果不佳,這主要是由于深度大的目標受到光照的影響為網絡預測造成了不確定性。如圖6 深度圖白色方框所示,對于遠處的交通標志識別存在誤判,并且輪廓不夠清晰完整。

圖6 復雜環境下的深度估計結果Fig.6 Depth estimation results in complex environment

3 結語

本文提出了一種基于SE-ResNeXt 的單目圖像深度估計方法,在特征提取階段采用殘差網絡,從特征通道之間的全局信息關系方面考慮,提高網絡的全局信息表示能力;同時,引入ResNeXt 結構,在不增加參數復雜度的前提下有效地提高了模型的準確率。通過KITTI 數據集訓練,使該模型可以對圖像進行有效的深度估計。相較于原有忽略了特征通道之間的全局信息關系的方法,本文方法得到更好的實驗數據,對物體細節有更好的處理。

但目前此模型對于復雜環境的效果仍有提升空間,下一步的工作將在網絡深度和預測效率間尋求平衡,以及引入更多先驗信息和約束條件,提升深度估計的預測性能。

猜你喜歡
深度特征信息
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 色婷婷啪啪| 国产91在线|日本| 欧美a在线看| 亚洲国产成人自拍| 亚洲精品麻豆| 国产人成网线在线播放va| 国产区免费| 精品在线免费播放| 97se亚洲综合在线天天| 国产国产人成免费视频77777| 精品欧美视频| 制服丝袜国产精品| m男亚洲一区中文字幕| 91av国产在线| 精品成人免费自拍视频| 婷婷五月在线| 日韩成人午夜| 国产老女人精品免费视频| 青青青国产免费线在| 亚洲AV无码乱码在线观看代蜜桃| 91综合色区亚洲熟妇p| 99这里只有精品6| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲经典在线中文字幕| 国产精品人成在线播放| 美女扒开下面流白浆在线试听| 日本高清成本人视频一区| 亚洲男人在线| 日韩av无码DVD| 欧美一区中文字幕| 午夜福利亚洲精品| 国产一级毛片高清完整视频版| 日韩第九页| 麻豆AV网站免费进入| 亚洲成网777777国产精品| 久久99国产综合精品女同| 麻豆国产精品视频| 国产激情无码一区二区免费| 麻豆国产精品视频| 丰满的少妇人妻无码区| 欧美激情视频在线观看一区| 亚洲日韩日本中文在线| 久爱午夜精品免费视频| 日韩天堂视频| 最新国产在线| 久久国产香蕉| 一区二区欧美日韩高清免费| 国产国模一区二区三区四区| 国产拍在线| 人妻一本久道久久综合久久鬼色| 九九久久精品国产av片囯产区| 久久久噜噜噜| 日本道综合一本久久久88| 好紧好深好大乳无码中文字幕| 2021天堂在线亚洲精品专区 | 中文国产成人精品久久一| 四虎AV麻豆| 女人18毛片一级毛片在线| 精品少妇人妻av无码久久| 五月激激激综合网色播免费| 99国产精品国产| 欧美日韩午夜| 精品国产自在在线在线观看| 欧美日韩va| 久久国产精品嫖妓| 中国毛片网| 国产福利影院在线观看| 亚洲无码精品在线播放| 国产无码精品在线| 爆操波多野结衣| 蜜桃视频一区| 国产国语一级毛片| 制服丝袜亚洲| 国产精品香蕉| 特级毛片8级毛片免费观看| 国产国产人免费视频成18| 亚洲第一成网站| 爽爽影院十八禁在线观看| 久久国产高潮流白浆免费观看| 91 九色视频丝袜| 又黄又湿又爽的视频| 美女扒开下面流白浆在线试听|