999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密集特征融合的無監督單目深度估計

2021-10-31 06:20:54王一良
電子與信息學報 2021年10期
關鍵詞:深度監督特征

陳 瑩 王一良

(江南大學輕工過程先進控制教育部重點實驗室 無錫 214122)

1 引言

從單張2維圖片中恢復深度信息是計算機視覺領域的重要課題。利用深度信息可以有效地重建場景的3維結構,在自動駕駛、虛擬現實、視覺SLAM等領域有著廣泛的應用前景。在過去的研究中,對深度的預測依賴運動推斷結構(Structure From Motion,SFM)[1]、雙目或多視角幾何(binocular or multi-view stereo)[2]等shape-from-X算法。這些傳統算法通常都需要一定的限制條件,比如需要使用多個視角或連續的圖片幀序列,不同的光照條件,亦或是已知的紋理特性。此外,傳統算法往往依賴圖像間的特征匹配,而這些特征算子是人工設計的,因此其應用場景是受限的,沒有很好的魯棒性。基于深度學習的單目深度估計直接為單張圖片的每一個像素點預測其對應的深度值,解決了傳統算法的約束條件,同時也帶來了新的問題。從單張RGB圖片恢復對應的3維結構是一個不適定的問題,可以有很多解符合要求。但值得注意的是,人類從日常生活中的不斷訓練中獲得了從單目視覺中推理深度線索的能力,例如,物體的相對大小、紋理信息、物體之間的遮擋、視覺的透視效果等等。

基于卷積神經網絡的單目深度估計,采取了和人類獲取深度線索相似的訓練過程。網絡通過對數據的不斷學習,利用多層的卷積和非線性激活單元,提取出非常抽象的特征,這些抽象特征幫助網絡推理當前場景的深度信息,抽象特征的提取和人類獲取深度線索的過程是相似的。Eigen等人[3]首先提出了利用全局粗尺度和局部細尺度,兩種尺度的網絡估計逐像素的深度值。Liu等人[4]引入了條件隨機場(Conditional Random Fields,CRFs)來提高預測精度。Laina等人[5]受到ResNet[6]的啟發提出了基于殘差的全卷積網絡來預測深度,得益于ResNet的優異性能,預測精度得到很大的提高。周武杰等人[7]加入了金字塔池化模塊增強網絡的特征融合能力。Zhao等人[8]利用合成的虛擬深度數據集結合真實的深度數據集,利用生成對抗網絡(Generative Adversarial Network,GAN)做真實數據與合成數據之間的風格遷移,增高精度的同時減少了網絡對于真實數據集的需求。上述的方法均是有監督的,依賴大規模、高精度、逐像素對齊的彩色圖和深度圖。

近年來,一些全新的無監督算法的提出,嘗試去處理數據對網絡的限制。無監督的算法總共分為兩種思路:(1)基于連續時間的圖像序列。在這種結構中,網絡需要同時預測深度和相機姿態。Zhou等人[9]在訓練深度估計網絡的同時,獨立地訓練了相機姿態估計網絡。基于時間序列的無監督算法只能在剛性場景下成立,當運動物體與相機速度保持一致或者相機靜止時,會使網絡預測出無窮大深度值的“空洞”。為了避免對剛性運動假設的破壞,Zhou等人又附加了可解釋性的掩膜來處理有問題的區域。(2)基于雙目圖像對。這種設計需要用到校正的雙目圖像輸入給網絡預測出對應的視差圖,再用得到的視差圖對雙目圖像進行重建,將深度估計問題轉換成圖像重建問題。在已知兩相機的基線距離與焦距的情況下,就可以通過視差推導出深度。Garg等人[10]首次利用這樣的思路設計了無監督的深度估計網絡。Godard等人[11]加入了左右一致性項來約束網絡的輸出,獲得了更高的精度。但是隨著網絡提取出的特征越來越復雜,特征圖的分辨率也在不斷下降,使得網絡難以恢復清晰的深度邊界。

受到Zhou等人[12]的啟發,本文在文獻[11]的編解碼器網絡基礎上設計并引入了全新的密集特征融合層DFFL。在提高網絡預測精度的同時減少了網絡的參數量。首先,通過將DFFL以密集連接的形式放置在一般的編解碼器結構中,實現了各級解碼器之間的信息互通,提高了不同層次特征的復用率,恢復出更精細的圖像細節;其次,考慮到無監督深度估計的精度不僅僅取決于編碼器提取抽象特征的能力,也取決于如何合理利用所得到的不同層次的特征,論文設計編碼器的修剪策略,使得編碼器、解碼器的性能更加匹配,合理的裁剪加快了網絡的預測速度并且提高了預測的精度。實驗證明,本文設計出的網絡在KITTI駕駛數據集[13]上的表現優于現有的算法。

2 基于圖像重建的無監督深度估計及問題分析

2.1 基于圖像重建的無監督深度估計

無監督的核心思想是不使用RGB圖像與其對應的真實深度圖作為訓練的監督信號。為了使網絡具有估計深度的能力,就必須找到一種與深度有關并且可以獲得的替代監督信號。在雙目視覺中,視差與深度成反比,經過校準的雙目相機,其左右視圖的視差是可以通過匹配對應點來獲得的。對于傳統方法,精確地匹配對應點是非常困難的,但是這項工作非常適合卷積神經網絡。網絡以重建前后的左右視圖外觀相似性與左右視差圖的一致性為約束條件,促使網絡生成正確的左右視差圖。算法流程如圖1所示。

圖1 無監督深度估計算法框圖

首先,從已經校準的雙目相機獲取同一時刻的左右視圖Il,Ir[14],通過網絡預測出對應的左右視差圖dl,dr。以左視差圖dl為例,根據每一個視差值在右視圖Ir進行檢索,將檢索到的RGB信息返回并填充獲得重構的左視圖,右視圖的重構方法是完全相同的。在測試過程中,只需要單目視圖作為輸入,在已知雙目相機的基線距離b和相機焦距f的條件下,根據網絡的預測視差d,可以通過公式獲得預測的深度

2.2 卷積神經網絡設計中的問題分析

無監督的單目深度估計以單張視圖作為卷積神經網絡的輸入,預測出左右兩張視差圖,屬于圖片到圖片(image to image)轉換的問題。該問題通常使用編解碼器結構來解決,其中以U-Net[15]為代表的U型編解碼器結構最為常用。如圖2(a)所示,U-Net的跳轉連接在一定程度上補充了編碼過程中丟失的圖像細節,但是僅僅在同一層編、解碼器之間使用跳轉連接對于特征的使用是不充分的。為解決這個問題,U-Net++[12]將U型結構中間的空缺填滿,將融合上下文信息后的特征補充給解碼器,其網絡拓撲如圖2(b)。

圖2 U-Net,U-Net++和本文的網絡拓撲圖

針對無監督單目深度估計生成的深度圖比較模糊、邊界不清晰等問題,本文對U-Net++的融合策略進行改造。如圖2(c)所示,本文在特征融合時,使用反卷積代替雙線性插值,具有學習性的上采樣操作更適合深度估計問題,反卷積操作在圖2(c)中用紅色的箭頭表示。并且將預測出的低分辨率視差圖也當作特征進行融合,引導網絡逐步生成更高分辨率、邊界更清晰的視差圖。本文將這種全新的特征融合策略命名為密集特征融合層DFFL。

3 本文方法

本節主要介紹應用DFFL的無監督單目深度估計網絡,該網絡基于編解碼器結構實現了從單張RGB圖像到對應深度圖的端到端預測。本節對傳統的編解碼器進行改造,降低了編碼器的復雜程度,將提出的DFFL密集地部署在解碼器上,提高了網絡從抽象特征圖中恢復深度信息的能力。通過權衡編解碼器的性能差異,不僅提高了網絡的預測精度,相較于之前的工作,參數量也得到了降低。

3.1 密集特征融合層DFFL及其密集連接

為了消除傳統編解碼器僅僅在同一層級的編、解碼器之間使用跳轉連接導致特征利用率低,各級特征之間融合程度不足的問題。本文提出了DFFL,每一個獨立的DFFL均是一個解碼器節點。DFFL的輸入是自適應的,根據其所在位置的不同可能有3種輸入:(1)上采樣的下一層特征;(2)第1種輸入加上同一層通過密集連接引入的特征;(3)第2種輸入加上下一層預測的視差圖。DFFL將所有輸入按通道堆疊在一起,接一個卷積將拼接后的特征進行融合。圖3以編解碼器的第1層為例,展示在3種不同的輸入下DFFL如何對密集特征進行融合。

圖3最上方一行是本文提出的編解碼器網絡的第1層,下面3行展示了DFFL的內部結構,其中最左側為連續3層編碼器的輸出特征圖。第1種輸入情況首先將相鄰的兩個特征圖按通道疊加后,接卷積融合。第2種輸入情況再將融合生成的兩個特征圖與第1層編碼器的輸出按通道疊加融合。第3種輸入情況接收本層的編碼器的輸出,所有與之相連接的DFFL的輸出以及下一層生成的兩張低分辨率左右視差圖進行融合。基于這樣的融合策略,使得圖3中第1層的第2個DFFL雖然處在第1層編解碼器之間但是獲得了連續3層的特征信息。同時,將低分辨率的視差圖當作DFFL的輸入,利用融合得到的上下文信息對低分辨率視差圖不斷精細化。逐步指導網絡生成更高分辨率、細節更清晰的視差圖。

圖3 密集特征融合層及其密集連接

在該結構中,同一層特征之間放棄了U-Net的長連接結構,采用密集連接的形式,大大提高了密集特征融合層的特征復用率。密集連接的思想來自DenseNet[16],這種結構的另一個優勢是訓練時梯度更容易傳播,不容易出現梯度消失的問題。通過引入DFFL,充分地融合了各級特征,使得最終用于估計視差的特征圖既包含全局的語義信息,也包括圖像的細節信息。

3.2 網絡結構

本文基于上述的DFFL,設計出改進后的編解碼器網絡。整個編解碼器網絡以左視圖作為輸入,輸出4個空間分辨率下的左右視差圖。網絡的結構圖如圖4所示。

圖4 網絡框架

在編碼器部分,使用修剪后的ResNet-50作為特征提取器,ResNet通過對恒等映射的學習,允許網絡規模進一步加深提取出更抽象更豐富的特征信息,但是考慮到編碼器一般都是一些精心設計的,已經被圖像處理的各個領域廣泛使用的基礎網絡,比如VGG,ResNet,DenseNet等,解碼器部分相對來說要簡單得多,成為整個網絡的短板,使得編碼器即使提取出了非常好的特征表示,解碼器也未必能將其很好地還原。直觀地體現在網絡最終輸出的深度圖邊界不清晰,有很多偽影。U型編解碼器結構具有很強的對稱性,為此將ResNet的第1個7×7卷積與max pool替換為相同作用的Resblock,使編碼器的每一層都是Resblock,并且減半了每一級Resblock的通道數來控制編碼器的能力,詳細的修改見表1。

表1 修改前后的編碼器參數

其中,R50代表ResNet-50,PR50代表修剪后的ResNet-50(Pruned ResNet-50)。

在解碼器部分,本文通過密集放置所提出的DFFL,組成互相交織的多路解碼器網絡,每一個DFFL都是解碼器的一個節點。同時,對U-Net的跳轉連接進行改造,原始的U-Net每一層的跳轉連接一定程度上補充了網絡因連續的下采樣而丟失的圖像細節。但是,特征的提取過程以及使用提取出的特征重建圖片的過程都是抽象的,每一層解碼器所需要的補充信息并不一定來自對應層的編碼器。基于這樣的出發點,重新設計的解碼器由多個不同規模的解碼器組合形成,相鄰的解碼器之間相互連接。先前大多數的工作更關注優秀的特征提取,即如何使網絡變“深”,忽視了怎樣去充分利用提取出的優秀特征,即如何使網絡變“寬”。將UNet“填滿”,豐富橫向的拓撲結構的思想與Inception[17]類似,不同的是,本文希望網絡在特征融合部分變得更“寬”。實驗表明,對于無監督單目深度估計,提高精度的瓶頸不在于編碼器使用多么復雜的特征提取網絡,解碼器如何充分利用提取出的抽象特征,如何調度各層特征之間的融合才是瓶頸所在。

3.3 損失函數

其中,αm,αds,αlr為3個損失的權重。網絡以左視圖為輸入,同時輸出左右視差圖,因此每一個損失同時擁有左右兩個版本。下面以左視圖版本為例介紹3種損失各自的作用:

(1)重構匹配損失Lm:網絡根據預測出的視差圖,在對應視圖上進行采樣。為了驗證采樣后的重構視圖與原視圖是否相似,這里除了使用常用的L1范數,還引入了結構相似性指標SSIM[18],具體公式為

(2)平滑損失Lds:該損失使用原圖在x,y方向上的梯度信息約束視差圖的梯度。原圖較為平滑的區域視差圖也應該較為平滑,減少了人為偽影的出現。而原圖的梯度變化較大的邊界區域也指引視差圖獲得更清晰的邊界。具體公式為

(3)左右視差一致損失Llr:為了使輸出正確的左右視差圖,應使其具有一致性。一致性的含義是:根據左視差圖中的視差信息為索引在右視差圖采樣,使得重構出的左視差圖與原始的左視差圖盡可能相似。具體公式為

4 實驗結果與分析

本章使用應用最為廣泛的KITTI數據集與其他深度估計算法進行了比較。其中包括:有監督的算法[3,4,19],基于單目視頻序列的無監督算法[9,20],基于雙目圖像對的無監督算法[10,11,21–23]。同時,通過消融實驗驗證了本文各項改進的作用。

4.1 實施細節

本網絡具體實驗環境如下:網絡使用PyTorch編程實現,硬件方面為單張RTX2080Ti顯卡,12 GB運行內存,操作系統為Ubuntu18.04。輸入圖片被縮放到512×256大小。優化器選擇Adam優化器,優化器參數為β1=0.9,β2=0.999,ε=10-8。網絡總共訓練50個epochs,初始學習率為10-4,在第30個epoch學習率減半,在第40個epoch再減半。Upconv操作由一個放大率為2的雙線性插值后跟一個3×3卷積實現。

為了避免過擬合,采用的數據增強操作為:以0.5的概率分別對圖片進行水平翻轉,在[0.8,1.2]范圍內改變gamma值,在[0.5,2.0]范圍內改變亮度,在[0.8,1.2]范圍內改變圖片的彩色3通道。

4.2 數據集

KITTI數據集總共包含了來自61個場景的42382張校正的雙目圖像對。絕大多數圖片分辨率為1242×375。為了與其他工作進行對比,本文使用了Eigen 等人[3]拆分出的訓練集與測試集。Eigen使用29個場景中的697張圖進行測試,剩下的32個場景包含了22600張訓練圖片與888張驗證圖片。為了與其他工作保持一致,所有的測試結果都使用Garg等人[10]的裁剪方式進行裁剪。

后處理:因為雙目遮擋的緣故,生成的左視差圖的左邊界往往比較模糊。文獻[11,23]為了解決這個問題引入了后處理操作,將圖像I及其水平鏡像h(I)輸 入給網絡,分別得到兩個視差圖d,dh。再次對dh進行水平鏡像得到與d對齊的。綜合d的前5%,的后5%,中間部分為d與的平均,得到最終的視差圖。使用后處理的方法在表1中以黑體pp標明。

4.3 評價指標

在評估的過程中,本文使用了與之前工作相同的評價指標。分別為閾值精度,平均相對誤差(Absolute Relative error,Abs Rel),平方相對誤差(Square Relative error,Sq Rel),均方根誤差(Root Mean Square Error,RMSE),對數均方根誤差(Root Mean Square logarithmic Error,RMSE ln)。公式為

其中,d為某一像素的預測深度值,d*為某一像素的真實深度值,T為真實深度圖中可獲取的像素總數。

4.4 結果對比及分析

為證明本文方法的有效性和先進性,在KITTI數據集上將本文方法與近年相關方法進行對比,結果見表2。

監督方式一欄中,D代表有監督的方法,M代表基于單目視頻序列的無監督方法,S代表基于雙目圖像對的無監督方法。黑體pp表示加入了后處理操作。每一項指標的最優結果用黑體標注。

從表2中可以看出,幾乎所有評價指標,本文的結果均優于先前的方法。值得注意的是,本文在提高模型精度的同時,并沒有擴大網絡的參數量,因此推理深度的速度很快。以簡化的ResNet-50作為編碼器的網絡可以做到21 fps的推理速度,使用簡化的ResNet-18可以達到33 fps的推理速度。

表2 KITTI數據集使用Eigen拆分集的驗證結果

圖5給出了一些可視化的結果,可以看到本文所提算法估計出的深度圖像邊界更加清晰,并且在深度不變的區域也更為平滑,很少有偽影的出現。與同樣比較精確的Monodepth[11]相比,本文在細節處理上更為優秀,圖5的最后兩列給出了兩者的細節對比。

圖5 KITTI數據集上可視化結果對比

4.5 消融實驗

為了驗證本文所提DFFL和對編碼器修剪的有效性,通過消融實驗進行對比,結果如表3所示。

表3 KITTI數據集消融實驗的結果

其中,R50代表ResNet-50,PR50代表修剪后的ResNet-50,R18,PR18同理。DFFL代表本文提出的密集特征融合層。

從表3中可以觀察到,在baseline上添加DFFL后精度和誤差值都有了一定的優化。以R50作為編碼器網絡最終輸出通道數為2048的特征圖,因此進行密集特征融合將引入較大的參數量,但是如果編碼器比較精簡,例如在R18的基礎上加入DFFL就只會增加0.2M的參數。此外,本文通過對編碼器進行修剪,同時利用DFFL對各級特征進行融合,使得編碼器和解碼器的能力做到了很好的權衡,更大程度上發掘了網絡的潛力。因此,無論是PR50還是PR18的版本,本文方法相較于所參考的baseline,不僅精度變得更高,參數量也得到了縮減。baseline的R18版本擁有最快的推理速度,但是其精度太低,本文的PR18版本擁有最少的參數量,較低的計算量以及與PR50版本相差無幾的精度,甚至更低的平均相對誤差Abs Rel,既保證了深度估計的準確性,又維持了預測的速度。

為了證明DFFL 3種不同的輸入對于網絡精度的影響,進行消融實驗,結果如表4所示。從表4中可以觀察到,第1種輸入融合了上采樣的下一層特征,提高了特征的融合程度,相較于baseline精度提高0.7%。第2種輸入在第1種輸入的基礎上通過密集連接引入了同級特征,提高了特征的復用率,相較于第1種輸入,網絡的精度進一步提高0.8%,該實驗也說明了密集連接在本模型中所起到的作用。網絡預測出的低分辨率視差圖作為指導信號結合DFFL得到的密集特征逐步恢復更精細化的高分辨率視差圖是一個從簡到難的過程。第3種輸入通過融合低分辨率的視差圖作為指引,降低了網絡的預測難度,在第2種輸入的基礎上將精度提高了0.3%。

表4 3種輸入下消融實驗的結果

5 結束語

本文針對無監督的單目深度估計提出了一種全新的網絡框架。該框架的核心思想是權衡編解碼器的能力,即在合理控制編碼器能力的同時,通過在解碼的過程中密集放置本文所提出的DFFL,提高特征的融合程度和復用率,并且將多層解碼器密集連接起來,提高了解碼器的能力,做到編、解碼器間的均衡。得益于這種豐富的融合策略,網絡最終用于估計視差圖的特征圖中包含了全局、局部以及各個尺度下的特征信息。在KITTI數據集的實驗結果表明,本文相較于之前的算法估計出更平滑、邊界更清晰、偽影更少的深度圖像,本文的精度高于一些有監督的方法,也預示著無監督深度估計的潛力。通過無監督的訓練,避免了網絡對于真實深度圖的依賴,使得網絡可以適用于更多的實際場景中。本文在提高預測精度的同時擁有著較快的預測速度,滿足實時場景的深度估計。

猜你喜歡
深度監督特征
深度理解一元一次方程
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 污视频日本| 玖玖精品在线| 精品少妇人妻av无码久久| 亚洲精品成人片在线播放| 久久久无码人妻精品无码| 日韩欧美中文字幕在线韩免费| 91视频首页| 亚洲av无码成人专区| 免费高清毛片| 亚洲乱伦视频| 19国产精品麻豆免费观看| 欧美色综合网站| 激情影院内射美女| 国产激爽大片高清在线观看| 最新国语自产精品视频在| 国产精品欧美日本韩免费一区二区三区不卡| 99re热精品视频中文字幕不卡| 亚洲中字无码AV电影在线观看| 国产精品毛片一区视频播| 国产欧美日韩一区二区视频在线| 欧美成人看片一区二区三区 | av在线无码浏览| 亚洲天堂久久新| 国产swag在线观看| 区国产精品搜索视频| 麻豆精品在线| 91精品专区国产盗摄| 日韩福利在线视频| 久久精品中文字幕免费| 国产在线八区| 91福利在线看| 亚洲精品视频免费观看| 亚洲中文精品人人永久免费| 玖玖免费视频在线观看| 精品午夜国产福利观看| 无码粉嫩虎白一线天在线观看| 无码内射在线| 91亚洲精品国产自在现线| 国产精品黑色丝袜的老师| 天天色综网| 亚洲首页在线观看| AV熟女乱| 2021国产在线视频| 久久久久亚洲AV成人网站软件| 国产人碰人摸人爱免费视频| 亚洲妓女综合网995久久| 99re这里只有国产中文精品国产精品 | 国产成人夜色91| 日韩在线网址| 亚洲另类色| 亚洲Va中文字幕久久一区| 婷婷亚洲视频| 久久综合色视频| 亚洲不卡影院| 在线观看免费AV网| 成人久久18免费网站| 狠狠色婷婷丁香综合久久韩国| 狂欢视频在线观看不卡| 国产精品一区不卡| 国产乱子伦视频三区| 狠狠操夜夜爽| 茄子视频毛片免费观看| av在线5g无码天天| 免费 国产 无码久久久| 国产成人成人一区二区| 秋霞午夜国产精品成人片| 精品国产91爱| 亚洲一欧洲中文字幕在线| 国产污视频在线观看| 亚洲精品无码日韩国产不卡| 色视频国产| 中文字幕人妻无码系列第三区| 黄色一级视频欧美| 色视频国产| 呦视频在线一区二区三区| 91破解版在线亚洲| 五月婷婷伊人网| 欧美区在线播放| 国产成人AV男人的天堂| 午夜视频在线观看区二区| 狠狠躁天天躁夜夜躁婷婷| 夜夜爽免费视频|