999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的單目深度估計

2020-07-06 13:35:08王欣盛張桂玲
計算機工程與應用 2020年13期
關鍵詞:深度特征模型

王欣盛 ,張桂玲

1.天津工業大學 計算機科學與技術學院,天津 300387

2.天津市自主智能技術與系統重點實驗室,天津 300387

1 引言

深度估計是計算機視覺中的一個重要課題。隨著人工智能技術的不斷發展,越來越多的智能產品逐漸問世。計算機科學、模式識別和智能控制技術的逐步發展和融合,能夠對周圍環境進行感知的技術和自主運動的技術也越發成熟。這些技術都離不開對圖像深度的估計,所以對圖像的深度估計在所有的自主導航技術中都有著寶貴的研究價值。

深度估計在無人駕駛汽車、機器人等領域中有著廣泛的應用。深度估計在三維重建的課題中起著至關重要的作用,可以對現有的識別任務進行改善,如3D 建模、機器人運動[1-2]等。在出現深度學習技術之前,若完成場景中的物體距離估計需要通過多個攝像頭和激光雷達等設備,設備昂貴且笨重。隨著深度學習技術的不斷更新,出現了越來越多的算法通過深度神經網絡來完成圖像深度的估計,最新的研究已經可以通過單目相機來完成深度估計,如Moukari 等人[3]在單目深度估計的方向中提供了有效的方法。但是如果將單目深度估計作為監督回歸問題來解決,需要大量地面深度和場景中各個物體的具體距離,不僅步驟復雜,而且設備相當昂貴,導致沒有足夠密集標注深度信息的數據集。本文提出了一種無監督的端到端網絡進行深度估計,計算左右視圖差來對圖像進行像素級的密集預測[4],結合Deeplab[5]語義分割模型設計了一個全新的深度估計模型,通過對KITTI街道數據集進行訓練,可以對任意一張街道圖像進行深度估計。優點是預測深度只需一個攝像頭,不需要其他工具即可進行密集估計,相比傳統方法方便快捷,在無人駕駛汽車以及機器人中有著更大的應用空間。訓練過程不需要任何深度數據,對左右圖像進行擬合,利用計算左右視差的損失函數即可完成深度估計。模型中使用空洞卷積[6]增加增大感受野,從而減少圖像的下采樣程度,減少原始圖像中的信息損失,這也是在深度估計方向的研究中首次使用空洞卷積增加準確率。其中難點有:(1)無監督估計深度需要構建合理的網絡模型,選取合適的參數,否則容易出現梯度消失或模型不收斂等情況。(2)通過左右視圖視差估計需要嚴謹的損失函數來計算誤差。(3)最后輸出的深度圖盡可能清晰。

本文做出如下貢獻:

(1)提出一種新穎的深度估計網絡架構,采用類似于DispNet[7]來進行特征金字塔的提取,并與DeepLab相結合,執行端到端的無監督單目深度估計,根據左右圖像的差異來計算深度。

(2)采用編碼-解碼器結構,在編碼器(表1)中添加語義分割層,采用多個空洞卷積并行來增大卷積核的感受野,從而減少了圖像縮小的程度,使生成的圖像更為清晰,可以顯示更遠地方的物體。

2 深度估計研究現狀

雖然深度估計在計算機視覺中有著很長的研究時間,但是始終難以跨越檢測硬件昂貴、笨重,計算效果與效率的很難平衡。完成視覺導航任務的傳統方法通常是使用SLAM,原理是通過在梯度變化明顯的圖像區域中采樣像素來進行直接稀疏視覺測距,但是難以擺脫測量過程復雜,在復雜環境無法測量,難以進行密集測量等缺點。隨著深度學習技術的不斷成熟,不斷有更加高效的卷積神經網絡提出,利用深度學習進行深度估計的研究也越來越受到重視。文獻[8]提出了對光流預測的FlowNet框架,對深度估計的研究起到了重要作用,并得到顯著的效果。最新研究也有將SLAM 與深度學習進行結合,如通過深度學習改進傳統SLAM 中的漂移問題[9],通過深度學習將SLAM 的稀疏預測轉化為稠密預測[10]等等。

表1 編碼器結構詳情

本文介紹的方法通過左右視圖差進行深度估計,不需要傳統SLAM 算法所需的設備。采用無監督的訓練方式,不需要大量密集標注的數據集,便可以對圖像進行像素級的密集預測,同時避免了在傳統的單目深度估計中,與相機共同運動的物體則顯示為無限遠的情況。有一些現有方法也解決了同樣的問題,但有一些缺點。例如,圖像的形成模型不是完全可微分的,使得訓練欠優[11],或者不能生成輸出最大分辨率的圖像[12]。

2.1 監督單目深度估計

Kuznietsov等人[13]提出的帶有稀疏標注的數據集進行半監督訓練,在有標注的地方進行監督訓練,無標注的地方采用左右圖像對比的方法生成連續密集深度圖。Eigen等人[14]的采用兩個網絡疊加,第一個網絡對圖像進行粗尺度的全局預測,第二個網絡負責對局部進行細化,采用大量帶有標注深度信息的數據集進行訓練。并通過CRF 正則化[1]對性能進行提升。Ummenhofer 等人[15]提出了Demon模型,采用Flownet模型,通過一串連續的圖像中估計估計物體的運動,將深度估計作為一個運動恢復的問題。Liu等人[16]創造性地提出了一種深度卷積神經場模型,用來探究深層卷積神經網絡(CNN)和連續隨機條件場(CRF)相結合的性能,在多個數據集上得到優秀的效果。由于現有數據集的深度信息標簽是稀疏的,無法對場景深度進行密集預測,所以無監督深度估計的優勢體現在這一方面。

2.2 無監督單目深度估計

現在的無監督單目深度估計大多根據場景之間的視圖差,如左右視圖差和視頻的前后差異來進行訓練。Garg 等人[17]提出將左側圖像傳入DeepCNN,再與右視圖形成視圖差重構出擬合圖像。Godard 等人[4]提出了一種無監督的框架,用于從單目的視頻中進行深度估計,可以通過沒有標注的圖像序列和運動的視頻來進行訓 練 。Poggi 等提出的 PyDNet 對 Godard 等人[4]的 框 架進行了簡化,極大地減少了參數量,使其可以在樹莓派等低功率的設備中運行。Casser等人[18]在最新的研究中表明,將目標檢測結合到深度估計的計算中也可以得到出色的結果。

2.3 對圖像進行語義分割

在之前的研究中,證實了全連接神經網絡是可以有效進行語義分割,不過需要多次池化,才能使卷積核獲得更大的感受野,然后在通過上采樣恢復到原來尺寸,這樣在反復的池化操作中丟失掉了很多信息。Chen等人[19]提出將DeepCNN 和全連接的條件隨機場進行結合,同時通過空洞卷積增大感受野,從而解決語義分割中過多下采樣和空間感知差等缺點。空洞卷積[15]的概念在隨后的文章中提出,rate=5 的空洞卷積結構如圖1 所示,在原先3×3 的卷積核中間添加4 個值為0 的空洞,在計算復雜度上與步長為1的3×3卷積核一樣,卻能達到11×11 卷積核的感受野。所以空洞卷積的作用是在不增加計算量的情況下增加感受野。同時并且提出ASPP,將多個尺度的空洞卷積串行連接,進一步提升了空洞卷積的使用效率。隨后改進了多尺度空洞卷積的聯級方式[5],比較了串行連接和并行連接兩種方式的不同,進行改進之后獲得的更好的結果。在串聯模式中,連續使用多個擴展卷積,隨著采樣率變大,有效濾波器權重的數 量變小,當擴展的卷積核感受野過大,與圖像的分辨率相當時,就不會捕獲整個圖像上下文,反而退化為1×1 的濾波器,只有中間的濾波器權重是有效的,所以連續使用擴展卷積對語義分割是有害的。為了克服這個問題,改進了ASPP模型,將提取到的特征分別通過一個1×1卷積和3個空洞卷積,將擴張率分別為6、12、18 的3×3 卷積核并聯,再將這些卷積層的提取到的特征匯集在最后一個特征圖上。

圖1 空洞卷積圖例

3 單目深度估計網絡模型

本章介紹該模型如何通過一張圖像來進行深度預測。網絡模型分為編碼和解碼兩部分,采用特征金字塔來提取特征。特征金字塔不同于圖像金字塔,圖像金字塔分別對縮小到不同尺寸的圖像進行特征提取,特征金字塔在特征收縮階段先對已提取到的特征圖繼續進行跨步提取,如圖2所示,在底層的特征擁有高的分辨率,但是提取的信息少,高層的特征分辨率較低,但是提取到了更多的信息。高層特征在預測的同時結合低層的特征圖,生成高清晰度的高階特征圖。編解碼器將輸入的原始圖像信息轉變成深度圖像信息。編碼器階段利用殘差網絡對輸入的圖像提取大量特征,并且在不同的階段對特征進行大量提取,解碼器階段對提取到的特征進行計算并進行像素級預測,得到深度圖像。

圖2 特征金字塔圖例

3.1 編碼器階段的特征提取

在網絡的編碼階段,使用深度殘差網絡Resnet50[21]進行特征提取。在深度殘差網絡中,與傳統的神經網絡不同,跳過一些層,將前面提取到的信息直接傳到后面的層中,從而解決隨著網絡層數不斷加深,網絡性能反而退化的問題。將某些層的結果H(x)直接近似于殘差函數F(x)=H(x)-x,而不是通過多層的卷積層計算得到H(x),雖然這兩種計算方式都能夠使結果直接地等于期望函數,但是學習到的內容有所不同,使網絡模型在更深的層次中也能進行學習。

整個網絡分為5個部分,conv2_x、conv3_x、conv4_x、為3個殘差塊,每個殘差塊內部具體結構如圖3所示,采用跳躍連接,其中conv2_x、conv3_x的步長為2。不同于Resnet,在這個模型中,為了保留更多的信息,只把分辨率降到原始圖像的1/16。通過ASPP可以極大地增加卷積核的感受野,使得網絡模型可以免去過度下采樣的步驟。下采樣過程可以有效減少模型的參數量,如果完全舍棄下采樣會出現模型參數量過大無法訓練,模型容易過擬合等問題,但本文算法是根據左右視差進行深度的計算,由于左右視圖的差別比較小,過度下采樣會造成計算的不準確從而影響模型的精準度,所以在權衡模型參數量與計算精度后決定下采樣的壓縮系數為16。

網絡模型中第5 部分為ASPP,是由多個擴展卷積并行連接組成的,可以對圖像進行整體感知。連接如圖4所示,在文獻[13]中說明,空洞卷積的感受野計算方式如下:對于一個大小為3×3,步長為s,無空洞的卷積核來說,它在第n層網絡中的感受野計算為:

圖3 編碼器結構圖例

圖4 殘差網絡圖例

Rn-1表示上一層的感受野。某一層中,一個大小為k,擴張率為d的空洞卷積感受野為:

網絡中ASPP 輸出的結果先通過一個大小為3×3,擴張率為2 的卷積核,再通過一個1×1 和3 個擴張率分別為6、12、18 的卷積核。所以擴張率分別為6、12、18 的3×3卷積核感受野分別為18、30和42。

3.2 解碼器結構

解碼器根據提取到的特征圖生成深度圖。解碼器通過疊加卷積層和池化層來提取圖像特征,在空間上縮小特征映射。在文獻[8]提出了一種優化池化層帶來的圖像粗糙的方法,將“上卷積”用于特征映射,同時接收來自網絡“收縮”部分的特征進行結合來執行圖像細化。“上卷積”層包括上采樣和卷積,上采樣層使用最近鄰插值法使特征圖分辨率翻倍。

解碼器的結構詳情如表2所示。編碼其階段由“上卷積”(upconv)、卷積層(iconv)和視差層(disp)交替組成,上采樣層(Udisp)對獲得的視差層(disp)使用最近鄰插值使分辨率擴大一倍,從而能夠和下一層進行卷積。結構流程為:首先將編碼器輸出作為輸入,經過“上卷積”擴大分辨率。再將“上卷積”的輸出,來自編碼器階段的特征圖和來自上一個視差層的上采樣,結合在一起進行卷積(iconv),生成視差(disp)。最后通過上采樣層(Udisp)對視差層(disp)進行上采樣。

表2 解碼器結構詳情

3.3 訓練損失

這個模型計算深度的方法是通過左右圖像一致性對圖像進行深度估計。在DispNet的基礎上增加了視差層(disp)的計算,使此網絡在較高的層面上,通過推斷左圖像與正確圖像匹配的差異來估計深度。此方法的關鍵部分是,可以通過從左側采樣生成右邊的圖像,將產生的圖像與右圖像(目標)對比,同時從生成的右圖像產生左圖形,再進行對比。使用雙線性采樣器生成具有反向映射的預測圖像,因為這種方法可以產生完全可微分的圖像,解決深度不連續處的“紋理復制”的誤差,并且通過強制它們彼此一致來獲得更好的深度。訓練時給定左側圖像,訓練目標是可以預測每個像素的場景深度f。在訓練時,將左視圖作為輸入,右視圖會在訓練中用到。對于在同一時刻捕獲的左右圖像Il和Ir,首先嘗試找到密集的對應部分dr,從左視圖重構右視圖,我們定義從左視圖重構的圖像為Ir′,同時從右視圖重構左視圖,定義從右視圖重構的圖像為Il′。d表示圖像的視圖差,b表示左右視圖相機的距離,f表示相機的焦距,可以得到深度d'=bf/d。

由于該算法的原理是根據左右視差進行深度估計,所以模型可以在沒有真實深度的情況下進行非監督訓練。在解碼階段,每個階段下都會通過損失模塊對當前損失進行計算,定義損失為L,總損失L由三部分組成:

Lam表示重建的圖像與對應的輸入圖像的相似度,Ldp表示視差圖的平滑度,Llr表示預測的左右視差的一致性。

由于在訓練網絡中需要使用視差對輸入的左右視角圖進行采樣,再通過雙線性采樣來生成圖像,使用結合L1 正則化和單一尺度下的SSIM來組成我們的損失函數Lam:

SSIM(I,J)用于計算I與J兩個圖像的相似度,根據文獻[22]提出的方案,用SSIM圖像相似度函數與L1 正則項相結合作為訓練中的損失函數,將文獻[22]中使用的高斯濾波器用3×3的卷積核代替,將α設為0.85 時獲得較好的實驗效果和收斂速度。

Ldp的作用是使得視差變得平滑。通過L1 正則化來使得視差盡可能的平滑,在深度不連續的地方出現圖像漸變。

根據文獻[23]中得到的結論,由于圖像的不連續處常常在圖形梯度變化劇烈的地方,D用于計算相鄰兩個像素間的像素差,使用e|i|進行像素級優化,使圖像邊緣變得平滑。

Llr是構建左右視圖一致性的損失,在只輸入左視圖的前提下,同時對左右視圖的視圖差進行預測。為了生成更準確的視差圖,再一次根據生成的右側視圖生成左側視圖,計算誤差。表示由原始右視圖生成的左視圖,表示由生成的右視圖再生成的左視圖,計算兩者之間的差異,同樣引進L1 正則化對損失函數進行約束。

4 實驗細節

4.1 數據集介紹

實驗使用了KITTI[24]數據集和Cityscapes[25]數據集。該數據集通過在2個灰度攝像機,2個彩色攝像機,1個Velodyne 3D激光雷達,4個高分辨率攝像機,以及1個先進的GPS導航系統,對街道進行取景,并對車輛、行人等進行標注,是目前最大的自動駕駛數據集。KITTI數據集中有37 830張訓練圖片,包括28個場景,分辨率為1 242×375。對KITTI 官方訓練集提供的697 張圖像進行評估。實驗中用到的另一個數據集是Cityscapes,其中包括22 972 張訓練圖片,這個數據集的分辨率為2 048×1 024。實驗中進行了數據增強,以50%的幾率對圖像進行水平翻轉,同時交換兩個圖像,使它們處于相對正確的位置。還增加了色彩增強,有50%的幾率,對圖像重新進行γ采樣,隨機伽馬、亮度和色彩偏移。

4.2 實驗具體介紹

本文實驗基于tensorflow 框架實現,在ubuntu18.04系統下運行,硬件環境為GTX1080Ti。模型中包括2 449萬個參數,通過47 小時的訓練得到結果。在輸出多尺寸的視差圖時,使用非線性Sigmoid作為激活函數,輸出圖像的色彩范圍約束在0到dmax之間,其中dmax設定為圖像色彩的0.3 倍。學習率為0.000 1,訓練進程到60%和80%的時候學習率減半。對于網絡中的非線性,使用指數線性函數(eLU)而不是常用的整流線性函數(ReLU),因為發現使用ReLU激活函數在訓練中會過早地將中間尺度的預測差異固定為單個值,從而使后續改進變得困難。在用最近鄰使用Adam優化器,其中參數設置為β1=0.9,β2=0.999,?=10-8。在每個殘差塊前面均增加批標準化(BatchNorm)[26],為了使來自不同層的特征圖可以有效的合并在一起,參數decay為0.99,在實驗中發現,添加BatchNorm 能夠明顯增加訓練時的收斂速度和減少梯度消失的現象。整個訓練過程共經過50 次迭代,訓練時間47 小時。在訓練過程中計算損失時,將4 個尺度下的損失一起進行優化。由于損失函數主要用來計算通過左右視圖生成深度圖的準確性,同時增加平滑項增加深度圖的質量,所以損失函數的各項權重αam=1,αlr=1,αdp=0.1。實驗分為兩個:一種為直接通過KITTI 數據集進行訓練;另一種為先在Cityscapes 上做預訓練,再通過KITTI 數據集完成訓練。

5 實驗結果

本文實驗從各個場景下的街道中取樣,將KITTI官方提供的697個未訓練的視差圖像用于評估實驗結果,這個數據集中包括29 個不同的場景。在表3 中列出了該實驗結果與相同條件下其他的實驗數據之間的對比,其中Abs Rel、Sq Rel、RMSE、RMSE log 這 4 個指標的數值越小越好,δ<1.25,δ<1.252,δ<1.253這3 個指標為越大越好。性能均優于現有的算法。標題后面的“k”表示使用KITTI 數據集訓練,“cs+k”表示使用KITTI和Cityscapes兩個數據集訓練。從實驗效果圖中抽取了幾張有代表性的圖像,在圖5中展示了本文實驗的效果圖與Godard等人的實驗效果圖對比,可以看出,使用空洞卷積提取特征,除了可以正確估計深度外,可以將原圖不同的物體清晰的表現出來,可以增強模型對圖像整體的感知,一些原本與背景融合的物體重新展現出來。但是如果使用擴張率過大的卷積核,反而會使圖像變模糊,不能擬合出正確的圖像。在第一個例子中,例如原圖中與背景融合的電線桿在我們的效果圖中完整的展現出來,并沒有出現斷裂,第二個例子地上的柱子和地面完全分割開來,第三個例子體現出人物和樹木等事物的輪廓更為清晰。通過對比可以看出,如果圖像中出現與遠處事物顏色相近的物體,在Godard 的算法表現欠佳,而在本實驗中可以準確表達。圖6選取了一些具體的事物的差別。Cityscapes數據集中測試的效果圖如圖7所示。

表3 實驗數據對比

圖5 深度圖整體效果對比

圖6 深度圖具體細節效果對比

圖7 Cityscapes數據集效果圖

6 結束語

本文提出了一種基于特征金字塔結合語義分割的深度估計模型,在特征提取階段采取深度殘差網絡提取特征,并結合空洞卷積對圖形進行語義分割,通過大型街道數據集KITTI 和Cityscapes 的訓練,使該模型可以對街道圖像進行有效的深度估計,證實了在網絡中添加語義分割層可以有效地提高生成圖像的質量,保證圖像中物體的完整性,使生成圖像更加接近于原圖像。在無人駕駛等方向有著重要的作用。通過左右視圖生成的視圖差計算深度。相比原先的算法[3],本文算法得到更好的實驗數據,可以將街道場景中陰影部分的物體處理得更好,對遠處物體也有更好的處理。今后的工作將從以下方面做進一步研究:

(1)從連續圖像或者視頻中檢測深度,通過預測物體運動變化來估計深度。

(2)本文使用的是ResNet50 的網絡,嘗試使用更深的網絡使結果更加精確。

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 日韩精品无码免费一区二区三区 | 中文天堂在线视频| 亚洲综合网在线观看| 国产丝袜一区二区三区视频免下载| 日韩精品无码不卡无码| 欧洲高清无码在线| 国产精品人莉莉成在线播放| 色爽网免费视频| 任我操在线视频| 亚洲日韩AV无码精品| 四虎成人免费毛片| 99人妻碰碰碰久久久久禁片| 高清免费毛片| 免费看美女毛片| 婷婷中文在线| 人妻无码中文字幕第一区| 久热中文字幕在线| 亚洲精品动漫| 亚洲日韩国产精品综合在线观看| 国产美女免费| 国产黄色片在线看| 日韩在线欧美在线| 亚洲中文字幕日产无码2021| 欧美亚洲一区二区三区在线| 日韩美毛片| 欧美日韩国产精品va| 国产永久在线视频| 日韩黄色大片免费看| 亚洲精品欧美日本中文字幕| 午夜免费视频网站| 亚洲国产综合精品一区| 亚洲欧美在线看片AI| 99久久人妻精品免费二区| 精品91在线| 99热亚洲精品6码| 免费高清毛片| 久久婷婷六月| 日本道中文字幕久久一区| 国产成人精品2021欧美日韩| 久久国产精品麻豆系列| 日韩精品成人在线| 福利在线不卡| AV网站中文| 一级成人a毛片免费播放| 四虎综合网| 动漫精品中文字幕无码| 国产成人久久综合777777麻豆| 国产综合网站| 欧美成人一级| 91成人免费观看| 精品国产黑色丝袜高跟鞋| 少妇精品网站| 毛片a级毛片免费观看免下载| 91久久偷偷做嫩草影院| 制服丝袜亚洲| 欧美不卡二区| 91在线国内在线播放老师| 天天摸天天操免费播放小视频| 性做久久久久久久免费看| 国产在线精品人成导航| 国产成人午夜福利免费无码r| 国产午夜一级淫片| 日韩精品高清自在线| 亚洲成人在线免费观看| 亚洲无线视频| 美女潮喷出白浆在线观看视频| 国产成人福利在线视老湿机| 国产精品视频免费网站| 国产精品林美惠子在线观看| 精品人妻系列无码专区久久| 91久久夜色精品国产网站| 狠狠色成人综合首页| 性喷潮久久久久久久久| 国产电话自拍伊人| 日韩在线中文| 国产激情国语对白普通话| 亚洲av无码专区久久蜜芽| 国产真实乱人视频| 高清视频一区| 福利姬国产精品一区在线| 国产无码精品在线播放 | 国产日韩欧美黄色片免费观看|