999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多孔卷積神經網絡的圖像深度估計模型

2019-08-01 01:35:23廖斌李浩文
計算機應用 2019年1期
關鍵詞:深度學習

廖斌 李浩文

摘 要:針對在傳統機器學習方法下單幅圖像深度估計效果差、深度值獲取不準確的問題,提出了一種基于多孔卷積神經網絡(ACNN)的深度估計模型。首先,利用卷積神經網絡(CNN)逐層提取原始圖像的特征圖;其次,利用多孔卷積結構,將原始圖像中的空間信息與提取到的底層圖像特征相互融合,得到初始深度圖;最后,將初始深度圖送入條件隨機場(CRF),聯合圖像的像素空間位置、灰度及其梯度信息對所得深度圖進行優化處理,得到最終深度圖。在客觀數據集上完成了模型可用性驗證及誤差估計,實驗結果表明,該算法獲得了更低的誤差值和更高的準確率,均方根誤差(RMSE)比基于機器學習的算法平均降低了30.86%,而準確率比基于深度學習的算法提高了14.5%,所提算法在誤差數據和視覺效果方面都有較大提升,表明該模型能夠在圖像深度估計中獲得更好的效果。

關鍵詞:多孔卷積;卷積神經網絡;條件隨機場;深度估計;深度學習

中圖分類號: TP391.413

文獻標志碼:A

Abstract: Focusing on the issues of poor depth estimation and inaccurate depth value acquisition under traditional machine learning methods, a depth estimation model based on Atrous Convolutional Neural Network (ACNN) was proposed. Firstly, the feature map of original image was extracted layer by layer using Convolutional Neural Network (CNN). Secondly, with the atrous convolution structure, the spatial information in original image and the extracted feature map were fused to obtain initial depth map. Finally, the Conditional Random Field (CRF) with combining three constraints, pixel spatial position, grayscale and gradient information were used to optimize initial depth map and obtain final depth map. The model usability verification and error estimation were completed on objective data set. The experimental results show that the proposed algorithm obtains lower error value and higher accuracy. The Root Mean Square Error (RMS) is averagely reduced by 30.86% compared with machine learning based algorithm, and the accuracy is improved by 14.5% compared with deep learning based algorithm. The proposed algorithm has a significant improvement in error reduction and visual effect, indicating that the model can obtain better results in image depth estimation.

Key words: atrous convolution; Convolutional Neural Network (CNN); Conditional Random Field (CRF); depth estimation; deep learning

0 引言

圖像中包含的深度信息能夠廣泛運用于與圖像處理相關的計算機視覺應用場景,在現實生活中具有十分重要的意義,提取圖像中的深度信息有利于在三維空間上幫助計算機理解現實場景,而不僅僅是在二維平面的圖像維度上進行感知。在此之前,已經有許多科研人員對單幅圖像的深度估計及其應用進行了研究[1-2],包括目標檢測[3]、目標跟蹤[4]、自動駕駛[5]等技術的實現,但是存在準確度較低的問題。能夠準確地獲取圖像的深度信息,既是從二維平面理解三維空間的必要條件,也是未來計算機視覺技術發展的重要基礎[6-7]。

受Chen等[8]對圖像語義分割的相關研究的啟發,本文將多孔卷積運算引入卷積神經網絡(Convolutional Neural Network, CNN)[9-10],構建了多孔卷積神經網絡(Atrous Convolutional Neural Network, ACNN)模型。該模型能夠在底層特征的基礎上,加入原始圖像中的空間位置信息,使深度圖中包含更多的細節特征。在求解網絡參數的過程中,本文引入相對熵近似計算,降低了計算復雜度。在條件隨機場中加入三個高斯項,分別從像素的位置、灰度以及梯度三個方面對深度圖在像素級別上進行優化,從而得到了更好的估計結果。在已有的圖像深度估計的方法[11-15]中,與Karsch等[13]

引用至文獻10之后,就引用了文獻13、15,文獻11、12、14未引用,這不符合規范,需按照順序進行引用。鑒于調整順序修改工作量較大(因后面的圖形、表格中引用了文獻13、15),所以此處的修改,建議增加文獻11、12、14的引用文字(適當增加幾句即可),這樣就符合引用規范了。

提出的基于機器學習的方法以及Liu等[15]提出的基于深度學習的方法相比,本文的方法在誤差分析中獲得了與圖像真實深度值相差最小的誤差值和最高的準確率,并且在視覺觀察中更接近于圖像真實深度圖給出的效果。

1 相關工作

目前已有的深度信息獲取方法主要有兩種:一種是利用硬件設備直接獲取,如微軟公司的Kinect相機能提供室內小范圍場景的深度信息數據,激光測距儀可以提供室外場景的深度數據,但是其價格較為昂貴。

另一種是利用對同一場景拍攝的單幅或者多幅圖像進行深度估計。在已有的圖像深度估計方法中,基于深度線索的方法如Battiato等[11]利用線性透視這一深度線索進行場景深度估計,并將室內與室外場景分別處理,該方法的缺點在于所估計的場景中必須要有可用于透視的規則幾何物體,具有一定的局限性;Chang等[12]結合物體的運動與相互遮擋關系這兩種深度線索進行深度估計,該方法需要場景中存在運動的物體,否則就無法使用。基于機器學習的方法如Karsch等[13]在2014年提出了使用最鄰近搜索(k-Nearest Neighbors, k-NN)的方法從數據庫中選取候選圖像,進行前景與背景信息融合,從而獲得測試圖像的深度圖。該方法需要對數據庫中所有數據進行分析計算,計算量大,深度估計效率低,并且受到數據庫完善性的局限。基于深度學習的方法如Eigen等[14]在2014年提出了使用卷積神經網絡的深度估計方法,該方法提出了多尺度的CNN模型,在以AlexNet作為粗尺度網絡的基礎上,增加了細尺度優化網絡進行圖像的深度估計。由于該方法利用神經網絡主動地學習提取圖像深層特征,并結合原始圖像進一步優化,所以獲得了不錯的深度估計效果。Liu等[15]使用深度學習模型與概率圖模型有效結合的策略,將CNN與條件隨機場(Conditional Random Field, CRF)結合使用,完成了端到端的訓練,獲得了較好的單目圖像深度估計結果。

2 多孔卷積神經網絡

本文將卷積神經網絡與條件隨機場相結合,并在此基礎上引入多孔卷積結構,提出了多孔卷積神經網絡(ACNN)圖像深度估計模型,其中神經網絡具有優越的特征提取和學習能力,能夠從大量樣本數據中獲取一系列的特征圖用于后續處理,可以將其視為一個回歸函數。條件隨機場是一種概率無向圖模型,屬于判別式模型,能夠建立局部與全局的關系。本章中將重點介紹模型的結構及訓練與預測過程。

2.1 模型概述

在一幅圖像輸入到CNN之前,利用提升小波變換閾值算法對其進行增強處理,目的在于減少圖像中存在的噪聲信號,并改善圖像質量。增強過程首先將二維圖像I按奇偶性分裂為兩個子集合Ie、Io;其次以Ie對Io進行預測,預測誤差為D(i, j)=Io-F(Ie),其中F(·)為預測算子,在選定的預測因子作用下,便能夠由預測誤差及Ie完全恢復出Io;再進行子集合數據的更新,使其與原始的圖像數據具有相同的特征,即Ie=Ie+U(D(i, j)),表示將更新后的Ie值放入變量Ie中,其中U(·)為更新算子;最后可以對變換后的子集合進行重構。本文通過自適應的預測算子與更新算子獲取圖像中的高頻信息和低頻信息,對高頻系數采用半軟閾值去噪算法去除圖像中包含的噪聲信息,該處理方法有效地保持了圖像的平滑性,又不會導致圖像邊緣模糊,與其他閾值去噪方法相比能夠更好地去除圖像中的混合噪聲,保持圖像特征完整性,至此完成了圖像的預處理工作[16]。

在本文所提出深度估計模型的CNN部分中,以視覺幾何組16層網絡(Visual Geometry Group 16, VGG16)[17]為基礎,如圖1所示,保留原始VGG16網絡的第1個到第12個卷積層,在第12個卷積層輸出512維的特征圖之后,去掉原網絡中最后的全連接層,將其卷積化為卷積核大小為1×1的卷積層,使得最后生成一個通道數為1的特征圖。網絡的輸出結果由此轉換為一個二維的特征圖,即圖1中所示的輸出1,而不是原網絡結構中輸出的一維特征向量。神經網絡中的5個卷積塊最后分別各包含1個池化層,池化操作采用最大池化的方式,在隱藏層中用ReLU函數[18]進行非線性激活,在最后一個卷積層中采用DropOut的訓練方法防止模型過擬合。

為了融合更多的細節信息,使得輸出的深度圖更加精確,模型中將CNN輸出的結果輸出1通過連接層與第二個池化層輸出的特征圖進行融合,此時特征圖的大小僅為原始圖像大小的1/4,需要經過上采樣得到與原始圖像1/2大小相同的特征圖,這里使用反卷積操作進行上采樣,得到特征圖輸出2。將上采樣后的特征圖繼續與第一個池化層輸出的結果進行融合,再進行上采樣操作,獲取到與原始輸入圖像大小相同的特征圖輸出3。兩次融合過程使得輸出結果輸出3中包含了大量的圖像細節特征。

在此基礎上,引入多孔卷積結構,多孔卷積能夠通過改變卷積核擴張率的大小得到不同大小的卷積視野,將原始圖像中的局部信息融合到由神經網絡提取的特征圖中,從而進一步豐富了圖像的細節信息。其中,多孔卷積的優點在于能夠使網絡不增加參數、圖像不損失分辨率的條件下,獲取更大的感受野,對比一般的卷積運算,多孔卷積運算可以從圖像中獲得更多的局部位置信息,常被應用于圖像分割中提取圖像中物體的相對位置信息。

從圖2中一般卷積運算與多孔卷積運算的結果對比可以看出,普通3×3大小的卷積核的感受野是3×3的大小;但是擴張率為2的多孔卷積運算的感受野擴大為7×7,擴張率為3的多孔卷積運算的感受野增大到9×9,盡管它們的卷積核大小還是3×3。在本文提出的模型中,使用了一個包含3個不同卷積核,擴張率分別為6、12、18的多孔卷積模型,從原始圖像中分割提取出空間位置信息,并通過連接層將輸出結果融合在一起。

將融合后的特征圖輸入到條件隨機場中,經過隨機場的優化,最終生成原始圖像的深度圖,網絡模型中ACNN輸出的結果如圖3所示,圖中地面區域由遠及近、建筑物區域由近及遠顏色逐漸加深,可以看出多孔卷積結構以及底層特征的引入能夠有效地提取到深度信息,同時能夠保留物體的空間結構信息。

對于深度估計模型中所示的用于優化處理的條件隨機場,定義I表示單幅圖像,可以看作是定義在{I1,I2,…,In}上的隨機場,D為在以該圖像為條件下的隨機場深度圖,可以看作是定義在{D1,D2,…,Dn}上的隨機場,其中Di表示像素點i處在隨機場中對應的深度值,是一個非負的實數,且取值連續,則條件隨機場(I,D)服從條件概率分布:

其中Z為規范化因子,定義為:

E(D,I)為能量函數,由一元勢函數S和二元勢函數T構成,表示為:

其中:N表示單幅圖像中所有像素的集合;i是集合N中的任意一個像素點;i、 j是集合N中空間位置相鄰的兩個像素點。其中一元項表示回歸得到的像素點深度,一元勢函數S描述了CNN輸出估計得到的深度值與真實值之間的平方誤差,其表達式為:

其中:di(W)為CNN輸出得到的像素i處的深度值;W為網絡參數。

二元項能夠使空間上相鄰的像素獲得近似的深度值,勢函數T描述了像素點i、 j在深度值為Di、Dj時圖像相對空間結構的損失,其公式如下:

其中:包含三個高斯核函數,分別記作Gα1、Gα2和Gα3。第一項Gα1核函數的作用是使得位置相鄰的像素i、 j有相似的深度;第二項Gα2核函數中函數g(·)描述了某一像素點處的灰度值,該函數項的作用是使得顏色相近的像素具有相近的深度;第三項Gα3核函數描述了像素點灰度的梯度,其作用在于更好地反映某一像素鄰域上的灰度分布;α1、α2、α3是從訓練中學習到的參數。

2.2 模型訓練與預測

使用負對數似然函數作為網絡模型的損失函數,其中對數函數以e為底,定義為:

網絡模型的訓練過程是獲取參數ξ=(W,α)并將損失函數最小化的過程,即可得:

本文使用隨機梯度下降算法求得模型參數。二元勢函數的權重α應當為正實數以保證模型可用,于是可作變換α=exp(β)以確保正實數這一約束條件。對損失函數L(ξ)求導可得:

由于能量函數E(D,I,ξ)的形式較為簡單,且與ξ線性相關的此處不通順,是否應該為“線相關”或“線性相關”?請明確,所以能量函數求導部分的計算過程相對簡單,后一部分的求導過程為:

由于要計算條件隨機場P(D|I),其計算的復雜度為O(n3)[19]。為了降低計算復雜度,根據相對熵理論,構建條件概率分布Q(D|I)來近似估計條件隨機場P(D|I)的概率分布,Q與P的近似程度可以用相對熵的大小DKL來衡量,當DKL(Q‖P)取得最小值的時候,可認為得到了待求隨機場P(D|I)的最佳近似值,這種計算方法有利于降低計算的復雜度。于是可得:

式(15)中,可將∑j≠iGα μj高斯核與期望的卷積運算,由于一般高斯濾波的計算復雜度為O(n2),為了再次降低計算復雜度,采用快速高維高斯濾波算法[20]對計算復雜度進行降維,使得高斯濾波的計算復雜度降低到O(d2n),其中d為高斯核中特征向量的維度,并可以得到最終的計算復雜度為O(md2n)。該方法用近似計算的方式降低了計算復雜度,能夠有效地加快模型的訓練和預測過程。

3 實驗結果及分析

在本章中,詳細介紹了所提方法的實驗過程及數據分析,并在Make3D及NYU v2[21]這兩個標準數據集上將本文方法與目前常見的兩類經典方法進行了對比:一類是傳統的方法,如Karsch等[22]基于最鄰近算法的圖像深度估計方法,Saxena等[23]基于監督學習的方法,Liu等[24]基于非參數學習的方法;另一類是基于深度學習的方法,如Liu等[15]、Eigen等[14]提出的基于神經網絡的圖像深度估計方法。由于兩種類型的方法都常用來處理單目圖像深度估計問題,都是具有代表性的主流方法,所以本文主要與這兩類方法進行圖像深度估計的效果對比,以驗證本文方法的可行性。

3.1 實驗設置

本文的實驗過程在一臺配有Intel core i5處理器、NVIDIA GTX 1060顯卡和8GB內存的電腦上完成,使用Matlab 2017a版本以及MatConvNet工具包作為軟件環境。

實驗過程中設置動量為0.9,權值衰減系數為0.0005,模型訓練過程首先訓練CNN的參數,學習率初始化為0.001,經監督訓練,每次在當前學習率下損失曲線不再下降時,便將學習率衰減至原來的10%,直至CNN收斂;其次,固定CNN的參數,訓練ACNN參數,待網絡收斂后,對兩部分網絡參數同時更新直至ACNN收斂;最后,設置學習率為10-8,在已訓練好的ACNN上加入CRF層,對ACNN的參數W與CRF的參數α進行聯合優化,此時模型的損失函數為式(6)。整個訓練過程在Make3D數據集上需要大約20h,在NYU v2數據集上需要約40h。

本文使用平均相對誤差Rel、均方根誤差(Root Mean Square Error, RMSE)、對數平均誤差(對數以10為底,計算結果標記為lgAle)以及準確率這四個常用指標來對深度估計的結果進行衡量評價,并且與具有代表性的傳統方法和基于深度學習的方法進行了對比。四個指標的計算表達式分別如下所示:

3.2 模型評價

為了比較ACNN較CNN結構的優勢,在圖4和圖5中對比了未引入多孔卷積結構的CNN深度估計結果和引入多孔卷積結構的ACNN深度估計結果,其中ground truth子圖為數據集提供的真實深度圖。

從兩組(圖4~5)對比中可以看出,多孔卷積結構的引入給模型的深度估計效果帶來了諸多優勢,圖像中物體的邊界被清晰地保留下來,使得某些區域的深度估計值發生重大變化。例如圖4中第一行圖片中的天空、房屋和樹林之間的邊界更加清晰,這可以使獲取的深度圖中避免出現不必要和不準確的深度估計區域。另外,在表1和表2中列出了本文兩個分解模型與全模型輸出深度圖的誤差數據和準確率數據,分別為Make3D數據庫和NYU v2數據庫的數據結果。對表1和表2中的數據分別進行分析可以看出,兩個分解模型,即僅由本文CNN模型輸出估計深度圖和不包含CRF的ACNN模型輸出的估計深度圖,以及包含CRF的ACNN全模型輸出的深度圖的誤差結果對比中,“ACNN+CRF”全模型經實驗得到了最小的誤差數據,并且ACNN的預測結果中所有誤差均低于CNN預測結果的誤差值,說明了全模型在深度估計中有更好的表現。

從圖6中可以看出,本文所提出的深度估計方法能夠準確地估計圖像大部分范圍的深度值,并且不會在物體的邊界處產生劇烈的深度值跳躍。這也從另一個方面表明,多孔卷積結構的引入提高了模型對圖像細節的保留程度。

3.3 Make3D數據集實驗結果

Make3D數據集中提供了400張室外場景的RGB圖像及其對應的深度圖作為訓練數據,還提供了134組用于測試的圖像—深度對數據。為了解決訓練樣本缺乏的問題,實驗中使用多尺度的訓練方法[17],先將輸入圖像大小變換為320×240大小,再從中截取出分辨率為64×64、128×128以及192×192的圖像區域及其對應的深度圖,并將其均調整為128×128作為輸入數據,最終產生了20000個圖像—深度對用于模型訓練。

在Make3D數據集上的實驗結果如表3所示,C1誤差僅計算了真實深度值低于70m的圖像區域,C2誤差將全部圖像區域用于誤差計算。本文與文獻[15]和文獻[22-24]的方法進行誤差結果對比,并將其列在表3中,其中文獻[23]未提供該方法的C1誤差與C2誤差的均方根誤差(RMSE),故未在表中列出,與文獻[15]及文獻[22]方法的深度圖比較結果如圖7所示,從表3誤差數據及圖7深度圖結果對比中得出幾點結論:1)在對輸入圖像進行增強處理之后,CNN的輸出結果較文獻[15]及文獻[22-24]的誤差結果有了提升,說明提升小波的閾值降噪處理確實能夠在去掉噪聲的同時突出圖像的細節特征;2)在多孔卷積結構加入模型訓練過程后,神經網絡在誤差對比中有了更好的表現,可以證明多孔卷積神經網絡確實具有融合原始圖像中空間信息參與模型訓練,并提高深度估計準確性這一事實;3)在結合條件隨機場進行聯合優化訓練后,融合圖像梯度信息的高斯項可以進一步提升深度估計的準確性,使本文提出的網絡模型獲得了最好的深度估計結果。

通過比較表3中的誤差數據,可以看出本文的方法各項指標取得較好的成績,C1誤差中的平均相對誤差、均方根誤差和對數平均誤差比文獻[22]分別降低了20.28%、21.09%、15.75%,計算全部圖像區域的C2誤差對比中,本文的誤差結果比同樣基于深度學習方法的文獻[15]分別降低了9.45%、24.28%和17.6%,本文的準確度超越對比文獻給出的結果。

將訓練好的模型用于圖像的深度提取,在Make3D數據集上任意選取5幅圖像進行深度估計,與文獻[15]和文獻[22]所提出方法的深度估計結果對比,二者使用了不同類型的方法處理深度估計問題,其中文獻[15]采用了深度學習算法,使用神經網絡對數據集進行學習,文獻[22]采用機器學習方法,使用K最鄰近算法從圖像—深度對數據中計算選出候選深度圖,估計精確度受到數據集圖像的限制。對比結果如圖7所示,并在圖7中的最后一列給出數據集提供的真實深度圖ground truth作為參考標準。圖7中以第四行為例,文獻[22]結果圖像中左側的植物區域中沒有準確估計,由于沒有空間信息的引入,圖像中的物體沒有被很好地區分開。與之相比,文獻[15]能夠較好地估計出圖像深度。本文方法引入ACNN結構,能夠較好地將物體的邊界區分開,可以清晰看出本文結果中左側的植物區域及天空區域有較清晰的邊界劃分,并且可以將右側的建筑物深度與左側植物深度區分開。

3.4 NYU v2數據集實驗結果

NYU v2數據集包含1449個室內場景RGB圖像及其對應的深度圖,其中包含795個用于訓練的圖像深度對,其余654個圖像深度對用于模型測試。本文選取了部分訓練集數據,使用等距離采樣的方法生成了大約15000張圖像,對這些圖像進行旋轉變換,尺度變換后,最終產生了大約200k張圖像用于網絡訓練。

NYU v2數據集上的實驗結果如表4所示,其中包含了誤差數據和準確率兩項指標。通過結果對比,可以看到本文提出的方法在各項指標上都取得了更好的結果。從表4的誤差值及準確率數據中可以看出,在加入圖像預處理、多孔卷積結構以及條件隨機場優化后,整個網絡能夠更好地完成圖像深度估計任務,相比文獻[13-15]以及文獻[24]的方法,本文所提出的方法的誤差值與對照方法相比獲得了最低的誤差值和最高的準確率,與具有最優對照結果的文獻[15]相比,本文方法的平均相對誤差、均方根誤差以及對數平均誤差分別降低了22.17%、19.3%和29.47%,同時,本文方法的三組準確率也較文獻[15]分別提升了14.5%、5.4%和1.44%。

在NYU v2數據集上任意選取4幅圖像進行深度估計,本文方法得到的結果與文獻[15]方法得到結果的對比如圖8所示,可以看出本文方法的準確度相對較高,例如第一行臥室的圖像中,本文方法結果中對床及其相鄰地面的深度估計值比文獻[15]方法得到的結果更接近于真實深度。同樣,第二行書架圖像中,本文方法對書架深度的估計值也比文獻[15]方法得到的結果更接近于真實深度值。

從表3和表4的數據結果中可以看出,本文方法的誤差值均低于所有對比方法給出的誤差值,準確率也高于所有對比方法給出的準確率,取得了最好的深度估計結果。在對Make3D數據庫及NYU v2數據庫的對比分析中,文獻[22]的方法由于依賴圖像—深度對數據庫,所以獲得的深度圖僅能夠粗略地反映出圖像的深度信息,精度不高。該方法要求對整個數據庫進行分析和計算,計算量大,深度估計效率低,受數據庫完整性的限制。與之對比,本文提出的方法不需要任何數據先驗信息,僅需要圖像數據庫即可獲得更好的估計結果,這與卷積神經網絡強大的特征提取與學習能力密不可分。

與文獻[14]中提出的方法相比,本文在融合CNN網絡隱藏層特征圖的基礎上,又加入了多孔卷積結構,融合了原始圖像中的圖像空間特征,使得特征圖中包含了更充分的底層圖像特征。在文獻[14]方法中,粗尺度網絡的參數是固定不變的,并且在網絡訓練收斂之后不再更新。與之相比,首先訓練CNN參數,然后是多孔卷積結構,最后同時更新CNN和ACNN的參數,整個網絡通過CRF進行端對端訓練,該訓練過程可以使CNN參數獲得更好的局部最小值。從表4可以看出,本文方法的網絡結構和訓練過程使得ACNN預測結果優于文獻[14]方法的結果。從圖8所示的深度提取結果中可以看出,加入CRF后的完整模型對圖像邊緣作了更好的處理,并且視覺效果更加理想,該模型在深度提取時能夠產生更好的效果。

與文獻[15]所提出的方法相比,本文的方法在像素級別上進行深度估計,保留了更高的圖像精度,不再需要對圖像進行超像素分割和復雜的矩陣運算,并且加入了多孔卷積結構,在融合后的特征圖保留了更多圖像細節信息,同時通過相對熵理論的近似計算提高了預測計算效率。本文提出的方法在融合局部特征和全局特征的基礎上,通過CRF進行細節優化,可以看出,在融合以上特征后得到的結果中同時展現出更為細致的整體與細節部分的深度估計結果;同時也說明了在引入多孔卷積結構具有擴大了感受野又不損失圖像分辨率的作用,能夠準確地將圖像中的物體分隔開,有效地提取圖像的深度信息。

4 結語

本文針對單目圖像的深度估計問題提出了一種基于多孔卷積神經網絡的單幅圖像深度估計模型。該模型將多孔卷積結構融合到一個全連接的VGG16卷積神經網絡中,并通過條件隨機場完成端到端訓練。在模型訓練之前,本文采用提升小波閾值去噪算法完成了圖像增強的預處理工作,使得神經網絡的輸入圖像具有更清晰和易于提取的圖像特征。實驗結果表明,預處理后的圖像在深度估計中可以獲得更好的結果。通過引入多孔卷積結構,原始圖像中的像素空間信息被融入到特征圖中,在條件隨機場對像素位置、像素灰度和像素梯度這三個條件的約束作用下,最終生成的深度圖中物體的邊界更加清晰,這同時避免了一些易于估計不準確區域出現。模型優化過程中使用相對熵理論來近似計算,該算法大幅度降低了模型參數的計算復雜度。與文獻[13-15]及文獻[22-24]中提出的基于機器學習以及深度學習的方法相比,本文提出的模型在誤差分析中取得了最小誤差,在視覺效果上能夠更清晰地將物體邊緣區分開,得到更接近于真實深度的估計深度圖,但是,在本文所給出的模型中沒有引入數據先驗項,進一步可以引入先驗約束來增強模型的深度提取能力;其次,可將多孔卷積結構進一步擴展,加入多孔空間金字塔池化方式,在盡可能多的尺度上使用不同采樣率獲取圖像中的細節特征信息,產生準確度更高的深度估計結果。

參考文獻 (References)

[1] SAXENA A, CHUNG S H, NG A Y. Learning depth from single monocular images[C]// Proceedings of the 2005 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2005:1161-1168.

[2] 胡良梅,姬長動,張旭東,等.聚焦性檢測與彩色信息引導的光場圖像深度提取[J].中國圖象圖形學報,2016,21(2):155-164.(HU L M, JI C D, ZHANG X D, et al. Color-guided depth map extraction from light field based on focusness detection[J]. Journal of Image and Graphics, 2016, 21(2):155-164.)

[3] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.

[4] KRISTAN M, PFLUGFELDER R, MATAS J, et al. The visual object tracking VOT2013 challenge results[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Washington, DC: IEEE Computer Society, 2013:98-111.

[5] SANTANA E, HOTZ G. Learning a driving simulator[J/OL]. ArXiv Preprint, 2016, 2016: 1608.01230[2017-08-03]. https://arxiv.org/abs/1608.01230.

[6] SZELISKI R. Computer vision [J]. Springer-Verlag GmbH, 2010, 12(8):1741-1751.

[7] CHEN C H. Handbook of Pattern Recognition and Computer Vision [M]. Singapore: World Scientific, 1993:697-698.

[8] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [J/OL]. ArXiv Preprint, 2017, 2017: 1706.05587[2018-01-17]. https://arxiv.org/abs/1706.05587.

[9] 楊帆,李建平,李鑫,等.基于多任務深度卷積神經網絡的顯著性對象檢測算法[J].計算機應用,2018,38(1):91-96.(YANG F, LI J P, LI X, et al. Salient object detection algorithm based on multi-task deep convolutional neural network[J]. Journal of Computer Applications, 2018, 38(1): 91-96.)

[10] 孫毅堂,宋慧慧,張開華,等.基于極深卷積神經網絡的人臉超分辨率重建算法[J].計算機應用,2018,38(4):1141-1145.(SUN Y T, SONG H H, ZHANG K H, et al. Face super-resolution via very deep convolutional neural network[J]. Journal of Computer Applications, 2018, 38(4): 1141-1145.)

[11] BATTIATO S, CURTI S, CASCIA M L, et al. Depth map generation by image classification[C]// Proceedings of the 2004 Three-Dimensional Image Capture and Applications VI. Bellingham, WA: SPIE, 2004:95-104.

[12] CHANG Y L, FANG C Y, DING L F, et al. Depth map generation for 2D-to-3D conversion by short-term motion assisted color segmentation[C]// Proceedings of the 2007 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2007:1958-1961.

[13] KARSCH K, LIU C, KANG S B. Depth transfer: depth extraction from video using non-parametric sampling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 36(11):2144.

[14] EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network [J/OL]. ArXiv Preprint, 2014, 2014: 1406.2283[2017-12-09]. https://arxiv.org/abs/1406.2283.

[15] LIU F, SHEN C, LIN G, et al. Learning depth from single monocular images using deep convolutional neural fields [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10):2024-2039.

[16] ABHAYARATNE G C K, PESQUETPOPESCU B. Adaptive integer-to-integer wavelet transforms using update lifting[C]// Proceedings of the SPIE Wavelets: Applications in Signal and Image Processing X. Bellingham, WA: SPIE, 2003:813-824.

[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J/OL]. ArXiv Preprint, 2015, 2015:1409.1556[2017-04-10]. https://arxiv.org/abs/1409.1556.

[18] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]// Proceedings of the 2011 International Conference on Artificial Intelligence and Statistics. Fort Lauderdale: PMLR, 2011:315-323.

[19] RADOSAVLJEVIC V, VUCETIC S, OBRADOVIC Z. Continuous conditional random fields for regression in remote sensing [J]. Frontiers in Artificial Intelligence and Applications, 2010, 215:809-814.

[20] ADAMS A, BAEK J, ABRAHAM DAVIS M. Fast high-dimensional filtering using the permutohedral lattice[J]. Computer Graphics Forum, 2010, 29(2):753-762.

[21] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images[C]// ECCV 2012: Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2012:746-760.

[22] KARSCH K, LIU C, KANG S B. Depth transfer: depth extraction from videos using nonparametric sampling[M]// Dense Image Correspondences for Computer Vision. Berlin: Springer, 2016:775-788.

[23] SAXENA A, SUN M, NG A Y. Make3D: learning 3D scene structure from a single still image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5):824-840.

[24] LIU M, SALZMANN M, HE X. Discrete-continuous depth estimation from a single image[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014:716-723.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 午夜福利亚洲精品| 婷婷色一二三区波多野衣 | 91在线视频福利| 欧美成人A视频| 五月天综合婷婷| 国产福利一区二区在线观看| 亚洲黄网在线| 欧美第二区| 色偷偷男人的天堂亚洲av| 第一区免费在线观看| 国产一区二区精品高清在线观看| 天天干伊人| 又大又硬又爽免费视频| 无码内射中文字幕岛国片| 又爽又大又黄a级毛片在线视频 | 久久精品丝袜| 国产网友愉拍精品| 99热6这里只有精品| 亚洲人成网站色7799在线播放| 亚洲乱伦视频| 毛片网站在线看| 在线日韩日本国产亚洲| 91在线精品免费免费播放| 午夜毛片免费看| 人妻出轨无码中文一区二区| 国产成人精品高清不卡在线| 国产精品观看视频免费完整版| 一级一级一片免费| 亚洲天堂777| 亚洲中字无码AV电影在线观看| 国产精品免费p区| 狠狠ⅴ日韩v欧美v天堂| 久久精品中文无码资源站| 亚洲男人的天堂在线| 2021精品国产自在现线看| 无码专区国产精品第一页| 青青草原偷拍视频| 国产va免费精品观看| 欧美一区二区三区欧美日韩亚洲| www亚洲天堂| 国产一级毛片网站| 九九热这里只有国产精品| 国产精品 欧美激情 在线播放| 亚洲综合香蕉| 欧洲亚洲欧美国产日本高清| 亚洲欧美日本国产综合在线| 久久性视频| 国产精品欧美在线观看| 免费又爽又刺激高潮网址| 日韩区欧美国产区在线观看| 伊人久久婷婷| 老色鬼欧美精品| 搞黄网站免费观看| 狠狠色狠狠色综合久久第一次 | 99精品久久精品| 亚洲精品午夜无码电影网| 国产91九色在线播放| 爆操波多野结衣| 中国特黄美女一级视频| 欧美国产日本高清不卡| 97色伦色在线综合视频| 国产精品久久久久久搜索| 免费人欧美成又黄又爽的视频| 波多野结衣中文字幕一区二区| 欧美成人精品一级在线观看| 久久黄色视频影| 日韩午夜伦| 日韩国产综合精选| 91精品人妻一区二区| 国产精品护士| 国产青青操| 亚洲成人网在线播放| 色综合成人| 国产成人久视频免费| 天天综合网色| 91亚洲精选| 99在线视频免费观看| 久久久久88色偷偷| 在线看片中文字幕| av大片在线无码免费| 免费观看男人免费桶女人视频| 国产精品自在自线免费观看|