999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于場景模態深度理解網絡的單目圖像深度理解

2021-02-05 03:03:36李大威
計算機工程 2021年2期
關鍵詞:模態深度特征

陳 揚,李大威

(東華大學信息科學與技術學院,上海 201620)

0 概述

隨著信息技術的發展,視頻場景深度(距離)信息的重要性日益顯現。深度圖像(也稱距離圖像)是一種常用的場景深度描述方式,其中每個像素值代表場景中某一點與傳感器或掃描儀的距離。目前,深度圖像已廣泛應用于無人駕駛[1-2]、智能機器人[3]以及人臉識別[4]等領域。例如在無人駕駛領域,車輛在行駛中需實時獲取包含周圍行人與車輛距離信息的深度圖像。目前,Kinect、立體匹配以及激光雷達等現有深度圖像獲取方法所需設備昂貴且采集成本較高,捕獲的深度圖像存在分辨率低與大面積深度缺失等問題。基于單目彩色圖像的深度理解技術是使用模式識別或機器學習算法從一幅RGB圖像中理解出場景中每個像素與傳感器的距離,由于其具有成本低廉、性能穩定等優勢,因此成為研究人員關注的熱點。而在單目彩色圖像深度理解技術中,相機在成像時會不可逆地損失景物三維結構信息,造成一張彩色2D圖像可與無數真實場景對應,且單幅圖像也缺乏用于恢復場景深度的有效輔助線索[5]。因此,單目彩色圖像深度理解成為當前計算機視覺領域極具挑戰性的研究課題之一。

早期關于單目彩色圖像深度理解的研究主要基于圖像中物體的幾何結構特點以及物體與物體的相互關系進行計算,例如從陰影中恢復形狀[6]、從對焦[7]或離焦信息[8]獲取深度等。上述方法僅適用于有限種類的場景,并需要額外的輔助信息,嚴重限制了模型的泛化能力。近年來,深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)在計算機視覺領域取得眾多突破性進展,研究人員將深度學習[9-11]引入單目彩色圖像深度理解方法,雖然其形成的深度圖像質量遠高于傳統圖像處理方法,但是也存在局限性。例如:深度卷積網絡從圖像中提取大量特征,然而物體顏色、場景光照、墻壁紋理與圖案等多種圖像特征對深度理解任務無用處,并造成計算量過大,同時增加網絡的不確定性和學習難度;大部分深度學習方法將深度理解視為回歸問題,雖然這種思路能有效用于圖像分類,但深度理解是一種比分類更復雜的連續距離預測問題[12-13],其用回歸方法求解效果并不理想;現有深度神經元網絡隨著層數增加其錯誤信息會不斷累積[14],導致深度理解結果質量較差。

針對上述問題,本文提出一種場景模態深度理解網絡(Scene Modality Depth Understanding Network,SMDUN)以解決單目彩色圖像深度理解問題。SMDUN以堆疊沙漏網絡為主框架[15]反復進行自下而上和自上而下的特征提取過程以融合低層次紋理與高級語義特征,在每一層級上使用獨立損失函數去除無意義特征,采用不同分辨率的場景模態離散標簽指導網絡提取有效特征,引入有序回歸碼和極大似然譯碼[16]減少誤差積累,并優化離散標簽的學習過程。

1 相關工作

從單幅彩色圖像中理解深度是一項具有挑戰性的任務。早期研究主要基于圖像中物體的幾何結構特點展開,其研究場景種類與模型泛化能力較有限。目前,隨著深度卷積網絡在計算機視覺領域的深入發展,基于深度學習的方法已成為研究單目彩色圖像深度理解的主流方法。與使用人工定義特征進行深度理解的研究相比,基于深度卷積網絡的方法能從彩色圖像中提取更多有利于深度理解的線索,得到的深度預測圖像質量更佳。文獻[9]使用深度學習方法對圖像深度理解進行研究,提出一種雙棧卷積神經網絡(Convolutional Neural Network,CNN),先得到粗略的全局預測結果,再使用局部特征對其進行優化。文獻[17]采用雙流CNN從單幅圖像中恢復深度,在雙流網絡中,一條流產生深度特征,另外一條流產生深度梯度特征,將兩種特征融合后得到精細的深度圖像。文獻[18]利用深度學習網絡中間層的輸出提供互補信息,采用連續CRF模型對網絡中間層輸出信息進行整合,以實現對單幅圖像的有效深度估計。文獻[19]提出一種無監督的單目彩色圖像深度理解框架,使用立體圖基于光度重建損失函數進行視差估計得到深度圖像。文獻[20]在文獻[19]的基礎上提出左右一致性檢驗方法,結合L1損失和結構相似性(Structural Similarity,SSIM)得到平滑的深度圖像預測信息。文獻[21]提出一種基于幾何感知的對稱域自適應框架,通過訓練圖像樣式轉換器和深度估計器,實現彩色圖像與深度圖像的樣式轉換。上述基于深度學習的方法大部分將深度理解問題視為回歸問題來處理,此類方法能有效解決圖像分類和語義分割問題,然而深度理解任務中表示深度的每個像素都是連續值,對其進行預測遠比離散的分類問題復雜。對此,文獻[13]基于有序回歸思想,將連續的深度理解任務轉換為具有前后關聯性的離散深度標簽分類問題,降低了深度理解的難度,但其在將深度圖像離散化處理成訓練標簽的同時丟失大量深度信息,造成所得預測圖像特征丟失。文獻[22]基于圖像級全局特征和像素級局部特征,通過有序回歸概率信息將離散的有序回歸結果轉換為連續值處理,但其僅通過分類概率推測出一個連續的深度值,不能解決標簽在離散化階段信息丟失的問題。

此外,上述方法均基于圖像的紋理信息進行深度理解,容易使網絡學習到墻壁的紋理特征等大量無關特征,在增大計算量的同時提升了學習難度和網絡不確定性。因此,文獻[15]將不同層級的特征進行反復處理和融合以提取有效特征。文獻[23]通過在每一層級單獨計算損失函數來丟棄無用特征。但上述方法隨著網絡深度的增加易產生誤差積累,造成在預測深度圖中不合理的幾何分布。文獻[14]提出一種基于網絡先前層級特征對當前層級特征進行補充和修正的策略,然而在該特征優化機制下,由于先前低層級特征遠不如當前層級特征豐富,因此其對特征的優化能力有限。

2 場景模態深度理解網絡

本文提出的場景模態深度理解網結構如圖1所示。該網絡的特點為:1)網絡采用多層次堆疊沙漏結構,并使用連續與離散兩種標簽進行訓練;2)在SMDUN中逐次使用場景模態特征提取模塊(Scene Modality Feature Extraction Module,SMFEM),并基于綜合損失函數指導網絡從低層級到高層級理解深度信息;3)通過誤差修正模塊(Error Correction Module,ECM)和極大似然譯碼優化模塊(Maximum Likelihood Decoding Optimization Module,MLDOM)修正中間層的錯誤特征,以減少累計誤差。

圖1 場景模態深度理解網絡結構Fig.1 Structure of scene modality depth understanding network

2.1 SMDUN框架

文獻[15]使用堆疊沙漏結構網絡成功解決圖像中人體關節點檢測問題,文獻[24]證明了堆疊沙漏網絡可用于雙目立體視覺系統的深度估計,因此,本文提出的SMDUN采用堆疊沙漏結構提取和理解圖像深度特征。SMDUN通過中間指導和反復自下而上與自上而下的過程,有效融合了低層次紋理與高級語義特征。RGB圖像通過沙漏網絡的第一個編碼器提取圖像底層特征,特征圖的分辨率從W×H降至特征圖在解碼器中通過跳鏈補充圖像底層特征,并逐層級提高特征的分辨率至第二個編碼器降低特征的分辨率至并將每一層級輸出特征與第一個解碼器相應層級的特征相加。特征圖在第二個解碼中通過跳鏈從第一個編碼器和彩色圖像中補充圖像底層特征,并輸出分辨率為W×H的圖像深度理解結果。

SMDUN采用逐層級優化的方式以降低網絡不確定性與無效特征的影響,同時提高網絡的收斂能力與預測精度。大多數深度理解網絡[9,14]使用連續的深度值標簽指導網絡中間層級特征,這容易造成網絡的不確定性,導致其難以學習到有效特征。文獻[13]將有序回歸的思想引入深度理解與估計任務,使連續的深度估計任務轉換為具有前后關聯性的離散深度標簽分類問題,有效降低了深度理解難度。有序回歸使得深度特征理解與編碼譯碼方法相結合,為深度估計問題提供編譯碼理論支撐。

離散圖像標簽雖然可以降低計算量,但與連續的深度真實圖相比,會造成較多的信息丟失,且在有序回歸碼的特征提取與計算中容易產生錯誤。為解決上述問題,本文提出場景模態特征提取模塊SMFEM。在圖1中,在沙漏網絡解碼器各階段輸出后增加SMFEM以實現逐層級優化。在SMFEM中,輸入特征圖被分為兩部分,將作為前饋殘差的低層次特征,使用場景模態離散標簽訓練并經MLDOM模塊優化后得到特征再將兩部分特征進行拼接確保所獲得特征的完整性,最后通過3×3卷積得到SMFEM的輸出特征。

2.2 場景模態特征的提取

逐層級特征優化廣泛應用于圖像語義分割、深度估計和邊緣檢測[25-27]等結構化的訓練任務中。文獻[23]采用多分辨率訓練標簽指導特征,并在每一層級后計算獨立的損失函數,減少了對無用特征的學習。因此,通常將多次使用不同采樣率進行降采樣后所得真實深度圖像作為多分辨率訓練標簽進行訓練[9,14]。然而,真實深度圖像中每個位置的值是連續的浮點值,這增加了訓練難度與網絡不確定性。實際上,深度圖像中最重要的信息是遠和近的相對概念,可利用離散的數字類別標簽(離散的標簽類似于語義分割中物體類的概念,可參照成熟語義分割網絡的標簽訓練方式進行訓練)對相對距離進行編碼,再使用編碼后的深度圖像進行訓練。基于相對距離關系進行離散化后所得真實深度圖像稱為場景模態。為了對場景模態標簽進行訓練,設計場景模態特征提取模塊SMFEM。

針對上述問題,本文提出多分辨率的場景模態標簽構建方式,從深度圖像中提取M種場景模態標簽,如圖2所示(彩色效果參見《計算機工程》官網HTML版)。多分辨率的場景模態標簽Modality={Ms,s=1,2,…,M},其中Ms為SMDUN中第s種標簽,Ms(x,y)表示標簽Ms中位置(x,y)的值,Ws和Hs分別為標簽的寬度和高度,Ms(x,y)標簽取值區間為{0,1,…,ls-1},ls為本級場景模態的相對距離級數,本文中該值取2的冪次。

圖2 深度圖像與場景模態標簽Fig.2 Depth image and scene modality labels

場景模態標簽由相對距離計算生成,通過遠、近、較遠與較近等模糊概念描述圖像的空間分布。相對距離場景模態標簽的計算步驟如下:

1)采用式(1)中線性歸一化算法計算得到每個位置的相對距離深度標簽Dr:

其中,Depth為當前深度圖,Dmin為當前深度圖的最小深度值,Dmax為當前深度圖的最大深度值。

其中,α和β分別為本層場景模態中Dr標簽的最小值和最大值,ls為離散化區間數。為避免實際距離為0造成對數無法計算,對α和β添加偏移量1成為α*和β*,因此實際非均勻離散化取值區間為[α*,β*]。

3)在Dd中均勻劃分Ws×Hs個區域(Ws與Hs的取值與這一級場景模態標簽的長度和寬度相關),計算每個區域的平均值,得到粗略的場景模態標簽。

4)針對粗略的場景模態標簽,分別采用式(1)和式(2)計算其相對距離Depthr和離散化過程,得到最終的場景模態標簽Ms。

場景模態標簽Ms由0~ls-1構成,Ms與閾值tis的關系如下:

為提升網絡容錯能力并增加訓練過程的穩定性,本文對場景模態離散標簽未使用常見的one-hot型編碼。例如,某個位置的真實相對深度為4,網絡預測為5,對于one-hot型編碼而言,其錯誤產生的損失與預測為8所產生的損失接近,然而實際上相對深度具有一定關聯性(5與4的差值比8與4的差值更小),給予更小的損失更合理。因此,本文設計一種有序回歸碼。

有序回歸方法是將一個復雜的多分類任務轉換為ls-1個簡單的二分類任務,在網絡的訓練和推理過程中,將標簽Ms轉換為有序回歸碼Os,Os的分辨率為Ws×Hs×Ls,其中Ls=ls-1。Ms與Os在(x,y)位置存在以下關系式:

有序回歸碼Os在(x,y,i) 的每一個維度值實際上是一個二分類任務,其值為0與1的訓練過程,在訓練中得到一個二分類標簽的概率張量Ys,其分辨率為Ws×Hs×(2×Ls)。Ys由兩層大小為Ws×Hs×Ls的特征層構成(在圖1中以“0”與“1”表示),其中“0”特征層表示經過網絡得到的有序回歸碼中二分類結果為標簽0的概率,“1”特征層是將有序回歸碼每位為1的概率按由大到小排序后得到的特征層。

其中,η(·)為指示函數,滿足η(true)=1且η(false)=1。Ps("0")為位置(x,y)處有序回歸碼第i位為0的概率,而Ps("1")為有序回歸碼第i位為1的概率,Ps("0")和Ps("1")中同一位置的值之和為1,滿足以下關系式:

由場景模態可得到相對深度值,計算公式如下:

深度卷積神經網絡通常存在欠擬合和過擬合現象,多層級的深度卷積神經網絡在訓練和推理階段將當前層級的結果直接送入下一層模塊的同時,也會將當前層級的誤差與噪聲傳遞到后續網絡,造成誤差不斷積累并最終呈現在預測深度圖像中,因此需及時對網絡中的錯誤進行校正。在所估計的場景模態有序回歸碼中,包含有序回歸碼的內在邏輯錯誤(以下稱為邏輯錯誤)和有序回歸碼的二分類精度錯誤(以下稱為精度錯誤),這兩種有序回歸碼錯誤示例與誤差修正模塊中對應的卷積修正方式如圖3所示。圖3(a)為有序回歸碼的邏輯錯誤和使用1×1卷積修正的方式。在場景模態的某一個位置上出現邏輯錯誤,具體表現為:在值為4的場景模態上,本應是“1,1,1,1”的有序回歸碼在第2位(從第0位開始)發生錯誤變為“1,1,0,1”。從邏輯上來看這是錯誤的,因為本文定義的有序回歸碼不能出現0,1交替的情況。然而在實際網絡訓練過程中,難以避免此類錯誤,且無法在訓練中直接對有序回歸碼的具體值進行賦值操作(例如將錯誤的0替換為1),只能以卷積和反向傳播的形式進行糾錯。圖3(b)為有序回歸碼的精度錯誤和使用3×3卷積與空洞卷積對其修正的方式。在場景模態的某一位置上出現精度錯誤,具體表現為:在值為4的場景模態上,本應是“1,1,1,1”的有序回歸碼發生錯誤變為“1,1,1,1,1”,導致該位置場景模態實際上變為5,由于場景模態反映相對距離,因此會影響后續深度理解的精確性。

圖3 有序回歸碼的兩種錯誤示例與卷積修正方式Fig.3 Two error examples and convolution correction methods of ordinal regression codes

為避免這兩種訓練中常見的有序回歸碼錯誤,本文設計一種包含多種基本卷積的誤差修正模塊,其結構如圖4所示。中出現的兩種有序回歸錯誤源于在一系列二分類任務上產生的分類錯誤。對于內在邏輯錯誤,可通過1×1卷積學習有序回歸碼的規則。如圖3(a)所示,經過1×1卷積后,同一串有序回歸碼前后的正確碼字經過卷積能對邏輯錯誤位產生影響,并在一定程度上消除錯誤;對于精度錯誤,只憑當前場景模態位置信息不足以修正,本文通過3×3卷積和多層空洞卷積,以類似于多層空洞池化模塊的卷積連接方式[28](見圖3(b))充分提取場景模態中相鄰位置的特征來克服當前的分類精度錯誤。將ECM每一階段產生的多尺度特征進行拼接,最終得到修正后的場景模態特征Es。

圖4 誤差修正模塊結構Fig.4 Structure of error correction module

2.3 極大似然譯碼優化模塊

本節設計一種極大似然譯碼優化模塊,該模塊將預測的有序回歸碼作為包含錯誤和噪聲的接收碼,將場景模態真實值的有序回歸碼Os作為發送碼,并使接收碼最大限度地逼近發送碼。MLDOM從預測結果中得到場景模態的優化特征,將其與MFs相加得到優化的場景模態特征再將與拼接得到整個SMFEM的輸出特征。

在實際物理系統中,由于只存在信息從發送到接收的因果前向轉移概率(先驗概率)p(r|c),信道中不存在后驗概率p(c|r),只能通過先驗概率近似計算后驗概率。根據貝葉斯公式得到先驗概率和后驗概率的關系式如下:

在式(13)計算過程中,不僅計算量過大,而且似然函數也難以確定,因此本文以卷積實現局部的極大似然譯碼,通過較少的計算量得到一個次優解。采用局部計算近似得到極大似然譯碼的原因如下:1)場景模態采用類似于深度圖像的相對距離,由于目標表面為深度連續的[24],因此其中每個坐標的相對深度與鄰域關聯緊密;2)目標級信息描述了圖像場景的整體結構和具體物體的粗略位置關系(全局特征);3)像素級信息使物體表面在場景中的深度值(局部特征)更精確,可通過網絡在訓練階段以卷積和池化的方式學習到。雖然在不同圖像中場景會發生改變,但場景中同種物體特征不會發生變化。例如,在客廳學習到的桌子特征同樣適用于廚房中的桌子。因此,局部特征不會隨著場景的改變而失效,具有較高的魯棒性。

基于上述分析,將輸入MLDOM的特征轉化成大小為Ws×Hs×Ns的特征層,其中Ns為當前極大似然譯碼相關的碼長,再將極大似然譯碼轉換為局部最優似然譯碼,該過程主要包括兩步:1)將特征層均分為16層的子特征層,其中每層通道數為再分別進行極大似然譯碼計算;2)在每個子特征層中,以對數似然的方式將概率連乘計算變為連加計算,再采用5×5的平均池化操作將連加限制在局部范圍內進行,最后利用argmax函數獲取局部最優的特征編碼完成式(13)的近似計算。圖5為極大似然譯碼優化模塊的結構,其中對譯碼過程的先驗概率逼近過程進行展示,由場景模態標簽帶來的損失沿虛線傳遞給每個單獨的譯碼過程,以保證最優譯碼方向的正確性。

圖5 極大似然譯碼優化模塊結構Fig.5 Structure of maximum likelihood decoding optimization module

2.4 損失函數

本文對SMDUN的總損失函數losstotal定義如下:

總損失函數主要由預測得到的深度圖像和真實深度圖像標簽之間的損失lossim(g深度圖像預測誤差)以及場景模態標簽的損失lossmod兩部分構成,lossimg在整個堆疊沙漏網絡的最后進行計算,lossmod在每一層SMFEM內進行計算。

2.4.1 深度預測圖和標簽深度圖之間的損失

深度圖像預測誤差lossimg主要由Inverse-Huber損失[29]和SSIM指標值[10]兩部分組成,其表達式如下:

其中,c為閾值。

2.4.2 場景模態損失

本文將場景模態標簽損失lossmod定義為全部SMFEM的有序回歸損失之和,計算公式如下:

3 實驗與結果分析

本文通過實驗驗證SMDUN的深度理解有效性。通過設計不同的剝離實驗分析網絡各部分的有效性,并將本文網絡與當前流行的其他網絡進行對比分析。

3.1 深度理解數據集

當前深度理解網絡通常采用NYUv2數據集[29]和KITTI數據集[30]進行實驗。

NYUv2數據集提供了由Kinect相機拍攝采集的464個室內場景RGB-D數據,包括12萬對彩色圖像與深度圖像,圖像分辨率為640像素×480像素。采用文獻[9]定義的訓練集與測試集劃分方法,在NYUv2數據集的464個場景中選取249個場景用于訓練,其余215個場景用于測試。從訓練場景中抽取5萬對彩色圖像和深度圖像作為訓練集,在測試場景中抽取654對彩色圖像和深度圖像作為測試集,并對深度圖像空缺的區域進行填補,深度值上限設定為10 m。在訓練階段,使用雙線性降采樣方法將NYUv2數據集中圖像分辨率改為256像素×352像素,并將其作為SMDUN的輸入和標簽數據的默認分辨率。在測試階段,將網絡的預測深度圖像恢復到原始圖像大小,同時在文獻[9]定義的指定區域計算預測結果的定量指標。

KITTI是一個包含雙目立體圖像和3D點云數據的室外場景數據集,涵蓋市區、鄉村、高速公路以及校園等56個不同場景,圖像分辨率為1 241像素×376像素。采用文獻[9]定義的訓練集與測試集劃分方法,從56個場景中選取28個場景用于訓練,其余28個場景用于測試。從訓練場景中抽取2.8萬對彩色圖像和深度圖像作為訓練集,對測試場景中抽取697對彩色圖像和深度圖像作為測試集,對稀疏的深度圖像進行填補[9],深度值上限設定為80 m。在訓練階段,去掉深度圖像上層區域中激光雷達掃描不到的部分,使用雙線性降采樣方法將KITTI數據集中圖像分辨率改為256像素×512像素,并將其作為SMDUN的輸入和標簽數據的默認分辨率。在測試階段,將網絡的預測深度圖像恢復到原始圖像大小,同時在文獻[9]定義的指定區域計算預測結果的定量指標。

3.2 實驗設置

場景模態深度理解網絡采用TensorFlow深度學習框架,使用NVIDIA RTX 2080Ti進行訓練與測試。SMDUN的第一個編碼器網絡為ResNet-50,并使用ILSVRC[31]中的預訓練模型進行初始化。

場景模態深度理解網絡的訓練過程分為兩步:第一步訓練側重于SMDUN的場景模態損失,計算時式(14)中參數αim和αmod分別設置為1.0×10-4和1,網絡參數更新使用Adam優化算法,設置Adam算法的學習率為1.0×10-4,參數β1=0.9,β2=0.999;第二步訓練側重于連續標簽損失,計算時式(14)中參數αim和αmod分別設置為1和1.0×10-2。Adam優化算法的學習率在迭代中采用多項式衰減策略,初始學習率設置為1.0×10-4,終止學習率設置為1.0×10-5,多項式衰減參數Power=0.9。在NYUv2數據集中,第一步訓練和第二步訓練的epoch分別為6、35,網絡的batch設置為6;在KITTI數據集中,第一步訓練和第二步訓練的epoch分別為3、35,網絡的batch設置為4。

將本文提出的場景模態深度理解網絡與DORN[13]網絡、GASDA[21]網絡、ACAN[22]網絡以及文獻[9]、文獻[11-12]、文獻[14]、文獻[17]、文獻[20]以及文獻[32-37]中其他流行的深度網絡實驗結果從定性和定量上進行比較。

3.3 定量評價指標

本文將SMDUN的實驗結果與上述其他網絡在以下6種定量指標上進行比較:

1)絕對相關誤差(Absolute Relative Error,AbsRel),其計算公式為:

2)均方相關誤差(Mean Squared Relative Error,MSqRel),其計算公式為:

3)均方根誤差(Root Mean Squared Error,RMSE),其計算公式為:

4)對數均方根誤差(Root Mean Squared Error in log space,RMSElog),其計算公式為:

5)對數平均誤差(Mean log10 Error,MLog10E),其計算公式為:

6)閾值準確度δ1、δ2和δ3,其中:

在式(20)~式(25)中,yi是標簽圖像中的深度值為網絡預測的深度圖中的值,n為圖像的像素個數。

3.4 結果分析

3.4.1 網絡模塊剝離實驗

為驗證本文提出的多個模塊具備提升網絡深度理解性能的能力,分別對各模塊進行剝離得到3種不同的網絡結構,在NYUv2數據集上分別進行定量實驗并與SMDUN進行對比,結果如表1所示。其中:Type-1為剝離所有SMFEM子模塊后僅保留堆疊沙漏結構得到的網絡;Type-2為在堆疊沙漏結構網絡上僅保留圖1中SMFEM-3模塊得到的網絡;Type-3為在堆疊沙漏網絡結構上保留相同SMFEM模塊,并在SMFEM中去除ECM模塊和局部極大似然譯碼模塊得到的網絡。可以看出:從Type-1到SMDUN,隨著并入場景模態層數與網絡子模塊的逐漸增加,網絡深度理解性能逐步提升;SMDUN全部指標值均為最優,其具有最佳深度估計性能,驗證了本文所提出SMFEM模塊、ECM子模塊以及MLDOM子模塊的有效性。

表1 網絡模塊剝離實驗的定量結果Table 1 Quantitative results of network module stripping experiment

3.4.2 理解性能的對比

1)NYUv2數據集實驗

表2為本文SMDUN和其他深度網絡在NYUv2數據集上的定量實驗結果。可以看出,SMDUN屬于性能最好的第一梯隊網絡,在最重要的Mlog10E和AbsRel這兩項指標中均達到最優值,驗證了其有效性(表2中“-”表示該值不存在)。

表2 不同網絡在NYUv2數據集上定量結果的對比Table 2 Comparison of quantitative results of different networks on NYUv2 dataset

圖6為不同網絡在NYUv2數據集上的深度預測定性實驗結果(彩色效果參見《計算機工程》官網HTML版)。可以看出:文獻[9]網絡能獲得粗略的三維空間結構但誤差較大,物體邊緣較模糊;文獻[29]網絡所得深度圖像總體誤差相對較低,但其深度信息過于平滑,場景中較小物體難以分辨且物體輪廓存在不合理的形變;文獻[13]網絡所得深度圖像整體上較模糊,丟失大量細節信息且存在明顯的網格效應;SMDUN與真實圖像更接近,所得深度圖像包含更多細節信息且場景中物體輪廓更清晰。

圖6 不同網絡在NYUv2數據集上定性結果的對比Fig.6 Comparison of qualitative results of different networks on NYUv2 dataset

2)KITTI數據集實驗

表3為本文SMDUN和其他網絡在KITTI數據集上的定量實驗結果。可以看出,SMDUN有5個定量指標取得最優值,RMSE值為次優,表明SMDUN可有效解決單目RGB圖像的深度理解問題。

表3 不同網絡在KITTI數據集上定量結果的對比Table 3 Comparison of quantitative results of different networks on KITTI dataset

圖7為不同網絡在KITTI數據集上的深度預測定性實驗結果(彩色效果參見《計算機工程》官網HTML版)。可以看出:文獻[20]網絡所得深度圖像中物體輪廓較清晰,但其與真實深度圖像標簽存在較大誤差;文獻[13]網絡的定性結果整體模糊并存在明顯的網格效應;SMDUN與真實深度圖像在定性結果上更接近,所得深度圖像包含更多細節信息且場景中物體輪廓更清晰。

圖7 不同網絡在KITTI數據集上定性結果的對比Fig.7 Comparison of qualitative results of different networks on KITTI dataset

4 結束語

本文提出一種用于單目圖像深度理解的場景模態深度理解網絡。以堆疊沙漏網絡為主框架,使用不同分辨率的場景模態離散標簽指導網絡每一層級特征的有效提取,在堆疊沙漏網絡中逐次利用場景模態獲取特征,采用綜合損失函數指導網絡從低層級到高層級理解深度信息,并設計誤差修正子模塊和極大似然譯碼優化子模塊修正網絡中間層級的錯誤特征以減少誤差累計,同時對離散深度標簽進行有序回歸編碼,增加網絡容錯能力并提升訓練的精確度和穩定性。實驗結果表明,相較NYUv2、GASDA和DORN等深度網絡,該網絡在NYUv2數據集上絕對相關誤差與對數平均誤差均最小,在KITTI數據集上均方相關誤差最小,其預測出的深度圖像包含較多細節信息且目標輪廓更清晰。后續考慮將極大似然譯碼優化模塊應用于其他深度學習任務,以協助解決語義分割與人體關節點檢測等問題。

猜你喜歡
模態深度特征
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 日本www色视频| 久久人妻xunleige无码| 日韩av资源在线| 伊人色婷婷| 2021国产精品自产拍在线观看| 超碰免费91| 国内精自线i品一区202| 欧美人在线一区二区三区| 免费va国产在线观看| 欧美一区二区啪啪| 欧美国产三级| 国产成人AV大片大片在线播放 | 亚洲欧美不卡| 国产成人精品一区二区不卡| 91视频99| 欧美伊人色综合久久天天| 中文字幕2区| av在线无码浏览| 老司机午夜精品视频你懂的| 久久人与动人物A级毛片| 日韩毛片视频| 国产香蕉国产精品偷在线观看| 国产精品美乳| 国产精选小视频在线观看| 玖玖免费视频在线观看| 国产美女一级毛片| 亚洲成av人无码综合在线观看| 青青久久91| 久久www视频| 久热这里只有精品6| 欧美性猛交xxxx乱大交极品| 91精品综合| 999国产精品永久免费视频精品久久| 国产精品刺激对白在线| 五月天综合网亚洲综合天堂网| 欧美天天干| 亚洲三级成人| 欧美特级AAAAAA视频免费观看| 熟妇丰满人妻| 香蕉久久国产精品免| 欧美成人午夜视频| 国产人人射| 亚洲第一精品福利| 91精品在线视频观看| 丰满少妇αⅴ无码区| 网久久综合| 欧美成a人片在线观看| 日韩美毛片| 欧美日本一区二区三区免费| 国内老司机精品视频在线播出| 伊在人亚洲香蕉精品播放 | 中文字幕乱妇无码AV在线| 国内精品自在欧美一区| 一本视频精品中文字幕| 无码电影在线观看| 欧美激情视频一区| 国产成人亚洲日韩欧美电影| 黄色网址免费在线| 91精品啪在线观看国产| 精品无码视频在线观看| 亚洲av无码牛牛影视在线二区| 欧美成在线视频| 青青国产成人免费精品视频| 欧美在线观看不卡| 日韩123欧美字幕| 成人国产小视频| 毛片久久久| 五月综合色婷婷| 激情无码视频在线看| 午夜不卡福利| 青草娱乐极品免费视频| 日韩国产精品无码一区二区三区| 欧美 亚洲 日韩 国产| 国产欧美日韩免费| 亚洲精品va| 天天躁日日躁狠狠躁中文字幕| 国产哺乳奶水91在线播放| 国产无码精品在线| 久青草网站| 日本高清免费一本在线观看| 亚洲国产日韩在线观看| 欧美激情视频在线观看一区|