999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義導向多尺度多視圖深度估計算法

2022-01-25 18:55:08贠璟揚李學華
計算機工程與應用 2022年2期
關鍵詞:語義深度信息

贠璟揚,李學華,向 維

1.北京信息科技大學 信息與通信工程學院,北京 100101

2.詹姆斯庫克大學 科學與工程學院,昆士蘭 凱恩斯 4878

作為計算機視覺中的重要任務之一,圖像物體深度信息的獲取具有重要意義,并可被應用在自動駕駛、導航和三維重建等領域。相比利用深度傳感器和激光,從圖片中依據(jù)光度一致性原則進行匹配并獲取深度信息的方法,因其高時效和對硬件消耗的低需求從而獲得了人們的青睞。其中,光度一致性約束是人們常常應用在圖片深度估計中的重要幾何約束之一。在傳統(tǒng)的立體匹配中,半全局匹配法(semi-global method,SGM)[1]和局部匹配法[2]通過滑動窗口和光度一致性約束,找到最佳匹配視差從而得到物體的深度信息。更進一步,研究人員將雙目立體匹配遷移到多視圖深度估計中,比如:通過平面掃描法(plane-sweep algorithm)[3-4]和PatchMatch[5]對任意視角照片進行深度信息的獲取,不僅可以解決相機位置不固定情況下的視角匹配問題并且能夠被有效地用于目標物體的三維重建。

然而,傳統(tǒng)的深度估計方法無法解決遮擋區(qū)域的匹配問題,對物體邊界或紋理較弱的地方不敏感,同時易受光照強度等外界因素的影響,無法獲得高質(zhì)量的深度圖片。與此同時,深度學習在很多計算機領域取得了重大成就并遠超傳統(tǒng)算法,比如:圖片分類[6]、語義分割[7]和目標檢測[8]等。通過不斷地迭代學習和優(yōu)化,神經(jīng)網(wǎng)絡能夠利用提取特征中的抽象語義信息來解決傳統(tǒng)方法無法處理的問題。因此,研究人員開始利用卷積神經(jīng)網(wǎng)絡對圖片中的物體進行深度信息的預測。對于多視圖深度估計,利用人工設計的權重共享的特征提取層,對輸入的參考圖片(reference image)和目標圖片序列(target images)進行語義信息挖掘并構建基于光度一致性原則的匹配網(wǎng)絡,采用監(jiān)督學習的方式對其進行深度值的回歸預測。早期的研究者[9-10]基于2D卷積神經(jīng)網(wǎng)絡,利用提取的圖片特征圖進行逐像素匹配,取得了比傳統(tǒng)方法更高的預測精度。然而,由于其網(wǎng)絡未采用端到端的結構,因此網(wǎng)絡的性能受到了極大的限制。同時,人們發(fā)現(xiàn)利用平面掃描法[3]來構建深度匹配空間CostVolume更高效,比如MVSNet[11]和DPSNet[12],通過端到端的3D卷積網(wǎng)絡進行訓練。相比于前兩者,能達到更高的預測精度。但另一方面,由于構建的Cost-Volume(與傳統(tǒng)的Disparity Space Image[13]相似)是一個五維的空間匹配張量(B×CH×W×H×D,其中B代表batch size,CH代表特征通道數(shù),W代表寬度,H代表高度,D代表深度平面數(shù)),因此需要采用3D卷積進行運算,同時也需要更多的硬件資源和更久訓練時間,一定程度上限定了網(wǎng)絡模型的泛華。因此,如何設計一個高精度的輕量型網(wǎng)絡對于基于深度學習的多視圖深度估計具有重要研究意義。

在本文中,提出了一個新穎的端到端網(wǎng)絡模型用于多視圖深度估計,語義導向多尺度多視圖深度估計模型(smantic-guidance multic-scale neural network for multiview stereo,SMSNet)。對比現(xiàn)今state-of-art方法,本文模型可以達到更高的精度,同時減少了基于3D卷積的硬件消耗。為了有效提升網(wǎng)絡特征提取層對于物體邊界和紋理較弱區(qū)域的有效響應,利用了層級SPP(spatial pyramid pooling)[14]模塊對多尺度圖片特征信息進行聚合。同時,設計了語義導向模塊對構建的多尺度CostVolume進行語義優(yōu)化約束,引入更多的全局信息來增強網(wǎng)絡的魯棒性能。另外,設計了一個多尺度CostVolume的自適應融合模塊來充分利用CostVolume訓練過程中的多尺度上下文信息。

綜上,本文的主要貢獻點有:

(1)一個新穎的基于3D卷積的輕量型端到端多視圖深度估計網(wǎng)絡。

(2)一個基于語義信息的多尺度CostVolume正則化結構。利用提取特征中的語義信息作為鄰域約束,本文的語義導向結構能夠有效地處理遮擋、物體邊緣和紋理較弱等區(qū)域。

(3)自適應的多尺度融合策略,可以更有效地利用多尺度上下文信息,改善CostVolume中的深度概率信息分布,達到更好的預測精度。

1 相關工作

現(xiàn)今,隨著深度學習的興起,各種各樣的網(wǎng)絡模型被用于單目(monocular)、雙目(binocular或stereo)和多視圖(multi-view stereo)深度估計中。本章首先將簡要介紹基于深度學習的單目深度估計,著重說明端到端的雙目及多視圖深度估計網(wǎng)絡架構組成和多尺度信息Cross-Scale融合網(wǎng)絡結構。

1.1 基于深度學習的端到端深度估計網(wǎng)絡架構

1.1.1 單目深度估計

由于無法通過光度一致性原則進行匹配,傳統(tǒng)方法無法對單張圖片物體進行深度估計。借助深度學習網(wǎng)絡,Eigen等[15]首先提出了基于深度學習的單視圖深度估計,解決了傳統(tǒng)方法和理論無法解決的單視圖深度估計問題。但該網(wǎng)絡模型采用的是AlexNet架構,網(wǎng)絡深度較淺,提取的圖像特語義征信息不足,且其并非完整的端到端網(wǎng)絡,同時輸出結果分辨率有一定程度的損失,因此網(wǎng)絡效果較差。隨后,Laina等[16]開始采用更深的VGGNet作為輸入圖片的特征提取層,并針對提取特征進行特定的信息處理以獲取準確的深度信息,最后通過逆卷積或上采樣恢復到原始圖片分辨率大小。隨著卷積網(wǎng)絡的發(fā)展,人們逐漸采用全卷積網(wǎng)絡構建單視圖深度估計網(wǎng)絡模型。比如,夏夢琪等[17]采用全卷積編解碼網(wǎng)絡輸入稀疏深度樣本和RGB圖像并計算預測深度圖,可以有效地估計出原始圖片尺寸大小的深度圖,無需后續(xù)額外尺度恢復處理。劉香凝等[18]則在全卷機編解碼網(wǎng)絡的基礎上引入自注意力機制(self-attention),通過網(wǎng)絡自適應權重學習提升預測精度。雖然通過卷積神經(jīng)網(wǎng)絡可以解決單視圖深度估計問題,但是仍有一些問題存在于該任務中。

Dijk等[19]提出了一些關于單目深度估計中存在的問題。由于缺乏幾何約束(比如光度一致性約束等),單目深度估計的網(wǎng)絡容易受到一些外界條件的影響。比如物體所在圖片的位置可以影響網(wǎng)絡的預測結果,視角相機的旋轉(zhuǎn)角度也會對網(wǎng)絡的預測結果產(chǎn)生一定的影響。同時,上述問題在有限的訓練數(shù)據(jù)量的前提下無法得到有效的解決,即使通過一定的數(shù)據(jù)增強方法也無法有效改善,使得單目深度估計網(wǎng)絡模型的泛華能力較為有限。因此,單目深度估計網(wǎng)絡更像是一種實驗性質(zhì)的網(wǎng)絡,還需要更多的理論基礎增加可行性,或是引入稀疏深度信息(激光、雷達等)作為先驗信息。

1.1.2 雙目及多視圖深度估計

雙目立體匹配與多視圖深度估計相似,利用基線幾何信息約束進行光度一致性匹配,通過構建CostVolume從而尋求最佳匹配像素點來求解深度信息。與雙目立體匹配在水平基線尋求最佳匹配像素不同,多視圖深度估計采用了基于單應性矩陣的平面掃描法[3]來構建CostVolume,因此可以利用目標圖像序列求解參考圖片的深度信息,增強了網(wǎng)絡模型的穩(wěn)定性并提高了預測精度,同時也解決了不同視角相機參數(shù)不同的問題。

隨著端到端的網(wǎng)絡架構興起,雙目及多視圖深度估計網(wǎng)絡架構主要由以下幾部分組成:輸入圖片特征提取、匹配CostVolume構建、CostVolume正則化(優(yōu)化)、逐像素深度值計算和后優(yōu)化網(wǎng)絡。其中CostVolume的構建和優(yōu)化則是雙目及多視圖深度估計的重中之重。相比于傳統(tǒng)的雙目立體匹配流程[20],基于深度學習的算法在原有基礎上做了一定的自適應拓展,如:逐層次多尺度的特征提取(一般對于輸入圖片序列采用權重共享策略)增加物體抽象語義信息感知,網(wǎng)絡的迭代優(yōu)化(利用Adam等梯度下降算法)等,使得算法模型能夠獲得更高的預測精度,并有效改善遮擋、紋理較弱等傳統(tǒng)方法無法得到較高預測精度的區(qū)域。其中,特征提取部分多采用訓練好的ResNet網(wǎng)絡或其他相似網(wǎng)絡結構,利用深層次卷積充分提取圖片特征信息,同時可結合不同層級特征進行融合。對于輸入的參考圖片(reference image)和目標圖片(target image)或序列,一般設定特征層權重共享以便模型泛化;在經(jīng)過前端特征提取后,通常用參考圖片特征和目標圖片(或序列)特征構建深度匹配空間CostVolume,其原理與傳統(tǒng)方法中的視差空間圖像(disparity space image)[20]類似。在基于深度學習的網(wǎng)絡模型中,研究人員設計了不同的方法進行CostVolume的構建,使得網(wǎng)絡模型能夠進行端到端的訓練。早期Zbontar等[21]計算逐圖像塊之間的像素塊相似度從而計算最佳視差,但是需要先對圖像之間的像素塊進行匹配,增加了網(wǎng)絡復雜性,降低了網(wǎng)絡性能。Mayer等[22]參考光流預測網(wǎng)絡FlowNet[23],設計了基于相關性計算的CostVolume構建方法,將提取的圖片特征在不同視差空間上相乘計算相似度,并聚合不同視差上的相似性張量矩陣構建CostVolume,通過網(wǎng)絡自身直接逐像素回歸深度值。與前者不同,GC-Net[24]采用了隱式的構建方法,在視差范圍上通過拼接參考圖片和目標圖片的特征來構建CostVolume,因此最終的CostVolume由于多了視差維度需要采用3D卷積計算。同時,GC-Net[24]設計了Soft-Argmin方法計算逐像素深度值,使得網(wǎng)絡能夠從離散的視差范圍回歸出連續(xù)的深度值。相比采用2D卷積的方法優(yōu)化CostVolume,3D卷積增加了網(wǎng)絡復雜度和計算量,但有效地提升了網(wǎng)絡預測精度。PSMNet[25]則在此基礎上通過多尺度的卷積網(wǎng)絡優(yōu)化達到了2018年的最佳預測結果。另一方面,由于構建CostVolume時存在大量的稀疏編碼,因此初始的CostVolume存在著大量的噪聲,Poggi等[26]引入了稀疏的雷達圖作為先驗深度信息來提升網(wǎng)絡精度。Zhang等[27]通過遷移傳統(tǒng)的半全局匹配SGM[2]思想,利用鄰域的信息約束降低噪聲,但是相應的硬件需求則比PSMNet[25]提高了一倍。

與雙目立體匹配類似,多視圖立體匹配也采用類似的CostVolume構建方式,如MVSNet[11]采用顯示的相關計算量而DPSNet[12]則采用了GC-Net[24]的方式。但同樣,基于3DCNN的方法對于硬件需求大,比如:DPSNet需要至少4塊1 080ti顯卡才能運行計算。因此,如何保證現(xiàn)有精度的前提下降低硬件運算需求是現(xiàn)有研究的一個重點問題。

1.2 多尺度Cross-Scale結構

由參考圖片和目標圖片(序列)構建的CostVolume自身存在著大量的噪聲,因此需要通過算法進行優(yōu)化。參考傳統(tǒng)方法和其他計算機視覺任務,多尺度Cross-Scale能夠有效地利用多尺度上下文信息,提升網(wǎng)絡預測結果的魯棒性。比如,MVSNet[11]采用了3DU-Net結構對CostVolume進行正則化優(yōu)化。圖1給出了基礎的U-Net架構示意圖。

圖1 U-Net結構圖Fig.1 U-Net structure chart

PSMNet[25]則設計了更復雜的多尺度信息優(yōu)化模塊stacked Hourglass,通過不同尺度CostVolume的信息融合,減少噪聲的影響。與前兩者類似,本文同樣采用了多尺度的網(wǎng)絡結構,并引入語義導向模塊和多尺度自適應融合模塊增強網(wǎng)絡性能。

2 網(wǎng)絡架構

本文提出的語義導向多視圖深度估計模型基于傳統(tǒng)的多視圖匹配和深度學習方法。本文網(wǎng)絡由5部分組成:特征提取、CostVolume構建、CostVolume正則化、深度值計算和深度圖后優(yōu)化。本章首先簡要介紹模型的前兩個組成部分,本文的重點貢獻放在第3章著重說明。本文的網(wǎng)絡架構如圖2所示。

圖2 網(wǎng)絡架構圖Fig.2 Architecture of SMSNet

2.1 特征提取和CostVolume構建

對于輸入的參考圖片I0和目標圖片序列,本文采用了權重共享的7層固定CNN來提取特征。為了更好地捕捉圖片細節(jié)信息,采用了SPP(spatial pyramid pooling)[14]模塊對提取的特征進行多尺度池化感知。SPP最早被用于解決目標檢測中多尺度圖片輸入問題,隨后被PSMNet[25]用于提取特征的多尺度全局信息感知。在本文中,采用了4個固定大小的池化層(32×32,16×16,8×8,4×4),不同尺寸的池化層可以應對不同大小的物體及細節(jié)區(qū)域。然而,池化操作會減小特征尺寸,因此在每一個池化層后面添加了上采樣,將其恢復到原始特征尺寸。最后,通過將不同池化層下的特征拼接并通過CNN聚合,得到最終的圖片特征。表1列出了特征提取層的網(wǎng)絡結構。

表1 特征層結構Table 1 Parameter of feature extraction

在獲取了參考圖片特征F0和目標序列圖片特征后,采用傳統(tǒng)的平面掃描法[25]構建CostVolume。采用平面掃描法可以通過單應性矩陣將不同相機參數(shù)的目標圖片特征投影到參考圖片的深度范圍上,幫助通過光度一致性原則進行逐像素深度計算。在實驗中,將參考圖片的深度范圍人為劃分成一系列深度平面,其Z軸方向單位向量為:

沿Z軸方向,可以計算出深度采樣平面的具體數(shù)值:

其中,N為劃分的平面數(shù),Dmin為相機離物體的最近距離。實驗中設置深度平面數(shù)N為64,最近距離0.5 m。同時,實驗采用的DeMoN[9]數(shù)據(jù)集提供了圖片對應相機的內(nèi)參矩陣Ki,外參矩陣旋轉(zhuǎn)參數(shù)Ri和平移參數(shù)ti(對于第i個圖片)。

對于第dn個深度平面,可以將目標圖片特征進行如下轉(zhuǎn)換:

為了加快模型訓練,在訓練時采用單目標圖片輸入進行CostVolume構建。在測試時,可以采用任意數(shù)目的目標圖片序列。

2.2 CostVolume正則化

初始構建的CostVolume存在著大量噪聲,無法直接逐像素深度值求解,因此,需要采用一系列卷積神經(jīng)網(wǎng)絡對其進行正則化處理。正則化網(wǎng)絡結構如圖3所示。

圖3 正則化網(wǎng)絡結構圖Fig.3 Semantic-based Cost volume regularization encod-er-decoder

2.2.1 基于語義信息的多尺度正則化網(wǎng)絡結構

在其他計算機視覺領域,比如:目標檢測[28-29]、語義分割[7]中,多尺度網(wǎng)絡架通過多尺度上下文信息的融合,具有更高的準確性、穩(wěn)定性和普適性。因此,首先采用了一個多尺度網(wǎng)絡作為CostVolume正則化優(yōu)化的基礎網(wǎng)絡架構,如圖3上圖所示。

雖然多尺度網(wǎng)絡結構可以利用多分辨率信息并結合卷積鄰域信息增強網(wǎng)絡魯棒性,同時通過前后層的殘差連接[30]增強網(wǎng)絡間的相互關聯(lián),但是仍有一些問題需要解決:

(1)理論上多層級的神經(jīng)網(wǎng)絡能夠擁有足夠大的感受域,但實際上網(wǎng)絡對于全局信息的感知有限,因此無法有效聚合鄰域和全局信息,且各層級網(wǎng)絡之間的噪聲會因此疊加。因此,設計了語義導向模塊,將參考圖片特征作為先驗信息,通過一系列特定卷積進行全局信息感知并過濾CostVolume,減少噪聲影響。

(2)傳統(tǒng)的多尺度融合多為直接相加(如:FPN[29]網(wǎng)絡)或是類似U-Net中的拼接,但是CostVolume中包含了額外的各個深度平面的概率信息,因此本文認為,直接相加的方法會破壞原本各個尺度CostVolume中的深度信息。所以設計了一個自適應融合模塊用于多尺度CostVolume融合,能夠更有效地聚合多尺度深度信息。

2.2.2 語義導向模塊

為了提升網(wǎng)絡的全局信息感知和鄰域信息的利用,減少CostVolume中的噪聲影響,引入了語義導向模塊。如圖3中左下所示,語義導向模塊由自適應增強單元和空間語義導向濾波兩部分組成。對于通過參考圖片和目標圖片構建的初始CostVolume,采用了2層3×3×3卷積對其進行隱式匹配信息聚合,同時減少特征通道數(shù)來減輕模型計算量。隨后通過一系列多尺度編碼器生成不同分辨率大小的CostVolume,具體由步長為2的多層CNN網(wǎng)絡組成。

參考SE-Net[31]在特征通道選擇的應用,自適應增強單元被設計用于自適應優(yōu)化CostVolume自身的深度概率信息P(d|C)。在多尺度網(wǎng)絡結構中,由于采用多層CNN生成多尺度CostVolume,也可以看做層級多尺度編碼過程。實驗中,將自適應增強單元作用在層級編碼器的輸出上。一方面經(jīng)過層級編碼的深層網(wǎng)絡包含更豐富的抽象語義信息;另一方面作用在低分辨率CostVolume不會過多增加模型的參數(shù)計算量。首先,通過CNN聚合CostVolume特征通道信息并求得歸一化深度概率權重:

其中,g為Sigmoid激活函數(shù),這里作為門控單元可以對CostVolume逐深度平面求得歸一化概率值。隨后將求得的歸一化概率值作用到CostVolume上:

通過殘差連接,將增強后的CostVolume與原始編碼器輸出相結合,一并作為空間語義導向濾波模塊的輸入。受到傳統(tǒng)視覺中的導向濾波[32]啟發(fā),設計了空間語義導向濾波模塊,在對CostVolume的逐個深度平面進行濾波優(yōu)化的同時聚合鄰域和全局語義特征信息。對于自適應增強后的CostVolume中的每個深度平面特征,將參考圖片特征與其拼接,并采用了一組權重共享的空洞卷積作為自適應濾波核對其進行濾波。一方面前端特征提取網(wǎng)絡提取的參考圖片特征中包含了充足的物體抽象信息,如:物體的邊緣等,可以有效地針對遮擋、弱紋理等區(qū)域去噪;另一方面,權重共享的多尺度空洞卷積核保證了模型能夠充分利用參考圖片中逐像素的鄰域信息并作用在不同深度平面特征上,同時不同尺寸大小的空洞卷積核增加了網(wǎng)絡的全局信息感知。

訓練過程中,由于參考圖片特征尺寸與自適應增強單元輸出的CostVolume尺寸不同,所以采用自適應池化縮小參考圖片特征,保證其與輸入CostVolume分辨率大小相同,方便后續(xù)語義導向模塊計算。空洞卷積參數(shù)如表2所示。

表2 空洞卷積組結構Table 2 Parameters of dilation convolution

2.2.3 自適應多尺度融合

在多尺度網(wǎng)絡結構中,認為高分辨率CostVolume包含了更多的局部細節(jié)信息,而深層的低分辨率CostVolume由于經(jīng)過步長為2的卷積下采樣,聚合了更多的鄰域信息,因此也包含了更多的較大物體的抽象語義信息,這與卷積網(wǎng)絡自身提取特征時的特性是保持一致的(淺層的特征層包含了細節(jié)信息,如邊緣等,而深層特征包含了抽象語義信息)。先前的研究者對于多尺度CostVolume通常采用直接相加或是拼接的方式進行融合,但認為這樣會破壞各個尺度CostVolume的深度概率分布。為了更好地利用多尺度層級信息,設計了自適應融合模塊,通過利用各個層級CostVolume自身攜帶的先驗深度概率信息P(d|C),進行多尺度歸一化權重計算及融合。

針對不同分辨率大小的CostVolume,首先通過三線性采樣提升小尺度CostVolume。隨后通過對特征維度的平均計算求出不同尺度CostVolume對應的DepthVolume用于計算各自的深度概率分布。對于高分辨率CostVolume定義其深度概率信息為P(d|CH),低分辨率CostVolume的為P(d|CL)。隨后將二者拼接,并通過CNN網(wǎng)絡進行融合,最終通過Sigmoid門控單元輸出歸一化融合權重λ。具體操作如下:

其中,Wi和Wj對應著不同尺度CostVolume的深度信息融合權重。根據(jù)計算出的歸一化權重,可以融合不同尺度的CostVolume。

2.3 深度值回歸計算

傳統(tǒng)的深度計算方法采用在逐深度平面中選取最佳深度值,即:

但是直接選取最佳深度值的方法無法求導,因此無法通過梯度下降法在CNN中使用。這里采用了GC-Net[24]提出的soft-Argmin方法,不僅可以使得網(wǎng)絡有效地進行反向傳播并且能夠計算出各個離散深度平面之間的連續(xù)子值。對網(wǎng)絡輸出的CostVolume,利用3×3×3卷積聚合特征信息成DepthVolume,并利用softmax計算各個深度片面之間的歸一化概率,隨后通過soft-Argmin計算逐像素最佳深度平面的索引標簽:

d′為預測的深度平面對應的索引標簽。在soft-Argmin中,假定了網(wǎng)絡能夠在正確的深度平面上進行響應,因此其余深度平面的概率理論上為0,因此可以通過加權的方法求得最佳深度平面的索引值。之后通過索引值和求得各個深度平面值的公式求出對應的深度值:

2.4 后優(yōu)化

盡管卷積神經(jīng)網(wǎng)絡能夠有效地預測圖片深度信息,但是初始的預測深度圖可能存在著過度平滑,導致物體的邊緣存在模糊等情況。因此,采用了Khamis等[33]的方法,將初始深度圖與原始RGB圖像拼接后的張量作為輸入,通過一組由CNN和批歸一化組成的卷積網(wǎng)絡進行后優(yōu)化處理并輸出最終的預測深度圖。

在訓練時,將初始深度圖和后優(yōu)化深度圖分別與標簽數(shù)據(jù)進行比對和訓練。假設θ為網(wǎng)絡的訓練參數(shù),dθ和dθ′分別代表了初始深度圖和后優(yōu)化深度圖,因此訓練loss可以表示為:

其中,L為PyTorch中的SmoothL1損失函數(shù)。

3 實驗過程及結果分析

本章對本文提出的深度估計網(wǎng)絡模型在公開數(shù)據(jù)集DeMoN[9]數(shù)據(jù)集和ETH3D[34]數(shù)據(jù)集上的進行測試,并對現(xiàn)有方法結果進行比較分析。

3.1 實驗數(shù)據(jù)集

本次實驗選用的DeMoN[9]數(shù)據(jù)集,由四個子數(shù)據(jù)集組成,分別是:MVS、SUN3D、Scenes11、RGBD。除Scenes11為合成數(shù)據(jù)集,其余子數(shù)據(jù)集均為現(xiàn)實世界采集而來。每個子數(shù)據(jù)集的圖片分辨率均為640×480。

由于DeMoN[9]數(shù)據(jù)集在測試時僅有成對的測試圖片序列,因此采用了ETH3D[32]數(shù)據(jù)集作為模型額外的評估標準和多輸入圖片測試。

3.2 實驗步驟

訓練時,將DeMoN[9]數(shù)據(jù)集分為測試和訓練數(shù)據(jù)集,為了加快計算,將原始640×480的圖片尺寸統(tǒng)一隨機下采樣到320×240,測試時則保持原始分辨率。同時,設定物體距離相機的最近距離為0.5 m,深度平面數(shù)為64。

訓練時使用的DeMoN[9]總共有15 038對訓練圖片。本模型采用Adam算法(β1=0.1,β2=0.999)[35],可以有效地更新網(wǎng)絡權重。10個訓練周期,每個周期的批處理數(shù)量為12。初始8個epoch學習率設置為2E-4,后2個epoch將學習率減小為2E-5對模型進行微調(diào)。訓練服務器為TeslaV100 x 2,采用PyTorch進行模型搭建,訓練周期為4~5天。

3.3 實驗結果與分析

本節(jié)重點對比了本文的多視圖深度估計算法與其他現(xiàn)行算法的預測結果。同時,對于本文提出的算法模型,進行了消融實驗加以說明算法可行性。

3.3.1 算法評價標準及結果對比

算法效果評價指標采用了公開的評價標準:平均絕對誤差(mean absolute error,MAE),平方絕對誤差(square relative error,SqRel)和log均方根誤差(logroot mean square error,LRMSE)。假設ypred和ygt分別表示預測結果和標簽GroundTruth,則上述評價指標可以表示如下:

表3~5給出了在公開DeMoN[9]數(shù)據(jù)集上的對比結果,其中COLMAP[36]為傳統(tǒng)計算機視覺方法,DeMoN[9]、DeepMVS[10]和DPSNet[12]為當前基于深度學習的深度估計算法。其中DPSNet由于采用了3DCNN對CostVolume進行優(yōu)化,其效果為之前最優(yōu)算法。

表3 MAE指標結果對比Table 3 Comparision of MAE

同時,可視化了本文提出的算法在DeMoN[9]數(shù)據(jù)集上的預測結果,如圖4,為了更好地說明算法效果,同樣可視化了DPSNet[12]的預測結果并進行了對比。可以看出,本文算法在圖像細節(jié)部分,如:物體邊緣(RGBD測試數(shù)據(jù)中的玩具熊底座部位)、遮擋(MVS數(shù)據(jù)集植物部分)或是紋理嬌弱(SUN3D中的地面等光滑物體表面)等區(qū)域擁有更好的預測結果。

圖4 DeMoN數(shù)據(jù)集對比可視化圖Fig.4 Visualization of comparision on DeMoN datasets

為了更好地說明本文提出的算法在多視圖深度估計中的應用,進行了額外數(shù)據(jù)集ETH3D[34]的測試比較。在測試時,設定多視圖圖片數(shù)為4張,每張810×540分辨率,算法對比結果如表6所示。

表4 LRMSE指標結果對比Table 4 Comparision of LRMSE

表6 ETH3D數(shù)據(jù)集指標結果對比Table 6 Comparision of index results of ETH3D

3.3.2 深度平面劃分及硬件GPU消耗

在端到端的基于深度學習的網(wǎng)絡模型中,CostVolume的分辨率大小和深度平面數(shù)是網(wǎng)絡模型硬件消耗關鍵影響因素。由于采用了3D卷積來提升網(wǎng)絡精度,在實驗時,限定初始CostVolume的精度為1/4原始圖片尺寸大小,以降低模型復雜度和計算時間。另一方面,深度平面數(shù)的增加也會增加模型復雜度,但更多的深度平面數(shù)量并不一定能提升網(wǎng)絡預測精度。為此,本文提出的語義導向模塊和自適應融合模塊能夠有效地提升網(wǎng)絡性能,在深度平面數(shù)更少的情況下?lián)碛懈叩念A測精度,減少了模型硬件需求。表7對比了當前最好算法DPSNet[12]在相同深度平面劃分情況下的預測精度。表8說明了本文提出的基于3D卷積的多視圖深度估計算法是一種更加輕量型的網(wǎng)絡模型。

表5 Sq Rel指標結果對比Table 5 Comparision of Sq Rel

表8 模型顯存對比Table 8 Comparision on GPU consumption

表7、8說明了相同深度平面數(shù)情況下,本文提出的算法能夠達到更高的精度,占用更少的GPU資源,擁有更快的計算速度。

表7 深度平面數(shù)結果對比Table 7 Comparision with different depth planes

3.3.3 語義導向及自適應融合模塊分析

本小節(jié)中,對提出的模塊進行了一些消融實驗來驗證提出模型的可行性,包括了基礎的多尺度網(wǎng)絡、語義導向模塊、自適應融合模塊。網(wǎng)絡各模塊消融實驗對比如表9所示。

表9 模型消融實驗對比Table 9 Comparision with ablation study

通過上述表格對比,可以看出本文提出的模塊算法對于原始的多尺度網(wǎng)絡有了顯著提升。同時,如圖5所示,針對語義導向模塊,進行了語義特征可視化來說明網(wǎng)絡對于圖片全局及鄰域信息的感知。由左至右分別為基礎網(wǎng)絡、參考圖片特征信心、添加語義導向模塊后的網(wǎng)絡模型、完整的網(wǎng)絡模型。通過基礎網(wǎng)絡和語義導向模塊的對比,可以看出,在光滑物體的表面(如RGBD數(shù)據(jù)集中的桌面),物體變邊緣等細節(jié)(如SUN3D中的椅子),本文提出的網(wǎng)絡模型能夠做出更好的預測結果。

圖5 語義導向模塊比可視化結果圖Fig.5 Visualization of semantic-based model

對于自適應融合模塊,本文假設的前提為:通過利用不同尺度CostVolume之間的深度概率信息,計算自適應融合權重。因此,對模型計算了最終CostVolume的部分像素點的深度平面歸一化概率值,如圖6所示。其中紅線addition代表了常用的多尺度相加,綠色虛線代表了標簽真實值,藍色fusion為本文提出的自適應多尺度融合算法。可以看出,常用的多尺度相加方法的預測結果與真實值相差較大,而本文提出的方法能夠有效地解決不同尺度之間的融合問題,提升預測精度。

圖6 自適應融合模塊Fig.6 Viusalization of adaptive fusion model

3.3.4 多視圖輸入分析

理論上多視圖的輸入能夠帶來更多的匹配信息,并且能夠解決部分圖片中物體遮擋等問題,一定程度上提升網(wǎng)絡的預測精度。在ETH3D[32]數(shù)據(jù)集上做了測試,如圖7所示,其中上半部分為隨著輸入目標圖片數(shù)量(從2張到5張)的增加,網(wǎng)絡對于參考圖片的預測誤差,下半部分對應不同輸入圖片數(shù)時的測試結果可視化。在圖7上的誤差圖中,當輸入的目標圖片數(shù)增加時,分別計算模型對于參考圖片的預測結果和與真實值比對的誤差信息,其中紅色的為第一張測試結果,藍色的為第二張測試圖結果。可以看出,隨著輸入圖片的增加,網(wǎng)絡預測結果有提升。

圖7 多視圖輸入結果對比Fig.7 Visualization of multiple-view input

4 總結

本文提出了一個輕量型的基于3D卷積的多視圖深度估計網(wǎng)絡,通過提出的語義導向模塊和多尺度自適應融合方法擴展了基礎的多尺度CostVolume優(yōu)化網(wǎng)絡,在提升高精度預測結果的前提下降低了網(wǎng)絡對于GPU硬件的消耗,提升了計算速度。在公開的數(shù)據(jù)集上能夠達到最優(yōu)結果。

猜你喜歡
語義深度信息
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲—日韩aV在线| 亚洲中文久久精品无玛| 国产第一页第二页| 久久精品国产91久久综合麻豆自制| 国产精品对白刺激| 亚洲天堂.com| 成人精品免费视频| 香蕉99国内自产自拍视频| 9久久伊人精品综合| 国产一区二区免费播放| 亚洲天堂免费观看| 内射人妻无码色AV天堂| 中文字幕在线播放不卡| 国产导航在线| jizz亚洲高清在线观看| 97在线观看视频免费| 国产午夜人做人免费视频| 日本一区高清| 免费一级无码在线网站| 成人国产免费| 国产成人久久777777| 国产在线无码一区二区三区| 午夜无码一区二区三区| 1024你懂的国产精品| 亚洲电影天堂在线国语对白| 国产成人乱无码视频| 久久 午夜福利 张柏芝| 欧美激情视频一区| 亚洲综合九九| 欧美精品高清| 毛片视频网| 久久精品最新免费国产成人| 91口爆吞精国产对白第三集| 最新国语自产精品视频在| 国产精品免费入口视频| 久久婷婷国产综合尤物精品| 国产91在线|中文| 99在线视频免费观看| 国产一级毛片高清完整视频版| 久久动漫精品| 欧美午夜视频在线| 亚洲va欧美va国产综合下载| 国产一区成人| 午夜啪啪网| 亚洲Va中文字幕久久一区| 欧美在线天堂| 国产精品性| 亚洲不卡无码av中文字幕| 欧美日韩综合网| 精品国产美女福到在线不卡f| 久爱午夜精品免费视频| 青青青国产精品国产精品美女| 欧美伊人色综合久久天天| 日韩午夜伦| 亚洲第一黄片大全| 国产精品理论片| 亚洲高清中文字幕| 久久黄色视频影| 免费人欧美成又黄又爽的视频| 在线色国产| 国产精品极品美女自在线看免费一区二区| jizz在线观看| 国产三级精品三级在线观看| 国内精自视频品线一二区| 国产精品人成在线播放| 国产成人AV男人的天堂| 亚洲熟女中文字幕男人总站| 国产精品v欧美| 欧美a级在线| 老司机午夜精品网站在线观看 | 国产成人精品无码一区二| 久久久久国色AV免费观看性色| 国产成人狂喷潮在线观看2345| 中文国产成人精品久久| 手机成人午夜在线视频| 国产99免费视频| 欧美在线视频不卡第一页| 国产浮力第一页永久地址| 成人午夜亚洲影视在线观看| 麻豆精品在线播放| 亚洲综合18p| 亚洲日韩精品无码专区97|