999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ST-Rec3D:基于結(jié)構(gòu)和目標(biāo)感知的三維重建

2022-07-03 04:25:58孟慶亮范有福楊瞻源
圖學(xué)學(xué)報(bào) 2022年3期
關(guān)鍵詞:結(jié)構(gòu)模型

白 靜,孟慶亮,徐 昊,范有福,楊瞻源

ST-Rec3D:基于結(jié)構(gòu)和目標(biāo)感知的三維重建

白 靜1,2,孟慶亮1,徐 昊1,范有福1,楊瞻源1

(1. 北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021;2. 國家民委圖像圖形智能處理實(shí)驗(yàn)室,寧夏 銀川 750021)

基于視圖的三維重建旨在從二維圖像恢復(fù)出其對(duì)應(yīng)的三維形狀?,F(xiàn)有方法主要通過編碼器-解碼器結(jié)構(gòu),結(jié)合二元交叉熵函數(shù)及其變形,完成三維重建,取得較好的重建結(jié)果。然而,編碼器在編碼過程中缺乏對(duì)輸入視圖的結(jié)構(gòu)感知能力,造成重建的三維模型幾何細(xì)節(jié)不準(zhǔn)確;以二元交叉熵函數(shù)為主的損失函數(shù)在體素分布不均衡的情況下,目標(biāo)感知能力較差,導(dǎo)致其重建結(jié)果存在斷裂、缺失等不完整性問題。針對(duì)此類問題,提出了一種具有結(jié)構(gòu)和目標(biāo)感知能力的三維重建網(wǎng)絡(luò)(ST-Rec3D),以單視圖或多視圖為輸入,由粗到細(xì)地重建出三維模型;結(jié)合注意力機(jī)制提出了一種具有空間結(jié)構(gòu)感知能力的編碼器,即結(jié)構(gòu)編碼器,以充分捕捉輸入視圖中的空間結(jié)構(gòu)信息,有效感知重建物體的幾何細(xì)節(jié);將IoU損失引入到三維體素模型重建中,在體素分布不均衡的情況下,精準(zhǔn)感知目標(biāo)物體,確保重建物體的完整性和準(zhǔn)確性。在ShapeNet和Pix3D數(shù)據(jù)集上的對(duì)比結(jié)果表明,ST-Rec3D在單視圖和多視圖上重建的三維模型的完整性和準(zhǔn)確性均優(yōu)于當(dāng)前方法。

三維重建;結(jié)構(gòu)感知;目標(biāo)感知;注意力機(jī)制;IoU損失

從二維視圖重建三維形狀是計(jì)算機(jī)視覺中一項(xiàng)重要且極具挑戰(zhàn)性的工作。傳統(tǒng)的重建方法[1-2]依賴確定的相機(jī)參數(shù),在某些實(shí)際應(yīng)用中并不可行,且所需成本較高[3]。得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,一系列面向三維重建的深度學(xué)習(xí)網(wǎng)絡(luò)被提出,在沒有復(fù)雜相機(jī)參數(shù)的情況下從一幅或多幅RGB圖像中重建出三維模型,并取得了良好的重建結(jié)果。但仍存在2個(gè)突出問題:

(1) 重建三維模型的幾何細(xì)節(jié)缺失?,F(xiàn)有方法采用簡單的編碼器結(jié)構(gòu)對(duì)圖像編碼,對(duì)同一區(qū)域內(nèi)的像素?zé)o區(qū)別對(duì)待,導(dǎo)致重建結(jié)果幾何細(xì)節(jié)欠佳,如圖1第1行中燈的裝飾線,第2行中較細(xì)的桌腿。事實(shí)上,待重建對(duì)象的細(xì)節(jié)信息在輸入圖像中有源可溯,即蘊(yùn)含在圖像中的空間結(jié)構(gòu)信息對(duì)三維模型重建有良好的指導(dǎo)作用,若能充分挖掘這些信息可以更精準(zhǔn)地恢復(fù)三維模型的幾何細(xì)節(jié)。

圖1 ST-Rec3D和當(dāng)前最優(yōu)方法重建結(jié)果對(duì)比((a)輸入圖像;(b) Target;(c) Pix2Vox++;(d) ST-Rec3D)

(2) 重建三維模型不完整。考慮到重建的三維模型為0-1表示的體素模型,主流方法通常使用交叉熵?fù)p失及其變形來約束網(wǎng)絡(luò)。這類損失以整個(gè)體素空間為比較對(duì)象,在樣本分布不均衡的情況下會(huì)忽略占比較少的樣本,造成重建三維模型不完整,如圖1第1行的燈和第3行的揚(yáng)聲器。實(shí)際上,三維體素模型重建是一個(gè)典型的樣本分布不均衡問題。見表1:當(dāng)三維模型的分辨率為323時(shí),ShapeNet core數(shù)據(jù)集所包含的13個(gè)類中,體素占比最多的僅有27.8%,平均體素占比只有8.8%。在這種情況下,以優(yōu)化整體精度為目標(biāo)的損失,即使將整體三維模型的體素都預(yù)測為0,損失也能低于0.1。

表1 ShapeNet core數(shù)據(jù)集不同類別的體素占比

針對(duì)上述問題,本文提出了一種基于結(jié)構(gòu)和目標(biāo)感知的三維重建網(wǎng)絡(luò)(structure and target-aware 3D object reconstruction,ST-Rec3D),采用經(jīng)典的編碼器-解碼器-細(xì)化器結(jié)構(gòu),由粗到細(xì)重建高質(zhì)量的三維模型。

1 相關(guān)工作

因表征形式不同,三維重建可分為點(diǎn)云、網(wǎng)格及體素模型重建。本節(jié)聚焦于體素模型重建,更多工作可參見文獻(xiàn)[4-5]。

1.1 基于多視圖的三維體素模型重建

3D-R2N2[6]為單視圖和多視圖三維體素模型重建設(shè)計(jì)了一個(gè)統(tǒng)一的框架,將重建問題轉(zhuǎn)換為序列學(xué)習(xí)問題:利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)完成圖像特征的有效融合,結(jié)合交叉熵?fù)p失完成重建。該方法開創(chuàng)性地將深度學(xué)習(xí)應(yīng)用到三維重建領(lǐng)域,其性能優(yōu)于傳統(tǒng)方法[4]。然而當(dāng)給定不同順序的同一組輸入圖像時(shí),基于RNN的方法無法生成一致的重建結(jié)果;且存在長期記憶缺失及無法并行處理等問題[5]。為克服這些缺點(diǎn),AttSets[7]使用注意力聚合模塊,融合多視圖特征以增強(qiáng)三維體素模型的重建效果;Pix2Vox[8]及Pix2Vox++[9]采用全局融合模塊,重建出高質(zhì)量的三維體素模型。

1.2 基于單視圖的三維體素模型重建

理論上,單視圖三維模型重建是多視圖三維模型重建的一種特例。由于單視圖不能為待重建對(duì)象提供足夠多的信息,其是一個(gè)不適定性問題,頗具難度。

當(dāng)輸入是單張視圖時(shí),3D-VAE-GAN[10]通過VAE得到圖像的潛在向量,再通過GAN的生成器得到重建的物體;MarrNet[11]及ShapeHD[12]通過預(yù)測輸入二維圖像的深度、表面法向量以及輪廓來重建三維形狀;胡飛等[13]將注意力機(jī)制引入到三維重建中,并探究不同的損失函數(shù)對(duì)三維重建的影響;張豪等[14]在ShapeHD中加入超分辨率、投影、對(duì)抗生成網(wǎng)絡(luò)等模塊,重建出更加逼真的三維模型;張玉麟等[15]利用改進(jìn)的Inception-ResNet模塊以增強(qiáng)網(wǎng)絡(luò)提取特征的能力,并采用多種網(wǎng)絡(luò)結(jié)構(gòu)提取多特征,從而增強(qiáng)單視圖重建效果;Pix2Vox[8]及Pix2Vox++[9],以由粗到細(xì)的形式重建出三維模型形狀;Mem3D[16]通過外部記憶模塊顯式利用形狀先驗(yàn)取得了最好的重建效果。由于外部記憶模塊需要極大的硬件成本,且不具有普適性,影響應(yīng)用范圍,故下文不再討論。

1.3 注意力機(jī)制

深度學(xué)習(xí)中的注意力機(jī)制用來告知模型“什么”及“哪里”需要關(guān)注,進(jìn)而提升網(wǎng)絡(luò)模型的性能[17],在圖像分類、分割等領(lǐng)域得到廣泛應(yīng)用。典型工作有提取通道注意力的SENet[18],關(guān)注通道注意力及空間注意力的CBAM[19],同時(shí)捕捉垂直和水平方向空間結(jié)構(gòu)信息的CA[20]?;诖?,學(xué)者們也試圖將注意力機(jī)制引入至三維重建領(lǐng)域中。具體的,文獻(xiàn)[13]將軟注意力引入到三維重建中,以補(bǔ)充重建三維物體的細(xì)節(jié)信息;AttSets[7]以注意力機(jī)制聚合多個(gè)視圖特征,朱育正等[21]使用CBAM以提高重建效果??紤]到視圖信息有限,基于視圖的三維重建需要更多的關(guān)注視圖信息中的有效信息,注意力機(jī)制的引入可以幫助三維重建過程中聚焦關(guān)鍵部位,提高重建效果。然而總體來看,面向三維重建的注意力機(jī)制工作仍然很少,研究也較為初步,效果不夠凸顯。

2 本文方法

為提高三維模型重建的質(zhì)量,有效利用二維圖像中像素的空間結(jié)構(gòu)信息,充分考量三維目標(biāo)物體在體素空間中的分布,本文提出了一種基于結(jié)構(gòu)感知的編碼器,并引入一種具有目標(biāo)感知能力的損失函數(shù),將其應(yīng)用到經(jīng)典的編碼器-解碼器-細(xì)化器結(jié)構(gòu)上,構(gòu)建了ST-Rec3D,以解決重建的三維模型不完整以及幾何細(xì)節(jié)欠佳的問題。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

圖2是基于Pix2Vox++[9]所提出的三層網(wǎng)絡(luò)ST-Rec3D示意圖,由結(jié)構(gòu)編碼器、粗糙形狀解碼器、全局融合模塊和精細(xì)形狀生成器構(gòu)成,由粗到細(xì)的重建三維模型。結(jié)構(gòu)編碼器提取輸入圖像的空間結(jié)構(gòu)特征;粗糙形狀解碼器將該特征解碼為粗糙三維模型;全局融合模塊有效融合基于視圖構(gòu)建的多個(gè)粗糙三維模型;精細(xì)形狀生成器進(jìn)一步修正粗糙三維模型以重建出更高質(zhì)量的三維模型。

圖2 ST-Rec3D示意圖

編碼器旨在從輸入圖像中為解碼器計(jì)算出一組用以恢復(fù)三維形狀的特征,該特征經(jīng)解碼后能預(yù)測體素在體素空間中的真實(shí)分布?,F(xiàn)有網(wǎng)絡(luò)通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取圖像的特征,并取得了最優(yōu)的效果。但CNN在計(jì)算過程中會(huì)丟失蘊(yùn)含在圖像中的空間結(jié)構(gòu)信息,對(duì)重建三維模型的細(xì)節(jié)區(qū)域表現(xiàn)欠佳。

為解決這一問題,本文引入一種具有結(jié)構(gòu)感知能力的注意力機(jī)制[20],并設(shè)計(jì)了CA殘差塊,以充分關(guān)注輸入圖像中的結(jié)構(gòu)信息。如圖3所示,CA殘差塊分別從水平方向和垂直方向捕捉輸入特征圖的結(jié)構(gòu)信息;通過壓縮激勵(lì)機(jī)制獲得2個(gè)方向上的權(quán)重;再經(jīng)矩陣相乘綜合水平方向和垂直方向上的結(jié)構(gòu)信息,得到空間中每個(gè)位置的權(quán)重;之后將其作用到輸入特征圖上得到加權(quán)后的特征,以有效突出局部細(xì)節(jié)信息;最后通過殘差連接,獲取既包含局部細(xì)節(jié)又包含全局信息的增強(qiáng)特征圖。具體操作如圖4所示。

圖3 CA殘差塊:增強(qiáng)特征的空間結(jié)構(gòu)信息

圖4 CA殘差塊具體操作

步驟1. 將網(wǎng)絡(luò)提取到的初始特征圖(××),分別使用空間層面上的池化核(,1)和(1,)沿著水平方向和垂直方向?qū)γ總€(gè)通道進(jìn)行編碼,生成一組方向感知的特征圖,即

步驟4.將每個(gè)位置的權(quán)重與輸入的特征圖(××)相乘,得到包含每個(gè)位置權(quán)重的特征圖,再通過殘差連接獲得最終的輸出,即

至此結(jié)構(gòu)編碼器構(gòu)建完成,如圖4所示,其獨(dú)立于網(wǎng)絡(luò)架構(gòu),是即插即用的模塊,可嵌入到現(xiàn)有網(wǎng)絡(luò)中。

2.2 基于目標(biāo)感知的重建損失

損失函數(shù)用來評(píng)價(jià)網(wǎng)絡(luò)模型的預(yù)測值和真實(shí)值的不相似程度,損失函數(shù)選取越恰當(dāng),網(wǎng)絡(luò)模型的性能越好。因體素模型是二值矩陣,主流的方法都將其視為邏輯回歸任務(wù),常用二元交叉熵函數(shù)作為損失,使預(yù)測分布與目標(biāo)分布間的距離接近,即

其中,為體素的數(shù)目;P為預(yù)測的體素概率;gt為對(duì)應(yīng)的真實(shí)體素占用情況,該損失以優(yōu)化整體精度為目標(biāo)。但由表1可知,三維體素模型的體素分布極不均衡,在ShapeNet core數(shù)據(jù)集中,其所有類別在體素空間中的平均體素占比僅有8.8%,以二元交叉熵作為損失,即使將所有類的體素都預(yù)測為0,其Loss也能低于0.1,不能有效聚焦于目標(biāo)物體,導(dǎo)致重建的三維模型不完整。

針對(duì)這一問題,將具有目標(biāo)感知能力的IoU損失[22],引入到三維體素模型重建中,以有效約束神經(jīng)網(wǎng)絡(luò),即

由式(10)可知,IoU是一個(gè)基于計(jì)數(shù)的度量,不能直接從神經(jīng)網(wǎng)絡(luò)的輸出直接計(jì)算得到。為有效支持反向傳播,通過神經(jīng)網(wǎng)絡(luò)輸出的概率值來近似IoU損失,即,令={1,2,···,3}為分辨率為3的體素集合,為網(wǎng)絡(luò)的輸出,表示在集合上的體素概率;?{0,1}表示真實(shí)體素的分布,可得

IoU損失可被定義為

其中,為神經(jīng)網(wǎng)絡(luò)的參數(shù)。

基于以上步驟可獲得面向三維模型重建的IoU損失。該損失建立在對(duì)目標(biāo)物體的精準(zhǔn)感知上,可解決三維模型重建中樣本不均衡的問題,確保重建結(jié)果的完整性和準(zhǔn)確性。

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集及評(píng)估指標(biāo)

(1) 數(shù)據(jù)集。選用合成數(shù)據(jù)集ShapeNet core[23]以及真實(shí)世界數(shù)據(jù)集Pix3D[24]來驗(yàn)證ST-Rec3D的有效性。其中,ShapeNet core包含13個(gè)類的43 783個(gè)三維模型,75%用作訓(xùn)練,5%用作驗(yàn)證,20%用作測試;針對(duì)Pix3D,與Pix2Vox++使用相同策略,以ShapeNet-Charis-RfC作為訓(xùn)練集,從Pix3D中手工選擇2 894張來自椅子類別的未截?cái)嗪臀凑趽醯膱D像組成測試集。

(2) 評(píng)估指標(biāo)。為評(píng)估本文方法的有效性,采用IoU和F-Score進(jìn)行定量比較,則有

其中,()和()分別為距離閾值時(shí)的查準(zhǔn)率和查全率,距離閾值設(shè)置為1%。

其中,和分別為重建點(diǎn)云和真實(shí)點(diǎn)云;nn分別為和的總數(shù)。與Pix2Vox++相同[9],使用marching cubes算法[25]生成重建物體的表面,然后從中采樣8 192個(gè)點(diǎn),以此來計(jì)算重建的三維模型和真實(shí)的三維模型之間的F-Score。F-Score越高,表示重建的三維模型越好。

3.2 實(shí)現(xiàn)細(xì)節(jié)

由于結(jié)構(gòu)編碼器和基于體素的IoU損失是一個(gè)即插即用的模塊,可應(yīng)用于現(xiàn)有三維重建網(wǎng)絡(luò)中。因Pix2Vox++在單視圖和多視圖重建時(shí)均達(dá)到了最優(yōu)的效果,所以將其作為Baseline,使用開源深度學(xué)習(xí)框架Pytorch進(jìn)行相關(guān)實(shí)驗(yàn),以驗(yàn)證ST-Rec3D的有效性。具體來說,模型輸入為224×224×3的RGB圖像;輸出為32×32×32的體素表示。使用Adam優(yōu)化器進(jìn)行端到端的學(xué)習(xí),1為0.9,2為0.999;學(xué)習(xí)率為0.001,分別在第120,170,220的epoch之后衰減一半;模型的迭代次數(shù)為250個(gè)epoch,Batch size為64。

3.3 合成數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

為了全面評(píng)價(jià)ST-Rec3D在單視圖三維模型重建的有效性,實(shí)驗(yàn)選用了幾種最為經(jīng)典的方法,包括3D-R2N2[6],AttSets[7],Pix2Vox[8]及Pix2Vox++[9]進(jìn)行綜合對(duì)比。表2和表3分別給出了上述方法在單視圖三維模型重建的IoU值和F-Score@1%。綜合表2和表3可知,ST-Rec3D取得了最優(yōu)的性能,與其他方法相比:①在13個(gè)類中,有12個(gè)類的IoU均優(yōu)于其他方法,有1個(gè)類的IoU取得了次優(yōu)的結(jié)果;有9個(gè)類的F-Score優(yōu)于其他方法,有1個(gè)類的F-Score取得了次優(yōu)的方法;②ST-Rec3D的平均IoU值和F-Score@1%均取得了最優(yōu)的結(jié)果。以上定量比較的結(jié)果充分說明了ST-Rec3D的有效性。

表2 ShapeNet單視圖三維模型重建的IoU值對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)數(shù)據(jù),下劃線數(shù)據(jù)為次優(yōu)數(shù)據(jù)

圖5為定性比較結(jié)果,第(a)~(e)列分別為輸入圖像,3D-R2N2[6],Pix2Vox++[9]、ST-Rec3D和真實(shí)值。通過對(duì)比發(fā)現(xiàn),ST-Rec3D有以下特點(diǎn):①重建結(jié)果的幾何局部細(xì)節(jié)更接近真實(shí)三維體素表示。如圖5中第1~3行所示,對(duì)于一些幾何細(xì)節(jié),如飛機(jī)的輪子部分、長凳的扶手等,ST-Rec3D重建出更為精細(xì)化的三維結(jié)構(gòu),在局部細(xì)節(jié)的重建結(jié)果更貼近真實(shí)三維模型;②重建結(jié)果的完整性更好。如第4~5行所示,對(duì)于復(fù)雜的部分,如船的上部、燈罩的外表面,ST-Rec3D重建出的局部區(qū)域既完整又不包含冗余的信息;這些定性結(jié)果進(jìn)一步突出了ST-Rec3D具有良好的空間結(jié)構(gòu)感知能力和目標(biāo)感知能力的特點(diǎn)。

表3 ShapeNet單視圖三維模型重建的F-Score對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)數(shù)據(jù),下劃線數(shù)據(jù)為次優(yōu)數(shù)據(jù)

圖5 ShapeNet數(shù)據(jù)集上單視圖三維重建示例((a)輸入圖像;(b)3D-R2N2;(c)Pix2Vox++;(d)ST-Rec3D;(e)真實(shí)值)

為進(jìn)一步驗(yàn)證ST-Rec3D在多視圖三維模型重建時(shí)表現(xiàn)出的優(yōu)異性,選用3D-R2N2[6],AttSets[7],Pix2Vox[8]和Pix2Vox++[9]進(jìn)行綜合對(duì)比。其定量對(duì)比結(jié)果見表4和表5,針對(duì)8種不同數(shù)目視圖的重建結(jié)果,ST-Rec3D的IoU值和F-Score@1%均達(dá)到了最優(yōu),再次驗(yàn)證了ST-Rec3D的有效性,并充分證明了其對(duì)視圖數(shù)目的魯棒性。

表4 ShapeNet數(shù)據(jù)集上多視圖三維重建IoU值對(duì)比

表5 ShapeNet數(shù)據(jù)集上多視圖三維重建F-Score值對(duì)比

圖6為若干多視圖三維重建示例,通過對(duì)比可以發(fā)現(xiàn),ST-Rec3D重建出的三維模型噪聲更少、表面更加平滑、更貼近真實(shí)形狀,再一次證實(shí)ST-Rec3D在進(jìn)行多視圖重建時(shí)能夠有效提高三維模型重建的精度。

3.4 真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證ST-Rec3D在真實(shí)圖像上的重建性能,本文在Pix3D數(shù)據(jù)集上進(jìn)行了相關(guān)的測試。表6中,較Pix3D及Pix2Vox++,ST-Rec3D在真實(shí)圖像上的定量指標(biāo)有相應(yīng)提升:①IoU值分別提高了2.1%和1.1%;②F-Score@1%分別提高了3.3%和0.6%。以上定量比較的結(jié)果充分說明了ST-Rec3D對(duì)有噪聲數(shù)據(jù)和真實(shí)世界圖像上的泛化和魯棒性。

圖6 ShapeNet數(shù)據(jù)集上多視圖三維重建示例((a)三視圖輸入;(b)3D-R2N2;(c)Pix2Vox++;(d)ST-Rec3D;(e)真實(shí)值)

表6 Pix3D數(shù)據(jù)集上單視圖三維模型重建對(duì)比

圖7為若干真實(shí)圖像的三維重建示例,通過對(duì)比可以發(fā)現(xiàn),ST-Rec3D:①較Pix3D存在部分?jǐn)嗔训葐栴},完整性更好、更貼近真實(shí)值,如圖7中第1行的扶手、第3行的椅子腿部;②較Pix2Vox++其不存在冗余信息的問題,如第2行的扶手部分。再次證明了ST-Rec3D具有較好的魯棒性和泛化性。

圖7 Pix3D數(shù)據(jù)集上三維重建示例((a)輸入;(b)Pix3D;(c)Pix2vox++;(d)ST-Rec3D;(e)真實(shí)值)

3.5 消融實(shí)驗(yàn)及分析

本實(shí)驗(yàn)旨在驗(yàn)證本文所提出的結(jié)構(gòu)編碼器和基于體素的IoU損失的有效性。由表7可知,與Baseline相比:①引入結(jié)構(gòu)編碼器,其重建結(jié)果的IoU值提升了0.6%,F(xiàn)-Score@1%提升了0.2%;②引入IoU損失,其重建結(jié)果的IoU值提升了1.5%,F(xiàn)-Score@1%提升了0.4%;③結(jié)構(gòu)編碼器和IoU損失共同作用,其重建結(jié)果的IoU值提升了1.7%,F(xiàn)-Score@1%提升了0.5%。實(shí)驗(yàn)結(jié)果表明,本文提出的結(jié)構(gòu)編碼器和基于體素的IoU損失都能有效提升三維體素模型重建的質(zhì)量,其中由于IoU損失能充分考量體素的真實(shí)分布,重建的效果提升最大。

表7 消融實(shí)驗(yàn)

3.6 更多對(duì)比實(shí)驗(yàn)及分析

3.6.1 不同注意力機(jī)制的有效性對(duì)比

為對(duì)比不同注意力機(jī)制對(duì)三維模型重建的影響,將幾種經(jīng)典的注意力機(jī)制引入到Baseline中,見表8,第3~5列分別為在ResNet的基礎(chǔ)上加入SE-Net[18],CBAM[19]和CA[20]。對(duì)比可知:①在三維重建領(lǐng)域引入注意力機(jī)制可提高重建結(jié)果的質(zhì)量;②較加入SE-Net和CBAM,加入CA的重建結(jié)果有明顯提高。分析原因可知:圖像中的像素空間結(jié)構(gòu)信息與重建的三維模型中的體素是相互關(guān)聯(lián)的,而SE-Net只考慮通道間的重要性;CBAM雖然考慮了通道和空間的重要性,但丟失了部分結(jié)構(gòu)信息;CA能夠充分捕捉空間結(jié)構(gòu)信息,從而重建的三維模型質(zhì)量較好。

表8 不同注意力機(jī)制對(duì)比

3.6.2 損失函數(shù)的有效性對(duì)比

本實(shí)驗(yàn)探究了不同的損失函數(shù)對(duì)重建結(jié)果的影響。表9的第1~4列分別為二元交叉熵?fù)p失,F(xiàn)ocal Loss[26],Dice Loss[27]和IoU Loss[22]。其中,F(xiàn)ocal Loss和Dice Loss分別通過加權(quán)和系數(shù)優(yōu)化的方式適應(yīng)樣本不均衡問題。通過對(duì)比可知:①與目前主流的二元交叉熵?fù)p失相比,F(xiàn)ocal Loss,Dice Loss以及IoU loss均能提高重建效果,說明制約三維重建發(fā)展的因素之一是損失函數(shù);②與其他損失函數(shù)相比,IoU損失取得最好的重建效果,這也驗(yàn)證了IoU損失能夠精準(zhǔn)感知目標(biāo)物體,改善重建結(jié)果。

表9 不同損失函數(shù)對(duì)比

4 結(jié)束語

針對(duì)基于視圖的三維模型重建結(jié)果中,整體形狀不完整以及局部細(xì)節(jié)缺失的問題,結(jié)合注意力機(jī)制構(gòu)建了結(jié)構(gòu)編碼器,將其應(yīng)用到編碼器-解碼器-細(xì)化器結(jié)構(gòu),提出ST-Rec3D,充分感知輸入圖像中所包含的空間結(jié)構(gòu)信息,以重建出細(xì)節(jié)精準(zhǔn)的三維模型;并使用IoU損失約束神經(jīng)網(wǎng)絡(luò)完成三維體素模型重建。在ShapeNet和Pix3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,ST-Rec3D在體素分布極不均衡的情況下,能夠有效提高三維模型重建的質(zhì)量,重建的三維模型的完整度和幾何細(xì)節(jié)均有了明顯地提高。未來將針對(duì)復(fù)雜模型實(shí)現(xiàn)更高質(zhì)量的三維重建。

[1] ?ZYE?IL O, VORONINSKI V, BASRI R, et al. A survey of structure from motion[J]. Acta Numerica, 2017, 26: 305-364.

[2] FUENTES-PACHECO J, RUIZ-ASCENCIO J, RENDóN-MANCHA J M. Visual simultaneous localization and mapping: a survey[J]. Artificial Intelligence Review, 2015, 43(1): 55-81.

[3] YANG B, ROSA S, MARKHAM A, et al. Dense 3D object reconstruction from a single depth view[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(12): 2820-2834.

[4] 陳加, 張玉麒, 宋鵬, 等. 深度學(xué)習(xí)在基于單幅圖像的物體三維重建中的應(yīng)用[J]. 自動(dòng)化學(xué)報(bào), 2019, 45(4): 657-668.

CHEN J, ZHANG Y Q, SONG P, et al. Application of deep learning to 3D object reconstruction from a single image[J]. Acta Automatica Sinica, 2019, 45(4): 657-668 (in Chinese).

[5] HAN X F, LAGA H, BENNAMOUN M. Image-based 3D object reconstruction: state-of-the-art and trends in the deep learning era[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1578-1604.

[6] CHOY C B, XU D F, GWAK J, et al. 3D-R2N2: a unified approach for single and multi-view 3D object reconstruction[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 628-644.

[7] YANG B, WANG S, MARKHAM A, et al. Robust attentional aggregation of deep feature sets for multi-view 3D reconstruction[J]. International Journal of Computer Vision, 2020, 128(1): 53-73.

[8] XIE H Z, YAO H X, SUN X S, et al. Pix2Vox: context-aware 3D reconstruction from single and multi-view images[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 2690-2698.

[9] XIE H Z, YAO H X, ZHANG S P, et al. Pix2Vox++: multi-scale context-aware 3D object reconstruction from single and multiple images[J]. International Journal of Computer Vision, 2020, 128(12): 2919-2935.

[10] WU J J, ZHANG C K, XUE T F, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//The 30th International Conference on Neural Information Processing Systems. New York: ACM Press, 2016: 82-90.

[11] WU J J, WANG Y F, XUE T F, et al. MarrNet: 3D shape reconstruction via 2.5D sketches[C]//The 31th International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 540-550.

[12] WU J J, ZHANG C K, ZHANG X M, et al. Learning shape priors for single-view 3D completion and reconstruction[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 673-691.

[13] 胡飛, 葉龍, 鐘微, 等. 基于注意力機(jī)制的單視角三維重建[J]. 中國傳媒大學(xué)學(xué)報(bào): 自然科學(xué)版, 2019, 26(4): 24-30.

HU F, YE L, ZHONG W, et al. Attention based single-view 3D reconstruction[J]. Journal of Communication University of China: Science and Technology, 2019, 26(4): 24-30 (in Chinese).

[14] 張豪, 張強(qiáng), 李勇祥, 等. 基于深度學(xué)習(xí)的三維模型重構(gòu)研究[J]. 重慶郵電大學(xué)學(xué)報(bào): 自然科學(xué)版, 2021, 33(2): 289-295.

ZHANG H, ZHANG Q, LI Y X, et al. Research on 3D model reconstruction based on deep learning[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2021, 33(2): 289-295 (in Chinese).

[15] 張玉麒, 陳加, 葉立志, 等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的單幅圖像物體重建方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2019, 36(6): 190-195.

ZHANG Y Q, CHEN J, YE L Z, et al. Single image object reconstruction method based on improved convolutional neural network[J]. Computer Applications and Software, 2019, 36(6): 190-195 (in Chinese).

[16] YANG S, XU M, XIE H Z, et al. Single-view 3D object reconstruction from shape priors in memory[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New York: IEEE Press, 2021: 3151-3160.

[17] WICKENS C. Attention: theory, principles, models and applications[J]. International Journal of Human-Computer Interaction, 2021, 37(5): 403-417.

[18] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8): 2011-2023.

[19] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[20] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 13708-13717.

[21] 朱育正, 張亞萍, 馮喬生. 基于深度學(xué)習(xí)的單視圖彩色三維重建[J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(14): 207-215.

ZHU Y Z, ZHANG Y P, FENG Q S. Colorful 3DReconstruction from single image based on deep learning[J]. Laser & Optoelectronics Progress, 2021, 58(14): 207-215 (in Chinese).

[22] RAHMAN M A, WANG Y. Optimizing intersection-over-union in deep neural networks for image segmentation[C]//The 12th International Symposium on Visual Computing. Cham: Springer International Publishing, 2016: 234-244.

[23] WU Z R, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1912-1920.

[24] SUN X Y, WU J J, ZHANG X M, et al. Pix3D: dataset and methods for single-image 3D shape modeling[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2974-2983.

[25] LORENSEN W E, CLINE H E. Marching cubes: a high resolution 3D surface construction algorithm[J]. ACM SIGGRAPH Computer Graphics, 1987, 21(4): 163-169.

[26] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2999-3007.

[27] MILLETARI F, NAVAB N, AHMADI S A. V-net: fully convolutional neural networks for volumetric medical image segmentation[C]//2016 Fourth International Conference on 3D Vision. New York: IEEE Press, 2016: 565-571.

ST-Rec3D: a structure and target-aware 3D reconstruction

BAI Jing1,2, MENG Qing-liang1, XU Hao1, FAN You-fu1, YANG Zhan-yuan1

(1. School of Computer Science and Engineering, North Minzu University, Yinchuan Ningxia 750021, China; 2. The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission, Yinchuan Ningxia 750021, China)

Image-based 3D reconstruction is the process of producing 3D representations of an object based on its single or multiple images. Existing methods for 3D reconstruction can directly learn to transform image features into 3D representations, using encoder-decoder structure, combined with binary cross entropy function and its deformation. However, the encoder cannot extract enough information from images to reconstruct high-quality 3D shapes, resulting in inaccurate Geometric details of reconstructed 3D objects. The loss functions based on the binary cross entropy function underperforms in target perception when the voxel distribution is imbalanced, leading to problems of incompleteness such as fractures and missing in the reconstruction results. To address these problems, a structure and target-aware 3D object reconstruction framework was proposed for single-view and multi-view 3D reconstruction, named ST-Rec3D. Combined with attention mechanism, we designed an encoder with a spatial perception structure, namely structure-aware encoder. In doing so, the spatial structure information could be fully captured in the input image and the local details of the reconstructed object could be effectively perceived. The utilization of IoU loss in the 3D voxel reconstruction, in the case of uneven voxel distribution, could accurately perceive the target object to ensure the integrity and accuracy of the reconstructed object. Experimental results demonstrate that ST-Rec3D can give a significant boost to reconstruction quality and outperform state-of-the-art methods on the ShapeNet and Pix3D.

3D reconstruction; structure-aware; target-aware; attention mechanism; IoU loss

TP 391

10.11996/JG.j.2095-302X.2022030469

A

2095-302X(2022)03-0469-09

2021-08-25;

2021-09-14

25 August,2021;

14 September,2021

國家自然科學(xué)基金項(xiàng)目(61762003,62162001);中國科學(xué)院“西部之光”人才培養(yǎng)引進(jìn)計(jì)劃(JF2012c016-2);寧夏優(yōu)秀人才支持計(jì)劃;寧夏自然科學(xué)基金項(xiàng)目(2022AAC02041)

National Natural Science Foundation of China (61762003, 62162001);“Light of the West” Talent Training and Introduction Plan of Chinese Academy of Sciences (JF2012c016-2); Ningxia Excellent Talents Support Program; Natural Science Foundation of Ningxia Province of China (2022AAC02041)

白 靜(1982-),女,教授,博士。主要研究方向?yàn)镃AD&CG、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)等。E-mail:baijing@nun.edu.cn

BAI Jing (1982-), professor, Ph.D. Her main research interests cover CAD&CG, computer vision, and machine learning, etc. E-mail:baijing@nun.edu.cn

猜你喜歡
結(jié)構(gòu)模型
一半模型
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
論結(jié)構(gòu)
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結(jié)構(gòu)的應(yīng)用
模具制造(2019年3期)2019-06-06 02:10:54
論《日出》的結(jié)構(gòu)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長
主站蜘蛛池模板: 中文字幕无码电影| 中文字幕欧美日韩| 青青青视频蜜桃一区二区| 日韩欧美网址| 极品国产一区二区三区| 亚洲第一区欧美国产综合| 欧美日韩精品一区二区视频| 免费xxxxx在线观看网站| 国产福利一区二区在线观看| 69综合网| 91小视频在线| 国产成人av一区二区三区| 亚洲欧洲自拍拍偷午夜色| 国产人成在线视频| 综合社区亚洲熟妇p| 日韩AV无码免费一二三区| 欧美精品啪啪一区二区三区| 亚洲精品在线91| 国产精品久久久久久久久| 色综合婷婷| 国模沟沟一区二区三区| 欧美视频在线观看第一页| 久久网综合| 天天操精品| 99re精彩视频| 国产永久免费视频m3u8| 亚洲天堂视频在线免费观看| 欧美精品v欧洲精品| 人妻中文久热无码丝袜| 18禁色诱爆乳网站| 97se亚洲综合在线天天| 亚洲综合中文字幕国产精品欧美| 精品久久蜜桃| 亚洲二三区| 日本道中文字幕久久一区| 99久久99视频| 亚洲中文无码h在线观看| 伊伊人成亚洲综合人网7777| 欧美亚洲一二三区| 国产香蕉在线| 白浆视频在线观看| 亚洲欧洲日韩国产综合在线二区| 精品一区二区无码av| 波多野结衣一区二区三区AV| 蜜桃视频一区| 人人澡人人爽欧美一区| 亚洲欧美成人| 五月丁香伊人啪啪手机免费观看| 国产成人精品免费视频大全五级| 国产精品偷伦在线观看| 国产午夜一级淫片| 亚洲第一黄片大全| 亚洲高清无在码在线无弹窗| 欧美综合中文字幕久久| 一本大道东京热无码av| 亚洲精品在线观看91| 国产欧美日韩另类精彩视频| 亚洲欧美国产视频| 日韩午夜片| 少妇被粗大的猛烈进出免费视频| 久久综合色播五月男人的天堂| 国产成人综合在线观看| 亚洲毛片网站| 美女内射视频WWW网站午夜| 欧美啪啪视频免码| 欧美性精品不卡在线观看| 狠狠亚洲婷婷综合色香| 亚洲香蕉伊综合在人在线| 9啪在线视频| 亚洲国产精品久久久久秋霞影院| 欧美精品1区2区| 一区二区影院| 99热这里只有精品国产99| 最新亚洲人成无码网站欣赏网 | 国产乱人乱偷精品视频a人人澡| 99热最新网址| 国产日韩欧美精品区性色| 亚洲精品男人天堂| 无码精品国产dvd在线观看9久| 91亚瑟视频| 综合人妻久久一区二区精品 | 香蕉久久永久视频|