張江峰,閆濤,3,4*,陳斌,錢宇華,宋艷濤,3
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006;2.山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006;3.山西省機(jī)器視覺與數(shù)據(jù)挖掘工程研究中心(山西大學(xué)),太原 030006;4.哈爾濱工業(yè)大學(xué) 重慶研究院,重慶 401151;5.哈爾濱工業(yè)大學(xué)(深圳)國際人工智能研究院,廣東深圳 518055)
三維形貌重建作為計(jì)算機(jī)視覺的前沿課題之一,在增強(qiáng)現(xiàn)實(shí)、精密制造和無人駕駛等領(lǐng)域[1]應(yīng)用廣泛。現(xiàn)階段,三維形貌重建不僅需要滿足高精度與高效率的測(cè)量需求,也要滿足跨場(chǎng)景應(yīng)用的快速部署要求[2]。三維形貌重建過程中需要探究深度線索或立體匹配,從而輔助構(gòu)建立體形貌,如多景深重建[3]、相機(jī)自運(yùn)動(dòng)[4]、點(diǎn)云配準(zhǔn)[5]和光場(chǎng)重建[6]等。相機(jī)自運(yùn)動(dòng)需要圖像采集設(shè)備在宏觀的定位系統(tǒng)下搭建龐雜的照片集,受限于數(shù)據(jù)信息的噪聲和立體匹配信息的稀疏性,此類方法不易跨場(chǎng)景應(yīng)用。點(diǎn)云和光場(chǎng)均通過專用信息采集設(shè)備記錄場(chǎng)景的深度線索,它們的重建精度依賴信息采集設(shè)備的精度,因此硬件成本較高。而基于多景深圖像序列的三維形貌重建方法即聚焦形貌恢復(fù)(Shape From Focus,SFF)則利用圖像含有的場(chǎng)景信息和圖像序列間含有的景深關(guān)系共同推導(dǎo)深度線索,重建效率高且硬件成本低,易于實(shí)現(xiàn)多場(chǎng)景應(yīng)用[7]。
基于多景深圖像序列的三維形貌重建主要包含以下步驟:首先,相機(jī)等圖像采集設(shè)備在它們的聚焦范圍內(nèi)快速掃描焦平面,產(chǎn)生一系列不同景深(聚焦)的圖像集即聚焦棧(Focus Stack,F(xiàn)S);其次,對(duì)聚焦棧中的圖像序列采用統(tǒng)一的聚焦評(píng)價(jià)算子FM(Focus Measure)構(gòu)成聚焦體積(Focus Volume,F(xiàn)V),在FV 中評(píng)選最佳聚焦值所在序列信息,從而構(gòu)成初始形貌結(jié)構(gòu);最后,采用深度圖修復(fù)等圖像后處理算法得到最終的三維形貌圖即深度圖。
為實(shí)現(xiàn)場(chǎng)景中的高精度三維形貌重建,聚焦評(píng)價(jià)算法至關(guān)重要。傳統(tǒng)基于多景深的三維形貌重建[8-9]提出了多種聚焦評(píng)價(jià)算子,大致可分為空間域和頻率域。傳統(tǒng)方法通過圖像像素信息推導(dǎo)深度信息,而固定的模型參數(shù)難以對(duì)多場(chǎng)景進(jìn)行自適應(yīng)式的高精度三維形貌重建。隨著多景深數(shù)據(jù)集的生成和開源,一系列算法[10-13]利用深度學(xué)習(xí)替代傳統(tǒng)聚焦評(píng)價(jià)算子,從大規(guī)模多景深圖像數(shù)據(jù)中學(xué)習(xí)區(qū)分聚焦和離焦,并創(chuàng)建場(chǎng)景語義級(jí)的三維形貌。然而,基于深度學(xué)習(xí)的三維形貌重建僅通過二維或三維卷積簡(jiǎn)單地拼接局部聚焦信息,無法很好地挖掘全局場(chǎng)景信息。
基于多景深圖像序列的三維形貌重建目前仍面臨三個(gè)主要挑戰(zhàn)[13]:聚焦測(cè)量、弱紋理場(chǎng)景和采樣頻率。聚焦測(cè)量過程中聚焦評(píng)價(jià)算子直接作用于多景深圖像序列,不僅需要判斷聚焦與離焦的分界線,而且需要以場(chǎng)景信息為引導(dǎo)有效分離場(chǎng)景中的異質(zhì)區(qū)域;聚焦測(cè)量算子無法對(duì)弱紋理場(chǎng)景進(jìn)行有效聚焦評(píng)價(jià),極易導(dǎo)致錯(cuò)誤深度信息蔓延;采樣頻率宏觀上決定了場(chǎng)景的層次結(jié)構(gòu),為確保前景和背景落入景深范圍內(nèi),需要對(duì)待測(cè)場(chǎng)景密集采樣。
綜上所述,如何構(gòu)建聚焦測(cè)量精準(zhǔn)、紋理場(chǎng)景自適應(yīng)的多場(chǎng)景三維形貌重建是目前亟需解決的問題。本文提出全局時(shí)空特征耦合(Global Spatio-Temporal Feature Coupling,GSTFC)模型,在重建多景深三維形貌的同時(shí)建模聚焦區(qū)域特征的時(shí)序關(guān)系和空間關(guān)系,并通過自適應(yīng)參數(shù)有效耦合這兩種關(guān)系,從而增強(qiáng)模型的特征表示能力。
本文的主要工作如下:1)提出基于3D-ConvNeXt 的U 型網(wǎng)絡(luò)主干,可以在有效提取局部聚焦序列信息的同時(shí),減少網(wǎng)絡(luò)參數(shù)量,降低模型成本;2)利用3D-SwinTransformer 模塊[14]通過局部聚焦序列信息構(gòu)建全局關(guān)系,在此基礎(chǔ)上選擇自適應(yīng)網(wǎng)絡(luò)參數(shù)平衡局部和全局特征并有效耦合;3)利用神經(jīng)網(wǎng)絡(luò)構(gòu)建聚焦體積,代替原有手工計(jì)算聚焦最大值或神經(jīng)網(wǎng)絡(luò)直接擬合深度圖的方式,通過分析聚焦體積中每個(gè)點(diǎn)的深度置信度保留聚焦和離焦的過渡信息。
基于多景深圖像序列的三維形貌重建根據(jù)是否利用深度學(xué)習(xí)抽取聚焦特征,大體可分為傳統(tǒng)聚焦建模和神經(jīng)網(wǎng)絡(luò)擬合兩類。
傳統(tǒng)多景深三維形貌重建模型通過前后圖像的差異信息判別聚焦和離焦,并對(duì)深度信息進(jìn)行置信度評(píng)價(jià)以確定聚焦與離焦的邊界線。根據(jù)圖像處理方式的不同可大致分為空間域和頻率域兩部分。在空間域類中,改進(jìn)圖像算子的聚焦特征提取能力可以提高重建結(jié)果的精度,如Sum-modified-Laplacian[15]、TENV(TENengrad Variance)[16]和Laplacian in 3D window[17]等;圖像區(qū)域的梯度[18-20]波動(dòng)同樣也可作為聚焦的線索,如空間頻率(Spatial Frequency,SF)算子。為貼合待測(cè)場(chǎng)景中不同物體的表面,學(xué)者通過構(gòu)建物體表面和聚焦形貌的一一對(duì)應(yīng)關(guān)系[21]將深度信息區(qū)域化,后續(xù)使用拉格朗日多項(xiàng)式估計(jì)分段曲面[22];也有學(xué)者探討聚焦評(píng)價(jià)窗口對(duì)聚焦信息的影響,并提出自適應(yīng)改變窗口大小來提高聚焦評(píng)價(jià)的準(zhǔn)確度[23-24],如DLAP(Diagonal LAPlacian)算子通過收集鄰域內(nèi)梯度值變化自適應(yīng)改變聚焦評(píng)價(jià)窗口;還有學(xué)者提出環(huán)形差分濾波器(Ring Difference Filter,RDF)[9]統(tǒng)籌局部區(qū)域內(nèi)非相鄰環(huán)形區(qū)域?qū)劢怪行牡挠绊憽_@類方法主要對(duì)局部像素信息進(jìn)行聚焦測(cè)量,無法對(duì)非連通的聚焦區(qū)域進(jìn)行有效鑒別,難以擬合聚焦區(qū)域邊界。由于圖像時(shí)頻的變換過程可有效分離圖像的高、低頻信息,進(jìn)而有助于保留圖像的相對(duì)聚焦區(qū)域,陸續(xù)有學(xué)者從圖像頻域角度分析并解構(gòu)聚焦棧,如快速離散曲波(Fast Discrete Curvelet,F(xiàn)DC)[25]可檢測(cè)聚焦棧中的高頻分量;非降采樣小波變換[7]將聚焦棧分離為不同尺度的高頻信息;非降采樣剪切波[26]可得到深度信息的最優(yōu)尺度表達(dá)等。頻率域類方法改善了空間域類方法僅在局部評(píng)價(jià)聚焦的問題,但仍需輔以場(chǎng)景結(jié)構(gòu)的先驗(yàn)信息來完善并修復(fù)深度圖像的邊界及噪點(diǎn)。
現(xiàn)階段,傳統(tǒng)的多景深三維形貌重建力求改進(jìn)聚焦測(cè)量算子以產(chǎn)生精細(xì)的聚焦體積[8]。同時(shí),為防止重建結(jié)果將噪點(diǎn)等錯(cuò)誤信息引入深度圖修復(fù)算法。深度圖修復(fù)算法采用梯度或場(chǎng)景結(jié)構(gòu)約束來改善初始深度圖的稀疏性,如引導(dǎo)濾波[27]、圖像分割(Graph Cut,GC)算法[28]、魯棒聚焦體積正則化的聚焦形貌恢復(fù)(Robust Focus Volume Regularization in Shape From Focus,RFVR-SFF)模型[8]。而深度修復(fù)算法在鑒定深度異常值的過程會(huì)影響原有深度正確值,造成重建算法精準(zhǔn)度的退化。綜上所述,傳統(tǒng)多景深三維形貌模型單一的評(píng)價(jià)參數(shù)無法適應(yīng)多領(lǐng)域三維形貌重建[29]。
深度學(xué)習(xí)類方法構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)多景深圖像序列中隱含的內(nèi)部關(guān)系,由此得到的深度信息具有更強(qiáng)的表征和泛化能力。目前已公布的基于深度學(xué)習(xí)的三維形貌重建模型將特定場(chǎng)景下的多景深圖像集和深度圖經(jīng)過神經(jīng)網(wǎng)絡(luò)抽象學(xué)習(xí)聚焦特征并自動(dòng)擬合聚焦區(qū)域,相較于傳統(tǒng)方法更加精準(zhǔn)高效。
基于焦點(diǎn)深度的深度(Deep Depth From Focus,DDFF)[10]模型作為首個(gè)端到端可訓(xùn)練的CNN,為解決三維形貌重建的不適定性給出示范,說明利用卷積關(guān)聯(lián)像素信息可以抽取場(chǎng)景中抽象的聚焦特征。然而,僅使用單一卷積核逐層抽取特征無法關(guān)聯(lián)景深的前后關(guān)系,導(dǎo)致多景深數(shù)據(jù)利用率較低。離焦網(wǎng)絡(luò)(Defocus Net,DefocusNet)模型[11]利用域信息不變的散焦模糊作為直接監(jiān)督數(shù)據(jù),通過融合分支和深度分支分別生成全聚焦圖像和深度圖像,該模型利用散焦信息監(jiān)督網(wǎng)絡(luò)可以有效分離前景和背景,但無法擬合相鄰深度下同質(zhì)區(qū)域的過渡。上述方法將簡(jiǎn)單堆疊的多景深圖像集直接輸入網(wǎng)絡(luò),僅通過二維卷積操作無法有效利用多景深圖像之間的序列關(guān)系。
全聚焦深度網(wǎng)絡(luò)(All-in-Focus Depth Net,AiFDepthNet)模型[12]利用全聚焦圖像監(jiān)督或全聚焦圖像和深度圖共同監(jiān)督訓(xùn)練網(wǎng)絡(luò)得到深度信息,以降低數(shù)據(jù)集對(duì)深度監(jiān)督信息的依賴并改用全聚焦信息監(jiān)督。然而,全聚焦圖像與深度圖對(duì)聚焦信息的敏感度不同,使用全聚焦圖像作為監(jiān)督信息極度依賴圖像采集頻率,采樣頻率降低會(huì)導(dǎo)致最終深度圖像的噪點(diǎn)增多、邊界信息模糊。后續(xù)也有研究通過差分聚焦體積網(wǎng)絡(luò)(Differential Focus Volume Net,DFV-Net)模型和聚焦體積網(wǎng)絡(luò)(Focus Volume Net,F(xiàn)V-Net)模型[13]結(jié)合焦點(diǎn)和上下文進(jìn)行深度估計(jì),但在初始特征提取中未綜合考量聚焦體積中的聚焦過渡關(guān)系。全局時(shí)空聚焦特征耦合模型[30]加入注意力機(jī)制并利用局部時(shí)空聚焦信息構(gòu)建全局聯(lián)系,從而依據(jù)多景深圖像序列推導(dǎo)焦平面矩陣,指導(dǎo)三維形貌重建。但是簡(jiǎn)單的焦平面矩陣無法直接適應(yīng)不同數(shù)據(jù)集的深度范圍,后續(xù)需要根據(jù)場(chǎng)景深度范圍重新調(diào)整深度值,易引起精度丟失。而且推導(dǎo)的焦平面矩陣有固定的分層數(shù),不利于網(wǎng)絡(luò)模型精細(xì)化理解待測(cè)場(chǎng)景中的前后圖像序列的過渡關(guān)系。綜上所述,現(xiàn)有的三維形貌重建方法在聚焦特征的高效提取、弱紋理區(qū)域的聚焦鑒定和多頻率景深的泛化性上仍有上升空間。
多景深三維形貌重建利用相機(jī)的光學(xué)成像原理還原待測(cè)場(chǎng)景的三維形貌信息,它的核心思想是利用相機(jī)的景深限制來推導(dǎo)深度信息。大多數(shù)相機(jī)只能在稱為景深(Depth of Field,DoF)的范圍內(nèi)捕捉部分場(chǎng)景的清晰圖像,而范圍外會(huì)模糊形成彌散圓(Circle of Confusion,CoC)。三維形貌重建算法利用透鏡成像公式[31]的基本原理,通過調(diào)節(jié)相機(jī)與待測(cè)場(chǎng)景的距離,等間隔采集場(chǎng)景圖像,得到可以覆蓋待測(cè)場(chǎng)景全部景深的圖像棧。在捕捉的圖像棧中使用聚焦測(cè)量算子進(jìn)行聚焦水平評(píng)價(jià),選擇所有聚焦水平最大值所在序列位置作為待測(cè)場(chǎng)景的初始深度[32],可表示為:
其中:N為聚焦棧大小;圖像大小為H×W;FMi[x,y]表示聚焦棧中第i張圖像中[x,y]位置的聚焦水平;D[x,y]表示深度圖。最后,采用圖像后處理算法對(duì)初始深度圖進(jìn)行修復(fù)。
本文提出全局時(shí)空特征耦合(GSTFC)模型是一個(gè)端到端的深度卷積網(wǎng)絡(luò),輸入為多景深圖像序列,輸出為相應(yīng)場(chǎng)景的深度信息即深度圖。GSTFC 模型由收縮路徑、瓶頸模塊、擴(kuò)張路徑及特征處理組成,如圖1 所示。

圖1 GSTFC模型的整體結(jié)構(gòu)Fig.1 Overall structure of GSTFC model
本文采用U 型主干網(wǎng)絡(luò),在收縮路徑和擴(kuò)張路徑的編解碼過程中跳躍連接各個(gè)尺度特征,以實(shí)現(xiàn)底層紋理特征與高層聚焦特征的充分融合,同時(shí)兼顧精準(zhǔn)定位和輕量化應(yīng)用[33]。該主干網(wǎng)絡(luò)的優(yōu)點(diǎn)使它在圖像生成等任務(wù)中有明顯優(yōu)勢(shì)[34]。為確保訓(xùn)練過程中卷積操作和注意力操作在宏觀結(jié)構(gòu)層次下網(wǎng)絡(luò)特征歸納的統(tǒng)一性和微觀層次下特征維度的兼容性,使用ConvNeXt 模塊[35]代替原有的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)等結(jié)構(gòu)。但為引入同一區(qū)域內(nèi)不同景深序列的聚焦信息,將ConvNeXt 模塊的特征提取維度由二維變?yōu)槿S,由此獲得局部時(shí)空聚焦特征。3D-SwinTransformer 模塊對(duì)于時(shí)序關(guān)系的全局建模能力有利于將前者獲得的局部聚焦特征進(jìn)行信息整合,從而獲得全局時(shí)空聚焦特征。后續(xù),靈活的特征處理模塊對(duì)不同焦距數(shù)據(jù)進(jìn)行分類處理從而得到最終的深度圖。
2.2.1 收縮路徑和擴(kuò)張路徑
收縮路徑中主要包含三個(gè)子模塊,每個(gè)子模塊中包含3D 卷積層(Conv 3D)、正則激活層和3D-ConvNeXt 模塊。每個(gè)子模塊針對(duì)局部聚焦區(qū)域的時(shí)空特征進(jìn)行多尺度提取,以探索多景深圖像序列的局部時(shí)空聚焦特征。第一個(gè)子模塊整體的特征頻道設(shè)為48,3D 卷積層通過大小為(3,7,7)的卷積核對(duì)原始多景深圖像序列進(jìn)行特征抽取,隨后通過層歸一化(LayerNorm)和高斯誤差線性單元(Gaussian Error Linear Unit,GELU)增益特征,最后堆疊3 層3D-ConvNeXt 模塊以探索該尺度下的局部時(shí)空特征。第二和第三個(gè)子模塊整體的特征頻道分別為96 和192,使用卷積核大小為(1,2,2)的3D卷積層代替最大池化或平均池化層,堆疊的3D-ConvNeXt 模塊層數(shù)分別為3 和9。
收縮路徑中包含的下采樣操作和3D 卷積層對(duì)輸入的多景深圖像序列進(jìn)行由局部到整體的聚焦特征抽樣,從而得到局部時(shí)空聚焦特征并保留各個(gè)尺度的聚焦特征。
擴(kuò)張路徑與收縮路徑的維度一一對(duì)應(yīng),也包含三個(gè)子模塊。每個(gè)子模塊中包含3D 反卷積層(ConvTranspose 3D)、正則激活層和3D-ConvNeXt 模塊。3D 反卷積層主要負(fù)責(zé)還原上一個(gè)子模塊的特征矩陣尺度,并與相對(duì)收縮路徑的淺層特征相融合。收縮路徑和擴(kuò)張路徑中,3D-ConvNeXt 模塊的堆疊次數(shù)與特征維度保持一致。
2.2.2 3D-ConvNeXt模塊
CNN 在計(jì)算機(jī)視覺的應(yīng)用最廣泛且相對(duì)成熟[36],它特有的歸納偏置有利于處理圖像數(shù)據(jù)。但Vision Transformer的引入改變了原有的網(wǎng)絡(luò)架構(gòu),核心的多頭注意力機(jī)制靈活關(guān)注一系列圖像塊,為特征編碼提供全局線索[37]。二者并不是獨(dú)立發(fā)展,如Transformer 變體中引入了卷積的“滑動(dòng)窗口”策略。盡管Transformer 在計(jì)算機(jī)視覺領(lǐng)域通過借鑒卷積的獨(dú)特優(yōu)勢(shì)提升效率,但在訓(xùn)練過程和架構(gòu)設(shè)計(jì)中仍存在明顯的差異[35]。本文提出的3D-ConvNeXt 模塊的架構(gòu)設(shè)計(jì)參照3D-Swin Transformer 結(jié)構(gòu),使它可靈活嵌入Transformer 模塊,將二者提取特征相結(jié)合。ConvNeXt 模型[35]依照Swin Transformer[38]的結(jié)構(gòu)進(jìn)行調(diào)整改進(jìn),有效地彌合了純卷積網(wǎng)絡(luò)和Vision Transformers 之間的性能差距。該設(shè)計(jì)分為五部分:宏觀設(shè)計(jì)、ResNeXt[39]、Inverted Bottleneck、大卷積核和逐層微觀設(shè)計(jì)。在宏觀設(shè)計(jì)中,ConvNeXt 模型將卷積模塊的堆疊比例改為1∶1∶3∶1,并將stem 層中的卷積核設(shè)為4,步距設(shè)為4;在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中,采用ResNeXt 模型的組卷積層,并將組卷積層中的組數(shù)設(shè)置為特征頻道數(shù);借鑒MobileNetV2[40]的Inverted Bottleneck 模仿Transformer block 中的多層感知機(jī)(Multi-Layer Perceptron,MLP)模塊;增大原有的卷積核,將卷積核大小設(shè)為7;在逐層微觀設(shè)計(jì)中,采用GELU 激活函數(shù)、更少的激活層和正則層,將Batch Normalization 改為L(zhǎng)ayer Normalization 和單獨(dú)下采樣層。在微觀設(shè)計(jì)中,GELU 激活函數(shù)是一種高性能的非線性神經(jīng)網(wǎng)絡(luò)激活函數(shù),可以采用隨機(jī)正則化的方式有效提升網(wǎng)絡(luò)的魯棒性,因此可將它視為ReLU 激活函數(shù)更平滑的變體;Layer Normalization 相較于Batch Normalization 不會(huì)對(duì)小批量數(shù)據(jù)施加限制,可有效減少模型的顯存消耗。
本文在ConvNeXt 模型的基礎(chǔ)上進(jìn)行改進(jìn),以滿足多景深圖像序列的三維形貌預(yù)測(cè)。首先,為探究多景深圖像序列之間的聚焦離焦過渡關(guān)系,將原有的2D-ConvNeXt 模塊整體升級(jí)為3D-ConvNeXt 模塊,主要包含卷積層;其次,將原有的分類式網(wǎng)絡(luò)中的線性分類層轉(zhuǎn)換為3D-ConvNeXt 模塊堆疊次數(shù)相對(duì)應(yīng)的U 型主干網(wǎng)絡(luò)結(jié)構(gòu)[33],便于獲得多景深圖像序列的多尺度信息并保留淺層細(xì)節(jié)特征,有效降低了網(wǎng)絡(luò)整體所需參數(shù);最后,微調(diào)原有的stem 層,將它轉(zhuǎn)換為卷積核為2、步距為2 的卷積層,最終將得到的下采樣特征與3D-Swin Transformer 模塊切分得到圖像序列塊的特征進(jìn)行對(duì)齊,并添加自適應(yīng)參數(shù)以平衡卷積特征和Transformer 特征。
收縮路徑中每個(gè)子模塊的特征維度設(shè)置、卷積模塊堆疊次數(shù)均與Swin Transfromer 保持高度一致,便于提高局部特征與全局特征的融合性。其中3D-ConvNeXt 模塊主要包含3D逐通道卷積層、LayerNorm 層、GELU 激活層和3D 逐點(diǎn)卷積層。3D-ConvNeXt 模塊使用殘差方式緩解網(wǎng)絡(luò)增加深度時(shí)帶來的梯度消失問題。該模塊首先使用卷積核大小為(3,7,7)的3D 逐通道卷積層和LayerNorm 層獲得初始特征;隨后,使用卷積核大小為(1,1,1)的3D 逐點(diǎn)卷積層擴(kuò)充原有維度并使用GELU 激活特征;最后,使用卷積核大小為(1,1,1)的3D 逐點(diǎn)卷積層降低特征到原有維度,添加隨機(jī)的Drop Path層以有效提升模型的魯棒性。該設(shè)計(jì)方法在犧牲部分準(zhǔn)確度的前提下可大幅減小網(wǎng)絡(luò)的參數(shù)規(guī)模,有助于平衡模型計(jì)算量和預(yù)測(cè)準(zhǔn)確率。
2.2.3 瓶頸模塊
瓶頸模塊主要分為兩個(gè)子模塊:3D 卷積模塊和3D-SwinTransformer 模塊。3D 卷積模塊類似于收縮路徑中的第二個(gè)子模塊,具有相同的3D 卷積下采樣和堆疊3 層的3D-ConvNeXt 模塊。3D-SwinTransformer 模塊包含3D Patch Embedding 和3D SwinTransformer Block。相較于直接從多景深圖像序列中獲取全局信息,3D Patch Embedding 預(yù)處理收縮路徑中第一個(gè)子模塊得到的特征,可以增益對(duì)特征的提取能力。3D SwinTransformer Block 在保留原有的滑窗設(shè)計(jì)和層級(jí)設(shè)計(jì)的同時(shí),將圖像之間的序列關(guān)系也引入對(duì)比。3D 卷積模塊抽取局部時(shí)空聚焦特征,3D-SwinTransformer 模塊構(gòu)建全局時(shí)空聚焦特征,二者之間使用自適應(yīng)參數(shù)進(jìn)行耦合拼接。
傳統(tǒng)三維形貌重建模型根據(jù)輸入的多景深圖像序列確定聚焦體積的大小,通過聚焦測(cè)量算子評(píng)價(jià)單幀圖像不同像素的聚焦置信度從而構(gòu)建場(chǎng)景的三維形貌關(guān)系。傳統(tǒng)模型僅提取最大聚焦值以確保深度信息的準(zhǔn)確性,忽略了聚焦和離焦的過渡關(guān)系。當(dāng)采樣頻率不足以覆蓋整個(gè)場(chǎng)景時(shí),深度圖異質(zhì)嚴(yán)重,會(huì)導(dǎo)致無法有效捕捉場(chǎng)景信息。而現(xiàn)有的深度學(xué)習(xí)的多景深三維形貌重建直接擬合多景深圖像序列特征并輸出深度圖,未引導(dǎo)神經(jīng)網(wǎng)絡(luò)有效地學(xué)習(xí)聚焦過渡信息。
本文提出特有的深度聚焦體積(Depth Focus Volume,DFV)模塊,利用神經(jīng)網(wǎng)絡(luò)引導(dǎo)構(gòu)建聚焦體積并盡可能保存離焦和聚焦的過渡信息。首先,設(shè)立合適的場(chǎng)景預(yù)分層值,并確保該值大于等于多景深圖像序列數(shù);其次,對(duì)深度聚焦體積值沿序列維度計(jì)算深度置信度,根據(jù)深度置信度分配深度值;最后,將深度值等比例壓縮至多景深圖像序列范圍。DFV 模塊預(yù)先擴(kuò)展場(chǎng)景中的深度層次,脫離了原有設(shè)定的深度范圍,將場(chǎng)景中各個(gè)點(diǎn)的深度信息進(jìn)行細(xì)化分層。另外,DFV 模塊基于深度學(xué)習(xí)構(gòu)建出三維形貌重建模型的深度決策信息,避免直接擬合深度值從而導(dǎo)致特征信息丟失。
各多景深三維形貌重建模型預(yù)測(cè)的三維形貌通過深度圖表示,深度中各像素點(diǎn)的灰度值為待測(cè)場(chǎng)景的相對(duì)深度信息。三維形貌重建模型的預(yù)測(cè)精度依賴于對(duì)待測(cè)場(chǎng)景的密集采樣,而稀疏采樣會(huì)導(dǎo)致深度鑒別精度下降。因此可以通過觀測(cè)各模型預(yù)測(cè)的深度圖的灰度分布是否聚集以鑒定模型是否具有稀疏采樣下的魯棒性。圖2 為各模型預(yù)測(cè)深度圖的灰度直方圖,橫坐標(biāo)為1~100 的灰度級(jí)(深度值),縱坐標(biāo)為該灰度級(jí)出現(xiàn)的頻數(shù)。實(shí)驗(yàn)場(chǎng)景設(shè)置為光場(chǎng)數(shù)據(jù)集SLFD 中的石獅子場(chǎng)景,該場(chǎng)景的深度層次過渡平滑,可有效對(duì)比各模型在稀疏采樣下的魯棒性。該場(chǎng)景的原采樣頻率為100,實(shí)驗(yàn)采樣時(shí)將原有的圖像序列等間隔采樣以模擬稀疏采樣,并設(shè)采樣頻率為10。圖2 通過灰度直方圖展示各模型對(duì)稀疏采樣的敏感度,通過深度圖像的深度值分布判定各個(gè)模型是否可以監(jiān)測(cè)到聚焦和離焦的過渡信息。從圖2(d)可以看出該場(chǎng)景的前景過渡較平滑且背景占比較大。對(duì)比的3 個(gè)模型的深度值都存在等間距分布,但與標(biāo)準(zhǔn)深度圖的分布相似度不同。圖2(a)和(b)中,RDF 和RFVR-SFF 僅判斷出絕對(duì)聚焦關(guān)系,未能識(shí)別出場(chǎng)景的過渡關(guān)系;圖2(c)中,GSTFC 的預(yù)測(cè)深度圖與標(biāo)準(zhǔn)深度圖的灰度分布最相似,不僅能盡可能保證聚焦區(qū)域的鑒別,而且對(duì)于離焦區(qū)域同樣可以識(shí)別最佳的深度關(guān)系。

圖2 各模型預(yù)測(cè)深度圖及其灰度直方圖Fig.2 Depth maps predicted by different models and corresponding grayscale histograms
3D-ConvNeXt 模塊將擴(kuò)張路徑的輸出特征聚焦為四維張量M∈R1×K×H×W,其中:K代表場(chǎng)景預(yù)分層值;圖像大小為H×W。對(duì)于該特征使用DFV 模塊統(tǒng)計(jì)場(chǎng)景中各點(diǎn)的深度值。具體操作如下:DFV 模塊將特征張量M通過Softmax 歸一化進(jìn)行聚焦權(quán)重分配為深度注意力Mdepth:
其中:k、i和j表示張量M的位置信息。
由于Softmax 確保非負(fù)性的同時(shí)歸一化有效的概率分布,深度注意力Mdepth等同于深度的概率分布[12]。隨后,引入聚焦先驗(yàn)信息P∈R1×K×H×W,二者相結(jié)合得到每個(gè)像素的預(yù)期深度值:
其中:I表示三維形貌重建結(jié)果圖,即深度圖。
本文使用多景深圖像數(shù)據(jù)集DFF[2]和FoD500[11]訓(xùn)練網(wǎng)絡(luò)并對(duì)比模型效率。DFF 數(shù)據(jù)集共選用15 000 個(gè)場(chǎng)景圖像和模擬深度圖映射構(gòu)建多景深圖像序列,同時(shí)在該數(shù)據(jù)集中添加不同強(qiáng)度的高斯噪聲并調(diào)整圖像序列大小,以驗(yàn)證多景深三維形貌重建模型的魯棒性。FoD500 數(shù)據(jù)集使用Blender渲染器構(gòu)建數(shù)據(jù)集,包含400 個(gè)訓(xùn)練場(chǎng)景和100 個(gè)測(cè)試場(chǎng)景,每組數(shù)據(jù)包含5 張RGB 場(chǎng)景圖和1 張深度圖像。該數(shù)據(jù)集在構(gòu)建過程中隨機(jī)抽取400 組CAD 3D 模型,這些模型在每個(gè)場(chǎng)景隨機(jī)大小、位置并旋轉(zhuǎn)放置20~30 個(gè)隨機(jī)材料。
DFF 數(shù)據(jù)集在模擬過程中將每個(gè)位置的模糊量結(jié)合全局深度信息加權(quán)控制,更突出測(cè)試模型對(duì)聚焦邊界的鑒定;而FoD500 數(shù)據(jù)集注重刻畫深度信息的過渡,精準(zhǔn)的深度值可以有效衡量模型對(duì)聚焦范圍的預(yù)測(cè),同時(shí)該數(shù)據(jù)集提供物體之間相互遮擋的圖像,可以有效測(cè)試模型對(duì)場(chǎng)景之間的間隔和弱紋理背景的區(qū)分能力。兩個(gè)數(shù)據(jù)集采樣頻率相差巨大,DFF 數(shù)據(jù)集的采樣頻率為100,F(xiàn)oD500 數(shù)據(jù)集的采樣頻率為5,二者的采樣范圍可以涵蓋目前已知測(cè)試數(shù)據(jù)集的采樣頻率。后續(xù)實(shí)驗(yàn)將在SLFD and DLFD(Sparse Light Field Dataset and Dense Light Field Dataset)[41]、Base-Line[42],4D Light Field[43]和POV-Ray[44]等數(shù)據(jù)集上測(cè)試各模型的優(yōu)劣。
本文提出的GSTFC 模型在Ubuntu 平臺(tái)上采用PyTorch工具實(shí)現(xiàn),顯卡型號(hào)為NVIDIA A100。多景深圖像序列作為三維形貌重建模型的輸入,相對(duì)應(yīng)的深度圖作為標(biāo)簽信息進(jìn)行有監(jiān)督訓(xùn)練,共進(jìn)行200 次迭代訓(xùn)練。在訓(xùn)練過程中使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為10-4,其余參數(shù)皆為PyTorch默認(rèn)參數(shù)。訓(xùn)練過程中以0.5 的概率隨機(jī)進(jìn)行圖像序列增強(qiáng)(整體翻轉(zhuǎn)和圖像序列倒轉(zhuǎn)),批處理大小設(shè)置為2。
為更好地分析不同模型方法的客觀評(píng)價(jià)結(jié)果,使用均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Square Error,RMSE)、顛簸性(Bumpiness)、相對(duì)誤差平方值(Square relative error,Sqr.rel)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)、矩陣線性相關(guān)性(Correlation)定量評(píng)估GSTFC 模型與對(duì)比模型的性能[10]。后續(xù)將深度圖通過ColorMap 映射到彩色空間,對(duì)不同模型預(yù)測(cè)的深度圖進(jìn)行主觀評(píng)價(jià)。
為進(jìn)一步探究GSTFC 模型的合理性,本文在FoD500 數(shù)據(jù)集的訓(xùn)練集進(jìn)行訓(xùn)練,并在測(cè)試集進(jìn)行測(cè)試。消融實(shí)驗(yàn)將從MSE、模型參數(shù)量和模型計(jì)算量對(duì)模型進(jìn)行評(píng)價(jià)。對(duì)比模型的計(jì)算量和推理時(shí)間時(shí),采用多景深圖像序列為5、圖像大小為224×224 的RGB 圖像。消融實(shí)驗(yàn)主要從主干網(wǎng)絡(luò)、特征組件和特征處理三方面設(shè)置對(duì)比,如表1 所示。實(shí)驗(yàn)過程中,特征頻道、堆疊次數(shù)、下采樣和損失函數(shù)等保持一致,本文僅探討3D-ConvNeXt 主干、3D-SwinTransformer 模塊和DFV模塊對(duì)網(wǎng)絡(luò)模型的影響。
從表1 可以看出,本文模型在保證預(yù)測(cè)精度的同時(shí)更注重對(duì)模型參數(shù)的壓縮。相較于U 模型,添加了全局注意力3D-SwinTransformer 模塊的U+T 模型預(yù)測(cè)的準(zhǔn)確率提高了,模型參數(shù)量和計(jì)算量也增加了。相較于U 模型,X 模型的參數(shù)量和計(jì)算量都大幅降低,而MSE 卻小幅上升,因?yàn)镃onvNeXt 模塊使用深度可分離卷積等可有效降低參數(shù)量,但為了與3D-SwinTransformer 結(jié)合而設(shè)計(jì)的獨(dú)有結(jié)構(gòu)也提高了MSE。相較于U+T 模型,X+T 模型的MSE、參數(shù)量和計(jì)算量都明顯降低,說明3D-ConvNeXt 模塊更適配于3D-SwinTransformer 模塊,二者結(jié)合取得了最優(yōu)效果。相較于X+T 模型,X+T+DFV 模型的MSE 也明顯降低,說明DFV 模塊結(jié)合已有的聚焦先驗(yàn)信息能有效提升模型的深度圖預(yù)測(cè)能力并減少參數(shù)量和計(jì)算量。由于3D-U 型主干網(wǎng)絡(luò)與3D-SwinTransformer 模型的適配程度低,因此X+T+DFV 模型優(yōu)于U+T+DFV 模型。綜上所述,X+T+DFV 模型即本文最終選擇的多景深三維形貌重建模型。

表1 消融實(shí)驗(yàn)的對(duì)比分析Tab.1 Comparison analysis of ablation experiments
將GSTFC 與深度學(xué)習(xí)模型和傳統(tǒng)方法進(jìn)行對(duì)比。深度學(xué)習(xí)模型包括:DDFF[10]、DefocusNet[11]、AiFDepthNet[12]、FVNet[13]和DFV-Net[13];傳統(tǒng)方法包括:RFVR-SFF[8]、RDF[9]、TENV[16]、SF[20]、DLAP[24]、FDC[25]和GC[28]。傳統(tǒng)方法的選擇依據(jù)文獻(xiàn)[29]的分類標(biāo)準(zhǔn)。為平衡GSTFC 模型和傳統(tǒng)方法是否使用場(chǎng)景先驗(yàn)信息的前置條件,GSTFC 模型僅使用DFF數(shù)據(jù)集訓(xùn)練以學(xué)習(xí)判定聚焦離焦的相對(duì)關(guān)系。
表2 為不同模型在FoD500 數(shù)據(jù)集上的對(duì)比結(jié)果,其中GSTFC 的MSE、RMSE 和Bumpiness 取得了最優(yōu)。相較于最先進(jìn)的AiFDepthNet,GSTFC 在FoD500 數(shù)據(jù)集上的RMSE 下降了12.5%。GSTFC 從全局時(shí)空視角對(duì)多景深圖像序列進(jìn)行聚焦提取,相較于之前的模型聚焦測(cè)量更加精準(zhǔn)并且預(yù)測(cè)深度區(qū)域更平滑;但由于GSTFC 擴(kuò)大了場(chǎng)景預(yù)分層數(shù)并保留離焦區(qū)域的深度信息,導(dǎo)致相對(duì)誤差較大

表2 不同模型在FoD500數(shù)據(jù)集上的對(duì)比結(jié)果Tab.2 Comparison results of different models on FoD500 dataset
表3 為不同模型在傳統(tǒng)驗(yàn)證數(shù)據(jù)集的客觀對(duì)比結(jié)果,可以看出:相較于傳統(tǒng)模型算法,GSTFC 模型對(duì)多景深圖像序列的聚焦測(cè)量在客觀指標(biāo)對(duì)比中具有良好的表現(xiàn)。圖3 則展示了不同模型的三維重建結(jié)果可視化對(duì)比。

表3 不同模型在傳統(tǒng)數(shù)據(jù)集上的對(duì)比結(jié)果Tab.3 Comparison results of different models on traditional datasets

圖3 不同模型的重建結(jié)果可視化對(duì)比Fig.3 Visualized comparison of reconstruction results of different models
Base-Line 數(shù)據(jù)集以富紋理場(chǎng)景為背景并使用常見的深度形狀模擬生成,能考驗(yàn)各模型對(duì)聚焦區(qū)域的精準(zhǔn)判斷。GSTFC 相較于對(duì)比模型在4 個(gè)評(píng)價(jià)指標(biāo)中均有優(yōu)異表現(xiàn);SF的深度邊緣信息存在噪點(diǎn);TENV 和DLAP 緩解了SF 的邊緣噪聲問題但聚焦測(cè)量仍存在不足;FDC 根據(jù)場(chǎng)景中的高低信息判斷聚焦離焦,無法區(qū)分場(chǎng)景自身的高頻和聚焦高頻,在后續(xù)實(shí)驗(yàn)中同樣表現(xiàn)較差。GC 主要根據(jù)場(chǎng)景信息輔助深度判斷,對(duì)雜亂無章的背景無法鑒別導(dǎo)致它的表現(xiàn)結(jié)果差;RDF 和RFVR-SFF 在聚焦區(qū)域測(cè)量的表現(xiàn)相對(duì)表現(xiàn)良好。
4D Light Field 數(shù)據(jù)集進(jìn)一步驗(yàn)證各模型對(duì)精細(xì)的場(chǎng)景結(jié)構(gòu)的判斷能力。GSTFC 的抗噪性優(yōu)于RFVR-SFF,但在邊緣保持方面稍有不足;SF、TENV 和DLAP 預(yù)測(cè)的深度圖存在部分噪點(diǎn);GC 可以表達(dá)精細(xì)的場(chǎng)景結(jié)構(gòu)信息,但對(duì)多層深度嵌套表達(dá)不佳;RDF 對(duì)于聚焦測(cè)量不及RFVR-SFF。GSTFC模型對(duì)于場(chǎng)景的結(jié)構(gòu)表達(dá)優(yōu)于其他傳統(tǒng)方法。
POV-Ray 數(shù)據(jù)集關(guān)注場(chǎng)景中的物體遮擋。在該數(shù)據(jù)集中,GSTFC 相較于其他傳統(tǒng)模型在部分區(qū)域表現(xiàn)良好;SF、TENV 和DLAP 在預(yù)測(cè)過程中無法區(qū)分場(chǎng)景的細(xì)節(jié)紋理;GC可以分辨場(chǎng)景中的細(xì)節(jié)信息但深度值不夠精確;RFVR-SFF和RDF 對(duì)于前后背景的遮擋表現(xiàn)不佳。GSTFC 模型在整體結(jié)構(gòu)表達(dá)上表現(xiàn)良好,但在細(xì)微結(jié)構(gòu)的深度預(yù)測(cè)稍有不足。
SLFD and DLFD 數(shù)據(jù)集關(guān)注各模型對(duì)弱紋理背景的處理,GSTFC 模型引入多景深圖像序列的全局時(shí)空特征,有助于提取場(chǎng)景中弱紋理區(qū)域之間的對(duì)比關(guān)系,同時(shí)降低了噪聲對(duì)結(jié)果的影響。GSTFC 模型在該數(shù)據(jù)集的弱紋理區(qū)域預(yù)測(cè)優(yōu)于對(duì)比的傳統(tǒng)模型。
由于基于深度學(xué)習(xí)的三維形貌重建算法依賴數(shù)據(jù)集的可擴(kuò)展性,本節(jié)中僅展示與傳統(tǒng)模型的對(duì)比。為評(píng)估采樣頻率對(duì)各模型的影響,使用SLFD and DLFD 數(shù)據(jù)集展示不同采樣頻率下各模型的三維形貌重建能力。為保證實(shí)驗(yàn)對(duì)比的公平性,僅使用采樣頻率為100 的DFF 數(shù)據(jù)集訓(xùn)練,在測(cè)試過程中僅使用圖像復(fù)制操作補(bǔ)齊。多景深三維形貌重建的最佳采樣是針對(duì)待測(cè)場(chǎng)景的層次結(jié)構(gòu)依次采樣,以保證聚焦度量的唯一性并完整呈現(xiàn)待測(cè)場(chǎng)景的三維形貌。當(dāng)對(duì)待測(cè)場(chǎng)景進(jìn)行富采樣時(shí),多余的離焦圖像會(huì)攜帶干擾聚焦算子,并影響最終的場(chǎng)景分層數(shù);而稀疏采樣時(shí),不足的聚焦圖像序列難以保證離焦區(qū)域的深度信息。由此可見,多景深三維形貌重建模型在同一場(chǎng)景不同采樣頻率的重建效果不一,并由于各模型的聚焦測(cè)量算子和深度修復(fù)算法不同,各模型的三維形貌重建效果峰值不一。圖4 為隨機(jī)場(chǎng)景下采樣頻率由10 到100 逐次遞增10 時(shí)各模型的性能對(duì)比,可以看出GSTFC 在多數(shù)采樣頻率下優(yōu)于RDF 和RFVR-SFF。圖5 為采樣頻率r=2,5,…,100 時(shí),各模型的三維重建效果。

圖4 不同采樣頻率下各模型性能對(duì)比Fig.4 Comparison of performance of different models at different sampling frequencies

圖5 稀疏性對(duì)比實(shí)驗(yàn)結(jié)果Fig.5 Comparison experimental results of sparsity
當(dāng)r=1 時(shí),多景深三維形貌重建退化為單圖像深度估計(jì),無法利用現(xiàn)有的深度線索。當(dāng)r=2 時(shí),GSTFC 模型不僅可以辨別前景和背景的關(guān)系,還可以表達(dá)場(chǎng)景的部分過渡信息,而RDF 和RFVR-SFF 僅能觀測(cè)到簡(jiǎn)單的前后關(guān)系,無法理解場(chǎng)景內(nèi)容;當(dāng)r=5 時(shí),GSTFC 模型已經(jīng)可以對(duì)場(chǎng)景中前后層次有良好的表達(dá),而RDF 和RFVR-SFF 同樣能表達(dá)層次關(guān)系,但由于無法提取序列關(guān)系并未顯示出聚焦和離焦的過渡關(guān)系,還存在大量噪點(diǎn)無法處理;當(dāng)r=10,30,50,100 可以逐漸覆蓋整個(gè)場(chǎng)景時(shí),GSTFC 模型有良好的場(chǎng)景細(xì)節(jié)刻畫和前景背景分離能力,可以保留更多的景深過渡關(guān)系。
相較于其他深度線索的三維形貌重建方法,基于多景深圖像序列的三維形貌重建方法高效利用圖像攜帶的場(chǎng)景信息和聚焦信息,較高的重建效率和較低的應(yīng)用成本有利于該方法在更多的場(chǎng)景適用。本文提出全局時(shí)空特征耦合(GSTFC)模型注重提取多景深圖像序列之間的聚焦與離焦的過渡信息和場(chǎng)景結(jié)構(gòu)信息。相較于現(xiàn)有的深度學(xué)習(xí)模型和傳統(tǒng)的三維形貌重建模型具有更加精準(zhǔn)的聚焦測(cè)量,并在弱紋理場(chǎng)景中表現(xiàn)良好。未來研究主要聚焦于以下兩方面:1)如何將場(chǎng)景結(jié)構(gòu)信息注入神經(jīng)網(wǎng)絡(luò)中,使網(wǎng)絡(luò)模型可以自適應(yīng)多場(chǎng)景應(yīng)用。2)如何對(duì)多景深圖像序列提前作預(yù)處理操作,在保留關(guān)鍵信息的同時(shí)降低網(wǎng)絡(luò)輸入量,進(jìn)一步降低成本量并提升網(wǎng)絡(luò)效率。