李明陽,陳 偉+,王珊珊,黎 捷,田子建,張 帆
1.中國礦業大學 計算機科學與技術學院,江蘇 徐州221116
2.中國礦業大學 礦山數字化教育部工程研究中心,江蘇 徐州221116
3.中國礦業大學(北京)機電與信息工程學院,北京100083
三維數字內容是虛擬仿真、混合現實等的基本構成要素[1]。三維重建作為計算機圖形學的基本問題,在近些年逐漸結合計算機視覺深度學習技術后又得到長足的發展。在基于視覺進行三維重建前,傳統三維重建利用傳統測量工具和方法對待測物體逐一進行測量,操作困難、繁瑣。
得益于光電技術的發展,主動式感知技術進行三維重建的方法取得一些突破[2]。在采集三維圖像結構過程中和場景發生互動,比較常用的兩個方法是結構光和激光掃描。結構光指設備會主動發出一種提前編輯好的固定的光波,這個光波會因為一些物體表面深度的不同而發生扭曲,通過分析這些光的形變就可以得到物體的表面幾何結構。如Kinect儀器和iPhone 手機用的就是結構光的技術。激光掃描是大家比較熟悉的技術,在自動駕駛中應用激光掃描方式比較多。它的原理就是發生一束和多束激光,然后通過計算激光發射和回收的時間差,可以知道與反射點的距離。
由于三維激光掃描儀的價格十分昂貴,Garcia 利用結構光進行三維重建[3],但是得到準確的深度圖依舊是十分困難和復雜的一項工作。相比起來,通過視覺方法重建獲取目標三維數據,再根據實際需要解算、提取所需信息會更加便捷與可靠[4]。
典型的視覺三維重建方法,例如基于單幅圖像三維重建,僅靠單張數碼影像提取目標的顏色、形狀、共面性等二維、三維幾何信息[5]。雙目立體視覺技術進行三維重建是通過模仿人眼視覺系統對物體進行三維感知,基本原理是從兩個或多個視點觀察同一景物,以獲取在不同視角下的感知圖像,通過三角測量原理計算圖像像素間的位置偏差來獲取景物的三維信息[6]。相比于主動式感知技術,雙目立體視覺技術具有設備簡單、成本低和效率高的優勢,因此雙目立體匹配技術在數十年里是計算機視覺領域中的熱點問題,并且獲得一系列的進展[1]。
傳統的三維重建方法雖然已經廣泛地應用于生產生活中,然而傳統機器學習方法由于學習方式、學習設備等條件的制約,存在如下難以避免的缺點:傳統的三維重建方法需要較多的人力資源進行監督;同時面對多個形狀修改與生成任務時,無法精確地識別對象形狀的幾何與拓撲結構差異;出現精細的幾何細節時,由于無法實現全局性操作,三維重建的準確性不夠高;由于無法輸出各個部件的關系,對3D形狀的結構編號進行建模的難度較高。隨著深度學習方法的迅速發展,有研究者將其與傳統三維重建相結合,取得較好的結果。深度學習在數據處理、幾何推斷、結構推理、語義理解等多個層次為三維重建帶來深刻變革和全新挑戰[1]。Eigen 團隊[7]是使用深度學習進行深度圖估計的開山團隊,本文總結自2014 年David 第一次使用卷積神經網絡(convolutional neural networks,CNN)進行三維重建開始,深度學習領域基于視覺的三維物體重建最新方法及未來趨勢,探討深度學習是如何實現更加智能、靈活和通用的三維內容生成,實現從三維表征重建到高層幾何結構推理的完整建模,如圖1 所示。
在三維重建的完整過程中,生成的三維模型采取的數據結構是基于深度學習的三維重建至關重要的基礎[8]。三維數據結構的表達方式主要分為:
(1)將三維幾何體表示為多視點投影的二維圖像;
(2)直接在原始的三維數據上進行描述表示,例如體素、點云、曲面網格、隱式曲面等,如圖2 所示。
Su 等人[9]最早設計多視圖卷積神經網絡(multiview CNN,MVCNN)模型提取二維投影圖像的卷積特征,通過多視點融合來實現三維表征學習,并且將物體的三維數據從不同“視角”所得到的二維渲染圖作為原始的訓練數據。該團隊證明用經典、成熟的二維圖像卷積網絡訓練出的模型,對三維物體的識別、分類效果好于用三維數據直接訓練出的模型。隨后Qi 等人在MVCNN 的基礎上,通過增加更多的訓練樣本和設計新的多分辨率的組件,改進MVCNN的結果[10]。
Maturana 等人最早提出的VoxNet 網絡,利用三維卷積神經網絡來對被目標物體占用的網格體素進行處理,可以每秒對幾百個實例進行標注[11]。Wu 等人[12]直接在三維體素上設計3D ShapeNets 模型進行三維卷積操作,如圖3 所示,從原始CAD 數據中學習復雜的3D 形狀在不同對象類別和任意姿勢中的分布,并自動發現分層組成部分表示。

圖3 3D ShapeNets示意圖Fig.3 3D ShapeNets diagram
體素輸出允許使用規則體素網格對三維形狀進行參數化。因此,在圖像分析中使用的二維卷積可以很容易地擴展到三維。盡管可以得到顯著優于傳統三維重建方法的結果,但是使用體素作為存儲結構,卷積的計算和存儲開銷非常大。為應對體素存儲方法導致的這些問題,Qi 等人[10]在Wu 等人研究的基礎上,提升模型的分類精度,避免維數災難[13]。Li等人[14]將三維形狀表示成體素場來解決三維體素表示的稀疏性問題,并提出用一個場探索濾波器取代CNN 中的卷積層來學習特征。微軟亞洲研究院的Wang 等人[15]設計O-CNN 以八叉樹的數據結構自適應體卷積技術,將對平面的計算限定在平面的附近。該方法有效地將八叉樹信息和CNN 特征存儲到圖形存儲器中,大幅度節省體素計算的開銷。
Qi 等人設計一種直接對三維點云進行卷積操作的新型神經網絡PointNet[16],如圖4 所示,其分類網絡以N個點為輸入,進行輸入變換和特征變換,通過最大池化來聚合點特征,輸出是K個分類分數。分類網絡保證了輸入點的置換不變性,獲得了比其他模型更好的結果。

圖4 PointNet結構:多層感知機Fig.4 PointNet structure:multilayer perceptron
在計算機圖形學領域中,三角形網格是最通用的三維幾何表示[1]。Sinha 等人[17]將三維形狀參數化到球形表面,進而將球形表面投影到八面體后展開成二維平面,最后采用卷積神經網絡從二維平面中學習特征表示。Rakotosaona 等人[18]提出從點云中重建三角形網格?,F有的基于學習的網格重建方法大多單獨生成三角形,因此很難創建流形網格。首先估計每個點周圍的局部測地線鄰域,利用2D Delaunay三角剖分的屬性從流形表面元素構建網格。該方法與當前重建具有任意拓撲結構的網格的方法相比可以實現更好的整體流形。
深度隱式曲面函數(deep implicit functions surface,DIF)是三維形狀表示的一種方法,因結構緊湊,表示能力強,在三維視覺領域越來越受歡迎。但與其他模型不同,如何在DIF 表示的形狀之間推理出密集的對應關系或其他語義關系仍然是一個難題。Mescheder 團隊[19]提出基于深度學習的三維重建新方法Occupancy Networks,將三維表面隱式表示為深度神經網絡分類器的連續決策邊界,且對于從單個圖像、嘈雜的點云和粗糙的離散體素網格進行三維重建的挑戰性任務都取得優秀的成果。Zheng 等人[20]提出全新的3D 形狀表示法DIT(deep implicit templates),如圖5 所示。DIF 支持深層隱式表征中的顯式對應推理,同時也更具可解釋性。

圖5 DIT 的顯式對應推理過程Fig.5 Explicit correspondence reasoning process of DIT
Erler等人[21]提出Points2Surf模型,這是一種新穎的基于塊的學習框架,可直接從沒有法線的點云中生成準確的隱式曲面。在不可見的類別上比最先進的方案具有明顯的優勢,代價是計算復雜,并且在小規模拓撲噪聲略有增加。
三維數據結構表達方式總結如表1 所示。

表1 三維數據結構表達方式總結Table 1 Summary of 3D data structure expression
三維數據的深度特征表示給深度學習的三維重建奠定基礎。隨著數據結構研究的深入,三維重建的網絡構建也在不斷地發展。根據生成模型的數據結構的不同對網絡構建進行分類,還根據訓練時的監督情況和對同一物體采用的視角數量(單/多)來進行分類,如表2 所示。

表2 三維表征重建分類Table 2 Classification of 3D representation reconstruction
基于體素卷積神經網絡構建深度置信網絡,美國普林斯頓大學的Wu 等人[12]提出第一個深度三維生成模型3D ShapeNets。基于Wu的工作,Girdhar等人[22]提出一種稱為TL 嵌入網絡的新架構,可以基于單幅影像處理從二維圖像生成三維體素模型。同類型的工作還有,Choy 等人[23]設計一個神經網絡架構實現基于體素的物體三維重建,提出一個擴展的標準長短期記憶人工神經網絡(long short-term memory,LSTM)[24]框架,稱為三維遞歸重建神經網絡。OGN(octree generating networks)[25]直接在體素網格上預測輸出,允許使用八叉樹來有效地表示八叉空間從而預測更高分辨率的形狀。Google的Rezende等人[26]提出一種無監督學習的三維重建模型,可以同時應用于體素和網格三維數據結構。
Stutz 等人[27]提出一種基于弱監督學習的三維形狀補全方法。首先在合成數據上經過一次訓練,然后使用深度神經網絡進行最大似然擬合,從而在不犧牲準確性的情況下實現有效的形狀補全,既不需要緩慢優化也不需要直接監督。同樣是無監督學習三維重建,Yan 等人[28]提出利用投影變換作為正則化的編-解碼器網絡進行3D 形狀和2D 圖像交互。
來自MIT 的Wu等人[29]提出的3D-GAN 首次通過生成對抗網絡(generative adversarial networks,GAN)[30]的方式學習得到三維形狀空間,實現三維模型的隨機生成。與之前取得突破性進展的基于體素卷積神經網絡的方法相比,可以合成具有詳細幾何圖形的高分辨率三維體素結構。
同樣是MIT 的Wu 等人[31]采用分解思想提出MarrNet,將三維重建轉換為先估計2.5D 的草圖再估計3D 形狀。優點是在2.5D 的草圖更容易從2D 圖像中生成,同時2.5D 草圖的模型轉移到真實數據要更簡單。
Ji 團隊[32]提出SurfaceNet 框架,關鍵優勢在于能夠以端到端的方式直接學習光一致性以及表面結構的幾何關系,通過計算相機參數和使用體素表示三維物體,實現多視圖立體視覺。
Kar等人[33]提出可微分的多視圖立體幾何(multiview stereo,MVS),如圖6 所示,用于學習從多視點圖像生成三維幾何,為后來大量以MVS 為基礎的深度學習工作奠定基礎。雙目立體視覺技術具有成本低、適用性廣的優點,在物體識別、目標檢測等方面應用廣泛,成為計算機視覺領域的研究熱點[34]。Huang團隊[35]在MVS 的基礎上,提出用于多視圖立體重建的深度卷積神經網絡DeepMVS,效果優于最先進的傳統MVS 算法和其他基于卷積神經網絡的方法。但是同年同樣是基于MVS,香港科技大學的權龍教授團隊[36]提出的MVSNet 在戶外數據集Tanks and Temples[37]上取得優異的成績,采用雙目立體匹配的深度估計方法[38],擴展到多張圖片的深度估計,使用三維卷積操作基于可微分的單應性變換的代價匹配體(cost volume)。權龍團隊又在第二年對MVSNet做出進一步改進[39],將三維卷積神經網絡改進為GRU時序網絡[40],大幅度降低顯存的消耗。

圖6 MVSNet網絡設計Fig.6 Network design of MVSNet
點云可以被視為來自三維點分布的樣本,其密度集中在形狀的表面附近,點云生成相當于將隨機采樣點移動到高密度區域。隨著三維數據的深度特征表示的發展,在2017 年Qi 團隊提出PointNet[16]后,基于體素卷積神經網絡去構建深度學習網絡逐漸被基于點云和曲面網格的神經網絡所取代,之后的模型訓練和結果輸出大都基于點云和曲面網格?;赑ointNet 模型,Fan 團隊[41]成功引入點云結構作為三維重建的輸出結果,不僅可以在基于單幅圖像的三維重建基準上優于最先進的方法,也展現出強大的三維形狀補全性能和合理預測的潛力。
Achlioptas 等人[42]針對點云幾何數據,引入具有最先進三維重建效果和泛化能力的深度自編碼器(autoencoder)[43]網絡。通過簡單的代數操作實現形狀編輯,在原始點云上對Wu 團隊提出的3D-GAN 進行顯著改進。Yang 等人[44]在PointNet 模型的基礎上提出一種新的端到端深度自動編碼器FoldingNet 來解決點云上的無監督學習挑戰。提出的解碼器僅使用具有完全連接的神經網絡的解碼器大約7%的計算量,實現更高的線性支持向量機(support vector machine,SVM)[45]分類精度。
Yang團隊[46]提出使用概率框架(probabilistic framework)構建的生成模型PointFlow,學習一個兩級分布層次(two-level hierarchy),其中第一級是形狀的分布,第二級是給定形狀的點的分布。對形狀進行采樣并從形狀中采樣任意數量的點,通過連續的歸一化流學習分布的每個級別,以無監督的方式進行三維重建,在點云生成中實現當時最先進的性能。點云三維重建的方法往往會生成模糊的點云并且無法生成孔洞,針對這一問題Kimura 團隊[47]提出Chart-PointFlow 生成模型,這是一種基于流的生成模型,具有多個潛在標簽并將每個標簽都以無監督的方式進行分配用于三維點云,使得提出的模型能夠保留邊界清晰的拓撲結構。同時ChartPointFlow 使用圖表將對象劃分為語義子部分,在無監督分割的情況下表現出卓越的性能。Klokov 團隊[48]引入一個潛在變量模型,該模型建立在具有仿射耦合層的標準化流的基礎上,可以在給定潛在形狀表示的情況下生成任意大小的3D 點云。與最近基于連續流的工作相比,Klokov 團隊的模型在訓練和推理時間方面提供顯著的加速,以獲得相似或更好的性能。
與MVS 方法大都采用代價匹配體方法不同的是,Chen團隊[49]提出PointMVSNet改進多視圖立體幾何深度框架,將目標場景處理為點云。這種基于點的架構比基于代價匹配體的架構具有更高的準確性、更高的計算效率和更大的靈活性。Luo 等人[50]提出的P-MVSNet 對MVSNet 的改進主要在于首先用一個聚合模塊(patch-wise)提取特征的像素級對應信息以生成匹配的置信量,然后混合3D U-Net 從中推斷出深度概率分布和預測深度圖。
Xie 團隊[51]針對無序點云提出基于能量的生成模型Generative PointNet。通過基于馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo)的最大似然學習進行訓練,而無需任何輔助網絡的幫助;不需要任何手工制作的點云生成距離度量,根據能量函數定義的統計屬性匹配觀察到的例子來合成點云,生成的點云表示三維模型十分適用于點云語義分割。
Spurek 團隊[52]提出一種利用超網絡特性生成三維點云的新模型HyperCloud,其主要思想是構建一個超網絡,經過訓練將點從統一的單位球分布映射到3D 形狀,允許以生成方式找到3D 對象的基于網格的表示,同時通過最先進的方法提供高質量的點云。Cai團隊[53]提出通過在未歸一化的概率密度上執行隨機梯度上升來生成點云,從而將采樣點移向高似然區域[54],直接預測對數密度場的梯度,并且可以使用從基于分數的生成模型改編的簡單目標進行訓練。Luo 等人[55]將點云中的點視為與熱浴接觸的熱力學系統中的粒子,將點云生成視為學習將噪聲分布轉換為所需形狀分布的反向擴散過程,將點云的反向擴散過程建模為以特定形狀為條件的馬爾可夫鏈[56],推導出封閉形式的變分界用于訓練并提供模型的實現,取得有競爭力的性能。
Groueix 等人[57]提出一種生成三維曲面網格表面的生成框架AtlasNet,將三維形狀表示為參數化曲面元素的集合,自然地推斷出形狀的曲面表示。該方法相比于生成體素網格或點云的方法具有顯著的優勢,比如更高的準確性、更好的泛化能力,以及在生成任意分辨率的形狀時避免內存占用問題。Wang 等人[58]提出Pixel2Mesh 模型,可以從單色圖像生成曲面三維三角形網格,通過利用從輸入圖像中提取的感知特征逐漸變形橢圓體來產生正確的幾何形狀。該方法不僅定性地生成具有更好細節的網格模型,而且還實現了更高的三維重建精度。Kong 等人[59]采用正交匹配追蹤[60]快速選擇字典中與投影圖像最接近的單個CAD 模型,在合成三維網格重建方面取得了不錯的效果。
Chen 等人[61]提出用隱式場來構建形狀學習的生成模型(如圖7 所示),并引入一種稱為IM-NET 的隱式場解碼器替換傳統解碼器進行表示學習和形狀生成,得到在生成形狀建模、插值和單視圖三維重建等任務中領先的結果。Niemeyer 等人[62]提出一種用于隱式形狀和紋理表示的可微分渲染[63]公式。其主要觀點是,可以使用隱式微分的概念通過分析推導出深度梯度,使人們能夠直接從RGB 圖像中學習隱式形狀和紋理表示。Jiang 等人[64]專為可擴展性和通用性而設計的新三維形狀表示設計局部隱式網格。該團隊將解碼器用作形狀優化中的一個組件,在重疊裁剪的規則網格上求解一組潛在代碼,以便解碼后的局部形狀的插值與部分或嘈雜的觀察相匹配,證明這種從稀疏點觀察進行三維表面重建的方法比替代方法有明顯更好的結果。

圖7 IM-NET 網絡示意圖Fig.7 Network diagram of IM-NET
隱式場表示提供有效的三維重建方法,它基于專用于訓練集中所有對象的單個神經網絡,導致在現實世界中其訓練過程和應用十分繁瑣。更重要的是,隱式解碼器僅采用在體素內采樣的點,這會在分類邊界產生問題并導致渲染網格內出現空白空間。針對這些問題,Proszewska 團隊[65]引入基于區間算術網絡的HyperCube 架構,它可以直接處理三維體素,使用超網絡范式進行訓練以強制模型收斂,允許輸入以其凸包坐標表示的整個體素(三維立方體),由超網絡構建的目標網絡將其分配給內部或外部類別。
三維表征重建總結如表3 所示。

表3 三維表征重建總結Table 3 Summary of 3D representation reconstruction
前文總結的基于深度學習的三維表征重建方法主要針對基于結構無關的幾何表示,目的是生成準確的三維表征數據,對模型的拓撲和結構的合理性并沒有做過多的關注。大部分此類工作生成的是非結構化的三維物體,但是結構相關的三維表示應是部件相關(part-aware)的[1,69]。結構化的表達對于感知和理解三維物體是很重要的,如物體不同組件的構成、關系等。針對深度學習進行三維模型幾何構建的挑戰在于如何適應不同的形狀變化,包括零件的連續變形以及結構或離散變化,這些變化包括增加、去除或修改形狀成分和組成結構。
Li 等人[70]提出GRASS(generative recursive autoencoders for shape structures)模型(如圖8 所示),最早將模型用一組具有層級結構的體素來表述三維模型部件,通過遞歸神經網絡編碼為一串隱向量特征,然后進行模型混合,最后把層級結構模型復原為連續的模型,使網絡學習到部件本身的拓撲和結構特征?;贚i 等人[70]的研究,該遞歸神經網絡模型被Han 等人[71]應用于單幅圖像的三維幾何結構合成,利用兩個獨立的全連接層分支,為雙線性人臉重建生成獨立的系數和子集,實現低成本交互式面部建模。

圖8 GRASS 模型遞歸神經網絡Fig.8 Neural network recurred by GRASS model
Gao 等人[72]提出生成結構化可變形網格的深度生成神經網絡(deep generative network for structured deformable mesh,SDM-NET),一個兩級變分自編碼器(variational auto encoder,VAE)[43]。該網絡聯合學習形狀集合的零件結構和零件幾何形狀,確保全局形狀結構和表面細節之間的一致性。SDM-NET 在生成具有視覺質量、靈活拓撲和有意義結構的網格方面的優越性,有利于形狀插值和其他后續建模任務。Wu 等人[73]同樣是使用VAE 構建一種用于3D 形狀的結構感知生成模型(structure-aware generative network,SAGNET)。該網絡將幾何形狀和拓撲結構通過自動編碼器聯合學習并嵌入到潛在空間中,解碼器解開特征并重建3D模型的幾何和結構。Sitzmann團隊[74]提出場景表示網絡(scene representation network,SRN),一種連續的具有3D 結構意識的場景表示,可對幾何形狀和外觀進行編碼,并將場景表示為連續函數,將世界坐標映射到局部場景屬性的特征表示。通過將圖像生成為可微分的光線行進算法,SRN 可以僅從2D 圖像及其相機姿態進行端到端訓練,但是無法獲得深度或形狀。
Mo 等人[75]提出分層圖網絡StructureNet,通過圖神經網絡,提出N元圖的順序不變編碼,在網絡訓練期間聯合考慮部件幾何和部件間拓撲關系,具有生成新穎、多樣且逼真的三維形狀以及相關零件語義和結構的能力。第二年,該團隊又提出新的網絡StructEdit[76],一種以源形狀為條件基于編碼和解碼形狀增量的條件變分自動編碼器,可以有效和穩健地在多個形狀修改和生成任務中學習對普通對象形狀的幾何和拓撲結構的差異。
Chen 等人[77]設計BSP-Net模型,利用空間數據結構二進制空間分區(binary space partitioning,BSP)對空間進行遞歸細分以獲得凸集表示三維形狀的網絡。BSP-Net 推斷出的凸面可以很容易地提取形成多邊形網格,而無需任何等值曲面,同時其生成的網格很緊湊,非常適合表示銳利的幾何圖形。
Chen 等人[78]提出多分辨率深度隱式函數(multiresolution deep implicit functions,MDIF),一種采用分層表示且同時表示不同層次的細節并允許漸進解碼的深度隱函數模型。該模型可以恢復精細的幾何細節,同時能夠執行形狀完成等全局操作;可以表示具有潛在網格層次結構的復雜3D 形狀,將其解碼為不同的細節級別,并且還可以獲得更好的準確性。
Wu 等人[79]提出PQ-NET(part seq2seq network),一個基于序列化部件組裝的三維形狀表達和生成網絡,以線性結構而非層級結構來表達結構化的三維形狀。PQ-NET 一個最大的缺點是并沒有輸出各個部件之間的關系,例如對稱、相鄰等。這些關系更容易通過層級結構來表達,但代價是需要足夠多的標注數據。Li 等人[80]使用零件感知深度生成網絡對三維形狀變化進行建模。該網絡由一組所有部件的變分自編碼器生成對抗網絡組成,生成構成完整形狀的語義部件,然后對模塊進行部件組裝成一個合理的結構。通過將零件組成和零件放置的學習委托給單獨的網絡,降低對3D 形狀的結構變化進行建模的難度。
最新的研究將遷移學習3D 數據的預訓練引入三維幾何重建中來。Eckart 團隊[81]提出一種用于3D 自監督表示學習的通用方法,將3D 點輕輕地分割成離散數量的幾何分區。該團隊在這些軟分區中,隱式參數化生成潛在高斯混合模型[82],并且在該生成模型建立的數據似然函數的解釋下,形成自監督損失。通過最大化由無監督逐點分割網絡形成的軟分區的數據可能性,鼓勵學習的表示組成豐富的幾何信息。
三維模型幾何構建方法總結如表4 所示。

表4 三維模型幾何構建方法總結Table 4 Summary of 3D model geometry construction methods
Dai團隊[83]最早通過體積深度神經網絡和三維形狀合成的組合來進行三維補全。引入一個由3D 卷積層組成的3D 編碼預測網絡推斷出低分辨率但完整的輸出。在測試時將這些中間結果與來自真實目標的三維幾何相關聯。最后提出一種基于塊匹配(Patch-Based)[84]的三維形狀合成方法。該方法將來自真實目標的三維幾何圖形作為粗略網格的約束。這種合成過程使人們能夠在獲得的全局網格結構的同時重建精細尺度的細節并生成高分辨率輸出。Han團隊[85]在這種數據驅動方法的基礎上,結合全局結構推理網絡和局部幾何細化網絡構建新的深度學習架構。全局結構推理網絡包含一個長短期記憶上下文融合模塊(long short-term memory-networks for machine reading,LSTM-CF)[86],該模塊根據作為輸入的一部分提供的多視圖深度信息來推斷形狀的全局結構。在全局結構網絡的引導下,局部幾何細化網絡將缺失區域周圍的局部三維補丁作為輸入,并逐步產生高分辨率的模型,通過體素編-解碼器架構完成三維補全。
Yuan 團隊[87]提出一種基于學習的形狀完成新方法——點完成網絡(point completion network,PCN)。與現有的點云形狀補全方法不同,PCN 直接對原始點云進行操作,在沒有任何關于底層形狀的結構假設或注釋情況下設計解碼器,保持少量參數的同時生成細粒度的點云。PCN 在具有各種不完整性和噪聲水平的輸入的缺失區域中生成具有真實結構的密集、完整的點云。
全局表示經常受到不完整點云局部區域結構細節信息丟失的影響,為解決這個問題,Wen 等人[88]提出用于3D點云補全的SA-Net(skip-attention network)模型。Wen 等人提出一種skip-attention 機制,以在缺失部分的推理過程中有效地利用不完整點云的局部結構細節,并且提出一種新穎的結構保留解碼器,以實現在不同分辨率下充分利用由跳過注意機制編碼的選定幾何信息。通過在相同分辨率下使用跳過注意的幾何圖形,逐步詳細說明局部區域來保留上層生成的完整點云的結構。
點云的無序特性會降低高質量3D 形狀的生成,因為僅使用潛在代碼的生成過程很難捕獲離散點的詳細拓撲和結構。Wen 團隊[89]將形狀補全表述為點云變形過程,設計一個新型神經網絡來移動不完整輸入的每個點以完成點云,其中點移動路徑[90]的總距離最短。網絡根據點移動的總距離的約束為每個點預測唯一的點移動路徑,可以捕捉到不完整形狀和完整目標之間的詳細拓撲和結構關系,從而提高預測的完整形狀的質量。以往的非配對補全方法只注重學習從不完整形狀到完整形狀的幾何對應關系,而忽略反方向的學習。為解決這個問題,Wen 團隊[91]又提出Cycle4Completion 網絡,通過學習從互補的形狀中生成完整或不完整的形狀來促進網絡理解3D 形狀,實現完整形狀和不完整形狀的潛在空間之間的兩個同時循環轉換。
Huang 等人[66]提出一種新的基于深度學習的點云精確高保真完成方法PFNet。該方法不同于現有的點云補全網絡,它從不完整的點云中生成點云的整體形狀,在保留不完整點云的空間布局的同時預測出缺失點云的詳細幾何結構。
Park 等人[92]引入DeepSDF(deep signed distance functions)模型,將不完整和低質量的三維輸入數據進行高質量的形狀生成、插值和補全。與之前的工作相比,該方法極大地提升三維形態再生成的性能,同時還將模型大小減少一個數量級。Liu 等人[93]通過引入隱式移動最小二乘法(implicit moving leastsquares functions,IMLS)[94]表面公式將離散點云轉換為平滑表面,將IMLS 表面生成結合到深度神經網絡中,以繼承點云的靈活性和隱式表面的高質量,在三維重建質量和計算效率方面取得突破性進展。
Genova 等人[95]引入局部深度隱函數(local deep structured implicit functions,LDIF)結構化的隱式場,采用多個隱式函數的融合來表示三維幾何,同時蘊含幾何和拓撲信息。該方法可以實現準確的三維表面重建、緊湊的存儲、高效的計算、相似形狀的一致性、跨不同形狀類別的泛化以及從深度相機觀察中進行推斷。
三維補全與修復方法總結如表5 所示。

表5 三維補全與修復方法總結Table 5 Summary of 3D completion and repair methods
使用深度學習表示對剛性3D 對象進行建模取得重大進展,然而對于動態非剛體重建依舊面臨重重挑戰。人體是復雜的,人體三維重建最大的挑戰在于學習一個能夠以看不見的、高度清晰的姿勢表達看不見的主體的身體形狀變化。
動態人體的自由視角視頻有很多應用,包括電影工業、體育直播和遠程視頻會議。在一些綜藝類節目中實現類似子彈時間的特效,對于靜態物體,這是可以做到的,一般是對著靜止的物體拍一圈圖片。為拍攝稠密多視角視頻,之前的方法需要昂貴的相機陣列來進行捕捉。視角合成方法主要是神經隱式表示(neural implicit representation,NeRF)[96]的技術手段,實現這個技術的設備特別昂貴,而且使用還很不方便,一般只在電影拍攝時用到。NeRF[96]只能處理靜態場景?,F在大部分視角合成工作是對每個靜態場景訓練一個網絡,對于動態場景,上百幀需要訓練上百個網絡,成本很高。并且對于動態場景來說,工作人員無法要求演員靜止來讓人們給他拍一圈 圖。Kinect Fusion 提 出 的Dynamic Fusion[97],使 用單個Kinect進行深度序列拍攝,創造性地將體融合三維重建技術和嵌入式變形圖模型的表面非剛性跟蹤技術糅合在一起,在GPU 上演算,進而實現實時單視角動態場景三維重建。但是Kinect 傳感器同樣也存在著設備昂貴、操作復雜的缺點。
Corona團隊[98]設計一種新穎的生成模型SMPLicit,用于聯合表示身體姿勢、形狀和服裝幾何形狀。與需要為每種類型的服裝訓練特定模型的基于深度學習的三維重建方法相比,該模型能夠以統一的方式表示不同的服裝拓撲,同時控制其他屬性,如服裝尺寸或松緊或松散,并且在潛在空間的語義上可解釋并與服裝屬性對齊,模型是完全可微的,可用于更大的端到端可訓練系統。
隱式曲面首次引入人體三維重建是來自日本的Saito 團隊[99]。該團隊引入一種高效的隱式表示像素對齊隱式函數,將2D 圖像的像素與其對應的3D 對象的全局上下文局部對齊,提出一種端到端的深度學習方法,可用于重建穿著完整衣服的人。該方法可以從單個圖像和可選的多個輸入圖像推斷3D 表面和紋理,并且可以生成高分辨率表面,包括大部分看不見的區域,例如人的背部。相比體素表示三維模型,隱式曲面方法的內存效率高,可以處理任意拓撲,并且生成的表面與輸入圖像在空間上對齊。Chibane 等人[68]提出隱式特征網絡IF-Nets 實現三維形態再生成,可以處理多種三維數據結構,以及缺失或稀疏輸入數據的完整形狀,保留最新深度學習隱式函數的良好特性和它出現在輸入數據中的細節,并且可以清晰地重建人體。
將參數化3D 身體模型[100-101]擬合到穿著衣服的人體掃描是容易處理的,而身體拓撲結構與掃描的表面配準通常則不然,因為衣服可能會顯著偏離身體形狀?;谶@一發現,時隔兩年,Saito 團隊[102]又提出SCANimate(skinned clothed Avatar networks)框架,一種弱監督學習方法。該方法通過在沒有基于模板的表面配準的情況下解開鉸接變形來將掃描對齊到規范姿勢,引入局部姿勢感知隱式函數,使用學習的姿勢來補全和建模人體。在訓練數據有限的情況下,局部姿態調節相比全局姿態嵌入顯著降低遠程虛假相關性[103]并提高對未知姿態的泛化能力,可以應用于姿勢感知外觀建模以生成完全紋理化的頭像。
Mihajlovic 團隊[104]提出一種新型的人體神經占用表示。給定一組骨骼變換(即關節位置和旋轉)和空間中的一個查詢點,首先通過學習的線性混合蒙皮函數將查詢點映射到規范空間,然后通過占用網
絡有效地查詢占用值,對規范空間中的準確身份和姿勢相關變形進行建模。該網絡極大程度提高了學習的占用表示對各種人體形狀和姿勢的泛化能力。
人臉建模在視覺計算領域備受關注。在多種場景下,包括卡通人物、社交化身媒體、3D 面部漫畫以及與面部相關的藝術和設計都需要進行人體重建,尤其是針對業余三維建模用戶,深度學習對于面部低成本交互式人臉三維重建是革命性的。
由于手工建模耗費大量的人力,三維成像儀器也得到長期的研究和發展?;诮Y構光和激光儀器的三維成像儀是其中的典型代表,這些基于儀器采集的三維模型,精度可達毫米級,是物體的真實三維數據,也正好用來為基于圖像深度學習的建模方法提供評價數據庫,缺點是儀器的成本太高。
人臉的三維模型以RGB 圖像作為輸入,重建相應的三維人臉網格。傳統方法為使得到的3D 模型更接近真實圖像,一般采用圖形學中基于柵格化的渲染來進行模型參數的優化。一方面,為盡可能地使模型逼近圖像,會采用更高自由度的參數化模型表達人臉的表面紋理;另一方面,在渲染結果比對上會采用模糊化的方式使渲染結果與圖像之間的差異以一種可微分的方式傳遞給3D 模型。
5.2.1 3DMM 技術
早期基于深度學習的三維人臉重建都是基于三維形變模型(3D morphable model,3DMM)的技術來實現。3DMM 就是一個允許形變的三維模型,原理是將世界上的所有人臉都看作由一個標準的人臉模型經過一些變形而生成。其強大之處在于不是依靠人工,而是給定兩組系數,分別是形狀系數、顏色系數。不同的3DMM 模型定義的系數有些許差別,如表6 所示,實際上,后面還延伸出一種表情系數。

表6 3DMM 系數定義及其含義Table 6 Definition and meaning of 3DMM coefficient
Zhu 團隊[105]最早通過級聯卷積神經網絡將密集的3D 可變形人臉模型(3DMM)[106]擬合到圖像,提出三維密集面部對齊(3D dense facial alignment,3DDFA)的新對齊框架,利用3D 信息在個人資料視圖中合成人臉圖像。Feng 團隊[107]提出直接同時重建3D 面部結構并提供密集對齊,設計一種稱為UV 位置圖的二維表示,它記錄UV 空間中完整人臉的3D 形狀,然后訓練一個簡單的卷積神經網絡以從單個2D 圖像中對其進行回歸。將權重掩碼集成到損失函數中,以提高網絡的性能,同時不依賴于任何先前的人臉模型,并且可以重建完整的人臉幾何形狀以及語義。
大部分方法都屬于有監督學習,需要大量的標注數據,而帶有真實3D 人臉形狀的圖片是相對比較稀少的,而且這種標注也費時費力,很難完成?;?DMM 技術,Deng 團隊[108]設計一種同時考慮重建的人臉模型渲染得到的圖片和輸入圖片的像素值應盡可能一致,以及重建的人臉模型渲染得到的圖片和輸入圖片的內在特征應盡可能一致的魯棒的損失函數。Genova 團隊[109]提出一種僅使用未標記照片訓練從圖像像素到3D 可變形模型坐標的回歸網絡的方法。訓練損失基于來自面部識別網絡的特征,通過使用可微渲染器預測的面部來即時計算。實現三個目標,鼓勵輸出分布與可變形模型的分布相匹配的批量分布損失,確保網絡可以正確重新解釋其自身輸出的環回損失,以及多視角身份損失,從多個視角比較預測的3D人臉和輸入照片的特征。Tewari團隊[110]將卷積編碼器網絡與用作解碼器的專家設計的生成模型相結合,構建新的可微參數解碼器。該團隊基于生成模型分析性地封裝圖像形成,將具有精確定義的語義的代碼向量作為輸入,對詳細的面部姿勢、形狀、表情、皮膚反射率和場景照明進行編碼,以無監督的方式進行端到端的訓練,使得對非常大的真實世界數據的訓練變得可行。
3D 人臉形狀重建的關鍵挑戰是在可變形網格和單個輸入圖像之間建立正確的密集人臉對應關系。以前的人臉三維重建工作嚴重依賴先驗知識(例如3DMM)來減少深度歧義。盡管最近3D 人臉重建取得令人印象深刻的結果,但投影的面部形狀更好地與每個面部區域(即眼睛、嘴巴、鼻子、臉頰等)在圖像上對應關系仍然有很大改進的空間。
Zhu 團隊[111]為進一步減少歧義,提出一種稱為強化可微屬性的新框架,它比以前的可微渲染更通用和有效。首先從顏色擴展到更廣泛的屬性,包括深度和面部解析掩碼。之后通過一組具有多尺度內核大小的卷積操作使渲染更具可區分性。進一步引入一個新的位于3DMM 之上的自由變形層,以提供先驗知識和進行空間外建模。
針對在卡通動漫領域的面部三維重建,Han 團隊[71]提出一種基于深度學習的草圖用于3D 面部和漫畫建模的系統。用戶徒手繪制代表面部特征輪廓的不精確的二維線條,基于CNN 的深度回歸網絡設計用于從2D 草圖推斷3D 人臉模型。該網絡融合輸入草圖的CNN 和基于形狀的特征,并且有兩個獨立的全連接層分支,為雙線性人臉表示生成獨立的系數子集。同時該團隊還構建具有不同身份、表情和夸張程度的顯著擴展的人臉數據庫,以促進對人臉建模技術的進一步研究和評估。
Dai 團隊[112]提出Scan2Mesh 模型,將非結構化且可能不完整的范圍掃描轉換為結構化3D 網格表示。將3D 網格生成為一組頂點和面索引,生成模型建立在一系列頂點、邊和面的代理損失上。通過卷積和圖神經網絡架構的組合實現預測數據點和地面實況數據點之間的一對一離散映射,能夠預測緊湊的網格表示,實現類似于使用三維建模軟件手工創建的三維網格表示。
5.2.2 GAN 技術
利用深度卷積神經網絡的強大功能,研究人員已經進行大量工作來從單個圖像重建3D 面部結構。然而最新的工作中,紋理特征要么對應于線性紋理空間的組件,要么由自動編碼器直接從大量圖像中學習。在所有情況下,面部紋理重建的質量仍然無法對具有高頻細節的面部紋理進行建模。于是研究人員選擇采用一種截然不同的方法,利用生成對抗網絡的強大功能,從單個圖像重建面部紋理和形狀。
同樣是基于生成式對抗網絡,Gecer 團隊[113]訓練一個非常強大的面部紋理先驗,提出新的基于自我監督回歸的方法,利用非線性優化找到最佳潛在參數,在新的視角初始化出具有魯棒性的人臉并加快擬合過程。
尖端的3D 人臉重建方法使用非線性可變形人臉模型結合基于GAN 的解碼器來捕捉人的肖像和細節,但無法生成漫射光照條件下中性表情和皮膚紋理,這對于在變化照明的虛擬環境中三維圖像重建是至關重要的。
受到StyleGAN[114]的啟發,Piao 團隊[115]構建一種從輸入三維模型到生成圖像的平滑梯度,能夠以低精度建模獲得渲染質量更高的圖像,與此同時,采用生成網絡式的渲染器反向傳播算法,能夠獲得更具有圖像細節特征的重建人臉3D 模型。設計一個基于3D 人臉幾何信息的渲染模塊,在保持用隨機隱變量生成紋理的同時顯示地加入人臉的幾何信息。同樣是基于StyleGAN,Luo 團隊[116]通過將非線性可變形人臉模型嵌入到StyleGAN2 網絡中來采用高度穩健的歸一化3D 人臉生成器,這使得模型能夠生成詳細但標準化的面部資產。推理之后是感知細化步驟,該步驟使用生成的資產作為正則化來應對歸一化人臉的有限可用訓練樣本。
與傳統的二維深度學習任務一樣,基于視覺深度學習的三維重建算法的研究同樣也十分依賴于數據集的進步和發展。對于需要監督學習的三維重建算法,三維數據集除需要包含二維圖像外,還需要對應的、采用合適的深度特征表示的三維數據。除此以外,無監督學習和弱監督學習同樣也依賴于二維圖像外部參數,例如攝像機的參數和拍攝位置信息等。
數據集的質量和全面程度極大地影響著深度學習三維重建的發展。對于部分三維數據集,只有很小一部分數據有著對應的、精確的三維模型;而部分數據集,只有每類目標對應的三維數據,沒有相應的二維數據(因為這部分三維數據最初是用來完成三維目標檢索等任務的)。當研究人員在選用數據集進行深度學習網絡研究時,還需考慮三維數據采用的深度特征表示是否適配網絡。
許多研究人員在早期可以選擇的數據集并不多的情況下,有些人會通過多種數據集組合到一起進行實驗,還有一部分人會對現有的三維圖像進行相應的三維幾何變換(例如平移、旋轉和縮放等)。盡管這些方法豐富了數據集的數量,但還是導致數據集出現不夠統一或者相似性變高等問題[8]。還有研究人員在數據集沒有二維圖像的情況下,從各種視角、姿勢和照明條件生成新的2D 或深度圖像。這導致在深度學習中需要考慮域適應的問題,即合成圖像不同于真實圖像,在合成圖像上進行訓練通常會導致在真實圖像測試時性能會發生下降。
數據集的發展依賴著三維重建算法的研究,同樣也促進著三維重建算法。選用、組建合適的數據集去進行實驗,會極大地幫助深度學習網絡研究成功,也是研究結果具備說服力的重要條件之一。表7列舉了近年來經常被研究人員采用的數據集及主要參數。

表7 常見的三維重建數據集及其部分參數Table 7 Datasets and parameters of common 3D reconstruction
相比于ImageNet 等千萬量級的二維圖像數據集,傳統的三維形狀數據集很小。最早的由Silberman等人[117]提出的NYU 數據集包含1 449 個RGBD 圖像,捕獲464 個不同的室內場景,并帶有詳細的注釋。
近年來發布的較大的數據集有用于形狀分類與檢索的ModelNet 數據集[12]和ShapeNet 數據集[120]。ModelNet 數據集[12]包含來自662 類的127 915 個三維形狀,其子集Model10 包含來自10 類的4 899 個三維形狀,ModelNet40 包含來自40 類的12 311 個三維形狀。ShapeNet數據集[120]包含約300 萬個形狀,其子集ShapeNetCore包含來自55 類的51 300 個形狀。
7.1.1 影像娛樂工業
三維重建在影像娛樂工業領域已經發展很多年。從業人員希望把更多的精力放到游戲或者程序本身的交互上,同時又希望對模型動畫有足夠的掌控能力,大多數企業需要整理數據量驚人的模型貼圖動畫資源庫,因此壓縮建模貼圖動畫等工作十分重要。
資源庫主要還是通用的素材,針對特定要求仍需付出費用和時間進行重新建模,同時還要控制質量。在模型重建方面,研究人員通過三維掃描進行突破,但過程并不順利。早期三維掃描儀價格昂貴,精度低下,軟件配套也并不完備,對于如何處理破面、重疊等問題非常不理想。MeshMixer 技術[130]出來之后,極大促進該技術的整體發展。三維軟件在這方面得到比較實用的解決方案,早期的光學掃描,對大尺寸物件基本無解,只能對昆蟲之類的小物件進行掃描,而且對于多角度掃描的拼接操作復雜,耗時久。之后,手持掃描的出現極大地提高了精度,不足的是需要貼點,成本高昂,且對不同類型的物件需適配不同型號才能達到較好效果。
同時,人臉三維重建逐漸在影像娛樂工業領域得到廣泛應用。最早的三維人臉重建并沒有針對人臉本身的特征,而是將成熟的通用三維重建方法應用到人臉重建中。從2016 年開始,電影、游戲廠商開始大規模地采用照片重建進行游戲人物和物品的建立,《如龍》等游戲海量地采用照片重建。
7.1.2 數字孿生與元宇宙
數字孿生指對機械或系統的精確虛擬復制,結合傳感器采集的實時數據,盡可能全要素在計算機中映射某項產品、流程或服務。數字孿生系統具備的動態仿真功能,能夠對設計模型在制造環節前進行仿真,提前估計可行性、效率性,以及發現問題并反饋至設計進行修改。在這個環節中,三維掃描能夠在某些領域,例如汽車油泥模型的設計,提升物理實體和數字實體的轉化效率。在以數字孿生驅動的設計中,數字模型是基礎。深度學習三維重建具備高效的建模能力,能在幾分鐘之內快速創建實體的數字模型,并支持導入數字孿生系統。很多大型公司已經在使用數字孿生發現問題并提高效率[131]。
在數字孿生的過程中,缺失或錯誤的數據和采集頻率可能會扭曲結果,掩蓋故障。如果為某個物體或系統構建數字孿生體,研究者必須為其各個部分建模。很多數字孿生都需要組合使用,例如一架虛擬飛機可能包含一個三維機身模型、一個三維故障診斷系統和一個三維監測空氣和壓強的系統。德國生產商西門子為其產品和生產線創建許多數學模型和虛擬表達,其中包括三維幾何模型和有限元分析,后者可以追蹤溫度、應力和應變。故障診斷和生命周期則交由其他模型處理。這些為不同目的所寫的軟件在被手工整合的時候,如果沒有標準或指南,大概率會出現其他錯誤,就很難驗證最終模型的精度。
7.1.3 醫學三維重建
在目前圖像處理領域中醫學三維重建技術得到廣泛應用,在醫學研究方面具有創新意義,同時在醫學教育方面也發揮著指導作用。隨著科學技術的進步和不斷地更新迭代,三維重建方法對臨床醫學產生深遠影響。
外科手術中的三維重建過程是將患者原始數據導入三維重建軟件,再進行三維建模,形成三維可視化模型,為醫生提供更豐富更直觀的病灶信息,使得醫生的診斷結果更精確。基于三維重建模型的手術操作模擬,讓醫生在術前掌握手術過程,有利于醫生提前進行手術風險的評估和手術設計方案的規劃。對于經驗不足的醫生,三維重建可以幫助診斷患者病情,對于患者來說也很容易看明白自己病情的具體情況。除此以外,三維重建還可以作為術中導航。從精準醫療來講,多一種驗證手段保證手術的精準度是可取的,通過三維重建技術建立“逼真”的模型,分割標識出患者病灶區域的腫瘤、血管、神經、骨質等各個組織結構,利于醫生觀察與診斷,并數字化模擬手術操作過程,以優化手術方案。術前與術后的數字化模擬對比,能夠預測手術效果,檢驗手術設計方案。三維影像在不同科室應用重點略有不同,三維影像可以做量化分析,比如對于肝膽外科進行肝膽切除的應用,術前精準定位占位的分區,評估余肝體積。
在外科之外,三維重建還有許多應用。醫療機器人同樣依賴于三維重建的發展。醫療機器人是一種智能型服務機器人,它能獨自編制操作計劃,依據實際情況確定動作程序,然后把動作變為操作機構的運動。它具有廣泛的感覺系統、智能和精密執行機構,從事醫療或輔助醫療工作。在醫學美容產業中,三維重建超越傳統模擬整形,從各角度立體動態模擬,實現有效溝通,可以直觀地看到整形后的效果與對比變化。
7.1.4 文物重建
文物數字化已成為趨勢。文物古跡是人類不可再生、不可永生的寶貴資源,是人類文明發展的見證。文物古跡測繪不僅是一種保存文物數據的方法,也是展示人類文明的有效途徑。隨著科技的發展和文明的進步,文化遺產的三維數字化重建將有更多的應用場景,為弘揚和傳承傳統文化起到促進作用。
在當今的文化遺產數字化保護領域,利用三維數字化掃描重建和虛擬現實技術已經成為主要的手段。針對不同的對象,為獲得最佳的數據內容,需要研究和利用對象的特點,并結合最新的技術成果制定有針對性的技術方案。對于表面色彩信息豐富的對象,為再現真實的形態和表現色彩,目前一般采用三維掃描的方法獲取文物高精度點云位置信息,經點云配準、去噪和修補等優化操作得到完整的網格模型,通過數碼相機多角度拍攝該文物的紋理圖像,經人工貼圖技術和紋理映射方式,將紋理圖像貼在網格模型對應的位置上,得到最終含紋理信息的數字模型。
近些年得益于民用無人機行業發展,相對于傳統航測,利用無人機設備采集大型文物的數字影像的成本大大降低,并且無人機還提供高精度的影像位置信息,簡化數據處理流程。利用軟件進行三維建模效果很驚艷,如今的攝影測量解決方案已經十分成熟,但是受光照條件影響,在精度和陰影部位等方面仍需要更多改進。
7.1.5 自動駕駛
隨著人工智能技術的不斷發展,自動駕駛為解決交通擁堵、事故頻發等問題提供一種新途徑。自動駕駛中如何對道路及障礙物進行準確識別或三維重建成為自動駕駛的一個重要課題。
主動式三維形狀獲取主要依靠傳感器收發數據。激光雷達是自動駕駛中最重要的傳感器之一。激光雷達三維點云蘊涵著豐富的空間位置信息,如空間各點之間相鄰結構關系、被掃描物體表面的紋理細節等,極大地拓展自動駕駛環境感知方法。三維激光雷達數據模擬生成是自動駕駛汽車虛擬測試中的重要任務。建立高效、真實性強的障礙物三維激光點云仍然是自動駕駛汽車虛擬測試的難點問題[132]。
汽車作為民用消費品,激光雷達傳感器費用昂貴,高性能視覺傳感器結合視覺算法實現被動式三維重建逐漸走入自動駕駛工業界視野。隨著計算機視覺領域三維重建的研究,通過提升算法的性能,提高三維模型的準確率和時效性,逐漸滿足現在交通場景的要求。然而在優化視覺三維重建的抗干擾性能和數據處理速度方面仍然有待改善,若是能夠充分考慮這些方向,將對自動駕駛汽車的舒適性、安全性、穩定性產生巨大的影響。輕量級三維幾何深度生成模型,可用于實時、在線的室外場景導航、建圖和語義理解、生成、預測及臆想,是目前三維視覺的研究熱點,對于面向語義任務的導航規劃具有重要意義。
三維深度學習強大的表征學習能力和幾何推理能力,為基于單視點圖像或不完整幾何數據的三維重建或恢復帶來實質性推動。目前主流方法大致有兩種:一是基于幾何推理的判別式模型,訓練端到端神經網絡,將輸入圖像或幾何數據直接映射到目標三維模型;二是面向形狀空間訓練深度生成模型,學習三維對象的形狀空間,然后基于度量學習將輸入圖像或幾何數據嵌入到該形狀空間中,最后從該嵌入向量解碼出三維模型,從而實現對輸入的三維重建。
深度學習技術的成功在很大程度上取決于訓練數據的可用性,大規模三維數據集的構建是數據驅動三維建模發展的關鍵。與分類和識別等任務中使用的訓練數據集相比,包括圖像及其3D 注釋的公開可用的數據集很少,且其中多數依賴于基于輪廓的監督,只能重建視覺表征。目前國際上公開的三維數據集已有不少,單個物體和室內外場景都有覆蓋,但大多都是國外團隊創建的。國內在三維數據集方面的貢獻還有待加強,在未具備足夠的訓練數據的情況下,三維深度學習能力必將受到限制。因此構建充足、精確的三維數據集是一項非常重要的任務。
事實上,三維重建方法的最終目標是能夠從任意圖像中重建出任意的三維形狀。然而,基于學習的技術僅在訓練集覆蓋的目標種類和對象上表現良好。在2D 圖像的表示上,遷移學習取得成功,但如何將這些技術應用于數據結構較少的3D 領域仍不清楚,這將激發人們未來對專門針對3D 數據特質設計的新型任務進行研究。因而未來一個有實際意義的研究方向是將深度學習和遷移學習的技術相結合,以提高后者的普適性。
同時研究人員也期望在未來看到特定種類的知識建模和基于深度學習的3D 重建之間的更多協同作用,以便特定領域的應用。例如當前對人體模型的3D 重建借助拓撲結構與身體相似的衣服,這種方法將不適用于與身體顯著偏離的衣服,如裙子等。同時,衣服褶皺往往是隨機的,對于特定的姿勢,它們會存在不同的排序方式。然而,當前的模型是確定性的,這無法處理類似褶皺的隨機的附加變量。針對這一問題,未來的工作可以將表面紋理考慮到反照率、形狀和照明中,以實現更逼真的掃描重建。學習服裝多樣性的生成模型應該是可能的,但需要不同姿勢的各種服裝的訓練數據,這對國內三維數據集的構建又提出較為嚴格的要求。事實上,人們對專門針對特定類別物體的重建方法越來越感興趣,如人體(文中已簡要介紹)、車輛、動物、樹木和建筑物。專門的方法利用先驗的和領域特定的知識來優化網絡結構及其培訓過程,因此它們通常比一般框架執行得更好。然而,類似于基于深度學習的3D 重建,建模先驗知識(例如使用高級統計形狀模型)需要3D 注釋,這對于許多類別的形狀(例如野生動物)不容易獲得。短期內自動建模無法完全取代人工建模,發揮數據驅動方法的優勢,研究智能化的三維獲取與重建,需重點關注數據驅動的主動式三維獲取,針對形狀復雜、成像困難物體(如透明、反光物體)的三維重建,以及數據驅動的語義理解。
結構化三維表征學習是當前三維深度學習的熱點?,F有方法一般需要較強的監督信息,例如對訓練數據進行實例分割和部件標注。如何設計無監督或自監督的深度網絡,以無結構三維表示為輸入,生成結構化的三維表示,是值得關注的研究課題。
大趨勢上,三維重建領域逐漸向著商用化、實用化逐步邁進,對重建的實時性和重建質量,以及對運動和渲染的真實感的要求越來越高;同時逐步由室內簡單環境下的人體三維重建,向著野外復雜環境下的三維重建過渡;所用設備逐步簡單化,從多臺昂貴的攝像機向單目攝像機,繼而向著消費者級別的單目攝像機,甚至是移動端相機發展;同時重建目標從單目標向著多目標的方向發展。近年來,越來越有效的自監督學習、無監督學習方法不斷涌現。
三維重建是計算機視覺的重要任務之一。本文調查自2014 年以來使用深度學習重建通用對象的三維形狀的研究進展,分別以輸入數據深度特征表示、網絡架構以及它們使用的訓練機制進行分類,詳細闡述每類方法的發展過程和改進。然后討論每個類別方法的優缺點及重大改進。同時還梳理近年出現的三維重建新領域,例如三維補全和修復、人體三維重建的發展脈絡,并簡單進行分類和比較。深度學習三維重建這個計算機視覺新興領域的數據集體量小,標準混亂,本文對三維數據集的應用場景、重要參數進行總結,同時也期待有更全面、更完善的數據集出現。本文著力于通過深度學習的方法從一幅或多幅RGB 圖像中復原物體的3D 幾何形狀的3D重建,還有許多其他相關問題有著相似的解決方案本文并沒有過多地討論,比如SLAM(simultaneous localization and mapping)[133]、SfM(structure-frommotion)[134]、點云語義分割等,這些領域在過去五年中有很多最新進展,需要單獨進行深入調查。