張衛星,吳 爽,林 楠,張文寧,楊 聰
1(鄭州大學 軟件學院,鄭州 450002 ) 2(中原工學院 軟件學院,鄭州 450000 ) E-mail:wangyuanyc@zzu.edu.cn
相較于二維圖像,三維圖像更能直觀地反映真實的世界,如何借助計算機還原目標的三維信息是目前熱點研究方向之一.對人來說,通過眼睛的觀察和先驗知識的儲備可以使用工具或軟件對二維圖像進行還原.對計算機來說該如何去做呢?計算機視覺研究的一個關鍵目標即從觀測到的二維圖像還原其三維效果[1].在文物修復[2]、三維面部識別[3]、生成三維模型[4]等領域中如何理解并還原其三維效果至關重要.因為在目標分類的任務中理解并還原三維圖像或模型可為任務完成提供更多有效信息,包括形狀、紋理等.因此,探索有效還原三維信息的方法是計算機圖形學和計算機視覺領域的一個重要課題.
三維生成方法大致可分為經典三維重建方法、基于RGB-D相機的三維重建方法以及基于深度學習的三維生成方法.經典三維重建模式相關綜述性文章包括:數學相關三維重建[5,6]、隱式表面繪制方法綜述[7]、三維點云表面重建綜述[8]、基于圖像的三維重建方法綜述[9].經典三維重建方法包含隱式三維重建方法[10]、基于SIFT[11]的三維重建方法[12]、基于立體視覺的三維重建方法[13-15]等.但此類方法在三維重建過程中均易受環境干擾,從而導致精度難以保證;且存在對測距設備、圖像等依賴問題,重建結果的穩定性有所欠缺.
RGB-D相機的出現為三維重建方法的出現帶來了機遇.2011年,Newcombe等人[16]首次實現僅使用手持式Kinect深度傳感器和GPU硬件,即可準確實時重建靜態室內場景.研究人員進一步優化了KinectFusion存在的問題,如GPU內存限制問題[17]、環路閉合問題[18]等,并將RGB顏色信息集成到KinectFusion重建過程中[19].其后,研究人員實現了可伸縮體積的重建[20],解決了由手持攝像機產生距離數據存在的高頻誤差和低頻失真問題[21],將獲取的顏色數據精確映射到重建幾何體[22],提出新的聯合場景重建與測距相機校準方法[23].從RGB-D視頻中全自動重建室內場景[24],構建了可實時重建非剛性變形動態場景的系統[25],無需進行姿態圖優化就可產生全局一致的重構[26],融合點云數據進行三維重建[27],為大型室內環境提供了全面的在線掃描并實時構建出高精細度3D模型[28].但基于RGB-D相機的三維重建技術,因RGB-D相機的幀率(FPS)普遍較高,數據量龐大,導致重建算法的實時性較差.而且,RGB-D相機易受環境干擾,導致深度數據存在誤差從而降低重建精度.這些重建方法的效果與設備配置密切相關,普通設備存在對光照敏感、易受反光影響、處理速度較慢或精度差等問題,而高質量重建效果的設備成本高且受技術影響存,在高分辨率場景下表現不佳的問題.
隨著深度學習的研究和發展、卷積神經網絡[29,30]的提出與AlexNet在特征提取上展現出的巨大優勢,使許多研究人員將目光聚集在基于深度學習網絡的三維重建研究方向,并結合實際問題進行了相關研究.Anny[31]等人綜述了基于深度卷積神經網絡的單幅或多幅圖像三維重建方法.目前部分基于神經網絡研究解決了經典三維重建算法面臨的問題,并證實了利用深度學習的經典三維重建方法表現更優越[32].部分研究將卷積神經網絡、點云[33]、深度圖[34]等相結合進行不同應用方向的三維重建.其他研究包含三維位姿[35-37]以及基于部分的循環生成網絡[38]等.2014年,隨著Goodfellow 等人[39]提出了一種生成式深度學習模型--生成對抗網絡(GAN),其應用使得生成樣本的速度與質量上有明顯提升,且具有可與任意網絡結合訓練的優勢,于是,研究人員將目光聚集在通過生成對抗網絡生成三維模型或進行三維重建.
本文綜述了基于生成式對抗網絡(GAN)的三維生成方法.首先,介紹生成對抗網絡在三維生成研究方向的發展歷程,并對其分類進行了歸納.在此基礎上,結合應用場景介紹模型的創新與改進,并對該研究方向的發展趨勢進行展望.
基于GAN的三維生成方法是由Goodfellow 等人提出的生成式深度學習模型--生成對抗網絡(GAN)為基礎擴展到三維的生成.在理論上對基礎的三維生成模型進行不同方式的改進,如結合不同的三維重建方式、與不同深度生成對抗網絡結合、與其他深度學習方法結合、新的隱式聚合技術、以及增加不同的先驗信息等方法以期望生成更真實的三維目標.在應用上根據不同應用方向進行適配與改進,通過增加不同的紋理或深度信息進一步優化三維生成目標.
Wu等人于2016年提出3D-GAN,將GAN由二維生成擴展到三維生成,該模型為首次基于原始GAN生成三維物體形狀圖像的模型.3D-GAN重點關注從單一類別中生成高質量的物體形狀圖像,但在多個不同姿態、不同對象類別的情況下進行訓練是很困難的[40],其生成的對象質量還有提升空間.
之后,研究人員從不同角度對3D-GAN進行了改進.2017年,Edward等人將WGAN[41]與3D-GAN結合為3D-IWGAN,主要關注基于多個不同類別的數據分布生成三維物體形狀圖像的過程.Liu等人[42]首次提出根據3D-GAN進行交互式建模,利用投影操作符將任意3D輸入映射到生成器中的潛在向量,從而完成新目標的三維建模.MIT計算機科學與AI實驗室團隊,以3D-GAN為基礎研究出生成三維圖像的方法VON(可視化物體網絡)[43].VON不僅可以生成三維圖像,也可在已有的三個維度(視角、形狀、紋理)基礎上進行個性化改變.Li等人針對3D-GAN生成的隨機性和不穩定性進行研究,提出3D conditional GAN模型[44].該模型在生成器與判別器上通過增加分類信息來學習不同類別下的復雜分布.Kuang等人在3D-GAN基礎上提出3D-Masked-CGAN[45],通過增加額外通道Mask進行采樣有效地生成了復雜三維巖石模型.
一些研究人員將關注點放在將不同網絡模型與GAN 結合在一起從而提高生成的三維物體效果.其中重要成果包括:3D-RecGAN[46],將VAE[47]與條件生成對抗網絡(CGAN)[48]相結合,以單一深度圖像為基礎對特定目標進行三維重建;3D-ED-GAN[49],將VAE、GAN和長期循環神經網絡(LRCN)相結合,還原在低分辨率情況下有損的三維模型;ORGAN,將VAE與WGAN相結合,提出在信息缺失的情況下進行目標重建模型;國立臺灣科技大學團隊將VAE、GAN和分類器模塊相結合,有效還原被破壞或不完整的三維目標[50].
隨著研究目標的變化和深入,研究團隊開始著手將GAN與傳統三維重建的點云技術相結合.2018年,Panos團隊[51]將以VAE為基礎的GAN與點云技術相結合對三維點云生成進行了評估.2019年起,研究人員開始關注GAN與三維點云的相關研究.Dong等人將圖卷積與GAN中的生成器結合,形成為一個樹形結構的Tree-GAN[52],以無監督的方式生成三維點云.Soshi等人提出IsMo-GAN[53],在一個輕量級合成數據集上從單一圖像進行三維點云重建.
研究人員同時將目光聚集到解決三維生成技術的改進工作中.清華大學Han團隊提出三維無監督學習方法VIP-GAN[54],該團隊介紹了一種基于神經網絡的三維全局特征學習新隱式聚合技術,該技術可有效地從每個視圖預測中獲得知識并進行聚合.2019年,中東技術大學團隊[55]首次提出將三維模型生成與條件生成對抗網絡相結合,將CGAN應用于不同旋轉方向的三維模型生成,從而實現三維模型生成過程.Pedro等人[56]針對三維重建中的自然區域適應與根據單一圖像進行三維重建結果的多樣性問題進行研究,通過增加自然圖像與重建圖像的域混淆與先驗的三維形狀,生成適應性更好的真實三維目標.東京大學團隊[57]提出在單視圖三維重建過程中學習視圖先驗知識,有效地提高重建精度以及三維重建的真實性與有效性.
在應用方面,主要關注三維人體、三維場景等方面的應用.三維人體包含三維人體姿態與三維人臉等,其中三維人體姿態由剛開始從單一RGB圖像重建人體三維網格的人體網格恢復HMR[58]方法,到以多源輸入的方式進行三維人體姿態預測[59];基于GAN的三維人臉方法首次僅用于三維人臉表示、生成和轉換任務的3DFaceGAN在精確生成三維目標的同時保留了高頻細節,而分離訓練3D與2D特征方式的HoloGAN[60]不僅可應用于三維人臉,且可應用于任意單一自然圖像生成多視角二維圖像,但該模型生成的視角依賴于數據集.
三維室內場景應用方向主要包含三維室內家居生成與三維場景生成,其中三維室內家居生成包含以3D-GAN為基礎的三維生成方法[4,42,44,46,49,51,55]與基于其他技術的生成方法[52,54,55].三維室內場景生成包含:3D-Scene-GAN[61]生成框架融合渲染技術可生成高質量兼容網格與紋理的復雜三維場景;HPGM[62]將生成任務分為建筑布局生成和紋理合成,根據給定的語言表達生成三維住宅模型;SynSin[63]無監督地將單個RGB圖像經由預測三維點云渲染后傳遞到GAN中,生成二維場景圖像;Pix2Shape[64]無監督地從單一圖像中獲取三維信息,根據圖像點的深度渲染生成三維場景;Total3DUnderstanding[65]融合目標識別、網格生成等方式,由單RGB圖像還原三維復雜場景.
GAN在不同的三維生成任務中采用的三維表示不同,三維表示方式主要包括體素、網格、點云、深度圖4種,基于不同三維表示方式對方法進行分類,如表1所示.

表1 基于三維表示的三維生成方法分類Table 1 Classification of 3D generation methods based on 3D representation
體素是體積元素的簡稱,是三維空間上的最小單位.以體素為三維表示方式的生成對抗網絡方法較多,最早的是2016年麻省理工團隊提出的3D-GAN,其后許多研究人員在此基礎上針對生成目標的質量、生成目標的多樣性及生成目標的紋理效果等不同問題上提出改進[43,46].一些研究團隊將GAN與其他深度學習網絡進行結合或與其他技術融合生成三維目標[42,45,46,49,50,57].研究對象多以物體形狀為主[41,42,44-47,49,50,55,56,57],部分關注生成自然圖像的三維表示[43,60].
網格表示方式通常由簡單凸多邊形構成,簡化渲染過程,生成的三維目標表面光滑,但其不具有顏色、深度、紋理等細節描述.使用該三維表示方式的研究內容包含生成光滑的三維室內家居[46,65]或復雜三維場景[65]、由單一的RGB圖像重建三維人體姿態[58]、保留了高頻細節的同時精確生成三維人臉[3]等.
點云表示方式通常是指由目標外觀表面的點數據集合構成圖像.研究內容包含將生成對抗網絡與點云結合[52]、以真實圖像生成三維點云[53]、以無監督的方式學習三維點云任務[45]、結合圖卷積無監督地生成三維點云目標[52]、通過預測三維點云渲染無監督地生成同一場景的不同視圖[64]等.與網格表示方式類似,點云表示方式也不能體現紋理細節.
深度圖主要記錄了從焦點到遮擋物的距離,增加深度信息可有效還原被遮擋部分形態.目前大多作為研究過程的一部分,其主要研究為由單一圖像點的深度渲染三維室內場景[62].深度圖雖可有效處理復雜場景下的被遮擋問題,但由于其不包含紋理細節如需進一步還原紋理細節需結合其他方法進行探索.
其他方法為未使用三維相關表示的方法,如:基于視圖間預測來進行無監督的3D全局特征學習方法[54];房屋平面生成模型[62],可針對人類給定的語言描述生成房屋三維模型;以多源輸入的方式進行三維人體姿態預測[59];融合渲染技術生成高質量兼容網格與紋理的復雜三維場景生成框架[65].
基于GAN的三維室內場景生成主要包含三維室內家居生成與三維場景生成.本節將描述三維室內家居生成與三維場景生成相關網絡模型并對其進行對比分析.
三維家居的生成主要以ShapeNet[66]數據集為基礎.主要可分為兩類:以3DGAN為基礎進行的改進、基于其他不同技術的方法進行三維生成,部分模型實驗效果如圖1所示,圖1(a)為3DGAN效果圖,其生成結果為稀疏體素,表面存在不完整且具有較多無效點;圖1(b)為3D-IWGAN效果圖,仍以體素表示且較3DGAN效果更為清晰,但仍存在無效信息邊界不平整問題;圖1(c)3D-RecGAN效果圖,以網格為三維表示方式,生成結果更加平滑但存在邊界模糊問題;圖1(d)為l-GANs效果圖,三維表示方式為點云,生成結果較為完整,但由于點云與體素三維表示方式同樣存在表面不光滑情況,其表面較粗糙.

圖1 基于3DGAN的生成模型生成效果圖(1)https://github.com/xchhuang/simple-pytorch-3dganFig.1 Rendering of models based 3D-GAN
3D-GAN是第1個用于生成三維模型的生成對抗網絡,采用無監督的訓練方式,生成器與判別器結構呈鏡像,輸入為隨機數據分布,使用單一類別的三維模型進行訓練,從而生成三維目標.以3D-GAN為基礎,研究人員開展了一系列研究工作:3D-IWGAN使用WGAN的歸一化處理,令該網絡結構具有處理多分類的數據分布;3D-RecGAN將自動編碼器的生成能力與條件生成對抗網絡(CGAN)相結合,將一個僅有目標2.5D的深度數據恢復為完整的目標,其網絡模型訓練采用無監督的訓練方式,由于選用的輸入為2.5D深度網格點數據,生成最終目標表面是光滑的,但整個訓練過程耗費時間較長;l-GANs結合點云技術生成三維點云表示的目標;LFG+HFG結合網格,使用有符號距離函數作為數據表達方式,生成的三維目標表面更精細光滑,其網絡模型的生成器由LFG和HFG組成,LFG與3D-GAN的生成器結構較為相似,HFG為自動編碼器結構,以LFG的輸出作為HFG的輸入,并將其映射到數據集對應的高頻圖像;3D conditional GAN增加條件與分類信息,有效地生成與給定類標簽對應的三維模型;Class-Conditional GAN增加編碼器與分類器,將分類器結果作為判別器的其中一個輸入,以半監督的方式進行訓練,進而從破損或不完整的三維輸入中恢復完整的三維對象.
模型對比分析如表2所示,主要以模型的創新點、優點及三維表示方式進行分析,并給出平均精度、Intersection over Union(IoU)和The Jensen-Shannon Divergence(JSD)作為準確度的判斷標準.

表2 基于3DGAN的生成模型對比Table 2 Comparison of generation models based on 3DGAN
基于其他不同技術的方法包含:與其他深度學習網絡的結合、新的理論研究.VIP-GAN與Tree-GAN分別結合循環神經網絡與圖卷積網絡進行網絡構建.VIP-GAN將循環神經網絡嵌入生成器,以自動編碼器結構構成生成器,使用三維全局特征學習的新隱式聚合技術跨視圖提取特征,其生成目標質量優于其他無監督方法;Tree-GAN將樹形結構的圖卷積網絡作為生成器,該網絡模型在無先驗知識的情況下可為不同的語義部分生成點云.新的理論研究Paired 3D Model Generation with CGAN以可擴展方式進行三維模型的生成.Paired 3D Model Generation with CGAN增加生成不同角度的成對目標的過程,該過程可以集成到任何條件GAN的訓練步驟中.
模型對比分析如表3所示,主要以模型的創新點、優點及三維表示方式進行分析,并給出平均精度和The Jensen-Shannon Divergence(JSD)作為準確度的判斷標準.

表3 基于不同技術的生成模型分析Table 3 Analysis of generation models based on different techniques
三維生成對抗網絡在生成普通模型研究方向上已有較多的研究基礎,研究者們開始將研究目標放在更復雜的三維場景上,目前相關模型包括3D-Scene-GAN、HPGM、Pix2Shape、SynSin、Total3DUnderstanding等.圖2為HPGM效果圖,生成結果為整個房屋布局的上視角圖.圖3為SynSin效果圖,其以多個漸進式角度展現不可見視角效果.

圖2 HPGM效果圖(2)https://github.com/chenqi008/HPGMFig.2 Rendering of HPGM

圖3 SynSin效果圖(3)https://github.com/facebookresearch/synsinFig.3 Rendering of SynSin
3D-Scene-GAN以GAN為基礎,輸入為建筑場景的多視角圖像,判別器選用101層的ResNet[67],以BatchNorm[68]保持輸入與輸出一一對應的關系,以Adam[69]算法代替SGD[70]算法加速收斂過程,從而最終生成復雜建筑的完整圖像.復雜的建筑場景可以通過生成對抗網絡生成,令房屋的三維設計成為可能.HPGM實現了由文本語言到房屋三維結構的生成,該模型結合圖神經網絡與生成對抗網絡,圖神經網絡完成由文本到房屋建筑布局的過程,生成對抗網絡完成房屋的渲染與紋理細節.HPGM用到的文本內容包含房屋的節點表示與大小、房間地板與墻壁的顏色材質等相關信息;由文本到房屋建筑布局由GC-LPN完成,利用圖卷積神經網絡進行特征表示與預測;預測到的房屋建筑布局與文本經由LCT-GAN生成具有材質顏色的紋理圖像.HPGM生成結果精度較高,具有較好的泛化能力,但HPGM僅完成了房屋布局的效果,沒有考慮房屋內部家具擺放等復雜場景.Pix2Shape以生成室內場景為目標,采用無監督的方式進行訓練,輸入為單一圖像,材質統一,在訓練過程中增加視角、深度以及陰影信息,訓練完成后對2.5D視圖進行渲染生成多視角2D圖像,但其生成場景真實度較差.SynSin以單一視圖還原其他多視角的圖像和語義,還原出不可見的高質量房屋內復雜場景.該模型結合傳統三維重建的點云技術,使用三維點云進行渲染,利用投影的特征細化圖像細節,從而產生具有真實感的高質量圖像.SynSin在目前已有的真實世界數據集上表現較佳.Total3DUnderstanding將場景理解和網格重建嵌入到聯合訓練中,由單RGB圖像自動生成房間布局、相機姿態、物體包圍框和網格,充分恢復房間和物體的幾何形狀,但其存在訓練時間較長,生成效果與真實圖像差距較大等問題.
由于場景數據集較少,目前研究人員均使用未公開的數據集進行討論,且由于數據原因均存在訓練時間長、對實驗環境要求高等特點.模型對比分析如表4所示,主要以模型的創新點、優缺點及三維表示方式進行分析,并給出Intersection over Union(IoU)作為準確度的判斷標準.

表4 三維室內場景生成模型對比Table 4 Comparison of 3D indoor scene generation models
基于GAN的三維人體生成方向目前聚焦于三維人體姿態和三維人臉的生成.本節將對這兩個不同應用場景的模型進行描述和對比分析.
卷積神經網絡在三維人體姿態研究方向已取得顯著進展,但野外圖像不易獲得的三維標注,生成對抗網絡采用端到端的對抗學習方式,可在未進行三維標注的情況下進行三維表示的學習.目前主要研究成果包括:3D Pose Estimator、HMR等.圖4為HMR效果圖,為不同姿態的人體網格表示,具有簡單的紋理細節.

圖4 HMR效果圖(4)https://github.com/MandyMo/pytorch_HMRFig.4 Rendering of HMR
3D Pose Estimator的生成器主要使用其提出的三維姿態估計模型,該模型主要包含兩部分:二維姿態估計與深度回歸;其的判別器為研究者們設計的一種多源判別器,該判別器對預測的三維人體姿態與真實姿態進行區分,加強生成姿態的有效性,可應用與生成野外圖像的三維姿態;其對人體具體姿態預測通過研究者們設計的幾何描述子,該算子主要用于計算身體關節之間兩兩相對的位置與距離,該模型生成的人體姿態形式為三維關節位置形態,不具有人體具體網格信息.HMR產生的為具有更多細節的三維人體網格表示.該模型主要以最小化節點的重投影損失為目標,完成在無需對圖像進行三維標注的情況下的訓練過程.HMR模型無需二維與三維一一對應的數據集,不依賴二維關鍵節點的信息,可直接從圖像中預測三維姿態與形狀等信息,且對遮擋的圖像同樣有效,這個過程主要得益于迭代的三維回歸模塊.但HMR模型沒有處理人體的膚色、衣服等相關紋理信息.
3D Pose Estimator與HMR的生成結果不同,3D Pose Estimator僅生成人體關節姿態,HMR生成效果為具有紋理的完整人體姿態,模型對比分析如表5所示,主要以模型的創新點、優缺點及三維表示方式進行分析,并給出Area Under the Curve(AUC)作為準確度的判斷標準.

表5 三維人體姿態生成模型對比Table 5 Comparison of 3D human pose generation models
三維人臉生成是目前較新的研究方向,主要研究成果包括:HoloGAN、3DFaceGAN.如圖5所示,圖5(a)為3DFaceGAN效果圖,其生成結果為具有表情細節的三維人臉;圖1(b)為HoloGAN效果圖,其生成結果為多角度人臉圖像,其角度依賴于數據集.

圖5 三維人臉生成模型效果圖Fig.5 Rendering of 3D face generation models
HoloGAN以三維人臉為其中一個應用場景,該網絡模型以無監督的方式進行訓練,將二維特征與三維特征分離學習,通過三維特征學習目標外形、二維特征學習目標紋理,并經由映射單元得出不同視角對應深度信息,從而得到多視角的三維目標.HoloGAN不依賴標簽和三維模型,僅依靠自然圖像為輸入即可,但生成目標的多視角依賴數據集中圖像的視角.HoloGAN由于生成目標僅與數據集有關,故應用廣泛.3DFaceGAN主要生成目標為具有高頻細節的三維人臉.研究者對原始掃描進行預處理,應用非剛性的網格模板存儲頂點的空間信息,并采用二維最接近點插值的方法填充缺失值.3DFaceGAN框架基于自動編碼器架構,訓練過程中以二維面部空間信息與三維人臉作為輸入,對判別器進行預訓練,將學到的權重作為生成器和判別器的初始化數據,隨后開始對抗性訓練.該網絡模型能夠生成任意目標的表情,同時保留3D面部的高頻細節,3DFaceGAN生成的三維人臉不具有膚色等紋理信息.
以上兩個模型由于使用數據集不同,HoloGAN使用二維圖像數據集,3DFaceGAN使用三維數據,HoloGAN訓練時間較短,但其生成結果僅為多角度二維圖像.模型的其他對比分析如表6所示.主要以模型的創新點、優缺點及三維表示方式進行分析,并給出Area Under the Curve(AUC)與Kernel Inception Distance(KID)作為準確度的判斷標準.

表6 三維人臉生成模型對比Table 6 Comparison of 3D face generation models
其他三維人體生成應用包括頭發、手部姿態與人體運動等,包含從單一視圖生成逼真的三維頭發結構模型Hair-GAN[71];以RGB圖像為輸入生成基于深度圖的三維手部位姿的DGGAN[72],解決了三維手部位姿估計中缺少成對的RGB圖像和深度圖像的大規模數據集問題;首次使用深度神經網絡進行概率運動預測的人體運動預測模型HP-GAN[73],存在不能判斷訓練是否收斂的問題.
其他三維生成應用包括汽車多視角圖像的生成、不規則三維形狀的生成、工藝品的生成、動物面部生成等.如圖6所示,圖6(a)為3D-ED-GAN效果圖,其生成結果三維立方體;圖6(b)為VON效果圖,其生成結果為具有簡單紋理的多角度汽車圖像.

圖6 其他應用模型效果圖Fig.6 Rendering of other applications generate model
雖然應用方向不同,但其方法大多仍以3D-GAN為基礎,VPL、3D-Masked-CGAN、3D-ED-GAN、ORGAN.VPL模型增加了不同視角先驗信息;VPL在3D-GAN的基礎上增加了領域自適應和形狀先驗信息,能夠學習具有外觀差異較大的目標;3D-Masked-CGAN增加了邊界盒生成不規則的三維網格幾何(巖石),但其存在訓練穩定性較差的文藝;3D-ED-GAN結合長期循環神經網絡,使用自動編碼器架構的生成對抗網絡在低分辨率的情況下對目標進行恢復,使用長期循環神經網絡降低資源消耗,同時將目標轉換為更完整、分辨率更高的三維物體,但該模型生成結果準確度不夠高,且表面不夠光滑;ORGAN中使用了標簽,其生成器為自動編碼器結構,輸入為一個不完整的目標物體,判別器輸入為完整目標與生成器生成結果,該模型通過增加補全損失和WGAN損失,使得生成結果在缺失一半以上信息時依舊表現良好,且生成的準確度較高.
另外VON以生成多視角汽車圖像為目標,將圖像形成過程分解為3個條件獨立的因素(形狀、視點和紋理),其輸入為二維圖像,在某一視角采樣后生成包含輪廓與深度的2.5D草圖,在2.5D圖像基礎上生成逼真的包含紋理的圖像,其網絡模型形狀、視點和紋理可獨立改變,但其訓練過程較復雜;IsMo-GAN生成目標為非剛性三維曲面,是首個基于深度神經網絡的變形框架,該模型在輸入圖像存在較大的遮擋情況時生成結果不佳.
模型對比如表7所示,主要以模型的創新點、優缺點、應用方向及三維表示方式進行分析,并給出Intersection over Union(IoU)作為準確度的判斷標準.

表7 其他應用生成模型分析Table 7 Analysis of other applications generate models
GAN為三維數據生成提供了新的方法,本文對基于深度學習的生成對抗網絡在三維生成的研究方向進行了分析總結,通過實驗驗證了不同模型算法的優缺點,并根據不同的應用場景與三維表示方式進行了分類描述.目前三維生成網絡聚焦的應用方向包括三維室內場景(三維室內家居,三維室內場景)、三維人體(人體姿態、人臉等)等.三維表示方式指網格、點云、體素與深度圖等表示方式.GAN 具有一定的包容性,可與其他深度學習網絡進行良好結合,解決三維生成精度不夠等問題.
由于數據集與 GAN 在三維生成方向存在的一些理論問題的限制,GAN 在未來的理論發展與應用方向上擁有更大的空間.未來在以下方面將取得進一步發展:
7.2.1 數據集
基于生成對抗網絡的三維生成大多是在理想環境下進行的理論研究,由于數據集存在真實數據采集困難等限制,生成結果拘泥于小型、細節簡單且單一生成的目標.復雜三維目標、多個三維目標、大場景大范圍多目標的三維生成場景是未來數據集收集的方向.
7.2.2 理論突破
綜合本文對比分析的三維生成模型的結果,雖然目前已通過多種不同方式對基于GAN的三維生成進行了改進,如損失函數的設計、生成器架構的設計、與其他深度學習網絡結合訓練等,但其目前在使用三維數據進行研究時仍存在訓練不收斂、訓練時間過長、生成三維樣本質量較低等問題.因此,如何從理論層面取得突破,仍是亟待解決的理論問題,是未來研究的重要方向之一.
7.2.3 新應用場景
本文聚焦三維生成網絡應用方向包括三維室內場景(三維室內家居,三維室內場景)、三維人體(人體姿態、人臉等)等.現有對三維室內場景研究多為單一簡單目標的三維室內家居生成和簡單三維室內場景生成.未來可能發展的新應用場景如下:
1)由于室內裝潢設計、房地產產業發展的需要,有復雜表面結構的高質量三維室內家居生成、多目標的復雜三維室內場景生成已成為新的應用研究趨勢.
2)三維人體姿態、三維人臉大多局限于網格三維表現方式,對具體的紋理、陰影、光照等信息的處理是未來三維生成的應用研究方向之一.
3)隨著三維動漫與電影中三維特效的快速發展與市場需求,精細、真實、飄逸的三維頭發生成將成為新型應用場景之一.