摘要:新視角圖像生成任務指通過多幅參考圖像,生成場景新視角圖像。然而多物體場景存在物體間遮擋,物體信息獲取不全,導致生成的新視角場景圖像存在偽影、錯位問題。為解決該問題,提出一種借助場景布局圖指導的新視角圖像生成網絡,并標注了全新的多物體場景數據集(multi-objects novel view synthesis,MONVS)。首先,將場景的多個布局圖信息和對應的相機位姿信息輸入到布局圖預測模塊,計算出新視角下的場景布局圖信息;然后,利用場景中標注的物體邊界框信息構建不同物體的對象集合,借助像素預測模塊生成新視角場景下的各個物體信息;最后,將得到的新視角布局圖和各個物體信息輸入到場景生成器中構建新視角下的場景圖像。在MONVS和ShapeNet cars數據集上與最新的幾種方法進行了比較,實驗數據和可視化結果表明,在多物體場景的新視角圖像生成中,所提方法在兩個數據集上都有較好的效果表現,有效地解決了生成圖像中存在偽影和多物體在場景中位置信息不準確的問題。
關鍵詞:多物體場景;遮擋現象;圖像偽影;布局圖;新視角圖像生成
中圖分類號:TP391文獻標志碼:A
文章編號:1001-3695(2022)08-050-2526-06
doi:10.19734/j.issn.1001-3695.2022.01.0032
Multi-object scenes novel view synthesis via layout projection
Gao Xiaotian1a,1b,Zhang Qian2,Lyu Fan2,Hu Fuyuan1a,1c
(1.a.College of Electronic amp; Information Engineering,b.Suzhou Key Laboratory for Big Data amp; Information Service,c.Virtual Reality Key Laboratory of Intelligent Interaction amp; Application Technology of Suzhou,Suzhou University of Science amp; Technology,Suzhou Jiangsu 215009,China;2.College of Intelligence amp; Computing,Tianjin University,Tianjin 300354,China)
Abstract:The task of novel view synthesis refers to generating a new perspective image of the scene through multiple reference images.However,there are occlusions between objects in multi-object scenes,and object information cannot be fully obtained,resulting in artifacts and dislocation problems in the generated new-view scene images.In order to solve this problem,this paper proposed a new perspective image generation network guided by the scene layout map,and annotated a new MONVS.Firstly,it input multiple layout information of the scene and the corresponding camera pose information into the layout pre-diction module,and calculated the layout information of the scene under a new perspective.Then,it used the bounding box information of the objects marked in the scene to construct an object set of different objects,and used the pixel prediction module to generate the information of each object in the new perspective scene.Finally,it input the obtained new perspective layout and various object information into the scene generator to construct a scene image under the new perspective.Compared with the latest methods on the MONVS and ShapeNet cars data sets,experimental data and visualization results show that in the new perspective image generation of multi-object scenes,the proposed method has good performance on both data sets.It effectively solved the problem of artifacts in the generated image and inaccurate position information of multiple objects in the scene.
Key words:multi-object scene;occlusion;image artifacts;layout;novel view synthesis
0引言
新視角圖像生成(novel view synthesis,NVS)任務是在給定多幅輸入圖像和對應相機位姿情況下,生成物體或場景任意視角的圖像。該任務在虛擬現實技術、機器人技術、靜態圖像動畫制作等方面有著廣泛的應用。因其避免了在生成任意視角圖像過程中構建復雜三維模型,提升了生成效率,引起了學者們的廣泛關注。早期的新視角圖像生成方法是基于相機成像的相關知識,在像素空間或光線空間中利用插值的方法生成新視角圖像[1]。隨著深度學習的發展,文獻[2]利用卷積網絡生成剛性物體的新視角圖像,但是僅利用卷積網絡無法生成物體的細節信息且生成圖像輪廓模糊;之后的工作將物體的先驗知識加入模型訓練中,取得了較好的效果。以物體的幾何先驗[3,4]作為指導,將輸入圖像的像素值根據物體的幾何形狀或3D點云信息[5~7]投射到輸出圖像上。上述工作在單物體的新視角圖像生成中取得了良好效果,但在更加真實的多物體場景中,由于將場景看做是一個整體[8],當場景中物體間存在遮擋現象時,模型無法提取被遮擋物體的特征,也無法學習其幾何信息,導致生成的圖像出現模糊和偽影等錯誤,甚至會出現物體丟失的現象。該現象如圖1(a)所示。為了解決偽影問題,文獻[9]利用深度圖作為先驗信息,指導網絡生成場景的新視角圖像,但深度圖的獲取需要精密的儀器,并且深度圖無法改善由于多物體之間遮擋導致的邊界模糊現象。
相較于深度圖,包含圖像中所有物體類別和邊界框的布局圖[10]更容易獲取。受布局圖生成圖像工作的啟發,本文提出一種以場景布局圖作為先驗信息的新視角圖像生成網絡,如圖1(b)所示。與之前提出的其他基于深度學習的新視角圖像生成方法相比,本文方法無須獲取復雜的場景深度圖和點云信息,并且可以應用在多物體場景中。首先根據場景中不同視角下的布局圖信息,計算出場景中各個物體的旋轉軌跡,通過目標相機和輸入相機之間的位姿關系,得到新視角下圖像的布局圖,有效解決了由于遮擋導致生成圖像中物體位置不準確的問題。基于布局圖信息,對整個場景進行裁剪,將多物體新視角圖像生成任務轉換成多個單物體的新視角生成任務。為保證生成的單物體圖像的細節完整,使用像素預測器使模型隨著輸入圖像的變換逐步改善其生成結果。最后根據計算得到新視角布局圖這一先驗信息指導場景生成器生成整個場景的圖像。
1相關工作
1.1布局圖生成圖像
使用附加信息[11,12](如類別信息、文本描述[13]、場景圖) 作為先驗知識輸入網絡來指導網絡生成圖像是目前圖像生成的主要做法之一。然而,如深度圖等先驗信息往往受各種條件的約束,難以獲取。因此,一些工作引入了易獲取的布局圖作為先驗知識。在文獻[10]中,布局圖和對象信息被用于文本生成圖像和場景圖生成圖像的任務中。通過將對象的形狀與存儲庫中的特征進行匹配,從給定的布局圖中生成新的場景圖像。文獻[14]提出了一種可以改變圖像布局和對象風格的方法,通過改變布局圖中邊界框的大小和移動邊界框,重構整個布局圖,根據新構建的布局圖信息生成圖像。最新的工作對布局圖生成圖像網絡作進一步優化[15,16],通過從源視圖中估計出整個場景的布局圖,以深度信息作為約束,生成房間的平面圖。
受到這種改變布局圖生成圖像模型的啟發,考慮隨著視角變化,物體的相對位置和邊界框也發生變化。根據這種對應關系,從已知視角下的場景布局圖推導新視角下的場景布局圖,用來指導新視角圖像的生成。
1.2新視角圖像生成
新視角圖像生成是指通過給定多幅輸入圖像和相機位姿的情況下,生成物體或場景的任意視角下的新圖像。
早先的一些工作中[3,4],是基于物體的幾何形狀,將輸入圖像的像素通過映射或插值的方法,扭曲到新視角圖像中,但是這種方法生成圖像在細節紋理方面的渲染效果并不理想,并且無法生成源視圖中缺失的像素。隨著深度學習的發展,文獻[2]通過卷積神經網絡,根據源視圖直接生成新視角圖像,這種方法在單一剛性物體(如椅子、汽車等)的數據集上取得了不錯的效果,但同樣無法生成缺失的像素。為了解決像素缺失問題,Sun等人[17]提出光流預測模塊和像素生成模塊組成的網絡,通過光流預測將輸入圖像中的像素映射到新視角圖像中,像素預測模塊根據輸入圖像生成缺失像素,以一種自學習置信聚合的機制生成新視角圖像,但是這種方法對物體細節紋理的渲染仍不理想。隨著深度圖的發展,一些工作以圖像的深度圖[18]和圖像的3D結構作為先驗知識[3~6],將源圖像中的像素映射到目標圖像中[19];還有部分工作[20,21]通過重構場景或者物體的3D幾何形狀,再以新視角處的相機位姿為約束生成圖像,但是這種方法需要大量的時間和資源去進行訓練。Mildenhall等人[22]提出神經輻射場(neural radiance field,NeRF)這一全新的網絡用來實現新視角圖像的生成,該方法使用一個由空間三維坐標和觀看方向組成的5D向量作為輸入,輸出物體上每個點的顏色和體積密度,在復雜場景中取得了很好的效果,但是NeRF需要大量的輸入視圖來訓練單個場景的模型,訓練出的模型只能適用于單一的場景,泛化能力很差。Yu等人[23]對該方法進行了優化,提出pixelNeRF網絡,能夠使用少量的輸入圖像完成場景的重建,在訓練時間和泛化性上取得了良好的進展,但依然無法解決場景中物體間遮擋導致的生成圖像中存在偽影的問題。
2布局圖指導新視角圖像生成方法
在本章中介紹本文提出的基于布局圖的多對象場景新視角圖像生成方法。將布局圖預測模塊得到的新視角的布局圖信息和像素預測器生成的各個物體的新視角圖像輸入場景生成器,生成新視角下的場景圖像。整體架構如圖2所示。輸入多幅圖像In及其相應的布局圖Ln,其中Ln={xin,yin,hin,win},包括第n幅圖像的中每個對象Oi的邊界框信息(左上角坐標、高度、寬度),將多個布局圖Ln輸入布局圖預測模塊,計算新視角下的布局圖Lt;模型對輸入圖像中的每個對象實例Oi進行采樣,再和相機位姿矩陣沿通道方向連接構建輸入張量。將構建的張量輸入像素預測器得到新視角下的各個物體的圖像Iit;最后,將Lt和Iit輸入場景生成器中,物體圖像Iit依次經過編碼器和融合器,得到一個包含所有物體信息的融合特征,通過解碼器生成場景圖像。
2.1布局圖預測模塊
借助相機標定[24~26],將多幅輸入圖像中的物體映射到同一世界坐標系中,則同一物體在相機移動拍攝的過程中可以看做是沿著一個橢圓的軌跡運動的。對單物體假設其初始軌跡橢圓f為:Ax2+By2+Cxy+Dx+Ey+F=0,其中A、B、C、D、E、F是橢圓的參數,利用Faster R-CNN目標檢測方法得到輸入圖像的布局信息,可以通過多幅圖像的布局圖來計算上述橢圓的每個系數。將輸入圖像對應的布局圖輸入布局圖預測模塊中,得到各個物體的運動軌跡并計算新視角下的布局圖,布局圖預測架構如圖3所示。
布局圖信息按照物體類別Oi構建邊界框集合Ln={xin,yin,hin,win},得到邊界框中心坐標集合{(xi1+(1/2)wi1,yi1+(1/2)hi1),(xi2+(1/2)wi2,yi2+(1/2)hi2),…},使用最小二乘法擬合公式曲線f,求解橢圓參數A、B、C、D、E、F。
由于場景中存在遮擋,使得標注出的物體邊界框存在誤差。為修正軌跡和物體邊界框誤差,提出一種迭代計算的方法進行邊界框的修正和軌跡方程的優化。首先,計算邊界框中心坐標和軌跡曲線f之間的最短距離d,與設置的閾值比較,判定出需要修正的邊界框中心坐標。需要修正的坐標每次以d/2的步長向軌跡曲線逼近。然后,每一次更新后的坐標中心點,計算與上一次邊界框四個頂點坐標的距離,以最大值為約束,對邊界框進行擴充,得到更新后的邊界框。最后,更新的坐標重復上述的操作,進行迭代訓練,得到dmin最優解。目標函數dmin為
dmin=(xin+12win-fx)2+(yin+12hin-fy)2(1)
其中:fx、fy 是橢圓軌跡上的點集合。
一般來說,同一物體的邊界框大小和距相機距離呈線性關系。將擬合出的軌跡曲線分為左右兩個部分。左右兩個部分的橢圓軌跡上,物體中心坐標的y值與物體邊界框的寬高分別呈規律分布,即對象坐標越接近橢圓的下半圓時,表示對象距離拍攝的位置越近,對象的邊界框越大,反之,邊界框越小。為了計算出場景在新視角下的布局圖信息,將修正后的邊界框與相機位姿信息通過坐標系轉換的方法,構建兩者之間的關系為
y=k1w+b1y=k2h+b2 (2)
解出其參數k1、b1、k2、b2,利用新視角處的相機位姿對應坐標計算出新視角下物體對應的邊界框。
2.2基于布局圖生成新視角圖像
2.2.1像素預測器
現有的布局圖生成圖像方法通常通過卷積網絡提取特征的方式生成圖像,但是這種方法往往只關注圖像紋理的轉移,圖像的細節和物體的幾何形狀無法完整地保留下來。為了解決這個問題,本文引入一個像素預測器,通過直接回歸像素值,從源圖像中預測目標圖像中缺失的像素,保留了場景中各個物體的細節紋理,通過布局圖中包含的對象類別信息對物體的幾何形狀進行約束,使得生成圖像的結構保持一致。它是一種編碼器—解碼器類型的網絡,在瓶頸層中使用卷積長短時記憶模塊(convolutional long-short-term memory,ConvLSTM),將卷積層中提取到的信息通過ConvLSTM傳遞到對應的反卷積層中,使得獲取的信息更豐富。
多視角輸入圖像通過像素預測器各自生成新視角下的圖像,再將所有的圖像以均值聚合,最終生成目標圖像。細節如圖4所示。首先使用獨熱編碼(one-hot)將輸入視角的離散相機位姿進行矢量化處理,根據拍攝場景的相機總數n,編碼成n維元素的矢量,計算輸入視角當前相機位姿Ps和目標位姿Pt之間的差值Pdiff;將Pdiff輸入網絡,沿空間維度平鋪Pdiff獲得輸入的位姿張量Pinput∈Euclid Math TwoRApH×W×v,其中v表示位姿向量的維度。然后,根據獲取的邊界框LN對輸入圖像進行裁剪,根據物體類別獲取i組圖像Iis,對其進行雙線性插值與位姿張量Pinput沿著通道數連接,最后輸入到像素預測器。像素預測過程可以表示為
Its=P(Iis。Pinput)(3)
其中:P(·)表示像素預測器;Its是輸入圖像的預測圖像;。表示沿著通道方向進行concat操作。預測結果如圖5所示。ShapeNet數據集通過基于特征的方法得到預測結果,只能生成汽車的輪廓,卻無法保留汽車的細節紋理。而通過基于像素的方法得到的預測結果,汽車的細節紋理也被完整地生成。
Itarget通過所有預測圖像Its聚合生成,像素生成器被訓練成最小化以下等式:
Lp=1N∑nt=0‖Itarget-Its‖1(4)
2.2.2場景生成器
將經過像素預測器后預測生成的物體圖像與邊界框LN構建對象特征圖Fi,輸入場景生成器生成新視角下的場景圖像。對象類別yi首先通過word embedding進行編碼,然后將類別編碼yi與對象特征Zi串聯起來,填充在對象邊界框LN內。
Fi=LN(yi⊕Zi)(5)
其中:⊕表示矢量連接算;表示將對象信息復制到邊界框內。
為了將所有對象實例編碼在期望的位置,在場景生成器中的解碼器之后,加入一個多層卷積長短時記憶網絡用來融合采樣得到的對象特征,最終輸出一個融合后的隱藏布局圖H,其中包含所有對象的位置、類別和特征信息。隱藏布局圖H輸入解碼器生成目標圖像。
為了引導場景生成器中編碼器、對象融合器、解碼器能夠合成真實的圖像,防止融合生成的隱藏布局圖H出現特征丟失。使用相同邊界框LN來裁剪生成的圖像Igen得到單個物體圖像Ii′s,將Ii′s輸入到潛在代碼估計器,獲得物體的估計平均值和方差向量,然后直接使用計算出的平均向量作為回歸的潛在代碼Z′si,并將其與像素預測器輸出的值Zsi進行比較。具體表示為
L1=∑ni=1‖Zsi-Z′si‖1(6)
像素預測器生成的各個物體圖像在場景生成器的融合過程中,由于邊界框之間的重疊(現實場景中的遮擋)導致最終生成的場景圖像中存在偽影問題。為了解決這個問題,本文采用基于VGG-19網絡的感知損失(perceptual loss)[27,28]。感知損失定義如下:
Lpercept(Is,Igen)=1CjHjWj‖j(Is)-j(Igen)‖22(7)
其中:j是VGG-19的中間層代號,本文使用的是VGG-19網絡的0、2、3層提取的特征;j(·)表示輸入圖像經過VGG-19的j中間層的輸出;CjHjWj是j(·)的通道、寬、高。
3實驗結果分析
本文實驗使用PyTorch深度學習框架,實驗環境為Ubuntu 16.04操作系統,使用四塊NVIDIA 1080Ti的圖像處理器(GPU)加速運算。
3.1實驗數據集
為了滿足多物體場景下新視角圖像生成任務的要求,構建兩個不同難度的數據集。一個數據集是拍攝、標注的全新的數據集(muliti objects novel view synthesis blender/real,MONVS blender/real);另一個數據集由ShapeNet中的對象合成多物體場景。MONVS blender/real數據集包含兩部分:一部分為MONVS blender,另一部分為MONVS real。MONVS blender數據集包含不同類別的幾何體,從10種顏色中隨機抽取渲染物體且物體位置隨機分布;MONVS real數據集中從10個不同類別的真實物體中隨機抽取3個,單一顏色板作為背景。第二個數據集由ShapeNet中的對象合成,從10種不同的車型中隨機抽取3輛車,雙色板作為背景。選取10個位置放置相機,以固定的仰角獲取場景圖像,每個數據集各100個場景,包含1 000幅圖像。所有圖像的分辨率均為64×64。數據集中的隨機樣本圖像如圖6所示。
3.2實驗結果分析
本文采用常用的結構相似性(SSIM)、峰值信噪比(PSNR)和感知相似度(LPIPS)對生成圖像進行質量評估用于定量分析。
LPIPS是近幾年提出的一個新的圖像評價指標,用于度量兩張圖像之間的差別。該度量標準學習生成圖像到ground truth的反向映射,強制生成器學習從假圖像中重構真實圖像的反向映射,并優先處理它們之間的感知相似度。LPIPS比傳統方法(比如L2/PSNR、SSIM、FSIM)更符合人類的感知情況。LPIPS的值越低表示兩張圖像越相似,反之,則差異越大。計算公式如下:
d(x,x0)=∑l1HlWl∑h,w‖wl⊙(lhw-l0hw)‖22(8)
具體過程為:首先,訓練過程中,將真實圖像x和生成圖像x0送入神經網絡(一般為訓練好的VGG19模型)中進行特征提取,對第l層的特征進行激活后歸一化處理得到l,l0∈Euclid Math TwoRApHl×Wl×Cl;然后,利用向量wl∈Euclid Math TwoRApCl 縮放激活通道并計算L2距離(wl是訓練權重參數);最后,在空間上求平均值,在通道上求和。
采用時間復雜度衡量每種方法復雜度的指標,即通過計算模型的浮點運算量(floating-point operations,FLOPs)。FLOPs值越大,模型越復雜,反之模型越簡單。
由于之前的工作與本文工作沒有相同的設置,所以在對比方法的網絡訓練中只提供多視角的圖像和相機位姿。經過測試,當輸入圖像為6幅時,軌跡方程擬合的準確率和時間為最佳。在三個數據集上,實驗了64×64的圖像分辨率,對于每個數據集各隨機選擇800幅圖像用做訓練,200幅用做測試。給出了本文方法和最新的使用多視圖生成新視角的方法TB-network[29]、uORF-main[30]和SVNVS[4]的定量結果比較。
圖7~9中展示了本文的方法和其他最新的使用多視角圖像作為輸入的NVS的方法的可視化結果。這些結果涉及到在多物體場景中進行大視角轉換的幾個具有挑戰性的示例。uORF-main方法將單物體的3D表示和深度推理網絡相結合,通過隱式搭建三維模型的方法實現新視角圖生成任務,uORF-main很難從輸入圖像中推測出目標視圖中各個物體的對應關系。如圖7~9結果中的第3、4列,uORF-main應用在多物體場景中時,無法生成場景中物體的清晰圖像;TB-network方法通過網絡首先生成高質量的3D結構和物體的體素信息,利用三維重建的方法生成新視角圖像,但是TB-network無法較好地生成背景信息,因此許多背景細節丟失,容易產生空洞。例如圖7~9結果中的第5、6列,生成圖像中各物體之間的背景產生空洞。SVNVS通過輸入圖像以自監督的方式獲取深度概率密度估計來指導網絡生成新視角圖像,但是在處理大視角轉換時,物體變化較大,目標圖像的深度圖無法通過輸入圖像的深度圖準確生成,導致其網絡生成圖像中物體與物體之間的邊界不清晰。例如圖7~9結果中的第7、8列,當目標視角與輸入視角相差過大時,各個物體的邊界模糊,無法生成準確的圖像。
相比之下,本文方法通過場景的布局圖信息指導網絡生成新視角下的場景圖像,不需要搭建場景的三維結構,不依賴輸入圖像的深度圖,可以很好地恢復物體與物體和物體與背景之間的關系,生成的圖像更加清晰真實。首先,本文方法在布局圖信息的約束下,生成的圖像中各個物體的形狀和顏色相對清晰;其次,引入感知損失,使得物體與背景之間沒有因為視角的轉換而生成空洞和偽影。為了進一步證明本文方法在多物體存在的場景下生成圖像的真實性,對圖7~9中生成的結果進行定性分析,結果如表1所示。當輸入圖像的個數相同時,本文方法與其他多視圖生成新視角方法在多物體場景數據集上的SSIM、PSNR和LPIPS的結果都是最好的。在FLOPs對比上,本文相較于其他三種模型有明顯提升,這是由于本文提出的網絡無須進行3D信息的估計(如深度圖和體素),只需要對各物體的邊界框進行計算就可以獲取場景中各個物體的位置。這些結果表明,在相同情況下,布局圖作為先驗信息指導網絡去生成新視角圖像,要優于使用深度概率密度估計和隱式三維結構的方案。
3.3消融實驗
為了驗證所提模型中各個模塊的有效性,在MONVS數據集上進行消融實驗。可視化結果如圖10所示,在沒有預測布局圖誤差修正的情況下訓練,生成圖像中各個物體的位置不準確。如圖10第2行第4列所示,生成的長方體位置和圓錐位置與真實圖像存在誤差,這表明布局圖預測模塊能夠準確地修正布局圖信息,指導網絡生成新視角圖像。在沒有引入感知損失的情況下,場景生成器生成的圖像存在嚴重的偽影現象,如圖10第3行第2列所示,在沒有布局圖作為先驗信息的情況下,生成的圓錐體的位置和真實圖像存在誤差,并且生成的圓錐體不完整,出現像素丟失的現象。引入的感知損失保證了每幅圖像中物體的周圍沒有出現偽影。如圖10第4行第4列所示,生成圖像中長方體周圍存在偽影。這是由于像素預測器生成的各個物體圖像在場景生成器的融合過程中邊界框之間的重疊(現實場景中的遮擋)導致的。這表明感知損失對圖像的生成有嚴格的約束,并且有效解決了生成圖像中的偽影問題。
本文采用FID和LPIPS兩個指標對消融實驗的生成結果進行量化評估。定量結果如表2所示,將布局圖預測模塊修正后的場景布局圖作為先驗信息指導網絡生成的圖像,生成圖像的真實度提高了7.9%,證明了引入布局圖可以有效解決場景中的物體在視角轉換時,發生位置偏移的問題。模型加入感知損失后,生成圖像的真實度提高了58%,生成圖像的顏色準確清晰,解決了生成圖像中存在的偽影問題,證明了感知損失在提升圖像質量上的有效性。
4結束語
本文提出了一種以場景布局圖為先驗信息,指導網絡實現場景新視角圖像生成的方法。通過不同輸入視角下的場景布局圖信息,計算出新視角下的場景布局圖,用來指導網絡生成圖像。解決了由于視角變換導致場景中物體丟失的問題,在場景生成器中加入感知損失函數,解決生成的各個物體在根據布局圖信息進行集合時產生的偽影問題。實驗結果表明,本文方法在多物體的簡單場景下的新視角圖像生成的性能和圖像質量優于最近幾年的方法。然而,本文方法也有一些局限性,首先所提出的模型只能在環拍數據中對場景進行布局圖預測;其次,對于新視角圖像中前景與背景的交界處像素模糊。未來的工作將利用一些神經輻射場的方法,提高模型在拍攝不規則的數據集上的泛化性,使模型可以應用在園林等復雜的戶外場景中。
參考文獻:
[1]Zhou Tinghui,Tulsiani S,Sun Weilun,et al.View synthesis by appea-rance flow[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:286-301.
[2]Tatarchenko M,Dosovitskiy A,Brox T.Multi-view 3D models from single images with a convolutional network [C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:322-337.
[3]Hani N,Engin S,Chao J J,et al.Continuous object representation networks:novel view synthesis without target view supervision[C]//Advances in Neural Information Processing Systems.2020:6086-6099.
[4]Shi Yujiao,Li Hongdong,Yu Xin.Self-supervised visibility learning for novel view synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9675-9684.
[5]Song Zhenbo,Chen W,Campbell D,et al.Deep novel view synthesis from colored 3D point clouds [C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:1-17.
[6]Le H A,Mensink T,Das P,et al.Novel view synthesis from single images via point cloud transformation [EB/OL].(2020).https://arxiv.org/abs/2009.08321.
[7]Park E,Yang Jimei,Yumer E,et al.Transformation-grounded image generation network for novel 3D view synthesis [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:702-711.
[8]Choi I,Gallo O,Troccoli A,et al.Extreme view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:7781-7790.
[9]Huang Pohan,Matzen K,Kopf J,et al.DeepMVS:learning multi-view stereopsis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2821-2830.
[10]Zhao Bo,Meng Lili,Yin Weidong,et al.Image generation from layout[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8584-8593.
[11]Herzig R,Bar A,Xu H,et al.Learning canonical representations for scene graph to image generation [C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:210-227.
[12]蘭紅,劉秦邑.圖注意力網絡的場景圖到圖像生成模型[J].中國圖象圖形學報,2020,25(8):1591-1603.(Lan Hong,Liu Qinyi.A scene graph-to-image generation model for graph attention networks [J].Chinese Journal of Image Graphics,2020,25(8):1591-1603.)
[13]蘭紅,陳子怡,劉秦邑.基于Transformer實現文本導向的圖像編輯 [J].計算機應用研究,2022,39(5):1563-1568.(Lan Hong,Chen Ziyi,Liu Qinyi.Text-oriented image editing based on Transformer [J].Application Research of Computers,2022,39(5):1563-1568.)
[14]Sun Wei,Wu Tianfu.Image synthesis from reconfigurable layout and style[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:10531-10540.
[15]Xu Jiale,Zheng Jia,Xu Yanyu,et al.Layout-guided novel view synthesis from a single indoor panorama[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:16438-16447.
[16]Zou Chuhang,Colburn A,Shan Q,et al.LayoutNet:recon-structing the 3D room layout from a single RGB image[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2051-2059.
[17]Sun Shaohua,Huh M,Liao Yuanhong,et al.Multi-view to novel view:synthesizing novel views with self-learned confidence[C]//Proc of European Conference on Computer Vision.2018:155-171.
[18]Flynn J,Neulander I,Philbin J,et al.DeepStereo:learning to predict new views from the world’s imagery[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5515-5524.
[19]Azinovic′ D,Martin-Brualla R,Goldman D B,et al.Neural RGB-D surface reconstruction [EB/OL].(2021).https://arxiv.org/abs/2104.04532.
[20]Guo P,Bautista M A,Colburn A,et al.Fast and explicit neural view synthesis[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:3791-3800.
[21]衛星,李佳,孫曉,等.基于混合生成對抗網絡的多視角圖像生成算法[J].自動化學報,2021,47(11):2623-2636.(Wei Xing,Li Jia,Sun Xiao,et al.Multi-view image generation algorithm based on hybrid generative adversarial network[J].Chinese Journal of Automation,2021,47(11):2623-2636.)
[22]Mildenhall B,Srinivasan P P,Tancik M,et al.NERF:representing scenes as neural radiance fields for view synthesis[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:405-421.
[23]Yu A,Ye V,Tancik M,et al.pixelNeRF:neural radiance fields from one or few images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4578-4587.
[24]Zhang Jin,Yu Huan,Deng Huaxia,et al.A robust and rapid camera calibration method by one captured image[J].IEEE Trans on Instrumentation and Measurement,2018,68(10):4112-4121.
[25]趙漫丹,劉燁斌,吳高昌,等.強約束條件下環繞式相機標定方法[J].計算機應用研究,2017,34(11):3463-3467.(Zhao Mandan,Liu Yebin,Wu Gaochang,et al.Surround camera calibration method under strong constraints[J].Application Research of Computers,2017,34(11):3463-3467.)
[26]汪蕾,劉濤,董琦聰,等.散焦模糊量估計的相機加權標定方法 [J].計算機輔助設計與圖形學學報,2020,32(3):410-417.(Wang Lei,Liu Tao,Dong Qicong,et al.Camera weighted calibration method for defocus blur estimation[J].Journal of Computer Aided Design and Graphics,2020,32(3):410-417.)
[27]Yang Qingsong,Yan Pingkun,Zhang Yanbo,et al.Low-dose CT image denoising using a generative adversarial network with Wasserstein distance and perceptual loss[J].IEEE Trans on Medical Imaging,2018,37(6):1348-1357.
[28]吳從中,陳曦,季棟,等.結合深度殘差學習和感知損失的圖像去噪 [J].中國圖象圖形學報,2018,23(10):1483-1491.(Wu Congzhong,Chen Xi,Ji Dong,et al.Image denoising combined with deep residual learning and perceptual loss[J].Chinese Journal of Image Graphics,2018,23(10):1483-1491.)
[29]Olszewski K,Tulyakov S,Woodford O,et al.Transformable bottleneck networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:7648-7657.
[30]Yu Hongxing,Guibas L J,Wu Jiajun.Unsupervised discovery of object radiance fields [EB/OL].(2021).https://arxiv.org/abs/2107.07905.
收稿日期:2022-01-22;修回日期:2022-03-14基金項目:國家自然科學基金資助項目(61876121);江蘇省重點研發計劃項目(BE2017663);江蘇省教育廳高等學校自然科學研究面上項目(19KJB520054)
作者簡介:高小天(1997-),男,江蘇徐州人,碩士研究生,主要研究方向為計算機視覺、深度學習和新視角圖像生成;張乾(1991-),男,博士研究生,主要研究方向為主動視覺、場景微變監測、光照重現;呂凡(1993-),男,博士研究生,主要研究方向為連續學習、多模態學習、多任務學習;胡伏原(1978-),男(通信作者),教授,碩導,博士,主要研究方向為機器學習及計算機視覺(fuyuanhu@mail.usts.edu.cn).