摘 要:光場圖像新視圖生成算法在視點內插和外插方面已經取得了良好的研究成果,但在視點位置平移和旋轉一定角度情形下的透視視圖生成仍然是一項具有挑戰性的任務。針對上述問題,提出了一種基于條件生成對抗網絡的光場圖像透視視圖生成算法LFIPTNet(light field image perspective transformation network),利用相機的位姿信息作為條件來引導條件生成對抗網絡學習新視圖的內容。提出了多個模塊,充分利用相機位姿信息和光場宏像素圖像(macro pixel image,MPI)記錄空間信息、角度信息、深度信息來生成預測視圖。提出的方法在構建的數據集上與最新的三種方法進行了比較,相比于性能第二的StereoMag模型,PSNR提高了7.77 dB,SSIM提高了0.35。消融實驗部分對提出的模塊進行了評估,驗證了創新點的有效性。充分的實驗結果表明LFIPTNet相比于現有算法,生成的預測視圖更加準確。
關鍵詞:光場圖像;視圖生成;透視變換;深度估計;宏像素圖像;條件生成對抗網絡
中圖分類號:TP301文獻標志碼:A
文章編號:1001-3695(2023)08-041-2501-07
doi:10.19734/j.issn.1001-3695.2022.12.0776
Light field image perspective view synthesis method based on
conditional generative adversarial network
Zhang Yichenga,Jing Huahua Yan Tao
(a.School of Artificial Intelligence amp; Computer Science,b.Jiangsu Key Laboratory of Media Design amp; Software Technology,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:In recent years,researchers have proposed a lot of excellent view synthesis methods for light field image for view interpolation and extrapolation.However,it is still a challenging task to generate perspective views when the desired viewpoint is transitioned and rotated by a certain angle.In order to address the aforementioned challenge,this paper proposed a conditional generative adversarial network called LFIPTNet,for light field image perspective view synthesis,which used the position and pose matrix information of the target camera as a condition to guide the network to generate the desired novel perspective view.This paper proposed multiple modules to utilize camera position and pose matrix information,spatial and angular information and depth information from the MPI to generate accurate novel views.It compared LFIPTNet with three state-of-the-art methods on the proposed dataset.Comparing with the second-best StereoMag network,the PSNR value obtained by LFIPTNet was improved by 7.77 dB,and the SSIM value produced by LFIPTNet was improved by 0.35,which demonstrated that the proposed method outperforms existing state-of-the-art methods by a large margin.The ablation experiment assessed the performance of the proposed modules of LFIPTNet and confirmed the effectiveness of the proposed innovations.Extensive experiments demonstrate the effectiveness and efficiency of proposed network for predicting high-quality novel views with specified perspective transformation.
Key words:light field image; view synthesis;perspective transform;depth estimation;macro pixel image;conditional generative adversarial network
0 引言
光場相機通過記錄入射光線的強度和方向信息來捕獲豐富的三維場景信息,可廣泛應用于具有挑戰性的計算機視覺任務,如新視圖生成[1,2]、超分辨率[3]、深度估計[4,5]、三維重建[6]、目標檢測[7]等。受限于光場相機傳感器有限的像素分辨率導致的角度分辨率和空間分辨率之間固有的折中關系,光場相機在空間或角度域采樣稀疏。為了提高光場圖像的角度分辨率,近年來提出了許多新視圖生成算法。新視圖生成任務不僅要求提取目標場景的三維結構信息,還要求理解輸入圖像的語義信息,如三維場景的遮擋關系和物體的輪廓,而真實光場數據記錄的場景比較復雜。目前新視圖生成算法研究大都基于視點平移[8]和內插[9~11],而支持視點外插[12]和視點平移加旋轉的透視視圖生成算法的相關工作相較視點內插算法數量不多。優秀的視點旋轉和平移情況下的外插算法在構建擁有自由視點,全視角任意看的可交互直播模式等領域擁有重要意義。
光場圖像記錄了目標三維場景豐富的光場結構信息,4D卷積能夠同時處理光場圖像的所有子視點以獲得光場圖像的空間和角度信息,但是網絡參數量太大[13,14]。同時光場圖像擁有子視點、宏像素、極平面等多種表現形式。為了充分利用光場圖像的空間和角度特征且在深度神經網絡中引入較少的參數量,選擇將光場圖像以宏像素圖像形式輸入到光場特征提取模塊中,利用2D卷積分別提取空間和角度特征再融合,這樣既可以得到兩者的特征又不會引入大量的網絡參數。視點旋轉的透視視圖生成需要預先知道相機的位姿信息,因此將相機的位姿矩陣輸入到網絡中來引導新視圖的生成和優化判別器的判別標準。深度圖反映了目標場景的三維結構,可以幫助網絡理解三維場景信息,從而有益于新視圖的生成。本文將得到的角度特征輸入到數層卷積中獲得各個子視圖的深度圖。透視視圖的生成除了準確的場景結構透視變化外還需要在結果圖像上記錄豐富的紋理細節信息,因此本文提出了一個宏像素卷積注意力模塊(macro-pixel convolution block attention mo-dule,MPCBAM)來更好地恢復透視視圖的紋理細節。
本文提出了一種新穎的光場透視視圖生成網絡LFIPTNet,其算法流程如圖1所示。相機的位姿信息經過卷積層輸入到網絡中,作為條件特征引導新視圖的生成。生成器的第一部分首先使用光場特征提取模塊(light field feature extraction module, LFFEM),從輸入光場宏像素圖像中提取空間和角度特征,然后將提取的空間和角度特征進行交互融合,以充分地利用光場圖像全部子視點信息。第二部分將空間角度特征,從位姿信息得到的條件特征以及利用角度特征經過數層卷積得到的深度圖輸入到深度信息引導融合模塊(depth guided fusion module,DGFM)中融合。第三部分將融合后的特征輸入宏像素卷積注意力模塊(MPCBAM)中,更好地恢復新視圖的細節信息。條件生成對抗網絡的判別器通常以生成的樣本或真實樣本,再加上對應樣本的條件特征作為輸入。本文提出的生成對抗網絡中的判別器同時將生成器生成的樣本、對應的真實樣本以及經過位姿信息提取模塊提取出的位姿特征作為輸入。本文的貢獻分為以下幾個方面:
a)本文提出了一個基于條件生成對抗網絡的光場透視視圖生成網絡LFIPTNet,提出位姿信息提取模塊(pose information extraction module,PIEM),利用相機位姿信息作為條件,引導深度神經網絡生成透視視圖。
b)本文提出深度引導融合模塊(DGFM)有效地融合深度信息,空間角度特征。并且提出了一種宏像素卷積注意力模塊(MPCBAM)來恢復光場圖像的細節信息。
c)本文構建了一個以光場相機光心為原點,圍繞相機坐標軸旋轉一定角度捕獲的光場數據集對,包含真實場景和合成場景來訓練所提網絡,如圖2所示。本文以沿Y軸旋轉,旋轉角度設置為5°和10°為例。
1 相關工作
1.1 單張圖像新視圖生成算法
近年來,相關研究人員提出了很多單張圖像的新視圖生成算法。Riegler等人[15]首次利用SfM(structure-from-motion) 校準輸入的圖像,然后通過MVS(multi view stereo) 構建幾何支架,為場景的新視圖計算深度圖,并將該深度圖和其他視圖輸入到循環編解碼器中重新投影生成新視圖。雖然該算法在具有挑戰性的真實世界數據集上首次實現了新視圖生成,但不適用于動態場景。Liu等人[16]提出了一個新的區域感知幾何變換網絡,通過一定數量的平面來近似模擬真實場景,并學習預測一組單應性矩陣及其對應的區域編碼,從而將輸入圖像轉換為新視圖,該算法解決了其他視圖生成算法因過于關注場景內容而產生的預測結果與底層場景結構不一致的問題。Li等人[17]提出了一個MINE(multiplane images neural radiance field)網絡,通過對單張圖像進行三維重建來生成新視圖和深度估計。該算法首先通過引入神經輻射場(neural radiance field,NeRF)來對多平面圖像進行連續的深度泛化,然后利用MINE來預測并生成任意深度值的四通道圖像并結合重建的相機截錐體來恢復被遮擋的內容。但該算法深度估計結果不夠精確,限制了網絡的性能。Zhou等人[18]提出了一種基于深度的新視圖生成算法,從單張2D RGB圖像來重建光場。首先提出了一個單目深度估計網絡,根據光場的中心子視點來預測每個子視點的視差圖,再通過warp操作生成目標子視點圖像。Shih等人[19]提出了一種將輸入的單張RGB-D圖像轉換為3D圖像的方法,其中包含在原始視圖的遮擋區域中的顏色和深度結構,并提出了一種基于學習的修復模型,以空間上下文感知方式將新的局部顏色和深度內容合成到遮擋區域中,然后使用標準的圖形引擎來渲染3D圖像,算法充分地利用了圖像的上下文信息,產生的視覺偽影較少。Xu等人[20]提出了一個基于編碼器解碼器結構的生成對抗網絡VI-GAN,使用估計的相機位姿矩陣作為原始圖和目標視圖的輸入條件,取代了原本的獨熱條件向量。Dosovitskiy等人[21]提出一個卷積神經網絡(convolutional neural network,CNN),給定對象的類型、視點和顏色,它能夠在給定的視點之間進行內插以生成缺失的視點。該網絡以包含形狀和相機位姿的低維代碼作為輸入,并將其映射為高維圖像。
單張圖像的新視圖生成算法研究成果較為豐富,已經提出了很多優秀的算法。近年來基于單張圖像生成視點的算法大多受限于輸入單張圖像的信息較少,故通常以其他信息(深度圖[17~19]、相機位姿[20,21]等)作為支撐,幫助生成較為精準的視圖。
1.2 光場圖像新視圖生成算法
由于光場的結構信息可以更好地支撐新視圖的生成,近年來研究人員提出很多基于深度神經網絡的光場圖像新視點生成算法。Kalantari等人[22]提出一種新的基于學習的方法,從一組稀疏的輸入視圖中生成新視圖。算法過程分為視差估計和顏色估計兩部分,并利用連續的兩個卷積神經網絡來對兩部分進行建模,最后通過最小化生成圖像和真值之間的誤差來同時訓練上述網絡。Wang等人[14]提出了一個端到端的深度學習網絡,通過探索偽4D CNN來生成新視圖。首先將在光場極平面圖像(epipolar plane image,EPI)上操作的2D跨步卷積和用于細節恢復的3D卷積結合成偽4D卷積,然后利用4D卷積將一組稀疏的輸入視圖有效地生成密集的4D光場。Wafa等人[23]提出了一種基于深度遞歸殘差網絡(deep recursive resi-dual network,DRRN)的光場視圖生成方法來改善光場圖像在傳輸和存儲時的數據大小。該算法在發出端刪除特定的視圖,并在接收端有效地生成視圖,并且利用EPI信息來保證生成視圖和原始視圖之間的平滑視差。Jia等人[24]提出了一個基于對抗生成網絡的光場子視圖生成算法。首先對光場中的子視圖進行稀疏采樣,然后利用神經網絡捕獲光場結構的空間角度上下文信息生成未采樣的子視圖,最后將采樣子視圖和生成的未采樣子視圖組織為偽序列并由標準視頻編解碼器壓縮。
Wu等人[25]利用光場數據中EPI的清晰紋理結構,將稀疏視點的光場重建問題建模為基于CNN的EPI角度細節恢復。為了平衡空間和角度信息,在EPI饋送到網絡之前,首先利用EPI模糊去除空間高頻分量,最后使用非盲去模糊操作來恢復之前被EPI模糊抑制的空間細節。Mildenhall等人[26]提出了一種從不規則網格采樣的視圖生成算法,該算法首先利用多平面圖像的場景表示,將每個采樣的視圖擴展成一個局部光場,然后通過混合相鄰的局部光場渲染新的視圖。Li等人[27]提出一種用于復雜場景的新視圖生成的深度學習算法。該算法首先利用4D參數來表示每條光線,然后將光場公式轉換為一個4D函數,將4D坐標映射到每條光線對應的顏色值,并訓練一個深度全連接網絡來優化此隱式函數,最后使用特定場景的模型生成新的視圖。
上述描述的算法都專注于光場視圖內插任務,雖然生成的結果圖較準確,但視圖之間的視差較小,獲得的輔助信息較少,網絡訓練的難度也較低。基于光場的新視圖生成任務相較于基于單張圖像的新視圖生成任務,可利用的信息更多,光場的空間特征和光場獨有的角度特征可以更好地滿足對算法要求較高的視圖外插任務。同時,如何充分地利用光場圖像中的空間信息和角度信息也是問題所在,目前部分光場圖像的新視點生成算法[22]僅僅將輸入的光場圖像視為多張圖像輸入,而忽視了子視點之間的聯系。
1.3 新視圖外插生成算法
無論是單張圖像還是光場圖像,現有的新視圖生成算法大多聚焦于視圖內插算法,而視圖外插領域算法相對較少,且其中較多是通過三維重建方法來實現。Wiles等人[28]引入了一個可微的點云渲染器來將潛在的三維特征點云轉換為目標視圖,投影后的特征通過細化網絡解碼來繪制缺失區域并生成新視圖。Zhou等人[29]提出了一個深度學習網絡來實現視圖外插,利用YouTube上的大量在線視頻的數據進行訓練。該算法從輸入的立體圖像對中預測多平面圖像,然后利用該多平面圖像生成一系列新視圖。Zhang等人[30]提出了一種結合 NeRF 和基于截斷符號函數(truncated signed distance function,TSDF)的融合技術的方法,以實現高效的大規模重建和照片級真實感渲染,網絡以圖像序列作為輸入,實時增量重建全局稀疏場景表示。Ren等人[31]提出一個新方法,給定單個場景圖像和攝像機運動軌跡,網絡利用自回歸Transformer來合成前后一致的相機運動視頻。Xu等人[32]提出了Point-NeRF,通過使用神經三維點云和相關的神經特征來模擬輻射場,從而結合了體積神經渲染方法和深度多視圖立體方法的優點,在基于光線行進的渲染管道中,通過聚集場景表面附近的神經點特征來進行三維場景的高效重建。
以上三維重建方法盡管可以在重建的三維場景上生成任意要求視點的圖像,但其通常要求較多相機位姿變化明顯的圖像作為輸入,以獲得三維場景的信息,且通常計算量也較大。視圖外插相較于視圖內插任務,視圖之間的視差較大,遮擋關系變化較大,目標視圖的獲取較難,對數據集和模型的學習能力都有較高的要求。相較于平移的視圖外插,旋轉一定角度的視圖外插的算法通過學習數據集的結構和語義信息來對輸入的場景未知部分進行合理推測的要求更高。因此,在光場領域基于旋轉的新視圖外插任務的研究有著十分重要的意義。
2 算法原理
2.1 光場特征提取模塊(LFFEM)
2.2 位姿信息提取模塊(PIEM)
2.3 深度引導融合模塊(DGFM)
2.4 宏像素卷積注意力模塊(MPCBAM)
2.5 損失函數
3 實驗結果
3.1 光場數據集
3.2 視圖生成結果定量分析
3.3 視圖生成結果定性分析
3.4 效率對比
3.5 消融實驗
4 結束語
本文提出了一個基于條件對抗生成神經網絡的光場透視視圖生成網絡LFIPTNet,利用相機的位姿信息引導網絡生成新視圖。首先通過LFFEM分別提取光場空間和角度特征,從而獲得光場的結構信息;然后利用角度特征生成深度圖,將其與空間角度特征以及位姿信息送入DGFM中融合,從而得到目標光場圖像的結構信息;最后進入重建模塊MPCBAM中恢復目標光場圖像的細節信息,得到重建的光場圖像。在大量合成和真實數據集上的實驗結果表明,本文算法能有效地實現光場圖像透視視圖的生成。
但是本文提出的網絡模型仍然存在不足,由于真實場景中光場圖像的復雜性,本文實驗結果在細節和顏色方面的修復不是非常理想。所以,下一步針對此問題可以引入其他損失函數以提高圖像細節修復的能力。本文獲得的真實場景的深度圖效果也不是非常理想,可以通過引入半監督的學習策略同時利用仿真數據和真實數據來提高模型的泛化能力。
參考文獻:
[1]Mildenhall B,Srinivasan P P,Tancik M,et al.NeRF:representing scenes as neural radiance fields for view synthesis[J].Communications of the ACM,2021,65(1):99-106.
[2]Meng Nan,Li Kai,Liu Jianzhuang,et al.Light field view synthesis via aperture flow and propagation confidence map[J].IEEE Trans on Image Processing,2021,30:3908-3921.
[3]Rossi M,Frossard P.Geometry-consistent light field super-resolution via graph-based regularization[J].IEEE Trans on Image Proces-sing,2018,27(9):4207-4218.
[4]Jeon H G,Park J,Choe G,et al.Accurate depth map estimation from a lenslet light field camera[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1547-1555.
[5]熊偉,張駿,高欣健,等.自適應成本量的抗遮擋光場深度估計算法[J].中國圖象圖形學報,2017,22(12):1709-1722.(Xiong Wei,Zhang Jun,Gao Xinjian,et al.Anti-occlusion light-field depth estimation from adaptive cost volume[J].Journal of Image and Graphics,2017,22(12):1709-1722.)
[6]Zhu Hao,Zhang Qi,Wang Qing.4D light field superpixel and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6384-6392.
[7]Zhang Miao,Ji Wei,Piao Yongri,et al.LFNet:light field fusion network for salient object detection[J].IEEE Trans on Image Processing,2020,29:6276-6287.
[8]Liu Kanglin,Li Qing,Qiu Guoping.PoseGAN:a pose-to-image translation framework for camera localization[J].ISPRS Journal of Photogrammetry and Remote Sensing,2020,166:308-315.
[9]Chang Yuan,Zhang Congyi,Chen Yisong,et al.Homography-guided stereo matching for wide-baseline image interpolation[J].Computational Visual Media,2022,8(1):119-133.
[10]崔璨.基于感知的立體內容深度調整及視點生成技術研究[D].北京:北京郵電大學,2018.(Cui Can.Research on perception-based stereo content depth adjustment and viewpoint generation technology[D].Beijing:Beijing University of Posts and Telecommunications,2018.)
[11]韓冬雪.多視點裸眼 3D 電視的虛擬視點生成方法研究[D].濟南:山東大學,2019.(Han Dongxue.Research on virtual viewpoint generation method for multi-view glasses-free 3D TV[D].Jinan:Shandong University,2019.)
[12]Zhu Hao,Su Hao,Wang Peng,et al.View extrapolation of human body from a single image[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4450-4459.
[13]Li Yingjie,Yang Wei,Xu Zhenbo,et al.Mask4D:4D convolution network for light field occlusion removal[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:2480-2484.
[14]Wang Yunlong,Liu Fei,Wang Zilei,et al.End-to-end view synthesis for light field imaging with pseudo 4D CNN[C]//Proc of European Conference on Computer Vision.2018:333-348.
[15]Riegler G,Koltun V.Free view synthesis[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:623-640.
[16]Liu Miaomiao,He Xuming,Salzmann M.Geometry-aware deep network for single-image novel view synthesis[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4616-4624.
[17]Li Jiaxin,Feng Zijian,She Qi,et al.Mine:towards continuous depth MPI with NeRF for novel view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:12578-12588.
[18]Zhou Wenhui,Liu Gaomin,Shi Jiangwei,et al.Depth-guided view synthesis for light field reconstruction from a single image[J].Image and Vision Computing,2020,95:103874.
[19]Shih M L,Su S Y,Kopf J,et al.3D photography using context-aware layered depth inpainting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:8028-8038.
[20]Xu Xiaogang,Chen Y C,Jia Jiaya.View independent generative adversarial network for novel view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:7791-7800.
[21]Dosovitskiy A,Tobias S J,Brox T.Learning to generate chairs with convolutional neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1538-1546.
[22]Kalantari N K,Wang T C,Ramamoorthi R.Learning-based view synthesis for light field cameras[J].ACM Trans on Graphics,2016,35(6):1-10.
[23]Wafa A,Pourazad M T,Nasiopoulos P.Learning-based light field view synthesis for efficient transmission and storage[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2021:354-358.
[24]Jia Chuanmin,Zhang Xinfeng,Wang Shanshe,et al.Light field image compression using generative adversarial network-based view synthesis[J].IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2018,9(1):177-189.
[25]Wu Gaochang,Zhao Mandan,Wang Liangyong,et al.Light field reconstruction using deep convolutional network on EPI[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017:6319-6327.
[26]Mildenhall B,Srinivasan P P,Ortiz-Cayon R,et al.Local light field fusion:practical view synthesis with prescriptive sampling guidelines[J].ACM Trans on Graphics,2019,38(4):1-14.
[27]Li Zhong,Song Liangchen,Liu Celong,et al.NeuLF:efficient novel view synthesis with neural 4D light field[EB/OL].(2021).https://arxiv.org/abs/2105.07112.
[28]Wiles O,Gkioxari G,Szeliski R,et al.SynSin:end-to-end view synthesis from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:7467-7477.
[29]Zhou Tinghui,Tucker R,Flynn J,et al.Stereo magnification:learning view synthesis using multiplane images[EB/OL].(2018).https://arxiv.org/abs/1805.09817.
[30]Zhang Xiaoshuai,Bi Sai,Sunkavalli K,et al.NeRFusion:fusing radiance fields for large-scale scene reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:5449-5458.
[31]Ren Xuanchi,Wang Xiaolong.Look outside the room:synthesizing a consistent long-term 3D scene video from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:3563-3573.
[32]Xu Qianggeng,Xu Zexiang,Philip J,et al.Point-NeRF:point-based neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:5438-5448.
[33]Wang Yingqian,Wang Longguang,Yang Jungang,et al.Spatial-angular interaction for light field image super-resolution[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:290-308.
[34]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.2018:3-19.
[35]Tucker R,Snavely N.Single-view view synthesis with multiplane images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:551-560.
[36]Liu A,Tucker R,Jampani V,et al.Infinite nature:perpetual view gene-ration of natural scenes from a single image[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:14458-14467.