999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像本征屬性預測方法綜述

2021-07-12 01:16:36浩,劉越,2
圖學學報 2021年3期

沙 浩,劉 越,2

基于深度學習的圖像本征屬性預測方法綜述

沙 浩1,劉 越1,2

(1. 北京理工大學光電學院,北京 100081;2. 北京電影學院未來影像高精尖創新中心,北京 100088)

真實世界的外觀主要取決于場景內對象的幾何形狀、表面材質及光照的方向和強度等圖像的本征屬性。通過二維圖像預測本征屬性是計算機視覺和圖形學中的經典問題,對于圖像三維重建、增強現實等應用具有重要意義。然而二維圖像的本征屬性預測是一個高維的、不適定的逆向問題,通過傳統算法無法得到理想結果。針對近年來隨著深度學習在二維圖像處理各個方面的應用,出現的大量利用深度學習對圖像本征屬性進行預測的研究成果,首先介紹了基于深度學習的圖像本征屬性預測算法框架,分析了以獲得場景反射率和陰影圖為主的本征圖像預測、以獲得圖像中材質BRDF參數為主的本征屬性預測及以獲得圖像光照相關信息為主的本征屬性預測3個方向的國內外研究進展并總結了各自方法的優缺點,最后指出了圖像本征屬性預測的研究趨勢和重點。

計算機視覺;計算機圖形學;本征屬性預測;本征圖像預測;BRDF預測;光照預測;深度學習

真實世界的外觀由光線作用在各個對象的幾何形狀之間發生反射、散射等一系列復雜交互作用所形成。在模擬真實世界進行計算機圖像渲染時,需要首先將場景建模成具有材質屬性的三角面片,然后通過基于光線追蹤等渲染方法的渲染管線將來自光源的光線通過場景的反射、折射等一系列作用傳播到成像平面上以形成二維計算機圖像[1]。這些屬性包括光照、幾何形狀、表面材質的反射率和場景的深度或法線等信息,決定著圖像形成的本質,統稱為圖像的本征屬性。為了產生新的二維圖像,在計算得到圖像的本征屬性后首先需要對圖像中的場景進行準確的三維重建[2],然后在三維空間中對場景進行處理并將處理后的場景重投影到成像平面上。通過控制圖像的本征屬性可以直接在二維圖像中對圖像外觀進行三維化的更改,包括對材質進行替換、對圖像進行重新光照等,因此本征屬性預測在三維重建、增強現實(augmented reality, AR)/虛擬現實(virtual reality, VR)中有著廣泛地應用。

根據需求的不同和實踐的可行性,研究人員一般會將原始的多個本征屬性參數進行簡化或組合,形成新的本征屬性參數。近年來研究人員普遍以獲得場景的反射率和陰影圖、以獲得圖像中材質雙向反射分布函數(bidirectional reflectance distribution function, BRDF)參數及以獲得圖像光照相關信息為主的3個方向對本征屬性進行預測。理論上圖像的本征屬性預測旨在解決一個基于渲染方程的逆映射問題。其不僅需要估計大量的本征屬性參數,還要克服二維空間映射到三維空間的高維不適定性。而在實踐中,經過大量訓練的三維建模美術師們通常可以依靠自己的經驗完成對二維圖像本征屬性的估測,因此讓計算機模仿人類行為,獲取二維圖像中的本征屬性參數也并非是一項不可能的工作。

傳統算法大都從圖像外觀的形成出發,依靠某種先驗完成對其他本征屬性的預測。例如文獻[3]將圖像中的陰影看作是本征屬性的先驗知識,通過優化代價函數對圖像場景的形狀、光照和反射率進行最大概率估計,在假定圖像中物體為朗伯模型的情況下取得了不錯的結果。近年來出現的深度學習算法的綜合性能在圖像處理的很多領域都超過了以文獻[3]為代表的傳統算法,尤其對于這種不適定、欠約束問題,深度學習的效果更加顯著。

深度學習旨在利用數據驅動的方式通過不斷迭代優化損失函數,使卷積神經網絡(convolutional neural network, CNN)模型擬合到一個可以解決特定問題的狀態,其獨特的結構模仿了生物神經元的連接方式,因此在許多問題上表現出類似于生物的智能性。圖像的本征屬性預測是圖像渲染的逆向過程,顯式的模型不足以建立其映射關系,而CNN可以看作是一個未知的“黑盒”,對于這種難以用數學模型解釋的問題有著良好的適應性,因此,越來越多的研究人員將深度學習算法應用到了圖像的本征屬性預測中。

1 問題建模

深度學習是一種采用CNN作為模型的機器學習算法,與其他算法相比,在學習圖像表示的層次上獲得了突破,因而在與圖像有關的各個領域廣泛使用。在圖像的本征屬性預測方面,深度學習方法大多將單張或多張圖像輸入CNN,然后輸出圖像本征屬性的預測值,通過計算預測值和真實值之間的損失函數,不斷迭代優化網絡參數,使特定模型達到可以完成對所需本征屬性進行預測的狀態[4]。深度學習算法主要包含網絡結構、損失函數、數據集3個核心模塊,對于不同的任務,這3個模塊會有所不同。

應用在圖像本征屬性預測中代表性的網絡結構主要有VGG-16[5]、深度殘差網絡[6]和Unet[7]等。文獻[8]利用VGG變體網絡,第一次實現了基于CNN的單幅圖像深度預測。雖然深度預測[9]更多是作為計算機視覺的一大獨立問題,但深度信息本質上代表了場景的幾何參數,同屬于圖像的本征屬性,因此深度預測也屬于圖像的本征屬性預測。文獻[10]利用深度殘差網絡進行遷移學習,預測出的單目圖像深度信息在精度上超越了之前利用其他CNN進行預測的算法。結構上相互對稱的Unet網絡如圖1所示,其對輸入圖像的計算過程類似于圖像正逆渲染,因而基于此結構的網絡在圖像的本征屬性預測上有著更為廣泛地使用。

深度學習的損失函數與所完成的任務有關,在分類問題中,常用softmax等分類器結合交叉熵損失進行誤差計算。而對于像素級的任務,常常使用L1,L2損失對預測圖像和真實圖像各個位置上的像素值進行誤差計算。在圖像本征屬性的預測任務中,對于均勻一致的本征屬性參數,通常可以將其看作一個范圍值,進而轉化為不同范圍的分類問題[11-12],所以常常采用交叉熵損失計算誤差。然而更多情況下,圖像的本征屬性參數并不會全局均勻且一致,因此更多將其視為一個像素級的圖像到圖像的任務。在大多數圖像的本征屬性預測中,還會引入重建損失[13-17]旨在將預測到的圖像本征屬性參數重投影并渲染生成新的圖像,進而計算重建圖像與原始輸入圖像之間的像素級誤差。重建損失可以自動平衡每個參數在損失函數中所占的比重,讓網絡的收斂更符合渲染的物理性。

數據集的質量和數量在深度學習任務中起到了決定性的作用。真實數據集的制作一般采用眾包的手段,通過人工注釋和測量的方式產生數據集中的真實值標簽。文獻[18]利用Kinect深度攝像機對室內場景的深度進行測量,生成一個對應著場景深度和場景分割標簽圖的NYU depth v2數據集。然而在圖像的本征屬性預測任務中,獲取真實場景的真實本征屬性十分困難,難以應用生成真實標簽數據集的傳統方法。文獻[19]通過眾包的方式讓用戶對場景中的反射率進行判斷,從而生成一個帶有稀疏注釋的本征屬性數據集,但是其標簽密度太小,訓練出的網絡可信度太差。圖2所示的MIT intrinsic[20]數據集雖然測量了包含陰影、漫反射率和鏡面反射分量的16個真實物體的本征屬性參數,但是其規模遠遠不能滿足圖像本征屬性預測任務的訓練需要,因此許多工作常常將其用作測試集來衡量算法的性能。文獻[21]利用大型的真實感游戲合成了像素級別的帶有語義標簽的數據集,該策略不僅減少了傳統數據集制作上的困難,同時也提高了語義分割模型在真實圖像預測任務中的精度,證明了合成數據集的可用性。隨著真實感渲染技術的發展,渲染出照片級別的合成圖像已經成為可能,研究人員可以程序化地控制本征屬性參數進而合成不同的圖像,這樣不僅得到了可靠的數據集,還大大減輕了人力負擔,因此在圖像本征屬性預測中,一般都會采用合成數據集對網絡進行訓練。

2 以獲得場景的反射率和陰影圖為主的本征圖像預測

文獻[22]提出圖像亮度的不連續性主要是由反射率變化造成的,而圖像的其他起伏變化來源于場景中陰影的改變。文獻[23]提出對于一張彩色場景圖像,可以將其簡單地分解為對應場景中不同位置均勻漫反射率的反射率圖和對應光照作用于場景幾何結構后的陰影灰度圖的逐像素乘積,即

之后,國內外研究人員開始開展針對彩色圖像的本征圖像預測研究工作。文獻[24]利用CNN將單張圖像分解為反射率圖和陰影圖,在精度、泛化性等方面都優于文獻[25]和[26]等基于深度圖輔助的傳統算法。作者利用文獻[8]提出的多尺度深度預測網絡的變體,通過計算和的損失函數之和迭代優化模型。由于真實反射率和陰影的強度不是絕對的,不能施加標準L2誤差對網絡進行約束,所以其使用了尺度不變性L2誤差[8]為

其中,和為圖像的像素坐標位置;為RGB通道索引;為要計算的像素數目。為尺度誤差不變的平衡項,其值為0時,損失函數變為簡單的最小平方差;其值為1時,損失函數變為尺度不變誤差。文獻[24]使用通過游戲的合成的MPI Sintel 數據集(圖3)和MIT intrinsic數據集對網絡進行聯合訓練,雖然成功分解出了和,但其數據集的質量和網絡的簡單結構還是限制了模型的泛化性能和精度。為此文獻[27]在直接預測本征圖像網絡的基礎上,并行地添加了一個輸入邊緣輪廓圖像、輸出反射率指導圖的指導網絡,再將基礎網絡預測得到的反射率圖與指導圖像輸入區域濾波器,從而得到最終的反射率圖。文獻[27]還為不同類型的數據集設置了不同的網絡框架,將合成數據集與IIW真實數據 集[19](圖3)同時加入網絡進行聯合訓練,進而改進預測結果。文獻[13]將IIW數據集加入網絡訓練過程的同時,也為此任務制作了一個基于物理渲染的大規模場景本征圖像的CGI數據集(圖3)。文獻[13]在采用尺度不變L2誤差損失函數的基礎上,利用稀疏注釋數據集的約束設置了對陰影、反射率的平滑損失和基于原始圖像重建損失,結果表明高質量數據集的加入大大改善了模型的質量,不同數據集的聯合訓練和其他損失的約束也一定程度上提升了模型的表現。

合成高質量的數據集需要耗費大量的時間和資源,為了減輕對大規模數據集的依賴,文獻[28]提出一個結合了預測與重渲染的CNN網絡框架,通過2個編碼器到解碼器結構的網絡分別進行本征圖像的預測和圖像的重渲染,并利用自增強的訓練策略讓網絡在預測本征圖像的同時生成新的數據對,進而對整體網絡進行半監督訓練。文獻[29]提出一個組合2個可以共享參數的雙流并行CNN架構,通過輸入2張不同照度的彩色圖像,將訓練模式從半監督進一步改進為無監督,讓網絡可以在沒有本征圖像真實值的情況下完成訓練,最終預測出本征圖像。無監督的訓練模式不需要真實值的對應標簽,因而可以擺脫合成數據集對訓練的約束,但真實圖像包含的光照、幾何、材質變化更復雜,對本征圖像的預測難度更高。文獻[30]將同一場景的多張不同真實圖像作為輸入,對網絡進行無監督訓練。其引入法線圖和全局光照代替陰影與反射率進行渲染生成重建圖像,計算重建損失,還通過多圖像生成的深度圖與反射率對圖像進行交叉投影從而計算交叉投影損失。該方法不僅恢復出了傳統的本征圖像,還引入了全局光照,因而可以開發出如重光照一樣的新應用。由于該方法引入的光照只包含全局光照,應用于戶外圖像時重建誤差較小,但對包含豐富局部光照變化的室內圖像有著明顯的限制。為此,文獻[31]在預測全局光照和法線圖之后對其進行渲染生成陰影,再將陰影加入第二個網絡進行局部光照的細化預測,最后再將細化后的法線和光照進行重渲染,進而生成陰影圖,加強了其在局部范圍內的精細度。文獻[32]則在文獻[31]的基礎上將局部光照和全局光照進行集成,并將預測法線的網絡特征添加至本征圖像預測中,在陰影的平滑度和反射率的精細度上均比文獻[13]和[31]中的算法要好(圖4)。

圖3 本征圖像分解常用數據集示例(紅色框選中區域代表RGB輸入圖像)

上述基于朗伯模型的本征圖像預測算法忽略了鏡面反射等真實場景中的復雜外觀效果,所以其使用范圍十分受限。為此文獻[33]改進了本征圖像分解的表達形式,為其增加了鏡面反射圖,即

其選擇了ShapeNet[34]數據庫中具有鏡面反射的特定類別模型,利用Mitsuba[35]渲染器進行圖像合成,創建了一個增添了鏡面反射圖的基于非朗伯模型物體的本征圖像數據集。在網絡結構方面,文獻[33]為每個本征圖像提供了共享的編碼器和獨立的解碼器,但鑒于不同的本征屬性參數互相關聯,其在網絡的后半部分還添加了交織的連接以便不同的解碼器共享參數。該方法的模型在預測精度和泛化性上表現良好,但是遇到具有高頻鏡面反射的物體時,預測出的反射率和陰影圖可能會出現偽影。盡管當前基于深度學習的方法在定量結果的比較中表現出優異的性能,但基于物理的傳統算法在很大程度上仍然有著重要的意義。文獻[36]基于文獻[22]中的假設,將傳統算法和深度學習相結合,在輸入原始圖像的基礎上添加梯度圖預測其反射率與陰影的梯度圖,接著將反射率與陰影的梯度圖與原始輸入圖像相結合對CNN進行訓練,進而預測出細節更豐富的本征圖像。

圖3展示了本征圖像分解常用數據集示例,其中IIW數據集包含5 000多張真實RGB圖像和人為相對反射率判斷圖;MPI Sintel數據集包含13 000多張合成的RGB圖像和相對應的反射率圖、深度圖、光流圖;CGI數據集包含25 000多張合成的RGB圖像和對應的反射率圖;SAW數據集[37]包含了5 200多張陰影變換的3類注釋圖像。綜合來看,數據集對本征圖像分解的影響最大,而損失函數及其他訓練策略的添加會不同程度地提升網絡的性能。表1對上述本征圖像分解的算法在幾方面進行了比較,觀察不同數據集上的表現來看,網絡在相同數據集下訓練和測試時,結果會比跨數據集測試要好很多,進一步表明現有數據集之間的差異性較大,網絡不能在某一數據集上訓練出良好的泛化性,這種情況在跨越合成數據集和真實數據集時尤為明顯。有些算法在預測時還會添加其他方法,進而增加對網絡訓練的約束,提升網絡的性能,如文獻[27]中將預測后的本征圖像輸入區域濾波器進行平滑,獲得了表1內最好的量化結果。引入其他信息進行交叉預測、采用自監督的訓練模式也在一定程度上增加了可用數據集的范圍和模型的泛化性。目前的本征圖像假設較為簡單,考慮非朗伯模型假設的算法也大多停留在單個物體圖像的預測中,因而當遇到模型假設外的外觀效果時,往往會預測出一些錯誤的本征圖像。

圖4 真實圖像中不同算法的本征圖像分解效果對比,綠色框選中的是圖像放大后的細節特征((a)輸入圖像;(b)文獻[13];(c)文獻[31];(d)文獻[32])

表1 本征圖像分解代表性算法比較

注:WHDR和MSE的數值越低,代表算法性能越好

3 以獲得圖像中材質BRDF參數為主的本征屬性預測

圖形學中一般用BRDF[40]對材質表面進行建模,因此圖像中材質的BRDF參數代表其本征屬性。材質外觀越復雜,表示其BRDF的形式就越繁瑣[41-44],參數就越多。因此在傳統中,材質BRDF參數的預測需要借助復雜的機械工具完成[45-46],相比之下,基于圖像的材質BRDF參數預測極大地節約了成本。在基于圖像的BRDF參數預測算法中,基于CNN的算法在輕量性和準確性權衡后的綜合性能上往往領先于其他算法[47-48],因此成為當下BRDF預測的研究熱點。

在獲取圖像中材質的BRDF參數時,研究人員通常會將光照加以限制,并將平行成像平面的平面材質圖像作為輸入,進而簡化預測難度。文獻[14]在U-net的網絡結構基礎上添加了一個為捕獲和傳播全局信息而定制的并行網絡層,并基于Cook-Torrance模型[42]將BRDF模型參數設為法線、漫反射率、粗糙度和鏡面反射率,制作了大型數據集(圖5),實現了對手持閃光燈照明平面的單張材質圖片BRDF的預測。同時提出的全局網絡層讓每一對信息交換在每個像素之間形成非線性依賴關系,通過在不同區域之間重復傳輸局部信息可以很好地減輕一些局部高頻信息所造成的偽影。文獻[15]則將一張開閃光燈手機拍攝的平面圖像與反映像素亮度的灰度圖作為輸入,并在BRDF預測CNN的基礎上加入一個將材質分類結果用作權重的分類器,對不同材質的BRDF預測進行平均,最后再利用動態條件隨機場(dynamic conditional randomness field, DCRF)依次對預測出的本征屬性圖像進行優化,得到最終的BRDF參數圖。雖然基于單張平面材質圖像的BRDF預測非常便捷,但是單張圖像不能展現完整材質的信息,一些重要的物質效果常常會被忽略。因此,文獻[49]利用最大池化層將文獻[14]中的網絡輸入從單張擴展為多張圖像(圖5),利用來自多張不同光照條件和視角圖像中更完整的局部信息和全局信息,使預測結果的細節更豐富,偽影更少。文獻[16]利用文獻[14]中的網絡首先將輸入圖像分解為BRDF參數圖,然后再將其輸入所提出的自動編碼器CNN和重渲染框架進行級聯優化,與以往的直接優化方法不同,該方法在本質上優化了自動編碼器中關于參數的潛在向量,相較于文獻[14]和[15],在BRDF輸出的精細度和重建質量上都有了明顯地提升。具體來說,文獻[15]相對文獻[14]法線預測更加細致,但粗糙度和鏡面反射圖的預測會出現錯誤,而文獻[16]相對上述2種方法,預測出的各個分量都有所提升;文獻[49]相較于文獻[14]和[15]預測結果的局部細節更清晰,偽影更少(圖6)。

圖5 文獻[14]中的網絡結構和數據集(左)及文獻[15]和[16]、文獻[49]中改進后的多輸入網絡結構(右)

上述方法多以高質量、大規模的數據集為基礎,但是生成帶有對應BRDF參數標注的數據集往往會耗費大量的資源與時間。為此文獻[17]制作了包含小規模的帶有對應BRDF參數圖標簽和大規模只包含材質照片的數據集,并提出“自增強”的弱監督訓練模式,讓網絡可以在訓練過程中生成數據集以減少對標記數據集規模依賴的同時預測出高精度的BRDF參數圖。但是自增強策略需要少量的標記數據為網絡提供一個良好的潛在空間,且標記數據和未標記數據的分布也對網絡性能產生了巨大影響,所以文獻[50]在文獻[17]的基礎上,首先利用神經紋理合成算法[51]和隨機生成的方式從未標記圖像中構造BRDF參數圖,然后再用自增強策略對網絡進行訓練。該方法在不需要標記數據集的同時,其網絡性能方面也超越了文獻[17]中的“自增強”算法。上述方法所預測的平面材質外觀并不會隨視角產生變化,但現實中的許多材質表面卻不是這樣(如金屬拉絲、天鵝絨等)。為此文獻[12]制作了一個各向異性的材質平面數據集(圖8),并將包含30°和90°拍攝的2組做了單應化處理的圖像輸入一個組合嵌套型CNN,恢復出了包含各向異性性質、折射率以及反射多色性等新的本征屬性。

圖6 文獻[14–16]和文獻[49]對相同數據的預測結果

基于平面材質的BRDF預測簡化了渲染方程中光照與幾何結構的復雜積分,也降低了預測難度,而預測圖像中三維物體的BRDF更具有挑戰性。文獻[11]設計了2個輕量級的網絡可以從多張場景圖和深度圖的輸入中獲取場景中三維物體的7參數BRDF。文獻[52]利用級聯式的CNN依次訓練其不同的BRDF參數,最終可以從包含三維物體的單張圖像中預測出基于非朗伯模型的BRDF參數,且網絡模型同樣可以實時對場景中的物體材質進行提取,但當遇到復雜材質和彩色照明場景時,會出現錯誤。文獻[53]提出了組合2個CNN的無監督網絡框架,可以從點光源照亮拍攝的多張二維圖像中預測出三維物體的表面法線和其BRDF。該方法針對特定場景特定訓練,不需要數據集的支持,降低了數據生成的成本,但需要為每個不同的對象訓練不同的網絡,因此在實時性上有著很大的限制。為了計算出更精確的重建損失,文獻[54]提出了一個模擬全局光照渲染的CNN和一個用于預測環境光照明的CNN,通過二者組合合成最終的重建圖像。作者采用級聯式的網絡架構,為次級網絡輸入來自上一階段輸出的圖像、BRDF、光照預測及渲染損失,通過依次訓練級聯網絡恢復單張RGB圖像中三維物體的BRDF參數和法線。基于圖像的BRDF參數預測意義在于可以便捷地重建出圖像中物體的三維特征,但良好的預測結果往往伴隨著大型的網絡和復雜的輸入,因此如何將其融入應用是研究人員的一大難題。文獻[55]利用多個輕量級的網絡以級聯的方式在合成數據集上訓練,通過輸入一張閃光燈照亮和一張未照亮的圖像并引入融合卷積層合并2張圖像中的信息,完成對其BRDF、光照、深度及法線的粗預測。在粗預測后作者將粗預測后的重建圖像與原始圖像的差值和粗預測結果共同輸入第二級精煉網絡以細化預測結果,所采用的任務分離和階段式預測方法不但可以獲得更好的結果,還能更便捷地部署到應用中,有著很強的實用性。

BRDF參數預測難度隨預測目標的復雜度逐步上升,上述方法預測出的最復雜場景也僅包含一個三維物體,為此文獻[56]制作了一個包含BRDF、光照、法線和深度的大型場景數據集(圖7),以完成多任務聯合預測。該網絡采用多層級聯的方式,通過多網絡的逐步預測與精煉最終得到了所需的預測圖像。這一工作相較之前基于場景的本征圖像預測更細致,但較之前基于單個物體的BRDF預測更復雜,可以獲得更好的效果,同時為以后的研究工作提供了方向。

BRDF參數預測的不同主要是與數據集有關,圖7展示了BRDF參數預測中代表性的數據集,從中可以看出不同數據集有不同的側重點,材質的微觀信息越復雜,其幾何信息就越簡單。但是總體來看,數據集的制作在同時向微觀和幾何信息復雜度的方向發展。表2比較了BRDF參數預測的代表性算法,整體來看數據集決定了網絡的預測結果,當缺乏數據集時可以利用無監督或自監督策略訓練網絡。許多算法通過引入多張輸入圖像為網絡提供更完整的外觀信息,進而改善預測結果。許多算法還通過引入幾何信息和光照信息以及聯合交叉預測的方式提升預測結果。雖然利用CNN預測BRDF參數有了一定進展,但現有的算法還存在一些共通的問題有待解決:在遇到某些特殊效果或是高頻信息時,圖像中材質BRDF參數的預測會出現較大錯誤(如圖6右圖反射率預測出現的偽影),同時基于CNN的方法預測出的大多數BRDF參數形式也較為簡單,對真實材質的重建效果表現欠佳。相較于平面材質的BRDF預測,獲取圖像中三維物體和場景的BRDF參數更為困難,因此預測得到的BRDF模型更簡單,精度也略差。

圖7 不同類別BRDF參數預測數據集示例,其中紅色框內是數據集的輸入RGB圖像,緊隨其后的是對應的BRDF參數標簽

表2 BRDF參數預測代表算法比較

4 以獲得圖像光照相關信息為主的本征屬性預測

作為圖像本征屬性的一部分,光照的位置、方向、強度、數目和色彩等因素都極大地影響了圖像的外觀。分離并替換原始光照可以為圖像帶來三維化的效果,在AR中加入光照渲染后的虛擬物體也會更加真實,因此對光照信息的預測一直以來都是研究人員非常重視的問題。

已有的光照預測算法大多依賴于幾何線索[57]的提取或是圖像先驗信息[58-59]的輸入,隨著深度學習在圖像本征屬性分解上的應用,研究人員對光照相關信息進行了不同程度的解耦與預測。文獻[60]首先利用低動態范圍(low dynamic range, LDR)數據集對CNN進行訓練完成對光照方向的預測,然后利用高動態范圍(high dynamic range, HDR)數據集對之前預訓練的CNN進行遷移學習完成對光照強度的預測,從而預測出室內環境光照的HDR圖像。而文獻[61]則利用CNN完成了對戶外HDR環境光照圖像的預測。并基于戶外光照圖的參數假設,預測出了輸入圖像中的太陽位置參數、大氣條件參數和相機參數,進而利用預測參數合成相應的HDR環境光照圖。如圖8所示,文獻[60]和[61]都利用恢復出的HDR環境光照圖向二維圖像插入虛擬物體,可以看出加入光照渲染后的虛擬物體更加真實,提升了AR應用的效果。相較于復雜場景圖像,只包含單個物體的圖像所擁有的光照信息較少,因此其預測難度更大。文獻[62]首先只利用環境光照圖訓練一個可以將環境光照圖壓縮成多維潛在向量空間的“編碼器到潛在空間再到解碼器”結構的CNN,再將該潛在空間層和解碼器層與新的編碼器層相連,輸入環境光照圖渲染后的單個物體圖和其法線圖,通過添加原始環境光照圖和場景圖的潛在空間向量的誤差損失,對新的網絡進行訓練,使最后的網絡模型預測出單個物體圖像中的室內環境光照圖。文獻[63]對輸入圖像的場景不做室內或戶外的限制,作者采用3個級聯的CNN,其中第一個網絡首先對輸入圖像進行反射率顏色的預測;然后將預測結果和原始圖像輸入第二個網絡進行光照陰影圖的預測,與以往不同的是其預測了2個不同光照形成的陰影圖,最后將陰影圖和原始圖像輸入第三個CNN,使原始圖像中的光照分離,形成2張在不同光照作用下的場景圖,其實現了對原始輸入圖像光源位置的預測與解耦。文獻[64]提出了一種基于CNN的人像重照明系統。人的皮膚具有的散射等復雜物理性質會導致合成數據與真實數據過于偏差,因此特為此任務設計了專用的采集設備并制作了真實的數據集。其所設計的CNN不僅可以預測出場景的光照圖,還能實現人像的重照明,但是當輸入圖像包含硬陰影、尖銳的鏡面反射或飽和像素時,預測結果仍然有著較大錯誤。

在對光照信息進行預測的同時,許多算法也常常會將其他本征屬性一并預測出來。文獻[65]利用CNN不僅將圖像按照光照反射方向分為上下左右4個部分,還將單張圖像的漫反射率、陰影、輻照度和鏡面高光一并分解出來。文獻[66]則在得到圖像中材質反射貼圖[67]的前提下,利用2個獨立的CNN從反射貼圖中預測出7個基于馮模型的材質BRDF參數和分辨率為原始圖像一半的場景光照圖。通過改進文獻[66]中的方案,文獻[68]又利用2個CNN,直接和間接地獲取了輸入圖像中材質的反射貼圖,再利用文獻[66]中的CNN結構預測出了圖像的場景光照信息和材質信息。文獻[69]為了關注圖像中一些常被忽略的復雜光照效應,通過引入直接渲染器和一個基于學習的“復雜光照殘余外觀”渲染器對圖像進行重建進而計算重建損失,在用合成數據集對網絡進行初始化預訓練后,引入真實數據集對網絡進行自增強訓練,最后預測出場景光照圖的同時,還預測出了更精細的場景的法線和反射率圖。文獻[70]將傳統的蒙特卡洛渲染器可微分化,并將其嵌入到CNN后端,通過訓練的方式逆向求解場景的光照信息和BRDF參數。該方法可以正確地估計出場景中的發光器,但當場景中不存在發光器時,可能會出現錯誤的預測結果。

圖8 虛擬物體插入((a)文獻[60]中的虛擬物體插入效果;(b)文獻[61]中的虛擬物體插入效果)

光照信息除了被編碼成光照圖以外,還可以其他的形式表示。文獻[30]利用9參數的球諧函數表示戶外光照信息,通過CNN將其參數和本征圖像一同恢復出來。但其采用的光照模型只能較好地表示全局光照,對于豐富的局部光照表現欠佳。為此,文獻[31]在表示全局光照的基礎上添加局部光照的殘余項,通過階段性的預測將全局光照信息和局部光照信息通過級聯式CNN依次恢復出來,得到了更細致的光照信息。雖然文獻[31]預測出的光照信息非常細致,但包含了大量的參數,為此,文獻[32]將全局光照和局部光照進行集成,以一個照明矢量圖的形式編碼豐富的室內光照信息,以預測出本征圖像為最終結果,連帶地將光照矢量圖預測出來,以更少的參數表示了更細致的光照。文獻[56]利用各向同性球面高斯函數,以較少的參數近似了所有頻率的照明。其用2個分支的網絡分別預測圖像的空間變化雙向反射分布函數(spatially-varying bi-directional reflectance distribution function, SVBRDF)參數和光照信息,并將預測出的光照信息與SVBRDF進行重渲染輸入下一相同的級聯網絡結構進行進一步的精煉,進而逐級恢復出場景的光照信息和SVBRDF。

圖9展示了不同算法用來表示光照模式的數據集,可以看出隨著表示形式趨于復雜,包含的光照細節在增加。表3比較了光照相關信息預測的代表性算法,可以看出在對不同場景進行光照預測時,因為場景的特殊性,往往要對光照進行不同形式的編碼,以參數最少、表達效果最好的原則設計出最適合該場景的光照模式表示,如文獻[61]利用天空光模型中的幾個參數就可以預測出良好的戶外光照信息,實現虛擬物體插入的重渲染應用。整體來看,利用CNN直接恢復出場景光照信息往往比較困難,其應用范圍也較窄,更多的工作是將光照作為目標信息之一,連帶預測出其他的目標屬性。從許多算法的結果可知,聯合預測圖像的其他本征屬性可以在幾個預測目標之間相互促進,同時提高光照預測和其他本征屬性預測的效果。但對光照相關信息預測仍然存在一些現實問題,比如現實中戶外光照和室內光照本身存在較大差異,因而一般算法也難以同時在室內和戶外光照條件下恢復出效果一樣的光照信息。

圖9 不同光照表示數據集示例,其中紅色框選中的是輸入圖像,未選中的是對應光照信息標簽

表3 光照相關信息預測代表算法比較

5 總結和展望

在基于深度學習的圖像本征屬性預測任務中,數據集、網絡結構和損失函數的設計是每個算法的核心。鑒于預測對象的不同,許多工作都為各自的任務開發出了獨有的數據集,且數據集的數目與質量往往決定了模型的魯棒性和泛化性能。在網絡結構方面,對于圖像到圖像的任務,最常采用以編碼器到解碼器結構為基礎的變體CNN,為了緩解單個網絡的預測壓力,通常還會采用多網絡并行或級聯的方式增強整體算法的預測能力;而對于基于數字參數的本征屬性預測,網絡通常采用相似于分類網絡的下采樣結構。在損失函數方面,大多數工作都將獨立參數的誤差與預測參數重渲染后的重建誤差相結合,根據數據集類型和所要預測對象性質的不同,會添加額外的損失來約束網絡訓練,使預測結果在細節上更進一步。總之,本征屬性預測在任務上不是獨立的,越來越多的工作將更多的本征屬性加入到網絡預測中,原因在于各個本征屬性之間有著不可分割的關系,通過逐級或聯合預測本征屬性相當于為每個單獨的預測任務額外提供多個先驗知識,這些先驗知識不僅可以降低網絡預測難度,還可以提升網絡預測效果。在實際中,某些本征屬性可以通過物理采集等方法獲得,但有些卻不能,因此許多工作在訓練時通過采用多個數據集聯合、多個訓練模式共同訓練的策略來提高網絡在真實圖像中的表現和不同類別圖像任務中的泛化能力。

從近年圖像本征屬性預測任務的研究狀況來看,所要預測的圖像復雜度逐漸增加,預測出的本征屬性參數在數目增多的同時,預測精度方面也有所提高。即使這樣,依然存在如下問題:數目和類型太少的訓練的數據集會導致網絡的泛化性能變差,當網絡遇到數據集之外的圖像時,結果表現往往不佳;若輸入圖像中存在如鏡面高光等高頻信息時,預測出的本征屬性圖往往會出現偽影;若圖像中存在一些復雜的外觀效果時,預測結果也會出現錯誤的表示;大多數任務在開始前都需要有一定的約束,如圖像采集步驟往往需要在特定條件下完成;分解質量的增加意味著模型復雜程度也將增加,復雜模型的大小和計算時間限制了其實踐任務中的可行性。為了解決上述問題,未來的工作中,可以制作規模更大、質量更高的數據集用來解決過擬合問題,也可以將更多不同類型的數據集加入訓練,提升模型的泛化能力。可以通過輸入更多圖像以展現更完整的圖像場景信息,進而增加網絡對圖像場景的理解力,減少偽影等錯誤信息出現的概率。為了降低網絡對大規模合成數據集的依賴和真實數據集的缺乏,可以利用半監督、無監督等策略讓網絡在沒有圖像對應目標標簽的情況下進行訓練,提高網絡在真實數據上的表現。為了讓算法更好地應用到實踐中去,必須對模型進行“瘦身”,在輕量性和準確性上做權衡,可以通過增加網絡個數降低單個網絡大小,將整體網絡預測分解成子網絡預測,進而提升網絡模型的可部署性。也可以依靠5G的快速傳輸能力,將網絡計算加入云平臺,從而減輕對網絡模型輕量化的需求[71-72]。在設計損失函數時,要謹慎選擇各個獨立參數的權重,要依據數據集和網絡結構的不同為每個任務設置最合適的損失。傳統的基于濾波器、統計特征等圖像處理方法雖然不能直接解決本征圖像預測問題,但通過將傳統算法作為指導和約束引入CNN預測,可以大大降低網絡訓練的時間,提升網絡的預測效果。最后在預測結果的優化方面,在使用如DCRF等傳統數學模型的同時,還可考慮用CNN對預測結果的細節[73]進行優化。

雖然深度學習在圖像本征屬性預測中已經獲得了廣泛的應用,但在下述特殊的圖像外觀領域仍有待開拓:①具有復雜物理效應的表面外觀圖像上,如具有強衍射效應的材質表面外觀圖像、多層光傳輸的材質的表面外觀圖像等;②具有復雜光照效果的場景圖像上,如彩色光照明的場景圖像、具有強烈折射衍射等效應的場景圖像等;③帶有高頻信息外觀的圖像上,如具有尖銳邊緣信息的圖像和過強鏡面反射外觀的圖像等。在未來對具有這些特殊外觀圖像進行本征屬性數據集的制作、新訓練策略和網絡結構的引入、更合理有效的損失函數及約束條件的設置有望成為基于深度學習對本征屬性預測的新研究趨勢和熱點。

[1] GUARNERA D, GUARNERA G C, GHOSH A, et al. BRDF representation and acquisition[C]//The 37th Annual Conference of the European Association for Computer Graphics : State of the Art Reports. Goslar: Eurographics Association, 2016: 625-650.

[2] 張志林, 苗蘭芳. 基于深度圖像的三維場景重建系統[J]. 圖學學報, 2018, 39(6): 1123-1129.

ZHANG Z L, MIAO L F. 3D scene reconstruction system based on depth image[J]. Journal of Graphics, 2018, 39(6): 1123-1129 (in Chinese).

[3] BARRON J T, MALIK J. Shape, illumination, and reflectance from shading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(8): 1670-1687.

[4] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[5] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-02]. https://arxiv.org/abs/1409.1556.

[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press 2016: 770-778.

[7] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Heidelberg: Springer, 2015: 234-241.

[8] EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2650-2658.

[9] 畢天騰, 劉越, 翁冬冬, 等. 基于監督學習的單幅圖像深度估計綜述[J]. 計算機輔助設計與圖形學學報, 2018, 30(8): 1383-1393.

BI T T, LIU Y, WENG D D, et al. Survey on supervised learning based depth estimation from a single image[J]. Journal of Computer-Aided Design and Computer Graphics. 2018, 30(8): 1383-1393 (in Chinese).

[10] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 4th International Conference on 3D Vision (3DV). New York: IEEE Press, 2016: 239-248.

[11] KIM K, GU J W, TYREE S, et al. A lightweight approach for on-the-fly reflectance estimation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 20-28.

[12] VIDAURRE R, CASAS D, GARCES E, et al. BRDF estimation of complex materials with nested learning[C]//2019 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2019: 1347-1356.

[13] LI Z Q, SNAVELY N. Cgintrinsics: better intrinsic image decomposition through physically-based rendering[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 371-387.

[14] DESCHAINTRE V, AITTALA M, DURAND F, et al. Single-image SVBRDF capture with a rendering-aware deep network[J]. ACM Transactions on Graphics, 2018, 37(4): 1-15.

[15] LI Z Q, SUNKAVALLI K, CHANDRAKER M. Materials for masses: SVBRDF acquisition with a single mobile phone image[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 72-87.

[16] GAO D, LI X, DONG Y, et al. Deep inverse rendering for high-resolution SVBRDF estimation from an arbitrary number of images[J]. ACM Transactions on Graphics., 2019, 38(4): 1-15.

[17] LI X, DONG Y, PEERS P, et al. Modeling surface appearance from a single photograph using self-augmented convolutional neural networks[J]. ACM Transactions on Graphics, 2017, 36(4): 1-11.

[18] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from rgbd images[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 746-760.

[19] BELL S, BALA K, SNAVELY N. Intrinsic images in the wild[J]. ACM Transactions on Graphics, 2014, 33(4): 1-12.

[20] GROSSE R, JOHNSON M K, ADELSON E H, et al. Ground truth dataset and baseline evaluations for intrinsic image algorithms[C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 2335-2342.

[21] RICHTER S R, VINEET V, ROTH S, et al. Playing for data: ground truth from computer games[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 102-118.

[22] LAND E H, MCCANN J J. Lightness and retinex theory[J]. Journal of the Optical Society of America, 1971, 61(1): 1-11.

[23] BARROW H, TENENBAUM J, HANSON A, et al. Recovering intrinsic scene characteristics[J]. Computer Vision Systems 1978, 2(3-26): 2.

[24] NARIHIRA T, MAIRE M, YU S X. Direct intrinsics: learning albedo-shading decomposition by convolutional regression[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2992-2992.

[25] LEE K J, ZHAO Q, TONG X, et al. Estimation of intrinsic image sequences from image+ depth video[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 327-340.

[26] CHEN Q F, KOLTUN V. A simple model for intrinsic image decomposition with depth cues[C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 241-248.

[27] FAN Q N, YANG J L, HUA G, et al. Revisiting deep intrinsic image decompositions[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8944-8952.

[28] JANNER M, WU J J, KULKARNI T D, et al. Self-supervised intrinsic image decomposition[EB/OL]. [2020-09-08]. https://arxiv.org/abs/1711.03678.

[29] MA W C, CHU H, ZHOU B L, et al. Single image intrinsic decomposition without a single intrinsic image[C]//2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 201-217.

[30] YU Y, SMITH W A P. InverseRenderNet: learning single image inverse rendering[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3155-3164.

[31] ZHOU H, YU X, JACOBS D W. GLoSH: global-local spherical harmonics for intrinsic image decomposition[C]// 2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 7820-7829.

[32] LUO J D, HUANG Z Y, LI Y J, et al. NIID-Net: adapting surface normal knowledge for intrinsic image decomposition in indoor scenes[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(12): 3434-3445.

[33] SHI J, DONG Y, SU H, et al. Learning non-lambertian object intrinsics across shapenet categories[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1685-1694.

[34] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. [2020-05-27]. https://arxiv.org/abs/1512.03012.

[35] JAKOB W. Mitsuba [EB/OL]. [2020-05-27]. https://www. mitsuba-renderer. org.

[36] BASLAMISLI A S, LE H A, GEVERS T. CNN based learning using reflection and retinex models for intrinsic image decomposition[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6674-6683.

[37] KOVACS B, BELL S, SNAVELY N, et al. Shading annotations in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6998-7007.

[38] LI Z Q, SNAVELY N. Megadepth: learning single-view depth prediction from internet photos[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2041-2050.

[39] VASILJEVIC I, KOLKIN N, ZHANG S Y, et al. DIODE: a dense indoor and outdoor Depth dataset[EB/OL]. [2020-07-19]. https://arxiv.org/abs/1908.00463.

[40] NICODEMUS F E, RICHMOND J C, HSIA J J, et al. Geometrical considerations and nomenclature for reflectance[J]. NBS Monograph, 1992, 160: 4.

[41] PHONG B T. Illumination for computer generated pictures[J]. Communications of the ACM, 1975, 18(6): 311-317.

[42] COOK R L, TORRANCAE K E. A reflectance model for computer graphics[J]. ACM Transactions on Graphics, 1982, 1(1): 7-24.

[43] WARD G J. Measuring and modeling anisotropic reflection[C]//The 19th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1992: 265-272.

[44] ASHIKMIN M, PREMO?E S, SHIRLEY P. A microfacet-based BRDF generator[C]//The 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 65-74.

[45] GHOSH A, ACHUTHA S, HEIDRICH W, et al. BRDF acquisition with basis illumination[C]//2007 IEEE 11th International Conference on Computer Vision. NewYork: IEEE Press, 2007: 1-8.

[46] BEN-EZRA M, WANF J P, WILBURN B, et al. An LED-only BRDF measurement device[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Presss, 2008: 1-8.

[47] DUPUY J, HEITZ E, IEHI J C, et al. Extracting microfacet-based BRDF parameters from arbitrary materials with power iterations[J]. Computer Graphics Forum, 2015, 34(4): 21-30.

[48] AITTALA M, WEYRICH T, LEHTINEN J. Two-shot SVBRDF capture for stationary materials[J]. ACM Transactions on Graphics, 2015, 34(4): 110:1-110:13.

[49] DESCHAINTRE V, AITTALA M, DURAND F, et al. Flexible SVBRDF capture with a multi‐image deep network[J]. Computer Graphics Forum, 2019, 38(4): 1-13.

[50] YE W J, LI X, DONG Y, et al. Single image surface appearance modeling with self‐augmented cnns and inexact supervision[J]. Computer Graphics Forum, 2018, 37(7): 201-211.

[51] AITTALA M, AILA T, LEHTINEN J. Reflectance modeling by neural texture synthesis[J]. ACM Transactions on Graphics, 2016, 35(4): 1-13.

[52] MEKA A, MAXIMOV M, ZOLLHOEFER M, et al. Lime: live intrinsic material estimation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6315-6324.

[53] TANIAI T, MAEHARA T. Neural inverse rendering for general reflectance photometric stereo[EB/OL]. [2020-06-11]. https://arxiv.org/abs/1802.10328v2.

[54] LI Z Q, XU Z X, RAMAMOORTHI R, et al. Learning to reconstruct shape and spatially-varying reflectance from a single image[J]. ACM Transactions on Graphics, 2018, 37(6): 1-11.

[55] BOSS M, JAMPANI V, KIM K, et al. Two-shot spatially-varying BRDF and shape estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3982-3991.

[56] LI Z Q, SHAFIEI M, RAMAMOORTHI R, et al. Inverse rendering for complex indoor scenes: shape, spatially-varying lighting and SVBRDF from a single image[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2475-2484.

[57] LALONDE J F, EFROS A A, NARASIMHAN S G. Estimating natural illumination from a single outdoor image[C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 183-190.

[58] LOMBARDI S, NISHINO K. Reflectance and illumination recovery in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 129-141.

[59] LALONDE J F, MATTHEWS I. Lighting estimation in outdoor image collections[C]//2014 2nd International Conference on 3D Vision. New York: IEEE Press, 2014: 131-138.

[60] GARDNER M A, SUNKAVALLI K, YUMER E, et al. Learning to predict indoor illumination from a single image[EB/OL]. [2020-08-10]. https://arxiv.org/abs/1704. 00090v2.

[61] HOLD-GEOFFROY Y, SUNKAVALLI K, HADAP S, et al. Deep outdoor illumination estimation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 7312-7321.

[62] WEBER H, PRéVOST D, LALONDE J F. Learning to estimate indoor lighting from 3D objects[C]//2018 International Conference on 3D Vision (3DV). New York: IEEE Press, 2018: 199-207.

[63] HUI Z, CHAKRABARTI A, SUNKAVALLI K, et al. Learning to separate multiple illuminants in a single image[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 3780-3789.

[64] SUN T C, BARRON J T, TSAI Y T, et al. Single image portrait relighting[J]. ACM Transactions on Graphics, 2019, 38(4): 79:1-79:12.

[65] INNAMORATI C, RITSCHEL T, WEVRICH T, et al. Decomposing single images for layered photo retouching[J]. Computer Graphics Forum. 2017, 36(4): 15-25.

[66] GEORGOULIS S, REMATAS K, RITSCHEL T, et al. Delight-net: decomposing reflectance maps into specular materials and natural illumination[EB/OL]. [2020-04-29]. https://arxiv.org/abs/1603.08240v1.

[67] HORN B K P, SJOBERG R W. Calculating the reflectance map[J]. Applied Optics, 1979, 18(11): 1770-1779.

[68] GEORGOULIS S, REMATAS K, RITSCHEL T, et al. Reflectance and natural illumination from single-material specular objects using deep learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(8): 1932-1947.

[69] SENGUPTA S, GU J W, KIM K, et al. Neural inverse rendering of an indoor scene from a single image[C]//2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 8598-8607.

[70] AZINOVIC D, LI T M, KAPLANVAN A, et al. Inverse path tracing for joint material and lighting estimation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 2447-2456.

[71] 趙子忠, 張坤. 傳媒變革: 5G對媒體的基本影響[J]. 中興通訊技術, 2019, 25(6): 48-54.

ZHAO Z Z, ZHANG K. Media revolution: the impact of 5G on the media[J]. ZTE Technology Journal, 2019, 25(6): 48-54 (in Chinese).

[72] 喬秀全, 任沛, 商彥磊. 關于增強現實技術潛在發展方向的思考[J]. 中興通訊技術, 2017, 23(6): 37-40.

QIAO X Q, REN P, SHANG Y L. Thoughts on the potential development direction of augmented reality technology[J]. ZTE Technology Journal, 2017, 23(6): 37-40 (in Chinese).

[73] 王紫薇, 鄧慧萍, 向森, 等. 基于CNN的彩色圖像引導的深度圖像超分辨率重建[J]. 圖學學報, 2020, 41(2): 262-269.

WANG Z W, DENG H P, XIANG S, et al. Super-resolution reconstruction of depth image guided by color image based on CNN[J]. Journal of Graphics, 2020, 41(2): 262-269 (in Chinese).

Review on deep learning based prediction of image intrinsic properties

SHA Hao1, LIU Yue1,2

(1. School of Optics and Photonics, Beijing Institute of Technology, Beijing 100081, China; 2. Advanced Innovation Center for Future Visual Entertainment, Beijing Film Academy, Beijing 100088, China)

The appearance of the real world primarily depends on such intrinsic properties of images as the geometry of objects in the scene, the surface material, and the direction and intensity of illumination. Predicting these intrinsic properties from two-dimensional images is a classical problem in computer vision and graphics, and is of great importance in three-dimensional image reconstruction and augmented reality applications. However, the prediction of intrinsic properties of two-dimensional images is a high-dimensional and ill-posed inverse problem, and fails to yield the desired results with traditional algorithms. In recent years, with the application of deep learning to various aspects of two-dimensional image processing, a large number of research results have predicted the intrinsic properties of images through deep learning. The algorithm framework was proposed for deep learning-based image intrinsic property prediction. Then, the progress of domestic and international research was analyzed in three areas: intrinsic image prediction based on acquiring scene reflectance and shading map, intrinsic properties prediction based on acquiring material BRDF parameters, and intrinsic properties prediction based on acquiring illumination-related information. Finally, the advantages and disadvantages of each method were summarized, and the research trends and focuses for image intrinsic property prediction were identified.

computer vision; computer graphics; intrinsic properties prediction; intrinsic image prediction; BRDF prediction; illumination prediction; deep learning

TP 391

10.11996/JG.j.2095-302X.2021030385

A

2095-302X(2021)03-0385-13

2020-10-23;

2020-12-15

23 October,2020;

15 December,2020

國家自然科學基金項目(61960206007);廣東省重點領域研發計劃項目(2019B010149001);高等學校學科創新引智計劃項目(B18005)

National Natural Science Foundation of China (61960206007); R & D Projects in Key Areas of Guangdong (2019B010149001); Programme of Introducing Talents of Discipline to Universities (B18005)

沙 浩(1997–),男,甘肅天水人,碩士研究生。主要研究方向為圖像的本征屬性預測、計算機視覺、深度學習。E-mail:sh15271201@163.com

SHA Hao (1997-), male, master student. His main research interests cover intrinsic properties prediction, computer vision and deep learning. E-mail:sh15271201@163.com

劉 越(1968–),男,吉林長春人,教授,博士。主要研究方向為增強現實、計算機視覺等。E-mail:liuyue@bit.edu.cn

LIU Yue (1968-), male, professor, Ph.D. His main research interests cover augmented reality, computer vision, etc. E-mail:liuyue@bit.edu.cn

主站蜘蛛池模板: 无码人中文字幕| 亚洲国语自产一区第二页| 国产手机在线观看| 国产成人亚洲综合A∨在线播放| 91人人妻人人做人人爽男同| 国产91在线|日本| 国产精品55夜色66夜色| 欧美另类精品一区二区三区| 最新精品久久精品| 免费全部高H视频无码无遮掩| 伊人久热这里只有精品视频99| 久久精品日日躁夜夜躁欧美| 免费毛片网站在线观看| 国产99热| 亚洲国产成人精品一二区| 欧美国产日韩一区二区三区精品影视 | 又猛又黄又爽无遮挡的视频网站| 一级一级特黄女人精品毛片| 99人妻碰碰碰久久久久禁片| 精品国产福利在线| 中文字幕无码中文字幕有码在线| 日韩在线网址| a亚洲视频| a天堂视频| 伊人色在线视频| av一区二区三区在线观看| 干中文字幕| 亚洲国产一区在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ | 精品欧美一区二区三区在线| 亚洲无线视频| 国产v欧美v日韩v综合精品| 91外围女在线观看| 在线观看免费黄色网址| 久久国语对白| 久久久久青草线综合超碰| 欧美va亚洲va香蕉在线| 国产产在线精品亚洲aavv| 99久久精品免费看国产电影| 亚洲男女在线| 亚洲欧美日韩中文字幕一区二区三区 | 91口爆吞精国产对白第三集 | 国产一级毛片高清完整视频版| 久久精品电影| 丁香婷婷在线视频| 91香蕉国产亚洲一二三区| 欧美中文字幕在线播放| 免费可以看的无遮挡av无码| 草逼视频国产| 国产福利在线免费| 欧美日韩理论| 国产精品久久自在自2021| 久久久久人妻一区精品| 免费看a级毛片| 青草91视频免费观看| 免费AV在线播放观看18禁强制| 成人精品亚洲| 成年人久久黄色网站| 欧洲日本亚洲中文字幕| 久久免费观看视频| 美女被操黄色视频网站| 国产香蕉97碰碰视频VA碰碰看| 91网址在线播放| 国产黄在线免费观看| 国产福利微拍精品一区二区| 久久婷婷六月| 理论片一区| 狠狠色综合久久狠狠色综合| 曰韩人妻一区二区三区| 中文字幕无码电影| V一区无码内射国产| 波多野结衣视频一区二区| 青青青视频蜜桃一区二区| 国产成人91精品免费网址在线| 中文字幕永久视频| 丁香婷婷在线视频| 成人久久精品一区二区三区| 亚洲精品自产拍在线观看APP| 国产第一福利影院| 日韩精品一区二区三区免费| 国产偷国产偷在线高清| 国产白丝av|