摘 要:針對目前逆渲染監督學習方法難以獲得標簽、泛化能力差的問題,提出了一種基于IFC(inter-frame coherence)的自監督訓練方法。由于逆渲染問題的不適定性,引入額外的反照率一致性損失和交叉渲染損失強化自監督網絡,其主要思想是對連續光照變化的圖像序列執行IFC約束。即通過圖像幀之間的位姿圖和深度圖,在相鄰幀之間執行圖像投影和扭曲;通過這種方法在相鄰幀之間建立約束,并使用孿生訓練來確保對光度不變量的一致估計。該方法使用完全卷積神經網絡從室內視頻序列中恢復幾何形狀、反射率和光照。自監督網絡使用沒有標簽的連續幀圖像集合進行訓練,通過結合可微分渲染器,使網絡以自監督的方式進行學習。通過與其他主流方法的比較,定量和定性實驗結果表明提出方法在多個基準上表現更優。
關鍵詞:逆渲染;光照估計;自監督學習;幀間一致性;交叉渲染
中圖分類號:TP391.41
文獻標志碼:A
文章編號:1001-3695(2023)07-043-2204-06
doi:10.19734/j.issn.1001-3695.2022.10.0529
Indoor inverse rendering from video based on
inter-frame coherence self-supervision
Zhang Zhenfeng,Li Yanan,Chen Yifan,Huang Chuhua?
(State Key Laboratory of Public Big Data,College of Computer Science amp; Technology,
Guizhou University,Guiyang 550025,China)
Abstract:This paper proposed a self-supervised training method based on inter-frame consistency to solve the problem that the current inverse rendering supervised learning method is challenging to obtain labels and has poor generalization ability.Due to the ill-posed nature of the inverse rendering problem,this paper introduced additional albedo consistency loss and cross-rendering loss to strengthen the self-supervised network,the main idea of which was to enforce inter-frame consistency constraints on image sequences with continuous illumination changes.The method performed image projection and warping between adjacent frames through pose maps and depth maps between image frames.This method established constraints between adjacent frames and used Siamese training to ensure photometric invariance consensus estimate.This paper used a fully convolutional neural network to recover geometry,reflectivity,and illumination from indoor video sequences.The method trained the self-supervised network using a collection of unlabeled consecutive frame images and incorporating a differentiable renderer,making the network learn in a self-supervised manner.Compared with other mainstream methods,quantitative and qualitative experimental results show that the proposed method performs better on multiple benchmarks.
Key words:inverse rendering(IR);illumination estimation;self-supervised learning;inter-frame coherence;cross-rendering
0 引言
逆渲染 (IR) 是根據觀察一幅或多幅圖像的外觀估計一個或多個光照、反射率和形狀的問題。本文試圖從任意場景不受控制的視頻圖像序列中估計四個量:分別是表面法線、漫反射反照率、粗糙度和空間變化的光照。這包含了經典計算機視覺領域中最極具挑戰性的問題:幾何形狀估計[1]、表面材質估計[2]和光照估計[3,4]。
傳統方法[1~3]根據差異最小化來解決逆渲染問題。通常使用數據項測量輸入圖像和合成圖像之間由估計量產生的差異。但現有方法和設備難以捕獲準確的預測真實值,因此監督學習所需要的標簽并不容易獲得。目前,從多圖像中利用自監督學習逆渲染是現在的主流方向。但多視圖逆渲染本身存在數據不連續,光照和陰影變化劇烈,視角變化大等問題,無法為自監督網絡提供良好的約束。本文將此問題作為圖像到圖像的轉換來處理,使用一個深度的、完全卷積的神經網絡來解決。使用光照連續變化的視頻圖像序列作為輸入,通過數據本身并結合可微渲染器進行自監督,整體框架如圖1所示。
網絡輸入是具有連續光照變化的視頻圖像序列,并使用相對位姿和深度圖來投影相鄰幀之間的光度不變量,將其用于自監督訓練。本文使用CNN能夠學習良好性能的關鍵在于在連續視頻幀之間引入額外的監督,并將IFC應用于同一場景的大量圖像?;谝陨舷敕ǎ疚闹饕鞒龅呢暙I如下:a)提出一個基于IFC自監督的逆渲染整體框架;b)引入反照率一致性和交叉渲染損失兩種新的損失項,來更好地約束自監督網絡。以上方法均能提高圖像預測質量,并充分地完成逆渲染任務。
1 相關工作
1.1 基于深度學習的光照估計
大多數光照估計工作[5~7]僅預測單個圖像的光照,并且預測光照總是在圖像中心,忽略了空間變化的光照。尤其對于室內場景,此類方法在圖像不同位置產生相同的光照預測結果。最近的工作[8,9]通過估計密集的、每像素的光照來探索空間變化的光照。這些方法適合預測未觀察到的光源,因為它們利用真實局部照明,可以捕獲局部位置的所有可見光。然而,由于是單獨預測,它們不能保證相鄰光照的空間一致性。這種不一致的光照預測結果會為動態虛擬對象插入產生閃爍結果。此外,基于投影或基于扭曲的方法[10]通過忽略空間變化的光照并生成空間相關光照來改進該方法。雖然此方法取得了不錯的成果,但其輸入必須為HDR全景圖像,這在實際生活中難以獲得。目前從多圖像中學習的方法可以彌補在復雜現實世界場景中難以捕捉光照的缺點。因此,許多研究人員更加關注多圖像。
1.2 基于深度學習的反渲染
目前為止,使用深度學習解決完整的逆渲染問題相對較少。Sengupta等人[11]提出的人臉逆渲染方法(SfSNet)通過限制場景為單個對象來簡化問題,這意味著統計人臉模型可以約束幾何和反射率估計。Shu等人[12]用對抗性損失擴展了該想法,使得完全自監督的訓練成為可能。Gao等人[13]考慮了相同的平面場景,但基于多個圖像能夠恢復空間變化的反射率特性,同時考慮了包括自然光照等更簡化的設置。Li等人[14]專注于戶外場景,但需要多張圖像和3D幾何信息。最近,Sengupta等人[15]將逆渲染網絡與可訓練的殘差渲染網絡相結合。通過以監督方式對合成數據進行預訓練,隨后使用自監督學習在真實數據上微調逆渲染網絡,這也使得自監督訓練成為可能。
1.3 基于自監督的逆渲染
由于監督訓練難以獲得標簽,缺乏數據集等問題,最近引入了幾種使用多圖像的自監督方法[16~18],利用圖像中場景變量的一致性來約束解決方案,尤其是圖像中同一物體反照率的相似性。Ma等人[19]提出了一種基于自監督學習的方法,該方法將一對具有不同光照的圖像作為輸入,并從單個圖像生成相應的本征預測。Laffont等人[20]用一組在不同光照但相同場景視角下的圖像訓練他們的網絡,以消除反照率和陰影的歧義。Liu等人[17]提出了一種基于MVS投影的自監督反渲染方法,進一步證明了自監督學習方法在逆渲染任務中的可行性。
Yu等人[21]使用不同視角下同一場景的圖像作為輸入數據,其方法存在兩個問題:a)圖像之間視角偏移過大,從而導致投影點落在圖像邊界之外;b)圖像不連續從而未能良好地利用圖像與圖像之間相關光照信息,這導致此方法精度不高且效果差。本文在Yu等人[21]的基礎上,提出了一種使用時間連續的圖像序列并學習在不同光照條件下的自監督逆渲染方法,通過將兩個相鄰圖像相互投影并扭曲為自監督學習添加約束。
2 本文方法
2.1 IFC投影
基于多視圖自監督目前存在的問題,本文提出IFC投影方法,此方法的改進依據如下:首先,本文使用連續視頻序列,故圖像之間變化連續,不會產生劇烈陰影和光照;其次,圖像之間視角變化小,從而避免了投影點落到圖像邊界之外,投影之后的圖像完整度更高。IFC原理具體如下:
首先,已知從3D世界坐標(u,v,w)到2D圖像坐標(x,y)的投影可由式(1)給出。
其中:λ表示比例因子;R∈SO(3)表示旋轉矩陣;t∈R3表示平移矢量;f表示焦距;(cx,cy)表示主點;K表示相機內參矩陣。為了從相機坐標系轉換到理想圖像坐標系,在已知相機內參且不考慮畸變的情況下有如下映射:
本文將IFC投影原理應用于反照率一致性損失與交叉渲染損失,對于反照率一致性和交叉渲染損失,將在2.4.2節和2.4.3節中詳細闡述。
2.2 BRDF模型
本文使用物理驅動的microfacet BRDF模型。令A、N和R分別為空間變化的漫反射反照率、法線和粗糙度。BRDF模型f(l,v;A,N,R)表示為
2.3 基于IFC的自監督逆渲染網絡
網絡結構如圖4所示。其中:C表示通道數;K表示卷積核大??;S表示卷積步幅;G表示組歸一化的通道數;SG表示高斯波瓣參數,默認值為12。網絡使用組歸一化[24]而不是批量歸一化,以便用更小的批量訓練網絡。卷積填充是根據特征圖大小動態分配的,上采樣后的特征圖與來自跳躍連接的特征圖保持一致,使網絡可以處理任意大小的圖像而無須縮放和裁剪。由于空間變化光照預測網絡具有多個參數,所以有必要為此任務的實現設計合理的網絡。
整體網絡設計基于U-Net框架[25]。U-Net網絡不僅簡單高效,而且所提取的深淺特征各有特點:淺層網絡更關注紋理等局部特征;深度網絡更關注全局特征,且U-Net網絡結構可以通過特征拼接實現邊緣特征的檢索。網絡構成由一個編碼器和四個解碼器組成,分別預測反照率、法線、粗糙度和光照,編碼器和解碼器之間具有特征連接。每個編碼器層由4×4大小步幅為2的卷積層組成,后接組歸一化層和ReLU激活層。上采樣時,每一層都執行通道上的特征融合。同時添加一個由兩個卷積層和兩個上采樣層組成的微調網絡,以進一步優化回歸任務。
2.4 損失函數
為了更好地從主觀和客觀方面提高圖像預測質量,僅使用重渲染損失不足以提供足夠的約束。因此,本文設計了四個損失項,進一步計算各預測值之間的差異,總損失為
2.4.1 圖像重建損失
為了模擬逼真的室內場景外觀,本文使用可微分網絡渲染層模擬圖像形成過程??晌秩緦油ㄟ^使用SVBRDF的乘積和半球上空間變化的光照進行數值積分來實現。令lij=l(φi,θi)為在上半球采樣的一組光方向,v為觀察方向??晌秩緦佑嬎懵瓷鋱D像d和鏡面反射圖像s:
其中:dω是微分立體角。可微渲染層對16×8個光照方向進行采樣。雖然這是相對較低的分辨率,但它足以恢復大多數高頻照明效果。重渲染損失是自監督訓練中不可或缺的,尺度不變的L2重渲染損失可以表示為
其中:d和s分別使用式(9)(10)渲染,而cdiff和cspec是使用最小二乘回歸計算的正比例因子。
2.4.2 反照率一致性損失
在逆渲染任務中,漫反射反照率是一個不變量,因此來自兩個相同場景的反照率應該相同。本文使用IFC投影來計算反照率一致性損失,關于IFC投影方法,已在第2.1節中詳細闡述。反照率一致性損失定義為
其中:Ai和Ai+1分別是第i和i+1圖像幀中的反照率圖。proji→i+1()表示第i幀上的像素到第i+1幀的像素的幀間投影,具體實現如圖5所示。
2.4.3 交叉渲染損失
由于單獨使用反照率一致性不足以為訓練提供足夠的約束,所以引入了交叉渲染損失,即對相鄰幀使用圖像間投影和重渲染損失的組合。交叉渲染損失有助于將場景分解為依賴于圖像的光照和物理恒定的漫反射反照率。其基本原理是將預測的反照率和光照與另一幀估計的法線和粗糙度重新組合,通過這種重新組合來重渲染圖像。本文定義原始預測圖Ii+1從第i幀到第i+1幀的投影為
其中:proji→i+1()表示旋轉幀Ii中的相機坐標系到幀Ii+1;Convdownsample()函數下采樣到網絡輸入分辨率。然后將第i幀的反照率和光照預測同時進行IFC投影并與第i+1幀的法線和粗糙度進行組合,重新渲染圖像。最后將重渲染圖像與源圖像幀進行比較(圖6)。交叉渲染損失定義為
其中:Ai和Li是從圖像Ii估計的反照率圖和光照圖;Ni+1和Ri+1是從圖像Ii+1估計的法線圖和粗糙度圖。
2.4.4 光照平滑度損失
基于光流法的啟發,本文引入一個密集的時空光照平滑損失,即連續視頻幀中同一位置的光照強度逐漸變化。為了利用圖像間的時空信息,要求輸入數據必須在時間上是連續的。光照平滑損失定義為
其中:p表示同一圖像位置的像素;i表示圖像序列,初始值為i=2。
3 實驗結果與分析
3.1 實驗環境、參數設置及數據集
實驗所使用的GPU配置為A100-SXM4-40 GB,操作系統為Ubuntu 18.04。網絡使用PyTorch實現并使用Adam優化器進行優化,學習率為10-4,epoch為14,batch-size為8,每個epoch之后學習率逐漸降低。本文實驗的數據集使用7-Scenes數據集。該數據集分為七個場景,分別為象棋(chess)、火(fire)、頭(heads)、辦公室(offices)、南瓜(pumpkin)、紅色廚房(red kitchen)和樓梯(stairs),共包含50 000個連續的圖像幀和密集深度圖。其中訓練集有43 000張和測試集7 000張,所有圖片的原尺寸為640×480×3。在將圖像輸入網絡之前,將圖像重置為320×240大小以便于訓練。
3.2 評估實驗
目前室內場景的逆渲染難以形成統一的基準,原因是沒有方法可以良好地估計出真實室內場景的幾何形狀、反射率和光照。因此,本文基于7-Sences數據集開發了四個室內基準,這些基準可以評估網絡輸出所有預測值的性能。
首先,本文在7-Scenes數據集下將本文方法與最近基于無監督學習的方法:BigTime[16]、InverseRenderNet[21]和文獻[18,26]進行比較。其次,使用BigTime延時數據集[12]來評估不同光照下的反照率一致性。第三,使用室內基準IIW[23]評估本征圖像分解的相關任務,證明網絡的泛化能力。最后,使用NYU基準來量化法線預測,該基準包含高質量的室內深度和法線圖。以上四個基準可對逆渲染任務進行全面的評估,評估共分為客觀評估和主觀評估兩部分。
3.2.1 客觀評估
客觀評估是利用一些數據和指標展示本文方法的有效性。為了更公正地評估不同方法的性能,本文使用了各種不同的指標,包括均方誤差(MSE)、最小均方誤差(LMSE)、幾何平均(mean)、中間值(median)和用來評估反照率的人類感知度量誤差(WHDR)。本文分別在相同數據集下對不同方法進行比較,結果如表1~4所示。表1~4中↓表示越低結果越好,加粗、下劃線分別表示最佳、次佳結果。
從表1和2可以看出,無論是在7-Scenes數據集還是BigTime數據集,本文方法在各個指標下取得了最好的結果。
從表3和4可以看出,無論是在IIW數據集提供的WHDR基準還是在NYU數據集基準下,本文方法在各個指標下均取得了最好的結果。盡管反照率預測值比本征圖像方法更受限制,但結果非常接近IIW數據集上未微調方法的最新水平。
3.2.2 主觀評價
圖7~11比較了本文方法和其他無監督方法在相同數據集下的結果。圖7~11分別是在7-Scenes、BigTime、IIW和NYU數據集下本文方法與其他方法的可視化比較結果。
圖7顯示了在7-Scenes數據集上的可視化測試結果。本文從7-Scenes數據集中的每個場景各選取200張圖像序列進行測試。其中第1~3行分別為反照率圖、法線圖和重渲染圖像。圖8顯示了本文方法在IIW數據集下的可視化比較結果。其中第1行表示反照率預測結果,第2行表示照射圖預測結果。由于網絡訓練機制需要連續圖像數據集,所以無法對該室內數據集進行訓練和微調。但通過修改輸入批次和網絡輸入可以在測試時對IIW數據集進行單圖像預測,這也是本文網絡的優勢之處。通過圖7和8可以看出,本文方法預測的法線更加精確,反照率捕獲了更少的陰影,重渲染圖像更加接近于原圖像。
圖9是BigTime數據集下的可視化比較結果。為了公平地進行評估,從BigTime數據集中的近200個場景中選擇了15個室內圖像序列進行比較。與BigTime本征圖像方法相比,本文方法明顯在反照率和陰影反面估計得更好。NYU數據集是最新的幾何估計基準數據集,其包含使用激光雷達掃描儀獲取的圖像和配準法線圖。圖10中顯示了本文方法在NYU數據集下的可視化比較結果。從圖像標記框中可以看出,本文方法預測的法線更準確,光照和陰影更加明顯。
3.3 消融實驗
在本節中,將本文提出的網絡和損失函數的性能使用評估數據集進行比較。表5顯示了使用完整模型與不使用整體損失、幀間投影損失和交叉渲染損失的消融模型之間的比較,可以看出本文模型在所有指標上都優于消融方法。圖11可視化了不同訓練設置的定性比較??梢钥闯觯瑳]有整體損失,網絡無法更好地預測反照率;沒有交叉渲染損失,網絡只能預測過度平滑的反照率;沒有交叉渲染損失,反照率預測會捕獲太多的黑暗。
4 結束語
針對目前逆渲染監督學習方法難以同時處理多任務、標簽獲取困難的問題,本文提出了一種基于連續幀之間相互投影的自監督方法并引額外的反照率一致性損失和交叉渲染損失強化自監督網絡。同時,本文設計了一種基于IFC的逆渲染網絡框架,它能夠以孿生訓練的方式同時從連續的視頻幀中預測幾何形狀、材質和空間變化的光照。通過大量實驗證明,本文方法可以為真實圖像上的自監督學習提供足夠的約束。定性和定量評估實驗表明,本文方法在室內逆渲染和光照估計方面均優于大部分最先進的工作。下一步工作是嘗試在訓練時使用多個真實數據集進行微調,以此來提升預測結果。
參考文獻:
[1]謝坤亮,易任嬌,周海芳,等.基于逆渲染的單張圖像高效材質編輯[J].激光與光電子學進展,2022,59(14):171-179.(Xie Kunliang,Yi Renjiao,Zhou Haifang,et al.Efficient material editing of single image based on inverse rendering[J].Laser amp; Optoelectronics Progress,2022,59(14):171-179.)
[2]沙浩,劉越.基于深度學習的圖像本征屬性預測方法綜述[J].圖學學報,2021,42(3):385-397.(Sha Hao,Liu Yue.Review on deep learning based prediction of image intrinsic properties[J].Journal of Graphics,2021,42(3):385-397.)
[3]曹天池,李秀實,李丹,等.基于圖像分解的光照估計算法[J].計算機工程與科學,2021,43(8):1422-1428.(Cao Tianchi,Li Xiushi,Li Dan,et al.Illumination estimation based on image decomposition[J].Computer Engineering and Science,2021,43(8):1422-1428.)
[4]郭智溢.基于深度學習的室內場景光照估計[J].現代計算機,2021,27(9):91-94,103.(Guo Zhiyi.Estimating indoor dynamic ligh-ting based on deep learning[J].Modern Computer,2021,27(9):91-94,103.)
[5]Georgoulis S,Rematas K,Ritschel T,et al.DeLight-Net:decomposing reflectance maps into specular materials and natural illumination[EB/OL].(2016)[2022-12-10].https://arxiv.org/abs/1603.08240.
[6]Taniai T,Maehara T.Neural inverse rendering for general reflectance photometric stereo[C]//Proc of International Conference on Machine Learning.2018:4857-4866.
[7]Boss M,Jampani V,Kim K,et al.Two-shot spatially-varying BRDF and shape estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3982-3991.
[8]Li Zhengqin,Shafiei M,Ramamoorthi R,et al.Inverse rendering for complex indoor scenes:shape,spatially-varying lighting and SVBRDF from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2475-2484.
[9]Dong Min,Fang Zhenglin,Li Yongfa,et al.AR3D:attention residual 3D network for human action recognition[J].Sensors,2021,21(5):1656.
[10]Gardner M A,Sunkavalli K,Yumer E,et al.Learning to predict indoor illumination from a single image[EB/OL].(2017)[2022-12-10].https://arxiv.org/abs/1704.00090.
[11]Sengupta S,Kanazawa A,Castillo C D,et al.SfSNet:learning shape,reflectance,and illuminance of faces in the wild[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ :IEEE Press,2018:6296-6305.
[12]Shu Zhixin,Yumer E,Hadap S,et al.Neural face editing with intrinsic image disentangling[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:5541-5550.
[13]Gao Duan,Li Xiao,Dong Yue,et al.Deep inverse rendering for high-resolution SVBRDF estimation from an arbitrary number of images[J].ACM Trans on Graphics,2019,38(4):134:1-134:15.
[14]Li Guannan,Liu Yebin,Dai Qionghai.Free-viewpoint video relighting from multi-view sequence under general illumination[J].Machine Vision and Applications,2014,25(7):1737-1746.
[15]Sengupta S,Gu Jinwei,Kim K,et al.Neural inverse rendering of an indoor scene from a single image[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8598-8607.
[16]Li Zhengqi,Snavely N.Learning intrinsic image decomposition from watching the world[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9039-9048.
[17]Liu Yunfei,Li Yu,You Shaodi,et al.Unsupervised learning for intrinsic image decomposition from a single image[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3248-3257.
[18]Yu Ye,Smith W A P.Outdoor inverse rendering from a single image using multiview self-supervision[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(7):3659-3675.
[19]Ma W C,Chu Hang,Zhou Bolei,et al.Single image intrinsic decomposition without a single intrinsic image[C]//Proc of European Confe-rence on Computer Vision.2018:201-217.
[20]Laffont P Y,Bazin J C.Intrinsic decomposition of image sequences from local temporal variations[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:433-441.
[21]Yu Ye,Smith W A P.InveRserenderNet:learning single image inverse rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3155-3164.
[22]Jaderberg M,Simonyan K,Zisserman A.Spatial transformer networks[J].Advances in Neural Information Processing Systems,2015,28:2017-2025.
[23]Zhou Tinghui,Tulsiani S,Sun W,et al.View synthesis by appearance flow[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:286-301.
[24]Wu Yuxin,He Kaiming.Group normalization[C]//Proc of European Conference on Computer Vision.2018:3-19.
[25]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[26]Nestmeyer T,Gehler P V.Reflectance adaptive filtering improves intrinsic image estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6789-6798.
[27]Yu Ye,Meka A,Elgharib M,et al.Self-supervised outdoor scene relighting[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:84-101.
[28]Narihira T,Maire M,Yu S X.Direct intrinsics:learning albedo-sha-ding decomposition by convolutional regression[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:2992-2992.
[29]Shi Jian,Dong Yue,Su Hao,et al.Learning non-Lambertian object intrinsics across ShapeNet categories[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1685-1694.
[30]Eigen D,Fergus R.Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:2650-2658.
[31]Zhou Hao,Yu Xiang,Jacobs D W.Glosh:global-local spherical harmonics for intrinsic image decomposition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscatayway,NJ:IEEE Press,2019:7820-7829.
[32]Vidaurre R,Casas D,Garces E,et al.BRDF estimation of complex materials with nested learning[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2019:1347-1356.
[33]Bell S,Bala K,Snavely N.Intrinsic images in the wild[J].ACM Trans on Graphics,2014,33(4):1-12.
[34]Wang Ruixing,Zhang Qing,Fu C W,et al.Underexposed photo enhancement using deep illumination estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:6849-6857.
[35]Diba A,Sharma V,Van Gool L,et al.DynamoNet:dynamic action and motion network[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6192-6201.
[36]Cai Jiahui,Hu Jianguo.3D RANs:3D residual attention networks for action recognition[J].The Visual Computer,2020,36(6):1261-1270.
[37]Guo Chunle,Li Chongyi,Guo Jichang,et al.Zero-reference deep curve estimation for low-light image enhancement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1780-1789.
[38]Ding Xiaohan,Zhang Xiangyu,Ma Ningning,et al.RepVGG:making VGG-style convnets great again[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13733-13742.
[39]Jiang Yifan,Gong Xinyu,Liu Ding,et al.EnlightenGAN:deep light enhancement without paired supervision[J].IEEE Trans on Image Processing,2021,30:2340-2349.
[40]Odena A,Dumoulin V,Olah C.Deconvolution and checkerboard artifacts[EB/OL].(2016-10-17)[2022-12-10].https://distill.pub/2016/deconv-checkerboard.
[41]Soh J W,Cho N I.Deep universal blind image denoising[C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2021:747-754.