文/李吉,黃羽嘉,陳嘉豪
傳統(tǒng)的蒙特卡洛渲染只有在采樣數(shù)無(wú)限大時(shí),才能得出無(wú)偏的渲染圖像。因此,利用神經(jīng)網(wǎng)絡(luò)對(duì)低采樣率的渲染圖像進(jìn)行降噪處理成為應(yīng)用最普遍的研究方案之一。但就目前來(lái)看,該研究方案仍存在難以重構(gòu)圖像高頻細(xì)節(jié)等不足。為此,本文提出GAN(循環(huán)神經(jīng)網(wǎng)絡(luò))與RNN(生成對(duì)抗網(wǎng)絡(luò))的新型組合結(jié)構(gòu),其不僅包含用于高效提取輔助特征的注意力機(jī)制,還包含由粗糙到細(xì)致地對(duì)圖像進(jìn)行降噪處理的兩階段順序算法。經(jīng)驗(yàn)證,與現(xiàn)有降噪模型相比,本文所提出的模型和操作方法能夠保留更多圖像高頻細(xì)節(jié),并在增強(qiáng)網(wǎng)絡(luò)魯棒性的同時(shí),維持圖像序列幀在時(shí)域上的穩(wěn)定性。
蒙特卡洛渲染是一種光線追蹤算法,其通常采用蒙特卡洛積分法來(lái)計(jì)算每個(gè)像素的顏色值,進(jìn)而基于計(jì)算結(jié)果在對(duì)應(yīng)設(shè)備上繪制出逼真圖像。然而,蒙特卡洛積分法在使用過(guò)程中也有可能導(dǎo)致渲染結(jié)果產(chǎn)生方差,這種方差在視覺(jué)上表現(xiàn)為噪聲。雖然可以通過(guò)提高采樣率來(lái)降低此類噪聲,但該補(bǔ)救措施通常會(huì)耗費(fèi)較長(zhǎng)時(shí)間。現(xiàn)階段,技術(shù)人員也可以利用神經(jīng)網(wǎng)絡(luò)直接對(duì)低采樣率的圖像進(jìn)行降噪處理。但目前該技術(shù)尚不夠成熟,對(duì)于圖像中的高頻細(xì)節(jié),該技術(shù)仍然難以進(jìn)行重構(gòu)、降噪處理,降噪結(jié)果通常存在細(xì)節(jié)模糊或者過(guò)度平滑等問(wèn)題。另外,此前開(kāi)展的大部分研究?jī)H能對(duì)單張圖像的空域進(jìn)行降噪,多張圖像的序列幀在降噪過(guò)程中普遍出現(xiàn)幀間閃爍跳動(dòng)等問(wèn)題,時(shí)域穩(wěn)定性難以得到保證。
為此,本文提出一種基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)的降噪模型(RAMCD)。該模型可以從空域和時(shí)域兩個(gè)角度逐步對(duì)圖像進(jìn)行降噪處理,在減少噪聲的同時(shí),還能保證幀間穩(wěn)定性。簡(jiǎn)而言之,本文的主要研究成果可概括為以下三點(diǎn):(1)采用兩階段順序算法逐步對(duì)圖像進(jìn)行空域降噪和時(shí)域降噪處理,使圖像生成品質(zhì)由粗糙升級(jí)為細(xì)致,同時(shí)重構(gòu)出更多細(xì)節(jié);(2)采用注意力機(jī)制強(qiáng)化了輔助特征提取信息對(duì)網(wǎng)絡(luò)的影響,并進(jìn)一步提高網(wǎng)絡(luò)對(duì)細(xì)節(jié)信息的重構(gòu)能力;(3)構(gòu)建GAN與RNN 相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)采用空域和時(shí)域損失函數(shù),增強(qiáng)網(wǎng)絡(luò)魯棒性、,維持幀間穩(wěn)定性。
目前,深度學(xué)習(xí)和蒙特卡洛渲染已經(jīng)在各自的領(lǐng)域得到廣泛研究。因此,本文不再針對(duì)這兩個(gè)問(wèn)題進(jìn)行全面闡述。下文主要側(cè)重于圖像空域和時(shí)域的深度學(xué)習(xí)降噪方法,討論與本文所提出的網(wǎng)絡(luò)模型密切相關(guān)的GAN 和RNN,并關(guān)注輔助特征引導(dǎo)降噪和光路分解的有效性。
空域圖像降噪方法的操作原理是,針對(duì)像素間的距離建立某種模型,并通過(guò)搜索與像素結(jié)構(gòu)相似的像素值來(lái)恢復(fù)圖像損失像素。在深度學(xué)習(xí)圖像空域降噪過(guò)程中,GAN 利用生成器和判別器之間的相互博弈,在圖像生成、圖像降噪等領(lǐng)域表現(xiàn)突出。例如,KPCN(經(jīng)典降噪網(wǎng)絡(luò)之一)[1]便是基于簡(jiǎn)單的CNN(卷積神經(jīng)網(wǎng)絡(luò))對(duì)光路進(jìn)行分解,并將全局光照分解為鏡面反射與漫反射分支,進(jìn)而從不同的光照角度對(duì)圖像進(jìn)行降噪處理的。此外,由于輔助特征基本包含了場(chǎng)景中的所有信息,部分研究者便將其與噪聲圖像一同輸入網(wǎng)絡(luò)中,旨在進(jìn)一步豐富網(wǎng)絡(luò)訓(xùn)練內(nèi)容。但截至目前,已有研究只能實(shí)現(xiàn)單幀圖像的降噪處理,無(wú)法保持時(shí)域穩(wěn)定性。
在眾多針對(duì)單幀圖像降噪的研究中,也有一部分研究者將注意力放在增強(qiáng)蒙特卡洛渲染降噪時(shí)域穩(wěn)定性上,以有效避免動(dòng)畫和交互式等應(yīng)用的序列幀出現(xiàn)嚴(yán)重的閃爍偽影現(xiàn)象。同時(shí),RAE 網(wǎng)絡(luò)(經(jīng)典降噪網(wǎng)絡(luò)之一)利用RNN[2]框架,在考慮時(shí)間一致性的前提下,從時(shí)域角度對(duì)圖像進(jìn)行降噪處理,并有效降低了幀間閃爍跳動(dòng)的發(fā)生頻率。然而,目前上述操作方法仍難以重建圖像高頻細(xì)節(jié),且容易出現(xiàn)模糊、偽影等情況。
本文提出一種基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)的降噪模型,如圖1所示。在該模型中,網(wǎng)絡(luò)分兩個(gè)階段逐步對(duì)圖像進(jìn)行空域降噪和時(shí)域降噪處理,圖像生成質(zhì)量實(shí)現(xiàn)了由粗糙到細(xì)致的提升,重構(gòu)細(xì)節(jié)明顯增多。同時(shí),為有效減少高頻信息處的噪聲,重構(gòu)出更多細(xì)節(jié),第一階段的空域降噪處理采用光路分解的方式,將渲染分為高頻信息的鏡面反射與低頻信息的漫反射兩個(gè)部分。隨后,兩個(gè)輕量級(jí)空間降噪網(wǎng)絡(luò)將分別對(duì)圖像進(jìn)行降噪處理,以確保網(wǎng)絡(luò)專注處理不同頻度的信息,并最終得到初步的空域降噪結(jié)果。在第二階段的時(shí)域降噪處理過(guò)程中,由GAN 與RNN 結(jié)合而成的網(wǎng)絡(luò)結(jié)構(gòu),將利用RNN 隱藏層之間的交流特性有效開(kāi)展時(shí)域降噪處理。同時(shí),在GAN 學(xué)習(xí)真實(shí)樣本的數(shù)據(jù)分布特性后,其生成結(jié)果在視覺(jué)上將更加真實(shí)。而鑒別器的使用,則能進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的魯棒性。由于采用編碼網(wǎng)絡(luò)提取的輔助特征包含渲染圖像的大量信息,因此,該模型采用注意力機(jī)制將提取到的輔助特征信息分別輸入網(wǎng)絡(luò)的不同層中,并通過(guò)加入時(shí)域損失函數(shù)與空域損失函數(shù),實(shí)現(xiàn)了時(shí)間維度上的降噪處理,在維持幀間穩(wěn)定性的同時(shí),為空域降噪提供便利。
空域降噪網(wǎng)絡(luò)主要包含兩個(gè)輕量級(jí)空間降噪網(wǎng)絡(luò),其采用U-Net網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)光路分解的方式,分別輸入鏡面反射與漫反射的噪聲圖像,并將輔助特征一同作為兩個(gè)網(wǎng)絡(luò)輸入,從而為網(wǎng)絡(luò)降噪提供額外的場(chǎng)景信息。由于網(wǎng)絡(luò)參數(shù)較小,每幀圖像只需要12ms就能完成初步降噪處理。
時(shí)域降噪網(wǎng)絡(luò)中的降噪網(wǎng)絡(luò)模塊主要由卷積層和Leaky Relu(激活函數(shù))層堆疊而成。該模塊將多個(gè)降噪網(wǎng)絡(luò)模塊相鏈接以增加網(wǎng)絡(luò)層數(shù),同時(shí)采用類似U-Net的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)不同輔助特征加以融合。整個(gè)時(shí)域降噪網(wǎng)絡(luò)以RNN 與GAN 相結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)為主,充分利用GAN 學(xué)習(xí)真實(shí)數(shù)據(jù)的分布特性以及RNN 結(jié)構(gòu)隱藏層之間的交流特性來(lái)建立幀間關(guān)聯(lián)性,并對(duì)圖像進(jìn)行時(shí)域降噪處理。類似U-Net 的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)⑶安糠志W(wǎng)絡(luò)層的輸出特征傳輸至后部分網(wǎng)絡(luò)層中。因此,該模塊只需要對(duì)前部分網(wǎng)絡(luò)層使用循環(huán)結(jié)構(gòu),將每一層網(wǎng)絡(luò)的輸出特征傳輸至下一輪訓(xùn)練,就能達(dá)到幀間交流的效果。


在降噪模型中采用注意力機(jī)制的目的是,將提取到的輔助特征信息分別輸送至不同降噪網(wǎng)絡(luò)模塊,以減少網(wǎng)絡(luò)參數(shù)總量,提高模型運(yùn)行速度。由于時(shí)域降噪網(wǎng)絡(luò)中,類似U-Net的網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)⑶安糠志W(wǎng)絡(luò)層的輸出特征傳輸至后部分網(wǎng)絡(luò)層中,注意力機(jī)制只需要在前部分降噪網(wǎng)絡(luò)模塊中輸入提取到的輔助特征信息即可。
降噪模型的訓(xùn)練需要大量的數(shù)據(jù)集作為支撐。為確保數(shù)據(jù)集數(shù)量充足并且具有多樣性,本文選用大規(guī)模三維虛擬室內(nèi)場(chǎng)景作為渲染場(chǎng)景,并進(jìn)行數(shù)據(jù)集采集。這些場(chǎng)景通常光照充足,表面材質(zhì)、幾何形狀各異,具有一定的代表性。
本文中,數(shù)據(jù)集的搭建是基于DXR 的蒙特卡洛路徑跟蹤方法完成的,最終共產(chǎn)生6480張數(shù)據(jù)集圖像。其中,4380張圖像用于降噪模型的訓(xùn)練,2100張圖像用于降噪模型的測(cè)試;所有圖像的分辨率均為512×512像素,目標(biāo)圖像的采樣率為100%,鏡面反射噪聲圖像與漫反射噪聲圖像的SPP值為4;輔助特征直接從G-Buffer渲染引擎中獲取,并且包含法線圖、深度圖、反照率、粗糙度等信息。此外,為了降低走樣對(duì)圖像生成效果的影響,所有數(shù)據(jù)均進(jìn)行隨機(jī)相機(jī)抖動(dòng)反走樣處理。
為了確保實(shí)驗(yàn)結(jié)果的科學(xué)性,本文將降噪模型與幾個(gè)經(jīng)典降噪網(wǎng)絡(luò)進(jìn)行對(duì)比,如KPCN、Pix2Pix、RAE、RAMCD等(見(jiàn)圖2)。由圖2可知,本文設(shè)計(jì)的降噪模型的算法的客觀指標(biāo)明顯優(yōu)于對(duì)照降噪網(wǎng)絡(luò)的指數(shù),并且能夠重構(gòu)出更多的細(xì)節(jié)信息。同時(shí),參考結(jié)構(gòu)相似性指數(shù)SSIM、峰值信噪比PSNR來(lái)綜合評(píng)估圖像降噪質(zhì)量,時(shí)空縮減參考熵差ST-RRED以評(píng)估時(shí)間一致性。其中,SSIM與PSNR的值越高,則表示圖像降噪結(jié)果越接近真實(shí);ST-RRED的值越低,則表示圖像幀間穩(wěn)定性越好。
綜上所述,本文設(shè)計(jì)的降噪處理模型采用兩階段順序算法,分別從空域和時(shí)域兩個(gè)角度對(duì)圖像進(jìn)行降噪處理,成功重構(gòu)出更細(xì)致的降噪圖像。更重要的是,該模型可以利用光照分解和注意力機(jī)制,有效提高圖像輔助特征信息的利用率,更好地維持時(shí)域穩(wěn)定性。同時(shí),該模型還能依托GAN與RNN結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),幫助樣本學(xué)習(xí)真實(shí)的數(shù)據(jù)分布特征。根據(jù)實(shí)驗(yàn)結(jié)果,與現(xiàn)有降噪方法相比,該模型的精度可提升6%~20%。接下來(lái),筆者將繼續(xù)優(yōu)化該模型的網(wǎng)絡(luò)結(jié)構(gòu),并重點(diǎn)針對(duì)場(chǎng)景陰影展開(kāi)實(shí)驗(yàn),以期重構(gòu)出更細(xì)膩的全局光照結(jié)果。