關(guān)鍵詞:圖像復(fù)原;擴(kuò)散模型;預(yù)訓(xùn)練模型
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)08-040-2545-07
doi:10.19734/j.issn. 1001-3695.2024. 10.0438
Two-stage high-resolution image restoration method based on pre-trained diffusion model
Xie Yuanyuan,Zhou Fei ,Zhou Zhiyuan,Zhang Yutong (ScholofCommnicationamp;IforationEnginering,CongqingUniersityofPostsamp;Telecoicatios,Chongqing5,Chna)
Abstract:Pretraineddifusion priors forimagerestorationrelyonpretraineddifusion models to handlevarious clasic mage restoration tasks without fine-tuning.However,currentmethodsare iefficentforhigh-resolutionimages andsuferfromOOD issues.Toadressthese problems,thispaper proposedatwo-stage high-resolution image restoration method basedon pretrained difusionmodels,namedtheC2Fmethod.Inthefirststage,the methodobtainedacoarserestorationresultatthefixed sizeof the pretrained model,ensuring outputconsistency.Inthesecond stage,themethodrestoredtheoriginalresolution usingthecoarseresult asastarting point.Ashorterdifusionprocessignificantlyenhancdrestorationspeedandensuredconsistency.In experiments withfacialrestoration,naturalenvironments,ndtheeclasictasks—repair,colorzation,anddeblurring—the two-stage methodachievestop-levelresultsatanyresolution.For1O24resolution,theproposed methodrequires only 22% of the sampling steps of similar methods,achieving 4.5 times faster speed while avoiding OOD issues.It also reachesthe highestlevelsofPSNRandFIDscores.Thispaperdemonstrates thattheproposed methodrestores high-resolution images much faster than other methods,avoids OOD issues,and produces high-quality results.
Keywords:image restoration;diffusion model;pretrained model
0 引言
在采樣、存儲(chǔ)、傳輸和處理過(guò)程中,圖像常常會(huì)受到噪聲、模糊、分辨率不足等退化因素的影響,從而降低圖像質(zhì)量,影響后續(xù)的圖像分析和理解。圖像復(fù)原的經(jīng)典任務(wù)包括去噪[1,2]去模糊[3~5]、超分辨率[6.7]和圖像修復(fù)[8~10]等。近年來(lái),研究者們利用生成模型在無(wú)監(jiān)督環(huán)境中解決圖像復(fù)原問(wèn)題[11~14]。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[15-17]和去噪擴(kuò)散概率模型(denoisingdiffusion probabilisticmodel,DDPM)[18]是兩種在這一領(lǐng)域中表現(xiàn)突出的生成式模型。
DDPM[18]等擴(kuò)散生成模型在生成效果上限表現(xiàn)出了全方位的領(lǐng)先[19],但是遠(yuǎn)高于相近水平GAN的訓(xùn)練成本,以及存在泛化方面的缺點(diǎn),使其難以投入實(shí)際的復(fù)原應(yīng)用。一些方法利用手工設(shè)計(jì)的退化函數(shù)實(shí)現(xiàn)多種圖像復(fù)原任務(wù)[20-25]。這些方法在擴(kuò)散生成過(guò)程中引人條件控制,避免了對(duì)模型重訓(xùn)練的需求。這類方法稱為預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原。
但當(dāng)前最優(yōu)秀的預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法[23.24],在實(shí)際應(yīng)用中仍存在困難。特別是在處理高分辨率圖像時(shí),以往方法要么無(wú)法處理[20-25],要么面臨嚴(yán)重的效率問(wèn)題和分布外問(wèn)題(OOD)[26.27]。為了解決這些問(wèn)題,本文提出了基于預(yù)訓(xùn)練擴(kuò)散先驗(yàn)的兩階段高分辨率圖像復(fù)原方法,命名為由粗到細(xì)(C2F)的方法。與以往方法相比,提升了在高分辨率圖像上的可用性,只需要大約 20% 的時(shí)間開(kāi)銷,而且避免了OOD問(wèn)題。本文方法總體流程如圖1(b所示。
圖1總體流程Fig.1 Overall flow
具體而言,本文根據(jù)預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原的特點(diǎn),構(gòu)建兩個(gè)串行的階段。coarse階段使用下采樣到預(yù)訓(xùn)練擴(kuò)散。以coarse階段的復(fù)原結(jié)果,在高分辨率的fine階段指導(dǎo)補(bǔ)丁分割時(shí)各補(bǔ)丁的復(fù)原,以獲得在不同尺度下的一致性輸出,避免OOD問(wèn)題;并且由于coarse階段已完成粗粒度的復(fù)原,通過(guò)縮短擴(kuò)散過(guò)程的方法大幅度降低了圖像復(fù)原所需的時(shí)間。
本文方法與其他允許任意尺寸輸出的預(yù)訓(xùn)練擴(kuò)散先驗(yàn)方法相比,視覺(jué)效果達(dá)到最好的水平,在峰值信噪比(peaksignal-to-noiseratio,PSNR)指標(biāo)和弗雷歇距離(FrechetInceptiondistance,F(xiàn)ID)指標(biāo)上相近,并且在時(shí)間開(kāi)銷上遠(yuǎn)低于其他方法。
本文的貢獻(xiàn)如下:a)提出了一種兩階段高分辨率圖像復(fù)原方法,通過(guò)使用串行的兩個(gè)復(fù)原階段,使得預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法在高分辨率圖像復(fù)原的應(yīng)用上獲得一致性的輸出,同時(shí)大幅度降低了時(shí)間開(kāi)銷。解決了以往預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法應(yīng)用在高分辨率圖像上的0OD與效率問(wèn)題。b)不同于以往從概率公式出發(fā)的擴(kuò)散模型分析,從語(yǔ)義的角度分析了擴(kuò)散過(guò)程與潛變量的聯(lián)系,以更直觀的方式解釋了預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原的原理,為本文方法提供了理論支持。c)在生成最高水平的結(jié)果時(shí),本文方法在 1024×1024 尺寸的FFHQ與CelebA- ?HQ[28] 和裁剪到 1 024×1 024 尺寸的DIV2K[29]上只需要216次預(yù)訓(xùn)練擴(kuò)散采樣,與其他方法的980次采樣相比降低了 78.0% 的采樣次數(shù)。在 1920×1080 的真實(shí)圖像上最多只需要508次采樣,與其他辦法的2240次相比降低了 77.6% 的采樣次數(shù)。
1背景知識(shí)
1.1去噪擴(kuò)散模型
當(dāng)前的所有主流擴(kuò)散生成模型都基于去噪擴(kuò)散概率模型DDPM[18]以及去噪擴(kuò)散隱式模型(denoisingdiffusion implicitmodel,DDIM)[30]的工作。擴(kuò)散過(guò)程分為前向擴(kuò)散過(guò)程與反向去噪過(guò)程。
DDPM[18]假設(shè)擴(kuò)散生成過(guò)程是一個(gè)馬爾可夫鏈。DDPM[18]前向過(guò)程的定義式、推導(dǎo)公式如下所示。
其中: N 表示高斯分布: ;I 表示單位矩陣; χt 表示第 χt 時(shí)刻的擴(kuò)散步驟: ?:βt 是固定或者模型學(xué)習(xí)得到的方差表(variancesched-ule),范圍通常在0~1,并且隨著 χt 的增加而增加; αt=1-βt 為方差系數(shù)的另一種表現(xiàn)形式; 為方差系數(shù) αt 的累乘。在DDPM[1]的定義中,當(dāng) χt 達(dá)到 T 時(shí) .xT 近似于高斯分布。
DDPM[18]反向過(guò)程的公式如下所示。
其中: εθ(xt,t) 為擴(kuò)散模型的神經(jīng)網(wǎng)絡(luò)輸出,表示神經(jīng)網(wǎng)絡(luò)根據(jù)xt 與 χt 預(yù)測(cè)從 xt-1 到 xt 所加的噪聲 ε 。基于馬爾可夫鏈的反向去噪過(guò)程需要經(jīng)過(guò) T 次神經(jīng)網(wǎng)絡(luò)計(jì)算才能獲得最終的生成結(jié)果。
DDIM[30]的研究證明DDPM[18]的生成過(guò)程可以是非馬爾可科夫過(guò)程,大幅度降低了反向過(guò)程所需的采樣次數(shù)。DDIM的反向過(guò)程如下所示。
其中: τ 表示時(shí)刻,來(lái)自 [1,…,T] 中的長(zhǎng)度為 s 的遞增子序列,s 小于 T ,這個(gè)子序列的起點(diǎn)和終點(diǎn)仍然分別為1和 T ,但不要求中間的元素連續(xù),也就是說(shuō) τ 和 τ-1 在原來(lái)的序列 [1,… T] 上可以是不連續(xù)的; εθ 是 εθ(xτ,τ) 的簡(jiǎn)寫(xiě); η 是一個(gè)超參數(shù),用來(lái)控制傳遞到 xτ-1 的噪聲的穩(wěn)定程度。
1.2預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法
預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法本質(zhì)上是在擴(kuò)散生成的過(guò)程中,根據(jù)退化圖像 y 控制反向去噪過(guò)程中的采樣結(jié)果,使得每一步的采樣結(jié)果逐漸接近復(fù)原目標(biāo),進(jìn)而最終得到優(yōu)質(zhì)的復(fù)原結(jié)果。預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法的基本流程,如算法1所示。
算法1預(yù)訓(xùn)練擴(kuò)散先驗(yàn)的復(fù)原方法
end for
return x0
require表示外部輸入,包括概率分布、圖像數(shù)據(jù)矩陣、其他先驗(yàn)知識(shí)。在算法1中 ,y 表示退化圖像,condition表示某種手工設(shè)計(jì)的退化函數(shù)。算法1與基本的擴(kuò)散生成過(guò)程唯一不同之處在于 。在之后的研究中,condition的輸出被研究者們[22-24]通常歸類為 x01t ,約等于 A?y,A? 偽逆表示退化矩陣 A 的偽逆或者退化逆算子。退化逆算子由手工設(shè)計(jì)[22.23],或者根據(jù)拉普拉斯近似進(jìn)行梯度下降得來(lái)[24]
2 相關(guān)工作
在1.2節(jié)中提及的所有預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法[18~23]僅支持預(yù)訓(xùn)練擴(kuò)散生成網(wǎng)絡(luò)固定尺寸的輸出。為了將方法應(yīng)用到任意尺寸, GDP[26] 與 DDNM+[27] 是主要貢獻(xiàn)者。
為了將預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法[20~25]應(yīng)用到任意尺寸,通常將輸入圖像分割為固定大小的補(bǔ)丁[31],再使用網(wǎng)絡(luò)來(lái)分別處理這些補(bǔ)丁,最后將結(jié)果融合為最終結(jié)果,如圖2中的GDP[26] 輸出所示。很明顯,這種方法的結(jié)果存在很嚴(yán)重的塊狀偽影與不合理的復(fù)原,圖2(a)中GDP方法[26]輸出的左上角0號(hào)補(bǔ)丁,額頭復(fù)原為了青色。因?yàn)檫@些補(bǔ)丁的獨(dú)立復(fù)原結(jié)果既沒(méi)有考慮全局的語(yǔ)義,也沒(méi)有考慮相鄰補(bǔ)丁的局部語(yǔ)義,導(dǎo)致出現(xiàn)了OOD問(wèn)題。
圖2補(bǔ)丁分割展示以及GDP與本文的輸出對(duì)比 Fig.2Patch segmentation display and comparison with GDP and C2F output
DDNM +[27] 為了解決上述問(wèn)題,提出了將任意尺寸的復(fù)原問(wèn)題分解為 DDNM[23] 的超分辨率問(wèn)題與其他復(fù)原問(wèn)題。DDNM+[27] 與本文一樣使用兩階段完成復(fù)原,第一階段是小尺寸下的其他復(fù)原問(wèn)題,第二階段根據(jù)小尺寸下復(fù)原的結(jié)果完成DDNM[23]的超分辨率復(fù)原得到輸出。
以上支持任意尺寸輸出的優(yōu)秀預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法DDNM+[27] 仍然存在兩個(gè)問(wèn)題:a)DDNM[23]的復(fù)原方法若想達(dá)到較高水平,需要手工設(shè)計(jì)奇異值分解與退化矩陣偽逆。這使得不同倍率的超分辨率需要重新設(shè)計(jì),并且當(dāng)超分辨率倍率不為整數(shù)時(shí)存在矩陣的對(duì)齊問(wèn)題。b)DDNM+仍然忽略了補(bǔ)丁分割方法潛在的效率問(wèn)題。設(shè)對(duì)于某個(gè)退化,一個(gè)256尺寸的補(bǔ)丁需要次數(shù)為 T 的擴(kuò)散模型采樣次數(shù)就可以得到可觀的復(fù)原結(jié)果。假設(shè)圖像以一定步長(zhǎng)會(huì)分割出 N 個(gè)補(bǔ)丁,這張圖像的生成結(jié)果就需要 NT 次采樣。對(duì)于一個(gè) 1 024×1 024 尺寸的圖像,128步長(zhǎng)會(huì)分割出49個(gè)補(bǔ)丁,最終需要經(jīng)過(guò)49T次擴(kuò)散模型采樣次數(shù)。而對(duì)于的 1920×1080 尺寸的圖像,采樣次數(shù)高達(dá) 112T
3本文方法
3.1從語(yǔ)義角度出發(fā)的擴(kuò)散過(guò)程
不同于以往基于經(jīng)驗(yàn)主義[20.23]或者概率公式[18,2.30]的角度。本節(jié)從圖像語(yǔ)義的角度分析擴(kuò)散生成過(guò)程,以更直觀的方式解釋預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原。
當(dāng)任意圖像 x 進(jìn)入擴(kuò)散生成過(guò)程后,存在加噪的結(jié)果對(duì)應(yīng)為帶噪聲的潛變量 xt 。潛變量 xt (此處提及的潛變量 xt 也可以等效為 x0∣tC )是隨機(jī)的,由所有可能的 xt 組成的潛空間 Xt 近似正態(tài)分布,潛空間 Xt 大小由 χt 時(shí)刻的方差決定,中心由作為均值的 x 決定。對(duì)于任意兩個(gè)圖像 x 和 y ,在擴(kuò)散模型中進(jìn)行 χt 次前向過(guò)程后,兩張圖像對(duì)應(yīng)的潛變量 xt 和 yt 所對(duì)應(yīng)的潛空間 Xt 和 Yt 之間的歐氏距離會(huì)是原來(lái)的 倍。
在擴(kuò)散模型中,前向過(guò)程是將圖像映射到潛空間的過(guò)程,這是一種高斯擾動(dòng)過(guò)程。它可以被描述為一個(gè)圖像 x0 從原始分布 p(x) 開(kāi)始,根據(jù)能量守恒的原則與加性高斯噪聲混合生成被噪聲污染的圖像 xt 。對(duì)于任意兩個(gè)圖像 x0 與 y0 ,由式(2)可得,在進(jìn)行 Φt 次前向過(guò)程后, ?xt 與 yt 分別為
其中: ε 是均值為0、方差為 I 的高斯噪聲; ,并且隨著 χt 的增大而減少。假設(shè) x0 與 y0 之間的距離 d ,它們對(duì)應(yīng)的潛空間 Xt 和 Y? 的中心距離為
,其公式如下:
將式 (5)~(7) 代人式(8)可得
式(9)揭示了在擴(kuò)散模型中進(jìn)行 χt 次前向過(guò)程后,任意兩張圖像對(duì)應(yīng)的潛空間之間的歐氏距離會(huì)是原來(lái)的 倍。
在預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原應(yīng)用中,對(duì)于任意一對(duì)清晰圖像 x 與其退化圖像 y ,假設(shè)0時(shí)刻下,其歐氏距離為 d ,完全由退化因子造成。而在它們 χt 時(shí)刻的潛空間距離為 ,退化因子造成的影響縮小到了原來(lái)的
倍。此時(shí),對(duì)潛變量,使用一些簡(jiǎn)單的、通常情況下效果一般的逆退化方法,如梯度下降[24]、奇異值分解[22]、零值域分解[23]。應(yīng)用這些方法在 χt 時(shí)刻下對(duì)復(fù)原任務(wù)造成的正面影響,經(jīng)過(guò)反向過(guò)程的采樣后會(huì)是直接在0時(shí)刻下應(yīng)用的
倍。從語(yǔ)義的角度出發(fā),在擴(kuò)散生成過(guò)程中,插入這些簡(jiǎn)單的逆退化方法使得潛變量 x01t 接近更可能代表復(fù)原目標(biāo)的潛變量
,這便是預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法的原理,如圖3所示。
圖3擴(kuò)散流程與潛變量Fig.3Diffusionprocessand latentvariables
在以往的工作中,預(yù)訓(xùn)練先驗(yàn)復(fù)原方法通過(guò)在 Ψt 時(shí)刻下使得 x0∣t 變?yōu)? 以接近復(fù)原目標(biāo)。本文則希望在已經(jīng)得到一個(gè)非常接近復(fù)原目標(biāo)的結(jié)果 xup 情況下,從一個(gè)遠(yuǎn)小于 T 的擴(kuò)散長(zhǎng)度 s 出發(fā),在fine階段僅打磨圖像細(xì)節(jié)。以此保持在高分辨率下的輸出一致性,并且大幅度降低生成的采樣需求。
3.2兩階段擴(kuò)散先驗(yàn)復(fù)原方法
為了解決預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法在高分辨率圖像上應(yīng)用面臨的OOD與效率問(wèn)題,本文方法將擴(kuò)散先驗(yàn)復(fù)原分為coarse與fine兩個(gè)階段。在coarse階段,本文得到 xcoarse 以保證在fine階段各補(bǔ)丁復(fù)原得到一致性輸出。在fine階段,對(duì)xcoarse 經(jīng)過(guò)上采樣得到的 xup 進(jìn)行少量加噪作為起點(diǎn) xs 來(lái)降低所需的采樣步驟。復(fù)原流程如圖4所示。
算法2coarse 階段
假設(shè)輸入的退化圖像的尺寸為 [H,W] ,在coarse階段,將輸入圖像的短邊縮小到256,256為大多數(shù)預(yù)訓(xùn)練擴(kuò)散模型的輸入輸出尺寸,長(zhǎng)邊等比例縮放,得到小尺寸的退化圖像ycoarse ,其尺寸為[256, 或
。然后在這個(gè)小尺寸下執(zhí)行復(fù)原,得到coarse階段的復(fù)原結(jié)果 xcoarse 。coarse階段的流程如算法1所示,其中condition表示任何一種復(fù)原方法,如Re-Paint[20] 、SR3[21]、DDRM[22]、DDNM[23] DPS[24] 。經(jīng)過(guò)算法1,獲得coarse階段的輸出 xcoarse 。由于 ycoarse 包含退化圖像 y 的完整語(yǔ)義信息,并且 ycoarse 的尺寸在大多數(shù)應(yīng)用場(chǎng)景中遠(yuǎn)小于 y 所以coarse階段只需分割很少的補(bǔ)丁,甚至不需要分割補(bǔ)丁。此外, ycoarse 的每一個(gè)補(bǔ)丁都符合擴(kuò)散先驗(yàn)的數(shù)據(jù)分布。這使本文方法能夠快速得到一個(gè)雖然低分辨率但具有完整語(yǔ)義信息和合理復(fù)原紋理的coarse階段結(jié)果 xcoarse ,作為coarse先驗(yàn)。
圖4兩階段方法流程Fig.4Flow of two-stage method
在fine階段,對(duì) xcoarse 進(jìn)行上采樣,將其變回原本的尺寸[H,W] ,得到 xup 。fine階段反向去噪過(guò)程的輸入為將 xup 進(jìn)行少量加噪得到的 fine 階段的流程如算法3所示。
算法3fine階段 require: N,y ,condition
由3.1節(jié)可知,從 xs 復(fù)原的難度遠(yuǎn)小于從近似于高斯分布的 xT 復(fù)原。coarse階段的上采樣結(jié)果 xup 與最終的復(fù)原目標(biāo) xfine 具有相似的圖像分布 pimage(xup)~pimage(ΦXfine) ,也可以稱為具有相似的高級(jí)特征。這使得 xup 可以作為coarse先驗(yàn)來(lái)指導(dǎo)fine階段的擴(kuò)散生成過(guò)程。
xfine 為兩階段擴(kuò)散先驗(yàn)復(fù)原方法的最終輸出結(jié)果。本文仍然將每一個(gè)時(shí)刻描述為 Ξt ,代表擴(kuò)散過(guò)程中的方差 βt 仍然來(lái)源于標(biāo)準(zhǔn)的擴(kuò)散生成過(guò)程。通過(guò)兩階段策略,大幅度降低了復(fù)原所需的總采樣次數(shù)。根據(jù)2.1節(jié)關(guān)于補(bǔ)丁分割與總采樣次數(shù)的分析,假設(shè)coarse階段尺寸為 或[
,fine階段尺寸為 Φ,H,W] ,之間的縮放因子scale L:= fine/coarse為 k ,補(bǔ)丁分割步長(zhǎng)為 256/2=128 。這代表著對(duì)fine階段的原尺寸[ H W] ,fine階段會(huì)分割出 N 個(gè)補(bǔ)丁。對(duì)應(yīng)地,在coarse階段只需要根據(jù)[256,
或
計(jì)算出 M 個(gè)補(bǔ)丁, M 的數(shù)量只與圖像的分辨率比列有關(guān),對(duì)于 1:1 分辨率比例的圖像, M 為1,對(duì)于 1920×1080 這一類場(chǎng)景比列, M 為3。對(duì)于 1 024×1 024 的尺寸,總共有49個(gè)fine階段補(bǔ)丁和1個(gè)coarse階段補(bǔ)丁,總共需要 49S+1T 次采樣;而對(duì)于 1920×1080 的尺寸,總共需要112S+3T 次采樣。以最高水平輸出的實(shí)驗(yàn)經(jīng)驗(yàn), s 通常為0.2T 在1024尺寸下,本文方法總共需要10.8T次采樣,復(fù)原速度是其他同類方法的4.5倍。在 1920×1080 尺寸下,總共需要25.4T次采樣,速度是同類方法的4.4倍。以上通過(guò)推導(dǎo)得到的速度數(shù)據(jù)在表1~3中得到證實(shí)。
4實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
預(yù)訓(xùn)練模型與測(cè)試環(huán)境。本文使用 CelebA ?HQ[28] 和 Image-Net[32] 數(shù)據(jù)集預(yù)訓(xùn)練得到的擴(kuò)散生成模型,以驗(yàn)證提出的兩階段復(fù)原方法。使用 CelebA-HQ[28] 數(shù)據(jù)集訓(xùn)練的擴(kuò)散生成模型針對(duì)人臉圖像的數(shù)據(jù)分布,CelebA-HQ預(yù)訓(xùn)練模型來(lái)自SDE-(24 dit[33] 的celeba_hq.ckpt。而使用大規(guī)模、多樣化的ImageNet[32]數(shù)據(jù)集訓(xùn)練的模型則應(yīng)對(duì)真實(shí)世界中各種場(chǎng)景的挑戰(zhàn),Image-Net預(yù)訓(xùn)練模型由Guided-Diffusion[19]提供,為 256×256- diffu-sion_uncond.pt。本文對(duì)比實(shí)驗(yàn)與可視化結(jié)果,均使用 256×256 大小的補(bǔ)丁與128步長(zhǎng)作為補(bǔ)丁分割的參數(shù)。實(shí)驗(yàn)在NVIDIARTX4060上完成測(cè)試,也兼容其他任何可以運(yùn)行Guided-Diffusion[19]或SDEdit[33]的機(jī)器。本文方法基于預(yù)訓(xùn)練的擴(kuò)散生成模型,并且不需要昂貴的重訓(xùn)練或微調(diào)。關(guān)于condition部分的超參則分別來(lái)自于當(dāng)前優(yōu)秀的DDNM[23]和GDP[26]
本文實(shí)驗(yàn)基于高分辨率圖像數(shù)據(jù),選用 1024×1024 與1920×1080 這兩個(gè)經(jīng)典尺寸。通過(guò)定量實(shí)驗(yàn)對(duì)比其他方法復(fù)原最好結(jié)果時(shí)所需的時(shí)間開(kāi)銷,以驗(yàn)證本文方法對(duì)于復(fù)原效率的提升;以及通過(guò)視覺(jué)對(duì)比結(jié)果驗(yàn)證本文避免了其他方法存在的OOD問(wèn)題與矩陣對(duì)齊問(wèn)題。
在定性實(shí)驗(yàn)方面,本文使用來(lái)自CelebA-HQ、FFHQ、DIV2K以及真實(shí)世界的圖片,這些擁有高分辨率的數(shù)據(jù)視覺(jué)對(duì)比展示不同方法的復(fù)原結(jié)果。驗(yàn)證本文方法可以在不同場(chǎng)景下完成同類方法中最高水平的復(fù)原,同時(shí)避免其他方法處理高分辨率圖像時(shí)存在的OOD問(wèn)題[26]或奇異值矩陣對(duì)齊問(wèn)題[27]。
在定量實(shí)驗(yàn)方面,本文選擇CelebA-HQ與FFHQ這兩個(gè)主流的人臉數(shù)據(jù)集作為人臉類型數(shù)據(jù)的測(cè)試集,驗(yàn)證本文方法可以大幅度提高最好水平結(jié)果的復(fù)原速度。以少量DIV2K、真實(shí)圖片作為自然圖像的復(fù)原測(cè)試,主要用以對(duì)比同類方法在自然圖像下的指標(biāo)得分。
對(duì)于非常規(guī)指標(biāo)FID,它通過(guò)比較生成圖像和真實(shí)圖像的特征分布,評(píng)估它們的相似性。具體來(lái)說(shuō),F(xiàn)ID計(jì)算的是生成圖像和真實(shí)圖像在inception網(wǎng)絡(luò)的高層特征空間中的均值和協(xié)方差之間的Frechet距離。FID值越低,表示生成圖像與真實(shí)圖像在分布上越相似,質(zhì)量越高。
由于本文方法基于預(yù)訓(xùn)練擴(kuò)散生成模型[18.30]完成圖像復(fù)原[20~27],所以無(wú)須對(duì)擴(kuò)散生成模型進(jìn)行微調(diào)、重訓(xùn)練,也無(wú)須訓(xùn)練額外的神經(jīng)網(wǎng)絡(luò)。
4.2實(shí)驗(yàn)結(jié)果
a)定性分析。圖5~7展示了視覺(jué)對(duì)比結(jié)果,與 GDP[26] 相比,本文方法與 DDNM+[27] 都避免了OOD問(wèn)題。并且圖6在fine: 1900×1080 ,coarse: 450×256 (factor:4.219)的復(fù)原問(wèn)題上,本文方法仍然支持輸出,避免了 DDNM+[27] 在處理縮放系數(shù)非整數(shù)時(shí)出現(xiàn)矩陣無(wú)法對(duì)齊導(dǎo)致無(wú)法應(yīng)用的問(wèn)題。
圖5展示了本文方法與其他支持任意尺寸輸出的預(yù)訓(xùn)練擴(kuò)散先驗(yàn)復(fù)原方法在人臉圖像上的復(fù)原效果。以模糊、損壞、褪色這三種經(jīng)典的、不改變分辨率的退化任務(wù)作為展示。模糊任務(wù)的控制方法選擇 DPS[24] ,生成結(jié)果較有對(duì)比性的。褪色任務(wù)選擇輸出了最佳結(jié)果的DDNM[23]作為控制方法。損壞任務(wù)的對(duì)比結(jié)果則選擇了 RePaint[20] 作為控制方法。對(duì)于差異較小的損壞任務(wù)的復(fù)原結(jié)果,本文使用感興趣區(qū)域(regionofinterest,RoI)標(biāo)注出來(lái)。
圖51 ∣024×1024 尺寸人臉數(shù)據(jù)復(fù)原圖像對(duì)比Fig.5Comparison of size face data restoration images for 1 024×1024 (20
圖6、7分別代表了自然數(shù)據(jù)的復(fù)原結(jié)果,本文選擇最為明顯的褪色任務(wù)進(jìn)行展示。其中圖6作為 1024×1024 分辨率的場(chǎng)景進(jìn)行對(duì)比展示,本文用RoI標(biāo)注了 GDP[26] 存在的OOD問(wèn)題,RoI內(nèi)存在明顯的塊狀偽影,以及整張圖片的復(fù)原都存在不合理。圖7的 1920×1080 分辨率 DDNM+ 不適用該比例在coarse階段為 455×256 分辨率,超分辨率系數(shù)為4.21875。因?yàn)榫仃噷?duì)齊的問(wèn)題,非整數(shù)的系數(shù)使得DDNM+[27]的超分辨率方法無(wú)法應(yīng)用。
圖6 1 024×1 024 尺寸的自然數(shù)據(jù)復(fù)原圖像對(duì)比
圖71 920×1080 尺寸的自然數(shù)據(jù)復(fù)原圖像對(duì)比Fig.7Comparison of size natural data restoration images for 1 920×1 080
圖5~7中同類方法 GDP[26] 的結(jié)果,都出現(xiàn)了塊狀的偽影和不當(dāng)?shù)膹?fù)原結(jié)果,這是因?yàn)镚DP沒(méi)有考慮OOD問(wèn)題。作為對(duì)比,本文方法的結(jié)果在所有同類方法中均能達(dá)到最好水平。
b)定量分析。表1~3展示了定量分析對(duì)比結(jié)果,用于驗(yàn)證對(duì)比本文方法在生成最高水平結(jié)果所需的復(fù)原速度。主要分析了代價(jià)指標(biāo):每張圖像復(fù)原用時(shí)(time/image)、平均每張圖像復(fù)原的顯存占用(memory/image);以及精度指標(biāo):代表單張圖像的PSNR與代表數(shù)據(jù)分布相似度的 FID 。本文兩階段方法在獲得相近的精度指標(biāo)同時(shí),復(fù)原速度是其他方法的4.5倍左右,并且沒(méi)有帶來(lái)明顯的額外顯存開(kāi)銷。
表1在代表了經(jīng)典高分辨率人臉數(shù)據(jù)的CelebA-HQ和FFHQ數(shù)據(jù)集上完成實(shí)驗(yàn),實(shí)驗(yàn)所用圖像分辨率均為 1 024× 1024。由表1可知,本文方法在代價(jià)指標(biāo)上全方面優(yōu)于同類方法,時(shí)間開(kāi)銷僅為同類方法的 22% 左右。同時(shí)在精度指標(biāo)上,本文方法與同類方法相近。
Tab.1Comparison ofquantitative metricsforface data restorationresult:
注:粗體表示最好的結(jié)果;下劃線表示次好的結(jié)果。
根據(jù)表1,精度指標(biāo)與控制方法高度相關(guān),與為了支持任意尺寸輸出的同類方法關(guān)聯(lián)性較低。控制方法使用 DPS[24] 的情況下, GDP[26] 通常可以取得較好的PSNR指標(biāo),這是因?yàn)镈PS[24] 是一種基于均方根誤差進(jìn)行梯度下降的復(fù)原控制方法,沒(méi)有作任何額外處理的 GDP[26] 能因此得到更高的PSNR分?jǐn)?shù),即使在視覺(jué)的結(jié)果上出現(xiàn)了OOD問(wèn)題。
表2、3對(duì)比了本文與同類方法在 1 024×1 024 與 1920× 1080尺寸的自然數(shù)據(jù)上的復(fù)原表現(xiàn)。在時(shí)間代價(jià)指標(biāo)上,本文方法僅需其他方法的 21% 時(shí)間,速度約為其他方法的4.7倍,與3.2節(jié)末尾的理論推導(dǎo)符合。
表21 024×1024 八寸時(shí)日熱數(shù)據(jù)發(fā)原結(jié)米走里指協(xié)對(duì)比
表3 1920×1080 尺寸的自然數(shù)據(jù)復(fù)原結(jié)果定量指標(biāo)對(duì)比
Tab.3Quantitative metrics comparison of data restoration results for1 920×1 080 size natural
5結(jié)束語(yǔ)
本文提出了一種基于預(yù)訓(xùn)練擴(kuò)散模型的兩階段高分辨率圖像復(fù)原方法。首先在預(yù)訓(xùn)練模型固定尺寸的coarse階段得到粗糙的復(fù)原結(jié)果以保證輸出一致性,然后在原尺寸的fine階段上以coarse階段結(jié)果為起點(diǎn),使用更短的擴(kuò)散過(guò)程來(lái)大幅度提升復(fù)原速度與獲取一致性結(jié)果。本文方法與同類方法相比,在高分辨率圖像復(fù)原的應(yīng)用上有明顯優(yōu)勢(shì),對(duì)于同水平的定性視覺(jué)結(jié)果和定量精度結(jié)果,本文方法復(fù)原速度是同類任意尺寸輸出方法的4.5倍左右,并且避免了其他一致性輸出方法面臨的奇異值矩陣對(duì)齊問(wèn)題。
但是本文方法仍存在兩個(gè)問(wèn)題:a)本文避免OOD的方法需要coarse階段能得到合理的復(fù)原結(jié)果,如果在coarse階段便出現(xiàn)了00D問(wèn)題(如48:9這類比例的圖片),本文仍可能出現(xiàn)OOD問(wèn)題。b)兩階段的方法大幅度提升了復(fù)原速度,但是fine階段仍然是在使用補(bǔ)丁分割的方法,這使得高分辨率圖像如不采用并行策略,生成速度仍難以達(dá)到實(shí)時(shí)應(yīng)用。希望在未來(lái)能有合理的方法解決以上問(wèn)題。
參考文獻(xiàn):
[1]DongWeisheng,Wang Peiyao,Yin Wotao,etal.Denoising prio1drivendeep neural network forimagerestoration[J].IEEE TransonPatternAnalysisandMachine Intelligence,2019,41(10):2305-2318.
[2]Lehtinen J,Munkberg J,Hasselgren J,et al. noise2noise:learning image restoration without clean data :C]// Proc of the 35th International Conference onMachine Learning.[S.1.]:PMLR,2018: 2971-2980.
[3]Shao Wenze,Liu Yuanyuan,Ye Luyue,et al.DeblurGAN + : revisitingblind motion deblurring using conditional adversarial networks [J].Signal Processing,2020,168:107338.
[4]Zhang Kaihao,Luo Wenhan,Zhong Yiran,et al.Deblurring by realisticblurring[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 2734-2743.
[5]Suin M,Purohit K,Rajagopalan A N.Spatially-attentivepatchhierarchical network foradaptivemotiondeblurring[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,202O:3603-3612.
[6]Liu Jie,Zhang Wenjie,Tang Yuting,etal.Residual feature aggregation network for image super-resolution[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway, NJ:IEEE Press,2020:2356-2365.
[7]Zhang Yulun,Tian Yapeng,Kong Yu,et al.Residual dense network for image super-resolution [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press ,2018: 2472-2481.
[8]Yu Jiahui,Lin Zhe,Yang Jimei,etal.Generativeimage inpainting with contextual attention[C]//Proc of IEEE/CVFConference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018:5505-5514.
[9].PathakD,KrahenbuhlP,DonahueJ,etal.Context encoders:feature learning by inpainting[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press, 2016:2536-2544.
[10]陳婷,王通,張冀武,等.基于邊緣先驗(yàn)融合動(dòng)態(tài)門(mén)控特征的人 臉圖像修復(fù)[J].計(jì)算機(jī)應(yīng)用研究,2023,40(11):3478-3484. (Chen Ting,Wang Tong,Zhang Jiwu,et al.Face image inpainting algorithm based on edge prior fusion dynamic gating features [J]. Application Research of Computers,2023,40(11):3478- 3484.)
[11]崔浩然,苗壯,王家寶,等,基于生成逆推的大氣湍流退化圖像 復(fù)原方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(1):282-287.(Cui Haoran,Miao Zhuang,Wang Jiabao,et al.Restoration method for atmospheric turbulence degraded images based on generative inversion [J].Application Research of Computers,2024,41(1):282- 287.)
[12]Yue Zongsheng,Yong Hongwei,Zhao Qian,et al.Variational denoising network:toward blind noise modeling and removal[C]// Advances in Neural Information Processing Systems 32. Red Hook, NY:Curran Associates Inc.,2019:1688-1699.
[13]Wu Xiaohe,Liu Ming,CaoYue,etal.Unpaired learning of deep imagedenoising[M]//VedaldiA,BischofH,BroxT,etal.Proc of the16th European Conference on ComputerVision.Cham:Springer,2020:352-368.
[14]Chen Jingwen,Chen Jiawei,Chao Hongyang,et al. Image blind denoising with generativeadversarial network based noise modeling [C]//Proc of IEEE/CVF Conference on Computer Vision and Patter Recognition.Piscataway,NJ: IEEE Press,2018: 3155-3164.
[15]Heusel M,RamsauerH,UnterthinerT,et al.GANs trained bya two time-scaleupdate rule converge to a local Nash equilibrium[C]// Proc of the31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017: 6626-6637.
[16]RothK,LucchiA,NowozinS,etal.Stabilizing training of generative adversarial networks through regularization [C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:2015-2025.
[17]GoodfellowIJ,Pouget-AbadieJ,MirzaM,etal.Generative adversarial networks[J].Communications of theACM,2020,63 (11): 139-144.
[18]Ho J,JainA,Abbeel P.Denoising diffusion probabilistic models [C]//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2020:6840-6851.
[19]Dhariwal P,Nichol A Q.Diffusion models beat GANs on image synthesis[C]//Proc of the 35th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2021:8780-8794.
[20]Lugmayr A,Daneljan M,Romero A,et al.RePaint: inpainting using denoising diffusion probabilistic models[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:11451-11461.
[21] Saharia C,Ho J,Chan W,et al. Image super-resolution via iterative refinement[J]. IEEE Trans on Patter Analysis and Machine Intelligence,2023,45(4):4713-4726.
[22」Kawar B,Elad M,Ermon S,et al. Denoising diftusion restoration models[C]//Procofthe36thInternational ConferenceonNeural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2022:23593-23606.
[23]Wang Yinhuai,Yu Jiwen,Zhang Jian.Zero-shot image restoration using denoising diffusion nul-space model[EB/OL]. (2022-12- 07). https://arxiv.org/abs/2212.00490.
[24]ChungH,KimJ,Mccann MT,etal.Diffusionposterior sampling for general noisy inverse problems [EB/OL].(2024-05-20). https:// arxiv. org/abs/2209.14687.
[25]ChungH,KimJ,KimS,et al.Parallel diffusion models of operator and image for blind inverse problems[C]//Proc of IEEE/CVFConference on Computer Vision and Pattrn Recognition.Piscataway, NJ:IEEE Press,2023:6059-6069.
[26]Fei Ben,Lyu Zhaoyang,Pan Liang,et al. Generative diffusion prior for unified image restoration and enhancement[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEEPress,2023:9935-9946.
[27]Wang Yinhuai,Yu Jiwen,Yu Runyi,et al.Unlimited-size diffusion restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press, 2023:1160-1167.
[28]Liu Ziwei, Luo Ping,Wang Xiaogang,et al.Deep learning face attributes in the wild[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:3730-3738.
[29]Agustsson E,Timofte R. NTIRE 2017 challenge on single image super-resolution:dataset and study[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ:IEEE Press,2017:1122-1131.
[30] Song Jiaming,Meng Chenlin,Ermon S.Denoising diffusion implicit models[EB/OL].(2022-10-05). https://arxiv.org/abs/2010. 02502.
[31]Ozdenizci O,Legenstein R. Restoring vision in adverse weather conditions with patch-based denoising difusion models [J].IEEE Transon Pattern Analysisand Machine Intelligence,2023,45 (8):10346-10357.
[32]Russakovsky O,Deng Jia,Su Hao,et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision,2015,115(3):211-252.
[33]Meng Chenlin,He Yutong,Song Yang,et al. SDEdit:guided image synthesis and editing with stochastic differential equations[EB/OL]. (2022-01-05).https://arxiv.org/abs/2108.01073.