雷純庭,楊曉敏,韓孝朋
(四川大學(xué)電子信息學(xué)院,成都 610065)
作為一個(gè)典型的低級(jí)視覺任務(wù),單幅圖像超分辨率(single?image super?resolution, SISR)是指從其對(duì)應(yīng)的LR 圖像中恢復(fù)可信的、具有清晰細(xì)節(jié)的HR 圖像。它被廣泛用于各種圖像任務(wù),如可見光圖像[1]、紅外圖像[2]和醫(yī)學(xué)圖像[3]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的引入使SISR 蓬勃發(fā)展。許多基于CNN 的方法[1,4?10]都創(chuàng)新性地設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)和訓(xùn)練策略,以達(dá)到新的性能水平。為了實(shí)時(shí)處理圖像,一些輕量級(jí)網(wǎng)絡(luò)[11?13]也出現(xiàn)了。這些方法假設(shè)從HR 圖像退化到LR 圖像時(shí),模糊核是已知的(如雙三次)。然而,在實(shí)際應(yīng)用中的圖像退化要復(fù)雜得多。由于拍攝設(shè)備參數(shù)、外部復(fù)雜因素等原因,退化在不同的圖像中會(huì)有所不同,此時(shí)的退化是未知的。此外,當(dāng)LR 圖像的退化程度偏離假設(shè)時(shí)[14],超分辨率結(jié)果和所需的HR圖像之間存在很大的域差距,這導(dǎo)致了嚴(yán)重的性能下降。因此,為了緩解這種性能下降,應(yīng)該關(guān)注未知退化的情況,即盲超分辨率。
在盲超分辨率中,對(duì)未確定變量的模糊核的優(yōu)化尤為重要。為了使這個(gè)問題更容易解決,以前的方法,如IKC[15]分別訓(xùn)練了一個(gè)模糊核估計(jì)結(jié)構(gòu)與非盲超分辨率網(wǎng)絡(luò)相結(jié)合來恢復(fù)SR圖像。DAN[16]對(duì)模糊核進(jìn)行迭代優(yōu)化,并在最后一次迭代中生成最終的超分辨率結(jié)果。然而,這些方法的網(wǎng)絡(luò)參數(shù)較大,相應(yīng)的,重建HR圖像時(shí)的推理速度也比較慢。與此同時(shí),在模糊核的估計(jì)準(zhǔn)確性上仍有不足。
本文提出了一個(gè)基于約束最小二乘方濾波的圖像預(yù)處理模塊。該模塊通過估計(jì)的模糊核和自適應(yīng)濾波參數(shù)生成去模糊特征。預(yù)處理后的干凈特征和LR 圖像先驗(yàn)特征輸入特征融合網(wǎng)絡(luò),恢復(fù)最終的高分辨率結(jié)果。在合成退化圖像和真實(shí)世界圖像的實(shí)驗(yàn)中,所提出的算法在性能和推理速度方面,相較IKC 和DAN 更具有競(jìng)爭(zhēng)力,并且在視覺效果上也更具有優(yōu)勢(shì)。
實(shí)際上,HR 圖像的退化過程可以表示為模糊、下采樣和噪聲的組合,在數(shù)學(xué)上,可以表示為
其中:y是退化的LR 圖像,x是HR 圖像;?表示卷積運(yùn)算;kh表示HR 空間上的模糊核;↓s表示下采樣;n是指加性白高斯噪聲。理想情況下,待估計(jì)的模糊核及其對(duì)應(yīng)的圖像應(yīng)位于相同的低分辨率空間中,以便退化可以轉(zhuǎn)化為去模糊問題,然后才是具有雙三次退化的SISR 問題[17?18]。因此,可以很容易獲得另一種形式的退化公式:
其中:kl表示LR 空間上的模糊核。設(shè)Di是對(duì)應(yīng)于x↓s的去模糊特征,根據(jù)DCLS[19]的 推 導(dǎo),獲取去模糊特征的公式為
而特征特定運(yùn)算符Hi可以由下式定義:
其中:F(?) 表示傅里葉變換,F(xiàn)-1(?) 表示傅里葉逆變換,表示F(?) 的共軛;kl表示估計(jì)的模糊核;pi表示濾波參數(shù)。pi通過CNN 來調(diào)整參數(shù)。基于新的退化過程,本文的目標(biāo)是估計(jì)模糊核kl,然后恢復(fù)HR 圖像x。在研究中,一般分為規(guī)則的模糊核和不規(guī)則的模糊核,如各向同性和各向異性的高斯模糊核。比較常用的是各向同性的模糊核,因?yàn)樗梢愿玫剡M(jìn)行定性和定量研究。為了簡(jiǎn)單起見,本文主要討論具有規(guī)則性的各向同性模糊核。
本文算法從模糊核估計(jì)出發(fā),在此基礎(chǔ)上,提出了一種盲超分辨率方法。本文設(shè)計(jì)了一個(gè)簡(jiǎn)化核估計(jì)模塊用于模糊核的估計(jì),但由于盲超分辨率問題[20]的高度非凸性,直接最小化估計(jì)核與基礎(chǔ)真實(shí)模糊核的L1 差通常是困難和不穩(wěn)定的,不準(zhǔn)確的模糊核會(huì)導(dǎo)致性能下降[15?16]。因此,本文提出了一個(gè)回歸損失函數(shù)。具體來說,使用估計(jì)核與SR 圖像進(jìn)行卷積,重建SR圖像為LR 圖像大小的縮減圖像。于此同時(shí),使用L1 損失來計(jì)算縮減圖像和LR 圖像之間的差異,使之最小化。隨著重新生成的縮減圖像越來越接近原始的LR 圖像,估計(jì)核也越來越接近此時(shí)的ground?truth 模糊核。同樣的,圖像特征通過共享簡(jiǎn)化核估計(jì)模塊的參數(shù)來生成豐富的濾波參數(shù)pi。此處的pi為自適應(yīng)的濾波參數(shù)。這樣可以找到許多不同的濾波參數(shù)來獲得相同的正確解。本文算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
在文獻(xiàn)[16]中,核估計(jì)模塊采用了多個(gè)卷積組來估計(jì)所需要的模糊核。這樣做雖然加深了網(wǎng)絡(luò),使核估計(jì)的準(zhǔn)確性提高了,但增加了大量的運(yùn)算時(shí)間。本文算法為了降低運(yùn)算時(shí)間,提高實(shí)用性,設(shè)計(jì)了簡(jiǎn)化核估計(jì)模塊來估計(jì)模糊核。簡(jiǎn)化核估計(jì)模塊的結(jié)構(gòu)如圖2所示,僅包含了5 個(gè)卷積層和1 個(gè)全局平均池化層。池化層特征圖聚集成21×21 的空間大小。根據(jù)文獻(xiàn)[16],在池化層后加入softmax 層,它明確地強(qiáng)制整個(gè)內(nèi)核求和為1。然后匯聚空間信息,得到估計(jì)的模糊核。

圖2 簡(jiǎn)化核估計(jì)模塊
為了處理模糊造成的圖像退化,本文提出了一個(gè)基于約束最小二乘方濾波的圖像預(yù)處理模塊。該模塊基于拉普拉斯核和自適應(yīng)模糊核生成去模糊特征。預(yù)處理后的干凈特征和LR 圖像先驗(yàn)特征輸入特征融合網(wǎng)絡(luò),恢復(fù)最終的高分辨率結(jié)果。結(jié)構(gòu)如圖3所示。

圖3 特征去模糊模塊
為了在網(wǎng)絡(luò)中加入圖像先驗(yàn)信息,本文構(gòu)建了特征融合模塊,如圖4所示。

圖4 特征融合模塊
它使用輸入的LR圖像特征的指導(dǎo)來調(diào)整去模糊特征。具體來說,LR圖像特征作為先驗(yàn)信息逐層與去模糊特征融合,可以有效增加特征的長距離依賴,特征融合模塊表示如下:
其中:fi表示圖像特征,gi表示去模糊特征;⊙表示特征通道組合;?和φ是調(diào)制函數(shù)。擴(kuò)展后的結(jié)構(gòu)被記為以下公式:
這里,Conv3表示3*3卷積層,ReLU是激活層。本文疊加50個(gè)特征融合模塊來充分結(jié)合并提取特征信息。最終使用像素混洗來完成圖像上采樣恢復(fù)HR圖像。
為了在保持算法性能的前提下減少推理時(shí)間,本文使用簡(jiǎn)化的核估計(jì)模塊來完成模糊核的估計(jì)。但對(duì)于多退化的模糊核,簡(jiǎn)單的網(wǎng)絡(luò)所估計(jì)的模糊核往往是不準(zhǔn)確的,其泛化性并不是很好。在模糊核的估計(jì)中,正如文獻(xiàn)[15]所述,不準(zhǔn)確的模糊核會(huì)造成振鈴或者更模糊的現(xiàn)象。直觀的解決方案就是設(shè)計(jì)一個(gè)約束函數(shù)來監(jiān)督模糊核的估計(jì)。本文提出了一個(gè)回歸損失函數(shù)Lr,用來約束模糊核的估計(jì)。公式描述如下:
其中:L1表示L1損失函數(shù);ISR表示生成的SR圖像;ILR表示輸入的LR圖像。本文通過生成的SR圖像來重建LR圖像,并且用L1損失來最小化縮減后的圖像與輸入的LR圖像之間的差異。本文算法的整體損失函數(shù)可表示為
其中:α為均方損失權(quán)值;β為回歸損失權(quán)值,回歸損失通過約束模糊核的估計(jì),減少生成圖像產(chǎn)生的振鈴以及模糊退化的現(xiàn)象,但對(duì)于圖像質(zhì)量的提升是有限的,所以本文設(shè)定均方損失的權(quán)值α為1,而β作為輔助損失,權(quán)值設(shè)定為0.1。
按照文獻(xiàn)[15?16, 21?22],本文使用DIV2K[23]中的800張HR圖像和Flickr2K[7]中的2650張HR圖像作為訓(xùn)練集,并且將HR圖像裁剪成256×256的塊。本文采用了各向同性的高斯模糊核,它可以定量地比較不同的模糊核。此外,各向同性的高斯模糊核有助于本文探索不同模糊核的寬度對(duì)圖像的影響。在本文中,設(shè)定模糊核的寬度σ的范圍為[0.2, 4.0],核的大小固定為21×21,比例系數(shù)為4。本文的網(wǎng)絡(luò)只在各向同性的高斯模糊核的退化,且無噪聲的情況下進(jìn)行訓(xùn)練。定量評(píng)估中,包括四個(gè)基準(zhǔn)數(shù)據(jù)集(Set5[24],Set14[25],BSD100[26]和Urban100[27])。在測(cè)試過程中,本文也定義了一個(gè)可以進(jìn)行合理比較的核函數(shù)。對(duì)于比例系數(shù)4,高斯核的寬度σ范圍被設(shè)定為[1.8, 3.2],高斯核可視化見圖5。核的大小被固定為21×21,表示為Gaussian8[15]。

圖5 高斯的可視化
本文將LR 訓(xùn)練樣本裁剪成64×64 的塊,并將批量大小設(shè)置為32。所有的模型都進(jìn)行了6×105次迭代訓(xùn)練。本文使用Adam[28]作為優(yōu)化器,β1= 0.9,β2= 0.99。初始學(xué)習(xí)率為2×10-4,每1.5×105次迭代后,學(xué)習(xí)率將減半。所有模型都在4個(gè)TITAN XP GPU上進(jìn)行訓(xùn)練。
在合成測(cè)試圖像上,通過Gaussian8 在合成圖像上評(píng)估本文算法。如圖6所示。

圖6 不同算法在BSD100測(cè)試集上的視覺效果比較
本文所提算法與不同的算法進(jìn)行了視覺比較。本文的結(jié)果主要與BSRGAN[29]、IKC[15]和DAN[16]進(jìn)行比較。請(qǐng)注意,BSRGAN 是為處理真實(shí)世界的圖像而設(shè)計(jì)的,但它不能很好地處理不同寬度的模糊核,往往會(huì)產(chǎn)生過于尖銳的結(jié)果。IKC 是兩步法的解決方案,它有一些缺點(diǎn),如訓(xùn)練時(shí)間長,對(duì)模糊核的估計(jì)不太準(zhǔn)確。DAN 的每次迭代均花費(fèi)大量時(shí)間,并且它的性能仍然不足。本文所提算法以更快的速度取得了更好的性能。結(jié)果可見表1。

表1 不同算法在Gaussian8上的定量比較
為了驗(yàn)證本文算法的泛化性,本文也在真實(shí)世界的圖像上進(jìn)行了測(cè)試。由于真實(shí)世界的圖像沒有g(shù)round?truth 圖像,因此只比較不同算法的視覺結(jié)果。可視化結(jié)果如圖7所示。可以看出,DAN的結(jié)果比IKC要清楚。注意,BSRGAN是為真實(shí)世界的圖像設(shè)計(jì)的,它產(chǎn)生的結(jié)果更銳利。但是在這個(gè)真實(shí)圖像中,由BSRGAN 修復(fù)的字母形狀是扭曲的,尤其體現(xiàn)在字母 “A”處,在字母的中間有明顯的變形。這表明,盡管基于生成對(duì)抗網(wǎng)絡(luò)的方法在感知損失的幫助下促進(jìn)了視覺效果,但偽影可能是該方法的缺陷。結(jié)果顯示,本文算法沒有明顯的失真。這表明本文算法是在合成圖像上訓(xùn)練的,而不是像BSRGAN 那樣采用多退化池進(jìn)行訓(xùn)練,但它在實(shí)際應(yīng)用中仍有一定的泛化能力。

圖7 在4倍超分辨率的真實(shí)圖像上獲得的可視化結(jié)果
為了定量比較推理時(shí)間、模型參數(shù)和計(jì)算量。本文在同一平臺(tái)上評(píng)估不同的方法。在此,選擇Set5 中由Gaussian8 核合成的40 幅圖像作為測(cè)試圖像,所有這些圖像都在同一平臺(tái)上用RTX2080Ti GPU進(jìn)行評(píng)估。如表2所示,與其他盲超分辨率方法相比,本文所提出的算法在推理上花費(fèi)的時(shí)間更少。相較于IKC 和DAN 這兩種迭代優(yōu)化的算法,本文算法的平均推理時(shí)間只有0.52 s,而IKC 需要大量的時(shí)間來迭代,平均每幅圖像比本文所提算法慢8倍。盡管本文的參數(shù)量高一些,但推理時(shí)間卻相較DAN 減少了30%。這歸功于簡(jiǎn)化的核估計(jì)模塊,有效地減少了冗余的計(jì)算,在計(jì)算量的比較上,本文算法的計(jì)算量只占IKC 的16%,盡管DAN 已經(jīng)在IKC的基礎(chǔ)上大幅度優(yōu)化了計(jì)算量,但本文的計(jì)算量更少,只有DAN 的37%。比較實(shí)驗(yàn)表明,IDRN 在PSNR 結(jié)果和推理時(shí)間上均優(yōu)于IKC 和DAN這兩種方法。

表2 不同算法的參數(shù)量、計(jì)算量和推理時(shí)間比較
為了驗(yàn)證本文算法的有效性,針對(duì)核估計(jì)模塊、特征去模糊模塊和回歸損失函數(shù),本文用DAN 作為基線進(jìn)行了消融實(shí)驗(yàn)。從表3 可以看出,DAN 采用L1 損失,平均推理時(shí)間為0.75 s。在DAN+簡(jiǎn)化核估計(jì)模塊中,本文用簡(jiǎn)化的核估計(jì)模塊替換了DAN 中的復(fù)雜核估計(jì)網(wǎng)絡(luò),此時(shí)在Set5 數(shù)據(jù)集上性能雖然下降了0.04 dB,但推理時(shí)間減少了40%。可以看出,簡(jiǎn)化核估計(jì)模塊可以降低推理時(shí)間,但簡(jiǎn)化后的性能增益是負(fù)的。本文的算法維持簡(jiǎn)化后的推理速度,并在DAN+簡(jiǎn)化核估計(jì)模塊的基礎(chǔ)上加入回歸損失函數(shù),此時(shí)性能基本持平DAN,這說明回歸損失函數(shù)加入可以有效約束簡(jiǎn)化核估計(jì)對(duì)于模糊核的估計(jì)。最后基于DAN+簡(jiǎn)化核估計(jì)模塊+回歸損失函數(shù)加入特征去模糊模塊,也就是本文所提出的算法。相較于DAN+簡(jiǎn)化核估計(jì)模塊+回歸損失函數(shù)在Set5 性能上的增益達(dá)到了0.03 dB,在Set14上提升了0.04 dB,而僅僅增加了0.07 s的推理時(shí)間。綜上所述,本文算法在平衡性能和推理時(shí)間的基礎(chǔ)上,所加入的核估計(jì)模塊、回歸損失函數(shù)和特征去模糊模塊均能對(duì)算法的優(yōu)化有所幫助,整體的數(shù)據(jù)如表3所示。

表3 消融實(shí)驗(yàn)中不同模塊的定量比較
本文提出了一個(gè)基于約束最小二乘方濾波的圖像預(yù)處理模塊。該模塊通過估計(jì)的模糊核和自適應(yīng)濾波參數(shù)生成去模糊特征。預(yù)處理后的干凈特征和LR 圖像先驗(yàn)特征輸入特征融合網(wǎng)絡(luò),恢復(fù)最終的高分辨率結(jié)果。此外,本文提出了一種回歸損失,通過生成的SR 圖像來重建LR圖像,并且用L1損失來最小化縮減后的圖像與輸入的LR 圖像之間的差異。應(yīng)用該損失函數(shù),可以大大簡(jiǎn)化核估計(jì)模塊,在計(jì)算量以及推理時(shí)間上表現(xiàn)優(yōu)異。盡管本文算法已經(jīng)擁有不錯(cuò)的性能,但網(wǎng)絡(luò)的參數(shù)量仍然比較大。在以后的研究中可以通過設(shè)計(jì)更輕量級(jí)的盲超分辨率網(wǎng)絡(luò)來進(jìn)一步提高算法的實(shí)用性。