陳洪剛 李自強 張永飛 王正勇 卿粼波 何小海
(四川大學電子信息學院 成都 610065)
單幅圖像超分辨率(Single Image Super-Resolution, SISR)重建,旨在從低分辨率(Low-Resolution, LR)觀測圖像中恢復出更高分辨率(High-Resolution, HR)的圖像[1],使得重建圖像更加清晰。現有圖像超分辨率算法總體上可以分為3類:基于插值的方法[2]、基于重建的方法[3]和基于學習的方法[4–17]。近年來,由于出色的性能,基于深度學習的圖像超分辨率方法逐漸成為主流。Dong 等人[4]首次將卷積神經網絡引入到圖像超分辨率領域。在此基礎上,研究者不斷提出性能更優的超分辨率網絡,如IPT[5]和SwinIR[6]等,重建性能有了顯著提升[18]。然而,其中較多算法都假設低分辨率圖像的降質是已知的,如雙3次下采樣。在此理想條件下建立的超分辨率模型在處理降質未知的圖像時,如真實場景圖像,性能會明顯下降[19]。為了解決上述問題,研究者針對降質未知圖像的超分辨率重建開展了一系列工作,通常被稱為盲超分辨率重建(Blind Image Super-Resolution)[20]??傮w而言,現有盲超分辨率重建方法主要包括以下3類。
對于基于深度學習的超分辨率模型而言,訓練圖像與測試圖像之間的降質差異會嚴重影響重建性能。常用的雙3次下采樣降質模型較為理想化,覆蓋的降質類型、程度都十分有限。為了更好地重建存在復雜、未知降質的低分辨率圖像,研究者提出了更完善、更貼近真實場景的降質模型,以人工合成“高分辨率—低分辨率”圖像對和大規模訓練圖像集。例如,Zhang等人[7]提出隨機組合不同類型和程度的模糊、下采樣和噪聲,以對高分辨率圖像進行多樣化的降質,使得合成的訓練圖像對覆蓋更多、更復雜的降質情況。Wang等人[8]進一步構建了一個高階的降質模型,即允許不同參數設置下的模糊及加噪等降質操作進行多次。得益于更豐富的降質設置,這些方法能夠更好地處理降質未知的圖像,取得了較好的重建效果。不足的是,這些方法并沒有考慮不同圖像之間的降質差異,對所有圖像都采用相同的處理。
為了能夠適應于不同降質條件下的低分辨率圖像,一些研究者提出對降質過程進行估計,進而輔助圖像重建處理。如Bell-Kligler 等人[9]提出的KernelGAN,首先利用低分辨率圖像自身信息學習圖像自適應的降質模型,從而將低分辨率圖像進一步降質后構建“高分辨率—低分辨率”圖像對;然后,基于生成的圖像對訓練圖像自適應的超分辨率模型,進而對輸入低分辨率圖像進行重建。KernelGAN對于存在未知降質的低分辨率圖像有較好的適應性,但是處理速度較慢。Liang等人[10]提出一種新的核先驗(Flow-based Kernel Prior, FKP),通過學習核空間與隱空間之間的可逆映射,實現更高效準確的模糊核估計,其與KernelGAN等結合時能進一步提高盲超分辨率重建的性能。Tao等人[11]提出了基于低分辨率圖像頻譜結構的模糊核估計網絡S2K,降低了核估計誤差。通過將S2K與現有非盲超分辨率方法結合,Tao等人在降質未知圖像上取得了出色的重建性能。考慮到真實場景圖像的模糊核可能是空間變化的,Liang等人[12]提出了針對空間變化模糊核的估計網絡MANet,其主要特點是具有合適的感受野,可以保持降質的局部性。聯合非盲超分辨率方法,MANet能夠實現空間變化及空間不變模糊核圖像的重建??傮w而言,這類方法中的模糊核估計與圖像重建是相對獨立的,模糊核估計的誤差對重建效果有著十分顯著的影響。同時,他們更多關注的是模糊核,而較少考慮圖像中廣泛存在的噪聲。
為了降低降質估計誤差對重建效果的影響,研究者進一步提出了對它們進行聯合優化的方案。類似于KernelGAN,Kim等人[13]提出的DBPI也是利用待重建的低分辨率圖像學習圖像自適應的降質及重建網絡。不同的是,DBPI中的降質及重建網絡是在雙向反投影損失的引導下進行聯合優化的。鑒于精確估計降質參數十分困難,DASR[14]通過對比學習獲取圖像的非精確降質表示,并用其輔助超分辨率重建,以適應于不同降質條件下的低分辨率圖像。為了提高降質估計的準確性及重建圖像的質量,Gu等人[15]及Luo等人[16, 17]分別提出了迭代優化的方案IKC和DAN。其核心思想是模糊核等降質參數的準確性直接影響重建圖像的質量,因此反過來可以利用重建圖像來輔助降質參數的估計。通過降質估計及圖像重建的迭代聯合優化,估計的降質參數及重建的高分辨率圖像都更為可靠。但是,IKC和DAN都沒有直接考慮低分辨率圖像中的噪聲。真實場景圖像中往往存在不同程度的噪聲,其會降低模糊核估計的準確性,影響重建性能。因此,聯合優化模糊核/噪聲估計和圖像重建是十分必要的。受迭代優化思路的啟發,本文構建了模糊核/噪聲估計和圖像重建網絡,提出一種基于迭代交替優化的圖像盲超分辨率重建算法。
圖像的采集過程受多種因素的影響,通常假設低分辨率圖像的觀測過程如式(1)所示
其中,y和x分別表示低分辨率圖像和高分辨率圖像,k是模糊核,n為加性高斯噪聲, *和↓s分別是卷積和尺度為s的下采樣操作。圖像盲超分辨率重建的目的是,在k和n未知的情況下,由給定的低分辨率圖像y重建出高分辨率圖像x的估計x?。較多圖像盲超分辨率算法僅僅考慮模糊核的估計。然而,噪聲會影響模糊核的估計,而獨立的去噪預處理會造成圖像細節信息的丟失,也不利于模糊核估計及圖像重建。
為了解決上述問題,本文提出聯合估計高分辨率圖像x、模糊核k和噪聲n,如式(2)所示
其中,Fd(x,y,k,n)用于度量x,k和n的估計與低分辨率觀測圖像y之間的一致性;?(x),ψ(k)和γ(n)分別表示針對x,k和n的先驗信息。在對先驗信息進行顯式刻畫和建模后,式(2)的求解通??梢酝ㄟ^對x,k和n的交替優化實現。然而,對先驗信息的顯式建模是十分困難的,且通常只能對部分特性進行刻畫。
針對以上問題,本文將上述x,k和n的交替優化過程展開,并利用深度卷積神經網絡來實現每個未知量的估計及端對端的迭代聯合優化,提出算法的整體框圖如圖1所示。如前文所述,降質估計的準確性對于重建圖像的質量有著顯著的影響。因此,降質參數是圖像重建的關鍵輔助信息,而重建圖像反過來也可作為評價降質參數估計準確性的重要參考。具體地,對于基于深度卷積神經網絡構建的高分辨率圖像重建器Rx(·)、模糊核估計器Ek(·)和噪聲水平估計器En(·),其迭代交替優化過程如式(3)所示
本文所提出的圖像重建器如圖2(a)所示,其利用估計的模糊核和噪聲水平作為輔助信息,由輸入的低分辨率圖像重建高分辨率圖像。圖像重建器主要由3部分組成,包括低分辨率圖像特征提取、動態特征調制及上采樣。其中,低分辨率圖像的特征提取基于單個卷積層(Convolutional Layer, Conv)實現;動態特征調制由級聯的動態調制殘差模塊(Dynamic Modulation Residual Block, DMRB)構成,以利用降質信息影響網絡中間特征;上采樣模塊實現分辨率提升和圖像重建,其核心是基于亞像素卷積的上采樣層。
如圖2(b)所示,圖像重建器中的DMRB的作用是利用作為條件輸入的降質信息向量d對圖像特征進行調制及變換,其內部主要包含1個動態調制層(Dynamic Modulation Layer, DML)[21]和4個動態注意力模塊(Dynamic Attention Block, DAB)[22]。在DMRB中,基于降質信息的動態特征調制主要由DML實現,而其后的DAB基于動態注意力模型對調制后的特征進行變換和提煉,以獲取更有利于高分辨率圖像重建的特征。DMRB采用的是殘差結構,有助于提升深度神經網絡訓練的穩定性及整體性能。DML和DAB的結構分別如圖3(a)及圖4所示,下面將具體說明其作用和實現原理。
如圖3(a)所示,DML以降質參數d為條件信息對輸入特征fLR進行調制,以使得特征受d的影響且隨其調整,進而自適應于不同的降質。具體地,在如圖3(a)所示的DML中,d經過全連接層(Fully Connected layer, FC)變換后作為引導信息分別與fLR的均值m(fLR)和標準差s(fLR)結合,進一步通過全連接層學習自適應動態調制參數ξ和υ對fLR進行動態調制,該過程如式(4)所示:
其中,N(fLR)表示fLR經過規范化處理的結果[21]。如圖3(a)所示,式(4)中自適應動態調制參數υ和ξ是基于全連接層從d和fLR中學習到的,其計算過程表示為
如圖2(d)所示,噪聲水平估計器的結構與模糊核估計器相似,其以重建的高分辨率圖像x?i為參考,從低分辨率圖像y中估計噪聲水平σ?i。不同的是,由于噪聲水平與模糊核的差異,噪聲水平估計器的末端并未使用Softmax層。為了避免重復冗余,此處省去對噪聲水平估計器網絡結構的詳細介紹。對于噪聲水平估計器,如果估計的噪聲水平值小于實際值,可能會導致重建的高分辨率圖像中存在殘留噪聲;而當估計的噪聲水平略大于實際值時,噪聲能夠得到較好的抑制,有利于提升重建圖像的質量。因此,對于噪聲水平估計器的損失函數,本文采用Guo等人[23]提出的非對稱損失函數,對噪聲水平估計值過低的情況施加更大的懲罰力度,以使得估計的噪聲水平更有利于圖像重建。
對于提出的基于迭代交替優化的盲超分辨率算法,總的損失函數為重建器損失、模糊核估計器損失及噪聲水平估計器損失之和,以實現對三者的端對端聯合優化,保證模塊之間的兼容性并使其相互促進。
網絡參數:圖像重建網絡、模糊核估計網絡及噪聲水平估計網絡中的DMRB模塊數量分別設置為6,1和1。迭代交替優化次數設為4。
模型測試:使用4個公開測試集(Set5[27],Set14[28], B100[29]和Urban100[30])對算法性能進行比較。對于2倍重建,是利用在[0.8,1.6]范圍內均勻抽樣的8個模糊核對高分辨率圖像進行模糊;對于4倍重建,8個模糊核是在[1.8,3.2]內均勻采樣的。對于兩種重建尺度,噪聲水平都設置了兩種情況,即5 和10。
為了驗證本文所提方法的有效性,選取了雙3次插值(Bicubic),MANet[12], DASR[14], IKC[15]和DAN[17]共5種主流算法進行測試和比較。由于使用的IKC[15]模型沒有考慮噪聲,因此先用DnCNN[31]對測試圖像進行去噪處理,再利用IKC[15]對去噪結果進行重建,該方法表示為DnCNN[31]+IKC[15]。表1和表2分別列出了不同算法在2倍和4倍重建時取得的PSNR(dB)及SSIM值。
從表1和表2可以看出,在2倍及4倍重建中,本文算法在兩種噪聲水平下的PSNR和SSIM都優于其他對比算法,說明了提出算法的有效性和優越性。同時可以看到,組合方法DnCNN[31]+IKC[15]的性能明顯低于DASR[14]和DAN[17]等盲超分辨率算法。其主要原因在于去噪預處理在去除噪聲的同時,也會造成圖像信息的丟失,影響模糊核的估計及圖像細節信息的恢復。在5種對比方法中,DAN[17]整體上取得了更好的性能,顯示了迭代優化方案的優勢。得益于對圖像重建、模糊核估計及噪聲水平估計網絡的迭代交替優化,本文算法整體上取得了最高的客觀參數。如對于噪聲水平為5時的4倍重建,相對于DAN[17],提出方法在Set5, Set14, B100及Urban100上的PSNR/SSIM提升值分別為0.31 dB/0.0062, 0.20 dB/0.0080, 0.14 dB/0.0077及0.27 dB/0.0133。整體而言,在迭代交替優化框架下,噪聲水平的估計及利用,能夠提升模糊核估計的準確性及重建圖像的質量。

表1 2倍重建結果的客觀參數PSNR(dB)/SSIM比較

表2 4倍重建結果的客觀參數PSNR(dB)/SSIM比較
為了更直觀地比較重建效果,圖5展示了在模糊核標準差為1.8及噪聲水平為10時,不同算法在Urban100中“image097”圖像上取得的4倍重建結果。可以看出,雙3次插值結果中存在嚴重的噪聲,且圖像十分模糊。MANet[12], DASR[14],DnCNN[31]+IKC[15]和DAN[17]都抑制了噪聲及模糊效應,但是重建圖像較為平滑,細節不夠清晰和完整。相比較而言,如圖5(g)所示,本文提出算法較好地抑制了噪聲,同時更好地恢復了圖像局部結構,改善了重建圖像的質量。總體上看,在所有算法中,提出算法的重建結果具有最好的視覺效果。
為了進一步測試和比較不同方法在真實場景中的表現,圖6展示了不同算法對真實場景圖像“chip”的重建結果,重建尺度為4。相比于雙3次插值,MANet[12]等其他4種對比方法重建的圖像都更為清晰,這也顯示了超分辨率重建處理相對于傳統插值的明顯優勢。對比本文提出算法與其他算法的重建結果可以看出,提出方法恢復了更清晰的邊緣等結構,如芯片上的數字及字母等,并且對噪聲的去除更為充分。以上在合成圖像及真實場景圖像上的實驗結果表明,本文提出算法能夠較好地對模糊核、噪聲水平等降質未知的圖像進行重建,重建圖像的主客觀質量整體優于同類算法。
為了分析迭代過程中重建的高分辨率圖像及估計的模糊核/噪聲水平的動態變化過程,圖7給出了不同迭代次數下得到的重建圖像的PSNR值、模糊核估計的PSNR值及噪聲水平估計值。需要說明的是,圖7是在Set5中不同圖像上取得的平均結果,重建尺度為4,噪聲水平為10。進一步地,圖8以“baby”圖像為例,對不同迭代次數下的重建圖像進行了可視化和對比。從圖7及圖8可以看出,在一定范圍內,隨著迭代次數的增加,重建圖像的主客觀質量和降質參數估計的準確性呈上升趨勢,這說明了提出的迭代交替優化方案的有效性;當迭代次數大于4時,整體趨于平穩,顯示了提出方法具有較好的收斂性。
為了更充分地比較不同算法,圖9給出了不同算法的參數量及運行時間。其中,運行時間是在RTX 3090顯卡上處理Set14數據集時,平均每幅圖像的時間消耗。本實驗中重建倍數為4,噪聲水平為5。從圖9可以看出,本文方法在參數量上,和DAN[17]較為接近,優于MANet[12]及DASR[14]等其他方法。而在處理效率上,和MANet[12], DAN[17]等相當。因此,相比于DAN[17],提出方法在基本保持參數量和處理效率的同時,提升了重建效果??傮w而言,提出方法在參數量、處理效率及重建性能上都有一定的優勢。
針對存在未知模糊、噪聲等降質的圖像,本文提出了一種基于迭代交替優化的盲超分辨率重建方法。首先,構建了基于卷積神經網絡的高分辨率圖像重建器、模糊核及噪聲水平估計器。其中,圖像重建器的作用是利用估計的模糊核及噪聲水平作為輔助信息,由低分辨率圖像重建高分辨率圖像;聯合低分辨率圖像和重建圖像,模糊核及噪聲水平估計器對降質參數進行估計。其次,設計了迭代交替優化策略,對圖像重建器、模糊核及噪聲水平估計器進行端對端的聯合優化,以使得圖像重建與降質估計模塊相互兼容并互相促進。得益于構建的網絡及迭代交替優化策略,提出方法在保持參數量和處理效率的同時,在多個公開測試集上都取得了出色的重建效果。后續研究將嘗試把本文方法拓展到其他圖像/視頻復原任務中。