高浩然,劉靜超
(西京學院 計算機學院,陜西 西安 710123)
圖像超分辨率重建是將低分辨率(Low Resolution,LR)圖像重建為高分辨率(High Resolution, HR)圖像的過程,在數字圖像處理和計算機視覺等領域有著重要的應用價值。現有的深度學習超分辨率方法大多需要大量的高低分辨率圖像對作為監督信號,但這樣的圖像對在實際應用中并不總是易于獲取或準確對齊,這限制了這些方法的泛化能力。為了解決這個問題,無監督超分辨率方法日益受到重視。它們無需任何對齊數據,完全依賴于未標注的數據實現訓練,這使其可以應用到更加廣泛的場景。
然而,無監督超分辨率任務非常艱巨。由于缺乏監督信號,如何學習低高分辨率圖像之間的復雜映射關系是一個重要的挑戰。基于此,本文提出一種基于CycleGAN[1]的無監督超分辨率框架,此框架通過將未知退化的LR圖像與進行過人為退化的HR圖像之間的映射學習問題建模為一個CycleGAN框架,通過在兩個圖像域之間訓練生成器和判別器網絡來學習復雜的映射關系,實現低分辨率到高分辨率的像素級遷移,達到超分辨率重建的目的。
本文通過PyTorch框架實現了提出的方法,并在多個數據集上進行了實驗驗證。結果表明,本方法可以有效地學習高低分辨率圖像域之間的映射。特別在數據稀缺的情況下,本方法具有比同類方法更強的生成效果。
隨著SRGAN[2]的出現,以GAN[3]為基礎的超分辨架構走進了蓬勃發展的新階段。Deng等[4]提出新的增強型GAN loss,包含對抗損失和相似性損失兩部分。相似性損失直接匹配超分辨率圖像與真實高分辨率圖像的特征圖,可以產生更加相似的圖像結構。Gauthier等[5]提出融合GAN,使用多個GAN模型共同產生超分辨率圖像并聚攏結果。Wang等[6]將ESR網絡與GAN架構結合,引入新的超分辨率圖像評價指標,產生真實逼真的結果。Chen等[7]提出基于圖像質量的HAT loss來訓練超分辨率GAN,可以產生視覺效果更優的圖像,但訓練較難收斂。
以上方法都是有監督的超分辨率模型,需要使用配對的數據進行訓練。但是,當處理現實世界采樣的數據時,配對的數據往往難以采集或準確對齊,因此使用非配對樣本進行訓練的無監督超分辨模型成了解決這類問題的關鍵。Zhou等[8]提出的Cross-MPI是一種基于參考的超分辨率方法,利用多平面圖像的表示來實現跨尺度的立體匹配,將參考圖中的細節信息傳輸到低分辨率圖像。
而本文通過特征遷移的方式實現了無監督超分辨重建,借鑒CycleGAN的思想,對未知退化的真實世界圖像進行像素特征的域遷移。通過將未知退化的像素分布遷移到干凈的低分辨率像素域,然后再用超分辨網絡對其進行超分重構生成高清圖像。
圖1 無監督超分辨模型
為了在網絡訓練的過程中保證像素遷移過程的可逆,并讓輸入圖像的細節信息不完全丟失,本文在此引入了循環一致性損失(Cycle Loss),在本文中將其定義為:
(1)
為了使生成的結果更真實可信,并約束重建結果與輸入圖像的一致性,本文還引入了身份損失函數(Identity Loss)。在無監督學習或對齊數據缺失的條件下,它可以為模型提供自監督信號,指導參數的更新方向。具體的表達式如下:
(2)
在本文提出的方法中,以CycleGAN為基礎模型來構建低分辨率圖像映射網絡,但為了使網絡可以更有效以及更全面地學習目標域的特征,本文對生成器和判別器進行了改進。為了學習到不同尺度的特征信息,在生成器的構建上,本方法分別使用3×3和7×7大小的卷積塊進行特征提取。輸入圖像分別進入兩個通道提取不同尺度的特征,然后通過相加操作進行特征融合,融合后通過1×1卷積降維后輸出圖像。
本文借鑒了SRGAN的設計,在判別器中,輸入圖像經過一個卷積層和一個激活層,然后通過堆疊的小尺度卷積塊來提取高頻細節信息,最后通過線性層來輸出圖像判斷概率。
在構建循環對抗網絡時,為了促進生成器產生更加真實的圖像,提高判別器的判斷能力,本文采用了對抗損失進行約束,其表達式為:
(3)
(4)
(5)
(6)
本文在構建超分辨網絡時只使用了ESRGAN模型的生成器部分。但在最初對超分辨網絡訓練時,使用了整個網絡。首先用DIV2K數據集中的配對數據訓練ESRGAN,當模型收斂后,凍結整個超分辨網絡,使其在后期的訓練中不再進行梯度更新。
本實驗在訓練退化學習網絡時,對兩個對抗生成網絡都采用同步更新的訓練策略。每次迭代先更新判別器,提高其對真實圖像和生成圖像的判斷精度;然后更新生成器,生成更真實的圖像來欺騙判別器。本文在此設置參數λ=0.2,μ=0.2,δ=0.2,θ=0.4,同時使用Adam優化器來進行優化。
本實驗在超分辨網絡的訓練中,設置batch_size=16,epoch=100。在整體架構訓練時,設置batch_size=16,epoch=200。在PyTorch框架下,使用NVIDIA 4070ti顯卡訓練了45 h,并取得了不錯的成效。
本文在DIV2K、Set5、Set14 3個數據集上對提出的模型進行了驗證,這3個數據集都包含高低分辨率圖像。需要說明的是,DIV2K數據集中有一部分測試數據沒有高分辨率圖像,這也可以用來檢測超分辨率模型對未知退化圖像的處理能力。
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似度(Structure Similarity Index Measure,SSIM)是兩種常用的圖像質量評價指標,本文通過衡量不同數據集上的PSNR和SSIM來測試本模型的生成效果。
本文在DIV2K Track2數據集上,使用提出的方法分別與3個當前優秀的方法進行了比較。SRGAN是首個使用對抗生成網絡進行超分辨的模型。ESRGAN是一種增強型的超分辨網絡,它采用殘差連接和更深層結構的生成器,能夠產生更真實的超分辨率圖像。Cross-MPI是一種跨尺度立體方法,用于實現圖像跨超分辨率重建,它通過多平面圖像表示場景的結構和外觀。
由于該測試集沒有對應的高分辨率圖像,本文只展示了部分測試結果。如圖2所示,從視覺效果來看,本文提出的方法比SRGAN和ESRGAN生成的圖像更清晰,與Cross-MPI生成的圖像相似。無論是圖像的流暢度還是高頻細節的恢復,本方法都展示出了令人滿意的效果。
圖2 本模型在DIV2K數據集上與其他模型的比較
在有配對的測試數據集上,本文也用提出的方法與其他方法進行了對比試驗,并用PSNR和SSIM指標評價其效果。
從表1中可以看出,本方法在不同的數據集上的PSNR和SSIM指標都優于SRGAN和ESRGAN。在DIV2K和Set5數據集中,本方法的PSNR指標低于Cross-MPI,這是因為本模型更關注高頻細節的學習,而低頻部分的重建效果不夠理想,但在實際的視覺效果上與Cross-MPI相差不大。
表1 提出的方法在不同數據集上與其他方法的比較
本文提出了一種新的無監督超分辨方法,該方法旨在利用非配對的高低分辨率數據進行圖像超分辨。借鑒CycleGAN的思想,通過域轉換的方式實現像素的域遷移,將真實世界采集的圖像通過退化學習重新映射到已知且干凈的低分辨率域。最終在PS損失函數的約束下,通過超分辨網絡生成質量更高的高分辨率圖像。實驗表明,本方法可以更好且更方便地提升生成圖像的質量,為圖像提供更高的平滑度以及更好的細節紋理特征。