陳賽健,朱遠平
(天津師范大學計算機與信息工程學院,天津300387)
(*通信作者電子郵箱zhuyuanping@tjnu.edu.cn)
圖像的超分辨率和去模糊通常被分開處理,但本文提出了一種聯合的超分辨率與去模糊方法以處理低分辨率的模糊圖像。這類圖像通常是由于相機遠離目標對象,并且相機和目標對象之間存在相對運動而產生的。從模糊的低分辨率(Low-Resolution,LR)圖像中重建出清晰的高分辨率(High-Resolution,HR)圖像,不僅提高了圖像的視覺效果,還有利于其他的視覺任務,如目標檢測[1]和識別[2]。
順序地使用現有的超分辨率[3]和去模糊方法[4]來處理這個聯合問題是一種自然的思路,但這種策略面臨諸多問題:一方面,兩個模型之間的簡單連接使得第二個模型放大了第一個模型的估計誤差,重建的HR 圖像存在嚴重的偽影;另一方面,這種組合方式不能充分利用兩個任務之間的相關性,而且需要分別訓練模型,這造成大量的時間消耗。
針對上述問題,本文提出了一個高效的端到端的生成式對抗網絡(Generative Adversarial Network,GAN)來處理這個復雜的聯合問題。生成器由兩個模塊組成,首先上采樣模塊對輸入的低分辨率模糊圖像進行4 倍上采樣,輸出超分辨率(Super-Resolution,SR)圖像;然后通過去模糊模塊重建去模糊的SR圖像。由于輸入圖像的低分辨率和嚴重的模糊退化,上采樣模塊生成的SR 圖像通常是模糊的并伴有令人不悅的偽影,利用這種雙模塊結構有利于最終重建出清晰的SR文本圖像。在鑒別器中使用全局平均池化層(Global Average Pooling,GAP)來減少模型參數。此外,引入了一個聯合的損失函數,其由超分辨率與去模糊的集成像素損失、基于文本圖像先驗的特征匹配損失以及對抗損失組成,它們分別在像素、語義層和高頻細節方面迫使重建圖像與真實的HR 圖像相似。本文所提模型不含批量歸一化層(Batch-Normalization,BN),并且大多操作在LR 空間執行,因此大大降低了計算成本。實驗結果表明本文方法能夠處理更真實的退化圖像,獲得比現有算法更好的重建效果。
傳統的圖像超分辨率算法主要采用稀疏編碼[5]、自相似性[6]等。 近 年 來,卷 積 神 經 網 絡(Convolutional Neural Network,CNN)在圖像超分辨率方面得到了廣泛的應用[7-9],并取得了比以往方法更好的效果,然而,這些峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)導向的方法不能很好地反映圖像的視覺質量,因此,感知驅動的方法[3,10]被提出。它們可以重建更逼真的圖像,但是大多數的SR算法都是針對簡單的雙三次退化而設計的,當輸入的LR圖像具有復雜的模糊退化時不能表現良好。
現有的盲圖像去模糊算法大多都涉及到模糊核的估計步驟[11-12],然而,不精確的核估計會導致去模糊圖像具有嚴重的振鈴偽影。最近基于CNN 的方法[4,13]省略了核估計,能有效地處理圖像模糊問題,但是對于低分辨率的模糊圖像,這些方法無法放大空間分辨率,并重建出清晰的圖像細節。
聯合的超分辨率與去模糊問題引起較少的關注,但在現實世界中經常能遇到模糊的LR 圖像。一些方法[14-15]利用光流估計來重建清晰的HR 圖像,但不適用于單幅圖像輸入。Xu 等[16]提出SCGAN(Single-Class GAN)模型能有效地超分辨率模糊的文本圖像,但與之不同的是本文使用深層的雙模塊網絡去重建更清晰的高分辨率文本圖像,同時所提方法的計算效率更高,魯棒性更強。Zhang 等[17]為處理這個聯合問題提出了一個深度編碼-解碼網絡,但該網絡只聚焦于簡單的均勻高斯模糊退化的LR 圖像。Pan 等[18]提出的基于物理的生成對抗模型能處理圖像去模糊、圖像超分辨率等圖像復原問題,但與本文不同的是該模型不能聯合處理圖像的超分辨率與去模糊問題,只能單獨分開實現。Zhang 等[19]提出了一個門控融合網絡(Gated Fusion Network,GFN)來超分辨率模糊的LR圖像,但是該模型是為具有運動模糊的自然場景圖像設計的,對于極低分辨率的模糊文本圖像表現糟糕。
本文提出的模型受到條件對抗網絡[20]的啟發,如圖1 所示,生成器網絡由上采樣模塊和去模糊模塊兩部分組成。在上采樣模塊中輸入低分辨率模糊文本圖像,生成超分辨率圖像,然而由于輸入圖像缺乏良好的細節,加上平均絕對誤差(Mean Absolute Error,MAE)損失函數(式(1))的影響,生成的SR 圖像通常過于平滑且伴有令人不快的偽影,因此,添加了一個去模糊模塊使生成的圖像更加清晰,這也提高了鑒別器網絡區分真實圖像和生成圖像的能力。此外,在鑒別器中采用全局平均池化層[21]代替傳統的全連接層,降低了網絡參數量和過擬合的發生。

圖1 本文提出的聯合超分辨率與去模糊的網絡結構Fig. 1 Proposed joint super-resolution anddeblurring network structure
2.1.1 生成器網絡
如圖2和表1所示,生成器網絡由上采樣模塊與去模糊模塊組成,網絡采用了一種殘差學習結構,并如Lim 等[9]所建議,移除殘差塊(如圖3)中的批量歸一化層,以保持特征的范圍靈活性。但不同于文獻[9]的是本文的網絡中有兩個反卷積層,每層反卷積將低分辨率圖像上采樣2倍。

表1 生成器網絡參數設置Tab. 1 Generator network parameter settings
注:“×3”表示3個殘差塊或卷積層,“×2”代表2個反卷積層。

圖2 生成器網絡結構Fig. 2 Generator network structure

圖3 殘差塊Fig. 3 Residual block
此外,生成器網絡還包含一個去模糊模塊,其網絡結構類似上采樣模塊,但去模糊模塊中沒有反卷積層以保持圖像的空間分辨率不變。類似于Nah 等[22]的方法,在每一層之后使用整流線性單元(Rectified Linear Unit,ReLU)激活。但每個模塊的最后一層除外,其后使用雙曲正切函數激活。
2.1.2 鑒別器網絡
鑒別器網絡如圖4 和表2 所示,該網絡的輸入是圖像,輸出是輸入圖像為真實圖像的概率。類似于VGG 網絡,在使用步長卷積(strided convolution)對圖像進行降采樣的同時特征數 量 翻 倍。正 如Ledig 等[10]所 為,使 用 斜 率 為0.2 的LeakyReLU 作為激活函數,但最后一層使用sigmoid 函數。此外,一個全局平均池化層被用來代替第一個全連接層。

圖4 鑒別器網絡結構Fig. 4 Discriminator network structure

表2 鑒別器參數設置Tab. 2 Discriminator parameter settings
2.2.1 集成像素損失
基于學習的圖像超分辨率或去模糊方法通常以重建圖像與真實圖像之間的平均絕對誤差(Mean Absolute Error,MAE)損失作為目標函數[7,9]。不同于大部分的方法[3,16]約束生成器網絡的最后層輸出,本文對上采樣模塊和去模糊模塊分別使用了MAE 損失,這迫使上采樣模塊輸出清晰的SR 圖像來幫助去模糊模塊更好地重建HR 圖像。集成像素損失LX包含超分辨率像素損失和去模糊像素損失,其計算公式如式(1)所示:

2.2.2 特征匹配損失
在深度CNN 模型中,僅使用像素損失可以獲得一個特別高的PSNR 值。然而由于缺乏高頻內容,生成的圖像往往存在令人不滿的偽影和過于平滑的紋理。為了獲得更逼真的圖像,將特征匹配損失引入目標函數中。此損失比較的是生成圖像與對應的真實圖像的CNN 特征圖之間的差異。不同于常 見 的 感 知 損 失[10,23]利 用 在ImageNet 數 據 集 上 預 訓 練 的VGG19(Visual Geometry Group 19)網絡,本文采用的是在文本圖像數據集上訓練的CNN15 全卷積網絡[24],這有助于學習到特定的文本圖像先驗。特征匹配損失被定義為式(2):

其中:Φ是在上文描述的CNN15網絡中獲得的特征圖,W和H分別代表特征圖的寬度和高度。此外,正如Wang 等[3]所建議,使用激活前的特征,在本文中使用CNN15網絡的第7層卷積,這個特征匹配損失迫使真實圖像和生成的高分辨率圖像具有相似的特征表示。
2.2.3 對抗損失
除了上述損失函數外,還使用了對抗損失,這激勵生成器網絡生成更清晰的高頻細節來欺騙鑒別器網絡。其被定義為式(3):

其中:Dθ(Gω())表示生成圖像Gω()是高分辨率圖像的概率。在實踐中,通過最小化-ln(Dθ(Gω(ILR)))而不是ln(1-Dθ(Gω(ILR)))來促進梯度計算。
2.2.4 目標函數
綜上所述,本文的目標函數是集成的像素損失、特征匹配損失和對抗損失的組合。其可表示為式(4):

其中:α和λ是兩個權重參數,ω1 和ω2 是上采樣模塊G1與去模糊模塊G2的網絡參數。在實踐中,生成器G 和鑒別器D 通過式(5)、(6)進行優化。

本文采用來自Hradi? 等[24]的文本圖像數據集,數據集包含超過6萬張模糊的和清晰的HR 圖像對,模糊的文本圖像具有失焦模糊和運動模糊。為了生成更多的訓練數據,將HR圖像對隨機裁剪成64×64 的子圖像以獲得模糊的HR 子圖像Hblur和清晰的HR 子圖像Hsharp,接著對Hblur使用Bicubic 下采樣4 倍以獲得模糊的LR 子圖像Lblur。最終,總共70 萬張圖像對(Lblur,Hsharp)用作訓練集。測試集由100 張失焦模糊和運動模糊的文本圖像組成,使用相同的方式下采樣測試集。真實場景下的文本圖像包含40 張各類場景下的退化圖像,利用真實世界中的文本圖像以評估本文所提方法的魯棒性。為了降低光照的影響,對真實世界中的圖像使用了對比度變換和伽瑪校正來進行預處理。
本文將所有輸入和真實圖像的范圍歸一化到[-1,1]來執行預處理。式(5)中的權重參數α和λ根據經驗分別被設置為0.001 和0.01。采用ADAM 優化器[25]來訓練模型,minibatch 大小設置為128。學習率初始化為2×10-4,并在每1×105個mini-batch 更新時減半,使用He 等方法[26]初始化每層過濾器的權重。訓練時交替更新生成器和鑒別器網絡,即更新比率設置為1。所有的模型都在NVIDIA 1080Ti GPU上訓練。
本文將提出方法與幾種先進的算法進行了比較,包括超分辨率方法[10]、超分辨率[3,10]和去模糊算法[4,13]的組合,以及聯合的圖像去模糊和超分辨率方法[16,19]。
3.3.1 在合成數據集和真實世界圖像上的效果
本文使用上述的文本圖像測試集,根據PSNR 和結構相似度(Structural SIMilarity index,SSIM)來評估提出的方法。定量結果如表3 所示,所提方法將PSNR 和SSIM 分別提高了1.52 dB、0.011 5,這表明本文方法能更好地恢復文本圖像。

表3 不同算法在測試集上的質量評估結果Tab. 3 Quality evaluation results of different algorithms on test set
定性結果如圖5 所示,可觀察到順序組合超分辨率與去模糊方法不能生成清晰的圖像,這種組合方法會由于誤差累積而加劇偽影。定性結果與定量結果相一致,提出的方法表現優于現存的聯合方法。

圖5 不同算法在測試集上的重建結果對比Fig. 5 Reconstruction results comparison of different algorithms on test set
此外,如表4所示,在同一GPU 上提出的方法比現有的聯合方法需要更少的運行時間。由于圖像恢復過程只涉及到生成器網絡,與文獻[19]相比,提出的模型尺寸要小得多(0.9 MB vs 12 MB)。又不同于文獻[16],本文的生成器中不使用批量歸一化層,同時也不在模型的初始層就實現上采樣操作,這大大減少了計算量。正如圖6 所示,提出的方法收斂更快。

表4 OCR精度、模型尺寸和平均運行時間的比較Tab. 4 Comparison of OCR accuracy,model size and average running time

圖6 損失函數曲線圖Fig. 6 Loss function graph
由于本文的生成器模型是一個全卷積網絡,因此提出的方法可以恢復任意大小的文本圖像。從圖7 可以看出,所提方法生成的文本圖像比現有的聯合方法在真實世界中的文本圖像上獲得更好的視覺效果。

圖7 真實場景下的不同聯合方法的重建圖像對比Fig. 7 Comparison of reconstructed images of different joint methods in real scenes
3.3.2 字符識別的效果
提高OCR(Optical Character Recognition)的精度是本文提出方法的主要目的之一。此外,由于PSNR 不能很好地評價基于GAN 方法生成的圖像,因此可以利用文本圖像的字符識別率來評估重建圖像的質量。直接使用ABBYY FineReader 14 基本上無法識別上文描述的測試集中的低分辨率模糊文本圖像。但是,如表4 所示,與其他的聯合方法相比,所提方法將OCR 精度提高了13.2 個百分點,在測試集上獲得了81.6%的字符識別精度。
為了驗證去模糊模塊、對抗訓練和集成逐像素損失中的超分辨率損失對本文提出方法的有效性,分別進行了消融實驗。從表5 可以看出,移除去模糊模塊顯著降低了重建圖像的質量。一個原因是上采樣模塊加劇了由輸入圖像中像素退化引起的偽影。因此,在生成器中添加去模糊模塊可以有效地抑制偽影,生成字符更清晰的文本圖像。當不使用對抗訓練去優化模型時,從表5 中可以看出PSNR 和SSIM 都有一定的提高,這并不令人驚訝。正如在文獻[10,27]中所觀察到的一樣,這是因為模型是專門針對這兩個指標優化的。這樣重建的圖像通常過于平滑并且缺乏足夠的圖像細節,因此OCR的精度明顯降低。正如表5 所示,去除集成逐像素損失中的超分辨率損失(即式(1)的第一部分)后,圖像質量有一定程度的下降。此損失迫使上采樣模塊生成的超分辨率圖像接近真實圖像,這有助于后續的去模糊模塊重建出更清晰的高分辨率圖像。

表5 所提方法的不同部分的影響Tab. 5 Effect of different parts of the proposed algorithm
本文提出了一個輕量級模型來重建具有復雜模糊的極低分辨率文本圖像。此模型基于生成式對抗網絡,其中生成器網絡包含兩個模塊,分別進行上采樣和去模糊操作。此外,引入了一個由集成像素損失、基于文本圖像先驗的特征匹配損失以及對抗損失組成的聯合訓練損失來指導生成器網絡恢復良好的圖像細節。實驗結果表明,所提方法是高效的且能更好地重建真實世界中的退化圖像,在視覺質量和PSNR、OCR精度等客觀指標方面均明顯優于現有的算法。
盡管所提方法可以重建清晰的高分辨率圖像,但在重建的文本圖像中有個別字符不同于真實圖像。這可能是因為本文的方法更多聚焦像素級的文本圖像恢復,而沒有充分考慮文本圖像的上下文依賴性。在未來的工作中,將嘗試引入遞歸神經網絡來進一步提高文本圖像的重建效果。