李雪靜 馬帥 孫清清 劉川鄂 熊巍
摘要:基于深度卷積網絡的強大學習能力和非線性特征表達能力,如何充分提取細節信息,使重構圖像達到理想水平成為了該領域關注的熱點。基于目標識別中的金字塔模型,本文提出了一種多尺度特征融合的圖像超分辨方法,以充分提取多尺度特征信息并將其融合。該方法的基本思想是將特征圖像金字塔(FPN)引入RDN網絡,使其充分利用同一放大因數下不同維度的特征表達。金字塔模型可以有效賦能常規RDN模型,進而生成表達能力更強的特征映射。因此,金字塔模型增強了主干網絡RDN的特征表達,使其得到更好的重構效果。
關鍵詞:單幅圖像超分辨率;深度學習;多尺度特征融合
1引言
單個圖像超分辨(SISR)有一個眾所周知的不適定性問題,因為一個特殊的低分辨率(LR)圖像能夠對應許多可能的高分辨(HR)圖像,并且我們想要從LR映射到的HR空間(在大部分情況下,它一般是自然圖像空間)通常是很難處理的。
因為深度學習(Deep Learning,DL)可以有效提取連接LR和HR空間的抽象信息,最新的基于深度學習的SISR方法已經在數量上和質量上取得了重大的突破。SRCNN結構相對簡單,可以看做是用一個端對端的方法在LR和HR之間近似復雜映射的卷積神經網絡。Kim等人提出深度網絡VDSR和DRCN,應用了一個相關的高初始學習率來加速聚合并且用梯度裁剪來避免噪聲梯度爆炸問題。DRCN為了參數共享第一次在深度網絡中引入殘差學習[1]。這些方法都需要對原始的LR圖像進行內插處理,使其變成理想的大小。但是這種預操作不僅增加了計算的復雜度,而且一些信息也會丟失。
為了解決這個問題,Dong等人直接將原始LR圖像作為輸入,并且引入一個轉置的卷積層(反卷積層)來上采樣得到高分辨率圖像。Shi等人提出ESPCNN,引入一個有效的亞像素卷積層來上采樣最后的LR特征映射到HR輸出。然而,這些方法沒有充分利用每一個卷積層的信息,只是從LR空間的最后一個卷積層提取特征進行上采樣。
之后,Huang等人提出了DenseNet,在一些密集塊的任意兩層允許直接連接。通過局部密集連接,在密集模塊中每一層都從前邊所有層中讀取信息。但是,所有的方法都丟失了原始LR圖像的一些有用層級信息,這些信息在圖像恢復任務中十分有用。所以Zhang等人提出了RDN[2]網絡,在LR空間上有效提取和自適應地融合所有層的特征信息。
基于以上工作,本文結合特征金子塔(FPN)[3]算法,利用深度神經卷積網絡固有的多尺度金字塔結構,以極小的計算量構建特征金字塔的網絡結構,以實現重構圖像的效果優化。本文還圍繞如何高效利用特征信息,以極少的樣本數量獲得最優的重構效果進行研究。大量實驗表明,本文方法重構的圖像質量在峰值信噪比(PSNR)、結構相似性(SSIM)和視覺效果圖上都有顯著提升。
2提出的方法
本文工作主要有兩部分:一是將特征圖像金字塔(FPN)[3]引入RDN[2]網絡,使其充分利用同一放大因數下圖片不同維度的特征表達結構,有效賦能常規RDN模型,從而生成表達能力更強的特征映射,以供下一階段圖像超分辨任務來使用。二是運用遷移學習,將已訓練好的RDN網絡模型遷移到現有的FPRDN網絡中,實現性能的進一步提升。同時,實現了用較少樣本訓練出的FPRDN網絡,重構時間短,內存占比小,性能優,更具普適性和實用性。
2.1網絡結構
本文所提算法的總體網絡結構由四部分組成:淺層特征提取模塊(SFENet),殘差密集模塊(RDBs),密集特征融合模塊(DFF)和上采樣網絡模塊(UPNet)。
假設ILR和ISR分別代表RDN[6]網絡的輸入和輸出。首先對ILR進行連續兩次卷積操作實現下采樣,然后在每一個維度上都使用兩個卷積層來提取淺層特征。第一個卷積層從LR輸入提取的特征之后會被用作進一步的淺層特征提取和全局殘差學習。
在從一系列RDBs中提取等級特征后,進一步引入密集特征融合(DFF),包含全局特征融合(GFF)和全局殘差學習(GRL)。DFF從之前所有的層中提取特征信息。
在LR空間中提取局部和全局特征后,使用上采樣網絡(UPNet)映射到HR空間上。運用ESPCNN在UPNet中,緊接著一個卷積層,實現圖片的放大操作。
2.2子模塊結構
殘差密集模塊
殘差密集塊(RDB)包含密集連接層,局部特征融合(LFF)以及局部殘差學習,以及一個連續記憶(CM)機制。連續記憶機制是延續前邊RDB的狀態到每一層的當前RDB。
局部特征融合是在當前RDB中自適應地融合之前RDB和整個卷積層的情況。用級聯的方式,將第d-1個RDB的特征映射直接引入到第d個RDB中,以減少特征數量。并且引入一個1×1的卷積層來自適應地控制輸出信息。
局部殘差學習(LRL)可以進一步提高信息流,因為一個RDB中有多個卷積層。LRL也能夠進一步提升網絡的表達能力,獲得更好的結果。
密集特征融合模塊
在一系列RDBs提取局部密集特征后,進一步用密集特征融合(DFF)在全局范圍內提取分級特征。DFF包含全局特征融合(GFF)和全局殘差學習(GRL)。
全局殘差融合(GFF)提取全局特征,它是融合了所有RDBs中的特征。而全局殘差學習是為了在上采樣之前獲取特征映射。
值得注意的是,本章提出的網絡為了提取多維度特征信息,將三個LR圖片(后邊兩個圖片是依次下采樣所得)分別進入三個RDN[2]網絡,并在上采樣網絡前進行融合。而淺層特征映射只保留了第一個維度網絡中的淺層特征映射,這是為了保留圖片的最大特征,最終得到融合了多維度特征信息的密集特征。
3.實驗
3.1實驗設置和訓練數據
數據集和矩陣。訓練集是DRRN[11]的291幅圖片,和通過旋轉90°、180°和水平翻轉得到的擴增數據集。在訓練階段,將每幅HR圖像隨機分割成5張128×128的圖像塊和不同放大因子(×2、×3、和×4)下相應的LR圖像塊。在測試階段,用五個標準數據集:Set5,Set14,B100,Urban100和Manga109。超分辨率的結果用YCbCr顏色空間上Y通道的PSNR和SSIM評價。
訓練運用的學習框架為Pytorch,硬件為Intel(R)Xeon(R)CPUE5-2683,頻率為2.0GHz,內存128GB,兩張12GB的NVIDIA GTX1080 Ti顯卡,操作系統為Ubuntu16.40。在每一個訓練批次里,都隨機提取16個大小為128×128的LR彩色圖像塊作為輸入。網絡通過Adam optimizer進行優化,所有層的學習率初始化均為10-4并且每10個訓練周期進行一次減半。
3.2實驗結果
本文主要做的是定性和定量的實驗。將FPRDN與其他類似的SR方法在同等條件下進行比較,包括Bicubic、SRCNN、VDSR、DRRN和RDN[2]。實驗比較了不同放大因子下基準數據集的平均PSNR/SSIM。
從實驗結果可以看出,通過與目前流行的卷積神經網絡模型相比較,FPRDN在所有放大因數上的重構效果是最好的。這可以表明金字塔模型運用在RDN[2]網絡上的有效性。當放大倍數增加時,FPRDN沒有辦法保持一樣的性能優勢,這是因為輸入圖像的大小限制了進一步的信息提取。更大的輸入塊能夠適應更深的網絡,并且在更大的感受野上提取更多的信息。
4結語
由于在卷積網絡設計中,網絡的深度和下采樣圖像之間是一對矛盾體。網絡較淺,特征提取不充分,網絡較深,可以提取較大的感受野,但隨之下采樣圖像過大,細節重構效果顯著降低。所以對于卷積神經網絡而言,不同深度對應不同層次的特征信息。基于此,本文提出了FPRDN網絡,將不同分辨率特征融合,即每個分辨率的特征映射和上采樣的低分辨率特征相加,使得不同層次的特征增強。因為只在網絡基礎上做跨層連接和參數對應相加,所以計算量增加較少的同時性能得到極大改善。實驗結果表明,該網絡在重構性能、模型參數和速度方面有較強競爭力,適合于實際應用。
參考文獻
[1]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C].IEEE Conference on Computer Vision and Pattern Recognition.2018:2472-2481.
[3]T.Y.Lin,P.Dollar,R.B.Girshick,K.He,B.Hariharan,and S.J.Belongie.Feature pyramid networks for object detection.In CVPR,2017.