郭 曉,譚文安,2
(1.南京航空航天大學 計算機科學與技術學院, 南京 211106; 2.上海第二工業大學 計算機與信息學院, 上海 201209)
基于級聯深度卷積神經網絡的高性能圖像超分辨率重構
郭 曉1,譚文安1,2*
(1.南京航空航天大學 計算機科學與技術學院, 南京 211106; 2.上海第二工業大學 計算機與信息學院, 上海 201209)
為了進一步提高現有圖像超分辨率重構方法所得圖像的分辨率,提出一種高性能的深度卷積神經網絡(HDCN)模型用于重構放大倍數固定的超分辨率圖像。通過建立級聯HDCN模型解決傳統模型重構圖像時放大倍數無法按需選擇的問題,并在級聯過程中引入深度邊緣濾波器以減少級聯誤差,突出邊緣信息,從而得到高性能的級聯深度卷積神經網絡(HCDCN)模型?;赟et5、Set14數據集進行超分辨率圖像重構實驗,證明了引入深度邊緣濾波器的有效性,對比HCDCN方法與其他圖像超分辨率重構方法的性能評估結果,展現了HCDCN方法的優越性能。
超分辨率; 圖像重建; 深度卷積神經網絡; 級聯; 深度邊緣濾波器
受限于硬件設備,日常人們獲取的數字圖像分辨率普遍較低,無法滿足實際需要。為了解決這一問題,可以采用單幅圖像超分辨率重構(Single Image Super-Resolution,SISR)技術,由一幅低分辨率(Low-Resolution,LR)圖像重構出一幅高分辨率(High-Resolution,HR)圖像以獲取更多的細節信息。該技術已廣泛應用于計算機視覺與圖形學、醫學成像、安全監控等領域。
較為早期的單幅圖像超分辨率重構技術大多基于插值,如雙三次插值法(bicubic interpolation)[1]。插值方法得到的重構圖像易出現模糊、振鈴、鋸齒等現象[2]。隨后出現如迭代反向投影法(Iterative Back Projection,IBP)[3]等基于重構的方法,通過對圖像降質過程建立觀測模型,利用數學理論進行反向求解以重構高分辨率圖像?;谥貥嫷姆椒p少了鋸齒、振鈴等現象,但存在正則約束項的選擇問題及配準問題等。近年來,基于學習的方法,如鄰域嵌入法(Neighbor embedding)[4]、稀疏編碼(Sparse coding)[5]構建包含LR圖像和HR圖像的樣本庫,通過訓練得到樣本庫中LR/HR圖像塊之間的映射關系,從而指導圖像超分辨率重建。文獻[6]提出超分辨率卷積神經網絡(Super-Resolution Convolutional Neural Network,SRCNN)通過深度卷積神經網絡學習低分辨率圖像到高分辨率圖像實現端到端的映射,使單幅圖像超分辨率重構技術得到質的飛躍。但目前該項技術依然存在以下問題:1)大部分模型重構超分辨率圖像時放大倍數無法按需調整,需要重新訓練模型來改變放大倍數。如文獻[7]采用重新微調模型的方式改變圖像放大倍數;文獻[8]利用單個多層深度卷積神經網絡同時學習不同的放大倍數,取得了優異效果。2)大部分基于卷積神經網絡的重構模型訓練時收斂慢,需要迭代運算次數甚至達到千萬;網絡層次較淺,無法學習表征更為復雜的圖像信息。
本文研究主要貢獻如下:1)為進一步提高現有方法重構超分辨率圖像的分辨率,本文提出一種高性能的深度卷積神經網絡(High-performance Deep Convolutional neural Network, HDCN)模型用以實現固定放大倍數的圖像超分辨率重建;2)為解決重構圖像時放大倍數無法按需調整的問題,提出高性能的級聯深度卷積神經網絡(High-performance Cascade Deep Convolutional neural Network, HCDCN)模型同時重構多個放大倍數的高分辨率圖像,在級聯過程中引入深度邊緣濾波器,提升重構性能。與文獻[6-9]等方法的實驗對比證明了本文所提方法的優異性能。
在SRCNN模型中,卷積神經網絡只有3層,分別起到特征提取,非線性映射以及重構的作用。同樣采取3層卷積神經網絡的還有文獻[9]中提出的高效子像素卷積神經網絡(Efficient Sub-Pixel Convolutional neural Network,ESPCN),該方法將起重構作用的反卷積層表示成卷積層的形式,在網絡的最后一層提升圖像大小。文獻[7]對SRCNN模型進行改進,增加用于收縮和擴展模型參數的卷積層,使得模型可以在配置較低的電腦上得以訓練,同時將起非線性映射作用的卷積層由1層擴展至4層,取得更優異的性能。文獻[8]調整梯度下降時的迭代步長加速收斂,極大縮減了訓練時間,采用20層卷積神經網絡進行殘差學習(residual-learning),獲得較好的高分辨率圖像性能。文獻[7-8]的實驗結果表明:在一定條件下,增加卷積神經網絡層數可以提升圖像超分辨率重構的性能。
邊緣濾波器廣泛應用于計算機視覺和圖像處理,既平滑了圖像,又盡可能地保留了圖像的邊緣信息。早在20世紀90年代,文獻[10]便提出了對濾波方向進行控制的邊緣濾波器(Steerable Filter),文獻[11]提出了經典的雙邊濾波器(Bilateral Filter),之后有很多方法都是基于雙邊濾波器,如文獻[12-13]。文獻[14]通過深度卷積神經網絡建立了多種邊緣濾波器的統一框架,融合各邊緣濾波器原有特性,在降低計算復雜度的同時依然可以提升性能。
受啟發于文獻[8]中“The deeper, the better”的思想,實驗訓練一個共d層的深度卷積神經網絡用于實現放大倍數為s的圖像超分辨率重構。網絡結構見圖1。

圖1 HDCN模型結構Fig. 1 HDCN model architecture
圖1中,模型輸入是待重構圖像通過雙三次插值法放大s倍的結果圖像x,輸出是高分辨率圖像y與輸入圖像x之間的殘差r,將輸入與輸出相加即可得出放大倍數為s的高分辨率圖像y。
除去網絡結構中第一層從圖像x中提取特征以及最后一層用于重構圖像,其余卷積層都用于學習模型F,使得由模型F預測的殘差值F(x)與真實殘差r之間的誤差最小。優化目標可表示如下:
(1)
傳統深度網絡隨著深度的增加,梯度彌散致使訓練難度不斷加大,而深度殘差網絡在一定深度內(文獻[15]中34層)可以盡可能地減小梯度彌散的影響,因此HDCN模型選擇的學習目標是高分辨率圖像y與輸入圖像x之間的殘差r,而不是如傳統神經網絡將高分辨率圖像y作為學習目標。
[15]中的34層深度殘差網絡設計規則:1)大部分使用3×3的卷積核;2)對輸出映射特征大小相同的卷積層,設定相同數目的卷積核。因此在參數選擇上,用于學習模型F的卷積層擁有相同的結構,每一層都具有64個大小為3×3×64的濾波器,最后一層只需要一個3×3×64的濾波器??紤]到深度殘差網絡大幅降低了訓練更深層次神經網絡的難度。因此在訓練中可以采取較為激進的迭代策略,減少訓練時間,詳細的步長迭代策略見3.3節。
借助上述的HDCN模型,可以由一幅低分辨率圖像重構出大小為原來s倍的高分辨率圖片。為了同時得到其他重構倍數的高分辨率圖片,可以將HDCN模型級聯起來得到如圖2所示的模型結構。例如,要想得到重構倍數為s2的高分辨率圖片,僅需將低分辨率圖片通過2次HDCN模型,每通過一次HDCN模型都會得到輸入圖像s倍的高分辨率圖像。

圖2 級聯的HDCN模型結構Fig. 2 Cascaded HDCN model architecture
這種級聯方式十分簡單,但使用較少,如文獻[16-17]。因為通過同一模型重復放大,存在放大誤差的風險。為了減少這種風險,在層級之間引入深度邊緣濾波器,在平滑圖像的同時會保留圖像的邊緣信息。平滑圖像可以減少因局部像素點偏差對后續重構造成的影響,同時邊緣信息的保留有利于減少圖像重構過程中的結構誤差。深度邊緣濾波器通過深度卷積神經網絡建立了多種邊緣濾波器的統一框架,極大減少了挑選合適邊緣濾波器的工作量。最終得到的HCDCN模型如圖3所示。

圖3 HCDCN模型結構Fig. 3 HCDCN model architecture


(2)
圖像超分辨率重構技術實質上是由低分辨率圖像推理出丟失的高頻分量以重構高分辨率圖像,引入深度邊緣濾波器會減少圖像的細節信息,只要控制邊緣濾波器的系數δ,在一定條件下,對性能仍有提升效果。詳細的系數設置見3.3節。
實驗采用文獻[18]中的91張圖片作為訓練集,經數據增強后為1 638張圖片。測試集為國際通用的“Set5”[19]以及“Set14”[20],總計19張圖片。
實驗采用兩種國際通用的評判標準衡量實驗性能:峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)以及結構相似性(Structural SIMilarity,SSIM)。
峰值信噪比是使用最普遍和最為廣泛的一種圖像客觀評價指標,它通過計算對應像素點間的誤差,衡量圖像質量。計算公式如下:
(3)
其中:H、W分別為圖像的高度和寬度;m為每像素的比特數,一般取8;X(i,j),Y(i,j)分別表示圖像X,Y中坐標點(i,j)的亮度值。PSNR的單位是dB,數值越大表示失真越小。
結構相似性SSIM分別從亮度、對比度、結構三方面度量圖像相似性,其計算公式如下:
SSIM(X,Y)=l(X,Y)·c(X,Y)·s(X,Y);
(4)
其中:μX、μY分別表示圖像X和Y的均值,σX、σY分別表示圖像X和Y的方差,σXY表示圖像X和Y的協方差。C1、C2、C3為常數,為了避免分母為0的情況,通常取C1=(K1×L)2,C2=(K2×L)2,C3=C2/2,一般地K1=0.01,K2=0.03,L=255。
鑒于目前主流研究中重構倍數主要為2、3、4倍,因此s取2,同時,d取25,即HDCN模型是用于重構2倍高分辨率圖片、擁有25層網絡結構的深度卷積神經網絡。
訓練集的圖片首先經過間隔為14的下采樣,得到大小為51×51的子圖像。訓練過程中,每一批的圖像數為64,沖量單元(momentum)為0.9,權重衰減(weight decay)為0. 000 1。在迭代步長選取策略上,傳統深度卷積神經網絡模型采取固定為0.000 1的步長,如文獻[6-7,9]。實驗采取較為激進
(5)
其中:iter為當前迭代次數,base_lr、gamma均取0.1,stepsize為116 840。最終迭代次數為467 360。實驗中使用的GPU為GTX970,模型訓練時間約30 h。
在HCDNC模型中,系數δ的選取不能過大,否則會減少圖片的細節信息。實驗中,固定模型中的其他參數,僅改變系數δ,比較不同系數δ下測試數據集的PSNR值。圖4展示了在重構倍數為3時,系數δ與Set5測試集PSNR值的關系。濾波器選取為“shock filter”,beta取167.7。實驗表明,在模型中其他參數固定時,當系數δ為0.011時,HCDNC模型的重構性能最佳。因此,系數δ定義如下:

(6)


圖4 重構倍數為3時,系數δ與Set5測試集PSNR值關系Fig. 4 Relationship between parameter δ and PSNR of Set 5 with scale factor×3
實驗只訓練了重構倍數為2的HDNC模型,因此重構倍數為4的高分辨率圖片可以通過級聯2個HDNC模型得到。而重構倍數為3的高分辨率圖片可以選擇通過改變重構倍數為4的高分辨率圖片大小得到。
對比所提出的HCDCN方法在Set5以及Set14數據集上的實驗結果與一些著名的圖像超分辨率重構方法,如A+[22]、RFL[23]、SelfEx[24]以及SRCNN[5],各實驗條件下的平均PSNR值及SSIM值如表1所示,表中加粗標出的是當前實驗條件下的最優結果。圖5、圖6中展示了部分實驗結果,圖中的評價指標分別為PSNR(單位dB)和SSIM,格式為(PSNR/SSIM)。

表1 重構倍數分別為2,3,4時,測試集Set5,Set14的平均PSNR值及SSIM值Tab. 1 Average PSNR/SSIM for scale factor ×2,×3 and ×4 on datasets Set5, Set14

圖5 重構倍數為3時,Set5測試集中圖像“butterfly_GT”的重構結果Fig. 5 Super-resolution results of “butterfly_GT” (Set5) with scale factor×3

圖6 重構倍數為3時,Set14測試集中圖像“ppt3”的重構結果Fig. 6 Super-resolution results of “ppt3” (Set14) with scale factor×3
對比發現,HCDCN模型的性能不遜色于近期的國際論文作結果,如ESPCN[9]、TNRD[25]、FSRCNN[7]、VDSR[8],如表2所示,表中加粗標出的是當前實驗條件下的最優結果。由于ESPCN模型只訓練了重構倍數為3的模型,所以重構倍數2,4的實驗結果缺失。缺失的數據用“—”表示。另外,前三種方法并未提供SSIM的數據,因此在表2中只比較了PSNR值。

表2 重構倍數分別為2,3,4時,測試集Set5,Set14的平均PSNR值Tab. 2 Average PSNR for scale factor×2,×3 and ×4 on datasets Set5, Set14
本文通過級聯高性能深度卷積神經網絡實現多放大倍數的單幅圖像高分辨率重建。在級聯過程中通過深度濾波器突出邊緣信息優化重建結果,實驗證明了級聯方法及引入深度濾波器的有效性。下一步的工作嘗試結合其他方法建立模型,如引入拉普拉斯金字塔模型對級聯方法進行改進;改進模型的損失函數以解決重構圖像部分模糊的問題。
此次采訪短暫而豐富,記者們不僅了解了忠旺集團的整個發展歷程,參觀了生產車間,感嘆于忠旺集團的雄厚實力,而且也看到了新技術對于產品生產所產生的革命式改變,我們相信攪拌摩擦焊未來不僅在鋁合金加工行業,在其他行業也同樣能夠發揮專長,為產品生產提供更為廣闊的技術平臺。
參考文獻(References)
[1] KEYS R. Cubic convolution interpolation for digital image processing [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981, 29(6):1153-1160.
[2] 曾坤. 基于學習的單幅圖像超分辨率重建的若干關鍵問題研究[D]. 廈門: 廈門大學, 2015.(ZENG K. Research on some key problems of single image super-resolution reconstruction based on learning [D]. Xiamen: Xiamen University, 2015.)
[3] IRANI M, PELEG S. Improving resolution by image registration [J]. Graphical Models and Image Processing, 1991, 53(3): 231-239.
[4] 曾俊國. 基于稀疏鄰域嵌入法的圖像超分辨技術研究[J]. 科學技術與工程, 2013, 13(7):1840-1846.(ZENG J G. Image super resolution based on sparse neighbor embedding[J]. Science Technology and Engineering, 2013, 13(7): 1840-1846.)
[5] 沈松, 朱飛, 姚琦,等. 基于稀疏表示的超分辨率圖像重建[J]. 電子測量技術, 2011, 34(6):37-39.(SHEN S, ZHU F, YAO Q, et al. Based on sparse representation for super-resolution image reconstruction[J]. Electronic Measurement Technology, 2011, 34(6): 37-39.)
[6] DONG C, CHEN C L, HE K, et al. Learning a Deep Convolutional Network for Image Super-Resolution [M]. Berlin: Springer International Publishing, 2014:184-199.
[7] DONG C, CHEN C L, TANG X. Accelerating the super-resolution convolutional neural network[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016:391-407.
[8] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016:1646-1654.
[9] SHI W, CABALLERO J, HUSZR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 1874-1883.
[10] FREEMAN W T, ADELSON E H. The design and use of steerable filters[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1991, 13(9): 891-906.
[11] TOMASI C, MANDUCHI R. Bilateral filtering for gray and color images[C]// Proceedings of the Sixth International Conference on Computer Vision. Piscataway, NJ: IEEE, 1998: 839.
[12] YANG Q, TAN K H, AHUJA N. Real-time O(1) bilateral filtering[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009:557-564.
[13] YANG Q, WANG S, AHUJA N. SVM for edge-preserving filtering[C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010:1775-1782.
[14] XU L, REN J S, YAN Q, et al. Deep edge-aware filters[EB/OL].[2016- 10- 20]. http://www.jimmyren.com/papers/Poster_ICML-2015.pdf.
[15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016:770-778.
[16] CUI Z, CHANG H, SHAN S, et al. Deep network cascade for image super-resolution[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014:49-64.
[17] WANG Z, LIU D, YANG J, et al. Deep networks for image super-resolution with sparse prior[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015:370-378.
[18] YANG J, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861.
[19] BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[EB/OL]. [2016- 10- 20].http://www.irisa.fr/prive/Aline.Roumy/publi/12bmvc_Bevilacqua_lowComplexitySR.pdf.
[20] ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C]// Proceedings of the 7th International Conference on Curves and Surfaces. Berlin: Springer-Verlag, 2010:711-730.
[21] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]// Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM, 2014:675-678.
[22] TIMOFTE R, SMET V D, GOOL L V. A+: adjusted anchored neighborhood regression for fast super-resolution[C]// Proceedings of the 12th Asian Conference on Computer Vision. Berlin: Springer, 2015:111-126.
[23] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3791-3799.
[24] HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:5197-5206.
[25] CHEN Y, POCK T. Trainable nonlinear reaction diffusion: a flexible framework for fast and effective image restoration[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6): 1256-1272.
This work is partially supported by the National Natural Science Foundation of China (61672022).
GUOXiao, born in 1994, M. S. candidate. His research interests include machine learning, deep learning, image restruction.
TANWenan, born in 1965, Ph. D., professor. His research interests include software service engineering, trusted service computing and composition, collaborative computing, business process intelligence.
High-performanceimagesuper-resolutionrestructionbasedoncascadedeepconvolutionalnetwork
GUO Xiao1, TAN Wenan1,2*
(1.CollegeofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,NanjingJiangsu211106,China;2.CollegeofComputerandInformation,ShanghaiPolytechnicUniversity,Shanghai201209,China)
In order to further improve the resolution of existing image super-resolution methods, a High-performance Deep Convolution neural Network (HDCN) was proposed to reconstruct a fixed-scale super-resolution image. By cascading several HDCN models, the problem that many traditional models could not upscale images in alternative scale factors was solved, and a deep edge filter in the cascade process was introduced to reduce cascading errors, and highlight edge information, High-performance Cascade Deep Convolutional neural Network (HCDCN) was got. The super-resolution image reconstruction experiment was carried out on high-performance cascade deep convolution neural network (HCDCN) model on Set5 and Set14 datasets. The experimental results prove the effectiveness of introducing the deep edge-aware filter. By comparing the performance evaluation results of HCDCN method and other image super-resolution reconstruction method, the superior performance of HCDCN method is demonstrated.
super-resolution; image reconstruction; deep convolutional neural network; cascade; deep edge-aware filter
2017- 05- 16;
2017- 06- 05。
國家自然科學基金資助項目(61672022)。
郭曉(1994—),男,江蘇南京人,碩士研究生,主要研究方向:機器學習、深度學習、圖像重建; 譚文安(1965—),男,湖北荊州人,教授, 博士, 主要研究方向:軟件服務工程、可信服務計算與組合、協同計算、業務過程智能。
1001- 9081(2017)11- 3124- 04
10.11772/j.issn.1001- 9081.2017.11.3124
(*通信作者電子郵箱wtan@foxmail.com)
TP391.41
A