張倩宇


摘要:該方法是將低分辨率圖像直接作為輸入,逐級預測金字塔層的殘差圖像,選擇特定的初始化方法對網絡權值進行初始化,加快模型收斂,并引入多通道映射提取更加豐富的特征,采用卷積級聯,共享權重的方式進行圖像超分辨率重構,改進的模型可以更好地重建出圖像的紋理和細節。
關鍵詞:圖像超分辨率重建; 拉普拉斯金字塔;殘差;多通道;卷積級聯;
中圖分類號:TP391.4? ? 文獻標識碼:A? ? ? ?文章編號:1007-9416(2018)10-0000-00
近年來,深度學習在圖像處理領域取得了顯著的研究成果。在大量的任務中,深度學習得到的特征被證實比傳統方法構造的特征具有更強的表征能力。常用的超分辨率重建模型有卷積神經網絡模型、殘差神經網絡模型、深度卷積生成對抗網絡模型。但無論哪種學習模型,對低分辨率圖像和高分辨率圖像樣本對的數目,訓練的速度都有很高的要求。
本文提出了一種新的結構模型:基于拉普拉斯金字塔的多通道圖像超分辨率卷積神經網絡模型。實驗證明,該模型收斂速度更快,圖像超分辨率效果更加優秀。
1 研究背景
LapSRN,即拉普拉斯金字塔,每一級的金字塔都以低分辨率的特征圖作為輸入,來預測高頻殘差,在預處理時沒有使用傳統的雙三次插值法,減少了計算的復雜性,而是使用轉置卷積用于上采樣以得到更精細的特征圖,另外,網絡的訓練使用了 Charbonnier損失函數,這個損失函數可以獲得更好的超分辨效果。
該網絡模型使用逐級放大來實現多級超分辨,即同一個模型可以生成不同規模的超分辨率圖像。例如一個*8的模型同時也可以實現*2和*4的超分辨任務,這主要也是得益于金字塔結構。
LapSRN提出的新的損失函數為:
? (1)
其中,x表示LR圖像,y表示HR圖像,r表示殘差,s表示對應的level,L是金字塔結構的level數量,N是訓練樣本數量。新的loss函數的每個level都有一個對應的loss,訓練過程中的目的是將各個level的loss的和降低。
LapSRN具有三個特點:1.準確率高,使用Charbonnier損失函數能夠更好的處理異常值,提高準確率2.速度快,在大多數數據集上的速度都十分快,與FSRCNN速度相似3.逐級地進行圖像重建,通過拉普拉斯金字塔結構的前向傳播可以生成各種中間的SR圖片。
此網絡不足之處在于:1.LapSRN無法很好的復現圖像很細致的結構 2.模型太大,參數過多。
2 本文方法
本文將描述基于拉普拉斯金字塔(LapSRN)的多通道卷積網絡的圖像超分辨率(LapMSRN)的主要設計方法。
2.1 PReLU與MSRA初始化
He等[1]人提出了一種新的激活函數:含參修正線性單元(PReLU),表達式為
? ? ? ? ?(2)
PReLU引入一個新的參數:,的值通常被設定為非常小,如0.01等。這樣既可以保留ReLU以修正數據分布,并加速收斂的優點,同時又可以不完全丟失特征。因此,采用PReLU函數作為LapMSRN模型的激活函數。
另一方面,模型訓練過程中對網絡權值進行合理的初始化是非常重要的。初始化方法的不同選擇可以直接決定一個模型是否可以收斂、收斂速度快慢以及最終的收斂狀態如何。
Glorot等人[2]發現當輸入權值與輸出權值在前向傳播與反向傳播過程中保持相同的分布時,模型的性能最優秀:模型可以快速收斂并且收斂的結果更加優秀。為了達到這個目的,提出一種簡便的初始化方法:Xavier初始化。它規定第i層的權值服從均值為0,方差為的分布,并且建議采用均勻分布形式,使得輸出保持和輸入相同的均值為0,方差為的分布,其中表示當前層的參數數目,表示下一層的參數數目。
2.2網絡架構
我們在拉普拉斯金字塔框架的基礎上構建我們的模型,我們的模型是將低分辨率圖像作為輸入,并逐級預測金字塔層的殘差圖像,選擇MSRA對網絡的權值進行初始化加快模型收斂;使用多層的小卷積核(3*3等)代替單層的大卷積核(9*9等)加深網絡模型,并且將非線性映射部分改為局部多通道映射,增強模型SR性能,同時也將對獲得的特征圖進行維度壓縮,從而減少參數,使得超分辨率重構效果更好。
3 實驗結果分析
表1 展示了以91幅圖像作為訓練集,各方法在不同圖像放大比例下,各測試集上所有圖像重建后PSNR的平均值,從表1中可以看出,與現有方法相比,本文所提方法具有更高的PSNR,可以生成更高質量的圖像。
4 結語
本文主要通過對LapSRN模型進行加深以及加寬處理達到提高SR性能的目的。其中加深操作通過將大尺寸的卷積核替換為多層3*3卷積核,并采用多通道卷積級聯的方式達到;加寬操作通過增加對特征圖的維度壓縮操作部分,從而減少訓練參數,使得超分辨率重建效果更好。另外,我們還采用MSRA初始化方法,進而加快模型收斂速度。實驗結果表明,LapMSRN模型在主客觀評價方式上均優于經典方法。這表明:若要提升模型的SR性能,必然要求模型可以提取更加豐富的LR圖像特征并且更有效地利用特征生成HR圖像,將來可以沿這條路線做更多的工作。
參考文獻
[1]He K, Zhang X, Ren S, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification[C].//Proceedings of the IEEE International Conference on Computer Vision,2015,pp.1026–1034.
[2]Glorot X , Bengio Y . Understanding the difficulty of training deep feedforward neural networks [J].Journal of Machine Learning Research,2010,9:249-256.
[3]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE conference on conference on computer vision and pattern recognition.2015:1-9[DOI:10.1109/CVPR.2015.7298594].
Hyperresolution Reconstruction of Multi-channel Image Based on Laplacian Pyramid
ZHANG Qian-yu
(School of mathematics and computer science,Shanxi normal university,Linfen Shanxi 041000)
Abstract: In order to solve these problems, an image super-resolution algorithm (LapMSRN) based on Laplacian pyramid structure for multichannel convolution network is proposed. This approach is the low resolution images directly as input, step by step to predict residual image pyramid layer, select a specific initialization method initialized weights of the network, to speed up the model convergence, the characteristics of the introduction of multi-channel mapping to extract more rich, using convolution cascade, share the weight of image super-resolution reconstruction in the form of the proposed improved model can better reconstruction of the image texture and details.
Key words: Image super-resolution reconstruction;? The Laplace pyramid;? residual;? The multichannel; Convolution cascade