王梓欣 牟葉 王德睿



摘要 卷積神經網絡( ConvolutionNeural Networks, ConvNets,CNN)在圖像識別、目標檢測、物體分類等方面已經被證實有效可行,于是人們嘗試將CNN運用到更加廣闊的領域,并取得了遠超傳統方法的性能。圖像的超分辨重建就是一個典型的代表。傳統的超分辨方法計算復雜,且對不同類型的圖像具有較差的適應能力。將深度學習的方法應用到圖像超分辨率重建上,大幅度提升了超分辨重建的效果,為超分辨重建領域開辟了一個新的方向。本文以SRCNN和VDSR為例,對基于深度學習的單幅圖像超分辨算法比較探究。對兩種網絡的結構以及設計思想進行了詳細分析,并通過實驗比較驗證了兩種網絡的優良性能。
【關鍵詞】深度學習 CNN 圖像超分辨SRCNNVDSR
1 緒論
圖像的空間分辨率是度量圖像質量的一個重要指標,高分辨率的圖像往往包含著更加豐富的細節信息,對于觀賞體驗的提升以及后續的圖像處理步驟都有著較大的幫助。擁有高分辨率的高清圖像,一直是學術界和工業界不懈追求的目標。獲取高分辨率圖像最可靠的方法就是直接采用高分辨率傳感器,然而,由于圖像采集設施、存儲編碼算法以及網絡傳輸帶寬等因素的限制,直接獲取高分辨率圖像技術實現難度大,付出成本高。圖像超分辨重建技術應運而生并得到快速發展。
早期,超分辨率主要采用基于插值的方法,之后基于重建的超分辨率算法被提出,這些方法在一定程度上提高了圖像的分辨率,但是在對圖像邊緣、紋理特征等細節信息的處理上不夠完善,重建結果偏向于平滑。
深度學習的出現使圖像超分辨領域取得了較大的突破,越來越多的研究者使用深層的卷積神經網絡對低分辨率(Low Resolution)圖像進行超分辨處理,并在均方誤差(MSE)、峰值信噪比(PSNR)等指標上取得了遠超傳統方法的效果。卷積神經網絡擁有強大的特征提取能力,通過大量的數據集進行訓練,可得到具有較好泛化能力的超分辨網絡模型,為超分辨技術在實際生活中的應用提供了較好的技術支撐。總之,超分辨重建技術正在成為各領域的研究熱點,在計算機視覺、圖像處理、視頻處理等領域,超分辨技術廣闊的應用前景促進了超分辨技術的發展,超分辨技術的快速發展也為加速了相關技術的落地應用。
2 圖像超分辨算法概述
圖像的超分辨是計算機視覺領域的一個經典問題,其目的是從單張低分辨率的圖像中獲重建高分辨率的圖像。圖像超分辨重建的研究起源于20世紀60年代,最早是J.L.Harris和J.W.Goodman提出一種稱為Harris-Goodman頻譜外推的辦法。上個世紀80年代開始,凸集投影圖像復原(Pocs)方法、服從泊松分布的最大似然復原(泊松-ML)方法、泊松最大后驗概率復原(泊松-MAP)方法等一系列關于超分辨的算法被提出,Hunt和Sementilli于1993年對超分辨的定義和特性進行了分析闡述,提出圖像超分辨的能力取決于三個因素:噪聲、圖像的樣頻率以及空間限制。
近年來,基于總變差正則、迭代反投影、凸集投影、等超分辨算法不斷被提出,這些算法不同程度地提升了圖像的超分辨質量。由于對低分辨率圖像及進行超分辨處理的解并不唯一,所以超分辨問題本質上是一個病態問題。目前典型的求解此類問題的方法多為引入先驗信息加入約束條件以在一定程度上獲得較優的解。目前最新的超分辨算法多使用基于實例的模型,這些算法通過探究相同圖像的內在相似性或者通過學習低.高分辨率圖像對映射函數來進行超分辨處理。
2014年,Chao Dong等通過構建一個具有3層卷積層的神經網絡(SRCNN),仿照稀疏表示的步驟,提出了一種端到端的超分辨卷積神經網絡,首次將卷積神經網絡應用于超分辨問題并取得了優于傳統方法的結果。在此之后,諸如FSRCNN、ESPCN、VDSR、DRCN等超分辨神經網絡算法被提出。基于深度學習的超分辨算法取得了以往傳統方法難以企及的性能提升。
3 卷積神經網絡概述
卷積神經網絡(CNN)的結構層次比傳統的神經網絡復雜,通過設置多個隱含層,網絡可以獲得更加優秀的學習能力,取得更加本質的數據特征映射。CNN的特點在于它所采用的局部感受野連接和權值共享策略,相比于傳統神經網絡,一方面網絡參數大大減少,另一方面訓練和前向測試的復雜度大幅度降低,避免了網絡訓練過擬合的風險。
卷積神經網絡最早是為了解決二維圖形的識別問題而提出的一種卷積方式,其通常是在有監督的方式下進行訓練得到的。圖1是經典的LeNet-5卷積神經網絡結構,由YannLecun于1998發明。目的是用于對手寫數字數據集MNIST的檢測,具有極高的準確率。
一個典型的神經網絡通常具有輸入層、輸出層與隱藏層。網絡中的每一個神經元接受來自網絡上一層的局部區域的感受野輸入,通過卷積操作得到局部特征。在圖像處理領域,卷積核可以提取出包括圖像的輪廓、顏色、紋理、邊緣等信息,由于卷積核的權值共享特性,所以這些提取得到的特征與圖像的位置和角度無關。
4 SRCNN、VDSR對比分析
隨著卷積神經網絡的深入研究,更加復雜的卷積神經網絡被應用在諸如目標檢測、圖像分割、語義理解、人臉識別等領域,極大地提升了圖像處理領域的處理效果和處理效率。最早將卷積神經網絡引入單幅圖像超分辨重建的是ChaoDong等人[1-3],該算法參考了基于稀疏編碼的超分辨處理過程,提出一種具有三個卷積層的超分辨卷積神經網絡,通過學習的方式全局優化網絡參數,經過端到端的處理過程得到高分辨率圖像。
4.1 SRCNN
SRCNN( Super-Resolution ConvolutionNeural Network)是利用深度學習進行圖像超分辨的開山之作,最初由ChaoDong等人在2014年的ECCV會議上提出,后續將相關成果完善后發表在TPAMI雜志。該工作提出了一種用于單幅圖像超分辨的深度學習方法,直接學習高低分辨率圖像之間的端對端映射,并且證明了基于傳統稀疏編碼的超分辨方法也可以看作是一個深層的卷積神經網絡。
相比用于目標檢測、語義理解、圖像分割的復雜神經網絡模型,SRCNN具有非常靈巧的結構設計[圖2]:整個網絡只有三個卷積層,具有較少的卷積核以及網絡參數,甚至可以在CPU上進行網絡運算,同時,訓練完成的網絡完全不需要求解任何優化問題,并且隨著訓練數據集的增加,網絡的超分辨重建效果可以得到進一步的提升。
SRCNN并不能改變圖像的大小,所以在利用SRCNN網絡進行超分辨處理之前需要對圖像使用雙三次插值將其擴大到所需的大小,得到一個“具有低分辨率的大尺寸圖像”。將此圖像送入SRCNN網絡進行訓練或者測試,網絡輸出一個具有高分辨率的大尺寸圖像。
網絡結構參照稀疏編碼可以分為三個部分:塊特征的提取與表示、特征之間的非線性映射以及最后的重建部分。整個超分辨結構是由稀疏編碼驅動設計的,但巧合的是,三層操作均具有與卷積層相似的形式。把三個操作放在一起,構成卷積神經網絡的結構,并且采用求解神經網絡梯度的方式對整個超分辨結構進行優化求解。
本文采用以下參數設置網絡,塊特征的提取與表示:本層使用的卷積核大小為9x9,輸出特征數為64。特征之間的非線性映射:本層使用大小為lxl的卷積核,輸出特征個數為32。重建:本層使用卷積核大小為5x5。
關于損失函數的設定,本文使用均方誤差(MSE)作為損失函數,通過優化此損失函數得到的網絡輸出圖像有利于得到較高的峰值信噪比( PSNR)。
4.2 VDSR
雖然SRCNN成功地把CNN引入到超分辨問題中,但是SRCNN依賴于較小的感受野,這并不利于較大尺度的超分辨重建。只有三層的網絡結構一定程度上也限制對更加復雜特征的提取與表示能力,而隨著網絡的層數加深,則可能帶來梯度消失等問題。
2015年,K.He提出了用于解決較深層次網絡梯度消失問題的殘差網絡模型( Resnet),它引入了全新的結構以允許網絡盡可能地加深。VDSR( Super-Resolution Using Very DeepConvolutional Networks)借鑒了殘差網絡的思想,提出了具有更深網絡層次的超分辨重建網絡。多達20層的網絡使整個網絡擁有更大的感受野,可以根據更多的像素點去推測結果像素點。此外,通過只學習輸入圖像與網絡輸出圖像之間的高頻殘差,可以避免學習低分辨率圖像與高分辨率圖像大量相似的低頻部分,減少了訓練時間。
VDSR將不同放大倍數的圖像混合在一起同時送入網絡進行訓練,可以獲得對不同放大倍數的超分辨能力。在對圖像的邊界卷積操作上,本文選擇對圖像邊界補O,保證了特征圖與網絡的輸出擁有一致的尺寸大小,實驗結果證明,邊界的補O操作使得卷積網絡對邊緣像素的預測能力有所提升。
5 實驗測試
對于本文提出的卷積神經網絡超分辨算法SRCNN、VDSR,在本章給出實驗驗證結果。實驗平臺為基于Linux系統下Ubuntu16.04下運行Tensorflow進行訓練,采用顯卡GTX1080Ti進行實驗。
訓練模型初始化參數服從高斯隨機分布,SRCNN的網絡結構圖如圖2所示,VDSR的網絡結構圖如圖3所示。
本次實驗的訓練樣本采用標準訓練集291,首先對圖旋轉、鏡像等操作,然后進行兩至四倍下采樣處理,將處理的到的圖像進行雙三次插值,然后裁剪圖像大小至41x41,送入神經網絡訓練。訓練結果如圖4所示。表1展示基于深度學習的超分辨網絡訓練結果比較(PSNR值)。
6 總結
將功能強大的卷積神經網絡引入超分辨重建領域,極大地提升了圖像超分辨的成像效果。通過比較SRCNN和VDSR的重建效果以及指標,可以看出,使用了更深層網絡結構的VDSR無論是在視覺效果還是在峰值信噪比(PSNR)指標上,相比于SRCNN均有所提升。這也說明,更深層次的網絡能夠根據更多的像素感受野來更好地預測目標區域的像素信息。殘差結構也使VDSR在擁有更深層網絡的情況下只需較少的訓練時間即可達到較好的訓練效果。
在SRCNN和VDSR網絡之后,具有優良性能的超分辨網絡層出不窮。以FSRCNN.ESPCN、 DRCN、 LapSRN、 SRGAN等為代表的超分辨網絡取得了出色的效果,諸如遞歸網絡、生成對抗網絡等越來越豐富的網絡結構也被引入超分辨重建領域。
參考文獻
[l]Dong C, Chen C L,He K, et al. Learning aDeep Convolutional Network for ImageSuper-Resolution [M]. Computer Vision-ECCV 2014. Springer InternationalPublishing, 2014: 184-199.
[2]Kim J,Lee J K,Lee K M.AccurateImage Super-Resolution UsingVery Deep ConvolutionalNetworks [J]. 2015: 1646-1654.
[3] Dong C,Chen C L,He K,et al. ImageSuper-Resolution Using DeepConvolutional Networks [J].IEEE Transactions on PatternAnalysis &Machine; Intelligence, 2016, 38 (02): 295-307.
[4] Dong C,Chen C L,Tang X.Acceleratingthe Super-Resolution ConvolutionalNeural Network [J]. 2016: 391-407.
[5]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied todocument
recognition [J]. Proceedingsof the IEEE, 1998, 86 (11): 2278-2324.
[6]趙小樂.單幅圖像超分辨技術研究[D].西南科技大學,2015.
[7]韓小虎,基于深度學習的圖像超分辨算法研究[D].河南大學,2016.
[8]王學文.基于學習的圖像超分辨率算法研究[D].華中科技大學,2016.