吳 煒, 鄭成林, 張瑩瑩, 周壽桓
(1. 四川大學 電子信息學院,四川 成都 610064;2. 華為技術有限公司,廣東 深圳 518129)
通過圖像處理方法,將低分辨率圖像放大為高分辨率圖像并保留圖像的高頻細節一直以來是圖像處理領域研究的熱點之一.目前提高圖像的分辨率的技術可分類為圖像插值技術[1-3]、圖像超分辨率技術[4-5]兩大類.通過圖像插值技術處理的圖像通常缺少高頻細節,顯得較為模糊.圖像超分辨率技術是目前提高圖像分辨率的主要方法之一.
為了克服上述問題,筆者提出一種簡單高效的基于廣義非局部平均和自相似性的單幅圖像超分辨率算法.算法首先通過自身建立訓練庫,即對低分辨率圖像進行下采樣,將低分辨率和其下采樣圖像作為一個訓練庫,然后利用這個訓練庫進行基于學習的超分辨率算法復原.自然圖像中通常包含足夠多的重復結構模式,非局部平均算法正是利用這種性質來抑制噪聲、克服偽影的.由于非局部平均的優良性能,因此,將非局部平均引入超分辨率復原,進行處理的特征系數更符合廣義高斯分布.為了提高復原圖像的質量,提出一種基于廣義非局部平均的超分辨率算法.實驗表明,文中算法具有較好的性能,復原的圖像無論是主觀的視覺效果,還是客觀的均方根誤差,都取得較好的結果.
基于學習的超分辨率復原的基本思想是利用一個圖像訓練集中的高低分辨率圖像的對應關系,估計待放大的低分辨率圖像的高頻細節,最后獲得高分辨率放大圖像.它的過程是輸入一幅低分辨率圖像,對其進行特征提取,接著主要以這些信息為依據建立學習模型,然后通過該模型估計高頻信息,最終復原出最優的超分辨率圖像.傳統的算法需要外部的一個訓練庫,這使得算法的內存消耗較大.針對這一問題,筆者利用圖像的自相似性,通過自身建立訓練庫,即對待放大圖像進行下采樣,然后待放大圖像和其下采樣圖像構建一個包含高低分辨率圖像的訓練庫,相對于傳統的方法這樣可以大大減少內存消耗.
設IH為高分辨率圖像,其對應的低分辨率圖像為IL,超分辨率復原需解決的問題是在已知IL的條件下,估計出最優的IH.目前最常用方法為最大后驗概率法(MAP),即求使條件概率P(IH|IL)最大的IH.高分辨率圖像可以看做是低分辨率圖像與高頻信息的疊加,它可表示為
IH=H?IL,
(1)
其中,H表示高頻信息,?表示疊加運算.由于IL已知,這樣將估計IH的問題轉化為估計H的問題.設IL=L?M,其中L和M分別表示低頻和中頻信息.在估計高頻信息的過程中,中頻信息M比低頻信息L提供的有用信息更多,因此,認為高頻信息條件獨立于低頻信息[7],即有
P(H|IL)=P(H|M,L)≈P(H|M) .
(2)
根據貝葉斯估計理論,有
P(H|M)=P(H|M)P(H)/P(M)=P(M,H)/P(M) ,
(3)
其中,P(M)為低分辨率圖像中頻信息的先驗概率;P(M,H)為中頻信息與高頻信息的聯合概率.為了求得最優的高頻信息H,須求取使聯合概率P(M,H)取最大值的H.提取IL的中頻特征即可獲得M,因此,P(M)可認為是常數.這樣,超分辨率問題變為

(4)
由于圖像尺寸太大,維數太高,因此,通常將圖像劃分為圖像塊進行處理.圖像塊之間的關系模型可通過馬爾可夫模型[10]建立.但是求解該模型需要反復迭代,計算量較大.一般可認為塊與塊之間是相互獨立的;相鄰塊之間的方塊效應可通過重疊分塊[8]來解決.這樣,有
(5)
其中,Mk和Hk分別表示第k個圖像塊的中頻信息和高頻信息;n為圖像塊的數目.由式(5)可知,只要獲得使聯合概率P(Mk,Hk)最大的高頻信息塊Hk,那么由這些Hk拼接而成的高頻信息圖像的聯合概率也最大.聯合概率P(Mk,Hk)可表示為
(6)

(7)


圖1 算法的總體框圖

高頻信息H使用高分辨率圖像IH與插值放大的低分辨率圖像之差表示,即
H=Idiff=IH-Intp(IL) ,
(8)
其中,Intp(·)表示插值運算.對中頻信息,通過提取待復原低分辨率的高斯差(Difference of Gaussians, DoG)特征來表示,即M= DoG(IL),其中DoG(·)表示高斯差提取運算.
2. 2 訓練庫建立
通過圖像的自相似性建立訓練庫,即對低分辨率圖像IL進行下采樣,將其和其下采樣圖像ILL作為一個訓練庫.IL和ILL分別作為訓練庫中的高、低分辨率圖像,ILL可表示為
ILL=(G*IL)↓ ,
(9)
其中,G為高斯核,*表示卷積運算,↓表示下采樣運算.
提出一種基于非局部均值的高頻信息估計方法,即在訓練庫中尋找K個最相似的中頻系數塊,然后根據相似程度計算每個相似塊的權重.由于提取的中頻信息統計特征服從廣義高斯分布,因此,權重計算時,采用廣義高斯分布特性.最后根據這些相似塊對應的高頻系數塊和權重重建估計的高頻系數.另外,為了降低計算復雜度,加快運算速度,文中采用局部窗口搜索,即將搜索范圍限定在一個小的區域內,搜索對應位置的一個局部窗口,而不是全圖搜索.這樣可以大大減少運算量,對復原的性能影響也不大.
非局部均值平均算法[15]是一種性能優越的圖像去噪算法.它的基本思想是利用圖像中具有重復結構的性質來抑制噪聲,克服傳統算法中出現的偽影,提高圖像的質量[3].
圖像塊的值可利用相似塊的加權平均來計算,即
K(i)=∑ω(i,j)K(j) ,K(j)∈N(K(i)) ,
(10)

ω(i,j)=exp(-d(i,j)/h2)/Z(i) ,
(11)

(12)
其中,Γ(·)是Gamma函數,α是尺度參數,β的取值決定f(x)的衰減率.對于兩個高斯差特征系數塊K(j)與K(i)之間的權重ω(i,j),可由式(13)計算.
(13)
其中,廣義高斯模型代替了高斯模型,在計算權重過程中涉及到參數α和β的求取.文中采用Do和Vetterli提出的一種最大似然估計[17]: 即使用牛頓-拉夫遜算法估計α和β的值.
算法分為兩個主要過程,即訓練過程和復原過程.訓練過程主要是建立自身訓練庫.復原過程是利用訓練過程獲取的信息對低分辨率圖像進行復原.訓練過程和復原過程的示意圖如圖2所示.

圖2 算法流程圖
訓練過程如下:
(1) 對IL進行下采樣獲得其對應的低分辨率圖像ILL.
(2) 為了計算方便,將ILL插值放大到與IL相同分辨率,表示為ILE.插值放大可使用雙線性插值算法等.
(3) 對IL和ILE分別提取高頻差分圖像特征和中頻高斯差特征,獲得高頻、中頻特征圖像FH、FM.
(4) 對高、中頻特征圖像FH和FM進行重疊分塊.
復原過程如下:
(5) 將輸入的待復原的低分辨率圖像IL進行插值放大,獲得放大后的圖像ILH.
(6) 計算插值放大后圖像ILH的中頻高斯差特征圖像TM.
(7) 將上一步生成的特征圖像TM劃分成相互重疊的系數塊.
(8) 對于每一個圖像塊,在FM的對應位置的鄰域內尋找與該圖像塊最相似的K個系數塊.并根據式(14)計算每一個相似塊對應的權重ωk(i).

(10) 將高頻系數塊PH(i)拼接為高頻特征圖像H.
(11) 將估計獲得的高頻特征圖像H與輸入的插值放大圖像ILH相加,獲得高分辨率圖像IH.
為了評價文中算法的效果,將文中算法與最近鄰插值算法、Cubic B-Spline插值算法、基于稀疏表示的方法[13]、基于灰度值的自相似性方法[12]進行對比.實驗中文中方法取相似塊數量K=9,控制指數函數的衰減速度的參數h=1,系數塊的大小為 5×5, 塊與塊的重疊長度為2,搜索窗口大小為 7×7.為了評價效果,除了采用主觀的視覺評價外,還采用峰值信噪比(PSNR) 、結構相似度(SSIM)作為客觀的圖像質量評價標準.為了對算法的適應性進行評估,使用了4類圖像進行測試,這4類圖像即圖像處理中的常用圖像、遙感圖像、視頻圖像和噪聲圖像.實驗中先對原始圖像進行下采樣,然后再對下采樣的圖像進行放大.
文中采用圖像處理中常用的圖像作為測試圖像(大小均為512×512),8幅測試圖分別是Lena、Pepper Airplane、Man、Street、Bike、Baboon和Barbara.其中,Pepper圖像的實驗比較圖如圖3所示,可以看出最近鄰插值算法,Cubic B-Spline方法在放大圖像的同時模糊了大部分的圖像細節.基于稀疏表示的方法雖然可以復原出大部分圖像細節,但約顯得模糊;基于灰度值的自相似性方法復原效果不太理想.而文中算法能恢復出圖像的細節,其復原結果更逼真.從視覺效果來看,文中算法復原結果與原始高分辨率圖像最為相似.表1為不同方法對8幅測試圖像的平均PSNR和平均SSIM.可以看出,文中方法的結果具有最高的PSNR和SSIM,這說明文中方法結果最好,客觀評價與主觀評價結果完全一致.

圖3 Pepper圖像的實驗比較圖
實驗中系數塊的大小和搜索窗口大小對復原圖像的性能有一定的影響.系數塊大小對性能的影響如圖4(a)所示,圖中PSNR為8幅測試圖像的平均值.可以看出,隨著系數塊大小的增加,復原的性能在下降.這是由于越小的塊,越可能在自相似性訓練庫中尋找到相似性高的塊,因此,復原效果也就越好.搜索窗口大小對性能的影響如圖4(b)所示,圖中PSNR為8幅測試圖像的平均值.可以看出,隨著搜索范圍的增大,復原的性能逐步提高,但是當搜索范圍大于7后,性能的提高速度大大下降.復原的性能不僅不能隨著搜索范圍的增大而無限增大,而且會增加計算量,因此,選擇適中的搜索范圍即可.

表1 各種不同方法對常用圖像、遙感圖像、視頻圖像、噪聲圖像放大后結果的平均PSNR、SSIM

圖4 參數對性能的影響
這部分實驗主要針對遙感圖像來分析算法的性能,在實驗室中分別對光學遙感圖像和SAR遙感圖像進行實驗.實驗中光學、SAR遙感圖像各使用10幅,圖像分辨率大小都是 256×256.一幅光學遙感和一幅SAR遙感圖像的比較結果如圖5所示,與上一個實驗類似,文中算法效果最好,與原始高分辨率圖像最為相似.表1列出不同方法對光學遙感和SAR遙感圖像進行復原處理結果的平均PSNR和平均SSIM.文中方法的結果具有最高的平均PSNR和平均SSIM,這說明文中方法結果最好,客觀評價與主觀評價結果一致.

圖5 不同方法對光學遙感圖像(第1行)以及SAR遙感(第2行)的比較
這部分實驗將對取自于網站“http://media.xiph.org/video/derf/”的視頻圖像進行測試.測試中使用的視頻包括“Harbour”、“Galleon”,“Mobcal”,“Aspen”和“Pedestrian”視頻序列.視頻圖像的分辨率從4CIF到 1 080 p.實驗中根據畫面的變化隨機從這些視頻中抽取22幀(幅)圖像幀進行實驗.獲取自”Aspen”視頻的一幀圖像的比較結果如圖6所示.與前面的實驗一致,文中算法效果最好,效果清晰,復原出的圖像細節,與真實的圖像最為相似.表1列出不同方法對測試圖像進行復原處理結果的平均PSNR和平均SSIM;與前面的實驗一樣,文中方法結果最好.

圖6 “Aspen”視頻的一幀圖像的比較(右上角為矩形標注區域的局部放大圖)
為了測試文中算法在噪聲下的性能,首先對5.1節中的低分辨率圖像施加噪聲標準差為10的高斯白噪聲,然后進行超分辨率放大.表1列出處理結果的平均PSNR和平均SSIM,從具體數據來看,文中方法PSNR 值和SSIM 值都高于其他對比方法,這說明文中方法結果最好.
筆者提出一種基于廣義非局部均值和自相似性的超分辨率算法.算法不僅解決了先前的基于學習的超分辨率算法內存消耗較大的缺點,而且提升了超分辨率復原效果.實驗結果表明,文中算法對圖像取得較好的復原效果.總的來說,算法復原出的超分辨率圖像更接近于真實圖像,具有更好的主觀和客觀質量.文中算法不是專門針對噪聲圖像設計的算法,雖然該算法可以較好地復原出噪聲圖像的高頻信息,使得復原的高頻信息幾乎不包含噪聲,但是并沒有消除低頻圖像中原有的噪聲.因此,要想對噪聲圖像取得較好視覺效果,必須在超分辨率復原的同時消除原有圖像中的噪聲,這將是下一步的工作.
[1] Chen H, Leou J. Saliency-directed Color Image Interpolation Using Artificial Neural Network and Particle Swarm Optimization[J]. Journal of Visual Communication and Image Representation, 2012, 23: 343-358.
[2] Liu X, Zhao D, Xiong R, et al. Image Interpolation Via Regularized Local Linear Regression[J]. IEEE Transactions on Image Processing, 2011, 20(12): 3455-3469.
[3] Guo K, Yang X, Zha H, et al. Multiscale Semilocal Interpolation with Antialiasing[J]. IEEE Transactions on Image Processing, 2012, 21(2): 615-625.
[4] Van J D. Image Super-resolution Survey [J]. Image and Vision Computing, 2006, 24(10): 1039-1052.
[5] 寧貝佳, 冀峰, 高新波. 具有隨機位移的多幀圖像超分辨重建快速算法[J]. 西安電子科技大學學報, 2012, 39(1): 105-110.
Ning Beijia, Ji Feng, Gao Xinbo. Fast Super-resolution Reconstruction Algorithms for Multi-frame Images with Random Shifts [J]. Journal of Xidian University, 2012, 39(1): 105-110.
[6] Baker S, Kanade T. Limits on Super-resolution and How to Break Them[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(9): 1167-1183.
[7] Freeman W T, Jones T R, Pasztor E C. Example-based Super Resolution[J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65.
[8] Wu W, Liu Z, He X. Learning-based Super Resolution Using Kernel Partial Least Squares[J]. Image and Vision Computing, 2011, 29(6): 394-406.
[9] Yang J C, Wright J, Huang T, et al. Image Super-resolution as Sparse Representation of Raw Image Patches[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008: 1806-1816.
[10] Wu W, Liu Z, Gueaieb W, et al. Single-image Super-resolution Based on Markov Random Field and Contourlet Transform[J]. Journal of Electronic Imaging, 2011, 20: 023005.
[11] Kawano H, Suetake N, Cha B, et al. Sharpness Preserving Image Enlargement by Using Self-decomposed Codebook and Mahalanobis Distance[J]. Image and Vision Computing, 2009, 27(6): 684-693.
[12] Freedman G, Fattal R. Image and Video Upscaling from Local Self-Examples[J]. ACM Transactions on Graphics, 2011, 30(2): 12-22.
[13] Zeyde R, Elad M, Protter M. On Single Image Scale-Up Using Sparse-Representations [C]//Lecture Notes in Computer Science: 6920. Heidelberg: Springer, 2012: 711-730.
[14] Yang C, Huang J, Yang M. Exploiting Self-similarities for Single Frame Super-Resolution[C]//Proceedings of Asian Conference on Computer Vision: 6494. Heidelberg: Springer, 2010: 497-510.
[15] Heidarzadeh A, Avanaki A N. An Enhanced Nonlocal-means Algorithm for Image Denoising[C]//Proceedings of 2007 9th International Symposium on Signal Processing and Its Applications. Piscataway: IEEE, 2007: 4555487.
[16] 馮象初, 劉濤, 李亞峰. 小波域中的廣義非局部平均去噪算法[J]. 西安電子科技大學學報, 2010, 37(5): 941-946.
Feng Xiangchu, Liu Tao, Li Yafeng. Generalized Nonlocal Mean Denoising Research Based on the Wavelet Domain[J]. Journal of Xidian University, 2010, 37(5): 941-946.
[17] Souidene W, Beghdadi A. Image Denoising in the Transformed Domain Using Nonlocal Neighbourhoods[C]//IEEE International Confereence on Acoustics, Speech, and Signal Processing. Piscataway: IEEE, 2006: 869-871.