應凱杰 馮玉田
(上海大學通信與信息工程學院 上海 200444)
單圖像超分辨率(SISR)是從圖像的低分辨率(LR)圖像中重建一幅視覺自然的高分辨率圖像。它在安全和監視成像[1-2]、醫學成像[3]、衛星和航空成像[4-5]中有著非常廣泛的應用。在現實場景中,SISR使用用戶自定義的比例因子放大低分辨率圖像是常見和必要的。與普通圖像查看器一樣,用戶可以通過滾動鼠標滾輪來查看圖像局部的詳細信息,從而任意放大查看的圖像。
同時,用于超分辨率的自定義比例因子不僅僅是某些整數,也可以是任何正數。因此,解決任意尺度因子的超分辨率問題,對于提高SISR的實用性具有重要意義。如果為每一個比例因子訓練一個特定的模型,就不可能存儲所有這些模型,而且計算效率很低。因此,能否用單一模型求解任意尺度因子的超分辨率是一個很重要的問題。
盡管如此,現有的SISR方法大多只考慮兩倍(X2)、三倍(X3)、四倍(X4)這些整數倍的超分辨率,并且將不同尺度因子的超分辨率視為獨立的任務。以往的工作很少討論如何實現任意比例因子的超分辨率。比如目前先進的SISR方法,如ESPCNN[6]、EDSR[7]、RDN[8]和RCAN[9],這些方法使用亞像素卷積[7]在網絡末端放大了特征映射,并為每個比例因子設計一個特定的上采樣模塊,因此每個上采樣模塊只能放大固定整數的圖像比例因子,且超像素卷積只適用于整數尺度因子。這些缺點限制了上述方法在真實場景中的使用。雖然可以通過適當地提升輸入圖像的尺度來實現非整數尺度因子的超分辨率,然而,重復計算和放大輸入使得這些方法費時費力,難以投入實際應用。
為了解決這些缺點,使SISR更具實際應用價值,需要一種高效、新穎的單模型任意尺度圖像超分辨的方法。如果要求解單個模型任意尺度的超分辨率,每個比例因子都需要一組對應的上采樣濾波器的權重。本文基于元學習的理論,設計一個可以訓練每個尺度因子的濾波器權重的網絡,不再需要為每個獨立的比例因子存儲權重,與存儲繁多的各尺度因子權值的濾波器參數相比,存儲能自適應生成不同尺度濾波器參數的網絡更為方便。
早期的SISR方法是基于樣本或字典的超分辨率方法[9-11]。這些方法需要一個外部圖像數據庫,并通過傳輸數據庫圖像中的相關補丁來生成高分辨率圖像。性能受到數據庫或字典大小的限制。這些傳統方法耗時長、性能有限,隨著深度學習的迅速發展,人們提出了許多基于深度學習的方法,Dong等[12]首次提出了一種三層卷積神經網絡SRCNN。SRCNN對低分辨率圖像進行雙三次插值后,再送入網絡訓練。Kim等[13]增加了網絡的深度,利用殘差學習進行穩定訓練,首先將遞歸學習引入到SISR中,稱為DRCN。Tai等[14]通過引入共享參數的遞歸塊使訓練穩定,提出了DRRN算法。Tai等[9]還引入了名為Memnet的內存塊。然而,這些網絡的輸入與最終的高分辨率圖像具有相同的大小,所以這些方法訓練都非常耗時。
元學習或稱學會學習,是觀察不同的機器學習方法如何執行廣泛的學習任務,然后從這種經驗或元數據中學習的科學。元學習主要用于少樣本或者零樣本學習和遷移學習。對元學習更詳細的調查可以參考文獻[15],本文只討論與權重預測相關的工作。
權值預測是神經網絡的元學習策略之一。神經網絡的權值由另一個神經網絡預測,而不是直接從訓練數據中學習。Cai等[16]預測分類器的參數,以適應新的類別,而無須反向傳播進行少樣本學習。參數的預測是以支持集的記憶為條件的。在目標檢測任務中,Hu等[17]提出了從方塊權重預測掩模權重的方法。Yang等[18]提出了一種新穎靈活的目標檢測錨定機制。錨函數可以從任意自定義的先前框中動態生成。在視頻超分辨率中,Jo等[19]提出了一種動態上采樣濾波器。動態上采樣濾波器根據多個LR幀中每個像素的時空鄰域進行局部和動態生成。與這些方法不同的是,Hu等[20]利用元學習來預測每個尺度因子的濾波器權重而不再需要為每個比例因子存儲濾波器的權重。通過元采樣模塊可以訓練出僅用一個模型來實現任意尺度的超分辨率。這種方法使用方便并且效率更高。
在圖像超分辨率任務中,考慮到圖像降采樣后低頻與高頻信息損失不同的特性,本文提出一種以RCAN作為特征提取模塊、元模塊作為上采樣恢復高清圖像的網絡,網絡結構如圖1所示。

圖1 基于元采樣模塊的網絡結構
近年來,基于卷積神經網絡(CNN)的方法對信道特征采取同樣的處理,這導致在處理不同類型的信息(例如低和高頻信息)方面缺乏靈活性,并且浪費大量時間對低頻特征進行不必要的計算,最終阻礙深層網絡的表現力。為了避免這些問題,本文使用殘差信道注意機制網絡(RCAN[9])中提出的殘差結構作為特征提取模塊,在減少網絡深度的同時也增加了特征之間的差異性。為了減少網絡深度,在殘差(RIR)結構中,將殘差組(RG)作為基本模塊,利用長跳連接(LSC)進行粗略的殘差學習。在每個RG模塊,如圖2所示,RCAN[9]用短跳連接(SSC)疊加幾個簡化的殘差塊,通過長、短跳轉連接以及殘差塊中的短跳轉連接過濾冗余的低頻信息,增強特征提取的效率。

圖2 殘差組模塊結構
為了進一步提取有效特征,在RG模塊中,RCAN使用了通道注意(CA)機制,通過建模各通道之間的相互依賴關系,自適應地重新調整各通道的特征。如圖3所示,其中:H和W分別表示輸入特征圖的長和寬;C表示特征通道數;r表示比例因子。這樣的CA機制使得特征提取模塊能夠集中在更多有用的特征通道上,增強辨別學習能力,提升網絡訓練的效果。

圖3 通道注意力模塊
對于一個給定的從原始HR圖像中降采樣得到的LR圖像,SISR的任務是基于LR圖像生成一個與原始HR圖像對應的SR圖像。在利用殘差通道作為特征提取模塊后,本文使用元采樣模塊作為上采樣模塊恢復圖像。
假設FLR是由特征學習模塊提取的特征且降采樣尺度為r。對于SR圖像上的每個像素(i,j),Hu等[20]認為它是由LR圖像上像素(i0;j0)的特征和相應濾波器的權重決定的,并給出公式如下:
ISR(i,j)=?(FLR(i′,j′),W(i,j))
(1)
式中:ISRs(i,j)代表SR圖像上(i,j)點位置處的像素值;FLR(i′,j′)代表LR圖像上(i′,j′)點處的特征;W(i,j)代表在(i,j)濾波器的權重;?(·)表示特征映射函數。由于SR圖像上的每個像素點都對應于一個濾波器。對于不同的比例因子,濾波器的數量和濾波器的權重都不同于其他比例因子對應的濾波器。為了解決單一模型下任意尺度因子的超分辨率問題,提出基于尺度因子和坐標信息的用于動態預測權重W(i,j)的元采樣模塊[20]。
元采樣模塊有三個重要功能,即位置預測、權值預測和特征映射。如圖4所示,位置投影將像素投影到LR圖像上。權重預測模塊預測SR圖像上每個像素的濾波器的權重。最后,特征映射函數將LR圖像上的特征與預測的權重映射回SR圖像,計算像素值。

圖4 整數比例因子r=2和非整數比例因子r=1.5 的特征圖恢復示意圖(為簡化只展示一維)
2.2.1位置投影
對于SR圖像上的每個像素(i,j),位置投影的過程可以用式(2)來表示。
(2)

2.2.2權重預測
對于傳統的上采樣模塊,它預先定義了每個尺度因子的濾波器數目,并從訓練數據集中學習W。與之不同的是,元上采樣模塊使用網絡來預測濾波器的權重如式(3)所示。
W(i,j)=φ(vij;θ)
(3)
式中:W(i,j)是SR圖像上像素(i,j)的濾波器權重;vij是與(i,j)相關的向量;φ(·)是將vij作為輸入的權重預測網;θ是初始的濾波器矩陣參數。對于像素位置(i,j)的φ(·)的輸入vij,正確的做法是加上相對于(i′,j′)的偏移量,如式(4)所示。
(4)

(5)
2.2.3特征映射
首先從特征提取模塊輸出的FLR中提取出LR圖像上(i′,j′)特征,然后利用權值預測網絡對濾波器的權值進行預測,最后將特征映射到SR圖像上(i,j)點的像素值。我們采用矩陣乘積的方式作為特征映射函數,具體可表示為:
?(FLR(i′,j′),W(i,j))=FLR(i′,j′)W(i,j)
(6)
為了驗證本文方法的有效性,本文選取了DIV2K數據集進行了訓練,使用Set5、Set14、Urban100等數據集進行測試。
圖像超分辨率的常用指標有峰值信噪比(PSNR)和結構相似性(SSIM),峰值信噪比的計算基于均方誤差(MSE),它的表達式如式(7)所示。
(7)
式中:MAX代表圖像灰度級數,例如8 bit圖像可取到最大值為255;MSE為均方誤差;MSE表達式如式(8)所示。
(8)
式中:SR為網絡輸出的超分辨率圖像;HR為原始圖像;(i,j)表示圖像像素點坐標;m和n分別表示圖像的高度和寬度。結構相似性指標(SSIM)對原圖像和測試圖像之間的亮度(luminance)、對比度(contrast)和結構(structure)進行比較來衡量恢復的結果。SSIM的表達式如式(9)所示。
(9)
式中:μx和μy是x、y圖像的像素平均值;σx和σy是x、y圖像的像素值方差;σxy是x、y圖像的像素值協方差;c1和c2是常數,與圖像的像素值范圍有關。
PSNR值通常在20 dB~40 dB,值越大說明恢復效果越好,圖像失真越小。SSIM的值在0~1范圍內,越接近1說明圖像恢復效果越好,與原圖像越接近。
首先對于常用的超分辨率尺度(X2,X3,X4),本文用SRCNN[12],以及目前效果最佳的兩個網絡RDN[8]、EDSR[7]對每個尺度分別進行了訓練,并與本文方法在Set5、Set14、Urban100上進行對比,評價指標采用峰值信噪比(PSNR)和結構相似性指標(SSIM),實驗結果如表1-表3所示。相比Bicubic和SRCNN網絡,本文方法都提高了1 dB至2 dB的PSNR值,對比目前最好的RDN和EDSR網絡,差距在1 dB以內,這表明本文方法是非常有效的。

表1 Set5數據集對比

表2 Set14數據集對比

表3 Urban100數據集對比
接著對于非整數倍的超分辨率尺(X1.5,X2.5,X3.5),本文用RDN、EDSR分別進行訓練,在非整數倍比例因子的情況下先進行雙三次插值再降采樣,以獲得整數倍降采樣圖片,并與本文方法在BSD100數據集上進行對比,評價指標采用峰值信噪比(PSNR)。實驗結果如表4所示。需要注意的是,本文方法只需要訓練一次即可,并且實驗表明在大部分非整數倍尺度的情況下,本文方法相較RDN和EDSR網絡都取得了更好的效果,這表明本文方法是可行且有效的。

表4 BSD100數據集測試峰值信噪比對比

續表4
本文提出了一種以殘差通道模塊作為特征提取模塊,元采樣作為放大模塊的圖像超分辨率網絡,該方法充分利用了每一層的特征,通過一個模型就得到了各尺度因子的超分辨率圖像。在四個公共數據集上進行定量的實驗,用常用的評價指標進行評價,實驗結果表明,本文的方法很有效,相比其他近年來先進的方法,本文方法在保證了PSNR和SSIM評分指標的情況下,提高了圖像恢復的效率,比起需要針對特定比例進行訓練的網絡更具實用價值。