肖雅敏,張家晨,馮 鐵
(吉林大學計算機科學與技術學院,長春 130012)
單圖像超分辨率重建是計算機視覺領域中重要的圖像處理技術,廣泛應用于醫學圖像、視頻監視、公共安全與遙感偵察等領域。在實際應用場景中,現有硬件條件的限制造成圖像的分辨率質量較低,如以數字攝像機為監控設備時,其獲取的圖像通常缺少關鍵場景或人物細節信息。因此,為克服現有硬件系統的分辨率限制,使用單圖像超分辨率重建技術來增強圖像的空間分辨率。該技術的核心思想是通過分析低分辨率圖像的關鍵語義信息或信號信息,推理出欠缺的真實細節并重建成具有高像素密度的超分辨率圖像。
目前,單圖像超分辨率重建的研究主要分為3個階段?;诓蓸永碚摰牟逯捣椒ǎ?-2]是出現較早且直觀的方法,該類方法的優點是運行速度快且適合并行計算,但是存在不能引入額外有用的高頻信息,從而難以得到銳化的高清圖像的問題?;诖耍芯咳藛T提出利用低分辨率圖像推測出對應的高分辨率部分信息的映射函數算法,該算法主要依賴鄰域嵌入[3-4]、稀疏編碼[5-7]等技術,但是當圖像中未包含較多的重復樣式時,其推斷出的圖像通常會產生非細節性的銳利邊緣。
基于深度學習的方法已成為超分辨率算法中的熱點方向。文獻[8]提出的SRCNN模型采用卷積神經網絡(Convolutional Neural Network,CNN)技術重建生成了清晰度更高的圖像,它采用大量外部的高分辨率圖像構造學習庫,并經過訓練生成神經網絡模型,在對低分辨率圖像重建過程中引入模型獲取的先驗知識,以此得到圖像的高頻細節信息,從而達到良好的圖像重建效果。FSRCNN[9]、ESPCN[10]以及文獻[11-13]模型均是在SRCNN的基礎上對網絡結構進行改進而得到的,這些模型增加了網絡層數,并專注于學習低分辨率圖像到高分辨率圖像的端到端映射關系。由于隨著構建網絡層數的加深,訓練模型的花銷逐漸增大,同時由于通道數、過濾器尺寸與步長等超參數的增加,導致設計合理的網絡結構更加困難,因此,文獻[14]提出利用ResNet模型解決上述問題,雖然該模型適用于圖像分類,但其殘差思想和重復堆疊模塊的策略能夠適用于所有計算機視覺任務。此外,ResNet還證明了跳躍連接和遞歸卷積可有效緩解神經網絡攜帶大量關鍵信息的負擔。
基于殘差網絡的超分辨率重建模型DCRN[15]、DRNN[16]、LapSRN[17]、SRResNet[18]與EDSR[19]等被相繼提出,這些模型都是通過單尺寸卷積模塊的線性疊加來實現網絡的縱向加深,以追求更高的表達能力和抽象能力。但對于超分辨率技術而言,從原始圖像中提取到豐富完整的特征信息至關重要。如果繼續縱向加深網絡,在逐層卷積和過濾計算過程中將會出現高頻信息丟失的問題,這對最終映射生成超分辨率圖像的真實程度造成影響,且模型參數量也會呈指數級增長。如果訓練數據集有限則易產生過擬合,且模型規格與計算量也隨之增大,造成不易重構和移植以及訓練難度成倍增加的問題,從而難以在實際過程中應用。
本文提出一種基于多窗口殘差網絡的單圖像超分辨率重建模型MWSR。該模型的橫向網絡結構使用多個不同尺寸的窗口,同時提取同一特征圖的關鍵信息,縱向網絡結構將大尺寸窗口重構為多個串聯的小窗口和非線性ReLU激活函數,并對輸出的多尺寸特征圖進行跨窗口融合,以優化通過網絡的信息流。
本文提出的基于多窗口殘差網絡的單圖像超分辨率MWSR模型的目標是學習從低分辨率圖像ILR到真實的高分辨率圖像IHR的端到端映射,并生成一張清晰的超分辨率圖像ISR。其中,ILR是IHR經過雙三次插值方法下采樣得到的低分辨率圖像,且大小為H×W×C。此外,IHR和ISR大小為rH×rW×C。其中,H表示縱向像素數量,W表示橫向像素數量,r為目標放大倍數,C為顏色通道。本文實驗采用RGB格式的圖像,因此C=3。
MWSR的網絡架構如圖1所示,該架構主要分為特征提取、全局特征融合以及高倍數重建3個部分,具體步驟如下:
步驟1將ILR作為神經網絡的輸入,先經過一個3×3的卷積層提取初始特征,再使用激活函數ReLU調整神經元的活躍度,以增強網絡的非線性,具體的特征提取函數可表示為:

其中,“?”表示卷積操作,“+”表示逐像素相加操作,變量的上標l指它所在的網絡層,下標n表示卷積核的大小,變量w和變量b分別表示神經網絡中的權重矩陣和偏倚矩陣,w是一個大小為fl-1×fl×n×n的張量。fl是第l層特征圖的數量(f0=C),σ(x)=max(0,x)表示非線性激活函數ReLU。和P(x)均表示第l層卷積核大小為n的輸出。
步驟2通過m個重復連續的多窗口殘差模塊逐層提取圖像的高頻與低頻信息,并對初始特征圖和上述m個殘差模塊的輸出進行全局特征融合,對通過網絡的信息流進行匯合并輸入到重建模塊中,具體表示方法為:

其中,[]表示特征之間的連接操作,Q13為初始特征圖,Mm表示第m個多窗口殘差模塊的輸出,T表示全局特征融合后的輸出。
步驟3在高倍數重建部分,首先使用3×3卷積整理過濾冗余信息,重構出最優的稀疏網絡結構,然后使用亞像素卷積操作[10]將特征圖T上采樣至目標倍數r。最后,通過一層3×3卷積完成ILR到ISR的映射,生成清晰的超分辨率圖像,具體表示方法為:

其中,SF(x)表示重新排列組合像素的亞像素卷積操作,變量上標中的l表示網絡中的最后一個卷積層,l-2表示重建部分的第一個卷積層。

圖1 MWSR模型網絡架構Fig.1 Network architecture of the MWSR model
將ILR輸入到網絡中后,每經過一層縱向卷積操作提取特征信息的同時也會丟失相關的高頻信息,進而造成完整的原始圖像語義會隨著網絡層次的加深而逐漸缺失。因此,本文從淺層網絡開始,當每次特征提取時盡可能提取出更豐富的原始圖像特征。本文提出一種橫向拓展網絡結構的多窗口殘差模塊,如圖2所示。同時使用3×3、5×5、7×7三種尺寸的窗口作為同一特征域的局部關鍵信息檢測器,大幅提高檢測到有效特征信息的概率。

圖2 MWSR模型的殘差模塊Fig.2 Residual module of MWSR model
與單尺寸卷積模塊堆疊而成的模型相比,本文所提MWSR模型使用更少的特征提取模塊即可提取更全面的特征信息,從而避免了網絡結構過深,同時訓練過程中可以更早達到飽和的準確度。
為進一步優化模型規模大小,在保持模型的準確度和復雜度的前提下,本文使用k個串聯的3×3小卷積核構成相應的大尺寸窗口。如圖3所示,2個3×3的卷積核串聯相當于一個5×5的卷積核,即一個像素會與周圍5×5個像素產生關聯。兩者感受野大小相同,而前者的參數量為2×3×3=18,后者的參數量為5×5=25,這說明前者的參數量更少。

圖3 兩個串聯的3×3卷積核感受野與一個5×5卷積核感受野示意圖Fig.3 Schematic diagram of receptive field of two 3×3 filters in series and a 5×5 filter
除此之外,還可以在2個小卷積核之間增加一個非線性激活函數ReLU,使得整個網絡變得更復雜,擁有更強的學習能力。以此類推,3個3×3的卷積層串聯相當于1個7×7的卷積層,且還可以增加2個ReLU函數,具體表述方法為:

在獲取輸出的三種尺寸特征圖后,將其與矩陣的第1維度連接融合,然后通過1×1濾波器逐維度過濾篩選出深層網絡需要的特征信息,同時維持該模型輸入輸出維度的一致性以平衡模塊規模大小。
為緩解隨著網絡加深造成準確度降低的問題,本文在特征提取模塊中應用ResNet[11]模型的殘差思想:

將淺層網絡的輸出x直接傳遞給深層網絡H(x)作為輸入,并在該過程中增加跳躍連接,使得無需將x映射成一個新的H(x),只需要學習x和H(x) 的差距F(x),顯著減小需要學習的參數值,使得網絡對反向傳播時的損失值更加敏感,起到一定的正則化作用。
多窗口殘差模塊的具體操作表示方法為:

實驗結果表明,本文提出的多窗口殘差模塊簡潔且高效。當設置MWSR的殘差模塊數量為24時,重建成的超分辨率圖像質量已經超越了當前流行的多數模型,此時MWSR的參數量僅為5.9 M,FLOPS低至13.64×109次的浮點計算。該輕量網絡模型可以在幾乎所有服務端內部署,包括移動端和嵌入式芯片等對模型大小有嚴格限制的服務端。此外,經實驗對比可得,3×3、5×5、7×7三種尺寸的窗口組合為最優解,模型性能優于3×3、5×5組合。如果再增加一個9×9的窗口,則參數量會高達50.91M,計算量更會提高到117.37×109次的浮點計算。
在相機成像過程中,由于硬件方面的限制,生成的圖像上每個像素都代表附近的一整塊顏色,其實在微觀上,實際物理像素之間還存在許多像素,即亞像素。在超分辨率領域中,無法被傳感器檢測出來的亞像素可以通過算法近似計算出來,相當于推理出圖像缺失的紋理細節等高頻信息。亞像素卷積在MWSR模型的高倍數重建部分用于完成低分辨率圖像到高分辨率圖像的映射,具體上采樣過程如圖4所示。假設目標倍數為r,輸入的低分辨率特征圖大小為H×W,將其與通道數為r2的H×W亞像素卷積核進行卷積,得到H×W×r2個像素值,再將其重新排列組合成大小為rH×rW的目標圖像。

圖4 亞像素卷積層上采樣過程Fig.4 Upsampling process on sub-pixel convolution layer
DIV2K數據集[20]是廣泛運用在超分辨率領域的分辨率為2 K的高質量數據集,其包含800張訓練圖像、100張驗證圖像以及100張測試圖像。本文選擇DIV2K作為模型的訓練數據集,并在Set5[21]、Set14[22]、BSDS100[23]、Urban100[24]和Manga109[25]5個公開的基準數據集上進行測試與對比實驗。這些數據集包含大量來自各個領域的圖像,能夠對模型性能進行有效驗證。其中,Set5、Set14與BSDS100數據集主要由自然景觀圖像組成,Urban100數據集中包括不同頻帶細節的城市場景圖像,Manga109為日本漫畫數據集。
本文使用從ILR裁剪出分辨率為48×48的RGB圖像作為輸入,并通過目標放大倍數的IHR評估所生成超分辨率圖像的質量。為了提高模型的泛化能力和魯棒性,通過隨機使用水平翻轉180°、垂直翻轉180°與順時針旋轉90°3種方法操作將訓練數據量增加至原來的8倍,且每種方法執行概率均為0.5。另外,使用Adam優化器[24],分別設置β1=0.9,β2=0.999,ε=10-8。本文設置每一次迭代的批大小為64,每迭代2 500次驗證一次模型。學習速率初始化為0.000 2,且每迭代500 000次將其減少至原來的一半。
本文選擇L1范數作為損失函數訓練模型,與L2相比其具有的稀疏性可以實現特征的自動化選擇,且參數量更少。同時,本文結合通用并行計算架構CUDA10.0與深度學習框架PyTorch1.0,使用Python編碼實現MWSR的算法,并在NVIDIA GeForce RTX 2080Ti GPU和Ubuntu16.04操作系統上,通過大量實驗對算法進行訓練和評估。
本文采用2個常見的客觀評價指標來評估生成的超分辨率圖像的質量,該指標分別為峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似度(Structural SIMilarity,SSIM)。
1)PSNR主要基于誤差敏感來評估圖像質量,計算方法如式(7)所示,單位為dB,且其數值越大,則說明圖像失真程度越低。

其中,H×W為圖像的大小,Χ表示真實的高分辨率圖像,Y表示模型生成的超分辨率圖像,變量t表示每個像素占用的比特數。
2)SSIM通過比較圖像結構之間的差異來評估圖像質量,其結果更符合人眼視覺系統,計算方法如式(8)所示,且其值越接近1,則說明兩個圖像之間的結構越相似,重建質量越高。

其中,變量x和y分別為真實的高分辨率圖像和模型生成的超分辨率圖像,μx,μy表示圖像的灰度平均值,σx,σy表示圖像的方差,σxy表示圖像的協方差。C1和C2是避免公式分母為0的常數。
實驗對MWSR模型與目前主流的雙三次插值(Bicubic)、A+[6]、SRCNN[8]、ESPCN[10]、DRNN[13]、LapSRN[14]6種超分辨率模型進行對比分析。與其他6種模型一致,MWSR模型生成的所有超分辨率圖像轉換成YCbCr色彩模式,僅在Y通道上計算PSNR和SSIM。
表1展示了7種超分辨率模型在5個公開測試數據集上分別放大2倍~4倍的評估結果。其中,最優結果加粗表示。從表1可以看出,本文提出的MWSR模型的性能均優于其他6種主流模型,且該模型不僅改善了圖像感知質量,而且實現了模型輕量化及運行效率的優化。

表1 7種模型的PSNR和SSIM評估結果對比Table 1 Comparison of PSNR and SSIM evaluation results of seven models
表1展示的MWSR模型僅使用了24個多窗口殘差模塊,經實驗表明,當MWSR中的模塊數量從24增加至32或64時,訓練效果仍繼續提高。如圖5所示,MWSR模型在DIV2K數據集上評估的PSNR值可高達37.390 dB,且即使有64個殘差模塊,參數量也僅為15.4M。

圖5 殘差模塊數量分別為24、32、64的MWSR在DIV2K數據集上訓練的PSNR收斂曲線Fig.5 PSNR convergence curves of MWSR with 24,32,64 residual modules trained on DIV2K dataset
從圖6中可觀察到MWSR模型中的殘差模塊數量分別為24(MWSR-24)和64(MWSR-64)時的重建圖像,證明在合理的范圍內增加模塊數量可有效提升圖像質量。然而,增加模塊數量的同時也成倍增加了運算次數和內存讀寫的時間開銷,如MWSR-24的訓練時間為1.5天,而MWSR-64的訓練時間為3.5天。另外在Set5數據集上測試可得,MWSR-24的平均運行時間為0.23 s,MWSR-64的平均運行時間為0.38 s。如果再繼續增加殘差模塊以加深網絡,仍會改善重建效果,但會造成訓練成本和運行成本的快速增加。圖7展示了各模型在不同數據集上進行4倍超分辨率重建的視覺效果對比。從圖7可以看出,相比其他模型,MWSR模型重建出的圖像更加準確且完整地補全了高頻信息。無論是線形細節,結構細節還是文字細節,都可以根據圖像的整體語義預測出其放大之后更真實的新像素值。

圖6 MWSR-24、MWSR-64在DIV2K數據集上的超分辨率重建結果Fig.6 Super-resolution reconstruction results of MWSR-24 and MWSR-64 on DIV2K dataset

圖7 7種模型的超分辨率重建結果對比Fig.7 Comparison of super-resolution reconstruction results of seven models
綜合對比分析可知,在實際應用場景中,先根據需求對訓練難度、模型大小、運行效率和重建質量等多種因素進行綜合考慮,再對特征提取模塊的數量進行選擇,利用合適的網絡深度使多窗口結構發揮更大的作用。
本文提出一種多尺寸窗口殘差網絡優化模型MWSR。該模型結合不同尺寸的窗口同時提取同一張特征圖的關鍵信息,從淺層網絡開始高效利用每一層的特征圖,以提高高頻信息的檢測概率。這種橫向擴展網絡結構的方式與僅縱向加深網絡結構相比,能夠更快速地獲取完整的目標特征。此外,針對較大尺寸窗口進行的分解及重構使得模型更易重構和移植。實驗結果表明,與目前主流的圖像超分辨率重建模型相比,本文模型能夠有效提升生成超分辨率圖像的清晰度。下一步將通過引入注意力機制,優化高倍數重建部分的上采樣操作過程,使生成的圖像更加逼真和自然。