張瑾 李佳瑩 李曉陽 紀千薈 張偉華



關鍵詞:超分辨率重建;密集殘差;雙重注意力;SRGAN
0 引言
超分辨率重建(Super-Resolution Reconstruction,SR) 是將低分辨率(Low-Resolution, LR) 圖像轉換為高分辨率(High-Resolution, HR) 圖像。其目標是恢復在獲取圖像時因降低或丟失而缺失的高頻信息。目前,已廣泛應用于軍事[1]、醫學影像[2]、公共安防[3]、計算機視覺[4]等多個領域。傳統算法包括基于插值的方法、基于重建的方法、基于學習的方法[5]等?;诓逯档姆椒ㄊ窃趫D像中插入一些像素點,這些像素點的值根據鄰近的像素點計算出來。計算像素點值的方法一般包括最臨近元法、雙線性內插法、三次內插法等方法?;谥亟ǖ姆椒ǖ氖菍讉€超分辨率重建圖像的方法混合在一起對圖像重建;基于學習的方法是一種非深度學習的機器學習方法。相比傳統方法,不僅計算復雜,還不能有效恢復圖像紋理細節的原始信息。
近年來,深度學習技術在圖像超分辨率重建中得到廣泛應用并逐漸取得了較好的結果。2014年,Dong 等人首次將卷積神經網絡(Convolitional Neural Net?work,CNN) 引入圖像超分辨率重建任務中,提出了SRCNN(SR Convolitional Neural Network) [6]。2016 年,Dong等人在此基礎上提出內部使用更小的卷積層且在網絡末端使用反卷積層的FSRCNN[7]。同年,Kim等人受到殘差網絡的啟發,提出在網絡末端加入全局殘差來進一步加深模型深度的VDSR(Very Deep SR Net?book) [8]。2017年,Ledig等人設計了一種基于感知損失函數的超分辨率生成對抗網絡(SRGAN) ,很好地提升了生成圖像的質量[9]。2019 年,Wang 等人基于SRGAN 提出了增強型超分辨率生成對抗網絡(ESRGAN) ,以便提取更多圖像的紋理細節[10]。盡管這些深度學習算法已經非常成熟,但在圖像超分辨重建中仍存在高頻信息丟失,結構化失真的問題。針對上述問題,本文提出一種基于SRGAN的圖像超分辨率重建算法MDSRGAN,該算法改善了現有方法中存在的高頻細節丟失和結構化失真的問題,為圖像超分辨率重建領域的研究和應用提供了一種有效的解決方案。
1 圖像超分辨率模型的構建
1.1 基于改進的SRGAN 超分辨率模型
Batch Normalization (BN) 是一種在深度學習中常用的正則化技術,其主要作用是在訓練時對每個minibatch 進行標準化,使得網絡中每一層的輸入分布更加穩定,從而加速網絡的收斂,提高模型的泛化能力。對于 SRGAN 模型,BN 層會對其性能產生負面影響。在SRGAN模型將低分辨率圖像輸入生成器網絡并生成高分辨率圖像;然后通過判別器網絡判別其生成圖像的準確性。該模型利用兩者之間相互博弈的方式,最終生成逼真的高分辨率圖像。通過這種生成對抗的方式,SRGAN能夠產生更加逼真和細致的超分辨率圖像。由于 SRGAN 中的生成器網絡需要學習從低分辨率圖像到高分辨率圖像的映射,因此其輸入分布可能會發生變化,導致 BN 層無法有效地進行標準化,從而影響網絡的收斂和性能。因此本文采用Group Normalization (GN)層代替BN層對數據進行歸一化。以解決傳統模型對圖像關鍵特征信息提取不充分的問題。本文在SRGAN 模型中引入了雙重注意力機制DSBA模塊提高網絡的表現能力。它可以自適應地學習每個通道和空間位置的重要性,并將這些重要信息融合到網絡中,從而提高網絡的表現能力。在SRGAN模型的殘差塊中的卷積在進行特征提取時會對圖像的特征信息產生損失,從而影響最終的生成結果,為了解決這個問題,本文引入了密集殘差DR模塊。MDSRGAN模型生成器結構圖如圖1所示。
1.2 DSBA 結構
本文中提出了一種DSBA的注意力模塊,它可以自適應地學習網絡中每個特征通道的重要性,并結合了通道注意和空間注意。由于卷積在特征提取過程中可能導致特征丟失,因此DSBA模塊將空間注意模塊和通道注意模塊并行連接,以最大限度地保留圖像的原始信息。DSBA模塊將特征圖分別輸入空間注意模塊SA(KC) 和通道注意模塊SE(Ks) 中,然后將這兩個分支的輸出結果進行融合加強。DSBA模塊的公式(KDBAS) 具體如下:
式中:AvgPool(I)、MaxPool(I)分別對數據進行平均池化以及最大池化;MLP 為多層感知機;f 7 × 7 為卷積核7×7的卷積;?為乘積。
DSBA結構的總體形式如圖2中所示。
1.3 DR 模塊
DR模塊是一種密集殘差網絡,該模塊的設計思想是將所有前面層的輸出都與當前層的輸入相連接,形成一種密集連接的網絡結構。使得網絡能夠更好地利用之前層的特征,增強了特征的傳遞和信息的流動,提高了網絡的表示能力和性能。DR模塊作用包括緩解梯度消失問題、提高特征復用能力和增強信息流動性,能夠有效地提高深度卷積神經網絡的性能和效果。
密集殘差網絡中殘差塊中由于低分辨率轉高分辨率圖像時會產生映射分布發生變化,BN不能對其進行有效的歸一化,而GN可以將圖像特征圖分成若干個小組并對其進行歸一化,更適用于數據較大的網絡訓練,因此將BN模塊替換為GN模塊,為了增強數據信息的提取能力,在殘差塊中引入了DSBA模塊,有利于對圖像關鍵信息的提取。DR模塊的網絡結構如圖3所示。
2 實驗結果與分析
2.1 數據集
本文算法所使用的數據集為Yahoo MirFlickr25k 數據集。該數據集包含25 000張數據圖像,涵蓋了自然風景、建筑和城市景觀、人物等多種類型的圖像。Yahoo MirFlickr25k數據集所采用的訓練集與測試集比例為8∶2,因此訓練集一共有20 000張,測試集圖像為5 000張。確保了在訓練模型時,有足夠的樣本來學習圖像的特征和模式。
2.2 模型訓練
本文的實驗環境如表1所示。
該模型訓練輪次為150,并發數據投入模型batch_size 設置為8;MDSRGAN 模型采用優化器為Adam,它可以進行自適應的優化,其中momentum設置0.9為最佳。該實驗使用的最大學習率為2e-4,最小學習率為2e-6。使用cos作為衰減調整策略的下降方式,圖4為MDSRGAN模型的損失率函數。
2.3 評價指標
本文采用峰值信噪比(PSNR) 和結構相似度(SSIM) 作為評估本文模型性能的指標。PSNR值作為圖像品質評價指標之一,它將生成后的圖像與真實圖像進行對比。計算后的PSNR值越大,表示生成后的圖像保留的紋理細節越多,失真程度越少,其具體公式如下:
SSIM作為用來評估圖像在構造上的相似性,它更接近人類視覺系統的結構相似性,可以更好地識別和感知圖像中構造變化。SSIM值范圍在 [-1, 1] ,越接近 1 ,表示兩幅圖像越相似,圖像質量越好,其具體公式如下:
式中,μX、μY 分別表示生成圖像X 以及真實圖像Y的均值;σXY 表示生成圖像X 和真實圖像Y 的協方差;σX、σY 分別表示生成圖像X 和真實圖像Y 的方差;C1、C2為常量,根據文獻[11],通常將它們設置為C1=0.01、C2=0.03,避免異常情況的發生。這樣可以確保SSIM指標能夠正確地評估生成圖像X 和真實圖像Y 之間的結構相似性。
2.4 消融實驗
由表2可知,為了探究本文MDSRGAN模型對超分辨率圖像的研究,分別從PSNR以及SSIM兩個評價指標進行評估。
模型添加了DSBA 結構SRGAN 的PSNR 值和SSIM值分別提升了15%和0.5%,說明了DSBA結構對模型優化是有效的;由實驗1與實驗3比較可得,模型添加了DR結構SRGAN的PSNR值和SSIM值分別提升了7.5%和0.3%,驗證DR結構對模型的優化是有積極作用的;由實驗1與實驗4比較可得,SRGAN模型添加了DSBA結構以及DR模塊后的PSNR值和SSIM 值分別提升了30.9%和0.8%。綜上所述,本文模型在PSNR值以及SSIM值相較于SRGAN模型都有明顯提升。因此,本文模型能夠更有效地恢復丟失的高頻信息,更好地滿足超分辨率圖像重建的需求。
2.5 對比實驗
由表3可知,為了驗證本文模型的通用性,該對比實驗從PSNR和SSIM兩個角度評估本模型的性能。本實驗使用Bicubic、SRCNN、VDSR以及Nearest算法與MDSRGAN做對比實驗,依次取名為實驗1~5。由實驗結果可知,實驗1的Bicubic算法對圖像進行超分辨率重建PSNR 值為27.466,SSIM 值為0.728;實驗2 的SRCNN 網絡的圖像超分辨率重建PSNR 值為27.249,SSIM值為0.768;實驗3的VDSR網絡重建結果PSNR值為27.552,SSIM值為0.773;實驗4的Near?est 網絡檢測結果的PSNR 值為26.184,SSIM 值為0.728;實驗5 的本文模型(MDSRGAN) 重建結果的PSNR值為27.558,SSIM值為0.776。本文模型分別比其他四種算法PSNR 值高0.092、0.309、0.06 以及0.374,并且SSIM 值分別高0.048、0.008、0.003 以及0.098,本文模型在PSNR和SSIM上都明顯高于其他算法。綜上所述,MDSRGAN模型在提取高頻細節以及結構相似性方面有更好的效果。
2.6 實驗結果
為了驗證MDSRGAN模型對于圖像分辨率的影響,本文從測試數據集中隨機抽選出一張圖像對MDSRGAN 模型在改進前以及改進后2 種不同的情況,對模型總體性能進行分析。
通過分析圖5的實驗結果可知,SRGAN在改進后圖像的失真情況以及相似度2個不同的角度,都比原始的SRGAN模型有著極大提高。綜上所述,改進后的MDSRGAN模型在對圖像做超分辨率重建方面有著很好的性能。
3 結束語
本文在圖像處理領域對圖像超分辨率重建進行探究。由于目前超分辨率圖像重建存在高頻細節丟失、結構化失真的問題,本文提出了MDSRGAN模型對圖像超分辨率圖像進行處理。為了解決圖像超分辨率重建在高頻細節丟失與結構化失真方面的不足,本文提出了DSBA模塊對圖像進行處理,該模塊采用通道注意力機制和空間注意力機制并行的方式,既可以提高了對圖像關鍵信息的提取,又可以減弱由于卷積塊對原始信息丟失而產生失真的問題。
針對圖像重建過程中的失真問題,本文提出了DR模塊對圖像原始信息的保存,該模塊是采用密集殘差塊的方式,上層淺層特征的輸出作為下層深層特征的輸入,依次迭代,可以進行數據前向傳播的同時,極大地保留了各個階段數據的原始信息,有利于解決圖像處理過程中圖像失真問題。為了驗證模型性能的可行性,本文通過消融實驗以及與Bicubic、SRCNN、VDSR以及Nearest等算法做對比實驗,都具有良好的相似度以及真實度,驗證了MDSRGAN模型具有很好的可行性,為圖像超分辨率重建提供了新的思路。