彭晏飛,孟 欣,李泳欣,劉藍兮
(遼寧工程技術大學電子與信息工程學院,遼寧 葫蘆島 125100)
圖像超分辨率SR(Super-Resolution)重建技術旨在將給定的低分辨率LR(Low-Resolution)圖像經過一系列過程恢復出其對應的高分辨率HR(High-Resolution)圖像,是一種底層的計算機視覺任務,被廣泛應用于衛星遙感[1]、人臉識別[2]和醫學成像[3]等領域。早期,圖像SR重建分為基于插值[4]的方法、基于重建[5]的方法和基于學習[6]的方法,主要依賴約束項的構造以及圖像之間配準的精確度實現重建效果,因此難以恢復出HR圖像原本的細節信息。隨著深度學習的迅速發展,傳統SR重建方法中的瓶頸問題迎刃而解。目前,基于卷積神經網絡CNN(Convolutional Neural Network)的方法已經成為主流。Dong等人[7]最先將CNN應用于圖像SR重建問題中,提出了具有里程碑式意義的SRCNN(Super-Resolution Convolutional Neural Network),僅使用3個卷積層就實現了從LR圖像到HR圖像的重建過程。受這一開創性工作的啟發,Kim等人[8]提出了具有深層網絡的VDSR(Super_Resolution using Very Deep convolutional network),首次將殘差學習[9]應用于圖像SR重建問題中,實驗結果表明該網絡取得了更好的重建效果。同年,Kim等人[10]在VDSR的基礎上進行改進,提出了DRCN(Deeply Recursive Convolutional Network),該網絡使用16個遞歸層,通過遞歸監督和跳躍連接的方法提高了模型的性能。由于將經過插值的LR圖像作為輸入增加了計算復雜度,因此Shi等人[11]提出了ESPCN(Efficient Sub-Pixel Convolutional Neural network),直接將LR圖像作為輸入,采用亞像素卷積層代替反卷積層實現上采樣過程,大大縮短了模型的運行時間。近年來,注意力機制被廣泛應用于圖像SR重建模型中,Zhang等人[12]將通道注意力集成到殘差塊中,提出了RCAN(Residual Channel Attention Network),注重特征通道之間的相互依賴性,提高了網絡的表達能力。通道注意力機制只是在通道層面選擇感興趣的特征,忽略了空間中的位置信息,而位置信息是視覺任務中捕獲目標結構的關鍵,因此造成了位置特征利用不充分的問題。
上述方法都是采用最小化均方誤差MSE(Mean Square Error)的優化思想,雖然在峰值信噪比PSNR(Peak Signal-to-Noise Ratio)上取得了較優的結果,但是生成的圖像往往過于平滑和模糊。Goodfellow等人[13]提出的生成式對抗網絡GAN(Generative Adversarial Network),將SR重建技術推向了一個新的高度,有效緩解了重建圖像的平滑和模糊問題。Ledig等人[14]提出了SRGAN(Super-Resolution Generative Adversarial Network),首次將GAN應用于SR任務,通過生成器和判別器的相互迭代訓練實現圖像的重建。隨后,Wang等人[15]對SRGAN進行改進,提出了ESRGAN(Enhanced Super-Resolution Generative Adversarial Network),將殘差塊中的批量歸一化BN(Batch Normalization)層去掉,使用殘差中嵌入殘差的結構構建生成器,使得重建圖像具有豐富的紋理細節。Li等人[16]提出了用于高質量圖像SR重建的Beby-GAN,采用區域感知的對抗學習策略,使重建圖像具有更豐富和更合理的紋理。以上網絡均使用了經典的VGG(Visual Geometry Group)式判別器,其輸出是對圖像整體結構進行真假判斷,沒有對局部紋理進行細致的判斷,因此重建圖像的紋理細節不夠逼真。Yan等人[17]提出了FASRGAN,使用了類U-Net(U-shape Network)判別器,并將判別器的其中一個輸出作為細粒度注意力反饋給生成器,提升了重建圖像的紋理逼真程度。由于U-Net判別器對復雜的訓練輸出具有更強的鑒別能力,Wang等人[18]將其應用于盲SR任務中,重建出了清晰且真實的圖像。但是,GAN模型仍然面臨著因不易收斂和梯度消失而導致的訓練不穩定問題。
針對SR重建的現有問題,本文提出了結合坐標注意力和生成式對抗網絡的圖像超分辨率重建模型。將坐標注意力CA(Coordinate Attention)[19]嵌入到殘差塊中作為構建生成器的基本單元,可以將通道注意力分解為2個一維特征編碼過程,分別沿通道和空間產生注意力特征圖,增強模型對特征信息的利用率。引入高級視覺任務中的隨機失活層(Dropout)正則化,調節其加入網絡的方式,并應用于SR重建任務中,防止過擬合并提高模型的泛化能力。將GAN模型中經典的VGG式判別器改為U-Net式判別器,對局部紋理產生精確的梯度反饋,以生成清晰且逼真的SR圖像。并在相匹配的分辨率之間加入跳躍連接,彌補連續下采樣和上采樣造成的細節損失。最后在判別器中加入譜歸一化SN(Spectral Normalization)操作,以穩定GAN的訓練。通過以上方法充分挖掘特征信息,使重建圖像的局部紋理細節更加逼真,進一步提升圖像的視覺效果。
通道注意力廣泛應用于SR重建任務中,對重要通道即高頻特征賦予更大的權重,對圖像質量提升幅度較小的通道賦予低權重,從而提升模型的性能。但是,通道注意力忽略了對生成空間選擇性注意映射很重要的位置信息,使得特征圖中局部空間層面上的信息沒有被合理利用。而CA機制將位置信息嵌入到通道注意力中,可以捕獲方向感知、位置感知和跨通道的信息。
CA機制的實現包括2個部分。第1部分是坐標信息的嵌入,對輸入X(設其高度為H,寬度為W,通道數為C)使用池化核的2個空間范圍(H,1)和(1,W)分別沿水平和垂直方向對每個通道進行編碼,池化后的特征圖的高度為h(0≤h≤H),寬度為w(0≤w≤W),因此,第c(0≤c≤C)個通道在高度為h時的輸出可表示為式(1),同樣地,第c個通道在寬度為w時的輸出可表示為式(2):
(1)
(2)
其中,xc(h,i) 表示輸入特征圖中通道為c,坐標為(h,i)的分量;xc(j,w)表示輸入特征圖中通道為c,坐標為(j,w)的分量。
以上編碼過程分別沿著2個空間方向聚合特征,得到一對方向感知特征圖。第2部分是坐標注意力的生成,將聚合的特征映射進行級聯,并將其送入共享的1×1卷積變換函數F1(·)中,得到編碼水平和垂直2個方向空間信息的中間特征f:
f=δ(F1([zh,zw]))
(3)
其中,zh表示沿X軸方向平均池化后的輸出,zw表示沿Y軸方向平均池化后的輸出,δ(·)表示h-swish激活函數。
接著沿空間維度將f分成2個單獨的張量fh和fw,再利用2個1×1卷積Fh(·)和Fw(·)分別將其通道數轉換成與輸入X相同的通道數,經過Sigmoid函數激活之后分別得到特征圖在高度和寬度方向的注意力權重gh和gw。該過程可以表示如式(4)和式(5)所示:
gh=σ(Fh(fh))
(4)
gw=σ(Fw(fw))
(5)
最后在原始特征圖上通過乘法加權計算,最終得到在寬度和高度方向上帶有注意力權重的特征圖。由于本文設計的殘差塊去除了BN層,因此也將CA中的BN層去掉,修改后的CA機制結構如圖1所示,圖中r表示通道的縮減因子。首先對輸入特征圖分別沿X軸和Y軸方向進行平均池化;然后將2個方向的特征圖拼接在一起,并輸入卷積模塊進行降維(Concat+Conv2d);再經過非線性層(Nonlinear)編碼2個方向的空間信息;接著進行分離(Split),通過卷積(Con2d)調整2個方向特征向量的通道數;最后與原輸入加權計算(Re-weight),得到注意力權重。將CA嵌入到每個殘差塊中,使得模型可以捕獲輸入特征圖沿一個空間方向的長程依賴關系,更加精準地識別圖像中感興趣的部分。

Figure 1 Structure of coordinate attention圖1 坐標注意力結構
在高級計算機視覺任務中,Dropout可以有效降低模型過擬合的風險,但在SR重建這種底層視覺任務中會造成輸出圖像的部分像素缺失。不過,Kong等人[20]通過研究證明了只要將Dropout加入網絡的方式進行調整,便可以應用于SR重建任務中,并且有益于提升模型的性能。Dropout的影響主要取決于其在網絡中的位置、維度和概率。(1)Dropout在網絡中的位置。Hinton等人[21]將Dropout應用于分類任務輸出之前的完全連接層,類似地,在回歸任務中可以應用于輸出前的卷積層,因此本文將其應用于生成器網絡輸出前的卷積層。(2)Dropout的維度。在卷積層中可以應用在元素或通道2個維度上,Dropout元素維度是指在所有的特征圖上隨機丟棄元素,這會造成生成圖像的像素缺失問題。Dropout通道維度是指隨機丟棄一個通道,使得PSNR值不再依賴于特定的通道,可提高通道的表達能力。因此,本文選擇在通道維度應用Dropout。(3)Dropout的概率決定了元素或通道被丟棄的概率。在分類網絡中可以選擇高達50%的失活概率,由于SR網絡抵抗信息干擾的魯棒性要差于分類網絡的,所以過高的概率可能會丟失部分像素,降低SR網絡的性能。Kong等人[20]還指出,當Dropout的概率為10%,20%和30%時,更有利于SR網絡性能的提升,本文通過實驗最終選擇使用20%的Dropout概率。
GAN面臨的挑戰之一是判別器難以生成同時具有全局形狀和局部紋理的真實圖像。SR重建中常用的VGG式判別器如圖2所示,其中,ISR表示生成器重建出的圖像,IHR表示真實的高分辨率圖像。該判別器的輸出是基于圖像全局形狀的二分類結果,通過一個單一的數值來區分真假圖像,因此只是以粗略的方式向生成器提供反饋。而U-Net模型是一個編碼-解碼的結構。Sch?nfeld等人[22]提出了U-Net GAN,其中編碼器對圖像整體結構進行判斷,解碼器對圖像進行像素級決策,同時輸出圖像的全局和局部判定,如圖3所示。這一結構的判別器具有更強的鑒別能力,使得設計欺騙判別器的生成器任務更具挑戰性,從而提高生成圖像的質量。受該文獻啟發,本文使用U-Net式判別器,不再是對圖像的全局樣式進行二分類判斷,而是輸出一幅特征圖,即對每個像素進行分類,每個像素均輸出一個真實數值,可以向生成器提供一種細粒度的反饋,以此來更新生成器。這樣,判別器可以對局部紋理產生精確的梯度反饋,更好地保留局部細節,使生成的SR圖像盡可能地接近HR圖像。

Figure 2 Structure of VGG discriminator圖2 VGG式判別器結構圖

Figure 3 Structure of U-Net GAN圖3 U-Net GAN結構
基于GAN的SR重建模型增強了生成圖像的真實感,但是GAN也面臨著訓練不穩定的問題。這是由于當判別器非常準確時,生成數據和真實數據分布很難有所重疊,導致生成模型的損失函數幾乎沒有梯度,即二者難以同時達到收斂,造成了GAN訓練不穩定的結果。Arjovsky等人[23]提出了WGAN(Wasserstein Generative Adversarial Network),用Wasserstein距離代替JS(Jensen-Shannon)散度,平衡了生成器和判別器的訓練程度,有效提高了GAN訓練的穩定性。WGAN雖然性能優越,但是留下了難以解決的1-Lipschitz問題。針對這一問題,Miyato等人[24]提出了SNGAN(Spectral Normalization for Generative Adversarial Network),對判別器中的參數進行歸一化處理,將每層的參數矩陣除以自身的最大奇異值,最大限度地保存了判別器權值矩陣的信息,使得映射函數滿足了Lipschitz約束。SN使判別器滿足Lipschitz連續性,限制了函數變化的劇烈程度,同時可以防止訓練過程中出現模式坍塌現象,從而使模型更穩定。因此,本文引入SN操作,在判別器的卷積層中使用SN層代替傳統的BN層,增強GAN在訓練過程中的穩定性。

Figure 4 Structure of the proposed model圖4 本文模型結構
本文模型以生成式對抗網絡為框架,結構如圖4所示。生成器(其輸入為低分辨率圖像ILR)是以殘差塊為基本單元構建的,同時在殘差塊中加入CA機制,充分聚合通道和空間2個方向的特征。并且在上采樣操作后引入了Dropout,以增強模型的泛化能力。判別器以U-Net結構進行構造,增強對局部紋理的判斷能力。同時在判別器中加入譜歸一化,以穩定GAN的訓練。在損失函數方面,利用VGG19網絡激活前的多層特征加權求和計算感知損失,使用Charbonnier損失函數[25]作為內容損失,并加入GAN特有的對抗損失,三者共同構成生成損失,使得重建圖像具有精確的紋理細節。
由于BN層容易引起偽影,并且增加了計算復雜度,所以本文在殘差塊的設計中未使用BN層。本文提出的坐標注意力殘差塊如圖5所示,具體來說,該模塊包含了3個卷積層和1個注意力層,卷積核的大小均為3×3,通道數分別為128,256和64,在第3個卷積層后設計CA,確保網絡提取更精細的特征信息。

Figure 5 Structure of coordinate attention residual block圖5 坐標注意力殘差塊結構

Figure 6 Structure of generator圖6 生成器結構
生成器的網絡結構如圖6所示。首先使用一個卷積層提取輸入圖像的邊緣特征,然后將其輸入到坐標注意力殘差模塊中,同時關注通道信息和位置信息,更全面地提取特征。生成器的上采樣模塊,由2個亞像素卷積層構成,完成圖像像素的擴充。在最后一個卷積層前加入Dropout正則化,并將經過雙線性插值法處理的輸入圖像與最后一個卷積層的輸出相加,得到最終的輸出。生成器的激活函數均使用LeakyReLU函數。該激活函數通過引入小的斜率避免神經元的“死亡”,同時解決了梯度方向的鋸齒問題,使得模型能夠更快地收斂。
U-Net式判別器是一個下采樣-上采樣的結構,如圖7所示。其中,n表示通道數,k×k表示卷積核的尺寸,s表示步長。首先,第1個卷積層采用64個3×3的卷積核對輸入圖像進行特征提取,然后下采樣部分(Downsampling)分別使用128,256和512個步長為2,尺寸為4×4的卷積核,實現通道數量的增加以及特征圖空間的減小,從而提高網絡的表達能力。判別器的上采樣部分使用雙線性插值法進行漸進式上采樣,逐漸擴展特征圖的空間大小。為彌補連續下采樣和上采樣造成的細節損失,下采樣部分的各層級特征圖與經過上采樣獲得的特征圖通過跳躍連接的方式進行特征融合,并在卷積層后加入SN層,穩定訓練過程。網絡的末端包括3個卷積層,最后一個卷積層的通道數為1,以得到一幅與輸入圖像大小相同的灰度圖,圖中每個像素均輸出一個真實數值,以對局部紋理產生精確的梯度反饋。特征圖中顏色較亮部分意味著輸入圖像的相應像素更接近于HR圖像的,對應于像素的鑒別置信度為真,而較暗部分的鑒別置信度為假。

Figure 7 Structure of U-Net discriminator圖7 U-Net式判別器結構
損失函數的選取對模型的訓練影響很大,選擇合適的損失函數可以使模型正確且快速地收斂。本文采用多種損失函數相結合的策略,在預訓練和訓練時分別使用不同的損失函數,使模型朝著正確的方向收斂,以獲得具有豐富紋理的重建圖像。
3.3.1 內容損失
傳統的圖像SR重建方法大多是基于L2損失函數計算損失,雖然獲得了較高的PSNR值,但重建圖像過于平滑,缺乏紋理細節。而L1損失函數能加快模型的收斂速度,使重建的圖像具有相對清晰的邊緣。所以,本文模型在預訓練時,采用L1損失函數和L2損失函數相結合的策略,在保證獲取較高PSNR值的同時減輕平滑現象。L1損失函數和L2損失函數定義分別如式(6)和式(7)所示:
(6)
(7)
其中,G(ILR)表示生成器重建的圖像,IHR表示真實的HR圖像。
在訓練過程中使用Charbonnier損失函數作為內容損失,可以規避異常點,有效抑制偽影現象,具有更好的魯棒性。Charbonnier損失函數定義如式(8)所示:
LC=∑(ρ(IHR-G(ILR)))
(8)

3.3.2 感知損失
本文使用預訓練的VGG網絡提取特征,使用ReLU激活層之前的特征作為計算感知損失的依據。提取VGG19網絡conv1-2、conv2-2、conv3-4、conv4-4和conv5-4層特征進行計算,使得重建圖像具有更多的細節信息。對淺層特征賦予低權重,深層特征賦予高權重,加權求和作為最終的感知損失。感知損失定義如式(9)所示:

(9)

3.3.3 對抗損失
本文在損失函數的計算中加入了GAN特有的對抗損失,基于U-Net GAN的思想,判別器的損失定義為所有像素的平均決策,像素級別的損失計算可以使重構圖像的紋理細節更加精確。判別器損失函數定義如式(10)所示:
(10)
其中,[D(IHR)]i,j和[D(G(ILR))]i,j表示判別器在像素(i,j)處的決策。
相應地,生成器的優化目標如式(11)所示:
(11)
3.3.4 預訓練損失與訓練損失
本文的預訓練損失和訓練損失是根據上述損失函數構建的。
預訓練部分只針對生成器進行訓練,其損失定義如式(12)所示:
Lpre=L1+L2
(12)
訓練部分包括生成器和判別器2個部分,判別器的損失函數計算如式(10)所示,生成器的總損失定義如式(13)所示:
L=γ1LC+Lpercep+γ2LG
(13)
其中,γ1=0.01,γ2=0.005,LC、Lpercep和LG分別表示上文提到的Charbonnier損失、感知損失和生成器損失。
本文實驗在NVIDIA?GeForce?RTX 2080 GPU,內存為43 GB的主機上進行,使用Windows 10操作系統,以PyTorch作為深度學習框架,編程語言為 Python。實驗使用DIV2K(DIVerse 2K resolution image dataset)[26]中800幅HR圖像和對應的經過雙三次插值處理的LR圖像作為訓練數據集,該數據集中圖像紋理豐富,適合作為訓練數據集。測試集為2個廣泛使用的標準數據集Set5和Set14。實驗使用PSNR和結構相似性SSIM(Structure SIMilarity)作為評價指標。PSNR用于衡量2幅圖像間的差異,其值越大,表示2幅圖像越接近。SSIM用于衡量2幅圖像相似性,可以較好地反映人眼的主觀感受,其值越大,表示2幅圖像越相似。
訓練過程中每個批次處理16個大小為128×128的圖像塊,訓練分為2個階段:首先使用式(12)定義的損失函數訓練一個面向PSNR的模型,預訓練共迭代2.5×105次,初始學習率為2×10-4,每5×104次學習率衰減為原先的一半;然后將經過預訓練的模型作為初始生成器,根據式(13)定義的損失函數來訓練生成器,生成器的初始學習率為10-4,判別器采用和生成器不同的學習率,初始值設為4×10-4,共迭代3×105次,每5×104次學習率減半。訓練時生成器損失函數的參數設置為γ1=0.01,γ2=0.005。實驗過程均使用Adam優化器,設置參數為β1=0.9,β2=0.99,ε=10-7。
生成器是基于坐標注意力殘差塊實現的,為了驗證其作用,本節在預訓練模型中進行實驗,比較PSNR值的變化。由表1可以看出,坐標注意力殘差塊數量由8增至16時,PSNR值在Set5測試集和Set14測試集上分別提高了0.13 dB和0.12 dB;由16增至24時,PSNR值在Set5測試集上沒有增加,在Set14測試集上提升了0.02 dB,但此時參數量過于龐大。因此,本文最終使用16個坐標注意力殘差塊來構建生成器,在保證獲得較高PSNR值的同時網絡參數量不會過于龐大。
為了驗證Dropout可以提高SR網絡的性能,本節在預訓練模型中,分別對不使用Dropout和使用較小Dropout丟棄概率的情況進行實驗,所得結果如表2所示。在Set5測試集上,PSNR值隨Dropout丟棄概率的增加而增加。在Set14測試集上,當Dropout丟棄概率為10%和20%時,PSNR值均比未使用Dropout結構的模型提高了0.01 dB;當丟棄概率增加為30%時,PSNR值較未使用Dropout結構的模型降低了0.02 dB。可以看出,Dropout的引入并不會破壞網絡,并且有益于模型性能的提升,因此可以在生成器中加入了Dropout正則化。此外,在3種Dropout丟棄概率中,使用20%丟棄概率取得的平均PSNR值高于使用10%和30%丟棄概率的,因此本文最終選用了20%的Dropout概率。

Table 1 Variation of PSNR with the number of coordinate attention residual blocks表1 PSNR值隨坐標注意力殘差塊數量的變化情況

Table 2 Variation of PSNR with Dropout probability表2 PSNR值隨Dropout概率的變化情況
本文將SR重建模型中常用的VGG式判別器改為U-Net結構的判別器。為了驗證其有效性,本節在保證生成器結構相同的情況下,計算平均PSNR值,所得結果如表3所示。可以看出,在Set5和Set14測試集上,U-Net式判別器較VGG式判別器得到的PSNR值分別提高了0.33 dB和0.46 dB。

Table 3 Variation of PSNR with discriminator structure表3 PSNR值隨判別器結構的變化情況 dB
本文選取了Set14測試集中的“lenna”圖像進行對比,并放大局部細節,如圖8所示。可以看出,U-Net式判別器使得重建圖像的局部形狀更接近真實HR圖像的,線條走勢與HR圖像的基本相同,細節部分恢復得更加清晰,在主觀視覺上驗證了U-Net式判別器的有效性。

Figure 8 Reconstruction images comparison of image “lenna” in Set14 test set圖8 Set14測試集中圖像“lenna”重建對比圖
模型訓練完成后,本節在數據集Set5和Set14上將本文模型分別與經典的SR重建模型(Bicubic、SRCNN和ESPCN)、基于GAN的模型(SRGAN和ESRGAN)以及使用類U-Net式判別器的 FASRGAN模型進行實驗比較。平均PSNR和SSIM值分別如表4和表5所示,其中加粗數據表示最優結果。從表4和表5可知,基于插值的Bicubic模型性能低于其他基于學習的模型(SRCNN、ESPCN、SRGAN、ESRGAN和FASRGAN)的。由表4可知,本文模型的PSNR值比SRCNN的平均提高1.82 dB,比ESPCN的平均提高1.84 dB,比SRGAN的平均提高1.87 dB,比 ESRGAN的平均提高1.14 dB,比 FASRGAN的平均提高1.44 dB。由表5可知,本文模型的SSIM值比SRCNN的平均提高0.035 4,比ESPCN的平均提高0.041 9,比 SRGAN的平均提高0.022 5,比ESRGAN的平均提高0.033 3,比FASRGAN的平均提高0.037 1。綜上,當圖像放大因子為 4 時,本文模型在PSNR和SSIM評價指標上均取得了較優的結果,表明了本文模型的有效性。
本文從Set5和Set14測試集上選取了部分細節豐富的重建圖像,與其他模型的可視化對比如圖9~圖11所示。可以看出,Bicubic模型重建的圖像非常模糊,鋸齒狀嚴重;SRCNN和ESPCN模型較Bicubic有所改進,但重建出的圖像仍較為模糊和平滑;SRGAN模型重建的圖像減輕了模糊程度,但出現了偽影問題,視覺效果沒有得到明顯提升;而ESRGAN、FASRGAN和本文模型重建的圖像明顯更加清晰,恢復出了更多的紋理細節,具有良好的視覺效果。不過,ESRGAN和FASRGAN模型生成的部分紋理是HR圖像中不存在的,而本文模型是基于像素進行鑒別的,一定程度上避免了生成不真實的紋理。觀察圖9的局部放大處不難發現,本文模型恢復出了ESRGAN和FASRGAN模型未能恢復出的線條,局部紋理與HR圖像的最為相似。從圖11可以看出,本文模型重建的圖像更為清晰,鼻梁處沒有多余的線條,五官輪廓更接近于HR圖像的。這些實驗結果在主觀視覺上表明了本文模型的有效性,說明其可以恢復出清晰且逼真的SR圖像。

Figure 9 Reconstruction comparison of image “monarch” in Set14 test set圖9 Set14測試集中圖像“monarch”重建對比圖

Table 4 Comparison of average PNSR of each super-resolution reconstruction model

Table 5 Comparison of average SSIM of each super-resolution reconstruction model表5 各超分辨率重建模型平均SSIM 值對比

Figure 10 Reconstruction images comparison of image “baby” in Set5 test set圖10 Set5測試集中圖像“baby”重建對比圖

Figure 11 Reconstruction images comparison of image “comic” in Set14 test set圖11 Set14測試集上圖像“comic”重建對比圖
本文提出的結合坐標注意力與生成式對抗網絡的圖像超分辨率重建模型利用了空間中的位置信息,對局部紋理進行了細粒度的判斷,穩定了GAN的訓練過程。通過將坐標注意力嵌入到殘差塊中,捕獲了跨通道的信息,充分地利用了特征信息。在生成器引入高級視覺任務中的Dropout正則化,有效提升了模型性能。利用U-Net式判別器實現了像素級的鑒別過程,更專注于局部紋理。在判別器中引入譜歸一化操作,使訓練過程更加穩定。在損失函數方面結合了內容損失、感知損失和對抗損失,使得重建圖像具有真實的細節和清晰的輪廓。實驗結果表明,本文模型在PSNR和SSIM評價指標上均取得了較好的結果,在基準測試集Set5和Set14上取得的峰值信噪比平均提高了1.75 dB,結構相似性平均提高了0.038,生成的SR圖像更接近于真實圖像,具有良好的視覺效果。