周穎, 裴盛虎, 陳海永,2, 許士博
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300130;2.河北省控制工程技術(shù)研究中心,天津 300130)
單幅圖像超分辨率(Single Image Super-Resolution,SISR)是圖像處理中的關(guān)鍵技術(shù)之一,其目的是通過低分辨率(Low-Resolution,LR)圖像重建高分辨率(High-Resolution,HR)圖像,在視頻監(jiān)測[1]、衛(wèi)星遙感[2]和醫(yī)學(xué)成像[3]等不同領(lǐng)域有強烈的需求。傳統(tǒng)SISR方法主要有基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法,但這些方法重建的超分辨率圖像質(zhì)量較低。隨著深度學(xué)習(xí)的到來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)因其顯著的特征表達能力受到了越來越多的關(guān)注。卷積超分辨率網(wǎng)絡(luò)(Super-Resolution Convolutional Neural Network,SRCNN)[4]首次將深度學(xué)習(xí)應(yīng)用于SISR任務(wù),促進了大量基于CNNs的SISR研究的涌現(xiàn),但因其輸入為LR圖像上采樣后的圖像導(dǎo)致網(wǎng)絡(luò)仍具有較高的計算復(fù)雜度。為實現(xiàn)更快的運行速度,Shi等[5]提出了一種快速卷積超分辨率網(wǎng)絡(luò),通過在LR圖像空間中提取特征來減少計算量,并使用反卷積作為網(wǎng)絡(luò)最后的上采樣操作。然而,淺層的網(wǎng)絡(luò)由于存在嚴重的梯度消失問題,早期基于CNNs的SISR方法的性能無法得到進一步提升。
深度卷積神經(jīng)網(wǎng)絡(luò)因其高級特征中包含更多的信息量進一步提高了SISR任務(wù)的重建性能。Kim等[6]提出深度卷積超分辨率網(wǎng)絡(luò)(Super-Resolution Using Very Deep Convolutional Network,VDSR),通過在網(wǎng)絡(luò)中引入殘差學(xué)習(xí),解決了梯度消失問題,相較于早期的淺層網(wǎng)絡(luò)其性能得到了顯著提升;Tai等[7]提出深度遞歸殘差網(wǎng)絡(luò)(Deep Recursive Residual Network,DRRN),利用全局跳躍連接和局部殘差學(xué)習(xí)減少了參數(shù)量,并表現(xiàn)出良好的性能;Lim等[8]提出增強型深度超分辨率網(wǎng)絡(luò) (Enhanced Deep Super-Resolution Network,EDSR),通過去除網(wǎng)絡(luò)中的批量歸一化(Batch Normalization, BN)層,進一步提高了模型的性能。但上述方法均使用單尺度卷積進行特征提取,難免會造成重要信息的丟失,程德強等[9]將多尺度特征融合并采用密集連接以恢復(fù)圖像的高頻細節(jié);Cai等[10]將多感受野分支的特征進行通道拼接以學(xué)習(xí)局部區(qū)域特征;Liu等[11]采用遞歸多尺度網(wǎng)絡(luò)將不同尺度分支的輸出作為其他尺度分支的輸入;許嬌等[12]將多尺度特征與殘差網(wǎng)絡(luò)結(jié)合以實現(xiàn)圖像的重建過程。
隨著網(wǎng)絡(luò)深度與寬度的增加,特征圖的維數(shù)也在增加,注意力機制的引入提高了網(wǎng)絡(luò)處理更多特征信息的能力。Niu等[13]在殘差塊中同時加入了層注意力與通道空間注意力,大大提高了SISR性能;王杰等[14]將空間注意力與空間金字塔網(wǎng)絡(luò)相結(jié)合以增強重建圖像過程中的特征表達能力;Su等[15]提出全局可學(xué)習(xí)注意力以修復(fù)重建圖像中受損的非局部紋理細節(jié);Behjati等[16]引入方向方差注意力來提高LR特征在長距離空間中的依賴性以提高特征的鑒別性。然而,上述注意力忽略了通道與空間維度信息的相關(guān)性和跨維度注意力之間的交互作用而難以鑒別重要特征。
本文在上述研究的基礎(chǔ)上提出了一種基于多尺度自適應(yīng)注意力的圖像超分辨率重建網(wǎng)絡(luò)(Imageresolution network based on multi-scale adaptive attention, MAAN)。MAAN使用多尺度特征融合塊(Multi-scale Feature Fusion Block, MFFB)作為特征提取的基本層,交叉學(xué)習(xí)特征提取中的多尺度信息,并將每個MFFB的輸出進行密集連接以充分融合淺層特征與深層特征。MFFB的基本單元(Basic Unit, BU)由自適應(yīng)雙尺度塊(Adaptive Dual-scale Block,ADB)、多路徑漸進式交互塊(Multi-path Progressive Interactive Block, MPIB)和自適應(yīng)雙維度注意力(Adaptive Dual-dimensional Attention,ADA)串聯(lián)組成。其中,ADB獲得了豐富的上下文特征;MPIB提高了ADB的輸出中上下文特征之間的關(guān)聯(lián)性;ADA將一維注意力與二維注意力相結(jié)合,并自主選擇跨維度之間的信息進行交互,進一步提高了特征的鑒別力。
MAAN結(jié)構(gòu)如圖1所示,在淺層特征提取部分,給定輸入LR圖像ILR∈R3×H×W,使用3×3卷積提取ILR中的淺層特征F0∈RC×H×W:

圖1 MAAN網(wǎng)絡(luò)架構(gòu)Fig. 1 Network architecture of MAAN
其中:C3×3(?)為3×3卷積操作,φ(?)表示參數(shù)整流線性單元(Parametric Rectified Linear Unit,PReLU)激活函數(shù)。
在深層多尺度特征提取與融合部分,將F0輸入到多個堆疊的MFFB中,使輸出特征更具上下文信息:
其中:Mi(?)和Fi∈RC×H×W分別代表第i∈[1,8]個MFFB和第i個MFFB的輸出特征。為提高輸出特征中上下文信息的關(guān)聯(lián)性,將每個Fi在通道維度上進行級聯(lián)并通過1×1卷積處理獲得不同層次之間的融合特征:
式中:C1×1(?)為1×1卷積操作,[?]代表在通道維度上進行級聯(lián)操作。利用全局殘差學(xué)習(xí)將淺層特征F0與深層特征Ffuse融合:
在高分辨率圖像重建部分,利用上采樣因子將F重建為高分辨率圖像ISR∈R3×H×W:
其中,ps表示pixel-shuffle上采樣因子。
在MAAN中,設(shè)計了MFFB作為深層特征提取的基本傳遞塊,MFFB的結(jié)構(gòu)如圖1左下部分所示,第一行是LR特征流,第二行是倍LR特征流,第三行是倍LR特征流。3個特征流通過上采樣和下采樣操作交叉學(xué)習(xí)LR空間不同尺度特征的信息。MFFB中2次交叉學(xué)習(xí)的使用充分提取了每個層次特征包含的上下文信息,將3個特征流分別定義為H0,H1,H2,M0,M1,M2和S0,S1,傳遞過程如下:
其中:fBU(?)為MFFB的基本單元,fdown(?)和fup(?)分別為下采樣和上采樣操作,具體操作和維度變化如圖1右下部分所示。最后,將交叉融合后的多尺度特征進行相加得到輸出特征:
MFFB的基本單元BU如圖2所示,BU由自適應(yīng)雙尺度塊ADB、多路徑漸進式交互塊MPIB和自適應(yīng)雙維度注意力ADA串聯(lián)組成,利用ADB實現(xiàn)不同尺度的自適應(yīng)融合,將融合特征通過MPIB進一步加強后,采用ADA找出應(yīng)該強調(diào)突出的區(qū)域;為加快模型的收斂速度,引入了殘差學(xué)習(xí)。

圖2 BU結(jié)構(gòu)圖Fig.2 Architecture of BU
2.2.1 ADB結(jié)構(gòu)
現(xiàn)有的多尺度SR方法雖然在網(wǎng)絡(luò)架構(gòu)上有所不同,但只是以線性的方式簡單地疊加或拼接多個尺度的特征,導(dǎo)致特征信息的冗余與模型參數(shù)量的加大。為此,本文設(shè)計了ADB以自適應(yīng)地給兩個尺度的特征分配權(quán)重,實現(xiàn)雙尺度特征的自適應(yīng)融合。
ADB結(jié)構(gòu)如圖3所示,給定輸入特征圖X∈RC×H×W,首先對X分別執(zhí)行兩次卷積核為3×3,5×5的卷積處理得到2個特征圖,獲得2個不同尺度的特征X1,X2∈R2C×H×W:

圖3 ADB結(jié)構(gòu)圖Fig.3 Architecture of ADB
其中:f1(?)包含3×3卷積和PReLU激活函數(shù),f2(?)包含5×5卷積和PReLU激活函數(shù)。
然后將X1和X2輸入到自適應(yīng)權(quán)重單元(Adaptive Weights Unit, AWU)獲得各自的權(quán)重值λ1,λ2,最后利用λ1,λ2實現(xiàn)雙尺度特征的自適應(yīng)融合:
2.2.2 AWU結(jié)構(gòu)
AWU采用加權(quán)映射策略,為降低計算復(fù)雜度,用全局平均池化充當降維算子,將不同尺度的特征轉(zhuǎn)換為具有全局感受野的統(tǒng)計量,各統(tǒng)計量通過關(guān)鍵信息篩選與Softmax加權(quán)映射后獲得不同尺度特征的權(quán)重。
AWU結(jié)構(gòu)如圖4所示,不同輸入xi,i∈[1,n],利用全局平均池化壓縮輸入特征的空間維度信息后,得到全局代表特征向量,將每個特征向量在通道維度上進行拼接并經(jīng)過1×1卷積后,得到融合特征:

圖4 AWU結(jié)構(gòu)圖Fig.4 Architecture of AWU
其中,GAP(?)表示全局平均池化操作。
融合特征經(jīng)過第1個全連接層(Fully Connected Layer, FC)、整流線性單元(Rectified Linear Unit, ReLU)激活函數(shù)和第2個FC后,得到由n個元素組成的初始向量,該初始向量中元素值的變化范圍較大,因此將該向量經(jīng)過Sigmoid激活函數(shù)處理后,得到各元素值均位于[0,1]之間的簡化向量ε,εi的大小映射了Sigmoid權(quán)重參數(shù)的大小,ε經(jīng)過Softmax處理后得到各輸入特征的最終權(quán)重ωi:
其中:σ(?)表示Sigmoid激活函數(shù),δ(?)表示ReLU激活函數(shù),W1(?)和W2(?)表示兩個FC層,εi表示ε中的第i個元素。
MPIB將輸入特征f∈RC×H×W在通道維度上均分為4組并輸入到不同的路徑進行處理,與現(xiàn)有的分組卷積相比,MPIB不僅減少了因所有通道進行相同處理而造成的特征冗余,而且增強了處理不同尺度特征的能力。此外,MPIB將不同路徑的輸出特征以漸進的方式交互空間信息,并通過通道混洗(Channel Shuffle, CS)交互通道信息,具體細節(jié)如圖5所示。

圖5 MPIB結(jié)構(gòu)圖Fig. 5 Architecture of MPIB
MPIB首先將4個子特征分別經(jīng)過不同數(shù)量的3×3卷積(卷積數(shù)量越多,感受野越大,處理大尺度特征的能力越強)處理后得到然后,F(xiàn)1僅進行1×1卷積處理,對于i≥2的特征Fi與相鄰路徑的特征F(i-1)′交互特征在不同通道間的空間信息后采用1×1卷積進一步整合特征并調(diào)整通道數(shù),該過程可以描述為:
最后,為提高特征的表達能力,將不同路徑下的輸出特征在通道維度上進行拼接并進行CS處理,交互不同路徑的輸出特征的通道信息,進一步增強特征在通道之間的相互作用:
其中,cs(?)表示Channel Shuffle操作。
ADA通過串聯(lián)一維注意力和二維注意力對不同維度的相互依賴性進行建模,突出上下文特征中應(yīng)該強調(diào)的區(qū)域。兩個維度的注意力均由3條分支組成,分別用于捕捉在(H,W),(C,W)和(H,C)維度之間的跨維度信息;并利用AWU實現(xiàn)跨維度信息的自主融合。ADA通過利用通道維度和空間維度之間的相互依賴性,可以有效地關(guān)注上下文特征。具體細節(jié)如圖6所示。

圖6 ADA結(jié)構(gòu)圖Fig.6 Architecture of ADA
然后將F分別與相乘得到細化特征
在二維注意力中,同樣以(H,W)維度為例,首先對F1在通道軸上分別使用平均值和最大值得到2個特征,將其進行通道拼接并經(jīng)過7×7卷積和Sigmoid后得到以類似的方式可以獲得
式中:A(?)和M(?)分別為平均值和最大值,C7×7(?)為核為7×7卷積操作。
然后F1分別與所有二維注意力相乘得到細化特征
最后利用AWU獲得二維注意力細化特征圖的權(quán)重值以獲得自主融合特征F2:
為方便與最先進的方法進行公平對比,本文采用DIV2K[17]數(shù)據(jù)集中的800張高質(zhì)量的HR圖像作為MAAN的訓(xùn)練數(shù)據(jù)集,LR圖像是對相應(yīng)的HR圖像進行雙三次線性下采樣得到的。采用4個常見的基準數(shù)據(jù)集:Set5[18],Set14[19],BSD100[20]和Urban100[21]作為測試集,在比例因子分別為×2,×3,×4上使用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)[22]和結(jié)構(gòu)相似性指數(shù)(Structure Similarity Index Measure, SSIM)[23]評價指標進行測試。
每個MFFB中包含8個BU,模型中所有中間特征圖的通道數(shù)均為C=64。訓(xùn)練前,通過隨機角度旋轉(zhuǎn)或翻轉(zhuǎn)增加訓(xùn)練數(shù)據(jù)的多樣性,并隨機裁剪48×48的補丁作為網(wǎng)絡(luò)的輸入LR圖像;訓(xùn)練時,批尺寸大小設(shè)置為16,初始學(xué)習(xí)率為lr=10-4并在每200個迭代后減半,采用自適應(yīng)力矩估計(Adaptive Moment Estimation, Adam)[24]優(yōu)化器對網(wǎng)絡(luò)進行1000個迭代訓(xùn)練,其中β1=0.9,β2=0.999,ε=10-8。本文網(wǎng)絡(luò)在Py-Torch框架上實現(xiàn),并在計算機系統(tǒng)配置:Windows10 64-bit,12th Gen Intel Core i5-12490F CPU,NVIDA RTX 3090 GPU上利用均方誤差(Mean Squared Error, MSE)損失進行訓(xùn)練。
3.3.1 MFFB數(shù)量消融實驗
為實現(xiàn)模型參數(shù)量(M:百萬)與重建性能的均衡,本文首先探索了MFFB的數(shù)量對整個網(wǎng)絡(luò)的影響,表1為Set5數(shù)據(jù)集在比例因子為×2時網(wǎng)絡(luò)中含有不同數(shù)量MFFB時PSNR的測試結(jié)果與模型參數(shù)量的變化。可以看出,MFFB=7比MFFB=6的PSNR值增加了0.19 dB,繼續(xù)增加MFFB的數(shù)量,MFFB=8比MFFB=7的PSNR值增加了0.17 dB,參數(shù)量增加了1.09 M,而MFFB=9比MFFB=8的PSNR值僅增加了0.03 dB,但參數(shù)量卻增加了1.22 M。為在重建性能與模型復(fù)雜度之間取得平衡,選用8個MFFB作為最終網(wǎng)絡(luò)構(gòu)成。

表1 MFFB數(shù)量消融實驗Tab.1 Ablation experiments of the numbers of MFFB
3.3.2 BU結(jié)構(gòu)消融實驗
本節(jié)通過BU結(jié)構(gòu)的消融實驗證明BU中ADB,MPIB和ADA三個模塊的有效性,分別刪除BU中的ADB(結(jié)構(gòu)1)、MPIB(結(jié)構(gòu)2)和ADA(結(jié)構(gòu)3),與完整的BU結(jié)構(gòu)進行實驗對比,由表2上半部分的測試結(jié)果可以看出,結(jié)構(gòu)1、結(jié)構(gòu)2和結(jié)構(gòu)3的PSNR/SSIM評價指標均低于完整的BU結(jié)構(gòu),證明了BU中包含的ADB,MPIB和ADA三個模塊的有效性。

表2 BU結(jié)構(gòu)消融實驗結(jié)果Tab.2 Results of ablation experiments of the structure of BU
為證明AWU在ADB和ADA中均發(fā)揮了作用,進行了AWU的消融實驗,由表2下半部分的測試結(jié)果可以看出,同時刪除ADA和ADB中的AWU(結(jié)構(gòu)4),PSNR/SSIM評價指標在4個基準數(shù)據(jù)集上均為最低值,而僅刪除ADA中的AWU(結(jié)構(gòu)5)或僅刪除ADB中的AWU(結(jié)構(gòu)6)與結(jié)構(gòu)4相比,PSNR/SSIM評價指標均有所上升,證明AWU分別提升了ADA和ADB的性能;而ADB和ADA中均不刪除AWU(完整的BU)與結(jié)構(gòu)5或結(jié)構(gòu)6相比,PSNR/SSIM評價指標為最優(yōu)值,說明在ADB和ADA中同時加入AWU進一步提高了模型的性能。
3.3.3 ADB結(jié)構(gòu)消融實驗
本文通過消融實驗證明ADB中各尺度分支的有效性,其中3×3,5×5和7×7分別表示ADB中只含有3×3,5×5或7×7卷積1條分支,3×3+5×5表示含有3×3卷積和5×5卷積(空洞率為2的3×3卷積代替)2條分支,3×3+5×5+7×7表示含有3條分支(5×5卷積由空洞率為2的3×3卷積代替,7×7卷積由空洞率為3的3×3卷積代替)。
表3為Set5數(shù)據(jù)集在比例因子為×3時PSNR值的測試結(jié)果,可以看出,與單尺度分支中性能最好的7×7相比,雙尺度分支3×3+5×5在參數(shù)量僅增加了0.97 M的情況下,PSNR值卻增加了0.38 dB;然而,三尺度分支3×3+5×5+7×7比3×3+5×5的參數(shù)量增加了10.49 M,但PSNR值卻只增加了0.14 dB。綜合考慮模型大小與實驗性能,本文ADB選擇使用雙尺度分支3×3+5×5,此外,在3×3+5×5的基礎(chǔ)上加入AWU,即3×3+5×5+AWU,與3×3+5×5相比,參數(shù)量在略微增加0.19 M的情況下,重建性能卻可以達到與3×3+5×5+7×7相近的效果。

表3 ADB結(jié)構(gòu)消融實驗結(jié)果Tab.3 Results of ablation experiments of the structure of ADB
3.3.4 MPIB結(jié)構(gòu)消融實驗
本文通過消融實驗證明將MPIB的輸入特征分為4組是平衡模型復(fù)雜度與重建性能的最佳選擇。考慮到中間特征的通道數(shù)均為C=64,為確保分組后各子特征的通道數(shù)一致,將分組數(shù)量分別設(shè)置為2,4,8,表4為Set5數(shù)據(jù)集在比例因子為×2時,對于MPIB包含不同分組數(shù)量的PSNR的測試結(jié)果與模型參數(shù)量的變化。可以看出,分組數(shù)為4相較于分組數(shù)為2,在參數(shù)量僅增加1.82 M的情況下,PSNR值增加了0.55 dB;而分組數(shù)為8相較于分組數(shù)為4,參數(shù)量增加了4.94 M,但PSNR值僅增加了0.16 dB。綜合考慮模型的復(fù)雜度與重建性能,將MPIB的輸入特征分為4組作為最佳選擇。

表4 MPIB分組數(shù)量消融實驗Tab.4 Ablation experiments of the groups of MPIB
3.4.1 不同注意力對比實驗
為證明本文提出的ADA的有效性,用高效通道注意力(Efficient Channel Attention,ECA)[25],卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)[26]和平衡注意力機制(Balanced Attention Mechanism,BAM)[27]替換MAAN中的ADA進行對比。
表5為4個基準數(shù)據(jù)集在比例因子為×3時的實驗結(jié)果,可以看出,在沒有注意力的基本網(wǎng)絡(luò)中加入通道注意力(+ECA),參數(shù)量增加了0.02 M,4個基準數(shù)據(jù)集的PSNR/SSIM評價指標增加的均值為0.10 dB/0.000 8;+CBAM和+BAM與基礎(chǔ)網(wǎng)絡(luò)相比,雖參數(shù)量分別增加了0.08 M和0.13 M,但PSNR/SSIM評價指標的均值分別增加了0.16 dB/0.001 3和0.17 dB/0.001 5,說明CBAM和BAM中通道注意力與空間注意力結(jié)合的有效性;+ADA與基礎(chǔ)網(wǎng)絡(luò)相比,參數(shù)量僅增加了0.04 M,但PSNR/SSIM評價指標的均值卻增加了0.32 dB/0.003 3,證明了ADA通過結(jié)合一維注意力與二維注意力和自適應(yīng)地交互跨維度信息,不僅比通道-空間注意力具有更少的參數(shù)量,而且表現(xiàn)出了更好的性能,使網(wǎng)絡(luò)關(guān)注更多的盲區(qū)信息。圖7展示了網(wǎng)絡(luò)中加入不同注意力時的視覺效果比較,其中參考圖像(Ground Truth, GT)為真實高分辨率圖像中紅色框內(nèi)區(qū)域的放大表示,可以看出,本文提出的ADA獲得了最好的視覺效果,重建的高分辨率圖像具有更多的紋理細節(jié)。

表5 不同注意力的評價指標對比Tab.5 Comparison of the evaluation metrics of different attention
3.4.2 不同算法對比實驗
本文在Set5,Set14,BSD100和Urban100數(shù)據(jù)集上將MAAN與10個代表方法進行比較,包括Bicubic,SRCNN[4],VDSR[6],DRRN[7]、注意力輔助特征學(xué)習(xí)網(wǎng)絡(luò)(Attentive Auxiliary Feature Learning, A2F-L)[28],EDSR[8]、殘差密集網(wǎng)絡(luò)(Residual Dense Network, RDN)[29]、高效分組跳躍網(wǎng)絡(luò)(Efficient Group Skip Connecting Network, E-GSCN)[30]、密集殘差拉普拉斯網(wǎng)絡(luò)(Densely Residual Laplacian Network, DRLN)[31]、Swin重建網(wǎng)絡(luò)(Image Restoration Using Swin Transformer, SwinIR)[32]和聯(lián)合三邊特征濾波網(wǎng)絡(luò)(Single Image Super-Resolution Based on Joint Trilateral Feature Filtering, JTF-SISR)[33]。
表6為各方法在4個基準數(shù)據(jù)集上比例因子分別為×2,×3,×4的定量評估結(jié)果,其中最優(yōu)值和次最優(yōu)值分別用粗體和下劃線標記。可以看出,本文算法MAAN在3個不同放大比例任務(wù)上均取得了較好的定量數(shù)據(jù)。在Set5數(shù)據(jù)集的3個放大比例任務(wù)中,MAAN相較于次最優(yōu)算法SwinIR,PSNR/SSIM評價指標分別增加了0.02 dB/0.000 6,0.04 dB/0.000 5和0.04 dB/0.000 2;對于Set14數(shù)據(jù)集,在×2放大比例任務(wù)中,MAAN比次最優(yōu)算法DRLN的PSNR值減少了0.02 dB,但SSIM值卻增加了0.000 7,在×3和×4比例任務(wù)中,MAAN相較于次最優(yōu)算法SwinIR,PSNR/SSIM評價指標分別增加了0.03 dB/0.000 6和0.21 dB/0.021 4;對于包含更多復(fù)雜紋理細節(jié)的BSD100和Urban100數(shù)據(jù)集,本文算法MAAN在3個放大比例任務(wù)中的PSNR值與SSIM值均為最優(yōu)值,尤其是在×4放大比例任務(wù)中,MAAN比次最優(yōu)算法SwinIR的PSNR/SSIM評價指標分別增加了0.04 dB/0.001 4和0.05 dB/0.004 5,體現(xiàn)了本文方法在恢復(fù)高頻紋理細節(jié)方面的優(yōu)勢。定量數(shù)據(jù)結(jié)果表明,本文算法與不同比例任務(wù)中的次最優(yōu)算法相比,不僅減少了模型的參數(shù)量,而且進一步提升了模型的重建性能。

表6 比例因子為×2, ×3, ×4時各方法的評價指標對比Tab.6 Comparison of evaluation metrics of each method with scale factors of ×2, ×3, ×4
為進一步說明MAAN在恢復(fù)紋理細節(jié)方面的優(yōu)勢,本文將MAAN和Bicubic,SRCNN,VDSR,RDN,DRLN和SwinIR 6個代表性方法在較小數(shù)據(jù)集Set14、較大數(shù)據(jù)集BSD100和Ur-ban100上的重建視覺效果進行比較。由于放大倍數(shù)越大,重建圖像中的紋理細節(jié)越難恢復(fù),因此為了進一步說明在重建紋理細節(jié)方面的優(yōu)勢,本文重點展示各方法在×4比例因子上的視覺效果圖。
如圖8所示,對于較小數(shù)據(jù)集Set14的重建結(jié)果,可以看出,當img014中斑馬前肢上有細小的條紋時,Bicubic, SRCNN和VDSR等參數(shù)量較少的方法重建后的斑馬前肢不僅丟失了條紋細節(jié),而且具有嚴重的模糊偽影問題;RDN,DRLN和SwinIR等參數(shù)量較大的方法,雖然較好地消除了重建圖像中的模糊偽影,但仍存在缺失條紋細節(jié)的問題;而本文方法MAAN與上述方法相比,更好地緩解了偽影問題,重建了更多紋理細節(jié)。對于較大數(shù)據(jù)集BSD100和Urban100的重建結(jié)果,現(xiàn)有方法重建的img096中花池地板的模糊感較重,而本文方法重建的圖像可以清晰的觀察到地板中的紋路信息;現(xiàn)有方法在重建img044中天花板時,產(chǎn)生了泛白的背景信息,而本文方法不僅還原了真實的背景,而且準確重建了天花板中的細小柵線;現(xiàn)有方法重建的img076中投影塊的結(jié)構(gòu)細節(jié)模糊不清,而本文算法準確重建了各個投影塊的紋理細節(jié)與相鄰?fù)队皦K之間的邊緣信息。視覺效果對比表明,本文MAAN不僅減輕了模糊偽影問題,而且使重建圖像的內(nèi)容信息更清晰,紋理細節(jié)和邊緣輪廓更細膩。

圖8 比例因子為×4時各方法的視覺效果對比Fig. 8 Comparison of visual effect of each method with a scale factor of ×4
3.4.3 模型復(fù)雜度對比實驗
為全面衡量不同方法的重建性能,將本文方法MAAN與非輕量化模型EDSR,RDN,EGSCN,DRLN和SwinIR在BSD100數(shù)據(jù)集上比例因子為×4時的模型參數(shù)量、計算量和平均推理時間進行比較。由表7可知,與重建性能最優(yōu)的SwinIR相比,MAAN在保證重建性能的前提下,模型參數(shù)量、計算量和平均每張圖像的處理時間分別減少了18.3%,38.3%和24.1%,在模型參數(shù)量、計算復(fù)雜度與重建性能之間實現(xiàn)了更好的權(quán)衡。

表7 3種方法的復(fù)雜度對比Tab.7 Complexity comparison of the 3 methods
為使重建圖像中包含更多的上下文信息,本文提出了一種多尺度自適應(yīng)漸進式注意力網(wǎng)絡(luò)MAAN。提出的多尺度特征融合塊MFFB,利用由自適應(yīng)雙尺度塊ADB、多路徑漸進式交互塊MPIB和自適應(yīng)雙維度注意力串聯(lián)組成的基本單元BU交叉學(xué)習(xí)多尺度的層次特征。其中,ADB豐富了上下文特征,MPIB增強了上下文特征之間的關(guān)聯(lián)性,ADA提高了特征的鑒別性。定量指標與視覺效果的對比結(jié)果顯示,本文方法在不同比例的超分辨率重建任務(wù)中,與其他主流方法相比效果均有提升,尤其在Set14測試集的×4比例任務(wù)上,本文方法與現(xiàn)有最優(yōu)方法SwinIR相比,PSNR和SSIM指標分別提升了0.21 dB和0.0214;并且本文方法重建的圖像具有更多的紋理細節(jié)與邊緣信息。然而,MAAN與輕量化模型相比,仍具有較大的參數(shù)量,在未來的工作中,在確保重建性能的前提下,將進一步減少模型的復(fù)雜度。