





摘" 要: 針對(duì)現(xiàn)有的圖像超分辨重建算法特征信息提取不充分的問(wèn)題,基于SRResNet[1]網(wǎng)絡(luò)的生成器部分,引入混合注意力模塊和密集殘差模塊,以提取圖像的多尺度特征。混合注意力模塊集成通道注意力和自注意力機(jī)制,可以聚焦關(guān)鍵特征;密集殘差模塊通過(guò)堆積多個(gè)殘差密集塊學(xué)習(xí)多級(jí)特征,并采用改進(jìn)的密集連接方式提高特征復(fù)用效率。模型在各基準(zhǔn)數(shù)據(jù)集上對(duì)比當(dāng)前的優(yōu)秀重建算法有0.1~1db的提升,為單圖像超分辨率任務(wù)提供了有效的方案。
關(guān)鍵詞: 密集殘差網(wǎng)絡(luò); 注意力機(jī)制; 圖像超分辨重建; 改進(jìn)密集連接
中圖分類(lèi)號(hào):TP391.41" " " " " 文獻(xiàn)標(biāo)識(shí)碼:A" " "文章編號(hào):1006-8228(2023)12-105-04
Research on image super-resolution based on dense residual
network and attention mechanism
Yu Chenghai, Hu Yi, Lu Zhilong, Ye Zezhi
(School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: To address the problem of insufficient feature information extraction in existing image super-resolution reconstruction algorithms, the hybrid attention modules and dense residual modules are introduced into the generator part of the SRResNet network to extract multi-scale features of images. The hybrid attention module integrates channel attention and self-attention mechanisms to focus on critical features. The dense residual module learns multi-level features by stacking multiple dense residual blocks and adopts improved dense connection method to improve feature reuse efficiency. The model achieves 0.1-1db improvement over current excellent reconstruction algorithms on various benchmark datasets, providing an effective solution for single image super-resolution tasks.
Key words: dense residual network; attention mechanism; image super-resolution reconstruction; improved dense connection
0 引言
圖像超分辨率重建是一種典型的底層計(jì)算機(jī)視覺(jué)任務(wù),其目標(biāo)是從低分辨率圖像中重建出高分辨率圖像,使圖像包含更多像素和更豐富的視覺(jué)信息。該技術(shù)已被廣泛應(yīng)用于多領(lǐng)域。在醫(yī)學(xué)成像中,它可以在降低對(duì)患者輻射的同時(shí)提高醫(yī)生診斷圖像的分辨率;在公共安全監(jiān)控中,它可以提高視頻質(zhì)量以方便后續(xù)的車(chē)牌識(shí)別等機(jī)器視覺(jué)任務(wù),也可以為警方提供更清晰的證據(jù);在軍事偵察中,它可以實(shí)現(xiàn)對(duì)艦船、車(chē)輛等小目標(biāo)的檢測(cè)以及對(duì)目標(biāo)細(xì)節(jié)的觀測(cè)。
超分辨任務(wù)的主要工作是從輸入圖像中提取特征信息,并利用得到的高頻細(xì)節(jié)完成高清圖像重建,隨著深度學(xué)習(xí)的不斷發(fā)展,越來(lái)越多的模型被提出,如Tong[2]提出了經(jīng)典的基于密集網(wǎng)絡(luò)的重建網(wǎng)絡(luò)SRDenseNet[3](Super-resolutionDenseNet)。該網(wǎng)絡(luò)首先使用一個(gè)卷積層學(xué)習(xí)低層特征,接著用多個(gè)密集塊學(xué)習(xí)高層特征。SRDenseNet通過(guò)密集連接的方式可以很好地將低層信息與高層信息融合,同時(shí)減少參數(shù)的數(shù)量。該結(jié)構(gòu)能減輕梯度消失、加強(qiáng)特征傳播、支持特征復(fù)用,提高了重建性能。
Zhang等人[4]提出了殘差通道注意力網(wǎng)絡(luò)算法RCAN[5](Very deep residual channel attention networks),將通道注意力機(jī)制加入到殘差網(wǎng)絡(luò)中,該算法可以量化不同通道特征對(duì)超分辨任務(wù)的重要程度,通過(guò)學(xué)習(xí)不同通道的重要性得到權(quán)重值,然后通過(guò)給每個(gè)通道賦予不同的權(quán)重來(lái)自適應(yīng)的調(diào)整通道特征,使RCAN方法能夠?qū)W習(xí)到更多有用的通道特征,提高網(wǎng)絡(luò)的表達(dá)學(xué)習(xí)能力。
Lim等人[6]提出了增強(qiáng)深度殘差網(wǎng)絡(luò)算法EDSR[7](Enhanced Deep Residual Networks),去除了殘差網(wǎng)絡(luò)中的批歸一化層,通過(guò)全局殘差和局部殘差相結(jié)合來(lái)學(xué)習(xí)更多的高頻細(xì)節(jié),減小了網(wǎng)絡(luò)的訓(xùn)練難度,此算法通過(guò)對(duì)模型進(jìn)行合理的壓縮來(lái)減輕網(wǎng)絡(luò)的負(fù)擔(dān),同時(shí)能很好地提高運(yùn)行的速度,重建效果也有所提高。
基于以上研究,本文在SRResNet網(wǎng)絡(luò)中引入混合注意力模塊HAB并使用密集連接有效的提高了生成的高分辨圖像質(zhì)量和結(jié)構(gòu)相似度。
1 總體網(wǎng)絡(luò)設(shè)計(jì)
本文整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)輸入和輸出分別為L(zhǎng)ow-res和High-res,圖像將通過(guò)淺層特征提取、深層特征提取和高分辨圖像重建三個(gè)過(guò)程進(jìn)行超分辨操作,具體流程如下。首先采用卷積層對(duì)低分辨率輸入圖像Low-res進(jìn)行上采樣,提取圖像淺層特征信息。在深層特征提取模塊中,該特征信息將經(jīng)過(guò)前置殘差網(wǎng)絡(luò)進(jìn)行初步特征提取和維度轉(zhuǎn)換,然后進(jìn)入多級(jí)注意力塊,通過(guò)通道注意力和空間注意力機(jī)制,提取淺層和深層特征,并通過(guò)全局殘差連接進(jìn)行特征融合。融合特征繼續(xù)進(jìn)入后置殘差網(wǎng)絡(luò)進(jìn)行過(guò)濾,得到最終的深層特征。最后模型利用pixel-shuffle上采樣方式,對(duì)深層特征進(jìn)行上采樣重建,得到高分辨率輸出圖像High-res。
上述設(shè)計(jì)有效融合了注意力機(jī)制、殘差連接和密集連接等機(jī)制,使網(wǎng)絡(luò)能夠?qū)D像高頻細(xì)節(jié)進(jìn)行建模和重建,得到更好的超分辨效果。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)結(jié)構(gòu)可以恢復(fù)圖像細(xì)節(jié),達(dá)到較好的效果。
2 結(jié)合密集殘差和混合注意力機(jī)制的圖像超分辨模型
2.1 密集殘差網(wǎng)絡(luò)
本文使用了一種新穎的深度網(wǎng)絡(luò)模塊結(jié)構(gòu),即RRDB[8](Residual in Residual Dense Block)。RRDB模塊主要集成了殘差網(wǎng)絡(luò)(ResNet)和密集連接網(wǎng)絡(luò)(DenseNet)兩種經(jīng)典網(wǎng)絡(luò)架構(gòu)的核心思想。減少了網(wǎng)絡(luò)計(jì)算量,緩解了訓(xùn)練過(guò)程中的梯度消失和爆炸問(wèn)題,形成了整體的殘差學(xué)習(xí)結(jié)構(gòu)。模塊提取多尺度特征并融合,進(jìn)一步增強(qiáng)特征表示能力。通過(guò)上述設(shè)計(jì),RRDB模塊形成一個(gè)融合殘差學(xué)習(xí)和密集連接特性的高效網(wǎng)絡(luò)模塊,能夠構(gòu)建較深的模型并表現(xiàn)出色的性能。
2.2 HAB模塊
本文使用混合注意力模塊HAB(Hybrid Attention Block,如圖2所示),HAB模塊由窗口自注意力(Window-based Self-Attention)機(jī)制和通道注意力(Channel Attention)機(jī)制構(gòu)成,從而聚焦和激活關(guān)鍵特征信息,實(shí)現(xiàn)更優(yōu)的任務(wù)重建效果。
對(duì)于給定的輸入特征[x],計(jì)算過(guò)程如下:
[XN=LNx]" ⑴
[XM=SW-MSAXN+αCABXN+XN]" ⑵
[Y=MLPLNXM+XM]" ⑶
其中,[XN]和[XM]表示中間特征,LN表示LayerNorm層,MLP表示MLP層,[α]為預(yù)設(shè)的一個(gè)較小常數(shù),[Y]表示HAB的輸出。
該模塊充分結(jié)合了局部和全局注意力信息,達(dá)到局部細(xì)節(jié)增強(qiáng)和關(guān)鍵信息激活的效果。
2.3 RDAG模塊
本文開(kāi)創(chuàng)性地提出一種結(jié)合了改進(jìn)密集網(wǎng)絡(luò)與注意力機(jī)制的模塊RDAG(Residual Dense Attention Group,如圖1 Attention Block部分),模塊通過(guò)堆疊多個(gè)殘差密集混合注意力塊(RDAB)進(jìn)行深層特征的挖掘,其中每個(gè)RDAB包含多個(gè)混合注意力塊(HAB)和一個(gè)殘差連接的卷積層(如圖3)。
為融合不同級(jí)別的特征,各RDAB間通過(guò)改進(jìn)密集連接構(gòu)成RDAG模塊(如圖4),各層提取特征只在最后進(jìn)行疊加計(jì)算實(shí)現(xiàn)特征重用,可以在避免冗余計(jì)算的同時(shí)更好的保留各層特征信息,并為注意力模塊(Attention Block)設(shè)置了一個(gè)全局殘差連接,將淺層特征和深層特征融合輸出。
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)配置
⑴ 數(shù)據(jù)集和參數(shù)設(shè)置:本次實(shí)驗(yàn)使用DF2K (DIV2K+Flicker2K)數(shù)據(jù)集中的3250張圖片作為訓(xùn)練集進(jìn)行放大因子為2,3,4的訓(xùn)練,剩余的200張圖片作為驗(yàn)證集用于驗(yàn)證實(shí)驗(yàn)效果。測(cè)試集使用Set5、Set14、BSD100、Urban100四個(gè)基準(zhǔn)數(shù)據(jù)集來(lái)評(píng)估本文的方法。
實(shí)驗(yàn)的Batch_Size設(shè)置為8,通道數(shù)量設(shè)置為180,迭代次數(shù)為500,使用L1Loss作為優(yōu)化器優(yōu)化實(shí)驗(yàn)參數(shù)。初始學(xué)習(xí)率設(shè)置為2×10-5,使用多步長(zhǎng)MultiStepLR動(dòng)態(tài)調(diào)整學(xué)習(xí)率,實(shí)驗(yàn)全程在Ubuntu操作系統(tǒng)上進(jìn)行,使用的GPU為RTX A5000 24GB,CPU為AMD EPYC 7511p,內(nèi)存32GB。運(yùn)行環(huán)境為Python3.8,Pytorch 2.0.0,Cuda11.8.0。
⑵ 數(shù)據(jù)預(yù)處理:通過(guò)裁剪高分辨率 DF2K數(shù)據(jù)集生成的子圖像對(duì)整體網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在×2和×4的放縮比例上使用128×128的裁剪尺寸,×3的放縮比例上使用192×192的裁剪尺寸,進(jìn)入網(wǎng)絡(luò)后進(jìn)行隨機(jī)取樣獲取64×64的輸入樣本。為了防止過(guò)擬合,使用隨機(jī)旋轉(zhuǎn)和水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。
⑶ 評(píng)價(jià)指標(biāo):在實(shí)驗(yàn)中采用泛用的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM)進(jìn)行量化評(píng)估。
3.2 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)采用DF2K數(shù)據(jù)集進(jìn)行×4放縮比例下的訓(xùn)練,使用Set5和Set14作為測(cè)試集,進(jìn)行下列實(shí)驗(yàn),探究RRDB和RDAB模塊各自對(duì)整體網(wǎng)絡(luò)性能的影響。
為了探究RRDB模塊和RDAB模塊對(duì)圖像重建效果的影響,分別采取不使用RRDB和RDAB模塊、僅用RRDB模塊、僅用RDAB模塊、同時(shí)使用RDAB和RDAB模塊進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
結(jié)果表明,RRDB模塊和RDAB對(duì)于基準(zhǔn)網(wǎng)絡(luò)有著顯著的效果提升,其中RDAB模塊的提升效果更加明顯,而隨兩者的結(jié)合使用整體網(wǎng)絡(luò)的性能又得到進(jìn)一步提高。
3.3 實(shí)驗(yàn)結(jié)果
為了探討本文網(wǎng)絡(luò)對(duì)不同結(jié)構(gòu)化圖像數(shù)據(jù)集的重建性能,將所提出的方法與當(dāng)前先進(jìn)的重建方法進(jìn)行比較,包括基于殘差網(wǎng)絡(luò)的EDSR,結(jié)合殘差和通道注意力的RCAN,基于密集殘差網(wǎng)絡(luò)和生成式對(duì)抗網(wǎng)絡(luò)的ESRGAN[5]以及基于注意力機(jī)制的SwinIR[9]。在Set5、Set14、BSD100、Urban100四個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行放大因子為×2,×3,×4的對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,實(shí)驗(yàn)效果對(duì)比圖如圖5所示。
實(shí)驗(yàn)結(jié)果表明,本文所提網(wǎng)絡(luò)結(jié)構(gòu)在兩項(xiàng)指標(biāo)上要優(yōu)于其他對(duì)比方法,其中PSNR有著0.1~0.5db的提升,顯著領(lǐng)先于其他方法。
4 總結(jié)
本文提出了一種新的殘差密集注意力模塊RDAG,可用于單圖像超分辨率任務(wù)。該模塊集成了通道注意力機(jī)制、自注意力機(jī)制以及殘差密集連接,可以提升全局上下文信息的利用效率,并實(shí)現(xiàn)多尺度特征的復(fù)用。另外,網(wǎng)絡(luò)通過(guò)與殘差殘差密集塊(RRDB)的結(jié)合實(shí)現(xiàn)底層和高層語(yǔ)義信息的融合,增強(qiáng)了網(wǎng)絡(luò)表達(dá)能力。實(shí)驗(yàn)結(jié)果表明,本文所提出的模塊可以改善超分辨率重建的性能,并在多個(gè)評(píng)價(jià)指標(biāo)上都有著先進(jìn)的效果。
參考文獻(xiàn)(References):
[1] Christian Ledig, Lucas Theis, Ferenc Husz ?ar, Jose
Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al. Photorealistic single image super-resolution using a generative adversarial network. In Proceedings of the IEEE conference on computer vision and pattern recognition,2017:4681-4690.
[2] BASHIR S MA,WANG Y.Deep Learning for the Assisted
Diagnosis of Movement Disorders,Including Isolated Dystonia[J].Frontiers in Neurology,2021,12:638266.
[3] T. Tong, G. Li, X. Liu, and Q. Gao. Image super-
resolution using dense skip connections. In Proc. IEEE Int. Conf. Computer Vision,2017:4799-4807.
[4] WangZ,Chen J, Hoi S C H. Deep learning for image
super-resolution:A survey[J]. IEEE transactions on pattern analysis and machine intelligence,2020,43(10):3365-3387.
[5] Yulun Zhang,Kunpeng Li, Kai Li, Lichen Wang, Bineng
Zhong, and Yun Fu. Image super-resolution using very deep residual channel attention networks. In Proceedings of the European conference on computer vision (ECCV),2018:286-301.
[6] Guo Y, Chen J,Wang J, et al.Closed-loop matters:Dual
regression networks for single image super-resolution[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020:5407-5416.
[7] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah,
and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops,2017:136-144.
[8] Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu,
Chao Dong, Yu Qiao, and Chen Change Loy. Esrgan:Enhanced super-resolution generative adversarial networks. InProceedings of the European conference on computer vision (ECCV) workshops,2018.
[9] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc
Van Gool, and Radu Timofte. Swinir: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:1833-1844.