










摘要:針對傳統方法中紋理、邊緣、遮擋等區域難以進行圖像超分辨率重建的問題,提出一種基于注意力機制的殘差網絡超分辨率重建方法.首先對輸入圖像應用一層卷積網絡和一層位移網絡提取淺層特征;然后引入若干個殘差坐標注意力模塊自適應校正通道權重,與淺層特征相加提取深層特征;最后,結合亞像素卷積重建出高分辨率圖像.在標準數據集Set5和Set14上的實驗結果表明,該方法重建圖像的客觀評價指標和視覺效果均優于SRCNN、VDSR和Bicubic方法,在一定程度上改善了重建圖像的質量,并提升了算法的運行速度.
關鍵詞:卷積神經網絡;殘差注意力機制;特征提取;超分辨率重建
中圖分類號:TP391 文獻標志碼:A
Image Super-Resolution Reconstruction Basedon Residual Attention Mechanism
LI Lan1, ZHANG Yun1, HE Fang2, YIN Zhe1
(1.School of Digital Media, Lanzhou University of Arts and Science, Lanzhou 730000, China;
2.Network Center, Lanzhou Radio and Television Station, Lanzhou 730031, China)
Abstract:A residual network super-resolution reconstruction method based on coordinate attention mechanism is proposed to address the problem of difficulty in image reconstruction of texture, edge, occlusion and other areas in traditional methods. Firstly, a 1-layer convolutional network and 1-layer displacement are applied to extract shallow features from the input image. Then, several residual coordinate attention modules are introduced to adaptively correct channel weights and extract deep features by adding them to shallow features. Finally, high-resolution images are reconstructed by combining sub-pixel convolution. The experimental results on the standard datasets Set5 and Set14 show that the objective evaluation metrics and visual effects of the reconstructed images using this method are superior to those of SRCNN, VDSR, and LapSRN methods, which improves the quality of the reconstructed images to a certain extent and enhances the running speed of the algorithm.
Key words:convolutional neural network; residual coordinate attention mechanism; feature extraction; super-resolution reconstruction
0 引言
圖像超分辨率重建(Super-Resolution,SR)是為了提升圖像分辨率,將低分辨率(Low-Resolution,LR)圖像恢復成高分辨率(High-Resolution,HR)圖像的過程.該技術已經被廣泛應用于視頻安全監控、遙感衛星、醫學等領域.因為成像設備、環境及噪聲的干擾,所以獲取到許多模糊的低分辨率圖像,由于改良硬件設備代價昂貴,而超分辨率重建技術通過改良算法提高圖像分辨率,這種方法成本較低,因此成為研究關注的熱點.目前,圖像超分辨率重建方法主要分為3類:基于插值、基于重建和基于學習的方法[1-2].基于插值的重建方法主要通過非迭代的方式估計目標像素值的臨近像素來估計目標像素,其運算效率高,但是在處理邊緣細節不夠理想.基于重建的方法是通過對低分辨率圖像中的所有特征通過數學計算方式重建高分辨率圖像,其重建精度有所提升,但是當輸入圖像較小時,重建效果較差.基于學習的方法是指利用學習模型來模擬非常復雜的非線性映射,從而實現對圖像的高質量重建,這種方法能較好處理圖像中的復雜結構和細節.雖然以上方法計算簡單,處理速度快,但是重建圖像存在邊緣紋理模糊不清、重建效果不好的問題.
隨著機器學習在計算機視覺領域的發展,深度學習被廣泛應用到圖像超分辨重建任務中,并取得了很好的重建效果.Dong等[3]首先提出基于卷積神經網絡(CNN)的簡單網絡模型SRCNN(Super-Resolution Convolutional Neural Network,SRCNN),該方法分為特征提取、非線性映射和上采樣重建3個階段,結合卷積神經網絡實現低、高分辨率圖像之間的端到端映射,比傳統方法具有更好的泛化能力,大大提高了圖像重建質量.Kim等[4]提出的VDSR(Very Deep Super-Resolution Algorithm,VDSR)在SRCNN的基礎上使用了一個20層的卷積網絡,通過在深度網絡結構中多次級聯小濾波器,有效地利用了大圖像區域的上下文信息,取得了更好的重建效果.He等[5]提出的殘差網絡(Residual Network,ResNet)通過在深度神經網絡中引入殘差連接(Residual Connection),讓網絡直接學習輸入到輸出的映射, 有助于解決深度神經網絡中梯度消失和優化困難的問題.
上述SR方法盡管都取得了很好的重建效果,但是對于圖像中具有不同重要程度的各個特征采取了均等處理的方式,導致大量的計算資源被浪費在冗余的低頻特征上;同時隨著網絡訓練層數的增多,也會引起計算量大、紋理信息丟失等問題,不適用于移動和嵌入式視覺應用場景.因此,本文提出了一種注意力機制和多尺度殘差相結合的網絡結構.該模型由特征提取塊、多特征殘差注意力機制信息提取和圖像重建3個部分組成.首先應用卷積層提取低分辨率的淺層特征;然后設計了一種通道注意力模塊,獲取圖像更適合的權重參數;最后,在圖像重建部分使用亞像素卷積代替反卷積層進行上采樣, 避免反卷積層的人工冗余信息引入.
1 相關工作
1.1 殘差學習
殘差網絡ResNet相對傳統網絡而言,引入了跳躍連接,即在卷積網絡上每間隔2到3層增加一個跳躍連接,這樣就產生一個殘差單元,從而學習輸入與輸出之間的殘差.該結構使用3×3和1×1的小卷積核,使得網絡訓練層次更深.殘差網絡特征比較稀疏,只學習圖像的高頻信息,學習量小,可以避免攜帶大量信息而出現梯度消失或網絡退化等問題,有利于網絡性能提升,具體的殘差單元結構如圖1所示.
在圖1中,假設存在一個恒等映射X,一般卷積網絡直接擬合所需函數H(X)=X,在ResNet中,激活函數采用ReLU,將H(X)假設為由幾個堆疊層(殘差網絡采用3個堆疊層)匹配的基礎映射,用X表示第一層的輸入,將原始所需函數H(X)轉換成F(X)+X.即輸出
H(X)=X+F(X).(1)
1.2 注意力機制
注意力機制被廣泛應用在深度神經網絡,其主要思想是在神經網絡中將更多注意力集中在感興趣的高頻信息通道或者區域,即圖像的紋理和邊緣等信息,根據關注點的不同可以分為空間注意力(Spatial Attention,SA)和通道注意力機制(Channel Attention,CA)[6-7].空間注意力機制旨在通過引入注意力模塊,使模型能夠自適應地學習不同區域的注意力權重,模型可以更加關注重要的圖像區域,而忽略不重要的區域.通道注意力機制是指通過特征內部之間的關系來計算每個通道的重要程度,更加傾向于輸入特征中最有用的部分.以上兩種注意力都忽略了位置信息,為此,Hou等[8]提出一種坐標注意力(Coordinate Attention,CA),該方式將通道注意力分解為2個一維特征的編碼過程,分別沿兩個空間方向聚合特征,從而保留特征精確的位置信息,以提高模型的性能.
2 本文網絡結構
本文網絡結構采用多尺度殘差注意力方法實現圖像超分辨率重建,網絡結構包括淺層特征提?。⊿hallow Feature Extraction,SF)、基于多尺度的殘差注意力深層特征提?。―eep Feature extraction,DF)和高質量圖像重建(High Resolution,HR)3個模塊,具體結構如圖2所示.淺層特征提取模塊采用1個3×3的卷積層和1個位移卷積層進行處理;深層特征提取應用若干個殘差注意力模塊,用于提取低分辨率圖像的高水平特征;圖像重建模塊包含2個卷積層和1個上采樣層,用于融合前兩個模塊提取到的特征并進行上采樣重建.
在圖2中,對輸入的低分辨率圖像通過殘差注意力機制的網絡進行特征提取和圖像重建,最終輸出高分辨率圖像.
2.1 淺層特征提取模塊
對低分辨率圖像ILR通過3×3的卷積操作進行特征提取,為了進一步細化得到的特征信息,需要對低頻信息進行過濾,采用Wu等[9]提出的位移卷積進一步處理,該過程可表示為:
其中,f0(·)表示3×3卷積特征提取函數;fshift(·)表示位移卷積函數;δ(·)表示ReLU激活函數;ILR和FSR分別表示該模塊的輸入和輸出特征.
2.2 深層特征提取模塊
隨著網絡層數的增加,容易出現梯度消失或梯度爆炸的問題,從而限制了模型的訓練深度.殘差學習通過引入恒等映射或跳躍連接來解決這個問題,允許網絡在訓練過程中學習輸入和輸出之間的殘差,從而優化性能.注意力機制,通過給不同的輸入部分分配不同的權重,使得模型更加專注于與任務相關的特征.殘差注意力機制結合了殘差學習和注意力機制,用于提高模型的性能和準確性.本文殘差注意力模塊結構如圖3所示.
深層特征提取模塊由多個殘差注意力模塊線性連接,每個殘差注意力模塊由特征提取網絡和注意力網絡兩部分構成,且每個殘差塊的輸出特征向后跳躍連接到下一個模塊的輸入,即每個殘差輸入特征是上一個殘差塊的輸入特征和輸出特征之和,整個深層特征提取的過程可表示為:
F1=FSR+H1(FSR),(3)
F2=F1+H2(H1(FSR)),(4)
其中,H1(FSR)表示淺層特征經過1個殘差注意力塊操作之后的輸出值,然后作為第2個殘差塊的輸入;H2(H1(FSR))表示第2個殘差注意力模塊的輸出.深層特征提取最后一層的輸出值可表示為:
FDF=Fn-1+f(Hn(Hn-1(Fn-1))),(5)
其中,FDF表示深層特征提取模塊的輸出;Fn-1表示第n-1個殘差注意力模塊的輸出;Hn表示第n個殘差注意力模塊.
對輸入的多尺度特征在寬度(W)方向和高度(H)方向進行最大池化操作得到新的特征值,然后使用1×1的拼接(Concat),這種方式在不同特征通道中具有較好的靈活性,可以增加圖像的特征數,深層特征提取由多個殘差注意力模塊線性連接.
為了獲取更多的特征信息,圖3中的殘差網絡結構對ResNet進行了改進,首先對淺層特征通過補“0”操作后進行256維度的擴張,從而提取更多的高頻信息;然后經過ReLU激活函數和1×1卷積進行通道數壓縮至輸入通道數;再應用一個卷積核為3×3 的卷積操作,進一步提取特征.對提取到的特征融入坐標注意力,并進行最大池化操作,將通道注意力分為寬度和高度上的空間聚合特征,保留了特征的位置信息和方向信息,增強圖像的感興趣特征,將2個池化后的特征在通道維度上進行拼接,并應用歸一化與非線性激活函數Sigmoid生成兩個注意力圖,在寬度和高度上對淺層輸入特征重新標定;最后使用殘差連接將淺層特征、注意力特征和輸出的深層特征加權求和,實現深層特征提取.
2.3 超分辨率圖像重建模塊
圖像重建模塊包含1個上采樣層和1個卷積層.上采樣層采用文獻[10]提出的亞像素卷積進行上采樣,與普通雙三次插值方法實現圖像上采樣不同,亞像素卷積通過通道擴增和像素點重排進行圖像放大,再將像素重新排列進行上采樣.由于輸入圖像的分辨率較低,因此需要學習的參數相對于雙三次插值上采樣大大減少,降低了重建過程的計算量和復雜度.最后通過一個3×3的卷積操作將上采樣后的特征圖進行卷積得到重建彩色圖像.具體的上采樣過程可表示為
FUP=HUP(FDF),(8)
其中,HUP(·)表示上采樣操作;FUP表示上采樣特征,并對FUP經過一個卷積層進行重建,得到最后的超分辨率重建圖像為
IHR=HRE(FUP)=HNet(ILR),(9)
其中,HRE表示重建操作;IHR表示最終得到輸出的高分辨率圖像;HNet表示本文網絡結構.
2.4 網絡損失函數
圖像超分辨率重建是通過卷積神經網絡一系列操作獲取重建圖像IHR,讓IHR和原始高分辨圖像FH越相似越好.因此,本文使用均方誤差(Mean Square Error,MSE)函數計算IHR和FH之間的誤差,這個誤差值越小,表示重建圖像越接近原始高分辨率圖像,即重建效果越好,具損失函數的計算方法可表示為
其中,i表示每個像素點;xi表示輸入的第i幅低分辨率圖像.在評價重建圖像質量時,通常采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)作為評價指標,PSNR是通過計算圖像內像素最大值與加性噪聲功率的比值來衡量重建圖像是否存在失真,計算方法與MSE有直接關系,MSE值越小,則PSNR值越大,說明重建圖像的性能和真實程度越接近原始高分辨率圖像.結構相似比SSIM(Structural Similarity Index,SSIM)從亮度、對比度和結構3方面衡量圖像質量,當兩幅圖像結構越相似時,則 SSIM 值越接近 1.
3 實驗及結果分析
3.1 數據及預處理
本文實驗采用的平臺是CentOS 7.4操作系統, 四核Intel酷睿i7-6700 CPU 64 GB內存,GTX 1060的 GPU,32 GB內存和4TB硬盤,并基于GPU版本的Tensorflow1.13深度學習框架下訓練模型.本文采用文獻[11]提出的方法初始化權重,偏差設置為0,使用Adam作為優化器,學習率初始值設置為10-4,β1和β2分別設置為0.9和0.999,沒迭代訓練200 000,次學習率降為原來的一半,總共迭代100 000次.
3.2 實驗結果
實驗使用DIV2K圖像超分辨率標準數據集,每張圖像具有2K的分辨率.將其中的800張高分辨率圖像用于訓練,100張圖像用于驗證,應用Set5和Set14個數據集進行測試,設置批尺寸為16,文中均采用3×3的卷積核,與Bicubic、SRCNN、VDSR等方法進行對比,數據集在不同算法上的PSNR值如表1所列,其中加粗內容為PSNR、SSIM值最好結果.
在測試前對圖像進行預處理,目前常用的數據預處理方法有雙三次插值算法和最鄰近算法2種.本文使用雙三次插值算法生成訓練LR/HR圖像,為了使訓練數據充分得到應用,本文應用旋轉、翻轉和縮放3種方式實現圖片變換.
為了驗證本文方法的重建效果,對數據集Set5中的Butterfly圖片和Set14中的Lenna圖片放大4倍尺寸,應用不同方法進行重建.將Butterfly圖片中的翅脈和Lenna圖片中的帽頂紋理進行放大,本文重建結果與其余3種方法的對比結果如圖4所示.
從圖4可以看出本文方法重建的蝴蝶紋理和人物帽子紋理更加清晰,翅脈的邊緣信息恢復得更好,更接近原始高分辨率圖像,雙Bicbuic、SRCNN和VDSR算法由于局部感受野較小,可利用的區域圖像特征單一,高分辨率重建的圖像仍然存在邊緣清晰度差的缺點,圖像重建效果差.
3 結語
本文結合殘差神經網絡和坐標注意力機制,設計了一個深度卷積網絡進行圖像超分辨率重建.通過注意力機制模塊對不同程度的特征設置不同的權重,同時將上一層的輸出與輸入經過殘差連接作為下一層的輸入,對淺層特征進行非線性映射,從而獲取更多的圖像特征,實驗中客觀指標和主觀預測結果表都明該方法針對圖像重建中紋理不清晰、細節丟失等方面性能均有較大的提升,重建圖像效果更好.今后將研究從任意尺度結合注意力機制,并借鑒現有的人工智能新算法進行圖像超分辨率重建,進一步提升超分辨率的精度.
參考文獻:
[1] 李孟歆,賈欣潤,李松昂.基于混合注意力機制的圖像超分辨重建算法[J].計算機仿真,2023,40(12):236-241.
[2] 祝旭陽,于俊洋,郝艷艷.基于多尺度融合CNN的圖像超分辨率重建[J].計算機系統應用,2022,31(7):217-223.
[3] CHAO D,CHEN CL,HE K M,et al.Learning a deep Convolutional Network for image super-resolution[C]//LNCS8692:Proceedings of the European Conference on Computer Vision,Berlin,Heidelberg:Springer,2014:184-199.
[4] KIM J,LEE J K,LEE K M.Accurate image super-resolution using Very Deep Convolutional Networks[C]//Proceedings of the 2016 IEEE Computer Vision and Pattern Recognition,Washington:IEEE Computer Society,2016:1646-1654.
[5] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),New York:IEEE,2016:770-778.
[6] 張德甄,昊宇林,青宇.結合注意力機制的生成對抗網絡圖像超分辨重建[J].福建師范大學學報(自然科學版) ,2023,39(3):86-93.
[7] 王永金,左羽,吳戀,等.基于注意力機制的圖像超分辨率重建[J].計算機應用,2021,41(3):845-850.
[8] HOU Q B,ZHOU D Q,FENG J S.Coordinat attention for efficient" mobile network design[C]// Proceedings of the 2021 IEEE/CVF Conference" on Computer Vision and Pattern Recognition,Nashville:IEEE,2021:13708-13717.
[9] SHI W,CABALLERO J,HUSZAR F,et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2016:1874-1883.
[10] 張華成,紀飛,鐘曉雄,等.基于高斯模糊的CNN的單幅圖像超分辨率重建算法[J].計算機應用與軟件,2022,39(1):231-235,295.
[11] HE K M,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers:surpassing human-level performance on imagenet classification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition,Washington D.C.,USA:IEEE,2015:1026-1034.
[責任編輯:李 嵐]