廉煒雯,吳 斌,張紅英,李 雪
1.西南科技大學 信息工程學院,四川 綿陽 621010
2.特殊環境機器人技術四川省重點實驗室,四川 綿陽 621010
人類主要通過視覺獲取信息,圖像質量的好壞決定了絕大多數基于視覺領域的應用效果。這也是超分辨率重建技術興起,并日益發展的原因所在,高質量的圖像也是順利開展大部分圖像處理研究與應用的前提[1-2]。單幅圖像超分辨率(single image super resolution,SISR)重建方法主要分為以下三類:基于插值的方法[3-4]、基于重建的方法[5]和基于學習的方法[6-7]。雖然前兩種方法比較簡單,但重建后的圖像質量不高,還伴有一定程度的模糊和偽影現象。近年來,基于深度學習的SISR方法因其優異的重建性能成為本方向的研究重點,其基本思想是通過學習算法建立高、低分辨率圖像之間的映射關系來指導圖像復原工作[8-9]。Dong等[10]首次將深度學習應用于超分辨率重建領域,并提出端到端映射的SRCNN網絡。在此基礎上,Dong等[11]又提出了基于SRCNN的改進算法FSRCNN,該算法能更快速、更清晰地重建低分辨率圖像。Kim等[12]提出了基于殘差的深層網絡結構VDSR,該網絡采用較大的學習率加速收斂速度,同時采用自適應梯度剪裁來解決梯度爆炸和梯度消失問題。Kim等[13]提出了DRCN方法,將深度遞歸思想應用在SISR領域,達到卷積層間的參數共享,在加深網絡的同時,盡可能不增加網絡參數量。Li等[14]提出了SRFBN方法,將人類視覺系統中常見的反饋機制應用到SISR中,來改進具有高級信息的低級表示,在具有約束的循環神經網絡(recurrent neural network,RNN)中使用隱藏狀態來實現反饋方式,該反饋模塊旨在處理反饋連接并生成強大的高級表示,為自上而下的反饋流提供高級信息。
雖然深度學習近年來在SISR重建領域取得了顯著成就,但仍然存在以下不足:(1)超分辨率重建是一個典型的病態問題,其高分辨率(high-resolution,HR)圖像與低分辨率(low-resolution,LR)圖像的映射關系是非線性的,就會使得可能的函數映射空間過大,模型出現自適應的問題。(2)現階段基于卷積神經網絡(convolutional neural networks,CNN)的SISR方法在重建過程中沒有充分利用原始LR圖像中的信息,從而導致性能相對較低。(3)大多數基于CNN的SISR方法沒有充分學習更具辨識性的高級特征表示,很少利用中間層固有的特征相關性,阻礙了CNN的表達能力。針對以上問題,本文提出了一種高效二階注意力對偶回歸網絡(efficient second-order attention dual regression network,ESADRNet),該網絡通過在原始網絡的基礎上增加對偶回歸任務縮小映射空間,找到LR和HR之間的最優映射關系。此外,本文還采用高效二階通道注意力機制(efficient second-order channel attention,ESOCA)來更好地學習特征間的相關性,通過高于一階的特征統計來自適應的調整特征,使網絡專注于更多的特征信息,并增強網絡的學習能力。采用多級跳躍連接殘差注意力模塊(multi-level skip connection residual attention group,MLSCRAG)和共享源跳躍連接(shared skip connection,SSC)結構的疊加,更好地利用LR圖像中的高頻信息,以產生更好的重建效果。實驗結果表明,與SRCNN、FSRCNN、VDSR、DRCN和SRFBN-S網絡相比,本文方法的重建效果更好。
現階段,大多數圖像超分辨率重建網絡都只包含原始回歸任務,即LR到HR的映射關系,但SISR是一個典型的病態問題,LR圖像與HR圖像的映射關系具有不適定性,即存在無限多的HR圖像可以通過下采樣的方式獲得相同的LR圖像,這就使得LR到HR的映射空間過大,模型出現自適應的問題。本文的對偶回歸網絡可以很好地解決這一問題,該網絡既包含LR到HR的映射關系又包含HR到LR的映射關系。對偶回歸網絡的主要思路是利用機器學習中的對稱屬性來構建網絡,通過反饋對機器學習任務的效果進行加強和指導[15-16]。對偶回歸網絡主要可以分為兩個任務:原始回歸任務和對偶回歸任務,該網絡的示意圖如圖1所示。

圖1 對偶回歸網絡結構示意圖Fig.1 Schematic diagram of dual regression network structure
從圖1可以看出,對偶回歸網絡將超分辨率重建分為LR圖像域和HR圖像域,建立兩者之間的閉環映射關系,相互學習和促進,提高模型的泛化能力。具體理論依據如下,設E(P,D)=E[LP(P(x),y)+λLD(D(P(x)),x)],并且E?(P,D)是其經驗損失。函數空間Hdual無窮大,設LP(P(x),y)+λLD(D(P(x)),x)為X×Y在區間為[0,C]上的映射。對于任意誤差δ>0,其概率至少是1-δ,并且泛化誤差E(P,D)中所有(P,D)∈Hdual,通過拉德馬赫爾復雜度得到模型的推廣界[17]:

其中,N是樣本數量是對偶學習的經驗拉德馬赫爾復雜度。B(P,D)為對偶回歸任務的推廣界,可由以下公式表示:

由此得出B(P,D)≤B(P)。其中B(P)(P∈H)是有監督學習的推廣界,用拉德馬赫爾復雜度表示為
以上公式表明,對偶回歸網絡的推廣界依賴于函數空間Hdual的拉德馬赫爾復雜度,根據公式(1)可知,在監督學習中對偶回歸網絡比傳統網絡的推廣界更小,從而有助于實現精確的SISR。
目前大多數CNN網絡模型的深度和復雜度增加,這就使得網絡的計算和收斂難度加大,為了能更好地提取具有區別性的特征表示,利用各個特征之間的相關性。本文提出的MLSCRAG由M個多級跳躍連接殘差塊(MLSCR)和一個高效二階通道注意力模塊(ESOCA)構成,經過第g個MLSCRAG模塊后的Fg用公式可表示為:

其中,Wg是相應的權重,如圖2所示的MLSCRAG在訓練時能繞過豐富的低頻信息,使網絡更關注具有區別性的特征表示。此外,在每個MLSCRAG的末端都加入一個高效二階通道注意力模塊(ESOCA),這就讓重建網絡更加專注于特征的相互依賴性。

圖2 MLSCRAG模塊結構示意圖Fig.2 Schematic diagram of MLSCRAG module structure
MLSCRAG模塊與典型的注意力機制模塊相比有以下三點優勢:(1)典型的注意力機制模塊前期大多采用簡單的卷積殘差塊來提取圖像特征信息,而本文提出了MLSCR,能加強特征信息間的相互關聯,提取更豐富的特征信息。(2)本文采用由全局協方差池化構成的ESOCA模塊對串聯的MLSCR模塊提取到的特征進行進一步的處理,典型的注意力機制只利用全局平均池化的一階特征信息進行特征提取,只能獲取單個通道的平均值,而二階統計量相較一階統計量能更有效地關注更具辨識性的特征表示。(3)典型的通道注意力機制采用兩個具有非線性全連接(fully connected,FC)層來捕獲非線性的跨通道交互信息,通過降維來控制模型的復雜度,但捕獲所有通道之間的依賴關系并非必要,本文采用卷積核大小為k的快速1D卷積實現一種不降維的局部跨通道交互策略,能更有效地捕獲跨通道交互,既能保證效率又能保證有效性。
大多數卷積神經網絡中的殘差塊都只是對特征向量多次堆疊卷積處理,并沒有很好地利用特征信息之間的相關性,從而使得上下文特征信息關聯性較差,網絡性能欠佳。針對以上問題,本文設計了多級跳躍連接殘差塊(MLSCR),其結構如圖3所示。

圖3 MLSCR模塊結構示意圖Fig.3 Schematic diagram of MLSCR module structure
由圖3所示,一個3×3卷積層、PReLU激活函數層和α倍跳躍連接組成一個子殘差塊,兩個子殘差塊和β倍跳躍連接組成一個MLSCR模塊。設其輸入為x,經過第一個和第二個子殘差塊的輸出分別為y1和y2,經一個MLSCR后的輸出為y3,則分別可由下式表示:

從輸出y3可以看出,當輸入x經過MLSCR模塊后不僅可以得到經第二個基本殘差塊G2(x)處理后的輸出,還可以得到經第一個基本殘差塊G1(x)處理后的輸出和輸入x。
以上為單個MLSCR模塊的輸出結果,若將多個MLSCR模塊串聯,經過第三個和第四個子殘差塊的輸出分別為y4和y5,經第二個MLSCR模塊后的輸出為y6,則分別可由下式表示:

通過經第二個MLSCR模塊后的輸出y6可以得出,相鄰兩個MLSCR模塊的子殘差塊中的卷積層都要對前面每個卷積層的特征向量進行卷積,然后再輸出。這就充分利用了相鄰子殘差塊內部卷積層間特征向量的相關性,使網絡能提取到更豐富的特征信息。
研究表明,只利用全局平均池化的一階特征信息限制了網絡的表達能力,而深度卷積神經網絡中的二階統計量比一階統計量更有效地關注具有區別性的特征表示,但這會使網絡的復雜度增加,為了克服性能和復雜性權衡的矛盾,本文設計了一種高效二階通道注意力(ESOCA)模塊,其結構如圖4所示。

圖4 ESOCA模塊結構圖Fig.4 ESOCA module structure diagram
ESOCA模塊主要由協方差歸一化和高效通道注意力機制兩部分組成。給一組H×W×C的特征圖f=[f1,f2,…,fC],其中C個特征圖的尺寸為H×W,將該特征圖重構為具有C維s=WH個特征的特征矩陣X,然后樣本協方差矩陣可以計算為:


歸一化后的協方差矩陣表征了通道特征的相關性,然后將歸一化后的協方差矩陣作為全局協方差池化的通道描述符。如圖4所示,設通過縮小得到通道統計量z∈RC×1,然后計算z的第c維統計量可表示為:

其中,HGCP(·)表示全局協方差池化函數,這也是本文ESOCA模塊與其他注意力機制模塊的區別之一。常用的一階池化操作有平均池化、最大池化、隨機池化和全局平均池化等。平均池化即對鄰域內特征點求平均,能很好地保留圖像背景信息,但會使圖像變模糊;最大池化即對區域內的特征點取最大值,能很好地保留圖像紋理特征,但在一定程度上影響了梯度回傳;隨機池化只需對特征圖中的元素按照其概率值大小隨機選擇,即元素值大的被選中的概率也大,與最大池化不同,并非只取最大值元素,該池化方法簡單,泛化能力更強;全局平均池化則是直接把整幅特征圖進行平均池化,然后輸入到softmax層中得到對應的每個類別的得分,該方法大幅度降低了網絡參數,減少了過擬合現象,但上述池化方法都屬于一階池化,只能提取到一階特征,而無法探索高層次的特征。全局協方差池化是用一個二階的統計方法來替換一階的全局平均池化,即將一階的均值替換為二階的協方差,解決了小樣本高維度難以統計的問題并且有效利用了協方差矩陣的幾何結構,探索更多的特征分布,并獲取高于一階且更具辨別性的特征表示。
給定聚合特征y∈RC,在不進行降維處理的情況下,通道注意可以通過下式計算得到:

其中,W是參數量為C×C的矩陣,本文使用帶狀矩陣Wk來學習通道注意,該方法能更有效地捕獲本地跨通道交互信息,Wk可以表示為:

由上式不難看出,Wk矩陣中涉及k×C個參數,該方法相較于其他方法可以進行快速高效的運算,其主要原因有以下幾點:(1)該方法參數量通常小于用群卷積方法實現的參數,避免了群卷積方法中不同組之間的完全獨立性。(2)深度可分離卷積方法沒有考慮跨通道交互信息,使模型的性能不佳。(3)用FC層實現雖然考慮了跨通道交互,但是需要大量的參數,導致模型的復雜性較高,特別是對于較大的通道數。
對于式(15),yi的權重僅考慮yi與其k個鄰域之間的關系計算得到,并使所有通道共享相同的學習參數,即:

這種不降維的局部跨通道交互策略可以通過卷積核大小為k的快速1D卷積來實現,充分利用全局協方差池化聚合信息的特征依賴性,在顯著降低模型復雜度的同時保持網絡性能,其函數表示如下[18]:

式中,C1D表示1D卷積,式(17)中的方法由只調用涉及k參數的高效通道注意(efficient channel attention,ECA)模塊。該方法避免降低維度,有利于學習更有效的通道注意,比采用兩個FC層的通道注意力機制效果更好[19]。其交互的覆蓋范圍(即1D卷積的卷積核大小k)與通道維數c成正比,本文k=3。最后就可以得到通過通道注意力機制縮放后的特征圖:

式中,ωc和fc分別表示第c個通道的比例因子和縮放后的特征圖。
本文的超分辨率卷積神經網絡是基于U-Net網絡[20]構建的,該模型由兩部分構成:原始回歸網絡和對偶回歸網絡。原始回歸網絡主要由下采樣模塊和上采樣模塊構成,下采樣模塊采用步長為2的卷積層,FReLU激活函數和卷積層串聯,該下采樣模塊能利用像素級的建模能力提取更復雜的細節信息。再基于多級跳躍連接殘差注意力模塊(MLSCRAG)、共享源跳躍連接(SSC)和亞像素卷積構建漸進式上采樣網絡,使網絡具有更強大的特征表達和相關特征學習能力,讓網絡在訓練時更關注具有區別性的相關特征,提取更豐富的特征向量相關信息;最后利用與原始回歸網絡下采樣模塊相同的結構構成對偶回歸網絡,來約束映射空間,尋找最優重建函數。結構如圖5所示。
原始回歸網絡(圖5中的黑線)由上采樣(圖5左半部分)和下采樣(圖5右半部分)模塊組成,網絡根據不同的比例因子,分別包含lbs個基本塊,其中s表示比例因子,每個基本塊包括一個下采樣模塊和一個對應的上采樣模塊,即有2個基本塊用于4×上采樣網絡(如圖5),有3個基本塊用于8×上采樣網絡。

圖5 ESADRNet網絡結構圖Fig.5 ESADRNet network structure diagram
2.2.1 下采樣模塊
原始網絡參考U-Net網絡的下采樣部分來設計,由步長為2的卷積層、FReLU激活函數和卷積層構成,如圖5所示。激活函數中的空間不敏感是阻礙視覺任務實現顯著改善的主要原因,自適應的捕獲空間相關性成為激活函數需要解決的重點問題。本文采用FReLU激活函數作為下采樣模塊的激活層。FReLU[21]是2020年由曠視提出的一種新的激活函數,實現像素級空間信息建模且性能優于其他激活函數。為了使深度神經網絡更好地重建復雜的細節信息,FReLU采用漏斗激活可視化任務,可以使用像素級的建模能力輕松獲取復雜的信息,有助于提取物體的精細空間布局,通過添加可忽略的空間條件開銷,將激活函數擴展到二維激活。其表達式為:

式中,t(·)是一個依賴于空間上下文的二維漏斗狀空間條件,本文將二維空間條件設置為ParamPool,即表達式可寫為y=max(x,ParamPool(x)),參數池化窗口為3×3。
2.2.2 上采樣模塊
與基本U-Net網絡不同,在上采樣部分本文采用B個MLSCRAG和SSC相結合的基本模塊及上采樣器構成,如圖5所示。每個MLSCRAG還包括M個MLSCR模塊和一個ESOCA模塊,如圖2所示。該模塊能很好地解決由于神經網絡深度過深導致的梯度消失和爆炸的問題,不僅有助于深層神經網絡的訓練,而且還可以從LR圖像中繞過豐富的低頻信息,使網絡集中在擁有更多紋理細節的高頻信息重建上。MLSCR模塊通過在基本的殘差塊中加入含有不同權值的多級跳躍連接來增加上下文信息的關聯性,增強網絡性能。ESOCA模塊主要是通過二階特征統計和高效通道注意力機制來自適應地調整通道特征,使網絡擁有更強大的特征表示和特征相關學習能力,以獲得更具辨識性的特征表示。本文的上采樣器由一個卷積層和一個像素重洗(Pixel-Shuffle)層[22]組成,其中像素重洗層起到壓縮空間維度、擴張分辨率維度的作用。設B是MLSCRAG的數目,M是MLSCR的數目,F是基本特征通道數目。對于4×網絡本文設置B=30,M=10,F=16,對于8×網絡本文設置B=30,M=10,F=8。此外,在ESOCA模塊中,本文用1D卷積實現一種不降維的局部跨通道交互策略,并設置1D卷積的卷積核k為3。在MLSCR模塊中,本文設置其參數分別為α=0.1,β=0.1。
對偶回歸網絡(圖5中的灰線)是對HR圖像進行多次下采樣得到不同比例系數的LR圖像,對偶回歸任務的目的是學習一個降采樣操作,這比學習上采樣映射的原始任務簡單得多。因此,該對偶回歸網絡和原始回歸網絡中的下采樣模塊相同,只有兩個卷積層和一個FReLU激活函數層,其計算成本比原始模型低得多,但在實踐中效果良好,可以減少可能的函數映射空間,找到最優的函數映射。
本文采用對偶回歸網絡,引入了對LR圖像的附加約束。除了學習LR到HR圖像的映射外,本文還學習了HR到LR圖像的映射。原始和對偶回歸任務可以形成一個閉環,并提供相互監督的訓練模型P和D。如果P(x)是正確的HR圖像,那么下采樣得到的圖像D(P(x))在理論上也是非常接近輸入的LR圖像x。給定一組含有N對樣本的數據集其中xi和yi表示成對數據集中的第i對LR和HR圖像,其訓練損失函數可表示為:

其中,LP和LD分別表示原始回歸任務和對偶回歸任務的L1損失函數,λ為控制對偶回歸損失的權重。經過多次實驗對比,在訓練中設置λ=0.1,具體實驗結果見3.2.2小節所示。
3.1.1 實驗環境配置
本次實驗采用Facebook推出的Pytorch深度學習框架,實驗操作系統為Ubuntu18.04,CUDA版本為CUDA10.0,CPU為Intel i5-9600KF,GPU為NVIDIA GeForce RTX 2060 SUPER,顯存大小為8 GB。
3.1.2 數據集
實驗采用DIV2K和Flickr2K數據集進行神經網絡的訓練,分別包括800和2 650張訓練圖片。通過隨機截取RGB輸入低分辨率圖像的48×48大小圖像與對應的高分辨圖像區域作為配對訓練數據,并分別將圖像進行旋轉90°、180°和270°,并對應進行翻轉,得到每張圖像的變體,達到增加訓練數據的目的。本文使用4個常用單幅圖像超分辨率測試集在2×比例因子、4×比例因子和8×比例因子分別進行測試和比較,包括Set5、Set14、BSD100和Urban100。
3.1.3 實驗參數設置
本方法使用Adam優化器進行參數優化,設置β1=0.9,β2=0.999,并將minibatch設置為32。學習率初始化為10-4,然后每100個epochs減小一半。
3.1.4 評價指標
本文采用客觀評價方法和主觀評價方法對圖像重建效果進行評價,客觀評價方法包括兩種常用的圖像質量評價指標:峰值信噪比(peak signal to noise ratio,PSNR)和結構相似性(structural similarity,SSIM)。經過模型重建后輸出的高分辨率重建結果與標簽高分辨率圖像在YCbCr空間計算Y通道上的PSNR值和SSIM值,從而更客觀地表明本文算法優于其他算法。PSNR通常用于測量圖像壓縮等有損變換的重建圖像質量,數值越大,劣化程度越小,重建效果越好。SSIM表示圖像的相似性程度,SSIM(x,y)的取值范圍為[0,1],比較的x、y兩幅圖像越相似,SSIM的值就越大,重建后的結果就越接近真實圖像。
3.1.5 模型細節
網絡使用Conv(1,1)和Conv(3,3)分別表示卷積核大小為1×1和3×3的卷積層。使用Convs2表示步長為2的卷積層。采用一個卷積層和一個亞像素卷積層構成上采樣器,來提高特征圖的比例大小。此外,使用h和w來表示輸入LR圖像的高度和寬度。因此,對于4×模型,輸出圖像的形狀應為4h×4w。模型設計細節如表1所示。

表1 4×模型設計細節Table 1 4×model design details
3.2.1 網絡實時性及參數規模
如表2所示,本文在4×放大比例因子下對模型參數量以及圖像在不同的基準數據集下總重建時間進行實驗。該網絡模型的總參數量是10.8×106,在Set5數據集上的平均重建速度是0.34 s/張;在Set14數據集上的平均重建速度是0.37 s/張;在BSD100數據集上的平均重建速度是0.236 2 s/張;由于Urban100數據集中的圖像分辨率較高,重建難度較大,模型的平均重建速度是1.086 6 s/張。綜上所述,該模型可以達到實時處理的效果。

表2 4×模型上網絡實時性及參數規模Table 2 4×network real-time performance and parameter scale on model
3.2.2對偶回歸損失權重λ對網絡性能的影響
經過多次實驗來研究對偶回歸損失權重λ對網絡性能的影響,由表3可知,將λ從0.001增加到0.1時,對偶回歸損失逐漸變得重要,并增加了監督能力。若進一步將λ增加到1、2、5和10,對偶回歸損失項將遠比原始回歸損失重要,并阻礙最終性能。為了在原始回歸和對偶回歸之間取得良好的平衡,本文選取λ=0.1對模型進行訓練。

表3 4×模型上對偶回歸損失權重λ對網絡性能的影響Table 3 Impact of dual regression loss weight λ on network performance on 4×model
3.2.3 高效二階通道注意力模塊(ESOCA)有效性
為了驗證高效二階通道注意力模塊(ESOCA)的有效性,本文在4×模型上用Set5測試集分別對算法的不同模塊進行消融實驗,具體結果如表4所示。Ra表示有30個含有10個MLSCR的MLSCRAG模塊的實驗模型,該模型的PSNR值達到31.98 dB。Rb表示在Ra模型的基礎上,在每個MLSCRAG模塊間加入SSC的實驗模型,性能可以從31.98 dB提升到32.04 dB,主要原因是共享源跳躍連接在重建時繞過來自LR圖像的低頻信息。Rc表示在Ra模型的基礎上在每個MLSCRAG模塊末端加入一個一階通道注意力模塊(FOCA),網絡性能從31.98 dB提升到32.10 dB。Rd表示在Ra模型的基礎上在每個MLSCRAG模塊末端加入一個二階通道注意力模塊(SOCA),網絡性能從31.98 dB提升到32.14 dB。Re表示在Ra模型的基礎上在每個MLSCRAG模塊末端加入一個高效二階通道注意力模塊(ESOCA),網絡性能從31.98 dB提升到32.18 dB。Rf、Rg和Rh分別表示在Rc、Rd和Re的基礎上加入SSC后的網絡性能。由此可以看出ESOCA模塊的有效性,二階統計量比一階統計量更有效的關注具有區別性的特征表示,提升網絡性能,用1D卷積實現的不降維的局部跨通道交互高效注意力機制可以更好地提高網絡性能。由表可見,Rf、Rg和Rh模型的性能均在一定程度上優于Rc、Rd和Re模型的網絡性能,而Rh模型在實驗中的性能最好,故在本文網絡中采用該網絡對數據集進行訓練。

表4 4×模型上高效二階通道注意力模塊(ESOCA)有效性Table 4 Effectiveness of efficient second-order channel attention module(ESOCA)on 4×model
3.2.4 高效二階通道注意力模塊(ESOCA)實現成本
如表5所示,對4×比例因子下MLSCRAG模塊末端分別加SOCA和ESOCA模塊的模型參數量,在Set5基準數據集上總測試運行時間和PSNR值進行實驗對比。MLSCRAG模塊末端加SOCA模塊的模型參數量是14.5×106,在Set5基準數據集上總測試時間是2.48 s,PSNR值是20.20 dB。本文的ESOCA模塊通過1D卷積避免降低維度,比采用兩個FC層的通道注意力機制效果更好,網絡模型參數量減少了25.52%,在Set5基準數據集上總測試時間提高了0.78 s,即平均重建速度提高了0.156 s/張。而PSNR值也由32.20 dB提高到32.25 dB。

表5 4×模型上高效二階通道注意力模塊(ESOCA)實現成本Table 5 Realization cost of efficiency second-order channel attention module(ESOCA)on 4×model
3.2.5 算法對比實驗
為了驗證本文方法的有效性,本文選取了5種已有的基于深度學習的SISR方法,SRCNN、FSRCNN、VDSR、DRCN和SRFBN-S,與傳統的Bicubic算法,在2×、4×和8×的比例因子下分別進行實驗對比,結果如表6所示。從表中不難看出,無論是在2×、4×還是8×的比例因子下,在不同的測試集下,本文算法的客觀評價指標PSNR和SSIM均處于領先。

表6 不同算法PSNR和SSIM指標對比Table 6 Comparison of PSNR and SSIM indicators of different algorithms
本文還對不同算法的主觀視覺效果進行了對比測試,圖像來自Set5、BSD100和Urban100測試集,結果如圖6所示。為了方便觀察重建效果,文中選取了各圖像中容易辨別的細節特征,例如圖6(a)中的眼睫毛部分,從圖中明顯可以看出本文方法重建的圖像睫毛根根分明,十分接近原圖;圖6(b)中的飛機螺旋槳部分,其他算法都未能很好地重建出圖像的邊緣細節信息,只有本文方法重建出來的圖像在細節紋理部分比較清晰;圖6(c)中的公交車內飾部分,其他算法都有明顯的模糊和偽影現象,只有本文方法重建出來的圖像邊緣更銳利;圖6(d)中的建筑物細節,只有本文方法重建出來的圖像細節信息更豐富。因此,定量數據與定性視覺效果,均表明低分辨率圖像通過本文算法重建后的效果整體優于所對比的重建算法。

圖6 與不同算法的視覺效果對比Fig.6 Comparison of visual effects with different algorithms
本文設計了一種基于高效二階注意力對偶回歸網絡(ESADRNet)的單幅圖像超分辨率結構,該網絡引入對偶回歸任務能有效縮小LR-HR圖像的映射空間,通過共享源跳躍連接(SSC)和多級跳躍連接殘差塊(MLSCR)繞過LR圖像中大量的低頻信息,使網絡專注于學習上下文特征表示間的相關性。此外,除了利用空間特征相關性外,本文還采用高效二階通道注意力(ESOCA)模塊,通過全局協方差池化來學習特征相關性,以獲得更具辨別性的特征表示。FReLU作為網絡的激活函數層,使網絡具有像素化建模能力。通過大量對比實驗表明本文方法不論從客觀指標還是主觀視覺上,均優于對比方法。