陳喬松,蒲 柳,張 羽,孫開偉,鄧 欣,王 進(jìn)
(重慶郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院數(shù)據(jù)工程與可視計(jì)算重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
圖像超分辨率重建[1]是將給定的低分辨率圖像通過(guò)特定的算法恢復(fù)成相應(yīng)的高分辨率圖像。圖像分辨率泛指成像或顯示系統(tǒng)對(duì)細(xì)節(jié)的分辨能力,代表圖像中存儲(chǔ)的信息量。在一般情況下,高分辨率圖像的像素密度越大,圖像中包含的細(xì)節(jié)越多,但是由于硬件設(shè)備限制,往往無(wú)法直接獲取到高分辨率圖像,因此如何在現(xiàn)有的硬件條件下提高圖像分辨率成為亟待解決的問(wèn)題。
圖像超分辨率重建方法主要分為基于插值[2]、基于建模[3]、基于學(xué)習(xí)[4]3 類。基于插值的超分辨率重建方法通過(guò)某個(gè)點(diǎn)周圍若干個(gè)已知點(diǎn)的值以及周圍點(diǎn)和此點(diǎn)的位置關(guān)系,根據(jù)計(jì)算公式得到未知點(diǎn)的值。基于建模的超分辨率重建方法是對(duì)同一場(chǎng)景下的多幅低分辨率圖像之間的相關(guān)性進(jìn)行建模,包含頻域法和空域法。目前,基于學(xué)習(xí)的超分辨率重建方法應(yīng)用比較廣泛,通過(guò)使用大量的圖像數(shù)據(jù),建立高低分辨率圖像之間的映射關(guān)系,低分辨率圖像可依賴已建立好的關(guān)系生成高分辨率圖像,主要包括字典學(xué)習(xí)[5]、線性回歸[6]、隨機(jī)森林[7]和深度學(xué)習(xí)[8]等方法。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學(xué)習(xí)框架中的一種重要網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)處理相關(guān)機(jī)器學(xué)習(xí)問(wèn)題,在超分辨率重建中應(yīng)用廣泛,而且取得了不錯(cuò)的效果。文獻(xiàn)[9]提出三層神經(jīng)網(wǎng)絡(luò)SRCNN 用于超分辨率重建,其相比于傳統(tǒng)方法具有更高的分辨率。文獻(xiàn)[10]在SRCNN 的基礎(chǔ)上提出改進(jìn)的FSRCNN模型,該模型通過(guò)在網(wǎng)絡(luò)末端使用反卷積進(jìn)行上采樣,減少了圖像的預(yù)處理過(guò)程。文獻(xiàn)[11]提出VDSR 模型,該模型借鑒殘差思想避免了深層網(wǎng)絡(luò)帶來(lái)的副作用,降低了網(wǎng)絡(luò)訓(xùn)練難度。文獻(xiàn)[12]提出DRCN 模型,該模型使用遞歸結(jié)構(gòu),在增加網(wǎng)絡(luò)深度的同時(shí)擴(kuò)大了感受野,提升了網(wǎng)絡(luò)表征能力。文獻(xiàn)[13]提出RED 模型,該模型采用編碼-解碼框架,利用對(duì)稱結(jié)構(gòu)便于反向傳播,且避免了梯度消失問(wèn)題。文獻(xiàn)[14]提出的SRGAN 利用感知損失和對(duì)抗損失來(lái)提升恢復(fù)圖片的真實(shí)感,使得輸出圖像具有逼真視覺(jué)效果。文獻(xiàn)[15]提出MSRN 模型,該模型利用多尺度殘差塊來(lái)提取低分辨率圖像的特征,實(shí)驗(yàn)結(jié)果表明其在客觀評(píng)價(jià)指標(biāo)上優(yōu)于對(duì)比模型,在主觀視覺(jué)效果上得到的重建圖像邊緣和輪廓更加清晰。
然而,多數(shù)現(xiàn)有圖像超分辨率重建模型的特征提取能力不足,導(dǎo)致高頻信息丟失并且紋理細(xì)節(jié)無(wú)法被重建,同時(shí)大部分模型難以區(qū)分高頻和低頻信息,使得在網(wǎng)絡(luò)重建時(shí)不能注意到真正有用的特征圖,從而降低了網(wǎng)絡(luò)重建能力。針對(duì)以上問(wèn)題,本文提出一種基于整體注意力機(jī)制與分形稠密特征增強(qiáng)的圖像超分辨率重建模型(簡(jiǎn)稱為HAFN)。建立特征增強(qiáng)模塊,通過(guò)4 條分支路徑提取不同尺度的特征,同時(shí)利用局部稠密跳躍連接將高頻信息和低頻信息相結(jié)合,從而提供互補(bǔ)的上下文信息。引入整體注意力機(jī)制,通過(guò)層次、通道、空間三方面整體調(diào)整特征圖,從而有效篩選出高頻特征,為重建模塊提供更豐富的細(xì)節(jié)信息。
考慮到現(xiàn)有模型存在的局限性,本文設(shè)計(jì)一種新的HAFN 模型框架,如圖1 所示,主要包含淺層特征提取模塊、分形稠密特征增強(qiáng)模塊、重建模塊三部分,其中:淺層特征提取模塊由兩層卷積層組成,用來(lái)提取角點(diǎn)、顏色等低維信息;分形稠密特征增強(qiáng)模塊由4 條不同的分支組成,每條分支的卷積核數(shù)量不同,該模型共級(jí)聯(lián)了9 個(gè)分形稠密特征增強(qiáng)模塊,主要作用是提取更豐富的高頻信息,并且增加了模型的容錯(cuò)性和穩(wěn)健性;重建模塊是超分辨率重建任務(wù)中非常重要的模塊,本文在重建圖像時(shí)首先利用亞像素卷積層[16]將提取的淺層特征圖放大至目標(biāo)圖像大小,然后將主干網(wǎng)絡(luò)的輸出特征圖也進(jìn)行同樣的放大操作,并將兩者進(jìn)行逐像素相加,最后利用1×1 的卷積層將其壓縮至RGB 三通道得到網(wǎng)絡(luò)最終輸出圖像。

圖1 HAFN 模型框架Fig.1 Framework of HAFN model
本文采用分形稠密特征增強(qiáng)(Fractal Density Feature Enhancement,F(xiàn)DFE)來(lái)實(shí)現(xiàn)深層特征的提取,結(jié)構(gòu)如圖2 所示,其中X表示輸入圖像。

圖2 分形稠密特征增強(qiáng)模塊結(jié)構(gòu)Fig.2 Structure of FDFE module
FDFE 模塊利用4 條不同的分支路徑,每條路徑上的卷積個(gè)數(shù)不同,但卷積核大小一致,從而實(shí)現(xiàn)多尺度的特征提取,而且模型會(huì)將不同路徑的特征圖進(jìn)行相互融合,充分利用不同的特征,然后繼續(xù)傳遞。同時(shí),不同路徑實(shí)現(xiàn)了信息共享,在反向傳播時(shí),當(dāng)一條路徑學(xué)習(xí)到最優(yōu)參數(shù)時(shí)可以反饋給其他各條路徑,通過(guò)共同學(xué)習(xí)和優(yōu)化來(lái)重新校準(zhǔn)特征,而且利用不同路徑的梯度可以緩解梯度消失問(wèn)題,提高模型性能。
該模塊借鑒了DenseNet[17]思想,模塊輸入與各條路徑融合后的特征進(jìn)行通道拼接,這樣可以綜合利用淺層復(fù)雜度低的特征,得到一個(gè)光滑且具有更好泛化性能的決策函數(shù)。因此,該模塊的抗過(guò)擬合性能較好,并且特征的重復(fù)利用大幅提升了重建精度。
在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中產(chǎn)生的特征圖包含了通道、空間和層次信息,這些信息對(duì)高頻細(xì)節(jié)的恢復(fù)有不同程度的影響,若能增強(qiáng)目標(biāo)特征,則網(wǎng)絡(luò)的表達(dá)能力會(huì)進(jìn)一步加強(qiáng)。首先引入層次注意力(Layer Attention,LA)單元獲取不同層次之間特征圖的相關(guān)性,然后設(shè)計(jì)全局混合特征重標(biāo)定(Global Mixed Feature Recalibration,GMFR)單元建立特征圖通道和空間位置的相互依賴關(guān)系,最后使用特定結(jié)構(gòu)將這兩個(gè)單元融合形成整體注意力模塊,自適應(yīng)調(diào)整特征的表達(dá)能力。
1.3.1 層次注意力單元
層次注意力[18]單元結(jié)構(gòu)如圖3 所示,首先將N個(gè)FDFE 提取(本文N設(shè)置為9)的特征圖進(jìn)行拼接后作為模塊輸入特征組(Feature Groups,F(xiàn)G),其維數(shù)為N×H×W×C,然后利用view()函數(shù)將輸入特征圖轉(zhuǎn)換為N×HWC的二維矩陣,并利用矩陣乘法和相應(yīng)的轉(zhuǎn)置相乘得到相關(guān)性矩陣wi,j,計(jì)算公式如式(1)所示:

圖3 層次注意力單元結(jié)構(gòu)Fig.3 Structure of LA unit

其中:i,j表示層的序號(hào),i,j=1,2,…,N,N表示FDFE模塊個(gè)數(shù);FFG表示原輸入特征組;δ()表示Softmax操作;φ()表示矩陣變換操作。
最后將重構(gòu)后的特征組與預(yù)測(cè)的相關(guān)矩陣和比例因子α相乘,并加上初始輸入特征組得到層次維度的加權(quán)自適應(yīng)特征圖FLayer,如式(2)所示:

其中:α表示初始化為0 的可學(xué)習(xí)參數(shù),隨著訓(xùn)練次數(shù)的增加而增大,直到學(xué)習(xí)到一個(gè)較好的值;FFGi表示經(jīng)過(guò)矩陣變換操作的特征組。
1.3.2 全局混合特征重標(biāo)定單元
全局混合特征重標(biāo)定單元有效整合了空間注意力和通道注意力,如圖4 所示。本文對(duì)文獻(xiàn)[19]提出的空間注意力進(jìn)行改進(jìn),首先通過(guò)一個(gè)3×3 的卷積層,然后使用深度可分離進(jìn)行卷積,在減小參數(shù)量的同時(shí)能通過(guò)單獨(dú)對(duì)每個(gè)特征圖卷積,實(shí)現(xiàn)重要信息的最大化利用,執(zhí)行過(guò)程如式(3)所示:

圖4 全局混合特征重標(biāo)定單元結(jié)構(gòu)Fig.4 Structure of GMFR unit

其中:M1表示空間注意力單元的輸出;C和D分別表示普通3×3 卷積層和深度可分離卷積;I表示輸入特征圖。
通道注意力[20]分為擠壓和激勵(lì)兩個(gè)過(guò)程,擠壓是全局均值池化操作,可以幫助獲得更大的感受野,執(zhí)行過(guò)程如式(4)所示:

其中:下標(biāo)C 表示通道;H和W表示特征圖的尺寸;S表示經(jīng)過(guò)池化操作后的輸出;IC(i,j)表示輸入特征圖的某個(gè)像素點(diǎn)。
激勵(lì)操作通過(guò)一個(gè)全連接層對(duì)特征圖進(jìn)行線性變換,將通道數(shù)量壓縮到個(gè),其中r為超參數(shù),再通過(guò)ReLU 激活層和全連接層將通道數(shù)恢復(fù)至輸入通道數(shù),執(zhí)行過(guò)程如式(5)所示:

全局混合特征重標(biāo)定單元融合了這兩種類型的注意力機(jī)制,并將融合后的特征圖與初始輸入特征進(jìn)行跳躍連接,加強(qiáng)特征的信息表達(dá)能力,融合公式如式(6)所示:

其中:M表示混合特征重標(biāo)定模塊的輸出;I表示模塊的初始輸入;M1和M2分別表示通道注意單元和空間注意力單元的輸出;σ表示Sigmoid 操作;+表示逐像素相加;?表示矩陣相乘。
1.3.3 整體注意力融合
為同時(shí)利用層次注意力單元和全局混合特征重標(biāo)定單元的優(yōu)點(diǎn),將兩者進(jìn)行融合形成整體注意力模塊,融合結(jié)構(gòu)如圖5 所示,其中i=9。

圖5 整體注意力模塊結(jié)構(gòu)Fig.5 Structure of holistic attention module
層次注意力單元的輸出首先利用1×1 卷積進(jìn)行擠壓,去除一些無(wú)用的特征信息,然后與全局混合特征重標(biāo)定單元的輸出進(jìn)行通道融合,從而得到不同類型的特征圖,最后使用卷積層進(jìn)行激勵(lì)操作,整體注意力融合公式如(7)所示:

其中:F表示整體注意力模塊的輸出特征圖;C表示1×1 卷積層;FLayer表示層次注意力單元的輸出;M表示混合特征重標(biāo)定的輸出;+表示通道拼接操作。
硬件環(huán)境為Intel?CoreTMi5-6500 CPU@3.2 GHz CPU、NVIDIA GTX1070 GPU、內(nèi)存大小為16 GB。軟件環(huán)境為Windows 10 操作系統(tǒng)、MATLAB R2018b、CUDA v9.0 以及計(jì)算機(jī)視覺(jué)庫(kù)PyTorch[21]。
在不同圖像尺度下進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練以及性能評(píng)估,使用DIV2K[22]作為訓(xùn)練集,該數(shù)據(jù)集是新發(fā)布的用于圖像重建任務(wù)的高質(zhì)量圖像數(shù)據(jù)集,包含了800 張訓(xùn)練圖像、100 張驗(yàn)證圖像,測(cè)試集采用Set5[23]、Set14[24]、BSDS100[25]和Urban100[26],其 中Set5、Set14、BSDS100 這3 個(gè)數(shù)據(jù)集由不同頻率的自然風(fēng)光圖片組成,Urban100 由不同頻率的城市場(chǎng)景圖片組成。
在數(shù)據(jù)預(yù)處理階段,首先將高分辨率圖像隨機(jī)剪裁成48×48 像素的子圖像,然后進(jìn)行水平垂直翻轉(zhuǎn)以實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)并進(jìn)行雙3 次插值的退化處理。在訓(xùn)練過(guò)程中,最小批次設(shè)置為16,優(yōu)化算法為Adam[27-28],初始學(xué)習(xí)率為1e-4,并采用StepLR 策略,每訓(xùn)練200 輪,學(xué)習(xí)率減半,總共訓(xùn)練1 000 輪。使用L1 作為損失函數(shù),計(jì)算公式如式(8)所示:

其中:A表示總訓(xùn)練樣本數(shù);O表示重建的超分辨率圖像;G表示對(duì)應(yīng)的標(biāo)簽;z表示訓(xùn)練樣本的序號(hào)。
采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[29]和結(jié)構(gòu)相似性(Structural Similarity,SSIM)[30]作為重建圖像質(zhì)量的評(píng)價(jià)指標(biāo)。PSNR 計(jì)算公式如(9)所示:

其中:n是灰度圖像的比特?cái)?shù),設(shè)置為8;eMSE為重建圖像與真實(shí)圖像的均方誤差。
eMSE計(jì)算公式如式(10)所示:

其中:X、Y表示重建圖像和真實(shí)圖像;X(i,j)和Y(i,j)分別表示重建圖像和真實(shí)圖像的某個(gè)像素值;H×W表示圖像尺度。
從亮度、對(duì)比度和結(jié)構(gòu)三方面出發(fā)度量圖像相似性,計(jì)算公式如式(11)~式(14)所示:

其中:l(X,Y)、c(X,Y)、s(X,Y)分別表示亮度、對(duì)比度、結(jié)構(gòu)比較;C1、C2、C3表示不為0 的常數(shù);μX和σX表示重建圖像的像素均值和方差;μY和σY分別代表真實(shí)圖像的像素均值和方差。
將本文HAFN 模型與Bicubic[31]、SRCNN[9]、VDSR[11]、LapSRN[32]、MSRN[15]、DRCN[12]、CARN[33]、IMDN[34]、DRRN[35]等圖像超分辨率模型進(jìn)行性能 對(duì)比。表1~表3 給出了不同圖像超分辨率模型在4 個(gè)測(cè)試數(shù)據(jù)集上當(dāng)圖像放大2~4 倍時(shí)的實(shí)驗(yàn)結(jié)果,其中,最優(yōu)結(jié)果加粗表示,次優(yōu)結(jié)果添加下劃線表示。

表1 10 種超分辨率模型在圖像放大2 倍后的PSNR 和SSIM 對(duì)比Table 1 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by two times

表2 10 種超分辨率模型在圖像放大3 倍后的PSNR 和SSIM 對(duì)比Table 2 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by thee times

表3 10 種超分辨率模型在圖像放大4 倍后的PSNR 和SSIM 對(duì)比Table 3 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by four times
從表1~表3可以看出,雖然圖像放大2 倍時(shí),在BSDS100 數(shù)據(jù)集上HAFN 的SSIM 指標(biāo)略低于MSRN,但是無(wú)論圖像放大2 倍、3 倍還是4 倍,HAFN 在4 個(gè)數(shù)據(jù)集上的PSNR 指標(biāo)均超過(guò)其他模型,且在圖像放大2倍時(shí),在PSNR指標(biāo)上相比于MSRN最多超出0.44 dB,在圖像放大3 倍時(shí),最多超出0.57 dB,在圖像放大4 倍時(shí),最多超出了0.37 dB。綜上所述,HAFN 重建的圖像質(zhì)量相比于其他模型更好。
如圖6 所示,選取Urban100 數(shù)據(jù)集中的img072.jpg 圖像進(jìn)行主觀性能評(píng)價(jià),首先切割局部子圖像,然后分別使用不同模型對(duì)其放大3 倍并將重建圖像進(jìn)行可視化對(duì)比,可以看出HAFN 重建圖像相比于其他模型重建圖像背景中的線條更加分明,模糊度更小,邊緣更加突出,紋理信息更豐富。

圖6 圖像放大3 倍后的視覺(jué)效果對(duì)比Fig.6 Visual effect comparison when the image is magnified by three times
為從不同角度驗(yàn)證HAFN 的優(yōu)越性,對(duì)HAFN和其他模型的計(jì)算量和參數(shù)量進(jìn)行對(duì)比。在Urban100 數(shù)據(jù)集上,基于各個(gè)模型將圖像放大4 倍后得到819×1 024 像素的圖像,計(jì)算量對(duì)比如表4 所示,可以看出HAFN 的PSNR 值是最高的,而且計(jì)算量明顯少于MSRN 和VDSR。

表4 不同模型的計(jì)算量對(duì)比Table 4 Comparison of calculation quantity with different models
同時(shí),在Urban100 數(shù)據(jù)集上,基于各個(gè)模型將圖像放大4 倍后得到819×1 024 像素的圖像,參數(shù)量對(duì)比如表5 所示,可以看出HAFN 的參數(shù)量相較于其他模型更具優(yōu)勢(shì)。

表5 不同模型的參數(shù)量對(duì)比Table 5 Comparison of parameter quantity with different models
在Set14 數(shù)據(jù)集上利用HAFN 與VDSR、DRCN、LapSRN 等模型將圖像放大3 倍和4 倍,并在GPU 上對(duì)其運(yùn)行時(shí)間進(jìn)行對(duì)比,對(duì)比模型的算法代碼來(lái)自相關(guān)文獻(xiàn)的公開源碼。從表6 可以看出,HAFN 的PSNR 值明顯高于其他模型,而且在圖像放大3 倍時(shí),HAFN 運(yùn)行時(shí)間約為L(zhǎng)apSRN 的0.43 倍,為VDSR 的0.325 倍,證明了HAFN 更適用于對(duì)實(shí)時(shí)性要求較高的場(chǎng)景。

表6 不同模型的運(yùn)行時(shí)間對(duì)比Table 6 Comparison of running time with different models
2.6.1 層次注意力機(jī)制的有效性驗(yàn)證
為驗(yàn)證LA 單元的有效性,主要設(shè)計(jì)了2 種模型,第1 種是加LA 的模型(簡(jiǎn)稱為L(zhǎng)A),第2 種是不加LA 并且不對(duì)層次特征做任何處理的模型(簡(jiǎn)稱為No LA),其他模塊一致。如表7 所示,在Urban100數(shù)據(jù)集上,先將圖像放大2 倍,再將各個(gè)FDFE 模塊融合后加入層次注意力單元能夠有效地提高重建圖像的質(zhì)量,LA 模型相比于No LA 模型的PSNR 和SSIM 分別提高了0.17 dB 和0.000 4。

表7 層次注意力機(jī)制的有效性驗(yàn)證結(jié)果Table 7 Effectiveness verification results of layer attention mechanism
2.6.2 全局與局部混合特征重標(biāo)定對(duì)模型性能的影響
為驗(yàn)證全局和局部混合特征重標(biāo)定方法對(duì)于模型重建性能的影響,分別訓(xùn)練加入全局混合特征重標(biāo)定單元的超分辨率重建模型(簡(jiǎn)稱為GMFR)和加入局部混合特征重標(biāo)定(Local Mixed Feature Recalibration,LMFR)單元的超分辨率重建模型(簡(jiǎn)稱為L(zhǎng)MFR)。如圖7(a)所示,在級(jí)聯(lián)的第9 個(gè)FDFE模塊末尾加入全局混合特征重標(biāo)定單元。如圖7(b)所示,在每個(gè)FDFE 模塊末尾加入局部混合特征重標(biāo)定單元。

圖7 混合特征重標(biāo)定單元結(jié)構(gòu)Fig.7 Structure of mixed feature recalibration unit
如表8 所示,在Urban100 數(shù)據(jù)集上,GMFR 模型在PSNR 和SSIM 兩個(gè)指標(biāo)上均優(yōu)于LMFR 模型,因?yàn)榫植炕旌咸卣髦貥?biāo)定只考慮當(dāng)前的輸出特征圖,而無(wú)法建立全局的上下文關(guān)聯(lián)關(guān)系,同時(shí)還增加了計(jì)算成本。

表8 加入全局與局部混合特征重標(biāo)定單元的模型性能對(duì)比Table 8 Model performance comparison of adding LMFR and GMFR units
針對(duì)現(xiàn)有圖像超分辨率重建模型存在的局限性,本文提出一種基于整體注意力機(jī)制與分形稠密特征增強(qiáng)的圖像超分辨率重建模型。通過(guò)分形稠密特征增強(qiáng)模塊提取不同尺度下的特征圖,同時(shí)采用層次注意力機(jī)制和全局混合特征重標(biāo)定方法自適應(yīng)學(xué)習(xí)重要特征,為重建模塊提供豐富有效的高頻信息。實(shí)驗(yàn)結(jié)果表明,該模型在測(cè)試數(shù)據(jù)集上相比于其他模型重建效果更好。后續(xù)將利用該模型對(duì)受不同噪聲干擾的退化圖像進(jìn)行超分辨率重建,使其適用于復(fù)雜噪聲環(huán)境,進(jìn)一步提升模型應(yīng)用范圍。