竺 可 沁,林 珊 玲,林 志 賢,3,郭 太 良
(1.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116;2.中國(guó)福建光電信息科學(xué)與技術(shù)創(chuàng)新實(shí)驗(yàn)室,福建 福州 350116;3.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362200)
隨著信息技術(shù)的飛速發(fā)展與應(yīng)用,圖像處理技術(shù)已經(jīng)成為信息時(shí)代的關(guān)鍵核心技術(shù)之一。數(shù)字圖像在醫(yī)學(xué)、監(jiān)控、遙感等領(lǐng)域得到了廣泛的應(yīng)用,人們對(duì)圖像質(zhì)量的要求也越來(lái)越高。但是由于照片成像質(zhì)量以及保存條件的限制,使得圖像往往會(huì)丟失很多細(xì)節(jié)且分辨率較低,不利于后續(xù)對(duì)圖像信息的進(jìn)一步處理。圖像超分辨率重建(Super Resolution,SR)技術(shù)可以將一幅低分辨率(Low Resolution,LR)圖像重建為高分辨率(High Resolution,HR)圖像。由于其在成本、便利性等方面的顯著優(yōu)勢(shì),已經(jīng)成為了數(shù)字圖像處理技術(shù)的主要研究?jī)?nèi)容之一[1-2]。
近年來(lái),基于深度學(xué)習(xí)的超分辨率方法研究逐漸深入。基于深度學(xué)習(xí)的算法最早由Dong等[3]提出,他們通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)與圖像超分辨率任務(wù)相結(jié)合,提出了SRCNN(Convolutional Network for Image Super Resolution)算法。其設(shè)計(jì)有三個(gè)卷積層,經(jīng)過(guò)訓(xùn)練后,性能極大地超越了傳統(tǒng)的超分辨率算法。隨后,Dong等[4]又在其基礎(chǔ)上提出了FSRCNN算法,其利用反卷積模塊將圖像重建為目標(biāo)尺寸,降低了算法的計(jì)算量。Kim等[5]提出的VDSR則通過(guò)加深網(wǎng)絡(luò)深度來(lái)提升重建質(zhì)量,通過(guò)引入殘差網(wǎng)絡(luò)得到了很好的結(jié)果。隨后,Kim等[6]還在VDSR的基礎(chǔ)上設(shè)計(jì)了DRCN(Deeply Recursive Convolutional Network),將輸出的特征做遞歸學(xué)習(xí),并使用殘差結(jié)構(gòu)連接其輸出特征,取得了優(yōu)于VDSR的重建效果。Ahn等人[7]則提出了基于級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)和共享機(jī)制的輕量超分辨率重建算法CARN(Cascading Residual Network),設(shè)計(jì)了一種基于分組卷積的高效殘差網(wǎng)絡(luò),在特征提取時(shí)能有效地降低參數(shù)量,但是網(wǎng)絡(luò)的整體參數(shù)量仍較大。
隨著算法性能的提高,其結(jié)構(gòu)日趨復(fù)雜化,神經(jīng)網(wǎng)絡(luò)的深度不斷增加,網(wǎng)絡(luò)模型中的龐大參數(shù)為其部署帶來(lái)了較大困難[8]。隨著今天移動(dòng)設(shè)備的不斷進(jìn)化,人們對(duì)邊緣側(cè)的人工智能需求越來(lái)越多,這就需要一種輕量化的基于神經(jīng)網(wǎng)絡(luò)的超分辨率算法來(lái)解決這個(gè)問(wèn)題。
目前基于深度學(xué)習(xí)的超分辨率算法主要包括特征提取模塊(深層,淺層)、上采樣及重建模塊[9]。在這些模塊中,特征提取起到了較為關(guān)鍵的作用,其保證了算法能從原始圖片中提取出有價(jià)值的重建信息。目前算法的問(wèn)題點(diǎn)主要在于提取的特征比較單一[10-11],主流方法例如SRCNN、VDSR等,都只提取單一尺度的特征,改進(jìn)時(shí)一般只能加深網(wǎng)絡(luò)[12],這導(dǎo)致了算法普遍參數(shù)量龐大,難以適應(yīng)移動(dòng)設(shè)備的要求,在輕量化方面還有較大的提升空間。
也有一些學(xué)者提出過(guò)提取多個(gè)特征的網(wǎng)絡(luò)[13],但是由于沒(méi)有對(duì)應(yīng)完善的特征融合模塊,很多網(wǎng)絡(luò)無(wú)法完全利用提取出來(lái)的圖像特征信息,從而影響重建的效果。
針對(duì)這些問(wèn)題,本文使用了多層次特征提取的方法來(lái)提取原始LR圖像的多層次信息,并設(shè)計(jì)了多尺度重構(gòu)模塊來(lái)重建圖像,相比其他基于深度學(xué)習(xí)的算法具備輕量級(jí)的優(yōu)勢(shì),在保持性能的前提下,具有較少的計(jì)算量。
本文提出的基于多層次特征提取的輕量超分辨率重建算法(Multi-level Feature Extract Super Resolution,MFESR)整體結(jié)構(gòu)如圖1所示。其中包含:淺層特征提取模塊(Low Feature Extract Block,LFEB)、可以提取多尺度特征的深度特征提取模塊(Deep Feature Extract Block,DFEB)以及多尺度重建模塊(Multi-level Reconstruct Block,MLRB)。 其 中,LFEB為輕量級(jí)設(shè)計(jì),在較少的計(jì)算量下完成淺層特征提取。DFEB為本文核心部分,其提取的圖像深層次特征包含了更多可用于圖像重建的信息。MLRB負(fù)責(zé)融合多層次圖像特征并輸出HR圖像。損失函數(shù)則在網(wǎng)絡(luò)訓(xùn)練時(shí)將HR圖像與標(biāo)準(zhǔn)圖像對(duì)比,完成網(wǎng)絡(luò)的訓(xùn)練。

圖1 MFESR算法的主要流程
圖2所示為算法的詳細(xì)結(jié)構(gòu)圖。首先,該算法對(duì)輸入的LR圖片做淺層次的特征提取,然后通過(guò)DFEB模塊做深層次的特征提取。DFEB模塊包含三個(gè)子模塊MFEB(Multi-feature Extract Block)。每個(gè)MFEB模塊前后相連,并與多尺度重建模塊跳躍連接。其可以提取圖像的深層次特征信息。圖中右側(cè)為多尺度重建模塊,其負(fù)責(zé)融合提取出的淺層次和深層次特征圖,并帶有每個(gè)層次特征的權(quán)重,通過(guò)學(xué)習(xí)訓(xùn)練,將圖像放大到目標(biāo)倍數(shù)并恢復(fù)圖像的三通道。幾個(gè)模塊之間還采用跳躍連接來(lái)更高效地傳遞信息。

圖2 MFESR算法的具體結(jié)構(gòu)
卷積特征圖具有層次性。不同層次的特征圖體現(xiàn)了圖像的不同尺度信息。如淺層特征圖通常包括一些邊、角等信息,而深層特征圖則體現(xiàn)了一部分或完整的物體信息。如圖3所示,本文設(shè)計(jì)的LFEB模塊通過(guò)兩個(gè)并行的卷積操作對(duì)輸入的三通道圖像做特征提取。其卷積核尺寸分別為3×3、5×5。提 取出的兩個(gè)特征圖通道數(shù)為24。隨后,將兩通道合并,利用一個(gè)1×1尺寸的卷積核來(lái)融合其淺層的多尺度特征信息,最終輸出通道數(shù)為48的淺層特征FL。在設(shè)計(jì)輕量級(jí)網(wǎng)絡(luò)時(shí),卷積核尺寸為1×1的卷積操作對(duì)于通道的升維和降維起著比較重要的作用,這里通過(guò)1×1卷積降維可以降低網(wǎng)絡(luò)運(yùn)算量。整個(gè)淺層特征的提取可以用式(1)表示,其中Fn×n表示卷積核大小為n×n的卷積操作。


圖3 淺層特征提取模塊
深層特征描述了圖像的整體結(jié)構(gòu),其包含的高級(jí)語(yǔ)義信息對(duì)于高質(zhì)量的圖像重建至關(guān)重要。本文深層特征提取模塊由三個(gè)MFEB模塊級(jí)聯(lián)而成。每個(gè)MFEB模塊通過(guò)跳躍連接的方式連接到后續(xù)的特征融合上采樣模塊。MFEB模塊的詳細(xì)結(jié)構(gòu)如圖4所示。其包含三個(gè)并行的支路,分別用不同尺寸的卷積核對(duì)輸入特征做卷積,通過(guò)采用空洞卷積的形式可以在不增加額外參數(shù)量的基礎(chǔ)上擴(kuò)大卷積的感受野。隨后,將卷積結(jié)果拼接得到一組多通道的特征,然后再對(duì)這個(gè)多通道特征做卷積核尺寸為1×1的卷積,得到輸出特征并向后一級(jí)模塊輸送。使用1×1的卷積核可以在少量增加參數(shù)的情況下增強(qiáng)通道之間的交互性。MFEB結(jié)構(gòu)在設(shè)計(jì)時(shí)考慮到網(wǎng)絡(luò)的輕量化需求,將并行卷積通道數(shù)設(shè)置為3,能在性能與輕量化之間達(dá)到平衡。

圖4 深層特征提取模塊中的MFEB模塊
早期的網(wǎng)絡(luò)結(jié)構(gòu)一般采用對(duì)原始輸入圖像上采樣得到大尺度的圖像后再輸入網(wǎng)絡(luò)的方法,如SRCNN、VDSR等,這會(huì)使得算法的計(jì)算量隨著輸入圖像的尺度增大而急劇增大。上采樣模塊的出現(xiàn)則可以避免這些問(wèn)題,其性能的好壞會(huì)直接影響超分辨網(wǎng)絡(luò)的性能。此外,影響重建質(zhì)量的還有特征融合。特征融合關(guān)注的是不同特征之間的相關(guān)性,高質(zhì)量特征融合可以更充分地利用提取出來(lái)的圖像特征信息。其公式如下:

其中xn表示第n個(gè)卷積層的輸入,xˉn表示第n個(gè)卷積層的輸出,F(xiàn)n表示卷積及非線性變換,F(xiàn)conv表示通道合并操作。
本文設(shè)計(jì)的上采樣及重建模塊MLRB如圖5所示。由于算法利用不同尺度的空洞卷積來(lái)從深層特征提取模塊中提取不同尺度的高級(jí)語(yǔ)義信息,為能夠充分利用這些信息,本文設(shè)計(jì)了一種多尺度重建模塊,可以將提取到的多尺度信息進(jìn)行融合。考慮到多尺度融合操作的引入會(huì)增加額外的計(jì)算量,重建模塊僅選用4個(gè)不同尺度的特征信息進(jìn)行融合。卷積核尺寸分別為1×1、3×3、5×5、7×7。此外,還為每個(gè)分支設(shè)計(jì)了一個(gè)可學(xué)習(xí)的權(quán)重值αn,使得網(wǎng)絡(luò)在訓(xùn)練過(guò)程中可以自適應(yīng)地選擇相對(duì)重要的分支,從而在圖像重建過(guò)程中獲得更好的性能。重建模塊流程可以用式(4)來(lái)表示:

圖5 多尺度特征融合重建模塊

網(wǎng)絡(luò)訓(xùn)練采用的損失函數(shù)為L(zhǎng)1損失函數(shù),其中,h、w、c分別表示圖像的高度、寬度和通道數(shù),IGT和IHR分別為原始圖像和超分辨率網(wǎng)絡(luò)的輸出,著是一個(gè)誤差常量,一般設(shè)置為0.001。

在網(wǎng)絡(luò)訓(xùn)練階段,本文主要使用DIV2K數(shù)據(jù)集[14],這是一個(gè)用于圖像超分辨率任務(wù)的高質(zhì)量數(shù)據(jù)集。數(shù)據(jù)集共包含了800張圖像(2K分辨率),此外為了提高數(shù)據(jù)集的多樣性,還進(jìn)一步使用了部分Flickr2K數(shù)據(jù)集的高分辨率圖像。
為滿足訓(xùn)練任務(wù)的數(shù)據(jù)量要求,本文采用如下方式擴(kuò)充數(shù)據(jù)集至2000張:
(1)將圖片做隨機(jī)水平翻轉(zhuǎn)和90°旋轉(zhuǎn);
(2)對(duì)圖片進(jìn)行不同尺度的縮放和剪裁;
(3)對(duì)圖片進(jìn)行亮度增強(qiáng)和對(duì)比度增強(qiáng)。
本文訓(xùn)練及測(cè)試的平臺(tái)配置如下:CPU為6×Intel?Xeon?CPU E5-2678 v3@2.50 GHz;GPU為NVIDIA GeForce Titan V;操作系統(tǒng)為Ubuntu18.3;神經(jīng)網(wǎng)絡(luò)框架選用PyTorch。
網(wǎng)絡(luò)訓(xùn)練時(shí)采用Adam優(yōu)化器。訓(xùn)練時(shí)其參數(shù)設(shè)置選取策略如下:(1)批處理大小(Batch Size)設(shè)置為8,保證了能多樣化地生成樣本;(2)學(xué)習(xí)率設(shè)置為0.0001,之后每隔4000次迭代降低為之前的一半;(3)設(shè)置優(yōu)化器中β1=0.99,β2=0.999;(4)圖像的放大倍數(shù)為4倍。
為客觀評(píng)價(jià)算法的增強(qiáng)效果和網(wǎng)絡(luò)性能,本文使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)兩種指標(biāo)來(lái)客觀地評(píng)價(jià)重建圖像的質(zhì)量。
PSNR可用來(lái)衡量圖像的失真與噪聲水平。一般而言,PSNR值越大,則重建圖像的效果越好,包含的噪聲水平越低。PSNR的計(jì)算公式如下:

式中,H×W表示圖像的大小,X表示原始高分辨率圖像,Y表示通過(guò)算法重建圖像。
SSIM是用于度量?jī)煞鶊D像結(jié)構(gòu)相似程度的指標(biāo),其將圖像失真表示為亮度、對(duì)比度和圖像結(jié)構(gòu)這三個(gè)不同指標(biāo)的組合。SSIM的數(shù)值范圍為[0,1],其數(shù)值越大,則說(shuō)明兩幅圖像之間的相似性越高,重建圖像質(zhì)量越好。SSIM的計(jì)算公式如下:

式中,x表示原始的高分辨率圖像;y表示重建的超分辨圖像;μx、μy分別表示兩幅圖像的灰度平均值;σx、σy分 別 表 示 兩 幅 圖 像 的 方 差;σxy是 兩 幅 圖 像 的協(xié)方差;C1、C2是2個(gè)常數(shù)。
在測(cè)試階段,本文引入其他的超分辨率重建算法作為比較:(1)傳統(tǒng)雙三次插值算法(Bicubic);(2)VDSR;(3)基于拉普拉斯金字塔結(jié)構(gòu)的網(wǎng)絡(luò)Lap-SRN[15];(4)DRCN;(5)EDSR[16]。 如圖6、圖7為幾種算法之間的結(jié)果對(duì)比。其中LR為降采樣得到的低分辨率圖像,GT為原始圖像。

圖6 幾種算法對(duì)BSD100數(shù)據(jù)集中圖片的重建細(xì)節(jié)對(duì)比

圖7 幾種算法對(duì)Urban100數(shù)據(jù)集中圖片的重建細(xì)節(jié)對(duì)比
對(duì)比各類算法重建圖像的目視效果,雙三次插值方法重建的圖片較為模糊,具體表現(xiàn)為圖像細(xì)節(jié)較少,邊緣過(guò)渡平滑。與雙三次插值圖像相比,VDSR生成的圖像有較大的改觀,其細(xì)節(jié)更為豐富。而EDSR與之相比則能在保證細(xì)節(jié)的情況下生成更為清晰的圖像。LapSRN生成的圖像較為平滑,涂抹感較重。DRCN則在物體的邊緣處更為銳利,有著較為豐富的高頻細(xì)節(jié)。與上述算法相比,本文算法能生成更多的細(xì)節(jié),尤其在人像頭發(fā)、物體線條等包含多層次場(chǎng)景的圖像中,在物體邊緣處也有較為銳利的重建效果,這使得整體的視覺(jué)效果更為真實(shí)。
本文通過(guò)PSNR與SSIM這兩種指標(biāo)來(lái)評(píng)價(jià)重建圖像的質(zhì)量,算法對(duì)比結(jié)果如表1所示。
從表1可以看出,基于深度學(xué)習(xí)的算法均獲得了高于傳統(tǒng)插值算法的PSNR、SSIM值。在一些圖像細(xì)節(jié)比較豐富的情況下,DRCN和VDSR等帶有深層卷積的算法能獲得更好的客觀指標(biāo),但是觀感較為模糊。本文提出的MFESR則兼顧了生成細(xì)節(jié)的真實(shí)性和銳利清晰的觀感。從PSNR和SSIM的平均值來(lái)看,本文算法大幅領(lǐng)先于傳統(tǒng)雙三次插值法,且在大多數(shù)情況下領(lǐng)先VDSR、DRCN、EDSR等算法。這證明了本文的超分辨率算法能生成更為優(yōu)秀的重建圖像,且能適應(yīng)較多的場(chǎng)景。

表1 六種超分辨率算法的結(jié)果比較
實(shí)驗(yàn)還對(duì)比了幾種算法的參數(shù)量與運(yùn)行時(shí)間等指標(biāo),結(jié)果如表2所示。可以看出本文的算法在運(yùn)算量上具有一定的優(yōu)勢(shì),其參數(shù)量較DRCN、VDSR等網(wǎng)絡(luò)較深的算法少了很多。與CARN-M等算法相比,計(jì)算效率也有所提高,運(yùn)行時(shí)間更短,驗(yàn)證了算法的輕量化特性。

表2 算法復(fù)雜度對(duì)比
為驗(yàn)證MFESR各結(jié)構(gòu)的性能,分別移除網(wǎng)絡(luò)中的各部分設(shè)計(jì),在BSD100數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。
對(duì)應(yīng)的結(jié)構(gòu)修改有:(1)去除多層次特征提取模塊,將淺層特征提取與深層特征提取合并,形成類似VDSR的結(jié)構(gòu),稱其為MFESR-B,其余參數(shù)與原算法相同;(2)去除多尺度融合重建模塊中的多尺度融合部分,采用普通的上采樣重建方式,稱其為MFESR-C。
表3為消融實(shí)驗(yàn)的客觀參數(shù)對(duì)比。從BSD100數(shù)據(jù)集的平均值PSNR和SSIM的數(shù)值來(lái)看,MFESR-B相比MFESR低了0.397 dB和0.018,驗(yàn)證了多層次特征提取模塊的有效性。MFESR-C相比MFESR低了0.962 dB和0.049,驗(yàn)證了多尺度特征融合重建模塊可以充分利用提取到的圖像特征信息。

表3 消融實(shí)驗(yàn)結(jié)果對(duì)比
目前的超分辨率算法存在特征提取單一、計(jì)算量較大等問(wèn)題,為此,本文提出了一種基于多層次特征提取的輕量化超分辨率算法。通過(guò)設(shè)計(jì)淺層特征提取模塊和深層特征提取模塊來(lái)實(shí)現(xiàn)圖像的多層次特征提取。設(shè)計(jì)了一種帶學(xué)習(xí)權(quán)重的多層次特征融合重建模塊,可以充分利用提取出的特征信息。從實(shí)驗(yàn)結(jié)果來(lái)看,通過(guò)MFESR重建得到的圖像擁有更好的低頻內(nèi)容、銳利邊緣和高頻紋理,在PSNR和SSIM等指標(biāo)上也領(lǐng)先其他算法。在網(wǎng)絡(luò)的輕量化方面,本文算法也能擁有較少的參數(shù)量和較快的運(yùn)算時(shí)間。消融實(shí)驗(yàn)的結(jié)果驗(yàn)證了模型結(jié)構(gòu)設(shè)計(jì)的有效性和合理性。在后續(xù)的研究中,將繼續(xù)對(duì)MFESR網(wǎng)絡(luò)的參數(shù)量進(jìn)行優(yōu)化,提升算法的處理效率,并且將擴(kuò)大算法在真實(shí)圖像重建領(lǐng)域的應(yīng)用。