詹克羽,孫 岳,李 穎
(西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710071)
超分辨率重建的目的是由低分辨率(Low-Resolution,LR)圖像恢復(fù)出高分辨率(High-Resolution,HR)圖像,主要涉及單幅圖像超分辨率以及視頻圖像的超分辨率。隨著顯示技術(shù)的發(fā)展,超高分辨率的視頻顯示設(shè)備已經(jīng)十分常見(jiàn),能夠帶來(lái)更好的視覺(jué)體驗(yàn),但原始的高分辨率視頻資源卻比較少。因此,如何由低分辨率的視頻得到高分辨率的視頻是一個(gè)十分重要且具有挑戰(zhàn)性的問(wèn)題。
圖像超分辨率技術(shù)在20世紀(jì)60年代首次被提出[1]。隨著技術(shù)的不斷發(fā)展,超分辨率重建技術(shù)的研究已經(jīng)取得了巨大的進(jìn)展。目前,圖像超分辨率重建方法大致可以分為3類(lèi):基于插值的方法[2]、基于重建的方法[3]和基于學(xué)習(xí)的方法[4]。基于插值的超分辨率方法實(shí)現(xiàn)起來(lái)最為簡(jiǎn)單、直接,利用的是圖像的局部平滑這一假設(shè)。但這類(lèi)方法在細(xì)節(jié)紋理、幾何結(jié)構(gòu)等方面的效果較差。特別是放大比例較大時(shí),重建圖像的邊緣處可能會(huì)出現(xiàn)模糊、過(guò)于平滑等現(xiàn)象,難以恢復(fù)出圖像中的高頻信息,導(dǎo)致視覺(jué)效果較差。基于重建的超分辨率方法是結(jié)合圖像中的先驗(yàn)知識(shí)對(duì)圖像的退化過(guò)程進(jìn)行建模,如低秩先驗(yàn)、非局部自相似先驗(yàn)等等。利用這些先驗(yàn)信息進(jìn)行約束,對(duì)模型優(yōu)化求解得到高分辨率圖像。基于重建的超分辨率方法在一定程度上減少了模糊的情況,能夠得到局部細(xì)節(jié)信息更加豐富的高分辨率圖像,且對(duì)于復(fù)雜運(yùn)動(dòng)、未知噪聲、未知模糊核等具有一定的魯棒性。但對(duì)于較大的放大倍數(shù),往往很難恢復(fù)出圖像中的細(xì)節(jié)信息,且對(duì)于大規(guī)模的數(shù)據(jù),基于重建的方法通常會(huì)消耗較多時(shí)間,算法復(fù)雜度較高。基于學(xué)習(xí)的超分辨率方法在一定量的數(shù)據(jù)集上通過(guò)模型學(xué)習(xí)低分辨率圖像與高分辨率圖像間的對(duì)應(yīng)關(guān)系來(lái)完成重建。稀疏表示、隨機(jī)森林、支持向量回歸等機(jī)器學(xué)習(xí)方法都可被用來(lái)學(xué)習(xí)高-低分辨率圖像的映射關(guān)系。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在自然語(yǔ)言處理、圖像處理等多種應(yīng)用中都取得了很好的效果,基于深度學(xué)習(xí)的超分辨率方法也受到了廣泛的關(guān)注和研究[5-9]。受稀疏表示和深度學(xué)習(xí)方法啟發(fā),文獻(xiàn)[5]在圖像超分辨率任務(wù)中,提出一個(gè)三層卷積的超分辨率網(wǎng)絡(luò)SRCNN,在重建效果和效率上都要優(yōu)于傳統(tǒng)方法。文獻(xiàn)[6]設(shè)計(jì)了包含20層卷積層的超分辨率模型,并在其中引入了殘差連接,通過(guò)加深網(wǎng)絡(luò)的深度,來(lái)提取更為豐富的特征,以此實(shí)現(xiàn)更加準(zhǔn)確的超分辨率結(jié)果。文獻(xiàn)[7]采用低分辨率圖像作為輸入,并使用亞像素卷積層對(duì)上采樣方式進(jìn)行了改進(jìn),將特征圖的像素重新排列來(lái)得到放大后的圖像,有效地減少了網(wǎng)絡(luò)的參數(shù)量。
視頻作為連續(xù)的圖像序列,可以對(duì)其每一幀圖像進(jìn)行超分辨率重建來(lái)完成整個(gè)視頻的超分辨率重建。但這種方式?jīng)]有對(duì)視頻幀間的信息加以利用,其效果并不理想。目前,大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)模型都是基于光流對(duì)視頻圖像間的運(yùn)動(dòng)進(jìn)行補(bǔ)償[10-13],重建高分辨率視頻圖像。文獻(xiàn)[10]在SRCNN結(jié)構(gòu)的基礎(chǔ)上進(jìn)行了改進(jìn),提出了視頻超分辨率網(wǎng)絡(luò)VSRnet,使用經(jīng)過(guò)放大和運(yùn)動(dòng)補(bǔ)償?shù)倪B續(xù)視頻幀作為輸入,輸出中間幀的高分辨率重建結(jié)果。文獻(xiàn)[11]提出視頻高效亞像素卷積網(wǎng)絡(luò)VESPCN,利用可訓(xùn)練的空間變換網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)運(yùn)動(dòng)補(bǔ)償,然后進(jìn)行高分辨率視頻幀的重建。該模型在一個(gè)網(wǎng)絡(luò)中實(shí)現(xiàn)了運(yùn)動(dòng)補(bǔ)償和高分辨率重建,是第一個(gè)端到端的視頻超分辨率網(wǎng)絡(luò)。文獻(xiàn)[12]提出了基于高分辨率光流的視頻超分辨率網(wǎng)絡(luò)SOF-VSR,首先通過(guò)一個(gè)光流重建網(wǎng)絡(luò)來(lái)推斷高分辨率光流,然后利用其進(jìn)行運(yùn)動(dòng)補(bǔ)償,最后實(shí)現(xiàn)高分辨率重建。該網(wǎng)絡(luò)中生成的高分辨率光流更為準(zhǔn)確,能實(shí)現(xiàn)更好的運(yùn)動(dòng)補(bǔ)償效果。盡管這些方法都能實(shí)現(xiàn)較好的重建效果,但均依賴(lài)于運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償?shù)臏?zhǔn)確性。文獻(xiàn)[14]提出了基于三維卷積的視頻超分辨率網(wǎng)絡(luò)3DSRnet,使用三維卷積來(lái)學(xué)習(xí)視頻圖像的時(shí)間-空間特征。該方法實(shí)現(xiàn)了較好的重建效果,但其網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,不能充分地利用視頻的時(shí)間-空間特征。
筆者提出了一種基于多尺度三維卷積的視頻超分辨率網(wǎng)絡(luò)模型。該模型使用多尺度的三維卷積來(lái)提取視頻圖像的多種特征,有助于實(shí)現(xiàn)更好的重建效果。利用三維卷積殘差結(jié)構(gòu)進(jìn)行時(shí)間-空間特征的融合,可有效利用多尺度的時(shí)間-空間特征信息,重構(gòu)出更豐富的視頻圖像細(xì)節(jié)。同時(shí),為減少網(wǎng)絡(luò)計(jì)算量,在殘差結(jié)構(gòu)中引入通道分離,有效減少網(wǎng)絡(luò)參數(shù)量。實(shí)驗(yàn)結(jié)果表明,與其他視頻超分辨率網(wǎng)絡(luò)相比,筆者提出的網(wǎng)絡(luò)模型具有更好的重建性能,在進(jìn)行4倍超分辨率放大時(shí),峰值信噪比(Peak Signal to Noise Ratio,PSNR)可平均提高1.40 dB,結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)可平均提高0.077,視覺(jué)效果更加清晰。


圖1 視頻超分辨率網(wǎng)絡(luò)模型結(jié)構(gòu)圖
(1)
其中,N表示該網(wǎng)絡(luò)模型,Θ表示網(wǎng)絡(luò)的參數(shù)。
多尺度特征提取模塊(Multi scale 3D conv)的作用是對(duì)輸入的視頻進(jìn)行初步的特征提取。該模塊的具體結(jié)構(gòu)如圖2所示。固定大小的卷積核只能提取到一種尺度的特征,而不同大小的卷積核具有不同的感受野,可以提取視頻圖像中多種尺度的特征信息。因此,該模塊使用多個(gè)卷積核大小不同的三維卷積來(lái)進(jìn)行多尺度的特征提取,可以提取到更加豐富的特征信息。充分利用這些特征信息,有助于取得更好的重建效果。

圖2 多尺度特征提取模塊結(jié)構(gòu)圖
在多尺度特征提取模塊中,使用2個(gè)卷積核大小分別為3和5的三維卷積提取2種尺度的特征。為融合2種不同尺度的特征并減少網(wǎng)絡(luò)的參數(shù),將各卷積層的輸出連接在一起,然后輸入到一個(gè)卷積核大小為1的卷積層。該過(guò)程可以表示為
F=H1([H3(X),H5(X)]) ,
(2)
其中,H表示卷積操作,下標(biāo)表示卷積核大小,X表示輸入數(shù)據(jù),F(xiàn)表示輸出特征圖,[·]表示連接操作。
特征融合模塊的作用是對(duì)上一特征提取模塊提取到的特征進(jìn)行進(jìn)一步的時(shí)間-空間特征融合。該模塊中,結(jié)合殘差結(jié)構(gòu)和三維卷積,使用三維卷積殘差塊(3D residual block)進(jìn)行特征融合,其具體結(jié)構(gòu)如圖3所示。該三維殘差塊結(jié)構(gòu)包含3層卷積,前2層使用大小為3的卷積核。

圖3 三維卷積殘差塊結(jié)構(gòu)圖
為了減少網(wǎng)絡(luò)參數(shù)量,將第1個(gè)卷積層的輸出特征分成兩部分F1和F2,第2個(gè)卷積層僅對(duì)F2進(jìn)行處理,并將其輸出特征F3與F1連接,再使用一個(gè)大小為1的卷積進(jìn)行特征融合。該過(guò)程可以表示為
(3)
其中,F(xiàn)in表示殘差塊的輸入特征,s表示通道分離操作,F(xiàn)表示輸出特征圖。
該模塊通過(guò)三維殘差塊同時(shí)進(jìn)行了時(shí)間-空間特征的融合,從而有效地對(duì)視頻幀之間的運(yùn)動(dòng)進(jìn)行補(bǔ)償,得到更加精確的重建結(jié)果。同時(shí),上述連接后的特征圖包括了2種不同級(jí)別的特征,不僅可以進(jìn)一步有效利用多尺度的時(shí)間-空間信息,還可以有效減少網(wǎng)絡(luò)參數(shù)量,降低網(wǎng)絡(luò)復(fù)雜度。
特征融合模塊使用5個(gè)三維殘差結(jié)構(gòu)進(jìn)行時(shí)間-空間特征融合。為銜接特征融合與后續(xù)模塊,將特征融合模塊中最后一個(gè)卷積層的輸出特征圖進(jìn)行堆疊(Bottleneck),將尺寸為C×D×W×H的特征圖變成CD×W×H的特征圖,同時(shí)使用大小為1的卷積對(duì)堆疊后的特征圖進(jìn)行融合。其中,C、D、W和H分別為通道數(shù)、深度、寬度和高度。
該模塊將融合后的特征作為輸入進(jìn)行高分辨率圖像重建,由殘差密集連接塊[15](Residual Dense Block,RDB)構(gòu)成,即圖1中的RDB,其具體結(jié)構(gòu)如圖4所示。該結(jié)構(gòu)所有卷積層之間都有連接,即每一層的輸入都包含其之前所有層的輸出特征,可以復(fù)用大量的特征。通過(guò)增強(qiáng)信息流、學(xué)習(xí)殘差特征,可以更充分地學(xué)習(xí)局部層次特征。

圖4 殘差密集連接塊結(jié)構(gòu)圖
每個(gè)殘差密集連接塊使用5個(gè)卷積層,前4層使用大小為3的卷積核,最后一層使用大小為1的卷積核來(lái)進(jìn)行特征融合。為了盡可能多地利用不同的特征信息,該模塊共使用了5個(gè)殘差密集連接塊,將所有的輸出連接在一起,進(jìn)行特征融合。特征融合后的輸出是一個(gè)和輸入視頻幀大小相同,但深度為放大倍數(shù)的平方的特征圖。
為減少網(wǎng)絡(luò)的計(jì)算量,整個(gè)網(wǎng)絡(luò)都是在低分辨率圖像尺寸上進(jìn)行處理的。因此,在網(wǎng)絡(luò)末端需使用亞像素卷積層進(jìn)行放大以得到高分辨率圖像幀重建結(jié)果。設(shè)放大的倍數(shù)為s,則亞像素卷積可以將大小為s2C×W×H的輸入轉(zhuǎn)換成大小為C×sW×sH的高分辨率圖像輸出。對(duì)于不同的放大倍數(shù)s,只需要修改前一個(gè)卷積層的輸出通道數(shù)即可,不需要修改網(wǎng)絡(luò)的其他部分。由于輸入圖像和輸出圖像具有一定的相似性,在模型中使用了全局殘差連接,對(duì)輸入視頻的中間幀進(jìn)行雙線(xiàn)性插值放大,然后與亞像素卷積層的輸出相加,作為網(wǎng)絡(luò)的最終輸出。
網(wǎng)絡(luò)模型選取均方誤差函數(shù)(Mean Square Error,MSE)作為損失函數(shù),其衡量的是重建圖像與真實(shí)圖像各像素之間的差異,可以表示為
(4)
其中,IGT為高分辨率圖像的真實(shí)值,IHR為網(wǎng)絡(luò)輸出的高分辨率重建圖像。
使用Vimeo-90K數(shù)據(jù)集[16]作為訓(xùn)練集,其含有64 612個(gè)視頻序列,每個(gè)視頻序列包含7幀連續(xù)的視頻幀,分辨率大小均為448×256。使用Vid4數(shù)據(jù)集[17]作為測(cè)試集,其包含4個(gè)不同的場(chǎng)景,每種場(chǎng)景使用31幀圖像用于測(cè)試。將訓(xùn)練集中的原始數(shù)據(jù)作為高分辨率視頻序列,使用Bicubic插值對(duì)原始圖像進(jìn)行下采樣,獲得對(duì)應(yīng)的低分辨率視頻序列。在產(chǎn)生的低分辨率視頻序列中,隨機(jī)選取大小為32×32的視頻序列塊作為網(wǎng)絡(luò)訓(xùn)練時(shí)的輸入,原始的視頻序列也被相應(yīng)的剪裁作為與之對(duì)應(yīng)的真實(shí)數(shù)據(jù)。
采用文獻(xiàn)[12]的處理方式,將視頻圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間,將Y通道輸入模型進(jìn)行處理。對(duì)于Cb和Cr通道,使用Bicubic插值的方式對(duì)其進(jìn)行上采樣。最后將YCbCr顏色空間轉(zhuǎn)換回RGB顏色空間,得到最終的重建圖像。
筆者使用PyTorch框架實(shí)現(xiàn)了網(wǎng)絡(luò)模型的搭建,選擇Adam優(yōu)化方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,參數(shù)設(shè)置為β1=0.9,β2=0.999,批量大小設(shè)置為32。初始的學(xué)習(xí)率設(shè)置為10-4,每20個(gè)訓(xùn)練階段下降一半,共訓(xùn)練60個(gè)階段。
在對(duì)比實(shí)驗(yàn)中,使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為性能評(píng)價(jià)指標(biāo)。
首先進(jìn)行了消融研究,對(duì)特征融合模塊的作用進(jìn)行了驗(yàn)證。分別使用普通的三維殘差塊和筆者提出的三維殘差塊對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,表示為模型1和模型2,并在測(cè)試集上測(cè)試。表1中給出了2種模型在測(cè)試集上進(jìn)行4倍超分辨率重建時(shí)的峰值信噪比(dB)、結(jié)構(gòu)相似性以及網(wǎng)絡(luò)的參數(shù)量。可以看出,與普通的三維殘差塊相比,筆者所提網(wǎng)絡(luò)模型中引入通道分離的三維殘差塊不僅重建效果略有提高,還有效地減少了網(wǎng)絡(luò)的參數(shù)數(shù)量。

表1 2種模型4倍超分辨率重建的性能評(píng)價(jià)指標(biāo)
為驗(yàn)證模型有效性,將所提模型與Bicubic[2]、VSRnet[10]、VESPCN[11]、SOF-VSR[12]和3DSRnet[14]5種方法進(jìn)行對(duì)比。不同方法在Vid4測(cè)試集上的評(píng)價(jià)指標(biāo)數(shù)值如表2所示。可以看出,筆者提出的模型與其他方法相比,在評(píng)價(jià)指標(biāo)數(shù)值上均有一定提升,證明了該方法的有效性。進(jìn)行3倍超分辨率放大時(shí),與效果較好的3DSRnet和SOF-VSR方法相比,筆者所提方法在平均峰值信噪比上分別提高了0.93 dB和0.49 dB,在平均結(jié)構(gòu)相似性上分別提高了0.026 3和0.014 7;進(jìn)行4倍超分辨率放大時(shí),平均峰值信噪比分別提高了0.83 dB和0.49 dB,平均結(jié)構(gòu)相似性分別提高了0.036 6和0.022 1。表2同時(shí)給出了各方法的參數(shù)量,筆者所提方法的參數(shù)量?jī)H略高于SOF-VSR方法,但可獲得更好的重建性能。

表2 Vid4測(cè)試集上不同視頻超分辨率模型性能評(píng)價(jià)指標(biāo)(峰值信噪比/結(jié)構(gòu)相似性)
圖5展示了不同方法在Vid4測(cè)試集上進(jìn)行4倍超分辨率放大后某一幀的重建結(jié)果。

圖5 不同方法在Vid4測(cè)試集上4倍超分辨率重建的結(jié)果圖
以Calendar視頻為例,直接由Bicubic插值得到的重建圖像十分模糊,幾乎無(wú)法辨認(rèn)圖中的字母。VSRnet和VESPCN方法的重建結(jié)果能勉強(qiáng)看到字母的邊緣,但仍然比較模糊。SOF-VSR和3DSRnet的超分辨率重建結(jié)果表現(xiàn)較好,可以看到圖中具體的英文字母。這是因?yàn)镾OF-VSR方法對(duì)HR光流進(jìn)行了估計(jì),可以實(shí)現(xiàn)更精確的運(yùn)動(dòng)補(bǔ)償,從而恢復(fù)出更多的細(xì)節(jié)信息。3DSRnet雖然網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,但其利用三維卷積同時(shí)進(jìn)行了時(shí)間-空間的特征提取和融合,也取得了較好的結(jié)果。相比之下,筆者所提模型的重建結(jié)果更加清晰,細(xì)節(jié)也更加豐富,視覺(jué)效果更好。從其他數(shù)據(jù)的結(jié)果圖中也可以看到相似的結(jié)果,因此,筆者提出的方法能夠獲得更好的視覺(jué)效果。
圖6針對(duì)Calendar視頻數(shù)據(jù),展示了不同方法重建結(jié)果的時(shí)間連續(xù)性。采用文獻(xiàn)[11]中的方法,從視頻的每一幀中的一個(gè)固定位置取一行像素點(diǎn),并將所有獲得的像素行依次縱向拼接在一起,得到一幅固定位置隨時(shí)間變化的圖像。圖像中的內(nèi)容越清晰,代表視頻的連續(xù)性越好,視覺(jué)效果也就更好。從圖中可以看出,筆者提出的模型的結(jié)果更清晰,再次驗(yàn)證了該模型的有效性。

圖6 不同方法在Calendar數(shù)據(jù)上4倍超分辨率重建的時(shí)間輪廓圖
筆者提出一種基于三維卷積的視頻超分辨率重建方法。該方法利用多尺度三維卷積進(jìn)行時(shí)間-空間特征的提取,并在三維殘差塊中結(jié)合通道分離來(lái)進(jìn)行多特征融合。實(shí)驗(yàn)結(jié)果表明,與其他視頻超分辨率方法相比,筆者所提方法可充分利用視頻序列的時(shí)間-空間信息,獲得更好的重建性能,細(xì)節(jié)信息更加豐富,時(shí)間連續(xù)性較好,具有更好的視覺(jué)效果。