基于改進自編碼網(wǎng)絡的視頻運動放大方法

2022-11-25 07:26:24但志平孫水發(fā)李勃輝方帥領

計算機工程與設計 2022年11期

張驍，但志平，孫水發(fā)，李勃輝，方帥領

(1. 三峽大學計算機與信息學院，湖北宜昌 443002；2.三峽大學水電工程智能視覺監(jiān)測湖北省重點實驗室，湖北宜昌 443002)

0 引言

由Ce Liu等[1]提出通過對特征點的聚類追蹤來實現(xiàn)視頻中動作放大，輔助人工獲取視頻中重要的變化信息。Wu等[2]提出了歐拉視頻放大方法，對感興趣的區(qū)域進行增強放大，為后續(xù)視頻圖像放大上提供了方法和依據(jù)。Wadhwa等[3]提出了基于相位的運動放大方法，該方法通過平移噪聲提高放大圖像生成質(zhì)量。目前視頻運動放大主要的應用領域包括非接觸式心率測量[4]、視頻偽造[5]判別等。

深度學習方法的引入為該領域提供了良好的研究基礎。Kuchaiev O等[6]提出自編碼網(wǎng)絡，但當輸入圖像信息過于復雜時，這種端到端的網(wǎng)絡模型在重構輸出時會忽視重要的特征信息。Jie H等[7]提出針對圖像特征提取的通道注意力機制(channel attention)，該機制讓網(wǎng)絡利用全局信息有選擇地增強有益特征并抑制無用特征，使得生成圖像亮度、色彩、更加豐富，紋理、形狀更加清晰。

常規(guī)卷積操作對圖像中物體的未知形變的建模存在缺陷，J.Dai等[8]提出了可變形卷積(deformable convolution networks，DCN)，DCN可以針對圖像中不同的物體形變對尺度或感受野的大小進行自適應調(diào)整，但DCN會引入多余的背景信息，對物體的形變產(chǎn)生干擾。X.Zhu等[9]提出了DCNv2，在DCN的基礎上添加了采樣點的權重信息，提高了算法對幾何形變的建模能力。Tae-Hyun Oh等[10]提出了基于深度學習的運動放大技術，結合歐拉放大的計算規(guī)則，設計了自主學習濾波器的網(wǎng)絡架構，有效改善了圖像的噪聲偽影、細節(jié)缺失等問題。周飛等[11]提出基于可控金字塔分解的網(wǎng)絡架構，將手工設計濾波器與課程學習策略相結合實現(xiàn)運動放大。

為解決基于深度學習的運動放大方法中存在的圖像失真、偽影和輪廓變形、局部色彩丟失，亮度、對比度減弱等問題。本文提出了一種融合可變形卷積、通道注意力機制[12]的改進自編碼網(wǎng)絡模型。該網(wǎng)絡模型既對尺度或感受野的大小進行自適應調(diào)整，同時添加采樣點的權重信息，提高了網(wǎng)絡對幾何形變的建模能力，通過對圖像不同運動區(qū)域的空間特征分配不同的權重信息，提高了生成圖像色彩、亮度、紋理質(zhì)量。實驗結果表明，改進后的網(wǎng)絡模型從定量分析和視覺效果上都有顯著提升。

1 基于深度學習方法網(wǎng)絡模型

基于深度學習視頻運動放大方法的自編碼網(wǎng)絡架構如圖1所示，該網(wǎng)絡架構主要是由編碼器、放大器、解碼器構成。網(wǎng)絡的輸入為連續(xù)的兩幀圖像IA、IB，通過編碼操作分別提取出圖像的形狀和紋理特征，放大器的作用主要是放大圖像像素的位移變化，且整個放大過程是對形狀特征進行操作。另外，紋理特征用來約束紋理損失，最后經(jīng)過解碼器將紋理、形狀特征融合并輸出放大圖像IM。網(wǎng)絡中的編碼器、放大器、解碼器主要由卷積層和殘差塊[13]構成，目的是更好減少紋理、形狀特征在卷積過程中的損失，這樣更有利于適應不同尺寸的輸入。

圖1 自編碼網(wǎng)絡結構

自編碼網(wǎng)絡模型具體的計算流程為：首先編碼器內(nèi)部進行兩次卷積操作和三次殘差核計算，其次分別對提取出的特征進行不同尺度的變化，將特征分為形狀和紋理特征，特征分離的作用是避免放大紋理特征帶來的噪聲干擾。對于兩個編碼器的輸入IA和IB采用相同的操作，保證提取的形狀特征尺寸一致。在放大器中計算輸入圖像IA和IB的形狀特征像素位移差值，添加放大因子α進行放大，將放大差值進行卷積和殘差操作后疊加回形狀A，得到放大后的形狀特征。在解碼過程之前需要將紋理和形狀特征采樣到相同尺寸，最終將輸入IA的紋理特征與放大后的形狀特征融合，將融合后的特征圖通過上采樣和卷積層恢復至原始尺寸。

該模型將深度學習的作為一種工具，解決了傳統(tǒng)手工設計濾波器的問題。通過在大量數(shù)據(jù)集中訓練，該模型通過自編碼網(wǎng)絡學習放大方法，極大地減少了生成圖像中的噪聲偽影、棋盤效應，提高生成圖像的質(zhì)量。但隨著網(wǎng)絡層數(shù)的逐步增加，在針對復雜場景下的微小運動，網(wǎng)絡很難更精確學習到圖像的運動特性，在放大倍數(shù)較高情況下仍會造成圖像的噪聲偽影、色彩缺失、輪廓變形等現(xiàn)象。為了使網(wǎng)絡更有針對性地學習圖像的運動特性，同時減少生成圖像中色彩和輪廓的缺失，需要改進自編碼網(wǎng)絡模型，如：引入通道注意力機制、采用可變形卷積等，使卷積網(wǎng)絡在訓練過程中針對不同變化區(qū)域的特征分配不同的權重信息，并針對物體形變過程改變卷積核形狀，提高網(wǎng)絡的幾何建模能力，因此，不僅能在一定程度上改善生成圖像的色彩和紋理，而且能提高網(wǎng)絡在較高倍數(shù)放大時的適應能力。

2 改進模型

2.1 網(wǎng)絡架構

本文以基于深度學習的自編碼網(wǎng)絡架構為基準，網(wǎng)絡主要由編碼器、解碼器、放大器組成。保留放大操作過程，主要對編碼器和解碼器進行改進。整體的網(wǎng)絡架構如圖2所示。

圖2 改進網(wǎng)絡結構

改進的網(wǎng)絡同樣采用兩幀圖像IA和IB作為輸入，為確保編碼器能夠提取更準確的圖像特征信息，在編碼器內(nèi)部將不同維度的特征信息分別用來表示圖像的紋理特征FT和形狀特征FS。增加通道注意力模塊提取紋理特征FT，利用通道注意力機制的特性針對色彩、紋理變化不一致區(qū)域，分配不同的權重信息，更好地將淺層的圖像紋理特征FT與深層次的結構信息融合。對圖像中變化的形狀特征FS，采用可變形卷積提取，拓寬卷積視野，自適應調(diào)整卷積核的形狀，融合更多的空間結構信息，提高網(wǎng)絡的去噪能力，確保網(wǎng)絡提取圖像中更精確的動態(tài)變化特征信息。

在放大器的實現(xiàn)過程中，結合歐拉放大技術的線性與非線性原理，用I(x,t) 表示圖像中原始像素的位置與時間的關系。像素集變化的計算規(guī)則如式(1)所示

(1)

(2)

其中，Gm代表整個放大操作過程。

由于線性放大過程容易產(chǎn)生噪聲，因此引入非線性表達式，即利用放大器中的卷積層和殘差塊使放大過程呈現(xiàn)非線性的計算方式，如式(3)所示

(3)

其中，g() 表示是卷積層運算，h() 表示是殘差核運算，相比于單純線性放大擁有更好的運動放大效果，這樣可有效避免將圖像中的噪聲信號放大。

最后，將提取的紋理特征與經(jīng)過放大器處理后的形狀特征作為解碼器的輸入，對紋理特征和形狀特進行征融合后，經(jīng)過多層殘差處理，并保留殘差塊以減少圖像損失，同時，在解碼器引入通道注意力機制以減少紋理、形狀特征融合后圖像的色彩、亮度、對比度等細節(jié)損失，最終輸出合成圖像IM。

2.2 可變形卷積(DCN)

自編碼網(wǎng)絡在低分辨率空間中進行密集卷積計算時，通過自適應調(diào)整動態(tài)特征來彌補網(wǎng)絡層數(shù)、參數(shù)帶來的信息損失。自適應調(diào)整機制使淺層特征信息自適應地從上采樣部分流向更高層次特征，更好地保持特征的有效性。傳統(tǒng)的空間不變卷積核可能會導致圖像紋理被破壞和過度噪聲偽影，而可變形卷積改變了傳統(tǒng)卷積方式，動態(tài)擴展了感受野，能夠融合更多的空間結構信息，進一步提高去噪網(wǎng)絡的性能。可變形卷積的卷積核感受野變化如圖3所示。

圖3 卷積感受野變化

圖3(a)部分代表普通卷積的感受野，圖3(b)、圖3(c)、圖3(d)分別代表加上偏移量后的感受野。以圖3(a)為例，表示3×3的卷積核，卷積結構輸出的特征圖的點與卷積中心點對應，如式(4)所示

(4)

其中，r代表滑動窗口的規(guī)則網(wǎng)格，例如r={(-1,-1),(-1,0),…,(0,1),(1,1)},w表示卷積計算過程中的采樣權重，k表示輸入特征圖對應位置的值，bn是b0在卷積核的偏移量,z表示卷積操作后輸出特征矩陣值。

可變形卷積在原始卷積的基礎上為每個點增加一個偏移量Δbn，其中{Δbn|n=1,2,…,N}，N=|r|。為確保生成像素點與特征圖中實際點對應，同時采用雙線性差值方法保證獲取像素的準確性。如式(5)所示

(5)

采用可變形卷積能夠更有效地針對圖像形狀特征發(fā)生改變的情況，自適應調(diào)整卷積核的形狀，提高運動物體特征的提取質(zhì)量。

2.3 通道注意力(CA)

通道注意力機制可以較好解決圖像特征提取過程中色彩、亮度、紋理損失等問題，不同的通道特征包含不同的加權信息，由于視頻運動幀之間存在不同像素的運動變化差異，會造成色彩變化不均、紋理特征差異明顯。因此，圖像各通道不同類型的信息需要進行不同權重處理。擴展了神經(jīng)網(wǎng)絡的表征能力。通道注意力機制能夠?qū)⒉煌瑢哟翁卣魅诤希⒆赃m應的從注意力模塊中學習到不同的權重信息，同時會根據(jù)輸出圖像中變化的特征信息動態(tài)調(diào)整權重。本文中在處理視頻運動過程中應盡可能減少亮度、色彩、紋理損失，保留淺層信息，更有利于形狀、紋理特征的融合。

通過編碼器提取圖像IA的特征圖FA∈W×H×C，C表示特征圖的通道數(shù)，H、W分別代表特征圖的高和寬。通道注意力機制能夠?qū)θ我獾妮斎胄畔嬙爝\算單元，運算過程為

其中，F(xiàn)tr表示對特征圖卷積操作，UA表示輸出特征集合。

為確保網(wǎng)絡能夠增加有利信息的提取，對通道之間的依賴關系進行精確建模，首先考慮將輸出特征UA的全局空間信息壓縮成一個通道描述器，即將特征圖的形狀從C×H×W變成C×1×1，并通過一個全局平均池化層來實現(xiàn)通道統(tǒng)計用gC表示。具體實現(xiàn)如式(6)所示

(6)

其中，UC(i,j) 代表的是C通道的特征圖UC在位置 (i,j) 的像素值，MP代表全平均池化局池化功能。為確保網(wǎng)絡捕捉到通道之間非線性的相互作用關系，給不同的通道分配不同權重，將獲取到的通道統(tǒng)計gC通過兩個卷積層和Sigmoid、Rule函數(shù)激活，如式(7)所示

CAC=σ(Conv(δ(Conv(gC))))

(7)

其中，σ是Sigmoid函數(shù)，δ是Rule激活函數(shù)，最后將逐個元素輸入FA與通道CAC的權重進行逐像素相乘，得到通過注意力機制提取后紋理特征信息FTA，如式(8)所示

FTA=CAC×FA

(8)

本文在視頻運動過程中提取通道信息時盡可能減少亮度、色彩、紋理損失，保留淺層信息，增強形狀、紋理特征的融合。

2.4 特征融合

2.5 損失函數(shù)

(9)

在本文中主要是用于計算生成圖像IM與輸入圖像IA之間對應像素差值的絕對值總和。

訓練了數(shù)據(jù)集包含4類，分別是原始兩幀圖像IA和IB、加入干擾的圖像IC和真實放大的圖像Im′。計算生成圖像IM與真實的放大圖像Im′之間損失記為L1(IM,Im′)，L1(IA,IC) 來表示IA與IC的紋理損失，L1(IB,Im′) 表示IB與Im′的紋理損失。此外，訓練過程還需要對形狀變化進行約束，用L1(IB′,Im′) 表示IB相對Im′的運動損失，總的Loss函數(shù)如式(10)所示

Loss=L1(IM,Im′)+λ(L1(IA,IC)+
L1(IB,Im′)+L1(IB′,Im′))

(10)

其中，λ參數(shù)設為0.1。

3 實驗

3.1 實驗參數(shù)與數(shù)據(jù)集

本文實驗使用的顯卡為單張12 GB顯存的RTX 2080TI顯卡，深度學習的框架為pytorch[14]。訓練時學習率設置為0.0001，Batchsize設置為6，采用Adam優(yōu)化器對網(wǎng)絡進行優(yōu)化。測試時設置Batchsize設置為3。

由于真實的微運動視頻數(shù)據(jù)集有限，本文使用基于深度學習方法中的數(shù)據(jù)集[10]進行訓練。數(shù)據(jù)集中包含F(xiàn)rameA、FrameB、FrameC和放大幀共4個文件，每個文件中包含10萬張圖片。分別包含遮擋、局部運動、色彩擾動、模糊、低對比度、靜態(tài)場景等等來訓練網(wǎng)絡的泛化能力。數(shù)據(jù)集中圖片分辨率為384*384的，為盡量縮短訓練時間并確保網(wǎng)絡學習所有可能圖像變化特性，本文在實驗階段按類別選取20 000張圖片進行訓練。

測試使用的視頻數(shù)據(jù)[15-17]均來源于相關研究領域，且視頻的分辨率大小不同。其中Baby視頻的分辨率為960*544，時長為10 s，幀率為30，將其分解為300張圖像序列。guitar視頻的分辨率是432*192，drone視頻分辨率為960*540，Cat toy視頻分辨率為640*360，gun視頻分辨率為720*576，water視頻分辨率為568*320，camera視頻分辨率為521*384，crane視頻分辨率為720*1280，wrist視頻分辨率為640*352。這表明訓練的網(wǎng)絡具有很好的泛化能力針對不同的測試數(shù)據(jù)都能夠變現(xiàn)出很好的網(wǎng)絡特性。同時通過生成圖片的細節(jié)圖進行對比進一步說明實驗有效性。

3.2 定量分析

實驗結果對比中，本文選用廣泛應用于衡量生成視頻質(zhì)量的評價指標PSNR(peak signal-to-noise ratio)和SSIM(structural similarity)[18]來評價本文方法與其余方法生成視頻的質(zhì)量，并對評價結果進行對比分析。計算規(guī)則是將放大后的視頻幀與原始視頻幀計算求平均的PSNR和SSIM值。PSNR的值與MSE(mean-square error)成反比，而MSE表示生成圖像與原始圖像對應像素點的均方誤差，生成圖像質(zhì)量越好表示相應的MSE越低則對應的PSNR值也就越高。SSIM主要是衡量原始圖像與生成圖像之間的亮度、對比度和結構三方面的相似性。通常用圖像中像素的均值作為對亮度的估計，像素之間的標準差作為對比度估計，協(xié)方差用于度量結構相似程度，SSIM的取值范圍在0和1之間，SSIM值越接近于1表示生成圖像與原始圖像越相似。相位方法[6]、基于深度學習方法[12]和本文方法不同的放大倍數(shù)下的平均PSNR和平均SSIM值的對比分析結果如下所示：

Baby、guitar視頻實驗結果的平均PSNR值見表1、表2，相比于相位方法、基于深度學習方法，本文的方法在較低放大倍數(shù)時有一定程度的提高，且在較高放大倍數(shù)時明顯優(yōu)于其它方法。這表明本文的方法能夠表現(xiàn)出更好的幾何建模能力，通過自適應改變卷積核減少生成圖像細節(jié)損失。

表1 Baby視頻平均PSNR值對比

表2 guitar視頻平均PSNR值對比

Baby、guitar視頻實驗結果的平均SSIM值對比見表3和表4，隨著放大倍數(shù)的不斷增加，傳統(tǒng)方法中的紋理損失越嚴重，引入通道注意力機制提高網(wǎng)絡在生成圖像的色彩、對比度、結構相似性上有一定程度的提升。

表3 Baby視頻平均SSIM值對比

3.3 定性分析

通過對比生成圖像中的細節(jié)部位，更能體現(xiàn)本文算法的優(yōu)勢。選取生成視頻幀序列中的第100幀圖像，用黑色實線框標注為Baby胸部輪廓發(fā)生形變位置，黑色虛線框標注出圖像的邊緣輪廓位置。實驗結果表明，本文的方法不僅能在放大10倍、20倍時達到相同的效果，而且在50倍及以上取得更好的效果，在發(fā)生形變的部位產(chǎn)生更少的噪聲偽影，在圖像邊緣輪廓位置表現(xiàn)出更平滑的效果。

表4 guitar視頻平均SSIM值對比

由圖4實驗結果顯示，在放大10倍、20倍時對比原圖相位方法生成的圖像會產(chǎn)生輕微的棋盤效應，且圖像的噪聲明顯，有輕微的色彩變化。本文方法與基于深度學習方法生成圖像減少了棋盤效應和噪聲偽影，統(tǒng)計結果相近。

由于相位方法無法放大較高倍數(shù)，這里主要對比深度學習方法和本文方法。從圖5、圖6實驗結果顯示，在Baby視頻和guitar視頻放大50、80、100倍情況下，將標注區(qū)域放大后能清楚看到本文中的方法在生成圖像質(zhì)量上有明顯提升，能夠很好保留輪廓細節(jié)；并且隨著放大倍數(shù)的不斷增加，深度學習方法的圖像邊緣部分產(chǎn)生形變，運動放大部位也出現(xiàn)更多的噪聲偽影，細節(jié)缺失。而且本文提出的方法能夠很好地保留原圖像的邊緣信息，進一步驗證本文方法在較高放大倍數(shù)時表現(xiàn)得效果良好。

圖4 Baby視頻放大10、20倍對比

圖5 Baby視頻放大50、80、100倍對比

圖6 guitar視頻放大50、80、100倍對比

3.4 消融實驗

此外，本文在其余不同分辨率的視頻上做了消融實驗，在網(wǎng)絡中加入不同模塊進行測試。實驗結果表明，本文對比深度學習方法，測試網(wǎng)絡中單獨加入可變形卷積模塊和同時加入兩個模塊生成圖像的平均PSNR和平均SSIM值都有一定程度的提升，在不同分辨率的測試數(shù)據(jù)集上效果也有所提升，選取的測試視頻尺寸大小都不相同通過實驗進一步驗證了本文方法的有效性見表5、表6。

表5 測試視頻放大80倍平均PSNR對比

表6 測試視頻放大80倍平均SSIM對比

4 結束語

本文提出一種改進自編碼網(wǎng)絡方法用于提升視頻運動放大生成圖像的質(zhì)量。對編碼器提取的紋理特征通過通道注意力CA用于減少淺層紋理損失，利用可變形卷積DCN提高網(wǎng)絡對圖像中運動特征的建模能力，在解碼器內(nèi)部將圖像的紋理、形狀特征融合后通過通道注意力CA減少生成圖像在色彩、紋理、對比度的損失。通過對網(wǎng)絡參數(shù)的調(diào)整，在測試視頻中，該方法能夠有效解決高放大倍數(shù)下圖像細節(jié)、輪廓缺失等問題，并較好保留圖像紋理細節(jié)，減少噪聲干擾。

在未來的研究中，我們將主要從2個方面繼續(xù)深入研究：①增加通道注意力機制會產(chǎn)生更長的計算時間，我們將考慮在提升質(zhì)量的同時進一步提高效率；②針對連續(xù)性的運動特征需要更長序列的輸入，我們將考慮進一步簡化輸入序列。