999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進自編碼網(wǎng)絡的視頻運動放大方法

2022-11-25 07:26:24但志平孫水發(fā)李勃輝方帥領
計算機工程與設計 2022年11期
關鍵詞:特征信息方法

張 驍,但志平,孫水發(fā),李勃輝,方帥領

(1. 三峽大學 計算機與信息學院,湖北 宜昌 443002;2.三峽大學 水電工程智能視覺監(jiān)測湖北省重點實驗室,湖北 宜昌 443002)

0 引 言

由Ce Liu等[1]提出通過對特征點的聚類追蹤來實現(xiàn)視頻中動作放大,輔助人工獲取視頻中重要的變化信息。Wu等[2]提出了歐拉視頻放大方法,對感興趣的區(qū)域進行增強放大,為后續(xù)視頻圖像放大上提供了方法和依據(jù)。Wadhwa等[3]提出了基于相位的運動放大方法,該方法通過平移噪聲提高放大圖像生成質(zhì)量。目前視頻運動放大主要的應用領域包括非接觸式心率測量[4]、視頻偽造[5]判別等。

深度學習方法的引入為該領域提供了良好的研究基礎。Kuchaiev O等[6]提出自編碼網(wǎng)絡,但當輸入圖像信息過于復雜時,這種端到端的網(wǎng)絡模型在重構輸出時會忽視重要的特征信息。Jie H等[7]提出針對圖像特征提取的通道注意力機制(channel attention),該機制讓網(wǎng)絡利用全局信息有選擇地增強有益特征并抑制無用特征,使得生成圖像亮度、色彩、更加豐富,紋理、形狀更加清晰。

常規(guī)卷積操作對圖像中物體的未知形變的建模存在缺陷,J.Dai等[8]提出了可變形卷積(deformable convolution networks,DCN),DCN可以針對圖像中不同的物體形變對尺度或感受野的大小進行自適應調(diào)整,但DCN會引入多余的背景信息,對物體的形變產(chǎn)生干擾。X.Zhu等[9]提出了DCNv2,在DCN的基礎上添加了采樣點的權重信息,提高了算法對幾何形變的建模能力。Tae-Hyun Oh等[10]提出了基于深度學習的運動放大技術,結合歐拉放大的計算規(guī)則,設計了自主學習濾波器的網(wǎng)絡架構,有效改善了圖像的噪聲偽影、細節(jié)缺失等問題。周飛等[11]提出基于可控金字塔分解的網(wǎng)絡架構,將手工設計濾波器與課程學習策略相結合實現(xiàn)運動放大。

為解決基于深度學習的運動放大方法中存在的圖像失真、偽影和輪廓變形、局部色彩丟失,亮度、對比度減弱等問題。本文提出了一種融合可變形卷積、通道注意力機制[12]的改進自編碼網(wǎng)絡模型。該網(wǎng)絡模型既對尺度或感受野的大小進行自適應調(diào)整,同時添加采樣點的權重信息,提高了網(wǎng)絡對幾何形變的建模能力,通過對圖像不同運動區(qū)域的空間特征分配不同的權重信息,提高了生成圖像色彩、亮度、紋理質(zhì)量。實驗結果表明,改進后的網(wǎng)絡模型從定量分析和視覺效果上都有顯著提升。

1 基于深度學習方法網(wǎng)絡模型

基于深度學習視頻運動放大方法的自編碼網(wǎng)絡架構如圖1所示,該網(wǎng)絡架構主要是由編碼器、放大器、解碼器構成。網(wǎng)絡的輸入為連續(xù)的兩幀圖像IA、IB, 通過編碼操作分別提取出圖像的形狀和紋理特征,放大器的作用主要是放大圖像像素的位移變化,且整個放大過程是對形狀特征進行操作。另外,紋理特征用來約束紋理損失,最后經(jīng)過解碼器將紋理、形狀特征融合并輸出放大圖像IM。 網(wǎng)絡中的編碼器、放大器、解碼器主要由卷積層和殘差塊[13]構成,目的是更好減少紋理、形狀特征在卷積過程中的損失,這樣更有利于適應不同尺寸的輸入。

圖1 自編碼網(wǎng)絡結構

自編碼網(wǎng)絡模型具體的計算流程為:首先編碼器內(nèi)部進行兩次卷積操作和三次殘差核計算,其次分別對提取出的特征進行不同尺度的變化,將特征分為形狀和紋理特征,特征分離的作用是避免放大紋理特征帶來的噪聲干擾。對于兩個編碼器的輸入IA和IB采用相同的操作,保證提取的形狀特征尺寸一致。在放大器中計算輸入圖像IA和IB的形狀特征像素位移差值,添加放大因子α進行放大,將放大差值進行卷積和殘差操作后疊加回形狀A, 得到放大后的形狀特征。在解碼過程之前需要將紋理和形狀特征采樣到相同尺寸,最終將輸入IA的紋理特征與放大后的形狀特征融合,將融合后的特征圖通過上采樣和卷積層恢復至原始尺寸。

該模型將深度學習的作為一種工具,解決了傳統(tǒng)手工設計濾波器的問題。通過在大量數(shù)據(jù)集中訓練,該模型通過自編碼網(wǎng)絡學習放大方法,極大地減少了生成圖像中的噪聲偽影、棋盤效應,提高生成圖像的質(zhì)量。但隨著網(wǎng)絡層數(shù)的逐步增加,在針對復雜場景下的微小運動,網(wǎng)絡很難更精確學習到圖像的運動特性,在放大倍數(shù)較高情況下仍會造成圖像的噪聲偽影、色彩缺失、輪廓變形等現(xiàn)象。為了使網(wǎng)絡更有針對性地學習圖像的運動特性,同時減少生成圖像中色彩和輪廓的缺失,需要改進自編碼網(wǎng)絡模型,如:引入通道注意力機制、采用可變形卷積等,使卷積網(wǎng)絡在訓練過程中針對不同變化區(qū)域的特征分配不同的權重信息,并針對物體形變過程改變卷積核形狀,提高網(wǎng)絡的幾何建模能力,因此,不僅能在一定程度上改善生成圖像的色彩和紋理,而且能提高網(wǎng)絡在較高倍數(shù)放大時的適應能力。

2 改進模型

2.1 網(wǎng)絡架構

本文以基于深度學習的自編碼網(wǎng)絡架構為基準,網(wǎng)絡主要由編碼器、解碼器、放大器組成。保留放大操作過程,主要對編碼器和解碼器進行改進。整體的網(wǎng)絡架構如圖2所示。

圖2 改進網(wǎng)絡結構

改進的網(wǎng)絡同樣采用兩幀圖像IA和IB作為輸入,為確保編碼器能夠提取更準確的圖像特征信息,在編碼器內(nèi)部將不同維度的特征信息分別用來表示圖像的紋理特征FT和形狀特征FS。 增加通道注意力模塊提取紋理特征FT, 利用通道注意力機制的特性針對色彩、紋理變化不一致區(qū)域,分配不同的權重信息,更好地將淺層的圖像紋理特征FT與深層次的結構信息融合。對圖像中變化的形狀特征FS, 采用可變形卷積提取,拓寬卷積視野,自適應調(diào)整卷積核的形狀,融合更多的空間結構信息,提高網(wǎng)絡的去噪能力,確保網(wǎng)絡提取圖像中更精確的動態(tài)變化特征信息。

在放大器的實現(xiàn)過程中,結合歐拉放大技術的線性與非線性原理,用I(x,t) 表示圖像中原始像素的位置與時間的關系。像素集變化的計算規(guī)則如式(1)所示

(1)

(2)

其中,Gm代表整個放大操作過程。

由于線性放大過程容易產(chǎn)生噪聲,因此引入非線性表達式,即利用放大器中的卷積層和殘差塊使放大過程呈現(xiàn)非線性的計算方式,如式(3)所示

(3)

其中,g() 表示是卷積層運算,h() 表示是殘差核運算,相比于單純線性放大擁有更好的運動放大效果,這樣可有效避免將圖像中的噪聲信號放大。

最后,將提取的紋理特征與經(jīng)過放大器處理后的形狀特征作為解碼器的輸入,對紋理特征和形狀特進行征融合后,經(jīng)過多層殘差處理,并保留殘差塊以減少圖像損失,同時,在解碼器引入通道注意力機制以減少紋理、形狀特征融合后圖像的色彩、亮度、對比度等細節(jié)損失,最終輸出合成圖像IM。

2.2 可變形卷積(DCN)

自編碼網(wǎng)絡在低分辨率空間中進行密集卷積計算時,通過自適應調(diào)整動態(tài)特征來彌補網(wǎng)絡層數(shù)、參數(shù)帶來的信息損失。自適應調(diào)整機制使淺層特征信息自適應地從上采樣部分流向更高層次特征,更好地保持特征的有效性。傳統(tǒng)的空間不變卷積核可能會導致圖像紋理被破壞和過度噪聲偽影,而可變形卷積改變了傳統(tǒng)卷積方式,動態(tài)擴展了感受野,能夠融合更多的空間結構信息,進一步提高去噪網(wǎng)絡的性能。可變形卷積的卷積核感受野變化如圖3所示。

圖3 卷積感受野變化

圖3(a)部分代表普通卷積的感受野,圖3(b)、圖3(c)、圖3(d)分別代表加上偏移量后的感受野。以圖3(a)為例,表示3×3的卷積核,卷積結構輸出的特征圖的點與卷積中心點對應,如式(4)所示

(4)

其中,r代表滑動窗口的規(guī)則網(wǎng)格,例如r={(-1,-1),(-1,0),…,(0,1),(1,1)},w表示卷積計算過程中的采樣權重,k表示輸入特征圖對應位置的值,bn是b0在卷積核的偏移量,z表示卷積操作后輸出特征矩陣值。

可變形卷積在原始卷積的基礎上為每個點增加一個偏移量Δbn, 其中{Δbn|n=1,2,…,N},N=|r|。 為確保生成像素點與特征圖中實際點對應,同時采用雙線性差值方法保證獲取像素的準確性。如式(5)所示

(5)

采用可變形卷積能夠更有效地針對圖像形狀特征發(fā)生改變的情況,自適應調(diào)整卷積核的形狀,提高運動物體特征的提取質(zhì)量。

2.3 通道注意力(CA)

通道注意力機制可以較好解決圖像特征提取過程中色彩、亮度、紋理損失等問題,不同的通道特征包含不同的加權信息,由于視頻運動幀之間存在不同像素的運動變化差異,會造成色彩變化不均、紋理特征差異明顯。因此,圖像各通道不同類型的信息需要進行不同權重處理。擴展了神經(jīng)網(wǎng)絡的表征能力。通道注意力機制能夠?qū)⒉煌瑢哟翁卣魅诤希⒆赃m應的從注意力模塊中學習到不同的權重信息,同時會根據(jù)輸出圖像中變化的特征信息動態(tài)調(diào)整權重。本文中在處理視頻運動過程中應盡可能減少亮度、色彩、紋理損失,保留淺層信息,更有利于形狀、紋理特征的融合。

通過編碼器提取圖像IA的特征圖FA∈W×H×C,C表示特征圖的通道數(shù),H、W分別代表特征圖的高和寬。通道注意力機制能夠?qū)θ我獾妮斎胄畔嬙爝\算單元,運算過程為

其中,F(xiàn)tr表示對特征圖卷積操作,UA表示輸出特征集合。

為確保網(wǎng)絡能夠增加有利信息的提取,對通道之間的依賴關系進行精確建模,首先考慮將輸出特征UA的全局空間信息壓縮成一個通道描述器,即將特征圖的形狀從C×H×W變成C×1×1, 并通過一個全局平均池化層來實現(xiàn)通道統(tǒng)計用gC表示。具體實現(xiàn)如式(6)所示

(6)

其中,UC(i,j) 代表的是C通道的特征圖UC在位置 (i,j) 的像素值,MP代表全平均池化局池化功能。為確保網(wǎng)絡捕捉到通道之間非線性的相互作用關系,給不同的通道分配不同權重,將獲取到的通道統(tǒng)計gC通過兩個卷積層和Sigmoid、Rule函數(shù)激活,如式(7)所示

CAC=σ(Conv(δ(Conv(gC))))

(7)

其中,σ是Sigmoid函數(shù),δ是Rule激活函數(shù),最后將逐個元素輸入FA與通道CAC的權重進行逐像素相乘,得到通過注意力機制提取后紋理特征信息FTA, 如式(8)所示

FTA=CAC×FA

(8)

本文在視頻運動過程中提取通道信息時盡可能減少亮度、色彩、紋理損失,保留淺層信息,增強形狀、紋理特征的融合。

2.4 特征融合

2.5 損失函數(shù)

(9)

在本文中主要是用于計算生成圖像IM與輸入圖像IA之間對應像素差值的絕對值總和。

訓練了數(shù)據(jù)集包含4類,分別是原始兩幀圖像IA和IB、 加入干擾的圖像IC和真實放大的圖像Im′。 計算生成圖像IM與真實的放大圖像Im′之間損失記為L1(IM,Im′),L1(IA,IC) 來表示IA與IC的紋理損失,L1(IB,Im′) 表示IB與Im′的紋理損失。此外,訓練過程還需要對形狀變化進行約束,用L1(IB′,Im′) 表示IB相對Im′的運動損失,總的Loss函數(shù)如式(10)所示

Loss=L1(IM,Im′)+λ(L1(IA,IC)+
L1(IB,Im′)+L1(IB′,Im′))

(10)

其中,λ參數(shù)設為0.1。

3 實 驗

3.1 實驗參數(shù)與數(shù)據(jù)集

本文實驗使用的顯卡為單張12 GB顯存的RTX 2080TI顯卡,深度學習的框架為pytorch[14]。訓練時學習率設置為0.0001,Batchsize設置為6,采用Adam優(yōu)化器對網(wǎng)絡進行優(yōu)化。測試時設置Batchsize設置為3。

由于真實的微運動視頻數(shù)據(jù)集有限,本文使用基于深度學習方法中的數(shù)據(jù)集[10]進行訓練。數(shù)據(jù)集中包含F(xiàn)rameA、FrameB、FrameC和放大幀共4個文件,每個文件中包含10萬張圖片。分別包含遮擋、局部運動、色彩擾動、模糊、低對比度、靜態(tài)場景等等來訓練網(wǎng)絡的泛化能力。數(shù)據(jù)集中圖片分辨率為384*384的,為盡量縮短訓練時間并確保網(wǎng)絡學習所有可能圖像變化特性,本文在實驗階段按類別選取20 000張圖片進行訓練。

測試使用的視頻數(shù)據(jù)[15-17]均來源于相關研究領域,且視頻的分辨率大小不同。其中Baby視頻的分辨率為960*544,時長為10 s,幀率為30,將其分解為300張圖像序列。guitar視頻的分辨率是432*192,drone視頻分辨率為960*540,Cat toy視頻分辨率為640*360,gun視頻分辨率為720*576,water視頻分辨率為568*320,camera視頻分辨率為521*384,crane視頻分辨率為720*1280,wrist視頻分辨率為640*352。這表明訓練的網(wǎng)絡具有很好的泛化能力針對不同的測試數(shù)據(jù)都能夠變現(xiàn)出很好的網(wǎng)絡特性。同時通過生成圖片的細節(jié)圖進行對比進一步說明實驗有效性。

3.2 定量分析

實驗結果對比中,本文選用廣泛應用于衡量生成視頻質(zhì)量的評價指標PSNR(peak signal-to-noise ratio)和SSIM(structural similarity)[18]來評價本文方法與其余方法生成視頻的質(zhì)量,并對評價結果進行對比分析。計算規(guī)則是將放大后的視頻幀與原始視頻幀計算求平均的PSNR和SSIM值。PSNR的值與MSE(mean-square error)成反比,而MSE表示生成圖像與原始圖像對應像素點的均方誤差,生成圖像質(zhì)量越好表示相應的MSE越低則對應的PSNR值也就越高。SSIM主要是衡量原始圖像與生成圖像之間的亮度、對比度和結構三方面的相似性。通常用圖像中像素的均值作為對亮度的估計,像素之間的標準差作為對比度估計,協(xié)方差用于度量結構相似程度,SSIM的取值范圍在0和1之間,SSIM值越接近于1表示生成圖像與原始圖像越相似。相位方法[6]、基于深度學習方法[12]和本文方法不同的放大倍數(shù)下的平均PSNR和平均SSIM值的對比分析結果如下所示:

Baby、guitar視頻實驗結果的平均PSNR值見表1、表2,相比于相位方法、基于深度學習方法,本文的方法在較低放大倍數(shù)時有一定程度的提高,且在較高放大倍數(shù)時明顯優(yōu)于其它方法。這表明本文的方法能夠表現(xiàn)出更好的幾何建模能力,通過自適應改變卷積核減少生成圖像細節(jié)損失。

表1 Baby視頻平均PSNR值對比

表2 guitar視頻平均PSNR值對比

Baby、guitar視頻實驗結果的平均SSIM值對比見表3和表4,隨著放大倍數(shù)的不斷增加,傳統(tǒng)方法中的紋理損失越嚴重,引入通道注意力機制提高網(wǎng)絡在生成圖像的色彩、對比度、結構相似性上有一定程度的提升。

表3 Baby視頻平均SSIM值對比

3.3 定性分析

通過對比生成圖像中的細節(jié)部位,更能體現(xiàn)本文算法的優(yōu)勢。選取生成視頻幀序列中的第100幀圖像,用黑色實線框標注為Baby胸部輪廓發(fā)生形變位置,黑色虛線框標注出圖像的邊緣輪廓位置。實驗結果表明,本文的方法不僅能在放大10倍、20倍時達到相同的效果,而且在50倍及以上取得更好的效果,在發(fā)生形變的部位產(chǎn)生更少的噪聲偽影,在圖像邊緣輪廓位置表現(xiàn)出更平滑的效果。

表4 guitar視頻平均SSIM值對比

由圖4實驗結果顯示,在放大10倍、20倍時對比原圖相位方法生成的圖像會產(chǎn)生輕微的棋盤效應,且圖像的噪聲明顯,有輕微的色彩變化。本文方法與基于深度學習方法生成圖像減少了棋盤效應和噪聲偽影,統(tǒng)計結果相近。

由于相位方法無法放大較高倍數(shù),這里主要對比深度學習方法和本文方法。從圖5、圖6實驗結果顯示,在Baby視頻和guitar視頻放大50、80、100倍情況下,將標注區(qū)域放大后能清楚看到本文中的方法在生成圖像質(zhì)量上有明顯提升,能夠很好保留輪廓細節(jié);并且隨著放大倍數(shù)的不斷增加,深度學習方法的圖像邊緣部分產(chǎn)生形變,運動放大部位也出現(xiàn)更多的噪聲偽影,細節(jié)缺失。而且本文提出的方法能夠很好地保留原圖像的邊緣信息,進一步驗證本文方法在較高放大倍數(shù)時表現(xiàn)得效果良好。

圖4 Baby視頻放大10、20倍對比

圖5 Baby視頻放大50、80、100倍對比

圖6 guitar視頻放大50、80、100倍對比

3.4 消融實驗

此外,本文在其余不同分辨率的視頻上做了消融實驗,在網(wǎng)絡中加入不同模塊進行測試。實驗結果表明,本文對比深度學習方法,測試網(wǎng)絡中單獨加入可變形卷積模塊和同時加入兩個模塊生成圖像的平均PSNR和平均SSIM值都有一定程度的提升,在不同分辨率的測試數(shù)據(jù)集上效果也有所提升,選取的測試視頻尺寸大小都不相同通過實驗進一步驗證了本文方法的有效性見表5、表6。

表5 測試視頻放大80倍平均PSNR對比

表6 測試視頻放大80倍平均SSIM對比

4 結束語

本文提出一種改進自編碼網(wǎng)絡方法用于提升視頻運動放大生成圖像的質(zhì)量。對編碼器提取的紋理特征通過通道注意力CA用于減少淺層紋理損失,利用可變形卷積DCN提高網(wǎng)絡對圖像中運動特征的建模能力,在解碼器內(nèi)部將圖像的紋理、形狀特征融合后通過通道注意力CA減少生成圖像在色彩、紋理、對比度的損失。通過對網(wǎng)絡參數(shù)的調(diào)整,在測試視頻中,該方法能夠有效解決高放大倍數(shù)下圖像細節(jié)、輪廓缺失等問題,并較好保留圖像紋理細節(jié),減少噪聲干擾。

在未來的研究中,我們將主要從2個方面繼續(xù)深入研究:①增加通道注意力機制會產(chǎn)生更長的計算時間,我們將考慮在提升質(zhì)量的同時進一步提高效率;②針對連續(xù)性的運動特征需要更長序列的輸入,我們將考慮進一步簡化輸入序列。

猜你喜歡
特征信息方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 日韩精品无码不卡无码| 四虎影视无码永久免费观看| 女高中生自慰污污网站| 丰满人妻久久中文字幕| 一区二区午夜| 人人艹人人爽| 亚洲无线国产观看| 2021最新国产精品网站| av免费在线观看美女叉开腿| 国产高清免费午夜在线视频| 日本91在线| 美女被操91视频| 国产成人高精品免费视频| 欧美在线一二区| 91午夜福利在线观看精品| 无码aaa视频| 午夜小视频在线| 国产精品手机在线播放| 国产福利微拍精品一区二区| 四虎AV麻豆| 无码福利日韩神码福利片| 午夜性刺激在线观看免费| 国产成人精品18| 欧美激情视频一区二区三区免费| 熟妇人妻无乱码中文字幕真矢织江| 国产剧情国内精品原创| 国产成人毛片| 久久频这里精品99香蕉久网址| 国产精品福利在线观看无码卡| 国产白浆在线观看| 五月婷婷精品| 无码专区在线观看| 日韩成人在线网站| 日本亚洲国产一区二区三区| 四虎影视无码永久免费观看| 欧美性猛交一区二区三区| 久久77777| 欧美日韩在线成人| 黄片在线永久| 亚洲一区二区三区国产精华液| 欧美日韩理论| 日本尹人综合香蕉在线观看| 欧美色亚洲| 在线毛片网站| A级毛片无码久久精品免费| 国产乱人视频免费观看| 免费无码AV片在线观看中文| 亚洲黄色成人| 影音先锋丝袜制服| 国产亚洲视频中文字幕视频| 国产超碰一区二区三区| 亚洲精品第五页| 日韩av无码DVD| 中文无码精品A∨在线观看不卡| 白浆视频在线观看| 国产产在线精品亚洲aavv| 青青草国产免费国产| 日韩区欧美国产区在线观看| 不卡网亚洲无码| 久久久久国色AV免费观看性色| 熟妇丰满人妻| 国产真实自在自线免费精品| 欧美成一级| 国产大片黄在线观看| 国产在线日本| 国产av无码日韩av无码网站| 日韩天堂在线观看| 在线无码九区| 日韩最新中文字幕| 精品国产网站| 日韩AV无码免费一二三区| a毛片基地免费大全| 国产69囗曝护士吞精在线视频 | 亚洲一级毛片| 女人av社区男人的天堂| 中字无码av在线电影| 日本少妇又色又爽又高潮| 国产在线一二三区| 精品综合久久久久久97| 一区二区在线视频免费观看| 欧美亚洲一区二区三区导航| 久久网欧美|