999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種多尺度光流預(yù)測與融合的實(shí)時視頻插幀方法

2021-12-08 07:05:04馬境遠(yuǎn)王川銘
關(guān)鍵詞:融合信息方法

馬境遠(yuǎn),王川銘

1(北郵感知技術(shù)研究院(江蘇)有限公司,江蘇 無錫 214115) 2(北京郵電大學(xué) 智能通信軟件與多媒體北京市實(shí)驗(yàn)室,北京100876) E-mail:2219063829@qq.com

1 引 言

隨著生活水平的提升,人們對于視頻的觀看質(zhì)量要求越來越高.普通攝像設(shè)備拍攝的視頻幀速率有限,從而影響觀眾的特殊觀感體驗(yàn).因此,在視頻拍攝后對其進(jìn)行適當(dāng)?shù)暮筇幚恚渤闪艘曨l制作中十分重要的一環(huán),視頻插幀就是其中關(guān)鍵技術(shù).視頻插幀[1-9]目標(biāo)是通過兩個連續(xù)的輸入視頻幀數(shù)據(jù),用以合成其中間幀的數(shù)據(jù).視頻插幀能夠有效地提高視頻播放的幀率,保證視頻中目標(biāo)運(yùn)動的連續(xù)性,減少用戶觀看時的卡頓感,提升用戶的觀看體驗(yàn),因此被廣泛應(yīng)用于影視作品、體育比賽視頻精彩片段的慢動作回放[1]等方面.視頻插幀對幀率的改變也使得其能夠被用于視頻壓縮傳輸?shù)热蝿?wù)中.此外,具有產(chǎn)生新圖像的特性也使得它能夠在視頻內(nèi)容編輯、多視角視頻合成等方面發(fā)揮作用.

如圖1所示,傳統(tǒng)的基于光流的視頻插幀方法[2,9]主要由以下兩個步驟組成:光流估計(jì)和中間幀合成.光流估計(jì)是指對兩個連續(xù)視頻幀圖像(I0、I1),分別估計(jì)它們與待生成中間幀的光流信息(Ft→0、Ft→1).中間幀合成指的是通過估計(jì)得到的光流信息,對視頻幀圖像對進(jìn)行映射變換,得到最后的中間幀(It).其中,光流估計(jì)的效果對插幀結(jié)果有著關(guān)鍵的影響.但是,視頻插幀任務(wù)中光流估計(jì)十分具有挑戰(zhàn)性,與一般的光流估計(jì)任務(wù)存在本質(zhì)上的不同.一般的光流估計(jì)方法能夠獲得需要估計(jì)光流的兩張圖像,但是在視頻插幀任務(wù)中,需要被估計(jì)光流的圖像數(shù)據(jù)是不完整的,即其中一張圖像是要生成的目標(biāo)圖像,因此只能利用可獲得的連續(xù)兩幅視頻幀圖像.

圖1 基于光流的視頻插幀方法Fig.1 Optical flow-based video interpolation method

為解決視頻插幀任務(wù)中光流估計(jì)難的問題,人們提出了一系列方法.這些方法圍繞著如何更準(zhǔn)確地預(yù)測光流信息和如何更充分利用光流信息兩方面進(jìn)行研究,但是它們往往需要兩次光流估計(jì),嚴(yán)重降低了深度神經(jīng)網(wǎng)絡(luò)模型的運(yùn)行效率,使得這些插幀方法很難應(yīng)用于實(shí)時視頻分析任務(wù)中.

針對如何利用光流信息進(jìn)行實(shí)時視頻插幀的難點(diǎn)問題,本文遵循當(dāng)前的視頻插幀框架,提出一種基于多尺度光流預(yù)測與融合的實(shí)時視頻插幀方法.本文的方法由光流預(yù)測和中間幀合成兩部分組成,首先采用不損失信息的下采樣方法對圖像進(jìn)行多規(guī)模的下采樣,獲得不同尺度的圖像數(shù)據(jù);之后通過帶有注意力機(jī)制的特征提取網(wǎng)絡(luò)來提取視頻幀對的特征,并根據(jù)該特征得到預(yù)測光流信息.因?yàn)檩斎雸D像是多尺度的,所以獲得的光流信息也具有不同的尺度信息,本文采用了一個光流融合網(wǎng)絡(luò)將這些多尺度的光流信息進(jìn)行融合得到最后的結(jié)果用于圖像合成.

在大規(guī)模視頻插幀基準(zhǔn)數(shù)據(jù)集上,對所提方法進(jìn)行了訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果表明本文的方法能夠?qū)崟r地生成高質(zhì)量的視頻插幀效果.同時將所提方法與當(dāng)前的經(jīng)典方法進(jìn)行了實(shí)驗(yàn)對比,比較結(jié)果展示本文方法的優(yōu)越性.

2 相關(guān)工作

視頻插幀任務(wù),由于其廣泛的應(yīng)用性,一直是計(jì)算機(jī)視覺與多媒體技術(shù)領(lǐng)域研究的熱點(diǎn)問題.傳統(tǒng)的視頻插幀方法往往都伴隨著視頻編碼策略的設(shè)計(jì),目的也是為了優(yōu)化傳輸?shù)男?而近年來,隨著深度學(xué)習(xí)的日益發(fā)展,深度神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征提取能力,在諸多視覺任務(wù)上取得了很大突破.因此,現(xiàn)階段有一系列的方法期望通過深度學(xué)習(xí)技術(shù)來完成視頻插幀任務(wù).

Liu[1]等受到自編碼器的啟發(fā),設(shè)計(jì)了一種基于神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的模型去學(xué)習(xí)體素流,從而合成插幀圖像.但是對不同尺度的體素間關(guān)系的忽略導(dǎo)致了其不能較好處理不同體素移動速度不一致的問題.Jiang[2]等提出了一種雙向光流估計(jì)方法,通過神經(jīng)網(wǎng)絡(luò)梯度輸入圖像對之間的光流,再結(jié)合這種雙向光流,得到輸入圖像與待合成圖像的光流信息.但是,這種迭代估計(jì)的方法導(dǎo)致了光流估計(jì)的速度較慢,使得無法應(yīng)用于實(shí)時視頻任務(wù)中.Bao[3]等除了光流信息,還設(shè)計(jì)了一個深度估計(jì)網(wǎng)絡(luò)來促進(jìn)光流估計(jì)的結(jié)果.這種多信息融合的特性使得其估計(jì)得到的光流結(jié)果更加精確,從而合成更加高質(zhì)量的中間幀.但是,引入了深度估計(jì)模型同樣導(dǎo)致了該方法計(jì)算量的增加,從而降低了方法的運(yùn)行速度.除了深度信息,Bao[4]等還提出了一個利用運(yùn)動估計(jì)信息的視頻插幀方法,通過設(shè)計(jì)的運(yùn)動估計(jì)和運(yùn)動補(bǔ)償神經(jīng)網(wǎng)絡(luò),生成更具有魯棒性的視頻插幀結(jié)果,但是同樣降低了方法的運(yùn)行速度.

還有一部分方法探究如何更好地進(jìn)行圖像合成操作.Niklaus[5]等通過預(yù)訓(xùn)練后的光流估計(jì)模型得到光流估計(jì),并將光流信息與圖像的深度特征進(jìn)行結(jié)合,一同送入到一個合成網(wǎng)絡(luò)中,得到最后的結(jié)果.

除了基于光流的方法,還有一些方法使用深度神經(jīng)網(wǎng)絡(luò)直接生成中間幀的結(jié)果.SepConv[6]和AdapConv[7]是屬于此類的兩個典型方法,它們通過使用自適應(yīng)卷積學(xué)習(xí)圖像對之間的移動變換和融合策略.但是沒有準(zhǔn)確的移動指導(dǎo)信息,生成的結(jié)果缺乏了魯棒性.CAIN[8]利用通道注意力來增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力,實(shí)現(xiàn)端到端的視頻插幀.

3 多尺度光流預(yù)測與融合方法

光流估計(jì)的效果對于視頻插幀的質(zhì)量有著重大的影響,為了提升視頻插幀的性能,本文提出了一種多尺度光流預(yù)測與融合方法.整體框架如圖2所示,包括圖像下采樣、卷積操作、特征拼接、光流預(yù)測、光流融合等模塊.對于輸入的一對連續(xù)視頻幀,首先進(jìn)行下采樣.不同階段的下采樣的尺度是不同的,圖像中使用Sk來進(jìn)行表示.在下采樣之后,通過一個簡單的卷積模塊獨(dú)立地提取兩張圖像特征,再將兩組特征沿通道維度進(jìn)行拼接.拼接得到的結(jié)果送入光流預(yù)測網(wǎng)絡(luò)中,得到當(dāng)前尺度圖像的光流估計(jì)結(jié)果.對于該結(jié)果,一方面被用于將圖像進(jìn)行映射變換,從而送入下一階段的模型,另一方面,與下一階段預(yù)測的光流進(jìn)行融合,得到更細(xì)化的光流結(jié)果.本節(jié)詳細(xì)介紹下采樣方法、提取與光流預(yù)測方法和多尺度光流融合.

圖2 多尺度光流預(yù)測與融合框架Fig.2 Framework of multi-scale optical flow prediction and fusion

3.1 信息無損的下采樣方法

運(yùn)動距離小的像素在小尺度的圖像中更易被忽略,而運(yùn)動距離大的像素在小尺度的圖像中仍能被觀察到.基于這樣一種觀察,多尺度學(xué)習(xí)常被應(yīng)用于視頻插幀任務(wù)中.圖像常被下采樣為不同的尺度,從而學(xué)習(xí)不同尺度下的光流信息.但是現(xiàn)階段方法,對于圖像的多尺度變化,通常采用的是圖像插值,導(dǎo)致了信息上的丟失.因此本文設(shè)計(jì)一種信息無損的多尺度下采樣方法.

圖3分別展示了基于插值的下采樣方法和本文使用的下采樣方法.對于基于插值的方法,下采樣只能產(chǎn)生一張圖像,而本文的方法會產(chǎn)生多張圖像,這些圖像是原始圖像的一種互補(bǔ)的分割表示,包含了原始圖像的全部信息.

圖3 不同下采樣方法的比較Fig.3 Comparison of different down-sampling methods

基于插值的下采樣方法勢必會導(dǎo)致部分信息的丟失.而本文采用的下采樣方法是將空間信息壓縮到通道維度上,因此沒有信息的損失,同時,這些子圖在細(xì)節(jié)上的不同也使得網(wǎng)絡(luò)能夠?qū)W習(xí)更加魯棒的光流信息.

3.2 基于注意力的特征提取與光流預(yù)測

對于3.2節(jié)中得到的輸入數(shù)據(jù),本文先通過一個簡單的卷積神經(jīng)網(wǎng)絡(luò),對兩張圖像分別提取特征.該卷積神經(jīng)網(wǎng)絡(luò)由兩層組成,每層都包含一個卷積層和PReLU[10]層.之后將兩個圖像對應(yīng)的特征沿通道維度進(jìn)行拼接,得到光流預(yù)測模塊的輸入.

如圖4所示,光流預(yù)測網(wǎng)絡(luò)由多個殘差模塊和一個轉(zhuǎn)置卷積組成.其中殘差模塊由順序排列的卷積模塊和注意力模塊組成.卷積模塊與之前圖像特征提取網(wǎng)絡(luò)相同,都是由卷積核是3的卷積與PReLU層組成.而注意力模塊是由卷積核是1的卷積操作和通道注意力結(jié)合而成,其數(shù)學(xué)表達(dá)式為:

圖4 光流預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network of optical flow prediction

X′=C(X*π(F(θ(F(X)))))

(1)

其中X為特征,C是卷積核大小為1的卷積,θ是ReLU[11]函數(shù),π是Sigmoid函數(shù),F(xiàn)是線性層,*表示按元素相乘.與SENet[12]保持一致,本文也在FC中使用了縮減系數(shù)a來降低維度數(shù).在具體實(shí)現(xiàn)中,每個階段的卷積通道數(shù)目、縮減系數(shù)都有所不同,在實(shí)驗(yàn)部分將詳細(xì)介紹這些參數(shù).最后,本文使用了一個卷積核為4,間隔為2的轉(zhuǎn)置卷積輸出預(yù)測的光流信息.因此,特征提取與光流預(yù)測的整體結(jié)構(gòu)參數(shù)如表1所示.

表1 光流預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network of optical prediction

3.3 多尺度光流的融合網(wǎng)絡(luò)

Fi=D(∏j,U(F′j))

(2)

其中,U表示上采樣操作,將所有光流上采樣到固定的尺度.∏表示沿通道維度將上采樣后的光流進(jìn)行拼接.D表示可變形卷積操作,其卷積核為3,間隔為1,填充為1.與傳統(tǒng)卷積相比,可變形卷積對每個通道都自適應(yīng)地學(xué)習(xí)一個偏移量,通過該偏移量,可以捕獲不同尺度光流中更加相關(guān)性的部分,從而生成更加魯棒性的輸出信息.同時,可以看出,階段i的光流輸出,是對之前所有階段輸出光流的一個融合.

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境設(shè)置

4.1.1 訓(xùn)練數(shù)據(jù)

本文在Vimeo90K-Triplet[14]數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練和測試.Vimeo90K-Triplet是專為視頻插幀任務(wù)構(gòu)建的數(shù)據(jù)集,包含73,171個3幀連續(xù)序列的數(shù)據(jù)集,所有圖像分辨率都是448×256.

本文采用3幀中的第1和第3幀作為模型的輸入,而第2幀作為模型的真值.在訓(xùn)練階段,隨機(jī)從原圖中裁剪224×224大小的圖像作為輸入,同時帶用了隨機(jī)水平翻轉(zhuǎn)、隨機(jī)垂直翻轉(zhuǎn)、隨機(jī)通道打亂、隨機(jī)時序翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法.而在測試階段,保持圖像的原始大小,不做數(shù)據(jù)增強(qiáng).

此外,為了訓(xùn)練模型對光流信息的預(yù)測的準(zhǔn)確性,本文采用ListFlowNet[15]預(yù)先在數(shù)據(jù)集上生成所有的光流信息,作為模型訓(xùn)練時的監(jiān)督信息.

如圖5所示,一個訓(xùn)練樣本數(shù)據(jù)包含了3張連續(xù)的圖像I0,It,I1,以及光流圖Ft->0,Ft->1.為了更好地展示視頻幀之間的區(qū)別,本文將I0,I1結(jié)合,可以看到其差異性.

圖5 訓(xùn)練數(shù)據(jù)可視化展示Fig.5 Visualization of training data

4.1.2 模型參數(shù)

對于光流估計(jì)模型,本文將階段數(shù)目設(shè)置為3,每個階段的光流預(yù)測網(wǎng)絡(luò)中殘差模塊數(shù)目為2,通道數(shù)分別是240,128和96.此外,下采樣層的尺度分別是4,2和1.對于注意力模塊,本文統(tǒng)一將下采樣系數(shù)設(shè)置為16.本文主要是提出了一種光流預(yù)測模型,因此,直接采用RIFE[9]方法中提出的上下文內(nèi)容提取與融合網(wǎng)絡(luò)作為圖像合成模型.此外,圖2中的映射變換,本文采用了在視頻插幀領(lǐng)域廣泛采用的“后向映射”方法,該方法具體細(xì)節(jié)可以參考RIFE[9].

4.1.3 訓(xùn)練策略

在損失函數(shù)方面,對于光流預(yù)測結(jié)果,本文使用了在視頻插幀領(lǐng)域廣泛采用的L1范式損失作為優(yōu)化函數(shù):

(3)

其中fgt為光流真值,fpred為光流預(yù)測值.該損失將所有預(yù)測的光流都與光流真值計(jì)算損失并求和.此外,還使用了恢復(fù)損失函數(shù):

(4)

和統(tǒng)計(jì)損失函數(shù)[16]對預(yù)測圖像進(jìn)行損失計(jì)算.最終將三者相加作為最終優(yōu)化損失.

本文采用AdamW[17]作為優(yōu)化器,將其衰減設(shè)置為1e-4,總共訓(xùn)練300輪.每一批次數(shù)據(jù)的大小是48,學(xué)習(xí)率使用余弦函數(shù)進(jìn)行調(diào)節(jié),從同一個1e-4逐漸降低到0.在測試方面,本文度量了峰值信噪比(PSNR,peak signal-to-noise ratio)和結(jié)構(gòu)相似性(SSIM,structural similarity)兩個被廣泛使用的圖像質(zhì)量評價指標(biāo).在硬件配置方面,采用了TITAN XP (Pascal)GPU作為訓(xùn)練和測試硬件.

4.2 方法比較

本文與當(dāng)前視頻插幀方法進(jìn)行了比較,比較的方法有:DVF[1]、Slomo[2]、DAIN[3]、MEMC[4]、SepConv[6]、CAIN[8]、RIFE[9].其中,重新實(shí)現(xiàn)了RIFE,以達(dá)到公平比較的目的.表2展示了比較的結(jié)果,可以看出,本文的方法在PSNR和SSIM兩個方面都能取得很好的效果.

表2 不同方法的比較Table 2 Comparison with different methods

在圖6中,本文可視化了光流預(yù)測和插幀的結(jié)果.共有3組圖片,每一組圖片上面兩張分別是光流預(yù)測的結(jié)果和光流真值的可視化,而每組下面兩張圖像是視頻插幀的結(jié)果和真值圖像.可以看出,本文的方法較好地預(yù)測了光流信息,同時得到了魯棒的插幀結(jié)果圖像.

圖6 光流預(yù)測結(jié)果、真值與視頻插幀結(jié)果、真值的可視化Fig.6 Visualization of the prediction and ground truth for optical and video interpolation

4.3 消融實(shí)驗(yàn)

為了證明方法中不同模塊的有效性,本文對其進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)數(shù)據(jù)是基于640p的視頻幀計(jì)算得到的.本文將一個帶有6層卷積模塊的殘差網(wǎng)絡(luò)作為BaseNet,然后依次添加下采樣模塊(DS,Down-Sampling),注意力模塊(AM,Attention Module)和光流融合模塊(FM,F(xiàn)usion Module).實(shí)驗(yàn)結(jié)果如表3所示,可以看出,所提模塊能夠有效地提升模型插幀結(jié)果的性能,同時在時間開銷上的增加較少,能夠良好地滿足算法實(shí)時性的要求.

表3 不同模塊對模型的影響Table 3 Effect of different components

5 結(jié)束語

視頻插幀因其廣泛應(yīng)用性,很多學(xué)者進(jìn)行了研究.但是現(xiàn)階段的方法運(yùn)行效率較低,實(shí)時性難以保證.本文提出了一個多尺度光流預(yù)測和融合模型,利用輕量級神經(jīng)網(wǎng)絡(luò),充分學(xué)習(xí)視頻中光流的變化,得到了較好的視頻插針效果.具體地,本文采用了信息無損的下采樣策略,基于注意力的特征提取和多尺度光流融合方法,達(dá)到了較好實(shí)時性和可靠性的平衡.在大規(guī)模視頻插幀基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)也表明了方法的有效性.通過本文提出方法,視頻后處理可以更好地解決視頻慢動作回放問題,人們可以更清晰、生動地觀看到影視作品、體育比賽精彩視頻片段慢動作回放,并對其中細(xì)節(jié)進(jìn)行分析利用.

猜你喜歡
融合信息方法
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 午夜不卡视频| 成年人久久黄色网站| 亚洲大尺度在线| 亚欧美国产综合| 91久久夜色精品| 欧美a√在线| 中文字幕乱码二三区免费| 国产日韩精品一区在线不卡| 日本道中文字幕久久一区| 天堂在线视频精品| 亚洲国产精品一区二区第一页免| 久久久国产精品无码专区| 国产成人91精品免费网址在线| 99视频精品在线观看| 国产白浆一区二区三区视频在线| 高清不卡毛片| 日韩大片免费观看视频播放| 伊人精品视频免费在线| 99久久精彩视频| 日本欧美视频在线观看| 不卡的在线视频免费观看| 成人精品视频一区二区在线| 在线亚洲小视频| 99热线精品大全在线观看| 亚洲an第二区国产精品| 极品国产在线| 欧美α片免费观看| 亚洲婷婷六月| 美女内射视频WWW网站午夜| 国产又色又刺激高潮免费看| 狠狠干综合| 久久精品无码一区二区日韩免费| 欧美黄网在线| 欧美一区二区福利视频| 91精品情国产情侣高潮对白蜜| 97国产在线播放| 亚洲天堂网2014| 亚洲国产日韩视频观看| 国产精品网曝门免费视频| 99re在线观看视频| 无码国产伊人| 欧美第二区| 新SSS无码手机在线观看| 欧美日韩中文字幕在线| 国产精品99久久久| 久久精品视频一| 永久免费精品视频| 国产一级无码不卡视频| 国模极品一区二区三区| 污网站免费在线观看| 亚洲无码37.| www亚洲天堂| 朝桐光一区二区| 国产成人久久777777| www.日韩三级| 日本www在线视频| swag国产精品| 国内精自视频品线一二区| 无码又爽又刺激的高潮视频| 欧美人与牲动交a欧美精品| 国模粉嫩小泬视频在线观看| 亚洲免费毛片| 国产h视频在线观看视频| 爆乳熟妇一区二区三区| 色一情一乱一伦一区二区三区小说| 国产区人妖精品人妖精品视频| 69av免费视频| 日韩精品无码一级毛片免费| 亚洲va在线观看| 婷婷六月综合网| 日a本亚洲中文在线观看| 自拍偷拍欧美日韩| 欧美成人怡春院在线激情| 污网站在线观看视频| 国产高清免费午夜在线视频| 午夜一级做a爰片久久毛片| 一级片免费网站| 凹凸国产分类在线观看| 国产精品免费露脸视频| 亚洲国产看片基地久久1024| 五月天在线网站| 午夜激情福利视频|