改進(jìn)視覺Transformer的視頻插幀方法

2024-04-29 00:00:00石昌通單鴻濤鄭光遠(yuǎn)張玉金劉懷遠(yuǎn)宗智浩

計(jì)算機(jī)應(yīng)用研究 2024年4期

摘要：針對現(xiàn)有的視頻插幀方法無法有效處理大運(yùn)動和復(fù)雜運(yùn)動場景的問題，提出了一種改進(jìn)視覺Transformer的視頻插幀方法。該方法融合了基于跨尺度窗口的注意力和可分離的時(shí)空局部注意力，增大了注意力的感受野并聚合了多尺度信息；對時(shí)空依賴和遠(yuǎn)程像素依賴關(guān)系進(jìn)行聯(lián)合建模，進(jìn)而增強(qiáng)了模型對大運(yùn)動場景的處理能力。實(shí)驗(yàn)結(jié)果表明，該方法在Vimeo90K測試集和DAVIS數(shù)據(jù)集上的PSNR指標(biāo)分別達(dá)到了37.13 dB和28.28 dB，SSIM指標(biāo)分別達(dá)到了0.978和0.891。同時(shí)，可視化結(jié)果表明，該方法針對存在大運(yùn)動、復(fù)雜運(yùn)動和遮擋場景的視頻能產(chǎn)生清晰合理的插幀結(jié)果。

關(guān)鍵詞：視頻插幀；Transformer；基于跨尺度窗口的注意力；大運(yùn)動；復(fù)雜運(yùn)動

中圖分類號： TP391.4文獻(xiàn)標(biāo)志碼：A 文章編號： 1001－3695（2024）04－043－1252－06

doi： 10.19734/j.issn.1001－3695.2023.07.0344

Video frame interpolation method based on improved visual Transformer

Shi Changtong Shan Hongtao Zheng Guangyuan2， Zhang Yujin Liu Huaiyuan Zong Zhihao1

Abstract：Aiming at the problem that the existing video frame interpolation methods cannot effectively deal with large motion and complex motion scenes， this paper proposed a video frame interpolation method based on improved vision Transformer. This method fused the cross－scale window－based attention and the separable spatio－temporal local attention， enlarged the receptive field of attention， and aggregated multi－scale information. It jointly modeled the spatio－temporal dependencies and long－range pixel dependencies， thereby enhancing the model’ s ability to handle large motion scenes. The experimental results show that this model achieves PSNR values of 37.13 dB and 28.28 dB on the Vimeo90K test set and the DAVIS dataset， respectively， while the SSIM values reach 0.978 and 0.89 respectively. At the same time， visualization results show that the proposed method can produce clear and reasonable frame interpolation results for videos with large motion， complex motion and occlusion scenes. Key words：video frame interpolation; Transformer; cross－scale window－based attention; large motion; complex motion

0 引言

隨著顯示技術(shù)的發(fā)展以及電子設(shè)備的更新迭代，人們對視頻的質(zhì)量要求越來越高。視頻插幀（video frame interpolation，VFI）技術(shù)是視頻處理領(lǐng)域的基本技術(shù)，它利用已有連續(xù)視頻幀的信息生成不存在的中間幀，進(jìn)而提高視頻幀率，涉及對圖像運(yùn)動、結(jié)構(gòu)和自然分布的理解。對它的研究也有助于促進(jìn)下游任務(wù)，如圖像超分辨率、重建、去模糊等的發(fā)展。當(dāng)前視頻插幀技術(shù)廣泛應(yīng)用于視頻幀率轉(zhuǎn)換、慢動作生成和視頻壓縮等領(lǐng)域。現(xiàn)有的視頻插幀方法大多基于卷積神經(jīng)網(wǎng)絡(luò)（convolutio－nal neural network，CNN），主要包括基于光流和基于核的方法。基于光流的方法利用光流信息顯式地處理運(yùn)動，通常使用現(xiàn)有的光流估計(jì)模塊產(chǎn)生光流，然后利用得到的光流扭曲原幀，最后使用扭曲后的幀合成中間幀。Jiang等人［1］使用兩個(gè)U－Net［2］架構(gòu)分別計(jì)算雙向光流和細(xì)化光流并預(yù)測軟可見圖，基于線性運(yùn)動假設(shè)來估計(jì)雙向中間光流。Xu等人［3］提出一種二次視頻插幀方法，該方法可以利用視頻中的加速度信息，允許使用曲線軌跡和可變速度進(jìn)行預(yù)測，能生成更準(zhǔn)確的插幀結(jié)果。Dutta等人［4］在提取到雙向光流和遮擋圖之后使用一個(gè)端到端的3D CNN編碼器－解碼器架構(gòu)為每個(gè)像素估計(jì)非線性運(yùn)動模型。基于核的方法在一個(gè)步驟中聯(lián)合進(jìn)行運(yùn)動估計(jì)和運(yùn)動補(bǔ)償。Niklaus等人［5］提出使用卷積神經(jīng)網(wǎng)絡(luò)為每個(gè)像素估計(jì)一對空間自適應(yīng)的卷積核，但如果圖像分辨率較高，會產(chǎn)生極高的內(nèi)存和計(jì)算成本，因此又進(jìn)一步使用自適應(yīng)可分離卷積［6］以減少模型參數(shù)和計(jì)算量。Lee等人［7］使用可變形卷積提出一種新的扭曲模塊，以解決模型自由度受限而無法處理現(xiàn)實(shí)世界中復(fù)雜運(yùn)動的問題。Bao等人［8］集成光流和插值核來生成中間幀，后續(xù)又進(jìn)一步引入深度信息［9］處理遮擋，以提高視頻插幀的性能。Cheng等人［10］使用增強(qiáng)可變形卷積，以一種無光流的方式為任意時(shí)間位置插值中間幀。Kalluri等人［11］利用時(shí)空卷積直接預(yù)測視頻的中間幀，該方法隱式地處理運(yùn)動和遮擋。但上述這些基于卷積神經(jīng)網(wǎng)絡(luò)的方法會受到卷積操作局部性的固有限制而在捕獲遠(yuǎn)程空間交互信息上面臨挑戰(zhàn)，產(chǎn)生的結(jié)果往往存在模糊、偽影等。

Transformer［12］最初是為自然語言處理（natural language processing，NLP）領(lǐng)域的機(jī)器翻譯任務(wù)設(shè)計(jì)的，它擁有靈活的架構(gòu)和強(qiáng)大的建模遠(yuǎn)程依賴關(guān)系的能力，因此逐漸成為NLP領(lǐng)域的基準(zhǔn)模型，隨后越來越多的人探索將Transformer應(yīng)用于處理計(jì)算機(jī)視覺領(lǐng)域的任務(wù)［13］。隨著ViT［14］、Swin Transfor－mer［15］等的出現(xiàn)并在多個(gè)視覺領(lǐng)域取得超越CNN的結(jié)果，Transformer在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用也越來越多［16］。一些研究者將Transformer應(yīng)用于視頻插幀任務(wù)并取得了較好的結(jié)果，Shi等人［17］將局部注意力的概念引入到視頻插幀并將其拓展到時(shí)空域，還提出一種時(shí)空分離的策略以減少內(nèi)存的使用，最后使用一種多尺度幀合成方案合成中間幀。但由于其采用基于窗口的注意力計(jì)算方式來權(quán)衡性能和效率，而這種計(jì)算方式在非重疊窗口中計(jì)算注意力，所以限制了注意力的感受野，導(dǎo)致模型建模遠(yuǎn)程依賴關(guān)系的能力受限。Lu等人［18］利用Transformer建模視頻幀間遠(yuǎn)程像素相關(guān)性，并引入一種基于跨尺度窗口的注意力機(jī)制，有效地?cái)U(kuò)大了感受野，但由于未考慮到視頻幀間的時(shí)空依賴關(guān)系，所以無法有效處理具有復(fù)雜運(yùn)動場景的視頻幀序列。考慮到上述問題，本文提出一種改進(jìn)的基于移位窗口和跨尺度窗口的視頻插幀Transformer（video frame interpolation Transformer based on shifted－window and cross－scale window，SwinCS－VFIT）。該方法融合了可分離的時(shí)空注意力和基于跨尺度窗口的注意力機(jī)制，對時(shí)空依賴和遠(yuǎn)程像素依賴關(guān)系進(jìn)行聯(lián)合建模，提高了特征提取能力；同時(shí)使用了一種多尺度幀合成網(wǎng)絡(luò)，利用不同尺度的特征合成中間幀。大量實(shí)驗(yàn)結(jié)果證明了該方法優(yōu)于現(xiàn)有視頻插幀方法。

1 本文模型

1.1 總體結(jié)構(gòu)

本文模型采用四個(gè)相鄰的幀作為輸入來合成中間幀，模型同時(shí)處理四個(gè)視頻幀來隱式地建模視頻幀序列中的運(yùn)動并檢測遮擋信息。圖1是本文所提改進(jìn)視覺Transformer的視頻插幀模型結(jié)構(gòu)圖，模型主要由嵌入層、編碼器－解碼器架構(gòu)和多尺度幀合成網(wǎng)絡(luò)三部分組成。輸入視頻幀首先經(jīng)過嵌入層提取到淺層特征，隨后將淺層特征輸入編碼器－解碼器架構(gòu)進(jìn)一步獲得不同尺度的深層特征，最后利用多尺度幀合成網(wǎng)絡(luò)接收原始輸入幀和不同尺度的特征來合成中間幀。其中嵌入層使用三維卷積以更好地編碼輸入視頻幀序列的時(shí)空特征。本文設(shè)計(jì)的基于跨尺度窗口的可分離時(shí)空注意力是編碼器－解碼器架構(gòu)的核心，它將可分離的時(shí)空局部注意力與基于跨尺度窗口的注意力結(jié)合，從而能聯(lián)合建模時(shí)空依賴關(guān)系和遠(yuǎn)程像素依賴關(guān)系，進(jìn)而提高特征提取能力。此外，基于可變形卷積的多尺度幀合成網(wǎng)絡(luò)可以充分利用多尺度信息來合成高質(zhì)量的中間幀。

1.2 基于跨尺度窗口的可分離時(shí)空注意力

1.2.1 可分離的時(shí)空局部注意力

為了實(shí)現(xiàn)對時(shí)空依賴的建模，考慮使用時(shí)空局部注意力（spatial－temporal swin attention，STS）對多視頻幀輸入進(jìn)行處理，但當(dāng)子立方體過大時(shí)，參與計(jì)算自注意力的元素過多會導(dǎo)致計(jì)算復(fù)雜度過高。因此本文采用可分離的時(shí)空局部注意力（separation of spatial－temporal swin attention，Sep－STS）［17］，該方法將時(shí)空注意力的計(jì)算分解為空間和時(shí)間維度上的計(jì)算，以緩解上述問題。

Sep－STS在思想上與MobileNet［19］中的深度可分離卷積類似。深度可分離卷積是將卷積分為深度卷積和逐點(diǎn)卷積兩步，從而降低卷積的參數(shù)量和計(jì)算復(fù)雜度，Sep－STS是將在時(shí)空立方體上的注意力計(jì)算劃分為空間維度和時(shí)間維度上的計(jì)算。具體而言，Sep－STS首先在空間維度上進(jìn)行注意力計(jì)算，如圖2（a）所示。對于一個(gè)大小為C×T×H×W的輸入特征圖，首先將其劃分為THW/M2個(gè)非重疊的大小為M×M的2D子窗口（忽略通道維度C），隨后在每個(gè)子窗口中計(jì)算多頭自注意力（multi－h(huán)ead self－attention，MSA）。此處自注意力的計(jì)算限制在非重疊的子窗口內(nèi)，為了實(shí)現(xiàn)跨窗口的信息交互，將在隨后模塊中使用移位窗口劃分策略。在完成空間維度上的計(jì)算后，開始計(jì)算時(shí)間維度上的注意力。如圖2（b）所示，對于時(shí)間維度上的計(jì)算，首先將輸入特征圖劃分為HW個(gè)長度為T的時(shí)間維度向量（忽略通道維度C），然后對每個(gè)向量執(zhí)行MSA，這一步可以實(shí)現(xiàn)對跨幀的依賴進(jìn)行建模。由于時(shí)間上的計(jì)算是對空間上計(jì)算的補(bǔ)充，所以需要在一個(gè)模塊中連續(xù)使用這兩步來處理視頻輸入。

在計(jì)算復(fù)雜度方面，Sep－STS將一個(gè)計(jì)算成本較高的操作分解為空間和時(shí)間上的兩個(gè)輕量級操作，進(jìn)而將計(jì)算復(fù)雜度由STS的O（（TMM）×THW）降低到Sep－STS的O（（T+MM）×THW）。

1.2.2 引入基于跨尺度窗口的注意力機(jī)制

通過移位窗口策略可以實(shí)現(xiàn)跨窗口的連接，但在連續(xù)層中也僅能實(shí)現(xiàn)相鄰非重疊窗口之間的信息交互，因而對于大運(yùn)動場景缺乏足夠的感受野，難以捕獲大范圍的信息。為進(jìn)一步擴(kuò)大注意力的感受野，本文在Sep－STS空間維度上的計(jì)算采用基于跨尺度窗口的注意力（cross－scale window－based attention，CSWA）［18］計(jì)算方式，進(jìn)而提出基于跨尺度窗口的可分離時(shí)空局部注意力（separation of spatial－temporal swin attention based on cross－scale window，Sep－STSCS）。CSWA的結(jié)構(gòu)如圖3所示。

圖3中， F和F↓中顏色相同的窗口相互交互，引入了多尺度信息，從而能生成更具有代表性的特征。F↓中的窗口比F中的窗口覆蓋了更多的上下文信息，圖3中F↓的窗口Y所覆蓋的信息是F中窗口X 的四倍，通過這種方式可以有效擴(kuò)大注意力的感受野，并引入多尺度的信息。

基于上述方法，使用Sep－STSCS首先在空間維度的窗口上計(jì)算CSWA，隨后在時(shí)間維度的向量上計(jì)算MSA，在連續(xù)的時(shí)空立方體的常規(guī)和移位劃分上均采用上述步驟，從而捕獲更大范圍的信息。

此外，由于進(jìn)一步采用了CSWA，Sep－STSCS的計(jì)算復(fù)雜度較Sep－STS略高，其計(jì)算復(fù)雜度為O（（T+2MM）×THW）。

1.2.3 Sep－STSCS block

本文基于Sep－STSCS注意力設(shè)計(jì)了Sep－STSCS block，該模塊由分離的空間和時(shí)間注意力模塊以及MLP組成，MLP采用兩層結(jié)構(gòu)并在兩層之間使用GELU函數(shù)［20］進(jìn)行激活。在每個(gè)Sep－STSCS和MLP模塊之前使用層歸一化（layer normalization，LN）［21］，并在之后使用殘差連接［22］來幫助模型穩(wěn)定地訓(xùn)練，并且該模塊使用移位窗口策略來進(jìn)一步建模遠(yuǎn)程依賴關(guān)系。兩個(gè)連續(xù)Sep－STSCS block的結(jié)構(gòu)如圖4所示。

其中： l和 z l分別表示block l的（Shifted）Sep－STSCS模塊和MLP模塊的輸出特征。（Shifted）Sep－STSCS模塊表示首先在空間維度上計(jì)算（Shifted）CSWA，隨后在時(shí)間維度上計(jì)算MSA。CSWA和Shifted_CSWA分別表示在常規(guī)和移位劃分后的空間維度窗口上計(jì)算CSWA，MSA表示在劃分后的時(shí)間維度向量上計(jì)算MSA。

1.3 多尺度幀合成網(wǎng)絡(luò)為了充分利用多尺度的特征，模型使用一種多尺度幀合成網(wǎng)絡(luò)［17］來生成最終的中間幀，該網(wǎng)絡(luò)在每個(gè)尺度上通過預(yù)測空間變化的核來自適應(yīng)融合原幀，進(jìn)而生成中間幀。相較于使用單一尺度特征的模型，該模型中的多尺度幀合成網(wǎng)絡(luò)能利用來自于編碼器－解碼器模塊的分層特征{ F l，l=0， 2}得到更清晰準(zhǔn)確的結(jié)果。

如圖1所示，多尺度幀合成網(wǎng)絡(luò)由三個(gè)在不同尺度進(jìn)行預(yù)測的SynBlock組成，每個(gè)SynBlock都是一個(gè)核預(yù)測網(wǎng)絡(luò)。模型融合多個(gè)尺度的預(yù)測來生成最終幀的表達(dá)式，如式（9）（10）所示。

2 實(shí)驗(yàn)設(shè)計(jì)與對比分析

2.1 數(shù)據(jù)集介紹

本文在Vimeo90K septuplet訓(xùn)練集［23］上進(jìn)行模型的訓(xùn)練，Vimeo90K septuplet訓(xùn)練集包含64 612個(gè)七視頻幀序列，其視頻幀的分辨率為448×256。本文將視頻序列的第1、3、5、7幀作為模型的輸入，分別對應(yīng)于 I－1、I0、I1、I2，而將第4幀作為真實(shí)值，對應(yīng)于I 0.5。在訓(xùn)練時(shí)，使用從幀中隨機(jī)裁剪256×256的圖像塊、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和時(shí)間序列反轉(zhuǎn)等方法進(jìn)行數(shù)據(jù)增強(qiáng)。訓(xùn)練結(jié)束后使用Vimeo90K septuplet［23］、UCF101［24］和DAVIS數(shù)據(jù)集［25］進(jìn)行模型評估，具體使用了100個(gè)來自于UCF101的分辨率為225×225的五元組和2 847個(gè)來自于DAVIS的分辨率為854×480的五元組，與FLAVR［11］和QVI［3］中所使用的相同。

2.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

實(shí)驗(yàn)使用的CPU為Intel Xeon W－2225 CPU @ 4.10 GHz×8，顯卡為NVIDIA Quadro RTX 6000 24 GB，主機(jī)內(nèi)存為64 GB，操作系統(tǒng)為64位Ubuntu 20.04，使用的深度學(xué)習(xí)框架是PyTorch 1.5. 編程語言為Python 3.7.6，CUDA版本為10.1。

網(wǎng)絡(luò)訓(xùn)練使用的損失函數(shù)為l1= ‖I0.5－I^ 0.5‖，其中I0.5表示真實(shí)值，I^0.5表示模型預(yù)測的輸出。使用的優(yōu)化器是AdaMax［26］，其參數(shù)β1=0.9，β2=0.999。訓(xùn)練進(jìn)行100個(gè)epoch，batch_size為8，學(xué)習(xí)率從5E-4逐漸衰減到5E-6。模型編碼器四個(gè)階段的Sep－STSCS block數(shù)分別設(shè)置為2、2、6、2。可變形卷積核大小K設(shè)置為5×5，空間維度上的窗口尺寸M設(shè)置為8。模型在編碼器四個(gè)階段的通道數(shù)分別為64、128、256、512。

2.3 評價(jià)指標(biāo)

本文使用峰值信噪比（peak signal－to－noise ratio，PSNR）和結(jié)構(gòu)相似性（structural similarity，SSIM）作為模型評價(jià)指標(biāo)。對于真實(shí)值 I （x，y）和生成幀 I^（x，y），上述指標(biāo)的表達(dá)式分別如式（11）（12）所示。

2.4 實(shí)驗(yàn)結(jié)果與分析

2.4.1 定量結(jié)果對比

為了驗(yàn)證模型的有效性，本文與當(dāng)前最先進(jìn)的視頻插幀方法進(jìn)行比較，比較的方法有SuperSloMo［1］、DAIN［9］、SepConv［6］、BMBC［27］、CAIN［28］、AdaCoF［7］、QVI［3］、SoftSplat［29］、VFIformer［18］、FLAVR［11］和VFIT［17］。對于未給出訓(xùn)練代碼的方法直接使用其預(yù)訓(xùn)練模型。本文SwinCS－VFIT模型和上述其他模型的實(shí)驗(yàn)結(jié)果如表1所示，其中部分結(jié)果來源于文獻(xiàn)［17］。

表1實(shí)驗(yàn)結(jié)果顯示，SwinCS－VFIT在Vimeo90K和DAVIS數(shù)據(jù)集的PSNR指標(biāo)上分別達(dá)到了37.13 dB和28.28 dB，均為最優(yōu)。相較于VFIT分別高出了0.17 dB和0.19 dB，相較于VFIformer分別高出了0.99 dB和0.87 dB，相較于當(dāng)前最先進(jìn)的基于CNN的方法FLAVR高出了0.83 dB和0.84 dB。SwinCS－VFIT在Vimeo90K和DAVIS數(shù)據(jù)集上的PSNR和SSIM指標(biāo)超越現(xiàn)有基于CNN和基于Transformer的模型，表明該方法能產(chǎn)生擁有更少失真和更好圖像結(jié)構(gòu)的結(jié)果，證明了基于跨尺度窗口的可分離時(shí)空注意力對提高視頻插幀性能的有效性。由于UCF101數(shù)據(jù)集中的圖像分辨率較低且?guī)g運(yùn)動幅度較小，而對于小運(yùn)動場景增大感受野并不能有效提升插幀性能，所以SwinCS－VFIT模型在該數(shù)據(jù)集上的性能略差。相比之下，DAVIS數(shù)據(jù)集中的圖像分辨率較高且運(yùn)動幅度大，因此SwinCS－VFIT模型能取得較優(yōu)的性能。由此可見，本文模型傾向于處理含有大運(yùn)動場景的視頻幀序列。除PSNR和SSIM指標(biāo)外，本文進(jìn)一步展示了SwinCS－VFIT與當(dāng)前最先進(jìn)的VFI模型在2.2節(jié)所述環(huán)境下生成一幀的平均運(yùn)行時(shí)間，從而對比不同算法的時(shí)間復(fù)雜度。由表2可以看出，SwinCS－VFIT的運(yùn)行時(shí)間表現(xiàn)與主流算法接近，這有助于其在視覺應(yīng)用中的部署。

2.4.2 可視化結(jié)果對比

為了定性地描述本文模型對插幀結(jié)果質(zhì)量的影響，本文將其他先進(jìn)模型與本文模型生成的中間幀進(jìn)行可視化對比。使用到的模型有QVI［3］、FLAVR［11］、VFIformer［18］、VFIT［17］和SwinCS－VFIT。

圖5展示了本文模型與當(dāng)前最先進(jìn)的VFI模型在Vimeo90K測試集上插幀結(jié)果的可視化對比，其中Overlayed和GT分別代表重疊的相鄰輸入幀和對應(yīng)的真實(shí)值。可以觀察到，QVI在面對一些大運(yùn)動或遮擋場景時(shí)會產(chǎn)生嚴(yán)重的失真和偽影；FLAVR專注于運(yùn)動的物體，而當(dāng)背景也同時(shí)運(yùn)動時(shí)產(chǎn)生的結(jié)果中背景較為模糊；VFIformer和VFIT的結(jié)果中也有不同程度的模糊和失真；而本文SwinCS－VFIT能產(chǎn)生擁有更清晰邊界和更少失真的高質(zhì)量結(jié)果，更接近于真實(shí)值。原因如下：SwinCS－VFIT使用了可分離的時(shí)空注意力，因此能夠考慮跨多幀的時(shí)空信息，能同時(shí)考慮到大規(guī)模的運(yùn)動信息并能有效預(yù)測遮擋，進(jìn)而在面對物體和背景大規(guī)模運(yùn)動的場景能產(chǎn)生較為清晰的中間幀；該方法進(jìn)一步引入了基于跨尺度窗口的注意力機(jī)制，可以考慮到多尺度和更大范圍的信息，因而在面對大運(yùn)動場景時(shí)能產(chǎn)生較為合理的結(jié)果；并且該方法使用隱式的方法估計(jì)運(yùn)動并遮擋而非使用光流，因而能避免在一些大運(yùn)動和遮擋場景下產(chǎn)生嚴(yán)重的失真和偽影。

為了進(jìn)一步驗(yàn)證SwinCS－VFIT能夠有效處理包含大運(yùn)動場景的視頻幀序列，本文在DAVIS數(shù)據(jù)集上進(jìn)行可視化對比，DAVIS中的視頻幀分辨率較高且?guī)g運(yùn)動幅度較大，模型在其數(shù)據(jù)上的表現(xiàn)可以一定程度上說明模型在處理大運(yùn)動和復(fù)雜運(yùn)動場景時(shí)的性能。圖6展示了不同模型在DAVIS數(shù)據(jù)集上插幀結(jié)果的可視化對比。第一行結(jié)果展示了各模型在面對有遮擋的運(yùn)動場景下的表現(xiàn)。可以看出，SwinCS－VFIT能準(zhǔn)確排除遮擋信息，建模出清晰的摩托車后輪和尾箱，而其他模型結(jié)果均會受到遮擋信息的影響。第二行結(jié)果旨在測試不同模型在復(fù)雜運(yùn)動場景下的表現(xiàn)。可以看出，QVI產(chǎn)生的中間幀有嚴(yán)重的失真和偽影，而其他模型均產(chǎn)生模糊但較為合理的結(jié)果，其中本文SwinCS－VFIT產(chǎn)生的結(jié)果在視覺效果上更加清晰。第三行結(jié)果展示出各模型在大運(yùn)動和不規(guī)則運(yùn)動場景下的表現(xiàn)，其中QVI和VFIformer產(chǎn)生的結(jié)果中，火烈鳥的腿存在不連續(xù)，VFIT的結(jié)果中存在另一條腿的殘影，而FLAVR和SwinCS－VFIT產(chǎn)生的結(jié)果較合理，都沒有不連續(xù)和殘影出現(xiàn)，并且SwinCS－VFIT的結(jié)果更接近于真實(shí)值。第四行結(jié)果展示了各模型在物體和背景大規(guī)模運(yùn)動場景下的表現(xiàn)。可以觀察到，F(xiàn)LAVR和VFIformer產(chǎn)生的結(jié)果中，背景較為模糊，QVI可以較好地產(chǎn)生背景信息，但在護(hù)欄處卻出現(xiàn)了嚴(yán)重的失真，而VFIT和SwinCS－VFIT可以較為準(zhǔn)確地插值出運(yùn)動物體和背景，且SwinCS－VFIT產(chǎn)生的結(jié)果在視覺效果上更加清晰。

由圖5、6可視化結(jié)果可以發(fā)現(xiàn)，QVI在面對視頻幀中有大運(yùn)動、復(fù)雜運(yùn)動和遮擋場景時(shí)無法準(zhǔn)確估計(jì)光流，因此產(chǎn)生的插幀結(jié)果質(zhì)量較差。FLAVR受限于卷積的局部性，在面對大運(yùn)動、物體和背景大規(guī)模運(yùn)動的場景時(shí)產(chǎn)生的插幀結(jié)果質(zhì)量較差。VFIformer由于未考慮視頻幀的時(shí)空信息，所以難以處理大運(yùn)動、物體和背景大規(guī)模運(yùn)動的場景。VFIT受限于基于窗口的注意力的有限感受野，因而難以處理大運(yùn)動場景。而SwinCS－VFIT是一種無光流的方法，其使用基于跨尺度窗口的可分離時(shí)空注意力（Sep－STSCS）來提取特征，實(shí)現(xiàn)了對跨幀的時(shí)空依賴和遠(yuǎn)程像素依賴關(guān)系的聯(lián)合建模，捕獲了跨幀的信息和更大范圍的信息，進(jìn)而在面對大運(yùn)動、復(fù)雜運(yùn)動和遮擋等場景時(shí)能產(chǎn)生更加清晰合理的可視化結(jié)果。

2.5 消融實(shí)驗(yàn)

為了驗(yàn)證模型所使用到的各個(gè)模塊的有效性，本文設(shè)計(jì)了相應(yīng)的消融實(shí)驗(yàn)。由于訓(xùn)練初期，模型可以很快收斂，所以僅訓(xùn)練20個(gè)epoch，進(jìn)而快速區(qū)分模型性能差異。實(shí)驗(yàn)中其他模型均以SwinCS－VFIT為基礎(chǔ)修改而來，訓(xùn)練學(xué)習(xí)率設(shè)置為5E-4，其余配置與2.2節(jié)保持一致。訓(xùn)練完成后，使用Vimeo90K septuplet測試集進(jìn)行定量測試，并使用DAVIS數(shù)據(jù)集中含有大運(yùn)動場景的視頻幀序列進(jìn)行可視化對比。

2.5.1 Sep－STSCS block的消融實(shí)驗(yàn)

為了評估由CSWA和Sep－STS組成的Sep－STSCS block對視頻插幀結(jié)果的影響，本文首先使用標(biāo)準(zhǔn)的基于窗口的注意力（window－based attention，WA）替換SwinCS－VFIT中的CSWA，進(jìn)而得到模型SwinCS－VFIT－Sep－STS，并進(jìn)一步使用參數(shù)量相當(dāng)?shù)?D卷積模塊替換Sep－STS模塊，得到模型SwinCS－VFIT－CNN。將SwinCS－VFIT和上述兩個(gè)模型進(jìn)行對比，表3中的實(shí)驗(yàn)結(jié)果顯示，CSWA和Sep－STS模塊對于提高模型插幀性能的作用明顯，將CSWA替換為WA后，模型的PSNR指標(biāo)降低了0.07 dB，再將Sep－STS替換為3D卷積后，模型的PSNR和SSIM指標(biāo)分別降低了0.47 dB和0.003。同時(shí)從圖7可視化對比中可以看出，在面對大運(yùn)動場景時(shí)，SwinCS－VFIT的結(jié)果優(yōu)于SwinCS－VFIT－Sep－STS，SwinCS－VFIT－Sep－STS的結(jié)果又優(yōu)于SwinCS－VFIT－CNN，表明Sep－STSCS block可以有效提高視頻插幀的性能。

2.5.2 多尺度幀合成網(wǎng)絡(luò)的消融實(shí)驗(yàn)

為了驗(yàn)證多尺度幀合成網(wǎng)絡(luò)的有效性，本文將多尺度幀合成網(wǎng)絡(luò)中的第二和第三個(gè)SynBlock去除，僅保留最細(xì)尺度下的SynBlock，從而得到單尺度幀合成網(wǎng)絡(luò)，將使用單尺度幀合成網(wǎng)絡(luò)的模型命名為SwinCS－VFIT－Single。將原模型與該模型進(jìn)行對比，表4中實(shí)驗(yàn)結(jié)果顯示，SwinCS－VFIT相較于SwinCS－VFIT－Single在PSNR和SSIM指標(biāo)上分別高出0.11 dB和0.00 同時(shí)從圖7可視化結(jié)果可以看出，SwinCS－VFIT的插幀結(jié)果優(yōu)于SwinCS－VFIT－Single，表明多尺度幀合成網(wǎng)絡(luò)通過聚合多尺度的信息，可以增強(qiáng)模型建模遠(yuǎn)程依賴關(guān)系的能力，從而進(jìn)一步提升模型插值中間幀的性能。

3 結(jié)束語

本文提出一種改進(jìn)視覺Transformer的視頻插幀方法SwinCS－VFIT，將基于跨尺度窗口的注意力機(jī)制（CSWA）與可分離的時(shí)空局部注意力機(jī)制（Sep－STS）結(jié)合設(shè)計(jì)了Sep－STSCS注意力，實(shí)現(xiàn)了對時(shí)空依賴和遠(yuǎn)程依賴關(guān)系的聯(lián)合建模，并且還使用了一種多尺度幀合成網(wǎng)絡(luò)，利用多尺度信息合成中間幀，進(jìn)而提高了模型對大運(yùn)動場景的處理能力，達(dá)到了較高的插幀性能。在Vimeo90K和DAVIS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示，本文模型相較于現(xiàn)有VFI模型有較大的性能提升，并且可視化結(jié)果對比顯示了本文模型能較好地處理大運(yùn)動、復(fù)雜運(yùn)動和遮擋場景。但是本文模型與大多數(shù)視頻插幀模型相同，僅能生成相鄰兩幀中間時(shí)刻的幀，而不能在任意中間時(shí)刻插值幀。因此，探索能進(jìn)行任意中間時(shí)刻插幀的模型是下一步的主要研究內(nèi)容。

參考文獻(xiàn)：

［1］Jiang Huaizu，Sun Deqing，Jampani V，et al. SuperSloMo： high qualityestimation of multiple intermediate frames for video interpolation［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2018： 9000－9008.

［2］Ronneberger O，F(xiàn)ischer P，Brox T. U－Net： convolutional networks for biomedical image segmentation［M］// Navab N，Hornegger J，Wells W，et al. Medical Image Computing and Computer－Assisted Intervention. Berlin： Springer，2015： 234－241.

［3］Xu Xiangyu，Li Siyao，Sun Wenxiu，et al. Quadratic video interpolation［C］// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook，NY： Curran Associates Inc.，2019： article No. 147.

［4］Dutta S，Subramaniam A，Mittal A. Non－linear motion estimation for video frame interpolation using space－time convolutions［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2022： 1726－1731.

［5］Niklaus S，Mai Long，Liu Feng. Video frame interpolation via adaptive convolution［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2017： 670－679.

［6］Niklaus S，Mai Long，Liu Feng. Video frame interpolation via adaptive separable convolution［C］// Proc of IEEE International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2017： 261－270.

［7］Lee H，Kim T，Chung T Y，et al. AdaCoF： adaptive collaboration of flows for video frame interpolation［C］// Proc of IEEE/CVF Confe－rence on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2020： 5316－5325.

［8］Bao Wenbo，Lai Weisheng，Zhang Xiaoyun，et al. MEMC－Net： motion estimation and motion compensation driven neural network for video interpolation and enhancement［J］.IEEE Trans on Pattern Analysis and Machine Intelligence ，202 43 （3）： 933－948.

［9］Bao Wenbo，Lai W S，Ma Chao，et al. Depth－aware video frame interpolation［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2019： 3698－3707.

［10］Cheng Xianhang，Chen Zhenzhong. Multiple video frame interpolation via enhanced deformable separable convolution［J］.IEEE Trans on Pattern Analysis and Machine Intelligence ，202 44 （10）： 7029－7045.

［11］Kalluri T，Pathak D，Chandraker M，et al. FLAVR： flow－agnostic videorepresentations for fast frame interpolation［C］// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway，NJ： IEEE Press，2023： 2071－2082.

［12］Vaswani A，Shazeer N，Parmar N，et al. Attention is all you need［EB/OL］. （2023－08－02）. https：//arxiv.org/abs/1706.03762.

［13］陳凱，林珊玲，林堅(jiān)普，等. 基于Transformer人像關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)的研究［J］. 計(jì)算機(jī)應(yīng)用研究，2023， 40 （6）： 1870－1875，1881. （Chen Kai，Lin Shanling，Lin Jianpu，et al. Research on facial landmarks detection network based on Transformer［J］.Application Research of Computers ，2023， 40 （6）： 1870－1875，1881.）

［14］Dosovitskiy A，Beyer L，Kolesnikov A，et al. An image is worth 16×16 words： transformers for image recognition at scale［EB/OL］. （2021－06－03）. https：//arxiv.org/abs/2010.11929.

［15］Liu Ze，Lin Yutong，Cao Yue，et al. Swin Transformer： hierarchical vision transformer using shifted windows［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press，2021： 9992－10002.

［16］劉文婷，盧新明. 基于計(jì)算機(jī)視覺的Transformer 研究進(jìn)展［J］. 計(jì)算機(jī)工程與應(yīng)用，2022， 58 （6）： 1－16. （Liu Wenting，Lu Xinming. Research progress of Transformer based on computer vision［J］.Computer Engineering and Applications ，2022， 58 （6）： 1－16.）

［17］Shi Zhihao，Xu Xiangyu，Liu Xiaohong，et al. Video frame interpolation Transformer［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2022： 17482－17491.

［18］Lu Liying，Wu Ruizheng，Lin Huaijia，et al. Video frame interpolation with Transformer［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2022： 3532－3542.

［19］Howard A G，Zhu Menglong，Chen Bo，et al. MobileNets： efficient convolutional neural networks for mobile vision applications［EB/OL］. （2017－04－17）. https：//arxiv.org/abs/1704.04861.

［20］Hendrycks D，Gimpel K. Gaussian error linear units（GELUs）［EB/OL］. （2023－06－06）. https：//arxiv.org/abs/1606.08415.

［21］Ba J L，Kiros J R，Hinton G E. Layer normalization［EB/OL］. （2016－07－21）. https：//arxiv.org/abs/1607.06450.

［22］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al. Deep residual learning for image recognition［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2016： 770－778.

［23］Xue Tianfan，Chen Baian，Wu Jiajun，et al. Video enhancement with task－oriented flow［J］.International Journal of Computer Vision ，2019， 127 ： 1106－1125.

［24］Soomro K，Zamir A R，Shah M. UCF101： a dataset of 101 human actions classes from videos in the wild［EB/OL］. （2012－12－03）. https：//arxiv.org/abs/1212.0402.

［25］Perazzi F，Pont－Tuset J，Mcwilliams B，et al. A benchmark dataset and evaluation methodology for video object segmentation［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2016： 724－732.

［26］Kingma D P，Ba J. Adam： a method for stochastic optimization［EB/OL］. （2012－12－22）. https：//arxiv.org/abs/1412.6980.

［27］Park J，Ko K，Lee C，et al. BMBC： bilateral motion estimation with bilateral cost volume for video interpolation［M］// Vedaldi A，Bischof H，Brox T，et al. Computer Vision. Berlin： Springer，2020： 109－125.

［28］Choi M，Kim H，Han B，et al. Channel attention is all you need for video frame interpolation［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto，CA： AAAI Press，2020： 10663－10671.

［29］Niklaus S，Liu Feng. Softmax splatting for video frame interpolation［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2020： 5437－5446.

收稿日期：2023－07－16；修回日期：2023－08－28 基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目（62173222）

作者簡介：石昌通（1999—），男，山東菏澤人，碩士研究生，CCF會員，主要研究方向?yàn)橛?jì)算機(jī)視覺、視頻插幀；單鴻濤（1971—），女（通信作者），河南開封人，副教授，博士，主要研究方向?yàn)樯疃葘W(xué)習(xí)、人工智能（shanhongtao@sues.edu.cn）；鄭光遠(yuǎn)（1976—），男，河南商丘人，副教授，博士，主要研究方向?yàn)橛?jì)算機(jī)視覺、智能控制；張玉金（1982—），男，安徽滁州人，副教授，博士，主要研究方向?yàn)閳D像處理、模式識別；劉懷遠(yuǎn)（1994—），男，甘肅天水人，碩士研究生，主要研究方向?yàn)樯疃葘W(xué)習(xí)、文本分類；宗智浩（1997—），男，江蘇南通人，碩士研究生，主要研究方向?yàn)樯疃葘W(xué)習(xí)、自然語言處理.

計(jì)算機(jī)應(yīng)用研究2024年4期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于節(jié)點(diǎn)動態(tài)評分機(jī)制的分組共識算法; TCSNGAN:基于Transformer和譜歸一化CNN的圖像生成模型; 車聯(lián)網(wǎng)安全標(biāo)準(zhǔn)綜述; 基于模態(tài)語義增強(qiáng)的跨模態(tài)食譜檢索方法; 卷積神經(jīng)網(wǎng)絡(luò)的正則化方法綜述; 多級敏感區(qū)域室內(nèi)定位中的隱私保護(hù)算法