集美大學 謝曉婷 吳佳棟 周俊丞 黃勛 黃斌
FVD 是一種評估機器自動生成視頻質量的評估指標,在可見光視頻生成領域已經得到了較為廣泛的應用。現有文獻在計算FVD 數值時,需要通過一個預訓練模型提取視頻數據的關鍵特征。然而,這個預訓練模型是通過可見光視頻數據集訓練得到的,目前仍缺少對其在非可見光領域視頻質量評估可行性的探索。為了研究FVD對非可見光視頻生成的評估效果,本文基于I3D 模型,使用非可見光領域數據集分別微調預訓練模型和重新訓練模型,采用紅外和紫外視頻數據集模擬出不同質量的生成視頻,剖析FVD 在非可見光視頻質量評估的應用表現。本文通過實驗發現:(1)將可見光領域預訓練模型直接遷移到非可見光領域,評估效果較差,無法吻合人眼觀看感受;(2)當使用非可見光數據集訓練出提取特征的預訓練模型,FVD 的評估結果更為準確。
隨著基于自注意力的深度生成模型的發展,人們從圖像生成領域逐步關注到難度更大的視頻生成領域,并在視頻生成領域取得了一定的進展,如Video Transformer[1]模型在Kinetics-400[2]數據集上對真實人物的復雜行為實現了較好的預測,該模型根據輸入的初始視頻幀,自動生成未來若干幀的人物動作,從而達到行為預測的目的。Fréchet Video Distance(FVD)[3]是一種視頻質量評估指標,它根據模型生成的視頻與真實視頻的相似程度,以此來衡量生成視頻質量的好壞。在理想的情況下,使用兩段真實的視頻計算出的FVD 值為0;隨著生成視頻的質量的下降,FVD 的值逐步上升。與PSNR 和SSIM等指標相比,FVD 考慮了整個視頻的分布,從而彌補了幀級指標的缺點,使評估結果更加符合人眼感受[3]。
FVD 被提出時主要考慮可見光(波長在380 ~780nm)領域的視頻質量評估,使用者需要從基于可見光數據訓練的I3D 模型[4]提取能夠表征視頻質量的特征,并用該特征計算FVD 值。因此,FVD 評估結果的準確性依賴于預訓練I3D 模型能否提供可靠的特征。現有文獻通常采用DeepMind 在Kinetics-400 數據集上預訓練的I3D 模型提取視頻特征計算FVD,該預訓練I3D 模型能夠在UCF-101[5]數據集上達到93.4%的預測準確率[4]。
隨著視頻領域的進一步發展,人們對視頻生成的研究從可見光逐漸拓展到非可見光領域。非可見光波長與可見光波長不同,在實際應用中紅外光和紫外光較為常見。比如,在光電探測領域中,紅外探測可用于遠距離檢測和跟蹤空中飛行目標等[6]。在電氣設備的放電檢測領域中,基于240-280nm“日盲區”波段紫外光信號的“日盲”紫外放電檢測得到了較廣泛的應用[7]。這些應用場景均存在著通過機器自動生成視頻達到擴充數據集或進行目標運動軌跡預測的需要。因此,非可見光視頻的生成和質量評估具有重要的意義。
然而,FVD 是否適用于非可見光的生成視頻質量評估還未得到充分的研究。本文從研究基于可見光的預訓練I3D 模型是否適用于提取非可見光視頻的特征入手,分析通過不同方法得到的I3D 模型對FVD 計算所帶來的影響,進而研究I3D 模型提取特征的位置將在何種程度上影響FVD 值的計算,逐步剖析FVD 這一評估指標的特性。同時提出FVD 在非可見光視頻領域使用方法的建議和改進,使得FVD 的評估結果更具準確性。
與圖像生成相比,建立視頻生成模型是一個更為復雜的任務,不僅需要捕捉物體的視覺表現,而且需要捕捉時間維度上的信息,即視頻幀與幀之間的時間動態。自然視頻的復雜性要求在高維的輸入上,對空間和時間的相關性進行建模,這使得高保真自然視頻生成方面的進展無法同圖像、文本的生成達到同樣的水平。
VideoGPT[8]是一個概念上簡單的架構,將基于似然的生成模型拓展到視頻生成領域。使用Vector Quantised Variational AutoEncoder(VQ-VAE)通過3D 卷積和軸向自注意力學習原始視頻的下采樣隱變量表示,同時使用類似GPT 的架構對隱變量進行時空上的建模。
VideoTransformer[1]是一個基于三維自注意力機制的自回歸視頻生成模型。為降低自注意力機制的一般二次空間復雜度,它將子尺度的概念擴展到視頻中,將視頻切分成多個更小的視頻,對視頻切片進行建模,并對視頻切片應用Block-local Self-attention。
NüWA[9]是一個統一的多模態預訓練模型,使用3D Transformer Encoder-decoder Frame 框架和三維鄰近注意力(3D Nearby Attention),將局部稀疏注意力(Localwise Sparse attention)拓展到圖像和視頻領域,驗證了局部稀疏注意力與軸向稀疏注意力(Axial-wise Sparse Attention)更適用于生成領域。模型的訓練數據涵蓋了圖像和視頻數據,能夠適應語言、圖像和視頻生成等多樣的下游任務。
1.2.1 PSNR——Peak Signal Noise Ratio
PSNR 一般用于衡量圖像經過壓縮處理后的品質,它的值是峰值信號的能量與噪聲的平均能量之比,值越大代表失真越少。PSNR 雖然計算復雜度較低,但由于其并未考慮到人眼的視覺特性,因而經常出現評價結果與人的主觀感覺不一致的情況。
1.2.2 SSIM——Structural Similarity Index Measure
SSIM 是一種衡量兩幅圖像相似度的指標,從亮度、對比度與結構來對兩幅圖像的相似性進行評估。在實現上,亮度用均值來表示,對比度用均值歸一化的方差表示,結構用相關系數即統計意義上的協方差與方差乘積比值來表征,SSIM 的取值在[0,1]之間,值越大代表失真越少。SSIM 的優點是通過感知結構信息來評價失真,和PSNR 相比可以較好地反映人眼的主觀質量感受,缺點在于當影像出現非結構性失真(例如位移、縮放、旋轉)的時候無法有效運作。
1.2.3 IS——Inception Score
IS[10]從生成圖片的質量和多樣性兩個方面評價一個生成模型,IS 的值越高說明該生成模型越好。(1)將生成的圖片送入Inception-Net V3(圖片分類網絡)中,得到一個多維向量y,y 中每個元素的值表示x 在某一類別的概率。當生成的圖片質量較好時,其在某一類別的概率應該明顯區別于其他類別,也就是說,p(y|x)的熵應該很小。這評價了生成圖片的質量。(2)如果一個模型只能生成有限類別的高質量圖片,那該模型也不足以成為好的生成模型。如果模型生成多樣性較強的圖片,那么生成的圖片在各個類別上的分布應該是均勻的,也就是說所有類別概率的邊緣分布p(y)熵很大。這評價了生成圖片的多樣性。
1.2.4 FID——Fréchet Inception Distance
IS 的一個缺點是沒有將真實圖片與生成圖片進行比較,FID[11]同樣基于Inception-Net V3,IS 進行了改進。它將真實樣本和生成樣本送進分類器獲得特征向量,再求該向量的均值和協方差矩陣,最終進行FID 的計算,FID 值越小,說明生成圖像與真實圖像越接近,模型生成的圖片質量越好,如式(1)所示。
FVD——Fréchet Video Distance,是一個用于評估生成視頻質量的指標,它基于FID 在三維空間上進行擴展,利用視頻幀與幀之間的聯系,以此達到評估視頻質量的目的。使用者通過獲取生成視頻和真實視頻的特征,由它們的均值和協方差矩陣計算FVD(Eq.1),FVD 值越小,說明模型生成的視頻質量越好。

μR、ΣR:真實視頻的均值和協方差矩陣
μG、ΣG:生成視頻的均值和協方差矩陣
在實際計算FVD 的流程中,以Inflated 3D Convnet(I3D)作為分類器,在Kinetics-400 數據集上訓練I3D;訓練出的I3D 模型可以用于在真實的有挑戰的YouTube視頻中識別人體行為。使用訓練好的I3D 模型分別對真實樣本和生成樣本進行特征提取,取模型最后一層輸出作為特征,特征向量中的“400”代表輸入數據在400 種行為類別中的分類概率,由該特征得到均值和協方差矩陣,進行FVD 的計算(如圖1所示)。

圖1 FVD 計算流程Fig.1 Calculation flow of FVD
本文旨在研究FVD 在非可見光視頻領域的使用方法,為保證FVD 評估準確性,需要I3D 模型提供準確可靠的特征。首先使用預訓練I3D 模型對非可見光視頻進行特征提取并計算FVD 數值,判斷在大型可見光數據集上訓練的I3D 模型能否為非可見光視頻的FVD 計算提供準確特征;其次使用通過不同途徑得到的I3D 模型提取非可見光數據集的特征并計算FVD 數值,分析何種途徑能夠計算出較為合理的FVD 數值;最后我們針對I3D 模型不同層所提取的特征分別計算FVD 數值,根據結果優化特征提取策略。
2.1 節描述了本篇論文中所使用的數據集、模型和實驗的相關配置。2.2 節研究預訓練I3D 模型是否能夠直接遷移到其他類型的數據集上。2.3 節探究不同模型對計算FVD 數值產生的影響。2.4 節分析模型不同層的特征如何影響FVD 值。
我們選擇I3D 模型作為研究對象,在自制紫外數據集、KAIST[12]數據集上進行所有實驗的研究。其中,自制紫外數據集來自于對紫外目標模擬源進行拍攝所得,圖像中的目標隨著時間流逝產生大小變化的亮斑。所有數據集中的視頻幀均被處理成224×224 大小。其中紫外數據集包含2 大類別(目標和干擾),2544 個紫外視頻,每個視頻100 幀;KAIST 數據集包含41 個在白天和晚上捕獲的校園、街道以及鄉下各種常規交通場景的視頻,共95328 張圖片,每張圖片都包含RGB 彩色圖像和紅外圖像兩個版本。
本論文使用FVD 作為評估模型提取特征能力的標準。在計算FVD 時,將數據集均分成兩份,分別為S1和S2,其中S1 作為參考集不做任何處理,S2 會做以下兩類處理模擬生成視頻(如圖2所示)。

圖2 數據集處理流程Fig.2 Dataset processing flow
(1)對每個視頻幀I 加入高斯噪聲如式(2)所示:

(2)對每個視頻幀I 在隨機區域S(大小在64×64至128×128 之間)上進行遮擋(遮擋區域像素值為I 的平均像素值)。

圖3 KAIST 可見光數據集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.3 KAIST visible light dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)
Sx:被遮擋區域的寬度 Sy:被遮擋區域的高度

圖4 KAIST 紅外數據集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.4 KAIST infrared dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)
(xstart,ystart):被遮擋區域在I 中的左上角坐標如式(3)所示:

分別從S1 和S2 中隨機選擇多段連續16 幀的視頻,送入I3D 模型進行特征提取,重復1000 次得到1000 組FVD 值。
對實驗使用的不同數據集計算FVD 數值時,都進行下述三種實驗配置:
(1)baseline:S1 和S2 都不做任何處理,使用S1和S2 計算FVD,得到的FVD 值作為實驗的baseline。這種配置用于模擬出生成視頻的質量等同于真實視頻的質量的場景。
(2)遮擋:對S2 加入大小隨機、位置隨機的遮擋,使用S1 和S2 計算FVD。這種配置用于模擬出生成視頻的質量不高、存在遮擋的場景。
(3)高斯噪聲:對S2 加入不同強度的高斯噪聲,使用S1 和S2 計算FVD。這種配置用于模擬出生成視頻的質量不高、存在噪聲的場景。
在提出I3D 的原始論文中,我們知道在Kinetics-400數據集上預訓練的I3D 模型具有較好的提取視頻特征的能力。在本實驗中,我們希望知道將該預訓練模型遷移到其他類型的數據集上(尤其是非可見光數據集),該模型是否仍具有較好的特征提取能力。我們在KAIST 原始數據集上計算FVD,其中輕度高斯噪聲:μ=0,σ=0.005,重度高斯噪聲:μ=0,σ=0.01,得到的FVD 值如圖6所示。

圖6 對KAIST 可見光數據集計算的FVD 值Fig.6 FVD values calculated for the KAIST visible light dataset
如圖6所示,對數據進行不同類型的處理(遮擋和加噪),所得FVD 值整體較baseline 有所上升。同時,不同強度的高斯噪聲所得FVD 有明顯差異,這說明FVD 能夠在一定程度上檢測注入的噪聲。然而從整體上看,使用在Kinetics-400 上預訓練的I3D 模型對KAIST可見光數據集進行特征提取,計算FVD 所得的baseline值相較于原始論文對機械臂運動視頻評估的FVD 值[3]高出了一個數量級,這說明在可見光領域的不同數據集之間,預訓練I3D 模型的遷移仍具有一定的局限性。
為研究使用可見光數據進行預訓練的I3D 模型是否能夠直接遷移到非可見光數據集進行特征提取,我們還在KAIST 紅外數據集、紫外視頻等數據集上計算FVD。其中KAIST 紅外數據集的輕度高斯噪聲:μ=0,σ=0.001,重度高斯噪聲μ=0,σ=0.005,紫外數據集的輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,得到的FVD 值如圖7所示。
根據圖7,將使用可見光數據集預訓練的I3D 模型遷移到非可見光數據集上,對于KAIST 數據集,通過FVD 值的分布發現該預訓練模型遷移到KAIST(可見光)的FVD 值反而要比遷移到KAIST(紅外)的FVD值要差。通過baseline 的箱型圖可以發現,對于兩份質量相似度很高的數據,計算所得的FVD 值仍然較高。而對于紫外數據集,baseline 相對偏高,gaussian_better 的FVD 值比gaussian_worse 更高,這與主觀視覺感受不符,無法準確地評估視頻質量。因此使用可見光領域模型進行非可見光數據集的特征提取目前仍具有一定挑戰。

圖7 KAIST 紅外數據集(上)和紫外數據集(下)的FVD 值Fig.7 FVD values for KAIST infrared dataset (top) and UV dataset (bottom)
為進一步研究FVD 對非可見光視頻的評估能力,我們在紫外視頻數據集上進行研究,微調和訓練時只取每個視頻的后79 幀。
在本實驗中,首先使用未經訓練的I3D 模型,將模型參數隨機初始化,用其計算紫外數據的FVD,以此作為本實驗的參考值;其次,使用紫外數據集對在Kinetics-400上預訓練的I3D 模型進行微調;最后,將紫外數據集以視頻為單位,按照7:2:1 的比例劃分出訓練集、驗證集和測試集,重新訓練I3D 模型。
基于以上方法,得到以下三個模型:
(1)不經訓練,參數隨機初始化的I3D 模型;
(2)使用紫外數據進行微調的I3D 模型;
(3)在紫外數據集上從隨機初始化權重開始訓練的I3D 模型。
使用上述三個模型提取紫外視頻的特征計算FVD值,其中輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,所得實驗結果如圖8所示。
根據圖8,發現使用參數隨機初始化的I3D 模型在紫外數據上進行特征提取計算FVD,baseline 呈現接近于0 的數值,同時無論對視頻進行遮擋或加噪處理,計算所得的FVD 值均接近于0。盡管baseline 的FVD 數值在理論上應該越接近0 越好,但加上了遮擋和噪聲的視頻產生的FVD 值應該越大越好。這說明了一個隨機初始化權重的I3D 模型不具備有提取可靠視頻特征的能力,因而無法呈現出高質量視頻和低質量視頻之間的差異。

圖8 使用隨機初始化模型(上)、微調模型(中)和重新訓練模型(下)計算的FVD 值Fig.8 FVD values calculated using the random initialization model(top),fine-tuned model (middle) and re-trained model (bottom)
使用微調的I3D 模型提取特征進行FVD 計算,baseline 呈現較低的值,occlusion 的FVD 值比baseline高但較為接近,從遮擋的視頻和原始視頻的視覺效果上看,兩者的FVD 值差距比預想中小,這說明微調模型區分遮擋噪聲的能力較弱。加入高斯噪聲計算得到的FVD值相比baseline 呈現顯著差異,隨著高斯強度的增加,FVD 值也有明顯的增加,說明微調模型能夠檢測不同強度的高斯噪聲。總體上看,高斯噪聲的FVD 值均比遮擋處理高,然而從視覺效果上觀察,遮擋對視頻質量的干擾程度更大,計算所得FVD 應更高,因此所呈現的FVD 值與可視化效果不符。
最后使用重新訓練的I3D 模型,計算經過遮擋所得出的FVD 值比baseline 和高斯噪聲高,且差值明顯,這與可視化效果一致,說明重新訓練的I3D 模型檢測遮擋噪聲的能力較強。然而,高斯噪聲計算所得FVD 與baseline 呈現不出差異,且隨著高斯強度的增加,FVD值變化不明顯。事實上,紫外數據的一大特征在于亮斑的面積及其位置,高斯噪聲不足以對亮斑這兩個特性造成較大的干擾,因此所得FVD 值與baseline 呈現不出較大差異。當高斯噪聲逐漸上升,使得肉眼難以分辨紫外亮斑邊界時(如圖9所示),FVD 值會有較為明顯的上升(如圖10所示)。

圖9 不同強度高斯噪聲下紫外圖像的可視化效果Fig.9 Visualization of UV images with different intensity Gaussian noise

圖10 不同高斯強度下的FVD 值Fig.10 FVD values at different Gaussian intensities
綜合上述分析,FVD 在非可見光領域具備視頻質量評估的能力,但同時應采用相應領域的數據集重新訓練模型,提升模型提取特征的能力。合適的模型和FVD 二者相互結合,能使視頻質量評估的結果更為準確。
從視頻分類模型的不同層提取特征,是否會影響FVD 的計算結果,為研究這一問題,本實驗以下述三個模型作為研究對象,分別為:
(1)在Kinetics-400 上預訓練的I3D 模型;
(2)使用紫外數據對預訓練I3D 模型進行微調后得到的模型;
(3)在紫外數據集上從隨機初始化權重開始訓練的I3D 模型。
其中預訓練模型的分類數為400,其余兩個模型的分類數與紫外視頻類別數相等均為2(即目標和干擾)。將紫外數據送入各個模型,根據I3D 模型特點,分別提取每個模型的最后兩層特征計算FVD,結果如圖11所示。
根據圖11(上)發現,對于預訓練模型,無論是baseline 還是經過遮擋和加噪的數據,在使用倒數第二層的特征計算FVD 值時均接近0,即FVD 無法評估視頻質量,而使用倒數第一層的特征,FVD 值會有較為明顯的差異,但加入高斯噪聲的FVD 值比加入遮擋的FVD值更高,這與人眼感受不符,因此預訓練模型仍無法準確評估二者質量好壞。

圖11 使用預訓練模型(上)、微調模型(中)和重新訓練模型(下)計算的FVD 值Fig.11 FVD values calculated using the pre-trained model (top),fine-tuned model (middle) and re-trained model (bottom)
對微調模型,取倒數第一層特征計算出的FVD 值區分度太小,不具備評估價值。這可能是因為,I3D 模型的最后一層輸出是輸入數據在目標和干擾這兩個類別上的概率,已經丟失了大部分能夠表征視頻原始特征的信息。如果取倒數第二層特征計算出的FVD 值,便能夠觀察到FVD 值明顯的差別。然而加入遮擋的FVD 值比加入高斯噪聲的FVD 值更低,這與人的視覺感受不符,因此微調模型在這種情況下也無法準確判斷視頻質量差異。
對于重新訓練的I3D 模型,提取倒數第一層的特征計算出的FVD 值均較低,但使用其倒數第二層的特征所計算出的FVD 值能準確地區分出不同視頻的質量,其中加入遮擋的FVD 值最高,加入高斯噪聲的FVD 值與baseline 相差不大,這與視覺感受較為貼近。相比前兩個模型,使用重新訓練的I3D 模型提取倒二層特征計算FVD,能夠得到更為準確的評估結果。
本文研究了基于I3D 模型的FVD 在非可見光領域的應用表現,并根據對比實驗提出了FVD 使用方法的優化。在使用FVD 這一評估指標分析非可見光視頻質量時,由于在大型可見光數據集上訓練的I3D 模型并不能很好地提取非可見光視頻的特征,應盡量使用相關領域的數據集重新訓練I3D 模型。當數據集的視頻類別數較少時,I3D 模型最后一層的特征向量長度也較小,因此提取I3D 模型最后一層的特征所計算的FVD 并不能清晰準確地區分出視頻質量差異,而選取倒數第二層或者更接近于模型輸入端的特征能讓FVD 的評估結果更為準確。