999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多模態特征融合的視頻記憶度預測

2022-07-21 09:46:46常詩穎
計算機工程與應用 2022年14期
關鍵詞:語義模態深度

常詩穎,胡 燕

武漢理工大學 計算機科學與技術學院,武漢 430070

隨著網絡技術的飛速發展,實時流媒體和用戶生成的視頻遍布互聯網,研究發現人們對觀看的這些短視頻的記憶程度并不一樣,一些視頻可以記住很長時間,而另一些視頻轉瞬即忘[1]。研究表明記憶度是圖像的固有屬性[2],讓人印象深刻的視頻內容有著廣闊的應用前景。商家投放高記憶度的視頻廣告可以幫助公司推銷他們的產品,使用電影中令人難忘的精彩片段制作宣傳片,可以達到更好的宣傳效果。理解影響視頻記憶度的因素并有效利用,對攝影師、廣告商、視頻網站、電影和多媒體制作人都有深遠影響。

圖像的記憶度預測問題廣受關注,Isola等人[2-3]提出了一項圖像記憶度的工作,這是圖像乃至視頻在記憶度方面的開創之作。首先構建了一個記憶游戲實驗,用于測量圖像記憶度的真實值(ground truth)。實驗中受試者被要求觀看照片并檢測重復照片的演示,圖像記憶度被定義為測試者對重復圖片的正確檢測率,作者建立了一個從低級視覺特征預測圖像記憶度的計算模型,使其從視覺特征映射到記憶分數。

有關視頻記憶度(video memorability,VM)的研究是近幾年才開始的。受文獻[3]的啟發,Han等人[4]建立了一個類似的方法來測量VM,并提出了一種將視聽和功能磁共振成像(fMRI)衍生特征相結合的方法,在記憶視頻時傳遞部分大腦活動。但該方法跨度較長、實驗方法昂貴且費時較多,不適合推廣。2017年Shekhar等人[5]研究了影響視頻記憶度的幾種特征,如C3D時空特征[6]、從視頻標題中提取的語義特征、顯著性特征和顏色特征。但該研究進行人工實驗時使用回答問題而不是經典的視覺識別任務來測量視頻記憶度,視頻收集的可記憶度標注可能不僅反映了視頻記憶度的差異,而且反映了問題之間復雜性的差異。2018年Cohendet等人[7]介紹了一種新的方法來度量記憶在一個重要的保留期(即記憶后的幾周到幾年)后的表現。但注釋者沒有通過觀看視頻的學習任務,而是要求填寫一份調查問卷,用來收集參與者之前對好萊塢電影的記憶。然而一些參與者有可能在任務之前看到過其中的一些內容(比如好萊塢比較出名的電影片段),導致一些標注偏向于著名的視頻內容,問卷的答案完全基于主觀判斷,使得對記憶表現的測量并不完全客觀。2019年Cohendet等人[8]為了解決視頻記憶度預測數據集缺乏的問題,引入了一個由10 000個具有記憶分數標注的視頻組成的大規模公開數據集(VideoMem),并提出了一個基于深層神經網絡的視覺語義特征的預測模型,在短期記憶度預測達到了0.494(長期記憶度預測:0.256)的Spearman相關性。該研究實驗體現了視頻標題中提取的語義特征取得的預測效果,沒有探索對記憶度有影響的特征融合方案,導致實驗效果不高。

很多研究者從不同的角度來探討這個領域,一些工作分析了記憶度和視覺概念之間的相關性,如顯著性[5]、顏色[4-5]、審美[2,9]、情緒[7]特征等。也有一些工作關注了視頻的音頻[4,7]、C3D時空特征[5,7-8]、語義特征如視頻標題[8-10]、摘要[5]等。從3D卷積神經網絡(3D ConvNets)模型[6]中提取的C3D時空特征在記憶度預測任務中比一般的視覺特征更有效,它更關注于視頻空間內容的理解。視頻的語義特征在單模態下預測效果突出[8-10]。可能是視頻對應的描述性標題具有一定的概括性,能夠從全局的角度總結視頻的內容。文獻[11]的實驗給出了與視頻記憶度成正相關和負相關的單詞列表,目前還沒有對該單詞列表展開的研究。文獻[11-13]使用預訓練的深層卷積神經網絡提取的視覺特征優于其他所有特征的預測效果,可以更好理解視頻中令人難忘的內容。文獻[14]探索了深度特征對圖像記憶度的影響,實驗證明該特征對圖像記憶度的預測有明顯作用。目前為止還沒有相關研究針對視頻的深度特征進行視頻記憶度的預測。受其啟發,本文將探索深度特征對視頻記憶度的影響,修改影響視頻記憶度的單詞的語義特征權重,并與C3D時空特征進行多模態融合。主要貢獻如下:

(1)利用文獻[15]提出的深度估計模型提取視頻的深度特征圖,使用預訓練的深層卷積神經網絡提取深度特征,探索其對視頻記憶度的影響。

(2)采用TF-IDF算法提取視頻標題的語義特征,對文獻[11]列出的對記憶度有影響的單詞賦予不同的特征權重。

(3)將視頻的深度特征、語義特征、C3D時空特征進行后期融合,提出了一個融合多模態的視頻記憶度預測模型,在大型公開的數據集(VideoMem)上進行實驗,證明了模型的有效性。

1 視頻記憶度融合模型

圖1 模型總體結構Fig.1 Overall structure of model

視頻記憶度融合模型的總體結構如圖1所示,將模型整體分為三部分:預處理、特征提取、回歸預測與多模態融合。首先將媒體文件進行分幀,提取深度特征、標題所含的語義特征以及視頻內容的C3D時空特征,將視頻提取到的圖片與深度圖一起輸入預訓練的ResNet152網絡[16]中提取深度特征以提高預測效果。受文獻[11]啟發,在提取語義特征時添加相關單詞的權重來增強模型預測能力。融合階段使用晚融合方法通過網格搜索獲取最佳特征權重。

1.1 視頻記憶度的深度特征

圖像深度估計在計算機視覺領域起著重要作用。如視覺顯著性[17]、圖像去噪[18]和圖像質量評估[19]等。場景中各點相對于攝像機的距離可以用深度圖(depth map)來表示,即深度圖中的每一個像素值表示場景中某一點與攝像機之間的距離。深度圖中像素值越低,表示像素離攝像機越近,像素值越高,表示像素離攝像機越遠[20]。文獻[14]探索了圖像深度與圖像記憶度之間的關系,發現圖像中心包含較近物體的圖像比在圖像中心包含較遠物體的圖像更令人難忘。該實驗表明,深度特征對圖像記憶度的預測效果達到了0.63的圖2視頻圖像與其深度圖Spearman相關性,接近人類真實測量值(0.68),證明了該特征對圖像記憶度預測有顯著作用。用于預測圖像記憶度的數據集[21]沒有圖像深度真實值,他們使用文獻[15]中提出的深度估計模型來獲得深度特征圖。本文使用的VideoMem數據集中也不包含深度特征的真實值,因此也使用該深度估計模型[15]來獲取該數據集的深度信息。圖2顯示了原始視頻中切分的某一幀圖像和提取的對應深度圖。

VideoMem數據集中的每個視頻都有其對應的短期和長期記憶度真實值標簽,為了了解深度圖和視頻記憶度之間的關系,本文將數據集中每個視頻的記憶度真實值按照短期記憶度由高到低進行排序,選取了幾個具有代表性的視頻圖像,給出了一組具有高記憶度和低記憶度視頻圖像與其深度圖的對比,如圖3所示。其中(a)顯示了高記憶度視頻圖像與對應的深度估計圖,(b)顯示了低記憶度視頻圖像與對應的深度估計圖。可以看出,深度圖中心位置靠近相機的物體更容易讓人印象深刻,而中心位置遠離相機的物體的視頻讓人易于忘記。

為了探索深度特征對視頻記憶度的影響,本文使用了預先訓練的ResNset152網絡[16]來提取深度特征,ResNset152是卷積神經網絡(convolutional neural networks,CNN)中的一種殘差網絡(residual network,ResNet),152代表了網絡的深度。使用殘差網絡可以有效地解決網絡加深后性能退化的問題。將視頻原始圖像與深度特征圖一起輸入ResNset152網絡來提取深度特征和視覺特征,然后進行回歸預測可以達到更高的實驗效果。實驗將在后續章節詳細介紹。

圖3 高記憶度和低記憶度的視頻圖像與深度圖Fig.3 High and low memorability video images and depth maps

1.2 視頻記憶度的語義特征

視頻的語義信息在記憶度預測方面有重要的作用,VideoMem[22]數據集中提供了每個視頻的標題,該標題信息是對視頻的一個概括性描述。研究發現與自然景觀有關的單詞與視頻記憶度呈負相關,與人和人物動作相關的單詞與視頻記憶度呈正相關[11]。根據VideoMem數據集中的記憶度分數真實值標簽的排序,圖4列出了3個數據集的記憶度實驗中短期記憶度預測最令人難忘和最不令人難忘的視頻和對應的記憶度真實值得分,可以看出記憶度得分最高的3個視頻中都出現了人物和人物相關動作,而記憶度得分最低的3個視頻中都是自然景觀。受其啟發在視頻的標題中對記憶度預測有影響的詞語進行了深入研究。

圖4 高記憶度得分和低記憶度得分的視頻對比Fig.4 Comparison between high memorability score and low memorability score videos

自然語言處理領域中TF-IDF算法(term frequencyinverse document frequency)表示詞頻-逆向文檔頻率,TF是詞頻(term frequency),IDF是逆文檔頻率(inverse document frequency)。該算法用以評估字詞對于一個文件集或一個語料庫中其中一份文檔的重要程度,其定義如下:

表示詞匯ti的TF-IDF權重值。其中tfi,j表示詞匯ti在文檔dj中的頻率,定義如下:

ni,j表示詞匯ti在文檔dj中出現的次數,表示文檔dj中所有詞匯中出現的次數。

i dfi表示逆文檔頻率,定義如下:

|D|是語料庫中的文件的總數,|{j:ti∈dj}+1|表示包含詞匯ti的文件數目。

TF-IDF算法的主要思想是:如果某個詞或短語在一篇文章中出現的頻率較高,而在其他文章中很少出現,則認為該詞或者短語具有很好的類別區分能力[23]。TF-IDF算法對比較少出現的單詞給予重視,經常出現在標題中的詞的權重減少。較少出現在標題中的單詞被賦予更高的權重。這樣可以確保記憶度分數取決于一個單詞而不是整個句子。這樣在測試集中出現了罕見的單詞時,該模型可以認識到它們的重要性并能更好地預測得分。該算法適合當前視頻語義信息的特征提取。本文對特定單詞添加不同權重并使用支持向量回歸算法(support vector regression,SVR)構建模型,取得了優于其他基于語義信息預測視頻記憶度的結果,實驗將在后續章節詳細介紹。

1.3 視頻記憶度的C3D時空特征

VideoMem數據集提供方[22]為了方便研究者進行視頻記憶度預測方向的研究,提供了一些預先計算的特征,如梯度方向直方圖(histogram of oriented gradients,HoG)、局部二值模式(local binary pattern,LBP)特征、美學視覺特征(aesthetic visual features,AVF)、顏色特征、C3D時空特征,研究者可以直接使用這些提取好的特征進行不同模型的預測或其他方法的探索。C3D時空特征是從3D卷積神經網絡模型[6]中提取的,這是一種用于通用視頻分析的三維卷積網絡。C3D時空特征作為視頻的一種動態特征,可以對視頻中的時空信息進行編碼,用于視頻內容的分析。VideoMem數據集提供了卷積神經網絡C3D模型最后一層的輸出,可以將其用于視頻記憶度的預測。文獻[7-8,11-12]使用了C3D提取的特征和其他模態的特征單獨構建預測模型。C3D特征對視頻記憶度預測比數據集提供的其他預先計算的特征有更好的預測效果。受其啟發本文構建不同的回歸預測模型,嘗試使用VideoMem數據集提供的預先計算的C3D時空特征進行視頻記憶度的預測,探索視頻令人難忘的時空因素。

1.4 融合方法

在融合方法上嘗試了早融合和晚融合兩種融合方法。其中早期融合是指對每種模態提取的特征在分類或回歸操作前進行融合。在實驗結果中晚融合模型的預測效果優于早融合,原因可能是由于不同的特征有不同的特征空間和含義,直接合并產生了“語義鴻溝”,導致了預測性能下降。如何消除多模態的“語義鴻溝”,考慮多模態間的關系,仍然是一個需要解決的技術問題。因此選擇晚融合作為特征融合策略。

晚融合又稱后期融合,第一步先提取不同模態的特征描述,然后將每個模態的特征用來訓練各自獨立的回歸模型,來自不同模型的預測分數被組合起來產生最終的分數。晚期融合方案將學習到的單模態分數合并成多模態表示。晚融合模型結構如圖5所示。晚融合著重考慮基于單個特征模型的預測效果。融合階段有許多方法來合并分數。本文使用加權平均方法,假設深度特征的回歸模型預測得分為η1,語義特征的回歸模型預測得分為η2,C3D時空特征的回歸模型預測得分為η3,那么晚融合模型的最終得分為:

其中,ω1、ω2、ω3分別是三種模型的權重,通過網格搜索算法獲得三者的值。

圖5 晚融合模型示意圖Fig.5 Schematic diagram of late fusion model

1.5 總體流程

融合視頻深度特征、語義特征和C3D時空特征的計算模型總體流程如下:

步驟1視頻預處理

將訓練數據集中的每個視頻進行分幀,一個視頻被平均分為4幀圖像。

步驟2提取深度圖

將提取的4張圖像輸入深度估計模型[15],每個視頻提取到4幀深度圖。

步驟3提取深度特征

將上述步驟1和步驟2提取的4張原始圖像和4張深度圖一起輸入預訓練的ResNet152網絡,提取深度特征。

步驟4深度特征預測模型

構建基于深度特征的回歸模型,通過網格搜索方法選擇最佳參數。

步驟5視頻標題預處理

對訓練數據集中的每個視頻對應的標題進行預處理,去除特殊字符,所有英文字母都變成小寫,去除停用詞,留下有意義的單詞,然后進行詞干處理。

步驟6添加權重

給處理后的文本數據中對視頻記憶度有影響的單詞添加不同權重,計算詞頻和詞頻逆文檔頻率。

步驟7語義特征預測模型

構建基于語義特征的回歸模型,通過網格搜索方法選擇最佳參數。

步驟8提取C3D時空特征

提取預先計算的C3D時空特征,得到101維度的特征向量。

步驟9C3D時空特征預測模型

構建基于C3D時空特征的回歸模型,通過網格搜索方法選擇最佳參數。

步驟10多模態后期融合

將每個單模態特征進行后期融合,通過加權平均方法開展實驗,使用網格搜索選擇最優融合權重。

步驟11評價指標計算

將融合模型預測的視頻記憶度得分與真實值做Spearman相關系數的計算,得出最終結果。

2 實驗

2.1 實驗環境

本文實驗硬件環境與配置為:Ubuntu 18.04操作系統,借助GeForceGTX 2080 GPU進行加速處理,使用Keras深度學習框架。

2.2 數據集與預處理

最近視頻記憶度預測得到研究者的廣泛關注,數據集也在不斷發展更新,在近幾年的研究中也有相關作者構建的帶標注的數據集,但由于數據集太小、構建的數據集選取有一定的主觀性等原因,沒有采用之前的數據集進行實驗,而是采用MediaEval 2019 Media Memorability Prediction Task中提供的大型公開數據集VideoMem。這是目前最大的帶視頻記憶度真實值標簽的數據集,該數據集由10 000個7 s的無聲視頻組成。這些視頻是從專業人士制作視頻時使用的原始視頻中提取出來的,內容和場景豐富,包含不同的場景類型。數據集包含兩種標簽,即長期記憶標簽和短期記憶標簽,分別對應于兩個子任務:短期記憶度任務和長期記憶度任務,短期記憶度任務反映了觀看視頻幾分鐘后記住的可能性;長期記憶度任務反映了觀看后1到3天記住的可能性[24]。該數據集分為兩部分:8 000個開發集和2 000個測試集。其中8 000個開發集給出了對應的記憶度真值的標簽,而2 000個測試集并沒有提供測量的真實的記憶度值,數據集提供方考慮今后可能有更多其他用途。因此本文將8 000個視頻的開發數據集隨機劃分成7 000個訓練集和1 000個測試集。

預處理過程首先將視頻進行分幀,VideoMem數據集中的每個視頻均為7 s,為了防止背景干擾去除頭尾2幀數據,每個視頻固定采樣4張圖片,然后利用這4張原始圖片輸入深度估計模型[15]來提取深度圖,將采樣后的圖像大小統一調整為224×224,并將提取到的深度圖與原始圖片一起輸入預訓練的ResNet152網絡。文本信息是從視頻標題中提取的,經過刪除停用詞、合并同義詞等預處理后,選取具備代表性的關鍵詞(如名詞、動詞、數量詞、副詞和形容詞)作為語義特征。根據TF-IDF算法計算詞頻逆文檔頻率。受文獻[11]研究的啟發,對出現該文獻中列出的單詞的每個視頻添加計算出的權重,并與基于TF-IDF算法提取到的語義特征進行連接操作最終得到5 089維的特征向量。表1列出了為這些單詞設置的權重值。C3D時空特征是描述視頻時空內容的特征,在VideoMem數據集中提供了預先計算的特征,可以直接用來構建預測模型。他們提供了卷積神經網絡C3D模型最后一層的輸出,最終得到101維的特征向量。

表1 影響視頻記憶度的單詞及其權重Table 1 Words and their weights that affect video memorability

2.3 評價指標

本文采用廣泛使用的官方指標來評價模型的預測效果:Spearman相關系數(Spearman’s rank correlation coefficient)。Spearman相關系數是預測視頻記憶度的常用指標[22],對于樣本容量為n的樣本,n個原始數據被轉換成等級數據,Spearman相關系數ρ為:

它利用單調方程評價兩個統計變量的相關性。如果數據中沒有重復值,并且當兩個變量完全單調相關時,Spearman相關系數則為+1或-1。使用Spearman等級相關系數作為預測視頻記憶度的評價指標,在不同的方法之間進行比較,通過考慮基本真實值和系統預測值之間的單調關系,可以對不同系統的輸出進行規范化,并允許測試集中不同視頻樣本的等級對系統進行評估。

2.4 實驗設置

視頻預處理后使用預訓練的ResNet152網絡作為特征提取器來提取深度特征,ResNet152網絡是在ImageNet上進行預訓練的,選擇平均池化操作,采用最后一個卷積層的輸出,每張圖片都是2 048維的特征表示,8張圖片連接后組成16 384維的特征向量。將4張原始圖片和4張深度圖一起輸入網絡的目的是利用深層的卷積神經網絡提取圖片中蘊含的視覺信息,可以有效提高視頻記憶度的預測效果。視頻語義特征的提取中針對與視頻記憶度呈正相關和負相關的單詞的權重參考了文獻[11]中提供的研究實驗。

視頻記憶度預測作為一項回歸任務,多數研究利用回歸算法預測視頻記憶度分數。由于高維度的特征可能存在多重共線性問題,因此在融合階段使用了SVR算法、隨機森林(random forest,RF)算法等基線回歸模型。通過實驗結果驗證,基于深度特征的預測模型使用了SVR算法,利用網格搜索算法,選擇懲罰系數C為0.1,核函數為RBF,不敏感間隔epsilon為0.05;基于語義特征的修改權重的預測模型也使用了SVR算法,利用網格搜索算法,選擇懲罰系數C為0.5,核函數為RBF,不敏感間隔epsilon為0.05;基于C3D時空特征的預測模型使用了RF算法,采用網格搜索選擇森林中樹的個數n_estimators為290。晚融合實驗中使用加權平均的方法進行融合處理,使用網格搜索實驗驗證,深度特征、語義特征、C3D時空特征權重分別在取0.6,0.35,0.05的值時,取得最佳預測效果。

2.5 實驗結果與分析

實驗環節分為6個部分。表2展示了4張深度圖(depth maps)、4張視頻原始圖片(original images)、深度圖加原始圖片(depth maps&original images)分別輸入預訓練的ResNet152網絡中提取的特征進行視頻記憶度預測的消融實驗,可以看出深度特征預測效果在短期記憶度預測中達到了0.320的Spearman相關性(長期記憶度預測結果:0.140),說明了深度特征對于視頻的記憶度預測有積極作用。而視頻原始圖片提取的視覺特征的預測效果要比深度特征更好,達到了0.522的Spearman相關性,說明記憶度預測任務更關注于視覺信息,深層的ResNet網絡可以有效地學習到圖像中令人難忘的視覺信息。將原始圖片和深度圖一起進行特征提取可以提高實驗預測效果。

表2 不同圖像輸入ResNet152網絡的消融實驗Table 2 Ablation experiment of different images input into the ResNet152 network

表3列出了不同的研究中使用預訓練的深層卷積神經網絡提取的特征的預測結果。Gupta等人[11]從視頻中提取了第1幀、第56幀、第112幀圖片作為預訓練的ResNet50網絡的輸入,每張圖片從網絡倒數第二層提取到2 048維的特征向量,Azcona等人[12]將視頻固定每秒分割一張圖片,得到8張圖像作為預訓練的ResNet152網絡的輸入,每張圖片從最后一個卷積層提取到2 048維的特征向量,Leyva等人[13]提取視頻中間一幀圖片作為預訓練的ResNet152網絡的輸入,從最后一個全連接層提取到1 000維的特征向量。本文的預測模型將數據集中的視頻固定每41幀提取一張圖片,每個視頻得到4張圖片,并與提取到的4張深度圖一起(original images&depth maps)作為預訓練的ResNet152網絡的輸入,從最后一個卷積層提取特征,最終得到16 384維的特征向量。可以看出本文的深度特征提取方法可以進一步提高預測效果,表明深度特征可以幫助捕獲視頻中令人難忘的內容。

表3 ResNet網絡提取的特征的對比實驗Table 3 Comparative experiment of features extracted by ResNet network

表4是基于TF-IDF算法添加權重的語義特征模型與其他基于語義特征模型的對比,Sun等人[9]采用了詞嵌入的方法提取語義特征和RNN的預測模型進行記憶度分數預測,Gupta等人[11]使用了CountVectorizer提取語義特征的模型,王帥等人[24]使用ConceptNet[25]模型進行語義特征處理,文獻[26]使用了Word2Vec進行語義特征提取。本文基于TF-IDF算法添加權重后的特征提取方法在短期記憶度預測任務有更高的Spearman相關性。在長期記憶度預測中提升效果不明顯。有可能的原因是視頻中長期記憶度與自然景觀和與人相關的內容的相關性不大。

表4 基于語義特征的模型對比實驗Table 4 Model comparative experiment based on semantic features

表5是在預測視頻記憶度分數時三種特征選擇兩種不同的回歸模型的對比實驗。由表可知無論在長期記憶度預測任務還是短期記憶度預測任務中,深度特征和語義特征使用SVR回歸模型的預測效果都比RF回歸模型好,而C3D時空特征使用RF回歸模型較SVR回歸模型有更好的預測結果。因此在單模態視頻記憶度預測中分別使用其最佳的回歸模型進行實驗。

表5 不同的回歸模型的對比實驗Table 5 Comparative experiment of different regression models

表6是本文提出的不同的特征在單模態、雙模態和多模態下預測視頻記憶度分數的消融實驗。單模態下預測效果最好的是深度特征,深層的ResNet網絡提取的深度特征包含了更多的細節信息,可以學習到圖像中令人難忘的視覺內容。其次是語義特征,語義特征作為全局性描述視頻內容的特征也發揮了很好的預測作用,相比之下C3D時空特征的預測效果不是很好,可能是由于數據集中的很多視頻都屬于某一個特定場景,視頻中的動態因素較少,導致捕獲的3D時空信息不足以達到更好的預測結果。同時可以看到無論哪兩種特征進行雙模態特征融合,視頻記憶度預測效果都沒有3種特征融合后的預測指標好,證明了本文提出方法的有效性。

表6 不同特征預測視頻記憶度分數的消融實驗Table 6 Ablation experiment of predicting video memorability scores with different features

表7是本文提出的多模態視頻記憶度預測模型與以往論文的研究模型的對比實驗,所有模型的短期記憶度預測指標都高于長期記憶度,說明了短期記憶比長期記憶更具可預測性。在短期記憶度預測結果中,本文提出的融合多模態的視頻記憶度預測模型與之前的方法有明顯的提高,但是長期記憶度預測似乎沒有很好的性能提高。可能的原因是長期記憶度預測更依賴于個人的記憶能力。晚融合中三種模態的權重比例可知,深度特征在融合中所占權重最大,說明了深度特征在該記憶度預測任務中更有效。

表7 不同的視頻記憶度預測方法的對比實驗Table 7 Comparative experiment of different video memorability prediction methods

圖6給出了幾個長期記憶度分數較低的視頻中,使用本文提出的融合模型預測出的長期記憶度分數和其真實值的對比,可以看出在長期記憶度預測真值較低的視頻中既有與自然景觀相關的視頻,也有與人相關的視頻,這似乎與短期記憶度表現出的規律不完全符合,長期記憶度預測似乎更偏向于記住一些更新奇、人物情緒更激烈、動作更多的視頻,同時也體現了每個人的記憶差異。

圖6 長期記憶度預測值與真實值對比Fig.6 Long-term memorability prediction value compared with its ground truth

3 結束語

本文提出了一個多模態特征融合的視頻記憶度預測模型,使用預訓練的ResNet152網絡提取深度特征,使用TF-IDF算法進行語義特征提取,并對視頻記憶度有影響的單詞賦予不同的權重,然后與視頻的C3D時空特征進行多模態融合,晚融合加權平均的方法在實驗中取得了最佳預測效果,證明了模型的有效性。模型的預測效果在視頻記憶度預測任務中有了一定的提高。

未來的工作將重點關注視頻中傳達的運動信息和人物情緒特征,深入探索影響長期記憶度預測的因素,使用深層神經網絡的方法探索對視頻記憶度的影響,發掘更多影響視頻記憶度的特征,嘗試不同的特征融合方案,設計更加穩定的模型來預測視頻的記憶度。

猜你喜歡
語義模態深度
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 99激情网| 毛片久久网站小视频| 色综合天天娱乐综合网| 精品丝袜美腿国产一区| 中文字幕色站| 老司国产精品视频91| 国产剧情伊人| 亚洲欧美综合另类图片小说区| 91青青视频| 欧美精品亚洲精品日韩专区| 国产亚洲欧美另类一区二区| 久久精品这里只有精99品| 国产一区二区三区夜色| 欧美日韩国产精品va| 国产精品亚洲欧美日韩久久| 黄色国产在线| 99草精品视频| 国产色婷婷| 欧美日韩北条麻妃一区二区| 欧美不卡视频在线| 国产9191精品免费观看| 成人日韩精品| 成人午夜天| 日本免费福利视频| 国产欧美视频一区二区三区| 亚洲女同欧美在线| 成人综合网址| 国产在线麻豆波多野结衣| 农村乱人伦一区二区| 亚洲区第一页| 国产视频你懂得| 在线观看国产精品一区| 伊人精品视频免费在线| 制服丝袜亚洲| 国产欧美一区二区三区视频在线观看| 国产精品免费p区| 自拍中文字幕| 依依成人精品无v国产| 看你懂的巨臀中文字幕一区二区 | 国产嫖妓91东北老熟女久久一| 国产中文一区a级毛片视频 | 一级福利视频| 亚洲av无码专区久久蜜芽| 性欧美精品xxxx| 亚洲精品国产成人7777| 黄色在线不卡| 国产视频a| 亚洲 成人国产| 久久91精品牛牛| 中国毛片网| 国产日韩欧美中文| 国产理论一区| 国产亚洲精品自在线| 亚洲成网777777国产精品| 91成人在线观看| 欧美一区二区啪啪| 全免费a级毛片免费看不卡| 国产精品性| 多人乱p欧美在线观看| 亚洲天堂日韩av电影| 亚洲bt欧美bt精品| 欧美第二区| 天堂久久久久久中文字幕| 国产97视频在线观看| 日韩国产另类| 亚洲综合欧美在线一区在线播放| 国产成人亚洲无码淙合青草| 国产毛片片精品天天看视频| 国产成人福利在线| 欧美中日韩在线| 亚洲欧美精品日韩欧美| 久久国产精品国产自线拍| 国产精品视频公开费视频| 欧美精品v欧洲精品| 18禁黄无遮挡免费动漫网站| 欧美日韩国产成人高清视频 | 中文无码影院| 国产精品美乳| 亚洲精品第一页不卡| 国产人成乱码视频免费观看| 91精品久久久无码中文字幕vr| 亚洲日产2021三区在线|