自注意力機制和隨機森林回歸的視頻摘要生成

2022-03-02 08:31:58李雷霆武光利郭振洲

計算機工程與應用 2022年4期

李雷霆，武光利，2，郭振洲

1.甘肅政法大學網絡空間安全學院，蘭州730070

2.西北民族大學中國民族語言文字信息技術教育部重點實驗室，蘭州730030

近年來，隨著科技的不斷進步，人們拍攝各種高質量的視頻變得越來越方便，一部手機就可以滿足日常的視頻拍攝需求，人們也可以在網絡上找到各種各樣的視頻資源。由于視頻包含著復雜的圖像和音頻信息，它們常常數據量巨大，結構復雜。面對大量的視頻數據，快速知曉視頻的主要內容成為當下的一個熱門問題。因此，分析和理解視頻內容的自動工具必不可少，視頻摘要便是幫助人們瀏覽視頻數據的關鍵工具[1-2]。

視頻摘要，就是以視頻的結構和內容為主要分析目標，獲取其中有意義的片段，然后用特定的方法將片段拼接成能概括視頻內容的視頻概要。視頻摘要根據不同的獲取方式可以分為兩類：靜態視頻摘要和動態視頻摘要[3-4]。

靜態摘要是從視頻中抽取出若干幀組成幀集合，這些幀稱為關鍵幀，主要分為以下幾類：

（1）基于視頻聚類的關鍵幀提取方法。鏡頭聚類以聚類的方法為基礎，對每個鏡頭進行分析，然后將特征相近的幀劃分為一類，最后從每一類中按照一定方法選取關鍵幀。

（2）基于視頻幀信息的關鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息，例如顏色、形狀、紋理等，通過特征信息的變化來選取關鍵幀。

（3）基于運動分析的關鍵幀提取方法。該類方法一般是計算光流得到運動量，然后選取運動量最小處作為關鍵幀。

動態視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評價、視頻鏡頭選擇。視頻鏡頭分割是將一個完整視頻切分成若干個短視頻，是動態摘要的基礎。視頻鏡頭評價則是根據不同的方法計算出每個鏡頭的重要性。視頻鏡頭選擇需要根據具體的需求選擇合適的鏡頭組合成視頻摘要[5]。

對于視頻鏡頭的分割最初是通過圖像的視覺特征進行分割，如根據像素值變化判斷邊界。

傳統基于視覺特征的鏡頭劃分方法對于非結構化的視頻效果并不理想，因此涌現了許多基于視頻內容的分割方法。Gygli等人[6]通過超幀來進行視頻分割，并通過能量函數對視頻段進行評價。Ngo等人[7]對結構化視頻用譜聚類和時間圖分析來進行場景建模，然后通過動作注意建模來進行重要視頻段的檢測。Potapov 等人[8]提出一種內核時間分割算法，采用核變化點來檢測視頻幀的變化情況，在視頻幀突變的地方定義為鏡頭邊界。上述方法能較好地完成鏡頭劃分任務。

鏡頭劃分完成后，需要選擇出合適的鏡頭組合成摘要。目前較為先進的方法是基于編碼器-解碼器架構，將輸入編碼為中間向量，然后解碼器根據中間向量解碼為需要的輸出序列。其中門限循環單元（gated recurrent unit，GRU）和長短期記憶網絡（long short-term memory，LSTM）經常用于解決循環神經網絡（recurrent neural network，RNN）無法進行遠程依賴的問題，廣泛應用于各領域。Zhang 等人[9]利用LSTM 和行列式點過程（determinantal point process，DPP）選擇視頻幀的子集，有效提高了摘要的多樣性。Zhao 等人[10]用分層的LSTM來應對長的視頻序列。Huang等人[11]將LSTM與一維卷積和二維卷積結合進行視頻摘要建模。Ji等人[12]將注意力機制與LSTM結合，通過注意力機制為不同幀分配權重。Vaswani 等人[13]使用注意力機制代替RNN，減少了模型復雜度，取得較好的效果。Zhou等人[14]首次提出用強化學習實現視頻摘要技術，同時設計了用于評估摘要多樣性和代表性的獎勵函數，使得模型能夠自主學習并選擇合適的摘要。李依依等人[15]將自注意力與強化學習結合，通過自注意力機制建模視頻幀的重要程度，提高了模型的學習效率。

為了提高預測的準確性，同時考慮到視頻是具有連續的圖像這一特性，提出了一種包含編碼器-解碼器結構的注意力機制和隨機森林回歸視頻摘要網絡（attention random forest summarization network，ARFSN）。編碼器采用預訓練的GoogLeNet提取視頻幀的深度特征，同時對編碼器的輸出添加注意力機制，而解碼器部分則由LSTM 和隨機森林共同組成，LSTM 輸出視頻幀是否是重要幀的概率，考慮到輸出結果產生的損失值波動對模型影響較大，因此將LSTM輸出結果映射為重要性分數輸入到隨機森林進行回歸預測，最后將LSTM損失和隨機森林損失通過權重融合為最終損失進行網絡訓練。通過注意力機制加大對關鍵幀的權重，使得生成的摘要具有代表性，此外隨機森林的引入，能夠有效降低波動帶來的影響，同時提升模型的預測準確率，使得生成的摘要能更好地概括原視頻的內容。

1 相關工作

目前視頻摘要主要分為靜態視頻摘要和動態視頻摘要，而動態摘要主要基于關鍵鏡頭的選擇，此生成結果更具連貫性，因此本文重點討論動態視頻摘要生成。

當用戶想要快速了解視頻的內容時，注意力往往集中在那些令用戶感興趣、印象深刻的鏡頭或者視頻幀，這些鏡頭或者視頻幀極有可能被選為摘要，因此將注意力機制應用到視頻摘要生成的任務中具有一定的可行性。

正如名字那樣，注意力機制模仿人類觀察時目光的注意力分布是不均勻的，因此在處理序列任務時通過注意力調整序列的權重，讓某些無關緊要的信息被過濾，突出關鍵信息，使得模型能夠更好地學習到重要的部分。

按照注意力的可微性，注意力機制可以分為硬注意力和軟注意力。硬注意力機制可以看作0/1 問題，即某個區域要么重要，要么不重要，是不可微的，通常利用強化學習進行模型優化；軟注意力則是一個[0，1]區間的連續問題，通過分配0 到1 之間的不同值來表示關注度的高低，是可微問題，通常用反向傳播進行模型優化。對于視頻摘要生成任務，本文將重點放在軟注意力上。

注意力機制最初在自然語言處理（natural language processing，NLP）領域大放異彩，如今越來越多的研究人員將其應用到圖像和視頻領域。例如視頻摘要領域，在編碼解碼框架中運用注意力機制完成視頻摘要任務。編碼部分通過LSTM實現，解碼部分是基于注意力機制的LSTM網絡，通過注意力機制不斷調整序列的權重，幫助模型更準確選出摘要。Fajtl等人[16]用注意力機制替代循環神經網絡。他們認為在進行人工標注時，標注的重點是存在視覺注意力的，因此可以使用注意力來捕獲視頻幀序列之間的遠程依賴關系，并調整序列的權重。

2 模型

本文使用有監督的學習來完成視頻摘要生成任務，并設計了一個基于注意力機制和隨機森林回歸的視頻摘要網絡，如圖1所示。該網絡通過GoogLeNet獲取視頻幀的特征，然后利用自注意力機制調整幀特征的權重并輸入到雙向LSTM預測幀的重要性得分，同時得到相應的損失（記為loss1），然后將預測到的重要性分數傳給隨機森林得到另一損失（記為loss2），最后通過權重將兩個損失融合得到最終的損失值（記為Loss）。本文模型最終實現的是動態視頻摘要，即基于鏡頭的摘要，因此需要將預測的幀級重要性分數轉換為鏡頭分數，通過鏡頭分數按照一定的準則選擇合適鏡頭并組合成為視頻摘要。本文將視頻摘要任務看作是序列到序列的預測問題，同時將自注意力機制與雙向LSTM 結合，并引入了隨機森林降低波動，提升穩定性，使得本文方法預測效果更準確，更容易完成對關鍵鏡頭的選取。

圖1 ARFSN模型結構圖Fig.1 ARFSN model structure

2.1 圖像特征提取

圖像特征提取使用預訓練的GoogLeNet模型，網絡深度共22 層，使用9 個Inception 結構，最終每幀圖像輸出1 024維特征。

2.2 自注意力機制

前面提到將視頻摘要任務看作是序列到序列的過程。序列編碼是模型學習序列信息最常用的方式，序列編碼在建立長距離依賴關系時經常會出現梯度消失問題，使用全連接網絡可以進行遠距離依賴關系的建模，但是無法處理變長的序列，而自注意力機制能夠獲取全局信息，同時能夠動態地為變長序列分配不同的權重，因此在處理序列任務方面效果良好。

注意力機制，其實是通過一個和目標相關的查詢向量q，計算與Key的注意力分布，然后添加到Value上，最后計算出注意力值。

假設一個視頻有N幀，由2.1節可知，[N,1 024]為視頻的維度大小，用x表示視頻的特征序列為x=x1,x2,…,xN。

對于注意力機制，令Key=Value=X，那么注意力分布的計算如下：

其中，s(Xi,q)為注意力打分函數。式（2）為加性模型，式（3）為點積模型，式（4）為縮放點積模型。

其中，v、w、u是可學習的網絡參數，D是輸入向量的維度。文獻[12]分別采用了式（2）和式（3），實驗結果表明點積模型效果優于加性模型。

得到注意力分布后，便可以計算注意力值：

對于自注意力機制，令Key=Value=Query=X，計算過程如圖2所示，其中深色字母表示矩陣的維度。

圖2 自注意力模型的計算過程圖Fig.2 Self-attention model calculation process

對于序列輸入xi，通過線性關系進行映射，得到3 個向量，分別是查詢向量qi，鍵向量ki，值向量vi。對于整個輸入序列X,線性映射可以寫為：

其中，ωq、ωk、ωv分別為線性映射的參數矩陣，Q、K、V分別是查詢向量、鍵向量和值向量構成的矩陣。

根據鍵值注意力機制公式可得：

其中，n,i∈[1,N]為輸出和輸入向量序列的位置，αnj表示第n個輸出關注到第j個輸入的權重，s(k,q)為注意力打分函數，選用式（4）。

加性注意力和點積注意力復雜度相近，但加性注意力僅考慮將輸入序列相連，沒有考慮到輸入序列之間的內部關系。而點積注意力能夠很好地利用矩陣乘法探索自注意力的內在聯系，當輸入向量的維度較高時，點積模型會有較大的方差，縮放點積能夠較好地解決這個問題。因此本文采用縮放點積模型來實現自注意力。

2.3 損失合并

卷積神經網絡輸出的深度特征經過自注意力機制調整序列權重后輸入到雙向LSTM網絡中，雙向LSTM分別從正向和反向進行計算，能夠充分獲取上下文信息。最后將模型預測重要性分數與人工標注通過均方誤差（mean squared error，MSE）損失函數計算損失：

其中，M為數據個數，為模型預測值。

為了讓模型能進一步減小預測值與期望值的差距，通過引入隨機森林來降低損失值優化模型。具體來說，將LSTM 輸出結果經由神經網絡完成對視頻幀得分的回歸預測同時得到損失lossLSTM，之后將預測得分傳入隨機森林進行回歸預測。隨機森林的一個優點是：不需要進行交叉驗證或獨立測試集就能獲得誤差的無偏估計。因為隨機森林在構建樹時對訓練數據采用bootstrap sample，對于每棵樹而言，大約有1/3的數據沒有參與到構建樹的過程，這部分數據為袋外數據（out of band，OOB），然后每棵樹利用袋外數據進行預測，每棵樹損失計算如式（8）所示，最終將預測結果求和取均值作為最終結果，如式（9）。

其中，k為樹的個數。

模型最終的損失Loss 由雙向LSTM 損失lossLSTM和隨機森林損失lossRF共同構成，用于指導模型學習。通過簡單的運算將兩個損失進行融合，盡可能最小化該損失值，使模型能夠更準確地預測幀級重要性分數，合成更具代表性的視頻摘要。

其中，β是一個超參數，訓練過程中通過不斷調整β的大小來優化模型。后續實驗部分對此進行了驗證。

2.4 幀級分數轉換

本文的研究內容是基于動態視頻摘要技術，而最終合成的摘要應當是視頻鏡頭的合集，模型輸出結果是幀級別重要性得分，因此需要將幀級分數轉化為鏡頭分數。首先需要對視頻進行鏡頭劃分，使用在鏡頭分割方面效果優異的內核時間分割算法（kernel temporal segmentation，KTS）[8]對視頻執行變點檢測，并將視頻進行鏡頭分段。由每幀重要性分數得到鏡頭重要性分數ci（式（11））。此外，根據Fajtl 等人[16]的建議，生成摘要的長度限制為原始視頻長度的15%，需要選擇最大化分數的鏡頭，選擇滿足條件的鏡頭等價于NP（non-deterministic polynomial）難問題，因此使用0/1 背包問題中的動態規劃算法來選擇合適鏡頭組成摘要（式（12））。

其中，ci為第i個鏡頭，Ni為第i個鏡頭包含的幀數，si,j為第i個鏡頭中第j幀的分數。ui∈{0,1}表示是否被選為關鍵鏡頭，K表示鏡頭的數量，L表示視頻的總幀數。

3 實驗結果與分析

前面幾章已經介紹了相關工作和本文模型的結構，本章將重點介紹實驗過程的細節，包括數據集、評價指標、實驗參數和對比分析。

3.1 實驗設計

3.1.1 數據集

本次實驗主要在TvSum[17]和SumMe[6]兩個數據集上進行，表1展示了它們的具體信息。

表1 兩個標準數據集詳細信息Table 1 Details of two standard datasets

TvSum 數據集是驗證視頻摘要技術的一個基準。它包含了50 個來自YouTube 的視頻，這些視頻涉及到10個主題，每個主題包含5個視頻。Song等人[17]按照一定標準，使用亞馬遜機器對視頻進行標注，標注人員觀看完視頻后，對視頻幀進行標注得分，標注得分從1（不重要）到5（重要）進行選擇，圖3展示了數據集的部分圖像。

圖3 TvSum視頻圖像示例Fig.3 Sample of TvSum video image

SumMe 數據集也是視頻摘要技術研究常用的基準，它由25個視頻組成，視頻包含航飛、節假日、運動挑戰等多個主題。每個視頻由15～18個人進行標注，標注結果分為重要（1）和不重要（0）。每個視頻的長度為1～6 min，標注是在可控環境下進行的，適用于實驗評估。圖4展示了數據集部分圖像。

圖4 SumMe視頻圖像示例Fig.4 Sample of SumMe video image

3.1.2 評價指標

為了與其他方法進行比較，按照文獻[9]中的評價方法，即通過對比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來評估模型的性能，衡量指標采用Fscore 值。假設S為模型生成的摘要，G為人工選擇的摘要，精準率和召回率計算如下：

由式（13）、（14）可以計算出用于評估視頻摘要的Fscore。

3.1.3 實驗設置

實驗時對數據集進行劃分，其中80%用于訓練，余下20%用于測試。考慮到實驗使用的兩個基準數據集數據量較小，同時為了減少過擬合現象的出現和提升模型泛化能力，對數據集使用5 折交叉驗證。此外，對于TvSum數據集，每一幀由20個人標注，且該數據集中的視頻存在較多的鏡頭切換，標注得分有差異明顯，因此對于TvSum數據集計算F-score時，取20個人的平均值作為最終結果；而SumMe 數據集由15～18 個人進行標注，數據集中的視頻多為一鏡到底的，因此標注得分近似，從而計算F-score時選取最大值作為最終結果。

3.2 實驗比較和分析

3.2.1 消融實驗

為了驗證注意力機制和隨機森林回歸對算法的影響，本文在TvSum 和SumMe 數據集上進行了消融實驗。其中A為注意力機制模塊，L為長短期記憶網絡模塊，R為隨機森林回歸模塊。

由表2數據可以看出，使用不同模塊時得到的F-score明顯不同，當注意力模塊A和隨機森林回歸模塊R同時使用時，實驗達到最優效果。這表明本文提出的基于注意力機制和隨機森林回歸的方法確實能夠更準確地預測視頻幀分數，從而精準得到關鍵鏡頭，生成更具代表性的視頻摘要。

表2 兩個數據集上消融實驗結果Table 2 Results of ablation experiment on two datasets %

3.2.2 對比實驗

本文選擇了七種最新的基于監督學習的視頻摘要模型進行對比，如表3所示，對比數據均來自原始論文。

表3 實驗結果對比Table 3 Comparison of experimental results %

（1）vsLSTM[9]使用雙向LSTM 為基礎，建立過去和將來方向上的遠程依賴，最后與多層感知器相結合。（2）dppLSTM[9]是在vsLSTM 的基礎上新增了行列式點過程，能夠增加生成摘要的多樣性。（3）SUM-GANsup[5]將變分自動編碼器（variational auto-encoder，VAE）與生成對抗網絡（generative adversarial networks，GAN）相結合，使鑒別器能夠獲得更多的語義信息。（4）DR-DSNsup[14]以強化學習為基礎，代表性和豐富性作為獎勵函數的限制條件。（5）SASUMsup[18]是融合語義信息的視頻摘要方法，通過將摘要轉換為文本信息，讓模型選擇具有豐富語音信息的摘要片段。（6）A-AVS[12]和M-AVS[12]是以編碼解碼為基礎，將注意力機制與解碼器結合的視頻摘要方法，編碼部分由雙向LSTM 構成，解碼部分由引入注意力的雙向LSTM構成，其中A-AVS的注意力打分函數為加性模型，M-AVS 的注意力打分函數為點積模型。（7）CSNetsup[19]通過分塊跨步網絡將輸入特征分為兩個流（分塊和跨步），分塊能夠更好地考慮到局部信息，跨步則充分考慮全局的時序信息。

根據表3數據可知，本文方法在兩個基準數據集上都取得了較好的效果。在TvSum 數據集上，本文方法F-score 值雖略低于基于注意力的方法M-AVS，但在SumMe數據集上，相比于M-AVS有著較大提升，實驗結果表明了本文方法的可行性。由于SumMe數據集中的視頻多為結構化視頻，即一個視頻由一個鏡頭完整記錄，場景變化小；而TvSum數據集中鏡頭多為用戶自主拍攝，有明顯的場景變換。由此可見，本文模型ARFSN有較好的適用性，在處理結構化和非結構化數據時都能取得不錯的效果。

3.2.3 定性結果與分析

為了更好地直觀展示本文方法生成的視頻摘要質量，以數據集TvSum中的視頻17為例，繪制它們真實分數與預測分數如圖5所示，圖中虛線表示人工選擇的真實分數，實線表示模型預測分數。從圖5 可以看到，本文方法預測得分與人工打分變化趨勢基本一致，同時關鍵幀（高分幀）的預測更為準確，且本文方法預測的關鍵幀得分更高，說明模型更加關注了關鍵幀。總結來說，本文方法與人工摘要之間具有明確的關聯性，證明了本文方法的有效性。

圖5 分數對比圖Fig.5 Score comparison chart

視頻17是TvSum數據集中關于“三明治制作”的一個視頻，如圖6所示。將模型得到視頻17的摘要與人工標注得到的摘要進行對比。圖7 展示了本文模型選擇的關鍵鏡頭的分布情況，淺色的柱狀條表示人工標注的幀的重要性分數，深色柱狀條表示模型選擇的關鍵鏡頭，同時鏡頭的分布如圖中虛線所指。可以看到選擇的關鍵鏡頭基本涵蓋了視頻的開頭、中部和結尾部分，選擇的鏡頭分數也較高，表明本文方法選出的摘要具有一定的多樣性和代表性。

圖6 原始視頻片段Fig.6 Original video clip

圖7 本文方法選擇摘要結果分布圖Fig.7 Summary result distribution diagram of this paper method

3.3 參數選擇

2.3 節介紹了損失函數的融合，損失函數的好壞對模型能否準確預測有著重要影響。在模型介紹時，本文方法引入了隨機森林，將雙向LSTM和隨機森林融合使用的關鍵便是權重β，選擇合適的β便是本節重點討論的內容。

圖8展示了不同權重對模型的影響程度。由圖（a）可知當β=0.7 時，模型在TvSum 數據集上達到最佳Fscore。由圖（b）可知當β=0.6 時，模型在SumMe 數據集上達到最佳F-score。整體來看，隨著β增加，F-score基本呈上升趨勢，但達到0.6～0.7附近時，β的增加會使得F-score 減小，因此對于LSTM 和隨機森林損失的占比，不宜過小也不宜過大。最終分別確定了兩個數據集上的最優β為0.7 和0.6。由于TvSum 數據集多為經過編輯的結構化視頻，場景變換更豐富，增加隨機森林占比能夠較容易預測分數，因此對隨機森林的依賴較大即β較小。而SumMe 數據集多為未經編輯的視頻，鏡頭變化少，隨機森林對其影響力較弱，因此β值較大。

圖8 權重β 對兩個數據集性能影響Fig.8 Influence of weight β on two datasets

4 結束語

在視頻摘要生成任務中，本文提出了一個基于自注意力機制和隨機森林的視頻摘要網絡。以現有的LSTM 模型為基礎，通過注意力調整對關鍵幀的關注度，用隨機森林來提高模型預測重要性分數的準確度。同時基于編碼解碼器的框架，能夠很好地對輸入序列進行轉換（尤其是基于時間序列的數據），讓模型可以計算出更有意義的結果。實驗證明了本文方法的可行性，但這是僅在兩個標準數據集下的結果，因此希望在未來的研究中，能夠擴大視頻摘要的影響領域。目前來說，對于監控視頻和網絡直播這兩方面，視頻摘要的研究相對較少，同時這兩方面也是當下的熱門話題，未來將更深一步研究視頻摘要在監控視頻和網絡直播中的應用。