董柏巖,王樹祺,金鑫
(1.北京電子科技學院,北京 100070;2.國家開發投資集團有限公司,北京 100034)
通訊技術和互聯網技術的快速發展改變了人們生活的方方面面,人們已習慣于拍攝各種內容豐富的視頻記錄和分享生活,便攜式拍攝設備和社交媒體平臺的推廣則使互聯網上的視頻數量呈現了爆炸式的增長。然而,處理這些海量的視頻需要花費巨量的人力物力資源,為了緩解因視頻數量增長而不斷加大的數據處理壓力,學術界開始研究視頻精彩集錦生成技術。視頻精彩集錦生成技術的目的是從一段完整的視頻中自動選擇最具有吸引力、最讓人們感興趣的一部分。這種技術一方面可以節省人們觀看視頻的時間,提高觀看感受;另一方面使視頻平臺可以通過推薦精彩鏡頭來提高視頻的吸引力,引導他人觀看完整視頻。因此,視頻精彩集錦生成技術在多個領域均有著重要的應用價值。
最早的關于視頻精彩集錦生成技術研究集中在體育視頻的剪輯[1-4],近年來,研究的主題更加豐富,研究者們開始研究互聯網視頻[5]和第一人稱視頻[6],提出了許多新穎的視頻精彩集錦生成方法。雖然研究視頻的主題有所拓展,但這些方法大都只能應用于特定領域,即可以使用這些方法的視頻大都有著相同的主題,如足球、滑雪等。這說明對不同主題的視頻,“精彩”的定義也不相同。
現有的視頻精彩集錦生成方法主要遵循兩種策略。第一種策略將視頻精彩集錦生成視為一項有監督學習任務[5-7]。人們對沒有經過剪輯的視頻進行人工標注,標記視頻的精彩片段作為訓練數據進行訓練,使視頻中的精彩部分獲得更高的分數。雖然按這種方式設計的視頻精彩集錦生成方法具有較好的性能,可以良好的識別視頻的精彩片段,但這種方法工作量大,且難以拓展。第二種策略將視頻精彩集錦生成視為弱監督或無監督的識別任務[8-10]。給定一特定領域的視頻,視頻精彩集錦生成方法會發現在訓練樣本中經常出現的內容,并學會在同一領域的新視頻中檢測這些片段作為精彩集錦。這種方法在監督方面具有可拓展性,能夠利用視頻時長等信息對精彩片段進行檢測,缺點是辨別力不強,即樣本之間的重復并不代表片段的精彩程度高。兩種策略各有優劣,研究者們所提出的視頻精彩集錦生成方法大都屬于這兩種策略。
本文后面章節將分別介紹基于有監督學習和無監督/弱監督學習的視頻精彩集錦生成方法,并分析這些方法的優劣之處,最后介紹視頻精彩集錦生成技術的應用價值與意義。
有監督學習指通過已有的訓練樣本去訓練得到一個最優模型,再利用這個模型將所有的輸入映射為相應的輸出。對于視頻精彩集錦生成任務而言,訓練樣本即視頻和人工標注的視頻精彩片段,標注好的精彩片段比視頻的其他片段有著更高的分數,在排序中排名靠前。有監督的視頻精彩集錦生成方法是數據驅動的,因此它們的性能高度依賴于人類標記的訓練數據。一般來說,基于有監督學習的視頻精彩集錦生成技術有著較好的性能,缺點是由于性能高度依賴于訓練數據,導致方法的拓展性、通用性不強,且生成訓練數據需要大量的時間和精力。
早期的有監督學習方法利用了視頻的視聽特征[1,12]和視覺語義[11]。Rui等[1]研究了棒球比賽的精彩集錦生成問題,并提出了一種僅使用音頻特征進行精彩片段檢測的方法。使用的音頻特征包括了能量相關特征、音素級特征、信息復雜性特征和韻律特征等。這些特征被設計用來解決不同的問題,如使用音素級特征中的梅爾頻率倒譜系數來分辨人類語音。由于僅使用了音頻特征,這種方法所需的計算力較少,即使在本地機頂盒上也可以進行集錦的生成。Rui等假設棒球比賽的精彩部分在投球和擊球之后且播音員激動的解說高度相關,因此提出的精彩集錦生成算法先檢測人類興奮時的語音和棒球擊球聲,然后智能地融合它們以生成最終的精彩集錦。由于棒球比賽過程中包含了多種噪音,Rui等還開發了噪聲環境下魯棒的語音端點檢測技術,并將支持向量機應用于語音分類。算法流程圖見圖1。

圖1 Rui等提出的棒球比賽集錦生成算法流程圖
而最新的方法則基于深度學習構建視頻精彩集錦生成模型[6,13],這些模型訓練了多層神經網絡來預測輸入視頻片段的精彩程度。模型的輸入是視頻片段的緊湊表示(如視頻幀經過卷積得到的視覺特征),輸出是一個標量值,以分數的形式表示,代表著輸入視頻的精彩程度。訓練時,通過排序損失函數對神經網絡進行訓練,使視頻精彩部分的得分高于其他部分的得分。在測試階段,經過訓練的模型可以預測任何輸入視頻的精彩程度。
2.2.1 基于雙流神經網絡的方法
Yao等[6]研究了第一人稱視頻的精彩集錦生成問題,提出了一種成對深度排名模型,該模型采用深度學習技術來學習視頻精彩片段和非精彩片段之間的關系。Yao等的精彩集錦生成方法流程如下,首先將輸入視頻分割為一組片段,每個視頻片段被分解為空間和時間流,空間流以幀的形式出現,而時間流以視頻片段的格式表示,一種用于精彩鏡頭預測的雙流深度卷積神經網絡結構被設計并用于空間流和時間流。這兩個分量的輸出通過后期融合進行組合,作為每個視頻片段的精彩程度分數。分數高的片段就是原視頻中的精彩部分,根據精彩分數便可以生成視頻的精彩集錦。方法框架如圖2所示。Yao等還構建了一個新的數據集,內容包括了15個體育相關主題,每一主題有大約40個視頻,視頻長度在2到15分鐘之間,視頻總時長為100小時。視頻被分割為5秒的片段,并由12名研究人員進行了標注。

圖2 Yao等提出的方法框架圖
2.2.2 基于三維時空注意力網絡的方法
Jiao等[13]認為現有的大多數視頻精彩集錦生成方法都是從整個視頻片段中提取特征,而不考慮局部特征在時間和空間上的差異。在時間范圍上,并非所有的幀都值得觀看,而在空間范圍上,并非每個幀的所有區域都是精彩的。為了解決上述問題,Jiao等提出了一種新的三維時空注意力模型,該模型可以自動定位視頻中的關鍵元素。具體地說,提出的注意模型沿著視頻片段的空間和時間維度產生局部區域的注意權重。視頻中關鍵元素的區域將通過大權重得到加強。因此,可以更有效的生成視頻精彩集錦。Jiao等提出的基于三維時空注意力模型的深度排序神經網絡如圖3所示,包括三個部分:特征模塊、注意模塊和排序模塊。輸入是一個原始視頻片段。注意模塊的功能是在空間和時間維度上同時選擇重要的局部區域。然后排名模塊預測最精彩片段的分數,獲得視頻的精彩程度曲線。

圖3 Jiao等提出的深度排序神經網絡流程圖
無監督學習訓練樣本的標記信息未知,目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律,為進一步的數據分析提供基礎。弱監督學習和無監督學習類似,但使用的訓練數據的標注并不完全。
基于無監督/弱監督學習的視頻精彩集錦生成技術通常是針對特定領域的,并基于公共性分析的思想,即在大量未標記的視覺數據中尋找低水平的視覺相關性或推斷視頻突出顯示的公共特征。Chu等[14]發現,給定一組擁有同一主題的視頻,重要的視覺概念往往會在不同的視頻中反復出現。因此,視覺共現的頻率被用來衡量視頻片段的重要性。盡管這種方法的訓練數據易于收集和拓展,但缺乏基本的真值標簽使得學習一個有辨別力和魯棒性的模型變得困難。基于無監督/弱監督學習的視頻精彩集錦生成技術大都使用了深度學習方法。
Yang等[15]認為基于監督學習的方法依賴于成對的精彩集錦和原視頻來推斷視頻的精彩部分。然而,想要收集這樣的視頻并不簡單,用戶通常不會同時上傳視頻的原始版本和編輯版本。為了解決這一問題,Yang等提出了一種無監督的視頻精彩集錦生成方法,這一方法只使用人們編輯過的視頻作為訓練數據。Yang等設計了一個自動編碼器,它有兩個特點:一是使用了一種新的收縮指數損失函數,使自動編碼器對噪聲數據具有魯棒性;另一個特點是編碼器具有雙向長短期記憶單元,以便在時間序列中有效地建模遠程上下文。集錦生成算法的整體的架構如圖4所示。每個視頻首先被分割成多個短片段,然后應用預先訓練好的3D卷積神經網絡模型來提取時空特征,經過池化層后,使用設計的自動編碼器來捕獲遠程上下文結構。Yang等從YouTube上收集了6500段短時長視頻作為訓練數據,這些數據沒有進行額外標注。

圖4 Yang等提出的無監督方案架構圖
Xiong等[16]提出了一種可行的無監督解決方案,利用視頻持續時間作為隱含的監督信號。Xiong等認為,用戶生成視頻中,較短時長視頻的片段比較長時長視頻的片段更有可能成為精彩集錦,因為用戶在制作短時長視頻時往往對內容進行了充分的選擇。根據這一觀點,Xiong等引入了一個新的排序框架,該框架優先選擇短時長視頻中的片段,同時適當考慮未標記的訓練數據中的固有噪聲。Xiong等還設計了一個新的損失函數,這個損失函數在長時長視頻片段得分高時會增加。Xiong等在Instagram上收集了15種、超過1000萬個視頻用于訓練,并在兩個公共數據集TVSum[17]和YouTube Highlights[18]上進行了測試。圖5展示了Xiong等收集的視頻時長的分布。

圖5 Xiong等收集的視頻時長分布
Wang等[19]研究了“王者榮耀“游戲視頻的精彩鏡頭檢測,使用沒有額外注釋的游戲視頻作為訓練數據,構造了一個包括時間流、空間流和音頻流的多流網絡。Wang等下載了450個經過剪輯的精彩集錦視頻和10個長時長的原始游戲視頻,精彩集錦視頻的平均長度為21秒,而原始游戲視頻的長度為6到8小時。由于原始游戲視頻的長度非常長,Wang等從視頻中隨機截取了20個視頻片段,每個視頻平均長度為13分鐘,以平衡正負樣本。Wang等構建的多流網絡結構如圖6所示。該多流網絡結合了三個組件來生成視頻精彩集錦:時間流提取時態信息,使用三維卷積層[20]從 ResNet-34[21]最后的池化層的輸出中提取特征;空間流獲取每一幀的空間上下文信息,和時間流不同,空間流在幀級別上提取特征,使用了AlexNet[22];音頻流通過利用聲音特征過濾無關場景,使用了一個預訓練的揚聲器編碼器。得到三個流輸出的分數后,通過加權求和形成最終的分數,時間流、空間流和音頻流分數的權重分別為0.7、0.15、0.15,這表明了3D信息的重要性。

圖6 Wang等構建的多流網絡結構
近年來,互聯網上開始流行實時評論,在彈幕平臺網站上,觀眾可以在屏幕上發送實時評論(彈幕)來分享他們對視頻的感受。實時彈幕與該時刻視頻內容高度相關,實時評論是觀眾情緒的表達或對視頻的討論,視頻越吸引觀眾,觀眾發布的實時評論就越多。因此,實時評論的數量在某種程度上可以反映這段視頻的受歡迎程度。基于此,Wang等[23]提出了基于實時評論生成視頻精彩集錦的模型,該模型使用了卷積神經網絡(CNN)和長短期記憶網絡(LSTM),利用實時評論作為先驗知識來輔助視頻內容的分析,可以預測視頻的精彩部分以及觀眾觀看視頻時的情緒。這一模型包括了兩個子模塊,分別為視頻編碼器和語言轉換模塊,視頻編碼器模塊將視頻序列編碼為特征向量,語言轉換模塊將視頻內容轉換為人類語言的語義向量。
視頻精彩集錦生成是根據用戶的興趣選擇一部分幀。Qi等[24]認為傳統的有監督學習方法的性能高度依賴于大規模人工標注的訓練數據,這些數據的收集既耗時又費力。為了解決這個問題,Qi等發現用戶是否對特定的視頻片段感興趣在很大程度上取決于人類的主觀情緒。利用這一觀點,Qi等設計了一個情感知識驅動的視頻精彩集錦生成方法,用于建模人類的一般情感和推斷視頻的精彩程度。其設計的方法框架如圖7所示。首先,通過前端網絡獲得視頻片段的概念級表示,這些概念被用作構建情緒相關知識圖的節點,它們在圖中的關系通過外部公共知識圖建模。然后使用孿生圖神經網絡(Siamese GCN)對圖中節點之間的依賴關系進行建模,并沿邊傳播消息。圖神經網絡能夠轉移視頻上下文中出現的視覺概念的先驗知識,以理解視頻的高級語義。最后基于圖神經網絡層計算視頻片段的情感感知表示,并進一步使用它預測精彩程度分數。

圖7 Qi等構建的多流網絡結構
視頻精彩集錦生成技術的目的是自動選取視頻最有吸引力的片段,由于人工對視頻進行剪輯需要大量的時間和精力,而現實生活中視頻剪輯有著巨大的需求量,因此視頻精彩集錦生成技術有很大的實用價值且在現實生活中有許多應用場景:
(1)對視頻制作者而言,視頻精彩集錦生成技術可以幫助他們自動對視頻進行剪輯,生成的精彩集錦可以更好地吸引人們的興趣,增加視頻的播放量。無論是業余愛好者還是專業的視頻制作者,視頻精彩集錦生成技術都可以幫助他們減少人工剪輯視頻的工作量。
(2)對視頻網站而言,視頻精彩集錦生成技術可以幫助網站吸引用戶興趣。相比于用視頻封面吸引用戶點擊,使用視頻精彩集錦生成技術自動生成的時長較短的集錦作為視頻封面可以更好的吸引用戶,促使他們觀看完整的視頻。
(3)視頻精彩集錦生成技術還可以應用到電子商務平臺的視頻推薦系統。在電子商務中,產品相關視頻是介紹產品特征、吸引消費者的重要內容。因此在電子商務平臺的推薦系統中,可以使用視頻精彩集錦生成技術來生成最具吸引力的視頻片段展示給消費者以提高產品的點擊率。例如,Guo等[25]提出了一種基于圖形的商品感知模型,解決了電子商務場景中的多模態視頻精彩集錦檢測問題。
本文調研了視頻精彩集錦生成技術近年來的研究和發展情況。首先介紹了視頻精彩集錦生成任務的定義,而后系統地梳理了相關的研究工作,介紹了視頻精彩集錦生成技術的有監督學習方法和無監督/弱監督學習方法,并分析這兩類方法的優缺點,最后介紹了視頻精彩集錦生成技術在現實生活中的應用價值。