999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從視頻到語言:視頻標題生成與描述研究綜述

2022-03-10 11:03:52湯鵬杰王瀚漓
自動化學報 2022年2期
關鍵詞:語義特征方法

湯鵬杰 王瀚漓

視頻標題生成與描述任務是對給定的視頻進行特征抽象,并將其轉換為自然語言,對視覺內(nèi)容進行結構化總結與重新表達.它與目前流行的圖像描述任務一樣,同屬于計算機視覺高層語義理解范疇,但鑒于視頻數(shù)據(jù)的時空特性與語義的多樣性、復雜性,其比圖像描述更具挑戰(zhàn)性.

如圖1 所示,它不僅需要檢測出空間域中的物體、場景、人物等靜態(tài)要素,還要能夠識別時間域上的動作及事件,反映各視覺語義對象的時空變化,最后選擇合適的詞匯及句式結構將其組合在一起,形成符合人們表達習慣的描述語句.該任務對于自動解說、導航輔助、智能人機環(huán)境開發(fā)等領域應用前景廣闊,在推動旅游、教育及計算機學科本身發(fā)展等方面意義巨大.但由于該任務涉及計算機視覺、自然語言處理,甚至社會心理學等學科,數(shù)據(jù)處理過程較為復雜,具有很大的挑戰(zhàn)性.

圖1 視頻標題生成與描述任務示例Fig.1 Example of video captioning and description

視頻標題生成與描述研究歷史較為悠久.在其發(fā)展早期,人們主要借助于SIFT 特征(Scale-invariant feature transform,SIFT)[1]、方向梯度直方圖特征(Histogram of oriented gradient,HOG)[2]等手工特征,采用統(tǒng)計的方式對視頻內(nèi)容進行抽象,提取視頻中的語義特征,然后運用機器學習、分類/識別、檢索、檢測等技術獲取視覺語義對象,并將其按照預定模板或規(guī)則填入相應位置,組成可讀的描述句子[3-6].后來,人們借鑒機器翻譯的流程,設計出能夠生成句式更為靈活、用詞更為豐富的 “編碼-解碼” 框架結構,提升了生成句子質量[7].但受限于手工特征的表達能力,其生成的句子在準確性和語義豐富程度等方面與人工表達仍有較大差距,難以滿足人們的需求.隨著深度學習技術的發(fā)展,研究人員使用大規(guī)模訓練數(shù)據(jù)對深度卷積神經(jīng)網(wǎng)絡(Deep convolutional neural networks,DCNN)進行優(yōu)化[8-11],并將其應用于視頻特征提取[12-14].深度特征更加抽象,表達能力更強,將其與循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural networks,RNN)進行結合,使得生成的句子中詞匯更加準確、語義更為豐富.目前,CNN-RNN 框架已成為視覺描述任務的基礎架構.在此基礎上,研究人員結合三維卷積神經(jīng)網(wǎng)絡(3D CNN)[15-16]、門限循環(huán)單元(Gated recurrent unit,GRU)[17]、注意力機制[18]、視覺概念/屬性機制[19]等,設計了多種更為復雜的模型與算法,進一步改善了視頻標題與描述的生成質量.

除對簡單視頻進行高度總結與抽象,為其生成簡單描述之外,人們也在尋求對更為復雜的視頻進行精細化表達,或以事件/場景變化為依據(jù),對其中的視覺語義片段進行更為細致的描述,或者提取整個視頻的邏輯語義,將各片段描述組合為具有一定邏輯結構的描述語段等.但由于視頻數(shù)據(jù)的復雜性,各視覺語義對象本身的變化、各對象之間的邏輯關聯(lián)及其交互等仍存在建模困難、挖掘與利用不充分等弊端.同時,將其映射為更為抽象的詞匯表達與邏輯語段也在準確性、連貫性及語義性等方面存在較大挑戰(zhàn),生成的描述難以應用在實際場景中.此外,在復雜視頻的情感挖掘與個性化表達方面,目前尚無較為有效的方法與模型,生成的描述缺乏生動性與吸引力,且難以對隱含在視頻內(nèi)部的潛在語義及可能的外延信息進行推理顯化與表述,視覺信息與語言之間的語義鴻溝仍然較為明顯.

目前已有部分工作對視頻描述任務進行梳理與總結,如Aafaq 等總結了當前視頻描述的主流方法、數(shù)據(jù)集和評價指標,但他們側重于從學習策略(如序列學習、強化學習等) 上對各模型進行歸類分析[20].Li 等則從更大的視角出發(fā),系統(tǒng)總結了視覺(包括圖像和視頻)到語言的建模范式,并從視覺特征編碼方式的層面上對各視頻描述主流工作進行了介紹[21].本文參考了他們的思路,但為了更加詳細而清晰地呈現(xiàn)視頻標題與描述生成的研究脈絡,首先回顧了視頻描述研究的發(fā)展歷史,對其中典型的算法和模型進行了分析和總結.然后對目前流行的方法進行了梳理,尤其是基于深度網(wǎng)絡的模型框架,以視頻特征編碼方式為依據(jù),按照不同的視覺特征提取與輸入方式,將各類模型分別歸類到基于視覺均值/最大值特征的方法、基于RNN 網(wǎng)絡序列建模的方法、基于3D 卷積網(wǎng)絡的方法,以及基于混合特征編碼的方法.在每類方法中,首先對視頻簡單描述模型進行了舉例與概括,然后對視頻密集描述、段落描述等精細化表達模型做了分析與總結.此外,還介紹了視頻描述任務的各類常用驗證數(shù)據(jù)集及其評價指標體系,列舉了部分典型模型的性能表現(xiàn),并對結果進行了對比分析.最后對視頻描述任務面臨的問題及可能研究方向進行了闡述與說明.

1 基于模板/規(guī)則的視頻描述

不同于靜態(tài)圖像,視頻中的視覺內(nèi)容是動態(tài)可變的,在靜態(tài)的二維數(shù)據(jù)基礎上,增加了時間維度,蘊含的視覺信息更為豐富,但數(shù)據(jù)結構也更為復雜.在為視頻生成標題與描述時,不僅需要考慮每幀上的視覺語義對象,還需要兼顧對象隨著時間的變化及其與環(huán)境、其他語義對象的交互.同時還要考慮多尺度時空上的上下文信息,對視覺信息進行高度抽象,并將其表現(xiàn)在生成的描述語句中.正是由于視頻攜帶了更為豐富的視覺信息,人們一般認為視頻標題生成與描述更具有現(xiàn)實意義,在自動解說、監(jiān)控理解等方面具有巨大的應用價值,因此其發(fā)展歷史也更為悠久.在具體方法方面,早期研究者主要是結合基于模板或固定規(guī)則的框架,設計手工特征從視頻中獲取視覺語義表達,或使用識別檢測技術檢測出人物、動作、場景等,將其填入預設的語句模板中,或按照固定規(guī)則組合成描述語句.其基本框架如圖2 所示.

圖2 基于模板/規(guī)則的視頻描述框架Fig.2 The template/rule based framework for video captioning and description

20 世紀90 年代,Nagel 根據(jù)車輛行駛軌跡及其運動類型,使用計算機視覺技術,檢測車輛運動,并將運動類型根據(jù)一定規(guī)則生成車輛行駛的簡單自然語言描述,如 “穿越道路”、“駛離”、“到達”等[3].Kojima 等為縮小視頻圖像與文本描述之間的語義鴻溝,建立視覺對象/動作與特定概念之間的映射關系,并確定其對應的句法成分(如謂語、賓語等),進而組合成為可用的視頻描述語句[4].Gupta等則提出一種故事線模型,以視頻動作或事件為線索,采用 “與-或圖”模型模擬視頻內(nèi)容的運動與變化,按固定規(guī)則為每個動作片段生成單條句子,然后根據(jù)“與-或圖”中的關系,將句子組合成具有一定邏輯關系的語段描述[5].Guadarrama 等還通過構建層次化語義模型和小樣本學習技術(如零樣本學習)預測視頻可能的動作類型,并結合人物、對象及場景等視覺因素,根據(jù)預先設定的句子模板元組,為視頻生成可用的標題與描述[6].

可以看出,由于視頻的運動特性,以上研究工作對于動作語義的捕獲更為關注,它們突破了原有視頻動作識別任務中只能根據(jù)視頻內(nèi)容輸出有限動作類型的限制.但同時也需注意到,由于其更為關注動作語義,忽視了描述語句的其他組成部分,在句子結構、靈活性表達等方面都受到極大制約.同時模型使用HOG、光流方向直方圖(Histogram of oriented optical flow,HOF)、運動邊界直方圖(Motion boundary histogram,MBH)和可形變部件模型 (Deformable parts model,DPM)等手工特征和檢測框架,借助于支持向量機(Support vector machine,SVM)等分類器,過程較為復雜,且其各步驟之間是離散的,用詞的準確性和整體語義也難以達到人們的要求.

除以上方法外,研究人員還結合更為貼近人們表達習慣的流程框架及神經(jīng)網(wǎng)絡等技術方法,進一步豐富了基于模板或規(guī)則的視頻描述框架內(nèi)容.Rohrbach 等首先提出了在視頻描述任務中使用“編碼-解碼”的流程框架,將視頻的特征表達作為“源語言”,待生成的描述語句作為 “目標語言”[7].他們使用條件隨機場(Conditional random field,CRF)對檢測到的視覺語義對象進行關系建模,結合視頻及其對應描述的先驗知識,模擬機器翻譯流程,生成更為靈活的描述語句.Xu 等使用深度神經(jīng)網(wǎng)絡特征對視頻內(nèi)容進行編碼,同時使用Word2Vec將相應的描述語句解析為具有一定結構的短語或簡單句子并提取其特征,然后將視覺特征與語言特征進行聯(lián)合嵌入,對模型進行優(yōu)化,最后在測試時可直接生成具有與訓練數(shù)據(jù)相似結構的描述句子[22].這兩種方法雖然也借用了基于模板的思路,但已不再是單純的 “檢測-填充”模式,而是引入了更為先進的思路和方法,為視頻描述研究的進一步發(fā)展提供了新的借鑒.人們雖然對基于模板或規(guī)則的視頻描述生成方法做了多次改進,采用更為抽象的特征或性能更為優(yōu)越的框架,生成句子的質量也在不斷提升,但它不符合人們表達的習慣,難以真正有效彌合視覺與語言之間的 “語義鴻溝”,固定的模板與規(guī)則仍會限制視覺語義的高效表達.

2 基于神經(jīng)網(wǎng)絡的視頻描述

基于模板或規(guī)則的視頻描述方法其弊端較為明顯,生成的描述句子在語法結構、語義表達等方面都不夠靈活.目前,隨著深度學習技術的廣泛應用,人們也將其應用在視頻描述領域中,從視頻特征編碼,到描述語句生成,設計了多種有效的模型與方法,大幅提升了模型性能,有效改善了生成語句的質量.具體表現(xiàn)在,人們參考機器翻譯與圖像描述中流行的做法,使用深度卷積神經(jīng)網(wǎng)絡及三維卷積神經(jīng)網(wǎng)絡等對視頻進行特征編碼,然后使用RNN網(wǎng)絡對視覺特征進行解碼,逐個生成詞匯并組成句子.其通用框架與圖像描述類似,是將視頻作為“源語言”,將待生成句子作為 “目標語言”.在整個過程中,其語句的語法、句型結構等不再通過人為設定模板或規(guī)則進行干預,而是直接從訓練數(shù)據(jù)中進行自主學習并記憶.目前,基于神經(jīng)網(wǎng)絡的流程與框架,研究者已開發(fā)出多種效果顯著的模型與算法.但不同方法之間差異巨大,所結合的相關技術涵蓋了時序特征編碼、檢索與定位、注意力機制、視覺屬性、對抗學習、強化學習等.本文主要從視覺特征編碼的角度對相關工作進行歸納與梳理,對各模型與方法的設計動機、原理及所使用的技術進行詳細分析.

不同于二維的靜態(tài)圖像,視頻一般包含運動信息.因此,其視覺特征編碼部分是視頻描述過程中的重要一環(huán),視頻特征的抽象程度與表達能力、特征利用的合理性及充分程度等因素,都將直接影響后續(xù)的語言模型所生成句子的質量.針對視頻特征提取問題,研究者已提出多種效果顯著的方法(如幀特征均值、光流特征均值、3D 卷積、RNN 網(wǎng)絡等),不同的視頻特征提取方法也決定了其語言模型使用特征的方式.根據(jù)視頻特征的提取與使用,本文將現(xiàn)有主要工作劃分為四種類型:1) 視頻幀特征均值/最大值方式;2) RNN 網(wǎng)絡序列特征建模方式;3) 3D 卷積特征建模方式;4) 混合方式.

2.1 基于視覺特征均值/最大值的視頻描述

視頻具有多幀特性,每幀的內(nèi)容可能互不相同,但又相互關聯(lián).若只使用其中一幀圖像的特征,對于較為簡單的視頻(如單場景、單個動作等),同樣也能夠生成可用的描述句子.但這種做法使得該問題退化為圖像描述生成,沒有合理地使用其他關聯(lián)特征與運動特征,其生成句子的準確性和語義性都會受到很大影響,尤其對于復雜視頻,其場景、動作的變換難以準確地被抽象、總結并表達出來.為充分利用視頻數(shù)據(jù),研究者尋求將所有有效幀信息進行融合,使得每幀上的視覺內(nèi)容都能夠參與模型決策.Venugopalan 等提出一種幀特征均值池化(Mean pooling)的方式對視覺特征加以充分利用1https://github.com/vsubhashini/caffe/tree/recurrent/examples/youtube[23].他們首先使用在大規(guī)模圖像分類與識別數(shù)據(jù)集ImageNet[24]上預訓練完畢的AlexNet 模型[8]提取視頻幀的CNN 特征,然后將所有視頻幀特征使用均值池化以獲取最終的視頻特征向量,最后將其送入RNN 網(wǎng)絡 (如長短時記憶網(wǎng)絡(Long-short term memory,LSTM))中的每個時間步,結合已生成的前續(xù)詞匯,預測當前時間步的詞匯輸出,并組成句子.該種方法的模型基本架構如圖3 所示.

圖3 基于視覺均值/最大值特征的視頻描述框架Fig.3 The mean/max pooling visual feature based framework for video captioning and description

這種方法在形式上利用了所有視頻信息,但由于采用了計算平均值的方式,不僅損害了各幀中原有視覺語義的結構化特性,也沒有獲取到任何運動信息,且特征的稀疏性也受到一定的破壞,因此雖然其性能比其他基于模板的方法有所改善,但整體結果仍難以滿足人們的期望.Pan 等也采取了類似的方法,但他們不僅使用了視頻幀的CNN 均值特征,還使用3D 卷積網(wǎng)絡提取不同片段上的三維特征,然后計算多個三維特征向量的均值,并將其與CNN 均值特征結合在一起作為視頻的特征表示[25].他們采用了視覺模型與語言模型聯(lián)合優(yōu)化的方式,通過設計關聯(lián)損失函數(shù)計算參考句子與視覺信息的誤差,并使用相干損失函數(shù)計算生成句子與參考句子之間的誤差.這種方法雖然也對特征進行了均值計算,但由于3D 卷積特征包含了視頻的部分動態(tài)信息,抑制了時序特征的破壞程度.同時使用聯(lián)合訓練的方法,避免了模型陷入局部最優(yōu)狀態(tài),較好地改善了模型性能.此后,他們還提出了另外一種使用2D/3D 卷積特征均值的方法,并結合多示例學習技術(Multiple instance learning,MIL)學習視頻中的視覺概念,并將其和均值特征一起送入語言模型,進而生成句子[26].另外,湯鵬杰等為解決視頻特征間隔采樣可能造成的視覺信息丟失問題,提出一種基于密集幀率采樣的視頻描述模型[27].該模型舍棄間隔采樣的方法,而是將一段時間內(nèi)的所有幀都利用起來,使用最大值池化的方式獲取視頻局部特征表達,然后將池化后的特征按順序送入LSTM 網(wǎng)絡.這種方法提升了特征的稀疏程度,有助于改善模型的泛化能力,同時由于在LSTM 每個時間步上處理的是局部特征,一定程度上抑制了池化操作對視覺語義中結構信息的破壞.

2.2 基于RNN 序列特征建模的視頻描述

連續(xù)幀特征均值池化或最大值池化的方式難以捕獲視頻片段內(nèi)的時序特征,造成動態(tài)信息的破壞與丟失.其實,為獲取視頻的時序特征,研究人員設計了多種特征描述子及其模型,如早期各種光流算法、HOF、MBH[28]、密集軌跡(Dense trajectories,DT)[29]、改進的密集軌跡(improved Dense trajectories,iDT)框架[30],以及目前常用的雙流CNN 框架(Two-s)[31]、RNN 循環(huán)神經(jīng)網(wǎng)絡模型[17]、3D 卷積網(wǎng)絡[15-16]等.這些方法已幫助視頻動作與行為識別取得了突破性進展.同樣地,隨著對時序特征挖掘的深入研究,研究者也將其嵌入到視頻描述框架中,進一步提升視頻描述質量.在多種方法中,使用RNN 網(wǎng)絡對視頻幀特征進行序列建模,設計從視頻幀序列到語言詞匯序列的模型框架為視頻生成描述語句已逐漸成為一種新的潮流.

序列到序列的建模方式也是起源于機器翻譯,對源語言進行特征提取的編碼器和生成目標語言的解碼器使用同一個RNN 網(wǎng)絡,在不同的時間步上實現(xiàn)各自的功能.對于視頻而言,其視頻幀與語言具有相似的表現(xiàn)形式,都具有時序特性,因此序列到序列的建模方式應同樣適用于視頻描述任務.采用這種方法的一般模型框架如圖4 所示.

圖4 基于RNN 序列建模的視頻描述框架Fig.4 The RNN based framework for video captioning and description

2.2.1 基于RNN 序列特征的視頻簡單描述

視頻簡單描述任務是指給定一段內(nèi)容較為簡單、變化相對較少的視頻,通過模型算法對其主要內(nèi)容進行高度抽象與總結,生成句子結構、用詞及語義表達都較為簡單的描述語句(一般為一段視頻只生成一句話).本節(jié)針對視頻簡單描述任務,按照對視頻特征的處理方式將其分為基于視頻全局特征的方法、基于視頻特征選擇與優(yōu)化的方法及基于混合視頻特征的方法,對相關算法與模型進行了梳理與分析.

基于視頻全局特征的方法是使用RNN 網(wǎng)絡對視頻幀序列進行建模,將提取到的各幀特征按順序送入RNN 網(wǎng)絡中,獲取視頻的時序動態(tài)特征;然后將編碼后的視覺特征送入語言模型進行解碼,在每個時間步上逐個生成詞匯,最終組成可讀的描述語句.Venugopalan 等在其設計的S2VT (Sequence to sequence:Video to text)模型2https://github.com/vsubhashini/caffe/tree/recurrent/examples/s2vt中,首先使用DCNN模型提取視頻幀特征和光流幀特征,然后分別將其按順序送入兩條LSTM 網(wǎng)絡中,對視頻進行動態(tài)特征編碼.所有視頻幀與光流幀特征編碼結束后,模型進入解碼階段,在每個時間步上,將處理視頻幀LSTM 的概率輸出與處理光流幀的LSTM 概率輸出進行后融合(Late fusion),最后使用融合后的概率預測輸出詞匯[32].他們的工作將視覺動態(tài)特征編碼與解碼過程合二為一,訓練時采用端到端的方式,避免模型陷入局部最優(yōu),測試時只需輸入視頻幀與光流幀的CNN 特征序列,即可獲得相應的視頻描述.該研究工作提出了使用序列到序列流程解決視頻描述問題的思路,不僅對視頻的靜態(tài)特征進行充分利用,也提取并利用動態(tài)序列特征,且模型較為簡潔,生成的句子在準確性和語義性方面都有了較大提升,但采用光流幀的CNN 特征對序列建模是冗余的.首先,光流本身即是對視頻動態(tài)特征的發(fā)現(xiàn)與挖掘,所含空域信息較少,光流幀中的視覺信息也已較為抽象;其次,使用LSTM 對其變換,可能引起過擬合,造成模型預測偏差較大,與視頻幀LSTM 的概率進行融合后,反而可能會降低整體性能.

以S2VT 模型為基礎,研究人員也對其進行了多方面改進.Venugopalan 等在其后續(xù)的工作中,使用大規(guī)模語料庫,充分挖掘語言先驗知識,在S2VT 的基礎上添加了一條語言挖掘分支,輔助最終描述語句的生成[33].Tang 等認識到S2VT 框架中的弊端,結合殘差機制、多結構LSTM 序列融合與視覺特征互補等思想,提出一種Res-F2F (Residual based fusion of imporved factored and unfactored model)的視頻描述框架[34],摒棄了使用光流幀CNN 特征的方法.他們首先將用于視頻幀特征提取的DCNN 模型在圖像描述數(shù)據(jù)集上使用端到端的方法進行預訓練,使得提取的視頻幀CNN特征能夠快速適應視頻描述任務.為避免單結構DCNN 模型提取的視覺特征不夠全面的問題,使用多個DCNN 模型(GoogLeNet[10]、ResNet101[11]、ResNet152[11])分別提取視頻幀特征,然后將其融合以相互補充.同時,借鑒ResNet 中的殘差機制,構建了更深的LSTM 網(wǎng)絡,使得視頻動態(tài)特征與語言特征都更為抽象,增強了其表達能力.此外,他們還將因子分解與非因子分解的LSTM 網(wǎng)絡進行融合,協(xié)同決策每個時間步上的詞匯輸出.該模型基本框架如圖5 所示.

圖5 Res-F2F 視頻描述生成流程Fig.5 The framework of Res-F2F for video captioning and description

Bin 等設計了一種雙向LSTM 網(wǎng)絡(Bidirectional LSTM,BiLSTM),從前、后兩個方向上提取視頻的時序特征,在每個時間步上將兩個方向的輸出及幀序列CNN 特征融合,送入另一個LSTM網(wǎng)絡中,獲取更為全面的時序特征,最后將其送入語言模型進行解碼[35].Pasunuru 等也采用了雙向LSTM 對視頻特征進行特征編碼,但他們認為單獨的視頻描述任務難以對視頻中的時序信息與邏輯動態(tài)信息進行充分的提取.為此,他們提出一種多任務的學習方式,使用視頻預測任務學習更多的視頻上下文知識,同時使用一種視頻蘊含語義推導任務學習視頻中更多的語義信息,最后通過三個任務的聯(lián)合學習,提升生成句子的準確性和語義性[36].這種方法通過多任務學習的方式改善生成句子的質量,具有良好的借鑒意義.但其使用的其他兩種任務,無論是視頻預測還是蘊含語義推導都屬于視頻高層語義理解,生成較為準確的視頻幀或根據(jù)現(xiàn)有內(nèi)容推理出其可能的隱含語義都具有極大的挑戰(zhàn)性,其簡單的建模過程與粗糙的中間結果并不能真正縮小視覺數(shù)據(jù)與語言之間的語義鴻溝.因此,其模型與結果都有待進一步改善與優(yōu)化.Li 等使用LSTM 網(wǎng)絡對視頻進行序列建模,也采用了多任務學習方式,但其所涉及的任務較為簡單,通過屬性預測、獎勵計算及標題生成等任務構建了一個端到端聯(lián)合優(yōu)化的強化學習模型,有效改善了句子質量[37].但在各任務完成過程中,其中間結果仍較為粗糙,如在屬性預測中只使用幀級均值特征,限制了模型性能.

除直接使用LSTM 網(wǎng)絡對視頻特征進行重新建模外,研究者也嘗試挖掘視頻內(nèi)部的時序關聯(lián),提升時序特征表達能力和語義豐富程度.Pan 等提出一種層次化LSTM 網(wǎng)絡,底層LSTM 接收視頻幀CNN 特征,經(jīng)過一定固定間隔的時間步后,其輸出送入高層LSTM,高層LSTM 的最終輸出作為視頻的高層語義表達送入語言模型[38].這種方法既降低了模型的運算復雜度,又能夠獲取更為抽象的時序特征.Baraldi 等也利用了同樣的層次化思想,但將視頻幀的CNN 特征輸入一個特別設計的LSTM單元中,該LSTM 單元具有檢測時序邊界的功能;當遇到場景、動作等發(fā)生變化時,其當前時間步上的輸出作為該片段的特征表達,并將其送入另外一層LSTM 中.以此類推,使用高層LSTM 的輸出作為整個視頻的最終時序特征,并送入GRU 網(wǎng)絡進行解碼,生成描述句子[39].與Pan 等的方法[38]相比,這種方式具有更好的可解釋性,它能夠自動檢測視頻片段的邊界,而不是特別指定視頻中各片段的長度,輸入到高層LSTM 的特征其表達能力更強,語義性也更為豐富.

基于視頻全局特征的模型能夠使得語言模塊在解碼時參考更多的視覺信息,尤其是層次化模型,既考慮了視頻中的低層語義信息,也兼顧了較為抽象的高層上下文信息,有助于改善生成句子的整體語義.但對于語言模型而言,使用全局視覺特征可能會引入額外的視覺噪聲,在某些時刻上,與該時間步輸出無關的視覺信息可能會對模型造成一定的干擾,影響詞匯預測的準確性.針對該問題,研究人員借鑒機器翻譯與圖像描述任務中的注意力機制,并將其引入到視頻描述任務中.具體而言,在語言解碼階段,在不同時間步上關注不同的視頻特征(可為不同的視覺區(qū)域、不同的幀或片段等),根據(jù)訓練集中的先驗知識,自適應地重點參考視頻的局部特征,提升詞匯預測的準確性.

Xu 等將注意力機制引入到視頻描述任務中,首先將視頻幀特征、3D 卷積特征以及音頻特征使用LSTM 網(wǎng)絡進行序列建模,然后通過一種自適應的融合單元將多模特征結合在一起,送入語言解碼模塊,并使用多級注意力機制對融合特征與各模態(tài)特征進行過濾,在每個時間步上通過關注不同的視覺信息,實現(xiàn)詞匯的精準預測[40].Song 等則將注意力機制引入到層次化LSTM 網(wǎng)絡中,構建了一個包含注意力單元的雙層LSTM 網(wǎng)絡hLSTMatt[41].首先使用DCNN 模型提取視頻幀特征,然后使用注意力機制在每個時間步上決定需要重點關注的視頻幀,并協(xié)調是否需要關聯(lián)相關詞匯.這種方法雖然并沒有直接使用RNN 網(wǎng)絡對視頻的空域特征進行序列建模,但使用了注意力機制在不同的時間步上關注不同的空域信息,對特征進行選擇與優(yōu)化,其實質上仍屬于使用序列模型生成視頻描述的范疇.該方法將時域特征選擇與語言生成過程有機融合,改善了生成描述的準確性與語義性.Li 等為提取更具針對性的視頻特征,也采用了注意力機制,使用預訓練的DCNN 模型提取視頻幀的CNN 特征后,在每個時間步上通過注意力單元關注不同幀的特征,并結合使用單獨的記憶網(wǎng)絡提取視頻幀的序列特征,為視頻生成語句描述[42].Chen 等認為人們在觀看視頻時,對運動信息更為關注,因此他們將光流幀作為注意力的關注對象,使用特別設計的門限注意力RNN 單元(Gated attention recurrent unit,G-ARU),對光流幀的CNN 特征圖進行特征選擇,引導語言模型對視頻幀的CNN 均值特征進行解碼,最終生成描述句子[43].這些工作在使用視頻信息時,在不同時間步上,選擇符合人們觀察習慣的視覺內(nèi)容,對大量的冗余特征進行了篩選,緩解了視覺噪聲對語言模型的干擾,有效提升了生成詞匯的準確性.尤其是結合注意力機制的層次化RNN 架構,其模型更為簡潔,對視頻內(nèi)容的利用更加符合人們的直覺性,實驗結果也證明其性能非常優(yōu)越;而且,層次化RNN 網(wǎng)絡不僅在為視頻生成單句描述中效果顯著,對于視頻的密集描述及結構化表達也具有一定的借鑒意義.

除直接使用RNN 網(wǎng)絡對視頻特征進行建模之外,人們也在尋求使用更為有效的序列特征建模方法.Zhang 等設計了一種雙向時序圖(Bidirectional temporal graph)模型,對視頻中的語義對象進行行為建模,表征其動態(tài)演化軌跡;然后使用一種卷積門限循環(huán)單元(Convolutional gated recurrent unit,C-GRU)對各語義對象進行特征聚類,提取其共性特征,增強特征的表達能力;最后結合層次注意力機制(時序注意力與目標注意力),使用GRU網(wǎng)絡對特征進行解碼[44-45].Wang 等采用了一種更為簡潔的視覺特征使用方式[46-47],在提取視頻各幀的CNN 特征后,借鑒Yao 等所提出的注意力權重分配方法[48],直接進入解碼階段,在不同的時間步上為不同幀的特征賦予不同的權重,并進行加權融合,以此作為解碼依據(jù).不僅如此,他們還設計了一個重構單元,根據(jù)生成的詞匯,對視覺特征進行重構,并計算重構損失,以此優(yōu)化整個模型.

由以上工作可以看出,以RNN 網(wǎng)絡為基礎,對視頻特征進行序列建模,并為視頻生成簡單描述,仍是研究熱點之一.在具體使用時,則多結合注意力機制,對視覺特征進行選擇與優(yōu)化,在此過程中,還引入知識圖模型、重構優(yōu)化思想等,對視頻中的語義對象及其動作做更為準確的預測與建模.但在不斷提升模型性能的同時,視頻中的情感、邏輯、個性化、隱含語義等卻常被忽視,句子較為呆板,缺乏吸引力.因此,需要融合更多的先驗知識對上述因素進行挖掘與表征,在簡單描述的語句中嵌入更多更具吸引力的詞匯或短語,增強句子的 “靈性”.

2.2.2 基于RNN 序列特征的視頻密集描述

對于內(nèi)容較為復雜的視頻,生成簡單的單句描述難以對其進行較為完整的表達,尤其是在面向真實場景的應用中,需為其生成更為全面而詳細的多句描述.為此,研究人員將密集描述的概念引入到視頻描述領域中,并提出了多種性能優(yōu)越的方法與模型.

具體而言,視頻密集描述是對于給定的內(nèi)容更為復雜、變化更為豐富的視頻,使用模型算法為其中的多個語義片段分別生成語句描述,這些描述之間可以是相互獨立的,也可以具有一定關聯(lián).對于視頻來說,其密集描述任務不僅需要考慮空域上的視覺區(qū)域信息,還需要考慮時域上的多粒度/多尺度事件信息.其任務示例如圖6 所示.

圖6 視頻密集描述任務示例Fig.6 Example of dense video captioning and description

Shen 等提出一種基于弱監(jiān)督多示例多標簽學習的視頻密集描述模型[49],在每個視頻幀中選取固定數(shù)量的視覺語義區(qū)域,并將不同幀中的這些區(qū)域組成多條合理的視覺區(qū)域序列,借鑒圖像密集描述工作中所使用的全卷積網(wǎng)絡(Fully convolutional network,FCN)[50]為各區(qū)域提取CNN 特征,然后將其送入雙向S2VT 進行時序動態(tài)特征編碼和解碼.該方法可追蹤不同視覺語義對象的變化,并對其進行自然語言描述.在此基礎上,用戶可根據(jù)實際需求自主選擇復雜視頻中的特定對象(如人物、物體等),通過描述句子了解其在視頻中的行為及其動態(tài)變化.但由于視頻區(qū)域序列的組合較多,其使用次模函數(shù)最大化(Submodular maximization)的方法進行組合選擇將會額外增加模型的復雜度.此外,該方法也忽視了不同視覺對象之間的關系與交互,過于強調單獨對象的時序鏈,造成生成的語句與實際內(nèi)容可能存在較大偏差.

Wang 等則從事件的角度出發(fā),首先使用3D卷積網(wǎng)絡提取視頻特征,隨后將其送入一種基于雙向注意力機制的LSTM 網(wǎng)絡,預測可能事件的邊界,同時對事件內(nèi)的視頻幀重新進行時序特征提取,并將其與視頻上下文特征進行融合,送入語言模型[51].這種方法根據(jù)視頻的動態(tài)特性,以事件為基本描述單位,更為符合人們的觀察與表達習慣.但在待描述的視頻場景更為復雜時(如同一時間段內(nèi)包含多條事件鏈),則生成的密集描述句子面臨描述不夠精細、表達不夠完整等問題.同樣地,Zhou 等也采用事件的概念,以視頻中事件語義的變換為切分點,為每個視頻片段生成單獨描述[52].但他們?yōu)榻鉀Q復雜視頻時序特征的長期依賴問題,將轉換器(Transformer)[53]引入到視頻序列特征建模中,代替RNN網(wǎng)絡對視頻進行事件定位,增強視覺序列特征的表達能力.同時使用一種遮擋(Mask)機制,用生成的句子對視頻中事件的定位位置進行更新修正,對編碼與解碼兩部分進行端到端訓練.這種使用轉換器代替?zhèn)鹘y(tǒng)RNN 網(wǎng)絡的模型仍屬于使用序列建模機制對視頻進行動態(tài)特征編碼,但由于轉換器模型具有傳統(tǒng)RNN 網(wǎng)絡難以實現(xiàn)的可堆疊、可并行等特性,在未來工作中,尤其是對于視覺高層語義理解任務,值得進一步挖掘其功能,探索新的使用方法.此外,Zhou 等提出一種基于區(qū)域注意力的視頻密集描述模型[54].首先使用快速 R-CNN (Faster region based CNN,Faster R-CNN)檢測各幀中的視覺語義區(qū)域,然后使用帶有注意力單元的LSTM 對視覺區(qū)域進行序列建模,并使用序列均值特征(時序特征或空域特征)作為全局特征,并結合視頻片段標記信息(如片段索引、開始時間、結束時間等),為視頻生成更為準確貼切的描述語句.

2.2.3 基于RNN 序列特征的視頻結構化描述

為視頻生成密集描述時,雖然都是以事件作為主要依據(jù),提升了描述的可用性,但生成的描述句子都是獨立的,即其假定各事件之間是離散的,忽視了其內(nèi)在的語義關聯(lián),且由于檢測到的推薦事件一般過多,生成的描述冗余性較大.為此,研究者提出了視頻結構化描述任務,其在密集描述的基礎上,將各獨立的語義片段描述重新整合為具有一定邏輯結構的描述段落.Mun 等認為同一個視頻中各事件之間具有時序依賴關系,人為割裂這種關系可能會造成描述不準確,與實際內(nèi)容產(chǎn)生一定偏差.為此,他們首先將視頻進行等分,采用C3D 進行初次特征編碼,然后將其送入GRU 網(wǎng)絡,搜索可能的事件邊界.然后通過融合注意力機制的RNN 網(wǎng)絡,建立各事件之間的關聯(lián)依賴,并將其按順序送入語言模型,逐條生成語句,最終組成具有一定時序關系的描述[55].這種方法已不是單純地對視頻進行密集描述,而是為其形成了具有一定結構的描述段落,雖然視頻中的復雜邏輯還難以進行有效發(fā)現(xiàn)與挖掘,但事件之間的簡單依賴已可以通過部分時序詞匯、指代詞匯等體現(xiàn)出來,增強了表達的連貫性、靈活性與吸引力.實質上,針對視頻的結構化段落描述已吸引了很多研究人員的注意,對視覺數(shù)據(jù)進行邏輯化整理與結構化重新表達,是縮小視覺數(shù)據(jù)與自然語言表達之間語義鴻溝的重要途徑.

Wang 等提出一種基于強化學習的層次化描述框架,為視頻生成細粒度的描述語段[56].首先將視頻幀的CNN 特征輸入到一個雙層LSTM 網(wǎng)絡中,分別提取視頻的低層和高層時序特征,低層時序特征結合注意力機制輸入到工作模塊(Worker),根據(jù)管理模塊(Manager)設置的目標選擇相應操作(如與環(huán)境交互、輸出狀態(tài)等),而高層時序特征同樣結合注意力輸入到管理模塊,為工作模塊設置目標.然后使用內(nèi)部評價模塊(Internal critic)判別工作模塊的目標是否已完成,并與管理模塊進行交互,其模型框架如圖7 所示.該工作將更為抽象的視頻序列特征輸入到管理模塊,使其能夠關注粒度更大的全局動態(tài)特征;而將更為具體的時序特征輸入工作模塊,關注較小粒度的局部動態(tài)特征;并使兩者結合,通過與周圍環(huán)境(上下文)及評價模塊的相互協(xié)同,生成具有結構化的語段描述.這種使用強化學習的思想符合人們對周圍事物的認知規(guī)律,且其將層次化方法較為合理地嵌入到強化學習的框架中,對于開發(fā)出能夠實用的視頻描述系統(tǒng)具有很大的啟發(fā)意義.

圖7 基于強化學習的層次化視頻描述框架Fig.7 The reinforcement learning based framework for video captioning and description

Xiong 等也采用了強化學習的思路,為了生成相關性與連貫性強、且語言簡潔的段落描述,首先使用結構化視頻片段檢測網(wǎng)絡(Structured segment network,SSN)對視頻中的事件進行檢測與定位;然后使用時序片段網(wǎng)絡(Temporal segment network,TSN)提取視頻幀與光流幀特征,并將其送入一個用于事件片段選擇的LSTM 網(wǎng)絡,逐步去除冗余,對于選出的每個事件片段,為其生成單獨描述,并最終組合成具有一定邏輯結構的描述語段[57].總體上看,由于使用強化學習的方法,其目標函數(shù)的設計更為接近評價機制,以此為基礎的模型性能一般要優(yōu)于使用傳統(tǒng)交叉熵的模型方法,因此,在解決視覺描述問題上,這種方法值得進一步探索.需要注意的是,這種模型優(yōu)化策略以評價指標為基礎,即模型認為用于優(yōu)化的評價指標是正確的.但是,通過對各評價指標的分析可知(見本文第4.1節(jié)),每種指標的設計大多是側重于對句子某一方面的評價,并不能綜合衡量句子的質量,因此這種方法所帶來的高性能還需要使用其他評價方法進行更為全面的驗證.

以上對使用RNN 網(wǎng)絡進行時序特征編碼的視頻描述模型做了總結與梳理.從多項研究工作可以看出,目前使用RNN 網(wǎng)絡仍是視頻序列建模的主流方法.雖然可以使用RNN 網(wǎng)絡提取視頻的動態(tài)特征,但直接使用RNN 對其進行建模也存在著有效信息利用不充分、效率不高等問題.為此而引入的注意力機制,能夠有選擇地對空域或時域特征進行選擇與關注,過濾冗余和無關信息,改善生成句子的準確性和語義性.此外,面向更復雜的結構化描述任務,研究人員又引入了層次化序列建模、強化學習等技術,進一步對視頻時序特征進行挖掘與利用.

2.3 基于2D/3D 混合卷積特征的視頻描述

使用RNN 網(wǎng)絡或其他同類方法對視頻幀CNN 特征進行編碼的方法可以方便實現(xiàn)動態(tài)特征提取模塊與語言模塊的端到端訓練,但CNN 模塊的優(yōu)化一般是單獨進行的,其與整個模型仍然是分離的,而且CNN 特征經(jīng)過序列變換之后,也可能導致視頻幀中空域信息的丟失.因此,除上述方法外,研究者還經(jīng)常使用3D 卷積的方式對視頻的時空特征進行編碼,將空域特征提取與時域特征提取融為一體,既能夠提取視頻各幀中的靜態(tài)語義特征,也能夠挖掘時域動態(tài)特征.

Ji 等于2013 年提出一種3D 卷積網(wǎng)絡,并用于動作識別[15].他們將時間維度引入CNN 網(wǎng)絡,相鄰的多個視頻幀作為多通道信息進行卷積與池化變換,最終將所有通道特征合并在一起作為視頻的特征表達.但由于該模型使用的卷積核較大,且深度不夠,其性能與其他方法相比優(yōu)勢并不明顯.Tran等基于該思想,使用更小的卷積核,設計了一種更深的3D 網(wǎng)絡(C3D),并在動作識別任務上獲得了性能突破[16].此后,人們將C3D 模型作為視頻特征提取的重要手段之一,并將C3D 特征應用在多種視覺任務上.在視頻描述領域,研究人員使用在大型動作/行為識別數(shù)據(jù)集(如Sports 1M3https://github.com/gtoderici/sports-1m-dataset/blob/wiki/Project-Home.md[58]、Activity Net[59]等)上預訓練完畢的C3D 模型提取視頻的時空特征,并結合RNN、視覺屬性、注意力機制等技術,已取得一系列研究成果,為該領域的發(fā)展提供了新的思路.基于3D 卷積特征的視頻描述基本框架如圖8 所示,對視頻片段進行3D 卷積操作之后,一般還需要結合如均值/最大值融合RNN 序列建?;蜃⒁饬C制對3D 卷積特征進行再次處理,然后送入語言模型進行解碼,生成描述語句.

圖8 基于3D 卷積特征的視頻描述基本框架Fig.8 The 3D CNN based framework for video captioning and description

2.3.1 基于3D 卷積特征的視頻簡單描述

與RNN 序列建模不同,3D 卷積網(wǎng)絡能同時捕獲視頻中的空域與時域信息,對其中的靜態(tài)視覺語義對象特征和動態(tài)視覺事件特征具有較好的表達能力.Yao 等采用3D 卷積網(wǎng)絡提取視頻特征,將其應用于簡單描述任務.該方法首先將視頻按時間維度分為多個時空立體網(wǎng)格,并使用HOG、HOF和MBH對其進行表達,然后將其送入優(yōu)化完畢的3D 卷積網(wǎng)絡,提取局部時序結構特征.他們還引入了注意力機制,在不同時間步為不同的3D 時空特征分配不同的權重,指導描述句子生成[48].Shetty 等為獲得更好的模型性能,使用了視頻幀CNN 均值特征、C3D 特征及多種手工特征,并使用不同的組合將其送入LSTM 網(wǎng)絡,生成描述語句;然后通過評價網(wǎng)絡對生成的句子進行評估,為每個視頻選擇出最佳的特征組合[60].此項工作在2016 年的MSR-VTT視頻描述大賽中獲得了優(yōu)異成績,這說明C3D 特征不僅能提取表達能力較強的時空特征,還可與其他表達能力較弱的特征進行互補,進一步提升生成句子的質量.其實,在Pan 等使用均值特征的工作[25-26]及Mun 等對視頻生成密集描述的工作[55]中,也結合了C3D 特征,使其與其他特征與方法協(xié)同工作,有效改善了模型性能.

Yu 等提出一種基于視線跟蹤編碼的注意力網(wǎng)絡,將人類的視覺跟蹤機制融入到注意力模型中.該模型設計了一種循環(huán)視線預測(Recurrent gaze prediction,RGP)模塊,在提取視頻的2D/3D 卷積特征后,將其送入該模塊中,得到空間域上的注意力區(qū)域,并對各運動片段的區(qū)域特征進行池化表達,同時使用GRU 網(wǎng)絡對每個運動片段特征進行時域注意力權重分配,并結合空域注意力特征為視頻生成描述語句[61].Wang 等為了解決LSTM 網(wǎng)絡中多模態(tài)信息的長期依賴與語義錯位問題,提出了一種多模態(tài)記憶模型(Multimodal memory model,M3).首先提取視頻幀的2D (VGGNet[9]、GoogLeNet[10])和3D (C3D[16]) 卷積特征,然后結合注意力機制,將其送入M3 單元,對視覺信息和語言信息共同建模并記憶其中的序列信息[62].這種方法在形式上仍然采用了對視頻幀特征進行序列建模的方式,且與圖像描述中的多模RNN 模型[63-64]具有相似之處,但它將視覺與語言信息更為緊密結合在一起,使其共享記憶單元,實現(xiàn)視覺與語言的語義對齊,有效提升了生成句子中用詞的準確性.

Pei 等認為當前的主流模型在訓練時沒有充分挖掘不同視頻的共性特征(如使用同一詞匯),導致生成的句子不能有效利用其他視覺數(shù)據(jù)的上下文信息.為此,他們提出了一種注意力記憶循環(huán)神經(jīng)網(wǎng)絡 (Memory-attended recurrent network,MARN),增強詞匯與視覺語義對象的關聯(lián)性.該方法首先提取視頻的2D和3D 卷積特征,并通過注意力機制對不同特征進行融合,同時使用一種記憶結構體記錄詞匯與視覺語義的映射關系.最后構建GRU 網(wǎng)絡在每個時間步上輸出預測詞匯[65].Li等也采用了2D/3D 卷積網(wǎng)絡提取視頻的靜態(tài)和動態(tài)時空特征,但他們側重于不同層級注意力的協(xié)同,從視覺區(qū)域注意力、幀級注意力及文本注意力等層面對多模態(tài)信息進行協(xié)同利用,提升生成句子的準確性[66-67].Chen 等采用了融合2D/3D 卷積特征、MFCC (Mel frequency cepstrum coefficient)音頻特征的多模特征,對視頻進行更為全面的表達.但他們不是直接將編碼后的特征送入語言模型進行解碼,而是設計了一種基于主題引導的描述生成模型.該方法首先結合視覺特征從參考句子中挖掘可能的隱含主題類型,然后指導視覺模型根據(jù)視覺特征推理出其蘊含的視覺主題,最后將發(fā)現(xiàn)的視覺主題采用因子分解的方式嵌入到語言模型中,并使用時序注意力引導整條描述句子的生成[68].此種方法并沒有對視覺特征進行過多處理,而是通過從已有的描述句子中發(fā)現(xiàn)相關視覺內(nèi)容可能蘊含的主題方向,是從數(shù)據(jù)角度進行挖掘與分析;同時通過對LSTM網(wǎng)絡中的權重因子矩陣進行分解,將主題作為其中一項自然地嵌入到每個時間步中,這與圖像風格化描述中Gan 等的工作[69]具有相通之處,都是將某一方面的視覺內(nèi)容視為矩陣的一部分,通過矩陣分解實現(xiàn)該方面內(nèi)容的嵌入與表達.Pan 等則從任務角度出發(fā),認為對時空語義對象的高層次理解是改善句子質量的關鍵[70].該方法提取視頻的2D/3D 卷積特征作為場景特征,為模型提供上下文信息;同時通過目標檢測算法提取視頻幀中的各語義對象特征,并建立時空圖(Spatio-temporal graph),使用圖卷積網(wǎng)絡提取各語義對象在時空域上的交互特征.此外,他們還提出了一種基于對象感知的知識萃取機制,通過計算語義對象交互與場景上下文兩個分支中詞匯預測概率分布的KL 散度進行模型優(yōu)化,去除噪聲,實現(xiàn)可用知識的統(tǒng)一表達.Hemalatha 等提出一種特定域語義引導的視頻標題生成方法[71],其首先使用2D和3D 卷積網(wǎng)絡提取視頻特征,然后通過一種局部聚合描述子特征向量(Vector of local aggregated descriptors,VLAD)提取方法對特征進行聚合表達,并根據(jù)特定知識領域中的標簽(Tag)對視頻進行描述.Cherian 等為實現(xiàn)時空之間的信息互補,設計了一種時空/空時注意力模型(Spatio-temporal and temporo-spatial attention model,STaTS)[72],具體使用I3D (Infalated 3D CNN)模型[73]及Faster R-CNN 提取視頻特征,并在空間和時間兩個層面加入注意力機制.類似地,Wang 等也利用了其他知識庫的語義標簽,使用2D/3D 及Faster R-CNN 對視頻特征進行提取后,結合標簽信息,引導描述句子生成[74].此外,Hou 等提出一種使用基于語法表達和視覺線索翻譯的視頻描述方法,他們也是使用了2D/3D 特征對視頻進行編碼,然后通過詞性標簽(Part-of-speech,POS)組成的句子模板對句法結構進行表達,結合視覺信息進行模型學習與優(yōu)化[75].

此外,Zhang 等也利用了2D/3D 特征對視頻進行視覺特征編碼.他們通過構建一種視覺對象關系圖學習幀內(nèi)和幀間對象的視覺關系,捕獲更多的語義細節(jié),獲得更加豐富的視覺特征,并采用教師推薦學習(Teacher recommended learning,TRL)策略,引入大量外部語言先驗知識,解決句子中的長尾問題(Long-tailed problem)[76].Zheng 等提出一種基于語法感知及動作引導的視頻描述模型[77].他們認為視頻標題生成的主要目的是使用自然語言描述視頻中的對象及其交互,而當前工作多聚焦于視覺對象的檢測與使用,對其中的交互關注較少.為此,他們通過同時使用檢測到的語義對象和動態(tài)信息學習視頻中的動作,并采用多種優(yōu)化策略對模型進行驗證.Hou 等在使用3D 模型提取視頻特征后,根據(jù)常識將視覺特征嵌入語義空間形成語義圖,并通過圖神經(jīng)網(wǎng)絡對語義圖進行編碼與關系推理,進而生成視頻描述[78].

除了直接使用3D 卷積特征外,研究者還開發(fā)了具有相似功能的時序特征提取技術,以期能夠更加充分地挖掘利用視頻中的時空信息.Chen 等為避免使用RNN 網(wǎng)絡對視頻進行動態(tài)編碼時的梯度消失/爆炸問題,設計了一種時序可變形卷積網(wǎng)絡,通過對輸入的CNN 特征進行時域卷積運算得到新的特征序列.然后計算所有特征的均值作為全局特征輸入語言模型,并引入時序注意力機制對不同的時域卷積特征進行區(qū)別關注,通過轉移卷積網(wǎng)絡對輸入的特征結合注意力權重進行解碼[79].這種方法在形式上對3D 卷積網(wǎng)絡進行了再次展開,將空域特征提取與時域特征提取過程重新做了分離,通過使用時間長度可變(可堆疊)的卷積網(wǎng)絡模塊對空域特征進行變換,克服了3D 卷積網(wǎng)絡與RNN 網(wǎng)絡長度固定的弊端,在功能上擴展了時序特征的語義性.Liu 等也曾為了更加充分有效地利用視覺信息,開發(fā)了一種時序卷積模塊(Temporal convolutional block,TCB)代替RNN 對視頻進行特征編碼,基于該模塊設計了視覺內(nèi)容編碼與 “視覺語義-語言內(nèi)容”聯(lián)合編碼兩條分支,然后使用注意力機制對兩條分支的不同輸出部分進行區(qū)別關注,并結合RNN 網(wǎng)絡生成內(nèi)容描述[80].該方法采用了與對抗學習相似的思路,在視覺內(nèi)容編碼部分使用結合了TCB 的自動編碼器,通過原視頻幀與重構幀之間的差異計算損失,對該分支進行優(yōu)化.同時使用結合TCB 的視覺-語言聯(lián)合語義嵌入分支實現(xiàn)視覺內(nèi)容與語言的語義對齊.最后將兩者的多個輸出通過注意力機制進行融合,提升句子質量.Aafaq等也認為對視頻進行更為有效的特征編碼是提升性能的關鍵因素之一.他們雖然也使用了2D/3D 特征,但并不是將其直接送入語言模型或者通過其他方式對2D/3D 特征進行選擇使用,而是使用層次化短時傅里葉變換,對特征進行再次抽象與壓縮,獲取多尺度的時空特征;然后結合目標檢測、動作識別,挖掘更多的視覺對象語義,組成語義更為豐富的視頻特征.最后經(jīng)過全連接變換,其輸出送入雙層GRU 網(wǎng)絡進行解碼,進而生成描述句子[81].可以看出,這些工作已不滿足于3D 卷積特征的簡單使用,而是從更本質的層次上對其進行變換,更為全面而深入地挖掘視頻中的有效時空特征,并通過再次選擇與優(yōu)化,將其有效注入到語言模型中,為生成更高質量的視覺描述服務.

2.3.2 基于3D 卷積特征的視頻密集描述與結構化表達

與使用序列網(wǎng)絡生成視頻描述類似,人們也探索使用3D 卷積特征為視頻生成密集描述語句或結構化描述語段.Yu 等為了彌補單條句子不能完整描述視頻內(nèi)容的缺陷,設計了一種層次化RNN 模型,為同一視頻生成多條內(nèi)容可互補的描述句子[82].該方法首先使用C3D[16]與iDT 模型[30]提取視頻特征,同時與相應的句子詞匯特征進行嵌合,并輸入到第一級RNN 網(wǎng)絡中(具體使用GRU).該層輸出與視頻特征進行結合后,使用兩級注意力機制實現(xiàn)視覺語義與語言之間的對齊.同時第一級RNN 的輸出也送入第二級RNN 網(wǎng)絡,與句子級嵌入式特征向量一起,判斷段落的當前狀態(tài),并將其返回第一級RNN 網(wǎng)絡中.這種方法雖然通過兩層RNN網(wǎng)絡的級聯(lián)實現(xiàn)密集描述,但其只側重于挖掘語言(句子)之間的關系,忽視了視頻內(nèi)容之間的高層語義關聯(lián),同時也缺乏用于訓練的參考段落,只使用句子級的嵌入特征輔助語段生成,其生成的多條句子看起來仍然是離散的,缺少明顯的結構化特征,句子格式和用詞也缺乏靈活性.Iashin 等則結合I3D 特征與VGGish 音頻特征對視頻進行編碼表達,并設計了一種雙模態(tài)轉換器(Bi-modal transformer),進而實現(xiàn)事件定位與密集描述生成的聯(lián)合優(yōu)化與測試[83],其模型簡潔,性能優(yōu)越.Park 等則提出一種基于身份感知的視頻多條句子生成模型[84].他們利用I3D 模型提取視頻時空特征,并結合臉部特征,使用轉換器模型將其解碼為多條語句描述,并通過人物身份體現(xiàn)多條語句之間的相互語義關聯(lián).這種方式已初具結構化的特征,但仍較為粗糙,各語句之間不能體現(xiàn)事件之間的時序、因果等邏輯關系.

Krishna 等則提出了一種面向事件的密集描述方法[85],使用3D 卷積網(wǎng)絡提取視頻特征,然后將其送入一種改進的深度動作推送(Deep action proposals,DAP)模塊[86],以獲取不同事件尺度上可能的事件,并將關于每個事件的隱層輸出送入語言模型,同時結合相鄰事件的上下文信息生成事件的描述句子.該方法不追求結構化的段落描述,也不刻意挖掘各事件之間的語義關聯(lián),而是以能夠生成更加全面而詳細的描述為目標,通過引入多粒度的事件檢測機制,使得用戶能夠通過描述全方位地了解視頻內(nèi)容.Li 等則更進一步,他們將事件定位與描述生成進行聯(lián)合優(yōu)化,避免模型陷入局部最優(yōu)[87].具體來說,該方法首先采用3D 卷積網(wǎng)絡提取視頻的片段級時空特征,然后結合動作、背景等先驗知識預測推送的事件,并劃分調整各事件邊界.對各推送事件排序后,選擇置信概率高的事件,結合視覺屬性,送入語言模型進行解碼(語言模型可單獨采用基于METEOR 指標的強化學習框架進行優(yōu)化).整個過程中,推送事件檢測、邊界劃分、句子生成等環(huán)節(jié)采用端到端的方式進行訓練,模型較為簡潔,訓練較為方便,且在生成描述時,去除了大量冗余句子,具有較高的實用價值.Wang 等使用C3D模型提取視頻特征后,使用一種時序事件推送模塊對視頻事件進行推送,然后構建一種基于事件的時序-語義關聯(lián)模型,為視頻生成密集描述[88].

Park 等則針對視頻結構化描述生成問題,采用了對抗學習(Adversarial learning)的思路,使用生成器為每個事件生成多條可用的候選句子,并通過判別器對其進行最優(yōu)選擇[89].具體地,他們首先提取視頻的2D/3D 卷積特征及視覺區(qū)域卷積特征,并使用注意力機制對特征進行融合,然后將其送入語言模型.在訓練時,通過設計視覺判別器判斷句子與相應事件的關聯(lián)程度,使用語言判別器評估句子結構與語義信息的準確程度,并通過構建 “語句對”判別器計算不同句子之間的關聯(lián)程度;最后根據(jù)三者的誤差對生成器中的參數(shù)進行優(yōu)化更新.

2.4 混合方式

通過對現(xiàn)有主流模型進行梳理可以發(fā)現(xiàn),很多模型使用了多種視覺特征處理方法,如基于3D 卷積特征的模型,其一般會結合序列均值特征或RNN序列特征建模的方法,對視頻信息進行更為充分的挖掘與利用;而基于記憶網(wǎng)絡序列特征的模型,也會結合序列均值特征,指導描述語句的生成.

除使用更復雜的方法對視頻特征進行編碼外,研究者考慮在語言模態(tài)編碼與解碼,以及視覺與語言兩種模態(tài)信息的相互融合等方面提升模型性能.隨著自然語言處理技術的發(fā)展,研究者已不滿足于只從視覺特征的充分挖掘與利用等方面改善模型表現(xiàn),而是從語言的語義關聯(lián)挖掘及其與視覺信息的關聯(lián)協(xié)同出發(fā),進一步提升模型性能.

不同于傳統(tǒng)框架中在語言編碼時簡單使用獨熱碼(One-hot)或Word2Vec 生成嵌入式向量的方法,研究者開始研究使用更為復雜的語言處理模型,以提取表達能力更強的語言特征.如Sun 等開發(fā)了VideoBERT 模型[90],將預訓練的語言模型BERT[91]引入到了視頻描述任務中.他們使用基于端到端轉換器的視頻描述框架[52],利用VideoBERT 提取視頻與語言關聯(lián)語義特征,并將其與S3D (Separable 3D CNN)特征[92]結合在一起,使用轉換器為視頻生成語句描述.此外,他們還提出了一種對比雙向轉換器 (Contrastive bidirectional transformer)模型[93],直接使用S3D 提取視頻特征,使用預訓練完畢的BERT 模型提取文本特征,然后將兩種特征送入一個交叉的轉換器,并結合注意力機制,進行多任務訓練.Luo 等試圖構建一個用于多模態(tài)理解與生成的統(tǒng)一視覺-語言預訓練模型.他們采用轉換器作為骨干網(wǎng)絡,設計了包括語言和視覺單模編碼器、視覺-語言交叉編碼器及解碼器等在內(nèi)的多個組件,并通過多個目標函數(shù)對各組件在大規(guī)模視頻數(shù)據(jù)集上進行聯(lián)合優(yōu)化,以獲得更好的視覺和語言特征表達[94].

2.5 討論

上述總結與分析說明,對于視頻標題生成與描述的研究目前已經(jīng)取得巨大進展.但無論是單獨使用序列網(wǎng)絡對視頻特征進行建模、3D 卷積網(wǎng)絡提取視頻時空特征,還是各種混合方法,其模型對于視頻內(nèi)部的情感與個性化信息挖掘都較為欠缺.一方面是由于視頻內(nèi)容更為復雜多變,尤其是對于復雜的長視頻(如圖9 所示),其中可能包含多個需要表現(xiàn)情感的主體,每個主體隨著時間線的推進,其情感也可能發(fā)生變化,其情感信息的發(fā)現(xiàn)與表征都較為困難.

圖9 含有情感與動態(tài)時序信息的復雜視頻示例Fig.9 Video with rich emotion and motion feature

另一方面,當前也缺少相應的情感描述數(shù)據(jù)集與合理的評價方法,而對于包含情感與個性化及其相關變化的數(shù)據(jù)樣本在收集、標注等方面都較以往的其他任務數(shù)據(jù)集更為費時、費力,且情感與個性化的評價存在較大的主觀成分,通過自動評價的情感或個性化評價指標設計在合理性解釋、有效性證明等方面也存在很大障礙.針對這些問題,可以參考視頻密集描述工作,按動作或事件對視頻進行劃分;并結合目標檢測、表情識別等技術,對情感主體進行追蹤與表征.同時,建立時空語義拓撲圖,對其中各主體之間的交互與演化進行表示.為解決數(shù)據(jù)集收集與標注困難問題,一方面可結合小樣本學習技術,通過有限的學習樣本,對未知的視頻數(shù)據(jù)進行預測.另一方面,可借鑒弱監(jiān)督學習方法,從已有的數(shù)據(jù)中學習大量的先驗知識,結合現(xiàn)有的訓練樣本,輔助情感或個性化句子的生成.而對于情感與個性化評價方法,仍可參考現(xiàn)有的自動評測方法,但需要設計專門的評價機制,如情感用詞準確性、情感句子語義準確性等,并通過客觀實驗,將其結果與傳統(tǒng)指標進行對比,同時也需要開展相關主觀實驗,驗證指標結果與人類認知共同體的整體契合程度,對其合理性、可行性與有效性進行證明.其實,不僅對于視頻標題生成與描述任務,針對圖像描述,目前雖然已有部分相關方法、模型算法及數(shù)據(jù)集等[69,95-100],但上述問題及思路同樣適用于融合情感的圖像描述任務,同樣需要在方法、數(shù)據(jù)集及評價指標等方面進一步研究與探索.

此外,當前工作難以對視頻內(nèi)部所蘊含的情感與邏輯語義進行挖掘與表達,其原因還在于關于視頻與語言之間的跨媒體/模態(tài)之間的轉換缺乏更多合理的可解釋性分析.如在訓練時,語言的結構化邏輯信息如何體現(xiàn)在不同的視覺信息中,如何建立其與各視覺實體之間的關聯(lián)等;視頻中的情感信息通常是表現(xiàn)在具體的表情、動作或場景中,判別表現(xiàn)強烈情感(如高興、悲傷等)的屬性較為容易(如可通過大笑、跳舞等表情或動作),但當情感表現(xiàn)較為微弱(如內(nèi)疚、遺憾等)時,則必須結合多種視覺信息(如上下文環(huán)境、關系等)對其進行綜合推理.無論是構建更強更合理的視覺與語言之間的邏輯關聯(lián),還是根據(jù)各種先驗知識對情感進行推理,都需要對模型的可解釋性進行更加深入的理解與分析,進而明確其內(nèi)部的運行機理,并指導模型的設計與優(yōu)化.

3 相關數(shù)據(jù)集與評價方法

視頻標題生成與描述的驗證與評價比其他傳統(tǒng)的視覺任務(如分類識別[8-11]、目標檢測[101-103]、圖像/視頻檢索[104-105]等)更加復雜.在對生成的標題與描述進行統(tǒng)計分析時,其評價指標不僅需要對詞匯預測的精度、句子長度、連貫性進行評價,還需要對句子的語義豐富程度進行衡量.在驗證數(shù)據(jù)集的構建方面,不僅需要考慮視頻的類型、復雜程度,在標注時,還需要兼顧用詞的準確性、與視頻內(nèi)容的關聯(lián)度,以及整條句子的連貫性與語義性,構建過程較為耗時、費力.而對于更高層次的視頻理解與描述任務,如融合情感、個性化及隱含語義挖掘的視頻描述,其評價指標的設計與數(shù)據(jù)集構建更為困難.目前,針對視頻簡單描述、密集描述與結構化描述,已出現(xiàn)多個公開的數(shù)據(jù)集;同時,人們也借鑒機器翻譯中的BLEU (Bilingual evaluation understudy)[106]、METEOR (Metric for evaluation of translation with explicit ordering)[107]、ROUGE-L (Recall-oriented understudy for gisting evaluation)[108]等評價方法,并將其引入到視覺描述任務中,對生成的描述進行多方面的考量.本節(jié)對目前常用的視頻描述數(shù)據(jù)集、相關評價方法,以及部分模型性能進行了梳理與總結.

3.1 視頻描述常用評價方法與指標

由于視覺描述(包括視頻描述與圖像描述)任務與機器翻譯具有相似的流程,其評價也多是借用機器翻譯中的思想與方法,將測試集中的參考句子與生成句子進行對比分析,統(tǒng)計準確用詞或短語的數(shù)量,計算參考句子與生成句子之間的相似程度等.目前,在多數(shù)視覺描述工作中,人們一般使用BLEU[106]、METEOR[107]、ROUGE-L[108]與CIDEr (Consensusbased image description evaluation)[109]等指標對生成的描述句子進行綜合評價.對于BLEU 指標,又可分為四個子指標BLEU-1 (B-1)、BLEU-2 (B-2)、BLEU-3 (B-3)與BLEU-4 (B-4).該方法主要通過計算生成句子與參考句子中 “n-元組(n-gram)”的匹配程度(其中n∈ {1,2,3,4}),為生成句子進行統(tǒng)計評分,n取值越大,且BLEU-n分值越高,說明句子的連貫性越好.該指標中還設計了懲罰因子,當生成句子長度小于參考句子時,對句子進行懲罰,降低相應的分值.BLEU 指標能夠對生成句子質量進行較為直接的衡量,但由于其重點考察生成句子中詞匯/短語預測的準確率(Precision),未考慮召回率(Recall),因此難以反映生成句子的語義豐富程度.

METEOR 方法則同時兼顧了生成句子詞匯/短語選擇與使用的準確率與召回率.它使用多種匹配對齊的方式(精確匹配、同義詞匹配、詞根匹配)生成對齊集合,并以該集合大小與生成句子長度的比值為準確率,以與參考句子長度的比值為召回率,然后使用調和均值的方式,計算生成句子的評價分值.同樣地,METEOR 方法也定義了相應的懲罰因子,但其對于句子的連貫性更為關注,當句子中的詞匯/短語順序與參考句子不一致時,其懲罰因子將發(fā)揮作用,降低對應分值.該評價方法不僅對生成句子的準確性與連貫性進行較為合理的評價,對其語義豐富程度也能夠進行一定程度的衡量(使用了同義詞匹配與詞根匹配),因此其應用更為廣泛.如在密集描述與結構化描述任務中,其更注重語義性的表達,METEOR 方法能夠較為合理地反映出多條句子語義豐富程度.除METEOR 方法外,ROUGE-L 方法也同時考慮了準確率與召回率兩個因素.該方法定義了最長公共子串(Longest common subsequence,LCS)的概念,將參考句子在生成句子中的最長公共子串長度與生成句子長度的比值作為準確率,以與參考句子長度的比值作為召回率,最后計算其調和均值作為評價分值.相對而言,ROUGE-L 方法雖也兼顧了召回率,但其更關注句子的連貫性,評價較為單一.

無論是BLEU、METEOR,還是ROUGE-L,其設計初衷都是為機器翻譯而服務,但在機器翻譯任務中,其語言含義具有確定性,不同的譯者翻譯出來的句子差別較小.對于視覺數(shù)據(jù)而言,不同的人由于知識、經(jīng)驗、習慣,以及對于視覺內(nèi)容的理解等可能有很大區(qū)別,因此其標注的句子在句式結構、用詞/短語、整體表達等方面也存在很大差異.為此,Vedantam 等提出一種基于標注 “共識”的思想,并設計了CIDEr 指標[109],實現(xiàn)更具針對性的視覺描述語句的語義性評價.具體來說,CIDEr 將與待描述圖像/視頻對應的所有參考句子作為一個整體,統(tǒng)計其中 “n-元組” 的分布,并以此為依據(jù),為生成句子中的 “n-元組” 賦予不同的TF-iDT (Term frequency-inverse document frequency) 權值;然后以攜帶TF-iDT 信息的 “n-元組” 為基礎,計算參考句子與生成句子之間的相似度,得出評測分值.此外,Anderson 等則從視覺語義對象準確性的角度出發(fā),設計了SPICE (Semantic propositional image caption evaluation)評價指標[110].該方法使用基于概率的上下文無關文法依賴方法,將參考句子與生成句子都解析成為語義對象場景圖的形式,然后再分別將其轉換為 “n-元組”集合,以此為基礎,計算生成句子與參考句子中各視覺語義對象的匹配程度,具體借鑒METEOR 中的方法,采用精確匹配、同義詞匹配與詞根匹配的方式統(tǒng)計對齊集合,然后計算生成句子中語義對象的準確率與召回率,采用調和均值的方法計算最終得分.SPICE 指標也能夠較為合理地衡量生成句子的語義性,但其較為關注靜態(tài)視覺語義對象(如物體、顏色、屬性等),對動態(tài)語義(如動作、關系變化等)的判斷可能不夠準確,影響對整條句子的語義性判斷.在對模型進行具體評價時,一般都是結合多種指標,從多個側面衡量生成句子的質量,對模型進行更為客觀的評價.(關于BLEU、METEOR、ROUGE-L、CIDEr 等評價指標,目前已有具體的代碼實現(xiàn)5https://github.com/tylin/coco-caption).

除以上自動評測方法外,人們也常使用人工方法對句子進行打分評價.如在微軟舉辦的視頻到文本MSR-VTT 挑戰(zhàn)賽6http://ms-multimedia-challenge.com/2017/challenge[111]中,組織者對提交的生成句子不僅使用BLEU、METEOR、CIDEr 等指標對結果進行評分,還使用人工對生成句子的連貫性、相關性及可用性(對盲人的可幫助程度)等方面進行評比,力求更全面地對模型性能進行評價.但對于大規(guī)模的測試數(shù)據(jù),人工評價耗費巨大,且受限于評判者的個人經(jīng)驗,其結果具有一定的主觀性,在模型復現(xiàn)與對比時,不易操作,不同的評判者可能會產(chǎn)生不同的結果.

通過對以上視覺描述評價方法的總結與分析可以發(fā)現(xiàn),當前指標一般都是面向通用視頻描述任務,每個指標其衡量的側重點可能有所不同,但任何單獨一類指標都難以真正對句子質量進行較為合理的評價.尤其是針對如融合情感語義、個性化/風格、邏輯語義等方面的視覺描述任務,當前方法難以對其進行有效評價.如對于融合情感語義的視頻描述任務,即使其BLEU 或者CIDEr 的分值較高,但句子中并不一定包含情感信息,相反地,生成句子中含有較為豐富的情感語義,但其它評價指標的分值也可能較低,因此只使用現(xiàn)有的評價指標難以對執(zhí)行這些任務的模型進行較為合理、公平的對比與評價.在解決這一問題時,需要設計單獨的用詞準確性、詞匯嵌入的合理性與語義性等更具針對性的評價指標,同時也需結合現(xiàn)有的其他指標(如BLEU、METEOR、CIDEr 等)對句子進行綜合評價.

3.2 視頻標題生成與描述數(shù)據(jù)集

對于視頻而言,其數(shù)據(jù)形式在二維靜態(tài)結構的基礎上增加了時間維度,數(shù)據(jù)結構更加復雜,對其進行語義抽象并通過自然語言進行表達也更為困難.因此,數(shù)據(jù)集的構建更加耗時費力.目前用于視頻描述的數(shù)據(jù)集多集中于傳統(tǒng)的單句描述,其描述的視頻也多是單個場景或動作,內(nèi)容較為簡單.隨著研究的深入,人們提出視頻密集描述與段落描述的任務,由此也產(chǎn)生了用于這些任務的數(shù)據(jù)集.本節(jié)主要對上述三種數(shù)據(jù)集進行闡述,并給出各主流模型在其上的性能表現(xiàn),并分析當前存在的問題及面臨的困難.

3.2.1 視頻簡單描述數(shù)據(jù)集及各模型性能

在傳統(tǒng)視頻描述領域,模型提取視頻特征,并據(jù)此為視頻生成高度概括的描述句子.為驗證模型性能,研究人員已構建出多個規(guī)模不一的相關數(shù)據(jù)集.目前流行的常用公開數(shù)據(jù)集主要包括MSVD7http://www.cs.utexas.edu/users/ml/clamp/videoDescription/YouTubeClips.tar[6],以及更大的MSR-VTT20168http://ms-multimedia-challenge.com/2017/dataset[111].MSVD 數(shù)據(jù)集由微軟研究院發(fā)布,共包含1 970 個視頻,時長一般較短(10~ 25 秒),視頻內(nèi)容較為簡單,多是單一生活場景或動作(如切菜、鍛煉等).該數(shù)據(jù)集含有多個語種的描述句子,一般只使用其英文部分,共有80 827條句子,每個視頻對應的句子條數(shù)不一,但多數(shù)都在20 條以上.按照常用的劃分標準,1 200 個視頻及對應的48 774 條句子用于模型訓練,100 個視頻與對應的4 290 條句子用于參數(shù)尋優(yōu),其余670 個視頻及其27 763 條句子用于模型測試.該數(shù)據(jù)集應用較為廣泛,是常用的視頻描述數(shù)據(jù)集之一.其具體示例如圖10 所示.

圖10 MSVD 數(shù)據(jù)集部分示例(訓練集)Fig.10 Examples from MSVD (training set)

基于不同視頻特征處理方式的部分主流模型在該MSVD 上的性能表現(xiàn)如表1~表4 所示.由結果可知,雖然不同模型所使用的視覺特征類型可能有所不同,直接對比缺乏公平性,但總體上,對于視覺特征的處理方式并不是直接決定模型性能的主要因素;即使是視覺語義結構可能被破壞的序列均值特征方式,在模型后期對其進行合理的操作后,仍能獲得較為良好的性能表現(xiàn)(如RecNet 模型[47-48]).但與采用強化學習的框架相比,其性能則稍有落后,因為強化學習能使模型優(yōu)化的目標與測試保持一致.因此,采用強化學習策略是突破當前性能瓶頸較為有效的技術手段之一(如SibNet 模型[80]).此外,將多種特征處理方法結合在一起,進一步改進語言模型,引入多種領域先驗知識(如構建對象關系圖[78,94]等),也可進一步提升詞匯預測的準確性和整條句子的語義性.

表1 部分基于視覺序列特征均值/最大值的模型在MSVD 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 1 Performance (%) of a few popular models based on visual sequential feature with mean/max pooling on MSVD

表2 部分基于序列RNN 視覺特征建模的模型在MSVD 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 2 Performance (%) of a few popular models based on visual sequential feature with RNN on MSVD

表3 部分基于3D 卷積特征的模型在MSVD 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 3 Performance (%) of a few popular models based on 3D visual feature on MSVD

表4 其他部分主流模型在MSVD 上的性能表現(xiàn)(%)Table 4 Performance (%) of a few other popular models on MSVD

對于MSR-VTT2016 數(shù)據(jù)集[111],也是由微軟研究院收集并發(fā)布.其采用了主題收集的方式,使用20 個類別,包含257 個常用主題搜索相關視頻.相比于MSVD,該數(shù)據(jù)集更大,包含了10 000 段視頻(總時長約為41.2 小時),每段視頻對應20 條參考句子.按照使用規(guī)則,7 010 段視頻及其對應句子用于模型訓練和驗證(其中6 513 段視頻與參考句子用于訓練,497 段視頻與參考句子用于參數(shù)尋優(yōu)),其余2 990 段視頻及其參考句子用于測試.圖11 為該數(shù)據(jù)集的部分示例.

圖11 MSR-VTT2016 數(shù)據(jù)集部分示例(訓練集)Fig.11 Examples from MSR-VTT2016 (training set)

在該數(shù)據(jù)上,目前常用方法的性能表現(xiàn)如表5~表8 所示.由結果可以看出,在該數(shù)據(jù)集上,各模型的性能表現(xiàn)與在MSVD 數(shù)據(jù)集上的性能趨勢類似,但整體而言,采用序列均值/最大值的視覺特征處理方式的模型性能確已落后于RNN 序列建模與3D 卷積特征建模方法的模型.圖12 中展示了部分由基于3D 卷積特征的SAAT 模型[76]所生成的句子示例.

圖12 SAAT 模型生成描述句子示例(“RF”表示參考句子,“SAAT” 表示模型所生成的句子)Fig.12 Candidate sentence examples with SAAT model(“RF” stands for references,and “SAAT” denotes the generated sentences with SAAT)

表5 部分基于視覺序列均值/最大值的模型在MSRVTT2016 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 5 Performance (%) of visual sequential feature based models with mean/max pooling on MSR-VTT2016

表6 部分基于RNN 視覺序列特征建模的模型在MSRVTT2016 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 6 Performance (%) of a few popular models based on visual sequential feature with RNN on MRT-VTT2016

表7 部分基于3D 卷積特征的模型在MSR-VTT2016 數(shù)據(jù)集上的性能表現(xiàn)(%)Table 7 Performance (%) of a few popular models based on 3D visual sequential feature on MRT-VTT2016

表8 其他主流模型在MSR-VTT2016 上的性能(%)Table 8 Performance (%) of other popular models on MRT-VTT2016

3.2.2 視頻密集/結構化描述數(shù)據(jù)集及各模型性能

視頻中視覺內(nèi)容更為復雜,語義更為豐富,單條句子更加難以對其進行較為完整的表述.為此,研究者提出了一系列視頻密集描述或結構化描述方法,同時構建了多個較為典型的驗證數(shù)據(jù)集.該類型的數(shù)據(jù)集構建與標注比一般視頻描述更為困難,不僅需要考慮視頻中的動作、事件及場景變換,還要兼顧各視覺語義對象的不同粒度問題,標注的工作量也更大.目前用于視頻密集描述或結構化描述的數(shù)據(jù)集主要包括ActivityNet Captions9https://cs.stanford.edu/people/ranjaykrishna/densevid/[86]、You-CookII10http://youcook2.eecs.umich.edu/[120]等.

對于ActivityNet Captions 數(shù)據(jù)集,共包含了約20 000 個視頻片段,多數(shù)視頻含有3 個以上的事件,每個事件被標注了開始時間和結束時間,整個數(shù)據(jù)集約有100 000 條描述語句.對于每段視頻的描述,約94.6 %的視覺內(nèi)容都能夠被重新表達出來,同時約有10 %的描述內(nèi)容是重復的,這也說明不同的事件定位存在相互重疊或覆蓋情況.按照一般的使用方法,該數(shù)據(jù)集中10 024 個視頻與其對應的描述語句用于訓練,4 926 個視頻及其描述用于驗證,其余的5 044 個視頻及其描述用于模型測試.在該數(shù)據(jù)集的驗證集上,當前部分主流模型的性能表現(xiàn)如表9和表10 所示.其中SDVC (Streamlined dense video captioning)模型[55]生成的部分描述示例如圖13 所示.

圖13 SDVC 模型生成的部分描述示例(“RF-e”表示參考語句,“SDVC-e” 表示SDVC 模型生成的句子)Fig.13 Description examples with SDVC model (“RF-e”stands for the references,and “SDVC-e” denotes the generated sentences with SDVC)

表9 部分基于RNN 視覺序列特征建模的模型在ActivityNet captions 數(shù)據(jù)集(驗證集)上的性能表現(xiàn) (%)Table 9 Performance (%) of a few popular models based on visual sequential feature with RNN on ActivityNet captions dataset (validation set)

表10 部分基于3D 卷積特征的模型在ActivityNet captions 數(shù)據(jù)集(驗證集)上的性能表現(xiàn) (%)Table 10 Performance (%) of a few popular models based on 3D visual sequential feature on ActivityNet captions dataset (validation set)

從表中結果可以看出,目前的主流模型在BLEU和CIDEr 等指標上的性能并不優(yōu)越,這意味著所生成句子在詞匯準確性、連貫性與語義性方面都還存在很大的提升空間.而且,當前的結構化描述模型也都是在密集描述數(shù)據(jù)集上進行驗證,對生成語段的整體連貫性與邏輯性等缺乏較有針對性的評估.因此,在視頻的精細化描述方面,包括密集描述、結構化語段描述,以及融合情感、個性化/風格與邏輯語義的結構化描述等,還存在大量問題亟待解決,在模型設計、數(shù)據(jù)集構建,以及更為合理、公平的評價指標設計等方面還留有很多空白,值得進一步研究.

4 總結與展望

視頻描述任務與圖像描述類似,都是將非結構化的視覺數(shù)據(jù)轉換為結構化的自然語言,其間使用中間語言(視覺特征)進行橋接,以機器學習技術(尤其是深度學習技術)為支撐,運用多種計算機視覺和自然語言處理技術,為視頻生成準確、連貫且語義豐富的描述句子.目前,針對圖像標題生成與描述,人們已開發(fā)出多種效果顯著的模型與方法,在圖像簡單描述[18-19,63-64,121-124]、圖像密集描述[50,125-127]、結構化段落描述[128-129],以及情感及個性化描述[69,95-99]等方面均開展了卓有成效的研究工作.但由于視頻在靜態(tài)圖像的基礎上增加了時間維度,其數(shù)據(jù)更為復雜,信息更為豐富,視覺語義提取與挖掘更加困難,為其生成可靠且質量較高的描述語句的挑戰(zhàn)性也更大.目前人們已借鑒機器翻譯任務的流程與框架,結合圖像標題與生成中的多種技術,使用3D 卷積網(wǎng)絡、RNN 序列建模機制、注意力機制、視覺屬性、視覺概念、層次化序列記憶網(wǎng)絡、強化學習技術等,設計出一系列效果顯著的方法與模型,已能為視頻生成簡單描述語句,或為部分視頻生成密集描述/結構化描述語句,推進了視頻標題生成與描述任務的進展.

本文系統(tǒng)回顧了視頻標題與描述生成的研究歷史,分析了其研究現(xiàn)狀與前沿動態(tài),對當前的主流模型進行了梳理、歸納,并指出了部分模型的優(yōu)越性及可能的局限性.在未來的工作中,以下幾個方面值得進一步研究與探索:

1)在含有多個場景、人物及事件的復雜視頻中,對其邏輯語義的發(fā)現(xiàn)、表征及嵌入的研究尚存在大量空白.在具體研究中,不僅要分析視覺信息中各物體、人物、事件之間的關系,還需要將其映射為自然語言的具體成分,合理地嵌入到生成的句子中,實現(xiàn)視頻的精細化、結構化表達與描述.為解決該問題,一方面可借助于視覺推理技術,以目標識別與檢測等方法完成視覺對象的感知與發(fā)現(xiàn),以關系檢測、圖網(wǎng)絡等方法發(fā)現(xiàn)并構建相應的視覺關系及其演化拓撲,完成視覺關系的知識圖構建與關聯(lián)推理;另一方面,研究視覺關系與語言邏輯之間的映射與轉換,合理使用視覺屬性、視覺概念等先驗知識,設計更為魯棒的層次化序列模型,實現(xiàn)視覺關聯(lián)語義到語言邏輯語義的自然嵌入.

2)視頻描述模型的學習代價比一般的分類、識別等任務更為高昂,其訓練數(shù)據(jù)的收集與標注常耗費大量的人力與物力,且質量也難以管控.針對這一問題,可借鑒零樣本與小樣本學習技術,通過樣本中的概念與屬性推理,以較少的訓練數(shù)據(jù)實現(xiàn)模型較為充分的優(yōu)化,生成較為流暢、語義較為豐富、質量較為可靠的描述句子.同時也可結合遷移學習及強化學習策略,引入域外知識,對模型參數(shù)進行快速優(yōu)化,或通過不斷試錯,增強模型對于正確解的敏感程度,實現(xiàn)模型在樣本受限情況下的自主學習.除研究模型的優(yōu)化策略外,同樣也需要構建更為完備的相關數(shù)據(jù)集,對其構建方法、標注規(guī)則及其質量管控等方面作出更為有益的嘗試,以質量更優(yōu)的訓練數(shù)據(jù)推進視頻描述任務走向實際應用.

3)在各種復雜視頻中,尤其是包含人物的視頻,其內(nèi)容常包含豐富的情感變化及隱含語義,同時不同的視頻內(nèi)容對人們也會產(chǎn)生相應的情感影響或個人理解.而目前人們在研究視頻描述時,往往只關注其中的事實表達,對情感、個性化及隱含信息關注較少,造成生成的句子趣味性、可讀性不強.為此,需要結合人類的情感心理及視覺情感發(fā)現(xiàn)技術,在表情、動作及上下文語義環(huán)境上建立其與情感的映射關系,并通過視覺屬性/概念、注意力機制等技術將情感及個性化信息有機嵌入到生成的句子中.同時加強對視頻描述可解釋性的研究,構建相應的知識圖譜,并結合零樣本學習策略,通過對現(xiàn)有知識的學習,對視覺信息之外的隱含語義進行預測和推理,進一步增強生成句子的可用性.

4)視覺描述任務的評價內(nèi)容及過程比其他視覺任務更加復雜,不僅需要判斷生成句子對于視頻中物體、人物、動作及關系描述的準確性,還需要對句子的連貫性、語義性及邏輯性進行衡量.目前的策略多是借鑒機器翻譯的評價指標,評價內(nèi)容較為單一.當前雖然也有如CIDEr、SPICE 等面向視覺描述任務的評價方法,但在一些更具針對性的評價任務中,如對于情感、個性化及邏輯語義的判斷與評價,這些方法都難以對其進行有效的衡量.因此,需要結合現(xiàn)有的評價方法設計思路,開發(fā)更為合理的具有針對性及綜合性的指標體系,為模型及其描述提供更為客觀、公平的評價機制,尤其是為強化學習的模型優(yōu)化方法,提供更為貼近人們描述與評價習慣的學習與反饋策略.

猜你喜歡
語義特征方法
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: www欧美在线观看| 欧美在线精品怡红院| 日本少妇又色又爽又高潮| 538精品在线观看| 91av成人日本不卡三区| 亚洲福利视频网址| 99热这里只有免费国产精品| 亚洲一区二区约美女探花| 在线欧美a| 97精品国产高清久久久久蜜芽 | 91福利一区二区三区| 91精品免费久久久| 亚洲欧美人成电影在线观看| 亚洲精品大秀视频| 日韩欧美国产精品| 欧美伦理一区| 国产成人精品第一区二区| 福利一区在线| 国产在线观看一区精品| 尤物精品视频一区二区三区| 欧美97色| 中文纯内无码H| 国产色爱av资源综合区| 国产成人高清在线精品| 啊嗯不日本网站| 国产打屁股免费区网站| 五月激情综合网| 亚洲中文字幕在线观看| 99国产精品国产高清一区二区| 成人年鲁鲁在线观看视频| 2021国产精品自产拍在线| 91麻豆国产视频| 国产一级在线观看www色 | 国产性生大片免费观看性欧美| 国产Av无码精品色午夜| 亚洲欧美综合在线观看| 免费在线一区| 久久精品丝袜| 中国一级毛片免费观看| 9999在线视频| 精品人妻系列无码专区久久| 国产精品第页| 在线观看国产精美视频| 欧美va亚洲va香蕉在线| 成人国产免费| 美女内射视频WWW网站午夜| 2022精品国偷自产免费观看| 欧美一区二区三区不卡免费| 亚洲欧美成人综合| 91色爱欧美精品www| 第九色区aⅴ天堂久久香| 国模私拍一区二区| 激情无码字幕综合| 久久国产乱子伦视频无卡顿| 欧美一级专区免费大片| 91po国产在线精品免费观看| 国产网站免费看| 中文国产成人精品久久| 亚洲人成日本在线观看| 国产区在线看| 亚洲欧美自拍视频| 国产打屁股免费区网站| 日韩a级片视频| 在线国产毛片| 亚洲精品国产精品乱码不卞| 亚洲最新网址| 国产精品19p| 自拍偷拍欧美| 伊人成人在线视频| 婷婷亚洲视频| 国产粉嫩粉嫩的18在线播放91| 免费可以看的无遮挡av无码 | 国产亚洲欧美日韩在线观看一区二区| 日韩精品高清自在线| 亚洲综合色婷婷| 国产精品视频观看裸模| 国产av色站网站| 久久精品丝袜| A级毛片无码久久精品免费| 久久精品日日躁夜夜躁欧美| 2021国产乱人伦在线播放| 99精品伊人久久久大香线蕉|