葉曉輝,楊 欣,李 濤
(南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016)
視頻摘要是用有限文字描述一段視頻,這是最具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一[1-2].大多數(shù)視頻摘要方法都是基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的編碼器-解碼器框架.基于CNN的編碼器接收輸入視頻的一組連續(xù)幀,并產(chǎn)生視覺表示,以生成描述視頻的準(zhǔn)確標(biāo)題.然后,基于RNN的解碼器將視覺編碼的特征和先前預(yù)測(cè)的單詞作為輸入,逐詞地生成摘要.
由于視頻包含豐富的信息,其中包括視覺信息,音頻信息,分類信息等等,所以如何有效利用這些復(fù)雜信息也是一個(gè)很重要的研究方向.從視頻的編碼器來看,之前的視頻特征提取方法提取的特征,種類不夠豐富,忽略了視頻的音頻信息,分類信息以及動(dòng)態(tài)信息.對(duì)于人類來說,通過基于語義將視頻劃分為信息單元來理解視頻是很自然的事情.因此,將每一幀視為獨(dú)立的信息單元并不是理解視頻的有效方法.并且,相鄰的視頻幀之間存在著冗余信息[3].
筆者針對(duì)視頻連續(xù)幀冗余問題和提取的特征不夠問題,提出了一種基于多模態(tài)語義分組的視頻摘要模型.該模型使用3D ResNet神經(jīng)網(wǎng)絡(luò)和殘差神經(jīng)網(wǎng)絡(luò)來提取3D和2D特征;然后把音頻信息與視頻的分類信息加入多模態(tài)的框架中進(jìn)行編碼;得到多模態(tài)的特征之后需要進(jìn)行解碼,不同于之前的逐幀進(jìn)行分組的解碼模式,VMSG使用了語義分組的方式進(jìn)行解碼,將相同語義的視頻分為一個(gè)語義組進(jìn)行解碼,預(yù)測(cè)下一個(gè)單詞.基于之前的多模態(tài)特征,針對(duì)特征提取視頻摘要的生成過程進(jìn)行改進(jìn),提出了一種基于多模態(tài)語義分組的視頻摘要模型(video captioning model based on multimodal semantic grouping),VMSG模型.
文中的VMSG由4個(gè)部分組成,分別是視頻編碼模塊,短語編碼模塊,語義分組模塊,解碼模塊.為了給輸入提供更多的信息,在視頻編碼模塊采用多模態(tài)的輸入,加入了2D特征,3D特征,音頻特征以及分類特征.獲取多模態(tài)特征之后,進(jìn)行短語編碼,根據(jù)已經(jīng)獲得的單詞形成短語,再通過語義分組將視頻幀對(duì)應(yīng)短語進(jìn)行分組,形成視頻表示,再通過LSTM進(jìn)行解碼,最終生成單詞預(yù)測(cè).
文中VMSG構(gòu)建了一種多模態(tài)的分段標(biāo)簽的視頻摘要架構(gòu),其采用了多種模態(tài)輸入,極大豐富了特征的種類,對(duì)視頻摘要的生成具有積極的作用.

圖1 多模態(tài)語義分組的視頻摘要架構(gòu)
多模態(tài)輸入包括2D特征,動(dòng)態(tài)特征,視頻類別特征以及音頻特征,具體如下:
2D特征 2D特征廣泛應(yīng)用于圖像檢測(cè)和圖像分類任務(wù)當(dāng)中,它特供了提供了物體和場(chǎng)景的詳細(xì)信息.該模型預(yù)先訓(xùn)練了120多萬張圖片,這些圖片分屬 1 000 個(gè)類別.我們?cè)赗esNet[4]最后加入了一個(gè)池化層,最后生成 2 048 維的2D特征.
動(dòng)態(tài)特征 雖然ResNet能夠有效的在靜態(tài)圖像中生成視覺特征,但是對(duì)于動(dòng)態(tài)特征提取能力有限,動(dòng)態(tài)特征能夠很好的描述各個(gè)物體的運(yùn)動(dòng)信息.VMSG將二維的神經(jīng)網(wǎng)絡(luò)拓展為三維的卷積神經(jīng)網(wǎng)絡(luò)(C3D),這樣能較好的記錄動(dòng)態(tài)特征.
視頻類別特征 在視頻特征的消融實(shí)驗(yàn)中我們發(fā)現(xiàn),視頻的類別信息中包含了對(duì)視頻摘要生成有幫助的信息.比如對(duì)象是一個(gè)音樂視頻,那么音頻的權(quán)重就要適當(dāng)?shù)奶嵘\(yùn)動(dòng)類視頻中視覺權(quán)重就要提升.文中使用3D ResNet[5]網(wǎng)絡(luò)提取視頻的分類信息.
音頻特征 為了能較好的利用原有的音頻特征,使用了梅爾頻率倒譜系數(shù)(MFCC)進(jìn)行預(yù)處理,然后利用pyAudioAnalysis進(jìn)行均勻采樣,從而形成了最終的音頻特征.
有些單詞單獨(dú)使用時(shí)沒有任何含義,有些單詞單獨(dú)使用的時(shí)候含義不明確,因此VMSG進(jìn)行語義分組的時(shí)候,使用的是詞組而不是單個(gè)單詞.
為了構(gòu)建VMSG的語義詞組,需要從部分已經(jīng)生成的摘要中生成合適的單詞詞組,為了達(dá)到這個(gè)目標(biāo),需要尋找單詞之間的依賴關(guān)系.當(dāng)生成摘要的第t個(gè)單詞wt時(shí),該模塊有一個(gè)單詞表示矩陣Wt=[E[w1]…E[wt-1]]T∈(t-1)×dw.其中,E表示一個(gè)單詞嵌入矩陣.使用短語編碼器φp將單詞表示矩陣Wt生成短語表示矩陣Pt=[p1,t…pt-1,t]T∈(t-1)×dw
Pt,At=φp(Wt).
(1)
其中At=[a1,t…at-1,t]T∈(t-1)×(t-1)是單詞注意力矩陣,aj,t∈t-1為單詞的注意力權(quán)重.對(duì)于編碼器φp,該模塊使用的是Vaswani等[6]提出的自我注意力機(jī)制模塊,可以很好的建模句子中單詞之間的依賴關(guān)系.
1.4.1 短語過濾器
為了保留那些具有意義以及耦合性低的短語,本文使用了一種短語過濾器,使用短語過濾器篩選出需要的句子.使用短語的注意力矩陣來計(jì)算相似性
Rt=At(At)T.
(2)
ri,j,t代表pi,t和pj,t的相似性.過濾器會(huì)設(shè)定一個(gè)閾值,如果ri,j,t大于這個(gè)閾值,那么就判定這2個(gè)短語有關(guān)聯(lián).得到2個(gè)相關(guān)聯(lián)的短語之后,再對(duì)比2個(gè)短語與所有短語的相似性,數(shù)值大的一方將被舍棄.如∑ri,k,t>∑rj,k,t,那么pi,t將被舍棄.
1.4.2 語義調(diào)整器
(3)

(4)
(5)
si,t代表了視頻幀的特征信息以及相關(guān)的短語的信息,從而避免了相鄰幀的信息冗余.
1.4.3 解碼模塊
構(gòu)造語義信息組合之后,解碼器就要提取預(yù)測(cè)下一個(gè)單詞wt所需的信息.解碼器會(huì)根據(jù)上一個(gè)解碼器的狀態(tài)函數(shù)ht-1,給每一個(gè)語義組分配一個(gè)分?jǐn)?shù).
(6)
(7)
其中,ud、Ud、Hd和bd是可學(xué)習(xí)參數(shù),然后將Xt輸出給LSTM,下一個(gè)單詞可能的概率由一個(gè)全連接層和一個(gè)softmax層組成.
ht=LSTM(|xt;E|wt-1],ht-1).
(8)
p(wt|V,w1,…,wt-1)=softmax(Uhht+bh).
(9)
其中,Uh和bh是可學(xué)習(xí)參數(shù).解碼器與傳統(tǒng)的解碼器是類似的,不同的地方是將視頻幀特征變成了語義組.
首先對(duì)每個(gè)輸入視頻進(jìn)行均勻采樣,每個(gè)視頻采樣30幀.用這30幀圖像作為ResNet輸入,就可以獲得2D特征.提取這30幀周圍的連續(xù)幀組成一個(gè)剪輯作為3D ResNet和C3D的輸入,提取視頻的動(dòng)態(tài)特征,音頻特征也是類似的.由于是多模態(tài)的輸入,多模態(tài)的輸入必然會(huì)導(dǎo)致輸入維度的增加,這就極大的提高了對(duì)硬件的要求.為此,用一個(gè)全連接層來降低特征的維度,對(duì)3D ResNet網(wǎng)絡(luò)在Kinetics數(shù)據(jù)集上進(jìn)行訓(xùn)練之后,輸入采樣得到的視頻幀獲得相應(yīng)的標(biāo)簽.本章采用One-Hot編碼方式對(duì)標(biāo)簽進(jìn)行編碼,并且將其輸入LSTM.使用GloVe給單詞嵌入矩陣初始化,并于整個(gè)模型一起訓(xùn)練.在第一個(gè)單詞生產(chǎn)之前,使用
想要生成一個(gè)句子或者單詞,詞庫是必不可少的.文中模型詞庫全部來自MSR-VTT的訓(xùn)練集和測(cè)試集的視頻摘要,一共有 23 667 個(gè)單詞.在訓(xùn)練時(shí)我們?cè)O(shè)置dropout為0.5,其能夠很好的降低過擬合.模型采用Adam優(yōu)化器進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)為 0.000 5.
在整個(gè)實(shí)驗(yàn)當(dāng)中,在MSR-VTT中訓(xùn)練以及測(cè)試文中的模型.MSR-VTT是視頻摘要領(lǐng)域的重要數(shù)據(jù)集,不僅提供了視頻的類別,還提供了視頻的音頻特征.MSR-VTT包含了10 000個(gè),共 41.2 h 的網(wǎng)絡(luò)視頻,來自20個(gè)不同的類.每個(gè)網(wǎng)絡(luò)視頻都配有AMT工作人員制作的20個(gè)視頻摘要.
實(shí)驗(yàn)中,發(fā)現(xiàn)數(shù)據(jù)集中的視頻存在著單詞拼寫錯(cuò)誤和部分音頻信息不可使用等問題.雖然視頻摘要的所有句子的詞匯的總數(shù)為 23 667 個(gè),但是一共有 10 040 個(gè)單詞只出現(xiàn)過一次.此外,將所有單詞與維基百科的詞匯庫進(jìn)行比對(duì)后可以發(fā)現(xiàn)有836單詞是不存在的,究其原因大多是拼寫錯(cuò)誤.這樣一個(gè)有瑕疵的詞匯庫對(duì)模型的訓(xùn)練和測(cè)試是一個(gè)挑戰(zhàn).
數(shù)據(jù)集的視頻包含音頻特征,音頻特征在生成視頻摘要時(shí)效果很好.但是大約有13%的視頻不含音頻信息,所以殘缺的音頻信息對(duì)實(shí)驗(yàn)造成了困難.90%以上的視頻小于30 s,90%以上的視頻的摘要小于16個(gè)單詞,因此對(duì)視頻均勻取30幀,在能保證數(shù)據(jù)不過于龐大的同時(shí)能較好的表征視頻特征.
為了評(píng)估多模態(tài)語義分組中各個(gè)模塊的有效性,分別對(duì)各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1所示.
其中,Multi代表多模態(tài)特征,豐富文中提取的特征.SA是語義分組模塊能夠使模型組成一個(gè)語義組(包括語義注意力),PE是短語編譯模塊可以生成相關(guān)的語義單詞.從表格中可以看到,SA提升的性能最為突出,PE提升的幅度最小.SA是為了更好將相鄰幀組成一個(gè)語義組,PE是生成語義組相適應(yīng)的語義詞,與將相鄰特征組成一個(gè)語義組相比,生成語義組的語義單詞效果不是很明顯.深究其原因,SA是直接促進(jìn)生成一個(gè)語義組,而PE是間接的促進(jìn)語義組地生成.多模態(tài)的視頻特征能夠提升編碼器包含的視頻信息,所以可以明顯地提升模型性能.

表1 消融實(shí)驗(yàn)指標(biāo)對(duì)比
本節(jié)比較了該模型與現(xiàn)階段較為先進(jìn)模型的性能,結(jié)果如表2所示,可以看到VMSG在MSR-VTT數(shù)據(jù)集上是優(yōu)于大多數(shù)模型的.文中的模型在4個(gè)指標(biāo)中,有3個(gè)達(dá)到了最先進(jìn)的水平,例如在CIDEr指標(biāo)上領(lǐng)先第2名2%,在METEOR上領(lǐng)先第2名1%.在BLEU4上與最先進(jìn)的指標(biāo)相差不大,也達(dá)到了先進(jìn)水平,在ROUGE-L上與第2名性能相同.綜合來看,VMSG達(dá)到了當(dāng)前的最先進(jìn)水平.

表2 各種模型指標(biāo)對(duì)比
圖2顯示了SA-LSTM和VMSG生成標(biāo)題的示例,VMSG的預(yù)測(cè)結(jié)果比SA-LSTM準(zhǔn)確.VMSG能夠更好的生成長(zhǎng)視頻場(chǎng)景中執(zhí)行動(dòng)作的主體,如圖3,VMSG預(yù)測(cè)是一群卡通人物,而不是一個(gè),并且內(nèi)容更加準(zhǔn)確.總體而言VMSG優(yōu)于SA-LSTM.

圖2 第7743個(gè)視頻的實(shí)驗(yàn)結(jié)果
圖3是實(shí)驗(yàn)中語義組的形成過程,橙色代表注意力權(quán)重,“a man is talking”和“a ground of” 這2個(gè)短語是用部分解碼的標(biāo)題“a man is talking to a group of”中的單詞構(gòu)建的.一個(gè)語義組是通過收集一位男士講話而形成的,另一個(gè)語義組是通過收集一群人而形成的.在預(yù)測(cè)下一個(gè)單詞“people”時(shí),更多的利用了后一個(gè)語義組的信息.結(jié)果表明,VMSG能夠較好地形成語義詞組,并能夠很好地把圖像幀與語義詞組相關(guān)聯(lián).

圖3 語義組形成過程
文中提出了一種語義分組的多模態(tài)視頻描述方法,采用了基于2D特征和3D特征以及標(biāo)簽和音頻特征的多模態(tài)特征融合方式.從而使得模型的提取的特征類型非常豐富,能極大的表征視頻信息的真實(shí)狀況.將1組相關(guān)的視頻幀組成1組語義組,能夠很好的解決視頻之間的冗余問題.VMSG在MSR-VTT上取得了較好的結(jié)果.未來目標(biāo)是探索更好的多模態(tài)模型,考慮對(duì)視頻進(jìn)行上下文關(guān)聯(lián),以便更好生成視頻摘要.