基于多模態(tài)語義分組的視頻摘要模型

2022-07-18 09:12:24葉曉輝

云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年4期

葉曉輝，楊欣，李濤

(南京航空航天大學(xué) 自動(dòng)化學(xué)院，江蘇南京 210016)

視頻摘要是用有限文字描述一段視頻，這是最具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一[1-2].大多數(shù)視頻摘要方法都是基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的編碼器-解碼器框架.基于CNN的編碼器接收輸入視頻的一組連續(xù)幀，并產(chǎn)生視覺表示，以生成描述視頻的準(zhǔn)確標(biāo)題.然后，基于RNN的解碼器將視覺編碼的特征和先前預(yù)測(cè)的單詞作為輸入，逐詞地生成摘要.

由于視頻包含豐富的信息，其中包括視覺信息，音頻信息，分類信息等等，所以如何有效利用這些復(fù)雜信息也是一個(gè)很重要的研究方向.從視頻的編碼器來看，之前的視頻特征提取方法提取的特征，種類不夠豐富，忽略了視頻的音頻信息，分類信息以及動(dòng)態(tài)信息.對(duì)于人類來說，通過基于語義將視頻劃分為信息單元來理解視頻是很自然的事情.因此，將每一幀視為獨(dú)立的信息單元并不是理解視頻的有效方法.并且，相鄰的視頻幀之間存在著冗余信息[3].

筆者針對(duì)視頻連續(xù)幀冗余問題和提取的特征不夠問題，提出了一種基于多模態(tài)語義分組的視頻摘要模型.該模型使用3D ResNet神經(jīng)網(wǎng)絡(luò)和殘差神經(jīng)網(wǎng)絡(luò)來提取3D和2D特征；然后把音頻信息與視頻的分類信息加入多模態(tài)的框架中進(jìn)行編碼；得到多模態(tài)的特征之后需要進(jìn)行解碼，不同于之前的逐幀進(jìn)行分組的解碼模式，VMSG使用了語義分組的方式進(jìn)行解碼，將相同語義的視頻分為一個(gè)語義組進(jìn)行解碼，預(yù)測(cè)下一個(gè)單詞.基于之前的多模態(tài)特征，針對(duì)特征提取視頻摘要的生成過程進(jìn)行改進(jìn)，提出了一種基于多模態(tài)語義分組的視頻摘要模型(video captioning model based on multimodal semantic grouping)，VMSG模型.

1 本文模型

1.1 模型的總體結(jié)構(gòu)

文中的VMSG由4個(gè)部分組成，分別是視頻編碼模塊，短語編碼模塊，語義分組模塊，解碼模塊.為了給輸入提供更多的信息，在視頻編碼模塊采用多模態(tài)的輸入，加入了2D特征，3D特征，音頻特征以及分類特征.獲取多模態(tài)特征之后，進(jìn)行短語編碼，根據(jù)已經(jīng)獲得的單詞形成短語，再通過語義分組將視頻幀對(duì)應(yīng)短語進(jìn)行分組，形成視頻表示，再通過LSTM進(jìn)行解碼，最終生成單詞預(yù)測(cè).

1.2 多模態(tài)的視頻編碼

文中VMSG構(gòu)建了一種多模態(tài)的分段標(biāo)簽的視頻摘要架構(gòu)，其采用了多種模態(tài)輸入，極大豐富了特征的種類，對(duì)視頻摘要的生成具有積極的作用.

圖1 多模態(tài)語義分組的視頻摘要架構(gòu)

多模態(tài)輸入包括2D特征，動(dòng)態(tài)特征，視頻類別特征以及音頻特征，具體如下：

2D特征 2D特征廣泛應(yīng)用于圖像檢測(cè)和圖像分類任務(wù)當(dāng)中，它特供了提供了物體和場(chǎng)景的詳細(xì)信息.該模型預(yù)先訓(xùn)練了120多萬張圖片，這些圖片分屬 1 000 個(gè)類別.我們?cè)赗esNet[4]最后加入了一個(gè)池化層，最后生成 2 048 維的2D特征.

動(dòng)態(tài)特征雖然ResNet能夠有效的在靜態(tài)圖像中生成視覺特征，但是對(duì)于動(dòng)態(tài)特征提取能力有限，動(dòng)態(tài)特征能夠很好的描述各個(gè)物體的運(yùn)動(dòng)信息.VMSG將二維的神經(jīng)網(wǎng)絡(luò)拓展為三維的卷積神經(jīng)網(wǎng)絡(luò)(C3D)，這樣能較好的記錄動(dòng)態(tài)特征.

視頻類別特征在視頻特征的消融實(shí)驗(yàn)中我們發(fā)現(xiàn)，視頻的類別信息中包含了對(duì)視頻摘要生成有幫助的信息.比如對(duì)象是一個(gè)音樂視頻，那么音頻的權(quán)重就要適當(dāng)?shù)奶嵘\(yùn)動(dòng)類視頻中視覺權(quán)重就要提升.文中使用3D ResNet[5]網(wǎng)絡(luò)提取視頻的分類信息.

音頻特征為了能較好的利用原有的音頻特征，使用了梅爾頻率倒譜系數(shù)(MFCC)進(jìn)行預(yù)處理，然后利用pyAudioAnalysis進(jìn)行均勻采樣，從而形成了最終的音頻特征.

1.3 短語編碼模塊

有些單詞單獨(dú)使用時(shí)沒有任何含義，有些單詞單獨(dú)使用的時(shí)候含義不明確，因此VMSG進(jìn)行語義分組的時(shí)候，使用的是詞組而不是單個(gè)單詞.

為了構(gòu)建VMSG的語義詞組，需要從部分已經(jīng)生成的摘要中生成合適的單詞詞組，為了達(dá)到這個(gè)目標(biāo)，需要尋找單詞之間的依賴關(guān)系.當(dāng)生成摘要的第t個(gè)單詞wt時(shí)，該模塊有一個(gè)單詞表示矩陣Wt=[E[w1]…E[wt-1]]T∈(t-1)×dw.其中，E表示一個(gè)單詞嵌入矩陣.使用短語編碼器φp將單詞表示矩陣Wt生成短語表示矩陣Pt=[p1,t…pt-1,t]T∈(t-1)×dw

Pt,At=φp(Wt).

(1)

其中At=[a1,t…at-1,t]T∈(t-1)×(t-1)是單詞注意力矩陣,aj,t∈t-1為單詞的注意力權(quán)重.對(duì)于編碼器φp，該模塊使用的是Vaswani等[6]提出的自我注意力機(jī)制模塊，可以很好的建模句子中單詞之間的依賴關(guān)系.

1.4 語義分組模塊

1.4.1 短語過濾器

為了保留那些具有意義以及耦合性低的短語，本文使用了一種短語過濾器，使用短語過濾器篩選出需要的句子.使用短語的注意力矩陣來計(jì)算相似性

Rt=At(At)T.

(2)

ri,j,t代表pi,t和pj,t的相似性.過濾器會(huì)設(shè)定一個(gè)閾值，如果ri,j,t大于這個(gè)閾值，那么就判定這2個(gè)短語有關(guān)聯(lián).得到2個(gè)相關(guān)聯(lián)的短語之后，再對(duì)比2個(gè)短語與所有短語的相似性，數(shù)值大的一方將被舍棄.如∑ri,k,t>∑rj,k,t，那么pi,t將被舍棄.

1.4.2 語義調(diào)整器

(3)

(4)

(5)

si,t代表了視頻幀的特征信息以及相關(guān)的短語的信息，從而避免了相鄰幀的信息冗余.

1.4.3 解碼模塊

構(gòu)造語義信息組合之后，解碼器就要提取預(yù)測(cè)下一個(gè)單詞wt所需的信息.解碼器會(huì)根據(jù)上一個(gè)解碼器的狀態(tài)函數(shù)ht-1，給每一個(gè)語義組分配一個(gè)分?jǐn)?shù).

(6)

(7)

其中，ud、Ud、Hd和bd是可學(xué)習(xí)參數(shù)，然后將Xt輸出給LSTM，下一個(gè)單詞可能的概率由一個(gè)全連接層和一個(gè)softmax層組成.

ht=LSTM(|xt;E|wt-1],ht-1).

(8)

p(wt|V,w1,…,wt-1)=softmax(Uhht+bh).

(9)

其中,Uh和bh是可學(xué)習(xí)參數(shù).解碼器與傳統(tǒng)的解碼器是類似的，不同的地方是將視頻幀特征變成了語義組.

2 實(shí)驗(yàn)結(jié)果與分析

首先對(duì)每個(gè)輸入視頻進(jìn)行均勻采樣，每個(gè)視頻采樣30幀.用這30幀圖像作為ResNet輸入，就可以獲得2D特征.提取這30幀周圍的連續(xù)幀組成一個(gè)剪輯作為3D ResNet和C3D的輸入，提取視頻的動(dòng)態(tài)特征，音頻特征也是類似的.由于是多模態(tài)的輸入，多模態(tài)的輸入必然會(huì)導(dǎo)致輸入維度的增加，這就極大的提高了對(duì)硬件的要求.為此，用一個(gè)全連接層來降低特征的維度,對(duì)3D ResNet網(wǎng)絡(luò)在Kinetics數(shù)據(jù)集上進(jìn)行訓(xùn)練之后，輸入采樣得到的視頻幀獲得相應(yīng)的標(biāo)簽.本章采用One-Hot編碼方式對(duì)標(biāo)簽進(jìn)行編碼，并且將其輸入LSTM.使用GloVe給單詞嵌入矩陣初始化，并于整個(gè)模型一起訓(xùn)練.在第一個(gè)單詞生產(chǎn)之前，使用來作為標(biāo)簽的開頭，之后忽略它.

想要生成一個(gè)句子或者單詞，詞庫是必不可少的.文中模型詞庫全部來自MSR-VTT的訓(xùn)練集和測(cè)試集的視頻摘要，一共有 23 667 個(gè)單詞.在訓(xùn)練時(shí)我們?cè)O(shè)置dropout為0.5，其能夠很好的降低過擬合.模型采用Adam優(yōu)化器進(jìn)行優(yōu)化，初始學(xué)習(xí)率設(shè)為 0.000 5.

2.1 數(shù)據(jù)集

在整個(gè)實(shí)驗(yàn)當(dāng)中，在MSR-VTT中訓(xùn)練以及測(cè)試文中的模型.MSR-VTT是視頻摘要領(lǐng)域的重要數(shù)據(jù)集，不僅提供了視頻的類別，還提供了視頻的音頻特征.MSR-VTT包含了10 000個(gè)，共 41.2 h 的網(wǎng)絡(luò)視頻，來自20個(gè)不同的類.每個(gè)網(wǎng)絡(luò)視頻都配有AMT工作人員制作的20個(gè)視頻摘要.

實(shí)驗(yàn)中，發(fā)現(xiàn)數(shù)據(jù)集中的視頻存在著單詞拼寫錯(cuò)誤和部分音頻信息不可使用等問題.雖然視頻摘要的所有句子的詞匯的總數(shù)為 23 667 個(gè)，但是一共有 10 040 個(gè)單詞只出現(xiàn)過一次.此外，將所有單詞與維基百科的詞匯庫進(jìn)行比對(duì)后可以發(fā)現(xiàn)有836單詞是不存在的，究其原因大多是拼寫錯(cuò)誤.這樣一個(gè)有瑕疵的詞匯庫對(duì)模型的訓(xùn)練和測(cè)試是一個(gè)挑戰(zhàn).

數(shù)據(jù)集的視頻包含音頻特征，音頻特征在生成視頻摘要時(shí)效果很好.但是大約有13%的視頻不含音頻信息，所以殘缺的音頻信息對(duì)實(shí)驗(yàn)造成了困難.90%以上的視頻小于30 s，90%以上的視頻的摘要小于16個(gè)單詞，因此對(duì)視頻均勻取30幀，在能保證數(shù)據(jù)不過于龐大的同時(shí)能較好的表征視頻特征.

2.2 消融實(shí)驗(yàn)

為了評(píng)估多模態(tài)語義分組中各個(gè)模塊的有效性，分別對(duì)各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如表1所示.

其中，Multi代表多模態(tài)特征，豐富文中提取的特征.SA是語義分組模塊能夠使模型組成一個(gè)語義組(包括語義注意力)，PE是短語編譯模塊可以生成相關(guān)的語義單詞.從表格中可以看到，SA提升的性能最為突出，PE提升的幅度最小.SA是為了更好將相鄰幀組成一個(gè)語義組，PE是生成語義組相適應(yīng)的語義詞，與將相鄰特征組成一個(gè)語義組相比，生成語義組的語義單詞效果不是很明顯.深究其原因，SA是直接促進(jìn)生成一個(gè)語義組，而PE是間接的促進(jìn)語義組地生成.多模態(tài)的視頻特征能夠提升編碼器包含的視頻信息，所以可以明顯地提升模型性能.

表1 消融實(shí)驗(yàn)指標(biāo)對(duì)比

2.3 實(shí)驗(yàn)結(jié)果

本節(jié)比較了該模型與現(xiàn)階段較為先進(jìn)模型的性能,結(jié)果如表2所示，可以看到VMSG在MSR-VTT數(shù)據(jù)集上是優(yōu)于大多數(shù)模型的.文中的模型在4個(gè)指標(biāo)中，有3個(gè)達(dá)到了最先進(jìn)的水平，例如在CIDEr指標(biāo)上領(lǐng)先第2名2%，在METEOR上領(lǐng)先第2名1%.在BLEU4上與最先進(jìn)的指標(biāo)相差不大，也達(dá)到了先進(jìn)水平，在ROUGE-L上與第2名性能相同.綜合來看，VMSG達(dá)到了當(dāng)前的最先進(jìn)水平.

表2 各種模型指標(biāo)對(duì)比

圖2顯示了SA-LSTM和VMSG生成標(biāo)題的示例，VMSG的預(yù)測(cè)結(jié)果比SA-LSTM準(zhǔn)確.VMSG能夠更好的生成長(zhǎng)視頻場(chǎng)景中執(zhí)行動(dòng)作的主體，如圖3，VMSG預(yù)測(cè)是一群卡通人物，而不是一個(gè)，并且內(nèi)容更加準(zhǔn)確.總體而言VMSG優(yōu)于SA-LSTM.

圖2 第7743個(gè)視頻的實(shí)驗(yàn)結(jié)果

圖3是實(shí)驗(yàn)中語義組的形成過程，橙色代表注意力權(quán)重，“a man is talking”和“a ground of” 這2個(gè)短語是用部分解碼的標(biāo)題“a man is talking to a group of”中的單詞構(gòu)建的.一個(gè)語義組是通過收集一位男士講話而形成的，另一個(gè)語義組是通過收集一群人而形成的.在預(yù)測(cè)下一個(gè)單詞“people”時(shí)，更多的利用了后一個(gè)語義組的信息.結(jié)果表明，VMSG能夠較好地形成語義詞組，并能夠很好地把圖像幀與語義詞組相關(guān)聯(lián).

圖3 語義組形成過程

3 結(jié)語

文中提出了一種語義分組的多模態(tài)視頻描述方法，采用了基于2D特征和3D特征以及標(biāo)簽和音頻特征的多模態(tài)特征融合方式.從而使得模型的提取的特征類型非常豐富，能極大的表征視頻信息的真實(shí)狀況.將1組相關(guān)的視頻幀組成1組語義組，能夠很好的解決視頻之間的冗余問題.VMSG在MSR-VTT上取得了較好的結(jié)果.未來目標(biāo)是探索更好的多模態(tài)模型，考慮對(duì)視頻進(jìn)行上下文關(guān)聯(lián)，以便更好生成視頻摘要.