999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態(tài)語義分組的視頻摘要模型

2022-07-18 09:12:24葉曉輝
關(guān)鍵詞:語義模態(tài)單詞

葉曉輝,楊 欣,李 濤

(南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210016)

視頻摘要是用有限文字描述一段視頻,這是最具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一[1-2].大多數(shù)視頻摘要方法都是基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的編碼器-解碼器框架.基于CNN的編碼器接收輸入視頻的一組連續(xù)幀,并產(chǎn)生視覺表示,以生成描述視頻的準(zhǔn)確標(biāo)題.然后,基于RNN的解碼器將視覺編碼的特征和先前預(yù)測(cè)的單詞作為輸入,逐詞地生成摘要.

由于視頻包含豐富的信息,其中包括視覺信息,音頻信息,分類信息等等,所以如何有效利用這些復(fù)雜信息也是一個(gè)很重要的研究方向.從視頻的編碼器來看,之前的視頻特征提取方法提取的特征,種類不夠豐富,忽略了視頻的音頻信息,分類信息以及動(dòng)態(tài)信息.對(duì)于人類來說,通過基于語義將視頻劃分為信息單元來理解視頻是很自然的事情.因此,將每一幀視為獨(dú)立的信息單元并不是理解視頻的有效方法.并且,相鄰的視頻幀之間存在著冗余信息[3].

筆者針對(duì)視頻連續(xù)幀冗余問題和提取的特征不夠問題,提出了一種基于多模態(tài)語義分組的視頻摘要模型.該模型使用3D ResNet神經(jīng)網(wǎng)絡(luò)和殘差神經(jīng)網(wǎng)絡(luò)來提取3D和2D特征;然后把音頻信息與視頻的分類信息加入多模態(tài)的框架中進(jìn)行編碼;得到多模態(tài)的特征之后需要進(jìn)行解碼,不同于之前的逐幀進(jìn)行分組的解碼模式,VMSG使用了語義分組的方式進(jìn)行解碼,將相同語義的視頻分為一個(gè)語義組進(jìn)行解碼,預(yù)測(cè)下一個(gè)單詞.基于之前的多模態(tài)特征,針對(duì)特征提取視頻摘要的生成過程進(jìn)行改進(jìn),提出了一種基于多模態(tài)語義分組的視頻摘要模型(video captioning model based on multimodal semantic grouping),VMSG模型.

1 本文模型

1.1 模型的總體結(jié)構(gòu)

文中的VMSG由4個(gè)部分組成,分別是視頻編碼模塊,短語編碼模塊,語義分組模塊,解碼模塊.為了給輸入提供更多的信息,在視頻編碼模塊采用多模態(tài)的輸入,加入了2D特征,3D特征,音頻特征以及分類特征.獲取多模態(tài)特征之后,進(jìn)行短語編碼,根據(jù)已經(jīng)獲得的單詞形成短語,再通過語義分組將視頻幀對(duì)應(yīng)短語進(jìn)行分組,形成視頻表示,再通過LSTM進(jìn)行解碼,最終生成單詞預(yù)測(cè).

1.2 多模態(tài)的視頻編碼

文中VMSG構(gòu)建了一種多模態(tài)的分段標(biāo)簽的視頻摘要架構(gòu),其采用了多種模態(tài)輸入,極大豐富了特征的種類,對(duì)視頻摘要的生成具有積極的作用.

圖1 多模態(tài)語義分組的視頻摘要架構(gòu)

多模態(tài)輸入包括2D特征,動(dòng)態(tài)特征,視頻類別特征以及音頻特征,具體如下:

2D特征 2D特征廣泛應(yīng)用于圖像檢測(cè)和圖像分類任務(wù)當(dāng)中,它特供了提供了物體和場(chǎng)景的詳細(xì)信息.該模型預(yù)先訓(xùn)練了120多萬張圖片,這些圖片分屬 1 000 個(gè)類別.我們?cè)赗esNet[4]最后加入了一個(gè)池化層,最后生成 2 048 維的2D特征.

動(dòng)態(tài)特征 雖然ResNet能夠有效的在靜態(tài)圖像中生成視覺特征,但是對(duì)于動(dòng)態(tài)特征提取能力有限,動(dòng)態(tài)特征能夠很好的描述各個(gè)物體的運(yùn)動(dòng)信息.VMSG將二維的神經(jīng)網(wǎng)絡(luò)拓展為三維的卷積神經(jīng)網(wǎng)絡(luò)(C3D),這樣能較好的記錄動(dòng)態(tài)特征.

視頻類別特征 在視頻特征的消融實(shí)驗(yàn)中我們發(fā)現(xiàn),視頻的類別信息中包含了對(duì)視頻摘要生成有幫助的信息.比如對(duì)象是一個(gè)音樂視頻,那么音頻的權(quán)重就要適當(dāng)?shù)奶嵘\(yùn)動(dòng)類視頻中視覺權(quán)重就要提升.文中使用3D ResNet[5]網(wǎng)絡(luò)提取視頻的分類信息.

音頻特征 為了能較好的利用原有的音頻特征,使用了梅爾頻率倒譜系數(shù)(MFCC)進(jìn)行預(yù)處理,然后利用pyAudioAnalysis進(jìn)行均勻采樣,從而形成了最終的音頻特征.

1.3 短語編碼模塊

有些單詞單獨(dú)使用時(shí)沒有任何含義,有些單詞單獨(dú)使用的時(shí)候含義不明確,因此VMSG進(jìn)行語義分組的時(shí)候,使用的是詞組而不是單個(gè)單詞.

為了構(gòu)建VMSG的語義詞組,需要從部分已經(jīng)生成的摘要中生成合適的單詞詞組,為了達(dá)到這個(gè)目標(biāo),需要尋找單詞之間的依賴關(guān)系.當(dāng)生成摘要的第t個(gè)單詞wt時(shí),該模塊有一個(gè)單詞表示矩陣Wt=[E[w1]…E[wt-1]]T∈(t-1)×dw.其中,E表示一個(gè)單詞嵌入矩陣.使用短語編碼器φp將單詞表示矩陣Wt生成短語表示矩陣Pt=[p1,t…pt-1,t]T∈(t-1)×dw

Pt,At=φp(Wt).

(1)

其中At=[a1,t…at-1,t]T∈(t-1)×(t-1)是單詞注意力矩陣,aj,t∈t-1為單詞的注意力權(quán)重.對(duì)于編碼器φp,該模塊使用的是Vaswani等[6]提出的自我注意力機(jī)制模塊,可以很好的建模句子中單詞之間的依賴關(guān)系.

1.4 語義分組模塊

1.4.1 短語過濾器

為了保留那些具有意義以及耦合性低的短語,本文使用了一種短語過濾器,使用短語過濾器篩選出需要的句子.使用短語的注意力矩陣來計(jì)算相似性

Rt=At(At)T.

(2)

ri,j,t代表pi,t和pj,t的相似性.過濾器會(huì)設(shè)定一個(gè)閾值,如果ri,j,t大于這個(gè)閾值,那么就判定這2個(gè)短語有關(guān)聯(lián).得到2個(gè)相關(guān)聯(lián)的短語之后,再對(duì)比2個(gè)短語與所有短語的相似性,數(shù)值大的一方將被舍棄.如∑ri,k,t>∑rj,k,t,那么pi,t將被舍棄.

1.4.2 語義調(diào)整器

(3)

(4)

(5)

si,t代表了視頻幀的特征信息以及相關(guān)的短語的信息,從而避免了相鄰幀的信息冗余.

1.4.3 解碼模塊

構(gòu)造語義信息組合之后,解碼器就要提取預(yù)測(cè)下一個(gè)單詞wt所需的信息.解碼器會(huì)根據(jù)上一個(gè)解碼器的狀態(tài)函數(shù)ht-1,給每一個(gè)語義組分配一個(gè)分?jǐn)?shù).

(6)

(7)

其中,ud、Ud、Hd和bd是可學(xué)習(xí)參數(shù),然后將Xt輸出給LSTM,下一個(gè)單詞可能的概率由一個(gè)全連接層和一個(gè)softmax層組成.

ht=LSTM(|xt;E|wt-1],ht-1).

(8)

p(wt|V,w1,…,wt-1)=softmax(Uhht+bh).

(9)

其中,Uh和bh是可學(xué)習(xí)參數(shù).解碼器與傳統(tǒng)的解碼器是類似的,不同的地方是將視頻幀特征變成了語義組.

2 實(shí)驗(yàn)結(jié)果與分析

首先對(duì)每個(gè)輸入視頻進(jìn)行均勻采樣,每個(gè)視頻采樣30幀.用這30幀圖像作為ResNet輸入,就可以獲得2D特征.提取這30幀周圍的連續(xù)幀組成一個(gè)剪輯作為3D ResNet和C3D的輸入,提取視頻的動(dòng)態(tài)特征,音頻特征也是類似的.由于是多模態(tài)的輸入,多模態(tài)的輸入必然會(huì)導(dǎo)致輸入維度的增加,這就極大的提高了對(duì)硬件的要求.為此,用一個(gè)全連接層來降低特征的維度,對(duì)3D ResNet網(wǎng)絡(luò)在Kinetics數(shù)據(jù)集上進(jìn)行訓(xùn)練之后,輸入采樣得到的視頻幀獲得相應(yīng)的標(biāo)簽.本章采用One-Hot編碼方式對(duì)標(biāo)簽進(jìn)行編碼,并且將其輸入LSTM.使用GloVe給單詞嵌入矩陣初始化,并于整個(gè)模型一起訓(xùn)練.在第一個(gè)單詞生產(chǎn)之前,使用來作為標(biāo)簽的開頭,之后忽略它.

想要生成一個(gè)句子或者單詞,詞庫是必不可少的.文中模型詞庫全部來自MSR-VTT的訓(xùn)練集和測(cè)試集的視頻摘要,一共有 23 667 個(gè)單詞.在訓(xùn)練時(shí)我們?cè)O(shè)置dropout為0.5,其能夠很好的降低過擬合.模型采用Adam優(yōu)化器進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)為 0.000 5.

2.1 數(shù)據(jù)集

在整個(gè)實(shí)驗(yàn)當(dāng)中,在MSR-VTT中訓(xùn)練以及測(cè)試文中的模型.MSR-VTT是視頻摘要領(lǐng)域的重要數(shù)據(jù)集,不僅提供了視頻的類別,還提供了視頻的音頻特征.MSR-VTT包含了10 000個(gè),共 41.2 h 的網(wǎng)絡(luò)視頻,來自20個(gè)不同的類.每個(gè)網(wǎng)絡(luò)視頻都配有AMT工作人員制作的20個(gè)視頻摘要.

實(shí)驗(yàn)中,發(fā)現(xiàn)數(shù)據(jù)集中的視頻存在著單詞拼寫錯(cuò)誤和部分音頻信息不可使用等問題.雖然視頻摘要的所有句子的詞匯的總數(shù)為 23 667 個(gè),但是一共有 10 040 個(gè)單詞只出現(xiàn)過一次.此外,將所有單詞與維基百科的詞匯庫進(jìn)行比對(duì)后可以發(fā)現(xiàn)有836單詞是不存在的,究其原因大多是拼寫錯(cuò)誤.這樣一個(gè)有瑕疵的詞匯庫對(duì)模型的訓(xùn)練和測(cè)試是一個(gè)挑戰(zhàn).

數(shù)據(jù)集的視頻包含音頻特征,音頻特征在生成視頻摘要時(shí)效果很好.但是大約有13%的視頻不含音頻信息,所以殘缺的音頻信息對(duì)實(shí)驗(yàn)造成了困難.90%以上的視頻小于30 s,90%以上的視頻的摘要小于16個(gè)單詞,因此對(duì)視頻均勻取30幀,在能保證數(shù)據(jù)不過于龐大的同時(shí)能較好的表征視頻特征.

2.2 消融實(shí)驗(yàn)

為了評(píng)估多模態(tài)語義分組中各個(gè)模塊的有效性,分別對(duì)各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1所示.

其中,Multi代表多模態(tài)特征,豐富文中提取的特征.SA是語義分組模塊能夠使模型組成一個(gè)語義組(包括語義注意力),PE是短語編譯模塊可以生成相關(guān)的語義單詞.從表格中可以看到,SA提升的性能最為突出,PE提升的幅度最小.SA是為了更好將相鄰幀組成一個(gè)語義組,PE是生成語義組相適應(yīng)的語義詞,與將相鄰特征組成一個(gè)語義組相比,生成語義組的語義單詞效果不是很明顯.深究其原因,SA是直接促進(jìn)生成一個(gè)語義組,而PE是間接的促進(jìn)語義組地生成.多模態(tài)的視頻特征能夠提升編碼器包含的視頻信息,所以可以明顯地提升模型性能.

表1 消融實(shí)驗(yàn)指標(biāo)對(duì)比

2.3 實(shí)驗(yàn)結(jié)果

本節(jié)比較了該模型與現(xiàn)階段較為先進(jìn)模型的性能,結(jié)果如表2所示,可以看到VMSG在MSR-VTT數(shù)據(jù)集上是優(yōu)于大多數(shù)模型的.文中的模型在4個(gè)指標(biāo)中,有3個(gè)達(dá)到了最先進(jìn)的水平,例如在CIDEr指標(biāo)上領(lǐng)先第2名2%,在METEOR上領(lǐng)先第2名1%.在BLEU4上與最先進(jìn)的指標(biāo)相差不大,也達(dá)到了先進(jìn)水平,在ROUGE-L上與第2名性能相同.綜合來看,VMSG達(dá)到了當(dāng)前的最先進(jìn)水平.

表2 各種模型指標(biāo)對(duì)比

圖2顯示了SA-LSTM和VMSG生成標(biāo)題的示例,VMSG的預(yù)測(cè)結(jié)果比SA-LSTM準(zhǔn)確.VMSG能夠更好的生成長(zhǎng)視頻場(chǎng)景中執(zhí)行動(dòng)作的主體,如圖3,VMSG預(yù)測(cè)是一群卡通人物,而不是一個(gè),并且內(nèi)容更加準(zhǔn)確.總體而言VMSG優(yōu)于SA-LSTM.

圖2 第7743個(gè)視頻的實(shí)驗(yàn)結(jié)果

圖3是實(shí)驗(yàn)中語義組的形成過程,橙色代表注意力權(quán)重,“a man is talking”和“a ground of” 這2個(gè)短語是用部分解碼的標(biāo)題“a man is talking to a group of”中的單詞構(gòu)建的.一個(gè)語義組是通過收集一位男士講話而形成的,另一個(gè)語義組是通過收集一群人而形成的.在預(yù)測(cè)下一個(gè)單詞“people”時(shí),更多的利用了后一個(gè)語義組的信息.結(jié)果表明,VMSG能夠較好地形成語義詞組,并能夠很好地把圖像幀與語義詞組相關(guān)聯(lián).

圖3 語義組形成過程

3 結(jié)語

文中提出了一種語義分組的多模態(tài)視頻描述方法,采用了基于2D特征和3D特征以及標(biāo)簽和音頻特征的多模態(tài)特征融合方式.從而使得模型的提取的特征類型非常豐富,能極大的表征視頻信息的真實(shí)狀況.將1組相關(guān)的視頻幀組成1組語義組,能夠很好的解決視頻之間的冗余問題.VMSG在MSR-VTT上取得了較好的結(jié)果.未來目標(biāo)是探索更好的多模態(tài)模型,考慮對(duì)視頻進(jìn)行上下文關(guān)聯(lián),以便更好生成視頻摘要.

猜你喜歡
語義模態(tài)單詞
語言與語義
單詞連一連
看圖填單詞
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
認(rèn)知范疇模糊與語義模糊
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
最難的單詞
語義分析與漢俄副名組合
主站蜘蛛池模板: 欧美视频二区| 一级全黄毛片| 亚洲国产欧美国产综合久久 | 精品在线免费播放| 呦视频在线一区二区三区| 四虎精品免费久久| 久久精品国产999大香线焦| 凹凸精品免费精品视频| 亚洲欧美一区二区三区麻豆| 国产情侣一区| 福利一区在线| 欧美久久网| 亚洲成在线观看| 亚洲第一极品精品无码| 人妻精品久久无码区| 毛片在线区| 亚洲欧美成aⅴ人在线观看| 国产色偷丝袜婷婷无码麻豆制服| 久久综合色天堂av| 日日拍夜夜操| 热思思久久免费视频| 国产自在线播放| 亚洲国产成人精品无码区性色| 在线观看av永久| 日本亚洲成高清一区二区三区| 成人在线亚洲| 国产粉嫩粉嫩的18在线播放91| www.亚洲国产| 色偷偷一区| 91麻豆久久久| 日韩欧美在线观看| 黄色a一级视频| 呦系列视频一区二区三区| 国产精品久久国产精麻豆99网站| 茄子视频毛片免费观看| 色有码无码视频| 国产好痛疼轻点好爽的视频| 激情综合激情| 久久网综合| 久久这里只有精品2| 国产特级毛片aaaaaaa高清| 天堂成人在线| 午夜免费视频网站| 黄片一区二区三区| jijzzizz老师出水喷水喷出| 精品91视频| 97se亚洲综合在线天天| 久久semm亚洲国产| 国产丝袜精品| 国产91小视频| 性视频一区| 国产美女自慰在线观看| 亚洲av无码牛牛影视在线二区| 成人在线综合| 亚洲无码免费黄色网址| 久久国产精品影院| 国产婬乱a一级毛片多女| 亚洲综合狠狠| 夜夜爽免费视频| 精品久久香蕉国产线看观看gif| 国产91久久久久久| 三级国产在线观看| 亚洲无码久久久久| 久久久久亚洲av成人网人人软件| 2021国产v亚洲v天堂无码| 日本亚洲成高清一区二区三区| 国产伦精品一区二区三区视频优播| 国产无套粉嫩白浆| 香蕉视频在线精品| 91精品啪在线观看国产91九色| 男人的天堂久久精品激情| 99久久成人国产精品免费| 国产国语一级毛片| 91精品aⅴ无码中文字字幕蜜桃| 国产欧美视频在线| 国产日本视频91| 波多野结衣中文字幕一区| 特黄日韩免费一区二区三区| …亚洲 欧洲 另类 春色| 亚洲国产高清精品线久久| 日韩少妇激情一区二区| 在线观看免费国产|