999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

視頻檢索技術(shù)的關(guān)鍵問題研究

2021-09-10 12:23:00
信息記錄材料 2021年8期
關(guān)鍵詞:深度特征方法

祁 冰

(海南工商職業(yè)學(xué)院 海南 海口 570228)

1 引言

隨著科技數(shù)碼產(chǎn)品的普及和網(wǎng)絡(luò)信息時代的發(fā)展,人們可以利用數(shù)碼產(chǎn)品輕松拍攝、制作視頻,分享到網(wǎng)絡(luò)上,使得網(wǎng)絡(luò)視頻呈爆炸式的增長。在數(shù)量龐大的視頻內(nèi)容面前,人們需要從中挑選自己感興趣的視頻內(nèi)容,就像搜索文本信息一樣,搜索視頻資源的需求與日俱增,視頻檢索技術(shù)也隨之發(fā)展。以往的視頻檢索工作主要集中在輸入一個視頻,返回與輸入視頻相似的視頻結(jié)果,即輸入視頻,返回視頻。然而,按照人們?nèi)粘5男畔z索習(xí)慣應(yīng)當(dāng)是在搜索框輸入描述性的文字,返回視頻結(jié)果,這種跨模態(tài)的檢索方式才更加便捷實用。視頻檢索的關(guān)鍵問題應(yīng)當(dāng)是如何為視頻提供準(zhǔn)確的文字描述,便于人們能像檢索文字一樣來檢索視頻。隨著深度學(xué)習(xí)的發(fā)展,視頻描述技術(shù)已經(jīng)有了顯著提高[1],本文主要圍繞視頻描述技術(shù)的發(fā)展及其關(guān)鍵技術(shù)來探究視頻描述的發(fā)展前景。

2 視頻描述技術(shù)的發(fā)展階段

視頻描述技術(shù)涉及視頻和文本兩個模態(tài)的轉(zhuǎn)換,得益于計算機視覺和自然語言處理技術(shù)的發(fā)展,其大體經(jīng)歷了4個發(fā)展階。第1階段是傳統(tǒng)的人工方法,在觀看完視頻內(nèi)容后,人為視頻添加文字描述,這種方法雖然簡單,但是低效,很難適應(yīng)大數(shù)據(jù)時代的視頻描述需求。第2階段是基于模板的方法,即利用目標(biāo)檢測技術(shù)檢測出視頻的主體、動作、對象等信息,套用主語、謂語、賓語之類的語法模板來生成文字描述,雖然基于模板的方法可以自動為視頻添加描述,然而它不能很好地描述有復(fù)雜內(nèi)容及有較大時間長度的視頻,而且受語法模板的限制,生成的文字描述種類單一,缺乏多樣性。第3階段是基于統(tǒng)計的方法,基于統(tǒng)計的方法先用最大后驗概率求出視頻中的中間語義標(biāo)簽,而后用統(tǒng)計機器翻譯將中間語義標(biāo)簽轉(zhuǎn)換為人類能理解的文字描述,這為后期基于深度學(xué)習(xí)的方法奠定了基礎(chǔ),基于深度學(xué)習(xí)的方法基本沿用了基于統(tǒng)計的方法的技術(shù)框架,但由于提取標(biāo)簽和機器翻譯分步工作且聯(lián)系不緊密,導(dǎo)致最終生成的文字描述準(zhǔn)確度不高。第4階段是基于深度學(xué)習(xí)的視頻描述方法,基于深度學(xué)習(xí)的方法架構(gòu)也主要分為兩部分,即視覺模型和語言模型,視覺模型對視頻進(jìn)行編碼,將學(xué)習(xí)到的視頻內(nèi)容轉(zhuǎn)換成特征向量,語言模型將這些特征向量與詞語結(jié)合來生成描述性文字。基于深度學(xué)習(xí)的方法面臨的最大挑戰(zhàn)是理解視頻的主體對象、對象之間的交互活動以及活動的細(xì)節(jié),并能按照時空順序準(zhǔn)確地用與內(nèi)容匹配的自然語言描述出來。

3 基于深度學(xué)習(xí)的方法

基于深度學(xué)習(xí)的視頻描述方法主要分為3種[2]:基于視覺的方法、基于對齊的方法和基于語言的方法。大多數(shù)的研究采用基于視覺的方法。該方法主要采用端到端的編碼解碼器結(jié)構(gòu)將視覺信息轉(zhuǎn)化為文本信息,框架見圖1,即包含兩個階段的工作:先編碼,后解碼。編碼就是把視頻的視覺特征提取出來轉(zhuǎn)換成向量,這些向量可以是固定長度的,也可以是動態(tài)的;解碼就是將這些向量轉(zhuǎn)換成描述文字。目前分別采用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))、RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))、LSTM(Long-Short Term Memory RNN,長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò))、GRU(Gated Recurrent Unit,門循環(huán)單元)及深度強化網(wǎng)絡(luò)等網(wǎng)絡(luò)模型的組合來負(fù)責(zé)這兩部分的工作,不同模型的組合方式主要分為下面3類[3]。

圖1 端到端的視頻描述框架

(1)CNN+RNN組合,其中CNN負(fù)責(zé)編碼,RNN或RNN的變種LSTM、GRU負(fù)責(zé)解碼,這是當(dāng)前應(yīng)用最為廣泛的框架。

(2)RNN+RNN組合,用RNN來進(jìn)行編碼解碼工作。

(3)深度強化網(wǎng)絡(luò),這是在視頻描述方面最新引入的方法,LSTM負(fù)責(zé)編碼,HRL(Hierarchical Reinforcement Learning,分層式強化學(xué)習(xí))負(fù)責(zé)解碼。

下面將分別從編碼和解碼兩個部分采用的不同架構(gòu)來分析基于深度學(xué)習(xí)的視頻描述生成過程。

3.1 編碼

3D-CNN模型(3D Convolutional Neural Network,三維卷積模型):視頻與圖像在視覺特征提取時最大的區(qū)別在于視頻具有時序信息,為了結(jié)合視頻的時序特征,可以選擇3D-CNN作為編碼器,在視頻片段中提取多個幀來生成視頻特征。

CNN分類器模型:為了得到更豐富的視覺特征,有研究者研究出3個單類標(biāo)、多類標(biāo)和多種屬性的卷積分類器,將這3類分類器提取到的信息結(jié)合在一起,從而得到了更為豐富的圖像特征。

MeanPool模型:當(dāng)遇到訓(xùn)練數(shù)據(jù)集大小受限和模型缺少捕獲視頻和文本間關(guān)系的問題時,有研究者使用圖像描述集預(yù)訓(xùn)練模型,在視頻描述集上調(diào)試模型參數(shù),采用平均值特征的方式來提取視頻特征。在提取視頻特征時,每隔10幀隨機選取1幀輸入到CNN中,提取該幀的圖像特征,之后將這些特征加在一起求平均值作為視頻的整體特征,取得了較好的效果。

多維度CNN架構(gòu):對每個視頻幀提取不同比例大小的區(qū)域,輸入到CNN網(wǎng)絡(luò)中提取特征,最后通過最大池化層提取視頻特征。

LSTM模型:每個時刻輸入視頻幀的圖像特征表示,即用 LSTM網(wǎng)絡(luò)提取視頻的時序特征。

加入注意力機制的3D-CNN:考慮到了時序上的局部和全局特征信息。先通過3D-CNN模型提取短時序上的信息,再加權(quán)提取全局時序的視頻特征,作為注意力信息加入到LSTM解碼器中生成描述句。

3.2 解碼

LSTM模型:為了讓生成的句子前后關(guān)聯(lián),將編碼器生成的圖像特征輸入到LSTM的第一個單元中,生成一個輸出詞,之后每個時刻都輸入上一個時刻的輸出詞,輸出當(dāng)前時刻的輸出詞,最后連成句子。這種方法將前一時刻的輸出與當(dāng)前時刻的輸出相關(guān)聯(lián),達(dá)到效果更好。

Bi-LSTM模型:Bi-LSTM模型與LSTM模型的不同之處在于,它能完整地學(xué)到每個輸入序列的過去及未來信息,其輸出的文本信息更全面更豐富。

G-LSTM架構(gòu):在每個時刻輸入融合圖文的注意力信息預(yù)測描述詞,采用典范對應(yīng)分析方法CCA得到圖像和文本的嵌套表示作為注意力信息[2]。

H-RNN架構(gòu):由句子生成器和段落生成器組成的層次結(jié)構(gòu)框架,它在時間和空間兩個方面加入注意力機制。先用一個GRU層將輸入的視頻特征生成一個短句。另一個循環(huán)層使用上下文和從句子生成器獲得的句子向量生成段落。因此,段落生成器捕獲句子之間的依賴關(guān)系,并生成相關(guān)句子的段落。

4 數(shù)據(jù)集

深度學(xué)習(xí)的發(fā)展離不開數(shù)據(jù)集,視頻描述數(shù)據(jù)集的發(fā)展是推動該領(lǐng)域發(fā)展的原動力。當(dāng)下流行的視頻描述數(shù)據(jù)集主要有以下3種。

MSVD數(shù)據(jù)集:發(fā)布于2011年,包含不同的人、動物、場景等,包含1970條YouTube視頻片段,其中1200條視頻用于訓(xùn)練,100條用于驗證,670用于測試。每段視頻長約10 s,每段視頻被標(biāo)注了約40條英文句子,數(shù)據(jù)集見圖2。

圖2 MSVD數(shù)據(jù)集

MSR-VTT數(shù)據(jù)集:發(fā)布于2016年,包含體育、音樂、游戲等20個不同類別,包含1萬個網(wǎng)絡(luò)視頻片段,其中6513條視頻用于訓(xùn)練,497條用于驗證,2990條用于測試。每個視頻片段都被標(biāo)注了大概20條英文句子。

VaTEX數(shù)據(jù)集:發(fā)布于2019年,覆蓋了600種人類活動和不同的視頻內(nèi)容,包含超過 41250個視頻片段,其中25991條視頻用于訓(xùn)練,3000條用于驗證,6000條用于公開測試,6278條用于神秘測試。每段視頻有10個英文描述和10個中文描述,其中測試視頻不提供標(biāo)注。

5 評價指標(biāo)

為了測量生成的文字描述與原視頻之間的對應(yīng)關(guān)系和描述準(zhǔn)確率,主要有4種評價指標(biāo)來衡量它們[4]。最常用的第1種是BLEU(Bilingual Evaluation Understudy,雙語評估替補),其主要應(yīng)用于機器翻譯領(lǐng)域,它可以匹配生成的句子和自然句子,匹配程度越高,BLEU值越高。第2種是ROUGE(Recall-Oriented Understudy of Gisting Evaluation,基于召回率的摘要評估),是基于召回率的自動摘要評價方法,跟BLEU較為相似,不同之處是它將模型生成的摘要與參考摘要的n元組貢獻(xiàn)統(tǒng)計量作為評判依據(jù),有4個版本,其中ROUGE-N和ROUGE-L更多用于視頻描述中。第3種是METEOR(Metric for Evaluation of Translation with Explicit Ordering,帶顯式順序的翻譯評估指標(biāo)),它基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率,相較于單純基于精度的BLEU,它的準(zhǔn)確率更高。第4種是CIDEr(Consensus-based Image Description Evaluation,基于一致性的圖像描述評價),它也是對BLEU方法的改進(jìn),用為句子中的非關(guān)鍵信息降權(quán)的方法來提升準(zhǔn)確率。

6 現(xiàn)有技術(shù)存在的問題

盡管視頻描述技術(shù)已經(jīng)取得了巨大的進(jìn)步,但其生成結(jié)果與人工生成的結(jié)果仍舊存在較大差距,具體原因如下。

(1)機器提取到的視頻的視覺特征往往是低層次,對一些如對象、動作等高層次的語義特征的提取還有所欠缺。

(2)在語句生成部分,大多數(shù)技術(shù)還依賴一些設(shè)定好的符合語法規(guī)則的語言模板,而人類的語言卻是靈活多變的。

(3)大多數(shù)視頻描述技術(shù)依舊缺乏處理視頻時間維度的能力,處理長視頻時性能低下。

(4)還缺乏視頻描述專有的評價指標(biāo),現(xiàn)有的評價指標(biāo)都是從機器翻譯及圖像描述領(lǐng)域借用的。

7 結(jié)語

本文從跨模態(tài)的視頻檢索需求出發(fā),主要研究了基于深度學(xué)習(xí)的視頻描述方法,理清了視頻描述方法發(fā)展的過程,概述了目前視頻描述技術(shù)取得的成就,簡要介紹了用于視頻描述訓(xùn)練的不同數(shù)據(jù)集和幾種用于衡量不同視頻描述模型性能的評價指標(biāo),最后探討了現(xiàn)有視頻描述技術(shù)存在的問題,為今后的研究工作指明方向。

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達(dá)“特征”
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲综合精品香蕉久久网| 永久免费精品视频| 精品小视频在线观看| 99偷拍视频精品一区二区| 婷婷99视频精品全部在线观看| 中文一区二区视频| 亚洲经典在线中文字幕| 综合五月天网| 72种姿势欧美久久久久大黄蕉| 日日噜噜夜夜狠狠视频| 91精品久久久无码中文字幕vr| 欧美激情伊人| 亚洲精品福利视频| 香蕉蕉亚亚洲aav综合| 午夜性爽视频男人的天堂| 少妇人妻无码首页| 人妻丰满熟妇av五码区| 人妻21p大胆| 国产欧美又粗又猛又爽老| 国产男人天堂| 中字无码精油按摩中出视频| 国产午夜精品一区二区三区软件| 亚洲妓女综合网995久久| 国产成人精品一区二区免费看京| 成人午夜网址| 欧美一级一级做性视频| 韩国v欧美v亚洲v日本v| 老司机精品一区在线视频 | 国产正在播放| 中国国产一级毛片| 天天摸天天操免费播放小视频| 性激烈欧美三级在线播放| 国产麻豆精品在线观看| 欲色天天综合网| 久久久久人妻一区精品| 粗大猛烈进出高潮视频无码| 欧美日韩免费在线视频| 国产成人精品优优av| 国产欧美日韩视频怡春院| 2020极品精品国产| 91在线中文| 亚洲乱码在线播放| 国产一级在线播放| 久久精品日日躁夜夜躁欧美| 日韩无码视频专区| 精品视频一区二区三区在线播| 国产精品第一区| 国产精品人成在线播放| 中文毛片无遮挡播放免费| 试看120秒男女啪啪免费| 国内精品免费| 国产在线观看一区二区三区| 国产精品福利尤物youwu| 亚洲国产亚综合在线区| 爆乳熟妇一区二区三区| 午夜免费小视频| 欧美一区国产| 日韩毛片免费| 99re在线观看视频| 毛片免费视频| 国产91精品最新在线播放| aa级毛片毛片免费观看久| 欧美国产三级| 久久99国产精品成人欧美| 高清免费毛片| www.精品视频| 久久国产成人精品国产成人亚洲| 九九久久精品免费观看| 久久亚洲欧美综合| 欧美性色综合网| 天天综合色天天综合网| 51国产偷自视频区视频手机观看 | 国产激情无码一区二区APP| 精品国产www| 99re精彩视频| 狂欢视频在线观看不卡| 国产无码制服丝袜| 国内精品视频区在线2021| 97在线碰| 国产亚洲欧美日韩在线一区| 欧洲亚洲一区| 亚洲免费人成影院|