苗教偉,季 怡,劉純平
蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006
由于互聯(lián)網(wǎng)的快速發(fā)展和個(gè)人智能移動(dòng)設(shè)備數(shù)量的激增,尤其是各個(gè)短視頻平臺(tái)的快速成長(zhǎng),視頻已經(jīng)成為人們學(xué)習(xí)娛樂(lè)、獲取信息的主流媒介,視頻分析理解也隨之成為熱點(diǎn)研究?jī)?nèi)容。
視頻描述生成因其在人機(jī)交互、視頻監(jiān)控、視頻檢索等方面存在巨大潛在應(yīng)用價(jià)值而成為近年來(lái)的熱點(diǎn)研究方向之一,其為給定視頻內(nèi)容生成對(duì)應(yīng)自然語(yǔ)言描述的任務(wù)本質(zhì)決定了其需要結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)方向的技術(shù),并為二者的連接起到了紐帶作用。
早期的工作主要使用基于模板匹配的方法[1-2],先從視頻中識(shí)別出物體和它們之間的關(guān)系,然后填充到預(yù)先定義好的句子模板中。雖然取得了很大進(jìn)步,但這種方法太過(guò)依賴模板,導(dǎo)致生成的描述句子結(jié)構(gòu)單一,不夠靈活。隨著深度學(xué)習(xí)的興起,基于編解碼框架的方法因其更好的模型效果和能產(chǎn)生更靈活句子結(jié)構(gòu)的優(yōu)點(diǎn)成為該領(lǐng)域的主流。這類(lèi)方法使用2D/3D卷積神經(jīng)網(wǎng)絡(luò)從視頻中提取特征,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)將得到的特征解碼出描述語(yǔ)句。文獻(xiàn)[3]將視頻幀的卷積特征進(jìn)行均值池化后的結(jié)果作為編碼特征送入解碼器,而后續(xù)的S2VT模型[4]則認(rèn)為這種做法忽略了視頻幀之間的時(shí)序關(guān)系,所以在編碼端也使用了LSTM。文獻(xiàn)[5-6]在解碼過(guò)程中引入注意力機(jī)制,以關(guān)注在每個(gè)單詞生成時(shí)的不同元素的貢獻(xiàn)。文獻(xiàn)[7-9]則致力于通過(guò)對(duì)解碼器施加約束來(lái)提高生成的描述和視頻內(nèi)容的關(guān)聯(lián)程度。語(yǔ)義信息被認(rèn)為是視頻中存在的屬性元素,可以提供很強(qiáng)的先驗(yàn)知識(shí),文獻(xiàn)[10-11]通過(guò)將語(yǔ)義信息整合到解碼器網(wǎng)絡(luò)中,提升描述的準(zhǔn)確性。
盡管如此,這些方法忽略了在解碼過(guò)程中視覺(jué)信息和文本信息的交互,導(dǎo)致在生成一些視覺(jué)詞匯時(shí)出現(xiàn)錯(cuò)誤。因?yàn)槲谋緲?biāo)注是視頻的對(duì)應(yīng)描述,其從文本語(yǔ)義的角度描述了視頻的主要視覺(jué)內(nèi)容,而從視頻本身抽取的視覺(jué)特征則從抽象的視覺(jué)層面高度濃縮了視頻的視覺(jué)語(yǔ)義,二者之間存在關(guān)聯(lián)關(guān)系,它們之間的交互融合可以為解碼器提供更多參考信息,從而引導(dǎo)解碼器產(chǎn)生最相關(guān)的詞匯。針對(duì)這種情況,本文提出一種視覺(jué)引導(dǎo)交互融合的方法,利用文本特征和視覺(jué)特征之間的交互關(guān)系提高描述質(zhì)量。此外,針對(duì)解碼器網(wǎng)絡(luò)的參數(shù)量較多,而訓(xùn)練數(shù)據(jù)相對(duì)較少,從而導(dǎo)致解碼器存在過(guò)擬合情況,使用循環(huán)dropout的方法來(lái)加以緩解,從而保證提出視頻描述方法有更好的性能。綜上,本文所提方法的關(guān)鍵在于視覺(jué)、文本特征的交互融合機(jī)制和循環(huán)dropout方法的引入。
基于編解碼框架下的視頻描述模型的關(guān)鍵點(diǎn)有兩個(gè),一是如何在編碼過(guò)程中從視頻本身和對(duì)應(yīng)的人工標(biāo)注獲得更多有價(jià)值的指導(dǎo)信息,二是在解碼過(guò)程中盡可能充分有效地利用到這些信息。
由于視頻本身包含多種模態(tài)的信息,如靜態(tài)的物體、場(chǎng)景信息,動(dòng)態(tài)的運(yùn)動(dòng)信息、聲音信息等,所以很多模型[12-13]致力于從視頻本身挖掘出更多的可用信息,而視頻對(duì)應(yīng)的標(biāo)注包含了視頻內(nèi)容的描述信息,僅在模型訓(xùn)練時(shí)作為輸入使用,忽略了其潛在的指導(dǎo)價(jià)值。近年來(lái),越來(lái)越多的模型開(kāi)始借助視頻標(biāo)注挖掘出更多指導(dǎo)信息。SCN模型[10]借助視覺(jué)特征和人工標(biāo)注,訓(xùn)練語(yǔ)義檢測(cè)網(wǎng)絡(luò),得到了另一種極具價(jià)值的語(yǔ)義信息。由于不同視頻中存在語(yǔ)義相似的場(chǎng)景,對(duì)應(yīng)的描述中存在相同的詞或短語(yǔ),MARN[14]設(shè)計(jì)了一種記憶結(jié)構(gòu)來(lái)探索詞和視覺(jué)上下文的關(guān)系。POS[15]借助標(biāo)注中的詞性信息和基于視頻特征預(yù)測(cè)到的語(yǔ)法結(jié)構(gòu)來(lái)引導(dǎo)模型產(chǎn)生準(zhǔn)確的描述。SAAT[16]提出一種利用語(yǔ)法預(yù)測(cè)動(dòng)作的模塊,該模塊通過(guò)主語(yǔ)物體類(lèi)別和視頻動(dòng)態(tài)特征來(lái)預(yù)測(cè)動(dòng)作,指導(dǎo)描述生成。
dropout作為一種緩解網(wǎng)絡(luò)過(guò)擬合的方法,被廣泛應(yīng)用在各類(lèi)神經(jīng)網(wǎng)絡(luò)中。顧名思義,該方法在具體執(zhí)行時(shí)對(duì)于每批次的輸入進(jìn)行以概率p的隨機(jī)丟棄,即把元素置為0,減少隱藏節(jié)點(diǎn)間的相互作用,使得模型可以不再依賴某些局部的特征,泛化性得以增強(qiáng)。循環(huán)神經(jīng)網(wǎng)絡(luò)不同于全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),其目的是保存長(zhǎng)期記憶,標(biāo)準(zhǔn)的dropout因?yàn)楫a(chǎn)生噪聲會(huì)導(dǎo)致網(wǎng)絡(luò)不能長(zhǎng)期保存記憶,于是一些專(zhuān)門(mén)用于循環(huán)神經(jīng)網(wǎng)絡(luò)的dropout方法被提出并被廣泛應(yīng)用。
不同于標(biāo)準(zhǔn)dropout每次都會(huì)生成新的掩碼,RNNdrop[17]為每個(gè)輸入序列生成一個(gè)dropout掩碼并保持其不變,可以保證未被丟棄的元素在整個(gè)序列中持續(xù)存在,從而保持網(wǎng)絡(luò)可以長(zhǎng)期記憶。循環(huán)dropout[18]和標(biāo)準(zhǔn)dropout一樣對(duì)每個(gè)序列會(huì)生成不同掩碼,但只應(yīng)用在用于更新隱藏狀態(tài)的元素部分,而不是狀態(tài)本身。Zoneout[19]在每個(gè)時(shí)間步,以概率p隨機(jī)的使隱藏單元保持其上一時(shí)刻的值,以1-p的概率按照常規(guī)方式進(jìn)行更新。
基于編解碼器框架,本文提出的模型如圖1所示。提出的方法和文獻(xiàn)[10]一樣,借助語(yǔ)義信息來(lái)輔助產(chǎn)生更準(zhǔn)確的描述。編碼器部分由靜態(tài)特征提取器、動(dòng)態(tài)特征提取器和語(yǔ)義檢測(cè)網(wǎng)絡(luò)組成。靜態(tài)特征和動(dòng)態(tài)特征的堆疊結(jié)果作為該視頻的整體特征,語(yǔ)義檢測(cè)網(wǎng)絡(luò)得到每個(gè)視頻語(yǔ)義屬性的概率大小。解碼器則利用編碼器得到的整體特征和語(yǔ)義進(jìn)行解碼,得到每個(gè)視頻的對(duì)應(yīng)描述。提出方法的關(guān)鍵在于視覺(jué)特征引導(dǎo)融合以及循環(huán)dropout的引入。

圖1 模型整體框架Fig.1 Overall framework of model
視頻描述模型第t時(shí)間步的輸出可以表示為mt=f(s,v,xt,ht-1,ct-1;θ),其中s、v、xt分別表示語(yǔ)義特征、視頻特征、t時(shí)間步的輸入,ht-1、ct-1、θ則表示t-1時(shí)間步傳下來(lái)的隱藏單元、記憶單元和模型參數(shù)。
編碼器由2D卷積網(wǎng)絡(luò)、3D卷積網(wǎng)絡(luò)和語(yǔ)義檢測(cè)網(wǎng)絡(luò)組成,其中2D卷積網(wǎng)絡(luò)用于從視頻中提取靜態(tài)特征ri∈RDr,3D卷積網(wǎng)絡(luò)用于從視頻提取動(dòng)態(tài)特征ei∈RDv。將二者堆疊后的結(jié)果vi作為該視頻的整體特征,vi∈
對(duì)于語(yǔ)義檢測(cè),和文獻(xiàn)[10]一樣,人工的從數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集中選擇出現(xiàn)頻次較高的K個(gè)有實(shí)際意義的詞作為語(yǔ)義詞,包含名詞、動(dòng)詞、形容詞等,不包含“a”“the”等停用詞。將語(yǔ)義檢測(cè)任務(wù)視為多標(biāo)簽分類(lèi)任務(wù),輸入是視頻的整體特征vi,輸出是K維的語(yǔ)義向量si,每個(gè)維度上的值代表對(duì)應(yīng)位置上的語(yǔ)義詞是該視頻屬性的概率值,每個(gè)值在[0,1]之間。為了訓(xùn)練語(yǔ)義檢測(cè)網(wǎng)絡(luò),需要先給每個(gè)視頻打上真實(shí)的語(yǔ)義標(biāo)簽,作為語(yǔ)義訓(xùn)練網(wǎng)絡(luò)的真實(shí)結(jié)果,引導(dǎo)網(wǎng)絡(luò)生成和其接近的語(yǔ)義信息。具體如下:給每個(gè)視頻生成一個(gè)K維的零向量,遍歷該視頻的所有標(biāo)注,如果某個(gè)語(yǔ)義詞出現(xiàn)在標(biāo)注中,那么該語(yǔ)義詞的對(duì)應(yīng)位置元素置為1,否則還是0,最終結(jié)果作為該視頻的真實(shí)語(yǔ)義標(biāo)簽,即公式(1)中的s?i。si是第i個(gè)視頻的語(yǔ)義特征,si=σ(f(vi))∈(0,1)K,其中f(·)是多層前饋神經(jīng)網(wǎng)絡(luò),σ(·)是常見(jiàn)的sigmoid激活函數(shù),它們和公式描述的損失函數(shù)共同組成了語(yǔ)義檢測(cè)網(wǎng)絡(luò)。

解碼時(shí)會(huì)有視頻特征v,語(yǔ)義特征s,前一個(gè)時(shí)間步t-1時(shí)刻傳下來(lái)的隱狀態(tài)ht-1,以及當(dāng)前時(shí)間步t時(shí)刻的輸入xt等數(shù)據(jù),因?yàn)橄MZ(yǔ)義信息能夠參與到解碼過(guò)程中來(lái),首先將語(yǔ)義信息s和隱狀態(tài)ht-1進(jìn)行融合,如公式(2)所示:

由于之前的模型在解碼時(shí)使用視頻特征只是在第一個(gè)時(shí)間步傳入或者在后續(xù)時(shí)間步與輸入進(jìn)行簡(jiǎn)單的相加,導(dǎo)致視覺(jué)特征和文本特征的交互不足,致使在生成的描述中出現(xiàn)錯(cuò)誤詞匯的情況。針對(duì)該問(wèn)題,設(shè)計(jì)了一種視覺(jué)特征引導(dǎo)融合的方法,使得每個(gè)時(shí)間步的解碼過(guò)程都有視覺(jué)信息參與,并且和該時(shí)間步的輸入,也就是文本特征深度交互產(chǎn)生更有指導(dǎo)價(jià)值的特征,為解碼器產(chǎn)生詞匯提供更多的參考信息,從而生成更準(zhǔn)確的描述。
第一個(gè)時(shí)間步的輸入是轉(zhuǎn)換后的視頻特征,維度和詞向量相同,即x1=Wv,而后續(xù)時(shí)間步的輸入xt(t>1)則是該視頻對(duì)應(yīng)標(biāo)注的詞向量。視頻特征本身作為視頻的視覺(jué)表示,包含了視頻的視覺(jué)高層語(yǔ)義,而對(duì)應(yīng)標(biāo)注的文本特征則從另一個(gè)角度展現(xiàn)了視頻的內(nèi)容語(yǔ)義。它們之間的交互會(huì)增強(qiáng)原有特征的表達(dá)能力,這是交互方案的設(shè)計(jì)出發(fā)點(diǎn),本著簡(jiǎn)單有效的設(shè)計(jì)原則,設(shè)計(jì)的交互機(jī)制如公式(3)所示:

即在第一個(gè)時(shí)間步,由于輸入的是視頻特征,只需要將其和語(yǔ)義信息s進(jìn)行融合,得到語(yǔ)義相關(guān)的輸入x?z,t,但之后時(shí)間步的輸入是詞向量信息,缺少視覺(jué)信息的引導(dǎo),該方案可以將視頻特征融合到每個(gè)時(shí)間步中,并與文本特征進(jìn)行交互。其中,x1表示視覺(jué)特征,xt表示描述詞的詞向量,二者具有相同的維度,在交互機(jī)制中采用對(duì)應(yīng)位置元素乘積融合的方式使它們之間產(chǎn)生深層交互,一是因?yàn)榉椒ê?jiǎn)單,二是因?yàn)槌朔ㄈ诤峡梢允沟猛怀鎏卣鞲油怀觯玫匕l(fā)揮主流價(jià)值作用。假設(shè)特征元素?cái)?shù)值在[0,1]范圍上,二者在某個(gè)對(duì)應(yīng)位置j元素分別為x1j=0.8,xtj=0.8,在另一個(gè)位置k元素分別為x1k=0.2,xtk=0.2,可見(jiàn)j位置上的特征相比k位置有更高的響應(yīng)值,融合后的結(jié)果也應(yīng)該符合該規(guī)則。從上面的例子可知,j和k位置上的特征乘積融合后的結(jié)果分別是0.64和0.04,加和融合后的結(jié)果是1.6和0.4,前者有16倍差距,后者僅有4倍差距。可見(jiàn)相比加和融合,乘積融合可以使得原本高響應(yīng)值位置上的特征相比低響應(yīng)值位置上的特征更加突出,從而使得高響應(yīng)值位置上的特征更好發(fā)揮作用,并且抑制原本低響應(yīng)值位置上的特征的影響。上式中的z的范圍,也就是c、i、f、o分別代表記憶單元、輸入門(mén)、遺忘門(mén)、輸出門(mén)。解碼器采用SCN模型[10],其是在LSTM的基礎(chǔ)上整合進(jìn)了語(yǔ)義信息,其在計(jì)算時(shí)間步t時(shí)的輸入門(mén)it、遺忘門(mén)ft和輸出門(mén)ot的方式和LSTM相似,如公式(4)至公式(7)所示:

由于解碼器網(wǎng)絡(luò)參數(shù)較多,而訓(xùn)練數(shù)據(jù)相對(duì)較少,所以存在過(guò)擬合情況,對(duì)此引入了循環(huán)dropout[18]的方法來(lái)緩解這一情況,如圖2所示,其中s表示語(yǔ)義信息。

圖2 引入了循環(huán)dropout的SCN Fig.2 SCN with recurrent dropout

循環(huán)dropout是一種針對(duì)RNN及其變形的dropout方法,在執(zhí)行過(guò)程中,dropout只應(yīng)用于更新記憶狀態(tài)的部分,也就是當(dāng)前時(shí)間步的輸入c?t,如公式(8)所示。該方法不損害記憶單元,因?yàn)闆](méi)有對(duì)記憶單元本身做dropout,而是對(duì)其某一步的組成部分做dropout,控制其對(duì)當(dāng)前記憶單元更新的貢獻(xiàn)程度,使一些元素不再對(duì)記憶單元有貢獻(xiàn),但不會(huì)刪除原來(lái)已有的記憶單元的元素。mt是dropout掩碼,滿足伯努利分布,p是丟棄率,表示輸入元素中有多大概率被丟棄,是一個(gè)超參數(shù)。
損失函數(shù)遵循基模型[20]中的設(shè)置,如公式(10)所示:

其中,bs是批次大小,Li-1是描述長(zhǎng)度,β≥0是超參數(shù)用于平衡句子長(zhǎng)度和準(zhǔn)確性,當(dāng)其等于0時(shí),對(duì)應(yīng)的Loss就變成了該領(lǐng)域最常規(guī)的損失函數(shù)。訓(xùn)練過(guò)程就是尋找θ的最優(yōu)解,如公式(11)所示:

3.1.1 數(shù)據(jù)集
Msvd(Microsoft video description corpus)[2]包 含1 970個(gè)視頻,其中1 200個(gè)視頻用于訓(xùn)練,100個(gè)視頻用于驗(yàn)證,剩余的670個(gè)用于測(cè)試。對(duì)訓(xùn)練集和驗(yàn)證集的標(biāo)注分詞并去掉低頻詞后得到12 952個(gè)詞匯,其余的詞用
Msrvtt(MSR-Video to Text)[21]是一個(gè)相對(duì)大的數(shù)據(jù)集,共有10 000個(gè)視頻,每個(gè)視頻有20條人工標(biāo)注。6 513個(gè)視頻用于訓(xùn)練,497個(gè)用于驗(yàn)證,剩余的2 970個(gè)用于測(cè)試。進(jìn)行同樣的分詞和過(guò)濾操作,得到13 794個(gè)單詞,其余的用于
3.1.2 參數(shù)設(shè)置
對(duì)兩個(gè)數(shù)據(jù)集采用相同的實(shí)驗(yàn)參數(shù)配置,具體為:隱狀態(tài)維度均為512,模型采用Adam優(yōu)化方法,初始學(xué)習(xí)率均為0.000 4,采用學(xué)習(xí)率指數(shù)衰減的方式,每10周期執(zhí)行一次衰減,衰減率為0.316,訓(xùn)練批次大小均為64,生成描述的最大長(zhǎng)度設(shè)置為20。numpy和pytorch的隨機(jī)種子固定為34。
3.2.1 視覺(jué)特征提取
對(duì)于靜態(tài)特征,先對(duì)每個(gè)視頻每秒鐘切割出8幀,并從中均勻得到32幀,送入卷積神經(jīng)網(wǎng)絡(luò)中,這里使用ResNeSt網(wǎng)絡(luò)[22],選取其均值池化層輸出的2 048維結(jié)果作為每一幀的特征表示,對(duì)32幀的卷積特征進(jìn)行全局均值池化操作,得到1×2 048維的靜態(tài)特征。
對(duì)于動(dòng)態(tài)特征,采用V4D模型[23],該模型結(jié)合3D網(wǎng)絡(luò)在短時(shí)序運(yùn)動(dòng)信息抽取和TSN中的稀疏采樣技術(shù)在長(zhǎng)時(shí)建模的優(yōu)勢(shì),可以對(duì)視頻進(jìn)行整體建模,得到視頻級(jí)的特征表示。具體為從每個(gè)視頻中切割出10個(gè)片段,每個(gè)片段有8幀,對(duì)每個(gè)片段進(jìn)行片段級(jí)的3D建模,并對(duì)各個(gè)片段之間采用殘差連接達(dá)到整體建模的目的。對(duì)最終的結(jié)果也采用全局均值池化的操作,得到1×2 048維的動(dòng)態(tài)特征。
3.2.2 語(yǔ)義特征和詞向量提取
對(duì)于語(yǔ)義特征,先從訓(xùn)練集中選擇出現(xiàn)頻次較高的300個(gè)詞,按照1.2節(jié)中的語(yǔ)義檢測(cè)部分獲取每個(gè)視頻的真實(shí)語(yǔ)義標(biāo)簽,將靜態(tài)特征和動(dòng)態(tài)特征堆疊后的結(jié)果作為該視頻的整體特征,送入2.2節(jié)描述語(yǔ)義檢測(cè)網(wǎng)絡(luò)中,語(yǔ)義檢測(cè)網(wǎng)絡(luò)采用三層前饋神經(jīng)網(wǎng)絡(luò),每個(gè)批次大小為64。
對(duì)篩選出的詞匯使用glove工具獲取其對(duì)應(yīng)的詞向量,每個(gè)詞向量維度為300。
3.2.3模型訓(xùn)練
由于傳統(tǒng)的“teacher forcing”訓(xùn)練方法存在“曝光偏差”的問(wèn)題,即在訓(xùn)練階段輸入真實(shí)詞的詞向量,而在測(cè)試階段則是輸入上一個(gè)時(shí)間步產(chǎn)生的詞的詞向量,這種輸入差異可能會(huì)造成錯(cuò)誤累計(jì)。針對(duì)這種情況,采用了“scheduled sampling”[24]來(lái)緩解這種情況。
在訓(xùn)練階段的解碼過(guò)程中以prob的概率選擇上一個(gè)時(shí)間步的輸出詞作為當(dāng)前輸入,因?yàn)橐婚_(kāi)始生成詞匯時(shí),需要真實(shí)詞匯的指引,隨著時(shí)間步的增多,模型已經(jīng)學(xué)到了的上下文知識(shí),此時(shí)就可以將上一個(gè)時(shí)間步的輸出作為當(dāng)前的輸入,所以prob是隨著訓(xùn)練周期的增加而增大。每周期的具體如公式(12)所示:

其中,prob是采樣率,開(kāi)始時(shí)為0,epoch表示周期,從0開(kāi)始,ratio為采樣率增加比率,具體設(shè)置為0.008。該操作表示每個(gè)周期的采樣率在上個(gè)周期的基礎(chǔ)上增加周期數(shù)和比率數(shù)乘積值。每個(gè)時(shí)間步prob會(huì)和均勻分布的隨機(jī)值做比較,如果大于隨機(jī)值,則采用上一個(gè)時(shí)間步的輸出作為輸入,否則還是采用正常順序的輸入。
基模型來(lái)自文獻(xiàn)[20],評(píng)價(jià)指標(biāo)來(lái)自機(jī)器翻譯和圖像描述領(lǐng)域,分別是BLEU-4[25]、ROUGE[26]、METEOR[27]、CIDEr[28],在表中分別簡(jiǎn)寫(xiě)為B4、R、M、C,它們使用不同方法評(píng)價(jià)模型產(chǎn)生的描述和人工標(biāo)注之間的相似性,每個(gè)指標(biāo)的分?jǐn)?shù)越高表示二者之間越相似。在表1、表2的消融實(shí)驗(yàn)中,證明了提出的循環(huán)dropout和視覺(jué)特征引導(dǎo)融合方法的有效性,其中“Baseline”對(duì)應(yīng)基模型文章中的實(shí)驗(yàn)結(jié)果,但在復(fù)現(xiàn)時(shí)和其有一定的差距,復(fù)現(xiàn)的結(jié)果對(duì)應(yīng)表1、表2中“Baseline*”。本文模型使用了新的特征,并基于新特征訓(xùn)練語(yǔ)義檢測(cè)網(wǎng)絡(luò)得到了新語(yǔ)義,其實(shí)驗(yàn)結(jié)果對(duì)應(yīng)表1、表2中的“MyBaseline”,本文提出的方法均是在該實(shí)驗(yàn)的基礎(chǔ)上的。首先驗(yàn)證循環(huán)dropout的有效性,如表1、2中的“MyBaseline+R(d)”所示,“R”代表循環(huán)dropout,括號(hào)里的d代表丟棄率,即輸入元素有多大概率被丟棄。丟棄率本身是一個(gè)超參數(shù),當(dāng)其值越接近0時(shí)表示數(shù)據(jù)被丟棄的概率越低,無(wú)法發(fā)揮作用的數(shù)據(jù)越少,此時(shí)不能發(fā)揮緩解過(guò)擬合的效果或者效果不明顯。當(dāng)丟棄率值越接近1時(shí)表示被丟棄的概率越高,無(wú)法發(fā)揮作用的數(shù)據(jù)越多,此時(shí)dropout已經(jīng)不能發(fā)揮出緩解過(guò)擬合的功能,還會(huì)導(dǎo)致模型性能?chē)?yán)重下降。所以在實(shí)驗(yàn)中需要進(jìn)行丟棄率參數(shù)嘗試,尋找接近最優(yōu)解的丟棄率參數(shù)。由實(shí)驗(yàn)結(jié)果可知,當(dāng)d=0.4時(shí),循環(huán)dropout在msvd數(shù)據(jù)集上最有效,當(dāng)d=0.5時(shí),該方法在msrvtt數(shù)據(jù)集上相對(duì)最有效?!癕yBaseline+F(X)”對(duì)比了三種視覺(jué)特征引導(dǎo)融合方法,“F”代表融合操作,X對(duì)應(yīng)的“S”“C”“M”分別表示加法引導(dǎo)融合、堆疊引導(dǎo)融合以及乘法引導(dǎo)融合。如2.3節(jié)所述,乘法融合可以使得原本高響應(yīng)值的特征在融合后更好發(fā)揮作用,并且抑制低響應(yīng)值特征的影響。這可以看做是一種特殊的“注意力機(jī)制”,因?yàn)槠渥饔煤汀白⒁饬C(jī)制”類(lèi)似,都是使得原本高權(quán)重的特征在融合后仍然具有高權(quán)重,在后續(xù)流程中發(fā)揮主流價(jià)值。加法融合采用特征值相加的方式,這樣的做法會(huì)使得原來(lái)不明顯的特征也變得相對(duì)明顯,增加了噪聲。堆疊融合介于二者之間,因?yàn)榧葲](méi)有突出顯著特征,也沒(méi)有增加噪聲。從表中的實(shí)驗(yàn)結(jié)果也可以看出,兩個(gè)數(shù)據(jù)集采用乘法引導(dǎo)融合時(shí)效果最好,堆疊融合效果很不明顯,加法融合反而會(huì)降低性能。在乘法融合的基礎(chǔ)上增加循環(huán)dropout操作,由于丟棄率是超參數(shù),所以采用不同的丟棄率比較實(shí)驗(yàn)結(jié)果。從表1、2中可知,當(dāng)采用乘法引導(dǎo)融合策略后,對(duì)于msvd數(shù)據(jù)集,丟棄率為0.45時(shí)效果最好,在4個(gè)評(píng)價(jià)指標(biāo)上綜合增長(zhǎng)了17.2個(gè)百分點(diǎn),對(duì)于msrvtt數(shù)據(jù)集,丟棄率為0.3時(shí)效果最好,在4個(gè)評(píng)價(jià)指標(biāo)上綜合增長(zhǎng)了2.1個(gè)百分點(diǎn)。

表1 在msvd數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 1 Ablation expriment on msvd dataset 單位:%

表2 方法在msrvtt數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 2 Ablation experiment on msrvtt dataset 單位:%
如表3和表4所示,在msvd和msrvtt數(shù)據(jù)集上和其他模型對(duì)比了實(shí)驗(yàn)結(jié)果。這些模型選取自近年來(lái)的相關(guān)文章,比較全面展示了視頻描述領(lǐng)域的研究突破和最新成果。由于其中很多模型沒(méi)有開(kāi)源,所以數(shù)據(jù)來(lái)自文章本身。ECO[29]是高效的行為識(shí)別模型,其對(duì)視頻進(jìn)行整體建模,建模結(jié)果作為視頻動(dòng)態(tài)特征。在Baseline模型中使用ECO作為動(dòng)態(tài)特征提取器,Sibnet[30]使用兩個(gè)分支捕獲視頻的內(nèi)容特征和語(yǔ)義特征,HACA[13]利用視頻中的音頻信息來(lái)輔助描述生成,STG-KD[31]利用時(shí)空?qǐng)D來(lái)捕捉視頻中的交互信息,利用知識(shí)蒸餾處理噪聲特征。ORG-TRL[32]設(shè)計(jì)了一種新的訓(xùn)練方法,將外部語(yǔ)言模型的知識(shí)集成到當(dāng)前的描述模型中,緩解人工標(biāo)注中存在的長(zhǎng)尾分布問(wèn)題。對(duì)于表中本文所提出方法的結(jié)果,表3對(duì)應(yīng)的msvd結(jié)果取自融合后使用丟棄概率為0.45的循環(huán)dropout,表4對(duì)應(yīng)的msrvtt的結(jié)果取自融合后使用丟棄概率為0.3的循環(huán)dropout,從表中可以看出,相比其他近年來(lái)的視頻描述模型,本文提出的方法在4個(gè)指標(biāo)上均超過(guò)了它們,并且達(dá)到了目前最好的結(jié)果,證明了本文所提出的方法的先進(jìn)性。

表3 和其他模型在msvd數(shù)據(jù)集上的表現(xiàn)對(duì)比Table 3 Comparison with other models on msvd dataset 單位:%

表4 和其他模型在msrvtt數(shù)據(jù)集上的表現(xiàn)對(duì)比Table 4 Comparison with other models on msrvtt dataset 單位:%
圖3和圖4分別展示了加入視覺(jué)特征引導(dǎo)融合與循環(huán)dropout方法的模型和MyBaseline模型在msvd和msrvtt兩個(gè)數(shù)據(jù)集的效果對(duì)比,每個(gè)視頻選擇三個(gè)真實(shí)標(biāo)注(ground truth,GT),從圖中可見(jiàn)設(shè)計(jì)的方法提升了描述準(zhǔn)確率,真實(shí)地體現(xiàn)出方法的有效性。

圖3 在msvd數(shù)據(jù)集上可視化對(duì)比Fig.3 Visual comparison on msvd dataset

圖4 在msrvtt數(shù)據(jù)集上可視化對(duì)比Fig.4 Visual comparison on msrvtt dataset
視頻描述是視覺(jué)與語(yǔ)言交叉模態(tài)的研究,本文針對(duì)現(xiàn)有模型解碼階段視覺(jué)特征和文本特征交互不足而導(dǎo)致描述不準(zhǔn)確的問(wèn)題,提出了一種視覺(jué)特征引導(dǎo)融合的方法。通過(guò)在每個(gè)時(shí)間步,視覺(jué)特征和文本特征的深層交互,產(chǎn)生更有指導(dǎo)價(jià)值的融合特征,不僅為解碼過(guò)程提供文本信息,還提供了視覺(jué)信息加以輔助,使得模型在解碼過(guò)程中可以獲得更多的參考信息,進(jìn)而提升描述準(zhǔn)確性。同時(shí),針對(duì)解碼器存在的過(guò)擬合情況,使用循環(huán)dropout的方法加以緩解,進(jìn)一步提升模型性能。在兩個(gè)常用數(shù)據(jù)集上的消融和對(duì)比實(shí)驗(yàn)證明了方法的有效性和先進(jìn)性。