楊金福 劉玉斌 宋 琳 閆 雪
①(北京工業(yè)大學(xué)信息學(xué)部 北京 100124)
②(計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100124)
視頻數(shù)據(jù)可以對(duì)已發(fā)生的事情進(jìn)行2次描述,在情景記錄、現(xiàn)場(chǎng)重建等工作中發(fā)揮重要作用。通過(guò)人工方式在海量視頻中查找目標(biāo)內(nèi)容,成本較高且效率低下。跨模態(tài)視頻片段檢索旨在通過(guò)不同模態(tài)的知識(shí)協(xié)同,在視頻中快速找到目標(biāo)內(nèi)容,受到越來(lái)越多的研究人員關(guān)注。
近年來(lái),跨模態(tài)視頻片段檢索研究取得了較大的進(jìn)展,涌現(xiàn)了許多令人印象深刻的方法。按照檢索方式主要分為基于匹配的方法[1–7]和基于視頻-文本特征關(guān)系的方法[8–12],前者關(guān)注候選視頻片段與文本特征的匹配過(guò)程,而后者則是關(guān)注視頻和文本特征的跨模態(tài)交互過(guò)程。
基于匹配的方法,通常使用滑動(dòng)窗口法預(yù)先生成足夠多的候選視頻片段,然后分別與查詢文本比對(duì)并計(jì)算得分。Gao等人[1]使用3維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional 3D networks, C3D)[13]提取候選視頻片段特征,使用長(zhǎng)短記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)[14]提取查詢文本特征,然后利用加法、乘法和全連接運(yùn)算將兩種模態(tài)的特征融合,用全連接網(wǎng)絡(luò)計(jì)算每個(gè)候選視頻片段的得分。為了充分學(xué)習(xí)模態(tài)內(nèi)的特征關(guān)系,Ge等人[2]在計(jì)算得分時(shí)考慮了候選視頻片段中的活動(dòng)信息以及查詢文本中的主謂關(guān)系,使用加法、乘法和拼接操作融合不同模態(tài)的特征,并利用多層感知機(jī)預(yù)測(cè)候選視頻片段的得分。Liu等人[3]設(shè)計(jì)了一個(gè)文本-視頻注意力網(wǎng)絡(luò)用于學(xué)習(xí)模態(tài)間的特征關(guān)系,將視頻特征和查詢文本特征投影到公共的特征空間,結(jié)合視頻信息給每個(gè)單詞分配不同的權(quán)重,然后與視頻特征拼接,使用多層感知機(jī)預(yù)測(cè)候選視頻片段的得分。Zhang等人[4]根據(jù)候選視頻片段的起止時(shí)刻對(duì)視頻特征編碼,設(shè)計(jì)了一種時(shí)間鄰近卷積來(lái)學(xué)習(xí)視頻片段間的上下文信息,并使用哈達(dá)瑪積運(yùn)算將其與查詢文本特征融合后,通過(guò)卷積網(wǎng)絡(luò)計(jì)算候選視頻片段的得分。Ning等人[6]考慮到查詢文本指向的內(nèi)容可能出現(xiàn)在候選視頻片段之外問(wèn)題,提出一種利用注意力機(jī)制將視頻的全局內(nèi)容編碼到每一幀中的方法。
與上述匹配的方法不同,基于視頻-文本特征關(guān)系的方法直接預(yù)測(cè)視頻片段的起止時(shí)刻。Yuan等人[8]設(shè)計(jì)了一個(gè)多模態(tài)協(xié)同注意力網(wǎng)絡(luò),交替地使用文本特征和視頻特征給對(duì)方添加注意力,利用全連接網(wǎng)絡(luò)預(yù)測(cè)視頻片段的邊界。Ghosh等人[9]為了提高檢索的速度,將視頻和文本兩種模態(tài)的特征在通道維度拼接,使用雙向LSTM預(yù)測(cè)視頻片段的起止時(shí)刻。Sun等人[10]采用全局-局部的兩階段融合策略進(jìn)行視頻和文本的特征融合,利用兩個(gè)門控循環(huán)單元(Gated Recurrent Unit, GRU)[15]分別預(yù)測(cè)視頻片段的起始時(shí)刻和終止時(shí)刻。為了學(xué)習(xí)對(duì)象間的特征關(guān)系,Rodriguez-Opazo等人[11]設(shè)計(jì)了一個(gè)時(shí)空?qǐng)D模型,對(duì)視頻中存在的對(duì)象建模,使用全連接網(wǎng)絡(luò)生成檢索結(jié)果。其中,時(shí)空?qǐng)D模型具有3個(gè)語(yǔ)言節(jié)點(diǎn)和3個(gè)視覺(jué)節(jié)點(diǎn),語(yǔ)言節(jié)點(diǎn)包含一個(gè)多頭注意力機(jī)制[16],用于學(xué)習(xí)3種文本關(guān)系:主語(yǔ)-謂語(yǔ)、主語(yǔ)-賓語(yǔ)和謂語(yǔ)-賓語(yǔ)關(guān)系,視覺(jué)節(jié)點(diǎn)分別用于處理人、物體和活動(dòng)之間的關(guān)系。
上述方法的提出推動(dòng)了跨模態(tài)檢索領(lǐng)域的不斷發(fā)展,也驗(yàn)證了注意力機(jī)制在跨模態(tài)視頻片段檢索任務(wù)中的有效性。借助注意力機(jī)制的隱藏層,現(xiàn)有方法可以學(xué)習(xí)模態(tài)內(nèi)或模態(tài)間特征的隱式關(guān)系。然而,這些方法缺少對(duì)特征顯式關(guān)系的學(xué)習(xí),使得模型的性能無(wú)法得到充分的發(fā)揮,缺乏直觀地解釋特征的顯式關(guān)系和表達(dá)特征的差異信息。基于此,本文提出一種新的基于顯著特征增強(qiáng)的跨模態(tài)視頻片段檢索方法(Significant Features Enhancement Network, SFEN),通過(guò)增強(qiáng)視頻的顯著特征,提升神經(jīng)網(wǎng)絡(luò)對(duì)視頻語(yǔ)義的理解能力。
本文研究所設(shè)計(jì)的模型結(jié)構(gòu)如圖1所示,主要包含3個(gè)模塊:(1) 時(shí)間相鄰網(wǎng)絡(luò)(Temporal Adjacent Network, TAN): 學(xué)習(xí)視頻片段的空間關(guān)系;(2)輕量化殘差通道注意力(Weak Residual Channel Attention, RCA-W):學(xué)習(xí)視頻模態(tài)特征的顯式關(guān)系;(3) 特征融合與視頻時(shí)刻定位: 融合視頻與文本的信息,完成目標(biāo)視頻片段的定位。接下來(lái)將對(duì)3個(gè)模型進(jìn)行詳細(xì)介紹。

圖1 模型整體結(jié)構(gòu)

其中,i∈[0,n ?1]代 表視頻片段的起始時(shí)刻,j ∈[1,n]代表視頻片段的終止時(shí)刻。由于起始時(shí)刻小于終止時(shí)刻,所以TAN特征圖的左下角為無(wú)效區(qū)域并以0填充。當(dāng)輸入視頻時(shí)長(zhǎng)為5τ,選取n=5時(shí),根據(jù)流程可以構(gòu)建維度為5 ×5×d的TAN特征圖,如圖2所示。

圖2 TAN特征圖構(gòu)建示意圖(n=5)
注意力被解釋為一種將計(jì)算資源分配給具備最大信息量區(qū)域的機(jī)制,可以學(xué)習(xí)特征的依賴關(guān)系,在深度學(xué)習(xí)中有廣泛的使用。Hu等人[17]提出了擠壓和激勵(lì)模塊(Squeeze-and-Excitation, SE),使神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)通道間的特征關(guān)系。Woo等人[18]提出了卷積注意力(Convolutional Block Attention Module, CBAM),在SE的基礎(chǔ)上加入了空間注意力,學(xué)習(xí)特征的空間關(guān)系。Zhang等人[19]提出了殘差通道注意力(Residual Channel Attention,RCA),在傳統(tǒng)的通道注意力上添加殘差連接,以自適應(yīng)地學(xué)習(xí)通道的特征關(guān)系。Wang等人[20]提出了有效通道注意力(Efficient Channel Attention,ECA),可以無(wú)降維地學(xué)習(xí)局部跨通道交互關(guān)系。Wang等人[21]提出了非局部神經(jīng)網(wǎng)絡(luò)(Non-local neural networks, Non-local),可以捕獲長(zhǎng)距離的特征依賴關(guān)系。上述注意力機(jī)制在模型中額外引入了隱藏層,幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的隱式關(guān)系,在目標(biāo)檢測(cè)、實(shí)例分割等任務(wù)中取得了較好的效果。在視頻任務(wù)中,出于對(duì)模型實(shí)時(shí)性的考慮,本文提出了一種輕量化殘差通道注意力RCA-W,在僅增加少量推理時(shí)間的情況下,可以學(xué)習(xí)視頻特征的顯式關(guān)系,提升神經(jīng)網(wǎng)絡(luò)對(duì)視頻語(yǔ)義的理解能力。
RCA-W采用殘差網(wǎng)絡(luò)(Residual Network,ResNet)[22]的恒等映射結(jié)構(gòu)學(xué)習(xí)特征關(guān)系,形式上定義為

其中,xi ∈{x1,x2,...,xn×n},yi ∈{y1,y2,...,yn×n}分別表示輸入和輸出特征圖的通道信息,F(xiàn)=xi·σ(W xi+b)表 示包含注意力機(jī)制的前饋路徑,W是路徑的權(quán)值,b是偏移值,σ是權(quán)值分配函數(shù),F(xiàn)+xi表示xi通過(guò)恒等映射路徑與非線性層的輸出直接相加。在式(2)中,xi與F的維度必須相同,否則需要使用線性投影進(jìn)行尺寸匹配

考慮到W,b和σ會(huì)增加計(jì)算量,影響模型的實(shí)時(shí)性。于是令W=1(·),b=0(·),σ=softmax(·),得到




交并比(Intersection over Union, IoU)是一種常用的評(píng)價(jià)方式,在模型的訓(xùn)練和性能評(píng)測(cè)中應(yīng)用廣泛。在視頻片段檢索任務(wù)中,IoU計(jì)算的是“候選視頻片段A”和“真實(shí)視頻片段Agt”交集與并集的比值

已有研究表明使用傳統(tǒng)的IoU參與模型訓(xùn)練時(shí),存在收斂慢和回歸不準(zhǔn)確的問(wèn)題,計(jì)算交并比應(yīng)當(dāng)考慮多方面的幾何因素[23–25]。這些工作從不同的角度分析了IoU算法的瓶頸并進(jìn)行了改進(jìn),在目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù)中取得了較好的結(jié)果。然而,在視頻片段檢索任務(wù)中仍然缺少一種更適用的交并比計(jì)算方式。受到上述工作的啟發(fā),本文提出一種中心交并比(Center Intersection over Union,CIoU),用于輔助完成模型的訓(xùn)練任務(wù)。CIoU在IoU算法的基礎(chǔ)上考慮了視頻片段中心時(shí)刻的位置因素


圖3 使用CIoU選取候選片段的示意圖
損失函數(shù)由視頻片段定位損失和中心時(shí)刻回歸損失組成。定位損失參考文獻(xiàn)[4]的方法,將預(yù)測(cè)片段定位到滿足IoU閾值的區(qū)間。對(duì)于每個(gè)候選視頻片段,與真實(shí)片段計(jì)算CIoU值oi,使用非極大抑制算法確保作為正樣本的候選片段僅與單個(gè)描述文本匹配。根據(jù)閾值omin和omax,計(jì)算這些候選視頻片段的得分yi

以yi作為監(jiān)督訓(xùn)練的標(biāo)簽,與模型前向推理的得分pi計(jì)算交叉熵?fù)p失,作為視頻片段的定位損失

其中,N為候選片段的個(gè)數(shù)。接著,計(jì)算得分排名前k的預(yù)測(cè)片段與真實(shí)片段中心偏差的二范數(shù),得到中心時(shí)刻回歸損失

完整的損失函數(shù)為兩項(xiàng)加權(quán)之和

本文在跨模態(tài)視頻片段檢索任務(wù)常用的數(shù)據(jù)集TACoS[26]和ActivityNet Captions[27]上對(duì)所提方法進(jìn)行評(píng)估,以便與目前主流的方法進(jìn)行比較。
TACoS[26]數(shù)據(jù)集在MPII Compositive[28]數(shù)據(jù)集的基礎(chǔ)上進(jìn)行構(gòu)建,該數(shù)據(jù)集的主要特點(diǎn)是具有固定場(chǎng)景和固定視角,內(nèi)容為廚房的烹飪行為,存在大量的人體動(dòng)作。數(shù)據(jù)集共有127個(gè)視頻樣本,包括訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別包含75,27和25個(gè)時(shí)長(zhǎng)不同的視頻。每個(gè)視頻劃分了若干個(gè)視頻片段,與之對(duì)應(yīng)的標(biāo)注文件標(biāo)明了視頻片段在完整視頻中的起止時(shí)間、幀數(shù)和文本描述。TACoS數(shù)據(jù)集用于訓(xùn)練、驗(yàn)證和測(cè)試的視頻片段數(shù)量分別為10146,4589和4083。描述文本的平均長(zhǎng)度為6.2個(gè)單詞,視頻平均時(shí)長(zhǎng)287.1 s,每個(gè)視頻的平均活動(dòng)次數(shù)21.4次。
ActivityNet Captions[27]數(shù)據(jù)集包含約20000個(gè)未剪輯的視頻和100000個(gè)描述文本,總時(shí)長(zhǎng)超過(guò)了600 h。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3部分,分別有10022, 4924和5043個(gè)不同的視頻。這些視頻包括了50000多個(gè)視頻片段和等同數(shù)目的描述文本,平均時(shí)長(zhǎng)為2 min,帶有文本描述的視頻片段平均為36 s,是跨模態(tài)視頻片段檢索任務(wù)中最大的數(shù)據(jù)集。
為了公平地評(píng)估算法性能,同當(dāng)前的主流評(píng)價(jià)方法,使用召回率對(duì)模型進(jìn)行評(píng)估:{Rank@n,IoU =m}, 即計(jì)算前n項(xiàng)預(yù)測(cè)結(jié)果在閾值IoU =m下的召回率,其中m∈{0.1,0.3,0.5,0.7}。
(1) TAN特征圖:在TACoS[26]上實(shí)驗(yàn)時(shí),選取n=128 ,構(gòu)建維度為1 28×128×512的TAN特征圖;在ActivityNet Captions[27]上實(shí)驗(yàn)時(shí),由于訓(xùn)練集的平均時(shí)長(zhǎng)相對(duì)較短,所以選取n=64,構(gòu)建維度為6 4×64×512的TAN特征圖。
(2) 標(biāo)簽閾值:為了公平驗(yàn)證使用CIoU選取的訓(xùn)練樣本更有利于模型訓(xùn)練,樣本的監(jiān)督訓(xùn)練標(biāo)簽采用與基于匹配的方法相同的閾值生成,即在TACoS[26]上的實(shí)驗(yàn)設(shè)定omin和omax分別為0.3和0.7,在ActivityNet Captions[27]上的實(shí)驗(yàn)設(shè)定omin和omax分別為0.5和1.0。
(3) 超參數(shù):實(shí)驗(yàn)涉及k,α和β3個(gè)超參數(shù)。模型訓(xùn)練時(shí),計(jì)算前k個(gè)預(yù)測(cè)片段與真實(shí)片段中心偏差的二范數(shù),作為中心時(shí)刻回歸損失,在TACoS和ActivityNet Captions上分別設(shè)置為1和4;α和β用于調(diào)整視頻片段定位損失和中心時(shí)刻回歸損失的權(quán)重,在TACoS上分別設(shè)置為1.0和0.8,在ActivityNet Captions上分別設(shè)置為1.0和0.6。詳細(xì)的超參數(shù)選取流程見(jiàn)5.6節(jié)。
在TACoS[26]上實(shí)驗(yàn)時(shí),使用文獻(xiàn)[29]提供的數(shù)據(jù)集特征,其中視頻特征維度為 1 28×4096,使用1維卷積將視頻基礎(chǔ)特征的通道調(diào)整至512,構(gòu)建維度為 128×128×512的TAN特征圖。使用Global Vector[30]模型對(duì)描述文本進(jìn)行詞嵌入,得到300維的詞向量,然后使用3層神經(jīng)元個(gè)數(shù)為512的LSTM提取文本特征。用于生成得分圖的全卷積網(wǎng)絡(luò)包含8層卷積,前7層為 3 ×3卷積,最后一層為1×1卷積。模型的學(xué)習(xí)率和訓(xùn)練批次大小分別為0.001和8。
在ActivityNet Captions[27]上實(shí)驗(yàn)時(shí),使用文獻(xiàn)[30]提供的視頻特征和文本標(biāo)注,其中視頻特征維度為6 4×2048。由于ActivityNet Captions[27]中視頻的時(shí)長(zhǎng)相對(duì)較短,所以構(gòu)建TAN特征圖時(shí),把128×128 的維度縮減至6 4×64,通道維度使用1維卷積調(diào)整為512。訓(xùn)練時(shí),初始學(xué)習(xí)率設(shè)置為0.00025,在第4次迭代時(shí)衰減至原來(lái)的1/2,其余實(shí)驗(yàn)設(shè)置保持不變。
本文在TACoS[26]和ActivityNet Captions[27]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與主流的跨模態(tài)視頻片段檢索方法進(jìn)行了對(duì)比。如表1和表2所示,有基于匹配的:時(shí)間回歸模型(Cross-modal Temporal Regression Localizer, CTRL)[1]、運(yùn)動(dòng)感知模型(Activity Concepts based Localizer, ACL)[2]、語(yǔ)言-時(shí)間注意力模型(Language-Temporal Attention Network,LTAN)[3]、2維相鄰卷積模型(2D Temporal Adjacent Networks, 2D-TAN)[4]、記憶注意力模型(Attentive Cross-modal Retrieval Network,ACRN)[5]、交互聚合模型(Interaction-Integrated Network, IIN-C3D)[6],基于視頻-文本特征關(guān)系的:協(xié)同注意力回歸模型(Attention Based Location Regression, ABLR)[8]、全局-局部?jī)呻A段融合模型(Multi-Agent Boundary-Aware Network,MABAN)[10]、時(shí)空關(guān)系模型(Discovering Object Relationship Network, DORi)[11]和分段提議模型(Query-guided Segment Proposal Network,QSPN)[12],以及跨模態(tài)哈希方法(Cross-Modal Hashing Network, CMHN)[31]。

表1 SFEN在TACoS數(shù)據(jù)集上的召回率

表2 SFEN在ActivityNet Captions數(shù)據(jù)集上的召回率
首先與基于匹配的方法進(jìn)行對(duì)比,該類方法從預(yù)先生成的候選視頻片段中挑選得分最高的作為檢索結(jié)果,使得檢索的準(zhǔn)確度受到了候選視頻片段生成算法的影響,而本方法SFEN可以對(duì)檢索結(jié)果的中心時(shí)刻進(jìn)行調(diào)整,此外,本方法還增加了對(duì)視頻特征的顯式關(guān)系學(xué)習(xí),因此優(yōu)于該類方法。其次與基于視頻-文本特征關(guān)系的方法進(jìn)行對(duì)比,結(jié)果表明本文方法更優(yōu),分析其原因,此類方法通過(guò)注意力的隱藏層,學(xué)習(xí)的是模態(tài)內(nèi)的隱式關(guān)系,而本文方法通過(guò)所提的輕量化殘差通道注意力,還可以學(xué)習(xí)模態(tài)內(nèi)的顯式關(guān)系。CMHN[31]方法雖然基于哈希學(xué)習(xí),將候選視頻片段和查詢文本編碼成哈希向量投影到漢明空間中,使用漢明距離計(jì)算相關(guān)度,但其本質(zhì)仍屬于基于匹配的方法,同樣受到了候選視頻片段生成算法的影響,因此本文方法表現(xiàn)更好。
本節(jié)評(píng)估了中心交并比CIoU、注意力RCA-W和中心回歸損失R對(duì)模型的影響。如表3所示,使用CIoU訓(xùn)練的模型具有更好的表現(xiàn),尤其在IoU=0.7的評(píng)估條件下,召回率提升了超過(guò)2個(gè)百分點(diǎn)。如圖4所示,為了與傳統(tǒng)的IoU策略對(duì)比,訓(xùn)練時(shí)將CIoU的λ分別設(shè)定為1~5的整數(shù),在多個(gè)評(píng)估條件下計(jì)算模型的召回率。圖4綠色曲線表示使用傳統(tǒng)IoU策略訓(xùn)練的模型,通過(guò)對(duì)比可以看出使用CIoU訓(xùn)練的模型具有更高的召回率,特別是當(dāng)λ=4時(shí)取得了最好的表現(xiàn)。接著,分析RCA-W對(duì)模型的影響,如表3所示,使用RCA-W的模型在所有評(píng)估指標(biāo)上均有提升,這是因?yàn)镽CA-W使模型具備學(xué)習(xí)視頻特征顯式關(guān)系的能力,可以更好地學(xué)習(xí)視頻語(yǔ)義信息。為了驗(yàn)證RCA-W的輕量性,本文對(duì)所提方法的時(shí)間復(fù)雜度和計(jì)算量進(jìn)行了分析,結(jié)果如表4所示,其中K為卷積核的大小,Cin和Cout分別為輸入通道和輸出通道的維度,N為卷積的運(yùn)算次數(shù),Z為卷積層的個(gè)數(shù)。此外,當(dāng)評(píng)估指標(biāo)相對(duì)松懈時(shí),中心回歸損失R對(duì)模型性能的提升也產(chǎn)生了一定效果。

表4 SFEN的時(shí)間復(fù)雜度和計(jì)算量

圖4 CIoU與IoU的對(duì)比實(shí)驗(yàn)圖(Rank@1)

表3 SFEN的消融實(shí)驗(yàn)結(jié)果
本文以TACoS數(shù)據(jù)集為例,將所提的RCA-W與前文探討的Non-local[21], SE[17], RCA[19]和ECA[20]注意力模型進(jìn)行了對(duì)比實(shí)驗(yàn)。如表5所示,RCA-W在召回率、推理時(shí)間、模型大小和所需計(jì)算量均優(yōu)于上述模型。首先與Non-local[21]對(duì)比,本文的方法更優(yōu),分析其原因,Non-local通過(guò)計(jì)算特征圖中兩個(gè)位置之間的交互捕捉遠(yuǎn)程依賴,相當(dāng)于構(gòu)建了一個(gè)與特征圖尺寸相同的卷積核,捕捉了全部候選視頻片段之間的空間特征,但是這種方式更適用于圖像分類、目標(biāo)檢測(cè)等任務(wù),在視頻片段檢索中,感受野過(guò)大可能融合較多不相關(guān)的視頻信息,使模型訓(xùn)練更加困難。與SE[17]相比,本文方法優(yōu)于SE,原因是SE雖然也關(guān)注了通道維度間的特征關(guān)系學(xué)習(xí),但其側(cè)重于通道特征的隱式關(guān)系,而本文方法更注重通道中顯著特征的表達(dá),關(guān)注特征的顯式關(guān)系。同樣與RCA[19]對(duì)比,本文方法表現(xiàn)更好的原因是RCA會(huì)在TAN特征圖上進(jìn)行一個(gè)全局平均池化,使視頻片段融合整個(gè)視頻的信息,當(dāng)視頻的時(shí)間序列較長(zhǎng)時(shí),這種方式會(huì)產(chǎn)生和Non-local同樣的問(wèn)題,增加模型的訓(xùn)練難度。此外本文方法表現(xiàn)也好于ECA[20],因?yàn)镋CA是通過(guò)每個(gè)通道及其相鄰區(qū)域來(lái)捕獲局部跨通道交互信息,而本文方法不僅關(guān)注了相鄰?fù)ǖ篱g的空間信息,還關(guān)注了通道內(nèi)的特征關(guān)系。此外,通過(guò)圖5可以看出,使用RCA-W學(xué)習(xí)視頻特征顯式關(guān)系的模型在收斂速度上也優(yōu)于其他方法。

圖5 不同的注意力對(duì)模型召回率的影響(IoU=0.5)

表5 SFEN使用不同的注意力模型在TACoS數(shù)據(jù)集上的對(duì)比結(jié)果
為了探究不同的超參數(shù)對(duì)模型的影響,本文在TACoS和ActivityNet Captions數(shù)據(jù)集上進(jìn)行了超參數(shù)實(shí)驗(yàn),通過(guò)計(jì)算 IoU = 0.5 下的召回率,對(duì)k,α和β進(jìn)行分析。
首先分析k對(duì)模型的影響,由于訓(xùn)練過(guò)程需要計(jì)算得分排名前k的預(yù)測(cè)片段與真實(shí)片段中心偏差的二范數(shù),故將k從1開(kāi)始選取并依次增加,直至模型的召回率無(wú)法提升。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖6所示,其中橫坐標(biāo)表示k值,縱坐標(biāo)表示模型的召回率。可以看出,在TACoS和ActivityNet Captions數(shù)據(jù)集上,k分別取1和4時(shí)模型取得了最好的表現(xiàn),而當(dāng)k>5時(shí),模型在兩個(gè)數(shù)據(jù)集上的召回率均出現(xiàn)了持續(xù)的下降,說(shuō)明當(dāng)k過(guò)大時(shí),可能會(huì)導(dǎo)致訓(xùn)練的不穩(wěn)定,影響檢索性能。

圖6 超參數(shù)k 對(duì)模型召回率的影響(IoU=0.5)
為了探究視頻片段定位損失和中心時(shí)刻回歸損失的不同組合對(duì)模型的影響,使用網(wǎng)格搜索法對(duì)α和β的選取進(jìn)行研究。受到GPU的限制,本文將α和β固定在[ 0.4, 0.6, 0.8, 1.0, 1.2]內(nèi),在兩個(gè)數(shù)據(jù)集上分別進(jìn)行網(wǎng)格搜索實(shí)驗(yàn)。如圖7所示,當(dāng)分別固定α和β并增大另一方時(shí),引起了召回率先升高后降低的波動(dòng),說(shuō)明兩項(xiàng)損失均對(duì)檢索結(jié)果產(chǎn)生了一定影響。當(dāng)模型取得最好的表現(xiàn)時(shí),α和β在TACoS數(shù)據(jù)集上分別取為1.0和0.8,而在ActivityNet Captions數(shù)據(jù)集上取為1.0和0.6。上述結(jié)果表明,在兩個(gè)數(shù)據(jù)集上的參數(shù)選取過(guò)程具有大致相同的趨勢(shì)。
本文將所提方法在TACoS[26]數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果進(jìn)行了可視化,并與基準(zhǔn)方法2D-TAN[4]和真實(shí)值進(jìn)行了對(duì)比,結(jié)果如圖8所示,本文方法的預(yù)測(cè)結(jié)果更接近真實(shí)值。

圖 7 超參數(shù)α 和β 對(duì)模型召回率的影響(Rank@1 IoU=0.5)

圖8 在TACoS上的部分可視化結(jié)果
針對(duì)現(xiàn)有方法對(duì)視頻特征關(guān)系表達(dá)不足的問(wèn)題,本文提出一種基于顯著特征增強(qiáng)的跨模態(tài)視頻片段檢索方法,以TAN網(wǎng)絡(luò)作為主干框架,學(xué)習(xí)視頻片段的空間關(guān)系,然后使用RCA-W學(xué)習(xí)特征間的顯式關(guān)系,提升了神經(jīng)網(wǎng)絡(luò)對(duì)視頻語(yǔ)義的理解能力。在通用數(shù)據(jù)集TACoS和ActivityNet Captions上與當(dāng)前主流的跨模態(tài)視頻檢索方法進(jìn)行了對(duì)比,本文方法取得了最好的表現(xiàn)。此外,利用消融實(shí)驗(yàn)將所提的RCA-W與多個(gè)注意力模塊分別從召回率、模型大小、推理時(shí)間和計(jì)算量4個(gè)方面進(jìn)行了比較,證明了所提方法的優(yōu)越性。雖然本文的方法在公開(kāi)的數(shù)據(jù)集上取得了較好的性能,但是要應(yīng)用在現(xiàn)實(shí)場(chǎng)景中還需進(jìn)一步探索,下一步將圍繞如何提升模型的泛化性能進(jìn)行研究。