黨偉超,王 飛,高改梅,劉春霞
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)
視頻時(shí)序動(dòng)作定位是視頻理解中的一個(gè)重要任務(wù),動(dòng)作定位相比動(dòng)作識(shí)別難度更高[1-3],不僅需要檢測(cè)出視頻中動(dòng)作片段的開始時(shí)間和結(jié)束時(shí)間,還需要對(duì)動(dòng)作進(jìn)行分類。隨著計(jì)算機(jī)計(jì)算性能的提升和圖形處理器的普及,深度學(xué)習(xí)技術(shù)開始運(yùn)用于視頻理解領(lǐng)域。基于深度學(xué)習(xí)的動(dòng)作定位方法可分為強(qiáng)監(jiān)督動(dòng)作定位和弱監(jiān)督動(dòng)作定位兩種。強(qiáng)監(jiān)督動(dòng)作定位需要人工標(biāo)注出每一個(gè)動(dòng)作實(shí)例的類別、開始時(shí)間以及結(jié)束時(shí)間,這些工作非常耗時(shí)且很容易出現(xiàn)錯(cuò)誤[4-7];弱監(jiān)督動(dòng)作定位省去了一部分人力標(biāo)注成本,但缺乏幀級(jí)別分類標(biāo)簽,很容易發(fā)生動(dòng)作幀沒(méi)有被識(shí)別或識(shí)別錯(cuò)誤的情況。為提高動(dòng)作定位的準(zhǔn)確率,大多數(shù)弱監(jiān)督動(dòng)作定位模型都會(huì)結(jié)合注意力機(jī)制來(lái)生成幀級(jí)注意力值。基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位可以分為兩種方式:一種是自上而下的方式。該方式需先訓(xùn)練一個(gè)視頻分類器,利用分類器產(chǎn)生的分類激活序列(Class Activation Sequence,CAS)獲得幀級(jí)別的注意力分?jǐn)?shù)。例如Paul 等[8]提出的W-TALC 是目前比較成熟的自上而下的模型;Islam 等[9]提出的HAM-Net 也是一種自上而下的弱監(jiān)督動(dòng)作定位方法,其利用混合注意力機(jī)制分離視頻中的動(dòng)作幀和背景幀,同時(shí)定位得到動(dòng)作實(shí)例發(fā)生的完整時(shí)間邊界。另一種是自下而上的方式。該方式直接從原始視頻特征中提取前景和背景注意力,例如Nguyen 等[10]提出的STPN 模型利用視頻特征提取注意力分?jǐn)?shù),并在此基礎(chǔ)上加入注意力稀疏性損失加強(qiáng)視頻中動(dòng)作幀的稀疏性;Shi 等[11]提出的DGAM 動(dòng)作定位模型將原始特征和從特征中提取到的注意力同時(shí)輸入到一個(gè)條件變分自編碼器模塊中進(jìn)行重構(gòu),利用重建損失降低重構(gòu)特征與視頻特征誤差。
然而以上方法存在對(duì)特征不明顯的動(dòng)作幀難以識(shí)別,以及動(dòng)作幀和上下文幀識(shí)別錯(cuò)誤的問(wèn)題。為此,本文提出一種基于注意力機(jī)制上下文建模的弱監(jiān)督動(dòng)作定位方法,利用注意力機(jī)制提取視頻中的關(guān)鍵動(dòng)作信息,用于分離動(dòng)作—背景幀;在此基礎(chǔ)上引入半軟注意力,引導(dǎo)模型識(shí)別視頻中特征不明顯的動(dòng)作幀;同時(shí)對(duì)視頻中的上下文信息建模,使模型可以識(shí)別上下文幀,從而解決動(dòng)作幀—上下文幀易混淆的問(wèn)題。
視頻動(dòng)作識(shí)別任務(wù)主要是指對(duì)裁剪好的短視頻進(jìn)行動(dòng)作分類。在該方面研究中,Simonyan 等[12]首先提出基于雙流卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法,使用空間流網(wǎng)絡(luò)處理空間信息,時(shí)間流網(wǎng)絡(luò)處理時(shí)間信息;Wang 等[13]采用稀疏采樣方案,通過(guò)平均聚集的方式對(duì)長(zhǎng)時(shí)視頻信息進(jìn)行建模;Donahue 等[14]應(yīng)用長(zhǎng)時(shí)遞歸卷積網(wǎng)絡(luò)捕捉視頻中的時(shí)序信息;Karpathy 等[15]采用卷積神經(jīng)網(wǎng)絡(luò)提取視頻中每一幀的特征,然后完成動(dòng)作分類;Tran 等[16]提出C3D 網(wǎng)絡(luò)用于動(dòng)作識(shí)別,采用3D 卷積核提取視頻中的時(shí)間和空間信息。動(dòng)作識(shí)別是視頻內(nèi)容理解中的一個(gè)基礎(chǔ)任務(wù),弱監(jiān)督動(dòng)作定位算法可以采用預(yù)訓(xùn)練好的動(dòng)作識(shí)別模型提取視頻特征。
視頻動(dòng)作定位不僅需要識(shí)別動(dòng)作類別,還需要定位每個(gè)動(dòng)作的開始時(shí)間和結(jié)束時(shí)間。與強(qiáng)監(jiān)督動(dòng)作定位相比,弱監(jiān)督動(dòng)作定位無(wú)需幀級(jí)標(biāo)簽且減少了時(shí)間軸標(biāo)注人力成本和時(shí)間成本。近年來(lái),弱監(jiān)督動(dòng)作定位相關(guān)研究成果豐碩。針對(duì)動(dòng)作—上下文易混淆的問(wèn)題,Liu 等[17]提出ACSNet 模型,通過(guò)擴(kuò)展上下文類別標(biāo)簽將動(dòng)作幀與上下文幀解耦,從而實(shí)現(xiàn)動(dòng)作—上下文幀的分離。針對(duì)動(dòng)作完整性邊界問(wèn)題,Singh 等[18]提出Hide-Seek 模型,在訓(xùn)練樣本過(guò)程中隨機(jī)隱藏一些幀,使分類網(wǎng)絡(luò)能夠?qū)W習(xí)到區(qū)分度相對(duì)較低的視頻幀;Zhong 等[19]提出的Step-by-step 方法利用迭代訓(xùn)練多個(gè)分類器來(lái)檢測(cè)同一動(dòng)作實(shí)例的互補(bǔ)片段;Liu 等[20]提出的弱監(jiān)督動(dòng)作定位模型采用多分支網(wǎng)絡(luò)和多樣性損失檢測(cè)同一個(gè)動(dòng)作實(shí)例的不同動(dòng)作片段。
本文采用自上而下的方式進(jìn)行動(dòng)作定位。為驗(yàn)證模型有效性,在對(duì)比實(shí)驗(yàn)部分比較該模型與W-TALC 模型[8],HAM-Net 模型[9],DGAM 模型[11],ACSNet 模型[17]等弱監(jiān)督定位模型在不同IoU 閾值下的平均檢測(cè)精度均值(mAP)。
神經(jīng)網(wǎng)絡(luò)通過(guò)引入注意力機(jī)制對(duì)樣本進(jìn)行全局掃描,進(jìn)而發(fā)現(xiàn)有用信息,并為樣本分配一組權(quán)重來(lái)增強(qiáng)關(guān)鍵信息、抑制冗余。根據(jù)注意力是否可微,可將其分為硬注意力和軟注意力兩種[21],其中硬注意力不可微,某個(gè)區(qū)域的注意力值非0 即1;軟注意力可微,每個(gè)區(qū)域的注意力值是介于0~1的數(shù)值。
本文利用注意力機(jī)制為每個(gè)樣本學(xué)習(xí)得到特定的半軟閾值,并利用半軟閾值將軟注意力得分中高于閾值的區(qū)域值置為0,余下區(qū)域的注意力值不變,得到半軟注意力。引入半軟注意力可以引導(dǎo)模型關(guān)注視頻中運(yùn)動(dòng)特征不明顯的動(dòng)作幀,同時(shí)借助注意力機(jī)制權(quán)重分配方式聚焦于輸入視頻序列中的時(shí)間上下文信息,完成上下文建模,實(shí)現(xiàn)動(dòng)作幀與上下文幀的分離。
動(dòng)作定位模型整體框架如圖1 所示,主要包括特征提取、視頻分類模型和注意力模型3 個(gè)部分。特征提取部分采用預(yù)訓(xùn)練好的I3D 模型[22]分別獲取視頻RGB 和光流特征,然后對(duì)RGB 和光流特征進(jìn)行拼接,得到雙流視頻特征。分類模型生成幀級(jí)別的分類激活序列。注意力模型分為動(dòng)作—背景分支和上下文分支,其中動(dòng)作—背景分支提取視頻的動(dòng)作注意力和背景注意力分?jǐn)?shù),并利用半軟注意力引導(dǎo)模型識(shí)別特征不明顯的動(dòng)作幀;上下文分支利用視頻上下文信息建模,提取上下文幀的注意力分?jǐn)?shù),使模型可以分離動(dòng)作幀與上下文幀。視頻類別標(biāo)簽可以表示為y∈{0,1}C+1,視頻包含第j類動(dòng)作,則y(j)=1,不包含則y(j)=0,第C+1 維表示背景類別。利用視頻類別標(biāo)簽訓(xùn)練模型,并對(duì)幀級(jí)分類激活序列和動(dòng)作注意力分?jǐn)?shù)進(jìn)行處理以完成動(dòng)作定位。

Fig.1 Framework of action localization model圖1 動(dòng)作定位模型框架
視頻分類模型包含兩個(gè)卷積層,模型輸出結(jié)果為幀級(jí)動(dòng)作分類激活序列CAS。表示為:
式中:X為提取到的雙流視頻特征;Wcls和bcls分別為分類網(wǎng)絡(luò)卷積層的權(quán)重和偏差;* 為卷積操作;CAS∈RT×(C+1)表示幀級(jí)的動(dòng)作類別分?jǐn)?shù);T為視頻片段數(shù);第C+1類為背景類別。
2.3.1 動(dòng)作—背景注意力分支
動(dòng)作—背景注意力分支提取視頻的幀級(jí)動(dòng)作注意力和背景注意力分?jǐn)?shù),該分支由注意力模型提取視頻注意力值后進(jìn)行softmax運(yùn)算以區(qū)分動(dòng)作注意力與背景注意力。計(jì)算公式為:
注意力模型由兩層卷積組成,其中X為雙流視頻特征;Watt和batt分別表示注意力網(wǎng)絡(luò)的權(quán)重參數(shù)和偏差;Ains - bak∈RT×2表示視頻片段總數(shù)為T;每個(gè)片段包含動(dòng)作注意力分?jǐn)?shù)attins和背景注意力分?jǐn)?shù)attbak,總和為1。
動(dòng)作注意力抑制背景幀的類激活分?jǐn)?shù),因此動(dòng)作分支視頻標(biāo)簽為yins=[y(j)=1,y(C+1)=0];背景注意力抑制動(dòng)作幀的類激活分?jǐn)?shù),因此背景分支視頻標(biāo)簽為ybak=[y(j)=0,y(C+1)=1]。圖2 為動(dòng)作—背景注意力分支結(jié)構(gòu)。

Fig.2 Action-background attention branch structure圖2 動(dòng)作—背景注意力分支結(jié)構(gòu)
將動(dòng)作和背景注意力分別與幀級(jí)分類序列CAS 相乘,得到兩種注意力加權(quán)得到的幀級(jí)分類激活分?jǐn)?shù)。采用TOP-K 方法[8]對(duì)幀級(jí)分類激活序列中每個(gè)動(dòng)作類別沿著時(shí)間維度上聚合TOP-K 得分并求平均值,得到視頻級(jí)分類得分。計(jì)算公式為:
2.3.2 半軟注意力
為更加準(zhǔn)確地優(yōu)化動(dòng)作注意力分布,使模型可以識(shí)別動(dòng)作特征不明顯的視頻幀,采用半軟閾值γ擦除動(dòng)作注意力分?jǐn)?shù)attins中高于閾值γ的片段,以提取半軟注意力分?jǐn)?shù)attsemi-soft。計(jì)算公式為:
式中:閾值γ并非人工經(jīng)驗(yàn)設(shè)置的固定值,而是通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制為每一個(gè)視頻樣本設(shè)置的一個(gè)特定值。提取到半軟注意力分?jǐn)?shù)后,首先通過(guò)點(diǎn)積運(yùn)算求得半軟注意力加權(quán)的幀級(jí)分類序列;然后根據(jù)式(3)聚合平均得到視頻分類得分,并在類別維度進(jìn)行softmax運(yùn)算得到semi-soft;最后結(jié)合視頻標(biāo)簽ysemi-soft構(gòu)建半軟注意力分類損失函數(shù)訓(xùn)練模型。半軟注意力分支的視頻標(biāo)簽為ysemi - soft=yins=[y(j)=1,y(C+1)=0];半軟分類損失函數(shù)表示為:
動(dòng)作—背景注意力分支沒(méi)有考慮上下文幀對(duì)動(dòng)作定位的影響,導(dǎo)致模型難以區(qū)分動(dòng)作幀和上下文幀,因此本文增加上下文注意力分支,利用注意力模型對(duì)動(dòng)作、背景以及上下文進(jìn)行分類。注意力模型提取幀級(jí)上下文注意力后,采用softmax區(qū)分上下文注意力和動(dòng)作—背景注意力。計(jì)算公式為:
式中:X為雙流視頻特征;Watt和batt為注意力網(wǎng)絡(luò)參數(shù);上下文注意力Acon∈RT×1;T為視頻片段數(shù),每個(gè)視頻片段上下文注意力與動(dòng)作—背景注意力的和為1。
上下文幀與動(dòng)作類別相關(guān),常與動(dòng)作幀一起發(fā)生,但其運(yùn)動(dòng)特征稀疏,這又與靜態(tài)背景幀類似,因此設(shè)置上下文分支視頻類別標(biāo)簽ycon=[y(j)=1,y(C+1)=1]。圖3為上下文注意力分支結(jié)構(gòu)。

Fig.3 Context attention branch structure圖3 上下文注意力分支結(jié)構(gòu)
將上下文注意力分?jǐn)?shù)與CAS相乘,得到上下文注意力加權(quán)后的幀級(jí)分類激活序列,然后采用式(3)聚合平均得到視頻級(jí)別的分類得分,并且在類別維度進(jìn)行softmax運(yùn)算,得到預(yù)測(cè)的視頻動(dòng)作分類分?jǐn)?shù)。利用視頻級(jí)標(biāo)簽ycon和預(yù)測(cè)值計(jì)算上下文分類損失函數(shù)。計(jì)算公式為:
獲取到動(dòng)作注意力分?jǐn)?shù)attins和動(dòng)作注意力加權(quán)后的幀級(jí)分類分?jǐn)?shù)CASins后,首先過(guò)濾掉attins和CASins中低于預(yù)設(shè)閾值的部分,然后選擇剩余連續(xù)片段產(chǎn)生動(dòng)作提議(ts、te、c、φ),表示動(dòng)作開始時(shí)間、結(jié)束時(shí)間、預(yù)測(cè)類別以及置信度分?jǐn)?shù)。置信度分?jǐn)?shù)的計(jì)算方式參照文獻(xiàn)[20],利用每個(gè)動(dòng)作提議的內(nèi)部和外部區(qū)域得分比較產(chǎn)生置信度。實(shí)驗(yàn)過(guò)程中采用設(shè)置多個(gè)閾值的方式增加動(dòng)作提議數(shù)量,并引入非極大值抑制重疊程度高的提議。
模型采用視頻級(jí)分類損失函數(shù)Lcls、注意力引導(dǎo)損失函數(shù)Lguide以及稀疏注意力損失函數(shù)Lsparse進(jìn)行訓(xùn)練。最終損失函數(shù)表示為:
式中:α1、α2、α3、α4、β1、β2為平衡整體損失項(xiàng)的超參數(shù);Lcls由視頻級(jí)動(dòng)作分類損失、背景分類損失、半軟分類損失和上下文分類損失構(gòu)成。
注意力引導(dǎo)損失利用動(dòng)作注意力作為幀級(jí)監(jiān)督優(yōu)化視頻分類模型,使分類激活序列與動(dòng)作注意力趨于一致,有助于產(chǎn)生更加準(zhǔn)確的動(dòng)作分類結(jié)果。計(jì)算公式為:
稀疏注意力損失分別對(duì)動(dòng)作注意力和上下文注意力進(jìn)行L1 范式運(yùn)算,并將二者的值相加取時(shí)域平均值。計(jì)算公式為:
式中:attins(t)、attcon(t)分別表示時(shí)間段t的動(dòng)作注意力和上下文注意力分?jǐn)?shù);T為視頻片段數(shù)。
使用PyTorch 1.7 框架,實(shí)驗(yàn)設(shè)備為NVIDIA GeForce GTX 1660Ti GPU,使用Adam 優(yōu)化器。
為驗(yàn)證所提方法對(duì)視頻動(dòng)作定位的有效性,本文在THUMOS14 數(shù)據(jù)集[23]和ActivityNet1.3 數(shù)據(jù)集[24]上進(jìn)行消融實(shí)驗(yàn)和比較實(shí)驗(yàn)。THUMOS14數(shù)據(jù)集中訓(xùn)練集包含2 765個(gè)修剪視頻,驗(yàn)證集包含200 個(gè)未修剪視頻,測(cè)試集包含212個(gè)未修剪視頻。選取驗(yàn)證集用于模型訓(xùn)練,測(cè)試集用于測(cè)試模型性能。視頻一共包含20 種不同類別的動(dòng)作,平均每個(gè)視頻包含15.5 個(gè)動(dòng)作實(shí)例,視頻中超過(guò)70%的幀為上下文幀和背景幀。
ActivityNet1.3 數(shù)據(jù)集中包含10 024 個(gè)未剪輯視頻用于模型訓(xùn)練,4 926 個(gè)未剪輯視頻用于模型性能測(cè)試。視頻一共包含200 種不同類別的動(dòng)作,平均每個(gè)視頻包含1.6個(gè)動(dòng)作實(shí)例,其中約36%的視頻幀屬于上下文幀和背景幀。
采用在不同 IoU 閾值下的平均檢測(cè)精度(mAP)進(jìn)行動(dòng)作定位的準(zhǔn)確性評(píng)估,其中THUMOS14 數(shù)據(jù)集的閾值IoU 范圍為0.10~0.70,間隔為0.1;ActivityNet1.3 數(shù)據(jù)集的閾值 IoU 范圍為 0.50~0.95,間隔為0.05。
為驗(yàn)證在動(dòng)作—背景注意力分支中加入半軟注意力對(duì)于模型識(shí)別動(dòng)作特征不明顯視頻幀的改善效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第一組消融實(shí)驗(yàn)。在基線對(duì)照組的基礎(chǔ)上加入半軟分類損失,分別計(jì)算模型在IoU 閾值為0.5 時(shí)的mAP 和動(dòng)作漏檢率,其中漏檢率為視頻中未被成功檢測(cè)為動(dòng)作幀的個(gè)數(shù)與全部動(dòng)作幀個(gè)數(shù)的比值。實(shí)驗(yàn)結(jié)果如表1 所示。可以看出,與基線實(shí)驗(yàn)1 和實(shí)驗(yàn)2 相比,加入半軟注意力后(實(shí)驗(yàn)3)的mAP@0.5 分別提高了11.7%和4.3%,動(dòng)作漏檢率分別降低了7.1%和3.6%,說(shuō)明半軟注意力可以提高模型對(duì)特征不明顯動(dòng)作幀的識(shí)別效果。

Table 1 Result of first ablation experiment表1 第一組消融實(shí)驗(yàn)結(jié)果
為驗(yàn)證加入上下文注意力對(duì)于模型識(shí)別動(dòng)作幀和上下文幀的改善效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第二組消融實(shí)驗(yàn),計(jì)算模型在IoU 閾值為0.5 時(shí)的mAP,結(jié)果如表2所示。可以看出,與基線實(shí)驗(yàn)1 和實(shí)驗(yàn)2 相比,單獨(dú)加入上下文注意力(實(shí)驗(yàn)4)后mAP@0.5 分別提高了12.0%和閾值為0.5 時(shí),本文模型在THUMOS14 和ActivityNet1.3 數(shù)據(jù)集上的平均檢測(cè)精度分別達(dá)到32.6%和38.6%,優(yōu)于其他弱監(jiān)督動(dòng)作定位模型,驗(yàn)證了基于注意力機(jī)制上下文建模方法的有效性。4.6%;與實(shí)驗(yàn)3 相比,在半軟注意力基礎(chǔ)的上加入上下文注意力(實(shí)驗(yàn)5)后mAP@0.5 提高了0.8%。圖4 為模型引入全部分類損失后CAS 和動(dòng)作注意力加權(quán)后CAS 的分布情況,可以看出動(dòng)作注意力抑制了原始CAS 數(shù)值。表2 和圖4 數(shù)據(jù)證實(shí)了上下文建模可以區(qū)分視頻動(dòng)作幀與上下文幀。

Table 2 Result of the second ablation experiment表2 第二組消融實(shí)驗(yàn)結(jié)果

Fig.4 Distribution of CAS圖4 CAS分布情況
為驗(yàn)證注意力引導(dǎo)損失Lguide和稀疏性損失Lsparse對(duì)模型注意力值分布的優(yōu)化效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第三組消融實(shí)驗(yàn),結(jié)果見表3。可以看出,同時(shí)引入Lguide和Lsparse后,mAP@0.5 達(dá)到32.6%,證明了兩種損失函數(shù)對(duì)動(dòng)作定位的有效性。

Table 3 Result of the third ablation experiment表3 第三組消融實(shí)驗(yàn)結(jié)果
在THUMOS14 數(shù)據(jù)集上與W-TALC[8]、HAM-Net[9]、DGAM[11]、ACS-Net[18]、BasNet[25]、A2CL-PT[26]、CoLA[27]等弱監(jiān)督動(dòng)作動(dòng)作定位模型的定位效果進(jìn)行比較,在ActivityNet1.3 數(shù)據(jù)集上與STPN[10]、BasNet[25]、A2CL-PT[26]、MAAN[28]、TSM[29]、TSCN[30]、Huang et al[31]等弱監(jiān)督動(dòng)作定位模型的定位效果進(jìn)行比較,結(jié)果見表4、表5,表中AVG 指間隔0.05 取得的mAP 平均值。可以看出,當(dāng) IoU

Table 5 Comparison mAP values of different models on ActivityNet1.3 dataset表5 不同模型在ActivityNet1.3數(shù)據(jù)集上的比較
為解決弱監(jiān)督動(dòng)作定位方法對(duì)特征不明顯的動(dòng)作幀難以識(shí)別以及動(dòng)作—上下文幀易混淆的問(wèn)題,本文提出一種基于注意力機(jī)制上下文建模的動(dòng)作定位模型,在公共數(shù)據(jù)集THUMOS14 和ActivityNet1.3 上與主流弱監(jiān)督動(dòng)作定位模型的定位效果進(jìn)行了比較,發(fā)現(xiàn)在IoU 閾值為0.5 時(shí),本文模型的mAP 值均高于其他比較模型,證實(shí)了引入半軟注意力可以引導(dǎo)模型檢測(cè)到特征不明顯的動(dòng)作幀,通過(guò)上下文注意力對(duì)上下文信息建模可以分離視頻中的動(dòng)作—上下文幀。未來(lái)考慮設(shè)計(jì)細(xì)粒度的上下文建模方法,以進(jìn)一步提高模型的動(dòng)作定位效果。