999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制上下文建模的弱監(jiān)督動(dòng)作定位

2024-01-02 08:35:26黨偉超高改梅劉春霞
軟件導(dǎo)刊 2023年12期
關(guān)鍵詞:背景分類動(dòng)作

黨偉超,王 飛,高改梅,劉春霞

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)

0 引言

視頻時(shí)序動(dòng)作定位是視頻理解中的一個(gè)重要任務(wù),動(dòng)作定位相比動(dòng)作識(shí)別難度更高[1-3],不僅需要檢測(cè)出視頻中動(dòng)作片段的開始時(shí)間和結(jié)束時(shí)間,還需要對(duì)動(dòng)作進(jìn)行分類。隨著計(jì)算機(jī)計(jì)算性能的提升和圖形處理器的普及,深度學(xué)習(xí)技術(shù)開始運(yùn)用于視頻理解領(lǐng)域。基于深度學(xué)習(xí)的動(dòng)作定位方法可分為強(qiáng)監(jiān)督動(dòng)作定位和弱監(jiān)督動(dòng)作定位兩種。強(qiáng)監(jiān)督動(dòng)作定位需要人工標(biāo)注出每一個(gè)動(dòng)作實(shí)例的類別、開始時(shí)間以及結(jié)束時(shí)間,這些工作非常耗時(shí)且很容易出現(xiàn)錯(cuò)誤[4-7];弱監(jiān)督動(dòng)作定位省去了一部分人力標(biāo)注成本,但缺乏幀級(jí)別分類標(biāo)簽,很容易發(fā)生動(dòng)作幀沒(méi)有被識(shí)別或識(shí)別錯(cuò)誤的情況。為提高動(dòng)作定位的準(zhǔn)確率,大多數(shù)弱監(jiān)督動(dòng)作定位模型都會(huì)結(jié)合注意力機(jī)制來(lái)生成幀級(jí)注意力值。基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位可以分為兩種方式:一種是自上而下的方式。該方式需先訓(xùn)練一個(gè)視頻分類器,利用分類器產(chǎn)生的分類激活序列(Class Activation Sequence,CAS)獲得幀級(jí)別的注意力分?jǐn)?shù)。例如Paul 等[8]提出的W-TALC 是目前比較成熟的自上而下的模型;Islam 等[9]提出的HAM-Net 也是一種自上而下的弱監(jiān)督動(dòng)作定位方法,其利用混合注意力機(jī)制分離視頻中的動(dòng)作幀和背景幀,同時(shí)定位得到動(dòng)作實(shí)例發(fā)生的完整時(shí)間邊界。另一種是自下而上的方式。該方式直接從原始視頻特征中提取前景和背景注意力,例如Nguyen 等[10]提出的STPN 模型利用視頻特征提取注意力分?jǐn)?shù),并在此基礎(chǔ)上加入注意力稀疏性損失加強(qiáng)視頻中動(dòng)作幀的稀疏性;Shi 等[11]提出的DGAM 動(dòng)作定位模型將原始特征和從特征中提取到的注意力同時(shí)輸入到一個(gè)條件變分自編碼器模塊中進(jìn)行重構(gòu),利用重建損失降低重構(gòu)特征與視頻特征誤差。

然而以上方法存在對(duì)特征不明顯的動(dòng)作幀難以識(shí)別,以及動(dòng)作幀和上下文幀識(shí)別錯(cuò)誤的問(wèn)題。為此,本文提出一種基于注意力機(jī)制上下文建模的弱監(jiān)督動(dòng)作定位方法,利用注意力機(jī)制提取視頻中的關(guān)鍵動(dòng)作信息,用于分離動(dòng)作—背景幀;在此基礎(chǔ)上引入半軟注意力,引導(dǎo)模型識(shí)別視頻中特征不明顯的動(dòng)作幀;同時(shí)對(duì)視頻中的上下文信息建模,使模型可以識(shí)別上下文幀,從而解決動(dòng)作幀—上下文幀易混淆的問(wèn)題。

1 相關(guān)研究

1.1 視頻動(dòng)作識(shí)別

視頻動(dòng)作識(shí)別任務(wù)主要是指對(duì)裁剪好的短視頻進(jìn)行動(dòng)作分類。在該方面研究中,Simonyan 等[12]首先提出基于雙流卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法,使用空間流網(wǎng)絡(luò)處理空間信息,時(shí)間流網(wǎng)絡(luò)處理時(shí)間信息;Wang 等[13]采用稀疏采樣方案,通過(guò)平均聚集的方式對(duì)長(zhǎng)時(shí)視頻信息進(jìn)行建模;Donahue 等[14]應(yīng)用長(zhǎng)時(shí)遞歸卷積網(wǎng)絡(luò)捕捉視頻中的時(shí)序信息;Karpathy 等[15]采用卷積神經(jīng)網(wǎng)絡(luò)提取視頻中每一幀的特征,然后完成動(dòng)作分類;Tran 等[16]提出C3D 網(wǎng)絡(luò)用于動(dòng)作識(shí)別,采用3D 卷積核提取視頻中的時(shí)間和空間信息。動(dòng)作識(shí)別是視頻內(nèi)容理解中的一個(gè)基礎(chǔ)任務(wù),弱監(jiān)督動(dòng)作定位算法可以采用預(yù)訓(xùn)練好的動(dòng)作識(shí)別模型提取視頻特征。

1.2 弱監(jiān)督動(dòng)作定位

視頻動(dòng)作定位不僅需要識(shí)別動(dòng)作類別,還需要定位每個(gè)動(dòng)作的開始時(shí)間和結(jié)束時(shí)間。與強(qiáng)監(jiān)督動(dòng)作定位相比,弱監(jiān)督動(dòng)作定位無(wú)需幀級(jí)標(biāo)簽且減少了時(shí)間軸標(biāo)注人力成本和時(shí)間成本。近年來(lái),弱監(jiān)督動(dòng)作定位相關(guān)研究成果豐碩。針對(duì)動(dòng)作—上下文易混淆的問(wèn)題,Liu 等[17]提出ACSNet 模型,通過(guò)擴(kuò)展上下文類別標(biāo)簽將動(dòng)作幀與上下文幀解耦,從而實(shí)現(xiàn)動(dòng)作—上下文幀的分離。針對(duì)動(dòng)作完整性邊界問(wèn)題,Singh 等[18]提出Hide-Seek 模型,在訓(xùn)練樣本過(guò)程中隨機(jī)隱藏一些幀,使分類網(wǎng)絡(luò)能夠?qū)W習(xí)到區(qū)分度相對(duì)較低的視頻幀;Zhong 等[19]提出的Step-by-step 方法利用迭代訓(xùn)練多個(gè)分類器來(lái)檢測(cè)同一動(dòng)作實(shí)例的互補(bǔ)片段;Liu 等[20]提出的弱監(jiān)督動(dòng)作定位模型采用多分支網(wǎng)絡(luò)和多樣性損失檢測(cè)同一個(gè)動(dòng)作實(shí)例的不同動(dòng)作片段。

本文采用自上而下的方式進(jìn)行動(dòng)作定位。為驗(yàn)證模型有效性,在對(duì)比實(shí)驗(yàn)部分比較該模型與W-TALC 模型[8],HAM-Net 模型[9],DGAM 模型[11],ACSNet 模型[17]等弱監(jiān)督定位模型在不同IoU 閾值下的平均檢測(cè)精度均值(mAP)。

1.3 注意力機(jī)制

神經(jīng)網(wǎng)絡(luò)通過(guò)引入注意力機(jī)制對(duì)樣本進(jìn)行全局掃描,進(jìn)而發(fā)現(xiàn)有用信息,并為樣本分配一組權(quán)重來(lái)增強(qiáng)關(guān)鍵信息、抑制冗余。根據(jù)注意力是否可微,可將其分為硬注意力和軟注意力兩種[21],其中硬注意力不可微,某個(gè)區(qū)域的注意力值非0 即1;軟注意力可微,每個(gè)區(qū)域的注意力值是介于0~1的數(shù)值。

本文利用注意力機(jī)制為每個(gè)樣本學(xué)習(xí)得到特定的半軟閾值,并利用半軟閾值將軟注意力得分中高于閾值的區(qū)域值置為0,余下區(qū)域的注意力值不變,得到半軟注意力。引入半軟注意力可以引導(dǎo)模型關(guān)注視頻中運(yùn)動(dòng)特征不明顯的動(dòng)作幀,同時(shí)借助注意力機(jī)制權(quán)重分配方式聚焦于輸入視頻序列中的時(shí)間上下文信息,完成上下文建模,實(shí)現(xiàn)動(dòng)作幀與上下文幀的分離。

2 動(dòng)作定位模型

2.1 整體框架

動(dòng)作定位模型整體框架如圖1 所示,主要包括特征提取、視頻分類模型和注意力模型3 個(gè)部分。特征提取部分采用預(yù)訓(xùn)練好的I3D 模型[22]分別獲取視頻RGB 和光流特征,然后對(duì)RGB 和光流特征進(jìn)行拼接,得到雙流視頻特征。分類模型生成幀級(jí)別的分類激活序列。注意力模型分為動(dòng)作—背景分支和上下文分支,其中動(dòng)作—背景分支提取視頻的動(dòng)作注意力和背景注意力分?jǐn)?shù),并利用半軟注意力引導(dǎo)模型識(shí)別特征不明顯的動(dòng)作幀;上下文分支利用視頻上下文信息建模,提取上下文幀的注意力分?jǐn)?shù),使模型可以分離動(dòng)作幀與上下文幀。視頻類別標(biāo)簽可以表示為y∈{0,1}C+1,視頻包含第j類動(dòng)作,則y(j)=1,不包含則y(j)=0,第C+1 維表示背景類別。利用視頻類別標(biāo)簽訓(xùn)練模型,并對(duì)幀級(jí)分類激活序列和動(dòng)作注意力分?jǐn)?shù)進(jìn)行處理以完成動(dòng)作定位。

Fig.1 Framework of action localization model圖1 動(dòng)作定位模型框架

2.2 視頻分類模型

視頻分類模型包含兩個(gè)卷積層,模型輸出結(jié)果為幀級(jí)動(dòng)作分類激活序列CAS。表示為:

式中:X為提取到的雙流視頻特征;Wcls和bcls分別為分類網(wǎng)絡(luò)卷積層的權(quán)重和偏差;* 為卷積操作;CAS∈RT×(C+1)表示幀級(jí)的動(dòng)作類別分?jǐn)?shù);T為視頻片段數(shù);第C+1類為背景類別。

2.3 基于動(dòng)作—背景注意力的弱監(jiān)督動(dòng)作定位

2.3.1 動(dòng)作—背景注意力分支

動(dòng)作—背景注意力分支提取視頻的幀級(jí)動(dòng)作注意力和背景注意力分?jǐn)?shù),該分支由注意力模型提取視頻注意力值后進(jìn)行softmax運(yùn)算以區(qū)分動(dòng)作注意力與背景注意力。計(jì)算公式為:

注意力模型由兩層卷積組成,其中X為雙流視頻特征;Watt和batt分別表示注意力網(wǎng)絡(luò)的權(quán)重參數(shù)和偏差;Ains - bak∈RT×2表示視頻片段總數(shù)為T;每個(gè)片段包含動(dòng)作注意力分?jǐn)?shù)attins和背景注意力分?jǐn)?shù)attbak,總和為1。

動(dòng)作注意力抑制背景幀的類激活分?jǐn)?shù),因此動(dòng)作分支視頻標(biāo)簽為yins=[y(j)=1,y(C+1)=0];背景注意力抑制動(dòng)作幀的類激活分?jǐn)?shù),因此背景分支視頻標(biāo)簽為ybak=[y(j)=0,y(C+1)=1]。圖2 為動(dòng)作—背景注意力分支結(jié)構(gòu)。

Fig.2 Action-background attention branch structure圖2 動(dòng)作—背景注意力分支結(jié)構(gòu)

將動(dòng)作和背景注意力分別與幀級(jí)分類序列CAS 相乘,得到兩種注意力加權(quán)得到的幀級(jí)分類激活分?jǐn)?shù)。采用TOP-K 方法[8]對(duì)幀級(jí)分類激活序列中每個(gè)動(dòng)作類別沿著時(shí)間維度上聚合TOP-K 得分并求平均值,得到視頻級(jí)分類得分。計(jì)算公式為:

2.3.2 半軟注意力

為更加準(zhǔn)確地優(yōu)化動(dòng)作注意力分布,使模型可以識(shí)別動(dòng)作特征不明顯的視頻幀,采用半軟閾值γ擦除動(dòng)作注意力分?jǐn)?shù)attins中高于閾值γ的片段,以提取半軟注意力分?jǐn)?shù)attsemi-soft。計(jì)算公式為:

式中:閾值γ并非人工經(jīng)驗(yàn)設(shè)置的固定值,而是通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制為每一個(gè)視頻樣本設(shè)置的一個(gè)特定值。提取到半軟注意力分?jǐn)?shù)后,首先通過(guò)點(diǎn)積運(yùn)算求得半軟注意力加權(quán)的幀級(jí)分類序列;然后根據(jù)式(3)聚合平均得到視頻分類得分,并在類別維度進(jìn)行softmax運(yùn)算得到semi-soft;最后結(jié)合視頻標(biāo)簽ysemi-soft構(gòu)建半軟注意力分類損失函數(shù)訓(xùn)練模型。半軟注意力分支的視頻標(biāo)簽為ysemi - soft=yins=[y(j)=1,y(C+1)=0];半軟分類損失函數(shù)表示為:

2.4 基于上下文注意力的弱監(jiān)督動(dòng)作定位

動(dòng)作—背景注意力分支沒(méi)有考慮上下文幀對(duì)動(dòng)作定位的影響,導(dǎo)致模型難以區(qū)分動(dòng)作幀和上下文幀,因此本文增加上下文注意力分支,利用注意力模型對(duì)動(dòng)作、背景以及上下文進(jìn)行分類。注意力模型提取幀級(jí)上下文注意力后,采用softmax區(qū)分上下文注意力和動(dòng)作—背景注意力。計(jì)算公式為:

式中:X為雙流視頻特征;Watt和batt為注意力網(wǎng)絡(luò)參數(shù);上下文注意力Acon∈RT×1;T為視頻片段數(shù),每個(gè)視頻片段上下文注意力與動(dòng)作—背景注意力的和為1。

上下文幀與動(dòng)作類別相關(guān),常與動(dòng)作幀一起發(fā)生,但其運(yùn)動(dòng)特征稀疏,這又與靜態(tài)背景幀類似,因此設(shè)置上下文分支視頻類別標(biāo)簽ycon=[y(j)=1,y(C+1)=1]。圖3為上下文注意力分支結(jié)構(gòu)。

Fig.3 Context attention branch structure圖3 上下文注意力分支結(jié)構(gòu)

將上下文注意力分?jǐn)?shù)與CAS相乘,得到上下文注意力加權(quán)后的幀級(jí)分類激活序列,然后采用式(3)聚合平均得到視頻級(jí)別的分類得分,并且在類別維度進(jìn)行softmax運(yùn)算,得到預(yù)測(cè)的視頻動(dòng)作分類分?jǐn)?shù)。利用視頻級(jí)標(biāo)簽ycon和預(yù)測(cè)值計(jì)算上下文分類損失函數(shù)。計(jì)算公式為:

2.5 動(dòng)作定位

獲取到動(dòng)作注意力分?jǐn)?shù)attins和動(dòng)作注意力加權(quán)后的幀級(jí)分類分?jǐn)?shù)CASins后,首先過(guò)濾掉attins和CASins中低于預(yù)設(shè)閾值的部分,然后選擇剩余連續(xù)片段產(chǎn)生動(dòng)作提議(ts、te、c、φ),表示動(dòng)作開始時(shí)間、結(jié)束時(shí)間、預(yù)測(cè)類別以及置信度分?jǐn)?shù)。置信度分?jǐn)?shù)的計(jì)算方式參照文獻(xiàn)[20],利用每個(gè)動(dòng)作提議的內(nèi)部和外部區(qū)域得分比較產(chǎn)生置信度。實(shí)驗(yàn)過(guò)程中采用設(shè)置多個(gè)閾值的方式增加動(dòng)作提議數(shù)量,并引入非極大值抑制重疊程度高的提議。

2.6 網(wǎng)絡(luò)訓(xùn)練

模型采用視頻級(jí)分類損失函數(shù)Lcls、注意力引導(dǎo)損失函數(shù)Lguide以及稀疏注意力損失函數(shù)Lsparse進(jìn)行訓(xùn)練。最終損失函數(shù)表示為:

式中:α1、α2、α3、α4、β1、β2為平衡整體損失項(xiàng)的超參數(shù);Lcls由視頻級(jí)動(dòng)作分類損失、背景分類損失、半軟分類損失和上下文分類損失構(gòu)成。

注意力引導(dǎo)損失利用動(dòng)作注意力作為幀級(jí)監(jiān)督優(yōu)化視頻分類模型,使分類激活序列與動(dòng)作注意力趨于一致,有助于產(chǎn)生更加準(zhǔn)確的動(dòng)作分類結(jié)果。計(jì)算公式為:

稀疏注意力損失分別對(duì)動(dòng)作注意力和上下文注意力進(jìn)行L1 范式運(yùn)算,并將二者的值相加取時(shí)域平均值。計(jì)算公式為:

式中:attins(t)、attcon(t)分別表示時(shí)間段t的動(dòng)作注意力和上下文注意力分?jǐn)?shù);T為視頻片段數(shù)。

3 實(shí)驗(yàn)方法與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

使用PyTorch 1.7 框架,實(shí)驗(yàn)設(shè)備為NVIDIA GeForce GTX 1660Ti GPU,使用Adam 優(yōu)化器。

3.2 數(shù)據(jù)集

為驗(yàn)證所提方法對(duì)視頻動(dòng)作定位的有效性,本文在THUMOS14 數(shù)據(jù)集[23]和ActivityNet1.3 數(shù)據(jù)集[24]上進(jìn)行消融實(shí)驗(yàn)和比較實(shí)驗(yàn)。THUMOS14數(shù)據(jù)集中訓(xùn)練集包含2 765個(gè)修剪視頻,驗(yàn)證集包含200 個(gè)未修剪視頻,測(cè)試集包含212個(gè)未修剪視頻。選取驗(yàn)證集用于模型訓(xùn)練,測(cè)試集用于測(cè)試模型性能。視頻一共包含20 種不同類別的動(dòng)作,平均每個(gè)視頻包含15.5 個(gè)動(dòng)作實(shí)例,視頻中超過(guò)70%的幀為上下文幀和背景幀。

ActivityNet1.3 數(shù)據(jù)集中包含10 024 個(gè)未剪輯視頻用于模型訓(xùn)練,4 926 個(gè)未剪輯視頻用于模型性能測(cè)試。視頻一共包含200 種不同類別的動(dòng)作,平均每個(gè)視頻包含1.6個(gè)動(dòng)作實(shí)例,其中約36%的視頻幀屬于上下文幀和背景幀。

3.3 評(píng)價(jià)指標(biāo)

采用在不同 IoU 閾值下的平均檢測(cè)精度(mAP)進(jìn)行動(dòng)作定位的準(zhǔn)確性評(píng)估,其中THUMOS14 數(shù)據(jù)集的閾值IoU 范圍為0.10~0.70,間隔為0.1;ActivityNet1.3 數(shù)據(jù)集的閾值 IoU 范圍為 0.50~0.95,間隔為0.05。

3.4 消融實(shí)驗(yàn)

為驗(yàn)證在動(dòng)作—背景注意力分支中加入半軟注意力對(duì)于模型識(shí)別動(dòng)作特征不明顯視頻幀的改善效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第一組消融實(shí)驗(yàn)。在基線對(duì)照組的基礎(chǔ)上加入半軟分類損失,分別計(jì)算模型在IoU 閾值為0.5 時(shí)的mAP 和動(dòng)作漏檢率,其中漏檢率為視頻中未被成功檢測(cè)為動(dòng)作幀的個(gè)數(shù)與全部動(dòng)作幀個(gè)數(shù)的比值。實(shí)驗(yàn)結(jié)果如表1 所示。可以看出,與基線實(shí)驗(yàn)1 和實(shí)驗(yàn)2 相比,加入半軟注意力后(實(shí)驗(yàn)3)的mAP@0.5 分別提高了11.7%和4.3%,動(dòng)作漏檢率分別降低了7.1%和3.6%,說(shuō)明半軟注意力可以提高模型對(duì)特征不明顯動(dòng)作幀的識(shí)別效果。

Table 1 Result of first ablation experiment表1 第一組消融實(shí)驗(yàn)結(jié)果

為驗(yàn)證加入上下文注意力對(duì)于模型識(shí)別動(dòng)作幀和上下文幀的改善效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第二組消融實(shí)驗(yàn),計(jì)算模型在IoU 閾值為0.5 時(shí)的mAP,結(jié)果如表2所示。可以看出,與基線實(shí)驗(yàn)1 和實(shí)驗(yàn)2 相比,單獨(dú)加入上下文注意力(實(shí)驗(yàn)4)后mAP@0.5 分別提高了12.0%和閾值為0.5 時(shí),本文模型在THUMOS14 和ActivityNet1.3 數(shù)據(jù)集上的平均檢測(cè)精度分別達(dá)到32.6%和38.6%,優(yōu)于其他弱監(jiān)督動(dòng)作定位模型,驗(yàn)證了基于注意力機(jī)制上下文建模方法的有效性。4.6%;與實(shí)驗(yàn)3 相比,在半軟注意力基礎(chǔ)的上加入上下文注意力(實(shí)驗(yàn)5)后mAP@0.5 提高了0.8%。圖4 為模型引入全部分類損失后CAS 和動(dòng)作注意力加權(quán)后CAS 的分布情況,可以看出動(dòng)作注意力抑制了原始CAS 數(shù)值。表2 和圖4 數(shù)據(jù)證實(shí)了上下文建模可以區(qū)分視頻動(dòng)作幀與上下文幀。

Table 2 Result of the second ablation experiment表2 第二組消融實(shí)驗(yàn)結(jié)果

Fig.4 Distribution of CAS圖4 CAS分布情況

為驗(yàn)證注意力引導(dǎo)損失Lguide和稀疏性損失Lsparse對(duì)模型注意力值分布的優(yōu)化效果,在THUMOS14 數(shù)據(jù)集上進(jìn)行第三組消融實(shí)驗(yàn),結(jié)果見表3。可以看出,同時(shí)引入Lguide和Lsparse后,mAP@0.5 達(dá)到32.6%,證明了兩種損失函數(shù)對(duì)動(dòng)作定位的有效性。

Table 3 Result of the third ablation experiment表3 第三組消融實(shí)驗(yàn)結(jié)果

3.5 與其他模型的比較實(shí)驗(yàn)

在THUMOS14 數(shù)據(jù)集上與W-TALC[8]、HAM-Net[9]、DGAM[11]、ACS-Net[18]、BasNet[25]、A2CL-PT[26]、CoLA[27]等弱監(jiān)督動(dòng)作動(dòng)作定位模型的定位效果進(jìn)行比較,在ActivityNet1.3 數(shù)據(jù)集上與STPN[10]、BasNet[25]、A2CL-PT[26]、MAAN[28]、TSM[29]、TSCN[30]、Huang et al[31]等弱監(jiān)督動(dòng)作定位模型的定位效果進(jìn)行比較,結(jié)果見表4、表5,表中AVG 指間隔0.05 取得的mAP 平均值。可以看出,當(dāng) IoU

Table 5 Comparison mAP values of different models on ActivityNet1.3 dataset表5 不同模型在ActivityNet1.3數(shù)據(jù)集上的比較

4 結(jié)語(yǔ)

為解決弱監(jiān)督動(dòng)作定位方法對(duì)特征不明顯的動(dòng)作幀難以識(shí)別以及動(dòng)作—上下文幀易混淆的問(wèn)題,本文提出一種基于注意力機(jī)制上下文建模的動(dòng)作定位模型,在公共數(shù)據(jù)集THUMOS14 和ActivityNet1.3 上與主流弱監(jiān)督動(dòng)作定位模型的定位效果進(jìn)行了比較,發(fā)現(xiàn)在IoU 閾值為0.5 時(shí),本文模型的mAP 值均高于其他比較模型,證實(shí)了引入半軟注意力可以引導(dǎo)模型檢測(cè)到特征不明顯的動(dòng)作幀,通過(guò)上下文注意力對(duì)上下文信息建模可以分離視頻中的動(dòng)作—上下文幀。未來(lái)考慮設(shè)計(jì)細(xì)粒度的上下文建模方法,以進(jìn)一步提高模型的動(dòng)作定位效果。

猜你喜歡
背景分類動(dòng)作
“新四化”背景下汽車NVH的發(fā)展趨勢(shì)
分類算一算
《論持久戰(zhàn)》的寫作背景
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
動(dòng)作描寫要具體
教你一招:數(shù)的分類
畫動(dòng)作
動(dòng)作描寫不可少
晚清外語(yǔ)翻譯人才培養(yǎng)的背景
主站蜘蛛池模板: 午夜日b视频| 欧美成人精品高清在线下载| 色综合成人| 日本黄网在线观看| 日韩一级二级三级| 一区二区三区四区日韩| 欧美精品在线视频观看 | 亚洲第一网站男人都懂| 一级在线毛片| 2020亚洲精品无码| 国产一区在线视频观看| 国产高清精品在线91| 在线中文字幕网| 久久综合伊人77777| 91色在线观看| 国内精品视频在线| 亚洲精品自拍区在线观看| 国产精品jizz在线观看软件| 亚洲美女视频一区| 欧美劲爆第一页| 日韩天堂在线观看| 国产精品自在线天天看片| 中文字幕无线码一区| 久久国产成人精品国产成人亚洲| 国产喷水视频| 日韩无码视频播放| 久久精品人人做人人| 日本欧美视频在线观看| 日韩不卡免费视频| 国产经典免费播放视频| 狠狠操夜夜爽| 国产中文一区a级毛片视频| 婷婷亚洲最大| 欧美在线网| 热re99久久精品国99热| 88国产经典欧美一区二区三区| 岛国精品一区免费视频在线观看| 亚洲日本中文字幕天堂网| 视频一区视频二区日韩专区| 青青操视频在线| 伊人久热这里只有精品视频99| 久久免费精品琪琪| 91精品国产福利| 3D动漫精品啪啪一区二区下载| 99久久精品国产自免费| 毛片视频网址| 亚洲天堂在线免费| 国产女人在线| 久久综合伊人77777| 国产尤物视频在线| 午夜毛片免费看| 国内精品自在自线视频香蕉| 亚洲日本中文综合在线| 国产午夜精品一区二区三区软件| 亚洲91精品视频| 日本午夜在线视频| 国产99免费视频| 日韩成人在线网站| 国产福利拍拍拍| 亚洲 日韩 激情 无码 中出| 欧美在线天堂| 国产18在线播放| 婷婷五月在线| 98超碰在线观看| 国产成人精品午夜视频'| 免费一极毛片| 亚洲人成电影在线播放| 免费中文字幕一级毛片| 又大又硬又爽免费视频| 精品久久国产综合精麻豆| 国产无码制服丝袜| 亚洲欧洲日韩久久狠狠爱 | 高清精品美女在线播放| 国产成人精品优优av| 国产丝袜啪啪| 一级黄色欧美| 在线观看91精品国产剧情免费| 免费看av在线网站网址| 噜噜噜综合亚洲| 手机在线免费不卡一区二| A级全黄试看30分钟小视频| 国产精品白浆无码流出在线看|