999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制上下文建模的弱監督動作定位

2024-01-02 08:35:26黨偉超高改梅劉春霞
軟件導刊 2023年12期
關鍵詞:背景分類動作

黨偉超,王 飛,高改梅,劉春霞

(太原科技大學 計算機科學與技術學院,山西 太原 030024)

0 引言

視頻時序動作定位是視頻理解中的一個重要任務,動作定位相比動作識別難度更高[1-3],不僅需要檢測出視頻中動作片段的開始時間和結束時間,還需要對動作進行分類。隨著計算機計算性能的提升和圖形處理器的普及,深度學習技術開始運用于視頻理解領域。基于深度學習的動作定位方法可分為強監督動作定位和弱監督動作定位兩種。強監督動作定位需要人工標注出每一個動作實例的類別、開始時間以及結束時間,這些工作非常耗時且很容易出現錯誤[4-7];弱監督動作定位省去了一部分人力標注成本,但缺乏幀級別分類標簽,很容易發生動作幀沒有被識別或識別錯誤的情況。為提高動作定位的準確率,大多數弱監督動作定位模型都會結合注意力機制來生成幀級注意力值。基于注意力機制的弱監督動作定位可以分為兩種方式:一種是自上而下的方式。該方式需先訓練一個視頻分類器,利用分類器產生的分類激活序列(Class Activation Sequence,CAS)獲得幀級別的注意力分數。例如Paul 等[8]提出的W-TALC 是目前比較成熟的自上而下的模型;Islam 等[9]提出的HAM-Net 也是一種自上而下的弱監督動作定位方法,其利用混合注意力機制分離視頻中的動作幀和背景幀,同時定位得到動作實例發生的完整時間邊界。另一種是自下而上的方式。該方式直接從原始視頻特征中提取前景和背景注意力,例如Nguyen 等[10]提出的STPN 模型利用視頻特征提取注意力分數,并在此基礎上加入注意力稀疏性損失加強視頻中動作幀的稀疏性;Shi 等[11]提出的DGAM 動作定位模型將原始特征和從特征中提取到的注意力同時輸入到一個條件變分自編碼器模塊中進行重構,利用重建損失降低重構特征與視頻特征誤差。

然而以上方法存在對特征不明顯的動作幀難以識別,以及動作幀和上下文幀識別錯誤的問題。為此,本文提出一種基于注意力機制上下文建模的弱監督動作定位方法,利用注意力機制提取視頻中的關鍵動作信息,用于分離動作—背景幀;在此基礎上引入半軟注意力,引導模型識別視頻中特征不明顯的動作幀;同時對視頻中的上下文信息建模,使模型可以識別上下文幀,從而解決動作幀—上下文幀易混淆的問題。

1 相關研究

1.1 視頻動作識別

視頻動作識別任務主要是指對裁剪好的短視頻進行動作分類。在該方面研究中,Simonyan 等[12]首先提出基于雙流卷積神經網絡的動作識別算法,使用空間流網絡處理空間信息,時間流網絡處理時間信息;Wang 等[13]采用稀疏采樣方案,通過平均聚集的方式對長時視頻信息進行建模;Donahue 等[14]應用長時遞歸卷積網絡捕捉視頻中的時序信息;Karpathy 等[15]采用卷積神經網絡提取視頻中每一幀的特征,然后完成動作分類;Tran 等[16]提出C3D 網絡用于動作識別,采用3D 卷積核提取視頻中的時間和空間信息。動作識別是視頻內容理解中的一個基礎任務,弱監督動作定位算法可以采用預訓練好的動作識別模型提取視頻特征。

1.2 弱監督動作定位

視頻動作定位不僅需要識別動作類別,還需要定位每個動作的開始時間和結束時間。與強監督動作定位相比,弱監督動作定位無需幀級標簽且減少了時間軸標注人力成本和時間成本。近年來,弱監督動作定位相關研究成果豐碩。針對動作—上下文易混淆的問題,Liu 等[17]提出ACSNet 模型,通過擴展上下文類別標簽將動作幀與上下文幀解耦,從而實現動作—上下文幀的分離。針對動作完整性邊界問題,Singh 等[18]提出Hide-Seek 模型,在訓練樣本過程中隨機隱藏一些幀,使分類網絡能夠學習到區分度相對較低的視頻幀;Zhong 等[19]提出的Step-by-step 方法利用迭代訓練多個分類器來檢測同一動作實例的互補片段;Liu 等[20]提出的弱監督動作定位模型采用多分支網絡和多樣性損失檢測同一個動作實例的不同動作片段。

本文采用自上而下的方式進行動作定位。為驗證模型有效性,在對比實驗部分比較該模型與W-TALC 模型[8],HAM-Net 模型[9],DGAM 模型[11],ACSNet 模型[17]等弱監督定位模型在不同IoU 閾值下的平均檢測精度均值(mAP)。

1.3 注意力機制

神經網絡通過引入注意力機制對樣本進行全局掃描,進而發現有用信息,并為樣本分配一組權重來增強關鍵信息、抑制冗余。根據注意力是否可微,可將其分為硬注意力和軟注意力兩種[21],其中硬注意力不可微,某個區域的注意力值非0 即1;軟注意力可微,每個區域的注意力值是介于0~1的數值。

本文利用注意力機制為每個樣本學習得到特定的半軟閾值,并利用半軟閾值將軟注意力得分中高于閾值的區域值置為0,余下區域的注意力值不變,得到半軟注意力。引入半軟注意力可以引導模型關注視頻中運動特征不明顯的動作幀,同時借助注意力機制權重分配方式聚焦于輸入視頻序列中的時間上下文信息,完成上下文建模,實現動作幀與上下文幀的分離。

2 動作定位模型

2.1 整體框架

動作定位模型整體框架如圖1 所示,主要包括特征提取、視頻分類模型和注意力模型3 個部分。特征提取部分采用預訓練好的I3D 模型[22]分別獲取視頻RGB 和光流特征,然后對RGB 和光流特征進行拼接,得到雙流視頻特征。分類模型生成幀級別的分類激活序列。注意力模型分為動作—背景分支和上下文分支,其中動作—背景分支提取視頻的動作注意力和背景注意力分數,并利用半軟注意力引導模型識別特征不明顯的動作幀;上下文分支利用視頻上下文信息建模,提取上下文幀的注意力分數,使模型可以分離動作幀與上下文幀。視頻類別標簽可以表示為y∈{0,1}C+1,視頻包含第j類動作,則y(j)=1,不包含則y(j)=0,第C+1 維表示背景類別。利用視頻類別標簽訓練模型,并對幀級分類激活序列和動作注意力分數進行處理以完成動作定位。

Fig.1 Framework of action localization model圖1 動作定位模型框架

2.2 視頻分類模型

視頻分類模型包含兩個卷積層,模型輸出結果為幀級動作分類激活序列CAS。表示為:

式中:X為提取到的雙流視頻特征;Wcls和bcls分別為分類網絡卷積層的權重和偏差;* 為卷積操作;CAS∈RT×(C+1)表示幀級的動作類別分數;T為視頻片段數;第C+1類為背景類別。

2.3 基于動作—背景注意力的弱監督動作定位

2.3.1 動作—背景注意力分支

動作—背景注意力分支提取視頻的幀級動作注意力和背景注意力分數,該分支由注意力模型提取視頻注意力值后進行softmax運算以區分動作注意力與背景注意力。計算公式為:

注意力模型由兩層卷積組成,其中X為雙流視頻特征;Watt和batt分別表示注意力網絡的權重參數和偏差;Ains - bak∈RT×2表示視頻片段總數為T;每個片段包含動作注意力分數attins和背景注意力分數attbak,總和為1。

動作注意力抑制背景幀的類激活分數,因此動作分支視頻標簽為yins=[y(j)=1,y(C+1)=0];背景注意力抑制動作幀的類激活分數,因此背景分支視頻標簽為ybak=[y(j)=0,y(C+1)=1]。圖2 為動作—背景注意力分支結構。

Fig.2 Action-background attention branch structure圖2 動作—背景注意力分支結構

將動作和背景注意力分別與幀級分類序列CAS 相乘,得到兩種注意力加權得到的幀級分類激活分數。采用TOP-K 方法[8]對幀級分類激活序列中每個動作類別沿著時間維度上聚合TOP-K 得分并求平均值,得到視頻級分類得分。計算公式為:

2.3.2 半軟注意力

為更加準確地優化動作注意力分布,使模型可以識別動作特征不明顯的視頻幀,采用半軟閾值γ擦除動作注意力分數attins中高于閾值γ的片段,以提取半軟注意力分數attsemi-soft。計算公式為:

式中:閾值γ并非人工經驗設置的固定值,而是通過神經網絡結合注意力機制為每一個視頻樣本設置的一個特定值。提取到半軟注意力分數后,首先通過點積運算求得半軟注意力加權的幀級分類序列;然后根據式(3)聚合平均得到視頻分類得分,并在類別維度進行softmax運算得到semi-soft;最后結合視頻標簽ysemi-soft構建半軟注意力分類損失函數訓練模型。半軟注意力分支的視頻標簽為ysemi - soft=yins=[y(j)=1,y(C+1)=0];半軟分類損失函數表示為:

2.4 基于上下文注意力的弱監督動作定位

動作—背景注意力分支沒有考慮上下文幀對動作定位的影響,導致模型難以區分動作幀和上下文幀,因此本文增加上下文注意力分支,利用注意力模型對動作、背景以及上下文進行分類。注意力模型提取幀級上下文注意力后,采用softmax區分上下文注意力和動作—背景注意力。計算公式為:

式中:X為雙流視頻特征;Watt和batt為注意力網絡參數;上下文注意力Acon∈RT×1;T為視頻片段數,每個視頻片段上下文注意力與動作—背景注意力的和為1。

上下文幀與動作類別相關,常與動作幀一起發生,但其運動特征稀疏,這又與靜態背景幀類似,因此設置上下文分支視頻類別標簽ycon=[y(j)=1,y(C+1)=1]。圖3為上下文注意力分支結構。

Fig.3 Context attention branch structure圖3 上下文注意力分支結構

將上下文注意力分數與CAS相乘,得到上下文注意力加權后的幀級分類激活序列,然后采用式(3)聚合平均得到視頻級別的分類得分,并且在類別維度進行softmax運算,得到預測的視頻動作分類分數。利用視頻級標簽ycon和預測值計算上下文分類損失函數。計算公式為:

2.5 動作定位

獲取到動作注意力分數attins和動作注意力加權后的幀級分類分數CASins后,首先過濾掉attins和CASins中低于預設閾值的部分,然后選擇剩余連續片段產生動作提議(ts、te、c、φ),表示動作開始時間、結束時間、預測類別以及置信度分數。置信度分數的計算方式參照文獻[20],利用每個動作提議的內部和外部區域得分比較產生置信度。實驗過程中采用設置多個閾值的方式增加動作提議數量,并引入非極大值抑制重疊程度高的提議。

2.6 網絡訓練

模型采用視頻級分類損失函數Lcls、注意力引導損失函數Lguide以及稀疏注意力損失函數Lsparse進行訓練。最終損失函數表示為:

式中:α1、α2、α3、α4、β1、β2為平衡整體損失項的超參數;Lcls由視頻級動作分類損失、背景分類損失、半軟分類損失和上下文分類損失構成。

注意力引導損失利用動作注意力作為幀級監督優化視頻分類模型,使分類激活序列與動作注意力趨于一致,有助于產生更加準確的動作分類結果。計算公式為:

稀疏注意力損失分別對動作注意力和上下文注意力進行L1 范式運算,并將二者的值相加取時域平均值。計算公式為:

式中:attins(t)、attcon(t)分別表示時間段t的動作注意力和上下文注意力分數;T為視頻片段數。

3 實驗方法與結果分析

3.1 實驗環境

使用PyTorch 1.7 框架,實驗設備為NVIDIA GeForce GTX 1660Ti GPU,使用Adam 優化器。

3.2 數據集

為驗證所提方法對視頻動作定位的有效性,本文在THUMOS14 數據集[23]和ActivityNet1.3 數據集[24]上進行消融實驗和比較實驗。THUMOS14數據集中訓練集包含2 765個修剪視頻,驗證集包含200 個未修剪視頻,測試集包含212個未修剪視頻。選取驗證集用于模型訓練,測試集用于測試模型性能。視頻一共包含20 種不同類別的動作,平均每個視頻包含15.5 個動作實例,視頻中超過70%的幀為上下文幀和背景幀。

ActivityNet1.3 數據集中包含10 024 個未剪輯視頻用于模型訓練,4 926 個未剪輯視頻用于模型性能測試。視頻一共包含200 種不同類別的動作,平均每個視頻包含1.6個動作實例,其中約36%的視頻幀屬于上下文幀和背景幀。

3.3 評價指標

采用在不同 IoU 閾值下的平均檢測精度(mAP)進行動作定位的準確性評估,其中THUMOS14 數據集的閾值IoU 范圍為0.10~0.70,間隔為0.1;ActivityNet1.3 數據集的閾值 IoU 范圍為 0.50~0.95,間隔為0.05。

3.4 消融實驗

為驗證在動作—背景注意力分支中加入半軟注意力對于模型識別動作特征不明顯視頻幀的改善效果,在THUMOS14 數據集上進行第一組消融實驗。在基線對照組的基礎上加入半軟分類損失,分別計算模型在IoU 閾值為0.5 時的mAP 和動作漏檢率,其中漏檢率為視頻中未被成功檢測為動作幀的個數與全部動作幀個數的比值。實驗結果如表1 所示。可以看出,與基線實驗1 和實驗2 相比,加入半軟注意力后(實驗3)的mAP@0.5 分別提高了11.7%和4.3%,動作漏檢率分別降低了7.1%和3.6%,說明半軟注意力可以提高模型對特征不明顯動作幀的識別效果。

Table 1 Result of first ablation experiment表1 第一組消融實驗結果

為驗證加入上下文注意力對于模型識別動作幀和上下文幀的改善效果,在THUMOS14 數據集上進行第二組消融實驗,計算模型在IoU 閾值為0.5 時的mAP,結果如表2所示。可以看出,與基線實驗1 和實驗2 相比,單獨加入上下文注意力(實驗4)后mAP@0.5 分別提高了12.0%和閾值為0.5 時,本文模型在THUMOS14 和ActivityNet1.3 數據集上的平均檢測精度分別達到32.6%和38.6%,優于其他弱監督動作定位模型,驗證了基于注意力機制上下文建模方法的有效性。4.6%;與實驗3 相比,在半軟注意力基礎的上加入上下文注意力(實驗5)后mAP@0.5 提高了0.8%。圖4 為模型引入全部分類損失后CAS 和動作注意力加權后CAS 的分布情況,可以看出動作注意力抑制了原始CAS 數值。表2 和圖4 數據證實了上下文建模可以區分視頻動作幀與上下文幀。

Table 2 Result of the second ablation experiment表2 第二組消融實驗結果

Fig.4 Distribution of CAS圖4 CAS分布情況

為驗證注意力引導損失Lguide和稀疏性損失Lsparse對模型注意力值分布的優化效果,在THUMOS14 數據集上進行第三組消融實驗,結果見表3。可以看出,同時引入Lguide和Lsparse后,mAP@0.5 達到32.6%,證明了兩種損失函數對動作定位的有效性。

Table 3 Result of the third ablation experiment表3 第三組消融實驗結果

3.5 與其他模型的比較實驗

在THUMOS14 數據集上與W-TALC[8]、HAM-Net[9]、DGAM[11]、ACS-Net[18]、BasNet[25]、A2CL-PT[26]、CoLA[27]等弱監督動作動作定位模型的定位效果進行比較,在ActivityNet1.3 數據集上與STPN[10]、BasNet[25]、A2CL-PT[26]、MAAN[28]、TSM[29]、TSCN[30]、Huang et al[31]等弱監督動作定位模型的定位效果進行比較,結果見表4、表5,表中AVG 指間隔0.05 取得的mAP 平均值。可以看出,當 IoU

Table 5 Comparison mAP values of different models on ActivityNet1.3 dataset表5 不同模型在ActivityNet1.3數據集上的比較

4 結語

為解決弱監督動作定位方法對特征不明顯的動作幀難以識別以及動作—上下文幀易混淆的問題,本文提出一種基于注意力機制上下文建模的動作定位模型,在公共數據集THUMOS14 和ActivityNet1.3 上與主流弱監督動作定位模型的定位效果進行了比較,發現在IoU 閾值為0.5 時,本文模型的mAP 值均高于其他比較模型,證實了引入半軟注意力可以引導模型檢測到特征不明顯的動作幀,通過上下文注意力對上下文信息建模可以分離視頻中的動作—上下文幀。未來考慮設計細粒度的上下文建模方法,以進一步提高模型的動作定位效果。

猜你喜歡
背景分類動作
“新四化”背景下汽車NVH的發展趨勢
分類算一算
《論持久戰》的寫作背景
當代陜西(2020年14期)2021-01-08 09:30:42
分類討論求坐標
數據分析中的分類討論
動作描寫要具體
教你一招:數的分類
畫動作
動作描寫不可少
晚清外語翻譯人才培養的背景
主站蜘蛛池模板: 色爽网免费视频| 孕妇高潮太爽了在线观看免费| 婷婷六月综合网| 中文字幕久久波多野结衣| 亚洲综合精品香蕉久久网| 国产欧美日韩精品第二区| 久久国产成人精品国产成人亚洲 | 国产又粗又猛又爽视频| 中文无码影院| 欧美人人干| 久久国产精品77777| 1024你懂的国产精品| 在线观看热码亚洲av每日更新| 亚洲视频欧美不卡| 91亚洲精品第一| 国产精品xxx| 久久精品aⅴ无码中文字幕| 日韩中文无码av超清| 又黄又湿又爽的视频| 激情影院内射美女| 日本三区视频| 亚洲国产日韩在线成人蜜芽| 亚洲欧美日本国产专区一区| 国产成本人片免费a∨短片| 精品国产中文一级毛片在线看| 国产九九精品视频| 婷五月综合| 国产一区亚洲一区| 欧美色视频网站| 国产欧美精品一区二区| 国产精鲁鲁网在线视频| 国产喷水视频| 国产精品手机视频一区二区| 国产在线观看成人91| 成人韩免费网站| 亚洲中文精品人人永久免费| 暴力调教一区二区三区| 毛片在线播放网址| 暴力调教一区二区三区| 色噜噜久久| 亚洲无码精彩视频在线观看| 国产精品国产三级国产专业不| 国产精品视频第一专区| 亚洲成AV人手机在线观看网站| 久久精品aⅴ无码中文字幕| 精品夜恋影院亚洲欧洲| 91九色视频网| 国产成人无码久久久久毛片| 91娇喘视频| 99国产在线视频| 国产丝袜丝视频在线观看| 久久一色本道亚洲| 五月婷婷精品| 99久久婷婷国产综合精| 一级爆乳无码av| 中文字幕免费播放| 日韩在线网址| 香蕉久人久人青草青草| 91成人精品视频| 亚洲精品波多野结衣| 热久久综合这里只有精品电影| 99偷拍视频精品一区二区| 91欧美在线| av午夜福利一片免费看| 一级毛片免费观看久| 91网在线| 亚洲中文字幕国产av| 亚洲国产成人久久77| 日本福利视频网站| 亚洲福利视频一区二区| 久久精品只有这里有| 亚洲欧美激情小说另类| 亚洲综合九九| 亚洲乱伦视频| 欧美精品H在线播放| 永久在线精品免费视频观看| 日韩无码黄色| 精品国产自在在线在线观看| 国产精品亚洲αv天堂无码| 成人毛片在线播放| 国产成人高清在线精品| 亚洲国产午夜精华无码福利|