999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征挖掘與區域增強的弱監督時序動作定位

2023-12-31 00:00:00王靜王傳旭
計算機應用研究 2023年8期

摘 要:弱監督時序動作定位旨在定位視頻中行為實例的起止邊界及識別相應的行為。現有方法盡管取得了很大進展,但依然存在動作定位不完整及短動作的漏檢問題。為此,提出了特征挖掘與區域增強(FMRE)的定位方法。首先,通過基礎分支計算視頻片段之間的相似分數,并以此分數聚合上下文信息,得到更具有區別性的段分類分數,實現動作的完整定位;然后,添加增強分支,對基礎分支定位中持續時間較短的動作提案沿時間維度進行動態上采樣,進而采用多頭自注意機制對動作提案間的時間結構顯式建模,促進具有時間依賴關系的動作定位且防止短動作的漏檢;最后,在兩個分支之間構建偽標簽互監督,逐步改進在訓練過程中生成動作提案的質量。該算法在THUMOS14和ActivityNet1.3數據集上分別取得了70.3%和40.7%的檢測性能,證明了所提算法的有效性。

關鍵詞:時序動作定位;逆變換;動態采樣;偽標簽互監督;多頭自注意

中圖分類號:TP391.4文獻標志碼:A

文章編號:1001-3695(2023)08-050-2555-06

doi:10.19734/j.issn.1001-3695.2022.12.0642

Feature mining and region enhancement for weakly supervised

temporal action localization

Wang Jing,Wang Chuanxu

(School of Information Science amp; Technology,Qingdao University of Science amp; Technology,Qingdao Shandong 266100,China)

Abstract:Weakly supervised temporal action localization (WTAL) aims to locate the start and end boundaries of action instances and identify the corresponding actions.Although the existing methods have made great progress,there are still problems of incomplete localization and missing detection of shorter motions.To this end,this paper proposed a localization method of feature mining and region enhancement (FMRE).Firstly it calculated the similarity score between video segments through the base branch,and aggregated the context information with this score to obtain a more differentiated segment classification score,further realizing the complete positioning of the action.Then,it added a enhance branch to dynamically up-sample action proposals with a shorter duration in the initial localization along the temporal dimension,and then utilized the multi-head self-attention mechanism to explicitly model the temporal structure between action proposals,which facilitated action localization with temporal dependencies and prevented missing detection of short actions.Finally,it constructed pseudo-labels of mutual supervision between the two branches to gradually improve the quality of action proposals during the training process.The algorithm achieves mAP of 70.3% and 40.7% detection performances on the THUMOS14 and ActivityNet1.3 datasets respectively,which proves the effectiveness of the proposed algorithm.

Key words:temporal action localization;inverse transform;dynamic sampling;pseudo-label mutual supervision;multi-head self-attention

0 引言

時序動作定位是視頻理解中一項重要且具有挑戰性的任務,其在視頻監控、事件檢測、交通監管等領域得到了廣泛應用。然而,該工作大多數都是以完全監督的方式處理,注釋大量的動作時間邊界即耗時又費力。相反,弱監督學習可以大大簡化數據收集和標記成本,得到了研究者的廣泛關注。

弱監督時序動作定位的經典方法是將此任務公式化為一個多實例學習(MIL)問題,整個未剪輯視頻被視為一個包含正、負實例的包,即動作實例和背景幀。隨著時間的推移執行片段分類以生成類激活序列(CAS),然后通過top-k聚合得到視頻級預測,閾值化生成行為提議,如圖1(a)所示(其中:class為分類監督;CAS為類激活案例;箭頭指示傳播方向)。由于此框架只優化分類目標,所以本文認為將視頻中片段作為獨立實例的MIL方法,忽略了在特征建模及預測階段對動作片段內和跨動作片段間潛在的時間結構進行建模,且分類器生成的CAS表示每個片段的特定類別動作概率,但它只覆蓋對動作分類貢獻最大且最具有辨別力的區域[1],導致從CAS中生成的動作提案和位置偽標簽都是低質量的。其次是模型偏向于持續時間較長的動作片段,造成短動作的漏檢及低質量預測,如圖1(b)所示。

本文為了解決動作實例的漏檢和完整性問題,提出了基于特征挖掘與區域增強的研究算法,稱之為FMRE。首先通過段內多頭自我注意機制平滑的MIL方法生成動作提案,這些提案顯示了未剪輯視頻中的動作位置及持續時間的初步估計。進而采用逆變換理論對短動作提案進行動態上采樣,然后通過自我注意顯式建模提案間的交互關系,從而促進具有時間依賴關系的動作定位且防止短動作的誤報和漏檢。最后,為了優化定位目標,進一步構建了基礎分支和增強分支之間的偽標簽互監督。將每個分支的定位結果作為另一個分支的定位目標,交替凍結一個分支來訓練另一個分支,從而促使模型定位更加完整和精確,如圖1(c)所示。本文主要貢獻總結如下:

a)提出了段內、提案間的多頭自我注意模塊。即前者是計算視頻片段與查詢之間的相似度分數,進而利用這些分數聚合上下文信息,以此得到更具有區別性的段分類并抑制無關信息的干擾。后者則是顯式建模動作提案之間的時間結構,促進動作定位且防止動作誤報。

b)通過初定位的動作提案,采用逆變換原理,對一定長度的動作進行動態上采樣,從而避免短動作的漏檢和低質量預測。

c)在公開數據集THUMOS14和ActivityNet1.3上進行了大量實驗。結果表明,所提方法比目前最先進的方法具有更好的性能。

1 相關工作

1.1 弱監督時序動作定位

弱監督時序動作定位(WTAL)僅使用視頻級動作標簽進行訓練,有效地減輕了對昂貴動作邊界注釋的需求。受目標檢測中類激活圖的啟發[2],早期方法通常是根據視頻級的類別標簽訓練動作分類器,然后根據分類器的參數計算類激活序列,最后閾值化CAS得到動作提案。

分類和定位在優化目標上存在根本性區別,即分類主要依賴于最具辨別力的動作片段,而定位需要挖掘完整的動作區域。CAS通常是稀疏和不完整的,進而導致從CAS中生成的動作提案和位置偽標簽都是低質量的。為了解決這些問題,CMCS[1]則并行訓練多個分類器,用于檢測不同的動作區域。不同于此,DGAM[3]通過條件變分自動編碼器分離上下文和動作,CleanNet[4]進一步提出了行為提議評估器,以進行有效的邊界調整。

上述方法僅是通過分類監督進行定位。最近一些研究引入了基于自我訓練的框架,即在當前步驟的CAS上設置閾值,并生成偽標簽作為下一次訓練的位置監督,逐步細化偽標簽實現優質定位。具體地說,EM-MIL[5]利用類特定的CAS和與類無關的注意力作為偽標簽,將WTAL任務視為期望最大化問題進行優化。TSCN[6]分別基于RGB和Flow數據預測偽標簽,然后對這兩個偽標簽進行后期融合以減少誤報。受其思想的啟發,本文FMRE框架通過段內自我注意聚合上下文信息,以此提煉動作特征并抑制無關信息的干擾;提案間自我注意顯式建模不同實例之間的結構關系來促進定位。其次,采用逆變換原理對時序短動作片段進行動態上采樣,以此避免漏檢和低置信度預測,最后通過偽標簽互監督提高定位性能。

1.2 偽標簽指導交互訓練

在弱監督或有限監督的視覺任務中,使用偽標簽來指導模型訓練得到越來越多的關注。在弱監督的目標檢測中,自我訓練[7,8]是一個開創性的研究方向,它首先訓練教師模型,然后選擇每個未標記樣本中的最大預測概率作為動作定位的偽標簽來訓練最終的檢測器。同樣,在半監督學習[9~13]和域自適應[14~16]算法中,預訓練的網絡以監督的方式在標記的源數據集上進行訓練,然后用于未標記的目標數據集生成偽標簽,進而指導訓練過程。與上述工作相似,本文FMRE就是利用偽段級標簽(即動作提案)來指導在WTAL任務中的訓練過程。將每個分支的定位結果作為另一個分支的定位目標,交替凍結一個分支來訓練另一個分支,多次迭代、進而實現動作的不漏檢且準確識別與定位。

1.3 注意力機制

注意力機制可以理解為計算機視覺系統在模擬人類視覺系統,迅速高效地關注重點區域,并處理這些區域的特性。近年來,基于注意力的方法被廣泛應用于動作定位的研究,Islam等人[17]提出了具有混合注意力機制的HAM-Net框架,包括時間軟、半軟和硬注意力。其時間軟注意力模塊由分類分數引導來模擬背景活動且找到動作的高辨別區域,半軟和硬注意力模塊對視頻片段中動作的高辨別度區域進行擦除并計算兩個注意力分數,進而挖掘動作辨別度低的幀,通過聯合學習來捕獲完整的動作實例。不同于此,Wang等人[18]改進條件變分自動編碼器(CVAE)注意力生成模型,加入動作前后幀信息以獲取幀級注意力值,從而增強幀前后的關聯性,避免幀信息丟失問題。自注意機制與其不同之處在于,它是輸入序列內部元素之間或者輸出序列內部元素之間發生的注意力機制。Zhou等人[19]使用自我注意來捕捉用戶不同行為的影響,對用戶行為進行建模,并將其應用于推薦任務。受其思想的啟發,本文提出了段內、提案間的多頭自我注意模塊,即前者是建模查詢片段的上下文信息來提煉片段特征,以此得到更具有區別性的段分類分數。后者則是通過模擬動作提案之間的關系,促進具有時間依賴關系的動作定位。

FMER總體框架如圖2所示,其中:藍色區域表示對未剪輯視頻提取特征得到片段級特征表示;綠色區域指示基礎分支,通過段內自我注意平滑MIL方法生成動作的初始定位。橙色區域則是增強分支,對基礎分支中的短動作動態上采樣,提案間自我注意建模時間結構來促進定位,避免短動作的漏檢。

2 方法

2.1 問題表述

2.2 基礎分支

2.3 增強分支

2.4 迭代訓練的偽標簽互監督

3 實驗

3.1 數據集和評價指標

3.2 實現細節

3.3 與最先進的方法進行比較

3.4 消融實驗

3.5 定性的可視化分析

為了定性地展示所提框架的優越性,在圖6可視化了兩個示例。圖中:在每個例子中有九個圖。前三個圖分別是輸入視頻、CAS和基礎分支的定位結果。中間三個圖顯示了輸入視頻、CAS和增強分支的定位結果。最后三個圖分別是最終CAS、整個框架的最終定位結果和真實動作間隔。基礎分支以均勻時間分布的視頻作為源,只能檢測出長動作。通過動態計算放大比在增強分支進行短動作的上采樣,從而防止短動作的漏檢和低質量預測。偽標簽互監督使最終的定位結果更加完整和精確。

圖6(a)描繪了一個具有背景挑戰的案例擲鐵餅,它看起來與前景非常相似,即便如此,本文通過自注意力機制建模上下文信息,以此得到更具有區別性的段分數,進而抑制背景信息的干擾,實現精準定位。圖6(b)展示了包含長短不同的打籃球動作的視頻,通過本文的增強分支對其短的動作實例進行上采樣,以此避免了低質量預測,進而偽標簽互監督促使兩個分支之間的相互增強,從而獲得更完整、更精確的預測結果。

4 結束語

專注于弱監督時序動作定位任務研究,例如時序較短行為的漏檢,以及一些候選剪輯被隨意忽略導致定位不完整或者過度完整。本文提出了基于特征挖掘與區域增強的新算法,通過段內自我注意提煉特征以獲得更易于區分動作和背景的片段,進而得到更具有區別性的段分類分數,實現動作的初始定位。為避免基礎分支對短動作的漏檢,添加增強分支對較短動作進行動態上采樣,進而捕獲不同動作提案之間的關系來促進動作定位并避免低質量預測。最后構建偽標簽互監督,通過提供更細粒度的監督,促使兩分支相互增強,在多次迭代中逐步定位更完整、更精確的動作區域。在THUMOS14和ActivityNet1.3上的實驗證明了所提FMRE框架的有效性和先進性。

行為定位和識別任務的最新進展表明,建模上下文可以為動作識別提供更豐富的線索。受此啟發,下一步工作將引入顯式的背景建模來增強本文框架的判別能力,從而抑制背景噪聲的干擾,從而獲得準確的動作提案。

參考文獻:

[1]Liu Daochang,Jiang Tingting,Wang Yizhou.Completeness modeling and context separation for weakly supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1298-1307.

[2]Zhou Bolei,Khosla A,Lapedriza A,et al.Learning deep features for discriminative localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:2921-2929.

[3]Shi Baifeng,Dai Qi,Mu Yadong,et al.Weakly-supervised action localization by generative attention modeling[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1009-1019.

[4]Liu Ziyi,Wang Le,Zhang Qilin,et al.Weakly supervised temporal action localization through contrast based evaluation networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:3899-3908.

[5]Luo Zhekun,Guillory D,Shi Baifeng,et al.Weakly-supervised action localization with expectation-maximization multi-instance learning[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:729-745.

[6]Zhai Yuanhao,Wang Le,Tang Wei,et al.Two-stream consensus network for weakly-supervised temporal action localization[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:37-54.

[7]Zou Yang,Yu Zhiding,Liu Xiaofeng,et al.Confidence regularized self-training[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:5982-5991.

[8]Ren Zhongzheng,Yu Zhiding,Yang Xiaodong,et al.Instance-aware,context-focused,and memory-efficient weakly supervised object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10598-10607.

[9]Sohn K,Berthelot D,Carlini N,et al.FixMatch:simplifying semi-supervised learning with consistency and confidence[J].Advances in Neural Information Processing Systems,2020,33:596-608.

[10]Weng Zejia,Yang Xitong,Li Ang,et al.Semi-supervised vision transformers[C]//Proc of European Conference on Computer Vision.Cham:Springer,2022:605-620.

[11]Paul S,Roy S,Roy-Chowdhury A K.W-talc:weakly-supervised temporal activity localization and classification[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:588-607.

[12]Idrees H,Zamir A R,Jiang Y G,et al.The THUMOS challenge on action recognition for videos “in the wild”[J].Computer Vision and Image Understanding,2017,155:1-23.

[13]Caba Heilbron F,Escorcia V,Ghanem B, et al.ActivityNet:a large-scale video benchmark for human activity understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2015:961-970.

[14]Saito K,Ushiku Y,Harada T.Asymmetric tri-training for unsupervised domain adaptation[C]//Proc of International Conference on Machine Learning.2017:2988-2997.

[15]Liang Jian,He Ran,Sun Zhenan,et al.Exploring uncertainty in pseudo-label guided unsupervised domain adaptation[J].Pattern Recognition,2019,96:106996.

[16]Das D,Lee C S.Graph matching and pseudo-label guided deep unsupervised domain adaptation[C]//Proc of International Conference on Artificial Neural Networks.Cham:Springer,2018:342-352.

[17]Islam A,Long C,Radke R.A hybrid attention mechanism for weakly-supervised temporal action localization[C]//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park,CA:AAAI Press,2021:1637-1645.

[18]Wang Jing,Wang Chuanxu.Self-attention relational modeling and background suppression for weakly supervised temporal action localization[J].Journal of Electronic Imaging,2022,31(6):063019.

[19]Zhou Chang,Bai Jinze,Song Junshuai,et al.Atrank:an attention-based user behavior modeling framework for recommendation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Menlo Park,CA:AAAI Press,2018:4564-4571.

[20]Duval V,Aujol J F,Gousseau Y.The TVL1 model:a geometric point of view[J].Multiscale Modeling amp; Simulation,2009,8(1):154-189.

[21]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6299-6308.

[22]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014).https://arxiv.org/abs/1412.6980.

[23]Gao Junyu,Chen Mengyuan,Xu Changsheng.Fine-grained temporal contrastive learning for weakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:19999-20009.

[24]Lee P,Uh Y,Byun H.Background suppression network for weakly-supervised temporal action localization[C]//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park,CA:AAAI Press,2020:11320-11327.

[25]Yang Wenfei,Zhang Tianzhu,Yu Xiaoyuan,et al.Uncertainty guided collaborative training for weakly supervised temporal action detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:53-63.

[26]Zhang Can,Cao Meng,Yang Dongming,et al.CoLA:weakly-supervised temporal action localization with snippet contrastive learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:16010-16019.

[27]Huang Linjiang,Wang Liang,Li Hongsheng.Foreground-action consistency network for weakly supervised temporal action localization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:8002-8011.

[28]Shou Zheng,Gao Hang,Zhang Lei,et al.AutoLoc:weakly-supervised temporal action localization in untrimmed videos[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:154-171.

[29]Qu Sanqing,Chen Guang,Li Zhijun,et al.ACM-NET:action context modeling network for weakly-supervised temporal action localization[EB/OL].(2021).https://arxiv.org/abs/2104.02967.

[30]Luo Wang,Zhang Tianzhu,Yang Wenfei,et al.Action unit memory network for weakly supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9969-9979.

主站蜘蛛池模板: 国产精品无码AⅤ在线观看播放| 国产日韩精品欧美一区喷| 99re视频在线| 亚洲男人在线天堂| 国产中文在线亚洲精品官网| 国产欧美日本在线观看| 日韩欧美视频第一区在线观看 | 成人亚洲国产| 亚洲成a人在线播放www| 亚洲欧美日韩动漫| 国产成人欧美| 国产丝袜第一页| 国产日产欧美精品| 国产91色| 伊人久久精品无码麻豆精品 | 中文字幕人妻av一区二区| 国产成人精品免费av| 久久鸭综合久久国产| 国内精品小视频福利网址| 玖玖免费视频在线观看| 成人国产免费| 国产拍揄自揄精品视频网站| 欧美人与牲动交a欧美精品| 国产高清色视频免费看的网址| 久久免费视频6| 99ri精品视频在线观看播放| 国产福利免费在线观看| 一区二区影院| 女人天堂av免费| 国内精品九九久久久精品| 无码精油按摩潮喷在线播放| 国产在线专区| 久久人搡人人玩人妻精品 | 无码国产伊人| 久久精品视频一| 国产本道久久一区二区三区| 亚洲AV无码乱码在线观看代蜜桃| 日韩午夜福利在线观看| 玩两个丰满老熟女久久网| 国产chinese男男gay视频网| 久久国产亚洲偷自| 2020国产免费久久精品99| 国产电话自拍伊人| 亚洲AV一二三区无码AV蜜桃| 一区二区三区四区日韩| 国产视频 第一页| 亚洲免费播放| 国产色婷婷| 亚洲精品无码不卡在线播放| 亚洲日韩每日更新| 亚洲欧洲天堂色AV| 日本精品视频| 国产精品午夜电影| 欧美精品1区| 在线亚洲天堂| 熟女成人国产精品视频| 久久成人国产精品免费软件 | 国产午夜福利在线小视频| 亚洲二区视频| 久久综合五月婷婷| av色爱 天堂网| 中国一级毛片免费观看| 91毛片网| 国产欧美日韩视频一区二区三区| 精品一区二区三区四区五区| 久久精品视频亚洲| 67194在线午夜亚洲| 精品人妻无码中字系列| 欧美午夜理伦三级在线观看| 国产精品手机在线播放| 国产特级毛片aaaaaaa高清| 99ri精品视频在线观看播放| 99re经典视频在线| 亚洲日韩久久综合中文字幕| 欧美笫一页| 久久国产精品麻豆系列| 91在线无码精品秘九色APP | 日韩欧美网址| 成人精品午夜福利在线播放| 99r在线精品视频在线播放| 婷婷成人综合| 国产97色在线|