特征挖掘與區域增強的弱監督時序動作定位

2023-12-31 00:00:00王靜王傳旭

計算機應用研究 2023年8期

摘要：弱監督時序動作定位旨在定位視頻中行為實例的起止邊界及識別相應的行為。現有方法盡管取得了很大進展，但依然存在動作定位不完整及短動作的漏檢問題。為此，提出了特征挖掘與區域增強（FMRE）的定位方法。首先，通過基礎分支計算視頻片段之間的相似分數，并以此分數聚合上下文信息，得到更具有區別性的段分類分數，實現動作的完整定位；然后，添加增強分支，對基礎分支定位中持續時間較短的動作提案沿時間維度進行動態上采樣，進而采用多頭自注意機制對動作提案間的時間結構顯式建模，促進具有時間依賴關系的動作定位且防止短動作的漏檢；最后，在兩個分支之間構建偽標簽互監督，逐步改進在訓練過程中生成動作提案的質量。該算法在THUMOS14和ActivityNet1.3數據集上分別取得了70.3%和40.7%的檢測性能，證明了所提算法的有效性。

關鍵詞：時序動作定位；逆變換；動態采樣；偽標簽互監督；多頭自注意

中圖分類號：TP391.4文獻標志碼：A

文章編號：1001-3695（2023）08-050-2555-06

doi：10.19734/j.issn.1001-3695.2022.12.0642

Feature mining and region enhancement for weakly supervised

temporal action localization

Wang Jing，Wang Chuanxu

（School of Information Science amp; Technology，Qingdao University of Science amp; Technology，Qingdao Shandong 266100，China）

Abstract：Weakly supervised temporal action localization （WTAL） aims to locate the start and end boundaries of action instances and identify the corresponding actions.Although the existing methods have made great progress，there are still problems of incomplete localization and missing detection of shorter motions.To this end，this paper proposed a localization method of feature mining and region enhancement （FMRE）.Firstly it calculated the similarity score between video segments through the base branch，and aggregated the context information with this score to obtain a more differentiated segment classification score，further realizing the complete positioning of the action.Then，it added a enhance branch to dynamically up-sample action proposals with a shorter duration in the initial localization along the temporal dimension，and then utilized the multi-head self-attention mechanism to explicitly model the temporal structure between action proposals，which facilitated action localization with temporal dependencies and prevented missing detection of short actions.Finally，it constructed pseudo-labels of mutual supervision between the two branches to gradually improve the quality of action proposals during the training process.The algorithm achieves mAP of 70.3% and 40.7% detection performances on the THUMOS14 and ActivityNet1.3 datasets respectively，which proves the effectiveness of the proposed algorithm.

Key words：temporal action localization；inverse transform；dynamic sampling；pseudo-label mutual supervision；multi-head self-attention

0 引言

時序動作定位是視頻理解中一項重要且具有挑戰性的任務，其在視頻監控、事件檢測、交通監管等領域得到了廣泛應用。然而，該工作大多數都是以完全監督的方式處理，注釋大量的動作時間邊界即耗時又費力。相反，弱監督學習可以大大簡化數據收集和標記成本，得到了研究者的廣泛關注。

弱監督時序動作定位的經典方法是將此任務公式化為一個多實例學習（MIL）問題，整個未剪輯視頻被視為一個包含正、負實例的包，即動作實例和背景幀。隨著時間的推移執行片段分類以生成類激活序列（CAS），然后通過top-k聚合得到視頻級預測，閾值化生成行為提議，如圖1（a）所示（其中：class為分類監督；CAS為類激活案例；箭頭指示傳播方向）。由于此框架只優化分類目標，所以本文認為將視頻中片段作為獨立實例的MIL方法，忽略了在特征建模及預測階段對動作片段內和跨動作片段間潛在的時間結構進行建模，且分類器生成的CAS表示每個片段的特定類別動作概率，但它只覆蓋對動作分類貢獻最大且最具有辨別力的區域［1］，導致從CAS中生成的動作提案和位置偽標簽都是低質量的。其次是模型偏向于持續時間較長的動作片段，造成短動作的漏檢及低質量預測，如圖1（b）所示。

本文為了解決動作實例的漏檢和完整性問題，提出了基于特征挖掘與區域增強的研究算法，稱之為FMRE。首先通過段內多頭自我注意機制平滑的MIL方法生成動作提案，這些提案顯示了未剪輯視頻中的動作位置及持續時間的初步估計。進而采用逆變換理論對短動作提案進行動態上采樣，然后通過自我注意顯式建模提案間的交互關系，從而促進具有時間依賴關系的動作定位且防止短動作的誤報和漏檢。最后，為了優化定位目標，進一步構建了基礎分支和增強分支之間的偽標簽互監督。將每個分支的定位結果作為另一個分支的定位目標，交替凍結一個分支來訓練另一個分支，從而促使模型定位更加完整和精確，如圖1（c）所示。本文主要貢獻總結如下：

a）提出了段內、提案間的多頭自我注意模塊。即前者是計算視頻片段與查詢之間的相似度分數，進而利用這些分數聚合上下文信息，以此得到更具有區別性的段分類并抑制無關信息的干擾。后者則是顯式建模動作提案之間的時間結構，促進動作定位且防止動作誤報。

b）通過初定位的動作提案，采用逆變換原理，對一定長度的動作進行動態上采樣，從而避免短動作的漏檢和低質量預測。

c）在公開數據集THUMOS14和ActivityNet1.3上進行了大量實驗。結果表明，所提方法比目前最先進的方法具有更好的性能。

1 相關工作

1.1 弱監督時序動作定位

弱監督時序動作定位（WTAL）僅使用視頻級動作標簽進行訓練，有效地減輕了對昂貴動作邊界注釋的需求。受目標檢測中類激活圖的啟發［2］，早期方法通常是根據視頻級的類別標簽訓練動作分類器，然后根據分類器的參數計算類激活序列，最后閾值化CAS得到動作提案。

分類和定位在優化目標上存在根本性區別，即分類主要依賴于最具辨別力的動作片段，而定位需要挖掘完整的動作區域。CAS通常是稀疏和不完整的，進而導致從CAS中生成的動作提案和位置偽標簽都是低質量的。為了解決這些問題，CMCS［1］則并行訓練多個分類器，用于檢測不同的動作區域。不同于此，DGAM［3］通過條件變分自動編碼器分離上下文和動作，CleanNet［4］進一步提出了行為提議評估器，以進行有效的邊界調整。

上述方法僅是通過分類監督進行定位。最近一些研究引入了基于自我訓練的框架，即在當前步驟的CAS上設置閾值，并生成偽標簽作為下一次訓練的位置監督，逐步細化偽標簽實現優質定位。具體地說，EM-MIL［5］利用類特定的CAS和與類無關的注意力作為偽標簽，將WTAL任務視為期望最大化問題進行優化。TSCN［6］分別基于RGB和Flow數據預測偽標簽，然后對這兩個偽標簽進行后期融合以減少誤報。受其思想的啟發，本文FMRE框架通過段內自我注意聚合上下文信息，以此提煉動作特征并抑制無關信息的干擾；提案間自我注意顯式建模不同實例之間的結構關系來促進定位。其次，采用逆變換原理對時序短動作片段進行動態上采樣，以此避免漏檢和低置信度預測，最后通過偽標簽互監督提高定位性能。

1.2 偽標簽指導交互訓練

在弱監督或有限監督的視覺任務中，使用偽標簽來指導模型訓練得到越來越多的關注。在弱監督的目標檢測中，自我訓練［7，8］是一個開創性的研究方向，它首先訓練教師模型，然后選擇每個未標記樣本中的最大預測概率作為動作定位的偽標簽來訓練最終的檢測器。同樣，在半監督學習［9～13］和域自適應［14～16］算法中，預訓練的網絡以監督的方式在標記的源數據集上進行訓練，然后用于未標記的目標數據集生成偽標簽，進而指導訓練過程。與上述工作相似，本文FMRE就是利用偽段級標簽（即動作提案）來指導在WTAL任務中的訓練過程。將每個分支的定位結果作為另一個分支的定位目標，交替凍結一個分支來訓練另一個分支，多次迭代、進而實現動作的不漏檢且準確識別與定位。

1.3 注意力機制

注意力機制可以理解為計算機視覺系統在模擬人類視覺系統，迅速高效地關注重點區域，并處理這些區域的特性。近年來，基于注意力的方法被廣泛應用于動作定位的研究，Islam等人［17］提出了具有混合注意力機制的HAM-Net框架，包括時間軟、半軟和硬注意力。其時間軟注意力模塊由分類分數引導來模擬背景活動且找到動作的高辨別區域，半軟和硬注意力模塊對視頻片段中動作的高辨別度區域進行擦除并計算兩個注意力分數，進而挖掘動作辨別度低的幀，通過聯合學習來捕獲完整的動作實例。不同于此，Wang等人［18］改進條件變分自動編碼器（CVAE）注意力生成模型，加入動作前后幀信息以獲取幀級注意力值，從而增強幀前后的關聯性，避免幀信息丟失問題。自注意機制與其不同之處在于，它是輸入序列內部元素之間或者輸出序列內部元素之間發生的注意力機制。Zhou等人［19］使用自我注意來捕捉用戶不同行為的影響，對用戶行為進行建模，并將其應用于推薦任務。受其思想的啟發，本文提出了段內、提案間的多頭自我注意模塊，即前者是建模查詢片段的上下文信息來提煉片段特征，以此得到更具有區別性的段分類分數。后者則是通過模擬動作提案之間的關系，促進具有時間依賴關系的動作定位。

FMER總體框架如圖2所示，其中：藍色區域表示對未剪輯視頻提取特征得到片段級特征表示；綠色區域指示基礎分支，通過段內自我注意平滑MIL方法生成動作的初始定位。橙色區域則是增強分支，對基礎分支中的短動作動態上采樣，提案間自我注意建模時間結構來促進定位，避免短動作的漏檢。

2 方法

2.1 問題表述

2.2 基礎分支

2.3 增強分支

2.4 迭代訓練的偽標簽互監督

3 實驗

3.1 數據集和評價指標

3.2 實現細節

3.3 與最先進的方法進行比較

3.4 消融實驗

3.5 定性的可視化分析

為了定性地展示所提框架的優越性，在圖6可視化了兩個示例。圖中：在每個例子中有九個圖。前三個圖分別是輸入視頻、CAS和基礎分支的定位結果。中間三個圖顯示了輸入視頻、CAS和增強分支的定位結果。最后三個圖分別是最終CAS、整個框架的最終定位結果和真實動作間隔。基礎分支以均勻時間分布的視頻作為源，只能檢測出長動作。通過動態計算放大比在增強分支進行短動作的上采樣，從而防止短動作的漏檢和低質量預測。偽標簽互監督使最終的定位結果更加完整和精確。

圖6（a）描繪了一個具有背景挑戰的案例擲鐵餅，它看起來與前景非常相似，即便如此，本文通過自注意力機制建模上下文信息，以此得到更具有區別性的段分數，進而抑制背景信息的干擾，實現精準定位。圖6（b）展示了包含長短不同的打籃球動作的視頻，通過本文的增強分支對其短的動作實例進行上采樣，以此避免了低質量預測，進而偽標簽互監督促使兩個分支之間的相互增強，從而獲得更完整、更精確的預測結果。

4 結束語

專注于弱監督時序動作定位任務研究，例如時序較短行為的漏檢，以及一些候選剪輯被隨意忽略導致定位不完整或者過度完整。本文提出了基于特征挖掘與區域增強的新算法，通過段內自我注意提煉特征以獲得更易于區分動作和背景的片段，進而得到更具有區別性的段分類分數，實現動作的初始定位。為避免基礎分支對短動作的漏檢，添加增強分支對較短動作進行動態上采樣，進而捕獲不同動作提案之間的關系來促進動作定位并避免低質量預測。最后構建偽標簽互監督，通過提供更細粒度的監督，促使兩分支相互增強，在多次迭代中逐步定位更完整、更精確的動作區域。在THUMOS14和ActivityNet1.3上的實驗證明了所提FMRE框架的有效性和先進性。

行為定位和識別任務的最新進展表明，建模上下文可以為動作識別提供更豐富的線索。受此啟發，下一步工作將引入顯式的背景建模來增強本文框架的判別能力，從而抑制背景噪聲的干擾，從而獲得準確的動作提案。

參考文獻：

［1］Liu Daochang，Jiang Tingting，Wang Yizhou.Completeness modeling and context separation for weakly supervised temporal action localization［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：1298-1307.

［2］Zhou Bolei，Khosla A，Lapedriza A，et al.Learning deep features for discriminative localization［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2016：2921-2929.

［3］Shi Baifeng，Dai Qi，Mu Yadong，et al.Weakly-supervised action localization by generative attention modeling［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：1009-1019.

［4］Liu Ziyi，Wang Le，Zhang Qilin，et al.Weakly supervised temporal action localization through contrast based evaluation networks［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：3899-3908.

［5］Luo Zhekun，Guillory D，Shi Baifeng，et al.Weakly-supervised action localization with expectation-maximization multi-instance learning［C］//Proc of European Conference on Computer Vision.Cham：Springer，2020：729-745.

［6］Zhai Yuanhao，Wang Le，Tang Wei，et al.Two-stream consensus network for weakly-supervised temporal action localization［C］//Proc of European Conference on Computer Vision.Cham：Springer，2020：37-54.

［7］Zou Yang，Yu Zhiding，Liu Xiaofeng，et al.Confidence regularized self-training［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：5982-5991.

［8］Ren Zhongzheng，Yu Zhiding，Yang Xiaodong，et al.Instance-aware，context-focused，and memory-efficient weakly supervised object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：10598-10607.

［9］Sohn K，Berthelot D，Carlini N，et al.FixMatch：simplifying semi-supervised learning with consistency and confidence［J］.Advances in Neural Information Processing Systems，2020，33：596-608.

［10］Weng Zejia，Yang Xitong，Li Ang，et al.Semi-supervised vision transformers［C］//Proc of European Conference on Computer Vision.Cham：Springer，2022：605-620.

［11］Paul S，Roy S，Roy-Chowdhury A K.W-talc：weakly-supervised temporal activity localization and classification［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2018：588-607.

［12］Idrees H，Zamir A R，Jiang Y G，et al.The THUMOS challenge on action recognition for videos “in the wild”［J］.Computer Vision and Image Understanding，2017，155：1-23.

［13］Caba Heilbron F，Escorcia V，Ghanem B， et al.ActivityNet：a large-scale video benchmark for human activity understanding［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2015：961-970.

［14］Saito K，Ushiku Y，Harada T.Asymmetric tri-training for unsupervised domain adaptation［C］//Proc of International Conference on Machine Learning.2017：2988-2997.

［15］Liang Jian，He Ran，Sun Zhenan，et al.Exploring uncertainty in pseudo-label guided unsupervised domain adaptation［J］.Pattern Recognition，2019，96：106996.

［16］Das D，Lee C S.Graph matching and pseudo-label guided deep unsupervised domain adaptation［C］//Proc of International Conference on Artificial Neural Networks.Cham：Springer，2018：342-352.

［17］Islam A，Long C，Radke R.A hybrid attention mechanism for weakly-supervised temporal action localization［C］//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park，CA：AAAI Press，2021：1637-1645.

［18］Wang Jing，Wang Chuanxu.Self-attention relational modeling and background suppression for weakly supervised temporal action localization［J］.Journal of Electronic Imaging，2022，31（6）：063019.

［19］Zhou Chang，Bai Jinze，Song Junshuai，et al.Atrank：an attention-based user behavior modeling framework for recommendation［C］//Proc of the 32nd AAAI Conference on Artificial Intelligence.Menlo Park，CA：AAAI Press，2018：4564-4571.

［20］Duval V，Aujol J F，Gousseau Y.The TVL1 model：a geometric point of view［J］.Multiscale Modeling amp; Simulation，2009，8（1）：154-189.

［21］Carreira J，Zisserman A.Quo vadis，action recognition？A new model and the kinetics dataset［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：6299-6308.

［22］Kingma D P，Ba J.Adam：a method for stochastic optimization［EB/OL］.（2014）.https：//arxiv.org/abs/1412.6980.

［23］Gao Junyu，Chen Mengyuan，Xu Changsheng.Fine-grained temporal contrastive learning for weakly-supervised temporal action localization［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2022：19999-20009.

［24］Lee P，Uh Y，Byun H.Background suppression network for weakly-supervised temporal action localization［C］//Proc of AAAI Confe-rence on Artificial Intelligence.Menlo Park，CA：AAAI Press，2020：11320-11327.

［25］Yang Wenfei，Zhang Tianzhu，Yu Xiaoyuan，et al.Uncertainty guided collaborative training for weakly supervised temporal action detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：53-63.

［26］Zhang Can，Cao Meng，Yang Dongming，et al.CoLA：weakly-supervised temporal action localization with snippet contrastive learning［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：16010-16019.

［27］Huang Linjiang，Wang Liang，Li Hongsheng.Foreground-action consistency network for weakly supervised temporal action localization［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2021：8002-8011.

［28］Shou Zheng，Gao Hang，Zhang Lei，et al.AutoLoc：weakly-supervised temporal action localization in untrimmed videos［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2018：154-171.

［29］Qu Sanqing，Chen Guang，Li Zhijun，et al.ACM-NET：action context modeling network for weakly-supervised temporal action localization［EB/OL］.（2021）.https：//arxiv.org/abs/2104.02967.

［30］Luo Wang，Zhang Tianzhu，Yang Wenfei，et al.Action unit memory network for weakly supervised temporal action localization［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：9969-9979.

計算機應用研究2023年8期

計算機應用研究的其它文章: 下期要目; 基于時空注意的毫米波雷達人體活動識別網絡; 胸部X線影像和診斷報告的雙塔跨模態檢索; 基于邊緣關聯點云的激光雷達與相機外參標定方法; 一種SOFC燃燒室燃燒狀態識別方法; 基于多分支網絡的道路場景實時語義分割方法