999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙流特征增強與融合的弱監督時序動作定位

2025-07-28 00:00:00劉逸斌高曙陳良臣
計算機應用研究 2025年7期

關鍵詞:弱監督;時序動作定位;空洞卷積;雙流融合

中圖分類號:TP391.4 文獻標志碼:A 文章編號:1001-3695(2025)07-039-2213-07

doi:10.19734/j. issn.1001-3695.2024.09.0373

Abstract:Weakly supervised temporalaction localizationaims to clasifyand locateaction instances inuntrimmed videos usingonlyvideo-levellabels.Existing models typicallusepre-trainedfeature extractors toextractsegment-levelRGBandopticalflowfeaturesfromvideos,butthepre-extractedsegment-levelvideofeaturesonlycovershorttimespansanddootonsider thecomplementarityandcorrelationbetweeRGBandopticalfo,hichaffctstheacuracyoflocalization.Totisnd,tis paper proposedaweakly-supervised temporalaction localization model withdual-streamfeatureenancementand fusion.Firstly,itexpandedthereceptivefieldthrough amulti-scaledensedilatedconvolution,alowing the modeltocover multipletime spansand capture the temporal dependenciesbetween video segments,resulting inenhancedRGBandopticalflow features. Then,itutilizedaconvolutionalnetworktoadaptivelyextractkeyfeaturesfromtheenhancedRGBandopticalflowfeaturesfor fusion,achievingcomplementarycorelationetweenRGBandopticalflowfeatures,furtherenrichingthevideofeaturerepre sentationand improving theaccuracyof themodel'slocalizationperformance.The modelachieves detectionaccuraciesof (20 73.9% and 43.5% on the THUMOS14 and ActivityNet1.3 datasets respectively,outperforming the existing state-of-the-art models,which proves the effectiveness of the proposed model.

Key Words:weakly supervision;temporal action localization;dilated convolution;dual-stream fusion

0 引言

時序動作定位作為視頻理解領域中的關鍵任務,在諸如視頻監控、異常檢測和視頻檢索等實際應用中扮演著重要角色。其目標是精確定位視頻中感興趣的動作發生的時間邊界,并正確分類這些動作。傳統上,這項任務依賴于全監督學習,需要大量的時間和人力標注視頻中動作的精確時間邊界。然而,這種方法不僅耗時費力,還可能因人為標注的主觀性而引入誤差。弱監督學習方法通過簡化數據收集和標注過程,降低了成本,并減少了人為誤差。弱監督時序動作定位更具備應用前景,逐漸成為研究者關注的焦點。在弱監督時序動作定位領域,利用視頻級別的標注定位動作的時間區間是一項具有挑戰性的任務。現有方法通常將該任務視為多示例學習(multi-instancelearning,MIL)問題。通過將預提取的視頻特征輸入到分類器,生成時間類激活序列(temporalclassactivationsequence,TCAS)。然后,采用top-k均值策略對TCAS進行聚合,得到視頻級別的動作預測。本文旨在通過豐富視頻特征表示的方式,提高生成的TCAS質量,進而提升弱監督時序動作定位的效果。因為TCAS質量的高低直接影響了弱監督時序動作定位的效果,通常情況下,TCAS是通過對視頻特征進行分類處理后得到的。高質量的視頻特征可以生成更為準確和可靠的TCAS,從而為后續的動作定位提供有力支持;相反,若視頻特征質量欠佳,那么得到的TCAS可能存在偏差或不準確的情況,進而對整個動作定位的效果產生不利影響。

UntrimmedNet[1]是第一個使用MIL方法解決弱監督時序動作定位(weakly supervised temporal actionlocalization,WTAL)任務的網絡,結合分類模塊和選擇模塊預測視頻行為。Nguyen等人[2]基于多示例學習提出 STPN(sparse temporal poolingnet-work)。該網絡結合了稀疏性約束和時間池化機制,通過稀疏時間池化模塊將注意力集中在關鍵的動作片段上,最終通過定位頭部生成動作的定位輸出。針對模型學習到的分類器通常集中在容易區分的片段上問題,Gao等人[3提出了一種基于細粒度時間對比學習的方法。利用動態規劃和兩種互補的對比目標,比較視頻序列之間的時間差異,從而識別出連貫的動作實例。TFE-DCN[4]和文獻[5]利用空洞卷積對視頻的時序特征進行增強,提高了定位的完整性。為了更好地區分動作實例和背景,文獻[6\~8]引入了注意力機制抑制背景的激活分數,并突出了動作的激活分數。 D2-Net[9] 設計一種新的損失函數,同時提高了潛在嵌入的可區分性和輸出時序類別激活的魯棒性,并利用一個自上而下的注意力機制來增強潛在前景和背景嵌入的分離性。HAM-Net框架[1°通過混合注意力機制,有效地識別和利用視頻中的動作信息,以全面捕獲動作的時序邊界。由于缺乏幀級注釋,文獻[11,12]通過偽標簽監督模型訓練來彌合分類和定位之間的差異。 RSKP[13] 引入了一個記憶庫模塊存儲視頻中挖掘的代表性片段,以提高視頻之間信息傳播,實現視頻特征互補,進而生成高質量偽標簽,并用于糾正主分支的預測。Zhou等人[14]將偽標簽生成視為一個優化問題,根據動作實例的置信度和動作類別的先驗分布,為每個片段分配一個最優實例級別的動作標簽,緩解了偽標簽的重疊和不一致問題。此外,還引入一個 Δ 偽標簽的概念,即根據當前的偽標簽和上一輪的偽標簽之間的差異,對偽標簽進行調整,使模型具有自我糾正的能力,以便在訓練過程中逐步改善偽標簽的質量,進而提高模型定位性能。

盡管現有模型在WTAL任務上的檢測性能有較大提升,但定位性能仍然受限,存在視頻時間信息利用不充分和忽略了RGB和光流特征之間的互補關聯性問題。具體分析如下:首先,上述模型大多都是使用預訓練的特征提取器從視頻中提取片段級RGB和光流特征,然后直接將預提取的視頻特征輸入到主干網絡獲得定位結果。然而,現實場景中,一個動作通常持續時間為幾秒到數十秒不等,預提取的片段特征只覆蓋16幀,不足以觀察完整的動作實例,視頻間蘊涵的時間信息利用不足,導致模型定位不準確。其次,預訓練的特征提取器通常是分別對RGB和光流進行處理的,沒有考慮它們之間的互補性和關聯性。并且,目前的大多數模型通常是將RGB和光流特征按通道維度拼接方式得到完整的視頻特征表示,這種簡單的特征融合方式會忽略兩者之間的交互關系。然而,RGB和光流分別代表了視頻的外觀和運動信息,它們在動作的識別和定位方面都發揮著重要的作用,忽略兩者之間的互補關聯性會影響模型定位的性能。上述方法[4.5]雖然使用空洞卷積增強視頻的時序特征,但模型感受野只以固定的尺度進行擴大,對視頻的全局感知范圍單一,且沒有考慮RGB和光流特征的互補關聯性,進而限制了模型的定位效果。

如圖1所示,展現了目前的SOTA模型DDG-NET[15]在THUMOS14數據集[1上分別包含懸崖跳水和跳高動作的視頻樣本中定位效果。由于缺乏視頻時序信息提取,對動作的全局感知能力較差,對于視頻中持續時間較長的動作定位結果不準確或存在漏檢的情況。并且,因為缺乏RGB和光流特征的融合,忽略了RGB和光流特征間的互補關聯,對于復雜場景檢測性能不高,例如對于一些在外觀上與動作場景相似,但不存在實際動作發生的背景片段,容易使得模型出現誤檢情況。

圖1DDG-NET定位效果展示Fig.1Localization performance display of DDG-NET

綜上,現有模型存在視頻時間信息利用不充分和忽略了RGB和光流特征之間的互補關聯性問題。對此,受TFE-DCN[4] 的啟發,提出基于雙流特征增強和融合的弱監督時序動作定位模型(weaklysupervisedtemporal actionlocalizationwithdual-streamfeatureenhancementandfusion,DSFEF)。DSFEF具有以下優勢:a)針對現有模型視頻時間信息利用不充分問題,設計雙流特征增強模塊,利用多尺度密集型空洞卷積網絡,使模型融合不同尺度的空洞卷積層,擴大模型的感受野,捕捉視頻片段間的時序依賴性,提高模型的全局感知能力;b)針對現有模型忽略RGB和光流特征之間的互補關聯性問題,設計雙流特征融合模塊,利用卷積網絡自適應提取增強RGB和光流特征中的關鍵特征進行交叉融合,完成增強后雙流特征之間的深度交互,獲得更具表達力的特征,提高對復雜場景下動作的檢測性能。本文主要貢獻如下:a)提出基于多尺度密集型空洞卷積的雙流特征增強模塊。使用不同擴張率的空洞卷積層,構建一個空洞卷積網絡,促進視頻片段利用整個感受野中其他片段的特征增強光流特征表示;并利用增強后的光流特征對RGB特征進行增強,充分利用視頻時間信息。b)提出雙流特征融合模塊。通過卷積網絡自適應融合RGB和光流特征,強化它們之間的互補性和關聯性,提高模型對復雜動作場景的理解能力。c)在公開數據集THUMOS14[16]和ActivitiyNet1. 3[17] 上進行了大量實驗。結果表明,所提模型優于現有SOTA模型。

1方法

1.1 問題描述

假設給定 N 個未剪輯的視頻 {vn}n=1N ,其對應的視頻類別標簽 {yi}i=1N ,其中 yi 是獨熱向量,共有 C+1 個類別, c 為動作類別數,第 c+1 維表示背景類。如果第 χi 個視頻中包含第 k 個動作類別,則 yik=1 ,否則 yik=0 。弱監督時序動作定位的目標是從每個視頻中識別并定位所有動作實例,并為它們生成分類和動作提名 {ψi=(tis,tie,ci,φi)}i=1L ,其中 L 為視頻中動作實例數, tis 和 tie 分別表示動作 ψi 的開始時間和結束時間, ci 和 φi 分別表示動作 ψi 所屬的類別和動作分數。具體而言,給定一個視頻 vn ,首先將未剪輯的視頻分割為 T 個具有連續16幀的非重疊片段。將這些片段輸入到預訓練的I3D網絡[18],提取得到RGB 特征 FRGB∈RD×T 和光流特征 FFlow∈RD×T ,其中, D 表示通道維度, D=1 024 。RGB和光流特征沿通道維度連接而形成初始片段級特征表示 F∈R2D×T 。將 F 輸入到DSFEF 模型,預測生成視頻 vn 的動作提名集 ψ ,從而完成時序動作定位。

1.2 總體框架

為解決預提取視頻特征時間信息利用不充分問題,并有效結合RGB和光流特征互補信息進行特征融合,提高定位精度,本文構建了一種雙流特征增強與融合的弱監督動作定位模型DSFEF,整體框架如圖2所示。該模型由雙流特征增強、雙流特征融合、動作定位三大模塊組成。

a)雙流特征增強模塊:包括光流特征增強模塊和RGB特征增強模塊。將初始的光流特征輸入到光流特征增強模塊,生成時間語義信息更加豐富的增強光流特征。具體而言,構造多分支空洞卷積網絡,通過融合各分支提取到的不同感受野下的光流特征,獲得增強光流特征。隨后將增強后的光流特征和初始RGB特征一并輸入到RGB特征增強模塊,并通過共享卷積的方式,利用增強后的光流特征引導RGB特征進行增強,保持兩種模態特征的一致性。增強后的雙流特征作為雙流特征融合模塊的輸入。

b)雙流特征融合模塊:利用卷積網絡自適應提取增強RGB和光流特征中的關鍵特征進行交叉融合。在此基礎上,對融合的關鍵特征應用softmax函數獲得一組特征權重,以反映各片段特征的重要程度。將該權重應用于提取到的關鍵特征上,并與增強后的特征相加,實現RGB和光流特征的互補關聯。隨后將互補關聯的RGB和光流特征輸入到卷積網絡,得到更具表示力的特征,并作為動作定位模塊的輸入。

c)動作定位模塊:首先通過特征嵌入模塊將視頻特征映射至任務特定的特征空間中,隨后輸入至分類器生成時序類激活圖,最后通過閾值化和合并這些激活序列獲得最終的時序動作定位結果。

光流特征 增強光流特征 特征提取器 增強模塊 光流特征 卷關鍵特征 I3D 增強模塊 RGB特征 增強RGB特征 時序類激活圖S 特征 嵌入 模塊 Cx 分類模塊 增強雙流特征 動作定位模塊 初始雙流特征

1.3雙流特征增強模塊

預提取的視頻片段特征沒有充分利用視頻間的時間信息,影響了動作定位的效果。因此,設計雙流特征增強模塊,捕捉視頻片段間的時序依賴性,更好地輔助模型實現動作定位。RGB特征 FRGB 和光流特征 FFlow 共同構成了視頻特征 F ,將雙流特征增強模塊分為光流特征增強模塊和RGB特征增強模塊兩個部分,從這兩個維度對初始視頻特征進行增強。

1.3.1光流特征增強模塊

預提取的視頻片段特征只覆蓋了較短的時間跨度,不足以觀察到完整的動作實例。因此,設計光流特征增強模塊,以便擴大網絡的感受野,捕捉視頻片段間的時序依賴性。如圖3所示,該模塊包含了一種結合串聯和并聯的多尺度密集型空洞卷積網絡。它由具有不同感受野的多個分支組成,每個分支使用具有不同擴張率的空洞卷積,邊路卷積尺寸大小為 1×1 。最終,所有分支的特征圖被融合在一起,不僅豐富了特征圖的信息,而且提高了對光流特征的提取和解碼能力。此外,該模塊還結合了CBAM[19] 注意力機制,進一步優化了特征的聚焦和表征。

如圖3所示,首先,將初始光流特征 FFlow 輸入四條并行分支,四條并行分支由一個 1×1 卷積分支 C0 和三個具有不同空洞率的空洞卷積分支 和 Z3 組成,用于提取光流片段的多感受野特征,再將感受野特征在通道維度拼接,得到融合不同尺度的感受野特征 FMFlow∈R4D×T 。該過程描述如式(1)所示。

FMFlow=concat(C0,Z1,Z2,Z3

其中:concat為通道拼接操作; C0 為卷積操作; Zk 表示包含 k

個空洞卷積的網絡分支輸出,維度均為 RD×T 。該過程描述為

k=1,2,3;Z0=FFlow

其中 ?fdilated,k 表示空洞率為 2k-1 的卷積運算。

圖2DSFEF總體框架 Fig.2Overall framework ofDSFEF圖3光流特征增強模塊Fig.3Optical flow feature enhancement module

其次,通過卷積操作調整 FMFlow 的通道維度,使其與 FFlow 的維度相匹配。然后,應用CBAM卷積注意力機制分別在通道和空間維度上突出顯示特征的關鍵區域,從而獲得更精細化的特征表示 FsFlow∈RD×T ,該過程描述如式(3)所示。

FSFlow=A(conv(FMFlow))

其中:A為CBAM卷積注意力運算。

最后,將 sigmoid函數應用于 FsFlow ,并將輸出與初始特征FFlow 執行逐元素乘法得到增強后的光流特征 FFlow*∈RD×T 該過程描述如式(4)所示。

FFlow*=sigmoid(FSFlow)?FFlow

其中: ? 表示逐元素乘法操作。

綜上,本模塊用了 1×1 卷積,以及不同擴張率的空洞卷積層,形成了一個空洞卷積塊,然后將多個空洞卷積塊堆疊,構成了一個空洞卷積網絡,實現多尺度的特征提取,從而覆蓋一個長的時間跨度,能夠捕捉動作的完整動態,同時也保留了時序分辨率,促進光流片段利用整個感受野中其他片段的運動信息增強其特征表示。此外,引入CBAM注意力機制進一步增強了網絡對關鍵時間特征的關注,優化了特征表示,使其更加聚焦于動作相關的信息,從而提升了動作定位的準確性和效率。

1.3.2 RGB特征增強模塊

雖然光流特征增強模塊提取時間信息并增強光流特征,但初始RGB特征沒有增強。因此,為保持兩種模態間的一致性,設計RGB特征增強模塊[4],旨在借助增強后的光流特征對初始RGB特征進行增強,其結構如圖4所示。

該模塊由兩個平均池化層(AvgPool)和一個共享卷積層組成。首先,將初始RGB 特征 FRGB 和增強光流特征 FFlow* 進行平均池化(AvgPool),平滑特征表示,減少特征之間的差異性。隨后,將輸出送入共享卷積層,分別得到兩個注意力序列。然后,在這兩個注意力序列和初始RGB特征上執行逐元素乘法以獲得增強的 RGB 特征 FRGB*∈RD×T ,保持兩種模態之間的一致性。該過程描述如式(5)所示。

其中:avg表示平均池化操作。綜上,為保持兩種模態之間的一致性,并減少網絡的計算量,本模塊將增強光流特征和初始RGB特征共同輸人到共享卷積網絡,以增強RGB特征。

圖4RGB特征增強模塊 Fig.4RGB feature enhancement module

1.4雙流特征融合模塊

RGB和光流分別代表了視頻的外觀和運動信息,它們在動作的識別和定位方面都發揮著重要作用。通過將這兩種特征融合互補,能夠利用RGB特征的空間細節和光流特征的時間動態,從而獲得一個更全面的特征表示,這對于動態場景的理解尤為重要。因此,在1.3.1節和1.3.2節對雙流特征增強的基礎上,設計雙流特征融合模塊,旨在提取RGB和光流特征的互補信息,進一步豐富視頻特征表示,其網絡結構如圖5所示。

因此 AFuse 結合了兩種特征的互補信息,反映了不同特征在最終特征表示中的重要性。

隨后,將 AFuse 與 FFlow+ 按元素相乘,并將結果與 FFlow* 相加得到融合 RGB 信息的光流特征 。同樣地,對FRGB+ 進行相同的操作,得到融合光流信息的 RGB 特征FRGB_Flow∈RD*。該過程描述如式(8)\~(10)所示。

AFuse=softmax(FFuse

最后,將蘊涵互補信息的雙流特征按通道進行拼接,并輸人到 1×1 卷積,輸出得到融合特征 F*∈R2D×T 。該過程具體計算過程如式(11)所示。

綜上,本模塊中用卷積網絡分別提取RGB和光流特征中關鍵的視覺外觀信息以及人體運動信息進行融合,并基于融合得到的結果,計算融合信息的權重,該權重反映了不同特征在最終特征表示中的重要性。然后,將該權重應用于提取到的關鍵特征上,并將互補關聯的RGB和光流特征輸入到卷積網絡,以此進一步調整和優化特征表示。通過雙流特征融合方法強化了RGB和光流特征間的互補關聯,提高了特征表示的魯棒性和判別力,從而在復雜場景下實現更準確的動作識別。

1.5 動作定位模塊

大多現有方法采用多示例學習方法或注意力機制訓練模型以獲得不同的時序類激活序列TCAS,通過閾值化和合并這些激活序列獲得最終的時序動作定位結果,因此模型生成的TCAS質量高低直接影響最終的定位結果。本文通過多尺度密集型空洞卷積和特征融合方法得到更優的視頻特征 F* 。為減輕梯度消失和梯度爆炸的問題,且保留視頻的原始信息,引入殘差連接,將原始視頻特征 F 和融合后的視頻特征 F* 相加輸人到特征嵌人網絡,隨后輸入到分類器得到高質量的時序類激活序列 Sn 、視頻級別的分類概率 (視頻中包含某種動作類別的概率)和注意力序列 A?T (視頻片段為動作片段的概率)。該部分框架基于RSKP模型[13],并引入了偽標簽策略[14]監督模型進行訓練。接著,利用閾值 θa 對視頻級別的分類概率 進行處理,以確定視頻中的動作類別。選取高于閾值的連續片段生成動作提名,并使用outer-inner-contrastive[20]方法計算每個提名的置信度分數。最后,借鑒文獻[14],通過高斯加權融合去除重疊的提名,得到最終的定位結果。

圖5雙流特征融合模塊Fig.5Two-stream feature fusion module

首先,利用卷積網絡自適應提取RGB和光流特征中的關鍵特征。對于增強的光流特征 FFlow* ,將其輸入到一個 3×3 卷積(步長為1),得到一個顯著性特征。這里的 3×3 卷積操作可以在保持特征圖大小不變的前提下大幅增加非線性特征;然后將顯著性特征經過 sigmoid函數激活后與 FFlow* 進行按元素相乘得到加權的光流特征 FFlow+∈RD×T 。同樣地,對增強的RGB特征 FRGB* 進行相同的操作,得到加權的 RGB 特征(204號 FRGB+∈RD×T 。該過程描述如式(6)(7)所示。

FFlow+=FFlow+?sigmoid(conv(FFlow+))

FRGB+=FRGB+?sigmoid(conv(FRGB+))

其次,將加權特征按元素相乘得到融合特征 FFuse∈RD×T 隨后,將softmax 激活函數應用于 FFuse ,得到注意力權重AFuse∈RD×T 。由于采用按元素相乘的方法得到 FFuse ,并基于FFuse 生成 AFuse ,意味著該權重中每個元素都由相應位置的RGB值和光流值共同決定。具體而言,對于類似動作的背景幀,其RGB特征明顯而光流特征不明顯,兩者相乘后可以抑制其在整體權重的占比。而對于動作幀,其RGB特征和光流特征均明顯,兩者相乘后可以進一步促進其在整體權重的表達。

1.6 損失函數

為了更有效地指導學習正確的視頻分類,引用標準交叉熵損失衡量模型預測視頻級別的分類概率 和真實標簽分布 yc 之間的差異,具體為

其中: c 表示動作類別數量。采用正則化損失最大化top ?k 最大注意力(更有可能為動作片段)和bottom ?k 最小注意力(更有可能為背景片段)平均值之間的差異,促進動作和背景的分離,具體為

其中: k 為超參數,表示選擇的視頻片段數量,本文中 k 值設為 8

引人 Lkd[13] 和 Llabel[14] 優化模型生成高質量的 TCAM 和偽標簽監督模型進行訓練。模型總的損失函數為

其中: λ1 和 λ2 為超參數,訓練時分別設置為0.1和 1;λ3 根據訓練輪次動態生成[14]

2 實驗及分析

2.1 數據集和評價指標

a)數據集。在THUMOS14[16]和ActivityNet1. 3[17] 兩個公共數據集上對提出的DSFEF框架進行評估。THUMOS14是一個包含多個動作類別的挑戰性數據集,它由200個用于訓練的驗證視頻和213個用于評估的測試視頻組成。這些視頻長度不一,從幾秒到幾分鐘都有,平均每個視頻中有大約15個動作實例。ActivityNet1.3數據集則覆蓋了200個日?;顒宇悇e,擁有10024個訓練視頻 ,4926 個驗證視頻和5044個測試視頻。

b)評價指標。實驗按照標準評估方案進行,記錄了在不同交并比(intersectionoverunion,IoU)值下的平均精度均值(meanaverageprecision,mAP)。具體來說,在THUMOS14數據集上,閾值設置在 。在ActivityNet1.3數據集上的閥值為[0.5:0.05:0.95]。

2.2 實驗環境

本文模型是基于PyTorch深度學習的網絡框架,整個實驗在單個RTX4060TiGPU上實現。具體環境設置如表1所示。

表1實驗環境

2.3 實現細節

a)特征提取。給定一個未剪輯的視頻,首先以每秒25幀的速率將其采樣為RGB幀。接著,利用TV-L1算法2將RGB幀轉換成光流數據。之后,將RGB數據和光流數據分割成包含連續16幀的非重疊片段。這些片段隨后被輸入到Kinetics數據集預訓練的 I3D[18] 網絡中,以提取RGB和光流特征,其維度均為 1024 。

b)訓練設置。本文模型是基于PyTorch深度學習的網絡框架,整個實驗在單個RTX4060TiGPU上實現。在THUMOS14和ActivityNet1.3數據集上,使用Adam優化器進行模型訓練,minibatch大小分別為10和128。訓練epoch設置為400,學習率設置為 5×105 。在光流特征增強模塊,除了邊路的 1×1 卷積分支,還引入了 K 個空洞卷積層。對于第 χi 個空洞卷積層,由 i 個空洞卷積串聯組成,且空洞率由1開始逐倍遞增。本文設置 K=3 。

2.4與其他先進模型比較

在多個交并比(IoU)閾值下,DSFEF與當前先進的弱監督時序動作定位模型進行了比較。在THUMOS14和Activity-Net1.3數據集上的定位性能分別在表2、3中展示。

由表2實驗數據分析可知,在THUMOS14上,DSFEF在大多數指標上取得了最優效果,其中平均 mAP(0.1:0.7) 達到了48.3% ,與目前的 SOTA模型DDG-NET[15]相比,提高了1百分點。特別地,本文模型優于TFE-DCN[4],它也使用空洞卷積對雙流特征進行增強,與之相比在 mAP@IoU=0.4 的情況下,指標提升了2.6百分點。由表3實驗數據分析可知,在更具挑戰性的ActivityNet1.3數據集上,DSFEF仍然能夠取得最優的表現,在高閾值 IoU=0.95 的情況下,相比于次優模型ASCN,其mAP 值提高了0.6百分點。相對于TFE-DCN,平均 mAP(0.5 0

0.95)取得1.4百分點的絕對增益。然而,DSFEF對于THU-MOS14在高值( IoU?0.6) 情況下定位效果不能達到最優。而對于ActivityNetl.3數據集在高閾值( IoU=0.95 )情況下,較其他模型定位效果能達到最優。

表2在THUMOS14上的測試性能Tab.2Test performance on THUMOS14表3在ActivityNet1.3上的測試性能
注:最優結果以下畫線加粗體注明;次優結果僅以粗體標明。
Tab.1Experimental environmentTab.3Test performance on ActivityNet1.3
注:“—”符號表示該模型未在該數據集上進行驗證;最優結果以下畫線加粗體注明;次優結果僅以粗體標明。

對上述實驗結果分析原因如下:a)DSFEF利用多尺度密集型空洞卷積對RGB和光流特征進行增強,實現多尺度的特征提取,從而使片段覆蓋一個長的時間跨度,能夠捕捉動作的完整動態,充分利用了視頻時間信息。其次,利用卷積網絡自適應融合RGB特征的空間靜態細節和光流特征的時間動態優勢,實現RGB和光流特征間的關聯互補,獲得一個更全面的特征表示,故在THUMOS14和ActivityNet1.3兩個公共數據集的大多數指標上取得了最優結果。b)對于同樣使用空洞卷積對雙流特征進行增強的TFE-DCN模型[4],由于沒有考慮到RGB和光流特征的關聯性和互補性,其檢測性能仍然不高,從而說明了特征融合模塊的有效性。c)對于THUMOS14,在高閾值的情況下結果不能達到最優,可能是因為在THUMOS14中,訓練集上每個類別平均有150個動作時序標注,每個動作平均的持續時間為 4.04sc ,測試集上的每個類別平均有167.9個動作時序標注,每個動作平均的持續時間為4.49s,動作持續時長較短。因此,DSFEF在擴大網絡感受野的過程中,可能會引入無關的背景信息,導致在高閾值的情況下定位效果不是最優,但平均mAP能達到SOTA水平。而ActivityNetl.3是一個大規模的視頻動作分析數據集,整個數據集包含約 849h 的視頻,平均每個視頻上有1.5個動作標注。這個數據集的視頻通常比較長,動作的持續時間相對較長,有助于模型在高IoU閾值下學習更準確的動作定位。

2.5 消融實驗

THUMOS14是評估弱監督時序動作定位任務的常用數據集,其視頻長度差異較大,每個視頻中可能包含多個動作實例,且比ActivityNet1.3有更多的背景干擾。因此所有消融實驗都是在THUMOS14上進行的,能夠直觀地展示不同因素對檢測結果的影響。

a)空洞卷積層數消融實驗。光流特征增強模塊的核心在于 K 層密集型空洞卷積網絡,其作用是通過融合不同尺度的空洞卷積層,擴大感受野來捕捉片段之間的時間關聯,進而生成得到增強的光流特征。但是,感受野過大就有可能涵蓋過多與目標無關的背景片段,從而對性能產生不利影響?;诖?,為了對不同空洞卷積層數的光流特征增強模塊的效果進行檢驗,開展了相應的消融研究。表4詳細列出了具有不同空洞卷積層數的模型之間的性能比較情況。其中, K=0 意味著光流特征增強模塊里不含有空洞卷積網絡。

表4不同數量空洞卷積層對模型的影響

Tab.4Impact of differentnumbersofdilated convolution layers on model performance

在進行空洞卷積層數 (K) 的實驗中,發現性能隨著 K 的增加先上升后下降。當 K=3 時,模型達到了最佳的性能。這是因為在 K=3 時,各空洞卷積層分支感受野分別可以覆蓋3、7和15個連續的視頻片段。由于每個片段包含16幀,且視頻的幀速率為 25fps ,所以各分支能夠覆蓋的時間長度為( (3×16), /25=1.92s.4.48 s和 9.6s, 。在THUMOS14中,視頻片段中的動作持續時間各不相同,一些動作可能只持續幾秒鐘,而其他動作可能持續數十秒甚至更長時間。如果 Klt;3 ,感受野將不足以覆蓋大多數動作實例的時間跨度;而如果 Kgt;3 ,感受野可能會包含過多的背景片段,從而減少對動作實例片段的關注。因此,在考慮覆蓋完整動作實例的同時減少背景片段的影響情況下,使得 K=3 成為最優選擇。

b)特征增強與融合模塊消融實驗。雙流特征增強模塊用于擴大網絡的感受野,捕獲片段之間的時間依賴性,雙流特征增強模塊可進一步劃分為光流特征增強模塊和RGB特征增強模塊;此外,設計雙流特征融合模塊,有效利用RGB和光流特征的關聯性和互補性。表5是6組消融實驗的結果,以反映不同模塊的有效性。其中Flow*表示光流特征增強模塊(詳見1.3.1節), RGB* 表示RGB特征增強模塊(詳見1.3.2節),FUSE(詳見1.4節)表示雙流特征融合模塊。

表5特征增強與融合模塊消融結果Tab.5Ablation results of feature enhancement and fusion module
注:√表示引用該模塊, × 表示不引用。

由表5消融實驗結果可以看出:

a)單獨對光流或RGB特征進行增強會引起定位性能的下降(見實驗2、3結果)。這是因為光流特征和RGB特征分別代表了視頻中的運動信息和外觀信息。如果只增強其中一種特征,而沒有考慮到兩者之間的關聯性,就可能導致模態之間的不一致性。這種不一致性可能會干擾模型學習到有效的特征表示,從而導致性能下降。

b)對RGB和光流特征同時進行增強可以有效提升模型定位的效果(見實驗4結果)。這是因為通過多尺度密集型空洞卷積網絡對光流特征進行增強,并借助增強光流特征對初始RGB特征進行增強,不僅保持了兩種模態的一致性,而且解決了現有模型視頻時間信息利用不充分的問題,從而提升了模型的定位效果。

c)融合RGB和光流特征可以獲得更好的定位性能(見實驗5結果)。這是因為,通過卷積網絡自適應提取RGB和光流的關鍵特征并進行融合,解決了現有模型忽略了RGB和光流特征的互補關聯性問題,從而可以更好地定位視頻中的動作實例。通過將所有模塊整合到一起,對光流特征進行增強和融合,構成本文DSFEF模型,并實現了最優的性能表現。實驗6驗證了每個模塊都發揮了重要的作用,并且它們的協同工作為實現更精確的動作定位貢獻了重要力量。

2.6 實驗結果可視化分析

為了驗證本文模型的有效性和優勢,與目前的SOTA模型DDG- .NET[15] 進行可視化結果對比,如圖6所示。圖6表示DSFEF和DDG-NET在THUMOS14上對兩個典型視頻樣本的檢測效果。第一個樣本涵蓋了懸崖跳水動作類別;第二個樣本包含了跳高動作類別。兩個樣本中不僅包含持續時間短的動作實例,還包含持續十秒以上的長動作實例,而且還包含了與前景相似的背景片段。可以看出本文模型與DDG-NET相比,對于持續時間長的動作實例更為準確,且有效地減少了漏檢和誤檢的情況,在定位結果上更為準確。

圖6DSFEF與DDG-NET定位效果比較

為更清楚顯示DSFEF對每個動作類別的分類精度AP,將DSFEF與目前的SOTA模型DDG-NET[15]進行可視化結果對比,如圖7所示。圖7可視化表示在THUMOS14上各類動作的精度AP1 IoU=0.4) 結果對比,分析圖7可知,DSFEF在絕大多數動作類別上的檢測效果優于DDG-NET。其中BasebalIPitch和ThrowDiscus動作檢測效果提升明顯,分別提升了14百分點和19百分點。當IoU=0.4 時,總體檢測效果mAP提升了3.1百分點。

圖7DSFEF與DDG-NET各類動作定位效果比較 Fig.7Comparison of various types of actions localization performancebetweenDSFEFand DDG-NET

綜上實驗結果表明,本文模型通過對初始視頻特征增強,能夠有效捕捉片段間的時序性依賴,充分利用視頻間的時間信息,使得定位的結果更加完整;通過光流和RGB特征融合,綜合利用RGB特征的空間靜態細節和光流特征的時間動態信息,實現RGB和光流特征的互補關聯,使模型對于復雜的運動場景有更好的理解能力,對各類動作檢測性能均有提升,進而有效地減少了漏檢和誤檢的情況。兩個可視化的結果也印證了DSFEF的有效性和優勢。

3結束語

現有弱監督時序動作定位模型由于沒有充分利用視頻時間信息,且忽略了RGB和光流特征之間的關聯性和互補性,導致定位效果不佳。針對以上問題,本文設計了DSFEF。在DSFEF中,所設計的雙流特征增強模塊通過多尺度密集型空洞卷積擴展感受野并捕捉視頻片段之間的時序依賴性增強光流特征,并利用增強后的光流特征引導RGB特征進行增強,更充分利用視頻的時序信息;在對RGB和光流特征增強的基礎上,設計雙流特征融合模塊,利用卷積網絡分別自適應地提取RGB和光流特征的關鍵信息,生成注意力權重,并應用于增強后的雙流特征,實現RGB和光流特征的互補關聯,進一步豐富了RGB和光流的特征表示。在兩個公開的數據集上進行的實驗結果表明,DSFEF在弱監督時序動作定位任務上優于現有的SOTA模型,驗證了有效利用時間信息和特征融合策略可以顯著提高動作定位性能。本文DSFEF提高了動作定位性能,但仍存在不足之處。未來將從以下幾個方面進一步改進:嘗試采用其他方式對特征進行增強,如圖卷積;優化提名后處理方法,使得最終得到的提名質量更高。

參考文獻:

[1]WangLimin,XiongYuanjun,LinDahua,etal.UntrimmedNetsfor weaklysupervised action recognition anddetection[C]//Procof IEEEConference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2017:6402-6411.

[2]Nguyen P,Han B,Liu Ting,et al.Weakly supervised action localizationby sparse temporal pooling network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2018:6752-6761.

[3]Gao Junyu,Chen Mengyuan,Xu Changsheng.Fine-grained temporal contrastive learning for weakly-supervised temporal action localization [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2022:19967-19977.

[4]Zhou Jianxiong,Wu Ying. Temporal feature enhancement dilated convolution network for weakly-supervised temporal action localization [C]//Proc of IEEE/CVF Winter Conference on Applicationsof ComputerVision.Piscataway,NJ:IEEEPress,2023:6017-6026.

[5]黨偉超,范英豪,高改梅,等.融合時序與全局上下文特征增強的 弱監督動作定位[J].計算機應用,2025,45(3):963-971.(Dang Weichao,FanYinghao,GaoGaimei,etal.Weaksupervisedactionlocalization by combining time series and global context featureenhancement[J].JournalofComputerApplications,2025,45(3): 963-971.)

[6]Luo Wang,Zhang Tianzhu,Yang Wenfei,et al. Action unit memory network forweaklysupervised temporal actionlocalization[C]//Proc ofIEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9964-9974.

[7]He Bo,YangXitong,Kang Le,etal.ASM-loc:action-aware segment modeling forweakly-supervised temporal action localization [C]/′ Procof IEEE/CVFConference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEEPress,2022:13915-13925.

[8]LiJingjing,YangTianyu,JiWei,etal.Exploringdenoisedcross-video contrast forweakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEEPress,2022:19882-19892.

[9]Narayan S,Cholakkal H,Hayat M,et al.D2-Net:weakly-supervised actionlocalizationviadiscriminativeembeddingsanddenoisedactivations[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021 :13588-13597.

[10] Islam A,Long Chengjiang,Radke R.A hybrid attention mechanism for weakly-supervised temporal action localization[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press, 2021 : 1637- 1645.

[11] Liu Ziyi, Wang Le,Zhang Qilin,et al. Weakly supervised temporal action localization through contrast based evaluation networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEEPress,2022:5886-5902.

[12]Luo Zhekun,Guillory D,Shi Baifeng,et al. Weakly-supervised action localizationwithexpectation-maximization multi-instance learning [C]//Proc of European Conference on Computer Vision.Cham: Springer,2020:729-745.

[13]Huang Linjiang, Wang Liang,Li Hongsheng. Weakly supervised temporal action localization via representative snippet knowledge propagation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:3262-371.

[14] Zhou Jingqiu,Huang Linjiang,Wang Liang,et al. Improving weakly supervised temporal actionlocalizationbybridging train-testgap in pseudo labels[C]//Proc of IEEE/CVF Conference on Computer Visionand Pattem Recognition. Piscataway,NJ: IEEE Press,2023: 23003-23012.

[15]Tang Xiaojun,FanJunsong,LuoChuanchen,etal.DDG-Net: discriminability-driven graph network for weakly-supervised temporal actionlocalization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023 :6599-6609.

[16] Idrees H,Zamir A R,Jiang Yugang,et al. The THUMOS challenge on action recognition for videos“in the wild”[J].Computer Vision and Image Understanding,2017,155:1-23.

[17]Heilbron FCEscorcia V,Ghanem B,et al.ActivityNet:a large-scale video benchmark for human activity understanding[C]//Proc of IEEE Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ:IEEE Press,2015 :961-970.

[18] Carreira J,Zisserman A. Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision andPattem Recognition.Piscataway,NJ: IEEE Press,2017: 4724-4733.

[19]Woo S,Park J,Lee JY,et al. CBAM:convolutional block atention module[C]//Proc of European Conference on Computer Vision. Cham:Springer,2018 :3-19.

[20] Shou Zheng,Gao Hang,Zhang Lei,et al. AutoLoc : weakly-supervised temporal action localization in untrimmed videos[C]//Proc of European Conference on Computer Vision. Cham:Springer,2O18:162-179.

[21]Duval V,Aujol JF,Gousseau Y. The TVL1 model: a geometric point of view[J].Multiscale Modelingamp; Simulation,2009,8(1):154-189.

[22] Chen Mengyuan,Gao Junyu,Yang Shicai,et al. Dual-evidential learning for weakly-supervised temporal action localization[C]//Proc of European Conference on Computer Vision. Cham: Springer,202: 192-208.

[23]王靜,王傳旭.特征挖掘與區域增強的弱監督時序動作定位[J]. 計算機應用研究,2023,40(8):255-2560.(Wang Jing,Wang Chuanxu.Feature mining and region enhancement for weakly supervised temporal action localization[J]. Application Research of Computers,2023,40(8):255-2560.)

[24] Zhao Yibo,Zhang Hua,Gao Zan,et al. A novel action saliency and context-aware network for weakly-supervised temporal action localization[J].IEEETranson Multimedia,2023,25:8253-8266.

[25]Ren Huan,Yang Wenfei,Zhang Tianzhu,et al.Proposal-based multiple instance learning for weakly-supervised temporal action localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2023:2394-2404.

[26]Hu Yufan,Fu Jie,Chen Mengyuan,et al.Learning proposal-aware reranking for weakly-supervised temporal action localization[J].IEEE Trans on Circuits and Systems for Video Technology,2024,34 (1) :207-220.

[27] Yun Wulian,Qi Mengshi, Wang Chuanming,et al. Weakly-supervised temporal action localization by inferring salient snippet-feature[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2024:6908-6916.

主站蜘蛛池模板: 久久9966精品国产免费| 国产色网站| 久久精品视频亚洲| 午夜不卡视频| 亚洲日韩精品综合在线一区二区| 亚洲日本www| 欧美日韩激情在线| 国产乱视频网站| 国产主播一区二区三区| 国产原创演绎剧情有字幕的| 青青国产成人免费精品视频| 日韩123欧美字幕| 国产一区二区三区视频| 伊人久久婷婷| 亚洲国产在一区二区三区| 18禁影院亚洲专区| 免费毛片视频| 99这里只有精品在线| 天天摸天天操免费播放小视频| 亚洲午夜国产精品无卡| 国产精品福利一区二区久久| 欧美中文字幕在线视频| 中文字幕在线日韩91| 欧美区日韩区| 日韩AV无码免费一二三区| 丁香五月激情图片| 色综合五月婷婷| 91av成人日本不卡三区| 日本一区二区不卡视频| 国产午夜人做人免费视频中文 | 58av国产精品| 麻豆精品视频在线原创| 精品乱码久久久久久久| 亚洲视频免费在线| 亚洲欧美不卡视频| 日韩123欧美字幕| 青青操国产| aⅴ免费在线观看| 精品成人一区二区三区电影| 麻豆AV网站免费进入| 中国一级特黄视频| 谁有在线观看日韩亚洲最新视频| 欧美一区二区自偷自拍视频| 国产办公室秘书无码精品| 中日韩欧亚无码视频| 色综合热无码热国产| 亚洲欧洲自拍拍偷午夜色| 午夜爽爽视频| 久久久久人妻一区精品| 日韩资源站| 亚洲成人在线网| 久久毛片网| 国产极品美女在线播放| 天天摸夜夜操| 国产精品伦视频观看免费| 国产流白浆视频| 国产毛片久久国产| 国产人成乱码视频免费观看| 色九九视频| 无码内射在线| 91美女视频在线| 99re经典视频在线| 黄色片中文字幕| 精品一区二区三区自慰喷水| 99ri精品视频在线观看播放 | 一区二区影院| 一本大道AV人久久综合| 自慰高潮喷白浆在线观看| 国产欧美日韩va另类在线播放| 亚洲精品无码抽插日韩| 福利视频一区| 国产99视频精品免费视频7| 欧美怡红院视频一区二区三区| 国产99视频精品免费视频7 | 国产无码高清视频不卡| 国产成人亚洲精品蜜芽影院| av手机版在线播放| 亚洲一级毛片在线观| 亚洲欧美日韩精品专区| 国产精品女主播| 欧美人人干| 免费毛片全部不收费的|