摘 要:組合動作識別是計算機視覺領域一個新的挑戰,它旨在識別未見過的動作與物體的組合。傳統的動作識別模型往往會在物體外觀與動作類別之間建立聯系,引入錯誤的偏置,在面對未見過的動作與物體的組合時性能急劇惡化。現有解決方法是忽視外觀信息,以物體的坐標和身份等信息作為輸入,建立以物體為中心的模型。受此啟發,提出了時空增強式交互模型。首先在基礎網絡的不同深度提取并聚合多級別物體特征;然后構建物體分支,使用時空增強模塊和物體交互模塊分別對物體特征進行增強以及建模物體的移動和交互模式;最終將該分支的輸出與基礎網絡的輸出融合用于動作分類,使模型兼顧外觀信息和物體交互信息。在多個數據集上的廣泛實驗證明了所提模型的有效性。
關鍵詞:組合動作識別;動作識別;多級別特征;時空增強
中圖分類號:TP311
文獻標志碼:A
文章編號:1001-3695(2023)07-041-2192-06
doi:10.19734/j.issn.1001-3695.2022.10.0526
Spatial temporal enhancement interaction network for
compositional action recognition
Cui Yafei
(School of Computer Science amp; Engineering,Nanjing University of Science amp; Technology,Nanjing 210094,China)
Abstract:Compositional action recognition is a new challenge in the field of computer vision.It aims to identify unseen combinations of actions and objects.Traditional action recognition models tend to establish a connection between the appearance of objects and the action category,introducing 1 bias and dramatically deteriorating performance when face unseen combinations of actions and objects.Existing methods ignore the appearance information,take the coordinates and identity information of the object as input,and build an object-centric model.Inspired by these,this paper proposed a spatial-temporal enhancement interaction network (STEIN).Firstly,STEIN extracted and fused multi-level object features from different depths of the backbone network.Then it built an object branch,which used spatial-temporal enhancement module and object interaction module to enhance object features and model the motion and interaction pattern of objects.Finally,it fused the output from the object branch and the backbone network for action classification,making the model took both appearance information and object interaction information into account.Extensive experiments on multiple datasets demonstrate the effectiveness of the proposed model.
Key words:compositional action recognition;action recognition;multilevel features;spatial temporal enhancement
0 引言
對于“拿起杯子”這一動作,通過識別出手與杯子這兩個參與的物體,觀察手與杯子的交互以及杯子向上移動的過程,人們可以很容易地識別該動作。進一步來看,無論“拿起”什么物體,即便是人們未曾見過的,人們依然可以識別出“拿起”這個動作。人類的動作天然具有組合性[1~3],上述的動作實質上是由共享相同的“拿起”,結合不同的參與物體組成。這也說明,動作識別在某種程度上,應該對物體的外觀和場景具有不變性。顯然,如果能解耦動作和物體,并能識別出這些不變的、共享的動作,那么動作識別將具有更好的泛化能力。為了解決這個問題,組合動作識別任務[1]被提出。組合動作識別是一個相較于傳統動作識別[4~8]更具有挑戰性的任務。它通過精細地劃分數據,使得訓練集中動作與物體的組合與測試集中的不重疊,迫使模型更加關注動作模式,而非將物體外觀或者背景信息與類別建立起錯誤的偏置。組合劃分具體形式如圖1所示。與常規動作識別任務相比,組合動作識別對模型在時間關系推理能力上要求更高,即要求模型能更好地捕獲物體的移動信息及物體之間的交互信息。
目前大多數優秀的動作識別方法是基于卷積網絡的模型[9~14],它們以RGB幀作為輸入。該類模型在時間上建模的方式主要有基于3D卷積[9~11]和利用一個光流分支[12~14]兩種。3D卷積利用卷積核進行局部運算,隨著網絡深度的增加,感受野擴大,累積式地完成長距離時間建模,這一方面要求模型深度很深,導致計算效率低;另一方面,也導致優化困難,需要精細處理[15,16]。光流通過計算相鄰幀之間的變化體現短時時間信息,在長時間距離上建模比較乏力[17]。近幾年來,基于Transformer的網絡在圖片識別到視頻分類等任務上都表現得很出色[18~24],它通過將數據分割成大小相同的塊,利用注意力機制[25,26]在圖像塊之間建立聯系。Transformer能夠在模型淺層,就在時間和空間上跨度較大的兩個區域間建立依賴關系,在一定程度上彌補了卷積網絡的局部性和光流網絡的短時依賴問題。上述這些方法通過大量數據的訓練,在傳統動作識別上展示出了卓越的效果。然而,面對未見過的物體參與的動作時,即組合動作識別任務[1],它們的性能卻急劇惡化,說明這些方法在很大程度上依然依賴于物體的外觀或場景信息[1,27]。
為了解決這個問題,許多工作開始探索以對象為中心的視頻動作分類方法[1,3,28,29],通過直接建模視頻中物體間的交互來提升模型的時間關系推理能力。例如,對象級別視覺推理在文獻[28]中,作者利用Mask RCNN[30]得到物體級別的特征,通過遞歸神經網絡得到視頻級特征;STRG[31]在I3D輸出的基礎上,利用區域候選網絡(region proposal network,RPN)和圖卷積神經網絡(GNN)進行物體級別的特征交互;在組合動作識別任務中,STIN[1]僅使用物體的坐標信息和類別信息(手和物體兩類)作為模型輸入,性能就超越了I3D,并且在將STIN與I3D輸出的特征融合后,識別的準確率進一步提升,表明物體級別的推理與基于外觀的推理是互補的。本文從基礎網絡的不同深度提取物體特征并融合,單獨建立分支實現對物體交互的建模。
視頻經過網絡得到的特征圖以及從特征圖上提取的物體特征,在不同的空間和時間區域所包含信息的重要性是不同的,對最終動作分類的貢獻度也不同[32~36],因此,為不同區域賦予不同的權重可以有效地增強特征的表示能力。TEA網絡[37]在SENet[35]的基礎上,引入了移動激活模塊(motion excitation,ME)和多時間聚合模塊(multiple temporal aggreation,MTA),可以同時捕獲短期和長期的時間信息;Action-Net模型[38]設計了三個模塊,分別對特征圖在時空域、通道域和移動域做激活,然后將三種互補的信息融合來增強原始的特征圖;ESE-FN網絡[39]在“壓縮”“激活”之前增加了“擴展”這一步驟,用來融合兩個模態的特征,使參與融合的信息更加豐富。本文使用時空增強模塊對提取的物體級別的特征進行增強。
組合動作識別將完整的動作分解為動作(動詞)和物體(名詞)的組合,并且需要識別有未見過的物體參與的動作,這就要求模型能通過時間上的變化以及物體間幾何關系的變化來識別動作,而傳統的卷積模型或Transformer模型提取整個場景的特征更依賴空間上的外觀特征。基于以上分析,針對組合動作識別問題,本文提出了一種時空增強式交互網絡(spa-tial temporal enhancemesnt interaction network,STEIN),在基礎網絡上提取物體實例特征并使每個物體融合對應的位置信息,利用單獨的分支來獲取物體的移動和交互模式,提升模型對場景和物體外觀的泛化能力。STEIN利用物體邊界框和RoIAlign[30]操作提取出來自基礎模型不同深度的物體特征。由于來自不同的深度,這些特征具有從低維(形態級)到高維(語義級)不同級別的信息。在融合多級別的物體特征后,利用一個時空增強模塊,為物體在時間和空間上施加不同的權重,使得與動作相關性高的信息得到增強,相關性低的信息得到抑制。將上述物體級特征通過一個時空交互模塊,與基礎網絡輸出相比,前者更關注物體級的交互及其在時間上的變化,后者則側重于整體的場景級的信息,當動作中物體動態交互不顯著時,模型就會退化回依賴場景信息來識別動作。將上述兩個互補的信息融合后的特征用于最終的視頻分類。通過在組合動作識別任務相關的數據集上的實驗顯示,本文方法達到了最高的識別性能。
本文所做的貢獻有:a)提出了STEIN,通過增加物體間直接交互的分支,獲取物體的移動和交互模式,提升了模型在場景和物體外觀上的泛化能力;b)融合來自不同深度的多級別的物體特征,豐富了物體的表征;c)使用時空增強模塊,對物體在時間和空間上進行增強,抑制了動作相關度較低的信息;d)提供了Epic-Kitchen55數據集在組合動作識別任務上的劃分,便于后續進一步探索。
1 方法
本文提出了一種新的時空增強式交互網絡(spatial temporal enhancement interaction network,STEIN),整體框架如圖2所示。該模型的目標是從基礎網絡中提取并聚合多級別的物體實例特征,并加入各物體的坐標和身份信息后,最終得到具有豐富信息的物體級別的特征。通過單獨的一個分支,對所得物體級別特征進行單獨建模,顯式地建模物體之間的交互及其時空位置在時間上的變化關系。模型除去基礎網絡外,主要包括多級別特征提取模塊、時空增強模塊(spatial temporal enhancement module,STE)以物體交互模塊(object interaction module,OIM)三個模塊。
1.1 多級別特征提取模塊
深度神經網絡的不同深度的特征具有不同級別的語義信息,卷積網絡由于層次結構和過濾器大小的不同,淺層包含更多的細節信息,深層包含更多抽象的語義信息。同樣地,基于Transformer的神經網絡在淺層時融合來自其他不同空間或者時間塊的信息較少,保留更多的局部細節信息,如顏色、紋理等特征;而隨著層數的增加,每個塊經過與來自不同塊的特征的多輪交互與融合,得到的特征更抽象、更有全局性,包含更多視頻級別的語義信息。融合不同級別的特征可以得到包含更豐富信息的物體實例特征。本文模型STEIN在主干模型基礎上,根據物體邊界框,在不同的深度使用RoIAlign[30]獲取到不同級別的物體實例特征。具體地,對于主干網絡第l層的特征圖Fl∈Rb×c×t×h×w,物體邊界框為B∈Rb×t×o×4,使用RoIAlign從當前特征圖中得到物體特征Ol∈Rb×t×o×d 。
其中:b表示批尺寸;t表示時間維度;o表示每幀提取的物體實例的數量。
選擇不同深度的特征圖進行物體特征提取,對來自不同深度的多級物體特征,采用按元素相加的融合方式得到信息更豐富的物體級別的特征
其中:L表示選擇層數。
為了獲得更豐富的物體實例特征,并且能有效建模物體位置和大小隨時間的變化,模型還在聚合后的多級別物體特征基礎上,進一步融入物體邊界框的坐標編碼和物體身份信息。
1.2 時空增強模塊
由于每幀選擇的物體數是固定的,當某幀中的物體數量不足預設值時,就用0來補足;此外,即便是真實的物體,其在動作中的參與度和對最終動作類別的貢獻度是不同的,因此需要進行空間增強,來選擇出有效的以及重要的物體。同樣地,在視頻不同時間處采樣的幀對動作類別的影響也有差異,因此需要進行時間增強,來選擇出重要性較高的幀。綜上,這里設置了時空增強模塊。
STEIN模型對提取的物體級別的特征在時空上做了增強,即對每個特征圖,分別在空間和時間維度上施加一個權重,讓時空間上與動作類別相關度高的物體擁有更高的權重,增強其信息在分類中的作用,同時給相關度較低的物體賦予低權重,抑制相關性較低的信息。這里,本文遷移使用了ESE-FN[39]中用于多模態融合增強的M-Net,作為時空增強模塊的空間增強和時間增強兩個子模塊。
從直覺來看,空間上包含的物體信息決定著當前幀的重要性和與動作的相關性,同樣,一個物體在時間上的信息也決定著在空間上的重要性。因此,在空間增強時,首先壓縮時間信息,聚合同一物體來自不同時間的特征;時間增強時,壓縮空間信息,聚合同一幀中的物體特征。
其中:d′表示聚合后的特征維度;[,]表示按特征維度拼接;g(·)為聚合時間維度的函數,這里使用一個全連接層。
然后將得到的Os傳入空間增強模塊。這里沒有直接壓縮通道維度d′,而是使用n個堆疊的卷積,逐漸擴張空間維度o,漸進地將通道信息轉移到空間上。然后對通道維度使用平均池化,使用全連接層和sigmoid激活函數σ(·)得到空間上增強的權重Ws。最后將權重與原特征圖相乘,完成空間增強。
然后將Ot輸入時間增強模塊,完成時間增強。與空間增強相似,首先通過n個堆疊的卷積層,逐漸擴張t維度,將通道信息轉移到時間維度。然后對通道維度使用平均池化,并通過全連接層和sigmoid激活函數得到時間上權重Wt,與原特征圖相乘,完成時間增強。
1.3 物體交互模塊
將經時空增強后的實例特征輸入到實例交互模塊,這里采用STIN模型[1]。該模型由時間交互模塊和空間交互模塊組成。首先對同一幀中的N個物體進行空間推理,結構如圖5所示,對每個物體oti,i和t分別表示空間維度和時間維度,用平均的方式聚合其他N-1個物體的特征,然后將聚合后的特征拼接到oti上,過程如下:
其中:[,]表示兩個特征在通道上連接;WTf是一個全連接層。
追蹤不同幀的同一個物體可以形成一道道軌跡,在這些軌跡上進行時間推理,結構如圖6所示。對每條軌跡,通過拼接和MLP完成時間融合。最終得到該分支特征的公式為
p(O)=Wp avg({ft(o1i,…,oti)}Ni=1)(15)
其中:ft(·)表示時間推理函數,實現拼接和MLP;avg(·)是個一個平均函數,用來聚合經過時間推理后的各條軌跡特征;Wp是一個MLP,用來做分類器。
1.5 實現細節
1.5.1 輸入
STEIN的輸入是從每個視頻中采樣的T幀圖片,以及對應幀中所含物體的坐標和身份信息(編號0表示“手”,1表示“物”),其中物體數設置為4,不足補零。每幀圖片被放縮為224×224。
1.5.2 模型
STEIN使用ORViT作為基礎模型。ORViT是一個Transformer架構的模型,深度為12,分別選擇其第2層輸出作為淺層特征,第7層輸出作為中間級別特征,第11層輸出作為深層特征。這里層數的選擇一方面基于基礎模型本身的深度,另一方面也參考了ORViT模型中插入模塊的最佳選擇。將來自不同深度的特征融合后,再與由MLP映射到高維得到的物體坐標特征以及使用詞嵌入(embedding)得到的身份特征融合,作為實例分支的輸入,這里維度設置為768。
時空增強模塊中的空間增強模塊和時間增強模塊采用串聯連接方式。各子模塊卷積層數設置為3,具體實現參考了文獻[39]中的M-Net。
2 實驗
為了驗證本文STEIN方法的有效性,首先在一個大型基準數據集Something-Else[1]上進行組合動作識別實驗,并與常用方法進行了對比分析。此外,本實驗也在第一視角的大型數據集Epic-Kitchen55[40]上按照組合劃分方式重新對訓練集和測試集做了劃分,得到新數據集Compositional_Epic55,并在該數據集上對STEIN進行了實驗和分析。
2.1 數據集介紹
2.1.1 Something-Else數據集
該數據集是在Something-Something-v2[41]基礎上重新劃分得到的。Something-Something-v2是一個大型的第一視角的數據集,其中人們通過手操作自定義的物體完成174個特定類別的動作。由于同一動作中的物體在訓練和測試時有重疊,這可能導致模型在物體外觀和動作類別間建立聯系,引入錯誤的偏置。因此,Something-Else數據集被提出,它通過將動詞劃分為A、B兩部分,將名詞劃分為1、2兩部分,選擇A1+B2作為訓練集,另一組合作為測試集,保證訓練和測試時的動作詞組合不同,即參與某種動作的物體在訓練和測試時不重疊。最終訓練集和測試集分別包含約55 000和58 000個樣本,174個類別。在此數據集上,本文使用了Something-Else提供的物體邊界框作為輸入的一部分。
2.1.2 Compositional_Epic55數據集
仿照Something-Else的組合劃分方式,本文在Epic-Kitechen55數據集[40]上進行了組合劃分。Epic_Kitechen55也是一個第一視角數據集,其中動作由動詞類別和名詞類別組成。通過對動詞和名詞分別進行劃分和重新組合,得到組合劃分的Epic55數據集。此外,去除了訓練集或測試集中樣本數量少于20的類別,最終得到Compositional_Epic55數據集,訓練集包含14 723個樣本,測試集包含13 058個樣本,共47個動作類別。
2.2 實驗設置
在訓練階段,本文使用SGD優化器,初始學習率為5×10-5,總迭代次數為35,分別在第20和第30輪迭代時將學習率按0.1衰減。
本文實驗使用的 GPU 型號是 TITAN RTX,PyTorch版本是1.8.0,CUDA版本是11.0。訓練時中設置批尺寸為14,采樣的幀數為8。
2.3 與其他模型對比
本文在Something-Else和Compositional_Epic55數據集上,將本文模型與當前其他最優模型進行了對比,結果分別如表1和2所示。
表1、2分別展示了STE-STEIN在Something-Else和Compositional_Epic55數據集上的測試結果,并與之前一些最優的組合動作識別方法進行了對比。從結果可以看出,STEIN相較于之前的模型性能有了較大的提升,與之前的最優模型ORViT相比,top-1準確率在Something-Else上提升了2.15%,在Compositional_Epic55提升了0.63%,證明了本文模型的有效性。由于STEIN是在ORViT基礎上增強的物體交互分支,也證明了直接對物體交互進行建模所得特征與場景級別的特征具有互補性,能有效提升性能。
從表2可見,各模型在Compositional_Epic55數據集上性能普遍較低,這主要是由于該數據集本身訓練的數據量較少,且各類別數量分布不均勻,類別較多者有3 001個樣本,而較少者只有20個樣本。
從在Compositional_Epic55數據集上的實驗可見,STEIN在top-5準確率上落后于ORViT,這可能的原因是,Epic是第一視角的烹飪動作數據集,里面如切菜、洗菜等很多動作中,物體相對位置變化關系不顯著,這使得額外的以建模物體交互為主的實例分支在這類動作上性能有所下降。
從GFLOPs和params來看,本文模型相較于基礎模型ORViT,所需的計算量和參數量只有少量增加,但是準確率有明顯提升,表明本文模型的輕量性和有效性。
2.4 消融實驗
為了進一步驗證進行STEIN不同配置的作用,本文在Something-Else數據集上進行了一系列消融實驗,具體包括不同深度提取特征的比較、加入不同模塊的比較以及變換時空增強模塊位置的比較。
2.4.1 不同深度特征的比較
由于使用的基礎網絡總層數為12,所以分別選擇第2層作為淺層特征,第7層作為中間級別特征,以及選擇第11層作為深層特征。這里層數的選擇一方面基于基礎模型本身的深度,另一方面也是參考了ORViT模型中插入模塊的最佳選擇。為了驗證融合來自不同深度的特征對實驗性能的影響,本文分別采用了以下幾種設置來進行實驗:a)淺層,選擇第2層;b)深層,選擇第11層;c)多級別,選擇第2、7、11層。實驗結果如表3所示。
從實驗結果可以看出,從深度為11的層級(深層)提取的特征性能要優于深度為2時(淺層)的特征,說明隨著層級的加深,物體特征具有更高級的語義,對模型分類有更大的幫助。
另一方面,融合來自不同深度的特征后模型的性能要高于使用單一層級提取特征的模型,這說明不同深度的特征具有互補性,最終得到具有更加豐富信息的特征。
從GFLOPs和params來看,由于本文模型在ORViT基礎上建立,利用了ORViT模塊提取物體特征,所以提取不同深度的特征的計算量和參數量相同。
2.4.2 不同模塊的比較
本文模型STEIN是以ORViT為基礎模型建立的,本文測試了所加模塊對動作識別的效果,實驗結果如表4所示。從結果可見,增加物體交互模塊和時空增強模塊均提升了模型性能,證明兩個模塊的有效性。
增加對物體實例直接建模的物體交互模塊分支后,模型top-1準確率提升了1.65%,top-5準確率提升了1.24%,這表明直接對物體實例進行建模可以有效提升模型性能,該分支得到的物體交互特征與基礎模型得到的場景級特征具有互補性。
此外,增加時空增強模塊STE后,模型top-1準確率提升了0.5%,top-5準確率提升了0.28%,這說明時空增強能有效地增強動作相關的區域特征,并抑制弱相關的信息,進一步提升模型的性能;同時,時空增強模塊帶來的增益也進一步說明,準確提取參與動作的物體實例特征對解決組合動作識別任務有重要意義。
從GFLOPs和params來看,增加OIM和STE模塊都增加了少量的計算量和參數量,說明本文設計的時空增強的交互模塊具有輕量性。
2.4.3 時空增強的位置
本文模型探索了時空增強模塊在不同位置的貢獻,這里提出了三種候選位置,分別是:a)多級特征聚合前,對直接從特征圖RoIAlign的特征進行增強;b)多級特征聚合后,對來自不同層級的物體實例特征進行聚合后所得的特征進行增強;c)融合其他信息后,對聚合所得特征,進一步融合位置編碼信息和物體身份信息后所得特征進行增強。
實驗結果如表5所示。從結果可見,物體實例特征融合的信息越多,在它上面使用時空增強的效果越好,當時空增強模塊位于“融合其他信息后”時,模型性能最好。這可能是由于當融合更多的信息時,雖然物體特征包含的信息更加豐富,但同時也引入了更多動作不相關的干擾信息,所以經過時空增強模塊后,對物體實例特征進行了選擇,增強了動作相關信息,抑制了動作不相關的干擾信息。從GFLOPs和params來看,位置a要分別對每個深度提取的物體特征做時空增強,而b和c都是對融合后的特征做增強,所以a計算量和參數量略高。
2.5 可視化
為了直觀地展示STEIN的優勢,本文比較了STEIN與基礎模型ORViT在具體類別上的性能差異,如圖7所示。這里展示了STEIN在top-1準確率上超過和落后ORViT最多的五個類別,其中超過用藍色表示,落后用橙色表示,數值表示兩個模型準確率的差值。從圖中可見,在一些物體與手交互明顯(如showing something next to something)或者與物體位置關系變化密切相關的動作上(如showing a photo of something to the camera),STEIN優于ORViT,說明前者擁有更好的時間推理能力。另一方面,對于多物體間交互不顯著的動作(如spil-ling something behind something),STEIN要落后于ORViT,這說明STEIN對于應當把動作整體看待的類別上表現要差一些。此外,在圖8分別展示了ORViT與本文模型在一些樣例上的識別結果,紅色標簽表示預測錯誤,綠色標簽為正確結果。
3 結束語
為了更好地實現組合動作識別任務中的時間關系推理以及進一步提升此任務的識別性能,本文提出了一種新的基于時空增強的時空交互網絡模型,該模型從主干網絡的不同深度獲取多級別的物體實例特征并進行聚合得到語義更豐富的實例特征,并通過時空增強網絡為不同時間和空間賦予不同的權重,以增強信息相關性高的特征,然后將增強后的特征輸入一個獨立的分支網絡進行實例級別的交互推理,最終將原主干網絡的特征與實例分支的特征進行融合得到最終的視頻特征。本文在Something-Else數據集和經過組合劃分的Epic-Kitchen55基礎上進行了一系列的實驗,證明了本文模型的有效性。由于本文使用的基礎網絡是Transformer架構的模型,它在處理視頻時將每幀圖片分解為圖像塊序列,丟失了局部信息,并且缺乏處理尺度變化的能力,所以在接下來的工作中,將考慮在2D卷積的基礎上構建物體交互分支,并探索物體交互分支與全局模型之間信息傳遞和融合的方式。
參考文獻:
[1]Materzynska J,Xiao Tete,Herzig R,et al.Something-Else:compositional action recognition with spatial-temporal interaction networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1046-1056.
[2]Ji Jingwei,Krishna R,Li Feifei,et al.Action genome:actions as compositions of spatio-temporal scene graphs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10233-10244.
[3]Yan Rui,Xie Lingxi,Shu Xiangbo,et al.Interactive fusion of multi-level features for compositional activity recognition[EB/OL].(2020-12-10).https://arxiv.org/abs/2012.05689.
[4]Heilbron F C,Escorcia V,Ghanem B,et al.ActivityNet:a large-scale video benchmark for human activity understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:961-970.
[5]Kay W,Carreira J,Simonyan K,et al.The kinetics human action video dataset[EB/OL].(2017-05-19).https://arxiv.org/abs/1705.06950.
[6]Kuehne H,Jhuang H,Garrote E,et al.HMDB:a large video database for human motion recognition[C]//Proc of International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011:2556-2563.
[7]Soomro K,Zamir A R,Shah M.UCF101:a dataset of 101 human actions classes from videos in the wild[EB/OL].(2012-12-03).https://arxiv.org/abs/1212.0402.
[8]Sigurdsson G A,Varol G,Wang Xiaolong,et al.Hollywood in homes:crowdsourcing data collection for activity understanding[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:510-526.
[9]Carreira J,Zisserman A.Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4724-4733.
[10]耿甜甜.基于時空關系圖網絡的視頻動作識別研究[D].成都:電子科技大學,2022.(Geng Tiantian.Research on video action recognition based on spatial-temporal graph network[D].Chengdu:University of Electronic Science and Technology of China,2022.)
[11]Feichtenhofer C,Fan Haoqi,Malik J,et al.Slowfast networks for video recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6201-6210.
[12]熊賢強.基于雙流網絡的視頻動作識別方法研究[D].南寧:廣西大學,2021.(Xiong Xianqiang.Research on video action recognition method based on double stream network[D].Nanning:Guangxi University,2021.)
[13]Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Proc of the 27th International Confe-rence on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:568-576.
[14]Wang Limin,Xiong Yuanjun,Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:20-36.
[15]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[16]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.2016:770-778.
[17]Wang Xiaolong,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:7794-7803.
[18]Long Xiang,De Melo G,He Dongliang,et al.Purely attention based local feature integration for video classification[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(4):2140-2154.
[19]Girdhar R,Joo C J,Doersch C,et al.Video action transformer network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:244-253.
[20]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/2010.11929.
[21]Arnab A,Dehghani M,Heigold G,et al.ViViT:a video vision transformer[C]//Proc of IEEE/CVF International Conference on Compu-ter Vision.Piscataway,NJ:IEEE Press,2021:6816-6826.
[22]Bertasius G,Wang Heng,Torresani L.Is space-time attention all you need for video understanding?[C]//Proc of the 38th International Conference on Machine Learning.2021:813-824.
[23]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:6000-6010.
[24]Patrick M,Campbell D,Asano Y,et al.Keeping your eye on the ball:trajectory attention in video transformers[J].Advances in Neural Information Processing Systems,2021,34:12493-12506.
[25]朱張莉,饒元,吳淵,等.注意力機制在深度學習中的研究進展[J].中文信息學報,2019,33(6):1-11.(Zhu Zhangli,Rao Yuan,Wu Yuan,et al.Research progress of attention mechanism in deep learning[J].Chinese Journal of Information,2019,33(6):1-11.)
[26]王培森.基于注意力機制的圖像分類深度學習方法研究[D].合肥:中國科學技術大學,2018.(Wang Peisen.Research on deep learning method for image classification based on attention mechanism[D].Hefei:University of Science and Technology of China,2018.)
[27]Sun Pengzhan,Wu Bo,Li Xunsong,et al.Counterfactual debiasing inference for compositional action recognition[C]//Proc of the 29th ACM International Conference on Multimedia.2021:3220-3228.
[28]Baradel F,Neverova N,Wolf C,et al.Object level visual reasoning in videos[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:105-121.
[29]Qi Haozhi,Wang Xiaolong,Pathak D,et al.Learning long-term visual dynamics with region proposal interaction networks[EB/OL].(2021-04-02).https://arxiv.org/abs/2008.02265.
[30]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.2017:2980-2988.
[31]Wang Xiaolong,Gupta A.Videos as space-time region graphs[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:413-431.
[32]Wang Junke,Yang Xitong,Li Hengduo,et al.Efficient video transformers with spatial-temporal token selection[EB/OL].(2022-07-16).https://arxiv.org/abs/2111.11591.
[33]Wang Zhengwei,She Qi,Smolic A.Action-Net:multipath excitation for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13209-13218.
[34]Wang Limin,Qiao Yu,Tang Xiao’ou,et al.Actionness estimation using hybrid fully convolutional networks[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2708-2717.
[35]Hu Jie,Shen Li,Sun Gang,et al.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018:7132-7141.
[36]王媛媛.基于增強時空特征的視頻異常檢測算法研究[D].北京:北京交通大學,2021.(Wang Yuanyuan.Research on video anomaly detection algorithm based on enhanced spatiotemporal features[D].Beijing:Beijing Jiaotong University,2021.)
[37]Li Yan,Ji Bin,Shi Xintian,et al.TEA:temporal excitation and aggregation for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:906-915.
[38]Wang Zhengwei,She Qi,Smolic A.Action-Net:multipath excitation for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13209-13218.
[39]Shu Xiangbo,Yang Jiawen,Yan Rui,et al.Expansion-squeeze-excitation fusion network for elderly activity recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32(8):5281-5292.
[40]Damen D,Doughty H,Farinella G M,et al.Scaling egocentric vision:the epic-kitchens dataset[M]// Ferrari V,Hebert M,Sminchisescu C,et al.Computer Vision.Cham:Springer,2018:720-736.
[41]Goyal R,Ebrahimi K S,Michalski V,et al.The “something something” video database for learning and evaluating visual common sense[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5843-5851.
[42]Herzig R,Ben-Avraham E,Mangalam K,et al.Object-region video transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:3138-3149.