關鍵詞:骨骼行為識別;PoseConv3D;時空注意力;標簽平滑損失函數
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2025)08-038-2532-06
doi:10.19734/j. issn. 1001-3695.2024. 10.0483
Skeleton-based action recognition through fusion of spatial-temporal and motion information
WeiWei ,Zheng Cheng,Tang Yuan,Li Chen (SchoolofSofware Engineering,Chengdu Universityof Information Technology,Chengdu 61O225,China)
Abstract:Aimingattheproblemof insuffcientutilizationof spatio-temporaldependentfeaturesandmotioninformation inexisting skeletal behaviorrecognition methods,this paper proposedanimproved model thatcombined motion featuredandspatiotemporalatentionbasedonPoseConv3D.Firstly,itusedthelimbheat mapcomposedof limbs,head,andtrunk asinput to activelyenhancethespatialcorrelationofadjacentkeypoints.Secondly,ithancedtheuseofkeyspatio-temporalfeaturesin thebackboneetworkbyitroducingsati-tempral,hanneldmotionexiationmodules.inalyitplacedeoentropylossfunctionwiththelabelsmothinglossfunctiontoimprovethe model’sgeneralizationabilityThemodelachieved recognition accuracies of 94.4% (X-Sub)and 97.5% (X-View)on the NTU RGB+D dataset,and 90.5% (X-Sub)and 91. 4% (X-View)on theNTU RGB +1 D120 dataset. Experiments prove that combining motion features and spatio-temporal attention with skeletal heat maps as input effectively improves the accuracy of behavior recognition.
Key words:skeletonaction recognition;PoseConv3D;spatio-temporal attention;label smoothing loss function
0 引言
人體行為識別是計算機視覺領域的一個重要分支,其在人機交互、視頻監控等方面[1~3]發揮著重要作用。現有的人體行為識別方法主要基于深度圖像、RGB視頻和骨骼關鍵點等形式的數據對行為信息進行分析。
目前,RGB視頻數據依然是人們研究人體行為識別的重要關注對象。Simonyan等人4提出了雙流卷積網絡,利用RGB視頻和光流信息來提高視頻中的行為識別準確性。何冰倩等人[5在雙流卷積網絡的基礎上引入了時空金字塔和注意力機制來加強對細節特征的處理。Carreira等人將2D卷積操作擴展為3D卷積操作的同時學習視頻的空間和時間特征。Zhou等人[通過解耦與重耦的方式將深度圖的時空特征與RGB視頻數據的時空特征相結合,增強特征的表達能力。上述基于RGB視頻數據的方法受益于RGB視頻數據的豐富特征信息,在精度上都有不錯的表現,但同樣因為RGB視頻的龐大信息量,也帶來了高昂的計算代價。因此,計算代價更小、抗干擾能力更強的骨骼數據受到了越來越多的關注[8.9]。在基于骨架數據的動作識別方法[10~12]中,圖卷積網絡(GCN)[13]是最流行的方法之一。GCN的方法將每個時間步的每個人體關節視為一個節點,沿空間和時間維度的鄰居節點與邊相連。然后將圖卷積層應用到構建的圖中,以發現跨越空間和時間的動作模式。雖然GCN的方法取得了顯著成果,但其仍然存在如下幾個問題:a)魯棒性較差,GCN的方法受坐標分布偏移的影響顯著,僅個別關鍵點預測出現偏差,將嚴重影響模型性能;b)互操作性差,GCN的方法是在不規則的骨架圖上操作的,這使得它很難進行多模態的融合;c)可擴展性差,GCN的復雜度與人數成線性關系,限制了其在涉及多人場景下的適用性;d)訓練成本高,目前主流的骨架行為識別方法采取關節流、骨骼流及其對應的運動流作為多流網絡分別進行訓練,其帶來了高昂的訓練成本。因此,Duan等人[14提出了PoseConv3D模型。PoseConv3D是一種基于三維卷積神經網絡(3Dconvolutionalneuralnetwork,3D-CNN)的骨骼點行為識別模型,相比于圖卷積網絡具有更優秀的性能和更低的學習代價。該模型主要由三維熱圖生成和骨骼行為識別兩部分組成,其通過處理姿態估計的骨骼關鍵點信息來生成三維熱圖體,并利用三維卷積神經網絡對熱圖體進行特征處理,從而實現行為動作的識別和分類。
需要指出,PoseConv3D模型在生成三維熱圖體時將各個關鍵點或者各個肢體作為一個單獨的通道生成,這忽略了鄰近關鍵點或肢體之間的聯系,而人的行為往往依賴于相鄰肢體之間的關系進行判定。其次,人的行為判定往往由小部分的有效特征決定,這部分特征可能僅出現在某些關鍵幀,或者某些關鍵的運動部位,而PoseConv3D直接將三維熱圖體輸入簡單的級聯3D-CNN網絡中進行特征提取,其提取了大量的干擾信息,從而影響了最終的識別準確率。
針對上述問題,以PoseConv3D為基礎模型,提出了結合時空注意力和運動特征的行為識別模型(PoseConv3Dwithmotionfeaturesandtemporalnetwork,PMTNet)。首先,以鄰近關聯的姿態熱圖或肢體熱圖作為輸入,先驗地增強了相鄰關鍵點的聯系。其次,提出了時空、通道和運動激活模塊SFPM,通過時空注意力、通道注意力和運動特征來提高對關鍵幀和關鍵部位的關注度,增強模型對關鍵特征的捕獲能力。最后,采用標簽平滑損失函數,提高模型的泛化能力,降低過擬合。該模型在NTU RGB+D 和NTU RGB+D 120數據集上的實驗結果與主流的骨架行為識別方法相比取得了更優的性能。
1本文方法
本文方法是基于姿態熱圖的人體行為識別方法,包括三維熱圖生成和熱圖行為識別兩個部分,其通過處理姿態估計的骨骼關鍵點信息來生成三維熱圖體,并利用三維卷積神經網絡對熱圖體進行特征處理,從而實現行為動作的識別和分類,具體流程如圖1所示。
圖1方法流程Fig.1 Method flow
1.1熱圖生成
PMTNet模型采用關鍵點熱圖體或肢體熱圖體作為輸入,相較于圖卷積方法具有更好的魯棒性和可擴展性。與基準模型PoseConv3D相比,PMTNet模型將相鄰的關鍵點或肢體放在同一張熱圖中,先驗地增強了鄰近關鍵點的關聯性。相鄰關鍵點的具體劃分方式是將COCO數據集[15]標準的17關鍵點劃分為6個部位,分別為頭部、左肢、右肢、軀干、左腳、右腳。每個部位的不同關鍵點放入同一張熱圖中,以在輸入階段增強部位內部的關聯性。
在生成部位關鍵點熱圖或肢體熱圖之前,要先生成各個關鍵點或各個肢體的熱圖。如圖2所示,直接利用自頂向下姿態估計模型的輸出熱圖進行原始幀匹配,以作為初始目標熱圖進行處理。此外,也可以通過骨骼關鍵點的坐標來生成熱圖,將每個關鍵點坐標作為中心的高斯映射進行組合來生成初始熱圖。關鍵點二維熱圖 Pk 和肢體二維熱圖 Lk 的生成公式為
其中: σ 為高斯映射方差; seg[ak,bk] 表示關鍵點 ak 與 bk 之間的線段; D 為點 (i,j) 到兩個關鍵點線段之間的最短距離。
圖2熱圖生成示例 Fig.2Heat maps generate sample maps
生成的所有熱圖首先沿著時間維度 T 進行堆疊,生成 K×T× H×W 的三維熱圖體,然后將同部位的關鍵點熱圖或肢體熱圖在同一張熱圖上進行表示,最終生成形狀為 C×T×H×W 的輸人數據。此處, K 代表關鍵點數量,默認為 17,C 代表劃分的部位數量,默認為6。輸入數據樣例如圖3所示。
圖3熱圖輸入數據Fig.3Heatmap input data
1.2 三維卷積模型PMTNet
PMTNet的主體結構如圖4所示,以按部位劃分的關鍵點熱圖體或肢體熱圖體作為輸人進行學習,由于關鍵點熱圖體或肢體熱圖體已經是經過處理的中級特征信息,所以僅需通過較淺的網絡就足以模擬骨骼序列的時空動態。本文選擇Res-Net3D[16] 層作為基礎層來設計骨干網絡,骨干網絡總共包含三個殘差層,在每個殘差層中,通過SFPM模塊對特征進行增強,加強模型對關鍵特征的提取能力。在模型的最后通過全局平均池化將特征展平,再通過全連接獲取最后的分類概率。
具體來說,熱圖體數據 X∈RC×T×H×W 輸入PMTNet模型,先通過卷積層將通道數提升至32,再輸人到SFPM模塊增強的殘差層中進行特征提取。SFPM模塊僅對特征進行注意力加權,而不改變特征的形狀。三個殘差層分別將特征的通道數擴大為128、256、512的同時,將特征的空間尺度減少至 28×28.14× 14、7×7 。最后將形狀 512×32×7×7 的特征通過全局池化展平為長度為512的向量,并輸入到全連接中獲得最終的分類結果。
本文通過SFPM模塊來加強模型對關鍵特征的關注度。SFPM模塊的具體結構如圖4所示,由時空激勵模塊STE、通道激勵模塊CE、短期運動激勵模塊SME和長期運動激勵模塊LME四個分支模塊組成。其中,STE和CE模塊參考了SENet[17] 中通道注意力模塊的設計思想,通過池化進行特征壓縮,再輸入適應維度的卷積獲得激勵權重。SME和LME模塊參考了 STM[18] 中運動特征提取的思想,通過鄰近幀作差的方式提取運動激勵權重。
在SFPM模塊中用STE模塊來對時間和空間這兩個維度上的特征進行建模,STE模塊的具體結構如圖5所示。首先對輸入數據 X∈RN×C×T×H×W 進行通道上的平均池化,得到 X′∈ RN×1×T×H×W ;然后再通過卷積層和激活函數得到時間和空間上的激勵權重矩陣;最后將權重矩陣與最初的輸入進行矩陣乘法再以殘差連接的方式進行賦權。通過STE模塊,增強模型對關鍵時空特征的關注度,以加強模型的最終表現。
圖4PMTNet結構Fig.4Structure ofPMTNet
圖5STE分支結構Fig.5STE branch structure
CE模塊用于對通道維度上的特征進行建模,其具體結構如圖6所示,其總體結構在二維通道注意力模塊SEBlock的基礎上,添加了一個卷積核為3的一維卷積層以表征時間信息上的通道特征。具體來說,輸人數據 X∈RN×C×T×H×W 先通過在空間維度上的池化以及reshape將特征形狀變更為 N×T×C×1×1 ,然后通過三個卷積層對空間和時間上的通道信息進行表征,最后通過reshape和集合函數得到形狀為 N×C×T×1×1 的激勵權重矩陣。將激勵權重矩陣與原始輸入進行矩陣乘法和殘差連接以得到CE模塊的增強特征。
在SFPM模塊中SME和LME模塊的結構一致,差別僅在于時間差的長度,SME關注較短時間內的運動變化,LME關注較長時間內的遠動變化。模塊的結構如圖7所示,SME關注的時間幀差為1,LME關注的時間幀差為5。具體來說,輸入數據 X∈RN×C×T×H×W 通過 1×1 卷積將通道數降低為原來的 16,然后在 T 維度上將五維分離為 T 個四維張量,其中后面的T-n 個張量經過一個共享 2D 卷積核后分別與前第 n 幀的張量相減,并拼接得到一個模擬的運動特征(運動特征的時間維度從 T 減少至 T-nc 。本文采用補零操作將時間維度重新增加為T ),最后運動特征在空間維度上進行均值池化后,再輸入卷積層和激活函數中得到最終的運動激勵權重矩陣,激勵權重矩陣與原始輸入進行矩陣乘法和殘差連接得到最終的增強特征。
圖7ME分支結構Fig.7ME branch structure
1.3 損失函數
在損失函數上,本文同時應用交叉熵損失函數和標簽平滑損失函數。交叉熵損失函數用于計算易分類正確類別的損失,而標簽平滑損失函數用于計算容易錯誤分類類別的損失。
具體來說,先通過交叉熵損失函數對整個數據集進行訓練,并在驗證集中將容易分類錯誤的類別進行記錄,再重新進行訓練,將訓練預測結果為易錯類別的損失函數替換為標簽平滑損失函數。標簽平滑損失函數,相較于交叉損失函數而言,泛化能力更強。而根據對易錯誤分類的類別預測結果進行分析發現,易錯誤分類的類別通常在訓練集上都有較好表現,而只在驗證集或測試集上出現分類類別不準確的問題。因此在預測結果為此類類別的結果時,采用標簽平滑損失函數可以使模型在驗證集上有更優的表現。標簽平滑損失函數的具體公式為
圖6CE分支結構Fig.6 CE branch structure
其中: N 是樣本數量; c 是類別數量; yic 是樣本 i 對應類別 ∣c∣ 的真實標簽; ε 是平滑因子; 是樣本 i 對應類別 c 的預測結果。
2 實驗分析
2.1實驗環境及訓練策略
實驗環境為Windows10、NVIDIAGeForceGTX3090顯卡。實驗采用的深度學習框架是PyTorch 版本,編程語言為Python3.8。batchsize為16,總共訓練了240輪次。學習率初始設置為0.2,并采用余弦退火的方式進行權重衰減。
2.2 數據集及評價指標
NTU RGB+D 數據集19由40名受試者收集了56880個動作樣本,涵蓋60種動作類別。這些動作可以分為三類:40種日常行為(如梳頭、鼓掌、閱讀)、9種與健康相關的動作(如跌倒、頭痛)以及11種雙人動作(如擁抱、握手)。所有動作在17種不同場景下進行,使用三個相機從不同角度拍攝,分別為-45°,0° 和 45° 。每位受試者在左右兩側的相機前分別執行一次動作,因此每個動作在不同角度下會生成 2×3 個樣本。每個樣本包含300幀,如果少于300幀,則通過重復已有幀來補全。每幀中最多有兩個骨架,每個骨架包含25個關節點,這些關節點用三維坐標表示。數據集的劃分采用跨目標(X-Sub)和跨視角(X-View)兩種方式。X-Sub劃分將40位受試者按照編號分為訓練集和測試集,其中訓練集有40320個樣本,測試集有16560個樣本。X-View劃分則按相機ID,將相機ID為2和3的數據作為訓練集(共37920個樣本),而相機ID為1的數據則作為測試集,共18960個樣本。
NTURGB +D 120數據集[20]在原有的 NTURGB+D 數據集基礎上擴展了60種動作類別和57600個動作樣本,總計達到114480個動作樣本。這些樣本是通過106名受試者收集的,且采用了不同的地點和背景,同時將攝像機的數量增加到32個。數據集中包含82種日常行為、12種與健康相關的動作以及26種雙人動作。該數據集的劃分方式包括跨目標(X-Sub)和跨視角(X-View),其中偶數設置ID的樣本用于訓練,而奇數設置ID的樣本則用于測試。
上述兩個數據集都屬于分類數據集,所以評價其性能采用最常見的準確率作為評價指標,它用于衡量模型的整體預測性能,具體計算為預測正確的樣本量除以總的樣本量。
2.3 實驗驗證分析
2.3.1與其他主流骨架動作識別算法的比較
本文將改進的網絡PMTNet與主流的骨架動作識別方法在 NTURGB+D 和NTU RGB+D 120數據集上進行了對比,如表1所示,本文方法取得了最好的效果。目前骨架行為識別方法的主流仍然為圖卷積方法,本文方法與目前最優的圖卷積方法LA-GCN[21]相比,在NTURGB +D 數據集的X-Sub基準上提升了0.9百分點,X-View基準上提升了0.3百分點。與基礎方法PoseConv3D相比,在NTU RGB+D 數據集的X-Sub基準上提升了0.3百分點,X-View基準上提升了0.4百分點,在NTU RGB+D 120數據集的X-Sub基準上提升了3.6百分點,X-View基準上提升了1.1百分點。可以看出,本文方法通過引入時空、通道和運動激勵模塊增強了模型對關鍵特征的提取能力,從而在類別增多的情況下模型的識別效果有顯著提示。
表1與其他主流骨架動作識別算法的比較Tab.1Comparisonwith other mainstream skeletal
2.3.2與基礎模型的比較
本文采用與基線模型相同的兩類數據流進行訓練:第一類使用骨骼關鍵點熱圖作為輸入,稱為“關節熱圖流”,即“joint”;第二類利用關鍵點熱圖的二階信息肢體熱圖作為輸入,稱為“肢體熱圖流”,即“limb”。將這兩類數據流的softmax分數相加以獲得最終的識別結果。本文方法與基線模型在NTU RGB+D 和NTURGB +D 120數據集上進行了實驗,每個數據流的具體結果如表2所示。在NTU RGB+D 數據集中,以關鍵點熱圖作為輸入時相比于基準模型,本文方法X-Sub的準確率提升了0.3百分點,X-View的準確率提升了0.4百分點,以肢體熱圖作為輸入時相比于基準模型,本文方法X-Sub的準確率提升了0.6百分點,X-View的準確率提升了0.7百分點;在 NTURGB+D12′ 20數據集中,以關鍵點熱圖作為輸入時,本文方法相比于基準模型,X-Sub的準確率提升了3.0百分點,X-View的準確率提升了1.3百分點,以肢體熱圖作為輸入時相比于基準模型,X-Sub的準確率提升了3.4百分點,X-View的準確率提升了0.9百分點。可以看出,加強相鄰關鍵點的關聯性以及增強模型對關鍵特征的關注度在熱圖骨架行為識別中有著顯著幫助,且在肢體熱圖輸入情況下有著更明顯的提升。
表2與基礎模型的比較
Tab.2 Comparisonwith the base model
1%
2.3.3 實驗分析
從實驗結果可以看出,本文PMTNet在性能上優于大多數圖卷積網絡模型以及基礎模型 PoseC3D 。這一優勢主要得益于以下兩個方面:a通過加強鄰近關鍵點特征之間的關聯,提升了模型對局部結構信息的捕捉能力;b)通過加權機制,更精確地提取和聚焦于關鍵特征,從而增強了對數據的表示與理解能力。相對于LA-GCN而言,PMTNet在更多分類的NTU RGB+ D120數據集上表現稍差,這主要是因為LA-GCN采用了6個數據流輸人的方式進行訓練,相比于本文采用的2個數據流輸入訓練的方式而言,增加了大量的訓練成本和計算代價。
2.4 消融實驗
選用NTU RGB+D 作為消融實驗的測試數據,用于評估PMTNet中相鄰關鍵點關聯輸入與SFPM增強模塊帶來的影響。
2.4.1相鄰關鍵點關聯輸入的消融實驗
PMTNet在輸入階段,將相鄰的關鍵點熱圖數據組合為一張部位熱圖作為輸入,人體17個關鍵點總體可以劃分為頭部、四肢、軀干6個部位,對應6張部位熱圖。通過該方式先驗地增強了相鄰關鍵點的關聯性,為了驗證該方法是否有效提升模型的性能,在肢體熱圖數據作為輸入以及關鍵點熱圖數據作為輸入的情況下進行了消融實驗,其中用PMTNet(17C)代表每個關鍵點作為獨立熱圖進行輸入的情況,PMTNet(6C)代表將相鄰關鍵點劃分為部位的聯合熱圖進行輸人的情況。
結果如表3所示,在其他訓練因素相同的情況下,采用強關聯性的人體部位熱圖數據作為輸入,有效地提升了模型的性能,定量結果說明無論是以關鍵點熱圖數據作為輸入,還是以肢體熱圖數據作為輸入在準確率上均有所提升。
表3鄰近關鍵點關聯性的消融實驗Tab.3Ablation experiments of the association of adjacent keypoints/%
2.4.2SFPM模塊的消融實驗
SFPM模塊用于加強模型對關鍵特征的關注度,為了驗證SFPM模塊對模型帶來的影響,在輸入數據都為6個部位的熱圖數據的情況下,將引入SFPM模塊的模型結果與未引入SF-PM模塊的模型結果進行對比,實驗結果如表4所示。用PMT-Net(-) 表示未添加SFPM模塊的結果,用 PMTNet(+) 表示添加SFPM模塊的結果。
可以看出,引入SFPM模塊的 PMTNet(+) 無論是以關鍵點熱圖數據作為輸人,還是以肢體熱圖數據作為輸入,在準確率性能上均優于未添加SFPM模塊的 PMTNet(-) 。這證明SFPM模塊有效加強了模型對關鍵特征的關注度,對模型的識別準確率產生了正向影響。
表4SFPM模塊消融實驗
Tab.4Ablationexperiment of SFPMmodule
2.5 可視化分析
PMTNet模型通過骨骼數據進行人體的行為識別,為更好地展示模型預測的結果,在此將骨骼數據通過二維圖進行展示。如圖8所示,模型通過骨架的動作變化準確地預測出人體正在進行的行為。
為更直觀地表明本文網絡模型PMTNet與主流圖卷積方法以及基準模型之間的優劣,在 NTU+RGBD 數據集較難分類正確的類別上進行了可視化對比。如圖9所示,PMTNet在雙手加叉、鼓掌、閱讀、寫作等骨架特征相似的動作上均取得了最優的準確率結果。雙手交叉在前類上準確率達到了 81.9% ,鼓掌類準確率達到了 90.1% ;閱讀類上準確率達到了 78.9% ,寫作類上準確率達到了 69.3% ;玩平板電腦類上準確率達到了 84.4% ,在鍵盤上鍵入類上準確率為 71.8% ;指向某物類上準確率為 90.1% ,自拍類上準確率為 90.9% 。從上述結果可以看出,PMTNet模型在不涉及人與物體聯系的動作中其識別的準確率較高,反之則較低。但相較于主流圖卷積網絡以及基準模型而言,均有顯著提升。PMTNet采用部位熱圖作為輸入增強了關鍵點之間的聯系,且用SFPM模塊加強了重要特征的表征能力,使其能夠學習到更具有劃分性的特征,從而在模糊樣本識別能力上有顯著提升。
圖8識別結果可視化
Fig.8Recognition result visualization
此外,本文將PMTNet模型復雜度從計算量、參數量兩個角度與現有的主流方法進行了對比,結果如圖10所示。
結果顯示,ST-GCN計算量為16.2GFLOPs,參數量為3.07M ,相對ST-GCN性能更好的圖卷積算法MS-G3D的計算量和參數量也分別達到了16.7GFLOPs和 2.85M ,而本文算法在PoseConv3D的基礎上減少輸入的特征通道數量,將總的計算量和參數量分別從15.9GFLOPs和 2. 05M 降低至13.4 GFLOPs和 2.04M PMTNet相較于基礎網絡PoseConv3D與傳統圖卷積網絡而言,在具有更低的模型復雜度的情況下取得了最優的準確率。
3結束語
本文提出的融合時空信息與運動信息的骨架行為識別是一種基于骨骼關鍵點熱圖的行為識別方法。該方法將相鄰關鍵點放入同一張熱圖進行表示,先驗地增強了相鄰關鍵點的聯系,并在模型結構中引入時空、通道、運動激勵模塊,加強模型在模糊樣本上的區分能力,最終提高總體預測的準確率。在NTU RGB+D 和NTURGB +D 120數據集上的實驗結果表明,本文方法與基準模型PoseConv3D相比,在參數量相當、計算量更小的情況下,可以實現更優秀的性能。本文方法使用單模態的骨骼數據作為輸入缺少環境因素,當人與物體之間的聯系是人體行為判定的關鍵時,其識別的準確率將受到影響。因此,下一步工作將探索多模態融合的方法,以補充人與物體聯系之間的關鍵特征,并同時思考如何進一步地減少模型的參數量,以適應在干擾強的邊緣設備上運行。期望在未來實現更多邊緣場景下的行為識別應用,如智能家居、戶外行人行為識別等。
參考文獻:
[1]王增強,張文強,張良.引入高階注意力機制的人體行為識別 [J].信號處理,2020,36(8):1272-1279.(Wang Zengqiang, Zhang Wenqiang,Zhang Liang.Human behavior recognition with high-order attention mechanism[J].Journal of Signal Processing,2020,36(8):1272-1279.)
[2]李媛,李杜,袁雪林,等.融合快照集成與知識遷移的人體行為 識別算法[J].信號處理,2023,39(1):73-83.(Li Yuan,Li Du,Yuan Xuelin,et al.Radar human behavior recognition algorithm based on snapshot ensembles and transfer learning[J].Journal of Signal Processing,2023,39(1):73-83.)
[3]婁久,左德承,張展,等.基于拉格朗日場的多級運動特征暴力 行為識別[J].信號處理,2022,38(7):1497-1506.(LouJiu, Zuo Decheng, Zhang Zhan,et al. Violence recognition based on multilevel-motion features of Lagrange field[J]. Journal of Signal Processing,2022,38(7):1497-1506.)
[4]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J].Advances in Neural Information Processing Systems,2014,1: 568-576.
[5]何冰倩,魏維,張斌,等.基于改進的深度神經網絡的人體動作 識別模型[J].計算機應用研究,2019,36(10):3107-3111. (He Bingqian,Wei Wei, Zhang Bin,et al.Improved deep convolutional neural network for human action recognition[J].Application Research of Computers,2019,36(10):3107-3111.)
[6]Carreira J, Zisserman A. Quo vadis,action recognition?A new model and the kinetics dataset [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2017: 4724-4733.
[7]Zhou Benjia,Wang Pichao,Wan Jun,et al.Decoupling and recoupling spatiotemporal representation for RGB-D-based motion recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:20122- 20131.
[8]Plizzari C,Cannici M,Matteucci M. Skeleton-based action recognitionviaspatialandtemporal Transformer networks[EB/OL]. (2021-06-22). htp://doi.org/10.1016/j.cviu.2021.103219.
[9]Song Yifan, Zhang Zhang, Shan Caifeng,et al. Constructing stronger and faster baselines for skeleton-based action recognition [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45 (2): 1474-1488.
[10]Du Yong,Wang Wei,Wang Liang.Hierarchical recurrent neural network for skeleton based action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2015:1110-1118.
[11]Vemulapalli R,Arrate F, Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:588-595.
[12]Wang Jiang,Liu Zicheng,Wu Ying,et al. Mining actionlet ensemble foraction recognition with depth cameras[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway, NJ:IEEE Press,2012:1290-1297.
[13]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018.
[14]Duan Haodong,Zhao Yue,Chen Kai,et al. Revisiting skeletonbased action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:2969-2978.
[15]Lin TY,Maire M,Belongie S,et al. Microsoft COCO:common objects in context [C]// Proc of European Conference on Computer Vision.Cham:Springer,2014:740-755.
[16]Hara K,Kataoka H,Satoh Y.Learning spatio-temporal features with 3D residual networks for action recognition [C]//Proc of IEEE International Conferenceon Computer Vision Workshops.Piscataway, NJ:IEEE Press,2017:3154-3160.
[17]Hu Jie, Shen Li,Sun Gang.Squeeze-and-excitation networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2018;7132-7141.
[18] Jiang Boyuan,Wang Mengmeng,Gan Weihao,et al. STM: spatiotemporal and motion encoding for action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2000-2009.
[19]Shahroudy A,Liu Jun,Ng TT,et al. NTU RGB D: a large scale dataset for 3D human activity analysis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016:1010-1019.
[20]Liu Jun,Shahroudy A,Perez M,et al.NTU RGBD120:alargescale benchmark for 3D humanactivity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42 (10):2684-2701.
[21]Xu Haojun,Gao Yan,Hui Zheng,et al.Language knowledgeasisted representation learning for skeleton-based action recognition [EB/OL].(2023-05-21).htps://arxiv.org/abs/2305.12398.
[22]Liu Ziyu, Zhang Hongwen,Chen Zhenghao,et al. Disentangling and unifying graph convolutions for skeleton-based action recognition [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,202O:140-149.
[23] Cheng Ke, Zhang Yifan,Cao Congqi,et al.Decoupling GCN with DropGraph module for skeleton-based action recognition[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer, 2020:536-553.
[24]Ye Fanfan,Pu Shiliang,Zhong Qiaoyong,et al.Dynamic GCN: context-enriched topology learning for skeleton-based action recognition[C]//Proc of the 28th ACM International Conference onMultimedia.New York:ACM Press,2020:55-63.
[25]Cheng Ke, Zhang Yifan,He Xiangyu,et al.Skeleton-based action recognition with shift graph convolutional network [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020:180-189.
[26]Chen Yuxin, Zhang Ziqi, Yuan Chunfeng,et al. Channel-wise topology refinement graph convolution for skeleton-based action recognition [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:13339-13348.
[27]Xu Kailin,Ye Fanfan,Zhong Qiaoyong,et al.Topology-aware convolutional neural network for efficient skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:2866-2874.
[28]Liu D,Li Xiaomeng,Cai Zijie,et al.TSGCNeXt:dynamic-static multi-graph Convolution for efficient skeleton-based action recognition [J].Expert Systems with Applications,2025,276:127081.
[29]王琪,何寧.融合內在拓撲與多尺度時間特征的骨架動作識別 [J].計算機工程與應用,2025,61(4):150-157.(WangQi,He Ning.Skeleton action recognition by integrating intrinsic topology and multi-scale time features [J]. Computer Engineering and Applications,2025,61(4):150-157.)
[30]Liu Jinfu,Wang Xinshun,Wang Can,etal.Temporal decoupling graph convolutional network for skeleton-based gesture recognition [J].IEEE Trans on Multimedia,2023,26:811-823.