關(guān)鍵詞:局部圖卷積;自適應(yīng)圖;多尺度時(shí)間建模;行為識別
中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)07-037-2199-07
doi:10. 19734/j. issn. 1001-3695.2024.08.0370
Abstract:Giventheinherent topologicalstructurecharacteristicsofthehumanskeletonresearchersefectivelymodelskeleton datausing graph convolution networks forbehaviorrecognition.However,chalenges arisein skeleton behaviorrecognition methods becausetimeconvolutionreliesonafixedtopological graphstructureandfixed kemel size,whichmakes itdificult to adapttovariableactiontypes,osures,andbehavioraldurations.Thisrelianceleads to modeling erorsandafectsrecogition accuracy.To tacklethis isue,this paper proposed a skeleton behaviorrecognitionmethodthatcombined adaptivelocal graph convolutionwithmulti-saletemporalmodeling.Thismethodalowedfortheindependentdynamiccharacterizationoftheuman skeletalstructurethroughtheadaptivelocal graphconvolutionmodule.Itdesignedthemulti-scaletemporalmodeling moduleto accommodatebehaviorsofvaryingdurationswhilereducing thenumberof parametersandcomputational complexity.Furthermore,itintroducedthespatio-temporalDropGraphstructuretodynamicalladjustthegraphtopology,whichimprovedthe model's generalization ability and prevents overfiting. The experiments show that it achieves accuracy rates of 93.39% and 97.18% under the cross-object C-Sub and cross-view C-View benchmarks for the NTU RGB+D60 dataset,respectively,and (20 90.48% and 91.95% under the cross-object C-Sub and cross-set C-Set benchmarks for the NTU RGB+D 120 dataset,respectively.Theseresultsoutperformthoseofexisting behavioralrecognitionmethods,proving thesuperiorityof theapproach.
Key words:local graph convolution;adaptive graph;multi-scale time modeling;behavior recognition
0引言
作為計(jì)算機(jī)視覺領(lǐng)域的核心課題之一,行為識別在虛擬現(xiàn)實(shí)、智能家居和自動(dòng)駕駛等多個(gè)領(lǐng)域中顯示出重要性和廣闊的應(yīng)用潛力。目前,研究者們采用了多種數(shù)據(jù)類型來表示特征,包括RGB視頻[1\~3]、光流[4]和骨架數(shù)據(jù)[5\~7]等。在這些數(shù)據(jù)類型中,骨架序列因其與人體動(dòng)作的緊密聯(lián)系脫穎而出[8]。骨架數(shù)據(jù)中的關(guān)節(jié)點(diǎn)與相鄰節(jié)點(diǎn)以及不同時(shí)序幀之間的強(qiáng)相關(guān)性,使得基于骨架數(shù)據(jù)進(jìn)行行為識別技術(shù)在近幾年來受到了研究者們的高度重視。
骨架行為識別方法可大致分為依賴手工設(shè)計(jì)特征的傳統(tǒng)方法和采用深度學(xué)習(xí)的方法兩大類。依賴手工設(shè)計(jì)特征的方法,通常通過定義特征算子來提取骨架序列的運(yùn)動(dòng)特征,以訓(xùn)練分類器對人體行為進(jìn)行識別,其中包括:通過計(jì)算關(guān)節(jié)的相對位置9、通過旋轉(zhuǎn)、平移建模身體各部分相對幾何關(guān)系進(jìn)行特征提取[\"]、通過建模視頻全局的時(shí)間信息[11]等。基于手工特征進(jìn)行行為識別的過程中存在依賴特定數(shù)據(jù)、泛化能力差、容易遺落關(guān)鍵信息、效率低且難以處理高維數(shù)據(jù)等缺點(diǎn),隨著行為識別技術(shù)的發(fā)展,基于手工設(shè)計(jì)特征方法進(jìn)行的應(yīng)用正在逐漸減少。
隨著深度學(xué)習(xí)技術(shù)的飛速進(jìn)步,其在行為識別領(lǐng)域的應(yīng)用已經(jīng)吸引了大量的關(guān)注。目前,深度學(xué)習(xí)技術(shù)在人體骨架行為識別領(lǐng)域主要分為三種。a)利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneu-ralnetwork,RNN)的方法。首先將骨架數(shù)據(jù)的每一幀轉(zhuǎn)換為向量形式,然后這些向量被送入RNN以進(jìn)行識別[12\~14]。b)利用卷積神經(jīng)網(wǎng)絡(luò)(nonvolutional neural network,CNN)。其將骨架數(shù)據(jù)轉(zhuǎn)換成偽圖像,以便利用CNN的空間特征提取能力進(jìn)行處理[15\~17]。然而,這兩種方法在處理過程中將骨架數(shù)據(jù)轉(zhuǎn)換為向量或偽圖像,可能會(huì)丟失骨架數(shù)據(jù)固有的拓?fù)潢P(guān)系,即關(guān)節(jié)之間的自然連接和相互作用,可能會(huì)導(dǎo)致丟失對行為理解至關(guān)重要的空間信息,從而限制了網(wǎng)絡(luò)行為識別的潛力和準(zhǔn)確性。盡管RNN和CNN在某些情況下有效,但它們可能無法完全捕捉到人體行為的復(fù)雜性。c)利用圖卷積神經(jīng)網(wǎng)絡(luò)(graphconvolutionnetwork,GCN)的方法。由于骨架數(shù)據(jù)是非結(jié)構(gòu)化的數(shù)據(jù),圖卷積神經(jīng)網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到了圖模型,能夠直接處理這種拓?fù)鋱D數(shù)據(jù)[18.19]。GCN通過將骨架數(shù)據(jù)映射為拓?fù)鋱D,利用節(jié)點(diǎn)(關(guān)節(jié)點(diǎn))和邊(關(guān)節(jié)間關(guān)系)的拓?fù)溥B接,對節(jié)點(diǎn)特征進(jìn)行層次化的卷積操作和聚合,學(xué)習(xí)從局部到全局的動(dòng)作特征表示。這種端到端的方法能夠自動(dòng)提取關(guān)鍵動(dòng)作特征,并結(jié)合時(shí)間序列信息,以實(shí)現(xiàn)高精度的行為識別,同時(shí)利用優(yōu)化算法和正則化技術(shù)提高模型的泛化能力和魯棒性。Yan等人[20]提出了一種結(jié)合空間和時(shí)間維度的圖卷積網(wǎng)絡(luò),稱為時(shí)空圖卷積網(wǎng)絡(luò)(spatialtemporal graph convolutionalnet-work,ST-GCN)。首次將GCN引人基于骨架的人體行為識別任務(wù)中,它可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)空間和時(shí)間關(guān)系,在骨架行為識別領(lǐng)域中,是采用時(shí)空圖學(xué)習(xí)方法的一個(gè)典型的代表。Li等人[21通過編碼和解碼結(jié)構(gòu)的骨架預(yù)測模塊,以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)任意關(guān)節(jié)點(diǎn)之間的相關(guān)關(guān)系,并結(jié)合多次冪的連接矩陣來擴(kuò)展圖卷積的感受野,從而有效建模長距離關(guān)節(jié)點(diǎn)間的連接關(guān)系。Shi等人[22]提出了一種新穎的自適應(yīng)圖卷積網(wǎng)絡(luò),采用端到端的學(xué)習(xí)方法,能夠自動(dòng)地從輸入數(shù)據(jù)中提取并學(xué)習(xí)出特定的矩陣,作為對圖的鄰接矩陣的擴(kuò)展,從而增強(qiáng)了圖卷積網(wǎng)絡(luò)對不同數(shù)據(jù)的適應(yīng)能力。Chen等人[23]提出了動(dòng)態(tài)、拓?fù)洳还蚕淼膱D卷積方式,以及層和通道間均采用差異化的拓?fù)潢P(guān)系,提升了對拓?fù)湫畔⒌谋碚髂芰Αhakkar等人[24提出一種通用的基于部分的圖卷積網(wǎng)絡(luò),學(xué)習(xí)各部分的關(guān)系以及使用幾何與運(yùn)動(dòng)信號,提升了識別性能。馬利等人[25通過將自適應(yīng)圖卷積和區(qū)域關(guān)聯(lián)圖卷積結(jié)合,解決傳統(tǒng)方法中捕捉固定的拓?fù)鋱D結(jié)構(gòu)以及非物理性連接的關(guān)節(jié)相關(guān)性方面的不足。近年來,GCN及其衍生方法在骨架行為識別領(lǐng)域取得了巨大的進(jìn)展,顯著提升了識別準(zhǔn)確率,已成為該領(lǐng)域的主導(dǎo)技術(shù)。
在骨架行為識別中,GCN通常使用一個(gè)固定的拓?fù)鋱D來表示人體的關(guān)節(jié)連接情況,這個(gè)圖在動(dòng)作識別過程中是靜態(tài)的。固定的拓?fù)浣Y(jié)構(gòu)雖然能很好地描述靜態(tài)的人體關(guān)節(jié),但它難以適應(yīng)人體動(dòng)態(tài)行為中的變化。比如,執(zhí)行“拍手”這種涉及左手和右手協(xié)作的動(dòng)作時(shí),固定的拓?fù)鋱D無法有效捕捉左右手之間的聯(lián)系,因?yàn)樵陬A(yù)定義的拓?fù)鋱D中,這兩個(gè)關(guān)節(jié)通常沒有直接的連接。固定拓?fù)鋱D無法適應(yīng)這種變化,導(dǎo)致信息捕捉不全面。人體動(dòng)作的復(fù)雜性要求模型能夠捕捉到更加細(xì)微的關(guān)節(jié)間關(guān)系,固定拓?fù)鋱D在這方面存在局限。這一局限性導(dǎo)致現(xiàn)有GCN類方法在處理復(fù)雜的動(dòng)態(tài)行為時(shí)表現(xiàn)欠佳。為了解決這一問題,可以探索動(dòng)態(tài)拓?fù)鋱D的構(gòu)建方法,即根據(jù)動(dòng)作的特點(diǎn)實(shí)時(shí)調(diào)整關(guān)節(jié)間的連接關(guān)系。此外,目前主流方法大多使用的整體表示的空間方法,對整個(gè)人體骨架圖進(jìn)行圖卷積,忽略了人的身體骨架是由不同部分組成的事實(shí),動(dòng)作可以分解為人體不同部分的組合。同時(shí),以前的工作忽略了人體不同部分的時(shí)間和空間的獨(dú)立性和相關(guān)性。為解決這一問題,可以將人體骨架圖拆分成多個(gè)子部分,從而優(yōu)化骨架圖的表示。基于以上問題,本文提出了一種自適應(yīng)的局部圖卷積模塊,能夠自適應(yīng)調(diào)整拓?fù)浣Y(jié)構(gòu)的模型,以及高效地在模型訓(xùn)練中學(xué)習(xí)到動(dòng)態(tài)拓?fù)浣Y(jié)構(gòu)。
此外,不同的動(dòng)作具有不同的執(zhí)行時(shí)間,如“拍手”動(dòng)作持續(xù)時(shí)間短,而“脫鞋”動(dòng)作持續(xù)時(shí)間長。這種時(shí)間尺度的多樣性給動(dòng)作識別網(wǎng)絡(luò)帶來了挑戰(zhàn),要求網(wǎng)絡(luò)不僅能夠識別短時(shí)間內(nèi)的快速動(dòng)作,還要能夠捕捉長時(shí)間的復(fù)雜動(dòng)作。目前一些方法使用固定時(shí)間卷積核和深度可分離卷積進(jìn)行時(shí)間特征提取,這限制了模型對時(shí)間動(dòng)態(tài)的捕捉能力。本文設(shè)計(jì)了多尺度時(shí)間特征提取模塊,允許模型同時(shí)捕捉短時(shí)間和長時(shí)間的動(dòng)作特征。
最后,在傳統(tǒng)的正則化過程中,如dropout,隨機(jī)丟棄節(jié)點(diǎn)會(huì)導(dǎo)致破壞骨架數(shù)據(jù)的真實(shí)拓?fù)浣Y(jié)構(gòu),從而影響模型對動(dòng)作的準(zhǔn)確理解。為解決這一問題,本文提出引入了時(shí)空DropGraph模塊,,將DropGraph應(yīng)用于空間和時(shí)間圖中,在刪除某一節(jié)點(diǎn)時(shí),其鄰居節(jié)點(diǎn)也要被刪除,從而更好地處理關(guān)節(jié)和骨骼的連接性,提高模型的泛化能力。
1方法介紹
1.1 骨架圖卷積
骨架數(shù)據(jù)可以被描述成圖 G=(V,E) ,圖主要由兩部分構(gòu)成:a)節(jié)點(diǎn)組合 V={V1,V2,…,VN} ,其包含 N 個(gè)代表身體關(guān)節(jié)的節(jié)點(diǎn);b)邊的組合 E ,表示骨架中各關(guān)節(jié)之間的連接。由鄰接矩陣 A∈RN×N 表示,如果 Vi 和 Vj 之間有邊,則 Ai,j=Aj,i 。原始的骨架序列可以由特征矩陣 X 進(jìn)行表示,其維度為X∈RC×T×N ,其中 c 代表每個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo)維度, T 代表骨架序列中所含骨架幀的數(shù)目, N 代表身體關(guān)節(jié)的節(jié)點(diǎn)數(shù)目。圖卷積網(wǎng)絡(luò)被廣泛用于非歐幾里德結(jié)構(gòu)數(shù)據(jù)的建模,是一種深度學(xué)習(xí)模型,特別適用于處理圖結(jié)構(gòu)的數(shù)據(jù),通過疊加多個(gè)圖卷積層,能夠?qū)W習(xí)節(jié)點(diǎn)的深層特征表示。在圖卷積網(wǎng)絡(luò)中,每個(gè)卷積層一般包含對空間數(shù)據(jù)的特征提取的空間圖卷積和對骨架序列的時(shí)間特征提取的時(shí)間卷積兩部分,如圖1所示,其中圖1(a)為空間卷積,圖1(b)為時(shí)間卷積。
空間圖卷積的公式為
其中 是歸一化鄰接矩陣,能夠匯集周圍節(jié)點(diǎn)的特征;
為A的對角矩陣;A為鄰接矩陣; I 為單位矩陣;A+I 是添加了帶有自連接環(huán)的骨架圖以保留自身節(jié)點(diǎn)的特征。 W 用于特征變換, ,s 表示卷積核大小,如果 Sgt;1 ,則 W 集合了相鄰節(jié)點(diǎn)的特征。 X 為輸入特征, Z 為輸出特征, σ(θ?θ) 是激活函數(shù)。
時(shí)間卷積的公式為
ZT=Conv2dk×1Z
其中: Conv2dk×1 為卷積核 k×1 的二維卷積。將輸入的骨架數(shù)據(jù)先進(jìn)行空間域圖卷積提取空間特征,然后再進(jìn)行時(shí)間域卷積提取時(shí)間特征,從而完成一次圖卷積,通過疊加多個(gè)圖卷積層,從而學(xué)習(xí)節(jié)點(diǎn)的深層特征表示。
1.2 網(wǎng)絡(luò)架構(gòu)
由于大多GCN類方法依賴于固定的拓?fù)鋱D來描述人體各部位的連接,對捕捉骨架數(shù)據(jù)的動(dòng)態(tài)特性方面仍有局限。此外,人體行為的多樣性對行為識別網(wǎng)絡(luò)提出了更高的要求,需要網(wǎng)絡(luò)能夠靈活地處理不同時(shí)間尺度的行為。最后,由于圖卷積是對拉普拉斯矩陣做平滑操作,在高層的GCN中,混合了節(jié)點(diǎn)本身和鄰居的特征,即使刪除一個(gè)節(jié)點(diǎn),關(guān)于這個(gè)節(jié)點(diǎn)的信息仍能從他的鄰居中獲得,導(dǎo)致過度擬合。為解決以上問題,本文提出采用自適應(yīng)的局部圖卷積和多尺度時(shí)間建模進(jìn)行特征提取,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先,本文模型通過下采樣將輸入特征變成適合網(wǎng)絡(luò)的特征,將通道維度 c 升維變成96,幀數(shù) T 變成原來的四分之一,從而擴(kuò)展了輸入的時(shí)間維度,以學(xué)習(xí)長期的時(shí)間特征,增加學(xué)習(xí)功能的豐富性,提高模型的穩(wěn)定性和泛化能力。然后,模型采用 4:3:2 的配置,一共3個(gè)階段共9層,進(jìn)行骨架時(shí)空特征提取,在第1和2階段后對骨架特征進(jìn)行時(shí)間維度的下采樣,通道數(shù)變成原來的2倍,幀數(shù)減半。骨架數(shù)據(jù)通過9層的自適應(yīng)局部圖卷積和多尺度時(shí)間建模模塊進(jìn)行時(shí)空特征提取后,經(jīng)過全連接層和softmax函數(shù)進(jìn)行行為識別。
1.3 多尺度時(shí)間建模模塊
現(xiàn)有的時(shí)間建模方法通常使用固定內(nèi)核大小的時(shí)間卷積來處理時(shí)序數(shù)據(jù),容易忽略動(dòng)作持續(xù)時(shí)間的差異,進(jìn)而導(dǎo)致建模誤差。盡管時(shí)間深度可分離卷積能夠高效地提取時(shí)間維度上的特征,減少參數(shù)量和計(jì)算復(fù)雜度,提高模型的效率。但是,時(shí)間深度可分離卷積只關(guān)注固定長度的時(shí)間窗口,捕捉不同時(shí)間尺度的動(dòng)態(tài)信息時(shí)能力有限,限制了對不同時(shí)間尺度上特征的感知,無法很好地處理時(shí)間動(dòng)態(tài)變化較大、持續(xù)時(shí)間不一的動(dòng)作,對于需要考慮更長時(shí)間上下文的復(fù)雜動(dòng)作,效果不足。為了解決這些問題并增強(qiáng)模型對不同時(shí)間尺度的感知能力,提高模型的魯棒性,本文借鑒 CTR-GCN[23] 方法,設(shè)計(jì)了一個(gè)多尺度時(shí)間特征提取模塊。在該模塊中,首先使用深度可分離卷積來提取特征,降低了參數(shù)量和計(jì)算復(fù)雜度。接著,引人膨脹卷積和最大池化技術(shù),以提取多尺度時(shí)間特征,從而對不同持續(xù)時(shí)間的動(dòng)作進(jìn)行建模。該模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
具體來說,該模塊輸入特征為 C×T×N 由4個(gè)分支實(shí)現(xiàn)。在前三個(gè)分支中,每個(gè)分支都包含一個(gè) 3×1 的時(shí)間深度卷積,每個(gè)卷積核獨(dú)立地連接到一組輸入和輸出通道,減少了參數(shù)的數(shù)量,并遵循了拓?fù)浞枪蚕頇C(jī)制,然后包含一個(gè) 1×1 的時(shí)空逐點(diǎn)卷積,在縮小維度為 C/4 的同時(shí)建立通道之間的關(guān)系。其中前兩個(gè)分支采用了膨脹卷積,其膨脹率分別為1和2,卷積核大小為 5×1 。通過在卷積核中設(shè)置間隔,即實(shí)施膨脹化,膨脹卷積擴(kuò)大了感知范圍,從而使模型能夠識別跨越更廣的時(shí)間范圍特征。第三個(gè)分支采用 3×1 的最大池化,最大池化操作則能夠在不同時(shí)間尺度上提取重要特征,幫助模型更好地理解動(dòng)作的動(dòng)態(tài)變化。第四個(gè)分支保留了時(shí)間幀上的原始特征。該模塊最后使用 1×1 的卷積擴(kuò)大維度為6C,使得網(wǎng)絡(luò)更加適用于后面的空間特征提取。
1.4 自適應(yīng)局部圖卷積模塊
在骨架行為識別任務(wù)中,GCN通常使用固定的拓?fù)鋱D來表示人體關(guān)節(jié)的連接關(guān)系,固定的拓?fù)浣Y(jié)構(gòu)有助于捕捉人體骨架的整體結(jié)構(gòu),簡化了模型的設(shè)計(jì),并且在處理常規(guī)的人體行為時(shí)表現(xiàn)出不錯(cuò)的效果。然而,固定的拓?fù)浣Y(jié)構(gòu)在應(yīng)對動(dòng)態(tài)行為時(shí)存在局限性,因?yàn)樗鼰o法靈活地反映人體關(guān)節(jié)之間的動(dòng)態(tài)變化。不同的行為會(huì)激活不同的關(guān)節(jié)之間的交互關(guān)系,固定的拓?fù)鋱D難以捕捉這些變化,從而導(dǎo)致信息的捕捉不夠全面。此外,傳統(tǒng)的圖卷積方法往往針對整個(gè)骨架結(jié)構(gòu)進(jìn)行統(tǒng)一的處理,忽略了人體由多個(gè)部分組成的事實(shí)。例如,人的手部和腳部在不同的行為中扮演不同的角色,而統(tǒng)一處理這些部位可能會(huì)錯(cuò)失一些關(guān)鍵的局部信息。為了能夠自適應(yīng)調(diào)整拓?fù)浣Y(jié)構(gòu)的模型,以及充分地利用不同身體部位在不同行為中存在重要性差異、不同行為下各個(gè)部位之間的關(guān)系,從而提高行為識別的準(zhǔn)確率,本文提出了一種自適應(yīng)局部圖卷積模塊。自適應(yīng)局部圖卷積模塊采用端到端的訓(xùn)練策略,將人體骨架劃分成不同的部分,同時(shí)優(yōu)化圖的拓?fù)浣Y(jié)構(gòu)與網(wǎng)絡(luò)的其他參數(shù)。動(dòng)態(tài)調(diào)整不同GCN層和不同骨架樣本的圖結(jié)構(gòu),增強(qiáng)了模型的區(qū)分能力。自適應(yīng)的局部圖卷積模塊的結(jié)果如圖4所示。
該模塊將輸入 X 平均地劃分為六份,前五份用于學(xué)習(xí)不同身體部位、不同初始化拓?fù)湎赂鱾€(gè)節(jié)點(diǎn)的拓?fù)潢P(guān)系,而最后一份F6沒有矩陣。最后通過聚合多部分拓?fù)湫畔⒁陨尚碌狞c(diǎn)集 Z ,增強(qiáng)模型的適應(yīng)性并提升行為識別的精準(zhǔn)度。
本文發(fā)現(xiàn),從整個(gè)骨架中提取特征并不總是一種完美的方法。當(dāng)人類在運(yùn)動(dòng)的時(shí)候,身體的關(guān)節(jié)各部分具有相關(guān)聯(lián)性。因此,本文將人骨架圖分為多個(gè)部分,然后通過自適應(yīng)的局部圖卷積捕捉身體各部分的高級特征和全局特征,提高模型的識別性能。身體的每個(gè)部分都是一個(gè)子圖,人體多部分配置公式可以定義為
G={P1,P2,P3,P4,P5}
其中: G 為人體骨架圖; P1,P2,P3,P4,P5 表示人體骨架的各個(gè)子圖。如圖5所示,將人體骨架圖分為左臂、右臂、軀干、左腿以及右腿。
由于從整個(gè)骨架中提取特征并不總是一種完美的方法。本文的鄰接矩陣 A 根據(jù)身體的不同部分表示為
A={A1,A2,A3,A4,A5}
所以,在經(jīng)典的圖卷積體系結(jié)構(gòu)中,式(1)表示為式(5)
其聚合具有多重共線性的多鄰接矩陣。它允許不同拓?fù)渲g的線性關(guān)系,而不是拓?fù)浞枪蚕怼=梃b TSGCNeXt[26] 動(dòng)靜態(tài)分離多圖卷積探索獨(dú)立的多鄰接矩陣信息聚合的方法。本文設(shè)計(jì)自適應(yīng)的局部圖卷積來探索獨(dú)立的多鄰接矩陣的信息聚合,其機(jī)制如式(6)所示。
其中: Fi=σ(XWi) , 對應(yīng)于
,并且
對應(yīng)于空間逐點(diǎn)卷積。由于 A 根據(jù)身體的不同部分表示,多圖鄰接矩陣是骨架圖卷積用于學(xué)習(xí)節(jié)點(diǎn)間關(guān)系的最重要的技術(shù)之一。為了深入理解網(wǎng)絡(luò)的結(jié)構(gòu)和功能,本文將身體各個(gè)部分的鄰接矩陣又表示為
其中 對應(yīng)于自連接矩陣用于表示每個(gè)節(jié)點(diǎn)與自身的連接,確保節(jié)點(diǎn)特征的保留; Ai,Ao 對應(yīng)于入向連接矩陣、出向連接矩陣則分別建模節(jié)點(diǎn)的前驅(qū)和后繼關(guān)系,有助于更好地捕捉節(jié)點(diǎn)之間的方向性信息。這種多視角的圖結(jié)構(gòu)設(shè)計(jì)能夠更有效地捕捉人體動(dòng)作的動(dòng)態(tài)變化特征,從而提升行為識別的性能。Am 是整個(gè)訓(xùn)練階段中與其他參數(shù)協(xié)同優(yōu)化的參數(shù),其負(fù)責(zé)動(dòng)態(tài)調(diào)整GCN各層以及不同骨架樣本的圖結(jié)構(gòu),對應(yīng)于全局的拓?fù)浣Y(jié)構(gòu),使得身體不同關(guān)節(jié)之間相互關(guān)聯(lián),從而使得身體各部分之間也有了關(guān)聯(lián)。
1.5 引入時(shí)空DropGraph
在傳統(tǒng)的正則化過程中,如dropout隨機(jī)丟棄一些節(jié)點(diǎn),而DropEdge則隨機(jī)丟棄圖中的邊。但在圖結(jié)構(gòu)中,這類傳統(tǒng)正則化方法存在一個(gè)問題:即使某些節(jié)點(diǎn)或邊被隨機(jī)丟棄,丟失的信息仍然可以通過其鄰居節(jié)點(diǎn)傳播,從而導(dǎo)致模型仍可能發(fā)生過擬合。為更好地處理關(guān)節(jié)和骨骼的連接性問題,本文借鑒DC-GCN+ADG[24] 的思想,引人時(shí)空 DropGraph 對GCN進(jìn)行有效的正則化。DropGraph的核心策略:當(dāng)移除某個(gè)節(jié)點(diǎn)的同時(shí),將其相鄰的節(jié)點(diǎn)集合也一并移除。時(shí)空DropGraph由空間DropGraph和時(shí)間DropGraph級聯(lián)構(gòu)成。首先,空間DropGraph在空間維度上將丟棄的節(jié)點(diǎn)擴(kuò)展到其鄰近的節(jié)點(diǎn),即當(dāng)移除某個(gè)節(jié)點(diǎn)時(shí),連同與之直接相連的節(jié)點(diǎn)也一并移除。隨后,時(shí)間DropGraph將丟棄的區(qū)域擴(kuò)展到時(shí)間維度,影響到時(shí)間上相鄰幀的節(jié)點(diǎn)。最終,時(shí)空DropGraph的策略應(yīng)用于身體的所有關(guān)節(jié),確保當(dāng)某個(gè)節(jié)點(diǎn)被移除時(shí),與其相鄰的節(jié)點(diǎn)集合也同步被移除。這樣可以更好地捕捉關(guān)節(jié)和骨骼之間的連接性,從而有效增強(qiáng)模型的正則化效果和泛化能力。圖6為幾種正則化方式對比。
2實(shí)驗(yàn)
本文在NTU RGB+D60[13] 和NT URGB+D120[27] 兩個(gè)大型公開數(shù)據(jù)集上,對模型進(jìn)行了評估和測試。通過消融實(shí)驗(yàn)的結(jié)果證明各個(gè)模塊的性能。同時(shí),將本文方法與其他方法比較,以證明改進(jìn)的合理性。
2.1 數(shù)據(jù)集
NTU RGB+D 60 是一個(gè)由三個(gè)Kinectv2攝像機(jī)收集的56880動(dòng)作視頻組成的數(shù)據(jù)集,涵蓋40名不同年齡階段的志愿者的60種動(dòng)作,分為日常動(dòng)作、健康相關(guān)的動(dòng)作和雙人相互動(dòng)作三大類的動(dòng)作類別。該數(shù)據(jù)集推薦了兩個(gè)基準(zhǔn):a)跨對象C-Sub(cross-subject)。根據(jù)參與者的ID將數(shù)據(jù)劃分為訓(xùn)練集(20個(gè)受試者的40320個(gè)樣本)和測試集(另20個(gè)受試者的16560個(gè)樣本)。b)跨視角C-View(cross-view)。根據(jù)攝像頭視角劃分?jǐn)?shù)據(jù),從第2和3攝像頭采集了37920個(gè)訓(xùn)練樣本,從第1攝像頭采集了18960個(gè)評估樣本。
NT URGB+D120 是NTU RGB+D60 的增強(qiáng)版,新增了60個(gè)動(dòng)作類別,共包含114480個(gè)視頻,由106名志愿者從三個(gè)攝像機(jī)視角和32個(gè)設(shè)置中執(zhí)行。該數(shù)據(jù)集還提供了兩個(gè)基準(zhǔn):a)跨對象 C-Sub (cross-subject)。按照志愿者劃分,包含63026個(gè)訓(xùn)練樣本和50919個(gè)評估樣本。b)跨設(shè)置C-Set(cross-setup)。按照相機(jī)不同設(shè)置方案,包含54468個(gè)用于訓(xùn)練的樣本(偶數(shù)設(shè)置ID)和49477個(gè)用于評估的樣本(奇數(shù)設(shè)置ID)。
2.2 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)采用的是Ubuntu18.04操作系統(tǒng)的計(jì)算機(jī),配有Inteli7-9700CPU,16GBRAM,實(shí)驗(yàn)的訓(xùn)練和測試過程是在配有NVIDIAGTX2080Ti顯卡的設(shè)備上完成的。在訓(xùn)練過程中,遵循 TSGCNeXt 的訓(xùn)練技術(shù),使用 AdamW[28] ,學(xué)習(xí)率為0.004。訓(xùn)練周期的總數(shù)為300個(gè),前20個(gè)使用線性升溫技術(shù),其余280個(gè)使用余弦衰減時(shí)間表。表1列舉了本實(shí)驗(yàn)的基本參數(shù)設(shè)置。
2.3 評價(jià)指標(biāo)
本文將在NTU RGB+D60 和NTU RGB+D 120兩大數(shù)據(jù)集的兩個(gè)基準(zhǔn)上計(jì)算top-1行為識別的準(zhǔn)確度。top-1準(zhǔn)確率是一種常用的模型評估指標(biāo),通過比較模型預(yù)測出的概率最高類別與實(shí)際類別是否一致來判斷預(yù)測的準(zhǔn)確性。當(dāng)預(yù)測的最高概率類別與真實(shí)類別相匹配時(shí),該預(yù)測被判定為正確,若不匹配,則視為錯(cuò)誤預(yù)測,基于此來計(jì)算分類的準(zhǔn)確度。top-1準(zhǔn)確率可由式(8)進(jìn)行計(jì)算。
其中: x 用來判斷條件是否為真,若為真則取1,否則取0;classtue表示第 i 個(gè)動(dòng)作的真實(shí)類別; )表示第 χi 個(gè)動(dòng)作中分?jǐn)?shù)最高的預(yù)測類別; N 為動(dòng)作總數(shù)。
2.4 實(shí)驗(yàn)結(jié)果分析
本文分別在NTU RGB+D60 數(shù)據(jù)集的C-Sub模式和NTURGB+D 120 的C-Sub模式下進(jìn)行了訓(xùn)練和測試,觀察本文模型隨迭代次數(shù)增加而發(fā)生的性能變化。圖7展示了在NTURGB+D60 數(shù)據(jù)集的C-Sub基準(zhǔn)下的準(zhǔn)確率和損失值隨著訓(xùn)練輪數(shù)的變化情況。訓(xùn)練達(dá)到200個(gè)周期,top-1準(zhǔn)確率開始趨于穩(wěn)定。圖8則呈現(xiàn)了NTU RGB+D 120 數(shù)據(jù)集的C-Sub基準(zhǔn)下的準(zhǔn)確率和損失值,訓(xùn)練達(dá)到150個(gè)周期,top-1準(zhǔn)確率開始趨于穩(wěn)定。
為了證明本文中的自適應(yīng)的局部圖卷積模塊和多尺度時(shí)間建模模塊的有效性,本文在NTURGB +D60 數(shù)據(jù)集的C-Sub基準(zhǔn)下進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)選用的基線模型為TSGCNeXt,從實(shí)驗(yàn)結(jié)果可以看出在 NTURGB+D 60 數(shù)據(jù)集的 C-Sub 基準(zhǔn)下,采用自適應(yīng)局部圖卷積模塊,模型的準(zhǔn)確率提升0.12百分點(diǎn),同時(shí)采用多尺度時(shí)間建模模塊和自適應(yīng)的局部圖卷積模塊準(zhǔn)確率達(dá)到93.37% ,然后,在加入時(shí)空DropGraph模塊,準(zhǔn)確率進(jìn)一步提升至 93.39% 。因此,提取重要部位的局部特征,同時(shí)使模型能擺脫不同身體部分固有連接的局限性,實(shí)現(xiàn)對人體骨骼結(jié)構(gòu)的獨(dú)立動(dòng)態(tài)建模;對不同持續(xù)時(shí)間的動(dòng)作進(jìn)行建模,從而捕捉動(dòng)作的短期和長期依賴關(guān)系,更全面地理解動(dòng)作以及采用時(shí)空DropGraph模塊,提高模型的泛化能力,使得識別結(jié)果更加準(zhǔn)確。
本文還對每種行為識別精度進(jìn)行了分析,圖9展示了本文方法NTU RGB+D 60 數(shù)據(jù)集上60類動(dòng)作的準(zhǔn)確率,可以看出,標(biāo)簽2、11、12、29、30分別代表吃飯( 78% )閱讀( 75% )、寫字( 73% )、玩手機(jī)( 78% )、鍵盤上打字( 78% )等行為識別的精準(zhǔn)度低于 80% 。這幾種行為的骨架非常相似,都是坐著的行為。主要區(qū)別在于與人體行為交互的物體的不同,閱讀的交互物是書,閱讀的交互物是筆,玩手機(jī)的交互物是手機(jī),導(dǎo)致了本文模型在此類動(dòng)作上欠缺識別能力。因此,單純的骨架數(shù)據(jù)并不能體現(xiàn)這些動(dòng)作,需要額外的環(huán)境信息才能準(zhǔn)確地識別。
在NTU RGB+D60 和NT URGB+D120 這兩個(gè)數(shù)據(jù)集的兩個(gè)基準(zhǔn)上,本文方法與近年來一些具有影響力的模型進(jìn)行了性能和參數(shù)量( Param/M )的比較,主要依據(jù)是top-1準(zhǔn)確率,比較結(jié)果在表3和4中展示,其中Param/M指標(biāo)中“—”表示參考文獻(xiàn)中未提供的實(shí)驗(yàn)結(jié)果。
由表3和4分析可知,本文方法在兩個(gè)數(shù)據(jù)集的兩個(gè)基準(zhǔn)上的性能表現(xiàn)都有顯著的提升。在NTU RGB+D 60 數(shù)據(jù)集上,本文方法與SkeletonGCL(basedonCTR-GCN)相比提升并不顯著。此外,NTU ΔJRGB+D 60 的C-View基準(zhǔn)下,準(zhǔn)確度指標(biāo)學(xué)習(xí)難度較低,且準(zhǔn)確度趨于飽和。但是,在最難學(xué)習(xí)的NTU RGB+D 120 數(shù)據(jù)集上,本文方法的性能有了顯著提升,與SkeletonGCL(basedonCTR-GCN)相比在C-Sub、C-Set這兩個(gè)基準(zhǔn)下,依次提升0.98、0.95百分點(diǎn)。本文方法與Block-GCN相比,在NTU RGB+D120 數(shù)據(jù)集的C-Sub、C-Set這兩個(gè)基準(zhǔn)下,依次提升0.18、0.45百分點(diǎn)。與ML-STGNet(2-ensem-ble)相比,在NTU RGB+D60 數(shù)據(jù)集的兩個(gè)基準(zhǔn)上分別提升1.49和0.98百分點(diǎn),在NTU RGB+D 120 數(shù)據(jù)集的兩個(gè)基準(zhǔn)上分別提升1.88和1.95百分點(diǎn),且參數(shù)量也小。與先進(jìn)的方法DeGCN相比在準(zhǔn)確率方面相對低一些。但是,本文方法的參數(shù)量相比DeGCN小一些。DeGCN通過關(guān)節(jié)、骨骼、速度以及骨骼和關(guān)節(jié)的融合四個(gè)分支進(jìn)行行為識別,這樣會(huì)導(dǎo)致參數(shù)量較大。實(shí)驗(yàn)結(jié)果表明,自適應(yīng)的局部圖卷積和多尺度時(shí)間建模,通過解決固定的圖結(jié)構(gòu)和固定內(nèi)核大小的時(shí)間卷積無法適應(yīng)所有動(dòng)作類型、姿態(tài)變化及動(dòng)作時(shí)長差異,會(huì)導(dǎo)致建模誤差的問題,從而實(shí)現(xiàn)動(dòng)態(tài)調(diào)整骨架關(guān)節(jié)點(diǎn)的連接及不同持續(xù)時(shí)間的動(dòng)作進(jìn)行建模,進(jìn)而有效地提取行為識別的時(shí)空特征。時(shí)空DropGraph,通過將DropGraph應(yīng)用于空間和時(shí)間圖中,從而更好地處理關(guān)節(jié)和骨骼的連接性,提高模型的泛化能力和識別性能。
為了證明本文方法的有效性,將其和ST-GCN上進(jìn)行“喝水”和“拍手”的行為識別,識別結(jié)果如圖10所示。
由圖10(a)(b)可以看出,當(dāng)檢測“喝水\"這一持續(xù)時(shí)間較長的行為時(shí),固定大小的卷積核無法捕捉長時(shí)間的動(dòng)態(tài),這就導(dǎo)致“喝水”行為被誤識別成其他與手臂運(yùn)動(dòng)相似的短時(shí)行為,如圖10(b)中誤認(rèn)為了敬禮。由圖10(c)(d)可以看出,當(dāng)檢測“拍手”這一涉及左手和右手協(xié)作的行為時(shí),固定的拓?fù)鋱D無法有效捕捉左右手之間的聯(lián)系。因?yàn)樵陬A(yù)定義的拓?fù)鋱D中,這兩個(gè)關(guān)節(jié)沒有直接的連接,這就導(dǎo)致“拍手”行為被誤識別成其他不涉及雙手依賴關(guān)系的行為,如圖10(d)中誤認(rèn)為了揮手。識別結(jié)果表明,本文方法具有一定的有效性。
3結(jié)束語
本文提出了一種自適應(yīng)局部圖卷積和多尺度時(shí)間建模結(jié)合的方法。通過提出一種自適應(yīng)的局部圖卷積模塊,使得不同身體部位在不同行為中具有不同的重要性,擺脫不同身體部分固有連接的局限性,實(shí)現(xiàn)對人體骨骼結(jié)構(gòu)的獨(dú)立動(dòng)態(tài)建模。通過多尺度時(shí)間特征提取模塊,既降低了參數(shù)量和計(jì)算復(fù)雜度,又對不同持續(xù)時(shí)間的動(dòng)作進(jìn)行建模,從而捕捉動(dòng)作的短期和長期依賴關(guān)系,更全面地理解動(dòng)作。通過引入時(shí)空DropGraph,從而在基于骨骼數(shù)據(jù)進(jìn)行行為識別的任務(wù)中更好地捕捉到局部特征和結(jié)構(gòu)信息,有助于增強(qiáng)其泛化性。在NTU RGB+D60 和 NTURGB+D120 數(shù)據(jù)集上進(jìn)行的對比實(shí)驗(yàn)結(jié)果表明,本文方法在檢測精度上相較于基準(zhǔn)網(wǎng)絡(luò)有顯著提高,證明了改進(jìn)方法的有效性。
參考文獻(xiàn):
[1]CarreiraJ,ZissermanA.Quovadis,actionrecognition?Anewmodel and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017: 4724-4733.
[2]Tran D,BourdevL,F(xiàn)ergusR,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International ConferenceonComputerVision.Piscataway,NJ:IEEEPress,2O15:4489- 4497.
[3]Wang Limin,Xiong Yuanjun, Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of European Conference on Computer Vision. Cham:Springer,2016:20- 36.
[4]SimonyanK,Zisserman A.Two-streamconvolutioal networksforaction recognition in videos[J].Advances in Neural Information Processing Systems,2014,1(1) :568-576.
[5]ShiLei,Zhang Yifan,Cheng Jian,et al.Skeleton-based action recognition with directed graph neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway, NJ:IEEE Press,2019:7904-7913.
[6]Weinzaepfel P,Rogez G. Mimetics:towards understanding human actions out of context[J]. International Joumal of Computer Vision, 2021,129(5) :1675-1690.
[7]曾勝強(qiáng),李琳.基于姿態(tài)校正與姿態(tài)融合的2D/3D骨架動(dòng)作識別 方法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):900-905.(Zeng Shengqiang,LiLin.2D/3D skeleton action recognition basedon posture transformation and posture fusion[J]. Application Research of Computers,2022,39(3):900-905.)
[8]盧健,李萱峰,趙博,等.骨骼信息的人體行為識別綜述[J].中國 圖象圖形學(xué)報(bào),2023,28(12):3651-3669.(LuJian,Li Xuanfeng, Zhao Bo,et al.A review of skeleton-based human action recognition [J].Jourmal of Image and Graphics,2023,28(12):3651-3669.)
[9]Wang Jiang,Liu Zicheng,Wu Ying,et al. Mining actionlet ensemble for action recognition with depth cameras[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2012:1290-1297.
[10] Vemulapalli R,Aate F,Chellappa R. Humanactionrecognionby representing 3D skeletons as points in a lie group[C]//Proc of IEEE Conference on Computer Vision and Patem Recognition. Piscataway, NJ:IEEE Press,2014:588-595.
[11]FernandoB,GavvesE,JoséOM,etal.Modelingvideoevolutionfor action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2O15: 5378- 5387.
[12]Du Yong,Wang Wei,Wang Liang.Hierarchical recurrent neural network for skeleton based action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2015:1110-1118.
[13]Shahroudy A,Liu Jun,Ng TT,et al.NTU RGB D:alarge scale dataset for 3D human activity analysis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1010-1019.
[14]Liu Jun,ShahroudyA, Xu Dong,et al.Spatio-temporal LSTM with trust gates for 3D human action recognition[C]//Proc of European Conference on Computer Vision. Cham:Springer,2016:816-833.
[15]Tu Juanhui,Liu Mengyuan,Liu Hong. Skeleton-based human action recognition using spatial temporal 3D convolutional neural networks [C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ: IEEEPress,2018:1-6.
[16]KimTS,ReiterA. Interpretable 3D human action analysiswith temporal convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ: IEEE Press,2017:1623-1631.
[17] Ke Qiuhong,Bennamoun M,An Senjian,et al. A new representation of skeleton sequences for 3D action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2017:4570-4579.
[18]梁成武,胡偉,楊杰,等.融合時(shí)空領(lǐng)域知識與數(shù)據(jù)驅(qū)動(dòng)的骨架行 為識別[J].計(jì)算機(jī)工程與應(yīng)用,2025,61(5):165-176.(Liang Chengwu,HuWei,YangJie,etal.Fusionofspatio-temporal domain knowledge and data-driven for skeleton-based action recognition[J]. Computer Engineering and Applications,2025,61(5):165-176.)
[19]唐櫞,魏維,鄭程,等.基于多層次圖拓?fù)鋵Ρ燃?xì)化的動(dòng)作識別 [J].計(jì)算機(jī)應(yīng)用研究,2025,42(2):630-635.(TangYuan,Wei Wei,Zheng Cheng,et al. Action recognition based on multi-level graph topology comparisonand refinement[J].Application Research of Combuters.2025.42(2):630-635.)
[20]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutionalnetworks for skeleton-based action recognition[C]//Procof AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.
[21]Li Maosen,Chen Siheng,Chen Xu,et al.Actional-structural graph convolutional networks for skeleton-based action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019 :3590-3598.
[22] Shi Lei, Zhang Yifan,Cheng Jian,et al. Two-stream adaptive graph convolutional networksfor skeleton-based action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12018-12027.
[23]ChenYuxin,Zhang Ziqi,Yuan Chunfeng,etal.Chanel-wisetopology refinement graph convolution for skeleton-based action recognition [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2021:13339-13348.
[24]Thakkar K,Narayanan P J.Part-based graph convolutional network for action recognition[EB/OL].(2018-09-13).htps://arxiv.org/abs/ 1809.04983.
[25]馬利,鄭詩雨,牛斌.應(yīng)用區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積的動(dòng)作識別方法 [J].計(jì)算機(jī)科學(xué)與探索,2022,16(4):898-908.(MaLi,Zheng Shiyu,Niu Bin.Action recognition method on regional association adaptive graph convolution[J]. Journal of Frontiers of Computer Science and Technology,2022,16(4):898-908.)
[26]Liu D,Chen Pengpeng, Yao Miao,et al. TSGCNeXt: dynamic-static multi-graph convolution for effcient skeleton-based action recognition with long-term learning potential[EB/OL].(2023-04-23).https:// arxiv.org/abs/2304.11631.
[27] Liu Jun,Shahroudy A,Perez M,et al. NTU RGB +I )120: alargescale benchmark for3D human activityunderstanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42 (10) :2684-2701.
[28]LoshchilovI,HuterF.Decoupled weight decayregularization[C]// Proc of International Conference on Learning Representations.2018.
[29] Liu Ziyu,Zhang Hongwen,Chen Zhenghao,et al. Disentangling and unifying graph convolutions for skeleton-based action recognition [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020:140-149.
[30]Wang Shengqin,Zhang Yongji,Zhao Minghao,et al.Skeleton-based action recognition via temporal-channel aggregation[EB/OL].(2022- 05-31). https://arxiv.org/abs/2205.15936.
[31]TrivediN,Sarvadevabhatla R K. PSUMNet: unified modalitypart streams areall you need for efficient pose-basedactionrecognition [C]//Porc of European Conference on Computer Vision. Cham: Springer,2023:211-227.
[32]Huang Xiaohu,ZhouHao,Wang Jian,et al.Graphcontrastivelearning for skeleton-basedactionrecognition[EB/OL].(2023-06-10). https://doi. org/10.48550/arXiv.2301.10900.
[3]Liu Jinfu,Wang Xinshun,Wang Can,etal.Temporaldecouplinggraph convolutional network for skeleton-based gesture recognition[J]. IEEE Trans on Multimedia,2023,26:811-823.
[34] Zhu Yisheng,ShuaiHui,Liu Guangcan,etal. Multilevelspatialtemporal excited graph network for skeleton-basedaction recognition [J].IEEE Trans on Image Processing,2022,32:496-508.
[35]Myung W,Su Nan,Xue Jinghao,et al. DeGCN:deformable graph convolutional networks for skeleton-based actionrecognition[J].IEEE Transon Image Processing,2024,33:2477-2490.
[36]Mao Yunyao,Deng Jiajun,Zhou Wengang,et al.Masked motion predictors are strong 3D action representation learners[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway, NJ:IEEE Press,2023:10147-10157.
[37] Zhou Yuxuan,Yan Xudong,Cheng Zhiqi,et al.BlockGCN: redefine topology awareness for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2024:2049-2058.
[38]Cheng Ke,Zhang Yifan,Cao Congqi,et al. Decoupling GCN with DropGraph module for skeleton-based action recognition[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020:536-