

















摘 要:動作識別是計算機視覺領域中的前沿探索,得益于圖卷積網絡(GCN)處理非歐幾里德數據的優勢,該方法已成為從骨架數據中提取特征的主流方法。針對目前GCN忽視跨序列信息、對運動軌跡相似度高的模糊樣本難以區分等問題,提出一種結合對比學習的圖拓撲對比細化方法(graph topology contrast refinement block,GTCR-Block)。首先,根據模型的識別情況,將樣本劃分為可信樣本和模糊樣本;其次,建立樣本級記憶庫(sample-level memory bank,Bsam)和全局級記憶庫(global-level memory bank,Bglo),存儲跨批次圖拓撲,使用對比學習方法使圖拓撲具有類內聚合、類間分散的特性,將模糊樣本在特征空間中分隔開。最后,采用多層次的策略學習更多的判別特征表示。實驗結果表明,在不增加額外參數的情況下,在NTU RGB+D數據集達到了X-Sub基準93.3%和X-View基準97.4%的準確率,在 NTU RGB+D 120數據集達到了X-Sub基準89.4%和X-set基準91.2%的準確率。采用GTCR-Block能夠有效提升動作識別的效果。
關鍵詞:動作識別;圖卷積網絡;對比學習;多層次;拓撲細化
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)02-043-0630-06
doi:10.19734/j.issn.1001-3695.2024.04.0167
Action recognition based on multi-level graph topology comparison and refinement
Tang Yuan,Wei Wei’,Zheng Cheng,Li Chen,Jiang Haowen
(College of Soft Engineering,Chengdu University of Information Technology,Chengdu 610225,China)
Abstract:Action recognition represents a cutting-edge exploration in the field of computer vision.Leveraging the advantages of the graph convolutional network (GCN) in handling non-Euclidean data,this method has become a mainstream approach for extracting features from skeleton data.Addressing the current issues where GCN overlooks cross-sequence information and struggles to distinguish samples with high trajectory similarity,this paper proposed a GTCR-Block combined with contrastive learning.Firstly,based on the model’s recognition results,it categorized samples into reliable samples and ambiguous samples.Secondly,it established a sample-level memory bank and a global-level memory bank to store cross-batch graph topologies.Using contrastive learning,it ensured the graph topologies exhibited intra-class aggregation and inter-class dispersion cha-racteristics,effectively separating ambiguous samples in the feature space.Lastly,it employed multi-level strategies to learn more discriminative feature representations.Experimental results demonstrate that without adding extra parameters,this approach achieves an accuracy of 93.3% on the X-Sub benchmark and 97.4% on the X-View benchmark of the NTU RGB+D dataset.For the NTU RGB+D 120 dataset,it achieves an accuracy of 89.4% on the X-Sub benchmark and 91.2% on the X-set benchmark.The adoption of the GTCR-Block significantly enhances action recognition performance.
Key words:action recognition;graph convolutional network;contrastive learning;multi-level;topology refinement
0 引言
人體動作識別是計算機視覺領域的研究熱點,在健身運動、公共安全、醫療監護、人機交互等領域都具有廣泛的應用。近年來,因低成本深度相機和優秀的姿態估計算法相繼涌現,較精準的骨架模態數據集也隨之出現,與深度、RGB、光流等模態相比,骨架模態不受復雜的背景信息影響,且信息密度高、計算量小,更具有表達能力,但同時因只有人體骨架而缺少背景中的相關物體,在模糊樣本中分類效果不佳。
傳統的骨架動作識別通常使用手工特征對人體進行建模,需要大量手動調參以適應特定的數據集,消耗人力大、特征提取能力和泛化能力差,難以充分利用時間和空間特征。近年來隨著硬件資源的不斷發展,深度學習自動從視頻中提取特征的方式也展現出了比傳統方法更強大的能力,循環神經網絡(RNN)[1]、卷積神經網絡(CNN)[2]和圖卷積網絡(GCN)被廣泛應用到動作識別中。其中RNN將關節坐標表示為向量序列后進行建模,CNN則將關節坐標通過人工設計的規則表示為偽圖像,然而這兩種方法都不能完全表示骨架數據的結構。骨架數據是一種非歐幾里德數據,并非矢量序列或二維網格,使用GCN提取這類數據的特征比RNN和CNN更有優勢。Yan等人[3]首次將圖卷積網絡應用于骨架動作識別,提出時空圖卷積網絡(ST-GCN),利用人體關節之間的自然連接關系進行動作建模,但所有通道共享同一圖拓撲,難以充分提取多種不同動作的特征。Shi 等人[4]為了解決上述問題,提出雙流自適應圖卷積神經網絡(2s-AGCN),學習了一個非固定的關系圖拓撲,提高了圖拓撲的表達能力,但同一樣本的所有通道仍然共享同一圖拓撲。Chen等人[5]則提出通道拓撲細化圖卷積網絡(CTR-GCN),通過同時學習一個共享的拓撲特征和通道特定相關性的方法,獲得不同的拓撲結構,并有效地聚合不同通道中的聯合特征,得到逐通道的拓撲結構。上述研究方法都針對圖拓撲進行了細化,最終在CTR-GCN上達到了逐通道的拓撲結構,在序列內學到了豐富的聚合特征,但這種特征仍然是局部的,CTR-GCN對運動軌跡相似度高的模糊樣本仍難以區分。對于“戴上眼鏡”和“摘下眼鏡”,可以通過時間序列信息加以區分,但對于如“自拍”和“指向某物”、“玩平板電腦”和“在鍵盤上鍵入”這類動作則需要更豐富的空間信息。因此本文提出一種圖拓撲對比細化方法,擴大異類樣本之間的距離,拉近同類樣本的距離,提升GCN的模糊樣本分類能力。
1 相關工作
1.1 基于圖卷積的動作識別
近年來,圖卷積網絡廣泛應用于動作識別中,Yan等人[3]提出時空圖卷積網絡(ST-GCN),利用人體關節之間的自然連接關系進行動作建模,分別從時間維度和空間維度提取時間軌跡特征和空間結構特征,顯著提高了動作識別的準確率,也為后續研究工作提供了思路。Shi 等人[4]提出雙流自適應圖卷積神經網絡(2s-AGCN),引入一個可學習的非固定圖拓撲,與原來的固定圖拓撲相結合,提高了圖拓撲的靈活性,并將一階關節信息和二階骨骼信息融合。Cheng 等人[6]認為傳統的圖卷積計算成本過于龐大,并且在空間和時間感知野上都是固定的,還需要預先人工設置,于是提出移位圖卷積網絡(Shift-GCN),目的是利用一種新的卷積算子Shift卷積和1×1卷積算子結合,使得1×1卷積可以同時融合空間域和通道域的信息,同時大幅度減少計算量和參數量,并在此基礎上進一步引入了空間架構搜索技術,巧妙地融合了顯式空間編碼信息,構建了全新的Shift-GCN++模型。Liu等人[7]提出多尺度和統一的時空模型(MS-G3D),多尺度有效解決了有偏權重問題,跨時空模型通過對視頻幀的選擇將不同時空域連接起來,并使用空洞卷積有效增大了感受野。Cheng等人[8]受CNN解耦聚合機制的啟發,提出解耦圖卷積網絡(DC-GCN),考慮到解耦圖卷積會引入冗余的圖拓撲,將通道分為g組,組中的通道共享一個可訓練的圖拓撲,同時提出了一種注意力引導的DropGraph來丟棄相關節點中的特征以解決GCN中普遍存在的過擬合問題。Chen等人[5]提出CTR-GCN,同時學習兩個特征:一個共享的拓撲特征和通道特定的相關性。共享拓撲特征就是鄰接矩陣,充當所有通道的先驗,并提供頂點之間的一般關系,針對每個通道的特定通道相關性對其進行細化,得到了通道級的拓撲結構。然而,圖拓撲雖然在不斷細化,GCN的特征表達能力也得到了加強,但目前仍缺乏對跨序列的全局視野的利用。
1.2 對比學習
對比學習已經在多個研究領域取得了顯著的進展,其核心思想是通過比較樣本對之間的相似性來學習表示,算法被訓練以最大化同類樣本之間的相似度,并最小化異類之間的相似度。對比學習通常需要利用數據增強生成一組圖像的轉換版本,然后訓練網絡以區分圖像。
Lin等人[9]提出了一種依賴于動作的對比學習方法,以區分的方式構建運動區域和靜態區域之間的特征表示,更好地進行動作建模。Thoker等人[10]提出了骨架間對比學習,以交叉對比的方式從多個不同的輸入骨架表示中學習,提出幾種特定于骨架的空間和時間增強,進一步學習骨架數據的時空動力學。Peng等人[11]提出了在不使用標記測試集的情況下評估經過訓練的機器學習模型,消除了循環中涉及訓練集的問題,其核心思想建立在理論分析的基礎上,該理論分析將模型性能與對比損失聯系起來。Rao等人[12]提出了一種基于Transformer的通用骨架圖原型對比學習(TranSG)方法,該方法具有結構軌跡提示重建,以充分捕獲骨架圖中的骨架關系和有價值的時空語義,用于人員重新識別。但是,這些方法通常設計具有原始身體關節的骨架描述符或進行骨架序列表示學習,很少將身體關節的細粒度表示和全局層面結合起來探索有用的語義。
2 網絡結構
2.1 整體結構
本文提出的GTCR-Block是一個即插即用的模塊,可用于ST-GCN 、2s-AGCN 、CTR-GCN等圖卷積網絡,現以CTR-GCN為例。
CTR-GCN是骨架動作識別中經典的圖卷積網絡,于2021年提出,遵循ST-GCN的大框架,分為空間維度和時間維度,其中空間維度使用的方法為通道拓撲細化圖卷積(channel-wise topology refinement graph convolution,CTR-GC),其輸入可以表示為X∈?3×T×N,其中,3表示關節點的三維坐標,T表示幀數,N是每幀中關節點的個數,關節點可以表示為V={V1,V2,…,VN}。CTR-GC分為三個部分,即將輸入轉換為高級特征表示的特征轉換模塊、針對每個通道的特定通道相關性對圖拓撲進行細化的通道拓撲建模模塊、將得到的高維特征通過愛因斯坦求和約定聚合起來的通道聚合模塊,如圖1所示。
時間維度基本沿用MS-G3D[7]的方法,區別在于使用了較少的分支,因為過多的分支會降低推理速度。一系列時態卷積網絡(TCN)和圖卷積網絡(GCN)構成一個基本單元,稱為TGN,具體來說,TCN 通過在時間維度上施加一維 CNN 來提取時間特征;GCN則通過CTR-GC學習逐通道的拓撲圖來提取空間特征。它們通過降低時間維度、增加通道維度來生成多尺度特征,如圖2所示。
CTR-GCN由 10 個基本單元TGN組成,然后使用池化層獲得一維高級特征向量,最后使用全連接層將特征映射到K個候選類別的概率分布中。其中第一層、第五層、第八層TGN進行了空間通道維度的變換。本文便將GTCR-Block模塊施加在CTR-GCN方法的TGN之間,對圖拓撲進行逐通道的對比學習細化,增強模型的特征提取能力。GTCR-Block僅在訓練時調用,測試時不會使用,因此,測試不會增加任何參數。模型的整體框架如圖3所示。在不改變backbone的情況下,分別在第一層、第五層、第八層、第十層添加GTCR-Block模塊。第一層、第五層、第八層是backbone中特征維度變換的地方,添加GTCR-Block對模型增強的特征提取能力進行更進一步的優化;第十層是backbone的最后一層,決定了模型提取的最終特征,因此添加GTCR-Block模塊。
2.2 GTCR-Block模塊
GTCR-Block主要思路是提高基于骨架的模型在模糊樣本上的分類能力,因為這些動作非常相似,很容易被錯誤分類。圖拓撲對圖卷積的特征提取能力起著至關重要的作用,它指出了每類動作關節間的連接強度,決定著關節間的信息傳遞。
以往的許多研究都是在對圖拓撲進行優化,例如在最早提出的 ST-GCN[3]中,后續的2s-AGCN[4]中,g∈?K×N×N,在CTR-GCN[5]中,g∈?KS×C′×N×N。其中g表示圖拓撲集合;N表示圖拓撲的長和寬,即骨架數據中關節點的個數;KS表示子圖的個數,通常設置為3;C′表示特征的維度。由此可見,在CTR-GCN已經可以細化學習到每一個通道的圖拓撲,這使得圖卷積的拓撲信息表征能力得到提升,但這種表征能力仍然是局部的,只能在序列內學到豐富的聚合特征。基于此,本文提出一種即插即用的模塊,用于優化backbone中圖拓撲的跨序列學習能力,稱為圖拓撲對比細化方法(GTCR-Block)。
如圖4所示,backbone輸出的圖拓撲為g∈?KS×C′×N×N,首先通過平均池化層沿著通道維度將圖拓撲壓縮為g∈?KS×N×N,然后扁平化為一維向量g∈?KSN2,并通過g(·)投影為V∈?Cg,最后使用對比學習方法通過兩個記憶庫計算損失函數,從而細化圖拓撲,學習跨序列信息。
2.2.1 樣本分類
1)可信樣本 對于GCN能正確分類的樣本,就將其視為真陽性樣本(TP),即可信樣本。來自可信樣本的圖拓撲往往具有更好的類內一致性,收集每一個類別的可信樣本的圖拓撲,并計算全局圖拓撲,這些全局圖拓撲可以作為相應類別的圖拓撲基準。全局圖拓撲可定義為
gKTP=1nKTP∑i∈SKTPgi(1)
其中:SKTP表示一個批次中標簽K的真陽性樣本集;nKTP表示樣本集的大小;gi表示從樣本i中提取的圖拓撲。
在訓練過程中,全局圖拓撲將成為動作k的基準。每個樣本的圖拓撲都應該與相對應的全局圖拓撲盡量接近,而盡量遠離其他標簽的全局圖拓撲,從而達到類內聚集、類間分散的目的。兩個特征向量之間的距離公式定義為
dis(n,v)=nv‖n‖2‖v‖2(2)
其中:n和v表示兩個圖拓撲;‖‖2表示L2范數。
2)模糊樣本 與可信樣本相對應的是模糊樣本,這類樣本往往與其他類別非常相似,模型難以正確分類,如圖5所示。為了在訓練階段發現模糊樣本,并提高模型的模糊樣本分類性能,還要收集分類錯誤的樣本。對于動作標簽k,有兩種類型的模糊樣本。如果動作k的樣本被誤判為其他類別,則稱為假陰性樣本(FN),這類樣本是因為學習到的圖拓撲與其真實類別k的圖拓撲相似度過低。如果其他類別的樣本被誤判為動作k,則稱為假陽性樣本(FP),這類樣本則是因為學習到的圖拓撲與動作k的圖拓撲相似度過高。
2.2.2 記憶庫
記憶庫(memory bank)的作用是在訓練時維護大量的負樣本表示,它存儲每個樣本的嵌入,并在訓練過程中不斷更新。通過記憶庫,模型可以方便地獲取和更新負樣本,進行高效的對比學習。Wu等人[13]描述了一種基于記憶庫來采樣負樣本,從而實現對比學習的方式。每個圖像都將自己本身作為正樣本,將其他圖像作為負樣本,這相當于將每個圖像當做一個類別。Khosla等人[14]提出正樣本來源有兩個,一個是通過數據增強構造,另一個是batch內的同一個類別的數據,負樣本則是同一個batch內與正樣本屬于不同類別的數據。本文為了豐富跨序列上下文,將設置兩個記憶庫來存儲跨批次圖拓撲,分別為樣本級記憶庫(sample-level memory bank,Bsam)和全局級記憶庫(global-level memory bank,Bglo)。樣本級記憶庫Bsam∈?CK×P×Cg。其中P表示Bsam中存儲的每個類別的圖拓撲數;CK表示子圖的數量,通常為3;Cg是一維化的圖拓撲。Bsam中以FN樣本為正樣本集N+sam,FP樣本為負樣本集N-sam,目的是使FN樣本靠近其真實標簽,FP樣本遠離其預測標簽。
全局級記憶庫Bglo∈?CK×Cg,Bglo中以所測樣本真實標簽的全局圖拓撲為正樣本N+glo,其余標簽的全局圖拓撲為負樣本集N-glo,目的是使樣本的圖拓撲靠近其真實標簽的全局圖拓撲,遠離其他標簽的全局圖拓撲。Bglo通過動量更新[15]的原則,避免全局圖拓撲劇烈變化,并充分利用歷史信息,幫助模型更好地捕捉和區分不同類別的樣本特征。全局圖拓撲的動量更新可定義為
GK=(1-α)·gKTP+α×GK(3)
其中:,gKTP是標簽K的全局圖拓撲;α為動量項,經過實驗驗證,設置為0.95。
2.2.3 損失函數
為了細化圖拓撲,學習到模糊樣本中的差別,要分別計算Bsam和Bglo的局部損失。使用所測樣本V為錨點,局部損失函數可定義為
Lsam=-∑V+∈N+samloge(dis(v,v+)/τ)e(dis(v,v+)/τ)+∑V-∈N-same(dis(v,v-)/τ)(4)
Lglo=-∑V+∈N+glologe(dis(v,v+)/τ)e(dis(v,v+)/τ)+∑V-∈N-gloe(dis(v,v-)/τ)(5)
其中:V+表示正樣本集中的元素;V-表示負樣本集中的元素;溫度系數(temperature)τ是超參數。將Bsam和Bglo的局部損失相加即為一個GTCR-Block模塊的損失,可定義為
Lcl=Lsam+Lglo(6)
本文將主干網絡分為四個階段,為了多層次地學習拓撲表示,對每個階段添加一個GTCR-Block,分別位于TGN的第一層、第五層、第八層和最后一層(第十層),多層次損失函數可以定義為
LCL=∑4i=1λi·Licl(7)
其中:LCL是多層次GTCR-Block的損失;Licl是階段i計算的GTCR-Block損失;λi是控制階段i損失函數權重的超參數。
獲得多層次GTCR-Block損失LCL后,再與主干網絡的損失加權求和,作為整個模型的全局損失。假設主干網絡的損失為LCE,那么模型的總體損失函數可定義為
L=λCL·LCL+LCE(8)
其中:λCL是超參數,用來平衡多層次GTCR-Block損失函數和主干網絡的損失函數。
3 實驗與結果分析
3.1 數據集
1)NTU RGB+D[16] 該數據集通過40名受試者收集了56 880個動作樣本,包含60個動作類別。這些動作分為三類:40個日常行為(如梳頭、鼓掌、閱讀)、9個與醫學健康相關(如跌倒、頭痛)、11個為雙人動作(如擁抱、握手)。這些動作發生在17個不同的場景條件下,使用三個相機從三個角度拍攝,即-45°,0°,45°,每個動作受試者對左右兩側相機分別做一次,這樣就會得到2×3個不同角度下的樣本。每個樣本為300幀,小于 300 幀則重復序列使其達到300幀,每幀中最多有兩幅骨架,每幅骨架25個關節點,用三維坐標描述關節點的位置。該數據集按照跨目標(X-Sub)與跨視角(X-View)兩種方式劃分。X-Sub方式下,將40位受試者按編號分為訓練集與測試集,訓練集40 320個樣本,測試集16 560個樣本。X-View 方式下,按照相機ID劃分,將相機ID為2、3的作為訓練集(2個相機),共37 920個樣本;相機ID為1的作為測試集,共18 960個樣本。
2)NTU RGB+D 120[17] 該數據集在NTU-RGB+D數據集上擴充了60個動作類別、57 600個動作樣本,共114 480個動作樣本,通過106名受試者收集。還使用不同的地點和背景,將攝像機設置的數量增加到 32 個。其中82個日常行為、12 個與醫學健康相關、26 個為雙人動作。該數據集按照跨目標(X-Sub)與跨視角(X-Set)兩種方式劃分,偶數設置ID的樣本用于訓練,奇數設置 ID 的樣本用于測試。
3.2 實驗設置
本實驗所采用的硬件設備為1塊NVIDIA GeForce RTX 3090顯卡,軟件設置為CUDA12.1,Python3.10.13,PyTorch2.1.0。使用隨機梯度下降優化器訓練模型,初始學習率設置為 0.1,權重衰減率設置為 0.000 3,動量項α設置為0.95,溫度系數τ設置為0.8,損失函數平衡項設置為λ1=0.1,λ2=0.3,λ3=0.6,λ4=1,λCL=0.2。批大小設置為64,所有樣本的數據幀均調整為64幀,訓練次數為75個epoch,在前5個epoch中,使用學習率預熱策略,將第一個epoch的學習率設置為初始值的1/5,每過一個epoch增加1/5,第5個epoch恢復至初始學習率。在第35和第60個epoch時將學習率衰減為原來的1/10。
3.3 對比實驗
3.3.1 與其他主流骨架動作識別算法的比較
本節分別在2s-AGCN和CTR-GCN方法上添加GTCR-Block模塊,并與其他主流骨架動作識別方法在NTU RGB+D和NTU RGB+D 120數據集上進行了對比,其他方法的數據均使用原論文的實驗結果。如表1所示,本文方法取得最優的效果。2s-AGCN+GTCR-Block與基礎方法2s-AGCN相比,在NTU RGB+D數據集的X-Sub基準上提升了3.4百分點,在X-View基準上提升了1百分點;在NTU RGB+D 120數據集的X-Sub基準上提升了4.6百分點,在X-View基準上提升了4.3百分點。CTR-GCN+GTCR-Block與基礎方法CTR-GCN相比,在NTU RGB+D數據集的X-Sub基準上提升了0.9百分點,在X-View基準上提升了0.6百分比;在NTU RGB+D 120數據集的X-Sub基準上提升了0.5百分點,在X-View基準上提升了0.6百分點。綜上所述,GTCR-Block加入各類主流圖網絡中均能提升準確度性能,這驗證了GTCR-Block的有效性和泛用性。
3.3.2 與基礎模型的比較
本節實驗驗證了GTCR-Block對模型的促進效果。“*”表示原論文沒有給出相應的實驗結果,本文使用其官方代碼重新訓練的模型結果。CTR-GCN 算法采用了四類數據流:第一類使用原始骨架坐標作為輸入,稱為關節流,即“joint”;第二類利用關節點的二階信息作為輸入,稱為骨骼流,即“bone”;第三類使用關節流的運動信息,即“joint-motion”;第四類使用骨骼流的運動信息,即“bone-motion”。將這四類數據流的 softmax 分數相加以獲得最后的識別結果。本文也采用四類數據流的方法,分別使用2s-AGCN和CTR-GCN為基礎模型,在NTU RGB+D和NTU RGB+D 120數據集上驗證GTCR- Block的作用。表2是在NTU RGB+D數據集上的驗證結果,表3是在NTU RGB+D 120數據集上的驗證結果。實驗結果表明,GTCR-Block有助于提升人體動作識別的準確率,這也證明了GTCR-Block 的泛用性,無論使用何種數據模式作為輸入,都可以帶來顯著的改善。
本文進一步比較了基礎模型CTR-GCN和CTR-GCN+GTCR-Block模型在NTU RGB+D數據集中模糊樣本上的準確率,實驗結果如圖6所示,添加GTCR-Block后,在這類樣本中識別效果均大幅提升。在“雙手交叉在前”類上提升了5.6百分點,“鼓掌”類提升了12.1百分點;“閱讀”類提升了11.8百分點,“寫作”類提升了8.9百分點;“玩平板電腦”類提升了9.3百分點,“在鍵盤上鍵入”類提升了8.6百分點;“指向某物”類提升了6.1百分點,“自拍”類提升了4.0百分點。這說明與CTR-GCN相比,本文提出的GTCR-Block能學習到更豐富的跨序列信息,使圖拓撲具有“類內聚合、類間分散”的能力,因此在提升模型模糊樣本識別能力上效果顯著。
本文還采用聚類方法將模型提取到的動作類特征可視化展示在特征空間中。首先在NTU RGB+D數據集中選擇一個類作為錨定類,然后收集錨定類的錯誤分類樣本,并獲得頻率最高的前3個動作。例如以“指向某物”為錨定類,與“自拍”、“胸痛”和“揮手”這三個分類錯誤頻率最高的類構造為一個組,可視化結果如圖7所示,不同的顏色表示不同的動作類(參見電子版)。可以明顯觀察到,CTR-GCN+GTCR-Block方法學習到的特征在空間尺度上更加聚集,這證明了GTCR-Block模塊區分模糊樣本的能力。
同時為了更深入地驗證GTCR-Block模塊對圖拓撲細化調整的作用,本文探索了GTCR-Block模塊在具體動作實例中的表現,可視化地展示了模型所判斷的人體關節之間的連接強度。
為了便于展示,僅可視化具有代表性的幀。如圖8所示,用關節點之間連線的粗細表示關節點的連接強度。上面為CTR-GCN方法的動作實例,下面是CTR-GCN+GTCR-Block動作實例。顯然,在具體動作上,CTR-GCN+GTCR-Block方法所關注到的要點更接近動作的真實標簽。
3.4 消融實驗
3.4.1 超參數的影響
為了驗證各類超參數對模型性能的影響,本文在NTU RGB+D數據集上進行了大量的消融實驗,分別對溫度系數τ、動量項α、各階段的損失權重λi以及平衡多層次對比損失函數和主干損失函數的λCL進行了充分的實驗。實驗結果如表4~6所示,當溫度系數τ=0.8 ,動量項α=0.95,λCL=0.2,λ1=0.1,λ2=0.3,λ3=0.6,λ4=1時,準確率達到最高。
上述實驗結果表明,各類超參數均對模型性能有較大的影響,值得注意的是,盡管超參數的調整可能會導致模型性能出現波動,但實驗數據顯示,模型的性能都不會低于基礎模型的水平。
3.4.2 各模塊的影響
表7研究了GTCR-Block中g(·)的作用,g(·)在對比學習方法中早有應用,其作用在于通過對輸入數據進行非線性變換,可以學習到數據的本質特征,從而提取出有用的信息。不添加g(·)時,模型性能提升了1百分點,添加g(·)能提升1百分點。這表明了g(·)在GCN中仍有助于提升其之前網絡層的表征質量。
為了研究了樣本級記憶庫Bsam和Bglo全局級記憶庫的有效性,將它們分開使用。實驗結果如表8所示,僅使用Bsam提升了0.6百分點,僅使用Bglo提升了0.4百分點,兩者同時使用可以提升1.2百分點,這表明Bsam和Bglo都有助于圖拓撲的細化,但跨序列的Bglo提供了更多細節信息,且兩者具有互補的作用。
為了驗證多層次GTCR-Block的作用,根據GTCR-Block的個數和位置在NTU RGB+D數據集上進行了消融實驗。四個GTCR-Block分別為GTCR-1、GTCR-5、GTCR-8、GTCR-10。實驗結果如表9所示,TCN-10對性能的影響最大,提升了0.8百分點的準確率,靠前的GTCR-Block提升得較少,這是因為在前面學習到的圖拓撲隨著空間卷積模塊和時間卷積模塊的學習,被漸漸稀釋,第10個TGN模塊學習的是最終的圖拓撲,對模型的性能影響最大。
4 結束語
本文提出多層次圖拓撲對比細化的人體骨架動作識別方法。針對主流圖卷積神經網絡僅融合序列內信息而忽視跨序列信息的問題,將所有樣本劃分為可信樣本和模糊樣本,根據樣本劃分建立樣本級記憶庫和全局級記憶庫,拉近同類樣本的距離,使異類樣本互相遠離,以此提升模型在模糊樣本上的分類能力,并采用多層次的策略,學習更多的判別特征表示。分別在NTU RGB+D和NTU RGB+D 120數據集驗證了所提方法的有效性和泛化性,實驗表明該方法能顯著提升現有的主流圖卷積算法的識別效果。但本文方法即使在測試時不增加任何計算量,也難以在有限的算力下部署和應用,后續研究將采用知識蒸餾或模型剪枝等技術來進一步優化模型,保持較高性能的同時實現模型的輕量化和高效化。
參考文獻:
[1]Li Shuai,Li Wanqing,Cook C,et al.Independently recurrent neural network (IndRNN):building a longer and deeper RNN[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:5457-5466.
[2]Caetano C,Bremond F,Schwartz W R.Skeleton image representation for 3D action recognition based on tree structure and reference joints[C]//Proc of SIBGRAPI Conference on Graphics,Patterns and Images.Piscataway,NJ:IEEE Press,2019:16-23.
[3]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.
[4]Shi Lie,Zhang Yifan,Cheng Jian,et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:12026-12035.
[5]Chen Yuxin,Zhang Ziqi,Yuan Chunfeng,et al.Channel-wise topology refinement graph convolution for skeleton based action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:13359-13368.
[6]Cheng Ke,Zhang Yifan,He Xiangyu,et al. Skeleton-based action re-cognition with shift graph convolutional network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:183-192.
[7]Liu Ziyu,Zhang Hongwen,Chen Zhenghao,et al.Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:140-149.
[8]Cheng Ke,Zhang Yifan,Cao Congqi,et al.Decoupling GCN with DropGraph module for skeleton-based action recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:536-553.
[9]Lin Lilang,Zhang Jiahang,Liu Jiaying.Actionlet-dependent contrastive learning for unsupervised skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:2363-2372.
[10]Thoker F M,Doughty H,Snoek C G M.Skeleton-contrastive 3D action representation learning[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:1655-1663.
[11]Peng Ru,Duan Qiuyang,Wang Haobo,et al. CAME:contrastive automated model evaluation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:20121-20132.
[12]Rao Haocong,Miao Chunyan.TranSG:Transformer-based skeleton graph prototype contrastive learning with structure-trajectory prompted reconstruction for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:22118-22128.
[13]Wu Zhirong,Xiong Yuanjun,Yu S X,et al. Unsupervised feature learning via non-parametric instance discrimination[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:3733-3742.
[14]Khosla P,Teterwak P,Wang C,et al.Supervised contrastive learning [J].Advances in Neural Information Processing Systems,2020,33:18661-18673.
[15]Chen Xinlei,Xie Saining,He Kaiming.An empirical study of training self-supervised vision transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:9640-9649.
[16]Shahroudy A,Liu Jun,Ng T T,et al. NTU RGB+D:a large scale dataset for 3D human activity analysis [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1010-1019.
[17]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D 120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,42(10):2684-2701.
[18]Si Chenyang,Chen Wentao,Wang Wei,et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-1236.
[19]Ye Fanfan,Pu Shiliang,Zhong Qiaoyong,et al.Dynamic GCN:context-enriched topology learning for skeleton-based action recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:55-63.
[20]Xu Kailin,Ye Fanfan,Zhong Qiaoyong,et al.Topology-aware convolutional neural network for efficient skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:2866-2874.
[21]Song Yifan,Zhang Zhang,Shan Caifeng,et al.Constructing stronger and faster baselines for skeleton-based action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(2):1474-1488.
[22]Liu Dongjingdin,Chen Pengpeng,Yao Miao,et al.TSGCNeXt:dynamic-static multi-graph convolution for efficient skeleton-based action recognition with long-term learning potential [EB/OL].(2023-04-23).https://arxiv.org/abs/2304.11631.
[23]王琪,何寧.融合內在拓撲與多尺度時間特征的骨架動作識別 [J/OL].計算機工程與應用.(2024-03-10).http://kns.cnki.net/kcms/detail/11.2127.TP.20240308.1634.004.html.(Wang Qi,He Ling.Skeleton action recognition by integrating intrinsic topology and multiscale time features[J/OL].Computer Engineering and Applications.(2024-03-10).http://kns.cnki.net/kcms/detail/11.2127.TP.20240308.1634.004.html.)
[24]Liu Jinfu,Wang Xinshun,Wang Can,et al.Temporal decoupling graph convolutional network for skeleton-based gesture recognition[J].IEEE Trans on Multimedia,2024,26:811-823.