





摘 要:針對現有的人體骨架動作識別方法對肢體信息挖掘不足以及時間特征提取不足的問題,提出了一種基于姿態校正模塊與姿態融合模塊的模型PTF-SGN,實現了對骨架圖關鍵時空信息的充分利用。首先,對骨架圖數據進行預處理,挖掘肢體和關節點的位移信息并提取特征;然后,姿態校正模塊通過無監督學習的方式獲取姿態調整因子,并對人體姿態進行自適應調整,增強了模型在不同環境下的魯棒性;其次,提出一種基于時間注意力機制的姿態融合模塊,學習骨架圖中的短時刻特征與長時刻特征并融合長短時刻特征,加強了對時間特征的表征能力;最后,將骨架圖的全局時空特征輸入到分類網絡中得到動作識別結果。在NTU60 RGB+D、NTU120 RGB+D兩個3D骨架數據集和Penn-Action、HARPET兩個2D骨架數據集上的實驗結果表明,該模型能夠有效地識別骨架時序數據的動作。
關鍵詞:圖卷積網絡;注意力機制;特征融合;動作識別;人體骨架
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)03-045-0900-06
doi:10.19734/j.issn.1001-3695.2021.07.0286
基金項目:國家自然科學基金資助項目(61673277)
作者簡介:曾勝強(1997-),男,貴州遵義人,碩士研究生,主要研究方向為圖像處理、動作識別;李琳(1983-),女(通信作者),山東淮坊人,副教授,碩導,博士,主要研究方向為魯棒控制、多智能體系統控制和圖像處理算法(lilin0211@163.com).
2D/3D skeleton action recognition based on posture
transformation and posture fusion
Zeng Shengqiang,Li Lin?
(School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)
Abstract:Aiming at the problems that existing human skeleton action recognition methods couldn’t explore sufficient human body information and extract sufficient temporal feature,this paper proposed a model based on posture transformation module and posture fusion module(PTF-SGN),which realized the utilization of the key spatio-temporal information in skeleton diagram.Firstly,by preprocessing the skeleton diagram,the model mined the displacement information of limbs and joints,and extracted the features.Then it used the posture transformation module to obtain the posture adjustment factors from the skeleton image data in an unsupervised learning manner,and adaptively adjusted the body posture to enhance the robustness of the model in different environments.Secondly,it proposed a posture fusion module based on the time attention mechanism,which learned the short-term features and the long-term features,and fused the time characteristics of long and short moments to strengthen the characterization ability of time characteristics.Finally,it extracted the global spatio-temporal feature of the skeleton feature to input into the classification network to obtain the action recognition result.The experimental results on the two 3D skeleton datasets of NTU60 RGB+D and NTU120 RGB+D and the two 2D skeleton datasets of Penn-Action and HARPET show that PTF-SGN model can effectively recognize actions of skeleton time series data.
Key words:GCN(graph convolutional network);attention mechanism;feature fusion;action recognition;human skeleton
0 引言
人工智能想要提供更好的服務,關鍵在于理解人類的行為,而不僅僅只是捕捉到人的位置和姿態[1]。近年來,人體動作識別在機器視覺領域一直受到研究人員的廣泛關注,并且具有廣闊的應用場景,例如在智能安防、智能輔助與康復機器人以及體育健身等領域的應用[2]?;赗GB圖像的動作識別中,除人體本身外,圖像中的植物、家具以及人身上穿戴的各種服裝和服飾都會對動作的識別造成一定的干擾。而人體關節點構成的骨架圖,排除了圖像中大部分的干擾信息,提煉出了圖像中對行為識別最有用的一部分信息,基于人體骨架的動作識別在近幾年逐漸成為了行為識別領域的重要研究方向之一。與此同時,得益于虛擬現實領域和姿態識別領域的發展,通過Kinetic深度相機或姿態識別算法能夠比較容易地獲取到人體關節點數據,使這一研究方向得到了快速發展。
目前基于人體骨架的行為識別主流方法主要基于循環神經網絡(recurrent neural network,RNN)[3]和卷積神經網絡(convolutional neural network,CNN)[4]。其中,基于RNN的動作識別工作中,Zhu等人[5]采用了深度正則化LSTM(long short-term memory)網絡,通過搭建五個LSTM模塊分別處理人體四肢以及頭部的關節點數據對人體骨架進行共現特征學習;Liu等人[6]在時空LSTM網絡里加入了一種信任門控機制處理骨骼數據中的噪聲,分析關節點之間的聯系,提高了識別的準確性。然而,在實踐中RNN的訓練往往面臨著梯度消失和梯度爆炸的問題,因此很難訓練多層結構的RNN[7]。CNN能夠得到底層相鄰幀與高層相鄰幀之間的長期依賴關系,有效地捕捉圖片序列間的時空屬性,從而取得更可觀的識別效果[6~8]。Yan等人[9]在骨架行為識別任務中引入了基于CNN的圖卷積網絡(graph convolutional network,GCN),并提出了時空圖卷積模型,將人體的關節點視做圖的節點,令不同幀的相同關節點之間的連線構成時間屬性,避免了RNN需要專門設計模塊去處理關節點數據的弊端;Zhang等人[10]挖掘了關節點的位移信息并將其特征融入到數據流中,提高了模型的表達能力,同時利用GCN分析關節點間的聯系,有效提高了模型的精確度。圖卷積網絡擅長對人體骨架這種非歐氏數據進行建模,能夠有效地學習人體骨架各個關節點之間的相互聯系。得益于其特殊的網絡結構和優越的建模能力,目前已經成為人體骨架行為識別的主流方法。
實際應用中,受到環境和相機角度的影響,圖像中的人體姿態會出現傾斜或變形,Zhang等人[11]提出的視角自適應方案雖然可以改善姿態傾斜對行為識別的干擾,但無法解決人體姿態變形的問題。針對此問題,提出姿態校正模塊(posture transformation module,PTM),該模塊不僅能對姿態進行角度的調整,還能夠對骨架圖進行姿態的校正,有效地增強了動作識別算法在不同環境下的魯棒性。雖然Zhang等人[10]挖掘了關節點的位移信息,但沒有關注到人的肢體信息,肢體信息對于分析人的行為同樣非常重要,肢體信息不僅包含了關節點之間的相對位置和動態信息,還包含了四肢的長度信息等,肢體特征的加入有效提高了模型對空間特征的表征能力。
之前的許多工作[10~13]側重于挖掘數據的空間信息而忽略了不同姿態之間的聯系,為了更充分地挖掘動作的時間信息,提出姿態融合模塊(posture fusing module,PFM),將相鄰三個姿態的短時刻特征和彼此間隔一個姿態的三個姿態的長時刻特征融合在一起,并通過時間注意力機制將融合后的特征加入到時間流特征中,有效地挖掘了動作的時間流信息。
目前,基于視頻的動作分類中,大量工作基于UCF101、HMDB和NTU60 RGB+D等數據集研究了生活場景的動作分類,而基于運動場景動作分類的研究較少[12] 。另外,考慮到目前的應用環境下,2D姿態的關節點坐標更容易獲取,在實驗部分采用了基于運動場景的2D骨架數據集Penn-Action和HARPET對具有運動背景的動作識別進行研究。
針對上述問題,本文提出一種以SGN為骨干網絡并結合了姿態校正與姿態融合模塊的網絡(network combining postures transformer and postures fusing module based on semantics-guided neural network,PTF-SGN)模型,主要貢獻如下:a)提出了姿態校正模塊用來校正因外部因素導致的姿態傾斜以及變形,增強了模型在不同環境因素下的魯棒性;b)對骨架數據進行預處理,挖掘了肢體信息,進一步提取骨架的動態信息和空間特征,有效提高了模型的表達能力;c)提出了姿態融合策略,分別提取相鄰三個姿態和間距為一的三個姿態的特征,通過時間注意力機制進行融合,進一步學習了關節點時序數據的時間特征。在NTU60 RGB+D、NTU120 RGB+D和Penn-Action、HARPET多個數據集上進行了實驗驗證,結果證明所提的PTF-SGN是一種有效的端到端的動作識別模型。
1 結合姿態校正與姿態融合的圖卷積網絡
1.1 整體網絡設計
本文以SGN為骨干網絡提出了一種結合姿態校正模塊與姿態融合模塊的動作識別模型,網絡結構如圖1所示。模型主體由兩部分組成,分別是空間流模塊和時間流模塊。空間流模塊針對骨架數據的關節點層面進行處理,學習人體骨架的空間特征;時間流模塊針對骨架數據的時序層面,學習關節點時序數據的時間特征。
空間流模塊中,首先將骨架數據進行預處理后提取出骨架的肢體信息和關節點的位移信息;再利用兩層CNN分別對肢體信息和位移信息進行特征學習得到肢體特征和位移特征;然后將原始的骨架數據送入姿態校正模塊學習,得到姿態特征;將肢體特征、位移特征和姿態特征融合后的特征送入圖卷積模塊學習姿態中不同關節點間的聯系。圖卷積模塊由三層GCN組成,GCN能夠基于上一個GCN學習的特征進行迭代學習,進一步強化對于關節點特征的表征。
時間流模塊中,在空間流模塊輸出的骨架特征中融入時序編碼特征,得到姿態融合模塊的輸入;姿態融合模塊學習相鄰三個姿態的短時刻特征和間隔為一個姿態的三個姿態的長時刻特征,然后利用時間注意力機制融合長短時刻的姿態特征,并將其加入到骨架的時間流特征中;接著利用空間最大池化層對特征在關節點層面進行全局特征提取,關節點全局特征通過兩層CNN后再送入到時間最大池化層在時序層面進行時間全局特征提??;最后將特征拉直后利用全連接層進行動作識別。
1.2 肢體特征提取模塊
關節點時序數據由三個維度的信息組成,分別是構成動作的一系列姿態和每個姿態的所有關節點以及關節點的坐標信息,為了便于表達,將網絡中的骨架圖定義為
其中:J代表骨架圖的關節點總數;T代表骨架圖的總幀數;Vj,t為在t時刻的關節點j。肢體信息的獲取需要對原始骨架圖進行如下的數據預處理:
其中:Li,t代表由t時刻的第i個點與第i+1個點之間的相對位置組成的肢體信息。在骨架圖中,關節點之間的相對位置由關節點彼此間的三維坐標確定,在骨架中相鄰兩個關節點之間的相對位置存在固定的關系,比如手肘關節點和肩關節點代表左臂和右臂,兩臂的肢體長度是基本一致的,肢體信息可以反映出這一特點。不僅如此,動作發生時姿態一直在發生變化,關節點間的相對位置也一直在改變,所以肢體信息包含著豐富的動態信息和語義信息。獲取到肢體信息后,用全0張量彌補維度上的變化,然后利用兩層卷積提取肢體特征,如圖2所示。
1.3 姿態校正模塊
姿態矯正模塊是受STN(spatial transformer network)[14]和旋轉矩陣(rotation matrix)啟發得來,STN是針對RGB圖片的方法,對圖片進行平移旋轉后,根據坐標的變換進行圖片像素填充,但不適用于關節點數據。姿態校正模塊是針對人體骨架數據的一種無監督學習模塊,如圖3所示。
姿態校正模塊的校正方法不同于旋轉矩陣對整個骨架進行簡單的旋轉,而是通過計算出自適應調整因子對骨架圖的每個關節點進行相對獨立的作用。首先送入姿態校正模塊的骨架數據需要進行如下調整:
其中:N代表模型的批次數;D代表關節點維度的數量;J和T代表關節點總數和骨架圖的總幀數。然后利用兩層CNN學習骨架圖的姿態特征,再用兩層全連接層對flatten后的姿態特征進行學習回歸自適應調整因子。姿態校正模塊計算出的3D骨架圖的自適應姿態調整因子如式(4)所示。
其中:θ、φ、β分別對應3D骨架圖x、y、z軸坐標的調整因子。利用姿態調整因子與輸入的骨架數據做矩陣乘法得到校正后的骨架圖,然后再對做一次式(3)的反變換即可還原骨架數據,如式(5)(6)所示。
1.4 姿態融合模塊
姿態融合模塊是為了學習并融合骨架特征在互相間隔一個姿態的三個姿態的長時刻特征和相鄰三個姿態的短時刻特征,通過引入時間注意力機制使模型能夠關注到動作在不同時刻姿態的動態變化,將融合后的特征加入到時間流特征中,使模型能夠從時間流特征中學習到不同時刻的姿態信息,進一步提高了模型對不同動作的表征能力。例如閱讀和書寫,這兩個動作在同一時刻的姿態非常相似,但是在動態的表現下,不同時刻的手部變化是完全不一樣的,而通過模型對長時刻與短時刻的姿態特征學習,將有助于對動作進行更準確的識別。姿態融合模塊如圖4所示。
輸入的骨架圖特征被分別送入兩個膨脹卷積學習長時刻特征和短時刻特征。其中長時刻特征由膨脹率為(1,2)、卷積核尺寸為1×3的膨脹卷積得到;短時刻特征由膨脹率為(1,1)、卷積核尺寸為1×3的膨脹卷積得到。然后將長短時刻的特征相融合,如式(7)所示。
其中:Vl代表長時刻特征;Vs代表短時刻特征。融合后的特征經過時間注意力機制,時間注意力機制的計算過程如下:
式(8)對融合后的特征V1做空間最大池化,提取全局空間特征V2;式(9)中的w1、w2、b1、b2分別是兩個卷積層可學習的參數,兩個卷積的卷積核尺寸都為1×1;式(10)利用softmax函數將V3特征概率化獲取長短時刻特征的時間權重,然后與V1特征相乘得到時間注意力機制模塊的輸出,最后將學習到的不同時刻的動態特征融入到骨架特征中作為姿態融合模塊的輸出。
2 實驗結果與分析
2.1 實驗數據集及評估指標
本文使用了NTU60 RGB+D[15]和NTU120 RGB+D[16]兩個3D骨架數據集以及Penn-Action[17]和HARPET(hockey action recognition pose estimation temporal)[18]兩個2D骨架數據集作為實驗對象。
a)NTU60 RGB+D。該數據集是由新加坡南洋理工大學提供的公開數據集,采集了40個演員執行的60種不同的動作,每一個演員有25個關節點,一共有56 880個視頻樣本。NTU60 RGB+D數據集建立了兩種標準,一種標準稱為CS(cross subject),是將40個演員中的20個演員的樣本作為訓練集,剩下的作為測試集;另一種標準稱為CV(cross view),是將三個攝像機視角中的兩個視角的樣本作為訓練集,另一個作為測試集。
b)NTU120 RGB+D。該數據集是對NTU60 RGB+D數據集的擴充,在NTU60 RGB+D的基礎上增加了60種不同的動作和57 600個視頻,演員人數也擴充到了106人,視頻樣本總數達到了114 480個。NTU120 RGB+D數據集同樣也有兩個標準,其中一個標準稱為C-Sub(cross subject),是將106個演員中一半演員的樣本作為訓練集,剩下的作為測試集:另一個標準稱為C-Set(cross setup),是將相機視角中為偶數的作為訓練集,剩下的作為測試集。
c)Penn-Action。該數據集是由賓夕法尼亞大學提供的基于運動背景的視頻動作分類數據集,包含了15種不同的動作類別和2 326個視頻樣本,每個人有13個關節點標簽。
d)HARPET。該數據集是由美國滑鐵盧大學提供的一個基于冰球運動背景的公開數據集,包含四種不同的動作類別,每種類別包含100個圖片序列,每張圖片有18個關節點,其中包含了人身上的16個關節點標簽和曲棍球的頭尾2個關鍵點標簽。
NTU60 RGB+D、Penn-Action和HARPET數據集中動作的可視化展示如圖5所示。圖中,(a)(b)源于NTU數據集;(c)(d)源于Penn_Action數據集;(e)(f)源于HARPET數據集。表1展示了四個數據集在實驗中的綜合數據。
2.2 實驗說明
實驗在Python 3.7上實現,深度學習框架為PyTorch1.6,硬件平臺為 X10DAi:Intel Xeon E5-2678 v3 CPU,主頻為 2.50 GHz,內存為 264.00 GB,GPU為GeForce RTX 3090(24G)。
在Penn-Action、HARPET、NTU60 RGB+D和NTU120 RGB+D四個數據集一次訓練所選取的批次數依次是32、16、32和32。采用的優化器是Adam,權重系數為0.000 1,初始學習率為0.001,訓練迭代次數為150,在迭代次數分別到達90、110和140次時學習率都會被下調到上一次迭代時的10%。訓練時采用的損失函數為交叉熵損失函數,準確率指標采用的是平均準確率(mean average precision,mAP)。
2.3 姿態校正模塊效果可視化
為了分析姿態校正模塊的有效性,圖6展示了其實驗效果,其中(a)(c)分別為NTU60 RGB+D數據集的CS標準在圖像增強前后的實驗效果對比;(b)(d)分別為NTU60 RGB+D數據集的CV標準在圖像增強前后的實驗效果對比。圖6(a)~(d)中左邊的圖代表輸入骨架圖,右邊的圖代表姿態校正模塊輸出。圖像增強是指對骨架圖在(-90°,90°)進行隨機的旋轉。從圖6可以看出,姿態校正模塊不僅對骨架圖進行了三維旋轉,還能夠對姿態進行自適應的調節,有效提高了模型對姿態的表征能力。
圖7展示了基于姿態校正模塊與基于旋轉矩陣的方法在NTU60 RGB+D的CS標準下的實驗對比。基于姿態校正模塊的模型和基于旋轉矩陣的模型在CS標準下的平均準確率分別為89.7%和89.3%。姿態校正模塊在3D骨架圖上有9個自適應姿態調整因子(在2D骨架圖上是4個自適應調整因子);而基于旋轉矩陣的方法,只有用于搭建旋轉矩陣所需的3個自適應調整因子?;谛D矩陣的方法,對動作的學習能力有限,并且只能對輸入骨架圖進行三維旋轉,克服部分的干擾。
2.4 消融實驗
為了客觀地分析所提各個模塊的有效性,在NTU60 RGB+D和NTU120 RGB+D數據集上進行了消融實驗。不同的模塊單獨在骨干網絡SGN上的實驗效果如表2所示。其中骨干網絡SGN被設置為對照組(baseline);LP(limbs position)表示肢體信息流;PT(posture transformation)表示姿態校正模塊;PF(posture fusing)表示姿態融合模塊。
由表2可以看出,在CV和C-Set中,姿態校正模塊發揮的性能要優于肢體信息流,因為這兩個標準的訓練集和測試集是基于不同的攝像機視角制作的,而姿態校正模塊能夠克服不同視角對行為識別的影響;在CS和C-Sub中,加入肢體信息流的效果要比姿態校正模塊的效果好,因為這兩個標準的訓練集和測試集是根據不同的演員制作的,肢體信息流使模型在訓練時能學習到不同演員的特征。而姿態融合模塊在幾乎所有的標準下都展現了優越的性能,C-Sub因為演員的數量比CS標準下的更多,使得肢體信息流在這個標準下發揮了更大的作用。
為了分析各個模塊對本文模型的影響,驗證了在移除不同模塊后模型的實驗效果,如表3所示。其中:PTF-SGN w/o PF表示移除姿態融合模塊后的網絡;PTF-SGN w/o PT表示移除姿態矯正模塊后的網絡;PTF-SGN w/o LP表示移除肢體信息流后的網絡。由表3可以看出,除了NTU120 RGB+D數據集的C-Sub標準外,對識別準確率影響程度最高的都是姿態融合模塊,其余標準都是在移除姿態融合模塊后,模型因為沒有獲取到長時刻和短時刻姿態的特征而導致識別準確率降低最多,其次是姿態校正模塊。這也說明肢體信息流對模型的作用,在演員數量越多的情況下,肢體信息流對模型表征能力的提升就會越大。圖8展示了NTU60 RGB+D數據集的兩組動作以及表3中四種方法的預測結果。圖8中,第一組動作為嘔吐,第二組動作為書寫;(a)~(d)分別代表PTF-SGN、PTF-SGN w/o PF、PTF-SGN w/o PT和PTF-SGN w/o LP。
2.5 實驗效果與分析
為了驗證算法的有效性,在NTU60 RGB+D、NTU120 RGB+D、Penn-Action和HARPET四個數據集上進行了實驗對比。在NTU60 RGB+D和NTU120 RGB+D數據集上與近幾年提出的方法模型的實驗對比分別如表4、5所示。其中,文獻[9]提出時空圖卷積對人體骨架進行建模;文獻[12]提出動作圖卷積和結構圖卷積分別用于提取骨架的動作圖和結構圖;文獻[19]將圖卷積與LSTM融合,提出AGC-LTSM模型;文獻[11]提出的VA-CNN模型對每個視頻樣本的視角進行調整,克服不同視角對行為識別的干擾;文獻[10]提出基于語義信息的圖卷積網絡模型,挖掘關節點的語義信息;文獻[13]提出局部圖卷積網絡提取骨架圖的局部特征;文獻[20]提出基于神經架構搜索的圖卷積,學習動態圖結構對骨架建模;文獻[21]提出空間秩池化方法,提取姿態的時間特征;文獻[22]提出Logsig-RNN算法對流式數據進行學習,提高了LSTM的性能;文獻[23]基于龐加萊幾何定義提出一種新的圖卷積結構,能夠學習動態圖結構;文獻[24]提出了多流圖卷積網絡,獲取了更加豐富的關節點特征。
根據表4和5的實驗結果分析可得,通過引入肢體特征、位移特征和長短時刻特征,使模型獲取到了豐富的時空信息,從而實現了更高的識別準確率。與文獻[11]相比,姿態校正模塊不僅克服了視角對識別的干擾,還對變形姿態進行了校正;與文獻[20,23]比較,本文沒有采用會帶來高昂計算成本的動態圖結構,并以較低的參數量實現了更優越的識別性能。
最后,為了驗證PTF-SGN在2D關節點數據領域的行為識別能力,在Penn-Action和HARPET兩個基于運動背景的2D骨架數據集上與近幾年提出的方法模型進行了實驗對比,如表6、7所示。其中,文獻[25]提出一種基于稀疏時間采樣策略的時間片段網絡;文獻[26]提出一種結合了姿態估計和動作識別的網絡架構;文獻[27]提出了基于貝葉斯框架的HDM模型,增強了模型對視頻時空信息的表征能力;文獻[28]提出的STSAMANet模型,利用關鍵幀機制和顯著性注意力層消除了冗余的圖片幀以及圖片幀中的冗余背景;文獻[18]提出一種結合光流信息和關節點親和場的雙通道網絡;文獻[29]在文獻[18]的基礎上引入了LSTM,實現了更高的準確率。本文方法的準確率高于上述方法,原因是本文方法對人體運動進行了有效的建模,并通過端到端的模塊更充分地提取了姿態之間的時空特征,實現了更高效的動作識別。
3 結束語
本文以SGN模型為骨干模型,對關節點特征提供了額外的肢體信息流,有效挖掘了數據的信息;針對外部干擾因素提出了姿態校正模塊,對送入網絡的姿態特征學習后進行調整,有效增強了模型的抗干擾能力;再利用時間注意力機制融合了長時刻與短時刻的姿態特征,有效提高了模型對不同時刻姿態信息的表征能力。在Penn-Action和HARPET兩個2D骨架數據集上識別準確率分別達到了94.9%和93.75%;在3D骨架數據集上,NTU60 RGB+D的CS和CV標準下識別準確率分別達到了89.7%和95.2%,在NTU120 RGB+D的C-Sub和C-Set標準下識別準確率分別達到了81.3%和83.5%。應用場景下,關節點數據需要姿態估計模型提前處理或者通過姿態采集設備獲取,而動作識別的準確率依賴于關節點數據檢測的準確性,因此,需要一個高效且準確的姿態估計模型或者姿態采集設備進行數據預處理才能夠實現準確的動作識別。下一步考慮將基于關節點數據分類的模型與姿態檢測模型結合起來,相互協作,真正地實現應用價值。
參考文獻:
[1]鐘秋波,鄭彩明,樸松昊.時空域融合的骨架動作識別與交互研究[J].智能系統學報,2020,15(3):601-608.(Zhong Qiubo,Zheng Caiming,Piao Songhao.Research on skeleton-based action recognition with spatiotemporal fusion and human-robot interaction[J].CAAI Trans on Intelligent Systems,2020,15(3):601-608.)
[2]何冰倩,魏維,張斌.基于深度學習的輕量型人體動作識別模型[J].計算機應用研究,2020,37(8):2547-2551.(He Bingqian,Wei Wei,Zhang Bin.Lightweight human action recognition model based on deep learning[J].Application Research of Computers,2020,37(8):2547-2551.)
[3]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[4]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[5]Zhu Wentao,Lan Cuiliang,Xing Junliang,et al.Co-occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3697-3703.
[6]Liu Jun,Shahroudy A,Xu Dong, et al.Skeleton-based action recognition using spatio-temporal LSTM network with trust gates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(12):3007-3021.
[7]Ke Qiuhong,Bennamoun M,An Senjian,et al.A new representation of skeleton sequences for 3D action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4570-4579.
[8]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[C]//Proc of the 34th International Conference on Machine Learning.2017:1243-1252.
[9]Yan Sijie,Xiong Yuanjun,Lin Dahua,et al.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.
[10]Zhang Pengfei,Lan Cuiling,Zeng Wenjun,et al.Semantics-guided neural networks for efficient skeleton-based human action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1109-1118.
[11]Zhang Pengfei,Lan Cuiling,Xing Junliang,et al.View adaptive neural networks for high performance skeleton-based human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8):1963-1978.
[12]Liu Hong,Tu Juanhui,Liu Mengyuan.Two-stream 3D convolutional neural network for skeleton-based action recognition[EB/OL].(2017-06-07).https://arxiv.org/ftp/arxiv/papers/1705/1705.08106.pdf.
[13]Huang Linjiang,Huang Yan,Ouyang Wanli,et al.Part-level graph convolutional network for skeleton-based action recognition[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:11045-11052.
[14]Jaderberg M,Simonyan K,Zisserman A,et al.Spatial transformer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:2017-2025.
[15]Shahroudy A,Liu Jun,Ng T T,et al.NTU RGB+D:a large scale dataset for 3D human activity analysis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1010-1019.
[16]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D 120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(10):2684-2701.
[17]Zhang Weiyu,Zhu Menglong,Derpanis K G,et al.From actemes to action:a strongly-supervised representation for detailed action understanding[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:2248-2255.
[18]Cai Zixi,Neher H,Vats K,et al.Temporal hockey action recognition via pose and optical flows[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2543-2552.
[19]Si Chenyang,Chen Wentao,Wang Wei,et al.An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-36.
[20]Peng Wei,Hong Xiaopeng,Zhao Guoying,et al.Learning graph convolutional network for skeleton-based human action recognition by neural searching[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:2669-2676.
[21]Liu Mengyuan,Yuan Junsong.Recognizing human actions as the evolution of pose estimation maps[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1159-1168.
[22]Liao Shujian,Lyons T,Yang Weixin,et al.Learning stochastic diffe-rential equations using RNN with log signature features[EB/OL].(2019-09-22).https://arxiv.org/pdf/1908.08286.pdf.
[23]Peng Wei,Shi Jingang,Xia Zhaoqiang, et al.Mix dimension in poincare geometry for 3D skeleton-based action recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press, 2020:1432-1440.
[24]Song Yifan,Zhang Zhang,Shan Caifeng,et al.Richly activated graph convolutional network for robust skeleton-based action recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2021,31(5):1915-1925.
[25]Wang Limin,Xiong Yuanjun,Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:20-36.
[26]Iqbal U,Garbade M,Gall J.Pose for action-action for pose[C]//Proc of the 12th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2017:438-445.
[27]Zhao Rui,Xu Wanru,Su Hui,et al.Bayesian hierarchical dynamic model for human action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7725-7734.
[28]Jiang Min,Pan Na,Kong Jun.Spatial-temporal saliency action mask attention network for action recognition[J].Journal of Visual Communication and Image Representation,2020,71(8):102846.
[29]Vats K,Neher H,Clausi D A,et al.Two-stream action recognition in ice hockey using player pose sequences and optical flows[C]//Proc of the 16th Conference on Computer and Robot Vision.Piscataway,NJ:IEEE Press,2019:181-188.