999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人體行為識別方法研究綜述

2022-01-01 00:00:00梁緒李文新張航寧
計算機應用研究 2022年3期

摘 要:隨著計算機視覺不斷發展,人體行為識別在視頻監控、視頻檢索和人機交互等諸多領域中展現出其廣泛的應用前景和研究價值。人體行為識別涉及到對圖像內容的理解,由于人體姿勢復雜多樣和背景遮擋的因素導致實際應用的進展緩慢。全面回顧了人體行為識別的發展歷程,深入探究了該領域的研究方法,包括傳統手工提取特征的方法和基于深度學習的方法,以及最近十分熱門的基于圖卷積網絡(GCN)的方法,并按照所使用的數據類型對這些方法進行了系統的梳理;此外,針對不同的數據類型,分別介紹了一些熱門的行為識別數據集,對比分析了各類方法在這些數據集上的性能。最后進行了概括總結,并對未來人體行為識別的研究方向進行了展望。

關鍵詞:計算機視覺;人體行為識別;深度學習;圖卷積網絡;數據集

中圖分類號:TP391.41 文獻標志碼:A

文章編號:1001-3695(2022)03-002-0651-10

doi:10.19734/j.issn.1001-3695.2021.07.0350

作者簡介:梁緒(1996-),男,甘肅蘭州人,碩士研究生,主要研究方向為計算機視覺、人體行為識別(18993896708@163.com);李文新(1966-),男,甘肅臨洮人,研究員,博導,博士,主要研究方向為嵌入式系統及軟件設計、系統測試與仿真;張航寧(1997-),男,山西運城人,碩士研究生,主要研究方向為機械臂視覺伺服控制器.

Review of research on human action recognition methods

Liang Xu,Li Wenxin,Zhang Hangning

(Lanzhou Institute of Physics,Lanzhou 730000,China)

Abstract:With the rapid development of computer vision,human action recognition has shown its wide application prospects and research value in many fields such as video surveillance,video retrieval,and human-computer interaction.Human action recognition involves the understanding of image content,and the progress of practical applications is slow due to the complexity and diversity of human postures and the occlusion factors of the background.This paper comprehensively reviewed the development of human action recognition,and deeply explored the research methods in this field,including traditional manual feature extraction methods and deep learning-based methods,as well as the recently popular graph convolutional network(GCN)-based method.And this paper systematically summarized these methods according to the data types they used.In addition,for different data types,it introduced some popular action recognition datasets,compared and analyzed the performance of various methods on these datasets.Finally,this paper summarized the review,and prospected the future research direction of human actionrecognition.

Key words:computer vision;human action recognition;deep learning;GCN;data set

近年來,隨著機器學習和人工智能的發展,計算機視覺取得了飛速進展,并開始應用到不同領域,給人類的生活帶來極大的改變。隨著我國人口老齡化的趨勢和三孩政策的施行,以及短視頻行業的飛速發展,人體行為識別作為計算機視覺的子課題,在智能家庭監護和視頻信息檢索等方面體現出了廣泛的應用前景和研究價值。人體行為識別涉及到對圖像內容的理解,由于人體姿勢的多樣性和復雜性、遮擋和背景雜亂等的混雜因素,相較于僅僅對圖像內物體的識別或者檢測來說,更加具有難度和挑戰性。

人體行為識別的關鍵是提取出健壯性的行為特征,與圖像空間中的特征不同,視頻中人的行為特征不僅需要描述人在圖像空間中的外觀,而且還必須提取外觀和姿勢的變化,即從二維空間特征擴展到三維時空特征。近年來,已經提出了許多基于RGB數據的人體行為識別方法,包括傳統的手工提取特征的方法[1~4和基于深度學習的方法5~9。隨著一些深度傳感器的應用,如微軟的Kinect設備(目前已經推出了性能卓越的第三代),許多研究者也開始利用深度數據進行人體行為識別的研究[10~15,這是因為深度數據對背景環境更具有魯棒性。最近也有一些研究者對這些人體行為識別的方法展開了調研,但是他們的研究只是側重具體的某一方面,如基于深度數據的方法16,17、基于深度學習的方法18~20和基于3D卷積的方法[21等,而且最近已經開發出了許多新的行為識別方法,如基于圖卷積神經網絡的方法22~26。因此,對這些新的方法進行深入的調研是非常有必要的。

本文對人體行為識別的方法進行了全面的綜述,并按照所使用的數據類型對這些方法進行了系統的梳理,深入探究了最新的一些研究方法,并將其進行了歸納整理,如圖1所示。同時,根據不同的數據類型,分別介紹了一些熱門的行為識別數據集,并對這些數據集上一些經典方法的性能進行了對比分析。最后對人體行為識別未來的研究方向進行了展望。本文希望為從事人體行為識別研究或對人體行為識別感興趣的研究人員提供了較為全面的參考。

1 基于RGB數據的方法

早期的研究都是基于RGB數據展開的。一些研究者使用傳統的方法,利用機器學習來手動提取行為特征,并選擇合適的分類算法進行識別;隨著深度學習在圖像識別領域取得巨大的進展,研究者們又將深度學習應用于人體行為識別中。

1.1 傳統方法

傳統方法是手工提取能夠代表視頻中人體運動的時間和空間變化的行為特征,主要包括基于時空體積的方法、基于時空興趣點(STIP)的方法和基于軌跡的方法等。這些方法主要采用經典機器學習分類方法進行人體行為識別,如BOOST、SVM和概率圖模型等。

1)基于時空體積

基于時空體積的方法主要是模板匹配技術,但與圖像處理中的對象識別不同,它們使用三維時空模板進行人體行為識別。這些方法的核心就是構建一個合理的人體行為模板,并基于此模板執行有效的匹配。Bobick等人[1最早采用輪廓來描述人體的運動信息,提出用運動能量圖(MEI)和運動歷史圖(MHI)表示行為特征。圖2[1]展示了三類不同行為的MEI和MHI。

Zhang等人[27使用極坐標在MHI中劃分人體的中心區域,并使用基于尺度不變特征轉換(SIFT)的運動上下文(MC)描述符來表示行為。Klaeser等人[2將圖像的梯度(HOG)特征的直方圖擴展到時空維度,并使用三維的HOG特征來描述視頻中的人類行為。Somasundaram等人[28利用稀疏表示和字典學習的方法計算視頻在時間和空間維度中的相似性,用最顯著區域上的時空描述符來表示行為。Patel等人[29利用運動目標檢測和分割,提取出分割對象的HOG,并融合目標的速度、位移及區域特征來描述行為。當相機固定時,這些方法可以使用背景減法技術獲取形狀信息,如人類剪影和輪廓。然而,在復雜的場景和攝像機移動的情況下,很難獲得精確的輪廓形狀,而且在人體被遮擋的情況下,很難識別出精確的人體外觀。此外,要確定同一場景中的多個操作,大多數方法都使用滑動窗口,但這些方法的計算代價很高。

2)基于STIP

基于STIP的方法廣泛用于行為識別,從視頻中提取運動變化的關鍵區域來表示行為。與圖像中目標檢測的局部特征類似,STIP方法必須確定要使用的關鍵區域檢測方法、使用哪個特征矢量來描述關鍵區域以及使用哪種分類算法,因此這些方法大部分是從應用于圖像的目標檢測方法擴展到視頻中的。

STIP中的時空興趣點通常是指在時空維度中變化最顯著的位置,如圖3[30所示。經典的STIP方法包括3D- Harris時空特征點[31和其改進技術32,主要思想是將特征檢測技術從2D圖像擴展到3D時空域,然后計算特征描述符,并學習表示人類行為的可視化字典。此外,Nguyen等人[31提出了一種基于時空注意力機制的關鍵區域提取方法,構建了視覺字典和行為特征;Peng等人[33根據局部時空特征和視覺字典構造,對以往的方法進行了回顧和對比,提出了一種簡單而有效的混合表示方法,從而構建出更準確、更高效的行為識別系統;Nazir等人[34集成了3D-Harris時空特征和3D-SIFT檢測方法以提取視頻的關鍵區域,并使用傳統的視覺單詞直方圖來表示人體行為。

基于時空特征的方法引起了許多研究者的注意,主要優點是不需要預處理,如背景分割或人體檢測。局部特征具有尺度和旋轉不變性,在光照變化下穩定,對遮擋的魯棒性優于其他方法。但時空特征點易受攝像機視角變化的影響,在背景運動和攝像機運動的情況下,基于局部時空特征的方法會產生許多背景特征點,對目標的運動估計會產生較大的誤差。

3)基于軌跡特征

基于軌跡的特征是利用人體骨架中關鍵點或關節的軌跡來表示行為,這類方法最成功的是Wang等人提出的密集軌跡方法(DT)[35及其改進的方法(IDT)[4。如圖4[35]所示,在視頻幀中,采樣密集的點云通過光流方法來跟蹤這些特征點并計算運動軌跡,并沿著軌跡提取出更有效的運動物體的邊界信息(MBH)來描述人體行為。許多研究者也嘗試對IDT算法進行改進,Gaidon等人[36利用分裂聚類分析局部運動軌跡,Wang等人[37又將人體檢測結果融合到IDT特征中,用于減少背景軌跡的干擾;Peng等人[38基于IDT特征使用堆疊Fisher向量來表示人的行為,這是改進IDT較為成功的方法之一;Xia等人[39對IDT的光流算法進行了擴展,并設計了一種多特征融合的描述子來表示行為。

基于軌跡的行為識別方法的主要優點是可以用來分析人體的局部運動信息,而且大多數方法都可以克服視角的變化。然而,這種方法需要一個精確的二維或三維人體骨架模型,并需要精確跟蹤關鍵點,然而人體建模與跟蹤本身仍然是計算機視覺領域的一個具有挑戰性的問題。

1.2 基于深度學習的方法

隨著深度學習在圖像識別領域的不斷演進,研究人員也嘗試將深度學習應用于人體行為識別。但對于視頻來說,卷積神經網絡(CNN)僅僅是進行2D空間上的特征提取與分類,在時間方面的特征如何提取并與空間特征進行融合,研究者們提出了不同的想法,大致分成了三個流派分支,分別是基于雙流網絡(two-stream)、基于三維卷積網絡(C3D)和基于長短時記憶網絡(LSTM)的方法。

1)基于雙流卷積網絡

在雙流卷積網絡中,如圖5[5所示,光流信息是由圖像序列計算得到的。在模型訓練過程中,使用圖像和光流序列作為兩個CNN的輸入,分別提取空間特征和時間特征。特征的融合發生在網絡的最后一個分類層。該雙流網絡的輸入為單幀RGB圖像和堆疊的光流圖像,網絡采用二維圖像卷積。

一些研究者嘗試對雙流網絡進行了性能上的改進。Wang等人[6對雙流卷積網絡的輸入、卷積網絡結構和訓練策略進行了詳細的討論,并提出了一種時間段網絡(temporal segment networks,TSN)進一步改進雙流卷積網絡的結果。

最近,Wang等人[40對TSN又進行了進一步改進,提出了基于時態差異網絡(temporal difference networks,TDN)的視頻架構,利用捕獲多尺度的時間信息來進行有效的行為識別。TDN采用了兩級差分建模范式,對于局部運動建模,連續幀上的時間差異用于為 2D CNN 提供更精細的運動模式,而對于全局運動建模,跨段的時間差異被結合以捕獲運動特征激發的遠程結構。Feichtenhofer 等人[41將時空信息融合的過程從最初的分類層轉移到網絡的中間層。Lan等人[42將CNN提取到的局部標簽聚合成全局標簽。Zhou等人[43設計了一種時間關系網絡(temporal relation network,TRN)用于學習和推理在多個時間尺度下視頻幀之間的時間相關性。Feichtenhofer等人[44還提出了用于視頻識別的SlowFast網絡,該網絡設計了一個低幀率的慢速路徑和高幀率的快速路徑分別用于提取空間特征和時間特征,在行為識別方面實現了強大的性能。文獻[45]采用基于二進制密集SIFT流的雙流CNN代替光流,避免了光流對時間特征的影響。Liu等人[46用深度網絡模型代替現有模型對網絡結構進行了改進,優化了網絡性能。Du等人[47提出了一種基于預訓練卷積神經網絡的雙流深度特征提取框架,并采用線性動力系統(LDS)的方法,在雙流體系結構進行人體行為識別的研究。

2)基于三維卷積網絡

與雙流網絡相比,三維卷積網絡[7將視頻視為三維時空結構,采用三維卷積方法學習人體行為特征,其卷積核和池化核也相應地從2D擴展到了3D,而且其網絡結構更加簡單,如圖6[7所示,運行效率也比雙流網絡快很多。

同樣,也有許多研究者基于三維卷積網絡的思想,試圖將不同的二維卷積網絡擴展到三維時空結構中,以學習和識別人體行為特征。Tran 等人[48將3D卷積濾波器分解為單獨的空間和時間分量,提出了一個新的時空卷積塊“R(2+1)D”模型。Carreira等人[8將Inception-V1 網絡結構從二維擴展到三維,提出了用于行為識別的雙流膨脹三維卷積網絡模型(I3D)。Diba等人[49對DenseNet進行了擴展,提出了時間三維卷積網絡。Qiu等人[50針對C3D存在所需內存大和計算成本高的問題,提出了用二維空間卷積和一維時間卷積來模擬3D卷積的想法(P3D),并將這種設計整合到一個深度殘差學習框架中。Tran等人[51通過大量實驗探索更優的3D網絡結構,并提出了一種深度三維殘差卷積神經網絡(R3D)。文獻[52]將2D卷積和3D卷積結合在一起,去除了相鄰幀之間存在的大量冗余信息,極大地提升了算法的運算性能。Crasto等人[53利用兩種學習方法來訓練一個標準的3D卷積網絡,在RGB幀上運動流,避免了光流計算。Kim等人[54提出了一種輕量級的用于人體行為識別的弱監督時間注意3D網絡(TA3DNet),以弱監督的方式訓練時間注意模塊,極大地減少了輸入幀的數量。文獻[55]在3D卷積中嵌入注意力機制克服視頻編解碼技術造成的模糊特征,證明了卷積核具有信道依賴性。Kumawat等人[56提出時空短時傅里葉變換(STFT)塊,通過減少網絡中參數的數量來提升特征學習的能力,有效地避免了算法過擬合。文獻[57]利用殘差結構和注意力機制對現有的3D卷積模型進行了改進,提出了注意殘差3D網絡(AR3D)來加強人體行為特征的提取。

3)基于長短時記憶網絡

另一種重要的人體行為識別方法涉及到使用 LSTM 和 CNN,如圖7[58所示。與使用各種卷積時間特征池架構對行為進行建模的雙流和三維卷積網絡不同,基于LSTM的方法將視頻視為有序的幀序列,人的行為可以通過每一幀的特征變化來表示。

Donahue等人[58提出了長期循環卷積網絡將可變長度的視頻的幀序列映射到可變長度的輸出(如行為描述文本)。Ng等人[9提出了一種遞歸神經網絡來識別人體行為,它將LSTM細胞與底層CNN的輸出連接起來。Aghaei等人[59設計了卷積注意LSTM網絡,在每個LSTM層之后添加了一個稀疏層來克服過擬合,并將注意力機制應用于卷積神經網絡,對LSTM權值和每層輸出進行剪枝處理,使得網絡結構朝著更深層次的方向發展。文獻[60]將基于注意力機制的卷積長短時記憶神經網絡與傳統的雙流卷積進行結合,實現了對視頻數據中運動信息的非線性特征更好的學習,更好地利用局部顯著特征及其空間關系。

2 基于深度數據的方法

隨著微軟Kinect等一些深度傳感器的性能不斷提升,由結構光傳感器生成的深度圖像對于光照條件的變化更具魯棒性,使用深度相機還可以更容易地從雜亂的背景中減去前景,從而能夠忽略來自雜亂背景的混亂紋理。于是,研究者們又開始將人體行為識別的研究和深度數據結合起來,試圖解決背景遮擋、光照變化等干擾因素對人體行為識別的影響;此外,還有一些研究人員受到深度學習的啟發,將深度學習和骨架數據聯系起來,也取得了不錯的效果。

2.1 傳統方法

基于深度數據的傳統方法原理和1.1節所提到的基于RGB數據的傳統方法大致相同,都是手工提取能夠描述人體行為的特征,然后選擇合適的分類算法進行人體行為識別。基于深度數據的傳統方法主要分為基于深度序列的方法和基于骨架數據的方法。

1)基于深度序列

基于深度序列的方法主要使用人體深度圖中的運動變化來描述行為。在RGBD視頻中,深度數據可以看做是由深度信息組成的時空結構。從圖8[10中可以看出,人體行為的特征表示就是在這種時空結構中進行特征提取的過程,選擇具有深度變化的外觀和運動信息來描述行為。

Yang等人[10基于深度圖序列構造了一個超常向量特征(super normal vector,SNV)來表示行為;Oreifej等人[61將HOG特征擴展到時空深度結構,提出了四維法向量的方向直方圖特征來表示三維時空深度結構的外觀信息。Rahmani等人[62提出了一種基于深度曲面主方向的行為表示方法,根據主方向旋轉視頻的視角,計算與視角無關的行為特征表示,并且使用主分量方向直方圖來表示行為。

上述方法都使用了外觀信息來描述深度數據中的人體行為。也有一些研究者嘗試從深度信息中計算運動數據來表示行為。Yang等人[11提出了深度運動圖(DMM),從正視圖、側視圖和俯視圖投影和壓縮時空深度結構,形成三個運動歷史圖;然后用HOG特征表示這些運動歷史圖,將得到的特征串聯起來描述行為。Chen等人[12使用局部二進值模式特征代替HOG來描述基于DMM的人類行為。文獻[63]分析了正視、側視、俯視方向的時空深度結構,提取時空興趣點的運動軌跡形狀和邊界直方圖特征,并使用每個視圖中的密集樣本點和關節點來描述行為。此外,Miao等人[64使用離散余弦變化來壓縮深度圖,并使用變換系數來構造行為特征。Bulbul等人[65提出了一種使用 3D 時空梯度自相關(STACOG) 算法的深度圖序列行為識別框架,用多個DMM序列輸入 STACOG 框架中計算得到的自相關特征向量代替從DMM中直接獲得的特征向量。Ji等人[66提出一個簡單高效的基于深度圖序列的人體行為建模框架,設計了一種深度方向梯度向量(DOGV) 的幀級特征,用于捕捉短時期內的外觀和運動。

2)基于骨架數據

從深度數據中可以快速、準確地估計出人體骨架[13,基于骨架的行為識別方法是利用深度數據的另一個熱門的研究領域。如圖9所示,基于人體骨架序列的方法利用視頻中各幀之間的人體骨架節點的變化來描述行為,包括骨架節點的位置和外觀變化。

Xia等人[67使用3D關節點直方圖來表示人體的姿勢,并通過離散的隱馬爾可夫模型(HMM)對人體行為進行建模。Keceli等人[13利用Kinect傳感器獲取深度和人體骨架信息,然后根據骨架關節點的角度和位移信息提取人體行為特征。Gowayyed 等人[68利用方向位移直方圖(HOD)描述骨架節點的軌跡,從前部、側面和頂部視圖提取出HOD特征,形成三維HOD特征。Yang等人[69提出了特征關節方法,使用累積運動能量(AME)函數選擇視頻幀和更多信息關節點來模擬行為。Pazhoumand-Dar等人[70利用最長公共子序列(LCS)算法從骨架相對運動軌跡中選擇高分辨能力特征來描述相關行為。Nguyen等人[71提出了兩種不同的最大信息量關節的選擇方案,自適應最大信息量關節數和固定最大信息量關節數,并設計了一種新的基于聯合速度的時間協變特征描述子。基于骨架數據的方法如圖9[69所示。

綜上所述,利用骨架節點軌跡的方法可以從不同角度得到骨架節點之間的對應關系,因此在透視圖轉換的情況下可以提取出更健壯的行為特征。然而,這些方法的性能取決于人體姿態估計的結果,當場景中出現遮擋時,會導致骨架節點估計缺失或錯誤,從而影響行為識別結果。

2.2 基于深度學習的方法

基于深度學習的方法在RGB數據中取得了很好的效果,性能遠超傳統的手工提取特征方法。另一方面,深度骨架序列具有豐富的空間信息和時域信息,于是有許多研究者也嘗試將深度學習和骨架數據結合起來,用于人體行為識別。

1)基于循環神經網絡

循環神經網絡(RNN)是一種處理序列數據非常有效的方法,可以將上一時刻的輸出作為當前時刻的輸入來形成其結構內部的遞歸連接。此外,LSTM和門控循環單元(GRU)等模型,在RNN內部引入了門空單元和線性記憶單元解決了梯度消失問題和長時建模等問題。因此研究人員試圖利用RNN進行人體行為識別的研究。

Liu等人[14提出了一種用于三維人體行為識別的時空LSTM模型,該模型將RNN擴展到時空域,分析與行為相關的隱藏信息源。Li等人[72提出了RNN樹(RNN-t)的模型,這是一種自適應學習框架,使用多個RNN構成一個樹狀的層次,有效地解決了單一網絡難以處理的細粒度行為類的難題。Wang等人[73提出了一個新穎的雙流RNN結構來為骨架數據建模時域和空域特征,有效解決了利用RNN處理原始骨架的方法時忽略骨架關節空間構型的問題。文獻[74]提出了全局上下文感知注意LSTM(GCA-LSTM)用于三維行為識別,該網絡能夠結合全局上下文信息選擇性地聚焦行為序列中的信息關節。Lee等人[75提出了一種基于骨架的集成時態滑動LSTM(TS-LSTM)網絡,將骨架轉換為另一個坐標系,提升了縮放、旋轉和平移的魯棒性,然后從中提取顯著的運動特征。Song等人[76基于LSTM提出了一種時空注意模型,該模型選擇性地關注每一幀中骨架的判別性關節,并對不同幀的輸出給予不同程度的關注,從骨架數據中探索人體行為識別和檢測的時空鑒別特征。文獻[77]針對骨架節點在三維空間中的復雜變化,提出了記憶注意網絡(MAN)對骨架節點進行時空重標定,并利用時間注意重標定模塊(TARM)和時空卷積模塊(STCM)對MAN進行部署。Zhang等人[78提出了一種簡單而有效的元素注意門(EleAttG),它可以方便地添加到RNN的任意神經元中,使RNN的神經元具有注意能力,能夠自適應地調節模型的輸入。文獻[79]提出了獨立循環神經網絡(IndRNN),有效解決了RNN梯度消失和爆炸的問題,并且支持網絡學習長期依賴關系,有效地擴展了RNN的網絡層數。Zhang等人[80還提出了一種基于學習的數據驅動方式自動確定行為過程中的虛擬觀測視點的視圖自適應方案,在很大程度上消除了視圖變化的影響,使得網絡能夠專注于對特定行為特征的學習,從而獲得更好的性能。此外,還有研究者嘗試用無監督的方式學習行為特征81

2)基于卷積神經網絡

與RNN不同,CNN模型憑借其優秀的高級信息提取能力,能夠高效、輕松地學習高級語義線索。而且,有大量的研究證明CNN在RGB數據中已經取得了不錯的行為識別效果。于是,許多研究者也試圖將CNN應用于骨架數據中,為了滿足神經網絡輸入的需要,將三維骨架序列數據從矢量序列轉換為偽圖像。然而,要同時表達空間和時間信息并不容易,因此很多研究者將骨架關節編碼成多個二維偽圖像,然后輸入CNN學習有用的特征[82,83

Ke等人[15將骨架序列轉換為基于圖像的表征,利用CNN進行時空信息學習,允許對骨架序列進行全局長期時間建模,并提出一種多任務學習網絡(MTLN)來聯合處理所有時間步長的特征向量以學習骨架序列的空間結構和時間信息。Li等人[84將三維骨架視頻映射到彩色圖像,提出了一種多尺度深度卷積神經網絡進行行為識別,該網絡可以增強模型的時間頻率調整能力。文獻[85]提出了一種端到端卷積共現特征學習框架,并引用全局空間聚合方案來學習不同層次上的共現特征;文獻[86]提出了基于骨架序列三維坐標的剪輯表示方法和多任務卷積神經網絡(MTCNN)特征學習算法來探索骨架序列的時空信息;文獻[87]提出了一種利用幾何代數從骨架序列中學習形狀—運動表示方法,在關注孤立關節坐標的同時也考慮了關節之間的空間關系,可以更全面地描述骨架行為。Caetano等人[88基于運動信息提出了SkeleMotion的表示方法,通過顯式計算關節運動的幅度和方向值來編碼時間動態信息。文獻[89] 提出了樹結構參考關節圖像(TSRJI)模型,這種新的骨架圖像表示方法結合參考關節和樹型結構骨架的優點,有效地學習了骨架關節之間的空間關系。文獻[90]設計了一種CNN融合模型,用于識別可持續智能家居中的骨架人體行為,通過灰度值編碼將每個三維骨架序列的時空信息輸入CNN融合模型中進行骨架行為識別。

3)基于圖卷積神經網絡

圖卷積神經網絡(GCN)是一種能對圖數據進行深度學習的方法。人體3D骨架數據是自然的拓撲圖,頂點表示關節,邊表示連接關節的肢節,可以用圖卷積網絡來發掘骨架之間的空間聯系,將圖卷積操作拓展到時域上,就能同時發掘空間和時間特征。因此,越來越多的研究者將GCN用到骨架行為識別研究中。

Yan等人[22首次提出了一種基于骨架行為識別的時空圖卷積網絡模型(ST-GCN),如圖10所示。該網絡首先將人的關節作為時空圖的頂點,將人體連通性和時間作為圖的邊;然后使用標準softmax分類器將ST-GCN上獲取的高級特征圖劃分為對應的類別。這項工作讓更多人關注到使用GCN進行骨架行為識別的優越性。

Shi等人[23將骨架數據表示為基于自然人體中關節和骨骼之間的運動學依賴性的有向無環圖,并設計出一種新穎的有向圖神經網絡,專門用于提取關節、骨骼及其關系的信息,根據提取的特征進行預測。Li等人[91設計了A-link 推理模塊,可以直接從行為中捕獲特定于行為的潛在依賴關系,并擴展了現有的骨架圖來表示高階依賴關系,然后將兩種類型的連接組合成一個廣義的骨架圖,進一步提出了行為結構圖卷積網絡(AS-GCN),將行為結構圖卷積和時間卷積作為基本構建塊以學習空間和時間行為識別功能。Shi等人[24提出了一種新穎的雙流自適應圖卷積網絡(2s-AGCN)用于基于骨架的行為識別,模型中圖的拓撲既可以通過BP算法統一學習,也可以通過端到端的方式單獨學習。這種數據驅動的方法增加了圖構建模型的靈活性,使其具有更強的通用性以適應不同的數據樣本。Si等人[92設計了一種新的注意力增強圖卷積LSTM網絡(AGC-LSTM),用于從骨架數據中識別人體行為。AGC-LSTM不僅可以捕獲空間形態和時間動態的判別特征,還可以探索時空域的共現關系。Song等人[93提出了一種多流圖卷積網絡模型,用于探索分布在所有骨架關節上足夠多的判別特征,該模型被稱為豐富激活GCN(RA-GCN),所激活的關節明顯比傳統方法多,進一步提升了模型的魯棒性。Zhang等人[94提出了一種簡單而有效的語義引導神經網絡(SGN)用于基于骨架的行為識別,成功將關節的高級語義(關節類型和幀索引)引入到網絡中以增強特征表示能力。Peng等人[25對ST-GCN進行了理論和實驗分析,提出了捕獲全局圖的策略,高效地建模輸入圖序列的表示。此外,全局圖策略還可以將圖序列降維到歐氏空間,從而引入多尺度時間濾波器來有效地捕獲動態信息。張家想等人[26提出了一種將時空注意力機制和自適應圖卷積網絡相結合的人體骨架行為識別方案,可以更好地捕捉時空特征和全局上下文信息。Hao等人[95提出了一種超圖神經網絡(Hyper-GNN)來捕獲基于骨架的行為識別的時空信息和高階依賴,通過構建超邊結構來提取局部和全局結構信息,消除了無關節點帶來的噪聲影響。Xu等人[96設計了一種用于基于骨架的行為識別的多尺度骨架自適應加權圖卷積網絡(MS-AWGCN)用于提取骨架數據中更豐富的空間特征,并結合圖頂點融合策略,將手工繪制的鄰接矩陣替換為可學習,自適應地學習潛在的圖拓撲結構,最后采用加權學習方法聚合并豐富特征。李揚志等人97提出了基于時空注意力圖卷積網絡(STA-GCN)模型,STA-GCN包含空間注意力機制和時間注意力機制,可以同時捕捉空間構造和時間動態的判別特征,探索時空域之間的關系。

3 基于特征融合的方法

對比RGB數據和深度數據的行為特征,RGB 數據的優勢是外觀信息豐富,而深度數據可以更準確地描述人體的運動特征。研究結果[98表明,基于深度信息的方法可以實現實時的行為識別,識別性能優于基于RGB的方法。一些研究者也嘗試使用多特征融合來建模人體行為。

Chaaraoui 等人[99試圖將骨架節點特征和深度序列特征合并,克服遮擋和視角變化導致的骨架特征誤差。Li等人[100提出了一種基于關節點組的稀疏回歸學習方法,將關節和深度特征融合在建模行為中。Althloothi 等人[101在頻域計算了深度信息的球面諧波表示,并通過多核學習方法將其與骨架關節的位置信息融合在一起建模人體行為。文獻[102]將深度信息和骨架信息進行融合,形成了一種新的歷史點云軌跡特征。

除了深度序列與骨架特征的融合外,一些研究者還嘗試將RGB數據中的特征與深度數據中的特征融合。Ni等人103提出了RGB數據和深度數據特征的多級融合策略;Jalal等人[104將RGB數據和深度數據中的時空特征進行了融合;Xu等人[105提出一種基于人體骨架和場景圖像的雙流模型,該模型充分利用了骨架信息在運動表達中的優勢和圖像在場景表達中的優勢,將場景信息與基于時空圖卷積的人體骨骼肢體進行互補融合,克服了不穩定的光照條件對人體行為識別算法性能的影響;周雪雪等人106提出了基于多模態特征學習的人體行為識別算法,從視頻中分別提取RGB特征和3D骨架特征,并將其進行了融合。

總的來說,基于特征融合的方法試圖利用不同數據之間的優勢以獲得更穩健的特征表示。因此,在開發大多數基于特征融合的方法時,主要考慮如何將不同數據類型的特征進行有效的融合,常見的方法包括早期融合和晚期融合。前者的融合是在特征層面進行的,被稱為特征級融合,作為識別模型的輸入;后者是在識別模型的輸出評分層面進行的融合,稱為決策級融合。然而,大多數基于多模態數據融合的方法往往優于單一數據方法的識別結果,但是多模態數據融合意味著需要處理的數據量更大,特征維數會更高,這些因素在一定程度上也增加了行為識別算法的計算復雜度。

4 行為識別數據集

隨著人們對人體行為識別的不斷探索,大量的與行為識別相關的數據集被創建,用于評估和檢測算法的性能。本文按照數據集的數據類型將其劃分為RGB數據集和深度骨架序列數據集。

4.1 RGB數據集

早期人體行為識別的研究都是基于RGB數據的,用來檢驗算法性能的數據集也都是RGB數據集。表1列出了目前一些比較熱門的RGB數據集的基本信息,包括數據集的數據模態、采集數量和類別數。

表2對比分析了這些數據集上一些經典方法的識別性能,其中上標D表示的是基于深度學習的方法。

從表2中可以看出,基于深度學習的方法在各個數據集上均取得了最好的成績,且基于深度學習的方法性能普遍優于傳統方法(例如,傳統方法在HMDB51和HMDB51數據集上精度不超過70%和95%;而基于深度學習的方法在HMDB51上普遍超過70%,文獻[54]的精度最高達到83.8%,在HMDB51上普遍超過95%,文獻[8]的精度最高達到98.0%)。從表2中可以看出,基于深度學習的方法在人體行為識別中取得了顯著的成績。

表3分析對比了各個深度學習模型在HMDB51和UCF101數據集上的性能。從表3中可以看出,三個深度學習模型在UCF101數據集上性能差別不大(雙流網絡模型最高達到97.4%[40,三維卷積模型最高達到98.0%[8,LSTM模型最高達到95.24%[59);在HMDB51數據集上存在較大差異(雙流網絡模型最高達到76.3%[40,三維卷積模型最高達到83.8%[54,LSTM模型最高達到71.62%[59)。從整體來看,基于三維卷積的深度學習模型在三類深度學習模型中性能最佳。

4.2 深度骨架序列數據集

隨著微軟Kinect等一些深度傳感器的應用,也產生了許多深度骨架序列數據集。表4列出了一些常用的深度骨架序列數據集的基本信息,包括數據集的數據模態、采集數量和類別數。

表5整理了這些深度骨架序列數據集上一些最新的研究成果。通過分析表中數據可以發現,傳統方法主要集中于規模較小的MSR-Action3D數據集,并且取得了不錯的效果(在MSR-Action3D數據集上幾乎全部達到90%以上,最優的精度達到了96.2%[98,與深度學習的方法僅差1.02%);而基于深度學習的方法則更適合在規模較大的數據集(在Kinetics數據集上達到最高精度59.8%[26、NTU-RGB+D數據集上達到最高精度96.2%[26和NTU-RGB+D 120數據集上達到最高精度85.03%[66),這是因為基于深度學習的方法需要足夠多的數據來訓練模型,且經過大規模數據集訓練后的深度模型在MSR-Action3D數據集上也取得了比傳統方法更好的成績(文獻[75]在MSR-Action3D數據集上達到了97.22%的識別精度)。

表6對比分析了近年來基于深度骨架數據集上的各個深度學習模型算法的性能。

從表6中可以看出,這三類深度學習模型在NTU-RGB+D數據集上表現出的整體性能差別不大(RNN模型最高達到95%[80,CNN模型最高達到95.2%[90,GCN模型最高達到96.2%[26);在NTU-RGB+D 120數據集上,最新CNN模型的性能優于GCN模型(文獻[66]識別精度達到85.03%,文獻[25]的識別精度僅有81.7%,兩者相差3.33%)。此外,隨著Yan等人[22為Kinetics數據集提供了原始的骨架數據,基于GCN的學習模型在Kinetics數據集上的性能由最初的52.8%[22上升到59.8%[26

5 結束語

本文全面梳理了人體行為識別的方法,按照所使用的數據類型對方法進行了系統的歸納和總結,并對各種方法進行了相關的分析和討論,指出了各類方法的優缺點,還介紹了一些主流的人體行為識別數據集。大量的研究結果表明,絕大多數基于深度學習的方法在性能上均優于傳統方法。由此可見,未來的行為識別研究方向應該是集中于基于深度學習的方法。但是深度學習算法需要花費大量的時間和大規模的數據集來訓練模型,而在視頻監控和家庭監護等實際應用中往往需要實時性地進行人體行為識別,如何快速有效地應用到實際工作中則是未來研究工作的重難點。

人體行為識別的關鍵是提取魯棒性的行為特征,包括空間特征和時間特征。本文對該領域未來的研究方向有以下推測:

a)基于多流網絡的行為識別。雙流卷積神經網絡可以有效地從視頻中提取時間和空間特征,從而取得了很好的識別效果。但是設計的網絡越多,模型會越復雜,進一步導致計算量的增加。因此,如何設計多流網絡提取有效的特征是未來研究的重難點之一。

b)基于特征融合的方法。基于數據融合的方法試圖利用不同數據之間的優勢以獲得更穩健的特征表示。大多數基于多模態數據特征融合的方法往往優于單一數據特征方法的識別結果。但是,多模態數據特征融合需要處理的數據量更大,特征維數更高,在一定程度上增加了計算復雜度。因此,選擇哪些特征以及采用哪種融合方法和策略是未來該領域需要重點研究的方向。

c)基于注意力機制的深度神經網絡。從擬合誤差來看,大多數情況下,深層網絡比淺層網絡更有效。此外,循環神經網絡可以有效地處理序列數據,LSTM和GRU有效地解決了RNN梯度消失的問題,結合注意力機制可以使得網絡結構朝著更深層次發展。因此,如何結合注意力機制設計深層網絡也是未來人體行為識別領域中具有挑戰性的課題。

d)基于圖卷積神經網絡的方法。相較于RGB數據,深度骨架數據對復雜場景具有更強的魯棒性。人體3D骨架數據本身就可以被看做一個自然的拓撲圖數據結構,頂點表示關節,邊表示連接關節的肢節,GCN能對圖數據進行深度學習。此外,隨著Kinect等深度傳感器的應用,產生了NTU- RGB+D等大型深度骨架序列數據集,基于GCN的方法將會是未來十分熱門的研究方向。

參考文獻:

[1]Bobick A F,Davis J W.The recognition of human movement using temporal templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(3):257-267.

[2]Klaeser A,Marszalek M,Schmid C.A spatio-temporal descriptor based on 3D-gradients[C]//Proc of the 19th British Machine Vision Conference.Oxford:BMVA Press,2008:99.1-99.10.

[3]Chakraborty B,Holte M B,Moeslund T B,et al.Selective spatio-temporal interest points[J].Computer Vision amp; Image Understan-ding,2012,116(3):396-410.

[4]Wang Heng,Schmid C.Action recognition with improved trajectories[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:3551-3558.

[5]Simonyan K,Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Proc of the 27th International Confe-rence on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:568-576.

[6]Wang Limin,Xiong Yuanjun,Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:20-36.

[7]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:4489-4497.

[8]Carreira J,Zisserman A.Quo vadis,action recognition? A new model and the Kinetics dataset[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4724-4733.

[9]Ng Y H,Hausknecht M,Vijayanarasimhan S,et al.Beyond short snippets:deep networks for video classification[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:4694-4702.

[10]Yang Xiaodong,Tian Yingli.Super normal vector for activity recognition using depth sequences[C]//Proc of IEEE International Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:804-811.

[11]Yang Xiaodong,Zhang Chenyang,Tian Yingli.Recognizing actions using depth motion maps-based histograms of oriented gradients[C]//Proc of the 20th ACM International Conference on Multimedia.New York:ACM Press,2012:1057-1060.

[12]Chen Chen,Jafari R,Kehtarnavaz N.Action recognition from depth sequences using depth motion maps-based local binary patterns[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Washington DC:IEEE Computer Society,2015:1092-1099.

[13]Keceli A S,Can A B.Recognition of basic human actions using depth information[J].International Journal of Pattern Recognition amp; Artificial Intelligence,2014,28(2):1450004.

[14]Liu Jun,Shahroudy A,Xu Dong,et al.Spatio-temporal LSTM with trust gates for 3D human action recognition[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:816-833.

[15]Ke Qiuhong,Bennamoun M,An Senjian,et al.A new representation of skeleton sequences for 3D action recognition[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1063-6919.

[16]Wang Lei,Huynh D Q,Koniusz P.A comparative review of recent Kinect-based action recognition algorithms[J].IEEE Trans on Image Processing,2019,29(1):15-28.

[17]孫彬,孔德慧,張雯暉,等.基于深度圖像的人體行為識別綜述[J].北京工業大學學報,2018,44(10):1353-1368.(Sun Bin,Kong Dehui,Zhang Wenhui,et al.Survey on human action recognition from depth maps[J].Journal of Beijing University of Technology,2018,44(10):1353-1368.)

[18]錢慧芳,易劍平,付云虎.基于深度學習的人體動作識別綜述[J].計算機科學與探索,2021,15(3):438-455.(Qian Huifang,Yi Jianping,Fu Yunhu.Review of human action recognition based on deep learning[J].Journal of Frontiers of Computer Science amp; Technology,2021,15(3):438-455.)

[19]赫磊,邵展鵬,張劍華,等.基于深度學習的行為識別算法綜述[J].計算機科學,2020,47(z1):139-147.(Hao Lei,Shao Zhanpeng,Zhang Jianhua,et al.Review of deep learning-based action recognition algorithms[J].Computer Science,2020,47(z1):139-147.)

[20]蔡強,鄧毅彪,李海生,等.基于深度學習的人體行為識別方法綜述[J].計算機科學,2020,47(4):85-93.(Cai Qiang,Deng Yibiao,Li Haisheng,et al.Survey on human action recognition based on deep learning[J].Computer Science,2020,47(4):85-93.)

[21]黃海新,王瑞鵬,劉孝陽.基于3D卷積的人體行為識別技術綜述[J].計算機科學,2020,47(z2):139-144.(Huang Haixin,Wang Ruipeng,Liu Xiaoyang.Review of human action recognition technology based on 3D convolution[J].Computer Science,2020,47(z2):139-144.)

[22]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd American Association for Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.

[23]Shi Lei,Zhang Yifan,Cheng Jian,et al.Skeleton-based action recognition with directed graph neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7904-7913.

[24]Shi Lei,Zhang Yifan,Cheng Jian,et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:12026-12035.

[25]Peng Wei,Shi Jingang,Varanka T,et al.Rethinking the ST-GCNs for 3D skeleton-based human action recognition[J].Neurocomputing,2021,454(9):45-53.

[26]張家想,劉如浩,金辰曦,等.結合時空注意力機制和自適應圖卷積網絡的骨架行為識別[J].信號處理,2021,37(7):1226-1234.(Zhang Jiaxiang,Liu Ruhao,Jin Chenxi,et al.Skeleton-based action recognition on spatio-temporal attention mechanism and adaptive graph convolutional network[J].Journal of Signal Processing,2021,37(7):1226-1234.)

[27]Zhang Ziming,Hu Yiqun,Chan S,et al.Motion context:a new representation for human action recognition[C]//Proc of the 10th European Conference on Computer Vision.Berlin:Springer,2008:817-829.

[28]Somasundaram G,Cherian A,Morellas V,et al.Action recognition using global spatio-temporal features derived from sparse representations[J].Computer Vision amp; Image Understanding,2014,123(6):1-13.

[29]Patel C I,Labana D,Pandya S,et al.Histogram of oriented gradient-based fusion of features for human action recognition in action video sequences[J].Sensors,2020,20(24):7299-7330.

[30]Das Dawn D,Shaikh S H.A comprehensive survey of human action recognition with spatio-temporal interest point(STIP) detector[J].Visual Computer,2016,32(3):289-306.

[31]Nguyen T V,Song Zheng,Yan Shuicheng.STAP:spatial-temporal attention-aware pooling for action recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2015,25(1):77-86.

[32]Laptev I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2):107-123.

[33]Peng Xiaojiang,Wang Limin,Wang Xingxing,et al.Bag of visual words and fusion methods for action recognition:comprehensive study and good practice[J].Computer Vision amp; Image Understanding,2016,150(9):109-125.

[34]Nazir S,Yousaf M H,Velastin S A.Evaluating a bag-of-visual features approach using spatio-temporal features for action recognition[J].Computers amp; Electrical Engineering,2018,72(11):660-669.

[35]Wang Heng,Klser A,Schmid C,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60-79.

[36]Gaidon A,Harchaoui Z,Schmid C.Activity representation with motion hierarchies[J].International Journal of Computer Vision,2014,107(3):219-238.

[37]Wang Heng,Dan O,Verbeek J,et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision,2015,119(3):219-238.

[38]Peng Xiaojiang,Zou Changqing,Qiao Yu,et al.Action recognition with stacked fisher vectors[C]//Proc of the 13th European Confe-rence on Computer Vision.Cham:Springer,2014:581-595.

[39]Xia Limin,Ma Wentao.Human action recognition using high-order feature of optical flows[J].Journal of Supercomputing,2021,77(12):14230-14251.

[40]Wang Limin,Tong Zhan,Ji Bin,et al.TDN:temporal difference networks for efficient action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1895-1904.

[41]Feichtenhofer C,Pinz A,Zisserman A.Convolutional two-stream network fusion for video action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1933-1941.

[42]Lan Zhenzhong,Yi Zhu,Hauptmann A G.Deep local video feature for action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1219-1225.

[43]Zhou Bolei,Andonian A,Oliva A,et al.Temporal relational reasoning in videos[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:831-846.

[44]Feichtenhofer C,Fan Haoqi,Malik J,et al.SlowFast networks for video recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6201-6210.

[45]Park S K,Chung J H,Kang T K,et al.Binary dense sift flow based two stream CNN for human action recognition[J].Multimedia Tools and Applications,2021,80(28):35697-35720.

[46]Liu Congcong,Ying Jie,Yang Haima,et al.Improved human action recognition approach based on two-stream convolutional neural network model[J].Visual Computer,2021,37(6):1327-1341.

[47]Du Zhouning,Mukaidani H.Linear dynamical systems approach for human action recognition with dual-stream deep features[J/OL].Applied Intelligence,2021.(2021-05-03)[2021-07-10].https://doi.org/10.1007/s10489-021-02367-6.

[48]Tran D,Wang Heng,Torresani L,et al.A closer look at spatiotemporal convolutions for action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6450-6459.

[49]Diba A,Fayyaz M,Sharma V,et al.Temporal 3D convnets:new architecture and transfer learning for video classification[EB/OL].(2017-11-22).https://arxiv.org/pdf/1711.08200.pdf.

[50]Qiu Zhaofan,Yao Ting,Mei Tao.Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5534-5542.

[51]Tran D,Ray J,Shou Zheng,et al.Convnet architecture search for spatiotemporal feature learning[EB/OL].(2017-08-16).https://arxiv.org/pdf/1708.05038.pdf.

[52]Zolfaghari M,Singh K,Brox T.ECO:efficient convolutional network for online video understanding[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:713-730.

[53]Crasto N,Weinzaepfel P,Alahari K,et al.MARS:motion-augmented RGB stream for action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7874-7883.

[54]Kim J,Li Gen,Yun Inyong,et al.Weakly-supervised temporal attention 3D network for human action recognition[J].Pattern Recognition,2021,119(11):108068.

[55]Shi Xin,Jiang Haiyang,Lu Yuanyao.A novel channel attention me-chanism for human action recognition based on convolutional kernel[J].Journal of Physics:Conference Series,2021,1944:article ID 012015.

[56]Kumawat S,Verma M,Nakashima Y,et al.Depthwise spatio-temporal STFT convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,DOI:10.1109/TPAMI.2021.3076522.

[57]Dong Min,Fang Zhenglin,Li Yongfa,et al.AR3D:attention residual 3D network for human action recognition[J].Sensors,2021,21(5):1656-1669.

[58]Donahue J,Hendricks L A,Guadarrama S,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(4):677-691.

[59]Aghaei A,Nazari A,Moghaddam M E.Sparse deep LSTMs with convolutional attention for human action recognition[J].SN Computer Science,2021,2(3):article ID 151.

[60]揭志浩,曾明如,周鑫恒,等.結合Attention-ConvLSTM的雙流卷積行為識別[J].小型微型計算機系統,2021,42(2):405-408.(Jie Zhihao,Zeng Mingru,Zhou Xinheng,et al.Two stream CNN with Attention-ConvLSTM on human behavior recognition[J].Journal of Chinese Computer Systems,2021,42(2):405-408.)

[61]Oreifej O,Liu Zicheng.HON4D:histogram of oriented 4D normals for activity recognition from depth sequences[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2013:716-723.

[62]Rahmani H,Mahmood A,Du Q H,et al.Real time action recognition using histograms of depth gradients and random decision forests[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Washington DC:IEEE Computer Society,2014:626-633.

[63]Chen Wenbin,Guo Guodong.TriViews:a general framework to use 3D depth data effectively for action recognition[J].Journal of Visual Communication and Image Representation,2014,26(1):182-191.

[64]Miao Jie,Jia Xiaoyi,Mathew R,et al.Efficient action recognition from compressed depth maps[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2016:16-20.

[65]Bulbul M F,Tabussum S,Ali H,et al.Exploring 3D human action recognition using STACOG on multi-view depth motion maps sequences[J].Sensors,2021,21(11):3642-3659.

[66]Ji Xiaopeng,Zhao Qinsong,Cheng Jun,et al.Exploiting spatio-temporal representation for 3D human action recognition from depth map sequences[J].Knowledge-Based Systems,2021,227(9):107040.

[67]Xia Lu,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Wa-shington DC:IEEE Computer Society,2012:20-27.

[68]Gowayyed M A,Torki M,Hussein M E,et al.Histogram of oriented displacements(HOD):describing trajectories of human joints for action recognition[C]//Proc of the 23rd International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2013:1351-1357.

[69]Yang Xiaodong,Tian Yingli.Effective 3D action recognition using eigenjoints[J].Journal of Visual Communication amp; Image Representation,2014,25(1):2-11.

[70]Pazhoumand-Dar H,Lam C P,Masek M.Joint movement similarities for robust 3D action recognition using skeletal data[J].Journal of Visual Communication amp; Image Representation,2015,30(7):10-21.

[71]Nguyen V T,Nguyen T N,Le T L,et al.Adaptive most joint selection and covariance descriptions for a robust skeleton-based human action recognition[J].Multimedia Tools and Applications,2021,80(7):27757-27783.

[72]Li Wenbo,Wen Longyin,Chang M C,et al.Adaptive RNN tree for large-scale human action recognition[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:1453-1461.

[73]Wang Hongsong,Wang Liang.Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3633-3642.

[74]Liu Jun,Wang Gang,Hu Ping,et al.Global context-aware attention LSTM networks for 3D action recognition[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3671-3680.

[75]Lee I,Kim D,Kang S,et al.Ensemble deep learning for skeleton-based action recognition using temporal sliding LSTM networks[C]//Proc of IEEE International Conference on Computer Vision.Pisca-taway,NJ:IEEE Press,2017:1012-1020.

[76]Song Sijie,Lan Cuiling,Xing Junliang,et al.Spatio-temporal attention-based LSTM networks for 3D action recognition and detection[J].IEEE Trans on Image Processing,2018,27(7):3459-3471.

[77]Li Ce,Xie Chunyu,Zhang Baochang,et al.Memory attention networks for skeleton-based action recognition[J].IEEE Trans on Neural Networks and Learning Systems,2021,DOI:10.1109/TNNLS.2021.3061115.

[78]Zhang Pengfei,Xue Jianru,Lan Cuiling,et al.EleAtt-RNN:adding attentiveness to neurons in recurrent neural networks[J].IEEE Trans on Image Processing,2020,29:1061-1073.

[79]Li Shuai,Li Wanqing,Cook C,et al.Independently recurrent neural network(IndRNN):building a longer and deeper RNN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5457-5466.

[80]Zhang Pengfei,Lan Cuiling,Xing Junliang,et al.View adaptive neural networks for high performance skeleton-based human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8):1963-1978.

[81]Rao Haocong,Xu Shihao,Hu Xiping,et al.Augmented skeleton based contrastive action learning with momentum LSTM for unsupervised action recognition[J].Information Sciences,2021,569:90-109.

[82]Ding Zewei,Wang Pichao,Ogunbona P O,et al.Investigation of diffe-rent skeleton features for CNN-based 3D action recognition[C]//Proc of IEEE International Conference on Multimedia amp; Expo.Piscataway,NJ:IEEE Press,2017:617-622.

[83]Xu Yangyang,Cheng Jun,Wang Lei,et al.Ensemble one-dimensional convolution neural networks for skeleton-based action recognition[J].IEEE Signal Processing Letters,2018,25(7):1044-1048.

[84]Li Bo,Dai Yunchao,Cheng Xuelian,et al.Skeleton based action re-cognition using translation-scale invariant image mapping and multi-scale deep CNN[C]//Proc of IEEE International Conference on Multimedia amp; Expo.Piscataway,NJ:IEEE Press,2017:601-604.

[85]Li Chao,Zhong Qiaoyong,Xie Di,et al.Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:786-792.

[86]Ke Qiuhong,Bennamoun M,An S,et al.Learning clip representations for skeleton-based 3D action recognition[J].IEEE Trans on Image Processing,2018,27(6):2842-2855.

[87]Li Yanshan,Xia Rongjie,Liu Xing,et al.Learning shape-motion representations from geometric algebra spatio-temporal model for skeleton-based action recognition[C]//Proc of IEEE International Confe-rence on Multimedia and Expo.Piscataway,NJ:IEEE Press,2019:1066-1071.

[88]Caetano C,Sena J,Brémond F,et al.SkeleMotion:a new representation of skeleton joint sequences based on motion information for 3D action recognition[C]//Proc of the 16th International Conference on Advanced Video and Signal Based Surveillance.Piscataway,NJ:IEEE Press,2019:1-8.

[89]Caetano C,Bremond F,Schwartz W R.Skeleton image representation for 3D action recognition based on tree structure and reference joints[C]//Proc of the 32nd SIBGRAPI Conference on Graphics,Patterns and Images.Piscataway,NJ:IEEE Press,2019:16-23.

[90]Li Meng,Sun Qiumei.3D skeletal human action recognition using a CNN fusion model[J].Mathematical Problems in Engineering,2021,2021:article ID 6650632.

[91]Li Maosen,Chen Siheng,Chen Xu,et al.Actional-structural graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:3590-3598.

[92]Si Chenyang,Chen Wentao,Wang Wei,et al.An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-1236.

[93]Song Yifan,Zhang,Wang Liang.Richly activated graph convolutional network for action recognition with incomplete skeletons[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2019:1-5.

[94]Zhang Pengfei,Lan Cuiling,Zeng Wenjun,et al.Semantics-guided neural networks for efficient skeleton-based human action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1109-1118.

[95]Hao Xiaoke,Li Jie,Guo Yingchun,et al.Hypergraph neural network for skeleton-based action recognition[J].IEEE Trans on Image Processing,2021,30:2263-2275.

[96]Xu Weiyao,Wu Muqing,Zhu Jie,et al.Multi-scale skeleton adaptive weighted GCN for skeleton-based human action recognition in IoT[J].Applied Soft Computing Journal,2021,104(6):article ID 107236.

[97]李揚志,袁家政,劉宏哲.基于時空注意力圖卷積網絡模型的人體骨架動作識別算法[J].計算機應用,2021,41(7):1915-1921.(Li Yangzhi,Yuan Jiazheng,Liu Hongzhe.Human skeleton-based action recognition algorithm based on spatiotemporal attention graph convolutional network model[J].Journal of Computer Applications,2021,41(7):1915-1921.)

[98]Chen Chen,Liu Kui,Kehtarnavaz N.Real-time human action recognition based on depth motion maps[J].Journal of Real-Time Image Processing,2016,12(1):155-163.

[99]Chaaraoui A A,Padilla-López J R,Florez-Revuelta F.Fusion of skeletal and silhouette-based features for human action recognition with RGB-D devices[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:91-97.

[100]Li Meng,Leung H,Shum H.Human action recognition via skeletal and depth based feature fusion[C]//Proc of the 9th International Confe-rence on Motion in Games.New York:ACM Press,2016:123-132.

[101]Althloothi S,Mahoor M H,Zhang Xiao,et al.Human activity recognition using multi-features and multiple kernel learning[J].Pattern Recognition,2014,47(5):1800-1812.

[102]Li Donglu,Jahan H,Huang Xiaoyi,et al.Human action recognition method based on historical point cloud trajectory characteristics[J/OL].The Visual Computer.(2021-06-02).https://doi.org/10.1007/s00371-021-02167-6.

[103]Ni Bingbing,Pei Yong,Moulin P,et al.Multilevel depth and image fusion for human activity detection[J].IEEE Trans on Cyberne-tics,2013,43(5):1383-1394.

[104]Jalal A,Kim Y H,Kim Y J,et al.Robust human activity recognition from depth video using spatiotemporal multi-fused features[J].Pattern Recognition,2017,61(1):295-308.

[105]Xu Qingyang,Zheng Wanqiang,Song Yong,et al.Scene image and human skeleton-based dual-stream human action recognition[J].Pattern Recognition Letters,2021,148(8):136-145.

[106]周雪雪,雷景生,卓佳寧.基于多模態特征學習的人體行為識別方法[J].計算機系統應用,2021,30(4):146-152.(Zhou Xue-xue,Lei Jingsheng,Zhuo Jianing.Human action recognition algorithm based on multi-modal features learning[J].Computer Systems amp; Applications,2021,30(4):146-152.)

[107]Schuldt C,Laptev I,Caputo B.Recognizing human actions:a local SVM approach[C]//Proc of the 17th International Conference on Pattern Recognition.Washington DC:IEEE Computer Society,2004:32-36.

[108]Kuehne H,Jhuang H,Garrote E,et al.HMDB:a large video database for human motion recognition[C]//Proc of International Conference on Computer Vision.Washington DC:IEEE Computer Society,2011:2556-2563.

[109]Reddy K K,Shah M.Recognizing 50 human action categories of Web videos[J].Machine Vision and Applications,2013,24(5):971-981.

[110]Soomro K,Zamir A R,Shah M.UCF101:a dataset of 101 human actions classes from videos in the wild[EB/OL].(2012-12-03).https://arxiv.org/pdf/1212.0402.pdf.

[111]Li Wanqing,Zhang Zhengyou,Liu Zicheng.Action recognition based on a bag of 3D points[C]//Proc of IEEE Computer Society Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2010:9-14.

[112]Kay W,Carreira J,Simonyan K,et al.The kinetics human action video dataset[EB/OL].(2017-05-19).https://arxiv.org/pdf/1705.06950.pdf.

[113]Shahroudy A,Liu Jun,Ng T,et al.NTU RGB+D:a large scale dataset for 3D human activity analysis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1010-1019.

[114]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D 120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern and Machine Intelligence,2020,42(10):2684-2701.

主站蜘蛛池模板: 亚洲第一天堂无码专区| 国产精品美女网站| 奇米影视狠狠精品7777| 日韩人妻少妇一区二区| 国产亚洲欧美在线人成aaaa| 欧美国产日韩另类| 日本国产精品一区久久久| 99精品久久精品| 亚洲人成人无码www| 98超碰在线观看| 国产欧美日韩综合一区在线播放| 国产三级国产精品国产普男人| 91精品aⅴ无码中文字字幕蜜桃| 777午夜精品电影免费看| 免费播放毛片| 亚洲欧洲日韩综合色天使| 国产成人区在线观看视频| 国产成人在线无码免费视频| 欧美高清国产| 国产成人免费| 激情国产精品一区| 欧洲高清无码在线| 最新亚洲人成网站在线观看| 久久精品电影| 97视频免费在线观看| 久热精品免费| 狼友av永久网站免费观看| 狠狠色婷婷丁香综合久久韩国| www.狠狠| 久996视频精品免费观看| 国产精品一线天| 亚洲AV无码精品无码久久蜜桃| 一级成人欧美一区在线观看| 九九热精品视频在线| 久久天天躁狠狠躁夜夜躁| 欧美中文一区| 呦视频在线一区二区三区| 色综合五月| 亚洲二三区| 88av在线| 国产系列在线| 亚洲国产清纯| 久久青草热| 老色鬼久久亚洲AV综合| 99久久精品免费视频| 亚洲综合色在线| 国产哺乳奶水91在线播放| WWW丫丫国产成人精品| 91尤物国产尤物福利在线| 亚洲欧洲日本在线| 在线观看亚洲人成网站| 一级毛片中文字幕| 日韩精品久久久久久久电影蜜臀| 国产手机在线小视频免费观看| 国产91导航| 国产人在线成免费视频| 国产精品一区二区在线播放| 五月天天天色| 性喷潮久久久久久久久| 成年人久久黄色网站| 久久久91人妻无码精品蜜桃HD| 久久久噜噜噜| 亚洲αv毛片| 欧美精品不卡| swag国产精品| YW尤物AV无码国产在线观看| 在线观看无码av免费不卡网站| 国产不卡一级毛片视频| 毛片久久久| 中美日韩在线网免费毛片视频| 在线观看免费人成视频色快速| 亚洲国模精品一区| 日本欧美成人免费| 日本一区二区三区精品国产| 国内精自线i品一区202| 国产在线专区| 亚洲人成网址| 亚洲人成网18禁| 亚洲综合欧美在线一区在线播放| 国产日韩AV高潮在线| 免费国产一级 片内射老| 另类专区亚洲|