楊世強,楊江濤,李 卓,王金華,李德信
基于LSTM神經網絡的人體動作識別
楊世強,楊江濤,李 卓,王金華,李德信
(西安理工大學機械與精密儀器工程學院,陜西 西安 710048)
人體動作識別為人機合作提供了基礎支撐,機器人通過對操作者動作進行識別和理解,可以提高制造系統的柔性和生產效率。針對人體動作識別問題,在三維骨架數據的基礎上,對原始三維骨架數據進行平滑去噪處理以符合人體關節點運動的平滑規律;構建了由靜態特征和動態特征組成的融合特征用來表征人體動作;引入了關鍵幀提取模型來提取人體動作序列中的關鍵幀以減少計算量;建立了以LSTM神經網絡為基礎的Bi-LSTM神經網絡的人體動作分類模型,引入注意力機制以及Dropout進行人體動作分類識別,并對神經網絡的主要參數采用正交試驗法進行了參數優化;最后利用公開數據集進行動作識別實驗。結果表明,該模型算法對人體動作具有較高的識別率。
動作識別;融合特征;LSTM神經網絡;注意力機制;Dropout
近年來人工智能技術取得了長足發展,已逐漸地應用于機械制造等領域。動作識別是人機交互的基礎,通過人機交互合作可以提高人機合作制造系統柔性,對制造業發展有積極促進意義。動作識別也可應用于智能安防、智能家居、智能醫療等領域。
特征提取是動作識別的基礎,主要方法有基于深度圖像和基于骨架數據的特征提取2種方法。Kinect深度相機可以采集到圖像的深度信息,唐超等[1]提出了基于深度圖像特征的人體動作識別方法,使用方向梯度直方圖、時空興趣點和人體關節位置3種特征進行分類識別。許艷等[2]將深度特征與骨骼特征相結合,用多模型概率投票進行人體動作識別。基于骨骼點特征描述法的動作識別數據量小、魯棒性好。文獻[3]提出局部聚集描述子向量算法和分類池模型,利用骨骼關節進行分類。田聯房等[4]提出一種基于人體骨架序列使用模板匹配檢測異常行為,再利用動態時間規整識別的算法。YANG等[5]使用深度優先樹遍歷順序重新設計骨骼表示,提出雙分支注意結構,實現對不可靠聯合預測的過濾。ZHANG等[6]提出包括關節間距離和關節到關節所構成平面距離等幾何特征來描述運動。LIU 等[7]使用不同顏色像素點在圖像平面上的移動軌跡表示骨架關節點序列時空變化。
在提取有效特征的基礎上,采用有效的分類器進行動作分類。ZOLFAGHARI等[8]提出高效卷積網絡,結合采樣策略,利用幀間冗余性快速分類,且網絡模型的層數較少。DONAHUE等[9]利用融合長時遞歸層和卷積層的長時遞歸卷積網絡(long-term recurrent convolutional,LRCN)進行人體動作識別。SONG等[10]介紹了基于長短記憶網絡(long short-termmemory network,LSTM)的端到端的時空注意力模型,對關節點和不同幀賦予不同關注度。沈西挺等[11]結合二維卷積神經網絡、三維卷積神經網絡和長短期記憶神經網絡用于動作的分類。雖然諸多的學者都取得了一定的研究成果,但動作識別的準確性仍然有待提高。
本文基于三維骨架數據,構建了由靜態特征和動態特征組成的融合特征;建立了基于LSTM神經網絡的動作識別模型,引入注意力和Dropout機制提高了識別率;最后使用正交試驗法對神經網絡參數進行了優化。
使用Kinect深度攝像機,采集人體20個骨骼關節點的三維坐標信息,圖1(a)為簡化人體骨架模型。為不影響動作完整性的同時降低計算量,從Kinect相機采集的20個關節點中選取了對人體動作影響較大且具有明顯變化的13個關節點進行特征的構建,分別為:頭、鎖骨、左肩、右肩、左手肘、右手肘、左手腕、右手腕、腰、左膝蓋、右膝蓋、左腳踝、右腳踝。經過選取的人體骨架模型如圖1(b)所示。
在一般情況下,人體在運動時,身體所有的關節點隨時間的變化在空間中應該是光滑曲線,不應該存在明顯的突變點。但原始數據在采集過程中難免會因為干擾原因產生噪聲,采用均值濾波算法對原始的3D骨骼數據進行平滑處理,消除所采集數據中的突變點,符合人體關節點運動的平滑規律。
針對骨骼數據采用均值濾波算法,選取一個關于時間的窗口,對于某時刻數據,濾波后的值是前面一段時間與該時刻后面一段時間數據總和的平均值。原始骨骼數據的某一點空間3個維度中的維度濾波過程的計算式為

從人體動作序列中提取合適的特征描述人體運動狀態是人體動作識別的關鍵問題。人體3D骨骼關節點描述的人體動作差別是通過其關節點相對位置變化來反應的。由于用原始關節點數據描述人體動作是非常抽象的,而從運動序列中提取關節點的靜態和動態特征組成的融合特征可以更形象地描述人體的動作。人體動作視頻通常由一系列幀完成,靜態特征即建立在每個幀上的特征。靜態特征由肢體夾角和相對距離構成,肢體夾角指在某一幀內,2個肢體之間形成的夾角,此特征可以非常清晰地描述人體的姿態。肢體夾角選取了人體運動時具有明顯變化的11個角度進行計算,將肢體視作一個向量,從某一關節點指向另一關節點,夾角2由向量2,3和2,9構成(圖1(b))。肢體夾角為

其中,為11個肢體夾角,=1,2,···,11;為第一個肢體向量;為第二個肢體向量。基于此,人體的一個動作可以表示為

構建相對距離時可選取影響人體運動身體變化較大的8個關節點,即左手肘、右手肘、左手腕、右手腕、左膝蓋、右膝蓋、左腳踝、右腳踝。通過計算這8個關節點與腰關節點之間的距離,可得8組距離d,9,=4,5,7,8,10,11,12,13,代表8個關節點的編號。考慮到不同個體的身高差異性,采取歸一化思想,對得到的8組距離統一除以鎖骨關節(編號2)與腰關節(編號9)之間的距離2,9,以最大可能的消除人體身高差異,具體計算為

其中,,9為8個關節點與腰關節點間消除身高差后的距離。d,9為消除身高前的距離,腰關節點與鎖骨關節點之間的距離取決于不同個體。這樣,基于相對距離特征,人體的一個動作可以表示為

在靜態特征的構建中,雖然實現了對每一幀動作的表述,但是對于近鄰幀之間的變化量卻無法表達,使用動態特征,如關節動能和肢體夾角的角加速度等,可以更加有利地進行人體動作的分類。
關節動能特征描述選取人體骨架模型中人體動作時信息貢獻較大的13個關節點(圖1),根據動作序列中相鄰2幀的數據,關節動能的計算為

其中,E,t為第個關節點第+時刻與第時刻2幀之間的動能,=1,2,···13,為2幀之間的時長;m為動能計算公式中的系數,可視為常數;(,,)為關節點在三維空間中的坐標值。基于關節動能特征,人體的一個動作可以表示為

由于動態特征是基于原始數據2幀之間計算得出的,因此,動態特征相比靜態特征在時間維度上少一個。
肢體夾角的角加速度特征構建中,同樣取與肢體夾角構成中相同的11個角度,=1,2,···11,加速度特征基于這11個角度進行建立。肢體夾角的角加速度特征計算為

其中,,t為第個夾角第+時刻與第時刻2幀之間在動作過程中的角加速度;為2幀之間的時長;,t為第個肢體夾角在第時刻的角度。基于肢體夾角的角加速度特征,人體的一個動作可以表示為

基于骨架模型簡化,融合靜態特征和動態特征使得原始骨骼數據中的60維數據降低為由11個肢體夾角、8個重要關節點的相對距離、人體模型中所有13個關節點的關節動能以及11個肢體夾角的角加速度構成的43維,在原始動作特征最大程度保留的情況下,降低了數據維度。在4個人體動作特征完成后,進行特征融合,即將靜態特征中的第一幀舍棄以達到與動態特征相同的幀數。基于靜態和動態特征組成的融合特征,人體的一個動作就可以表示為

關鍵幀是原始動作序列中能夠反映動作內容的幀。在實際中,人體的動作序列通常由很多幀構成,在動作識別中,這些幀對識別的貢獻率并非相同。因此,需剔除對一個動作序列變化不明顯的幀,在提高動作識別的準確率的同時減少計算量。



最終的人體動作關鍵幀提取模型將上述2部分進行合并相加,可得

其中,為13個關節點;為11個夾角;和為上述2項的權重系數;E,t為第幀的第個關節點的動能;a,t為第幀的第個夾角的角加速度值。
接下來將人體的每個完整動作序列中的幀通過以下條件進行約束篩選,篩選原則為

其中,max為一個序列動作中計算得出的最大加權求和值;min為最小的加權求和值;e為常數。在計算時,max與min均是針對某一個動作序列中的數據進行篩選,當進入下一個動作序列后,根據其數據的不同,重新計算max和min。通過該方法,將所有的人體動作序列篩選一遍,可得每個動作序列中符合要求的幀。
在人體動作識別特征構建的基礎上,首先搭建LSTM神經網絡分類器進行人體動作識別分類,隨后再構建Bi-LSTM神經網絡分類器,引入注意力機制和Dropout來完善優化網絡結構與性能,進一步提高識別率。
使用LSTM神經網絡進行識別分類的網絡輸入為2個靜態特征和2個動態特征組成的融合特征,利用訓練集訓練得到合適的網絡參數,再對測試集進行識別分類。圖2搭建的是基于LSTM神經網絡人體動作識別訓練模型。

圖2 基于LSTM的動作識別模型
網絡輸入的是由所提取的靜態和動態特征融合的4個特征,每個人體動作特征是一個43維數據,數據長度因每個動作的幀數不同而不同。在輸入前,為了便于處理,統一將每組用于訓練或測試的數據進行等長處理,即按照每組中序列最長的序列對剩余的序列進行補零操作。在每個時間幀中,輸入網絡的數據是一個43維的向量。隨后,通過LSTM層的計算,將中間值送入到輸出層,輸出層所使用的為Softmax函數,對該動作進行判斷,輸出屬于每個動作標簽的概率,對應概率值最高的即為網絡最終的輸出類別。
LSTM神經網絡的前向計算過程如下:
根據LSTM輸入的人體動作數據,時刻遺忘門為


時刻輸入門i為

其中,為輸入門權重矩陣;為輸入門的偏置項。
時刻長期記憶狀態為


時刻輸出門o為

其中,為輸出門權重矩陣;b為其偏置。
最終可得LSTM網絡的時刻輸出值為

LSTM神經網絡只能進行單向學習,而Bi-LSTM是LSTM的改進型,將前向及后向連接到同一輸出。Bi-LSTM神經網絡結構由一個向前和一個向后傳播的LSTM構成,正向與反向無相互連接,就實現了2個相互獨立的隱藏層之間信息數據的雙向傳播。正因為此,使得其對于信息的提取學習相較于LSTM神經網絡更加的全面。
圖3為基于Bi-LSTM神經網絡的人體動作識別結構主體模型。圖中,Bi-LSTM神經網絡的正向及反向LSTM的單元結構與原理相同。Bi-LSTM將2層的LSTM輸出通過下式融合,再通過Softmax函數得出識別結,即



圖3 基于Bi-LSTM動作識別模型
動作識別中,人體所有參與模型建立的關節點都對動作的識別分類產生著影響,采取注意力機制對這些關節點的重要性進行評判,突出人體動作特征中的重要信息,降低了對于識別分類不明顯數據的關注度。注意力機制通過加權求和,從而找出對動作識別最重要的關節點,提升整個識別網絡模型的計算效率。
特征提取中,得到的人體動作序列是一個43幀數的矩陣形式,在識別中將動作幀統一按照最長處理。針對于網絡輸出的個特征向量,按照下式,變換后的向量?為

其中,為調整前的特征向量;為權重,在注意力機制中,重點為計算出合理的。首先計算得分值Score,即

其中,和b分別為權重和偏置,接下來將得到的個得分值Score, (=1,···,),送入一個Softmax函數,得到最后的權重值,即

在人體動作識別模型的訓練過程中,當訓練樣本較少時容易出現過擬合,有必要對網絡使用Dropout防止過擬合來實現正則化效果。
對神經網絡輸入的人體動作特征數據,輸出為,首先隨機刪除神經網絡隱藏層中的一些神經元,輸入層以及輸出層的神經元保持不變;然后輸入動作特征數據,數據通過神經網絡向前傳播;再將網絡的損失值進行反向傳播,在所有的訓練樣本中的一部分執行完此過程后,并在保留的神經元上再進行參數的更新。重復此過程,恢復之前去掉的神經元,再次從隱藏層隨機選擇一些神經元進行刪除,記錄刪除神經元參數,再進行部分樣本的訓練。
用MSR Action 3D及UTKinect Action 3D 2個人體動作數據庫對上述模型的可行性進行實驗驗證。實驗環境配置為:Intel i5-3337U 1.8 GHz,4 G內存,Windows7 64位系統。實驗仿真使用基于TensorFlow 1.9.0的框架,編程語言使用Python 3.5及MATLAB R2017b實現。
對于MSR Action 3D數據庫劃分為AS1,AS2和AS3 3個組,采取3種驗證方法對本文算法進行評估,Test One取所有人做的1/3動作數據為訓練集,其余2/3為測試集;Test Two取所有人做的2/3動作數據為訓練集,其余1/3為測試集;Cross subject test 為交叉驗證,取1/2的實驗對象為訓練集,1/2的實驗對象為測試集。在LSTM神經網絡的人體識別模型中,參數設置:學習率為0.001,=0.001,模型迭代次數為1 000,batchsise為5,網絡輸入節點為43,隱藏層節點為80。
圖4是在MSR Action 3D數據庫的AS1數據集中,單獨使用Test One測試方法得到的肢體夾角、相對距離、關節動能和肢體夾角的角加速度時的識別結果,紅色為正確的動作類別,藍色為識別的動作類別。
從上述結果得出4個動作特征的識別率分別為52.59%,60.74%,83.70%和82.22%,2個動態特征識別率遠高于2個靜態特征識別率,但單一使用動態特征也無法得到很高的識別率,有必要進行多特征融合進行動作識別。
圖5為AS1組中進行關鍵幀提取與未進行關鍵幀提取的對動作識別率的影響。識別的最終結果使用混淆矩陣圖進行表示,圖中在對角線上為得到正確識別分類的人體動作,反之,未在對角線上的為錯誤分類的動作類別。在未進行關鍵幀提取的動作數據中分類正確識別率為90.37%,進行關鍵幀提取后的動作正確識別率有所提高,為91.85%。


圖4 4個特征的識別結果((a)肢體夾角的識別結果; (b)相對距離的識別結果;(c)關節動能的識別結果; (d)肢體夾角的角加速度的識別結果)

圖5 關鍵幀提取前后的識別效果對比((a)未進行關鍵幀提取的動作識別;(b)關鍵幀提取后的動作識別)
表1為動作特征數據在LSTM與基于Bi-LSTM神經網絡并加入注意力機制以及Dropout后的識別結果對比。該實驗除引入的Dropout參數外,其余參數設置與前保持一致。可以看出,加入Bi-LSTM神經網絡注意力機制以及Dropout后,識別率有所提高。

表1 MSR Action 3D數據庫LSTM與Bi-LSTM+Attention以及Dropout網絡識別率對比(%)
表2為對MSR Action 3D數據庫3個分組數據集中的AS1組、AS2組和AS3組使用Bi-LSTM+ Attention網絡以及Dropout進行識別分類,得到的結果。平均識別率為89.15%。
實驗中發現神經網絡參數設置的不同對于人體動作最終識別率影響較大,有必要對于神經網絡的主要參數進行優化,以獲得良好的動作識別分類效果。本文采用正交試驗法對Bi-LSTM+Attention+ Dropout神經網絡中的3個主要參數:學習率、批量數以及隱藏層節點數進行優化。正交試驗的因素水平見表3。

表2 MSR Action 3D數據庫三組數據識別率對比(%)

表3 試驗的因素與水平
根據表3中的各因素所取的水平設計正交試驗(每種因素在不同的水平下),試驗結果見表4。

表4 網絡參數試驗及結果
采用直觀分析法,根據25次正交實驗的結果計算得出125次全面實驗中的最優參數組合。通過計算可知,當人體動作識別網絡中的3個主要參數學習率、批量數以及隱藏層單元的神經元數量在A4B2C3時,即當3個參數分別取0.005 0,10和80時,動作識別率最高為95.56%。
經正交試驗法優化3個參數后,再對MSR Action 3D數據庫進行實驗,動作識別分類結果與其他現有人體動作識別分類算法進行對比,見表5。

表5 MSR Action 3D數據庫參數優化后識別率與其他算法對比(%)
從實驗結果可以看出,對神經網絡的學習率、批量數以及隱藏層單元的神經元數3個參數進行優化后,基于Bi-LSTM+Attention+Dropout神經網絡取得了較高的識別率,在MSR Action 3D數據庫中的9組實驗中,有4組識別率高于相比的3種方法,平均識別率達到92.64%,高于其余3種86.82%,90.78%和92.16%,而在交叉驗證的3組實驗中,平均識別率達到86.97%,高于相比的4種74.67%,78.97%,81.23%和85.47%。UTKinect Action 3D數據庫中也取得了95.96%的識別率,表明深度學習算法具備提取人體動作特征深層次特征的能力,有利于動作識別。
在UTKinect Action 3D數據庫中,使用優化后的參數對人體動作進行重新實驗,得到的最終識別率與其他人體動作分類算法的對比見表6。由于本文采用的是深度學習算法,其對于數據量的要求較大,而本文數據有限,故對識別率有一定影響。

表6 UTKinect Action 3D數據庫識別率與其他算法對比(%)
本文基于人體三維骨架模型,融合靜態特征與動態特征,構成動作特征描述方法,經關鍵幀提取模型對動作序列關鍵幀進行篩選。建立了基于LSTM神經網絡的人體動作識別模型,針對LSTM神經網絡在人體動作分類中存在的不足,使用基于Bi-LSTM神經網絡的分類器,并引入注意力機制以及Dropout可進一步提高對于人體動作特征的識別性能。通過對神經網絡主要參數使用正交試驗法進行優化,使得基于Bi-LSTM+Attention+Dropout神經網絡的分類器相對于LSTM神經網絡分類器有更加優異的表現。
[1] 唐超, 王文劍, 張琛, 等. 基于RGB-D圖像特征的人體行為識別[J]. 模式識別與人工智能, 2019,32(10): 901-908. TANG C, WANG W J, ZHANG C, et al. Human action recognition using RGB-D image features[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(10): 901-908 (in Chinese).
[2] 許艷, 侯振杰, 梁久禎, 等. 深度圖像與骨骼數據的多特征融合人體行為識別[J]. 小型微型計算機系統, 2018, 39(8): 1865-1870. XU Y, HOU Z J, LIANG J Z, et al. Human action recognition with multi-feature fusion by depth image and skeleton data[J]. Journal of Chinese Computer Systems, 2018, 39(8): 1865-1870 (in Chinese).
[3] CARBONERA LUVIZON D, TABIA H, PICARD D. Learning features combination for human action recognition from skeleton sequences[J]. Pattern Recognition Letters, 2017, 99: 13-20.
[4] 田聯房, 吳啟超, 杜啟亮, 等. 基于人體骨架序列的手扶電梯乘客異常行為識別[J]. 華南理工大學學報: 自然科學版, 2019, 47(4): 10-19. TIAN L F, WU Q C, DU Q L, et al. Recognition of passengers’ abnormal behavior on the escalator based on human skeleton sequence[J]. Journal of South China University of Technology: Natural Science Edition, 2019, 47(4): 10-19 (in Chinese).
[5] YANG Z Y, LI Y C, YANG J C, et al. Action recognition with spatio–temporal visual attention on skeleton image sequences[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2405-2415.
[6] ZHANG S Y, YANG Y, XIAO J, et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks[J]. IEEE Transactions on Multimedia, 2018, 20(9): 2330-2343.
[7] LIU M Y, LIU H, CHEN C. Enhanced skeleton visualization for view invariant human action recognition[J]. Pattern Recognition, 2017, 68: 346-362.
[8] ZOLFAGHARI M, SINGH K, BROX T. ECO: efficient convolutional network for online video understanding[M]// Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 713-730.
[9] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 2625-2634.
[10] SONG S, LAN C, XING J. An end-to-end spatio-temporal attention model for human action recognition from skeleton data[C]//Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 4263-4270.
[11] 沈西挺, 于晟, 董瑤, 等. 基于深度學習的人體動作識別方法[J]. 計算機工程與設計, 2020, 41(4): 1153-1157. SHEN X T, YU S, DONG Y, et al. Human motion recognition method based on deep learning[J]. Computer Engineering and Design, 2020, 41(4): 1153-1157 (in Chinese).
[12] LI W Q, ZHANG Z Y, LIU Z C. Action recognition based on a bag of 3D points[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops. New York: IEEE Press, 2010: 9-14.
[13] XIA L, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2012: 20-27.
[14] CIPPITELLI E, GASPARRINI S, GAMBI E, et al. A human activity recognition system using skeleton data from RGBD sensors[EB/OL]. [2020-06-21]. http://www.hindawi.com/ journals/cin/2016/4351435/.
[15] 楊世強, 羅曉宇, 李小莉, 等. 基于DBN-HMM的人體動作識別[J]. 計算機工程與應用, 2019, 55(15): 169-176. YANG S Q, LUO X Y, LI X L, et al. Human action recognition based on DBN-HMM[J]. Computer Engineering and Applications, 2019, 55(15): 169-176 (in Chinese).
[16] Nú?EZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional Neural Networks and Long Short-Term Memory for skeleton-based human activity and hand gesture recognition[J]. Pattern Recognition, 2018, 76: 80-94.
[17] VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 588-595.
[18] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporal LSTM with trust gates for 3d human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3007-3021.
[19] ANIRUDH R, TURAGA P, SU J Y, et al. Elastic functional coding of human actions: From vector-fields to latent variables[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 3147-3155.
[20] WANG C Y, WANG Y Z, YUILLE A L. Mining 3D key-pose-motifs for action recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2639-2647.
[21] ZHU Y, CHEN W B, GUO G D. Fusing spatiotemporal features and joints for 3D action recognition[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2013: 486-491.
Human action recognition based on LSTM neural network
YANG Shi-qiang, YANG Jiang-tao, LI Zhuo, WANG Jin-hua, LI De-xin
(School of Mechanical and Instrumental Engineering, Xi’an University of Technology, Xi’an Shaanxi 710048, China)
Human action recognition provides the basic support for human-computer cooperation. Robots can enhance the flexibility and production efficiency of manufacturing system by recognizing and understanding the operator’s action. To resolve the problem of human motion recognition, the original 3D skeleton data was smoothed and denoised to conform to the smooth rule of human joint-point motion based on 3D skeleton data. The fusion feature composed of static and dynamic features was constructed to represent human action. The key frame extraction model was introduced to extract the key frames in human action sequences to reduce the computing load. A Bi-LSTM neural network model based on LSTM neural network was established to classify human actions, and the attention mechanism and Dropout were utilized to classify and recognize human actions, with the main parameters of the neural network optimized by the orthogonal test method. Finally, the open data set was employed for the action recognition experiment. The results show that the proposed model algorithm has a high recognition rate for human actions.
action recognition; fusion features; LSTM neural network; attention mechanism; Dropout
TP 391.4
10.11996/JG.j.2095-302X.2021020174
A
2095-302X(2021)02-0174-08
2020-07-21;
21 July,2020;
2020-09-12
12 September,2020
國家自然科學基金項目(51475365);陜西省自然科學基礎研究計劃項目(2017JM5088)
National Natural Science Foundation of China (51475365); Natural Science Basic Research Program of Shaanxi Province (2017JM5088)
楊世強(1973–),男,甘肅白銀人,副教授,博士。主要研究方向為智能機器人控制、行為識別等。E-mail:yangsq@126.com
YANG Shi-qiang (1973–), male, associate professor, Ph.D. His main research interests cover intelligent robot control, behavior recognition, etc. E-mail:yangsq@126.com