摘 要:基于視頻的人體行為識別任務中由于大部分畫面并不包含重要的判別信息,這對識別應用的準確性造成嚴重干擾。關鍵姿態幀既能表達視頻又能降低計算量,且骨骼數據相比于圖像包含更多維度的信息。因此,提出一種基于關鍵幀骨骼節點自適應分區與關聯的行為識別算法。首先構建自適應池化深度網絡以評估幀的重要性獲取關鍵姿態幀序列;其次通過節點自學習模型建立非自然連接狀態下的節點間關聯;最后將改進的時空信息應用于STGCN并使用softmax分類識別。在開源的大規模數據集NTU-RGB+D和Kinetics 上與幾種典型技術進行比對,驗證了所提方法在減少冗余數據量的同時能保留關鍵動作信息,且動作識別準確率平均提高了0.63%~11.81%。
關鍵詞:行為識別; 關鍵姿態; 自適應; 節點關聯; STGCN
中圖分類號:TP391.41 文獻標志碼:A 文章編號:1001-3695(2022)11-049-3498-05
doi: 10.19734/j.issn.1001-3695.2022.02.0123
Action recognition based on adaptive partition and association of key-frame nodes
Liu Suolan1,2, Tian Zhenzhen1, Gu Jiahui1, Zhou Yuejing1
(1.School of Computer amp; Artificial Intelligence, Changzhou University, Changzhou Jiangshu 213164, China; 2.Jiangsu Key Laboratory of Social Security Image amp; Video Understanding, Nanjing University of Science amp; Technology, Nanjing 210094, China)
Abstract:In the task of human behavior recognition, most of the video frames do not include important discrimination information, which seriously affects the accuracy of application. Key pose frames can effectively express the video and reduce the amount of computation. Furthermore, bone data contains richer information than RGB image. Therefore, this paper proposed an action recognition approach based on adaptive partition and association of key-frame nodes. Firstly, it constructed an adaptive pooled deep network to evaluate frames importance and obtain key pose sequence. Then, it established association between nodes in unnatural connection state by self-learning model. Finally, it applied the improved spatio-temporal information on STGCN and used softmax for classification. This paper evaluated the effectiveness of the proposed approach by comparing with several typical technologies on the open-source and large-scale datasets of NTU-RGB+D and Kinetics. Experimental results show that it can reduce the amount of redundant data and retain key action information, and obtain higher average accuracy by 0.63% ~ 11.81% than the compared methods.
Key words:action recognition; key pose; adaptive; node association; STGCN
基金項目:國家自然科學基金資助項目(61976028);江蘇省社會安全圖像與視頻理解重點實驗室課題(J2021-2)
作者簡介:劉鎖蘭(1980-),女,江蘇泰州人,副教授,碩導,博士,主要研究方向為計算機視覺與人工智能(liusl@cczu.edu.cn);田珍珍(1997-),女,河南鄭州人,碩士研究生,主要研究方向為模式識別;顧嘉暉(1996-),男,碩士,主要研究方向為目標檢測與行為識別;周岳靖(1998-),男,安徽合肥人,碩士研究生,主要研究方向為計算機視覺、圖像處理.
0 引言
近些年國內外學者們提出了大量的視頻行為識別方法,并給出一些公開的行為數據集[1~5]。圖卷積神經網絡(graph convolutional network,GCN)起源于卷積神經網絡(convolutional neural network,CNN)[6,7]。它將神經網絡進行一般化的處理后應用于拓撲圖結構中,以代替圖的正則化、核方法等傳統的拓撲圖處理方法,其卓越的性能在視頻應用領域得到廣泛關注[8~10]。Caramalau等人[11]將GCN應用于人體行為識別任務,通過序列圖卷積網絡主動學習訓練,并應用于訓練數據和采樣處理,以識別并丟棄多余的未標注數據流得到有效的標注樣例。該方法在后續的識別、分類、預測等系列任務中發揮出了比傳統方法更好的性能。
相比于其他模態在面對復雜背景、多視角以及遮擋時會出現魯棒性不足,同時還會產生更多的計算消耗,人體骨骼信息更為清晰直觀且不易受到其他外界因素的干擾,具有相對良好的適應性能[12]。一般使用2D或者3D坐標進行骨骼表示,具有豐富的空間域和時域信息,加強了相鄰關節之間的相關性[13]。例如Vemulapall等人[14]將骨骼表達成一系列的剛體運動,且用一種特殊的歐氏群表示剛體間的3D幾何關系并映射為李群空間中的點,使用SVM可以獲得較好的分類效果。隨著深度學習的成功應用,基于深度學習的骨骼建模方法迅速興起,越來越多的專家學者使用骨骼模態來進行人體檢測和行為識別[15~21]。Wang等人[15] 提出一種基于視頻的行為識別模型(temporal segment network,TSN),該模型可以將稀疏時間采樣策略和視頻監督相結合,使用整個視頻支持有效的學習。Ke等人[16]結合CNN和3D信息提出了一種利用骨骼序列構建關節的三維軌跡進行三維動作識別,該方法首先將每個骨架序列轉換為三個片段,每個片段由若干幀組成,然后利用深度神經網絡進行時空特征學習。Yan等人[19]將圖卷積網絡擴展到時空圖模型(spatial temporal graph convolutional networks,STGCN),設計出用于行為識別的骨骼序列通用表示,STGCN模型將節點對應于人體的關節,構建多層時空圖卷積并讓信息沿著空間和時間兩個維度進行整合,該方法在測試動作識別數據集上取得了較大的性能提升,其成果引起了廣泛關注。在此基礎上,文獻[20]根據人體關節和骨骼之間的運動相關性,將骨骼數據表示為有向無環圖,設計了一種有向圖神經網絡(directed graph neural networks,DGNN),用于提取關節、骨骼及其相互關系的信息,并根據提取的特征進行預測。同時,為了更好地適應動作識別任務,在訓練過程的基礎上對圖的拓撲結構進行自適應性表示,使其性能得到顯著改進。文獻[21]結合CNN中的shift結構,將其引入到GCN,提出了一種改進的移位圖進化網絡(shift graph convolutional network,Shift-GCN)來克服這兩個缺點,Shift-GCN不使用傳統的圖卷積操作,而是由新的移位圖操作和輕量點卷積組成,其中移位圖操作為空間圖和時間圖提供了靈活的感受野,同時在時序TCN上進行CNN的shift操作,極大地減少了模型參數和計算復雜度。文獻[22]描述了一種新的多流注意增強自適應圖卷積神經網絡(multi-stream adaptive graph convolutional networks,MS-AAGCN)用于骨架的動作識別,圖拓撲可以基于端到端的輸入數據統一或單獨學習,這種數據驅動的方法增加了模型的靈活性,使其更具通用性,以適應不同的數據樣本;此外,通過時空注意力模塊進一步增強自適應圖卷積層,使模型更加關注重要的關節、幀和特征;在多流框架下,對關節和骨骼的運動信息進行同步建模,提高了識別準確率。文獻[23]提出基于節點加權貢獻的關鍵幀提取方法,并結合STGCN模型進行多特征融合,可以有效提高識別準確率。2021年Liu等人[24]針對人體骨架數據提出了一種自適應注意力記憶機制的圖卷積網絡(adaptive attention memory graph convolutional networks,AAM-GCN)進行動作識別,且在此算法中使用注意機制從骨架序列中提取關鍵幀,以獲取更具鑒別力的時間特征。
綜上研究可以發現,在GCN模型基礎上結合時間和空間維度信息廣泛應用于基于骨架的人體行為識別研究[23~26]。同時,由于視頻中大部分幀圖像都不包含所做的運動信息(靜止),如果把這些也放入網絡進行訓練,會對訓練過程起到反向作用。因此,為排除干擾和信息冗余問題,關鍵幀提取成為基于視頻行為識別的重要預處理環節。
1 基于STGCN的人體行為識別
STGCN 是基于圖卷積神經網絡并加強了時空聯系的一類模型,在基于骨架的動作識別中取得了顯著的性能。然而GCN模型本身仍存在一些問題。比如,在所有模型層和輸入數據上對圖的拓撲結構進行啟發式設置和固定,這可能不適用于GCN模型的層次結構和動作識別任務中數據的復雜性與多樣性。雖然雙流或多流網絡進行了空間鄰接矩陣的學習,或通過引入增量式自適應模塊來增強空間圖的表達能力,但其性能仍然受到模型結構本身的限制。此外,GCN方法通常計算復雜度相當高,一個動作樣本的計算復雜度往往超過15 GFLOPs[27]。尤其隨著增量模塊、多流融合策略,以及有向無環圖網絡等的應用,使得計算復雜度急劇增大,而且提取不同特征也需要巨大的計算開銷。
通常,在進行視頻動作識別時將序列中的所有幀視為同等重要,不能聚焦于最具代表性的幀導致計算量居高不下。大量的研究工作已證明,從視頻中提取關鍵幀圖像再進行人體行為分析,在降低冗余數據對計算影響的同時,仍能有效使用姿勢信息來描述運動信息,表達行為類別。在日常動作中,以“走”為例,此過程包含多個狀態,人體在各個時刻也呈現出不同的姿態。在幀序列中目標對象有時是直立的,其他幀中即便出現姿勢變化,但由于動作的連貫性,導致連續幾幀對動作識別的貢獻存在冗余。所以,如能就幀圖像對動作識別的貢獻度進行有效衡量,以提取對識別更具信息量的關鍵姿態幀將有助于降低計算量。依據此,本文設計了一種深度強化子網絡來自動學習和獲知序列中不同幀的重要性,使重要的幀在分類中起更積極的作用,以降低計算復雜度。
此外,研究表明基于骨骼的行為識別中每個關節點對動作判別并非同等重要。一些行為動作會跟某些關節點構成的集合密切相關,而另一些行為動作則與其他一些關節點構成的集合有關。以“打電話”為例,其主要與頭、肩膀、手肘和手腕這些關節點密切相關,而與腿部關節的關系很小。但是對于“走”“踢”這類動作的判別就主要通過腿部節點的關聯計算才能完成。依據這一點,本文根據序列當前關鍵幀時空信息和歷史信息優化節點分區模型,通過構建節點多級分區建立非自然連接狀態下的關聯,實現序列中節點關聯可以隨時間自適應優化,以提升模型魯棒性并提高識別精度。
2 本文方法
本文采用基于STGCN 的方法進行人體行為識別。為減少冗余信息對識別效率的影響,在STGCN模型基礎上提出了視頻關鍵幀提取及骨架節點關聯構建方法。首先將視頻數據送入深度強化子網絡學習和獲知序列中不同幀的重要性得到關鍵信息幀,并通過姿態估計提取骨骼信息;其次,通過節點自學習模型關聯序列中不同節點,以衡量節點運動變化對識別的影響;在STGCN模塊中通過結合關鍵節點時間和空間信息生成更高層次的特征圖,最后通過softmax分類器進行動作分類識別。
2.1 關鍵幀判別與提取
視頻相比于靜態圖像來說包含更加豐富的信息。但實際一段視頻中可能大部分畫面并不包含重要的動作判別信息(如靜止),如果把這些幀圖像也放入網絡訓練,則會對訓練過程起反作用。因此,如何有效判別冗余信息并提取關鍵幀是該領域重要的研究內容。但是,現有的關鍵幀提取算法沒有ground truth,因此需要根據序列間的關聯自動生成關鍵幀。
本文提出的關鍵姿態幀判別與骨架提取流程如圖1所示。a)通過采樣從原始RGB視頻序列中抽取初始化的M幀圖像;b)獲取預選幀圖像時空特征,并送入多層感知網絡模塊計算幀間特征差預測其對動作識別的重要性;c)計算預選幀深度特征,在池化環節以當前池化特征和幀間特征差作為輸入,這樣可以讓網絡關注之前未關注到的特征進而判斷是否為關鍵幀,得到僅為關鍵幀的自適應池化向量Fpooled;d)經深度網絡輸出關鍵圖像幀,采用Openpose姿態估計獲得關鍵幀骨架。所提模型旨在利用幀的時空特征,并通過強化學習預測幀間差異來表達幀的重要性,能有效加強幀的判別性,去除冗余信息。
設訓練樣本X={xi,y},xi為第i個訓練圖像,X對應的動作類別標簽為y。從訓練序列中通過采樣得到的初始預選幀集合表示為{aj},i與j為采樣關聯。通過深度網絡獲得幀特征向量為φ(aj)。由于采樣傾向于“寧多勿少”,所以卷積層輸出中仍可能包含大部分冗余信息。在池化環節中引入權重參數,則可有效突出關鍵幀,同時弱化次要幀的影響。因此通過設計一個具有注意力機制的多層感知網絡模型預測每個初始預選幀的重要性,定義如下:
其中:fpre(·)為采用注意力機制的計算函數;Φ(xi,t-1)表示該幀在原始序列中前一幀圖像的特征,學習過程如下:
其中:λ(ai)∈[0,1]表示預選幀重要性權值。
自適應池化過程不僅考慮了預選幀的深度特征,且利用圖像幀間信息衡量其所含信息對識別的重要性,得到僅為關鍵幀的池化向量Fpooled。經姿態估計處理得到關鍵幀骨架序列,以便后續行為識別任務。
2.2 節點關聯模型
在對視頻數據進行關鍵信息幀姿態估計后構造圖G=(s,v),其中s∈N×3為包含了N個關節點的三維坐標(如Kinetics數據集中,采用Openpose提取18個關節點,則N=18)。人體節點自然關聯和固定的分區方案通常不能很好地表達一個序列中發生的所有行為動作。本文設計一種節點關聯學習模型,根據序列內容動態優化分區,不僅可以增強/弱化一定鄰域范圍內節點間的連接,而且可以使沒有直接關聯的節點之間產生關聯。
在GCN基礎上通過建立節點關聯學習模型為節點選擇分區,以增強模型的自適應性。
其中:Wk為權值;Sk表示基礎鄰接矩陣即關節點之間的自然連接。單幀骨架圖中的關節si和sj通常存在內在關聯和外在關聯兩種自然依賴關系,可以通過設置不同的參數來進行區分,如式(4)所示。
通過將關節點的自連接設置為0可避免自連接對動作判別的影響。內在關聯權重用來表示相鄰節點之間的物理連接且邊距離在動作發生過程中保持不變。外在關聯權重用ρ表示,指的是節點之間本身不存在物理連接的關系,但在行為過程中卻存在較大的聯系。例如“打高爾夫球”,左手和右手的自然物理連接并不存在,但是雙手共同握住球桿這個關系對于識別此動作具有非常重要的意義。作為可訓練的權重鄰接矩陣,Sk亦可通過網絡學習數據進行優化,在表達節點之間是否存在聯系的同時,對關聯的強弱也能進行表達;Tk表示時間約束;Qk表示注意力矩陣。利用注意力機制衡量當前狀態圖中一節點與其他節點的實際依賴關系,即判斷是否連接和連接的強度。因此算法實現的關鍵是對節點對(si,sj)判別動作的實際傳入和傳出得到依賴權值,計算如下:
其中:θ(·)和γ(·)分別計算當前節點相對于參考源點的角度和位置信息。為減少參數量、降低計算復雜度,以及防止過擬合,可以通過利用節點的軌跡對任意兩個節點間的注意力值進一步計算,并將時間維度融合到Qk中。在訓練過程中通常要根據動作類別標簽預定義多級分區與關聯。如提取18個關節點,則關聯最多可達7級。圖2所示為以肘部節點為例的2級分區和關聯示意圖(見電子版)。
3 實驗與分析
3.1 實驗數據集與設置
a)NTU-RGB+D數據集[4]。該數據集共采集了56 880個視頻樣本,包含drink water、throw、clapping、phone call、shaking hands等在內的40類日常行為動作,9類與健康相關的動作,以及 11類雙人互動動作。數據采用三個不同水平角度(-45°、0°和45°)放置的微軟 Kinect v2傳感器采集40個年齡10~35歲的人員得到。每個動作執行人做兩遍相同的動作。數據形式包括深度信息、3D骨骼信息、RGB幀以及紅外序列。
數據集提供了兩種不同劃分標準:(a)cross-subject 將ID為1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38共20個采集人員的40 320個視頻作為訓練集,其余為測試集,共16 560個樣本;(b)cross-view 按相機編號劃分訓練集和測試集。相機1采集的18 960個樣本作為測試集,相機2和3采集的37 920樣本作為訓練集。
b)Kinetics-400數據集[5]。該數據集采集自 YouTube,約300 000個視頻包含了abseiling、applauding、feeding fish、opening bottle、playing piano、yoga等在內的人與物體交互動作,以及人與人的互動動作等。涵蓋400類動作,每類動作至少有400個視頻樣本,每個視頻持續約10 s。
為降低視頻參數差異性對后續處理的影響,本文將所有視頻幀分辨率調整為340×256,同時將幀率轉換為30 frame/s,示例如圖3所示。
3.2 結果與分析
3.2.1 關鍵幀提取實驗設置與結果分析
在關鍵幀判別與提取環節,設置MLP為四層感知網絡,分別采用雙曲正切函數tanh和最后一層sigmod函數為激活函數。通過在模型中加入非線性函數作為隱藏層可以有效解決梯度消失問題。將池化向量的初始狀態設置為與第一幀的特征向量一致,后續以當前幀與其前一幀的特征向量差作為自適應模塊的輸入。
隱藏層神經元數量直接影響感知網絡的性能和關鍵幀提取效果,過少會導致準確度欠佳,過多導致網絡過擬合、收斂不理想等問題。同時考慮到不同數據集行為類別數量和樣本間的差異性,本文對隱藏層神經元數目Nnum進行動態估算Nnum=Ntraining×(Ni+No)。其中:Ni和No分別表示輸入層和輸出層神經元數目;Ntraining為訓練樣本數;調節參數取值為1~10。
為了驗證所提關鍵幀提取算法的有效性,與常用的兩種算法進行對比,包括基于運動分析的光流法和視頻聚類算法。其中,光流法每次取局部運動光流量最小值作為所要提取的關鍵幀,聚類法使用K-means取距離聚類中心距離最小者為關鍵幀。實驗隨機選取Kinetics數據集中的robot dancing視頻片段為例進行說明,結果如圖4所示。該視頻演示動作持續約10 s,圖像序列共包含301幀。聚類算法提取第2、19、34等共計76幀為關鍵幀,光流法提取第4、48、79、107等共16幀圖像作為關鍵幀。本文算法分別提取第18、91、199、263、268共5幀圖像為關鍵幀。對比三種方法可見聚類法提取效果較差,盡管壓縮率達到25.1%,但仍存在大量冗余,主要原因在于聚類初始化中心數受人為因素干擾嚴重,且閾值大小的選擇也直接導致選取的關鍵幀數不穩定。光流法主要通過計算鏡頭中的運動量來反映視頻數據中的靜止狀態,因此該方法對視頻鏡頭的結構選擇依賴性較大。視頻中第一個動作重復多次出現,本文算法能有效識別并去除重復和冗余,壓縮視頻,提取五幀為關鍵幀,但卻完整反映了視頻中的兩個關鍵動作。姿態估計也能有效檢測運動目標的關鍵關節點。
3.2.2 NTU-RGB+D(cross-subject)行為識別結果與分析
將本文工作分別與文獻[19]的STGCN模型在uniform、distance和spatial三種分區策略下的識別性能,以及筆者先前的研究成果[25]進行了比對。在節點分區和關聯算法中設置了和ρ兩個參數,這里主要通過改變參數值進行實驗得到模型的最優性能參數。分別取值=3,ρ=1在加強內在關聯的同時適當強化外在關聯的影響,同時減少因連接引起的計算量。主要采用top-1和top-5兩個指標對模型性能進行評估。對比方法實驗結果為通過設置初始學習率0.01,在第80個epoch時減少至初始值的 0.1 倍。本文算法識別率為通過重復實驗動態調整每輪迭代相適應的學習率而獲得。算法實驗環境均為Ubuntu 16.04系統,1060-6GB GPU,使用PyTorch深度學習框架。
圖5、6分別為在NTU-RGB+D(cross-subject)數據集上的top-1和top-5的識別率比對。可以看出,模型隨著訓練逐步優化,本文方法相比于文獻[19,25]在top-1和top-5上的識別性能均有一定程度的改進。在第50個epoch時top-1識別精度最高提升達到3.84%,在epoch為45時top-5識別精度最高提升達到1.34%。在50~80 epoch,識別率基本達到穩定狀態,分別約為82%和97%。這證明對STGCN模型改進人體骨骼節點分區和關聯可以有效提高模型的識別性能。尤其在對每輪進行相適應的學習率設置之后,本文呈現的實驗結果更優于筆者之前的工作。這也進一步證明了合適的學習率參數對模型性能的改進有著積極作用。
3.2.3 NTU-RGB+D(cross-view) 行為識別結果與分析
表1為在NTU-RGB+D(cross-view)數據集上的實驗比對結果。可以看出,本文方法相比于文獻[19]的spatial方法在其他條件相同的情況下,測試結果在top-1和top-5上的識別精度分別提升約2.82%和0.63%,比文獻[25]的最優識別結果提升5.21%和1.07%。改進效果明顯優于在NTU-RGB+D(cross-subject)上的性能測試,主要原因在于cross-view數據集相對cross-subject僅改變了數據采集角度,但訓練和測試數據來源于全部動作執行人員,極大地降低了動作識別過程中的類內差異。因此,在NTU-RGB+D(cross-view)上的識別率與對比方法相當。
3.2.4 在NTU-RGB+D數據集上與其他算法的對比
將本文算法模型與當前幾種比較典型的方法進行了比較,主要選用了Lie Group[14]、Deep LSTM[4]、TSN(temporal segment networks)[15]以及Clips+CNN+MTLN[16]。其中,Lie Group方法主要將人體動作表達為流形空間的特征向量,通過建模捕捉幀間時空關聯,構成Lie Group特征序列形成流形曲線,進行分類識別。Deep LSTM網絡主要由三層LSTM 層和全連層(FC layer)組成。相比于常見的雙流網絡,TSN的主要優勢在于解決長時間視頻的行為判別,以及小樣本導致的過擬合問題,同時該方法對幀序列進行稀疏采樣以去除冗余信息降低計算量。Clips+CNN+MTLN方法首先將骨架序列劃分為三個片段,然后使用CNN學習序列框架中的骨架信息,并使用多任務學習網絡(MTLN)聯合處理生成的并行片段,以此合并空間結構信息,識別視頻動作。根據數據集劃分特點,分別在cross-view和cross-subject上測試了識別效果。
通過表2可以發現,本文算法相比于其他幾種方法中效果最好的ClipsCNN+MTLN在cross-view和cross-subject的實驗方法下的識別精度分別提高了3.92%和2.47%。同時,對比幾種識別方法可以發現,在不同視角下的識別精度整體上均優于不同行為主體實驗下的識別精度,最高相差7.13%。這主要是由于不同執行人即便在采集相同動作時仍因行為習慣等因素導致動作存在較大的差異,這對識別的準確性會產生直接影響。其次,Lie Group方法更側重于利用骨骼節點的空間信息而弱化了時序信息對識別的影響,導致效果不理想。Deep LSTM方法的優勢在于LSTM網絡對時間序列處理的強大能力,而關鍵幀的提取則弱化了時間特征,導致識別率不佳。Deep LSTM、TSN和ClipsCNN+MTLN方法雖然也關注了運動過程中節點的時序信息,但未有效建立節點空間關聯且忽略了平移和尺度變化對識別的影響。相比于本文方法在壓縮視頻幀的同時仍通過關鍵幀保留行為的時序特征,且構建非關聯節點在空間的邏輯變化,更能充分表達行為的時空特性,因此在該數據集上表現出了優越的識別效果。
3.2.5 Kinetics行為識別結果與分析
表3為將模型改進后在Kinetics數據集上的實驗結果。可以看出通過設置相適應的迭代學習率之后本文的訓練結果在 top-1 和 top-5 上相比于原始STGCN模型分別達到了2.71%和2.34%的提升。但是對比NTU-RGB+D數據集,其測試結果遠低于預期,主要原因在于NTU-RGB+D采集數據時機位固定且實驗環境可控,而Kinetics數據集來自于YouTube視頻采集過程非固定模式,尤其存在大鏡頭運動導致數據穩定性較差,從而加大了姿態估計難度以及節點間信息關聯的難度。但相比于文獻[25]的測試結果,可見關鍵幀的處理以及對人體拓撲結構的關聯和加強對此類難度較大的視頻數據的識別有著更明顯的改善。
3.2.6 在Kinetics 數據集上與其他算法的對比
對比方法包括使用特征編碼方法(feature coding)[28],以及基于深度學習的Deep LSTM和TSN。特征編碼方法主要通過從骨架序列中提取人體運動信息,并使用稀疏編碼等方法獲取特征向量進而行為識別。本節分別比較了幾種算法在top-1和top-5精度方面的識別性能,結果如表4所示。
所提方法相比于Deep LSTM在top-1和top-5的識別率分別提高了9.08%和11.81%。但是在該數據集上的平均識別率整體偏低不到50%。主要原因在于該視頻采集大多基于開放環境且手持設備拍攝不穩定性高,以及大鏡頭運動造成行為模糊度較高,導致骨架提取難度大。因此,即便構建節點自適應分區與關聯模型,識別準確率仍偏低。
4 結束語
在基于視頻的行為識別任務中,冗余信息通常會導致模型訓練耗時長且對資源需求高,有效識別結果的準確性低。實踐已證明使用關鍵姿態幀圖像能有效判別行為類別。基于此,本文在STGCN模型基礎上引入深度強化子網絡來學習和評估序列中不同幀的重要性,提取關鍵幀以表達視頻,并通過姿態估計獲得骨骼信息。通過節點自適應模型學習非自然連接狀態下的節點間關聯,以擴展節點的運動變化對識別的影響。在NTU-RGB+D和Kinetics兩個具有挑戰性的大規模數據集上的測試效果相比于幾種主流的識別技術Feature Coding、Lie Group、Deep LSTM、TSN以及Clips+CNN+MTLN皆呈現一定程度的提升。值得注意的是,節點關聯模型雖然能建立非自然分區下的節點聯系,但為了降低計算復雜度,關聯參數和ρ的選擇不宜過大。本文是在重復實驗條件下選擇最優參數,因此如能通過建立合適的目標函數進一步自動優化參數選擇是后續研究的重要內容。
參考文獻:
[1]Zhang Hongbo,Zhang Yixiang,Zhong Bineng,et al. A comprehensive survey of vision-based human action recognition methods[J]. Sensors, 2019,19: 1005-1025.
[2]Wang Zhengwei,She Qi,Smolic A. Action-Net: multipath excitation for action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 13209-13218.
[3]Wang Limin,Tong Zhan,Ji Bin,et al. TDN: temporal difference networks for efficient action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 1895-1904.
[4]Shahroudy A,Liu Jun,Ng T T,et al. NTU RGB+D: a large scale dataset for 3D human activity analysis [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 1010-1019.
[5]Kay W,Carreira J,Simonyan K,et al. The kinetics human action video dataset [EB/OL]. (2017-05-19). https://arxiv.org/abs/1705.06950.
[6]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6): 84-90.
[7]Ji Shuiwang,Xu Wei,Yang Ming,et al. 3D Convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1): 221-231.
[8]徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經網絡綜述[J]. 計算機學報,2020,43(5): 755-780. (Xu Bingbing,Cen Keting,Huang Junjie,et al. A survey on graph convolutional neural network[J]. Chinese Journal of Computers,2020,43(5): 755-780.)
[9]Duvenaud D,Maclaurin D,Aguilera-Iparraguirre J,et al. Convolutional networks on graphs for learning molecular fingerprints [EB/OL]. (2015-11-03). https://arxiv.org/abs/1509.09292.
[10]謝昭,周義,吳克偉,等. 基于時空關注度LSTM的行為識別[J]. 計算機學報,2021,44(2): 261-274. (Xie Zhao,Zhou Yi,Wu Kewei,et al. Activity recognition based on spatial-temporal attention LSTM[J]. Chinese Journal of Computers,2021,44(2): 261-274.)
[11]Caramalau R,Bhattarai B,Kim T K. Sequential graph convolutional network for active learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9578-9587.
[12]Zhao Hang,Torralba A,Torresani L,et al. HACS: human action clips and segments dataset for recognition and temporal localization [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 8667-8677.
[13]Li Kunchang,Li Xianhang,Wang Yali,et al. CT-Net: channel tensorization network for video classification [EB/OL]. (2021-06-03). https://arxiv.org/abs/2106.01603.
[14]Vemulapalli R,Arrate F,Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2014: 588-595.
[15]Wang Limin,Xiong Yuanjun,Wang Zhe,et al. Temporal segment networks: towards good practices for deep action recognition [EB/OL]. (2016-08-02). https://arxiv.org/abs/1608.00859.
[16]Ke Qiuhong,Bennamoun M,An Senjian,et al. A new representation of skeleton sequences for 3D action recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 4570-4579.
[17]Christoph F,Hao Qifan,Jitendra M,et al. Slow fast networks for video recognition[C]// Proc of IEEE International Conference on Computer Vision. 2019: 6201-6210.
[18]Cheng Xiaopeng,Feng Dapeng. Skeleton embedded motion body partition for human action recognition using depth sequences[J]. Signal Processing,2018,143: 56-68.
[19]Yan Sijie,Xiong Yuanjun,Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Menlo Park,CA: AAAI Press,2018: 7444-7452.
[20]Shi Lei,Zhang Yifang,Cheng Jian,et al. Skeleton-based action recognition with directed graph neural networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 7912-7921.
[21]Cheng Ke,Zhang Xifan,He Xiangyu,et al. Skeleton-based action re-cognition with shift graph convolutional network[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 183-192.
[22]Shi Lei,Zhang Yifang,Cheng Jian,et al. Skeleton-based action recognition with multi-stream adaptive graph convolutional networks[J]. IEEE Trans on Image Processing,2020,29: 9532-9545.
[23]Zhao Yuerong,Gao Ling,He Dan,et al. Multifeature fusion action recognition based on key frames[C]// Proc of the 7th International Conference on Advanced Cloud and Big Data. 2019: 279-284.
[24]Liu Di,Xu Hui,Wang Jianzhong,et al. Adaptive attention memory graph convolutional networks for skeleton-based action recognition[J]. Sensors,2021,21: 6761-6780.
[25]劉鎖蘭,顧嘉暉,王洪元,等. 基于關聯分區和ST-GCN的人體行為識別[J]. 計算機工程與應用,2021,57(3): 168-178. (Liu Suolan,Gu Jiahui,Wang Hongyuan,et al. Human behavior recognition based on associative partition and ST-GCN[J]. Computer Engineering and Application,2021,57(3): 168-178.)
[26]Jian Meng,Zhang Shuai,Wu Lifang,et al. Deep key frame extraction for sport training[J]. Neurocomputing,2019,328: 147-156.
[27]陳煜平,邱衛根. 基于視覺的人體行為識別算法研究綜述[J]. 計算機應用研究,2019,36(7): 1927-1934. (Chen Yuping,Qiu Weigen. Survey of human action recognition algorithm based on vision[J]. Application Research of Computers,2019,36(7): 1927-1934.)
[28]Zhang Yixiang,Zhang Hongbo,Du Jixiang,et al. RGB+2D skeleton: local hand-crafted and 3D convolution feature coding for action recognition[J]. Signal,Image and Video Processing,2021,15: 1379-1386.