基于雙流骨架信息的人體動(dòng)作識(shí)別方法

2024-01-24 09:24:12肖文琛

計(jì)算機(jī)技術(shù)與發(fā)展 2024年1期

張艷,肖文琛,張博

(北華航天工業(yè)學(xué)院計(jì)算機(jī)學(xué)院,河北廊坊 065000)

0 引言

人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中一項(xiàng)復(fù)雜的任務(wù),在智慧醫(yī)療、運(yùn)動(dòng)賽事、監(jiān)控、人機(jī)交互等方面有著重要的社會(huì)應(yīng)用價(jià)值[1]。人體動(dòng)作識(shí)別根據(jù)數(shù)據(jù)源的不同可以分為基于RGB圖像[2]的人體動(dòng)作識(shí)別算法和基于骨架信息[3]的人體動(dòng)作識(shí)別算法?；赗GB圖像的人體動(dòng)作識(shí)別算法魯棒性差且易受外界環(huán)境的影響。相反,基于骨架信息的人體動(dòng)作識(shí)別算法具有泛化能力強(qiáng)、不易受外界環(huán)境影響等優(yōu)點(diǎn)。根據(jù)特征提取方式的不同,人體動(dòng)作識(shí)別可以分為基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別算法和基于傳統(tǒng)的機(jī)器學(xué)習(xí)的人體動(dòng)作識(shí)別算法?；谏疃葘W(xué)習(xí)的人體動(dòng)作識(shí)別算法泛化能力相較于傳統(tǒng)的機(jī)器學(xué)習(xí)的人體動(dòng)作識(shí)別算法有了很大的提高?；谏疃葘W(xué)習(xí)的人體動(dòng)作識(shí)別算法可以分為基于CNN(Convolutional Neural Networks)、基于RNN(Recurrent Neural Network)的人體動(dòng)作識(shí)別算法[4]。比如Chen等人[5]提出了一種基于序列的視點(diǎn)不變的方法來進(jìn)行特征編碼,并且將特征編碼后的RGB圖像通過多流CNN進(jìn)行識(shí)別。文獻(xiàn)[6]提出了基于注意力機(jī)制的RNN網(wǎng)絡(luò),分別賦予了不同幀之間骨骼節(jié)點(diǎn)不同的權(quán)重,進(jìn)一步提高了動(dòng)作的識(shí)別率。上述方法一定程度上提高了識(shí)別率,但是上述方法都是將骨架數(shù)據(jù)表示二維數(shù)據(jù)[7],不能完全表達(dá)骨骼關(guān)節(jié)點(diǎn)的時(shí)空信息。因此,從以上背景出發(fā),該文提出了一種基于注意力機(jī)制的AGCNS(Attention Graph Convolutional Networks)與CNN相結(jié)合的雙流人體動(dòng)作識(shí)別算法。主要?jiǎng)?chuàng)新點(diǎn)如下:提出了基于注意力機(jī)制的圖卷積網(wǎng)絡(luò)(AGCNS),通過AGCNS提取骨架信息的時(shí)空特征;結(jié)合骨架運(yùn)動(dòng)圖進(jìn)行時(shí)空特征的補(bǔ)充,提出了基于雙流骨架信息的人體動(dòng)作識(shí)別方法。

1 相關(guān)原理技術(shù)

1.1 骨架信息獲取

隨著微軟Kinect度相機(jī)的問世和OpenPose[8]算法的出現(xiàn),提取人體動(dòng)作的骨架信息不再是一件困難的事情。2012年2月,微軟正式發(fā)布了適合Windows平臺(tái)的Kinect版本,并提供了Kinect開發(fā)包。通過Kinect開發(fā)包,配備Kinect相機(jī)可以提取到人體運(yùn)動(dòng)的三維骨架信息,這為基于三維骨架信息的動(dòng)作識(shí)別提供了數(shù)據(jù)源,基于三維骨架信息的人體動(dòng)作識(shí)別得到了進(jìn)一步發(fā)展。OpenPose人體姿態(tài)識(shí)別算法是一種有效檢測(cè)圖像中多人二維姿勢(shì)的方法,是由美國卡耐基梅隆大學(xué)開發(fā)的開源庫,可以實(shí)現(xiàn)實(shí)時(shí)的人體動(dòng)作姿態(tài)的估計(jì)。該方法在首屆COCO2016關(guān)鍵點(diǎn)挑戰(zhàn)賽中排名第一,在性能和效率方面都大大超過了之前的最新結(jié)果,具有極好的魯棒性。通過OpenPose進(jìn)行姿態(tài)估計(jì)并提取骨架信息,為基于人體骨架信息動(dòng)作識(shí)別奠定了基礎(chǔ)。

1.2 卷積神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由大量人工神經(jīng)元構(gòu)成的、按照不同連接方式構(gòu)建的網(wǎng)絡(luò)。而卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中一種應(yīng)用比較廣泛的網(wǎng)絡(luò),主要應(yīng)用在圖像識(shí)別領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)主要可以分為三層:卷積層、池化層、全連接層。其中卷積層的作用是提取特征;池化層可以將無用的信息過濾掉,同時(shí)可以保留最顯著的特征,這樣大大減少了計(jì)算的復(fù)雜性;全連接層是一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò),主要作用是分類。

由何愷明等人提出的ResNet[9],解決了深度網(wǎng)絡(luò)退化問題,直到今天依舊有著廣泛的應(yīng)用場(chǎng)景。ResNet的殘差結(jié)構(gòu)既不會(huì)增加參數(shù),也不會(huì)增加模型復(fù)雜度。某種情況下,當(dāng)上一層的輸出結(jié)果達(dá)到最優(yōu)時(shí),在大多數(shù)情況下,恒等映射往往無法達(dá)到最優(yōu),這時(shí)就需要通過殘差模塊進(jìn)行修正。ResNet通過學(xué)習(xí)去擬合相對(duì)于上一層輸出的殘差,實(shí)驗(yàn)表明,ResNet可以不斷地增加網(wǎng)絡(luò)的深度提高網(wǎng)絡(luò)的性能,并且參數(shù)量更少,在眾多數(shù)據(jù)集都有非常好的表現(xiàn)。

1.3 圖卷積網(wǎng)絡(luò)

傳統(tǒng)的CNN在圖像識(shí)別領(lǐng)域有較大的提升,CNN的研究對(duì)象往往在有著規(guī)則空間結(jié)構(gòu)的正方形柵格數(shù)據(jù),比如圖片數(shù)據(jù),這些數(shù)據(jù)可以通過二維矩陣表示,很適合CNN進(jìn)行處理。但是,現(xiàn)實(shí)生活中很多數(shù)據(jù)并不是有規(guī)則的空間結(jié)構(gòu),比如分子結(jié)構(gòu)、腦神經(jīng)結(jié)構(gòu)以及人體骨骼點(diǎn)之間的連接關(guān)系。這些不規(guī)則的空間結(jié)構(gòu)很難通過傳統(tǒng)的CNN進(jìn)行處理,這時(shí)可以通過圖卷積網(wǎng)絡(luò)來進(jìn)行處理。圖卷積的流程可以分為三步:第一步,將每個(gè)節(jié)點(diǎn)自身的特征信息經(jīng)過轉(zhuǎn)換發(fā)送給鄰居節(jié)點(diǎn);第二步,將每個(gè)圖節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的信息進(jìn)行聚合;第三步,將聚合后的信息做非線性變換,增加模型的表征能力。

圖卷積網(wǎng)絡(luò)的核心是圖卷積操作,圖卷積類似于CNN網(wǎng)絡(luò)的卷積操作,作用是進(jìn)行特征提取,具體公式為:

(1)

2 模型結(jié)構(gòu)

2.1 模型整體結(jié)構(gòu)

雙流網(wǎng)絡(luò)是結(jié)合了圖卷積神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),其中圖卷積網(wǎng)絡(luò)用來提取時(shí)間空間特征,卷積神經(jīng)網(wǎng)絡(luò)用來提取時(shí)空特征作為圖卷積網(wǎng)絡(luò)的補(bǔ)充。

提出的模型整體結(jié)構(gòu)如圖1所示。

圖1 模型整體結(jié)構(gòu)

首先,構(gòu)建骨架信息時(shí)空?qǐng)D,然后將時(shí)空信息圖送入基于注意機(jī)制的AGCNS,得到動(dòng)作預(yù)測(cè)結(jié)果。其次,將骨架信息特征編碼為骨架信息運(yùn)動(dòng)圖,將生成的RGB圖像送入ResNet18中,得到動(dòng)作預(yù)測(cè)結(jié)果。最后,將兩個(gè)預(yù)測(cè)結(jié)果融合得到動(dòng)作的預(yù)測(cè)類別。具體的,設(shè)AGCNS預(yù)測(cè)結(jié)果為yAGCNS,ResNet預(yù)測(cè)結(jié)果為yResNet,將雙流的預(yù)測(cè)結(jié)果按權(quán)重進(jìn)行相加,即y=yAGCNS+a*yResNet,通過調(diào)參得到最好的識(shí)別效果。

2.2 構(gòu)建骨架信息時(shí)空?qǐng)D

骨架序列是連續(xù)時(shí)間內(nèi)二維骨架信息或三維骨架信息的集合。人體骨架可以看作為一個(gè)圖的拓?fù)浣Y(jié)構(gòu),在骨架信息的空間拓?fù)鋱D結(jié)構(gòu)加入時(shí)間信息就構(gòu)成了時(shí)空信息圖。本節(jié)遵循Yan等人[10]提出的動(dòng)態(tài)骨架模型來構(gòu)建時(shí)空骨架圖,它可以通過自動(dòng)學(xué)習(xí)骨架數(shù)據(jù)中的時(shí)空信息來克服以往方法的局限性。首先構(gòu)建無向時(shí)空?qǐng)D,記為G=(V,E),其中V是節(jié)點(diǎn)集合,V={vti|t=1,2,…,T,i=1,2,…,N},vti表示一段時(shí)間內(nèi)所有骨骼點(diǎn)的時(shí)空信息,其中T表示人體運(yùn)動(dòng)的總幀數(shù),N表示人體骨架中的所有關(guān)節(jié)點(diǎn)的數(shù)量;E是邊集,由E1和E2組成,其中E1表示同一幀內(nèi)骨骼點(diǎn)的連接,具體E1={vtivtj|(i,j)∈H},其中H表示同一幀內(nèi)所有骨架點(diǎn)的集合,E2表示不同幀之間同一骨架點(diǎn)之間的連接,E2={vtiv(t+1)i}。

根據(jù)已定義好的圖G,在空間維度上基于圖形的卷積實(shí)現(xiàn)不像2D或者3D卷積那樣簡(jiǎn)單,GCN網(wǎng)絡(luò)的圖卷積網(wǎng)絡(luò)定義的具體公式為:

(2)

其中,fin表示輸入特征,其維度為(C,V,T),fout表示輸出特征,A表示單幀人體骨架的連接關(guān)系的鄰接矩陣,單位矩陣I表示關(guān)節(jié)自連接,將多個(gè)輸出通道的權(quán)重向量疊加,形成權(quán)重矩陣W,Λ表示對(duì)角矩陣,具體公式為:

(3)

為了實(shí)現(xiàn)可學(xué)習(xí)邊緣重要性加權(quán),對(duì)于每個(gè)鄰接矩陣,將其與一個(gè)可學(xué)習(xí)的權(quán)重矩陣M相伴。將等式中的矩陣(A+I)*M,其中*表示兩個(gè)矩陣之間的元素乘積。上述公式可以被替換成:

(4)

2.3 注意力機(jī)制

注意力機(jī)制是目前常用的數(shù)據(jù)處理方法,廣泛用在圖像識(shí)別、自然語言處理等不同的學(xué)習(xí)任務(wù)當(dāng)中。人體動(dòng)作識(shí)別過程中,不同幀之間的同一關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)有一定的關(guān)聯(lián)性,時(shí)間注意力機(jī)制,分別賦予不同幀之間不同關(guān)節(jié)點(diǎn)的時(shí)間權(quán)重,可以提高時(shí)空?qǐng)D卷積網(wǎng)絡(luò)特征提取的能力。該時(shí)間注意力機(jī)制的結(jié)構(gòu)如圖2所示,具體公式為:

f1=σ(Mt(AvgPool(fin)))

(5)

其中,輸入fin特征為C×T×N,AvgPool表示平均池化,Mt表示以一維卷積操作,σ表示Sigmoid激活操作。一維卷積操作之后,通過一個(gè)Sigmoid函數(shù)獲得0～1之間歸一化的權(quán)重得到f1,其特征大小為1×T×1,然后將f1和fin相乘并加入殘差機(jī)制生成fout。

圖2 時(shí)間注意力機(jī)制

人體動(dòng)作識(shí)別過程中,相同幀之間的同一關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)有一定的關(guān)聯(lián)性,同時(shí)不同幀的不同關(guān)節(jié)點(diǎn)之間也存在著一定關(guān)聯(lián)性?？臻g變化程度的不同會(huì)影響動(dòng)作識(shí)別的過程,因此本節(jié)引入了空間注意力機(jī)制。分別賦予不同關(guān)節(jié)點(diǎn)不同的權(quán)重,幫助時(shí)空?qǐng)D卷積網(wǎng)絡(luò)更好地進(jìn)行特征提取。該空間注意力機(jī)制結(jié)構(gòu)和時(shí)間注意力機(jī)制結(jié)構(gòu)類似,輸入和輸出特征相同。

通道注意力機(jī)制的目的是給不同的通道賦予不同的權(quán)重,增強(qiáng)模型的表征能力。具體結(jié)構(gòu)如圖3所示。

圖3 通道注意力機(jī)制

首先,將輸入fin特征(C×H×W)進(jìn)行壓縮操作,從空間維度來進(jìn)行特征壓縮,生成f1將特征變成一個(gè)1×1×C的特征,得到的特征向量具有較強(qiáng)的全域性感受野,并且輸出的通道數(shù)和輸入的特征通道數(shù)相匹配,表示在特征通道上響應(yīng)的全域性分布。具體公式為:

(6)

其中,vc∈RH×W,全局平均池化操作,從而使其具有全局的感受野,使得網(wǎng)絡(luò)低層也能利用全局信息通過此步驟得到。其次是激勵(lì)操作,通過加入?yún)?shù)k1和k2為每個(gè)特征通道賦予不同的權(quán)重,并通過Sigmoid進(jìn)行歸一化操作,得到0和1之間的權(quán)重f2,其特征大小為1×1×C,然后將f2和fin相乘并加入殘差機(jī)制生成f1。具體公式為:

f2=σ(k2δ(k1f1))

(7)

2.4 基于注意力機(jī)制的AGCNS

結(jié)合2.2節(jié)和2.3節(jié),本節(jié)引入了注意力機(jī)制,提出的AGCNS模型基本單元的結(jié)構(gòu)如圖4所示。數(shù)據(jù)輸入分別經(jīng)過空間卷積層、歸一化處理、激活處理、時(shí)間注意力層、空間注意力層、通道注意力層、時(shí)間卷積層,歸一化處理、激活處理和失活處理得到輸出特征,然后將原始輸入特征和經(jīng)過時(shí)空卷積后的輸出特征相加作為AGCNS模型單元的輸出?？臻g卷積層的作用是提取空間特征信息,時(shí)間卷積層的作用是提取時(shí)間信息。其中,時(shí)間注意力層、空間注意力層以及通道注意力層順序連接,并以殘差結(jié)構(gòu)的形式置于空間卷積層和時(shí)間卷積層的中間。

圖4 AGCNS的基本單元

基于注意力機(jī)制AGCNS模型結(jié)構(gòu)由上述9個(gè)基本單元構(gòu)成,輸入數(shù)據(jù)的通道為3,前三個(gè)基本單元的輸出通道為64,步長為1,中間三個(gè)基本單元的輸出通道為128,最后三個(gè)基于單元的輸出通道為256。經(jīng)過9個(gè)基本單元后,將輸出的特征圖送入最大池化層和一個(gè)全連接層,最后經(jīng)過SoftMax函數(shù)處理得到預(yù)測(cè)結(jié)果。

2.5 骨架信息特征編碼為運(yùn)動(dòng)圖

遵循文獻(xiàn)[11]中的方法,該文將骨架信息轉(zhuǎn)換為骨骼運(yùn)動(dòng)圖骨架信息運(yùn)動(dòng)圖,從而更好地提取時(shí)空信息特征。該運(yùn)動(dòng)圖包含骨架的運(yùn)動(dòng)信息。首先,將深度第一樹遍歷順序應(yīng)用于骨架關(guān)節(jié),以生成預(yù)定義的骨架鏈順序J,進(jìn)而可以有效地保留原始骨架關(guān)節(jié)的空間信息。然后,將預(yù)定義的骨架鏈順序J按照時(shí)間序列T的逐行堆疊得到矩陣M。其中矩陣M的大小為J×T×3,T為骨架信息序列的總幀數(shù),3表示三維通道。根據(jù)矩陣M計(jì)算運(yùn)動(dòng)結(jié)構(gòu),具體公式為:

NM,t=MJ,t+d-MJ,t

(8)

其中,每個(gè)矩陣NM,t由兩個(gè)相差d幀的矩陣M計(jì)算差值而得,其大小為J×(T-d)×3。通過使用所提出的運(yùn)動(dòng)結(jié)構(gòu),建立了兩種不同的表示:一種基于關(guān)節(jié)運(yùn)動(dòng)的大小,另一種基于關(guān)節(jié)運(yùn)動(dòng)的方向。使用以下公式計(jì)算兩種表示:

(9)

(10)

(11)

(12)

(13)

(14)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)是在公共大型數(shù)據(jù)集NTU RGB+D60[12]上進(jìn)行測(cè)試與驗(yàn)證。NTU RGB+D60包含60個(gè)動(dòng)作類型,共56 880個(gè)樣本,其中有40類為日常行為動(dòng)作,9類為與健康相關(guān)的動(dòng)作,11類為雙人動(dòng)作。該數(shù)據(jù)集通過3臺(tái)不同角度的KinectV2傳感器采集獲得,采集的數(shù)據(jù)形式包括深度信息、3D骨骼信息、RGB信息以及紅外序列。這些樣本都是由40名志愿者在特定的環(huán)境下進(jìn)行采集的。其中每一幀骨架序列中的骨架序列包含25個(gè)關(guān)節(jié),并且提供的注釋給出了由Kinect深度傳感器檢測(cè)到的攝像機(jī)坐標(biāo)系中的3D關(guān)節(jié)位置(x,y,z)。數(shù)據(jù)集按照訓(xùn)練集和測(cè)試集劃分的不同方式分為兩類:

(1)交叉對(duì)象(Cross-Subject,CS):訓(xùn)練集包括40 320個(gè)樣本,測(cè)試集包括16 560個(gè)樣本。其中,訓(xùn)練集來自同一個(gè)志愿者的動(dòng)作,測(cè)試集來自剩余志愿者的動(dòng)作。

(2)交叉視角(Cross-View,CV):訓(xùn)練集包括37 920個(gè)樣本,測(cè)試集包括18 960個(gè)樣本。其中,訓(xùn)練集來自攝影機(jī)2號(hào)和3號(hào),而測(cè)試集都來自攝影機(jī)1號(hào)。

遵循以上基準(zhǔn),驗(yàn)證所提算法的有效性。

3.2 實(shí)驗(yàn)細(xì)節(jié)

實(shí)驗(yàn)通過Pytorch深度學(xué)習(xí)框架進(jìn)行驗(yàn)證,并在Ubuntu18.04系統(tǒng),TeslaV100-PCIE、顯存為32 GB的服務(wù)器上進(jìn)行實(shí)驗(yàn)。將雙流網(wǎng)絡(luò)在一臺(tái)服務(wù)器上分別進(jìn)行訓(xùn)練,然后將預(yù)測(cè)結(jié)果融合得到最終的輸出結(jié)果。

其中ResNet18包含18層,17層卷積網(wǎng)絡(luò)和1層全連接網(wǎng)絡(luò),在輸出通道數(shù)為64、步幅為2的7×7卷積層后,接步幅為2的3×3的最大池化層。ResNet18使用4個(gè)由殘差塊組成的模塊,每個(gè)模塊使用若干個(gè)同樣輸出通道數(shù)的殘差塊。AGCNS與ResNet18的初始學(xué)習(xí)率和dropout分別設(shè)置為0.001和0.5,epoch為100,分類器都為SoftMax,訓(xùn)練批次和測(cè)試批次設(shè)置為64。

該文采用召回率和準(zhǔn)確率作為模型評(píng)價(jià)的指標(biāo),召回率的具體公式為:

(15)

準(zhǔn)確率的具體公式為:

(16)

其中,TP,TN,FP,FN分別代表真正例、真負(fù)例、假正例、假負(fù)例的樣本個(gè)數(shù)。文中的混淆矩陣通過計(jì)算每個(gè)類別的召回率來衡量模型的效果,即混淆矩陣中對(duì)角元素表示預(yù)測(cè)值占真實(shí)值的百分比,通過混淆矩陣可以有效評(píng)估算法模型的視圖變化和嘈雜等骨架挑戰(zhàn)問題。

3.3 實(shí)驗(yàn)結(jié)果分析

首先,按照預(yù)設(shè)的參數(shù)訓(xùn)練GCNS網(wǎng)絡(luò)。為了觀察文中算法在NTU RGBD+60上的分類結(jié)果,采用混淆矩陣進(jìn)行評(píng)估?；煜仃嚳梢院芮逦赜^察文中模型在數(shù)據(jù)集各種不同動(dòng)作的識(shí)別效果。作為后續(xù)實(shí)驗(yàn)結(jié)果的對(duì)比,且考慮到圖像清晰的問題,給出初始化的GCNS的第10到第30類動(dòng)作混淆矩陣,如圖5所示。識(shí)別結(jié)果中,在21類動(dòng)作中,有11類動(dòng)作的識(shí)別率在90%及以上,8類動(dòng)作識(shí)別率大于95%甚至接近100%,有13類動(dòng)作識(shí)別率在90%以下,有5類動(dòng)作識(shí)別率在80%以下,分別為10-鼓掌,11-讀書,12-寫字,16-穿鞋,30-在鍵盤上打字。原因是極其相似的動(dòng)作對(duì)識(shí)別率會(huì)產(chǎn)生一定的影響,比如讀書和寫字、在鍵盤上打字和玩手機(jī),這些動(dòng)作確實(shí)很難區(qū)分。

圖5 GCNS的混淆矩陣

其次,為驗(yàn)證不同注意力機(jī)制對(duì)于GCNS的影響,進(jìn)行了交叉實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。發(fā)現(xiàn)通過改進(jìn)的基于注意力機(jī)制的GCNS一定程度上提高了識(shí)別率。相比于初始化GCNS,加入通道注意力機(jī)制的GCNS在Cross-Subject和Cross-View情況下識(shí)別率分別提高了2.5百分點(diǎn)和2.5百分點(diǎn),加入空間注意力機(jī)制的GCNS在Cross-Subject和Cross-View情況下識(shí)別率分別提高了1.9百分點(diǎn)和1.8百分點(diǎn),加入時(shí)間注意力機(jī)制的GCNS在Cross-Subject和Cross-View情況下識(shí)別率分別提高了2.0百分點(diǎn)和2.0百分點(diǎn),加入時(shí)間、空間、通道注意力機(jī)制的GCNS在Cross-Subject和Cross-View情況下識(shí)別率分別提高了3.8百分點(diǎn)和3.1百分點(diǎn),表明加入以上三種注意力機(jī)制的GCNS可以有效提高動(dòng)作識(shí)別率。該文將加入三種注意力機(jī)制的GCNS簡(jiǎn)稱為AGCNS。

表1 注意力機(jī)制對(duì)GCNS網(wǎng)絡(luò)的影響

基于AGCNS和ResNet18網(wǎng)絡(luò)中構(gòu)成基于雙流骨架信息的人體識(shí)別算法,如圖6所示,給出第10到第30類動(dòng)作的混淆矩陣。21類動(dòng)作中,有16類動(dòng)作的識(shí)別率在90%以上,有5類動(dòng)作識(shí)別率在90%以下。16類動(dòng)作當(dāng)中有9類動(dòng)作識(shí)別率大于95%甚至接近100%,有7類動(dòng)作識(shí)別率在90%到95%之間;5類動(dòng)作識(shí)別率在90%以下的分別為10-鼓掌、11-讀書、12-寫字、29-玩手機(jī)、30-在鍵盤上打字;與初始化GCNS相比,識(shí)別率分別提高了18百分點(diǎn),21百分點(diǎn),17百分點(diǎn),3百分點(diǎn),11百分點(diǎn)。實(shí)驗(yàn)說明文中算法可以較好地區(qū)分相似動(dòng)作且可以有效提高動(dòng)作識(shí)別率。雖然有5類動(dòng)作的識(shí)別率在90%以下,原因是極其相似的動(dòng)作對(duì)識(shí)別率會(huì)產(chǎn)生一定的影響,但是文中算法依然有著很強(qiáng)的泛化能力,說明基于注意力機(jī)制的AGCNS和ResNet18雙流人體動(dòng)作識(shí)別方法在缺乏背景信息的情況下對(duì)于相似動(dòng)作有著較好的識(shí)別效果。

圖6 文中算法混淆矩陣

最后,為了驗(yàn)證算法的識(shí)別效果,將文中算法與國內(nèi)外相關(guān)算法在NTU RGB+D60數(shù)據(jù)集上進(jìn)行了對(duì)比。由于該數(shù)據(jù)集的約束性質(zhì),在訓(xùn)練文中模型時(shí)沒有任何數(shù)據(jù)增強(qiáng)。遵循訓(xùn)練集和測(cè)試集劃分方式的不同分別進(jìn)行不同的實(shí)驗(yàn),分別驗(yàn)證Cross-Subject和Cross-View識(shí)別性能。對(duì)比結(jié)果如表2所示,相比其他算法,提出的雙流動(dòng)作識(shí)別方法在該數(shù)據(jù)集上效果更好,在NTU RGBD+60數(shù)據(jù)集上Cross-Subject和Cross-View的識(shí)別率分別達(dá)到了86.5%和93.5%。

表2 不同算法在NTU RGBD+60數(shù)據(jù)集上準(zhǔn)確率的對(duì)比

最后,為了更好地評(píng)價(jià)模型的訓(xùn)練速度,在特定的實(shí)驗(yàn)環(huán)境下,通過100個(gè)epoch的訓(xùn)練時(shí)間來衡量模型運(yùn)算速度。如表3所示,文中算法的訓(xùn)練時(shí)間相比于ST-GCN的訓(xùn)練時(shí)間有了進(jìn)一步的減少,說明文中算法在識(shí)別效率上有了一定的提升。

4 結(jié)束語

針對(duì)當(dāng)前基于二維圖像的人體動(dòng)作識(shí)別算法魯棒性差、識(shí)別率不高等問題,引入了注意力機(jī)制和骨架信息運(yùn)動(dòng)圖,提出一種基于AGCNS和CNN相結(jié)合的雙流骨架信息人體動(dòng)作識(shí)別方法。與傳統(tǒng)基于RGB圖像的人體動(dòng)作識(shí)別方法不同,該文從人體骨架信息提取動(dòng)作的時(shí)間與空間特征,利用加入注意機(jī)制的AGCNS網(wǎng)絡(luò)提取骨架信息的時(shí)間和空間特征,同時(shí)通過ResNet18提取骨架信息運(yùn)動(dòng)圖的時(shí)空特征,最后將兩個(gè)網(wǎng)絡(luò)進(jìn)行融合,增強(qiáng)了骨架信息的表征能力,有效提高了人體動(dòng)作的識(shí)別精度。該算法在NTU-RGBD+60數(shù)據(jù)集上取得了比較好的效果,Cross-Subject和Cross-View的識(shí)別率分別為86.5%和93.5%,相比其他同類算法,動(dòng)作識(shí)別率有了一定的提高,同時(shí)模型訓(xùn)練也有一定的提升。