999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

輕量級多信息圖卷積神經(jīng)網(wǎng)絡(luò)動作識別方法

2022-01-01 00:00:00井望李汪根沈公仆范寶珠
計算機應(yīng)用研究 2022年4期

摘要:針對如何在保持低參數(shù)量和低計算量前提下構(gòu)建高性能模型的問題,提出一種輕量級多信息圖卷積神經(jīng)網(wǎng)絡(luò)(LMI-GCN)。LMI-GCN通過將關(guān)節(jié)坐標(biāo)、關(guān)節(jié)速度、骨骼邊、骨骼邊速度四種不同信息編碼至高維空間的方式進行信息融合,并引入可以聚合重要特征的多通道自適應(yīng)圖和分流時間卷積塊以減少模型參數(shù)量。同時,提出一種隨機池數(shù)據(jù)預(yù)處理方法。在NTU-RGB+D120數(shù)據(jù)集上與基線方法SGN(語義引導(dǎo)神經(jīng)網(wǎng)絡(luò))相比,在兩種評估設(shè)置cross-subject和cross-setup上提高5.4%和4.7%。實驗結(jié)果表明,LMI-GCN性能高于SGN。

關(guān)鍵詞:輕量級;圖卷積神經(jīng)網(wǎng)絡(luò);動作識別;多通道自適應(yīng)圖;隨機池數(shù)據(jù)預(yù)處理

中圖分類號:TP391文獻標(biāo)志碼:A

文章編號:1001-3695(2022)04-049-1247-06

doi:10.19734/j.issn.1001-3695.2021.07.0329

Lightweight multi-information graph convolution neural network action recognition method

Jing Wang,Li Wanggen,Shen Gongpu,F(xiàn)an Baozhu

(School of Computer amp; Information,Anhui Normal University,Wuhu Anhui 241002,China)

Abstract:Aiming at the problem of how to build a high-performance model with low number of parameters and calculation,this paper proposed a lightweight multi-information graph convolutional neural network(LMI-GCN).LMI-GCN performed information fusion by encoding four different information of joint coordinates,joint speed,bone edge,and bone edge speed into a high-dimensional space,and introduced a multi-channel adaptive graph that could aggregate important features and a shunt temporal convolution block to reduce the amount of model parameters.At the same time,this paper proposed a random pool data preprocessing method.Compared with the baseline method SGN(semantics-guided neural networks) on the NTU-RGB+D120 dataset,the two evaluation settings cross-subject and cross-setup increase by 5.4% and 4.7%.Experimental results show that the performance of the LMI-GCN is better than that of the SGN.

Key words:lightweight;graph convolutional neural network;action recognition;multi-channel adaptive graph;random pool data preprocessing

0引言

現(xiàn)如今,動作識別技術(shù)被廣泛應(yīng)用于各個領(lǐng)域,如監(jiān)控、游戲、人機交互等[1,2]。在不同的動作識別方法中,基于人體骨骼動作識別[3]與基于RGB視頻人體動作識別[4]相比,具有數(shù)據(jù)集體積小、不受光照影響、良好的結(jié)構(gòu)信息[5]等特點,并且前者可以與后者相互結(jié)合。因此,基于人體骨骼的動作識別也逐漸成為當(dāng)前研究的熱點[6]。其中,人體骨骼數(shù)據(jù)是由若干幀的關(guān)節(jié)2D/3D坐標(biāo)組成的骨骼序列[7] ,并且具有時序性。

在動作識別任務(wù)中,如何提取更多的區(qū)分特征是重點也是難點。一些研究表明[3,5,8],在人體骨骼動作識別領(lǐng)域,深度學(xué)習(xí)方法相比于手工特征方法具有一定優(yōu)越性。因此,基于深度學(xué)習(xí)方法的人體骨骼動作識別越來越受到關(guān)注,如卷積神經(jīng)網(wǎng)絡(luò)[9](convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)[10](recurrent neural network,RNN)和圖卷積神經(jīng)網(wǎng)絡(luò)[11](graph convolution neural network,GCN),已經(jīng)被廣泛應(yīng)用于人體骨骼動作識別任務(wù)當(dāng)中。

早期基于人體骨骼動作識別的網(wǎng)絡(luò)框架主要為CNN和RNN。例如,Li等人[12]提出基于CNN的分層共現(xiàn)網(wǎng)絡(luò)(hierarchical co-occurrence network,HCN)來實現(xiàn)對全局關(guān)節(jié)共現(xiàn)特征提取,并在當(dāng)時取得不錯的效果;Wang等人[13]意識到關(guān)節(jié)空間配置的重要性,提出基于RNN的雙流循環(huán)神經(jīng)網(wǎng)絡(luò)(two-stream recurrent neural networks,2s-RNN),分別提取關(guān)節(jié)空間特征和時間相關(guān)性特征。CNN和RNN雖然均可用于基于人體骨骼的動作識別任務(wù),但忽略了人體骨骼的圖形結(jié)構(gòu)這一重要信息。

隨著GCN的興起,GCN開始與人體骨骼動作識別相結(jié)合。Yan等人[14]首次將GCN應(yīng)用于人體骨骼動作識別任務(wù)當(dāng)中,利用人體骨骼的物理結(jié)構(gòu)特點進行時空建模,提出時空圖卷積神經(jīng)網(wǎng)絡(luò)(spatial temporal graph convolutional networks,ST-GCN),并為接下來的研究提供了思路。Li等人[15]針對如何捕捉潛在的關(guān)節(jié)相關(guān)性提出動作結(jié)構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)(actional-structural graph convolutional networks,AS-GCN),并且在ST-GCN的基礎(chǔ)上擴展了骨架圖,從而可以表示高階的關(guān)節(jié)依賴性。Shi等人[16]認(rèn)為人體骨骼的固定圖拓?fù)浣Y(jié)構(gòu)會影響模型的訓(xùn)練和性能的提升,因此提出雙流自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)(two-stream adaptive graph convolutional networks ,2s-AGCN),采用固定圖拓?fù)浜头枪潭▓D拓?fù)湎嘟Y(jié)合的方式增加圖的靈活性,并引入二階骨骼信息。Liu等人[17]引入一種跨時空圖多尺度聚合的方法,提出雙流的多尺度統(tǒng)一時空圖卷積網(wǎng)絡(luò)(multi-scale G3D networks,MS-G3D Nets),以雙流網(wǎng)絡(luò)的方式對關(guān)節(jié)特征和骨骼特征分別進行學(xué)習(xí)。Plizzari等人[18]考慮到3D骨骼中潛在信息以及如何編碼的重要性,提出一種時空轉(zhuǎn)換器網(wǎng)絡(luò)(spatial-temporal transformer network,ST-TR),通過空間轉(zhuǎn)換器捕捉幀內(nèi)不同動作的相關(guān)性和使用時間轉(zhuǎn)換器捕捉幀間相關(guān)性,并構(gòu)建雙流網(wǎng)絡(luò)模型將兩種轉(zhuǎn)換器結(jié)合。馬利等人[19]通過區(qū)域關(guān)聯(lián)圖卷積捕捉關(guān)節(jié)之間的非物理關(guān)聯(lián),并使用二階骨骼信息,提出區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)(regional association adaptive graph convolution network,RA-AGCN)。

上述方法雖然都取得不錯的效果,但普遍重視模型的識別精度,忽略了模型的效率問題,因此,Zhang等人[5]提出語義引導(dǎo)的神經(jīng)網(wǎng)絡(luò)(semantics-guided neural networks,SGN),以one-hot編碼的方式引入高級語義,減少了模型的參數(shù)量和計算量。孫琪翔等人[20]通過引入Ghost模塊來降低模型的參數(shù)量和計算量,采用單流網(wǎng)絡(luò)的方式進一步降低模型的參數(shù)量,并將多信息通過直接合并的融合方式引入模型之中,提出非局部Ghost圖卷積網(wǎng)絡(luò)(non-local ghost graph convolutional network,NL-GGCN)。

SGN模型雖然有著較高的效率,并且其訓(xùn)練時間成本普遍低于目前的主流方法,但識別精度低于目前的大多數(shù)主流方法,在NTU-RGB+D120數(shù)據(jù)集[7]的兩種評估設(shè)置上的識別精度僅為79.2%和81.5%,從而不利于對識別精度要求較高的實際應(yīng)用場景。

NL-GGCN模型雖然在參數(shù)量和計算量方面有所降低,并引入多信息達(dá)到較高的精度,但計算量依舊過高,識別一個動作樣本時依舊達(dá)9.4 GFLOPs,而且對原始信息僅采用直接合并的融合方式。因此,本文針對上述問題提出一種輕量級的多信息圖卷積神經(jīng)網(wǎng)絡(luò),以SGN作為基線方法,通過編碼模塊將多種信息嵌入至高維空間進行融合的方式輸入至單流網(wǎng)絡(luò),并且引入可以聚合重要關(guān)節(jié)特征的多通道自適應(yīng)圖和分流設(shè)計的時間卷積塊進一步降低模型的參數(shù)量。同時,提出一種隨機池選取的數(shù)據(jù)預(yù)處理方法,總體上使本文LMI-GCN模型識別精度較文獻[5]的SGN模型有所提升,從而使本文LMI-GCN模型效率進一步增加。

本文的主要貢獻如下:a)提出一種高效率的輕量級多信息圖卷積神經(jīng)網(wǎng)絡(luò)(LMI-GCN);b)采用高維空間信息融合的方式融合多種信息,并且提出一種可自動優(yōu)化的多通道自適應(yīng)圖和分流時間卷積塊,使模型更小、更具有效率;c)針對文獻[5]中數(shù)據(jù)預(yù)處理方法會導(dǎo)致部分骨骼序列幀丟失的問題,本文提出一種隨機池數(shù)據(jù)預(yù)處理方法;d)在目前流行的NTU-RGB+D120大規(guī)模數(shù)據(jù)集上進行多次實驗,實驗結(jié)果表明本文方法優(yōu)于文獻[5],并且也優(yōu)于其他一些最新的主流方法。

1隨機池數(shù)據(jù)預(yù)處理

眾所周知,數(shù)據(jù)在輸入模型之前,需要對數(shù)據(jù)進行預(yù)處理操作。在文獻[5]中,骨骼序列被平均分為20份,每份隨機抽取一幀,組成新的骨骼序列作為模型的輸入,該方法雖然一定程度上提高了模型的泛化能力,但會造成骨骼序列最后未滿20幀的部分丟失,從而使得一些重要信息丟失。

針對上述問題,本文提出一種隨機池數(shù)據(jù)預(yù)處理方法用于規(guī)范化輸入數(shù)據(jù),由于本文方法中圖G大小的限制,本文LMI-GCN模型輸入被設(shè)置為25幀的骨骼序列。本文將樣本集合表示為S={sa,q|a=1,2,…,A;q=1,2,…,Q},其中sa,q表示樣本,A表示樣本數(shù),Q表示樣本的骨骼序列的幀數(shù)。該方法主要分為兩部分:a)對于前15幀骨骼序列,采取類似文獻[21]的方法;b)對于后10幀骨骼序列,本文采用隨機池的方法。隨后將兩部分合并組成25幀的骨骼序列作為模型的輸入。具體算法執(zhí)行流程如算法1所示。

算法1隨機池數(shù)據(jù)預(yù)處理算法

輸入:不同時間幀長度的骨骼序列。

輸出:25幀長度的骨骼序列。

a) m =0

b) for a =1 to A //每個樣本都需要處理

c)m=int(Q/25) //每個骨骼序列樣本被均分為25份

d)for m[1] to m[15]

e)random 1 frame //隨機抽取一幀

f)end for and return m[1] to m[15]

//結(jié)束循環(huán)并返回15幀骨骼序列

g)combine m[16] to(m[25]+Q%25)//組成隨機骨骼序列池,Q%25為最后未滿25幀的部分

h)random 10 frame //隨機抽取10幀

i)time sort //按照時間先后順序排序

j)return 10 frame //返回10幀骨骼序列

k)combine m[1] to m[25] //合并成25幀骨骼序列

l) end for and return 25 frame //結(jié)束循環(huán)并返回25幀骨骼序列

2本文LMI-GCN模型

最近研究表明[16,17,20,21],豐富的多信息對于提高模型性能十分重要,這是由于多信息的數(shù)據(jù)可以幫助模型提取到更多的區(qū)分特征,以實現(xiàn)模型性能提升。為此,本文同樣在LMI-GCN模型中引入多種信息,本文LMI-GCN模型整體結(jié)構(gòu)如圖1所示。

2.1編碼模塊

對于多信息的處理,本文受文獻[5]對關(guān)節(jié)坐標(biāo)和關(guān)節(jié)速度編碼的啟發(fā),將四種不同的信息通過編碼模塊嵌入至高維空間進行信息融合,使得模型可以顯性地學(xué)習(xí)到更多重要特征,并且不會明顯增加模型的訓(xùn)練成本,編碼模塊結(jié)構(gòu)如圖2所示。

對于骨骼序列中的任意關(guān)節(jié)點,本文將其表示為集合D={kt,n∈3|n=1,2,…,J;t=1,2,…,T},其中kt,n∈3為t幀中關(guān)節(jié)n的3D坐標(biāo),J表示關(guān)節(jié)數(shù)量,T表示骨骼序列幀數(shù)。由于在人體骨骼動作識別任務(wù)中,骨骼邊信息有助于模型性能的提升[16],所以本文引入骨骼邊信息。骨骼邊可以由先驗知識獲得,其包含兩個關(guān)節(jié)點信息,具體如式(1)所示。

et,i-j=kt,i-kt,j(1)

其中:et,i-j∈3表示t幀中連接關(guān)節(jié)點i和j的骨骼邊;源關(guān)節(jié)kt,i為遠(yuǎn)離重心的關(guān)節(jié)點;目標(biāo)關(guān)節(jié)kt,j為靠近重心的關(guān)節(jié)點;骨骼邊是包含長度信息和方向信息的向量。由于人體的骨骼是一個非循環(huán)圖,所以骨骼邊數(shù)量比關(guān)節(jié)點數(shù)量少一個。為此,本文在中心關(guān)節(jié)添加一個向量為0的空骨骼邊以對齊關(guān)節(jié)數(shù)量。

關(guān)節(jié)速度可以顯性地表示關(guān)節(jié)的位置變化信息[5],引入關(guān)節(jié)的速度可以進一步提升模型性能,其同樣由先驗知識獲得,如式(2)所示。

vt,n=kt+1,n-kt,n(2)

其中:vt,n∈3表示t幀中關(guān)節(jié)n三維速度向量,由于時間是線性的,所以幀差的數(shù)量會少一個。為此,本文在第一幀中添加一個值為0的速度向量。骨骼邊的速度向量v′t,i-j獲取方式與關(guān)節(jié)的速度獲取方式一致。

對于關(guān)節(jié)坐標(biāo)、關(guān)節(jié)速度、骨骼邊、骨骼邊速度這四種信息的融合,目前大多數(shù)主流方法采取多流網(wǎng)絡(luò)的方式或直接對原始信息進行融合的方式。本文將四種信息均編碼進高維空間后再進行融合,這種方法主要有兩個效果:a)相對于多流網(wǎng)絡(luò)的方式可以有效減少模型的參數(shù)量和訓(xùn)練成本;b)相對于直接對原始信息進行融合的方式可以使更多的有效特征進行融合,并且減少信息的相互干擾。

對于關(guān)節(jié)坐標(biāo)、關(guān)節(jié)速度、骨骼邊、骨骼邊速度的信息融合,本文將其分為兩部分:a)關(guān)節(jié)坐標(biāo)和關(guān)節(jié)速度的信息融合;b)骨骼邊和骨骼邊速度的信息融合。a)中的關(guān)節(jié)坐標(biāo)使用兩層卷積層進行編碼。其中,關(guān)節(jié)坐標(biāo)編碼方式如式(3)所示。

Zk=σ(W2(σ(W1K+b1))+b2)(3)

其中:K∈3×J×T為關(guān)節(jié)坐標(biāo)張量;σ為ReLU激活函數(shù);W1和W2為可訓(xùn)練權(quán)重矩陣;b1和b2為偏置項;Zk∈C1×J×T為關(guān)節(jié)坐標(biāo)編碼。關(guān)節(jié)速度、骨骼邊、骨骼邊速度編碼方式與關(guān)節(jié)坐標(biāo)編碼方式一致。

a)中的關(guān)節(jié)坐標(biāo)和關(guān)節(jié)速度融合如式(4)所示。

Z1=Zk+Zv(4)

其中:Zv∈C1×J×T為關(guān)節(jié)速度編碼;Z1∈C1×J×T由關(guān)節(jié)坐標(biāo)和關(guān)節(jié)速度融合后得到。b)中骨骼邊和骨骼邊速度融合方式與a)融合方式一致。對于a)b)的融合,本文采取張量合并的方式進行,如式(5)所示。

Z=Z1。Z2(5)

其中:。表示張量的合并運算;Z2∈

C1×J×T由骨骼邊和骨骼邊速度融合后得到;Z∈

C2×J×T表示兩部分融合后的結(jié)果,作為下一層的輸入。

2.2圖卷積塊

在早期工作中[14],圖卷積運算中的圖是基于先驗知識設(shè)計的,該方法設(shè)計的圖其結(jié)構(gòu)過于固定化,并不能靈活地聚合物理上不連接的關(guān)節(jié)點特征。在另外工作中[5,16,20,21],圖卷積運算中的圖雖然結(jié)構(gòu)不固定,且較為靈活,但往往被設(shè)計得過于復(fù)雜化,不易于提高模型的效率。為解決上述問題,本文引入一種簡單靈活的可以根據(jù)訓(xùn)練數(shù)據(jù)自動學(xué)習(xí)的多通道自適應(yīng)圖G,圖G可以有效地聚合具有不同權(quán)重的關(guān)節(jié)特征。為靈活聚合不同通道維度上的關(guān)節(jié)特征,本文將圖G設(shè)計為多通道的。圖G在模型訓(xùn)練過程中利用了卷積核參數(shù)的自動優(yōu)化機制,可以根據(jù)訓(xùn)練數(shù)據(jù)不斷自適應(yīng)調(diào)整,而且圖G也具有幀索引的性質(zhì)。

由于圖G具備幀索引性質(zhì),可以在時間塊中引入,為此,本文將圖G設(shè)計為與特征圖大小一致。對于圖G的學(xué)習(xí),本文引入單位矩陣I∈

J×J,其中J為人體關(guān)節(jié)數(shù)量,本文先將單位矩陣I∈

J×J轉(zhuǎn)為張量I′∈

1×J×J,然后將張量I′∈

1×J×J通過重復(fù)擴充的方式得到單位張量∈

J×J×J,通過兩種不同的維度置換方式得到不同的單位張量1∈

J×J×J和2∈

J×J×J,最后通過合并操作將兩個張量合并后作為輸入,如式(6)和(7)所示。

G1=σ(W3(1。2)+b3)(6)

G2=σ(W4(W3(1。2)+b3)+b4)(7)

其中:G1∈

C2×J×J和G2∈

C3×J×J是根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的不同通道數(shù)的自適應(yīng)圖;W3和W4均為可訓(xùn)練權(quán)重矩陣;b3和b4均為偏置項;。表示張量的合并運算。多通道自適應(yīng)圖的學(xué)習(xí)如圖3所示。

通過多層卷積層得到不同通道數(shù)的自適應(yīng)圖G后,本文將其輸入圖卷積層當(dāng)中,每一層的圖卷積如式(8)所示。

fout=GfinWx+finWy(8)

其中:fin和fout分別為圖卷積層的輸入和輸出;Wx和Wy均為可訓(xùn)練權(quán)重矩陣;G為通道數(shù)與該層通道數(shù)一致的自適應(yīng)圖。圖卷積塊結(jié)構(gòu)如圖4所示。

2.3時間卷積塊

在時間卷積中,受文獻[17]的啟發(fā),本文采用兩層的卷積,并且在第一層卷積中使用一個分流網(wǎng)絡(luò)的設(shè)計,由于多通道自適應(yīng)圖也具有幀索引的性質(zhì),本文將其作為殘差引入到時間卷積塊的輸入之中,并在之后使用最大關(guān)節(jié)池化來聚合全局關(guān)節(jié)上的特征信息,分流時間卷積塊結(jié)構(gòu)如圖5所示。

在時間卷積塊的第一層中,本文并聯(lián)兩個卷積層,卷積核大小分別是1×3和1×1,每個卷積層輸出特征維度都減半,關(guān)節(jié)最大池化層的輸出通過不同的卷積層后在其通道維度上進行合并,作為下一層的輸入。其中,1×3的卷積核用于提取幀間的相關(guān)性特征,1×1的卷積核用于特征擠壓。相比于文獻[5]的時間卷積塊,第一層卷積減少1/3的參數(shù)量,并且模型的性能沒有下降。在時間卷積塊第二層中,采用一層1×1的卷積層將通道數(shù)升高至C4,以使得特征得以加強。通過第二層卷積后,經(jīng)過時間最大池化層聚合全局時間特征,然后使用一層全連接層,最后送入分類器中輸出分?jǐn)?shù)。

3實驗結(jié)果及分析

3.1數(shù)據(jù)集

NTU-RGB+D120數(shù)據(jù)集是目前最為流行的大規(guī)模動作識別數(shù)據(jù)集之一,該數(shù)據(jù)集包含120個動作類別,由106個不同的受試者完成,有32個不同的設(shè)置方式,總計114 480個動作樣本。其中,有535個樣本為不可用樣本。每個動作樣本中的人體骨骼由25個關(guān)節(jié)點組成,每個關(guān)節(jié)點由3D坐標(biāo)表示。該數(shù)據(jù)集有兩種評估設(shè)置方式:a)交叉主題(cross-subject,CS),106個受試者被分為兩組,一半用于訓(xùn)練,一半用于測試,其中訓(xùn)練集樣本數(shù)量為63 026個,測試集樣本數(shù)量為50 919個;b)交叉設(shè)置號(cross-setup,SS),32個不同設(shè)置號被分為兩組,其中偶數(shù)用于訓(xùn)練,奇數(shù)用于測試,訓(xùn)練集樣本數(shù)量為54 468個,測試集樣本數(shù)量為59 477個。

3.2實驗設(shè)置

a)實驗平臺。顯卡為單塊NVIDIA RTX2060 Super,處理器為Intel i5-9400F,內(nèi)存為32 GB,操作系統(tǒng)為Ubuntu 19.04,語言為Python 3.7,CUDA版本為10.2,采用PyTorch 1.4.0框架。

b)相關(guān)參數(shù)設(shè)置。為使得每層圖卷積輸出的特征圖大小匹配多通道自適應(yīng)圖大小,本文在實驗中統(tǒng)一將骨骼序列的幀數(shù)設(shè)置為25。對于網(wǎng)絡(luò)中的通道數(shù)C1~C4,其分別為64、128、256和512。本文為了可以更加公平地對比基線方法,其他超參數(shù)設(shè)置與基線方法一致,使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.001,權(quán)重衰減值為0.000 1,加載數(shù)據(jù)線程數(shù)目為16,訓(xùn)練周期為120 epoch,分別在60、90、110周期下降10倍,訓(xùn)練時的批大小為64,測試時的批大小為32[5]。

c)數(shù)據(jù)集設(shè)置。數(shù)據(jù)集使用兩種推薦的評估設(shè)置方式,即CS(交叉主題)和SS(交叉設(shè)置號)。為使模型更具泛化性,本文采取與基線方法相同的數(shù)據(jù)設(shè)置方法,將每個序列中的三維骨骼分別圍繞X、Y、Z軸隨機旋轉(zhuǎn)一定角度,其旋轉(zhuǎn)度數(shù)為[-17° ,+17°]。對于數(shù)據(jù)預(yù)處理部分,采用本文提出的隨機池數(shù)據(jù)預(yù)處理方法。

d)訓(xùn)練時間。在單塊NVIDIA RTX2060 Super顯卡上使用NTU-RGB+D120數(shù)據(jù)集對模型進行訓(xùn)練,每個評估設(shè)置中訓(xùn)練完全部120 epoch總耗時為2個多小時。

3.3實驗結(jié)果及分析

為驗證本文提出的隨機池數(shù)據(jù)預(yù)處理方法的有效性,本文LMI-GCN和文獻[5]SGN模型均使用不同的數(shù)據(jù)預(yù)處理方法進行了實驗。

為進行公平的對比,在兩種數(shù)據(jù)預(yù)處理方法中骨骼序列長度均設(shè)置為25。ODP表示使用文獻[5]的數(shù)據(jù)預(yù)處理方法,NDP表示使用本文的隨機池數(shù)據(jù)預(yù)處理方法。表1的實驗結(jié)果表明,在識別精度上,在使用SGN模型時,CS評估設(shè)置上的識別精度提高4.2%,SS評估設(shè)置上的識別精度提高3.1%;在使用本文LMI-GCN模型時,CS評估設(shè)置上的識別精度提高3.7%,在SS評估設(shè)置上的識別精度提高3.4%。模型識別精度提高的原因在于本文的隨機池數(shù)據(jù)預(yù)處理方法可以有效解決文獻[5]中數(shù)據(jù)預(yù)處理造成的部分骨骼序列幀丟失問題,避免了一些重要信息的丟失,并且進一步增加數(shù)據(jù)集的隨機性,從而使模型可以學(xué)習(xí)到更多重要的區(qū)分特征和增加模型泛化性。

為驗證引入多信息可以明顯提升模型性能,本文進行了對比實驗,引入不同的信息進行實驗。同時,本文也進一步對比了多信息的不同融合方式對模型的影響。

表2顯示不同信息對模型性能的影響。其中:J表示關(guān)節(jié)坐標(biāo);JV表示關(guān)節(jié)速度;B表示骨骼邊;BV表示骨骼邊速度;C表示將四種信息先在通道維度上合并,然后輸入至模型;+表示將四種信息先加法融合,然后再輸入至模型。表2的實驗結(jié)果驗證并得出以下兩點結(jié)論:a)引入多種不同的信息后,模型的性能得到明顯提升,表明引入多種不同的信息對模型性能的提升十分重要;b)使用不同的信息融合方式會得到不同的結(jié)果,LMI-GCN(C)和LMI-GCN(+)均是對原始信息直接在低維空間進行融合,而低維空間融合會造成一些重要特征相互干擾,直接影響到模型的性能,而將信息編碼進高維空間再融合時就可以有效地減少特征相互干擾的發(fā)生。

在表3中,(-G)表示沒有使用多通道自適應(yīng)圖。表3實驗結(jié)果表明,消去多通道自適應(yīng)圖會導(dǎo)致模型中的圖卷積退化成普通卷積,而普通卷積無法聚合具有相關(guān)性的關(guān)節(jié)點特征,從而導(dǎo)致模型性能下降,增加多通道自適應(yīng)圖可以有效聚合具有相關(guān)性的關(guān)節(jié)點特征,使得模型性能有明顯提升。與消去多通道自適應(yīng)圖的模型相比,有多通道自適應(yīng)圖的模型在CS評估設(shè)置上的識別精度提升2.4%,在SS評估設(shè)置上的識別精度提升2.6%。

表4顯示在時間卷積方法的對比上,本文采用的分流式時間卷積可以在不降低模型識別精度的基礎(chǔ)上有效降低模型參數(shù)量,其原因有兩點:a)引入輸出通道數(shù)減半的卷積層可以降低該層參數(shù)量;b)合并輸出的特征圖可以使重要特征不會丟失。其中,old TCN表示使用文獻[5]中的時間卷積塊,new TCN表示使用本文方法中的時間卷積塊。

圖6和7顯示SGN與本文LMI-GCN模型的收斂情況對比,為對比更加公平,兩種模型均使用本文隨機池數(shù)據(jù)預(yù)處理方法。與SGN相比,由于本文LMI-GCN模型引入更多的信息,使得在訓(xùn)練過程中模型可以更快地收斂,在收斂速度和收斂程度上均高于SGN模型。

為更直觀地展示動作,本文選取LMI-GCN在兩種評估設(shè)置下識別正確的部分動作,每個動作均取任意五幀,并將其可視化,可視化圖如圖8和9所示。同時,為證明本文方法的有效性,本文與近幾年的一些主流方法在相同的數(shù)據(jù)集上進行了對比。

在表5中,本文與文獻[20]中的輕量級模型NL-GGCN進行了進一步對比。對比結(jié)果表明,本文方法雖然在識別精度上略低于NL-GGCN,但在計算量和測試單個樣本所需時間上均大幅低于NL-GGCN,前者約為其1/10,后者約為其1/50,對于后者,由于其實驗平臺GPU性能的差距,若在實驗平臺GPU性能相同情況下,其測試單個樣本所需時間的差距將進一步加大。

如表6所示,文獻[5]與文獻[14~16,22,23]相比,雖然在參數(shù)量減少了一個量級,但在識別精度上明顯低于文獻[16,18,23,24]。LMI-GCN與文獻[5]相比,不僅在參數(shù)量上低于文獻[5],并且在識別精度上顯著高于文獻[5]的方法,而與表6中的其他主流方法相比時,本文方法不僅在參數(shù)量上低于文獻[5,14~16,22,23],并且在識別精度上也均高于表6中的其他主流方法。實驗結(jié)果表明,本文方法在識別精度、計算量、參數(shù)量三個方面上取得了平衡,相比于其他主流方法更具吸引力,并且更適合應(yīng)用在計算資源有限和對識別精度有要求的應(yīng)用場景中。

4結(jié)束語

針對目前大多數(shù)輕量級人體骨骼動作識別網(wǎng)絡(luò)存在識別精度較低或是依舊復(fù)雜的問題,本文提出一種輕量級的多信息圖卷積神經(jīng)網(wǎng)絡(luò)(LMI-GCN)。

本文首先將多種信息編碼至高維空間進行融合,再送入至單流網(wǎng)絡(luò)中,并引入低參數(shù)量多通道的自適應(yīng)圖和分流設(shè)計的時間卷積塊,同時提出一種隨機池數(shù)據(jù)預(yù)處理方法。通過在目前最為流行的大規(guī)模動作數(shù)據(jù)集之一的NTU-RGB+D120數(shù)據(jù)集上進行多次實驗,結(jié)果表明,與文獻[5]方法相比,在模型參數(shù)量進一步下降的基礎(chǔ)上,其模型性能得到顯著提升,并在相同骨骼序列長度設(shè)置下,計算量也有所下降。同時,本文將所提方法與最新的輕量級模型在識別精度、計算量、測試單個動作樣本所需時間這三個指標(biāo)上進行了對比,與近些年其他主流方法在識別精度和模型參數(shù)量上進行了對比,對比的結(jié)果表明本文的方法具有一定的優(yōu)越性且更具實際意義。

在未來的工作中,筆者將更加注重較小區(qū)分度的動作識別,例如喝水和吃飯,使其可以進一步應(yīng)用到更為廣泛的場景。

參考文獻:

[1]Aggarwal J K,Ryoo M S.Human activity analysis:a review[J].ACM Computing Surveys,2011,43(3):1-43.

[2]錢慧芳,易劍平,付云虎.基于深度學(xué)習(xí)的人體動作識別綜述[J].計算機科學(xué)與探索,2021,15(3):438-455.(Qian Huifang,Yi Jianping,F(xiàn)u Yunhu.Review of human action recognition based on deep learning[J].Journal of Frontiers of Computer Science amp; Technology,2021,15(3):438-455.)

[3]Zhang Pengfei,Lan Cuiling,Xing Junliang,et al.View adaptive neural networks for high performance skeleton-based human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8):1963-1978.

[4]Feichtenhofer C,Pinz A,Zisserman A.Convolutional two-stream network fusion for video action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1933-1941.

[5]Zhang Pengfei,Lan Cuiling,Zeng Wenjun,et al.Semantics-guided neural networks for efficient skeleton-based human action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1109-1118.

[6]Gao Xiang,Hu Wei,Tang Jiaxiang,et al.Optimized skeleton-based action recognition via sparsified graph regression[C]//Proc of the 27th ACM International Conference on Multimedia.New York:ACM Press,2019:601-610.

[7]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(10):2684-2701.

[8]Han Fei,Reily B,Hoff W,et al.Space-time representation of people based on 3D skeletal data:a review[J].Computer Vision amp; Image Understanding,2017,158:85-105.

[9]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報,2017,40(6):1229-1251.(Zhou Feiyan,Jin Linpeng,Dong Jun.Review of convolutional neural networks[J].Chinese Journal of Computers,2017,40(6):1229-1251.)

[10]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用,2018,38(S2):1-6,26.(Yang Li,Wu Yuxi,Wang Junli,et al.Research on recurrent neural network[J].Journal of Computer Applications,2018,38(S2):1-6,26.)

[11]徐冰冰,岑科廷,黃俊杰,等.圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J].計算機學(xué)報,2020,43(5):755-780.(Xu Bingbing,Cen Keting,Huang Junjie,et al.A survey on graph convolution neural network[J].Chinese Journal of Computers,2020,43(5):755-780.)

[12]Li Chao,Zhong Qiaoyong,Xie Ding,et al.Co-occurrence feature lear-ning from skeleton data for action recognition and detection with hierarchical aggregation[C]//Proc of the 27th International Joint Confe-rence on Artificial Intelligence.2018:786-792.

[13]Wang Hongsong,Wang Liang.Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3633-3642.

[14]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.2018:7444-7452.

[15]Li Maosen,Chen Siheng,Chen Xu,et al.Actional-structural graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3590-3598.

[16]Shi Lei,Zhang Yifan,Cheng Jian,et al.

Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12018-12027.

[17]Liu Ziyu,Zhang Hongwen,Chen Zhenghao,et al.Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:140-149.

[18]Plizzari C,Cannici M,Matteucci M.Spatial temporal transformer network for skeleton-based action recognition[C]//Proc of International Conference on Pattern Recognition.Berlin:Springer,2021:694-701.

[19]馬利,鄭詩雨,牛斌.應(yīng)用區(qū)域關(guān)聯(lián)自適應(yīng)圖卷積的動作識別方法[J/OL].計算機科學(xué)與探索.(2021-03-12)[2021-07-10].http://kns.cnki.net/kcms/detail/11.5602.tp.20210311.1719.005.html.(Ma Li,Zheng Shiyu,Niu Bin.Action recognition method on regional association adaptive graph convolution[J/OL].Journal of Frontiers of Computer Science amp; Technology.(2021-03-12)[2021-07-10].http://kns.cnki.net/kcms/detail/11.5602.tp.20210311.1719.005.html.)

[20]孫琪翔,何寧,張聰聰,等.輕量級圖卷積人體骨架動作識別方法[J/OL].計算機工程.(2021-06-02)[2021-07-03].https://doi.org/10.19678/j.issn.1000-3428.0061304.(Sun Qixiang,He Ning,Zhang Congcong,et al.A lightweight graph convolution human skeleton action recognition method[J/OL].Computer Engineering.(2021-06-02)[2021-07-03].https://doi.org/10.19678/j.issn.1000-3428.0061304.)

[21]Liu Jun,Shahroudy A,Xu Dong,et al.Spatio-temporal LSTM with trust gates for 3D human action recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:816-833.

[22]Song Yifan,Zhang Zhang,Wang Liang.Richly activated graph convolutional network for action recognition with incomplete skeletons[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2019:1-5.

[23]Song Yifan,Zhang Zhang,Shan Caifeng,et al.Richly activated graph convolutional network for robust skeleton-based action recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2021,31(5):1915-1925.

[24]Peng Wei,Shi Jingang,Zhao Guoying.Spatial temporal graph deconvolutional network for skeleton-based human action recognition[J].IEEE Signal Processing Letters,2021,28:244-248.

[25]Papadopoulos K,Ghorbel E,Aouada D,et al.Vertex feature encoding and hierarchical temporal modeling in a spatial-temporal graph convolutional network for action recognition[EB/OL].(2019-12-20).https://arxiv.org/abs/1912.09745.

收稿日期:2021-07-12;修回日期:2021-09-09基金項目:高校領(lǐng)軍人才引進與培育計劃資助項目(051619)

作者簡介:井望(1995-),男,安徽淮南人,碩士研究生,主要研究方向為深度學(xué)習(xí)和動作識別;李汪根(1973-),男(通信作者),安徽太湖人,教授,碩導(dǎo),博士,主要研究方向為生物計算、智能計算等(xchen@ahnu.edu.cn);沈公仆(1997-),男,安徽六安人,碩士研究生,主要研究方向為深度學(xué)習(xí)和圖像處理;范寶珠(1997-),女,廣東汕尾人,碩士研究生,主要研究方向為深度學(xué)習(xí)和圖像處理.

主站蜘蛛池模板: 99精品一区二区免费视频| 久久综合干| 色综合天天综合| 欧美色图久久| 丁香婷婷在线视频| 中日韩欧亚无码视频| 国产欧美日韩精品综合在线| 在线欧美一区| 日韩精品无码免费专网站| 妇女自拍偷自拍亚洲精品| 国产精品高清国产三级囯产AV| 米奇精品一区二区三区| 国产精品久久久久婷婷五月| 久久美女精品| 国产成人综合亚洲网址| 波多野结衣一区二区三区88| 中文字幕佐山爱一区二区免费| 激情六月丁香婷婷四房播| 亚洲综合色婷婷| 欧美中文一区| 日韩欧美综合在线制服| 国产精品主播| 又黄又湿又爽的视频| 欧美精品H在线播放| 亚洲精品无码av中文字幕| 黄色网站不卡无码| 久久精品无码中文字幕| 国产女人爽到高潮的免费视频| 国产精品自拍露脸视频| 一区二区偷拍美女撒尿视频| 久久一级电影| 欧美日韩综合网| 精品人妻AV区| 欧美精品在线免费| 国产亚洲精品97在线观看| 久久精品波多野结衣| 国产精品自在线拍国产电影 | 国产好痛疼轻点好爽的视频| 国产综合精品一区二区| 欧美成人在线免费| 中文字幕乱妇无码AV在线| 久草网视频在线| 国内自拍久第一页| 亚洲人成网站色7799在线播放 | 国产一区二区三区精品久久呦| 国产精品福利尤物youwu| 婷婷午夜天| 欧美日韩高清在线| 国产成人精品一区二区免费看京| 精品免费在线视频| 激情综合网激情综合| 中文国产成人精品久久| 国产免费羞羞视频| 精品亚洲麻豆1区2区3区| 青草免费在线观看| 日韩亚洲综合在线| 久青草国产高清在线视频| 亚洲啪啪网| 女人爽到高潮免费视频大全| 亚洲日韩国产精品综合在线观看| 国产二级毛片| 国产手机在线小视频免费观看 | 毛片三级在线观看| A级毛片高清免费视频就| 无码人妻热线精品视频| 欧美一区二区精品久久久| 精品1区2区3区| 国产午夜在线观看视频| 欧美人与牲动交a欧美精品 | 成年人午夜免费视频| 成人日韩精品| 青青操国产视频| AV片亚洲国产男人的天堂| 中文字幕人成乱码熟女免费| 波多野结衣一区二区三区四区 | 亚洲欧美日韩视频一区| 一级片一区| 无码在线激情片| 国产精品性| 青青青伊人色综合久久| 色偷偷男人的天堂亚洲av| lhav亚洲精品|