999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DCFF?Net:基于人體骨骼點(diǎn)的雙流跨級特征融合動作識別網(wǎng)絡(luò)

2024-11-30 00:00:00余翔連世龍
現(xiàn)代電子技術(shù) 2024年23期

摘" 要: 在基于骨骼的動作識別任務(wù)中,骨骼點(diǎn)特征對于動作識別來說至關(guān)重要。針對現(xiàn)有方法存在輸入特征不足、特征融合策略粗糙、參數(shù)量大等問題,提出一種基于人體骨骼點(diǎn)的雙流跨級特征融合網(wǎng)絡(luò)。首先,針對特征輸入,用歐氏距離骨架特征(EDSF)和余弦角度骨架特征(CASF)兩種局部關(guān)節(jié)特征來表征人體骨骼序列,幫助網(wǎng)絡(luò)識別不同體態(tài)和體態(tài)相似的人體動作;其次,考慮到部分動作類別的運(yùn)動軌跡與全局運(yùn)動的相關(guān)性,引入全局運(yùn)動特征(GMF)彌補(bǔ)局部關(guān)節(jié)特征在此類動作上識別精度不足的問題;此外,為了加強(qiáng)不同特征之間的信息交互,提出一種跨級特征融合模塊(CLFF),對不同特征層、不同屬性的動作特征進(jìn)行特征互補(bǔ),豐富了網(wǎng)絡(luò)的特征形式;最后,網(wǎng)絡(luò)采用一維卷積(Conv1D)進(jìn)行搭建,減輕了模型的計(jì)算負(fù)擔(dān)。實(shí)驗(yàn)結(jié)果表明,所提模型在JHMDB身體動作數(shù)據(jù)集上獲得了84.1%的識別準(zhǔn)確率,在SHREC手勢動作數(shù)據(jù)集上分別獲得了97.4%(粗糙數(shù)據(jù)集)和95%(精確數(shù)據(jù)集)的識別準(zhǔn)確率,取得了與先進(jìn)方法相當(dāng)?shù)男阅堋?/p>

關(guān)鍵詞: 動作識別; 骨架特征; 運(yùn)動軌跡; 局部關(guān)節(jié)特征; 全局運(yùn)動特征; 跨級特征融合

中圖分類號: TN911.73?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)23?0081?08

DCFF?Net: Dual?stream cross?level feature fusion network

for skeleton?based action recognition

YU Xiang, LIAN Shilong

(School of Communications and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)

Abstract: In the skeleton?based action recognition task, skeleton features are crucial for action recognition. In view of the insufficient input features, rough feature fusion strategies, and a large number of parameters in the existing methods, a dual?stream cross?level feature fusion network (DCFF?Net) based on skeleton is proposed. For feature input, two local joint features, Euclidean distance skeleton features (EDSF) and cosine angle skeleton features (CASF), are used to characterize the human skeleton sequence to help the network identify human body movements in different postures and similar postures. Considering the correlation between the motion trajectories of some action categories and global motion, global motion features (GMF) are introduced to make up for the lack of recognition accuracy of local joint features in such actions. In addition, in order to strengthen the information interaction among different features, a cross?level feature fusion (CLFF) module is proposed to complement the action features of different feature layers and different attributes, which enriches the characteristics of the network form. The network is built with Conv1D, which reduces the computational burden of the model. Experimental results show that the proposed model achieves a recognition accuracy of 84.1% on the body action dataset JHMDB and 97.4% (coarse dataset) and 95% (fine dataset) on the gesture action dataset SHREC. To sum up, the proposed network achieves the performance comparable to the advanced methods.

Keywords: action recognition; skeleton feature; motion trajectory; local joint feature; global motion feature; cross?level feature fusion

0" 引" 言

人體動作識別是計(jì)算機(jī)視覺領(lǐng)域的熱門研究方向之一,在人機(jī)交互、醫(yī)療康復(fù)、智能監(jiān)控等領(lǐng)域應(yīng)用廣泛[1?4]。對于人體動作識別任務(wù),有不同的數(shù)據(jù)輸入模態(tài),主要包括RGB視頻、人體骨架序列、深度圖等[5?9]。相較于RGB視頻和深度圖序列,人體骨骼點(diǎn)數(shù)據(jù)只包含人體的動作姿態(tài)信息,具有數(shù)據(jù)量少、復(fù)雜度低、不易受背景光照影響等特點(diǎn),更加符合人體動作在運(yùn)動中的實(shí)際變化[10]。此外,人體骨骼點(diǎn)數(shù)據(jù)可以減少隱私泄露。因此,基于人體骨骼點(diǎn)的動作識別方法受到了越來越多學(xué)者的關(guān)注。

目前,基于骨骼點(diǎn)的動作識別任務(wù)還存在著以下挑戰(zhàn)。

1) 人體骨骼點(diǎn)數(shù)據(jù)量大且存在冗余信息,現(xiàn)有的方法對于骨骼點(diǎn)特征的表征十分單一,有些只關(guān)注到了局部關(guān)節(jié)特征,而有些只關(guān)注到了全局運(yùn)動特征(Global Motion Feature, GMF)。所以如何從大量冗余數(shù)據(jù)中找出理想的骨骼點(diǎn)表征形式顯得尤為重要。

2) 現(xiàn)有的動作識別方法不能同時兼顧輕量化和準(zhǔn)確率兩項(xiàng)指標(biāo),所以要探索構(gòu)建出最適合提取骨骼點(diǎn)特征的學(xué)習(xí)網(wǎng)絡(luò),同時保證網(wǎng)絡(luò)的參數(shù)量和復(fù)雜度較低,來實(shí)現(xiàn)高準(zhǔn)確率、強(qiáng)魯棒性的輕量化識別模型。

針對以上問題,受到文獻(xiàn)[11]的啟發(fā),本文提出了一種基于人體骨骼點(diǎn)的雙流跨級特征融合動作識別網(wǎng)絡(luò)(DCFF?Net),主要研究如下。

1) 引入了雙流特征輸入,將局部關(guān)節(jié)特征和全局運(yùn)動特征同時輸入到網(wǎng)絡(luò),以增加網(wǎng)絡(luò)對于不同動作和相似動作的識別準(zhǔn)確率,并且提升網(wǎng)絡(luò)的魯棒性。

2) 提出了一種跨級特征融合模塊(Cross?level Feature Fusion, CLFF),將局部特征和全局特征進(jìn)行跨級融合,增加不同層級特征之間的信息交互,幫助網(wǎng)絡(luò)獲取不同特征之間的細(xì)節(jié)信息。

3) 網(wǎng)絡(luò)整體采用一維卷積進(jìn)行搭建,大大減少了模型的參數(shù)量和復(fù)雜度。

4) 在JHMDB和SHREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法滿足輕量化的應(yīng)用要求,取得了與先進(jìn)方法相當(dāng)?shù)男阅堋?/p>

1" 雙流跨級特征融合網(wǎng)絡(luò)

1.1" 總體架構(gòu)

網(wǎng)絡(luò)整體由特征輸入、特征提取、特征融合三部分構(gòu)成,如圖1所示。在特征輸入部分,總共有四種特征輸入流,分別為歐氏距離骨架特征(Euclidean Distance Skeleton Feature, EDSF)、余弦角度骨架特征(Cosine Angle Skeleton Feature, CASF)、全局慢速動作特征(GSMF)、全局快速動作特征(GFMF)。對于EDSF、CASF、GSMF特征,幀數(shù)設(shè)置為32幀,而GFMF特征幀數(shù)設(shè)置為16幀,然后將他們分別輸入特征提取器網(wǎng)絡(luò)中的長幀特征提取模塊(LFFE)和短幀特征提取模塊(SFFE),接著通過Concat操作拼接四種不同的特征,送入特征融合網(wǎng)絡(luò)。在特征融合階段,將LFFE和SFFE模塊提取的各級骨骼點(diǎn)特征通過CLFF模塊與Concat之后的各級特征進(jìn)行逐層融合,最后經(jīng)過全局平均池化層和全連接層輸出識別結(jié)果。

1.2" 雙流特征輸入

1.2.1" 局部關(guān)節(jié)特征

人體局部關(guān)節(jié)點(diǎn)之間的特征也稱為位置視點(diǎn)不變特征。在人體運(yùn)動的過程中,相鄰關(guān)節(jié)點(diǎn)之間的聯(lián)系是非常緊密的。如圖2所示,當(dāng)人體骨架序列進(jìn)行翻轉(zhuǎn)或者旋轉(zhuǎn)時,關(guān)節(jié)點(diǎn)的坐標(biāo)發(fā)生了改變,而關(guān)節(jié)點(diǎn)之間的距離和角度其實(shí)是沒有發(fā)生改變的,這種特征具有位置視點(diǎn)不變性,能夠很好地表征關(guān)節(jié)點(diǎn)之間的局部特征關(guān)系。

將第[k]幀、第[n]個關(guān)節(jié)點(diǎn)的2D坐標(biāo)表示為[Jkn=x,y],同理,關(guān)節(jié)點(diǎn)的3D坐標(biāo)表示為[Jkn=x,y,z],那么第[k]幀所有關(guān)節(jié)點(diǎn)的集合表示為[Sk=Jk1,Jk2,…,Jkn]。

通過歐氏距離公式表示任意兩個關(guān)節(jié)點(diǎn)之間的距離,并將其轉(zhuǎn)化為下三角矩陣的形式,那么第[k]幀的EDSF可以用如下矩陣表示:

[EDSFk=Jk1Jk2??Jk1JkN…JkNJkN] (1)

式中:[JkiJkji≠j]表示關(guān)節(jié)點(diǎn)[i]到關(guān)節(jié)點(diǎn)[j]的歐氏距離,[k]代表第[k]幀,每個動作由32幀組成;[N]代表每幀的關(guān)節(jié)點(diǎn)個數(shù)。

CASF特征的引入主要是因?yàn)樵诓煌臄?shù)據(jù)集中,對于一些體態(tài)相似的動作,EDSF特征無法達(dá)到很好的識別性能。為了進(jìn)一步論證EDSF特征存在的問題,分析了JHMDB數(shù)據(jù)集中不同動作的視頻幀。圖3a)、圖3b)展示了數(shù)據(jù)集中撿和坐這兩個動作,發(fā)現(xiàn)這兩個動作在運(yùn)動過程中都會出現(xiàn)一個彎腰的狀態(tài),而這種情況就會對網(wǎng)絡(luò)的識別造成干擾。為了更加清晰地分析這兩個動作,將其通過2D關(guān)節(jié)點(diǎn)序列進(jìn)行表征。從圖3c)、圖3d)可以發(fā)現(xiàn)兩個動作的EDSF特征是相近的,但是這兩個動作在彎腰時人體臀腿之間的關(guān)節(jié)角度卻是不一樣的。由此可見,對于相似的動作,EDSF特征不能很好地幫助網(wǎng)絡(luò)進(jìn)行識別,反而會成為噪聲干擾因素。因此,在網(wǎng)絡(luò)中引入余弦角度骨架特征,幫助網(wǎng)絡(luò)區(qū)分體態(tài)相似的動作類別。

在獲得了關(guān)節(jié)點(diǎn)的坐標(biāo)向量之后,先計(jì)算坐標(biāo)向量之間的余弦相似度,然后使用反余弦函數(shù)來計(jì)算兩個關(guān)節(jié)點(diǎn)之間的角度。第[k]幀兩個關(guān)節(jié)點(diǎn)之間的角度可以用如下公式計(jì)算:

[Angle(Jki,Jkj)=DegreearccosJki?JkjJkiJkj] (2)

式中:[Degree(Jki,Jkj)]表示求兩個關(guān)節(jié)點(diǎn)之間的角度;arccos為反余弦函數(shù);[Jki?JkjJkiJkj]表示求兩個關(guān)節(jié)點(diǎn)向量之間的余弦相似度。

利用[Angle(Jki,Jkj)]求得關(guān)節(jié)點(diǎn)之間的角度后,再將其轉(zhuǎn)化為上三角形矩陣的形式。第[k]幀的CASF表示為如下矩陣:

[CASFk=AngleJk1,Jk2…AngleJk1,JkN??AngleJkN,JkN] (3)

同時,為了將兩種特征進(jìn)行充分融合,將兩個特征矩陣進(jìn)行拼接,最終得到如下的特征矩陣形式:

[Feature Matrix=……AngleJk1,JkN-1AngleJk1,JkN???AngleJk2,JkNJkN-1Jk1…??JkNJk1JkNJk2……] (4)

1.2.2" 全局運(yùn)動特征

局部關(guān)節(jié)特征使得網(wǎng)絡(luò)具備了位置視點(diǎn)不變特性,但是只在網(wǎng)絡(luò)中加入這種特征是單一且不充分的。如圖4所示,當(dāng)在做揮手這個動作時,手部的各個關(guān)節(jié)點(diǎn)之間的局部特征并沒有發(fā)生變化,相反整個手的關(guān)節(jié)點(diǎn)坐標(biāo)發(fā)生了改變。所以,當(dāng)動作涉及到全局的運(yùn)動軌跡時,僅僅靠局部關(guān)節(jié)特征是不夠的。通過計(jì)算動作幀之間的時間間隔來表征全局運(yùn)動,同時,通過取不同的幀間隔將全局運(yùn)動特征細(xì)分為GFMF特征和GSMF特征。全局運(yùn)動特征可以通過下面的公式計(jì)算得到。

[GFMFk=JCk+2-JCk," " k∈{1,3,…,k-2}GSMFk=JCk+1-JCk," " k∈{1,2,…,k-1}] (5)

式中:[k]代表第[k]幀;JC表示每幀關(guān)節(jié)點(diǎn)的笛卡爾坐標(biāo)。

1.3" 跨級特征融合模塊

雖然在網(wǎng)絡(luò)中同時引入了局部關(guān)節(jié)特征和全局運(yùn)動特征,但是多特征的輸入形式需要有效的特征融合結(jié)構(gòu)對不同特征進(jìn)行信息交互。現(xiàn)有的一些文獻(xiàn)采用特征串聯(lián)或者是簡單地將特征在最后一層進(jìn)行相連,但是這些方法的融合操作較為粗糙,不能充分挖掘不同層級和不同特征之間的特征信息。由此,設(shè)計(jì)了一種跨級特征融合模塊(CLFF),使用跳躍方式連接不同層級之間的特征,這種方式不僅加強(qiáng)了網(wǎng)絡(luò)對于不同關(guān)節(jié)特征的捕捉能力,同時也能將淺層特征和深層特征進(jìn)行有效地融合,讓網(wǎng)絡(luò)學(xué)習(xí)到更加復(fù)雜的特征表達(dá)。對于局部關(guān)節(jié)特征EDSF和CASF與全局運(yùn)動特征GFMF和GSMF分別設(shè)計(jì)了兩個CLFF模塊,每一個CLFF模塊都是由三個卷積塊組成,每一個卷積塊又分別由一維卷積(Conv1D)、批歸一化層(BN)、激活函數(shù)(LeakyReLU)、Dropout函數(shù)、最大池化層(MaxPooling)組成,如圖5所示。

網(wǎng)絡(luò)中特征輸入形式為[(B,C,N)],其中[B]為batch_size,[C]為特征幀數(shù),默認(rèn)為32,[N]代表特征維度,對于JHMDB和SHREC這兩種不同的數(shù)據(jù)集,[N]分別為105和231。CLFF模塊中的三個卷積塊分別對應(yīng)LFFE模塊和SFFE模塊的三個卷積塊,每個卷積塊都將進(jìn)行一次跨級特征融合操作,分別與特征融合階段的各層級特征進(jìn)行融合。LFFE和SFFE模塊內(nèi)部網(wǎng)絡(luò)構(gòu)成如圖6所示。從圖6中可以看到,網(wǎng)絡(luò)中的長短幀特征提取模塊LFFE和SFFE都包含了三個一維卷積塊,主要的不同在于LFFE模塊增加了一個MaxPooling層,以保證兩個特征提取通道的特征保持相同的幀數(shù),以進(jìn)行后續(xù)的Concat操作。CLFF模塊中的最大池化層MaxPooling的作用主要是為了設(shè)置不同層級特征的通道數(shù),方便進(jìn)行特征融合。對于EDSF和CASF,CLFF模塊中的MaxPooling的步長分別設(shè)置為4、8、4,對于GFMF和GSMF特征,MaxPooling的步長設(shè)置為2、4、4。對于EDSF和CASF,CLFF模塊的處理過程表示為:

[EmBed1(EDSF,CASF)→EmBed2(EDSF,CASF)→EmBed1(EDSF,CASF)] (6)

對于GFMF和GSMF特征,CLFF模塊的處理過程表示為:

[EmBed1(GFMF,GSMF)→EmBed2(GFMF,GSMF)→EmBed1(GFMF,GSMF)] (7)

[EmBed1]和[EmBed2]的定義如下所示:

[EmBed1=MLRBNConv1D(1,x)EmBed2=MLRBNConv1D(3,x)] (8)

式中:數(shù)字1和3代表一維卷積核的大小。

2" 實(shí)驗(yàn)結(jié)果與分析

2.1" 數(shù)據(jù)集

JHMDB數(shù)據(jù)集[12]是對HMDB51數(shù)據(jù)集[13]的二次標(biāo)注。JHMDB從HMDB51中提取了21個動作類別的928個視頻剪輯,其中每個動作類別包含36~55個視頻剪輯,每個視頻剪輯包含15~40幀。本文選取JHMDB數(shù)據(jù)集中的14個動作類別,并且只使用2D關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行動作識別。

SHREC數(shù)據(jù)集[14]是一個關(guān)于手勢識別的數(shù)據(jù)集,考慮到手運(yùn)動和手形狀變化的差異,數(shù)據(jù)集根據(jù)手勢使用手指的數(shù)量細(xì)分為14個手勢類別的粗糙數(shù)據(jù)集(Coarse Datasets)和28個手勢類別的精確數(shù)據(jù)集(Fine Datasets)。對于該數(shù)據(jù)集,按照官方[11]的樣本劃分規(guī)則,將1 960段序列樣本作為訓(xùn)練集,840段序列樣本用作測試集。

2.2" 實(shí)驗(yàn)設(shè)置

本文所有實(shí)驗(yàn)均在PyTorch框架上進(jìn)行,使用Python 3.9和CUDA 11.7。GPU為NVIDIA" RTX" A5000 24 GB顯存,CPU為Intel[?] CoreTM i9?13900K。選用Adam優(yōu)化器計(jì)算移動平均梯度和移動平均平方梯度,其中,[β1]和[β2]兩個參數(shù)用于控制兩個指數(shù)加權(quán)平均的衰減率,分別設(shè)置為[β1]=0.9,[β2]=0.999。對于輸入的骨架序列,設(shè)置為32幀。對于超參數(shù),設(shè)置初始學(xué)習(xí)率為0.002,epoch為600,batch_size為512。

2.3" 消融實(shí)驗(yàn)

2.3.1" 雙流特征輸入的有效性實(shí)驗(yàn)

為了驗(yàn)證雙流特征輸入的有效性,在網(wǎng)絡(luò)中依次加入局部關(guān)節(jié)特征和全局運(yùn)動特征,觀察單個動作類別準(zhǔn)確率的變化,結(jié)果如表1、表2所示。表1顯示了JHMDB數(shù)據(jù)集的部分單個動作的識別率,這些動作涉及到了局部關(guān)節(jié)運(yùn)動以及全局運(yùn)動。引入EDSF特征,此時揮手、坐、撿等動作的識別準(zhǔn)確率較低。在EDSF特征的基礎(chǔ)上,引入全局運(yùn)動特征,揮手這個動作的識別準(zhǔn)確率有一定程度上的提高,對于涉及全局運(yùn)動軌跡的動作,如跳躍、引體向上,識別準(zhǔn)確率都得到了提高,這說明全局運(yùn)動特征能夠更好地表征此類動作特征。在網(wǎng)絡(luò)中引入CASF特征,發(fā)現(xiàn)對于坐和撿這兩種體態(tài)相似的動作,網(wǎng)絡(luò)的識別準(zhǔn)確率有大幅度的提升,這也驗(yàn)證了CASF特征能夠彌補(bǔ)EDSF特征的不足,幫助網(wǎng)絡(luò)識別區(qū)分容易混淆的動作,增強(qiáng)網(wǎng)絡(luò)的識別能力。

表2展示了網(wǎng)絡(luò)在SHREC數(shù)據(jù)集14個手勢類別上的識別結(jié)果,當(dāng)網(wǎng)絡(luò)中只有單一的局部特征時,一些手勢動作的識別準(zhǔn)確率并不理想,當(dāng)網(wǎng)絡(luò)中引入全局運(yùn)動特征后,部分手勢動作的識別準(zhǔn)確率得到了明顯的提高,這說明對于基于關(guān)節(jié)點(diǎn)的動作識別來說,局部關(guān)節(jié)特征和全局運(yùn)動特征能夠相互彌補(bǔ)特征不足,相比于單通道的特征輸入,雙流特征輸入有利于后期網(wǎng)絡(luò)的特征提取和融合。

2.3.2" CLFF模塊的有效性實(shí)驗(yàn)

本文總共進(jìn)行兩組實(shí)驗(yàn)來驗(yàn)證本文模塊的有效性。在本組實(shí)驗(yàn)中,默認(rèn)在網(wǎng)絡(luò)中引入了局部關(guān)節(jié)特征與全局運(yùn)動特征,實(shí)驗(yàn)結(jié)果如表3、表4所示。

第一組實(shí)驗(yàn),首先改變CLFF模塊的層數(shù),來研究CLFF模塊深度對網(wǎng)絡(luò)性能的影響。CLFF模塊的基本層數(shù)分別設(shè)置為1、2、3。從表3、表4中可以看到,在JHMDB和SHREC兩個數(shù)據(jù)集上,隨著層數(shù)的增加,DCFF?Net的識別準(zhǔn)確率在穩(wěn)步提高,在[L]=3時達(dá)到飽和,同時網(wǎng)絡(luò)整體的參數(shù)量也在隨之而增加。從中可以看出,CLFF模塊能夠起到融合不同層級間特征的作用,對網(wǎng)絡(luò)的識別性能有積極的正向作用。因?yàn)閇L]=3時網(wǎng)絡(luò)的識別性能最好,并且參數(shù)量只有一定范圍的增長,所以在實(shí)驗(yàn)中選擇[L]=3。

第二組實(shí)驗(yàn),為了驗(yàn)證所提出的跨級特征融合模塊的有效性,比較了三種不同的特征融合策略,結(jié)果如表5所示。其中,網(wǎng)絡(luò)的表示如下:

1) DCFF?NetLocal表示只對局部關(guān)節(jié)特征進(jìn)行跨級特征融合;

2) DCFF?NetGlobal表示只對全局運(yùn)動特征進(jìn)行跨級特征融合;

3) DCFF?NetAll表示對兩種特征進(jìn)行跨級特征融合。

從表5中可以看到,DCFF?NetAll的識別性能優(yōu)于其他兩種融合策略,這說明了只融合局部關(guān)節(jié)特征或者是全局運(yùn)動特征并不能達(dá)到最理想的識別性能,而本文所提出的特征融合結(jié)構(gòu)是最有效的。同時也證明了在基于人體骨骼點(diǎn)的動作識別任務(wù)中,局部關(guān)節(jié)特征和全局運(yùn)動特征給網(wǎng)絡(luò)帶來的信息是同等重要的。CLFF模塊通過將不同層級之間不同維度的特征進(jìn)行跨級融合,從而能夠更好地挖掘局部與全局特征之間的互補(bǔ)特征,幫助網(wǎng)絡(luò)區(qū)分不同和形似的動作形態(tài)。

2.4" 與先進(jìn)方法的比較實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文提出方法的優(yōu)越性,在JHMDB、SHREC數(shù)據(jù)集上將所提出的方法與一些經(jīng)典方法以及先進(jìn)的動作識別方法進(jìn)行比較,其中包含了基于CNN網(wǎng)絡(luò)的方法、基于GCN網(wǎng)絡(luò)的方法和基于RNN網(wǎng)絡(luò)的方法,使用這些方法在其原始論文中報告的精度。表6、表7顯示了在兩個數(shù)據(jù)集上的識別準(zhǔn)確率比較結(jié)果。其中:R、F、P、H、S、C分別代表RGB?Images、Optical Flow、Pose、Heat Maps、Skeleton and Point Clouds;“—”表示論文沒有提供相應(yīng)的結(jié)果。

如表6所示,在JHMDB數(shù)據(jù)集上,本文提出的方法的識別準(zhǔn)確率達(dá)到了84.1%,優(yōu)于現(xiàn)有的方法,達(dá)到了最好的識別性能。與經(jīng)典的動作識別方法PoTion[16]和Chained Net[15]相比,識別準(zhǔn)確率分別提升了16.2%和27.3%,從中可以看出本文所提出的方法相比于經(jīng)典的人體骨骼點(diǎn)識別方法具有優(yōu)越性。與DD?Net[11]相比,雖在參數(shù)量上有0.2×106參數(shù)量的增加,但是在識別精度上卻提升了6.9%。DD?Net在網(wǎng)絡(luò)結(jié)構(gòu)上沒有使用特征融合策略,忽視了不同層級之間的特征交互。如表7所示,在SHREC數(shù)據(jù)集上,對于14 Gestures類別,本文方法的識別準(zhǔn)確率為97.4%,超越了先進(jìn)方法PSUMNet[25]和MS?ISTGCN[26]。DSTANet[21]在識別性能上與本文方法相當(dāng),但是其采用的網(wǎng)絡(luò)完全基于自注意力機(jī)制,忽略了骨骼數(shù)據(jù)在時間和空間上的維度信息。雖然其提出了解耦方法來平衡骨骼點(diǎn)序列的時間與空間的獨(dú)立性,但是這也使得網(wǎng)絡(luò)產(chǎn)生了更多的參數(shù)量。對于28 Gestures類別,TD?GCN[27]略微優(yōu)于本文的方法,原因主要是前者采用時間相關(guān)的鄰接矩陣來學(xué)習(xí)人體骨架的拓?fù)浣Y(jié)構(gòu),并且此方法使用的GCN網(wǎng)絡(luò)能夠從時間和空間上提取特征,而本文方法基于CNN網(wǎng)絡(luò),缺乏在時間維度上的特征提取能力。

3" 結(jié)" 語

本文提出一種基于人體骨骼點(diǎn)的雙流跨級特征融合動作識別網(wǎng)絡(luò)(DCFF?Net)。首先,在網(wǎng)絡(luò)特征輸入部分引入了雙流特征輸入,將局部關(guān)節(jié)特征和全局運(yùn)動特征進(jìn)行融合,幫助網(wǎng)絡(luò)區(qū)分不同動作和體態(tài)相近的動作,增強(qiáng)了網(wǎng)絡(luò)的魯棒性;其次,在網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計(jì)了一種跨級特征融合模塊(CLFF)來構(gòu)建不同層級之間的特征信息交互,使得網(wǎng)絡(luò)能夠獲取更多有用的人體骨骼點(diǎn)信息。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在基于人體骨骼點(diǎn)的動作識別任務(wù)中取得了與先進(jìn)方法相當(dāng)?shù)淖R別性能,網(wǎng)絡(luò)的參數(shù)量也較少。但本文方法對于一些復(fù)雜相近動作特征的區(qū)分能力不是很強(qiáng),所以在未來的工作中,將嘗試加入更多的附加特征信息如RGB圖像、熱力圖等,幫助網(wǎng)絡(luò)獲取更多的特征信息,并進(jìn)一步研究適用于人體結(jié)構(gòu)特征的網(wǎng)絡(luò)結(jié)構(gòu)。

注:本文通訊作者為連世龍。

參考文獻(xiàn)

[1] DUAN H D, ZHAO Y, CHEN K, et al. Revisiting skeleton?based action recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 2959?2968.

[2] ZHENG H, ZHANG B, LIN J, et al. A two?stage modality fusion approach for recognizing human actions [J]. IEEE sensors journal, 2023(22): 23.

[3] XIN W T, LIU R Y, LIU Y, et al. Transformer for skeleton?based action recognition: A review of recent advances [J]. Neurocomputing, 2023, 537: 164?186.

[4] KE L, PENG K C, Lü S. Towards To?a?T spatio?temporal focus for skeleton?based action recognition [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.: s.n.], 2022: 1131?1139.

[5] ZHEN R, SONG W C, HE Q, et al. Human?computer interaction system: A survey of talking?head generation [J]. Electronics, 2023, 12(1): 218.

[6] SINGH K, DHIMAN C, VISHWAKARMA D K, et al. A sparse coded composite descriptor for human activity recognition [J]. Expert systems, 2022, 39(1): e12805.

[7] 黃鎮(zhèn).基于深度學(xué)習(xí)的高效動作識別算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2022.

[8] YOON Y, YU J, JEON M. Predictively encoded graph convolutional network for noise?robust skeleton?based action recognition [J]. Applied intelligence, 2022(3): 2317?2331.

[9] SáNCHEZ?CABALLERO A, FUENTES?JIMéNEZ D, LOSADA?GUTIéRREZ C. Real?time human action recognition using raw depth video?based recurrent neural networks [J]. Multimedia tools and applications, 2023, 82(11): 16213?16235.

[10] WANG C L, YAN J J. A comprehensive survey of RGB?based and skeleton?based human action recognition [J]. IEEE access, 2023, 11: 53880?53898.

[11] YANG F, WU Y, SAKTI S, et al. Make skeleton?based action recognition model smaller, faster and better [C]// Proceedings of the 1st ACM International Conference on Multimedia in Asia. New York: ACM, 2019: 1?6.

[12] GHORBANI S, MAHDAVIANI K, THALER A, et al. MoVi: A large multipurpose motion and video dataset [J]. Plos one, 2021, 16(6): e0253157.

[13] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB51: A large video database for human motion recognition [C]// 2011 International Conference on Computer Vision. [S.l.: s.n.], 2011: 2556?2563.

[14] LI C K, LI S, GAO Y B, et al. A two?stream neural network for pose?based hand gesture recognition [J]. IEEE transactions on cognitive and developmental systems, 2022, 14(4): 1594?1603.

[15] ZOLFAGHARI M, OLIVEIRA G L, SEDAGHAT N, et al. Chained multi?stream networks exploiting pose, motion, and appearance for action classification and detection [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2923?2932.

[16] CHOUTAS V, WEINZAEPFEL P, REVAUD J, et al. Potion: Pose moTion representation for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7024?7033.

[17] ASGHARI?ESFEDEN S, SZNAIER M, CAMPS O I. Dynamic motion representation for human action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 546?555.

[18] LUDL D, GULDE T, CURIO C. Simple yet efficient real?time pose?based action recognition [C]// 2019 IEEE Intelligent Transportation Systems Conference (ITSC). New York: IEEE, 2019: 581?588.

[19] SHAH A, MISHRA S, BANSAL A, et al. Pose and joint?aware action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2022: 141?151.

[20] MIN Y C, ZHANG Y X, CHAI X J, et al. An efficient PointLSTM for point clouds based gesture recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5760?5769.

[21] SHI L, ZHANG Y, CHENG J, et al. Decoupled spatial?temporal attention network for skeleton?based action?gesture recognition [C]// Proceedings of the Asian Conference on Computer Vision. Heidelberg: Springer, 2020: 38?53.

[22] SHIN S, KIM W Y. Skeleton?based dynamic hand gesture recognition using a part?based GRU?RNN for gesture?based interface [J]. IEEE access, 2020, 8: 50236?50243.

[23] LIU J B, LIU Y C, WANG Y, et al. Decoupled representation learning for skeleton?based gesture recognition [C]// Procee?dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5750?5759.

[24] SABATER A, ALONSO I, MONTESANO L, et al. Domain and view?point agnostic hand action recognition [J]. IEEE robotics and automation letters, 2021, 6(4): 7823?7830.

[25] TRIVEDI N, SARVADEVABHATLA R K. PSUMNet: Unified modality part streams are all you need for efficient pose?based action recognition [C]// European Conference on Computer Vision. Heidelberg: Springer, 2022: 211?227.

[26] SONG J H, KONG K, KANG S J. Dynamic hand gesture recognition using improved spatio?temporal graph convolutional network [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(9): 6227?6239.

[27] LIU J F, WANG X S, WANG C, et al. Temporal decoupling graph convolutional network for skeleton?based gesture recognition [J]. IEEE transactions on multimedia, 2023, 26: 811?823.

作者簡介:余" 翔(1969—),男,重慶人,碩士研究生,教授,研究方向?yàn)橛?jì)算機(jī)視覺、人工智能、移動邊緣計(jì)算等。

連世龍(2000—),男,江蘇南京人,碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺。

主站蜘蛛池模板: 青青青国产免费线在| 99re视频在线| 中国一级毛片免费观看| 亚洲无线一二三四区男男| 91久久夜色精品国产网站| 综合色区亚洲熟妇在线| 亚洲狼网站狼狼鲁亚洲下载| 日本黄网在线观看| 国产h视频免费观看| 婷婷色在线视频| 国产精品无码久久久久AV| 精品国产美女福到在线直播| 亚洲无限乱码| 欧美精品黑人粗大| 国产系列在线| 麻豆精品久久久久久久99蜜桃| 婷婷午夜天| 中文字幕丝袜一区二区| 日本午夜在线视频| 久久夜色撩人精品国产| 草逼视频国产| 国产精品网拍在线| 亚洲六月丁香六月婷婷蜜芽| 2021精品国产自在现线看| 亚洲精品无码久久毛片波多野吉| 国产精女同一区二区三区久| 亚洲国产看片基地久久1024| 亚洲综合久久成人AV| 国产午夜福利在线小视频| 麻豆精品在线| 国产欧美在线观看一区| 国产自在线拍| 日韩欧美中文字幕在线精品| 成人免费视频一区二区三区| 国产麻豆另类AV| 三上悠亚精品二区在线观看| 影音先锋丝袜制服| 91系列在线观看| 日韩在线影院| 亚洲熟女中文字幕男人总站| 日韩av在线直播| 国产乱子伦无码精品小说| 欧美色香蕉| 日韩精品欧美国产在线| 浮力影院国产第一页| 99精品福利视频| 99精品视频在线观看免费播放| 国产办公室秘书无码精品| 免费观看男人免费桶女人视频| 国产鲁鲁视频在线观看| 国产久草视频| 欧美精品啪啪| 国产欧美日韩精品第二区| 最新国产成人剧情在线播放| 好吊色妇女免费视频免费| 麻豆精品在线| 国产精品浪潮Av| 中文字幕在线播放不卡| 尤物午夜福利视频| 亚洲人成网站在线播放2019| 91精品国产无线乱码在线| 国产亚洲美日韩AV中文字幕无码成人| 2020久久国产综合精品swag| 国产成人精品免费av| 欧美日韩国产综合视频在线观看| 67194在线午夜亚洲| 久久www视频| 精品超清无码视频在线观看| 香蕉伊思人视频| 中文天堂在线视频| 四虎影视永久在线精品| 99热这里只有精品5| 亚洲综合久久一本伊一区| 国产国产人成免费视频77777 | 99精品高清在线播放| 欧美成人一区午夜福利在线| 欧美色伊人| 国产91视频免费观看| 综合亚洲网| 亚洲人成网址| 国产办公室秘书无码精品| 青青草一区|