曹 毅 劉 晨 盛永健 黃子龍 鄧小龍
①(江南大學(xué)機(jī)械工程學(xué)院 無錫 214122)
②(江南大學(xué)江蘇省食品制造裝備重點(diǎn)實(shí)驗(yàn)室 無錫 214122)
③(江蘇信息職業(yè)技術(shù)學(xué)院 無錫 214153)
骨架行為識(shí)別是通過提取骨架序列中的動(dòng)作特征,進(jìn)而實(shí)現(xiàn)對(duì)人體行為的理解與描述的方法。骨架行為識(shí)別是機(jī)器視覺領(lǐng)域的熱點(diǎn)研究方向之一,其可實(shí)現(xiàn)計(jì)算機(jī)準(zhǔn)確識(shí)別目標(biāo)對(duì)象的動(dòng)作,進(jìn)而分析視頻中人體的動(dòng)作,提高了計(jì)算機(jī)的動(dòng)態(tài)感知能力,因此骨架行為識(shí)別技術(shù)廣泛應(yīng)用于視頻監(jiān)控[1]、視頻理解[2,3]等領(lǐng)域。
針對(duì)骨架行為識(shí)別,國內(nèi)外學(xué)者分別基于卷積神經(jīng)網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)兩類方法開展了大量的理論與實(shí)驗(yàn)研究。其中,基于卷積神經(jīng)網(wǎng)絡(luò)[3–6],文獻(xiàn)[3]提出將骨架序列的時(shí)空信息編碼為彩色紋理圖像,并使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)行為的判別特征;文獻(xiàn)[4]將3維卷積引入骨架行為識(shí)別,通過3維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)深度圖序列的時(shí)空信息,并融合關(guān)節(jié)特征向量輸入的SVM分類結(jié)果,實(shí)現(xiàn)行為識(shí)別;文獻(xiàn)[5]將雙流結(jié)構(gòu)與3維卷積結(jié)合,提出了雙流3維卷積網(wǎng)絡(luò),并將骨架信息映射到3D坐標(biāo)空間進(jìn)行時(shí)空信息的編碼,實(shí)現(xiàn)了時(shí)空信息的提取。
基于圖卷積神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[7]融合圖卷積神經(jīng)網(wǎng)絡(luò)與時(shí)間卷積網(wǎng)絡(luò),提出了一種時(shí)空?qǐng)D卷積模型,以提取骨架序列的空間信息與時(shí)間信息;文獻(xiàn)[8]結(jié)合圖卷積與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),提出了一種圖卷積LSTM網(wǎng)絡(luò),通過圖卷積與LSTM網(wǎng)絡(luò),分別提取骨架序列中的空間信息與時(shí)間信息;為捕獲關(guān)節(jié)間更豐富的依賴關(guān)系,文獻(xiàn)[9]引入了一種編碼器-解碼器結(jié)構(gòu)以捕獲動(dòng)作的潛在依賴關(guān)系,并通過圖卷積與時(shí)間卷積分別學(xué)習(xí)空間與時(shí)間信息,實(shí)現(xiàn)了時(shí)空信息的提取。
基于上述,針對(duì)骨架行為識(shí)別國內(nèi)外諸多學(xué)者盡管開展了大量研究并取得了一定的研究成果[3–9],但不難發(fā)現(xiàn):(1) 3維卷積無法直接針對(duì)具有非歐式空間數(shù)據(jù)的3維骨架序列進(jìn)行時(shí)空信息的提取;(2) 圖卷積僅能提取空間信息,時(shí)空信息依賴圖卷積與LSTM(或時(shí)間卷積)分別進(jìn)行提取,且未考慮空間與時(shí)間信息間的關(guān)聯(lián)性;(3) 缺少對(duì)于特定關(guān)節(jié)的關(guān)注,無法聚焦重要的動(dòng)作信息。
針對(duì)上述問題,本文提出了一種基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型。本文首先介紹了3維卷積與圖卷積的具體工作原理;其次基于圖卷積中可處理變長(zhǎng)鄰居節(jié)點(diǎn)的圖卷積核,引入3維卷積的3維采樣空間將2維圖卷積核改進(jìn)為具有3維采樣空間的圖卷積核,提出了一種3維圖卷積方法;然后,為增強(qiáng)對(duì)于特定關(guān)節(jié)的關(guān)注,聚焦重要的動(dòng)作信息,設(shè)計(jì)了一種注意力增強(qiáng)結(jié)構(gòu);再者,結(jié)合3維圖卷積與注意力增強(qiáng)結(jié)構(gòu),構(gòu)建了基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型;最后,基于NTU-RGBD和MSR Action 3D骨架動(dòng)作數(shù)據(jù)集開展了骨架行為識(shí)別的研究。研究結(jié)果進(jìn)一步驗(yàn)證了本文提出的行為識(shí)別模型的時(shí)空信息的有效提取能力及優(yōu)秀的識(shí)別準(zhǔn)確率。
3維卷積的3維采樣空間由多個(gè)連續(xù)幀中相同位置的采樣區(qū)域構(gòu)成,其包含時(shí)間與空間2個(gè)維度。通過3維卷積核將多個(gè)連續(xù)幀中采樣區(qū)域的數(shù)據(jù)進(jìn)行堆疊求和生成多維數(shù)據(jù),從而實(shí)現(xiàn)了對(duì)3維采樣空間的卷積操作[10,11],如圖1所示。設(shè)3維卷積核的卷積核尺寸為[Pi, Qi, Ri],則第i層網(wǎng)絡(luò)中第j張?zhí)卣鲌D的(x, y, z)位置響應(yīng)可表示為

圖1 3維卷積的卷積操作

3維采樣通過將前一層輸出中多個(gè)連續(xù)幀進(jìn)行加權(quán)疊加,其不僅能采集空間信息,且能構(gòu)建當(dāng)前特征圖與前一層輸出中多個(gè)連續(xù)幀的連接,實(shí)現(xiàn)了多幀范圍內(nèi)時(shí)間信息的捕捉。因此,3維卷積不僅能同時(shí)實(shí)現(xiàn)空間與時(shí)間信息的采集,且能保留兩者的關(guān)聯(lián)性,故3維卷積可適用于連續(xù)動(dòng)作視頻幀序列等歐式空間內(nèi)3維序列型數(shù)據(jù)的時(shí)空特征采集。
圖卷積是學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的一種通用有效的方式。圖卷積通過可處理變長(zhǎng)鄰居節(jié)點(diǎn)的圖卷積核,將鄰居節(jié)點(diǎn)的隱藏狀態(tài)進(jìn)行加權(quán)求和,以此來聚合鄰居節(jié)點(diǎn)的信息,實(shí)現(xiàn)了圖結(jié)構(gòu)數(shù)據(jù)的卷積操作,提取了圖上信息[12]。因此,圖卷積能處理具有廣義拓?fù)浣Y(jié)構(gòu)的圖結(jié)構(gòu)數(shù)據(jù),故其廣泛運(yùn)用于骨架行為識(shí)別[2]和姿態(tài)估計(jì)[13]等領(lǐng)域。


其中,D表示A的度矩陣,a為A的元素用以判斷節(jié)點(diǎn)是否為存在連接的鄰居節(jié)點(diǎn),W表示圖卷積的權(quán)重矩陣,b表示偏置值,σ(·)表示非線性變化的激活函數(shù)。

圖2 圖卷積的卷積操作
3.1.1 3維圖卷積原理
骨架序列的空間結(jié)構(gòu)特征與時(shí)間特征能夠表述骨架序列中動(dòng)作的完整信息,且兩者之間存在關(guān)聯(lián)不可獨(dú)立分析。因此,為實(shí)現(xiàn)骨架序列中時(shí)空信息的有效提取,開展3維圖卷積方法的研究是非常有必要的。
值得指出的是,3維卷積中3維采樣空間為柵格化采樣,其僅適用于歐式空間內(nèi)3維序列型數(shù)據(jù)的特征采集,對(duì)于非歐式空間3維數(shù)據(jù)的采樣存在采樣空間中鄰居節(jié)點(diǎn)數(shù)量不固定的問題。因此,(1) 3維卷積無法針對(duì)具有非歐式空間3維數(shù)據(jù)的骨架序列進(jìn)行時(shí)空信息的提取;(2) 圖卷積通過可處理變長(zhǎng)鄰居節(jié)點(diǎn)的圖卷積核,其僅能實(shí)現(xiàn)圖上空間信息的提取。為提取骨架序列的時(shí)空信息,基于圖卷積中可處理變長(zhǎng)鄰居節(jié)點(diǎn)的圖卷積核,以3維卷積中的3維采樣空間為改進(jìn)思想,將2維圖卷積核改進(jìn)為具有3維采樣空間的圖卷積核,本文提出了一種3維圖卷積方法,其能有效提取非歐式空間內(nèi)3維骨架序列的時(shí)空信息。
3維圖卷積針對(duì)骨架序列的采樣操作中,3維采樣空間的鄰居節(jié)點(diǎn)既包含當(dāng)前幀內(nèi)與節(jié)點(diǎn)存在連接的鄰居節(jié)點(diǎn)也包含多個(gè)連續(xù)幀內(nèi)相同位置節(jié)點(diǎn)的鄰居節(jié)點(diǎn)。基于3維圖卷積核,通過3維采樣空間內(nèi)鄰居節(jié)點(diǎn)數(shù)據(jù)的加權(quán)堆疊求和來生成多維數(shù)據(jù),從而實(shí)現(xiàn)了骨架序列的3維圖卷積,有效提取了骨架序列的時(shí)空信息。如圖3所示,設(shè)3維采樣空間中有L張連續(xù)骨架幀,從第1幀到第L幀記作G0,G1,···,GL-1,則3維圖卷積的輸出結(jié)果可表示為


圖3 骨架序列中的3維圖卷積
值得注意的是,3維圖卷積在時(shí)間維度上采樣骨架序列中的連續(xù)L幀,在未進(jìn)行填充操作的情況下,每一次3維圖卷積操作將使骨架序列減少L–1幀的序列長(zhǎng)度。且基于padding填充操作,通過設(shè)置時(shí)間維度的采樣步長(zhǎng),3維圖卷積可實(shí)現(xiàn)倍率減少序列長(zhǎng)度。
3.1.2 3維圖卷積的有效性
骨架序列中3維采樣空間是3維圖卷積的核心,為證明3維圖卷積的有效性,開展了3維圖卷積與2維圖卷積提取骨架序列特征的差異性研究。
如圖4(a)所示,應(yīng)用于骨架序列的2維圖卷積僅輸出對(duì)應(yīng)當(dāng)前第T幀的單幀圖(式(4)),故每次圖卷積運(yùn)算僅處理當(dāng)前第T幀內(nèi)的空間信息,未對(duì)時(shí)間信息進(jìn)行提取[7],且2維圖卷積切斷了骨架幀間的時(shí)間關(guān)系,無法提取時(shí)空信息。

圖4 骨架序列中2維圖卷積與3維圖卷積的差異性

對(duì)比2維圖卷積,3維圖卷積(圖4(b))則通過采集當(dāng)前第T 幀的空間信息與第T 幀周圍L–1幀的時(shí)間信息(式(5)),保留了骨架幀間的時(shí)間關(guān)系,實(shí)現(xiàn)了時(shí)空信息的提取。通過將卷積層輸出特征圖與多個(gè)相鄰幀相連,既提取了空間信息又捕獲了時(shí)間信息[12]。其次,通過同時(shí)聯(lián)合空間信息與時(shí)間信息進(jìn)行提取,3維圖卷積解決了2維圖卷積與時(shí)間卷積網(wǎng)絡(luò)融合帶來的空間信息與時(shí)間信息關(guān)聯(lián)性被破壞的問題,保留了兩者的關(guān)聯(lián)性。本文將進(jìn)一步開展實(shí)驗(yàn),以驗(yàn)證3維圖卷積對(duì)比2維圖卷積的有效性。

由圖4(a)、圖4(b)與式(4)、式(5)的對(duì)比可知:(1) 2維圖卷積僅對(duì)單張骨架幀的空間信息進(jìn)行處理,由于其切斷了骨架幀間的時(shí)間關(guān)系,故無法提取時(shí)間信息;(2) 基于具有時(shí)間與空間兩個(gè)采樣維度的3維采樣空間,3維圖卷積通過添加聚合時(shí)間維度上相關(guān)的鄰居節(jié)點(diǎn)信息,既提取了骨架序列間的時(shí)間信息,又提取了空間信息,實(shí)現(xiàn)了時(shí)空信息的有效提取,且保留了空間與時(shí)間信息的相關(guān)性。
綜上所述,針對(duì)具有非歐式空間3維數(shù)據(jù)的骨架序列,基于3維采樣空間,3維圖卷積通過聚合空間與時(shí)間維度上的鄰居節(jié)點(diǎn)信息,實(shí)現(xiàn)了骨架序列中時(shí)空信息的有效提取。
骨架行為識(shí)別中動(dòng)作的大部分動(dòng)作信息可由少數(shù)關(guān)節(jié)表示,如揮手的大部分動(dòng)作信息可由肩、肘、腕3個(gè)關(guān)節(jié)表示,故聚焦特定關(guān)節(jié)能一定程度提升骨架行為的識(shí)別準(zhǔn)確率。
3維圖卷積的輸入特征中各個(gè)關(guān)節(jié)的權(quán)重均一致,針對(duì)特定動(dòng)作其存在缺乏對(duì)于特定關(guān)節(jié)關(guān)注的問題。注意力機(jī)制通過注意力矩陣表示骨架序列中各關(guān)節(jié)對(duì)應(yīng)的注意力權(quán)重并加權(quán)輸入模型,實(shí)現(xiàn)了針對(duì)特定關(guān)節(jié)的關(guān)注[14]。基于上述,為解決3維圖卷積缺乏對(duì)于特定關(guān)節(jié)關(guān)注的問題,本文設(shè)計(jì)了一種注意力增強(qiáng)結(jié)構(gòu)。其不僅能增強(qiáng)對(duì)于特定關(guān)節(jié)的關(guān)注,且不削弱非關(guān)注關(guān)節(jié)點(diǎn)的信息,如圖5所示。

圖5 注意力增強(qiáng)結(jié)構(gòu)示意圖
注意力增強(qiáng)結(jié)構(gòu)首先通過計(jì)算關(guān)節(jié)相似性度權(quán)重系數(shù),求解生成中間特征,然后利用兩層感知機(jī),實(shí)現(xiàn)骨架序列中關(guān)節(jié)權(quán)重分布的提取,最后,結(jié)合結(jié)構(gòu)輸入特征,實(shí)現(xiàn)對(duì)于特定關(guān)節(jié)的注意力增強(qiáng),注意力增強(qiáng)算法流程如下所示:
輸入. 具有n維m個(gè)關(guān)節(jié)的骨架序列特征;
輸出. 由輸入骨架序列與關(guān)節(jié)加權(quán)的骨架序列求和生成的骨架序列;
步驟 1 基于相似度計(jì)算函數(shù)Score求解各關(guān)節(jié)間的相似度,并利用softmax函數(shù)進(jìn)行相似度歸一化,實(shí)現(xiàn)關(guān)節(jié)相似性權(quán)重系數(shù)α的生成;
步驟 2 基于權(quán)重系數(shù)α進(jìn)行關(guān)節(jié)信息的加權(quán)求和并與原始特征拼接,實(shí)現(xiàn)中間特征H′的生成;
步驟 3 通過兩層感知機(jī)(s,u)結(jié)合tanh與sigmoid非線性化操作,實(shí)現(xiàn)關(guān)節(jié)權(quán)重矩陣V的計(jì)算;
步驟 4 基于關(guān)節(jié)權(quán)重vi針對(duì)骨架序列中關(guān)節(jié)進(jìn)行加權(quán),并通過求和結(jié)構(gòu)輸入特征hi得到結(jié)構(gòu)輸出。

基于上述研究,注意力增強(qiáng)結(jié)構(gòu)通過計(jì)算骨架序列中關(guān)節(jié)的權(quán)重并結(jié)合結(jié)構(gòu)輸入特征構(gòu)建增強(qiáng)特征,既實(shí)現(xiàn)了對(duì)于特定關(guān)節(jié)點(diǎn)的注意力增強(qiáng),又不削弱非關(guān)注關(guān)節(jié)點(diǎn)的信息,更有利于模型學(xué)習(xí)重要特征。
綜上所述,基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型具有以下特點(diǎn):(1) 3維圖卷積將2維圖卷積的2維采樣區(qū)域擴(kuò)展到3維采樣空間,包含空間與時(shí)間2個(gè)維度,實(shí)現(xiàn)了骨架序列中時(shí)空信息的有效提取;(2) 基于注意力增強(qiáng)結(jié)構(gòu),增強(qiáng)了對(duì)于特定關(guān)節(jié)點(diǎn)的關(guān)注,更有利于模型學(xué)習(xí)重要特征。
NTU-RGBD[15]:該數(shù)據(jù)集為最為廣泛應(yīng)用的行為識(shí)別大型實(shí)驗(yàn)數(shù)據(jù)集之一,其包含56880個(gè)動(dòng)作樣本。動(dòng)作樣本可劃分為60個(gè)動(dòng)作類別,每一個(gè)動(dòng)作類別均通過3個(gè)視角的Kinect相機(jī)采集40個(gè)志愿者的25個(gè)關(guān)節(jié)點(diǎn)動(dòng)作來構(gòu)建。數(shù)據(jù)集具有基于視角(X-View)與基于運(yùn)動(dòng)對(duì)象(X-Sub)兩種劃分方式。為驗(yàn)證基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型的性能,評(píng)價(jià)指標(biāo)采用Top-1識(shí)別準(zhǔn)確率和Top-5識(shí)別準(zhǔn)確率,針對(duì)模型在兩種數(shù)據(jù)集劃分方式下的性能進(jìn)行綜合評(píng)價(jià)。
MSR Action 3D[16]:該數(shù)據(jù)集包含16個(gè)動(dòng)作類別的320個(gè)動(dòng)作樣本,每一個(gè)動(dòng)作樣本均有Kinect相機(jī)采集人體的20個(gè)關(guān)節(jié)點(diǎn)來構(gòu)成。數(shù)據(jù)集可劃分為3類子集(AS1, AS2, AS3),各類子集均包含8類動(dòng)作,其中AS1和AS2子集均為簡(jiǎn)單的相似動(dòng)作,AS3子集為復(fù)雜動(dòng)作[17],評(píng)價(jià)標(biāo)準(zhǔn)采用Top-1識(shí)別準(zhǔn)確率評(píng)價(jià)模型。
網(wǎng)絡(luò)結(jié)構(gòu):?jiǎn)翁卣鬏斎胗捎谙拗屏司W(wǎng)絡(luò)模型從多種特征中學(xué)習(xí)各種信息,故影響了網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率。為學(xué)習(xí)多種特征進(jìn)一步提高網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率,基于3維圖卷積與注意力增強(qiáng)結(jié)構(gòu)并以雙特征作為輸入,構(gòu)建了基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型。雙特征分別為表示靜態(tài)特性的骨架特征與表示運(yùn)動(dòng)特性的骨架序列幀差特征。
該模型中的單流網(wǎng)絡(luò)由3維圖卷積與注意力增強(qiáng)結(jié)構(gòu)構(gòu)成,每一層3維圖卷積前均設(shè)置注意力增強(qiáng)結(jié)構(gòu);利用3維圖卷積的串聯(lián),構(gòu)建了單流網(wǎng)絡(luò);通過疊加平均雙流網(wǎng)絡(luò)的預(yù)測(cè)分?jǐn)?shù),實(shí)現(xiàn)了雙流融合并預(yù)測(cè)動(dòng)作標(biāo)簽。若采用NTU數(shù)據(jù)集中25個(gè)關(guān)節(jié)表示的300幀骨架序列的動(dòng)作樣本,則模型具體結(jié)構(gòu)如表1所示。

表1 基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型的網(wǎng)絡(luò)結(jié)構(gòu)
參數(shù)配置:動(dòng)作幀數(shù)規(guī)整化(NTU:300幀;MSR:100幀);設(shè)置批量處理尺寸(batch_size)為32;采用SGD為模型優(yōu)化器;設(shè)置初始學(xué)習(xí)率為0.1;循環(huán)輪數(shù)(epoch)為80,并在第50輪進(jìn)行學(xué)習(xí)率衰減。
4.3.1 模型深度實(shí)驗(yàn)
模型深度在一定程度上影響模型的識(shí)別準(zhǔn)確率,淺層模型識(shí)別準(zhǔn)確率不高,深層模型存在過擬合。為探究最優(yōu)的模型深度,以結(jié)合注意力增強(qiáng)結(jié)構(gòu)的3維圖卷積層數(shù)為變量,分別構(gòu)建了5層至11層的網(wǎng)絡(luò)結(jié)構(gòu),并基于以X-View劃分的NTU數(shù)據(jù)集開展骨架行為識(shí)別的實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同模型深度的識(shí)別準(zhǔn)確率對(duì)比(%)
由表2可知:當(dāng)模型層數(shù)為10層時(shí),基于Top-1與Top-5評(píng)價(jià)指標(biāo),模型均取得最高識(shí)別準(zhǔn)確率,分別為93.30%與99.49%,故模型最優(yōu)模型深度為10層。
4.3.2 時(shí)間維度的鄰居采樣范圍實(shí)驗(yàn)
3維圖卷積通過擴(kuò)展多個(gè)連續(xù)幀內(nèi)相同位置節(jié)點(diǎn)的鄰居節(jié)點(diǎn),實(shí)現(xiàn)了時(shí)間信息的采樣。時(shí)間維度上的鄰居采樣范圍會(huì)影響模型時(shí)間信息的采樣能力,長(zhǎng)采樣范圍無法關(guān)注短時(shí)重要信息,短采樣范圍則無法提取上下文信息。為探究最優(yōu)的采樣范圍,本文分別設(shè)置了5類采樣范圍并基于以X-View劃分的NTU數(shù)據(jù)集開展骨架行為識(shí)別的實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知:當(dāng)鄰居采樣范圍為9幀時(shí),基于Top-1與Top-5評(píng)價(jià)指標(biāo),模型取得最高的識(shí)別準(zhǔn)確率,分別為93.30%與99.49%,故模型最優(yōu)的采樣范圍選用9幀。

表3 不同鄰居采樣范圍的識(shí)別準(zhǔn)確率對(duì)比(%)
4.3.3 注意力對(duì)比實(shí)驗(yàn)
為驗(yàn)證注意力增強(qiáng)結(jié)構(gòu)相較于其他注意力機(jī)制在3維圖卷積模型上的優(yōu)勢(shì),基于注意力增強(qiáng)結(jié)構(gòu)與3種注意力機(jī)制分別開展了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)均基于以X-View劃分的NTU數(shù)據(jù)集開展,實(shí)驗(yàn)結(jié)果如表4所示。

表4 注意力增強(qiáng)結(jié)構(gòu)與多種注意力機(jī)制的識(shí)別準(zhǔn)確率對(duì)比(%)
由表4可知:(1) 相較于未使用注意力增強(qiáng)結(jié)構(gòu)的3維圖卷積模型,結(jié)合注意力增強(qiáng)結(jié)構(gòu)的3維圖卷積模型雖在Top-5評(píng)價(jià)指標(biāo)下識(shí)別準(zhǔn)確率下降了0.05%,但在Top-1評(píng)價(jià)指標(biāo)下識(shí)別準(zhǔn)確率提升了0.4%,達(dá)到最高93.30%的識(shí)別準(zhǔn)確率;(2) 對(duì)比其他3種注意力機(jī)制,通過結(jié)合注意力增強(qiáng)結(jié)構(gòu),3維圖卷積模型在Top-1評(píng)價(jià)指標(biāo)下的識(shí)別準(zhǔn)確率得到最顯著提升,其也充分論證了注意力增強(qiáng)結(jié)構(gòu)對(duì)于增強(qiáng)關(guān)節(jié)關(guān)注的有效性。
因此,注意力增強(qiáng)結(jié)構(gòu)不僅能夠增強(qiáng)3維圖卷積針對(duì)特定關(guān)節(jié)的關(guān)注,且進(jìn)一步提高了識(shí)別準(zhǔn)確率。
為評(píng)估基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型的性能,基于NTU-RGBD和MSR Action 3D數(shù)據(jù)集,開展了骨架行為的識(shí)別準(zhǔn)確率對(duì)比實(shí)驗(yàn)。
4.4.1 NTU-RGBD
為驗(yàn)證基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型相較于基于3維卷積與圖卷積行為識(shí)別模型的優(yōu)秀性能,分別基于X-View與X-Sub劃分的NTU數(shù)據(jù)集開展了骨架行為識(shí)別的實(shí)驗(yàn)研究,并采用Top-1準(zhǔn)確率為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表5所示。
由表5可知:

表5 NTU數(shù)據(jù)集上不同模型的識(shí)別準(zhǔn)確率對(duì)比(%)
(1) 在以X-View與X-Sub兩種方式劃分的NTU數(shù)據(jù)集上,基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型均取得最高的識(shí)別準(zhǔn)確率,分別為93.30%與89.43%;
(2) 相較于同樣采用雙流結(jié)構(gòu)的3維卷積方法,基于注意力增強(qiáng)的3維圖卷積模型,在X-View與XSub下分別提高了20.72%與22.58%;
(3) 相較于使用2維圖卷積的文獻(xiàn)[6],基于3維圖卷積與注意力增強(qiáng)的模型識(shí)別準(zhǔn)確率在X-View與X-Sub下分別提高了5.0%與7.93%,實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了3維圖卷積對(duì)比2維圖卷積的有效性。
4.4.2 MSR Action 3D
上述單一數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)僅反映模型在單一數(shù)據(jù)集上的性能表現(xiàn),為進(jìn)一步驗(yàn)證模型在不同數(shù)據(jù)集上的性能,綜合表現(xiàn)模型的泛化性能,需在全新數(shù)據(jù)集上開展模型性能的測(cè)試。為驗(yàn)證基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型的泛化性能,基于MSR Action 3D骨架行為識(shí)別數(shù)據(jù)集的3類子集(AS1, AS2, AS3),開展了識(shí)別準(zhǔn)確率對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)采用Top-1準(zhǔn)確率為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表6所示。
由表6可知:

表6 MSR Action 3D數(shù)據(jù)集上3種訓(xùn)練條件下的識(shí)別準(zhǔn)確率對(duì)比(%)
(1) 基于注意力增強(qiáng)的3維圖卷積模型,在AS1, AS2, AS3 3種訓(xùn)練條件下均取得了高于3維卷積與圖卷積的識(shí)別準(zhǔn)確率,進(jìn)一步驗(yàn)證了模型時(shí)空信息提取的有效性;
(2) 本文提出的基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型,在NTU-RGBD與MSR Action 3D數(shù)據(jù)集上均取得了優(yōu)秀的識(shí)別準(zhǔn)確率,進(jìn)一步驗(yàn)證了模型具有良好的泛化性能。
綜上實(shí)驗(yàn)結(jié)果表明:基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型相較于基于3維卷積與圖卷積的行為識(shí)別方法,既實(shí)現(xiàn)了骨架序列中時(shí)空信息的有效提取與對(duì)特定關(guān)節(jié)的注意力增強(qiáng),又具有優(yōu)秀的識(shí)別準(zhǔn)確率與泛化性能。
為有效提取非歐式空間中3維骨架序列的時(shí)空信息,并實(shí)現(xiàn)針對(duì)特定關(guān)節(jié)的關(guān)注,本文提出了一種基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型。(1) 3維圖卷積基于具有時(shí)間與空間兩個(gè)采樣維度的3維采樣空間,聚合前幀內(nèi)鄰居節(jié)點(diǎn)的空間信息與時(shí)間維度上相關(guān)的鄰居節(jié)點(diǎn)時(shí)間信息,實(shí)現(xiàn)了時(shí)空信息的有效提取,且保留了空間與時(shí)間信息的相關(guān)性。(2) 對(duì)比傳統(tǒng)注意力機(jī)制,注意力增強(qiáng)結(jié)構(gòu)不僅能增強(qiáng)對(duì)于特定關(guān)節(jié)的關(guān)注,且不削弱非關(guān)注關(guān)節(jié)點(diǎn)的信息。實(shí)驗(yàn)結(jié)果表明:首先,對(duì)比傳統(tǒng)注意力機(jī)制,注意力增強(qiáng)結(jié)構(gòu)能更有效增強(qiáng)對(duì)于特定關(guān)節(jié)的關(guān)注,且能進(jìn)一步提高識(shí)別準(zhǔn)確率。其次,基于3維圖卷積與注意力增強(qiáng)的行為識(shí)別模型具有優(yōu)秀的識(shí)別準(zhǔn)確率與泛化性能。
值得指出的是,人體行為在未剪輯視頻中僅占據(jù)小段時(shí)間,本文所提出的行為識(shí)別模型僅是基于人工剪輯視頻,未剪輯視頻中準(zhǔn)確定位動(dòng)作的問題在研究中未予以考慮。針對(duì)如何在未剪輯視頻中準(zhǔn)確定位動(dòng)作與識(shí)別動(dòng)作的問題,其在后續(xù)的研究中擬進(jìn)一步展開。