張 毅,趙杰煜,王 翀,鄭 燁
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
隨著科學(xué)技術(shù)的迅猛發(fā)展,手勢(shì)識(shí)別已成為當(dāng)前科學(xué)研究領(lǐng)域的熱點(diǎn)之一,其主要應(yīng)用領(lǐng)域有目標(biāo)檢測(cè)[1]、視頻檢索、人機(jī)交互[2]、手語(yǔ)識(shí)別[3]等。由于手勢(shì)識(shí)別存在相似手勢(shì)之間的細(xì)微差別、復(fù)雜的場(chǎng)景背景、不同的觀測(cè)條件以及采集過(guò)程中的噪聲等,使得通過(guò)機(jī)器學(xué)習(xí)得到一個(gè)魯棒性手勢(shì)識(shí)別模型具有較大的挑戰(zhàn)性。
基于深度學(xué)習(xí)的手勢(shì)識(shí)別主要任務(wù)是從圖像或視頻中提取特征,然后將每個(gè)樣本分類(lèi)或確定到某個(gè)標(biāo)簽上。手勢(shì)識(shí)別旨在識(shí)別和理解手臂與手在其中起著關(guān)鍵作用的人體有意義的運(yùn)動(dòng)。但是在動(dòng)態(tài)手勢(shì)視頻中,一般只有少量的手勢(shì)可以從圖像或單個(gè)視頻幀中的空間或結(jié)構(gòu)信息中識(shí)別出來(lái)。事實(shí)上,運(yùn)動(dòng)線索和結(jié)構(gòu)信息同時(shí)表征了一個(gè)獨(dú)特的手勢(shì),而如何有效地學(xué)習(xí)手勢(shì)的時(shí)空特征一直是手勢(shì)識(shí)別的關(guān)鍵。盡管在過(guò)去的幾十年中,人們提出了很多方法來(lái)解決這個(gè)問(wèn)題,如從靜態(tài)手勢(shì)到動(dòng)態(tài)手勢(shì),從基于運(yùn)動(dòng)輪廓到基于卷積神經(jīng)網(wǎng)絡(luò),但是在識(shí)別精度方面仍然存在不足。
目前,現(xiàn)有的基于深度學(xué)習(xí)的孤立手勢(shì)識(shí)別模型已經(jīng)擁有了較高的識(shí)別率,多數(shù)方法都是基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[4-5]或遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)[6]開(kāi)發(fā)的。
隨著深度學(xué)習(xí)的發(fā)展,越來(lái)越多新穎且高效的網(wǎng)絡(luò)體系結(jié)構(gòu)被提出,其中比較有代表性的方法為文獻(xiàn)[7]提出的密集卷積神經(jīng)網(wǎng)絡(luò)(DenseNets),相比于傳統(tǒng)的CNNs,DenseNets擁有更深的網(wǎng)絡(luò)層級(jí)結(jié)構(gòu),并且模塊內(nèi)的卷積層互相密集關(guān)聯(lián),從而使網(wǎng)絡(luò)在擁有深層層次結(jié)構(gòu)的同時(shí),避免由于網(wǎng)絡(luò)過(guò)深而導(dǎo)致信息丟失的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,DenseNets擁有較高的特征提取能力和識(shí)別率。而針對(duì)復(fù)雜的手勢(shì),三維CNNs能夠有效地學(xué)習(xí)到視頻內(nèi)連續(xù)視頻幀中的手勢(shì)短時(shí)的空間、結(jié)構(gòu)和姿態(tài)變換,這是單幀圖像或圖片的二維CNNs所欠缺的。但由于在傳統(tǒng)三維CNNs模型訓(xùn)練過(guò)程中,作為輸入的視頻片段(較短的連續(xù)幀)會(huì)有重復(fù)輸入的部分出現(xiàn),且如果重復(fù)部分較大則會(huì)大幅延長(zhǎng)模型的訓(xùn)練速度,因此如何簡(jiǎn)化學(xué)習(xí)操作與高效訓(xùn)練模型是一個(gè)十分重要的課題。
對(duì)于時(shí)序模型而言,文獻(xiàn)[8]提出一種新的解決序列問(wèn)題的結(jié)構(gòu)——時(shí)間卷積神經(jīng)網(wǎng)絡(luò)(TCNs)。與傳統(tǒng)的RNNs及其典型的遞歸體系結(jié)構(gòu)LSTMs和GRUs相比,TCNs具有較好的清晰性和簡(jiǎn)單性。
為提取更完整更有代表性的特征信息,文獻(xiàn)[9]證明了在神經(jīng)網(wǎng)絡(luò)中特征信息的內(nèi)部存在多種關(guān)系,并提出將注意力機(jī)制作為深度學(xué)習(xí)模型的嵌入模塊。而壓縮-激勵(lì)網(wǎng)絡(luò)SENets[10]是一個(gè)高效的基于注意力機(jī)制的體系結(jié)構(gòu)單元,其目標(biāo)是通過(guò)顯式地建模其卷積特征通道之間的相互依賴(lài)性來(lái)提高網(wǎng)絡(luò)生成的質(zhì)量表示。
本文采用三維DenseNets提取多段基于連續(xù)視頻幀片段的短時(shí)空間特征,并組成一條由短時(shí)空間特征組成的序列。將短時(shí)空間特征序列輸入到TCNs中完成分類(lèi)任務(wù),并采用針對(duì)時(shí)間維度改進(jìn)的壓縮-激勵(lì)方法(TSE),增強(qiáng)TCNs在時(shí)間特征提取方面的能力。
基于視覺(jué)的手勢(shì)識(shí)別技術(shù)包括面向靜態(tài)手勢(shì)的方法和面向動(dòng)態(tài)手勢(shì)的方法[2]。近年來(lái),CNNs[4]憑借其強(qiáng)大的特征提取能力,在計(jì)算機(jī)視覺(jué)相關(guān)任務(wù)上取得了重大突破,因此,CNNs提取的特征被廣泛應(yīng)用于許多動(dòng)作分類(lèi)任務(wù)中以獲得更好的性能。二維卷積網(wǎng)絡(luò)(2D-CNNs)最初是應(yīng)用于二維圖像中的,也就是靜態(tài)手勢(shì)或者是動(dòng)態(tài)手勢(shì)視頻中的單幀圖像,如文獻(xiàn)[11-12]使用二維CNN并通過(guò)多層等級(jí)池化對(duì)圖像手勢(shì)進(jìn)行識(shí)別,提取空間與時(shí)域上的信息。而三維卷積網(wǎng)絡(luò)(3D-CNNs)的發(fā)展,使得三維卷積(C3D)在后續(xù)的研究中被廣泛應(yīng)用。文獻(xiàn)[13]將三維CNNs引入到動(dòng)態(tài)視頻手勢(shì)識(shí)別中,具有較好的性能,該研究的主要貢獻(xiàn)是提出了一種從視頻片段中提取時(shí)空特征的體系結(jié)構(gòu)。另一方面,文獻(xiàn)[14]設(shè)計(jì)了一個(gè)用于手勢(shì)識(shí)別的多流3D-CNNs分類(lèi)器,該分類(lèi)器由兩個(gè)子網(wǎng)絡(luò)組成:高分辨率網(wǎng)絡(luò)(HRN)和低分辨率網(wǎng)絡(luò)(LRN),這為后續(xù)研究提供了寶貴經(jīng)驗(yàn)。為解決視頻中的手勢(shì)片段訓(xùn)練的問(wèn)題,文獻(xiàn)[15]提出了一種新的時(shí)間池化方法。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的CNNs體系結(jié)構(gòu)被提出,如AlexNets[11]、VGGNets[16]、GoogleNets[17-20]、ResNets[21]和DenseNets[7]。上述模型的目標(biāo)就是構(gòu)建一個(gè)更高層次的CNNs體系結(jié)構(gòu),從低層次的圖像幀中挖掘更深入、更完整的統(tǒng)計(jì)特征,然后進(jìn)行分類(lèi)。在孤立手勢(shì)識(shí)別領(lǐng)域,文獻(xiàn)[22]使用Res-C3D模型應(yīng)用于手勢(shì)識(shí)別任務(wù)中。文獻(xiàn)[23]同樣適用Res-C3D模型,并在2016年和2017年的ChaLearn LAP多模態(tài)孤立手勢(shì)識(shí)別挑戰(zhàn)賽[24-25]中兩次獲得第一名,這足以證明層次越深的網(wǎng)絡(luò)擁有更強(qiáng)的特征學(xué)習(xí)能力。而DenseNets[7]作為最新的卷積結(jié)構(gòu)之一,逐漸被應(yīng)用于動(dòng)作識(shí)別,特別是人臉識(shí)別[26]和手勢(shì)識(shí)別。除圖像識(shí)別領(lǐng)域外,在最近的研究中,DenseNets也被用來(lái)對(duì)不同的行為進(jìn)行分類(lèi),如文獻(xiàn)[27]使用DenseNets進(jìn)行行為識(shí)別的研究。而深度信息作為除RGB信息外的額外視頻信息被國(guó)內(nèi)外研究所應(yīng)用,其中文獻(xiàn)[28-29]使用深度圖對(duì)手勢(shì)進(jìn)行識(shí)別。
對(duì)于視頻序列的時(shí)間信息,LSTM網(wǎng)絡(luò)是手勢(shì)識(shí)別的常用選擇。例如,文獻(xiàn)[30]將卷積長(zhǎng)短期記憶模型(conv-LSTM)引入到時(shí)空特征圖中,從而通過(guò)手勢(shì)視頻中的前后關(guān)系進(jìn)行識(shí)別。文獻(xiàn)[31]使用2S-RNN(RGB和深度圖)進(jìn)行連續(xù)手勢(shì)識(shí)別。然而,包括LSTMs和GRUs在內(nèi)的RNNs在時(shí)域上存在著短時(shí)信息學(xué)習(xí)、存儲(chǔ)容量過(guò)大等缺點(diǎn)。為了彌補(bǔ)這些不足,人們提出TCNs并將其應(yīng)用于手勢(shì)再現(xiàn)中。文獻(xiàn)[32]提出了基于骨架的動(dòng)態(tài)手勢(shì)識(shí)別方法Res-TCNs,實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)的RNNs,TCNs在結(jié)構(gòu)上更加簡(jiǎn)潔,并能夠有效地提高識(shí)別率。在整個(gè)時(shí)序數(shù)據(jù)中有許多冗余信息,因此,引入注意力機(jī)制顯得非常重要。文獻(xiàn)[33-34]在使用時(shí)序模型的同時(shí),嵌入了相關(guān)的注意力機(jī)制模型,在原有時(shí)序模型識(shí)別率的基礎(chǔ)上降低了錯(cuò)誤率。
本文方法具體工作如下:
1)為解決單幀圖像不能承載足夠的手勢(shì)空間和結(jié)構(gòu)信息,而多視頻幀訓(xùn)練又需要避免視頻片段所導(dǎo)致數(shù)據(jù)重復(fù)訓(xùn)練的問(wèn)題,結(jié)合截?cái)嗟?D-DenseNets(T3D-Dense)和局部時(shí)間平均池化(LTAP)兩種方法作為短時(shí)空間特征序列的提取模型。
2)利用時(shí)間卷積網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)作為短時(shí)空間特征序列分析的主要模型,并對(duì)壓縮-激勵(lì)網(wǎng)絡(luò)(SENets)進(jìn)行改進(jìn),使其能夠應(yīng)用于時(shí)域維度嵌入TCNs中,重新調(diào)整層間的短時(shí)空間特征序列的權(quán)值,從而更有效地對(duì)短時(shí)空間特征序列進(jìn)行分析,達(dá)到更高的分類(lèi)精度。
本文提出一種新的模型來(lái)提取時(shí)空特征,并對(duì)時(shí)空特征序列進(jìn)行識(shí)別和分類(lèi)。模型流程如圖1所示,整個(gè)過(guò)程可分為以下2個(gè)部分:
1)通過(guò)截?cái)嗟腡3D-Dense、局部時(shí)間平均池(LTAP)和多模式特征串接提取多模式的短時(shí)時(shí)空特征序列模塊。
2)基于TCN和TSE的時(shí)空特征序列識(shí)別模塊。

圖1 本文模型的流程
由于簽名視頻的性質(zhì),一個(gè)健壯的視頻特征表示需要結(jié)合多模態(tài)手勢(shì)信息。在手勢(shì)視頻中,前后幀之間存在著多種關(guān)系,包括位置、形狀和序列信息。因此,本文設(shè)計(jì)一個(gè)基于C3D的多流DenseNets作為時(shí)空特征提取器,從視頻中提取時(shí)空特征。在此模型中,所有視頻集的長(zhǎng)度必須相同。因此,一個(gè)給定的視頻V和n幀需要規(guī)范化為k幀。本文設(shè)置的輸入為:
VS=[V1,V2,…,Vk]
(1)
其中,Vk是輸入視頻序列的第k幀圖像。
如前文所述,本文考慮多種形式的手勢(shì)視頻數(shù)據(jù)作為輸入。每種類(lèi)型的數(shù)據(jù)被設(shè)置為一個(gè)數(shù)據(jù)流并饋送到相同的網(wǎng)絡(luò)結(jié)構(gòu),它們的輸出隨后將被融合,見(jiàn)圖1。每個(gè)數(shù)據(jù)流共享相同的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,模型包含4個(gè)致密塊體,每個(gè)區(qū)塊包含6、12、24、16層密集連接卷積層,網(wǎng)絡(luò)的增長(zhǎng)率為12,表1中顯示的每個(gè)“conv”層對(duì)應(yīng)于BN-ReLU-conv序列。值得注意的是,大多數(shù)卷積層都使用3×3×3大小的卷積核,同時(shí)在空間和時(shí)域上進(jìn)行分析,但是為了避免短期時(shí)間信息的融合,將所有過(guò)渡層的時(shí)間池大小和步長(zhǎng)設(shè)置為1,這主要是區(qū)別與其他傳統(tǒng)的C3D模型。

表1 三維DenseNets架構(gòu)
由于三維DenseNets是一個(gè)短期的時(shí)空特征提取器,因此在本文中其被截?cái)?使模型只得到經(jīng)過(guò)全局空間平均池化后的特征。具體來(lái)講,首先用孤立的手勢(shì)數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后丟棄全局時(shí)間平均池層、最后一個(gè)softmax層和完全連接層。因此,模型可以在全局空間平均池層之后得到全局時(shí)空特征Fk:
Fk=[f1,f2,…,fk]
(2)
其中,時(shí)間長(zhǎng)度為k,并且表示k幀的短時(shí)時(shí)空特征。
然后從全局特征Fk中剪切和合并T個(gè)短時(shí)時(shí)空特征。第t個(gè)短期時(shí)空特征xt構(gòu)造為:
(3)

經(jīng)過(guò)局部時(shí)間平均合并后,本步驟可以得到一系列單模態(tài)的短期特征。多模特征序列在輸入TCN前融合成一個(gè)序列。整體短時(shí)時(shí)空特征模塊在預(yù)訓(xùn)練時(shí)與截?cái)嗪蟮牧鞒倘鐖D2所示。

圖2 短時(shí)時(shí)空特征模塊流程
基于從各種數(shù)據(jù)模式(RGB、光流、深度等)中提取的短時(shí)時(shí)空特征,考慮整個(gè)視頻的長(zhǎng)期時(shí)間特征,對(duì)給定手勢(shì)進(jìn)行分類(lèi)。本文采用一種序列識(shí)別模型TCNs,并對(duì)其進(jìn)行了改進(jìn)以處理長(zhǎng)期時(shí)間信息。TCNs的主要特點(diǎn)是使用因果卷積和將輸入序列映射到相同長(zhǎng)度的輸出序列。此外,考慮到序列具有較長(zhǎng)的歷史,該模型使用了能夠產(chǎn)生大的卷積野的膨脹卷積以及允許訓(xùn)練更深網(wǎng)絡(luò)的殘差連接。考慮到本文的任務(wù)是對(duì)手勢(shì)視頻的類(lèi)別進(jìn)行分類(lèi),TCN的輸出層通過(guò)一個(gè)完全連接層進(jìn)行進(jìn)一步處理,得到每個(gè)手勢(shì)序列的一個(gè)類(lèi)標(biāo)簽。改進(jìn)的TCN模型結(jié)構(gòu)如圖3所示。

圖3 本文改進(jìn)的TCNtse模型結(jié)構(gòu)
在TCN模型中,從短時(shí)時(shí)空特征模塊所學(xué)習(xí)得到的序列X=[x1,x2,…,xt]作為T(mén)CN的輸入序列,其經(jīng)過(guò)多層時(shí)間卷積后的輸出設(shè)定為Y=[y1,y2,…,yt]。而每一層的卷積核本文都將使用膨脹卷積使得TCNs能夠在不同層學(xué)習(xí)不同時(shí)序跨度的特征。膨脹卷積的計(jì)算公式為:
yt=(x*dh)t=∑xt-dmhm
(4)

(5)
其中,Wo、bo分別為訓(xùn)練后得到的全連接層參數(shù)。
值得注意的是,X=[x1,x2,…,xt]中的特征在整個(gè)序列識(shí)別過(guò)程中的貢獻(xiàn)是有所不同的。由于手勢(shì)的組合特性和復(fù)雜性,在不同手勢(shì)中必然會(huì)有一部分的手勢(shì)片段是接近的,可將這些連續(xù)的手勢(shì)片段進(jìn)行識(shí)別區(qū)分,本文是通過(guò)TCN模型來(lái)學(xué)習(xí)手勢(shì)片段間的時(shí)序關(guān)聯(lián)性。但與此同時(shí),如何學(xué)習(xí)到特征序列中的關(guān)聯(lián)強(qiáng)度(權(quán)重)也是本文需要考慮的一個(gè)問(wèn)題。為此,本文引入注意力機(jī)制,改進(jìn)了壓縮-激勵(lì)網(wǎng)絡(luò)(SENets)并將其應(yīng)用嵌入到時(shí)序特征序列模型TCN中。
如圖3所示,時(shí)域壓縮-激勵(lì)網(wǎng)絡(luò)模塊(TSENet,TSE)被嵌入到TCN模塊每一層時(shí)間卷積層輸入前,首先將時(shí)間卷積層的輸入X=[x1,x2,…,xT]在通道上進(jìn)行全局平均卷積,從而獲得一條T×1大小的權(quán)值序列Z=[z1,z2,…,zT]。
假設(shè)時(shí)間卷積層輸入通道數(shù)為C,則t時(shí)刻的平均通道值z(mì)t計(jì)算公式如下:
(6)
與此同時(shí),可以將平均通道所得到的值作為當(dāng)前t時(shí)刻特征的權(quán)重,而本文為了重新調(diào)整各個(gè)時(shí)刻特征的權(quán)重,則加入了第2個(gè)操作,即壓縮-激勵(lì)操作。為使網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)到這一權(quán)重值,加入了一個(gè)簡(jiǎn)單的激活門(mén)控制整個(gè)權(quán)值序列的計(jì)算:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(7)

(8)


本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)由tensorflow平臺(tái)實(shí)現(xiàn),并使用NVIDIA Quadro gp100 GPU進(jìn)行訓(xùn)練。多模態(tài)截?cái)嗟拿芗矸e網(wǎng)絡(luò)(T3D-Dense)分別使用RGB、深度信息和光流信息(如果存在光流或可計(jì)算)數(shù)據(jù)作為輸入進(jìn)行預(yù)訓(xùn)練。Adam優(yōu)化器用于訓(xùn)練T3D-Dense的預(yù)訓(xùn)練模型3D-DenseNets,學(xué)習(xí)率初始化為6.4e-4,每25個(gè)epoch下降10倍。權(quán)值衰減率設(shè)置為1e-4,Drop_out設(shè)為0.2,3D-DenseNets內(nèi)每個(gè)block的壓縮率c和增長(zhǎng)率k分別設(shè)置為0.5和12。對(duì)于TCN模型,本文使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率初始化為1e-4,epsilon為1e-8。
本節(jié)將本文方法與其他最新的動(dòng)態(tài)手勢(shì)方法進(jìn)行比較。在實(shí)驗(yàn)中,本文使用兩個(gè)公開(kāi)的多模態(tài)動(dòng)態(tài)手勢(shì)數(shù)據(jù)集來(lái)評(píng)估文中提出的模型。
1)VIVA[15]。VIVA challenge數(shù)據(jù)集是一個(gè)多模態(tài)的動(dòng)態(tài)手勢(shì)數(shù)據(jù)集,專(zhuān)門(mén)設(shè)計(jì)用于在真實(shí)駕駛環(huán)境中研究自然人類(lèi)活動(dòng)的復(fù)雜背景設(shè)置、不穩(wěn)定照明和頻繁遮擋等情況。此數(shù)據(jù)集是由微軟Kinect設(shè)備捕獲的,共有885個(gè)RGB和深度信息視頻序列,其中包括8名受試者在車(chē)內(nèi)進(jìn)行的19種不同的動(dòng)態(tài)手勢(shì)。
2)NVGesture[6]。NVGesture數(shù)據(jù)集為了研究人機(jī)界面,采用多傳感器多角度進(jìn)行采集。它包含1 532個(gè)動(dòng)態(tài)手勢(shì),這些手勢(shì)是由20名受試者在一個(gè)有人工照明條件的汽車(chē)模擬器中記錄下來(lái)的,這個(gè)數(shù)據(jù)集包括25類(lèi)手勢(shì)。它還包括動(dòng)態(tài)DS325裝置作為RGB-D傳感器,用DUO-3D進(jìn)行紅外圖像采集。在實(shí)驗(yàn)中,本文使用RGB、深度和光流模態(tài)作為模型的數(shù)據(jù)輸入,而光流圖則使用文獻(xiàn)[31]提出的方法從RGB流計(jì)算得到。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)增強(qiáng)和數(shù)據(jù)規(guī)范化2個(gè)部分:
1)數(shù)據(jù)增強(qiáng)。在VIVA數(shù)據(jù)集中,數(shù)據(jù)增強(qiáng)主要由3個(gè)增強(qiáng)操作組成,即基于視頻幀的反序、水平鏡像或同時(shí)應(yīng)用前2個(gè)操作。如VIVA中有一類(lèi)手勢(shì)是在視頻中從左往右移動(dòng),通過(guò)反序操作或者水平鏡像,能夠得到一個(gè)從右向左移動(dòng)的手勢(shì)作為從右向左移動(dòng)的手勢(shì)的增強(qiáng)。而同時(shí)應(yīng)用反序和水平鏡像操作,就能夠得到一個(gè)從左往右移動(dòng)的手勢(shì)作為從左往右移動(dòng)的手勢(shì)的增強(qiáng)。
在NVGesture數(shù)據(jù)集中,每個(gè)視頻圖像被調(diào)整為256×256像素的圖像大小,然后用224×224塊隨機(jī)裁剪,在裁剪時(shí),同一數(shù)據(jù)的裁剪窗口在視頻中位置不變。
2)數(shù)據(jù)規(guī)范化。對(duì)于機(jī)器學(xué)習(xí)而言,數(shù)據(jù)規(guī)范化是必要的,特別是對(duì)于時(shí)序模型,時(shí)序上的量是固定的,所以對(duì)時(shí)序維度的重采樣尤為重要。本文給定一個(gè)額定幀數(shù)k,對(duì)于小于額定幀大小或大于額定幀數(shù)大小的視頻,使用上采樣和下采樣的統(tǒng)一標(biāo)準(zhǔn)化來(lái)統(tǒng)一幀的數(shù)量。給定的視頻V和n幀需要壓縮或擴(kuò)展到k幀,有以下2種情況:
(1)當(dāng)n>k時(shí),將視頻V平均分割為k節(jié)視頻集VS,其中VS=[V1,V2,…,Vk]。對(duì)于視頻集VS中的每個(gè)片段,隨機(jī)選擇一個(gè)幀作為多個(gè)連續(xù)視頻幀的表達(dá)。最后,將所有表示幀連接起來(lái),并使它們成為規(guī)范化的結(jié)果。
(2)當(dāng)n 在T3D-Dense模型和TCNs模型中,輸入數(shù)據(jù)的維數(shù)是固定的,具體來(lái)說(shuō),3D-DenseNet在預(yù)訓(xùn)練過(guò)程中的所有輸入的幀數(shù)都應(yīng)該是固定的。經(jīng)統(tǒng)計(jì),VIVA數(shù)據(jù)集的平均幀數(shù)k是32幀,NVGesture數(shù)據(jù)集的平均幀數(shù)k是64幀,所以在實(shí)驗(yàn)中本文將VIVA數(shù)據(jù)集中的k設(shè)置為32,NVGesture數(shù)據(jù)集中的k設(shè)置為64。 由于C3D計(jì)算的高復(fù)雜性,輸入的視頻圖像像素大小被重采樣為112×112像素。 表2為在VIVA數(shù)據(jù)集的RGB和深度信息2個(gè)模態(tài)上測(cè)試的動(dòng)態(tài)手勢(shì)的性能。 表2 本文方法與其他方法在VIVA數(shù)據(jù)集上正確率對(duì)比 實(shí)驗(yàn)結(jié)果表明,本文方法在VIVA數(shù)據(jù)集上獲得了91.54%的正確率。從表2可以看出,本文提出的T3D-Dense+TCNtse在正確率上遠(yuǎn)優(yōu)于HOG+HOG2、CNN:LRN、CNN:LRN:HRN以及C3D方法,分別高出27.04%、17.14%、14.04%以及14.14%。而本文方法的識(shí)別正確率與I3D與MTUT方法正確率較為接近,這在一定程度上是由于I3D和MTUT與本文方法使用了較為相似的預(yù)訓(xùn)練方式。盡管如此,可以看到本文方法RGB和depth網(wǎng)絡(luò)的性能在I3D和MTUT的基礎(chǔ)上分別提高了8.44%和5.46%。 同時(shí),本文在VIVA數(shù)據(jù)集上測(cè)試了其他方法以證明各模塊的有效性,測(cè)試的方法主要有: 1)完整3D-DenseNets。3D-DenseNets預(yù)訓(xùn)練的過(guò)程其本質(zhì)就是完整3D-DenseNets對(duì)動(dòng)態(tài)手勢(shì)的識(shí)別訓(xùn)練,所以可以直接對(duì)預(yù)訓(xùn)練的3D-DenseNets進(jìn)行測(cè)試,測(cè)試識(shí)別正確率為88.21%。 2)Res3D+TCNs。通過(guò)將短時(shí)時(shí)空特征提取模塊的主干框架T3D-Dense改變?yōu)镽es3D網(wǎng)絡(luò),可以發(fā)現(xiàn)基本的T3D-Dense作為主干框架在正確率上優(yōu)于以Res3D為主干框架的Res3D+TCNs網(wǎng)絡(luò)。并且本文T3D-Dense+TCNs網(wǎng)絡(luò)的參數(shù)量?jī)H為141萬(wàn),而Res3D+TCNs網(wǎng)絡(luò)的參數(shù)量為4 535萬(wàn),是T3D-Dense+TCNs參數(shù)量的30倍之多,證明了本文算法的優(yōu)越性。 3)T3D-Dense+TCNs與本文方法之間的區(qū)別在于TCN網(wǎng)絡(luò)中是否有TSE模塊的嵌入,可以看到TSE模塊的加入使得網(wǎng)絡(luò)獲得了0.81%的識(shí)別率提高。 本文統(tǒng)計(jì)了根據(jù)本文方法所得到的最終分類(lèi)的混淆矩陣,如圖4所示。 圖4 VIVA數(shù)據(jù)集上輸入為RGB+深度信息的識(shí)別混淆矩陣Fig.4 Confusion matrix with RGB+depth information input on VIVA data set 在實(shí)驗(yàn)中,發(fā)現(xiàn)在VIVA數(shù)據(jù)集上第1類(lèi)與第2類(lèi)、第16類(lèi)與第17類(lèi)上有著較高的誤識(shí)別率,尤其是第16類(lèi)與第17類(lèi)(其中第16類(lèi)為手勢(shì)順時(shí)針劃圈,第17類(lèi)為手勢(shì)逆時(shí)針劃圈)之間,誤識(shí)別率為15%。為此,從TCN各層中提取出第16類(lèi)與第17類(lèi)中TSE模塊的權(quán)值作可視化。從圖5中發(fā)現(xiàn),由于第16類(lèi)與第17類(lèi)的結(jié)構(gòu)空間信息在短時(shí)上擁有較多的相似性,導(dǎo)致TSE在權(quán)值控制上并不能很好地區(qū)分開(kāi)兩者,使得兩者在識(shí)別上會(huì)有較高的誤識(shí)別率。但在大多數(shù)手勢(shì)的權(quán)值上,尤其是TCNs第3層的5幀~12幀上擁有較大的區(qū)分度。實(shí)驗(yàn)結(jié)果證明,TSE對(duì)于TCNs識(shí)別具有較好的效果。 圖5 VIVA數(shù)據(jù)集中TSE模塊可視化圖 為了在兩種以上數(shù)據(jù)流的任務(wù)中測(cè)試本文的方法,在NVGesture數(shù)據(jù)集上分別以RGB+深度信息、RGB+光流信息以及RGB+深度+光流信息作為輸入進(jìn)行了測(cè)試,分類(lèi)結(jié)果如表3所示。 表3 本文方法與其他方法在NVGesture數(shù)據(jù)集上正確率對(duì)比 在RGB+深度信息中,將本文方法與HOG+HOG2、I3D以及MTUT方法進(jìn)行比較,可以看出,對(duì)于較為復(fù)雜的數(shù)據(jù)集,相較于傳統(tǒng)HOG+HOG2方法,本文方法具有較高的正確率,但與3D與MTUT方法相比識(shí)別率不明顯,甚至比MTUT正確率低了1.23%,可能是因?yàn)樵趶?fù)雜的數(shù)據(jù)集中,由于較為輕量的模型導(dǎo)致在時(shí)間跨度較大的數(shù)據(jù)中并不能很好地識(shí)別出視頻片段間的聯(lián)系。 在RGB+光流信息中,將本文方法與2S-CNNs、iDT、I3D以及MTUT方法進(jìn)行比較。雖然iDT通常被認(rèn)為是目前性能最好的手工識(shí)別方法,但可以看出,本文的方法識(shí)別正確率高于iDT方法19.88%。并且在此模態(tài)中,由于光流信息同時(shí)包含了許多前后幀的手勢(shì)變化信息,因此本文方法在精度上都高于其他方法。 在RGB+深度+光流信息中,將本文方法與R3DCNN、I3D以及MTUT方法進(jìn)行比較。其中R3DCNN是該數(shù)據(jù)集原始方法,可以看出本文方法比原始方法正確率高2.57%,比I3D方法高0.69%。雖然本文方法正確率比最新的MTUT方法低0.56%,但由于模型在特征融合上較為簡(jiǎn)單,因此結(jié)果在可接受范圍內(nèi)。在此基礎(chǔ)上,本文方法在NVGesture數(shù)據(jù)集中各手勢(shì)的誤判率較為平均,平均誤判率為0.51%,識(shí)別混淆矩陣如圖6所示。 圖6 NVGesture數(shù)據(jù)集輸入為RGB+深度+光流信息的識(shí)別混淆矩陣 綜上所述,本文方法在NVGesture數(shù)據(jù)集上的識(shí)別正確率取得了與當(dāng)前最新方法相近的水平。 本文提出一種基于時(shí)域注意力機(jī)制的Dense-TCN模型。該模型通過(guò)截?cái)囝A(yù)訓(xùn)練的3D-DenseNets和局部時(shí)域池化的方式來(lái)避免時(shí)間片段過(guò)多的重復(fù)訓(xùn)練,同時(shí)根據(jù)嵌入時(shí)域注意力機(jī)制改進(jìn)TSE模塊對(duì)短時(shí)時(shí)空特征序列進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,該模型具有較高的識(shí)別率,且參數(shù)量較少。由于3D-DenseNets需要預(yù)訓(xùn)練且被截?cái)嗖拍芴崛【植康亩虝r(shí)時(shí)空特征,依賴(lài)于預(yù)訓(xùn)練時(shí)3D-DenseNets的正確率和多模態(tài)融合方法,導(dǎo)致針對(duì)一些分類(lèi)多、噪聲大的數(shù)據(jù)集時(shí)正確率較低,因此下一步擬將3D-DenseNets模型改為端到端模型,并對(duì)多模態(tài)融合方法進(jìn)行改進(jìn),以進(jìn)一步提高模型識(shí)別率。3.3 在VIVA上的測(cè)試結(jié)果



3.4 在NVGesture上的測(cè)試結(jié)果


4 結(jié)束語(yǔ)