基于深度學(xué)習(xí)的動(dòng)態(tài)手勢(shì)識(shí)別方法

2023-05-14 03:56:13周勇吳震宇

計(jì)算機(jī)時(shí)代 2023年5期

周勇吳震宇

摘? 要：手勢(shì)識(shí)別作為人機(jī)交互的一個(gè)重要領(lǐng)域，是目前視覺研究的重點(diǎn)和熱門。不同于圖像研究，本文針對(duì)紅外傳感器采集到的手勢(shì)動(dòng)作數(shù)據(jù)，提出一種基于深度學(xué)習(xí)的手勢(shì)識(shí)別方法。該方法通過紅外傳感器采集7種動(dòng)態(tài)手勢(shì)信號(hào)數(shù)據(jù)，使用不同網(wǎng)絡(luò)模型對(duì)手勢(shì)進(jìn)行分類。實(shí)驗(yàn)表明，若只使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）或長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）單個(gè)網(wǎng)絡(luò)模型的手勢(shì)識(shí)別，準(zhǔn)確率最高為92.7%；而CNN-LSTM混合網(wǎng)絡(luò)模型平均手勢(shì)識(shí)別準(zhǔn)確率為99.1%。

關(guān)鍵詞：手勢(shì)識(shí)別；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；長(zhǎng)短期記憶網(wǎng)絡(luò)

中圖分類號(hào)：TP391.41;TP18? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ?文章編號(hào)：1006-8228（2023）05-77-04

Dynamic gesture recognition based on depth learning

Zhou Yong， Wu Zhenyu

（College of Mechanical and Automatic Control， Zhejiang Sci-tech University， Hangzhou， Zhejiang 310018， China）

Abstract： Hand gesture recognition， as an important field of human-computer interaction， is currently the focus and hotspot of vision research. In this paper， different from image research， a gesture recognition method based on deep learning is proposed for the gesture motion data collected by infrared sensors. Seven kinds of dynamic gesture signal data are collected， and the gestures are classified using different network models. Experiments show that if only a single network model of CNN or LSTM is used for gesture recognition， the highest accuracy is 92.7%， while the average gesture recognition accuracy of CNN-LSTM hybrid network model is 99.1%.

Key words： hand gesture recognition; deep learning; convolution neural network （CNN）; long and short term memory network （LSTM）

0 引言

目前手勢(shì)識(shí)別方法多樣，Cheo[1]等人提出手勢(shì)識(shí)別方法主要分為兩種，其中包括基于數(shù)據(jù)特征值區(qū)分或圖像處理的手勢(shì)識(shí)別方法。通過相機(jī)[2]或主動(dòng)技術(shù)如Kinect[3]，LeapMotion[4]等捕獲RGB圖像或三位深度通道[5]進(jìn)行手勢(shì)識(shí)別的方法為基于視覺的方法。而傳感器的識(shí)別方法是根據(jù)不同傳感器獲得手勢(shì)動(dòng)作信號(hào)特征，傳感器包括慣性測(cè)量單元（IMU）和EMG肌電信號(hào)感應(yīng)器[6]傳感數(shù)據(jù)手套[7]等。視覺交互會(huì)受到用戶所用的儀器設(shè)備精密度以及所處識(shí)別環(huán)境的影響，若使用者所處地方過亮或過暗，交互體驗(yàn)就會(huì)大打折扣。穿戴式傳感器的交互方式影響人機(jī)交互的方便性，因此采用紅外傳感器，接收手勢(shì)動(dòng)作所反射的動(dòng)作數(shù)據(jù)，這樣既提高了使用者的便捷性，又不受環(huán)境的影響。

基于紅外傳感器的手勢(shì)識(shí)別方法包括兩種：特征提取法和深度學(xué)習(xí)方法。特征提取法需要人為自主地提取手勢(shì)動(dòng)作特征，從而進(jìn)行準(zhǔn)確識(shí)別，需要采集較多數(shù)據(jù)并找到數(shù)據(jù)規(guī)律，同時(shí)要在程序中設(shè)置大量閾值，閾值的大小會(huì)影響手勢(shì)識(shí)別的精準(zhǔn)度。而隨著深度學(xué)習(xí)的提出和卷積神經(jīng)網(wǎng)絡(luò)（CNN）被廣泛的應(yīng)用在手勢(shì)動(dòng)作識(shí)別上，CNN能自行從輸入數(shù)據(jù)集中學(xué)習(xí)特征，減少提取特征時(shí)導(dǎo)致的不穩(wěn)定性。Aparna[8]將得到的采樣數(shù)據(jù)集，通過網(wǎng)絡(luò)深度學(xué)習(xí)，該網(wǎng)絡(luò)基于LeNet，識(shí)別率較高。在眾多研究中，有些使用長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）進(jìn)行手勢(shì)識(shí)別，甚至有些研究將上述兩種網(wǎng)絡(luò)模型同時(shí)放進(jìn)一個(gè)網(wǎng)絡(luò)中，獲得了較高的識(shí)別成功率。因此，后續(xù)手勢(shì)識(shí)別方法將采用CNN-LSTM混合模型對(duì)手勢(shì)動(dòng)作進(jìn)行分類。

1 手勢(shì)動(dòng)作數(shù)據(jù)集

1.1 手勢(shì)動(dòng)作定義

本方法定義三類共七種手勢(shì)，如圖1（a）為面內(nèi)平移手勢(shì)，圖1（b）為面外平移手勢(shì)，包括上下平移和左右平移手勢(shì)。圖1（c）為面內(nèi)旋轉(zhuǎn)手勢(shì)，其中包括順時(shí)針或逆時(shí)針旋轉(zhuǎn)。由于采用的紅外傳感器帶有四個(gè)紅外光源，因此，在不同種類手勢(shì)下，紅外傳感器內(nèi)四組數(shù)字信號(hào)變化不同。下面將對(duì)獲取到的不同種類手勢(shì)數(shù)據(jù)進(jìn)行處理。

1.2 手勢(shì)數(shù)據(jù)獲取及預(yù)處理

紅外傳感器接收到的數(shù)據(jù)，由于人手移動(dòng)速度不穩(wěn)定，會(huì)導(dǎo)致采樣數(shù)據(jù)長(zhǎng)度不同，且數(shù)據(jù)的區(qū)分度不明顯，只有變化趨勢(shì)。因此，為了簡(jiǎn)化識(shí)別的過程，提高手勢(shì)動(dòng)作識(shí)別的精準(zhǔn)度，對(duì)采集到的手勢(shì)數(shù)據(jù)進(jìn)行多項(xiàng)式擬合，并插值處理，統(tǒng)一每一次手勢(shì)的數(shù)據(jù)長(zhǎng)度Length。多項(xiàng)式擬合公式如下：

[yx，ω=ω0+ω1x+ω0+ω2x?+···+ωMxM]? ⑴

其中，M是多項(xiàng)式的階數(shù)，[ω]是參數(shù)，x是已知的樣本數(shù)據(jù)。通過數(shù)據(jù)擬合得到關(guān)于[yx，ω]和t的損失函數(shù)[Eω]，具體函數(shù)如下：

[Eω=12i=1N{yx，ω-tn}?]? ⑵

對(duì)于這個(gè)損失函數(shù)，因?yàn)樗且粋€(gè)關(guān)于[ω]的二次函數(shù)，因此得到惟一解[ω]*。

[?Eωωj=1Nj=0Mωjxjn-tnxjn=0]? ⑶

數(shù)據(jù)多項(xiàng)式擬合且差值規(guī)整后對(duì)比圖如圖2所示，圖（a）表示數(shù)據(jù)處理前的曲線圖，圖（b）表示數(shù)據(jù)處理后的曲線圖。本方法設(shè)計(jì)的Length=50。數(shù)據(jù)長(zhǎng)度的大小取決于人手動(dòng)作速度和采集數(shù)據(jù)頻率。數(shù)據(jù)長(zhǎng)度過小，降低手勢(shì)識(shí)別的精準(zhǔn)度。數(shù)據(jù)長(zhǎng)度過大，減慢了識(shí)別速度。

2 網(wǎng)絡(luò)模型

2.1 CNN模型

CNN網(wǎng)絡(luò)模型如圖3所示。該方法循環(huán)使用卷積層和下采樣層，從采樣初始數(shù)據(jù)中獲得能表明數(shù)據(jù)的局部特征，從而變成大量無損的特征向量。

2.2 LSTM網(wǎng)絡(luò)模型

LSTM網(wǎng)絡(luò)是一種改進(jìn)的時(shí)間遞推神經(jīng)網(wǎng)絡(luò)（RNN）。它通過添加一個(gè)遺忘門，來使“梯度消失”問題得到改良[9]。LSTM網(wǎng)絡(luò)單元如圖4所示。

LSTM網(wǎng)絡(luò)的基本單元中包含遺忘門、輸入門和輸出門。遺忘門中輸入xt與狀態(tài)記憶單元St-1、中間輸出ht-1共同決定狀態(tài)記憶單元遺忘部分。輸入門中的x分別經(jīng)過函數(shù)變化后共同決定狀態(tài)記憶單元中保留向量。

2.3 CNN-LSTM網(wǎng)絡(luò)混合模型

本文的CNN-LSTM模型如圖6所示，其通過堆疊多個(gè)卷積塊、池化層、全平均和Softmax層實(shí)現(xiàn)分類，而每一個(gè)卷積塊包括卷積層和ReLU激活層，如圖5卷積層輸入[x]的卷積是用一組可訓(xùn)練的多維filter [fk]計(jì)算的，然后將所得結(jié)果與偏差[bk]相加。假設(shè)有k個(gè)filter，其該層的第k個(gè)輸出可以用如下等式表示：

[gk（i，j）=c=1Cfck*xc（i，j）+bk]? ⑷

其中，大寫字母C表示輸入總通道數(shù)，[xc（i，j）]表示輸入的第c個(gè)通道（channel）中的第[i]行和第[j]列中的區(qū)域。

組成卷積塊的第二層是ReLU層，其作用是增加了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，使得原本經(jīng)過訓(xùn)練后像公式一樣求得的線性神經(jīng)網(wǎng)絡(luò)可以學(xué)得更加復(fù)雜的數(shù)據(jù)關(guān)系。其公式如下：

[yk（i，j）=max（hk（i，j），0）]? ⑸

池化層則用于減小特征數(shù)量，本文選取的池化是最大值池化，公式如下：

[pki'，j'=max （yk（i'+i-1，j'+j-1））]? ⑹

其中，[i']和[j']表示輸出后的第[i]行和第[j]列。Softmax層是將最后的特征結(jié)果轉(zhuǎn)換為分類類別概率后再進(jìn)行分類，其公式如下：

[PY=Yn=eYnn=1NeYn]? ?⑺

其中，[Yn]表示其中一類缺陷n的輸出結(jié)果，N是缺陷類別總數(shù)，[PY=Yn]是缺陷n輸出結(jié)果[Yn]的概率信息。

如圖6，輸入數(shù)據(jù)會(huì)先后進(jìn)入兩個(gè)64個(gè)神經(jīng)元LSTM層，然后再進(jìn)入Conv_Block1層，Conv_Block1有64個(gè)filters，其核大小是2[×]2，而后是Conv_Block2，其filter數(shù)量是192個(gè)，核大小是2[×]2，而后特征圖進(jìn)入一個(gè)核大小是2[×]2，步長(zhǎng)為2的最大池化層里，以此類推，直至Conv_Block3。在Conv_Block3后接入全平均池層，減少參數(shù)量。而后再進(jìn)行Softmax分類。

3 實(shí)驗(yàn)與性能分析

3.1 實(shí)驗(yàn)平臺(tái)和數(shù)據(jù)采集

本文實(shí)驗(yàn)基于keras深度學(xué)習(xí)框架和型號(hào)為NVIDIA GeForce GTX 1060的GPU。采用美國AVAGO型號(hào)為APDS9960的紅外傳感器，在校內(nèi)普通實(shí)驗(yàn)室采集數(shù)據(jù)。將傳感器置于實(shí)驗(yàn)平臺(tái)。六名測(cè)試人員在實(shí)驗(yàn)區(qū)完成七種手勢(shì)動(dòng)作各50次，獲得2100組數(shù)據(jù)集。將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測(cè)試集進(jìn)行實(shí)驗(yàn)。

3.2 實(shí)驗(yàn)結(jié)果對(duì)比

本方法采用三種不同網(wǎng)絡(luò)模型來進(jìn)行對(duì)于手勢(shì)識(shí)別的深度學(xué)習(xí)研究。如圖7所示，通過圖7（a）CNN模型，圖7（b）LSTM模型和圖7（c）CNN-LSTM模型三個(gè)模型相比，可以看出CNN-LSTM網(wǎng)絡(luò)收斂速度更快，損失值下降的更低。

為了驗(yàn)證CNN-LSTM的網(wǎng)絡(luò)性能，將不同網(wǎng)絡(luò)模型下不同手勢(shì)識(shí)別率記錄下來如表1。

對(duì)于采集到的手勢(shì)數(shù)據(jù)，CNN-LSTM網(wǎng)絡(luò)模型的準(zhǔn)確率相對(duì)于CNN和LSTM單個(gè)網(wǎng)絡(luò)有較大的提升。由于圖8的混淆矩陣可以看出，除了面外逆時(shí)針旋轉(zhuǎn)外，其余手勢(shì)識(shí)別準(zhǔn)確率均達(dá)到98%以上。導(dǎo)致逆時(shí)針旋轉(zhuǎn)手勢(shì)識(shí)別率較低的原因可能是受到紅外傳感器位置和人手臂的影響。

4 結(jié)論

針對(duì)人機(jī)交互中的手勢(shì)識(shí)別問題，本文提出了一種基于深度學(xué)習(xí)分類手勢(shì)動(dòng)作的識(shí)別方法，通過紅外傳感器接收到手勢(shì)動(dòng)作數(shù)據(jù)，使用一種CNN和LSTM相結(jié)合的網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明，對(duì)比單獨(dú)使用單個(gè)模型來說，CNN-LSTM混合模型在識(shí)別率上有明顯提升，7種手勢(shì)動(dòng)作的平均識(shí)別率為99.1%，其中幾個(gè)手勢(shì)動(dòng)作識(shí)別率達(dá)到100%，但也有手勢(shì)識(shí)別受到紅外傳感器位置和人手臂誤接觸的影響，導(dǎo)致識(shí)別率只達(dá)到97%。后續(xù)將進(jìn)一步研究網(wǎng)絡(luò)不同參數(shù)對(duì)識(shí)別結(jié)果的影響，加快模型的預(yù)測(cè)速度與識(shí)別準(zhǔn)確率等。

參考文獻(xiàn)（References）：

[1] CHEOK M J，OMAR Z，JAWARD MH.A review of hand

gesture and sign language recognition techniques[J]. International Journal of Machine Learning and Cybernetics，2019，10（1）：131-153

[2] 林文華，房懷英，范璐璐，等.采用雙相機(jī)多尺度方法的機(jī)制砂

級(jí)配測(cè)量及空隙率預(yù)測(cè)[J].華僑大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，43（3）：285-290

[3] 張毅，張爍，羅元，等.基于Kinect深度圖像信息的手勢(shì)軌跡識(shí)

別及應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究，2012，29（09）：3547-3550

[4] 林書坦，尹長(zhǎng)青.基于LeapMotion的數(shù)字手勢(shì)識(shí)別[J].電腦

知識(shí)與技術(shù)，2015，11（35）：108-109

[5] 朱丙麗，高曉琴，阮玲英.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的單幅圖

像深度估計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件，2020，37（6）：230-233，241

[6] 謝小雨.基于表面肌電信號(hào)和慣性測(cè)量單元的手勢(shì)動(dòng)作識(shí)

別的研究[D].碩士，太原理工大學(xué)，2018

[7] 徐波，文武.數(shù)據(jù)手套中傳感器技術(shù)的研究[J].測(cè)控技術(shù)，

2002（8）：6-9

[8] AparnaAkula，Anuj K. Shah，RipulGhosh. Deep learning

approach for human action recognition in infrared images[J]. Cognitive Systems Research，2018，50

[9] 劉媛媛.融合CNN-LSTM和注意力機(jī)制的空氣質(zhì)量指數(shù)

預(yù)測(cè)[J].計(jì)算機(jī)時(shí)代，2022，355（1）：58-60