999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的動(dòng)態(tài)手勢(shì)識(shí)別方法

2023-05-14 03:56:13周勇吳震宇
計(jì)算機(jī)時(shí)代 2023年5期
關(guān)鍵詞:深度學(xué)習(xí)

周勇 吳震宇

摘? 要: 手勢(shì)識(shí)別作為人機(jī)交互的一個(gè)重要領(lǐng)域,是目前視覺研究的重點(diǎn)和熱門。不同于圖像研究,本文針對(duì)紅外傳感器采集到的手勢(shì)動(dòng)作數(shù)據(jù),提出一種基于深度學(xué)習(xí)的手勢(shì)識(shí)別方法。該方法通過紅外傳感器采集7種動(dòng)態(tài)手勢(shì)信號(hào)數(shù)據(jù),使用不同網(wǎng)絡(luò)模型對(duì)手勢(shì)進(jìn)行分類。實(shí)驗(yàn)表明,若只使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)或長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)單個(gè)網(wǎng)絡(luò)模型的手勢(shì)識(shí)別,準(zhǔn)確率最高為92.7%;而CNN-LSTM混合網(wǎng)絡(luò)模型平均手勢(shì)識(shí)別準(zhǔn)確率為99.1%。

關(guān)鍵詞: 手勢(shì)識(shí)別; 深度學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò); 長(zhǎng)短期記憶網(wǎng)絡(luò)

中圖分類號(hào):TP391.41;TP18? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)05-77-04

Dynamic gesture recognition based on depth learning

Zhou Yong, Wu Zhenyu

(College of Mechanical and Automatic Control, Zhejiang Sci-tech University, Hangzhou, Zhejiang 310018, China)

Abstract: Hand gesture recognition, as an important field of human-computer interaction, is currently the focus and hotspot of vision research. In this paper, different from image research, a gesture recognition method based on deep learning is proposed for the gesture motion data collected by infrared sensors. Seven kinds of dynamic gesture signal data are collected, and the gestures are classified using different network models. Experiments show that if only a single network model of CNN or LSTM is used for gesture recognition, the highest accuracy is 92.7%, while the average gesture recognition accuracy of CNN-LSTM hybrid network model is 99.1%.

Key words: hand gesture recognition; deep learning; convolution neural network (CNN); long and short term memory network (LSTM)

0 引言

目前手勢(shì)識(shí)別方法多樣,Cheo[1]等人提出手勢(shì)識(shí)別方法主要分為兩種,其中包括基于數(shù)據(jù)特征值區(qū)分或圖像處理的手勢(shì)識(shí)別方法。通過相機(jī)[2]或主動(dòng)技術(shù)如Kinect[3],LeapMotion[4]等捕獲RGB圖像或三位深度通道[5]進(jìn)行手勢(shì)識(shí)別的方法為基于視覺的方法。而傳感器的識(shí)別方法是根據(jù)不同傳感器獲得手勢(shì)動(dòng)作信號(hào)特征,傳感器包括慣性測(cè)量單元(IMU)和EMG肌電信號(hào)感應(yīng)器[6]傳感數(shù)據(jù)手套[7]等。視覺交互會(huì)受到用戶所用的儀器設(shè)備精密度以及所處識(shí)別環(huán)境的影響,若使用者所處地方過亮或過暗,交互體驗(yàn)就會(huì)大打折扣。穿戴式傳感器的交互方式影響人機(jī)交互的方便性,因此采用紅外傳感器,接收手勢(shì)動(dòng)作所反射的動(dòng)作數(shù)據(jù),這樣既提高了使用者的便捷性,又不受環(huán)境的影響。

基于紅外傳感器的手勢(shì)識(shí)別方法包括兩種:特征提取法和深度學(xué)習(xí)方法。特征提取法需要人為自主地提取手勢(shì)動(dòng)作特征,從而進(jìn)行準(zhǔn)確識(shí)別,需要采集較多數(shù)據(jù)并找到數(shù)據(jù)規(guī)律,同時(shí)要在程序中設(shè)置大量閾值,閾值的大小會(huì)影響手勢(shì)識(shí)別的精準(zhǔn)度。而隨著深度學(xué)習(xí)的提出和卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛的應(yīng)用在手勢(shì)動(dòng)作識(shí)別上,CNN能自行從輸入數(shù)據(jù)集中學(xué)習(xí)特征,減少提取特征時(shí)導(dǎo)致的不穩(wěn)定性。Aparna[8]將得到的采樣數(shù)據(jù)集,通過網(wǎng)絡(luò)深度學(xué)習(xí),該網(wǎng)絡(luò)基于LeNet,識(shí)別率較高。在眾多研究中,有些使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)行手勢(shì)識(shí)別,甚至有些研究將上述兩種網(wǎng)絡(luò)模型同時(shí)放進(jìn)一個(gè)網(wǎng)絡(luò)中,獲得了較高的識(shí)別成功率。因此,后續(xù)手勢(shì)識(shí)別方法將采用CNN-LSTM混合模型對(duì)手勢(shì)動(dòng)作進(jìn)行分類。

1 手勢(shì)動(dòng)作數(shù)據(jù)集

1.1 手勢(shì)動(dòng)作定義

本方法定義三類共七種手勢(shì),如圖1(a)為面內(nèi)平移手勢(shì),圖1(b)為面外平移手勢(shì),包括上下平移和左右平移手勢(shì)。圖1(c)為面內(nèi)旋轉(zhuǎn)手勢(shì),其中包括順時(shí)針或逆時(shí)針旋轉(zhuǎn)。由于采用的紅外傳感器帶有四個(gè)紅外光源,因此,在不同種類手勢(shì)下,紅外傳感器內(nèi)四組數(shù)字信號(hào)變化不同。下面將對(duì)獲取到的不同種類手勢(shì)數(shù)據(jù)進(jìn)行處理。

1.2 手勢(shì)數(shù)據(jù)獲取及預(yù)處理

紅外傳感器接收到的數(shù)據(jù),由于人手移動(dòng)速度不穩(wěn)定,會(huì)導(dǎo)致采樣數(shù)據(jù)長(zhǎng)度不同,且數(shù)據(jù)的區(qū)分度不明顯,只有變化趨勢(shì)。因此,為了簡(jiǎn)化識(shí)別的過程,提高手勢(shì)動(dòng)作識(shí)別的精準(zhǔn)度,對(duì)采集到的手勢(shì)數(shù)據(jù)進(jìn)行多項(xiàng)式擬合,并插值處理,統(tǒng)一每一次手勢(shì)的數(shù)據(jù)長(zhǎng)度Length。多項(xiàng)式擬合公式如下:

[yx,ω=ω0+ω1x+ω0+ω2x?+···+ωMxM]? ⑴

其中,M是多項(xiàng)式的階數(shù),[ω]是參數(shù),x是已知的樣本數(shù)據(jù)。通過數(shù)據(jù)擬合得到關(guān)于[yx,ω]和t的損失函數(shù)[Eω],具體函數(shù)如下:

[Eω=12i=1N{yx,ω-tn}?]? ⑵

對(duì)于這個(gè)損失函數(shù),因?yàn)樗且粋€(gè)關(guān)于[ω]的二次函數(shù),因此得到惟一解[ω]*。

[?Eωωj=1Nj=0Mωjxjn-tnxjn=0]? ⑶

數(shù)據(jù)多項(xiàng)式擬合且差值規(guī)整后對(duì)比圖如圖2所示,圖(a)表示數(shù)據(jù)處理前的曲線圖,圖(b)表示數(shù)據(jù)處理后的曲線圖。本方法設(shè)計(jì)的Length=50。數(shù)據(jù)長(zhǎng)度的大小取決于人手動(dòng)作速度和采集數(shù)據(jù)頻率。數(shù)據(jù)長(zhǎng)度過小,降低手勢(shì)識(shí)別的精準(zhǔn)度。數(shù)據(jù)長(zhǎng)度過大,減慢了識(shí)別速度。

2 網(wǎng)絡(luò)模型

2.1 CNN模型

CNN網(wǎng)絡(luò)模型如圖3所示。該方法循環(huán)使用卷積層和下采樣層,從采樣初始數(shù)據(jù)中獲得能表明數(shù)據(jù)的局部特征,從而變成大量無損的特征向量。

2.2 LSTM網(wǎng)絡(luò)模型

LSTM網(wǎng)絡(luò)是一種改進(jìn)的時(shí)間遞推神經(jīng)網(wǎng)絡(luò)(RNN)。它通過添加一個(gè)遺忘門,來使“梯度消失”問題得到改良[9]。LSTM網(wǎng)絡(luò)單元如圖4所示。

LSTM網(wǎng)絡(luò)的基本單元中包含遺忘門、輸入門和輸出門。遺忘門中輸入xt與狀態(tài)記憶單元St-1、中間輸出ht-1共同決定狀態(tài)記憶單元遺忘部分。輸入門中的x分別經(jīng)過函數(shù)變化后共同決定狀態(tài)記憶單元中保留向量。

2.3 CNN-LSTM網(wǎng)絡(luò)混合模型

本文的CNN-LSTM模型如圖6所示,其通過堆疊多個(gè)卷積塊、池化層、全平均和Softmax層實(shí)現(xiàn)分類,而每一個(gè)卷積塊包括卷積層和ReLU激活層,如圖5卷積層輸入[x]的卷積是用一組可訓(xùn)練的多維filter [fk]計(jì)算的,然后將所得結(jié)果與偏差[bk]相加。假設(shè)有k個(gè)filter,其該層的第k個(gè)輸出可以用如下等式表示:

[gk(i,j)=c=1Cfck*xc(i,j)+bk]? ⑷

其中,大寫字母C表示輸入總通道數(shù),[xc(i,j)]表示輸入的第c個(gè)通道(channel)中的第[i]行和第[j]列中的區(qū)域。

組成卷積塊的第二層是ReLU層,其作用是增加了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,使得原本經(jīng)過訓(xùn)練后像公式一樣求得的線性神經(jīng)網(wǎng)絡(luò)可以學(xué)得更加復(fù)雜的數(shù)據(jù)關(guān)系。其公式如下:

[yk(i,j)=max(hk(i,j),0)]? ⑸

池化層則用于減小特征數(shù)量,本文選取的池化是最大值池化,公式如下:

[pki',j'=max (yk(i'+i-1,j'+j-1))]? ⑹

其中,[i']和[j']表示輸出后的第[i]行和第[j]列。Softmax層是將最后的特征結(jié)果轉(zhuǎn)換為分類類別概率后再進(jìn)行分類,其公式如下:

[PY=Yn=eYnn=1NeYn]? ?⑺

其中,[Yn]表示其中一類缺陷n的輸出結(jié)果,N是缺陷類別總數(shù),[PY=Yn]是缺陷n輸出結(jié)果[Yn]的概率信息。

如圖6,輸入數(shù)據(jù)會(huì)先后進(jìn)入兩個(gè)64個(gè)神經(jīng)元LSTM層,然后再進(jìn)入Conv_Block1層,Conv_Block1有64個(gè)filters,其核大小是2[×]2,而后是Conv_Block2,其filter數(shù)量是192個(gè),核大小是2[×]2,而后特征圖進(jìn)入一個(gè)核大小是2[×]2,步長(zhǎng)為2的最大池化層里,以此類推,直至Conv_Block3。在Conv_Block3后接入全平均池層,減少參數(shù)量。而后再進(jìn)行Softmax分類。

3 實(shí)驗(yàn)與性能分析

3.1 實(shí)驗(yàn)平臺(tái)和數(shù)據(jù)采集

本文實(shí)驗(yàn)基于keras深度學(xué)習(xí)框架和型號(hào)為NVIDIA GeForce GTX 1060的GPU。采用美國AVAGO型號(hào)為APDS9960的紅外傳感器,在校內(nèi)普通實(shí)驗(yàn)室采集數(shù)據(jù)。將傳感器置于實(shí)驗(yàn)平臺(tái)。六名測(cè)試人員在實(shí)驗(yàn)區(qū)完成七種手勢(shì)動(dòng)作各50次,獲得2100組數(shù)據(jù)集。將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測(cè)試集進(jìn)行實(shí)驗(yàn)。

3.2 實(shí)驗(yàn)結(jié)果對(duì)比

本方法采用三種不同網(wǎng)絡(luò)模型來進(jìn)行對(duì)于手勢(shì)識(shí)別的深度學(xué)習(xí)研究。如圖7所示,通過圖7(a)CNN模型,圖7(b)LSTM模型和圖7(c)CNN-LSTM模型三個(gè)模型相比,可以看出CNN-LSTM網(wǎng)絡(luò)收斂速度更快,損失值下降的更低。

為了驗(yàn)證CNN-LSTM的網(wǎng)絡(luò)性能,將不同網(wǎng)絡(luò)模型下不同手勢(shì)識(shí)別率記錄下來如表1。

對(duì)于采集到的手勢(shì)數(shù)據(jù),CNN-LSTM網(wǎng)絡(luò)模型的準(zhǔn)確率相對(duì)于CNN和LSTM單個(gè)網(wǎng)絡(luò)有較大的提升。由于圖8的混淆矩陣可以看出,除了面外逆時(shí)針旋轉(zhuǎn)外,其余手勢(shì)識(shí)別準(zhǔn)確率均達(dá)到98%以上。導(dǎo)致逆時(shí)針旋轉(zhuǎn)手勢(shì)識(shí)別率較低的原因可能是受到紅外傳感器位置和人手臂的影響。

4 結(jié)論

針對(duì)人機(jī)交互中的手勢(shì)識(shí)別問題,本文提出了一種基于深度學(xué)習(xí)分類手勢(shì)動(dòng)作的識(shí)別方法,通過紅外傳感器接收到手勢(shì)動(dòng)作數(shù)據(jù),使用一種CNN和LSTM相結(jié)合的網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明,對(duì)比單獨(dú)使用單個(gè)模型來說,CNN-LSTM混合模型在識(shí)別率上有明顯提升,7種手勢(shì)動(dòng)作的平均識(shí)別率為99.1%,其中幾個(gè)手勢(shì)動(dòng)作識(shí)別率達(dá)到100%,但也有手勢(shì)識(shí)別受到紅外傳感器位置和人手臂誤接觸的影響,導(dǎo)致識(shí)別率只達(dá)到97%。后續(xù)將進(jìn)一步研究網(wǎng)絡(luò)不同參數(shù)對(duì)識(shí)別結(jié)果的影響,加快模型的預(yù)測(cè)速度與識(shí)別準(zhǔn)確率等。

參考文獻(xiàn)(References):

[1] CHEOK M J,OMAR Z,JAWARD MH.A review of hand

gesture and sign language recognition techniques[J]. International Journal of Machine Learning and Cybernetics,2019,10(1):131-153

[2] 林文華,房懷英,范璐璐,等.采用雙相機(jī)多尺度方法的機(jī)制砂

級(jí)配測(cè)量及空隙率預(yù)測(cè)[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,43(3):285-290

[3] 張毅,張爍,羅元,等.基于Kinect深度圖像信息的手勢(shì)軌跡識(shí)

別及應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2012,29(09):3547-3550

[4] 林書坦,尹長(zhǎng)青.基于LeapMotion的數(shù)字手勢(shì)識(shí)別[J].電腦

知識(shí)與技術(shù),2015,11(35):108-109

[5] 朱丙麗,高曉琴,阮玲英.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的單幅圖

像深度估計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(6):230-233,241

[6] 謝小雨.基于表面肌電信號(hào)和慣性測(cè)量單元的手勢(shì)動(dòng)作識(shí)

別的研究[D].碩士,太原理工大學(xué),2018

[7] 徐波,文武.數(shù)據(jù)手套中傳感器技術(shù)的研究[J].測(cè)控技術(shù),

2002(8):6-9

[8] AparnaAkula,Anuj K. Shah,RipulGhosh. Deep learning

approach for human action recognition in infrared images[J]. Cognitive Systems Research,2018,50

[9] 劉媛媛.融合CNN-LSTM和注意力機(jī)制的空氣質(zhì)量指數(shù)

預(yù)測(cè)[J].計(jì)算機(jī)時(shí)代,2022,355(1):58-60

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 蜜芽国产尤物av尤物在线看| 亚洲国产系列| 狠狠v日韩v欧美v| 人妻丰满熟妇啪啪| 欧美亚洲第一页| 99久久精品免费视频| 亚洲精品少妇熟女| AV在线天堂进入| 国产视频你懂得| 亚洲Va中文字幕久久一区| 亚洲欧美成人在线视频| 丁香六月综合网| 97久久人人超碰国产精品| 国产va在线| 国产特级毛片aaaaaa| 日韩AV无码免费一二三区| 亚洲成年网站在线观看| 一级毛片免费播放视频| 国产永久免费视频m3u8| 日韩一区精品视频一区二区| 亚洲男人的天堂久久精品| 日韩av无码DVD| 久久亚洲美女精品国产精品| 欧美三级日韩三级| 在线观看欧美国产| 91久久国产成人免费观看| 国产一区在线视频观看| 国产小视频在线高清播放| 国产成人精品第一区二区| 在线中文字幕网| 91亚洲视频下载| 中文无码毛片又爽又刺激| 亚洲黄色高清| 日韩成人在线视频| 久久精品亚洲专区| 午夜高清国产拍精品| 萌白酱国产一区二区| 白丝美女办公室高潮喷水视频| 国产亚洲欧美日韩在线一区| 中文字幕免费在线视频| 亚洲三级网站| 久久久精品无码一二三区| 日韩黄色大片免费看| 日韩精品一区二区三区大桥未久| 精品人妻系列无码专区久久| 国产成人区在线观看视频| 欧美在线视频a| 久久婷婷人人澡人人爱91| 伊人久久久久久久久久| 亚洲IV视频免费在线光看| 国产黄在线免费观看| 日本妇乱子伦视频| 999精品色在线观看| 波多野结衣视频一区二区| 精品一区二区三区波多野结衣| 超碰免费91| 国产精品视频导航| 久久青草精品一区二区三区 | 2020国产在线视精品在| 久久国产热| 亚洲精品中文字幕无乱码| 天天操精品| 亚洲精品日产精品乱码不卡| 国产精品密蕾丝视频| 国产精品亚洲综合久久小说| 亚洲自偷自拍另类小说| 97se亚洲综合在线天天| 97成人在线视频| 亚洲九九视频| 一区二区影院| 国产日本欧美亚洲精品视| 亚洲国产在一区二区三区| 中文字幕无码电影| 久久青草热| 国产91在线|中文| 强奷白丝美女在线观看| 亚洲欧美在线综合一区二区三区| 国产精鲁鲁网在线视频| 强乱中文字幕在线播放不卡| 欧美激情视频在线观看一区| 亚洲国产精品一区二区第一页免 | 欧美日本激情|