999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

GRU-CNN優(yōu)化模型的手勢動作識別研究

2021-02-28 06:20:20劉慧婷李建軍
關(guān)鍵詞:記憶特征實(shí)驗(yàn)

劉慧婷,李建軍

(內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭 014010)

1 引 言

動態(tài)手勢識別是人機(jī)交互系統(tǒng)發(fā)展的一個重要方向.由于動態(tài)手勢識別易受光照變化、復(fù)雜背景、遮擋以及類內(nèi)變化諸多因素的影響,成為一項(xiàng)具有挑戰(zhàn)性的任務(wù).雖然傳統(tǒng)的識別方法取得了良好的效果,但仍然存在魯棒性差、識別率低等缺點(diǎn)[1,2].基于深度學(xué)習(xí)的方法,由于其具有很強(qiáng)的自學(xué)習(xí)能力以及能夠根據(jù)大量的樣本學(xué)習(xí)獲得深層次的語義特征,受到了廣大學(xué)者的青睞.本文基于深度學(xué)習(xí)進(jìn)行動態(tài)手勢識別,進(jìn)一步提高了動態(tài)手勢識別的準(zhǔn)確率,獲得了更強(qiáng)的魯棒性和較好的泛化能力.

CNN[3,4]可以直接將圖像數(shù)據(jù)作為輸入,不需要人工對圖像進(jìn)行預(yù)處理和額外的特征抽取等復(fù)雜操作,保留了更多的數(shù)據(jù)信息,減少了數(shù)據(jù)特征的損失.因此CNN得到了廣泛的應(yīng)用.例如,基于CNN設(shè)計(jì)的LeNet、AlexNet、GoogleNet以及深度神經(jīng)網(wǎng)絡(luò)VGGNet和ResNet網(wǎng)絡(luò)等,在視頻處理等領(lǐng)域均取得了非常好的效果.

卷積神經(jīng)網(wǎng)絡(luò)通常只能提取短期視頻序列的時空信息,無法保存從過去時序?qū)W習(xí)得到的信息.鑒于長短期記憶網(wǎng)絡(luò)(LSTM)在處理和預(yù)測時間序列問題上的良好表現(xiàn),因此,許多學(xué)者將CNN和LSTM網(wǎng)絡(luò)進(jìn)行融合學(xué)習(xí).Donahue等人[5]將CNN 與LSTM模型進(jìn)行融合,提出了LRCN網(wǎng)絡(luò),該網(wǎng)絡(luò)CNN用來提取空間信息,LSTM提取時間信息,最后通過softmax層輸出結(jié)果,但該模型收斂慢訓(xùn)練難度大;Pedro等人[6]提出LSTM-CNN模型進(jìn)行文本分類,取得了不錯的結(jié)果.Feichtenhofer等人[7]提出的雙流卷積網(wǎng)絡(luò),將兩個分支softmax分?jǐn)?shù)進(jìn)行融合,該方法的缺點(diǎn)是光流只能獲取短時間上的信息.

雖然LSTM網(wǎng)絡(luò)對有長時間關(guān)聯(lián)性變化的數(shù)據(jù)有較強(qiáng)的處理能力,但與GRU[8,9]網(wǎng)絡(luò)相比,GRU網(wǎng)絡(luò)具有更少的網(wǎng)絡(luò)參數(shù),收斂時間更短,能更好地滿足人機(jī)交互的實(shí)時性需求.因此,本文提出了GRU-CNN融合網(wǎng)絡(luò)模型,該模型首先使用GRU網(wǎng)絡(luò)將輸入的時間序列進(jìn)行標(biāo)記,其中不僅包含原始標(biāo)記的信息,還包含輸出標(biāo)記的歷史信息,然后通過CNN網(wǎng)絡(luò)進(jìn)行特征提取.該結(jié)構(gòu)比直接使用CNN提取的特征更加的豐富,有利于我們獲得更好的識別率和魯棒性.最后通過全局池化輸出分類結(jié)果.

2 相關(guān)理論

2.1 CNN

卷積神經(jīng)網(wǎng)絡(luò)CNN是一種深度前饋人工網(wǎng)絡(luò),在圖像處理領(lǐng)域得到了廣泛的應(yīng)用[10-12].卷積神經(jīng)網(wǎng)絡(luò)有3個基本層:卷積層(Convolutional Layer),池化層(Pooling Layer),全連接層(Fully Connected Layer).卷積神經(jīng)網(wǎng)絡(luò)最重要的步驟就是卷積,如公式(1)所示:

(1)

式中y(x)為輸出,f(*)為激活函數(shù),m×n大小的(i,j)位置的卷積核權(quán)值為ωij,其中i,j∈Rm,n,xij為原始圖片和卷積核對應(yīng)區(qū)域的像素值,b為偏置.

2.2 LSTM

長短期記憶網(wǎng)絡(luò)(Longshort term memory network)是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN經(jīng)過改進(jìn)之后的循環(huán)神經(jīng)網(wǎng)絡(luò)[13-15],在隱藏層各神經(jīng)單元中增加記憶單元,從而使時間序列上的記憶信息可控,每次在隱藏層各單元間傳遞時通過幾個可控門(遺忘門、輸入門、候選門、輸出門),控制之前信息和當(dāng)前信息的記憶和遺忘程度,從而使RNN網(wǎng)絡(luò)具備了長期記憶功能.因此LSTM比RNN具備長期記憶功能力和可控記憶能力[16],它可以避免常規(guī)RNN的梯度消失或爆炸問題.LSTM的基本結(jié)構(gòu)如圖1所示.

圖1 LSTM基本結(jié)構(gòu)圖

其中σ和tanh是激活函數(shù).it為輸入門,ft為遺忘門,ot為輸出門,ht表示當(dāng)前時刻輸出,ht-1表示前一時刻輸出,Ct表示當(dāng)前記憶單元狀態(tài),Ct-1表示前一時刻記憶單元狀態(tài)[17].具體的計(jì)算公式如式(2)-式(7):

ft=σ(Wf·[ht-1,xt]+bf)

(2)

it=σ(Wi·[ht-1,xt]+bi)

(3)

(4)

(5)

ot=σ(Wo·[ht-1,xt]+bo)

(6)

ht=ot*tanh(Ct)

(7)

2.3 GRU

GRU是LSTM的一個變體,它保持LSTM效果的同時,變得更加簡單,相比于LSTM,GRU只有兩個門,即更新門(update gate)和重置門(reset gate).更新門決定有多少歷史的信息可以繼續(xù)傳遞到未來.將前一時刻和當(dāng)前時刻的信息分別進(jìn)行線性變換,也就是分別右乘權(quán)重矩陣,然后相加后的數(shù)據(jù)送入更新門,即與sigmoid函數(shù)相乘,得出在[0,1]之間的數(shù)值.重置門決定有多少歷史信息不能繼續(xù)傳遞到下一時刻.同更新門的數(shù)據(jù)處理方式一樣.只是兩次的權(quán)重矩陣的數(shù)值和用處不同.如圖2所示,GRU的基本模型.

圖2 GRU基本結(jié)構(gòu)圖

2.4 全局平均池化

全局平均池化(GAP)不采用窗口形式的平均值,它以特征圖為平均單位,一個特征圖輸出一個數(shù)值.這樣使得各個類別之間的連接更加直觀,分類概率的轉(zhuǎn)換更加容易.將特征圖轉(zhuǎn)換為分類概率更容易.同時,GAP匯總了空間信息,使輸入的空間轉(zhuǎn)換更加可靠.GAP操作過程如圖3所示.

圖3 全局平均池化圖示

3 本文模型

GRU-CNN模型如圖4所示,該模型使用3個雙向GRU層框架.本文將先將圖片處理為CSV文件,CSV文件存儲人體各個部位的骨骼幀數(shù)據(jù).數(shù)據(jù)集的每一幀數(shù)據(jù)由人體20個骨骼關(guān)鍵點(diǎn)的坐標(biāo)組成.由于空間信息豐富,距離特征適合輸入GRU,但距離特征丟失了大量的方向信息.用CNN來捕捉方向信息.第1個GRU層將手勢動作識別的20個骨骼關(guān)鍵點(diǎn)幀序列的數(shù)據(jù)作為輸入,該輸入的是每一個骨骼關(guān)鍵點(diǎn)的位置向量;第1層GRU的輸出作為第2層GRU的輸出;最后一層GRU的輸出饋送到卷積層.其中,卷積窗口的大小設(shè)置對最終的分類結(jié)果影響較大,借鑒文本分類思想,通過提取相鄰n個特征進(jìn)行局部特征的提取,從而捕捉人體手勢關(guān)鍵點(diǎn)信息,對整個人體手勢的進(jìn)行判斷.根據(jù)這種思想,將卷積窗口大小設(shè)置為n*m,n為骨骼關(guān)鍵點(diǎn)的的個數(shù),m為圖片的向量維度.最后將卷積層的輸出進(jìn)行全局平均池化再輸入到全連接層和dropout層防止過擬合,提高模型泛化能力.最后將結(jié)果輸入到softmax層進(jìn)行歸類.

該模型中GRU框架用于提取骨架序列的時間序列特征,GRU的輸出用作CNN的輸入,以獲得骨骼的空間特征[18].

4 實(shí)驗(yàn)及結(jié)果

4.1 數(shù)據(jù)集

實(shí)驗(yàn)使用的MSRC-12數(shù)據(jù)集是微軟研究院公開的動作行為數(shù)據(jù)集[19],該數(shù)據(jù)集使用Kinect體感設(shè)備采集獲得,30個人執(zhí)行12類動作行為,包括594個動作序列,6244個動作實(shí)例.

4.2 實(shí)驗(yàn)結(jié)果及分析

本文將GRU層作為初始層,骨骼序列輸入GRU層.然后將GRU層的輸入緊接著輸入到CNN模型以提取局部特征.本文將數(shù)據(jù)集按訓(xùn)練集和測試集8:2的比例進(jìn)行訓(xùn)練.

為了驗(yàn)證該模型的可行性,本文分別進(jìn)行了幾組模型的對比實(shí)驗(yàn).為了說明GRU模型在網(wǎng)絡(luò)中的重要性,本文還設(shè)計(jì)了CNN-GRU模型,并進(jìn)行了實(shí)驗(yàn)對比.

1)本實(shí)驗(yàn)是在Tensorflow和Keras深度學(xué)習(xí)平臺和采用NVIDIA v100卡Ubuntu系統(tǒng)下進(jìn)行的實(shí)驗(yàn).其中Dropout為0.5.最初將學(xué)習(xí)率設(shè)置為0.001以進(jìn)行微調(diào).并設(shè)置了時間步長(Epoch)為10.

實(shí)驗(yàn)結(jié)果如表1所示.

表1 在數(shù)據(jù)集MSRC-12上的對比實(shí)驗(yàn)

本文所提出的方法與最近幾年其他最新方法進(jìn)行比較,從實(shí)驗(yàn)結(jié)果可以看出,該模型獲得了最高的識別率,驗(yàn)證了該模型的可行性和有效性.在CNN-GRU模型中GRU層僅僅充當(dāng)著全連接層的作用,對于這個模型來說沒有將GRU處理時間序列的優(yōu)勢展現(xiàn)出來.而對于GRU-CNN模型,初始層GRU像一個編輯器將輸入的每個序列進(jìn)行標(biāo)記,其中不僅包含原始標(biāo)記的信息,而且還包含輸出標(biāo)記所有其他以前的信息.之后,CNN層將使用原始輸入的更豐富的表示來查找局部特征,從而獲得更好的準(zhǔn)確性.

2)為了驗(yàn)證GRU模型作為LSTM模型變體具有的優(yōu)勢,本文還進(jìn)行了GRU-CNN模型和LSTM-CNN模型的對比實(shí)驗(yàn).如圖5所示,橫坐標(biāo)是訓(xùn)練的批次epoch,縱坐標(biāo)是訓(xùn)練精度,在相同的實(shí)驗(yàn)參數(shù)下,可知GRU-CNN模型收斂速度明顯優(yōu)于LSTM-CNN模型,但得到的最終訓(xùn)練精度卻相差不大.但是由于GRU的結(jié)構(gòu)比LSTM簡單,參數(shù)更少更容易收斂,訓(xùn)練速度更快.

圖5 LSTM-CNN與GRU-CNN模型的訓(xùn)練精度

3)該實(shí)驗(yàn)主要分析dropout和epoch設(shè)置對模型的影響.

不同dropout設(shè)置參數(shù)對模型實(shí)驗(yàn)的影響如表2所示.

表2 Dropout參數(shù)對模型影響的對比實(shí)驗(yàn)

dropout層的作用是在模型訓(xùn)練時讓網(wǎng)絡(luò)的某些隱含層節(jié)點(diǎn)的權(quán)重暫時不工作,防止模型過擬合.由于本文采用交叉驗(yàn)證,隱含節(jié)點(diǎn)dropout率為0.5時,對比的模型均取得了較好的實(shí)驗(yàn)結(jié)果,原因是0.5的時候dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多.當(dāng)dropout為0.3時,它將對CNN-GRU的影響最大,減少了近50%.但是,CNN和GRU模型的準(zhǔn)確性有所提高.當(dāng)dropout為0.9時,所有3個模型均減少5%-21%.從實(shí)驗(yàn)結(jié)果可以看出,本文提出的GRU-CNN模型在不同的dropout參數(shù)下,均能取得較好的效果,具有較強(qiáng)的魯棒性.

學(xué)習(xí)率對模型的識別準(zhǔn)確率的影響如表3所示.

表3 學(xué)習(xí)率對模型準(zhǔn)確率的對比試驗(yàn)

從實(shí)驗(yàn)結(jié)果可以看到epoch大小對GRU-CNN模型影響不大,但CNN和CNN-GRU模型的精度會隨著epoch的增加而大大增加,進(jìn)一步驗(yàn)證了該模型的有效性.

5 結(jié) 論

本文提出的基于GRU—CNN的融合網(wǎng)絡(luò)模型,在MSRC-12數(shù)據(jù)集上取得了最高的識別率,優(yōu)于目前其他學(xué)者提出的方法,并通過網(wǎng)絡(luò)參數(shù)的性能對比實(shí)驗(yàn),進(jìn)一步證明了該網(wǎng)絡(luò)模型具有一定的可行性和較好的魯棒性.為動態(tài)手勢識別領(lǐng)域的研究提供了新的思路.

猜你喜歡
記憶特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
做個怪怪長實(shí)驗(yàn)
不忠誠的四個特征
抓住特征巧觀察
記憶中的他們
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
兒時的記憶(四)
兒時的記憶(四)
主站蜘蛛池模板: 久久女人网| 亚洲国产天堂在线观看| 国产精品视频导航| 亚洲精品在线影院| www.国产福利| 67194亚洲无码| 国产乱子伦手机在线| 波多野结衣一级毛片| 在线播放精品一区二区啪视频| 免费高清a毛片| 国产成年无码AⅤ片在线| 国产一级无码不卡视频| 免费 国产 无码久久久| 在线毛片免费| 波多野结衣一区二区三区88| 色综合天天操| 亚洲日韩精品综合在线一区二区| 国产永久免费视频m3u8| 亚洲欧洲一区二区三区| 99爱视频精品免视看| 色婷婷综合激情视频免费看| 91九色最新地址| 黄色网址免费在线| 成人小视频网| 99精品免费在线| 97青青青国产在线播放| 国产不卡一级毛片视频| 麻豆国产精品| 国产美女91视频| 免费日韩在线视频| 少妇人妻无码首页| 国产成人免费视频精品一区二区| 三区在线视频| 国产成人综合网在线观看| 国产在线麻豆波多野结衣| 国产精品微拍| 精品国产中文一级毛片在线看 | 麻豆AV网站免费进入| 国产主播在线观看| 五月天丁香婷婷综合久久| 免费国产福利| a毛片在线播放| 午夜视频日本| 在线人成精品免费视频| 视频二区中文无码| 国产丰满大乳无码免费播放| 欧美成人区| 精品国产一区91在线| 久久狠狠色噜噜狠狠狠狠97视色| 五月天香蕉视频国产亚| 国产在线视频自拍| www亚洲天堂| 亚洲精品777| 国内熟女少妇一线天| 在线观看视频99| 一本一本大道香蕉久在线播放| 欧美日韩资源| 欧洲亚洲欧美国产日本高清| 69av在线| 58av国产精品| 综合天天色| 国产麻豆精品久久一二三| 午夜无码一区二区三区在线app| 欧洲高清无码在线| 伊伊人成亚洲综合人网7777| 91精品国产91久久久久久三级| 久久国产乱子伦视频无卡顿| 国产麻豆永久视频| 亚洲高清在线播放| 夜夜拍夜夜爽| 67194亚洲无码| 亚洲精品少妇熟女| 久久毛片免费基地| 成人福利视频网| 亚洲AV无码久久精品色欲| 狠狠色丁香婷婷| 高清免费毛片| 国产精品私拍99pans大尺度| 丝袜国产一区| 成年A级毛片| 国产成人免费手机在线观看视频| 久久精品中文字幕少妇|