袁 帥,韓曼菲,張莉莉,呂佳琪,張 鳳
(沈陽(yáng)建筑大學(xué) 信息與控制工程學(xué)院,沈陽(yáng) 110168)
手勢(shì)識(shí)別[1]作為人機(jī)交互技術(shù)的一種重要方法已經(jīng)在電子產(chǎn)品和智能設(shè)備中得到廣泛關(guān)注與深入研究.例如聾啞人的手語(yǔ)翻譯[2],手勢(shì)控制的智能無(wú)人機(jī),保時(shí)捷MissionE手勢(shì)識(shí)別系統(tǒng)等已經(jīng)有實(shí)際應(yīng)用.手勢(shì)識(shí)別的早期設(shè)備數(shù)據(jù)手套[3]因硬件設(shè)備造價(jià)昂貴,使用復(fù)雜,很難實(shí)現(xiàn).目前基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)主流方法存在著泛化能力不強(qiáng)、結(jié)構(gòu)過(guò)于復(fù)雜等不足,導(dǎo)致檢測(cè)時(shí)間過(guò)長(zhǎng)、精度不高等問(wèn)題.因此,深入研究基于深度學(xué)習(xí)的手勢(shì)識(shí)別方法對(duì)人機(jī)交互技術(shù)發(fā)展具有重要意義.
手勢(shì)識(shí)別算法在傳統(tǒng)方法方面通常依賴硬件設(shè)備或者基于視覺(jué)方法進(jìn)行識(shí)別.Jayashree R.Pansare等[4]提出采用網(wǎng)絡(luò)攝像機(jī)的實(shí)時(shí)手勢(shì)識(shí)別,通過(guò)連通域提取和標(biāo)記手勢(shì)特征,能夠可靠地識(shí)別單手手勢(shì),但在復(fù)雜背景下識(shí)別精度不高.因此,為了減少背景因素對(duì)于檢測(cè)結(jié)果的影響,Singha J等[5]采用基于視覺(jué)的手勢(shì)動(dòng)態(tài)識(shí)別系統(tǒng),該系統(tǒng)采用改良的Kanade-Lucas-Tomasi特征跟蹤器用來(lái)跟蹤手進(jìn)而選擇最優(yōu)特征,確定手勢(shì)區(qū)域,該方法減少了背景的影響,并且提高了識(shí)別精度,但是訓(xùn)練時(shí)間較長(zhǎng).為解決訓(xùn)練時(shí)間較長(zhǎng)的問(wèn)題,潘志庚等[6]提出了基于Kinect和膚色檢測(cè)算法結(jié)合的手勢(shì)識(shí)別系統(tǒng),然后使用改進(jìn)的凸分解算法和骨架匹配算法,算法效率有所提升,硬件設(shè)備影響較大.任彧等[7]提出將梯度方向直方圖與支持向量機(jī)結(jié)合進(jìn)行手勢(shì)識(shí)別,減小了環(huán)境對(duì)識(shí)別任務(wù)的影響.并且譚臺(tái)哲等[8]采用深度信息與膚色信息結(jié)合的方法,也減少了硬件設(shè)備的影響,并且具有更高的魯棒性.此外,James Rwigema等[9]提出的一種差分進(jìn)化方法來(lái)優(yōu)化參數(shù),訓(xùn)練速度與之前相比明顯提高,但精度有所下降.以上通過(guò)自行設(shè)計(jì)建模方法進(jìn)行手勢(shì)識(shí)別的一系列方法,沒(méi)有能夠挖掘手勢(shì)的深度特征,不能深度檢測(cè)手勢(shì)的深層信息,所以以上基于傳統(tǒng)模型的識(shí)別方法有著許多的弊端.
隨著近年來(lái)深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法得到迅速發(fā)展,并且廣泛的應(yīng)用,不少學(xué)者開(kāi)始將深度卷積網(wǎng)絡(luò)應(yīng)用在手勢(shì)識(shí)別的研究中.Alani A A等[10]提出一種自適應(yīng)深度卷積網(wǎng)絡(luò)的手勢(shì)識(shí)別系統(tǒng),來(lái)解決模型過(guò)擬合問(wèn)題,提高了手勢(shì)識(shí)別的性能但是訓(xùn)練時(shí)間較長(zhǎng).Bo Liao等[11]提出雙通道CNN來(lái)融合顏色信息和深度信息,利用雙通道的網(wǎng)絡(luò)結(jié)構(gòu)提高識(shí)別精度,并且通過(guò)深度信息對(duì)圖像進(jìn)行分割,以消除復(fù)雜背景和光照變化的影響.以上方法都存在網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,系統(tǒng)參數(shù)數(shù)量過(guò)多,導(dǎo)致學(xué)習(xí)時(shí)間過(guò)長(zhǎng)的問(wèn)題,因此,Muneer Al-Hammadi等[12]提出了基于三維CNN卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用轉(zhuǎn)移學(xué)習(xí)進(jìn)行手勢(shì)識(shí)別.另外,Rubin Bose S等[13]提出基于faster rcnn與Inception V_2結(jié)合的手勢(shì)識(shí)別系統(tǒng),獲得了較好的查準(zhǔn)率和召回率,較好地解決了進(jìn)行識(shí)別任務(wù)時(shí)所用時(shí)間較長(zhǎng)的問(wèn)題.Sruthi C J等[14]提出了基于視覺(jué)的印度手語(yǔ)自主識(shí)別系統(tǒng)深度學(xué)習(xí)體系結(jié)構(gòu),提高了識(shí)別性能,但泛化能力不強(qiáng).隨著遞歸網(wǎng)絡(luò)的發(fā)展,許多學(xué)者將其引入識(shí)別任務(wù)中.Lu Dongwei等[15]提出了利用CNN與時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合構(gòu)造的手勢(shì)識(shí)別模型,該模型相對(duì)于一般的CNN有著更好的性能,并且泛化能力較強(qiáng).Ji-Hae Kim等[16]提出了基于深度卷積和遞歸神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別算法,利用了4個(gè)卷積層處理數(shù)據(jù),通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)分類,但是由于神經(jīng)元個(gè)數(shù)較多導(dǎo)致學(xué)習(xí)時(shí)間過(guò)長(zhǎng),收斂速度較慢.另外,吳曉鳳等[17]采用Faster R-CNN進(jìn)行手勢(shì)識(shí)別,為適應(yīng)不同的手勢(shì)類別,先修改Faster R-CNN網(wǎng)絡(luò)中的參數(shù),再使用擾動(dòng)交疊率算法,使訓(xùn)練過(guò)程中的對(duì)于數(shù)據(jù)過(guò)于嚴(yán)格的現(xiàn)象不再發(fā)生.Chi D等[18]提出了采用多卷積神經(jīng)結(jié)構(gòu)的手勢(shì)識(shí)別系統(tǒng),利用SSD結(jié)構(gòu)和神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵點(diǎn)特征,該方法在復(fù)雜環(huán)境下有較好魯棒性,但是也存在收斂速度較慢的問(wèn)題.為解決模型收斂速度的問(wèn)題,Redmon J[19]等提出了YOLOV3算法,該算法很好的平衡了準(zhǔn)確度與速度這兩項(xiàng)指標(biāo),雖然該算法的一些表現(xiàn)良好,但是在手勢(shì)檢測(cè)領(lǐng)域還有待提高,例如相對(duì)小目標(biāo)的手勢(shì)圖像存在著空間位置、尺寸范圍變化影響檢測(cè)效果等問(wèn)題.
針對(duì)上述方法存在的諸如速度較慢、檢測(cè)精度易受背景圖像影響等問(wèn)題,本文提出基于改進(jìn)YOLOV3網(wǎng)絡(luò)與貝葉斯分類器結(jié)合的手勢(shì)識(shí)別模型.采用空間變換網(wǎng)絡(luò)改進(jìn)YOLOV3網(wǎng)絡(luò)來(lái)對(duì)手勢(shì)特征進(jìn)行深層次提取,然后通過(guò)結(jié)合主成分分析(Principal Component Analysis,PCA)網(wǎng)絡(luò)與貝葉斯分類器對(duì)特征維數(shù)進(jìn)行降維并分類.最后本文在標(biāo)準(zhǔn)數(shù)據(jù)集與自制數(shù)據(jù)集上進(jìn)行測(cè)試,驗(yàn)證了本算法的有效性.本算法增強(qiáng)了特征提取能力與特征分類的準(zhǔn)確度,提升了目前手勢(shì)識(shí)別方法檢測(cè)效果.
YOLOV3網(wǎng)絡(luò)的主要思想是將輸入圖像預(yù)處理至416×416大小,然后分成13×13個(gè)網(wǎng)格,如果ground truth中某個(gè)目標(biāo)的中心坐標(biāo)落在某個(gè)網(wǎng)格中,則由該網(wǎng)格預(yù)測(cè)目標(biāo),其中每個(gè)網(wǎng)格都會(huì)預(yù)測(cè)3個(gè)邊界框.
首先通過(guò)特征提取網(wǎng)絡(luò)Darknet53對(duì)輸入圖像進(jìn)行特征提取,其中經(jīng)過(guò)5次下采樣,并且采用殘差結(jié)構(gòu),目的是使網(wǎng)絡(luò)結(jié)構(gòu)在很深的情況下,仍然能夠收斂并且繼續(xù)訓(xùn)練下去,得到大小一定的特征圖,具體檢測(cè)方法是先對(duì)13×13的特征圖進(jìn)行卷積預(yù)測(cè),得到第1個(gè)尺度下的檢測(cè)結(jié)果;然后將13×13的特征圖上采樣得到 26×26 特征圖,與網(wǎng)絡(luò)下采樣生成的 26×26特征圖進(jìn)行特征融合后進(jìn)行卷積預(yù)測(cè),得到第2個(gè)尺度下的結(jié)果;同理得到第3個(gè)尺度下的結(jié)果.每個(gè)尺度的特征圖負(fù)責(zé)預(yù)測(cè)不同大小的目標(biāo).每個(gè)特征圖對(duì)應(yīng)3種大小不同的anchor負(fù)責(zé)預(yù)測(cè)目標(biāo).將3次檢測(cè)結(jié)果進(jìn)行非極大值抑制(Non Maximum Suppression,NMS)得到最終結(jié)果.
卷積神經(jīng)網(wǎng)絡(luò)[20]由于最大池化操作,可在一定程度上實(shí)現(xiàn)平移不變形.但是當(dāng)圖像發(fā)生一定程度尺寸、角度和規(guī)模的變化時(shí),會(huì)對(duì)最終識(shí)別結(jié)果產(chǎn)生影響.所以針對(duì)輸入數(shù)據(jù)部分空間變化特性不敏感的問(wèn)題,本文提出利用空間變換網(wǎng)絡(luò)[21](Spatial Transformer Networks,STN)對(duì)輸入圖像進(jìn)行空間變換操作,該網(wǎng)絡(luò)能夠依據(jù)自身的較強(qiáng)的空間不變性來(lái)降低輸入數(shù)據(jù)在空間多樣性上受到的影響,提高算法模型的識(shí)別檢測(cè)和提取特征的能力.STN的輸入特征圖為U,輸出特征圖為V,其由定位網(wǎng)絡(luò)(Localisation Network),網(wǎng)絡(luò)生成器(Grid generator)和采樣器(Sampler)3部分構(gòu)成,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示.

圖1 STN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 STN network structure diagram
1)定位網(wǎng)絡(luò)的目標(biāo)是生成學(xué)習(xí)空間變換參數(shù)θ.輸入特征圖維度為U∈RH×W×C,其中H為特征圖的長(zhǎng),W為寬,C為通道數(shù).通過(guò)卷積與全連接回歸操作得到空間變換參數(shù)θ=floc(U),其中floc()代表定位網(wǎng)絡(luò).
2)網(wǎng)絡(luò)生成器利用仿射變換將輸入特征圖進(jìn)行對(duì)應(yīng)的坐標(biāo)變換.坐標(biāo)轉(zhuǎn)換的計(jì)算公式如式(1)所示:
(1)

3)采樣器利用采樣網(wǎng)格和輸入特征圖同時(shí)作為輸入產(chǎn)生輸出,得到特征圖經(jīng)過(guò)變換之后的結(jié)果.由于在第2步計(jì)算出了V中每個(gè)點(diǎn)對(duì)應(yīng)到U的坐標(biāo)點(diǎn),在這一步就可以直接根據(jù)V的坐標(biāo)點(diǎn)取得對(duì)應(yīng)到U中坐標(biāo)點(diǎn)的像素值來(lái)進(jìn)行填充,而不需要經(jīng)過(guò)矩陣運(yùn)算.此時(shí)計(jì)算出來(lái)的坐標(biāo)可能是小數(shù),使用雙線性插值.輸出的表達(dá)式如式(2)所示:
(2)

樸素貝葉斯分類器[22]是以貝葉斯理論為基礎(chǔ)的一種分類方法.該分類方法是基于樣本的先驗(yàn)概率預(yù)測(cè)樣本屬于某一類別的概率,并選擇其中的最大概率作為最終預(yù)測(cè)類別.具體的分類過(guò)程為:假設(shè)各個(gè)特征條件是獨(dú)立的,根據(jù)給定的訓(xùn)練數(shù)據(jù)集,計(jì)算聯(lián)合概率分布,用來(lái)生成分類器,然后根據(jù)訓(xùn)練生成的分類器,對(duì)輸入的樣本進(jìn)行分類.
假設(shè)x=(a1,a2,…,am)為一個(gè)待分類項(xiàng),其中每個(gè)a為x的一個(gè)特征屬性,類別集合為C={y1,y2,…,yn}.現(xiàn)對(duì)樣本進(jìn)行分類,即計(jì)算P(y1|x),P(y2|x),…,P(yn|x).首先統(tǒng)計(jì)各類別下各個(gè)特征屬性的條件概率,即P(a1|y1),P(a2|y1),…,P(am|y1);然后由于各個(gè)特征屬性都是獨(dú)立的,則根據(jù)貝葉斯定理:
(3)
其中分母對(duì)于所有類別都為常數(shù),都是相同的,又因各特征屬性是條件獨(dú)立的,所以只需將分子最大化,則式(3)可寫(xiě)成式(4),選取最大的后驗(yàn)概率P(yi|x),作為待分類項(xiàng)x的類別.
(4)
最終選取最大的后驗(yàn)概率P(yi|x),作為待分類項(xiàng)x的類別.
基于改進(jìn)的YOLOV3網(wǎng)絡(luò)與貝葉斯分類器的手勢(shì)識(shí)別方法的主要思想是先利用STN對(duì)輸入圖像進(jìn)行特征提取與圖像矯正,以此加強(qiáng)模型的特征提取能力和空間變換能力;然后通過(guò)Darknet-53網(wǎng)絡(luò)中的一系列卷積與殘差交替結(jié)構(gòu)對(duì)輸入數(shù)據(jù)進(jìn)行下采樣與特征提取操作,該部分將得到13×13、26×26和52×52這3種不同尺度的特征圖;接著通過(guò)進(jìn)一步的上采樣與張量拼接等操作進(jìn)行特征提取,最終輸出經(jīng)過(guò)網(wǎng)絡(luò)提取出的手勢(shì)特征.然后進(jìn)入特征分類部分,由于經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)提取出的手勢(shì)特征維數(shù)特別多,影響識(shí)別效率,所以本文中先利用PCA進(jìn)行降維,來(lái)減少特征的維數(shù);然后融合貝葉斯分類器,對(duì)經(jīng)過(guò)降維的特征進(jìn)行分類,輸出層有0-9共計(jì)10個(gè)類別,最終輸出手勢(shì)的分類類別.本文手勢(shì)識(shí)別系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示.

圖2 STN結(jié)合YOLOV3的手勢(shì)識(shí)別系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 STN combined with YOLOV3 gesture recognition system network structure diagram
手勢(shì)相對(duì)于整張圖像來(lái)說(shuō)屬于小目標(biāo),并且存在手勢(shì)圖像存在扭曲、拉伸或在圖像中的位置差異等問(wèn)題,將會(huì)影響最終的檢測(cè)結(jié)果.因此,為了減小以上問(wèn)題對(duì)于檢測(cè)精度的不良影響,本文在YOLOV3網(wǎng)絡(luò)框架的基礎(chǔ)上結(jié)合了STN網(wǎng)絡(luò),該網(wǎng)絡(luò)可以對(duì)數(shù)據(jù)進(jìn)行空間變換操作,整合以后的結(jié)構(gòu)仍舊可以進(jìn)行端到端的訓(xùn)練.STN能自動(dòng)獲取感興趣區(qū)域,因此通過(guò)卷積層與池化層交替設(shè)置來(lái)提取空間變換特征信息,然后通過(guò)全連接層輸出學(xué)習(xí)得到的仿射變換矩陣,在測(cè)試樣本上通過(guò)仿射變換進(jìn)行空間變換,最后得到優(yōu)化后的圖像.優(yōu)化后的輸入圖像能夠?qū)⑿枰獧z測(cè)的關(guān)鍵區(qū)域即手勢(shì)區(qū)域盡量分布到圖像中間,以此來(lái)減少對(duì)檢測(cè)結(jié)果產(chǎn)生的影響.通過(guò)STN與網(wǎng)絡(luò)的結(jié)合,不但對(duì)圖像進(jìn)行自動(dòng)校正,手勢(shì)的空間位置,還通過(guò)仿射變換進(jìn)一步對(duì)更高層次的手勢(shì)特征進(jìn)行處理,大大增加了網(wǎng)絡(luò)的處理精度,并且能夠增強(qiáng)算法的空間變換能力與特征提取能力.
在高維數(shù)據(jù)的特征向量中,手勢(shì)特征具有信息冗余的缺點(diǎn).因此,需要采用降維去除高維數(shù)據(jù)中的冗余特征,同時(shí)將重要信息保留在降維之后的特征向量中.本文采用PCA降維,用來(lái)降低深度卷積神經(jīng)網(wǎng)絡(luò)特征的維數(shù),降維能夠減少數(shù)據(jù)在訓(xùn)練時(shí)所需的存儲(chǔ)空間,能夠訓(xùn)練算法使其速度加快,并且去除數(shù)據(jù)中的冗余特征和噪聲.在應(yīng)用貝葉斯分類器之前,根據(jù)零均值和單位方差對(duì)手勢(shì)特征進(jìn)行歸一化處理,然后采用貝葉斯分類器進(jìn)行分類.對(duì)于給定的圖像,貝葉斯分類器能夠在很多類別中找到屬于該類的最大后驗(yàn)概率,從而使測(cè)試手勢(shì)圖像能夠被正確地分類.
經(jīng)過(guò)降維之后需要解決手勢(shì)的識(shí)別分類問(wèn)題,降維之后的特征數(shù)據(jù)明顯減少,大大減少了運(yùn)算量,并且本文手勢(shì)識(shí)別屬于分類問(wèn)題,本文將融合貝葉斯分類器對(duì)手勢(shì)進(jìn)行分類.
利用貝葉斯公式對(duì)提取出的手勢(shì)特征求出最大后驗(yàn)概率來(lái)進(jìn)行手勢(shì)的分類.手勢(shì)特征的待分類項(xiàng)為X(x1,x2,…,xm),手勢(shì)的類別集合為(y1,y2,…,yn),先計(jì)算在訓(xùn)練集中每個(gè)手勢(shì)類別的條件概率如式(5)所示,再求解手勢(shì)屬性屬于不同類別的后驗(yàn)概率如式(6)所示,最后將該手勢(shì)歸類為具有最大后驗(yàn)概率的手勢(shì)類別.
P(X|yi)=P(x1,x2,…,xm|yi)
(5)
(6)
實(shí)驗(yàn)主要配置:CPU為Intel(R) Xeon(R) CPU E5-2650 v3,GPU為AMD Radeon HD 7000 series,操作系統(tǒng)為Windows10,深度學(xué)習(xí)框架為TensorFlow.使用標(biāo)準(zhǔn)數(shù)據(jù)集與自制數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),用來(lái)驗(yàn)證改進(jìn)方法的有效性.
實(shí)驗(yàn)采用的數(shù)據(jù)集分為兩部分,一部分是以美國(guó)標(biāo)準(zhǔn)手語(yǔ)0-9為標(biāo)準(zhǔn)的10種手勢(shì)組成的數(shù)據(jù)集,如圖3所示;另一部分是自制數(shù)據(jù)集,包含采用計(jì)算機(jī)攝像頭進(jìn)行采集的圖像,并且運(yùn)用圖像標(biāo)記軟件labelImg對(duì)圖像進(jìn)行標(biāo)記,如圖4所示,均采用上下左右不同手勢(shì)角度及不同光照強(qiáng)度的手勢(shì).每種手勢(shì)包含314個(gè)樣本,共3140個(gè)樣本,隨機(jī)選取其中90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測(cè)試集,測(cè)試集圖片一共有314張.

圖3 標(biāo)準(zhǔn)手勢(shì)數(shù)據(jù)集示例Fig.3 Samples of standard hand gesture dataset

圖4 自制手勢(shì)數(shù)據(jù)集示例Fig.4 Samples of self-made hand gesture dataset
為了更準(zhǔn)確比較本文算法的檢測(cè)性能,現(xiàn)采用以下性能指標(biāo)來(lái)衡量算法性能:
1)平均精度AP(average precision):AP是針對(duì)單一類別的精度,表示為:
(7)
(8)

2)平均檢測(cè)精度均值mAP(mean Average Precision):mAP為每一個(gè)類別的AP的均值,計(jì)算公式如式(9)所示,其中Q為識(shí)別目標(biāo)的類別數(shù).
(9)
在YOLOV3網(wǎng)絡(luò)進(jìn)行多尺度檢測(cè)時(shí),對(duì)每一個(gè)尺度都產(chǎn)生3個(gè)邊框的預(yù)測(cè),將會(huì)導(dǎo)致同一檢測(cè)目標(biāo)被重復(fù)檢測(cè),產(chǎn)生重疊的檢測(cè)框,對(duì)檢測(cè)結(jié)果造成一定的影響,為避免這樣的問(wèn)題,采用非極大抑制的方法對(duì)檢測(cè)結(jié)果進(jìn)行處理來(lái)得到最終的檢測(cè)結(jié)果.現(xiàn)選擇不同的非極大抑制閾值(NMS thresh)對(duì)原YOLOV3和改進(jìn)YOLOV3模型在測(cè)試集上進(jìn)行測(cè)試.測(cè)試結(jié)果如表1所示.

表1 不同NMS閾值的平均檢測(cè)精度均值Table 1 Mean average precision of different NMS thresholds
如表1所示,在NMS閾值為0.5時(shí),原YOLOV3的mAP為93.99%,改進(jìn)YOLOV3的mAP為96.73%,改進(jìn)模型相比原模型的mAP提高了2.74%,并且總體上改進(jìn)模型的mAP比原模型都要高.因此,改進(jìn)模型的檢測(cè)效果更好,并且選擇NMS thresh為0.5作為改進(jìn)模型的參數(shù),具有更好的檢測(cè)精度.
將原YOLOV3和改進(jìn)YOLOV3模型在測(cè)試集上對(duì)不同的手勢(shì)類別class 0-class 9進(jìn)行檢測(cè)結(jié)果如表2所示.原模型的AP值浮動(dòng)較大,且精確度不高;改進(jìn)模型的AP值較穩(wěn)定,且均高于95%,相比原模型有著較大的改進(jìn).圖5中橫軸為手勢(shì)類別,縱軸為AP值,將兩模型進(jìn)行柱狀圖對(duì)比,更形象地顯示出了不同手勢(shì)類別在測(cè)試集上的檢測(cè)結(jié)果.

圖5 不同手勢(shì)類別在測(cè)試集上的檢測(cè)結(jié)果Fig.5 Histogram of the detection result of different hand gesture categories on the test set

表2 不同手勢(shì)類別在測(cè)試集上的檢測(cè)結(jié)果Table 2 Detection result of different hand gesture categories on the test set
YOLOV3與改進(jìn)YOLOV3網(wǎng)絡(luò)的準(zhǔn)確率指標(biāo)對(duì)比曲線如圖6所示.隨著迭代次數(shù)的增加準(zhǔn)確率逐漸提高,經(jīng)過(guò)大約30000次迭代后,準(zhǔn)確率變化趨于穩(wěn)定,此時(shí)網(wǎng)絡(luò)已經(jīng)達(dá)到收斂狀態(tài).并且改進(jìn)網(wǎng)絡(luò)的準(zhǔn)確率明顯優(yōu)于原網(wǎng)絡(luò),證實(shí)了改進(jìn)算法的有效性.

圖6 迭代次數(shù)與準(zhǔn)確率關(guān)系曲線Fig.6 Contrast curve between the YOLOV3 algorithm and the improved algorithm
由表3可知,采用傳統(tǒng)方法HOG與SVM相結(jié)合的方法,識(shí)別準(zhǔn)確率較低;采用深度學(xué)習(xí)中的Faster RCNN方法得到的結(jié)果雖然相比傳統(tǒng)方法有著一些提升,但是結(jié)果并沒(méi)有本文提出的方法好;并且對(duì)比改進(jìn)的YOLOV3模型比原YOLOV3模型提高了2.74個(gè)百分點(diǎn),由于改進(jìn)模型中貝葉斯分類器方面的改進(jìn),大大減少了計(jì)算量,加快了檢測(cè)速率,相比原模型檢測(cè)時(shí)間減少了3.1%.

表3 改進(jìn)模型與原模型性能對(duì)比Table 3 Performance comparison between the improved algorithm and the original algorithm
本文提出一種改進(jìn)的YOLOV3手勢(shì)識(shí)別網(wǎng)絡(luò),能夠更快更準(zhǔn)確地識(shí)別出手勢(shì)目標(biāo).本文工作首先融入空間變換網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行空間校正與初步特征提取,降低了數(shù)據(jù)在空間多樣性上受到的影響;使用YOLOV3網(wǎng)絡(luò)進(jìn)一步提取特征;然后采用PCA降維技術(shù)對(duì)提取出的特征向量中冗余特征進(jìn)行降維操作,隨后采用貝葉斯分類器對(duì)手勢(shì)類別進(jìn)行判定,提高了網(wǎng)絡(luò)的檢測(cè)效率.本文算法在保持網(wǎng)絡(luò)深度特征的同時(shí)減少了運(yùn)算量,控制了網(wǎng)絡(luò)的參數(shù)數(shù)量.最后在公開(kāi)數(shù)據(jù)集與自制數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文改進(jìn)算法精度明顯提高,檢測(cè)時(shí)間有所縮減,證明了提出算法的有效性.