999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進YOLOv3的手勢實時識別方法

2020-03-19 12:24:56劉芝國周文軍劉佳慧
計算機工程 2020年3期
關鍵詞:方法模型

張 強,張 勇,劉芝國,周文軍,劉佳慧

(合肥工業大學 計算機與信息學院,合肥 230601)

0 概述

近年來,隨著人工智能技術的快速發展,人機交互的方式也發生了很大改變,從打字、觸屏到語音,交互方式的發展給人們的操作帶來了便利。然而,更為高效、舒適的交互方式是讓機器能夠直接理解人的肢體語言。手勢是一種包含了較多信息量的肢體語言,具有自然、友好、高效和直觀等優點,因此,基于手勢的人機交互引起了人們的關注并得到廣泛應用[1]。

在人機交互技術中,手勢識別技術是重要的組成部分[2]。傳統的基于人工建模方式的手勢識別技術有基于模板匹配、基于數據手套、基于隱馬爾科夫模型等。文獻[3]提出了一種基于多特征融合和模板匹配的手勢識別方法,其平均識別準確率(mean Average Precision,mAP)可以達到96.7%,識別速度為15 FPS。文獻[4]提出了一種基于數據手套的手勢識別方法,其mAP達到93.19%。文獻[5]設計一種基于隱馬爾科夫模型的同步手勢分割和識別方法,該方法的mAP達到92.22%。以上方法在準確率方面取得了較好的效果,但要滿足靜態手勢的實時識別要求,識別速度和準確率都需要進一步提高。除此之外,通過人工建模方式設計手勢描述特征的過程十分繁瑣,且無法深度挖掘更高層次、更多維度的特征信息,導致基于傳統方法的模型范性差,很難達到實時檢測的目的。

近年來,深度學習、計算機視覺和計算機硬件的發展使得手勢實時檢測成為可能。文獻[6]提出一種基于人工神經網絡的方法,以進行印度手語識別,該方法的mAP為91.11%。文獻[7]借助Kinect設備提出一種基于深度信息的手勢識別方法,其mAP達到95%。文獻[8]提出一種將遷移學習應用于手勢識別的方法,其mAP提高到97.81%。文獻[9]提出一種基于SSD的靜態手勢實時識別方法,該方法的mAP達到93.3%,識別速度為30 FPS,在mAP和識別速度上有了較大的改進。

文獻[10]在YOLOv2[11]的基礎上提出YOLOv3,YOLOv3是目前最優秀的目標檢測算法之一,在檢測實時性方面表現突出。YOLOv2已經成功應用于行人檢測[12]、皮膚診斷[13]等領域,作為YOLOv2的改進版,YOLOv3檢測速度更快、檢測精度更高,因此,將該方法應用于靜態手勢實時識別時取得了較好的效果,其mAP達到95.9%,檢測速度高達48 FPS。但是,YOLOv3在識別精度和速度上仍然具有改進的空間,而且由于訓練集數量龐大,導致其訓練時間過長。為解決上述問題,本文對YOLOv3方法進行改進,借助Kinect設備,將實驗數據集由RGB圖像改為IR、Registration of RGB、RGB和Depth 4種類型的Kinect圖像,進一步提高mAP[14],采用k-means聚類算法對初始候選框參數進行優化,以提高識別速度[15]。在此基礎上,加入遷移學習方法,對模型的基礎特征提取器進行改進,從而提高模型的效率[16]。

1 靜態手勢實時識別方法

本文提出一種基于YOLOv3的靜態手勢實時識別方法,該方法的總體流程如圖1所示,其包括訓練和測試2個部分。訓練部分為模塊Ⅰ~模塊Ⅲ,測試部分為模塊Ⅳ。

圖1 方法總體流程Fig.1 Overall process of the method

1.1 訓練集制作

相比多數公共手勢數據集使用的RGB圖像,Kinect圖像可以挖掘手勢圖像的深度信息[17-19],原因是Kinect具有紅外線發射器和由紅外線CMOS(Complementary Metal-Oxide-Semiconductor)攝影機構成的3D結構光深度感應器,可以采集IR、Registration of RGB、RGB和Depth圖像。因此,本文借助Kinect設備自制手勢數據集,訓練集制作過程分為4步,如圖2所示,其中,圖片分辨率單位為像素。

圖2 訓練集制作過程示意圖Fig.2 Schematic diagram of training set generation process

訓練集制作過程具體如下:1)使用Kinect設備為每一個手勢場景都拍攝IR、Registration of RGB、RGB和Depth圖像各一張,圖片分辨率為600像素×450像素;2)將每張圖片進行復制,并分別按比例調整它們的分辨率大小為300 像素×225 像素、400 像素×300 像素、500 像素×375 像素,使用這種方法將數據集擴增為原來的4倍;3)將上一步中得到的每張圖片進行人工標記手勢區域,注釋手勢的類別信息和位置信息,生成手勢標簽文件;4)將每一張用于訓練的Kinect圖像和對應的手勢標簽文件組合在一起,作為訓練集。

1.2 遷移Darknet-53模型生成

本文模塊中使用的Darknet-53模型是YOLOv3的基礎特征提取器[10],其作用是提取訓練圖像的特征。Darknet-53網絡架構如圖3所示。

圖3 Darknet-53網絡架構Fig.3 Network architecture of Darknet-53

Darknet-53網絡模型結合了YOLOv2的基礎特征提取器Darknet-19[9]和深度殘差網絡[20],由連續的3×3卷積層和1×1殘差層組成。Darknet-53是模型訓練過程中最重要的部分,為解決模型訓練時間過長的問題,本文又結合了遷移學習方法使模型的訓練更加高效。

根據文獻[21-22]對遷移學習的研究和實踐可以得出,將訓練好的模型參數遷移到新的模型來幫助新模型訓練,可以提高新模型的訓練效果。因此,將ASL數據集[23]下訓練好的Darknet-53網絡參數遷移到本文基礎網絡中并對其進行初始化,過程如下:

1)從ASL數據集中選取A、B、C、D、E、F、G、H、I和K共10組字母手勢的樣本,每組包含100個樣本,來自不同的5個人,每個樣本由一張RGB圖片和一張Depth圖片組成,一共2 000張手勢圖片,部分樣本示例如圖4所示。

圖4 ASL數據集部分樣本示例Fig.4 Some samples of ASL dataset

2)將上一步中選取的2 000張手勢圖片進行復制,并分別按比例調整它們的分辨率大小為300像素×225像素、400 像素×300像素、500像素×375像素、600像素×450像素,使用這種方法將數據集擴增為原來的4倍,一共得到8 000張手勢圖片。

3)將上一步中得到的8 000張手勢圖片經過Darknet-53進行預訓練,將訓練好的網絡參數遷移到基礎網絡中進行初始化,生成遷移Darknet-53模型。

經過上述過程,訓練集不再經過Darknet-53進行特征提取,而是直接經過遷移Darknet-53模型來提取特征。

1.3 初始候選框參數改進

YOLOv3在訓練過程中將圖像劃分為S×S的網格(cell),每個cell預測B個檢測邊界框及其置信度PConf(O)[24]。

PConf(O)=Pr(O)×I

(1)

(2)

(3)

YOLOv3在目標檢測過程中引入候選區域框(anchor box)[25]。候選區域框是一組固定尺寸和寬高比的初始候選框,其性能優劣直接影響到目標檢測的速度和目標框位置的精度。為得到最優的anchor參數,本文采用k-means聚類算法對自制數據集中手工標記的目標框進行聚類分析,找到最優的k值(anchor box個數)和k個聚類中心的寬高維度,作為網絡配置文件中anchor的參數。

本文使用手肘法確定k值,指標是誤差平方和(Sum of the Squared Errors,SSE)[26-27],SSE計算如下:

(4)

其中,Ci是第i個簇,p是Ci中的樣本點,mi是Ci的重心(Ci中所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。

手肘法的核心思想是:隨著k值的增大,樣本劃分更加精細,SSE逐漸變小,當k值達到最優聚類數時,繼續增加k值對聚類程度的提高會迅速變小,表現為SSE下降幅度驟減,SSE和k的關系圖呈現出一個手肘的形狀,肘部對應的k值就是所需的最優聚類數。通常k-means聚類算法采用歐式距離代表樣本點和樣本均值之間的誤差,這里的樣本點是預測框,樣本均值是真實框,使用I反映預測框和真實框的誤差,I越大,表明誤差越小。用式(5)表示樣本的聚類誤差:

(5)

其中,Ip表示樣本p的I,用1-Ip表示樣本p的誤差。本文在自制數據集上使用手肘法,繪制SSE和k的關系曲線如圖5所示。

圖5 SSE隨k值的變化趨勢Fig.5 SSE changing with k value

1.4 四類Kinect圖像識別結果融合

圖1中的模塊Ⅳ是整個方法流程的測試部分,測試圖像由4種類型的Kinect圖像構成,不同于只由單個測試圖像決定特定場景中某個手勢的分類方法,本文方法融合了4種類型的Kinect測試圖像對某個手勢的分類結果,用m表示4種類型的Kinect圖像,m∈{1,2,3,4},m=1,2,3,4分別代表IR、Registration of RGB、RGB和Depth圖像。用am表示第m種類型圖像的置信度??紤]到Registration of RGB圖像來源于RGB圖像,設定其置信度為RGB圖像的一半,IR圖像和Depth圖像由其獨立的傳感器生成,設定置信度與RGB圖像相同。由此設定四類圖像的置信度分別為:

用n表示字母手勢,n∈{1,2,3,4,5,6,7,8,9,10},n=1,2,3,4,5,6,7,8,9,10 分別代表字母手勢A,B,C,D,E,F,G,H,I,K。Pm(n)代表該待測手勢被第m種類型圖像識別為字母手勢n的概率,Pm(n)∈{1,0},當且僅當該待測手勢被第m種類型圖像識別為字母手勢n時,Pm(n)=1;否則,Pm(n)=0。用p(n)表示融合四類Kinect圖像識別結果后,該待測手勢最終被識別為字母手勢n的概率。p(n)的計算公式如下:

(6)

在p(n)中選出概率最大的n所代表的字母,即為最終識別結果。

圖6 4種類型的Kinect圖像原圖及其識別結果顯示圖Fig.6 Four types of Kinect original images and theirrecognition results

上述判別方法對動態視頻同樣有效,原因是該方法的識別不僅針對靜態圖片,還可以是拍攝的一段包含4種類型Kinect圖像的視頻,或者調用Kinect攝像頭同時輸出4種類型的Kinect圖像來進行實時識別。測試部分是本文方法整個流程中的最后一個模塊,經過4個模塊,可以完成對自制靜態手勢數據集的實時識別,下文將通過實驗驗證本文方法的有效性。

2 實驗結果與分析

2.1 數據集

為了充分地對比RGB圖像和Kinect圖像對識別結果的影響,本文的實驗數據集全部采用自制數據集,拍攝工具為網絡攝像頭mosengsm rqeso008和Microsoft Kinect 2.0。在26個字母手勢中選取10個字母手勢作為代表,分別為A、B、C、D、E、F、G、H、I、K。為驗證方法的魯棒性,在制作數據集時,圖像分辨率、單張圖片包含的手勢個數、光線強度、拍攝的距離遠近、背景、手勢重疊情況不盡相同。分別用網絡攝像頭和Kinect設備拍攝RGB圖像數據集和Kinect圖像數據集,部分圖像數據集示例如圖7所示。

圖7 自制數據集的部分示例圖片Fig.7 Some sample pictures of self-made dataset

在每種數據集中,都按照單張圖片包含的手勢個數小于等于3和大于3分別拍攝不同條件下的7組手勢圖片各400張。這7組不同條件分別指:正常情況(光照強度為200 lx),光線較暗(光照強度為5 lx),光線較亮(光照強度為10 000 lx),手勢離攝像頭距離較近(小于1 m,以下簡稱距離較近),手勢離攝像頭距離較遠(大于50 m,以下簡稱距離較遠),手勢重疊,背景復雜。除了距離較近和距離較遠2組條件外,其余組在拍攝過程中手勢離攝像頭的距離都在2 m~10 m之間。

每組的手勢數量統計如表1所示,拍攝的RGB圖像和Kinect圖像數據集包含的手勢總數分別為16 871和16 892。從拍攝的每組圖片中隨機抽取100張作為測試圖片,剩下的300張作為訓練圖片并人工標記手勢標簽。本文的網絡攝像頭和Kinect設備拍攝的圖片分辨率為600 像素×450 像素,為了對數據集進行擴增,對每張圖片進行復制并按比例分別調整它們的分辨率大小為300像素×225像素、400像素×300像素、500像素×375像素,使用這種方法將數據集擴增為原來的4倍,總計16 800張RGB訓練圖片、5 600張RGB測試圖片、16 800張Kinect訓練圖片(IR、Registration of RGB、RGB和Depth圖片各4 200張)和5 600張Kinect測試圖片(IR、Registration of RGB、RGB和Depth圖片各1 400張),以作為下文的實驗數據集。

表1 自制數據集手勢數量統計Table 1 Statistics of gestures in self-made dataset

2.2 結果分析

2.2.1 Kinect數據集與RGB數據集的mAP對比

將自制的16 800張Kinect訓練圖片及其手勢標簽文件作為圖1中模塊Ⅰ的輸入,按照圖1所示的流程,在模塊Ⅳ中使用自制的5 600張Kinect測試圖片進行手勢識別得到識別結果,分別統計各類型圖片的mAP和融合四類Kinect圖像識別結果得出的mAP。然后將訓練集改為自制的16 800張RGB訓練圖片及其手勢標簽文件經過模塊Ⅰ進行訓練,按照同樣的流程,只是在模塊Ⅳ的識別部分,減少融合判別的方法,對5 600張RGB測試圖片進行手勢識別得到識別結果并計算mAP。經過上述過程得出的結果為:4種Kinect測試圖像的mAP分別為95.1%(IR圖像)、93.8%(Registration of RGB圖像)、95.0%(RGB圖像)、94.3%(Depth圖像);融合四類Kinect測試圖像識別結果的mAP為99.8%;RGB測試圖像的mAP為95.9%。從實驗結果可以看出,雖然使用Kinect單一類型圖像的mAP不及RGB圖像,但是融合四類Kinect圖像識別結果后,mAP提高到99.8%,比RGB圖像的95.9%高出3.9個百分點。為進一步研究Kinect 4種類型的圖像在不同條件下的性能表現,另外進行一組對比實驗,分別將RGB圖像訓練集和Kinect圖像訓練集中的7組不同條件下的數據集單獨取出進行訓練和識別,結果如表2所示。由表2可以看出,當光線較暗或較亮時,RGB圖像和Registration of RGB圖像識別精度受到很大影響,而IR圖像和Depth圖像具有較高的識別精度,其中,IR圖像識別精度更高;當手勢離攝像頭較近或較遠時,各種類型的圖像識別精度并未受到影響;當手勢發生重疊時,Depth圖像可以提供很好的識別效果;在背景復雜的情況下,只有Registration of RGB圖像保持較高的識別精度。因此,IR圖像可以在光線較亮或較暗情況下提高識別精度,Registration of RGB圖像可以在背景復雜情況下提高識別精度,RGB圖像可以在正常情況下保持較高的識別精度,Depth圖像可以在手勢重疊的情況下提高識別精度,而不論在上述哪種情況下,使用融合四類Kinect圖像識別結果的方法取得的識別正確率總是最高。因此,融合四類Kinect圖像識別結果的方法可以有效降低光線強度變化、背景和重疊情況對手勢識別精度的影響。

表2 不同條件下的數據集識別正確率對比Table 2 Comparison of dataset recognition accuracy under different conditions %

2.2.2 遷移學習實驗與結果

按照圖1模塊Ⅱ中遷移Darknet-53模型的生成方式,用同樣的方式生成遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型,然后按照圖1的流程,訓練集使用自制的16 800張Kinect訓練圖片及其手勢標簽文件,測試集使用自制的5 600張Kinect測試圖片,融合四類圖像的識別結果,分別使用無遷移的Darknet-53模型、遷移VGG-16模型、遷移Darknet-19模型、遷移Resnet101模型和遷移Darknet-53模型進行訓練,并統計隨著迭代次數的增加mAP的變化情況,結果如圖8所示。

圖8 各遷移學習模型的mAP變化情況Fig.8 Change of mAP of different transfer learning models

隨著迭代次數的增加,將各遷移學習模型mAP趨于穩定的值作為平均識別正確率,從訓練開始到mAP值趨于穩定所花費的時間作為訓練時間,各模型性能對比結果如表3所示。

表3 5種遷移學習模型性能對比Table 3 Performance comparison of five transferlearning models

從表3可以看出,使用無遷移的Darknet-53模型比遷移VGG-16模型、遷移Darknet-19模型和遷移Resnet101模型訓練時間更短,mAP更高,使用遷移Darknet-53模型取得了最短的訓練時間和最高的mAP,該結果表明,在基礎特征提取器的比較中,Darknet-53比VGG-16、Darknet-19、Resnet101效果更好。因此,本文方法沿用YOLOv3中的Darknet-53模型,并在其中加入遷移學習技術,將訓練時間從16 h減小到12 h,減小了25%,且mAP保持不變。

2.2.3 初始候選框優化實驗與結果

原YOLOv3中設定anchor的個數為9[10],9組寬高維度分別為:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90),(156×198),(373×326),它們是在COCO數據集[28]上進行維度聚類的結果。本文使用圖1模塊Ⅲ中的k-means聚類算法在自制數據集上進行維度聚類,得到的最優anchor個數為8,對應的8組寬高維度分別為:(19×29)、(32×36)、(30×56)、(41×78)、(50×56)、(53×99)、(68×67)、(104×178)。使用自制的16 800張Kinect訓練圖像作為訓練集,分別使用YOLOv3的候選框參數和本文方法的候選框參數,調用Kinect攝像頭進行實時識別,測試這2種方案的平均重疊率和識別速度,結果如表4所示。

表4 候選框生成方案性能對比結果Table 4 Results of performance comparison of candidateframe generation schemes

從表4可以看出,YOLOv3的識別速度達到48 FPS,基本滿足實時識別的要求,但是本文通過圖1模塊Ⅲ的k-means聚類方法對初始候選框參數進行改進,得到了更高的平均重疊率,且識別速度達到了52 FPS。

2.2.4 手勢識別方法對比實驗與結果

本文對比其他一些先進的深度學習方法(Faster R-CNN[25]、SSD[9]、YOLOv2[11]和RetinaNet-101[20]),訓練集全部采用自制的16 800張Kinect訓練圖像,測試過程調用Kinect攝像頭同時輸出4種類型的Kinect圖像進行實時識別。實驗環境如下:硬件方面,采用的GPU為INVDIA GTX Titan X,CPU為Intel Core i7-7700K,主頻4.2 GHz,內存32 GB;軟件方面,采用的操作系統為Ubuntu 16.04,框架為tensorflow1.3。分別計算并統計上述方法的mAP和識別速度,結果如圖9所示。其中,網絡模型訓練參數部分依據經驗設定,學習率、策略、批尺寸、分步、最大批、分步系數、動量和衰減具體如表5所示。從圖9可以看出,在mAP方面,本文方法和RetinaNet-101方法相比其他方法效果更好;在識別速度方面,本文方法和YOLOv2方法優于其他方法。相比Faster R-CNN、SSD、YOLOv2和RetinaNet-101方法,本文方法在mAP和識別速度上都具有明顯優勢。

圖9 不同方法的mAP和識別速度對比Fig.9 Comparison of mAP and recognition speedof different methods

表5 各方法的網絡模型訓練參數設置Table 5 Parameter settings of network model training for each method

3 結束語

本文提出一種基于改進YOLOv3的靜態手勢實時識別方法,數據集為自制的4種類型的Kinect圖像,基礎特征提取器采用遷移Darknet-53模型,通過k-means聚類算法對初始候選框參數進行改進,識別過程中融合四類Kinect圖像的識別結果。實驗結果表明,該方法的mAP為99.8%,識別速度高達52 FPS,相比原YOLOv3方法訓練時間縮短25%。下一步將通過改進YOLOv3的網絡結構和參數以及擴充數據集的方式來解決識別過程中出現的識別錯誤問題。此外,本文方法僅針對靜態的手勢進行實時識別,對連續動態的手勢進行快速識別也是今后的研究方向。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲国产高清精品线久久| 青草精品视频| 久久亚洲日本不卡一区二区| 无码免费视频| 久久免费视频6| 第九色区aⅴ天堂久久香| 亚洲AV无码乱码在线观看裸奔| 九色在线视频导航91| 波多野结衣无码AV在线| 91视频精品| 成人福利在线免费观看| 在线另类稀缺国产呦| 日本国产精品一区久久久| 2021国产精品自产拍在线| 国产丝袜无码精品| 日韩欧美国产综合| 国内精品视频区在线2021| 国产青榴视频| 九九久久99精品| 欲色天天综合网| 91亚洲免费| 亚洲狠狠婷婷综合久久久久| 欧美日韩资源| 亚洲国产综合自在线另类| 草草线在成年免费视频2| 五月婷婷亚洲综合| 欧美中文字幕无线码视频| 精品欧美日韩国产日漫一区不卡| 中文字幕波多野不卡一区| 国产在线视频福利资源站| 国产第一色| av天堂最新版在线| 国产网站免费观看| 高清欧美性猛交XXXX黑人猛交| 毛片免费视频| 极品私人尤物在线精品首页 | 久久青草免费91线频观看不卡| 波多野结衣无码中文字幕在线观看一区二区 | av在线无码浏览| 日本欧美视频在线观看| 国产成年无码AⅤ片在线| 欧美三级自拍| 国产成人精品三级| 波多野结衣中文字幕久久| 免费一级成人毛片| 色综合五月婷婷| 亚洲综合经典在线一区二区| 国产黑人在线| 国产一区二区在线视频观看| 青青草原国产| 国产精品99久久久久久董美香| 欧美午夜在线观看| 美女免费黄网站| 2022国产无码在线| 毛片视频网址| 亚洲av日韩av制服丝袜| 91久久青青草原精品国产| 国产精品亚洲综合久久小说| 亚洲福利视频一区二区| 88av在线| 色天堂无毒不卡| 国产人妖视频一区在线观看| 免费看美女自慰的网站| 欧洲高清无码在线| 亚洲成人在线免费| 日韩精品亚洲人旧成在线| 亚洲天堂视频在线观看| av大片在线无码免费| 国产女人爽到高潮的免费视频| 国产aaaaa一级毛片| 综合久久五月天| 在线另类稀缺国产呦| 亚洲精品国产乱码不卡| 性色生活片在线观看| 色婷婷亚洲十月十月色天| 热九九精品| 亚洲国产天堂在线观看| 国产精品久久自在自线观看| 欧美中文字幕在线视频| 国产乱子伦手机在线| 国产精品爆乳99久久| 熟妇无码人妻|