熊才華 鞏言麗 廉華 侯枘辰



摘? 要: 為了解決不同識別環(huán)境下光照強度的變化對手勢識別準確率影響的問題,提出了基于ResNet-50殘差網(wǎng)絡的改進Faster R-CNN手勢識別算法。相較于普通的Faster R-CNN算法,該算法用了ResNet-50網(wǎng)絡,提高網(wǎng)絡特征的學習能力,并在ResNet-50中加入了實例批處理標準化(IBN)方法用于對單個圖片的表征內(nèi)容學習,適應不同的識別環(huán)境。實驗結(jié)果表明,該算法在測試集上的識別率高達98.7%,相較于常用手勢識別算法,有效性更高,魯棒性更好。
關(guān)鍵詞: 手勢識別; Faster R-CNN; ResNet-50; 實例批處理標準化
中圖分類號:TP391? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)09-01-04
An improved Faster R-CNN hand gesture recognition algorithm based on ResNet-50
Xiong Caihua, Gong Yanli, Lian Hua, Hou Ruichen
(Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: In order to solve the problem of the influence of the change of illumination intensity on the accuracy of gesture recognition in different recognition environment, an improved Faster R-CNN hand gesture recognition algorithm is proposed based on optimized ResNet-50 network in this paper. Compared with the ordinary Faster R-CNN algorithm, the proposed algorithm improved with ResNet-50 network improves the feature learning ability of the network. Furthermore, by using the IBN (instance batch standardization), the ResNet-50 is optimized for the learning of representational contents, and for different recognition environment. The experiment shows that the proposed algorithm achieves the recognition rate of 98.7% on test set, with higher effectiveness and robustness compared with state-of-the-art hand gesture recognition algorithms.
Key words: hand gesture recognition; Faster R-CNN; ResNet-50; IBN
0 引言
人機交互方式逐漸趨于簡便化、智能化,讓基于計算機視覺的手勢識別的人機交互逐漸成為現(xiàn)實。手勢識別發(fā)展到現(xiàn)在,主要是基于傳統(tǒng)檢測識別算法和深度學習算法。傳統(tǒng)的檢測識別算法是利用人體手部區(qū)域的顏色特征來實現(xiàn),即YCbCr[1]、HSV[2]、YUV[3],以及其他人為選出的特征來進行判別。這種識別算法容易受光照強度變化、肢體遮擋及其他復雜環(huán)境因素影響,所以魯棒性低。
基于深度學習的目標檢測[4]是目前在圖像處理上較為流行的方法,深度學習主要是利用卷積神經(jīng)網(wǎng)絡[5]對大量圖像多次訓練學習,通過深層卷積自動計算提取目標圖像中的特征。深度學習相比于傳統(tǒng)的檢測識別算法具有識別速度快,精度高[6]的優(yōu)點。
目前用于目標檢測的深度學習算法有Faster R-CNN[7]、SSD[8]等;Faster R-CNN使用區(qū)域建議網(wǎng)絡[9](Region Proposal Net-work,RPN)逐個檢測每一個對象,再綜合提取信息,最終對手勢所處的位置和類別進行確定。但是該方法仍然沒能克服光照強度變化和網(wǎng)絡深度不能加深的問題。
手勢識別的研究工作主要是手勢的檢測和識別。本文的手勢識別算法是在Faster R-CNN基礎上使用殘差網(wǎng)絡ResNet-50來優(yōu)化網(wǎng)絡深度,加深特征學習,將 IBN結(jié)構(gòu)用于深度卷積網(wǎng)絡實現(xiàn)對單個圖片表征(光照、顏色等)的多樣性學習,克服因不同環(huán)境下光照強度變化產(chǎn)生的漏檢、錯檢的問題。
1 Faster R-CNN算法介紹
Faster R-CNN算法模型主要包含了以下三個部分:CNN共享卷積、RPN區(qū)域建議網(wǎng)絡和感興趣區(qū)域池化[10](Region of Interest Pooling,ROI池化)檢測網(wǎng)絡。
1.1 共享卷積
共享卷積CNN作為Fast R-CNN和RPN的前端網(wǎng)絡,通過深度卷積計算來獲取輸入圖像的特征圖,通常使用ImageNet[11]數(shù)據(jù)集來多次訓練和微調(diào)CNN網(wǎng)絡使其達到最優(yōu)。目前使用的主流網(wǎng)絡有VGG16[12]和ResNet[13]。
1.2 區(qū)域建議網(wǎng)絡
Faster R-CNN的分類檢測是利用RPN在網(wǎng)絡的內(nèi)部計算,產(chǎn)生高質(zhì)量區(qū)域建議框,用于后續(xù)的處理分類。
其中,包圍盒為([x,y,w,h]),候選框的中心坐標、寬和高為([x1,y1,w1,h1])。則參考標準為GT (Ground-Truth):設標記的矩形框G的真實中心坐標、寬和高為([x*,y*,w*,h*]),預測候選區(qū)域坐標向量[ ti],[t*i]是真實目標框的坐標向量.如式(1)、(2)。
[tx=x-x1w1;ty=y-y1w1;tw=log2ww1;th=log2hh1.]? ? ? ? ? (1)
[t*x=x*-x1w1;t*y=y*-y1h1;t*w=log2w*w1;t*h=log2h*h1.]? ? ? ? ?(2)
本文采用的損失函數(shù)是[Smooth L1]函數(shù):
[Smooth L1x0.5x2,x≤1x-0.5,otherwise]? ? (3)
1.3 感興趣池化網(wǎng)絡
Faster R-CNN算法是基于SPP-Net算法[14]改進的,在此基礎上提出感興趣區(qū)域池,感興趣區(qū)域池化是SPP-Net的一個簡化版本,因為只選取了其中一層金字塔,也就是感興趣區(qū)域池化中只含有一種尺度,實驗證明,加入ROI池化進行圖像處理,使其運算速度加快數(shù)十倍。
2 本文算法
2.1 殘差網(wǎng)絡
ResNet主要是利用殘差原理來實現(xiàn)網(wǎng)絡的加深,以此避免梯度的消失和爆炸問題.本文采用殘差網(wǎng)絡來解決目前手勢識別網(wǎng)絡深度不能加深的問題。
殘差網(wǎng)絡以高速路網(wǎng)絡的跨層鏈接思想為基礎對其改進:利用“shortcut connections(捷徑連接)”的方法,會把輸入[x]直接傳到輸出作為初始結(jié)果輸入到下方,輸出結(jié)果為:
[Hx=Fx+x]? ? ? ? ? ? ?(4)
當[Fx=0]時,則有[Hx=x],這就是前面所提到的恒等映射(identity)。在此基礎上,改變ResNet學習目標,不再是通過層層神經(jīng)網(wǎng)絡學習完整的特征輸出,而是學習目標值[H(x)]和x的差值,其殘差為:
[Fx=Hx-x]? ? ? ? ? ? ?(5)
本文采用的是ResNet-50網(wǎng)絡結(jié)構(gòu)。但仍然無法克服因光照強度變化造成的圖片色度變化而識別不準確這一缺點。為克服此缺點,本文對原有的ResNet-50進行改進,在卷積層輸出后加入實例標準化[15](Instance Normalization,IN)和批量標準化(Batch Normalization,BN)作用。
2.2 IBN算法
在深度學習實驗中常用的標準化方法為BN,主要用來提高特征層對圖像的敏感度,降低風格類變化的魯棒性,即對圖像色調(diào)變化,敏感變化的魯棒性,IN方法提高對風格類變化的魯棒性。在圖2、圖3中可以看到IN和BN共同作用于ResNet。這是因為在CNN層中,表征多樣性的學習往往在網(wǎng)絡淺層,而內(nèi)容特征的學習往往在模型深層,故據(jù)此提出如圖3的IBN結(jié)構(gòu)。在淺層中BN和IN同時使用,保證了表征的多樣性和內(nèi)容信息的學習,最后經(jīng)過IN是為了保留深層網(wǎng)絡中圖像表征的識別信息。
從式(6)、式(7)中可以看出,BN是對同一個Batch作用,而IN是對單個圖像進行作用,有效的保證了圖像表征的多樣性,其中BN函數(shù)為:
[ytijk=xtijk-μiσ2i+ε;μi=1HWTt=1Tl=1Wm=1Hxtilm;σ2i=1HWTt=1Tl=1Wm=1Hxtilm-mμi2.]? ?⑹
其中IN函數(shù)為:
[ytijk=xtijk-μiσ2i+ε;μi=1HWt=1Tl=1Wm=1Hxtilm;σ2i=1HWl=1Wm=1H(xtilm-mμti)2.]? ?⑺
式中的T為Batch的數(shù)量,[xtijk]表示第 tijk個元素,k和j是跨空間維度,i是特征通道(如果為RGB圖像就是顏色通道)t是圖像在Batch中的索引,W表示輸入特征圖的寬,H為輸入特定的通道數(shù),其中[μi]為均值,[σ2i]為平方差。
3 實驗分析
實驗的訓練樣本來自于NUS Hand Posture,對數(shù)據(jù)集用LabelImg進行標定,選取訓練集手勢為2512個,測試集手勢為528個,并進行遷移學習。
表1可以得到,在測試集上的識別率,ResNet-50和ResNet-101性能不相上下,但考慮到ResNet-101在識別率沒有較大提高的前提下,耗時卻多出45%,由此選擇ResNet-50作為基礎網(wǎng)絡。
由圖3、圖4、表2可以看出,本文算法無論是在訓練時Loss收斂的速度還是在識別率上,都超過了SSD和Faster R-CNN模型,并且本文算法的召回率提升了3.8%,平均識別率提升了2%達到98.7%,檢測耗時上幾乎沒有變化。
實驗中用不同光照強度進行測試,在 ResNet-50網(wǎng)絡下,利用背后窗簾打開大小來控制光照強度,實驗中處于光線比較均勻的條件下所得到的手勢照片較為清晰,都實時地識別出常用的10種手勢。當在光照不均勻或者光照較為強烈的環(huán)境下,手勢的識別效率會降低。當采用傳統(tǒng)的Faster R-CNN識別檢測,可以看見如圖6中(a)、(b)所示,對少數(shù)手勢會出現(xiàn)漏識,錯識。在Faster R-CNN加入了IBN后手勢識別檢測的正確率有所提高,如圖6(a)所示。
4 結(jié)論
本文在Faster R-CNN算法基礎上進行改進,采用ResNet-50的殘差網(wǎng)絡作為基礎網(wǎng)絡,并在網(wǎng)絡的結(jié)構(gòu)上進行改進,加入了IBN算法提高網(wǎng)絡對單個圖像表征內(nèi)容的學習,對圖像全局信息做了一次整合和調(diào)整。實驗結(jié)果表明所提出的算法可以有效的克服了光照強度變化對手勢識別的影響,平均識別率高達98.7%,提高了檢測效果,增加算法的魯棒性。目前的識別環(huán)境只能在室內(nèi),限制了手勢識別的廣泛使用,但是本文所提出的算法加快了以手勢識別為基礎的人機交互模式的發(fā)展進程。
參考文獻(References):
[1] Cao X Y,Zhao J Y,Li M.Monocular vision gesture segmentation based on skin color and motion detection[J]. Hunan Daxue Xuebao/Journal of Hunan University Natural Sciences,2011.38(1):78-83
[2] 周海鵬,王芳,田建艷.基于HSV顏色特征的多目標視頻檢測與跟蹤算法[J].科學技術(shù)與工程,2017.17(20):189-193
[3] Al-Tairi Z H,Rahmat R W,Saripan M I,et al.Skin segmentation using YUV and RGB color spaces[J]. Journal of Information Processing Systems,2014.10(2):283-299
[4] 李雷明.視頻監(jiān)控中運動物體的檢測與跟蹤的研究與實現(xiàn)[D].南京航空航天大學,2008.
[5] 汪濟民,陸建峰.基于卷積神經(jīng)網(wǎng)絡的人臉性別識別[J].現(xiàn)代電子術(shù),2015.29(7):89-92
[6] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems,2012.
[7] Clapés A,Reyes M,Escalera S.Multi-modal user identification and object recognition surveillance system[J]. Pattern Recognition Letters,2013.34(7):799-808
[8] W Liu,et al.SSD: Single Shot MultiBox Detector[J].arXiv preprint arXiv:1512.02325,2015.
[9] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017.39(6):1137-1149
[10] Girshick R.FAST R-CNN[C]//IEEE Int Conference on Computer Vision. Santiago,Chile,2015:1440-1448
[11] Russakovsky O,Deng J,Su H,et al. Imagenetlarge scale visual recognition challenge[J].International Journal of Computer Vision,2015.115(3):211-252
[12] Redmon J,Divvala S,Girshick R,et al.You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:779-788
[13] K He,et al.Deep residual learning for image recognition[J].arXiv preprint arXiv:1512.03385,2015.
[14] 高大鵬,朱建剛.多維度自適應3D卷積神經(jīng)網(wǎng)絡原子行為識別[J]. 計算機工程與應用,2018.4:174-178
[15] Vedaldi VLDUA. Instance Normalization: The Missing Ingredient for Fast Stylization[J]. arXiv preprint arXiv: 1607.08022, 2016.