俞洋 厲丹 馬一丁 姚瑤 張麗娜



摘要:與普通的神經網絡非常相似,CNN卷積神經網絡也由具有可學習的權重和偏置常量的神經元組成。每個神經元都接收一些輸入并做一些點積計算,輸出是每個分類的分數,普通神經網絡里的一些計算技巧依舊適用。該文介紹了基于CNN卷積神經網絡的手勢識別系統,首先對不同的手勢圖片進行采集,將采集結果作為訓練集和測試集,系統將會對其進行識別。
關鍵詞:卷積神經;手勢識別;深度學習
中圖分類號:TP183 文獻標識碼:A
文章編號:1009-3044(2020)10-0210-03
1概述
隨著科學技術的不斷發展,圖像識別技術的應用領域不斷擴大,現如今已經成為一個熱門話題。不僅可以方便人們的生活,更為用戶提供了更加直觀靈活的操作方式。
手勢識別是人機交互中一種簡單直接的方式,對圖像進行手勢分割,綜合手勢形狀和位置狀態信息,將靜態手勢劃分為五種,提取基于圖像屬性的靜態手勢特征,而后將手勢特征向量輸入到系統進行訓練并得到識別模型。通過多種多樣的手勢,可以有效捕捉、分析和識別不同的手勢信息,在多個領域都有著重要意義。
2卷積神經網絡
2.1卷積神經網絡結構
如圖1,卷積神經網絡其實是起到一個分類器的作用。卷積層的作用是提取特征,采樣層的作用是特征選擇,全連接層的作用是分類。
卷積神經網絡的核心思想是局部感受野、權值共享和pool-ing層,具有表征學習的能力,能夠按照其階層結構對所輸入的信息進行平移不變分類,采用梯度下降法最小化損失函數,對網絡中的權重參數逐層進行反向調節,通過高頻的迭代訓練來提高網絡的精度。
卷積核是可以用來提取圖像特征和卷積核卷積,就可以得到特征值,卷積核放在神經網絡里,代表對應的權重。卷積核和圖像進行點乘,代表卷積核里的權重單獨對相應位置的Pixel進行作用。
例如三個分量的pixels對應三個卷積核,數字即相當于它的權重。假設已知對應分量以及卷積核,根據神經網絡公式:
卷積層在卷積神經網絡中尤為重要,它的功能是對輸入數據進行特征提取,每一個神經元都進行局部的特征提取,在更高層將其整理合并。
通過卷積操作所得到的特征圖,來自不同特征圖的每個位置單元將得到各自不同類型的特征。一個卷積層中通常包含多個具有不同權值向量的特征圖。
池化層對卷積層提取出來的特征圖進行磁化處理,可以在減少數據處理量的同時保留有用信息,即對圖像由高分辨率向低分辨的轉換。通常卷積層池化層交替分布,使得特征圖數目逐漸增多,分辨率逐漸降低。
全連接層在卷積神經網絡中可以看作是一個“組合器”,它把卷積層提取的局部特征重新通過權值矩陣組裝起來,形成完整的圖。
3基于卷積神經網絡的手勢識別系統
手勢識別是一種十分直觀且簡單自然的人機交互方式。本系統的手勢識別內容包含石頭、剪刀、布、OK、Good五種手勢信息采集、手勢分割、特征提取、自動識別。
系統初始界面如圖3所示。
用戶點擊捕捉手勢功能時,將自己的手勢對準電腦的攝像頭鏡頭,按下鍵盤的B字母鍵,系統就會對手勢進行捕捉。捕捉成功之后系統將會生成圖片(為JPG格式),將圖片放入已經訓練的參數模型中進行識別,成功后系統會顯示結果。用戶想要查看自己的系統手勢識別率為多少,可以點擊訓練手勢模塊,系統將會彈出對話框告知用戶。
如果用戶對此系統并不熟悉,可以點擊操作提示,按系統提示進行手勢識別操作。
3.1實驗過程
該手勢識別系統總共可以分為四個步驟:
1)數據集的收集,即對不同樣式的手勢進行采樣整理或者收集,做成數據集。在初始化背景中,在手勢目標未進入攝像鏡頭區域前,由攝像機采集圖像作為背景圖像,計算n幀圖像的所有像素的平均值ui及平均差值σi,則初始背景模型由(ui,σi)構成:
在上式中,ui表示n幀圖像中第i個像素點的均值,uti表示第t幀圖像中第i個像素點的像素值,σi表示n幀圖像中第i個像素點的平均差值。
進行手勢的圖像采集,如下圖所示。
2)進行識別:將數據集里的手勢捕捉,基于卷積神經網絡識別系統對于樣本進行識別可以生成手勢模型。
3)系統訓練、識別率計算:將數據集里的圖像進行輸入并訓練,若用戶需要識別率,則進行計算。測試集越往后學習,準確率越高。因為在全部訓練集上的誤差是每個訓練樣本的誤差的總和,所以僅先考慮對于一個樣本的BP。對于第n個樣本的誤差,表示為:
傳統的全連接神經網絡中,需要根據BP規則計算代價函數E關于網絡每一個權值的偏導數。用l來表示當前層,那么當前層的輸出可表示為:
在這里的輸出激活函數一般是sigmoid函數或者雙曲線正切函數。sigmoid將輸出壓縮到[0,1],所以最后的輸出平均值一般趨于0。所以如果將訓練數據歸一化為零均值和方差為1,可以在梯度下降的過程中增加收斂性。
4)顯示結果:將識別系統將結果輸出,如圖6所示。整個卷積神經的手勢識別系統過程如圖7所示。
4總結
更加直接有效地捕捉、分析、處理及識別各類手勢信息,并快速獲得正確的響應,是實現人機交互功能的關鍵技術之一。在利用卷積神經網絡相關公式實現手勢分割基礎上,根據手勢位置、形狀等信息將其劃分為不同的類型,再利用CNN卷積神經網絡的學習性對數據集進行分析,使得識別的正確率達到了96%。證明卷積神經網絡是一種可以進行深入學習與不斷更新的網絡,其在計算機應用等許多領域仍然需要進行大力的研究。