雷恒,王曉艷
(西南林業大學,云南 昆明 650000)
近年來,我國手機支付的應用已經在全國范圍內普遍開展,預示著人機交互活動成為人們生活中必不可少的一部分。同時,隨著機器視覺的進一步發展和相關數據分析理論的不管改進和完善,在未來將逐漸實現以計算機為中心的人機交互轉變為以人為中心的人機交互模式。手作為非剛性物體,其姿勢變化十分豐富,所表達的意思也很多。因此,基于機器視覺的手勢識別問題的解決對人機交互模式具有重要意義。與此同時,深度學習已經在語音識別、人臉識別等圖像識別中廣泛應用并取得一定成果。本文將重點研究深度學習理論在手勢識別方向的應用。具體闡述如下。
深度學習本身是一種算法,其區別于云計算和并行處理能力。對于識別領域而言,對某個目標或對象的識別需經歷傳感器獲取基本參數、對基本參數進行預處理,對相關特征進行提取,結合提取結果通過推理、預測后完成識別任務。傳統識別系統中對特征的推力、預測和識別由機器完成;而對特征提取等由人為進行,該項操作的工作量也很大,一旦提取特征存在偏差將導致后續機器的識別精度。因此,基于機器完成對對象或目標的特征提取不僅可解決工作量繁重的目標,而且還能夠解決參數提取特征的精度。
深度學習就是由機器完成對象特征的提取,正好與上述需求契合。深度學習網絡如圖1所示。

圖1 深度學習網絡
如圖1所示,深度學習最基礎的機制為對象的特征從底層傳遞至上層的過程中對各項參數特征和抽象信息進行提取,其中所包含的信息眾多。與人腦學習機制不同,深度學習需要不斷訓練才能獲得預期效果。
手勢識別的任務是基于深度學習分析出其中的內涵,在整個識別過程中需經歷檢測、跟蹤、識別三個流程。其中,檢測和跟蹤流程主要是對手與非手進行區分;識別流程是對不同手勢進行區分。實際上,檢測和跟蹤是保證識別準確性的關鍵,即靜態手勢識別。因此,本節將重點對靜態手勢識別展開研究。為開展相關研究,制作相應的手勢樣本,并為其賦予復雜的背景。
靜態手勢識別的核心內容為采用最佳方法對手勢進行識別。基于深度學習可應用于靜態手勢識別的方法包括采用深度網絡DBNs識別手勢、采用DNN方法進行手勢識別、采用卷積神經網絡進行手勢識別、采用CNN和RBM聯合網絡進行手勢識別。上述四種手勢識別方法與傳統神經網絡的手勢識別方法相比,傳統神經網絡容易在學習訓練過程中陷入循環且不容易從中間跳出,其對應的訓練學習速度較慢。本文將基于CNN方式對手勢進行深度學習,進而實現識別的任務。并對不同訓練樣本下不同迭代次數的錯誤率進行仿真分析,得出如圖2所示的結果。

圖2 靜態手勢識別錯誤率仿真結果
如圖2所示,對著識別樣本數量的增加基于DNN方法識別的錯誤率降低;而且,隨著深度學習迭代次數的增加,即加強學習的深度最終所獲取靜態手勢識別的錯誤率明顯降低。
靜態手勢識別對應的識別難度較低,而在實際應用幾乎不存在靜態的情況。因此,針對復雜背景下手勢的識別應重點開展研究。對于復雜背景下手勢的識別其主要難度在于待識別樣本中存在較大的噪聲,從而極大地增加了手勢識別的難度。
針對復雜背景下手勢的識別可采用DBNs網絡、DNN方法、RBM以及聯合網絡進行訓練。經研究可得出如下結論:
(1)基于DBNs網絡對復雜背景下手勢的識別存在較大的困難,該方法對復雜手勢樣本的識別能力較弱;
(2)基于RBM方法對復雜背景下手勢的識別難度更大,該方法幾乎無法獲取復雜背景下手勢的參數,同時還無法實現對復雜背景下手勢的重構。
(3)基于DNN方法可實現對復雜背景下手勢的識別,其能夠在多次迭代次數達到收斂的效果。
綜合分析可知,用DBNs網絡、DNN方法、RBM以及聯合網絡對手勢識別的訓練方法各有優劣勢。總的來講,可基于DNN方法實現對手勢識別的深度學習和訓練,且其對應的識別錯誤率最低。
深度學習目前已經應用于各行各業中,雖然其在眾多行業中已經應用,但是實際應用中對應的訓練方式、學習順序、數據處理等依然存在問題。本文重點研究深度學習理論和相關技術在手勢識別中的應用,并總結得出如下結論:
對目前應用較為廣泛的兩種深度學習方法進行對比,包括以RBM為基礎的深度網絡和CNN深度網絡。經仿真分析可知,CNN深度網絡針對靜態和復雜背景下手勢識別可以保證最高的識別準確率;以RBM為基礎的深度網絡僅對靜態手勢的識別準確率滿足要求,而針對復雜背景的識別效果不佳。因此,針對實際應用中的手勢識別可以采用CNN深度網絡開展對靜態和復雜背景下的深度學習和訓練。