石曼銀
(寧德師范學院計算機系,福建寧德352100)
基于Kinect深度圖像信息的手勢軌跡識別及應用
石曼銀
(寧德師范學院計算機系,福建寧德352100)
本文提出了一種新型的利用Kinect獲取深度圖像并進行手勢軌跡識別的應用方法,該方法稱為HMM(隱馬爾可夫)手勢軌跡識別方法,具體操作步驟為:首先利用Kinect傳感器獲取深度圖像,然后通過OpenN I的手勢生成器的手勢分析模塊獲取完整的手勢信息,對手部進行形態學處理,識別并跟蹤手勢,提取手勢軌跡,最后運用HMM手勢軌跡識別方法進行識別.實踐證明,該方法可快速有效地實現手勢軌跡的識別.
Kinect;手勢軌跡識別;OpenN I;HMM;應用
手勢不失為直觀而自然的人機交互模式,近年來,手勢識別在智能手機、虛擬鍵盤、智能互聯網電視、體感游戲、機器人控制系統等領域得到了廣泛地運用,這也是人機交互中面向社會大眾面最廣的一種識別方法.例如三星UA55F8000AJXXZ智能電視采用智能互動技術,讓消費者的操作方式變得更加直觀和簡便.該智能電視可以識別更自然的手勢動作,用戶還可以用兩手操作來實現圖片的放大和縮小,以及旋轉圖片,也可以輕松揮手在不同的智能應用中心界面之間隨意切換[1];再如業界近年來研究出的膚色信息手勢識別法,也就是該技術可利用人體的膚色信息進行手部圖像的獲取,并對采集的手勢信息進行識別處理,但該方法由于易受與膚色較近的其他顏色信號的干擾;再如HOG(梯度直方圖手勢識別法)解決了手勢旋轉與光照條件對于手勢信息提取時的影響,但由于該方法計算量繁復,而且只能對數據庫中事先存有的手勢進行識別[2].
本文作者結合自身工作經驗并查閱相關資料的基礎上,采用微軟公司的Kinect感應處理器采集深度圖像數據,并對圖像進行識別與分割處理,規避了背景、光照等外界環境對圖像采集的影響,大大提高了手勢識別軌跡的穩定性與系統的健壯性.作者基于Kinect獲取了深度圖像信息后,再使用OpenNI的手部分析系統獲取手心部位,對手心點進行去抖動處理以獲得開始點及結束點,追蹤手勢軌跡,并采用HMM系統對所追蹤到的手勢軌跡進行訓練與識別,本文通過五個不同的手勢的旋轉檢驗了人機交互的運用效果.
該方式的作用機制是將手部圖像與背景圖像進行分離,而OpenNI為其提供的API接口可連接硬件,可與此連接的硬件包括Audio Device、3D Sensor、IR Camera、RGB Camera四種,另外,OpenNI的中間層空間主要用于追蹤和識別手勢,其中間層對于以下幾種中間件進行了定義:(1)手部分析:只要為追蹤手部位置;(2)全身分析:Kinect獲取到深度圖像信息后,會對周身部位的信息做出顯示,如位置、角度等細節問題;(3)背景分析:對場景內的信息進行分析,包括前景分離、圖像背景、坐標軸、場景內的所有物體等[3],手心位置的檢測主要是通過Open CV與Open NI相結合的方法,手勢的檢測為事先議定好的手勢,如擺手,實驗時讓手部位于身體的前方,五指打開,指尖朝上并正對Kinect感應器,距離維持于25-100cm之間,手部擺動的速度與幅度要維持于勻速適中的狀態,直至檢測到手部清晰的圖像,程序接收到布爾訊號并追蹤手部的位置,對手心點進行去抖動處理,對前幀檢測的手心圓圈的數據進行保存,再將當前幀的數據與前幀進行對比,本次測驗的閾值設定為2.4mm,若兩組間數據的差異在此范圍內則可繼續顯示前幀的手心圓圈,反之,若差異超過閾值范圍以外則需重新繪制手心圓圈的位置,這樣可避免手心的細微抖動[4].在對圖像繪制軌跡時可能會出現無效幀或無實際意義的幀序列,這中情況多發生于手勢輸入時或手勢輸入結束時,中間幀基本有效,無效幀對于手勢特征的采集而言無實際意義,且會增加運算量,降低系統的分辨力,本文對手勢的開始點與結束點提出了新的判斷,通過實驗證明,當對手勢進行輸入時,系統檢測到手心后即開始追蹤手心點,當檢測時檢測到連續波動5幀的情況且范圍較小時,則提示我們當前手心點處于靜止點,可作為有效的手勢軌跡輸入的起始點,第二次則為輸入結束.
2.1 HMM隱馬爾可夫模型的概述
隱馬爾可夫模型(HMM)是一種用于統計分析的模型,對于信號的處理具有重要的意義.
現已成功地用于語音辨識,行為識別,文字辨識以及故障排查等領域.HMM模型包括3個概率矩陣以及2個狀態集合,HMM模型的表達方法為:
2.1.1 隱含狀態S:例如S1、S2、S3等等,這些狀態符合隱馬爾可夫的性質,是隱馬爾可夫模型中實際中所隱含的狀態,一般情況下,這些狀態無法通過直接觀測而得到.
2.1.2. 可觀測狀態O:例如O1、O2、O3,在HMM模型中與上述的隱含狀態有關聯,不同的是其可通過直接觀測而得到,其可觀測狀態的數目不一定和隱含狀態的數目一致.
2.1.3 初始狀態概率矩陣π:例如t=1時,P(S1)=p1、P(S2) =P2、P(S3)=p3,則初始狀態概率矩陣π=[p1,p2,p3],表示隱含狀態在初始時刻t=1的概率矩陣.
2.1.4 隱含狀態轉移概率矩陣A:描述了HMM模型中各個狀態之間的轉移概率,其中Aij=P(Sj|Si),1≤i,j≤N.表示在t時刻、狀態為Si的條件下,在t+1時刻狀態是Sj的概率.
2.1.5 觀測狀態轉移概率矩陣B:也叫Confusion Matrix,令N代表隱含狀態數目,M代表可觀測狀態數目,則Bij=P (Oi|Sj),1≤i≤M,1≤j≤N,表示在t時刻、隱含狀態是Sj條件下,觀察狀態為Oi的概率.
一般情況下用λ=(A,B,π)三元組來表示隱馬爾可夫模型,隱馬爾可夫模型實際上是標準馬爾可夫的拓展[5],其較標準馬爾可夫增加了可觀測狀態集合及可觀測狀態集合與隱含狀態間的概率關系.
動態手勢不同于靜態手勢僅僅是在空間形態及位置上的變化,動態手勢涉及到空間與時間上的變化,手勢軌跡采集的基本特征是速度、角度與位置,即使是同一個手勢,若速度不同也會造成極大的差異[6],手勢識別的顯著特點為手勢軌跡曲線上的坐標位置的變化,考慮到即使是相同的手勢,其坐標點也會有變化,在實際運用中建議采用手勢軌跡的不同時刻的切線角度的變化為手勢軌跡的特征[7].
4.1 前文提及過本文通過五個不同的手勢的旋轉檢驗了人機交互的運用效果,分別為手部向左旋轉、向右旋轉、向上運動、向下運動及畫圈五個手勢.HMM手勢識別實驗采用由左至右的有序序列,連續多幀停留在一起,如下圖所示,在建模初期每條軌跡應對應一個HMM,模型狀態數的選擇應盡量增加,因為狀態數越多,HMM模型越能真實地反應手勢軌跡,但是這也在一定程度上加大了計算量[8].
如圖,由左至右無跳轉HMM模型

4.2 本文分別采集了10個手勢軌跡,每人將每種手勢重復兩次,選取其中50個手勢軌跡作為檢測樣本,下表是5種手勢的識別率,可以看出HMM具有較高的識別率.

手勢軌跡向左向右向上向下畫圈準確次數48 49 49 50 49識別率96%98%98%100%98%
4.3 系統健壯性檢測
未檢驗本系統在不同光照下的系統健壯性,實驗分別于不同光照環境下的指令分別做了50次試驗,下表為在光照環境下及黑暗條件下各做50次的試驗后的各自被正確識別的次數及準確率,實驗結果表明,本文研究的HMM手勢軌跡識別系統在應對光照變化及外界環境復雜,干擾較強的條件下的系統健壯性較高.

指令光照環境黑暗環境正確次數準確率%正確次數準確率%前進48 96%47 94%后退48 96%47 94%左轉49 98%47 94%右轉48 96%47 94%停止49 98%48 96%
本文通過深度圖像信息通過視頻流分割手勢并檢測到手心點,有效地避開了光照及復雜外界條件的干擾,準確地提取到了手勢軌跡的特征[9],適時引入HMM系統對手勢軌跡進行識辨與判斷,實驗結果表明,利用Kinect獲取深度圖像的并進行手勢軌跡識別的應用方法,即HMM(隱馬爾可夫)手勢軌跡識別方法具有較高的識別率,系統較為完善,但是仍存有許多有待改進的地方,如今后的實驗可繼續添加新的手勢的變化,完善手勢輸入起始點的確定法,旨在進一步提高系統的健壯性,提高該系統的使用與推廣價值.
〔1〕曹雛清,李瑞峰,趙立軍.基于深度圖像技術的手勢識別方法[J].計算機工程,2012(08).
〔2〕SILANON K,SUVONVORN N.Hand motion analysis for Thai alphabet recognition using HMM[J].International Journal of Information and Electronics Engineering,2011,1(1):65-71.
〔3〕張青苗,李鵬,趙勇,何寶富,孫彧.一種基于OpenCV實現的運動目標檢測算法的研究[J].艦船電子工程,2010 (07).
〔4〕孔曉明,陳一民,陳養彬,殷燁.基于視覺的動態手勢識別[J].計算機工程與設計,2005(11).
〔5〕張毅,張爍,羅元,徐曉東.基于Kinect深度圖像信息的手勢軌跡識別及應用[J].計算機應用研究,2012(09).
〔6〕王萬良,馬慶,王鑫,汪曉妍.基于Kinect的高維人體動畫實時合成研究[J].計算機應用與軟件,2011(11).
〔7〕KAO M C,LITHS.Design and implementation of interaction system between humanoid robot and human hand gesture[C]//Proc of SICE Annual Conference.[S. l]:IEEE Press,2010:1616-1621.
〔8〕楊誠.基于視覺的動態手勢識別研究[D].西北大學,2012.
〔9〕IKEMURA S,FUJIYOSHI H.Real-time human detection using relational depth sim ilarity features[C]// Proc of the 10th Asian Conference on Computer Vision,2011:25-38.
TP311.52
A
1673-260X(2013)09-0027-02