陳鑄
摘要: 隨著計算機技術應用的快速發展,人機交互的出現滿足了人們很多需求。在這些人機交互方式里面最典型的一個例子就是第六感裝置。手勢識別是第六感裝置的關鍵技術,本文利用圖像處理來設計手勢識別算法,它能識別出常用的靜態手勢和動態手勢,將識別出的手勢作為指令來控制應用系統。
Abstract: With the rapid development of computer technology, the emergence of human-computer interaction meets the requirements of many people. In the man-machine interactive way one of the most typical examples is the sixth sense device. Gesture recognition is the key technology of the sixth sense device. This paper, by using image processing to design the gesture recognition algorithm, it can identify common static gestures and dynamic hand gestures, to identify the gesture as instructions to control the application system.
關鍵詞: 人機交互;第六感裝置;圖像處理;手勢識別算法
Key words: the human-computer interaction;the sixth sense device;the image processing;gesture recognition algorithm
中圖分類號:TP317.4 文獻標識碼:A 文章編號:1006-4311(2017)09-0100-03
0 引言
人機交互方式越來越多樣,傳統的人機交互方式主要是基于鼠標、鍵盤等外設的交互方式和基于觸摸屏技術的交互方式。隨著計算機技術的發展,人們開始不滿足現有的人機交互方式,因此在這樣的背景下出現了一些具有革命性的技術。比如VR,它是一種虛擬現實的仿真技術,它的核心技術是基于圖像處理的手勢識別算法。由VR衍生得到的第六感裝置,更是把這種技術完美地闡釋出來。 “第六感是一種便攜式手勢界面,盡可能的把物質世界的事物數據化,增強人機交互的便捷力,使得現實世界和數為世界的聯系更為緊密”。第六感裝置所用的基于圖像處理的手勢識別算法已然成為了當今世界人機交互技術的研究熱點之一。
1 圖像處理
圖像處理的方法多種多樣,包括圖像灰度化、直方圖、Kinect結構。圖像灰度化中灰度圖(Grayscale)是指只含亮度信息,不含色彩信息的圖像,灰度圖使用比較便捷。第一,RGB值相同;第二,圖像數據索引值,也就是真實RGB的亮度值。
灰度直方圖是數字圖像處理中一個最簡單、最有用的工具,灰度直方圖(histogram)是灰度級的函數,它表示圖像中具有每種灰度級的象素的個數,反映圖像中每種灰度出現的頻率[1]。在圖像增強上面大多數采用直方圖操作;灰度直方圖的定義是:對于連續圖像,平滑地從中心高灰度級變化到邊緣的低灰度級[1]。其直方圖可定義為:
如圖1,是灰度直方圖的展示[1]。(a為圖像灰度輪廓線,b為其直方圖)
如果所有灰度級集中在加大范圍內則圖像的動態取值相應擴大范圍,反之亦然。
Kinect是一個人體動作感知設備,它的整體結構包括一個內置芯片、一個普通的RGB攝像頭,能夠采集鏡頭范圍內的RGB圖像,一個紅外激光發射器和一個由紅外CMOS攝像機組成的3D深度感應器,一個轉動馬達用于上下調整角度以及一組麥克風陣列可以用于語音識別。相比于前面提到的兩者,Kinect可用于商業開發、包含手勢識別和跟蹤功能、可自動對齊深度圖像和RGB圖像,全身跟蹤、關節旋轉角度計算、支持記錄/回放數據寫入磁盤、支持原始紅外視頻數據流等優點[1]。
根據本文的研究內容,在手勢識別圖像處理中,本人選用Kinect來獲取圖像并進行處理。
2 第六感裝置手勢識別算法
第六感裝置的手勢識別方法是手勢識別技術領域的一次突破,是指基于第六感裝置所獲取的彩色信息、深度數據和骨骼信息進行手勢的識別。工作流程如圖2所示。
靜態環境下手勢識別算法,首先利用Kinect相機獲得圖像的彩色、深度和骨骼數據,借助骨骼數據快速跟蹤手部點,成功跟蹤和檢測手部掌心點后,利用右手掌點的Z坐標對深度圖進行分割。分割條件公式如公式(3)所示[5]。
A(x,y)=0xff,Zhand-200 其中,A(x,y)標記該像素點是否為手部區域點,Z(x,y)表示像素點(x,y)處的深度值,Zhand表示掌心點的深度值。在彩色圖像中顯示ROI其它區域設置為0x00,如圖3所示(圖3中的(a)圖為深度圖分割出的手勢,(b)圖為轉換到彩色圖中的手勢,(c)圖為膨脹后的ROI,(d)圖為ROI在彩色圖中的顯示)。 動態環境下手勢識別算法,除了在正常環境下,本算法在一些干擾因素多的環境下測試出的結果也讓人滿意。根據本文方法在動態環境中進行了一系列實驗:包括復雜背景下;使被測對象周圍光照強度不同;以及被測對象做出旋轉動作;從圖4的識別結果five與彩色圖像手勢的對應得出,本文提出的靜態手勢識別系統在多種動態環境下都能夠對人體手勢進行改進識別[6]。 
3 第六感裝置手勢設計
要對手勢進行檢測與識別,首先要對被識別物的信息進行處理并提取特征點,然后通過所獲取的信息擬合出實際手勢。手勢特征提取用于強化手勢信息,去除干擾和噪聲。由于Huough是一種估計直線參數的方法,它能夠檢測到直線不連續的情況,而且對圖像的噪聲點不敏感,所以這里我們用Hough來檢測手勢。
(Hough變換利用圖像空間和Hough參數空間的點-線對偶性,把圖像空間中的檢測問題轉換到參數空間)[8]。通過在參數空間里進行簡單的累加統計,然后在Hough參數空間尋找累加器峰值的方法檢測直線[8]。直線y=kx+b在極坐標中的表示為=xcos+ysin,其中(,)定義了原點到之間的垂直量。在極坐標系中,xy平面上的任一條直線與,空間中的點一一對應。我們假設xy平面上的一條直線對應的極坐標系中的(0,0)點,對每個需要檢測的點做空間變換,在計算所有的(i,i)進行增量,當對所有的點進行這種操作之后,(0,0)將是局部最大值。只要找到該空間的最大值就可以獲得這些點構成的直線參數, Hough變換檢測直線可分為以下三個步驟:
①先假設一個二維數組的下標與i、i的取值相對應,給和的取極值范圍并分別對其進行m,n等分;
②用Hough對圖像上的所有邊緣點進行變換,并求出各經過Hough變換后的i、i,判斷(i,i)與哪個數組元素對應,則把該數組元素值加l;
③比較數組元素值的大小,(i,i)對應了max,并且是這些共線點對應的直線方程的參數,它們的共線的表達式為:i=xcosi+ysini。
對于和量化過大,直線參數不精確,這樣會加大工作量。因此,對于和的具體化要兼顧準確度度和計算量。在進一步得到被識別手勢的左右邊界點后,對其進行線性回歸,得到平滑、連續的被識別手勢邊界。這時就可以根據邊界直線計算出被識別手勢中心線。設(m0,n0)為被識別手勢左邊界上的點,(m1,n1)為相應的右邊界上的點,被識別手勢的中心線通過兩個車道直線夾角的平分線求得。之后可求得需要被識別手勢的寬度:
m0-m1(4)
當找到被識別手勢邊界的位置后,手勢進入跟蹤狀態。這時算法轉入跟蹤識別模塊階段,它只需要在感興趣區域對被識別手勢邊界進行識別即可。被識別手勢跟蹤算法其實就是被識別手勢檢測算法,它是根據前一次識別出的被識別手勢邊緣線,動態的調整感興趣的區域范圍,從而提高被識別手勢識別的實效性。跟蹤算法可以利用前一識別過程得到的被識別手勢邊界參數來預測。這樣就可以把對被識別手勢邊界的識別限制在一個較小的范圍內,即所謂的感興趣區域。具體算法如下:
①通過對上一幀被識別手勢圖像分析得出被識別手勢邊界線的感興趣區域。
②根據被識別手勢左右邊界點分析得出被識別手勢中心點,以此擬合出被識別手勢中心線。
③找到手勢與中心線的位置以及角度的偏差。
如圖5所示,感興趣區域在整個圖像中占的比例不大。一幅640 X 480的圖像所取的感興趣區域往往放大比原來圖像的3倍,這樣放大處理區域,處理速度在一定程度上有較大的提高。
4 結束語
本文首先從圖像處理出發,針對圖像灰度化、直方圖和Kinect結構進行了介紹和分析。接著針對現有的手勢識別技術進行分類,本文分別介紹了基于圖片處理的手勢識別系統的工作原理和流程,然后介紹了基于第六感裝置手勢識別算法,包括靜態環境下手勢識別算法、動態環境下手勢識別算法以及特征提取。最后一步就是第六感裝置的設計。其中包括第六感裝置設計的手勢圖像模型庫閾值的選取以及被識別手勢邊界線跟蹤。第六感裝置在總體識別效率上比較完備,但對于算法精度要求更高的如應用于人機交互嵌入式平臺,需要改進完善的地方還有很多,這也是未來繼續研究的方向。
參考文獻:
[1]孫樹森,馬文娟,桂江生,等.基于第六感裝置的《互動應用開發》課程開發探究團[J].中國校外教育,2012(30):161-165.
[2]宋詩超,禹素萍.基于Kinect的三維人體建模與測量的研究[D].東華大學.
[3]SakoeH,recognition Chiba S Acoustics Dynamic programming algorithm optimization for spoken word,Speech and Signal Processing[J]. IEEE Transactions on, 1978, 26(1):43-49.
[4]潘松,黃繼業,王國棟.現代DSP技術[M].西安:西安電子科技大學出版社,2014:5-16.
[5]孔凡震.基于視覺的靜態手勢識別算法研究[D].蘭州交通大學,2009.
[6]常壓南.基于HMM的動態手勢識別[D].廣州:華南理工大學,2012.
[7]李瑞峰,呂開元.基于圖形變成技術的服務機器人人機交互系統的研究[J].制造業自動化,2013,25(3):40-43.
[8]程萌萌,林茂松,王中飛.應用第六感裝置手勢識別與視線跟蹤的智能教學系統研究[J].中國遠程教育,201(5):59-64.