高 暢, 蔣 浩, 毛天露, 王兆其
(1. 中國科學院計算技術研究所移動計算與新型終端北京市重點實驗室,北京 100190;2. 四川大學軟件學院,四川 成都 610225)
基于雙重優化的連續手勢識別方法
高 暢1,2, 蔣 浩1, 毛天露1, 王兆其1
(1. 中國科學院計算技術研究所移動計算與新型終端北京市重點實驗室,北京 100190;2. 四川大學軟件學院,四川 成都 610225)
基于計算機視覺的連續手勢識別因為其自然性和便捷性在大型互動娛樂、互動教育等方面得到了廣泛應用。在連續手勢識別過程中,解決手勢分割問題的已有方案多存在計算量大效率低的缺點;解決獨立手勢識別問題的已有方案多存在訓練參數設定過程復雜的缺點。針對這兩個問題做出兩點優化:其一,提出一種基于隱狀態模式歸一化的方法對連續手勢進行分割,提高了手勢分割的效率;其二,提出一種基于參數自反饋調節的獨立手勢訓練和識別方法,降低了獨立手勢訓練的難度,并提高了識別的精度。實驗證明,提出的基于雙重優化的連續手勢識別方法與原有方法相比在精度和效率上都有較大提升。
人機交互;連續手勢識別;手勢分割;獨立手勢識別
近年來,人機交互技術快速發展,如何與計算 機進行自然的交互已成為了研究的熱點。以往基于鍵盤和鼠標的交互方式已經十分成熟,出現了越來越多新穎的交互方式[1-3]如語音交互,腦機交互,手勢交互,這些新穎的交互方式更加自然、直觀,給人們帶來了更加良好地交互體驗。其中,手勢交互技術因為其快捷性和直觀性得到了巨大發展,也已經在諸如大型互動娛樂、互動教育等方面得到了成功應用。
手勢從運動特點出發,可以分為靜態與動態手勢。靜態手勢是僅依靠手的外部形狀與輪廓傳遞信息的方式,被視為動態手勢的特例;動態手勢是指手的形狀與位置都隨時間發生變化的手勢,可表達更加豐富和準確的信息,也是人們日常生活中最為常用的交流方式之一[4]。其中,用戶在三維空間不斷揮動手臂,畫出圖形,計算機得到手的三維空間軌跡數據,從連續數據中自動剔除冗余數據,實時發現并識別出手勢種類是一個重要問題,此問題被稱作連續手勢識別,是本文的研究對象(本文中所涉方法解決無手性變化只考慮手的空間軌跡的問題)。
一般情況下,用戶在空間做連續手勢時,并不會明確手勢的起點和終點,在做不同手勢的間隙也存在一些冗余手勢。在連續手勢識別問題中首先需要識別器剔除冗余數據,明確目標手勢的開始和結束位置,被稱為手勢分割。在手勢分割后,識別器對分割好的手勢數據進行識別,發出對應指令,這個問題被稱為獨立手勢識別。這兩個問題,是連續手勢識別過程中存在的主要問題。以往的研究人員已經對這兩個問題進行了一些研究,也提出了一些解決策略。
在手勢分割過程中,由于數據是實時更新的,所以識別器需要循環對數據流進行檢測,不斷判斷已接收到數據流中是否存在已定義的手勢,假如檢測到存在已定義的手勢,則對手勢進行識別并發出指令。以往研究人員主要的思路是為已定義的獨立手勢和冗余數據分別建立模型,通過把當前數據分別帶入這些模型,求出當前數據與這些模型的相似度,通過比較相似度來判斷待識別的數據屬于冗余數據還是已定義的手勢。以往的研究提出了基于隱馬爾可夫模型(hidden Markov model,HMM)和閾值模型的手勢識別方法[5-8],這種方案在解決手勢分割問題有一定效果,但由于系統實際運行過程中待識別數據往往由冗余手勢和已定義手勢連接組成,此方法在處理這種情況時往往不能達到良好的效果。
在連續手勢被分割之后,需要對分割完成的獨立手勢進行識別,在獨立手勢識別過程中,經常會出現訓練過程中不能對 HMM參數進行合適的設置,造成識別不準的問題。
針對研究過程中存在的兩個問題,本文在原有基礎上做出了雙重優化:
(1) 針對連續手勢識別過程中存在的問題,提出了基于隱狀態模式歸一化的連續手勢識別方法,是指在使用HMM進行手勢的訓練和連續識別的過程中,均對手勢數據進行時序上的逆序處理。經處理后,連續手勢中的冗余數據對整體手勢的影響都被推后至末端的隱狀態,從而在識別過程中隱狀態模式歸一化為逆序手勢連接逆序冗余數據的模式。
(2) 針對獨立手勢進行識別過程中存在的問題,本文提出了一種基于參數自反饋調節的獨立手勢訓練和識別方法,即在訓練過程時,系統會根據樣本數據進行自反饋,不斷調節訓練參數使其達到最佳,自動訓練出識別率最高的HMM。
基于計算機視覺的連續動態手勢識別主要分為人手運動軌跡數據收集,手勢分割,獨立手勢識別三個階段。一般人手運動軌跡數據收集方法主要是通過識別人手特征(手型,膚色)定位手的空間位置和通過識別手持標志物定位手的空間位置兩種方法,在以往的研究過程中,通過這兩種方法均可以得到人手精確的軌跡數據[1]。本文中假定人手運動軌跡數據收集過程已經完成,重點研究對象在于手勢分割和獨立手勢識別。有關手勢分割和手勢識別分割,前人主要提出了以下四種方案。
(1) 基于HMM的方法:HMM的基本理論最初提出于20世紀60年代末,它是一個雙重隨機過程,即狀態轉移隨機過程與觀測隨機過程。模型的狀態不可見,只能通過觀察序列觀測到,狀態轉移隨機過程決定了隱含狀態轉移的過程,觀測隨機過程決定了從隱含狀態到觀察序列輸出間的對應關系。基于HMM曾有人提出了一系列連續手勢識別的解決方案[5-8]。在最初的研究過程中,相關研究人員曾試圖建立冗余手勢的HMM,使用模型就可以判斷當前識別的數據是已定義的手勢還是冗余手勢,但冗余手勢種類繁多,此方案雖然可以達到一定效果但整體識別率不佳。Lee和 Kim[8]在此基礎上提出了基于HMM和閾值模型的解決方案,通過對比待識別數據在已定義手勢對應的HMM和閾值模型的相似度關系來確定當前待識別數據是否是已定義手勢。該方案在以往方案的基礎上獲得了顯著提升,但同樣存在效率不高,有時還是需要人為進行停頓來分割手勢的缺點。
(2) 基于條件隨機場的方法:條件隨機場(conditional random fields,CRF)是Lafferty于2001年提出的一種判別式概率無向圖模型,主要用于標注和切分有序數據。CRF作為一種分類方法,用于動態手勢識別時,能很好地描述手勢序列間的依賴關系,是進行連續手勢識別的一種有效方案。前人在此理論基礎上提出了一系列基于 CRF和閾值模型的方法[9-15],有效地解決了手語識別中的手語分割問題。手語分割與連續手勢識別屬于同類問題,但基于CRF的方法大多存在訓練過程較為復雜,訓練比較耗時的缺點。
(3) 基于動態時間規整的方法:動態時間規整(dynamic time warping,DTW)是Sakoe提出的。由于手勢在運動速度上存在較大差異,導致手勢的采樣點不同,DTW 通過在時間軸上調整手勢序列以消除這種速度差異。運用該方法調整輸入手勢的時間軸,使之非線性地映射到模板手勢的時間軸上,使得二者之間距離最小,然后再進行模板匹配得到最終識別結果。Alon等[16]提出了基于DTW的連續手勢分割和識別框架,在連續手勢識別的問題上取得了很大進展。但原始的基于DTW的方法大多存在識別過程比較耗時的缺點。
(4) 基于混合模型的解決方案:在研究過程中,一些學者發現使用混合模型比使用單一模型可以達到更好的效果。如王西穎等[4]提出了一種基于HMM-FNN模型的復雜動態手勢識別方法。這種方案整合了HMM對時序數據的建模能力與模糊神經網絡的模糊規則的構建與推理能力,將其運用到復雜手勢的識別中,取得了良好地識別效果,但使用混合模型同樣存在訓練過程復雜,識別過程計算量大的缺點。
在大型互動娛樂,互動教育產品應用過程中,多存在多人參與、多人互動的情況,多人參與過程中仍然要求系統具備較高實時性和識別精度。而且為了達到更好的用戶體驗,系統的訓練學習過程應做到簡單高效。針對此情況,選用基于HMM和閾值模型的方案,在前人研究基礎上做出雙重優化,提出了一種高效和高識別精度的識別方法。
2.1 方法概況
為了達到高效連續手勢識別的目的,本文在基于HMM和閾值模型思想的基礎上,對訓練樣本和待識別數據進行隱狀態模式歸一化處理,顯著提高了識別效率。為了在保證識別精度的同時降低模型訓練的難度,本文采用了參數自反饋的模型訓練方法。圖1為本文方法整體流程圖。

圖1 算法框架圖
基于隱狀態模式歸一化的方法主要分為離線訓練和在線識別兩個模塊。這兩個模塊的理論基礎都是HMM。
在離線訓練部分中,首先進行的是訓練樣本收集的過程,然后進行特征提取,最后再使用合適的參數對HMM進行訓練,在訓練過程中,可采用的是隱狀態模式歸一化后的HMM。
在實時識別過程中,在收集到實時連續數據之后,要對數據進行相同方法的特征提取,再對隱狀態模式歸一化處理,最后代入離線模型庫得到識別結果,判斷此刻的數據是否為已定義的手勢。假如識別出已定義手勢,則給出識別結果,發出對應指令。
自反饋的模型訓練方法是基于一種自動調節并設定訓練參數的訓練方法,此方法降低了模型訓練過程的難度,同時相對于使用先驗法人工設定參數的方法,具有更高地識別精度。
2.2 特征降維
當接收到此數據后,首先需要對此數據進行降維處理,將三維空間軌跡投影到可以有效表征手勢的二維平面,經處理后原數據降維為(x1, y1),(x2,y2),… ,(xt, yt)形式,但此類數據對位置、大小敏感,會對數據的有效識別造成影響,采用經典的求取相鄰點間角度正切值的方法,如圖2所示,一般選取d種角度(d一般取值為16)原數據可被轉換成Ot= (o1),(o2),… ,(ot)(1 ≤on≤d ),經過預處理后的數據排除了手勢在空間位置和大小上的影響。

圖2 十六度特征向量圖
2.3 自反饋的手勢訓練方法
2.3.1 實際問題描述
想要完成獨立手勢的識別,就必須先訓練出每個手勢對應的HMM,在識別過程中,將待識別數據代入各個模型中,然后通過比較此段數據與各個模型的相似度來判斷手勢類別。想要達到最佳的識別效果,必須正確設置訓練時各個參數,在以往的研究中,經常使用人工設置參數的方法進行訓練,該方法存在過程復雜且最終結果無法達到最佳的問題,為解決這一問題本文提出了自反饋的手勢訓練方法。
2.3.2 模型基礎
在獨立手勢識別過程中使用的HMM為左右結構,如圖3所示,這種結構的HMM符合手勢數據具有時序性的特點。

圖3 左右結構的隱馬爾可夫模型示意圖
本文中假設獨立手勢有 G種,使用g= 1,2,3,… ,G作為獨立手勢的序號。第g種手勢對應的HMM為λg。
每個λg由 {Ng,Mg,Ag,Bg,πg}組成,其中:
Ng為隱狀態集合的隱狀態數,在此定義λg中對應的隱狀態集合用表示;
Mg為HMM觀測值的個數,觀測值取值范圍用集合 {v1, v2, v3,… ,vd}表示;
A= {ag}(1 ≤i≤ N ,1 ≤j≤N)為N × N的狀gij態轉移概率分布矩陣,因為本文選用的HMM為左右結構,所以模型的狀態轉移概率分布應為如下形式。為N × M的觀察概率分布矩陣,其中表示t時刻狀態為條件下出現觀測值 vk的概率。

π ={πg,πg,πg,… ,πg}為初始狀態分布。
g123N
2.3.3 參數自反饋調節過程
當假設第g種手勢的訓練樣本有 Sg個,那么表示第 g種手勢的第 s個樣本的軌跡序列(1,2,3,… ,Sg),則手勢g對應的訓練樣本集合可以使用表示。
若使用Baum-Welch算法對訓練數據Tg進行訓練,最終得到第g種手勢對應的HMM為λg。前邊已經提到λg由{Ng,Mg,Ag,Bg,πg}五個組件構成。在訓練之前,需要對這5個組件賦初值,即:

訓練結果λg會與初始值和Tg有一定的函數對應關系,在此使用:
表示這種對應關系,這個問題對應的是HMM中的參數學習問題,其經典解法是Baum-Welch算法,需要特別注意的是,λg中的組件 N, M ,π在初始化后不會因訓練過程而發生改變。
初始參數設定完畢后進行訓練即可得到其對應HMM λg。將一個訓練樣本重新帶入模型λg可以求得此訓練樣本對于此模型相似度δ(,λ)s ggt ,這個概率的求解過程對應HMM中的解碼問題,這個問題是指在給定模型參數λ和觀測序列O時,尋找最有可能產生觀測序列 O的最佳隱狀態序列的過程,此處的概率是指對應的最佳隱狀態序列產生觀測序列的概率,此概率通常使用Viterbi算法求解,使用此概率表征一個訓練樣本與模型的相似度,并使用樣本集所有樣本對應概率的平均值表征此模型的整體相似度。在此定義為:

為使用訓練樣本Tg訓練出的模型與訓練樣本的相似度。
將式(2)帶入式(3)可以得到式(4):

這個問題可以歸納為一個優化問題,在初始化時,如下參數(初始參數均根據先驗知識得出)可以使取值達到最佳效果:其中,GESTURE LENGTH為Tg中所有元素長度的平均值;

d為特征值的種類數,d=16

此問題可以使用隨機優化算法求得近似最優解,在下降過程中,保持M和π的值不變,通過自反饋調節改變A和B,N的值使問題達到滿足的最優解。
2.4 隱狀態模式歸一化連續手勢訓練/識別方法
2.4.1 實際問題描述
圖4中所繪制的問題為連續手勢識別過程中存在的核心問題,即在包含冗余數據流中分割出已定義手勢并對其進行識別。

圖4 連續手勢識別示意圖
因為連續手勢的繪制和識別過程均具有實時更新性,且當用戶完成一個手勢的繪制時,用戶所繪制手勢一定處于數據流末尾,所以連續手勢識別問題可以轉換為前端帶有冗余手勢的獨立手勢識別問題。
2.4.2 數學問題轉化

2.4.3 問題解決方法
本文中使用Viterbi算法求解δ(Oa→b,λg)的值。Viterbi算法解決的是解碼問題,即在給定模型參數和觀測序列,尋找最有可能產生此觀察序列的隱狀態序列的過程。使用 Viterbi算法求解出δ(Oa→b,λg),還會得到與此對應的隱狀態序列
因為手勢序列具有時序性且本文中采用的是左右結構的HMM。所以當 Oa→b為一個獨立手勢時(如圖 5(a)所示),此種情況下 qT*具有一定的均勻性,這種情況下δ(Oa→b,λg)處于正常前端的冗余手勢會對隱狀態進行匹配,從而打亂后端獨立手勢與相應隱狀態的正確匹配,這種情況下 s( Oa→b_λg)會非常低,無法滿足式(5)。而在連續手勢數據中,經常會出現如圖5(b)或者更為復雜的連有冗余手勢的獨立手勢,由此可見,使用滑動窗口進行多次匹配才能切分出正確的獨立手勢并完成識別,此類方案的實現方法及分析如下。

圖5 隱狀態序列與軌跡序列關系圖
方法1(原始方案). 通過滑動窗口暴力求解的方法
訓練過程:
在訓練過程中,使用自反饋的手勢訓練方法構造每個手勢對應的λg,再使用相應閾值模型的構造方法構造閾值模型λTM。
識別過程:
連續手勢識別的過程是實時的,所以理論上需要在每次數據更新時進行識別。又因為識別過程是實時檢測的,所以連續手勢數據有以下特性:
特性1:當用戶完成一個手勢的繪制時,用戶所繪制手勢一定處于數據流末尾。即在連續手勢數據流Ot= (o1),(o2),… ,(ot)中滿足式(5)的理想Oa→b一定滿足b = t。
根據特性1,只需在數據更新時檢測所有可能的 Oa→t并計算其是否滿足式(5)即可,a可能的取值范 圍 為 [t-GESTURE LENGTH MIN,t-GESTURE LENGTH MAX ](此處出現的GESTURE LENGTH MAX代表在樣本集中最長的樣本平均長度)。因為在實際情況中 Oa→t,Oa+1→t,…,Oa+step→t這些相鄰數據差異性較小,所以對這些相鄰類似數據進行一次檢測即可,這種情況下算法運行的總時間:

實驗中發現一般情況下想要達到良好的識別效果一般 T ≥10,此種方法的計算量較大。
方法2. 隱狀態模式歸一化連續手勢訓練/識別方法
針對此情況,所提出的使用隱狀態歸一化的訓練/識別方法,可以顯著提高識別的效率,減小計算代價。
訓練過程:
在訓練過程中,在帶入每個手勢所對應的HMM λg進行訓練之前,先要對數據進行時序上的逆序處理,即使用Tg構造其逆序向量使的逆序,再將 Qg分別帶入每個λg中求得 AgBg的值。在每個手勢對應的λg訓練完成后,再使用相應閾值模型的構造方法構造閾值模型λTM。
識別過程:
在隱狀態模式歸一化的識別過程中,需先對數據進行時序上的逆序處理,即使用 Ot構造其逆序向量Rt,使 Rt=(ot),(ot-1),… ,(o1) =(r1),(r2),… ,(rt)。在 Rt中尋找子序列 Ra→b使子序列滿足式(5) (其中Oa→b替換為 Ra→b),由特性1可知,當用戶完成一個手勢時,所繪制手勢一定處于數據流末尾,因此處連續手勢數據進行了逆序處理,所以即在連續手勢數據流 Rt中滿足式(5)的理想 Ra→b一定滿足a=1;在本方法的檢測過程中恒定設定 b為GESTURE LENGTH MAX。
用戶繪制的待識別的手勢有以下幾種情況。①手勢為已定義手勢中的最長手勢,此時 R1→b是此手勢的逆序,必然滿足式(5)即可識別出此手勢。②當手勢為短手勢時, R1→b為此手勢的逆序連接一小段冗余數據的逆序。在此情況下將 R1→b帶入各個HMM使用Viterbi算法計算 s( R1→b_λg)時,會匹配到其對應正確的隱狀態序列,而冗余數據的影響會集中到最后的隱狀態上,從而使冗余數據對整體的影響降到最低。這種情況下每次數據更新只需進行一次檢測,算法運行的總時間:

由此可見,改進后的方法比原方法效率提高10倍以上。
為了驗證本文中所提出的算法的預測精度及在實際連續手勢識別中對冗余手勢處理的性能,本節將在實際手勢數據集上對算法進行測試和性能比較試驗。
3.1 實驗數據源及實驗環境
本文共邀10位用戶(年齡20~30歲,男、女各5位)參與連續手勢的訓練和識別過程,其識別對象為圖6中四種手勢。訓練數據由用戶使用鼠標在2D空間進行繪制,每種手勢收集 40組樣本數據進行訓練。在識別測試過程中,用戶在3D空間揮動手掌,計算機得到實時的軌跡數據進行識別。本實驗用計算機處理器為 AMD Athlon(tm) || P320 Dual-Core CPU,內存4.0 GB,操作系統為Windows 8。

圖6 手勢種類圖
3.2 自反饋的訓練方法相關實驗
實驗證明,訓練HMM時所選取的參數N和A,會對模型的相似度Ψ(Tg,λg)造成影響。
表1為隱狀態數N對模型精度影響表(識別手勢為Number 4,HMM中的其他幾個參數設置相同)。

表1 隱狀態數N對模型精度影響表
由表1可知,當隱狀態數目增多時,模型的相似度會相應升高,但識別時間也會相應增加使用自反饋的參數調節方法,系統會選擇7作為此手勢的隱狀態數,這種選擇為滿足的具有最高識別精度的解。
圖7為對訓練參數A對模型相似度影響表。(識別手勢為Number 4,HMM中的其他幾個參數設置相同)。

圖7 訓練參數A對模型相似度影響圖
通過以上兩實驗可以得知,訓練時初始化參數中的N和A會對模型精度有較大影響,通過自反饋的訓練方法,可以找到滿足 〈max使模型精度Ψ(Tg,λg)為最大的訓練參數值。
使用自反饋的模型訓練方法,最終找到的模型訓練參數如表2中所示。

表2 模型訓練參數表
為了證明本文中自反饋調節設定參數的方法比以往使用先驗法設定參數的方法具有提高識別精度的效果。在此進行了對比實驗,首先,統計了使用自反饋調節的方法進行訓練的模型識別率,然后統計了直接使用先驗法設定參數訓練的模型識別率。本文方法與原有方法識別率對比如表3所示。

表3 識別率對比表(%)
由表3可見,通過本文自反饋調節方法訓練得出的模型識別率比原方法在識別率上有所提升。
3.3 隱狀態模式歸一化的訓練/識別方法相關實驗
2.4 節討論發現使用隱狀態模式歸一化的訓練/識別方法可以比原方法的速度快 10倍左右。設置對比試驗為檢驗此結論的正確性,收集每種手勢40組含有冗余數據和已定義手勢的連續數據。分別計算兩種方法每次數據更新需要的算法執行時間T。
圖8為使用原始方法的算法執行時間圖,圖9為使用隱狀態模式歸一化的訓練/識別方法的算法執行時間圖。此兩圖中橫軸為手勢類別,縱軸為算法運行時間,圖中最大值指在一次實驗中所有測試結果(算法運行執行時間)中的最大值,最小值指在一次實驗中所有執行時間測試結果(算法運行執行時間)中的最小值,平均值即為所有結果的平均值。
由圖8數據可知,使用原始方法的算法的執行時間基本在500~600 ms之間;由圖9可知,使用隱狀態模式歸一化的訓練/識別方法的算法執行時間基本在40~60 ms之間,由于硬件和系統實際運行環境的不同,實際測量中的函數測量時間可能不同,但整體上使用隱狀態模式歸一化的訓練/識別方法的算法運行時間為原始方法算法的執行時間的十分之一左右,由此可見系統執行效率得到了較大提升。

圖8 使用原始方法的算法執行時間圖

圖9 使用隱狀態模式歸一化的訓練/識別方法的算法執行時間圖
本文主要有兩點貢獻,其一,提出了一種基于隱狀態模式歸一化的方法對手勢進行分割,提高了手勢分割的效率和精確度;其二,提出了一種基于參數自反饋調節的獨立手勢訓練和識別方法,降低了獨立手勢訓練的難度,并提高了識別的精度。實驗證明,本文提出的基于雙重優化的連續手勢識別方法與原有方法相比在精度和效率上都有較大提升。
由于HMM中參數眾多,選擇不同的狀態值,可使整個模型架構發生變化,所有相關參數均需重新計算,因此,自反饋參數調節過程可能需要一定時間,本文雖為調節時間設置了一個上限值,但在此上限值內的尋優很有可能陷入局部最優而不是全局最優解的情況,此問題的解決還需要在以后的研究過程中再繼續進行探討。
由于在實際情況下可能會出現多個人同時做出手勢的情況,本文下一步將對多人連續手勢識別進行研究。
[1]LaViola Jr J J. 3D gestural interaction: the state of the field [J/OL]. ISRN Artificial Intelligence, 2013-[2014-06-11]. http://dx.doi.org/10.1155/2013/514641.
[2]Mistry P, Maes P. SixthSense: a wearable gestural interface [C]//ACM SIGGRAPH ASIA 2009 Sketches, 2009:11.
[3]Dipietro L, Sabatini A M, Dario P. A survey of glove-based systems and their applications [J]. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2008, 38(4): 461-482.
[4]王西穎, 戴國忠, 張習文, 等. 基于 HMM-FNN 模型的復雜動態手勢識別[J]. 軟件學報, 2008, 19(9):2302-2312.
[5]Pang Haibo, Ding Youdong. Dynamic hand gesture recognition using kinematic features based on hidden markov model [C]//Proceedings of the 2nd International Conference on Green Communications and Networks 2012 (GCN 2012), 2013: 255-262.
[6]Wan Jun, Ruan Qiuqi, An Gaoyun, et al. Gesture recognition based on hidden markov model from sparse representative observations [C]//Signal Processing (ICSP), 2012 IEEE 11th International Conference on, 2012: 1180-1183.
[7]Bilal S, Akmeliawati R, Shafie A A, et al. Hidden Markov model for human to computer interaction: a study on human hand gesture recognition [J]. Artificial Intelligence Review, 2013, 40: 495-516.
[8]Lee H K, Kim J H. An HMM-based threshold model approach for gesture recognition [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1999, 21(10): 961-973.
[9]Chung H, Yang H D. Conditional random field-based gesture recognition with depth information [J]. Optical Engineering, 2013, 52(1): 017201.
[10]de Souza C R, Pizzolato E B, dos Santos Anjo M. Fingerspelling recognition with support vector machines and hidden conditional random fields [C]//Advances in Artificial Intelligence-IBERAMIA 2012, ed: Springer, 2012: 561-570.
[11]Liu Techeng, Wang K C, Tsai A, et al. Hand posture recognition using hidden conditional random fields [C]// Proceedings of the IEEE/ASME International Conference on Advanced Intelligent Mechatronics (AIM '09), 2009:1828-1833.
[12]Wang S B, Quattoni A, Morency L, et al. Hidden conditional random fields for gesture recognition [C]// Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006: 1521-1527.
[13]Liu Fawng, Jia Yunde. Human action recognition using manifold learning and hidden conditional random fields [C]// Young Computer Scientists, 2008. ICYCS 2008. The 9th International Conference for, 2008: 693-698.
[14]Song Yale, Demirdjian D, Davis R. Multi-signal gesture recognition using temporal smoothing hidden conditional random fields [C]//Automatic Face & Gesture Recognition and Workshops (FG 2011), 2011 IEEE International Conference on, 2011: 388-393.
[15]Yang H D, Sclaroff S, Lee S W. Sign language spotting with a threshold model based on conditional random fields [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(7): 1264-1277.
[16]Alon J, Athitsos V, Yuan Quan, et al. A unified framework for gesture recognition and spatiotemporal gesture segmentation [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(9):1685-1699.
A Double-Optimization Approach for Continuous Gesture Recognition
Gao Chang1,2, Jiang Hao1, Mao Tianlu1, Wang Zhaoqi1
(1. Beijing Key Laboratory of Mobile Computing and Pervasive Device, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. College of Software Engineering, Sichuan University, Chengdu Sichuan 610225, China)
The continuous gesture recognition based on computer vision has been successfully applied in the field of large interactive entertainment and large interactive education. During the process of continuous gesture recognition, the first key problem is gesture segmentation, the existing solutions of this problem mostly have the disadvantage of low efficiency; the second problem is independent gesture recognition, the existing solutions of this problem mostly have the disadvantage of complicated training problem. A double-optimization approach for these problems is proposed. Firstly, in order to improve the efficiency of hand gesture segmentation, a hidden state mode normalization method is given for continuous gesture segmentation. Secondly, to reduce the complexity of independent gesture training and improve recognition accuracy, a training method is presented based on parameter self-feedback regulation for independent gesture recognition. Experiments have shown that our methods greatly enhance accuracy and efficiency.
human computer interaction; continuous gesture recognition; gesture spotting; single gesture recognition
TP 181
A
2095-302X(2015)01-0102-09
2014-08-11;定稿日期:2014-08-20
國家“863”高技術研究發展計劃基金資助項目(2013AA013902)
高 暢(1993-),男,河北保定人,本科。主要研究方向為人機交互、模式識別。E-mail:gaochang@ict.ac.cn
蔣 浩(1982-),男,湖南株洲人,助理研究員,博士。主要研究方向為虛擬現實、智能人機交互。E-mail:jianghao@ict.ac.cn