嚴 焰,劉 蓉(.湖北師范學院 教育信息與技術學院,湖北 黃石 43500 .華中師范大學 物理科學與技術學院,湖北 武漢 430079)
基于條件迭代算法的手語識別技術
嚴焰1,劉蓉2
(1.湖北師范學院 教育信息與技術學院,湖北 黃石 435002 2.華中師范大學物理科學與技術學院,湖北武漢430079)
針對多組手語語句中重復出現的手語單詞識別問題,提出了一種識別方法。該方法利用時間規整算法構建手語識別模型,并通過條件迭代算法快速計算最大后驗概率。在南佛羅里達大學公共手語數據集進行實驗,證明了該方法具有一定的實用性。
手語識別;動態時間規整算法;條件迭代算法
在人機交互應用方面,無論是基于文本方式的鍵盤設備,還是基于圖形方式的鼠標設備,都無法滿足人們對計算機應用的需求。符合人們日常交流習慣的人機交互技術是最近幾年熱門的研究領域。人類日常交流過程中,采用的方式可以分為自然語言和肢體語言兩大類。自然語言包括口語、書面語言;肢體語言包括面部表情、身體姿態、手勢手語等。其中手語是由一系列規范的手勢標準組成的獨立語言門類。手語識別技術對于提高計算機的智能化,完善人機交互應用具有很強的現實意義。
按照所研究的手勢種類的不同,可以將手勢識別分為靜態手勢識別和動態手勢識別兩類。
(1)靜態手勢是指在整個手勢運動時間段中,只需考慮在手形變化過程中各個指尖的位置變化,而手掌沒有發生整體性位移。例如 STREN H I等人[1]設計了一種利用靜態手勢集作為汽車導航設備指令集的汽車平臺人機交互系統。MAUNG T H H[2]利用手勢圖像的直方圖特征通過神經網絡進行手勢識別,其手勢平均識別率為90%。楊波等人[3]利用手勢圖像的區域形狀特征提出一種基于手勢空間分布特征的手勢識別算法,在環境光照相對穩定的條件下,對于差異較大的手勢識別率高達98%。Yao Minghai等人[4]利用在線PCA改進算法進行靜態手勢識別,其識別率為90.48%。
(2)動態手勢是指在整個手勢運動時間段中,不但手掌發生整體性位移,并且整個手形也在發生變化。動態手勢與靜態手勢相比更為復雜,也更加符合實際應用需求,成為最近幾年手勢識別的一個熱點。例如Yang Ruiduo等人[5]利用一種嵌套式動態編程方法,從視頻序列中識別手語信息,其實驗結果比傳統的條件隨機域模型提高40%。Yin Ying等人[6]開發了一種新的三維手勢人機交互系統,其中包括3種用戶類型和12種手勢指令集,孤立手勢詞識別率為 95.6%,連續手勢詞識別率為73%。ELMEZAIN M[7]利用HMM算法識別“0~9”手勢運動軌跡,其孤立手勢詞識別率為 98.6%,連續手勢詞識別率為94.29%。THEODORAKIS S等人[8]提出一種改進的多數據流HMM算法,這種算法在進行動態手勢識別時允許部分手語之間的數據流異步,其識別效果比使用傳統的HMM算法提高8.3%。
本文在視頻圖像處理技術的基礎上,針對常用手語視頻中目標手勢特征進行研究和提取,提出了一種基于條件迭代算法的手語識別方法。該方法通過對用戶提供的每條手語視頻中各個手勢動作進行分析,識別反復出現的目標手勢。
1.1手語識別中BTW模型
在實際中,同一種手勢所用的時間會因為表達習慣和表述場景不同而有所差異,這就導致同一種手勢動作對應的采樣數據幀數是變化的。因此,可以用動態時間規整算法(Dynamic Time Warping,BTW)來計算不同手勢序列之間的距離,最終實現手勢的識別。
手語由具有獨立含義的手勢按一定順序排列組成。本文使用目標手勢一詞描述在一組手語數據集中都出現過一次的手勢單詞。表示一條手語中的目標手勢,其中ai表示目標手勢起始幀編號,bi表示目標手勢結束幀編號,即表示兩子句之間動態時間規整距離。本文所解決的問題就是在一組手語中,自動識別出所有可能的動作序列組合之間最相似的手勢集表示手勢參數集,θm表示在N組手語中的目標手勢參數集。則:

p(θ)表示手語組中一種動作序列組合的概率。

其中

β是一個規模參數,它控制概率空間中的峰值,影響條件迭代算法(ICM)的收斂速度。g(θ)表示參數集 θ的子序列之間相似性。由于式(2)中分母涉及了所有可能的組合相似性的總和,計算量非常大,因此p(θ)難以計算。
為了方便目標手勢識別的實現,本文進行以下處理。θi表示一組手語中第i條手語的動作序列參數集合{ai,bi},并且 θ(i)表示同組手語中其余手語的動作序列參數集合{a1,b1…ai-1,bi-1,ai+1,bi+1…an,bn}。由式(2)可以推導出θi在整個動作序列參數集合中的條件概率為:

將式(3)代入式(4)中,整理得到:

目標手勢參數集為:

在實際手語識別問題中,手語視頻的幀數很多,如何快速求解BTW模型的后驗概率最大化是個關鍵問題。條件迭代算法計算量較小沒有較復雜的操作,適合通過計算機來實現,因而具有實用價值。
1.2手語識別中條件迭代算法
條件迭代算法(Iterated Conditional Modes,ICM)[9]是一種收斂速度快的最大后驗概率估算方法。采用ICM算法自動識別目標手勢的核心思想是:在一組手語中,采用DTW算法計算兩幀之間的相似性;定義手勢序列組合結果與其余組合結果的比值作為該種序列組合的后驗概率;通過迭代計算所有手勢序列組合的后驗概率,選擇最大后驗概率的序列組合作為目標手勢識別結果。該方法具體步驟如下:
(1)在起始幀識別過程中,計算每一幀作為目標手勢起始幀的后驗概率,根據后驗概率分布,構建起始幀備選集。
(2)在結束幀識別過程中,首先由起始幀備選集確定結束幀識別起點和搜索范圍。然后計算搜索范圍內每一幀作為目標手勢結束幀的后驗概率,對應每一個備選起始幀,選擇后驗概率最大的結束幀,構建目標手勢結束幀備選集。
(3)比較備選集中起始幀與結束幀后驗概率的乘積,標注后驗概率乘積最大的起始幀與結束幀。
(4)考慮人們的視覺認知習慣,將視頻幀重新組合,還原完整目標手勢序列。
隨著手勢識別的深入研究,相關學者給出多種定義手勢的方法。王西穎等人[10]按照手勢運動特點將手勢分為非運動手勢和運動手勢。其中非運動手勢包括需要考慮手形變化過程中各個手指之間關系的跟蹤類手勢和只需考慮手形變化結果的非跟蹤類手勢。而在運動手勢中,又可分為運動過程中沒有手形變化的非變形類手勢和運動過程中存在手形、手指變化的變形類手勢。
本文使用具有完整含義的手語視頻作為手勢識別數據輸入,通過比較不同圖像差分法的分割效果,采用二幀差距離的差分圖像與YCgCr顏色特征相結合的方法進行目標區域分割。在實際的手語中,每一個手勢詞內部都變化平緩,而手勢詞之間存在明顯變化的起始幀、結束幀。依據相鄰幀之間歐式距離,采用滑動窗口提取手語視頻中的關鍵幀,可以將動態視頻的研究問題簡化成對靜態圖像的研究問題。同時在關鍵幀中提取目標區域重心和目標區域外部輪廓鏈碼兩種特征,盡可能地減小手勢識別的計算量,提高識別性能。如圖1所示,本文設計的手勢識別系統包括數據輸入、目標區域分割、關鍵幀提取、特征提取、手勢識別五大部分。

圖1 手勢識別系統
本文利用MATLAB平臺進行實驗,選擇南佛羅里達大學計算機視覺實驗室提供的公共手語數據集。該視頻數據集包括 136個美國手語短句(ASL)的視頻序列,按照待識別的目標手勢不同,共分成10組。實驗結果按照公共數據集所提供的參考標準進行分析。實驗結果為:136條手語中,完全識別正確有 119條,部分識別正確有0條,識別錯誤有 17條,識別率為 87.5%。對比國外相關研究成果,參考文獻[11]與本文采用相同手語公共數據集進行實驗,其識別結果為:136條手語中,完全識別正確有98條,部分識別正確有20條,識別錯誤有18條。因此本文提出的手語識別方法具有一定的優勢。
手勢是手語中最小的、有意義的單位,具有使用靈活、信息量豐富的特點。本文提出一種能夠從一組日常手語短句中識別出目標手勢的方法,實驗驗證了該方法的有效性。
[1]STERN H I,WACHS J P,EDAN Y.Optimal consensus intuitive hand gesture vocabulary design[C].2008 IEEE International Conference on Semantic Computing,2008:96-103.
[2]MAUNG T H H.Real-time hand tracking and gesture recognition system using neural networks[C].World Academy of Science,Engineering and Technology,2009:466-477.
[3]楊波,宋曉娜,馮志全,等.復雜背景下基于空間分布特征的手勢識別算法[J].計算機輔助設計與圖形學學報,2010,22(10):1841-1848.
[4]Qu Xinyu,Yao Minghai,Gu Qinlong,et al.Adaptive subspacebasedonlinePCAalgorithmformobilerobot scene learning and recognition[C].2011 International Conference on Intelligent Human-Machine Systems and Cybernetics(IHMSC),IEEE,2011(1):205-209.
[5]Yang Ruiduo,SARKAR S,LOEDING B.Handling movement epenthesis and hand segmentation ambiguities in continuous sign language recognition using nested dynamic programming[J].Pattern Analysis and Machine Intelligence,2010,32(3):462-477.
[6]Yin Ying,DAVIS R.Toward natural interaction in the real world:real-time gesture recognition[C].International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction,ICMI-MLMI′10,2010:1-8.
[7]ELMEZAIN M,AL-HAMADI A,APPENRODT J,et al. A hidden markov model-based continuous gesture recognition system for hand motion trajectory[C].19th International Conference on Pattern Recognition,ICPR 2008,2008:1-4. [8]THEODORAKISS,KATSAMANISA,MARAGOSP.
Product-HMMs for automatic sign language recognition[C]. IEEE International Conference on Acoustics,Speech and Signal Processing,ICASSP 2009,2009:1601-1604.
[9]BESAG J.Statistical analysis of dirty pictures[J].Journal of the Royal Statistical Society,1986(48):259-302.
[10]王西穎,戴國忠.面向虛擬現實的層次化交互手勢建模與理解方法[J].計算機輔助設計與圖形學學報,2007,19(10):1334-1341.
[11]NAYAK S,SARKAR S,LOEDING B.Automated extraction of signs from continuous sign language sentences using iterated conditional modes.Computer vision and pattern recognition[C].IEEE Conference on Computer Vision and Pattern Recognition,CVRP 2009,2009:2583-2590.
Sign language recognition based on iterated conditional modes
Yan Yan1,Liu Rong2
(1.College of Educational Information and Technology,Hubei Normal University,Huangshi 435002,China;2.College of Physical Science and Technology,Central China Normal University,Wuhan 430079,China)
For the problem of sign language recognition in continuous sentences,a method was proposed.The sign language recognition model was established with Dynamic Time Warping(DTW),and through the Iterated Conditional Modes(ICM)computed the maximum a posteriori probability.The performance of this method was assessed by computer simulations.
sign language recognition;dynamic time warping;iterated conditional modes
P391
A
1674-7720(2015)02-0049-03
(2014-09-19)
嚴焰(1986-),通信作者,男,碩士研究生,助教,主要研究方向:人機交互、圖像處理,E-mail:yanyanedu@foxmail. com。
劉蓉(1969-),女,博士,副教授,主要研究方向:智能信息處理、模式識別。