摘 要:提出了一種基于關(guān)鍵幀識別的多級分類的手語識別方法,該方法采用HDR(多層判別回歸)/DTW(動態(tài)時間規(guī)正)模板匹配多級分類方法。根據(jù)手語表達由多幀構(gòu)成的特點,采用SIFT(尺度不變特征變換)算法定位獲取手語詞匯的關(guān)鍵幀,并提取其特征向量;根據(jù)手語詞匯的關(guān)鍵幀采用HDR方法縮小搜索范圍,然后采用DTW比較待識別的手語詞特征與該范圍內(nèi)每一個手語詞進行匹配比較,計算概率最大的為識別結(jié)果。這種方法在相同識別率的情況下比HMM識別方法速度提高近8.2%,解決了模板匹配法在大詞匯量面前識別率快速下降的問題。
關(guān)鍵詞:手語識別;多層判別回歸方法;模板匹配
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2010)02-0491-03
doi:10.3969/j.issn.1001-3695.2010.02.023
Key frame based multi-level classification of sign language recognition
JIANG Hua-qiang1,2, PAN Hong2
(1.College of Mechatronics Engineering Automation, Shanghai University, Shanghai 200072, China; 2.School of Information Science Engineering, Hangzhou Normal University, Hangzhou 310012, China)
Abstract:This paper presented a sign language recognition method based on the multi-level classification of key frame recognition. This method adopted hierarchical discriminant regression (HDR) and dynamic time warping (DTW) template to match multi-level classification. According to the multi-frame characteristic of sign language, adopted the scale-invariant feature transform (SIFT) algorithm to orient and obtain the key frames of sign language vocabularies, and extracted the feature vectors. Based on these key frames of sign language vocabularies, the adopted HDR method could narrow the search scope. Then used the DTW compare the irrecognition features of sign language vocabularies with every sign language word inside this scope, and the maximal calculate probability was the recognition result. With the same recognition rate, this method could be 8.2% faster than the HMM recognition method, and solved the problem that the template matching was suddenly slow down in the face of a large vocabulary.
Key words:sign language recognition; hierarchical discriminant regression; template matching
0 引言
手語是使用手的指勢、動作、位置和朝向,配合面部表情、按照一定的語法規(guī)則來表達特定詞意的交際工具[1]。手語的物質(zhì)載體是手,通過手的形狀、位置、運動來傳遞信息。手語識別是利用計算機對手語進行識別從而獲得手語相應(yīng)的文本、語音等的技術(shù),進而達到幫助聾人與正常人進行正常交流的目的。手語識別的最終目標就是使計算機能像人那樣通過對手語視覺信息[2]的處理來觀察和理解[3]。
手語識別的嘗試始于20世紀80年代末,根據(jù)手語輸入設(shè)備的不同,分為數(shù)據(jù)手套和視覺兩種方法。a)通過數(shù)據(jù)手套獲取的手勢空間運動軌跡和時序信息來識別手語。此類比較有代表性的是Takahashi和Kishino使用VPL數(shù)據(jù)手套識別46個日本手指字母[4] ,可正確識別出其中的30個[5];Wang Chun-li等人[6]開發(fā)出了大詞匯量的中國手語識別系統(tǒng),1 064個孤立詞的識別率為90%左右[7]。此方法的優(yōu)點是采集到的數(shù)據(jù)可直接應(yīng)用在訓(xùn)練和識別中,在小詞匯量和大詞匯量都取得了很好的效果。b)通過計算機視覺分析獲取圖像來識別手語。這一方法主要有Charaphayan和Marble使用圖像處理方法來識別31個美國手語詞,可以正確識別出27個;Starne等人對40個詞進行識別,識別率為99.2%;香港中文大學(xué)Deng 和 Tsui識別 192 個美國手語詞 ,識別率為93. 3 %。此方法的優(yōu)點是輸入設(shè)備比較便宜,但識別率相對較低,實時性較差。但是,此方法是手語識別的發(fā)展趨勢[8]。
目前基于視覺的手語識別方法有:a)神經(jīng)網(wǎng)絡(luò)方法 (neural network)。人工神經(jīng)網(wǎng)絡(luò)的方法具有很強的分類效果和抗噪聲能力,在靜態(tài)的手勢識別中被廣泛應(yīng)用。但該方法不具備描述信號時空變化的能力,所以在動態(tài)識別領(lǐng)域內(nèi)一直沒有成為主流的方法。b)統(tǒng)計識別方法(如隱馬爾可夫模型(HMM))。該方法已經(jīng)成功地應(yīng)用在語音識別中,HMM是眾所周知并廣泛使用的統(tǒng)計方法,它具有很強的描述動態(tài)時空變化的能力,在動態(tài)識別領(lǐng)域中一直占有主導(dǎo)地位。c)模板匹配方法(template matching)。該方法的抗噪聲能力差,以及當詞匯量增加時會造成模板在空間上的重疊,使得識別率快速下降。
近年來所開發(fā)的手語識別系統(tǒng)中,主要采用統(tǒng)計識別方法識別圖像的本征特征匹配識別。這些方法識別率較好,但識別效率方面相對較差。基于提高識別效率的考慮,本文提出了一種具有基于關(guān)鍵幀的多級分類的手語識別方法,并利用該方法設(shè)計實現(xiàn)了一種快速的手語識別器。實驗表明,這一方法在識別速度和精度上得到了較大的提高。
1 基于關(guān)鍵幀的多級分類手語識別方法
1.1 快速手語識別思想的提出
目前手語識別系統(tǒng)幾乎都是在人工配合下完成手語詞典的構(gòu)建,并以全局檢索的方法實現(xiàn)手語的識別。最典型的就是中科院自動化所研究的中國手語識別系統(tǒng),它采用美國Virtual Technologies公司的CyberGlove型號數(shù)據(jù)手套獲取手語信息,并通過HMM方法進行統(tǒng)計分析,產(chǎn)生手語特征數(shù)據(jù),然后通過全局檢索實現(xiàn)手語的識別[9, 10]。
手語識別最重要的依靠就是手語詞典。在手語詞典中,每個手語都有一個對應(yīng)的手語序列,這個序列可以通過HMM提取模型。一個手語詞的幀數(shù)在20~70幀不等,要想提高識別速度,最直接的方法是減少每個手語詞的數(shù)據(jù)量。龐大的HMM手語數(shù)據(jù)在手語的快速識別上帶來了很大的問題。根據(jù)對《中國手語》教材的分析可知,中國標準手語詞匯的描述一般由1~3幀標準手語圖像構(gòu)成,如圖1所示。因此,本文提出了大量剔除過渡幀,依靠關(guān)鍵幀的識別達到手語的快速識別。
為了快速識別手語,通過識別視頻中的關(guān)鍵幀信息,并提取手語的骨骼結(jié)構(gòu)本征特征,能夠大量地減少手語匹配過程中的計算量。對手語詞通過關(guān)鍵幀進行多級特征選擇可以大幅地提高識別效率。
1.2 使用SIFT算法提取關(guān)鍵幀
SIFT算法[11, 12]由D.G.Lowe提出,這是一種提取局部特征的算法,能夠在尺度空間尋找極值點,提取位置、尺度、旋轉(zhuǎn)不變量。這一算法提取的圖像局部特征,其旋轉(zhuǎn)、尺度縮放、亮度變化均具有保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩(wěn)定性。該算法主要包含以下步驟:
a)建立尺度空間,尋找候選點;
b)精確確定關(guān)鍵點,剔除不穩(wěn)定點;
c)確定關(guān)鍵點的方向;
d)提取特征描述符。
通過SIFT算法對每個關(guān)鍵點產(chǎn)生128個數(shù)據(jù),即最終形成去除了尺度變化、旋轉(zhuǎn)等幾何變形因素影響的128維的SIFT特征向量xi。由手及手臂的抽象模型可知,一只手及手臂共有18個運動單元、18個關(guān)節(jié)。每個關(guān)節(jié)有1個或多個自由度,一只手及手臂的運動由27個參數(shù)控制,所以一個手勢的手形需要54個參數(shù)。因此,為每一幅手勢圖像(手語詞根關(guān)鍵幀圖像)提取108個關(guān)鍵點,形成該手語詞根的向量空間Xt=[x1,x2,…,x108]。在提取關(guān)鍵點的過程中,采用關(guān)鍵點特征向量的歐式距離來作為兩幅圖像中關(guān)鍵點的相似性判定度量。取手語圖像前一幀中的某個關(guān)鍵點,并找出其與后一幀中歐式距離最近的前兩個關(guān)鍵點。在這兩個關(guān)鍵點中,如果最近的距離除以次近的距離少于某個比例閾值,則認為是過渡幀,予以排除;否則記錄為關(guān)鍵幀。
1.3 應(yīng)用HDR算法縮小搜索范圍
HDR(hierarchical discriminant regression)方法[13, 14]描述了一種由機器人感知(sensor)系統(tǒng)到行為(action)系統(tǒng)的映射建立過程。其主要優(yōu)點是能夠更好地處理較高維數(shù)的輸入向量,并且可以從每一個實例中學(xué)習新的知識。HDR的主要思想是建立從輸入空間到輸出空間的映射,如圖2所示。在學(xué)習的初級階段,由于輸入空間和輸出空間的學(xué)習素材不是特別多,通過粗糙的聚類就可以構(gòu)建起一些輸入向量類到輸出向量類的對應(yīng)。隨著學(xué)習的深入,越來越多的細節(jié)和輸出情況被引入,這樣就需要對原先的類分解,進行更精確的分類來構(gòu)建對應(yīng)關(guān)系。經(jīng)過一段時間的學(xué)習,輸入空間就會像樹的結(jié)構(gòu)一樣,有些節(jié)點會分裂產(chǎn)生分支。而識別的過程就是一個在樹中找到最相似的節(jié)點的檢索過程,并輸出對應(yīng)的輸出向量。HDR方法在找到某一個節(jié)點時,就能夠找到最為接近的輸出響應(yīng)。
例如給定一幅手語圖像,就能找到這幅圖像與哪些以往學(xué)習過的圖像最接近,每一個節(jié)點只需記錄所代表類的概率分布信息,如類中心、方差等。學(xué)習則是通過更新樹的結(jié)構(gòu)和節(jié)點記錄的信息來完成的。其算法如下:
輸入:多層判別回歸樹T和樣本輸入空間向量Xt(t=1,2,3),系數(shù)k,檢索敏感系數(shù)ε。
輸出:相應(yīng)的輸出向量Y。
a)從根節(jié)點開始,計算節(jié)點中每個聚類到樣本輸入空間向量Xt的距離,挑選出到樣本輸入空間向量Xt距離最小的前k個輸入空間聚類,把它們記為活動的輸入空間聚類。設(shè)樣本Xt到聚類c的距離最小,將其距離值與檢索敏感系數(shù)ε比較,如果小于ε,則檢索結(jié)束,返回聚類c輸出空間聚類平均向量ymc作為樣本Xt的輸出向量Y;否則,繼續(xù)執(zhí)行下一步。
b)對每個活動的輸入空間聚類,按距離遞增排序,且依次處理每個活動的輸入空間聚類,如果它有子節(jié)點,記為非活動,并且搜索它的子節(jié)點。對于子節(jié)點,遞歸調(diào)用此過程,直到所有最終活動的輸入空間聚類都沒有子節(jié)點。在所有最終的活動聚類中,設(shè)聚類c到樣本Xt的距離最短,輸出聚類c的輸出空間聚類的平均向量ymc作為樣本Xt的輸出向量Y。
1.4 通過DTW進行模板比較
DTW算法[15, 16]的目的是在標準手語特征向量Y和非特定人手語特征向量O的特征之間找到一條優(yōu)化的時間校準匹配路徑。設(shè)Y是一個將測試信號的樣點映射到參考信號的彎曲函數(shù)式中:
Y=y(1),y(2),…,y(k),…,y(K)
y(k)=(i(k),j(k))
其中:i和j分別代表參考信號Y(總長I點)和測試信號O(總長J點)的能量特征點,表示在作k次特征匹配時,Y第i點與O第j點比較。彎曲函數(shù)的限制條件為
a)單調(diào)性:i(k-1)≤i(k),j(k-1)≤j(k)
b)連續(xù)性:i(k)-i(k-1)≤1,j(k)-j(k-1)≤1
c)邊界:i(1)=1,j(1)=1,i(K)=I,j(K)=J
d)窗:|i(k)-j(k)|≤r。其中r是允許窗的長度。
限于篇幅,這里不作詳細的討論,定義 D(pk)=d((i(k),j(k)))=‖Yi-Oj‖。DTW算法的實質(zhì)是尋找匹配路徑P使Y和O總距離最小,即D(P)=minP∑Kk=1d(pk)。從DTW角度說,匹配路徑P是Y和O的最優(yōu)時間匹配。
2 基于關(guān)鍵幀的多級分類手語識別器的設(shè)計與實現(xiàn)
本文的手語識別系統(tǒng)基于關(guān)鍵幀的多級分類手語識別系統(tǒng)。其中手語詞典的數(shù)據(jù)輸入是本文在1.1節(jié)中提到《中國手語》的標準手語圖像,非特定人的手語數(shù)據(jù)是通過一個正面的攝像頭采集到的手語視頻。整個手語識別系統(tǒng)工作分為兩個子模塊,即手語詞典生成過程、非特定人手語識別過程。
手語識別器的結(jié)構(gòu)圖如圖3所示。
2.1 手語詞典構(gòu)造過程
手語詞典生成過程可以分成兩部分:a)針對一幅標準手語圖像,運用SIFT算法提取出128維特征向量,用HDR分類方法(具體步驟見1.3節(jié))對手語詞樣本集合進行分類,并建立每個類的詞匯表;b)根據(jù)對各個類中的每一個詞根建立一個手語骨骼模型。模型訓(xùn)練時使用SIFT算法對標準人體骨骼框架和標準手語輪廓圖像進行匹配,取得手勢的每個關(guān)節(jié)點,最后形成108維的特征空間向量。
2.2 識別過程
訓(xùn)練過程可以分成兩部分:a)采用SIFT算法識別手語的關(guān)鍵幀,提取特征向量;b)用HDR方法(具體步驟見1.3節(jié)),對手語詞樣本集合進行分類,并建立每個類的詞匯表; c)對各個手語詞類根據(jù)關(guān)鍵幀的特征向量進行DTW算法匹配。
3 實驗結(jié)果與結(jié)論
實驗中使用了20個漢語手語詞匯,并加入阿拉伯數(shù)字10個手勢和26個字母手勢,共56個手語;共采集兩套標準手語圖像庫、兩套手語視頻,采用標準手語圖片庫作為學(xué)習樣本。兩套手語視頻作為測試,識別率達到85%,單個詞匯的識別速度在1.3 s左右,比HMM識別方法提高了0.1 s,速率提高了約8.2%。如表1所示。
表1 手語識別結(jié)果
項目識別正確識別錯誤
數(shù)量488
百分率/%85.7114.29
經(jīng)分析,個別手勢不能識別的原因在于手勢較為雷同以及關(guān)鍵幀的捕獲存在著誤差。本文實驗在PC(DELL-Pentium 4, 256 MB內(nèi)存)上進行。
4 結(jié)束語
本文的創(chuàng)新點在于:提出了基于關(guān)鍵幀的多級分類的手語識別方法,在識別率基本不變的情況下較好地提高了識別器的識別速度。在今后的研究工作中,要繼續(xù)探索如何把具有多級分類的識別方法應(yīng)用到連續(xù)語句識別當中,這樣才能夠讓此方法在手語識別中產(chǎn)生更加重要的作用。
參考文獻:
[1]VALLI C, LUCAS C, MULROONEY K J. Linguistics of american sign language:an introduction[M].4th ed. Washington DC:Gallaudet University Press, 2005.
[2]ULRYCH J, KOPECKY M. Visual similarity in sign language[C]//Proc of the 24th International Conference on Data Engineering. 2008:53-60.
[3]胡友樹. 手勢識別技術(shù)綜述[J]. 中國科技信息, 2005(2):42.
[4]AOKI Y, TANAHASHI S, SUGIYAMA H. Tracing of arm motion by matching video images with 3D arm model for intelligent communication of sign language[C]//Proc of the 3rd IEEE International Confe-rence on Electronics, Circuits, and Systems. 1996:53-56.
[5]SUGIYAMA H, TANAHASHI S, AOKI Y. Recovering three dimensional hand motions of sign language from monocular image sequence[C]//Proc of the 1st International Conference on Information, Commuincations, and Signal Processing. 1997:1098-1101.
[6]WANG Chun-li, CHEN Xi-lin, GAO Wen. A comparison between etymon- and word-based chinese sign language recognition systems[C]//Proc of the 6th International Gesture Workshop. 2006:84-87.
[7]ZHOU Yu, GAO Wen, CHEN Xi-lin, et al. Signer adaptation based on etyma for large vocabulary Chinese sign language recognition[C]//Proc of the 8th Pacific-Rim Conference on Multimedia. 2007:458-461.
[8]Von AGRIS U, ZIEREN J, CANZLER U, et al. Recent developments in visual sign language recognition[J]. Universal Access in the Information Society, 2008, 6(4): 323-362.
[9]吳江琴, 高文. 基于DGMM的中國手語識別系統(tǒng)[J]. 計算機研究與發(fā)展, 2000,37(5):551-557.
[10]張良國, 高文, 陳熙霖, 等. 面向中等詞匯量的中國手語視覺識別系統(tǒng)[J]. 計算機研究與發(fā)展, 2006,43(3):476-482.
[11]STRAKER D. The SIFT model[J]. Quality World, 2003, 29(5):45-46.
[12]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[13]WENG Ju-yang, HWANG W S. Incremental hierarchical discriminant regression[J]. IEEE Trans on Neural Networks, 2007, 18(2):397-415.
[14]王增進,危輝. 改進的多層判別回歸樹算法及其在遙感圖像分析中的應(yīng)用[J]. 計算機學(xué)報, 2004, 27(1): 92-98.
[15]KAR B, DUTTA P K, BASU T K, et al. DTW based verification scheme of biometric signatures[C]//Proc of IEEE International Conference on Industrial Technology. 2006:381-386.
[16]FANG P, WU Z C, SHEN F, et al. Improved DTW algorithm for online signature verification based on writing forces[C]//Proc of International Conference on Intelligent Computing. 2005:631-640.