趙蔚寧
(吉林省福彩中心 協會籌建辦公室,長春 130061)
基于HMM_SVM的中國手語識別研究
趙蔚寧
(吉林省福彩中心 協會籌建辦公室,長春 130061)
提出了基于隱馬爾可夫方法的中國手語識別方法,通過對于手勢的取像,圖像處理,降維技術,通過應用Sugeno模糊積分,圖像處理技術是計算機圖形學識別的基本步驟,采用直方圖的特征可以將手型的區域從背景中分離出來,然后通過降維處理,將得到的手部圖像去除手部以外的區域,從而得到手的輪廓;使得不攜帶其他相關手套工具,達到靜態簡單手語識別,其正確率達到85%以上,證明這種方法在中國手語識別上的可行性。
多維分割,隱馬爾科夫算法,SVM(support vector machine支持向量機),中國手語識別
手語識別一直是在人機交互領域研究的重點和人工智能發展的熱點,讓計算機更好的了解手語,使得聾啞人和健康聽力的人能夠進行很好的交流和溝通,通過計算機圖像處理,讓手語識別更加可行,手語識別可分為靜態手語識別和動態手語識別兩類。在HMM的基礎上,通過靜態手勢識別并與數據庫相關信息進行比對,達到中國手語識別的目的。中國手語手勢識別研究有助于促進人機交互、虛擬現實等相關科學研究的發展。以便手語識別在人機交互應用上實現人類和計算機的自然交流。
在基于HMM_SVM圖像的模型中,輪廓和邊界是其中兩個可從手勢中提取的最直接的屬性。使用基于邊界線的技術,使在系統中預先存儲可以實時識別的二十六個手型字母。另一種通過圖像模型的主成份因素分析(principal component analysis)。對于一個圖像集合的主成份因素分析確定一個圖像的正交集,而此正交集可以用來描述原圖像集合。相似的圖像在一個特征空間上有相似的投影,因此在特征空間上的距離可以用來衡量圖像的相似性。反饋層節點是隱層節點的拷貝,并加入了一個單位的延遲.網絡的輸入層和反饋層組成聯合輸入層。所以兩種方法各有所長。
手形識別技術包括:模板匹配、特征提取和神經網絡等相關方法,本節介紹前兩種方法,神經網的方法絡將在2.3節中介紹。手勢是用來強調或表達一種意念、感情或態度一個手的動作。所以,從開始的意圖到最終的動作,手勢由一個時間段內所做的一系列手形組成。所以在手勢識別的過程中,一個基礎的工作就是進行手勢分解,即把手勢按時間順序分解成若干手勢識別。
可以把一個手勢分為3個階段:準備、動作和收回。Quek則定義了一系列規則來規范手勢分解。①整個手勢包含3個階段:緩慢的初始動作、加速的中間過程和返回初始位置;②在中間過程中,手做了一個包含具體語義的手勢;③手在靜止位置附近的小擾動不算手勢;④手的動作不應超出某個空間范圍;⑤靜態手勢應該在一個有限的時間段內被識別;⑥重復的動作可以作為手勢。
根據以上規則,手勢的組成類似于語言的組成。手形的識別相當于詞法分析,而手勢的識別則相當于語言的解釋。因此一系列在語言分析中成功應用的技術可以被引入手勢識別領域。其中比較成功的是隱馬爾可夫模型(hiddenmarkovmodel)。分解第2階段的困難在于人們的習慣不同,即不同的人可以以不同的方式做同一個的動作。對于這個問題,引入神經網絡將是一個合適而有效的方法。
最簡單的靜態手勢識別可以只是識別出目標手所表示的數字,但對于復雜的手勢則需要用到分類器來識別。其基本的思想是一個逐漸尋優的過程。過程如下:
在一個o維的空間內R存在n個向量x1,x2,x3,...,xn,空間內的某點x的向量可用如下的公式求得:

式中h!點x的鄰域樣本空間;xi!落入樣本空間中的向量;K(x)!一個單位核函數,一般是一個高斯核函數;l!一個正定的對稱o?o矩陣,稱為帶寬矩陣;因此,通過式(1)得到的向量x是Ro內在鄰域h內的向量在核函數作用下的平均偏移向量。在圖像分割中,一張圖像,即為Ro,每個像素是一個3維向量(R,G,B),h是像素的鄰域。對圖像的處理過程就是逐步地將各個像素向量朝鄰域內最優向量接近,最后以此最優向量為模式歸一化此鄰域,完成圖像分割。
輪廓提取
特征提取前用高斯模式訓練好一個用于手部皮膚的顏色向量V。將分割后的圖像用向量V去除背景,得到僅剩手部的圖像,最后二值化圖像。接下來用傅里葉描述子提取其邊界特征。為了保證得到的輪廓的封閉性,用八鄰域搜索算法提取得到的二值圖的輪廓。八鄰域搜索算法記錄一個一維序列,序列中存放邊界像素的位置。背景像素為零值,目標像素為非零值。從開始坐標出發,在當前坐標的八鄰域內搜索非零像素,將搜到的第一個坐標記為序列的下一個坐標,并將當前坐標存入序列中;直到當前坐標和開始坐標相等,則完成搜索。得到的一維序列即為二值圖的輪廓。
SVM基本的理論是針對二分類問題的,對于多個類的分類問題,SVM包括一對多方法(One Against Two),一對一方法(One Against One),樹分類方法。這些方法在分類過程中普遍存在計算量大、需要多次二分類、算法復雜等缺點。
鑒于以上分類方法的缺點,借用幾何學的方法提出了最小包圍球的SVM方法(MEB_SVM)。
通過SVM算法將給定的手勢訓練樣本集S經圖像分割、二值化等步驟得到一組特征向量;再用基函數對這些向量進行空間映射。為了能快速地得到樣本集的最小包圍球,可以采用近似的辦法。其主要思想是通過遞增迭代的方式逐步擴展包圍球的半徑。擴展過程中將離當前球心最遠的樣本加入包圍球中。記第t次迭代時的包圍球包含的樣本為St,球心和半徑為Ct和Rt,包圍球為B。則對于給定的?樣本>0,算法可描述為以下過程:
(1)對于一類樣本,任選一個樣本點作為S0,記球心C0為該點向量,半徑R0為0;
(2)結束訓練條件:不存在樣本點z在(1+?)包圍球B(Ct,(1+?Rt)的外面;
(3)找到特征空間內離當前包圍球心Ct最遠的樣本點,并添加到當前包圍球:St+1=St*{z};
(4)更新包圍球的球心和半徑Ct+1、Rt+1;
(5)t=t+1,計數增加一個,返回到(2);
經過以上步驟后即得到本類的最小包圍球。對于各訓練樣本類都執行以上步驟則得到全樣本空間的所有最小包圍球。對于測試樣本T的分類,只需計算T與各個包圍球的球心Ci的歐式距離,并加以比較,則與T距離最近的球心所在的包圍球的類即為T所屬的類。
本研究選取了手語中1~10的10個手勢作為測試對象,并分別對每個手勢進行20次實驗。實驗程序所使用的編程環境為Vistua l Studio2008 C++和OpenCV開源圖像處理庫。圖像采集采用具有130萬像素的10moons天弓攝像頭。
經過試驗,筆者以5?5為鄰域像素,核函數采用高斯核N(x)=exp(-(x(2),帶寬矩陣簡化為 l=h2I,即為一個單位數量陣。權重系數按與x點的距離賦值。
經二值化和八鄰域搜索得到輪廓后,對輪廓即可作傅里葉變換。為使傅里葉描述子的誤差盡量減少,作傅里葉變換的輪廓圖像應該大小一致。實驗中分別取不同的?進行訓練。得到的結果如表1所示。
識別準確度=作出正確分段的個數/實際所有分段的個數*100%。

表1 實驗結果
實驗結果中,?越小,算法收斂時間越短,但由于包含在包圍球中的向量太少,對算法的準確度會有一定的影響,當?大于0.002以上時,算法訓練時間增加明顯,同時算法準確度也有所增加。
手語詞主要是通過手形變化和空間運動軌跡,以及手同身體之間的相對位置關系表達相關信息。無論是手形變化還是手部運動,均在執行過程中存在一些不確定因素。采用肌電、加速度和視覺3種傳感器作為手勢輸入設備,提出了一種基于多傳感器信息檢測和融合的中國手語分類識別方法。該方法采用的多級分類策略考慮到了各個傳感器的優勢和手語詞匯的模糊特性,用模糊積分將來自不同分類器的識別信息進行有機結合,用以提高多傳感器融合系統的分類精確率,改善系統的穩健性。對于20個中國手語詞匯,3種傳感器融合的識別率均在90%以上,此實驗結果證實了多傳感器融合在手語識別中的有效性和可擴展性。同時,對采用不同決策級融合方法進行的對比實驗,結果證實了基于HMM_SVM方法的有效性和實用性。
[1] 任海兵,祝遠新,徐光祐,等.基于視覺手勢識別的研究綜述[J].電子學報,2000,28(2):118-121.
[2] WU J Q,GAO W,PANG B,eta.l A fast sign wo rd recogn ition technique for Chinese sign language[J].High Technology Letters,2001,11(6):23-27.
[3] CERVANTES J,LIXiao ou,YU W en,etal.Support vectorm ach ine classification for larg e data sets v iam in imum enclosing ba ll c lustering[J].N eurocomputing,2008,71(4-6):611-619.
[4] CHENG Yi zong.M ean shift,mode seek ing and clustering[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
[5] CORTES C,VAPN IK V N.Support vector netwo rks[J].Machine Learning,1995,20:273 - 297.
[6] 黃春木,周利莉.密度分布特征及其在二值圖像檢索中的應用[J].中國圖象圖形學報,2008,13(2):307-311.
[7] 段一洪,陳一民,林鋒.基于LSSVM的靜態手勢識別[J].計算機工程與設計,2004,12(25):2352-2368.
[8] Basir O,Yuan XH.Engine fault diagnosis based on multi-sensor information fusion usingDempster-Shafer evidence theory[J].Information Fusion,2007(8):379-386.
Study on HMM_SVM-based Chinese Sign Language Recognition
ZHAO Wei-ning
(Association Establishment Office,Welfare Lottery Center of Jilin Province,Changchun 130061,China)
This paper presents a Hidden Markov-based Chinese sign language recognition method by means of image capture of gestures,image processing and dimensionality reduction techniques.Through the application of Sugeno fuzzy integral,image processing technology is basic step for computer graphics identification,which can separate the hand-shaped area from the background by using histograms features,and then removes the part outside hand from obtained hand image by dimension reduction process to get the profile of hand.This method realizes the static identification for simple sign language without related gloves tools,the correct rate reaches 85%or more and the feasibility of sign language recognition in China is proved.
multi-dimensional segmentation;Hidden Markov Algorithm;SVM;Chinese sign language recognition
TP391.41
A
1009-3907(2011)10-0024-03
2011-06-20
趙蔚寧(1966-),女,吉林懷德人,工程師,主要從事計算機應用方面的研究。
責任編輯:吳旭云