基于多特征組合的動態(tài)手勢識別

2018-06-19 12:58:40曹海婷戎海龍焦竹青馬正華

計(jì)算機(jī)工程與設(shè)計(jì) 2018年6期

曹海婷，戎海龍，焦竹青+，馬正華

(1.常州大學(xué) 信息科學(xué)與工程學(xué)院，江蘇常州 213164；2.常州大學(xué) 城市軌道交通學(xué)院，江蘇常州 213164)

0 引言

手勢識別技術(shù)目前主要有基于視覺的手勢識別[1]和基于佩戴式的手勢識別[2]。對于動態(tài)手勢的識別，單一傳感器有著自身局限性，多傳感器已廣泛使用[3,4]。其中SEMG和ACC這兩類傳感器，以其低成本、便攜式和捕捉手勢動作信息方面的優(yōu)勢，已經(jīng)用于手語手勢研究[5]和步態(tài)行為研究[6]等。

動態(tài)手勢識別中特征參數(shù)的選取對識別系統(tǒng)的性能和計(jì)算復(fù)雜度有較大的影響，目前對SEMG和對ACC信號提取的特征過于單一[7,8]，雖然計(jì)算量小速度相對較快，但算法本身不是很完善，會限制其在實(shí)際中的應(yīng)用。文獻(xiàn)[3]采用基于信息增益的特征選擇算法選取最佳特征子集，雖然識別效果較好但是此方法需要綜合考慮所選的算法是否適合所選的分類器，存在著不確定性。Liu JH等[9]進(jìn)行決策級融合，有較好的抗干擾性但對預(yù)處理以及特征參數(shù)有較高的要求。

為了提高系統(tǒng)性能以及識別效果，本文對SEMG和ACC傳感器進(jìn)行特征水平上的融合，提出一種基于多特征組合的動態(tài)手勢動作分類方法，探究不同特征組合對手勢識別效果的影響。為了對短時(shí)間肌肉收縮動態(tài)手勢的分割有較好的連續(xù)性，采用樣本熵算法對活動段進(jìn)行分割；對兩類傳感器提取不同種類的特征并進(jìn)行多種組合，采用實(shí)驗(yàn)對比分析的方法選擇最優(yōu)的特征組合；對比隨機(jī)森林、決策樹、支持向量機(jī)和HMM這4種不同的分類器，最終選取HMM模型進(jìn)行手勢識別。

1 方法

本研究多傳感器手勢動作的識別框架如圖1所示，由信號采集、活動段分割、特征提取并融合以及分類識別4部分構(gòu)成。這節(jié)重點(diǎn)介紹活動段分割、特征提取并融合以及分類識別。

圖1 動態(tài)手勢動作識別框架

1.1 活動段分割

活動段分割的目的是從SEMG及ACC信號中分割出有效手勢活動段，從連續(xù)信號中自動確定活動段的起始點(diǎn)。如何從連續(xù)手勢信號中分割出有效手勢目前還沒有比較完善的方法，SEMG信號能代表肌肉活動水平，當(dāng)手勢運(yùn)動從一個(gè)動作到另一個(gè)動作時(shí)，相應(yīng)肌肉會出現(xiàn)短暫放松，因此采用SEMG信號的幅值變化信息可以用于兩類傳感器的數(shù)據(jù)分割[10]，ACC信號流同步于SEMG信號。此外相對于ACC的活動段提取方法，SEMG傳感器檢測手勢是否處于活動段的方法更為成熟。實(shí)驗(yàn)研究發(fā)現(xiàn)，相比于振幅包絡(luò)，移動平均法等分割方法，樣本熵對手勢分割具有更好的效果，對運(yùn)動插入噪聲的抑制效果較好。樣本熵用于手勢分割具體以下步驟：

(1)利用式(1)計(jì)算SEMG信號4通道在i時(shí)刻的平均值。根據(jù)實(shí)驗(yàn)選擇移動窗內(nèi)的窗口長度n=64，即對SEMG信號進(jìn)行64點(diǎn)滑動窗分幀，重疊窗口長度為32

(1)

(2)然后計(jì)算每幀的樣本熵值E，樣本熵值的具體計(jì)算方法參考文獻(xiàn)[11]。之后設(shè)定自適應(yīng)閾值Th1和Th2。當(dāng)某時(shí)刻E值大于Th1，并且接續(xù)5個(gè)值都大于Th1，則此時(shí)刻是活動段的起點(diǎn)；當(dāng)某時(shí)刻E值小于Th2，并且接續(xù)的5個(gè)點(diǎn)都小于Th2，則此時(shí)刻是活動段的終點(diǎn)。設(shè)置接續(xù)點(diǎn)是為了防止短暫性間隔而導(dǎo)致將一個(gè)手勢識別成兩段的情況，根據(jù)實(shí)驗(yàn)設(shè)置接續(xù)點(diǎn)為5時(shí)效果最佳。此外起始值Th1大于終止值Th2，較高的Th1能夠防止無意抖動導(dǎo)致識別為有意義手勢，較低的Th2能夠防止動作運(yùn)動中幅度值較低發(fā)生斷裂。

1.2 特征提取

當(dāng)有效手勢被完整分割后，要用有效的特征向量對動作進(jìn)行描述。SEMG信號能夠反映手的形態(tài)以及手腕屈伸等信息，對運(yùn)動尺度較小的手勢區(qū)分能力好；ACC信號能夠反映手臂的動作軌跡以及位置等信息，能夠較好地區(qū)分出運(yùn)動尺度較大的動作。由于肌電和加速度計(jì)數(shù)據(jù)表示不同的物理意義，特征提取之后也常常具有不可比性，因此要對肌電和加速度計(jì)數(shù)據(jù)進(jìn)行歸一化處理，根據(jù)實(shí)驗(yàn)本文選擇以最大值最小值尺度變換方式線性歸一化至-1到1。

1.2.1 手形特征提取

手形是指手掌、手腕以及手指的狀態(tài)，SEMG信號數(shù)據(jù)能夠描述手形狀態(tài)。目前對于SEMG信號通常提取時(shí)域、頻域和時(shí)頻域特征，但對于選取何種特征還沒有理論最優(yōu)方法，一般情況下嘗試采用各種特征提取方法，然后選擇滿足系統(tǒng)需要的最優(yōu)特征。但是已經(jīng)有研究證明與時(shí)頻域特征相比，頻域特征通常效果不佳[12]。因此選取絕對平均值(MAV)、4階自回歸(AR)系數(shù)以及小波變換(WT)作為手形特征。

(1)不同動作之間由于肌肉活動力量不同，SEMG信號的幅度值會有所不同，MAV能夠反映SEMG的幅值變化。MAV用式(2)表示，其中移動窗口長度N=64，重疊窗口長度為32，u(i)表示SEMG的第i個(gè)數(shù)據(jù)采集點(diǎn)

(2)

(2)SEMG信號是一種非平穩(wěn)的生物電信號，但是在較短時(shí)間內(nèi)能看作是平穩(wěn)信號，可以用AR模型對信號進(jìn)行分析。AR模型表示見式(3)

(3)

其中，al表示AR中第l個(gè)系數(shù)，p表示AR的階數(shù)。根據(jù)已經(jīng)以往實(shí)驗(yàn)分析，當(dāng)p=4時(shí)識別效果是最佳的，p太大會導(dǎo)致計(jì)算量過高，p太小會導(dǎo)致分辨效果不佳。

(4)

采用離散小波變換方法對SEMG信號進(jìn)行多尺度分解，提取尺度水平為4的dB4小波基函數(shù)。對4尺度小波基函數(shù)提取1個(gè)近似系數(shù)(A4)和4個(gè)細(xì)節(jié)系數(shù)(D1～D4)特征，然后計(jì)算每個(gè)系數(shù)的奇異值，這樣就產(chǎn)生5維的特征矢量。

1.2.2 運(yùn)動軌跡特征提取

運(yùn)動軌跡是指手勢動作中手臂的運(yùn)動狀態(tài)，ACC數(shù)據(jù)能夠描述運(yùn)動軌跡狀態(tài)。選取均值(M)、方差(V)以及快速傅里葉變換(FFT)作為運(yùn)動軌跡特征。

(1)M可以描述ACC的幅值變換，能夠表征手臂的朝向和手勢姿態(tài)。M用式(5)表示，其中移動窗口長度N=64，重疊窗口長度為32，a(i)表示各軸ACC的第i個(gè)數(shù)據(jù)采集點(diǎn)

(5)

(2)V能夠描述信號隨時(shí)間變化強(qiáng)度，能夠表征手臂運(yùn)動的劇烈程度，用式(6)表示

(6)

(3)FFT是一種典型信號處理方法，能夠?qū)⑿盘枏目臻g域變換到頻率域。序列a(i)可以分解為偶數(shù)序列a1(i)和奇數(shù)序列a2(i)之和，見式(7)

a(i)=a1(i)+a2(i)

(7)

其中，a1(i)、a2(i)長度都是M/2，那么FFT變換可以表示為式(8)

(8)

本文提取各軸ACC數(shù)據(jù)的128點(diǎn)FFT的前3階系數(shù)，即M=128。

1.2.3 特征級融合

特征級融合按特征向量的產(chǎn)生方式分為特征選擇和特征組合兩種方法。本文采用特征組合方法，將手形和軌跡特征組合在一起構(gòu)造串行聯(lián)合特征矢量。特征級融合能夠減少一個(gè)分類器的使用，節(jié)省時(shí)間。

特征組合后用分類器進(jìn)行識別，利用MATLAB軟件進(jìn)行仿真實(shí)驗(yàn)，得到識別率以及運(yùn)行所用的時(shí)間。對比所有的識別率以及運(yùn)行時(shí)間，選出最優(yōu)的特征組合，使得用時(shí)較短識別率高。

1.3 分類識別

為了獲得較高識別率，采用了HMM的分類算法。HMM模型是一種雙重隨機(jī)過程：一個(gè)是馬爾可夫鏈，描述了隱藏狀態(tài)的轉(zhuǎn)移；另一個(gè)是可觀察的觀察值序列，描述了隱藏狀態(tài)與觀察狀態(tài)之間的統(tǒng)計(jì)對應(yīng)關(guān)系[14]。

1.3.1 HMM模型訓(xùn)練

HMM模型訓(xùn)練是對參數(shù)λ={π,A,B}進(jìn)行估計(jì)的過程，常采用Baum-Welch算法，通過不斷迭代去調(diào)整參數(shù)λ，讓參數(shù)λ不斷趨于收斂，使得輸出P(O|λ)概率達(dá)到最大化[15]。

Baum-Welch算法是一種迭代算法，視觀測序列(離散或連續(xù))的不同，算法會有不同的形式。本文是對連續(xù)手勢進(jìn)行識別，選取連續(xù)的觀測序列B，通常采用高斯混合模型(GMM)，即

(9)

(10)

(11)

采用多個(gè)觀測數(shù)據(jù)對模型參數(shù)進(jìn)行重估，因此選取遍歷式HMM模型(ergodic hidden Markov model，EHMM)，這種模型可以從一個(gè)狀態(tài)轉(zhuǎn)移到另一種狀態(tài)，并且觀測序列之間可以被認(rèn)為是獨(dú)立的，從而獲得多觀測序列的重估值λ，并存儲參數(shù)λ。

1.3.2 手勢識別

此公式表示在t-1時(shí)刻時(shí)狀態(tài)轉(zhuǎn)移路徑為q1q2…qt-1，t時(shí)刻時(shí)狀態(tài)序列是Si，則此時(shí)會得到最大值概率P，即t時(shí)刻的δt(i)對應(yīng)的序列就是所求的最優(yōu)狀態(tài)序列。

2 實(shí) 驗(yàn)

2.1 信號采集實(shí)驗(yàn)

本研究利用慣用手(右手)進(jìn)行手勢運(yùn)動，采用4通道的SEMG和1個(gè)三軸ACC傳感器進(jìn)行數(shù)據(jù)采集。安放位置如圖2所示，三軸ACC傳感器安放于前臂靠近腕部的背面，用于捕捉手部的運(yùn)動軌跡信息，4通道的SEMG傳感器分別安放于前臂指伸肌、伸指總肌、橈側(cè)腕長伸肌和尺側(cè)腕屈肌，用于檢測手的形態(tài)運(yùn)動信息。本實(shí)驗(yàn)肌電數(shù)據(jù)是由加拿大Thought Technology公司研制的型號是SA7500表面肌電儀采集，采樣率最大是2048 Hz，最小是256 Hz，AD分辨率是14 bit，采用的是差分電極；三軸加速度計(jì)數(shù)據(jù)是由荷蘭Xsens公司生產(chǎn)的MEMS慣性傳感器采集，采樣率是256 Hz。實(shí)驗(yàn)選取兩類傳感器采樣率都為256 Hz。

圖2 右手傳感器安放位置

手勢運(yùn)行環(huán)境是在MATLAB R2012a環(huán)境下完成的，計(jì)算機(jī)處理器是Inter(R) Core(TM) i3-4170 CPU @ 3.70 GHz，安裝內(nèi)存是4.00 GB(3.48 GB可用)。

研究過程自定義了5種靜態(tài)手形和5種運(yùn)動軌跡，如圖3所示，靜態(tài)手形包括：V(T)，八(E)，伸掌(S)，握拳(W)，OK(O)；運(yùn)動軌跡包括：九(NI)，六(SI)，叉(FI)，圓(CI)，右下(LI)。實(shí)驗(yàn)選取10種動態(tài)手勢，分別為：TNI、SSI、EFI、WCI、OLI、SNI、WSI、OFI、TCI和ELI。

針對選取的10類動態(tài)手勢，實(shí)驗(yàn)選取5名受試者，3名男生和2名女生，年齡是25到27歲之間。所有受試者慣用右手，無任何神經(jīng)肌肉系統(tǒng)疾病史，具有手勢運(yùn)動工作經(jīng)驗(yàn)。實(shí)驗(yàn)中每名受試者自然站立，左手自然下垂，在一周內(nèi)分6次采集數(shù)據(jù)，每次采集10種動態(tài)手勢，每個(gè)動態(tài)手勢重復(fù)20遍。這樣，用于實(shí)驗(yàn)分析的數(shù)據(jù)集包含了6000個(gè)動態(tài)手勢樣本。實(shí)驗(yàn)過程中對每類動態(tài)手勢隨機(jī)選取40個(gè)樣本作為訓(xùn)練集，另外對每類手勢選35個(gè)樣本作為測試集。

圖3 手形和軌跡

2.2 實(shí)驗(yàn)結(jié)果及分析

(1)特征組合分類:本文以受試者1為例，將提取的SEMG和ACC信號特征進(jìn)行了7種不同的組合，在相同的HMM分類器下得到的10種手勢的分類結(jié)果見表1，其中表格第一行代表特征組合序號，第二行代表不同特征組合，第一列代表10種手勢代號。表2給出了不同特征組合的對比實(shí)驗(yàn)結(jié)果，其中時(shí)間表示提取手勢特征所耗的時(shí)間。

結(jié)合表1和表2可以看出，首先，分類精度并非和特征組合的個(gè)數(shù)成正比，如特征組合D2與D4分類準(zhǔn)確率相似，特征組合D6比D1分類精度高，特征組合D3比D6和D1分類精度高，特征組合D7比D5分類精度低。其次，不同特征組合下，存在個(gè)別手勢的分類精度不和特征組合的效果成正比，可能是手勢和軌跡差異性導(dǎo)致的，但是手勢整體的分類精度和特征組合的效果是成正比的。最后，從表中還可看出，含有AR，MAV，F(xiàn)FT的特征組合要比其它特征組合分類效果好一些，說明這種特征組合在一定程度上具有互補(bǔ)性。

從表2可以看出，在特征提取算法上，含WT特征組合所用時(shí)間高于其它特征組合提取時(shí)間，這是由WT性質(zhì)所決定的；在手勢識別效果上，WT對靜態(tài)手勢識別效果好，但是含WT的特征組合對相同手勢不同軌跡的動態(tài)手勢識別易歸為一類，整體識別效果并不好。對比所有特征組合識別所耗時(shí)間以及平均識別率，特征組合D5的識別效果最佳。

(2)分類器對比實(shí)驗(yàn):為了探索不同特征組合在不同分類器下的識別結(jié)果，設(shè)計(jì)了HMM模型與常用分類器隨機(jī)森林(RF)、決策樹(DT)以及支持向量機(jī)(SVM)的對比實(shí)驗(yàn)，仍以受試者1為例，根據(jù)實(shí)驗(yàn)情況選擇HMM的狀態(tài)數(shù)為6，混合高斯函數(shù)個(gè)數(shù)為2；選擇DT的決策樹算法是CART算法，SVM的核函數(shù)為徑向基核函數(shù)，RF的決策樹數(shù)目是500。結(jié)果如圖4所示。

從圖4中可以看出，RF、DT、SVM、HMM這4種分類器最佳特征組合分別是D1、D5、D6、D5，且此特征組合下對10種手勢的平均識別率分別為90.20%、82.04%、87.68%和94.11%，說明上面實(shí)驗(yàn)得出的最佳特征組合并非適用于所有分類器。

利用不同分類器得出的最佳特征組合對5位受試者進(jìn)行手勢識別，實(shí)驗(yàn)訓(xùn)練并測試相同受試者數(shù)據(jù)，識別結(jié)果如圖5所示。從圖中可以看出，對于所有受試者，分類器的準(zhǔn)確率是穩(wěn)定一致的。實(shí)驗(yàn)結(jié)果表明，DT分類效果最差，其次是SVM和RF，HMM分類效果最佳。此結(jié)果說明在最優(yōu)特征組合下HMM模型識別效果最佳。

表1 不同特征組合的平均識別率/%

表2 不同特征組合的對比實(shí)驗(yàn)結(jié)果

圖4 不同特征組合下分類器的平均識別率

圖5 最優(yōu)特征組合下分類器的分類結(jié)果

表3是以HMM作為分類器使用最優(yōu)特征組合D5，得到的5位受試者在不同手勢下的識別率，其中A代表平均識別率，S代表標(biāo)準(zhǔn)偏差。從表中橫向可以看出，S3受試者平均識別率最高，為94.42%，S5受試者平均識別率最低，為93.89%?？赡艿脑蛴袃蓚€(gè)，第一是由于每一次動態(tài)手勢的手形和運(yùn)動軌跡不完全相同，會有一定的隨意性，因而在一定程度上降低了識別率；第二是不同受試者的SEMG傳感器放置位置略有不同，并且IMU傳感器的方向可能稍有不同。如果對手勢動作以及傳感器安放位置進(jìn)行規(guī)范，識別率會進(jìn)一步提高。

表3 動態(tài)手勢識別率/%

從表3中縱向可以看出，手勢ELI整體識別效果最差，為92.81%，其次是手勢EFI，為92.83%，這是由于手勢ELI和EFI手形相同軌跡相似，在特征上具有一定的相似性，分類時(shí)兩種手勢有時(shí)會相互錯分。手勢TNI識別效果最好，這是因?yàn)槭中魏瓦\(yùn)動軌跡整體效果較好，特征識別上具有較強(qiáng)的可分性?？v觀表格數(shù)據(jù)，整體識別率達(dá)到了(94.11±1.32)%以上。

3 結(jié)束語

為了提高動態(tài)手勢識別的分類精度，本文提出了基于多特征組合與HMM相結(jié)合的方法。在特征提取上，對不同特征進(jìn)行串行組合，通過大量的實(shí)驗(yàn)分析對比，確定了最佳特征組合。在分類器選取上，通過對比分析HMM、RF、DT和SVM分類器對動態(tài)手勢的影響，最終確定HMM分類器識別效果好。實(shí)驗(yàn)結(jié)果表明，本文方法能有效提高手勢的識別率，具有較好的魯棒性。

然而，在人機(jī)交互手勢應(yīng)用中，本實(shí)驗(yàn)并沒有嚴(yán)格規(guī)范手勢動作，有一定隨意性，信號受到不同受試者身體條件影響，后期會加以規(guī)范，調(diào)查影響，提高識別率。為了實(shí)現(xiàn)手勢在日常生活的使用，未來要進(jìn)一步減少識別時(shí)間，這是ACC和SEMG傳感器用于實(shí)際的關(guān)鍵。

參考文獻(xiàn)：

[1]Dong C,Ming CL,Yin ZZ.American sign language alphabet recognition using Microsoft kinect[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.IEEE,2015:44-52.

[2]Matthew R Williams,Robert F Kirsch.Evaluation of head orientation and neck muscle EMG signals as three-dimensional command sources[J].Journal of Neuroengineering and Rehabilitation,2015,12(1):25-40.

[3]Wu J,Sun L,Jafari R.A wearable system for recognizing American sign language in real-time using IMU and surface EMG sensors[J].IEEE J Biomed Health Inform,2016,20(5):1-10.

[4]Wei SJ,Chen X,Yang XD,et al.A component-based voca-bulary-extensible sign language gesture recognition framework[J].Sensors,2016,16(4):1-16.

[5]Li Y,Chen X,Zhang X,et al.A sign-component based framework for Chinese sign language recognition using accele-rometer and sEMG data[J].IEEE Transactions on Biomedical Engineering,2012,59(10):2695-2704.

[6]WU Hao.Fall recognition based on surface EMG and acceleration signal[D].Hangzhou:Hangzhou Dianzi University,2016(in Chinese).[武昊.基于表面肌電信號與加速度信號的跌倒檢測研究[D].杭州:杭州電子科技大學(xué),2016.]

[7]Su RL,Chen X,Cao S,et al.Random forest-based recognition of isolated sign language subwords using data from accele-rometers and surface electromyographic sensors[J].Sensors,2016,16(1):1-15.

[8]Lu ZY,Chen X,Li Q,et al.A hand gesture recognition framework and wearable gesture-based interaction prototype for mobile devices[J].IEEE Transactions on Human-Machine Systems,2014,44(2):293-299.

[9]Liu JH,Chen WZ,Li MY,et al.Continuous recognition of multifunctional finger and wrist movements in amputee subjects based on sEMG and accelerometry[J].The Open Biomedical Engineering Journal,2016,10(1):101-110.

[10]YANG Xidong.Research of Chinese sign language recognition technology based on the fusion of surface electromyography and inertial sensors[D].Beijing:University of Science and Technology of China,2016:10-13(in Chinese).[楊喜東.融合表面肌電和運(yùn)動傳感器信息的中國手語手勢識別技術(shù)研究[D].北京:中國科學(xué)技術(shù)大學(xué),2016:10-13.]

[11]CHENG Juan,CHEN Xun,PENG Hu.An onset detection method for action surface electromyograph based on sample entropy[J].Acta Electronica Sinica,2016,44(2):479-484(in Chinese).[成娟,陳勛,彭虎.基于樣本熵的肌電信號起始點(diǎn)檢測研究[J].電子學(xué)報(bào),2016,44(2):479-484.]

[12]Phinyomark A,Phukpattaranont P,Limsakul C.Feature reduction and selection for EMG signal classification[J].Expert Systems with Applications,2012,39(8):7420-7431.

[13]YU Yaping,SUN Lining,ZHANG Fengfeng,et al.sEMG pattern recognition based on multi feature fusion of wavelet transform[J].Chinese Journal of Sensors and Actuators,2016,29(4):512-518(in Chinese).[于亞萍,孫立寧,張峰峰,等.基于小波變換的多特征融合sEMG模式識別[J].傳感技術(shù)學(xué)報(bào),2016,29(4):512-518.]

[14]Liu JC,Zhang L,Chen X,et al.Facial landmark automatic identification from three dimensional (3D) data by using hidden Markov model(HMM)[J].International Journal of Industrial Ergonomics,2017,57(1):10-22.

[15]LI Xinde,PAN Jindong,DEZERT Jean.A target recognition algorithm for sequential aircraft based on DSmT and HMM[J].Acta Automatica Sinica,2014,40(12):2862-2876(in Chinese).[李新德,潘錦東,DEZERT Jean.一種基于DSmT和HMM的序列飛機(jī)目標(biāo)識別算法[J].自動化學(xué)報(bào),2014,40(12):2862-2876.]