基于CRF和HMM混合模型的手勢識別方法

2021-11-15 11:48:36高涵文李華一陶重犇

計(jì)算機(jī)應(yīng)用與軟件 2021年11期

關(guān)鍵詞：模型

蔡旻高涵文李華一陶重犇

1(蘇州科技大學(xué)天平學(xué)院江蘇蘇州 215009) 2(蘇州科技大學(xué)電子與信息工程學(xué)院江蘇蘇州 215009)

0 引言

隨著對直觀、簡單的人機(jī)交互需求的持續(xù)增長，近年來手勢識別研究領(lǐng)域受到越來越多的關(guān)注。手勢識別系統(tǒng)主要分為兩類：基于數(shù)據(jù)手套的手勢識別[1]和基于計(jì)算機(jī)視覺的手勢識別[2]。前者需要戴上數(shù)據(jù)手套，通過數(shù)據(jù)手套將用戶的手勢信息傳遞給計(jì)算機(jī)，如李秀艷等[3]提出了一種基于深度學(xué)習(xí)的可穿戴手套進(jìn)行動態(tài)手勢系列識別的方法。該方法雖然定位準(zhǔn)確，處理方法快，但是需要人們佩戴特定的設(shè)備，影響了人們的活動自由。為了滿足手勢識別的自然性與易操作性，本文利用Kinect獲取人手臂的位置，然后利用深度信息分割出人手臂的區(qū)域，硬件部分簡單且成本低廉，使用起來也自然簡便。

基于計(jì)算機(jī)視覺的手勢識別主要有基于膚色模型[4-5]和基于分類學(xué)習(xí)[6-7]的兩種識別方法。本文提出的手勢識別方法屬于分類學(xué)習(xí)的范疇，主要運(yùn)用HMM、Adaboost學(xué)習(xí)等算法結(jié)合SIFT等特征進(jìn)行識別。例如，馬杰等[8]提出密集卷積與空間轉(zhuǎn)換網(wǎng)絡(luò)相融合的識別方法，該方法需采集大量樣本、訓(xùn)練時間長、效率低；楊學(xué)文等[9]綜合手勢主方向和類-豪斯多夫距離模板匹配法，較好地解決了手勢發(fā)生形變時識別率較低的問題。但在傳統(tǒng)的手勢識別中，基本都是采用人工提取特征的方式，這樣有一定的主觀性和局限性。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)可自動提取圖像中的有用信息并學(xué)習(xí)，在一定程度上解決了這個問題。CNN雖然克服了人工提取特征的主觀性和局限性，提高了識別率，但是網(wǎng)絡(luò)模型對形變手勢的魯棒性仍然不足。針對此問題，本文提出了一種基于CRF和HMM混合模型的手勢識別方法來提高手勢識別的魯棒性。

1 CRF和HMM混合模型原理

HMM是用來描述具有隱式未知參數(shù)的馬爾可夫過程，其原理是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。一方面，每個觀察狀態(tài)僅取決于當(dāng)前的隱藏狀態(tài)，并且每個隱藏狀態(tài)僅取決于先前的狀態(tài)。然后，通過HMM的解碼問題，使用維特比算法來確定給定的觀察序列的最有可能的隱藏狀態(tài)序列。另一方面，HMM使用高斯混合模型(GMM)來模擬數(shù)據(jù)分布。當(dāng)訓(xùn)練數(shù)據(jù)太少時，GMM的建模能力就會變得很差，這是HMM的一個主要缺點(diǎn)。然而，利用判別模型，比如條件隨機(jī)場(CRF)[10]，就可以彌補(bǔ)這個缺點(diǎn)。

CRF模型會對標(biāo)記序列的決策過程進(jìn)行建模。因此，它考慮了特定標(biāo)簽序列的后驗(yàn)概率。與HMM類似，在每個時間步驟中，一個標(biāo)簽取決于前一個標(biāo)簽。但不同的是其也可能取決于整個觀察序列，并不要求觀察數(shù)據(jù)的條件獨(dú)立性。與HMM相反，CRF無法模擬行為模型。由于CRF是順序過程中的局部分類器，為了保證其結(jié)構(gòu)標(biāo)注的一致性，必須在后期處理中引入高層次的知識作為過濾的附加條件。然而，HMM的生成框架卻具有處理高級結(jié)構(gòu)化信息的能力。

通過上述對于CRF和HMM優(yōu)缺點(diǎn)的比較，本文發(fā)現(xiàn)兩者之間有一定的互補(bǔ)性。本文研究將這兩個模型結(jié)合在一個混合框架中，提出一種將CRF的判別能力與HMM的建模能力相結(jié)合的CRF和HMM混合模型方法。圖1顯示了所提出的混合模型。判別式CRF階段提供了輸入到HMM階段的局部類后驗(yàn)概率，其解釋了關(guān)于標(biāo)簽序列的更多全局約束。假設(shè)：一個標(biāo)簽是yt，觀察值為xt。當(dāng)CRF用于手勢識別任務(wù)時，這個特征向量將被量化為多個區(qū)間。序列幀的數(shù)量記為T；Y分別表示y1:T和x1:T；X、Xd表示量化的特征向量。

圖1 CRF和HMM混合模型

如圖1所示，觀察序列X和狀態(tài)序列y1:T的HMM聯(lián)合概率p(y1:T,x1:T)是使用CRF局部后驗(yàn)概率p(yt|xt)計(jì)算。

根據(jù)這個模型，HMM概率p(y1:T,x1:T)取決于使用CRF計(jì)算的后驗(yàn)概率：

(1)

在標(biāo)準(zhǔn)HMM中，p(xt|yt)是一種高斯混合概率。在本文的新模型中，這種分布將在某種程度上被CRF計(jì)算的分類分布p(yt|xt)所取代。因此，p(xt|yt)是根據(jù)CRF算法中的貝葉斯規(guī)則從p(yt|xt)計(jì)算得到的：

(2)

(3)

(4)

(5)

式中：si、sj是屬于S的隱藏狀態(tài)；ol是屬于O的觀察值。最后，按照向前-向后算法計(jì)算，如下:

(6)

(7)

1.1 CRF和HMM混合模型訓(xùn)練

本文對HMM和CRF進(jìn)行單獨(dú)的訓(xùn)練，如圖2所示。在第一個階段，HMM使用標(biāo)準(zhǔn)的Baum-Welch算法進(jìn)行訓(xùn)練，這意味著目標(biāo)函數(shù)是有全局手勢模型的可能性。對每個手勢類分別學(xué)習(xí)轉(zhuǎn)換概率矩陣，并將其聚集到一個全局模型中，用于解碼手勢序列。

圖2 CRF和HMM混合模型訓(xùn)練和解碼流程圖

在第二階段，使用LBFGS算法訓(xùn)練CRF。由于CRF不能像HMM這樣進(jìn)行訓(xùn)練，所以這個訓(xùn)練階段的目標(biāo)函數(shù)是局部框架級狀態(tài)后驗(yàn)。由此可見局部幀級標(biāo)簽是必要的。因此，本文引入了一個框架級標(biāo)簽階段。在第二個訓(xùn)練階段，CRF學(xué)習(xí)所有手勢的單個模型，考慮到模型中的子類和子手勢一樣多,子手勢的數(shù)量等于HMM手勢模型中的狀態(tài)數(shù)。

1.2 使用CRF和HMM混合模型解碼

要識別的手勢序列可能以任意順序包含任意數(shù)量的手勢，因此，模型應(yīng)該在手勢模型之間均勻切換。這可以通過在全局序列模型中收集所有的手勢模型來建模，如圖3所示。在這個模型中，每一行都代表一個孤立的具有可變狀態(tài)數(shù)的區(qū)間數(shù)。該全局模型允許用等概率手勢轉(zhuǎn)換概率描述任意手勢序列。

圖3 基于HMM的手勢序列識別模型

2 模型結(jié)構(gòu)與參數(shù)化

為了對特征空間進(jìn)行建模，HMM依賴于學(xué)習(xí)數(shù)據(jù)庫中估計(jì)的高斯混合。在考慮樣本數(shù)量非常小的情況下，高斯分布p(xt|yt)的參數(shù)很難估計(jì)，特別是方差。因此，本文首先將這種高斯混合限制為每個手勢類為一個高斯函數(shù)，其次，計(jì)算每個手勢類的方差，以增加數(shù)據(jù)量來提高估計(jì)，從而使每個手勢類都有相同的方差。

CRF方法的初始形式在數(shù)學(xué)上可以處理離散或連續(xù)特征。然而，由于CRF分類階段來源于邏輯回歸，所以它相比于連續(xù)特征更適合于離散特征。實(shí)際上，在遷移學(xué)習(xí)領(lǐng)域，連續(xù)特征離散化所導(dǎo)致的信息丟失在用單個例子訓(xùn)練CRF時可能會產(chǎn)生正則化效果。特征量化還允許有效地調(diào)整與每個離散特征值關(guān)聯(lián)的參數(shù)。雖然量化涉及到信息的丟失，但是大量特性的集成允許捕獲整個手勢的全局表示。因此，本文將使用特征量化過程。

通過將每個連續(xù)特征映射為Nq離散特征的統(tǒng)一標(biāo)量來實(shí)現(xiàn)量化，符合以下方程:

Q：[-Vmax,Vmax]→[-Nq,Nq]

(8)

本文對Nq值進(jìn)行了一定的調(diào)整，以便在驗(yàn)證過程中獲得最佳的識別性能。最終發(fā)現(xiàn)Nq=16是最佳值。

相比于標(biāo)準(zhǔn)的HMM，本文混合結(jié)構(gòu)的HMM是由描述每個手勢的狀態(tài)構(gòu)成的。雖然可以通過狀態(tài)自動轉(zhuǎn)換對手勢持續(xù)時間進(jìn)行建模，但通過設(shè)置每個手勢的狀態(tài)數(shù)目可變，可以更好地實(shí)現(xiàn)建模。本文通過實(shí)驗(yàn)驗(yàn)證了這種想法在每個手勢的狀態(tài)數(shù)固定的情況下比相同系統(tǒng)的性能更好。每個手勢i的狀態(tài)數(shù)取決于它的幀長fg(i)，那么每個狀態(tài)的幀數(shù)記為fs。Ne(i)=fg(i)/fs表示一個手勢模型i的狀態(tài)數(shù)。由此可知，將數(shù)據(jù)模型限制為每個狀態(tài)只有一個高斯分布。

混合模型的CRF部分具有標(biāo)準(zhǔn)的線性結(jié)構(gòu)，CRF訓(xùn)練使得由一個單獨(dú)的模型就可以來區(qū)分?jǐn)?shù)據(jù)集的所有手勢。為了使系統(tǒng)適應(yīng)手勢持續(xù)時間的變化，本文選擇了觀測窗口w0的可變尺寸fw，如式(9)所示。在學(xué)習(xí)數(shù)據(jù)庫上對fw進(jìn)行統(tǒng)計(jì)估計(jì)。為了避免過度擬合，正則化參數(shù)根據(jù)經(jīng)驗(yàn)調(diào)整為1.5。

(9)

3 實(shí)驗(yàn)與結(jié)果分析

為了能夠準(zhǔn)確地識別動態(tài)手勢，本文定義了一組14個手勢用于實(shí)驗(yàn)，如圖4所示。在識別階段，首先利用Kinect感應(yīng)器來提取圖像特征和深度信息。其次，由特征提取算法提取出圖像中人體的骨架節(jié)點(diǎn)，并利用該信息來創(chuàng)建人體骨架模型。然后，將人體的骨架節(jié)點(diǎn)和人體骨架的關(guān)節(jié)角度信息保存到一個緩沖區(qū)。最后，由CRF和HMM混合模型通過訓(xùn)練和解碼來識別手勢序列。

圖4 利用Kinect識別的人體手勢模型

具體算法步驟如下：

步驟1將所有手勢類視頻進(jìn)行特征提取到特征文件，使用Bawm-Welch算法進(jìn)行訓(xùn)練。對每個手勢類分別學(xué)習(xí)轉(zhuǎn)移概率矩陣，并將其聚類到一個全局模型用于解碼手勢序列。

步驟2使用LBFGS算法訓(xùn)練CRF。這個訓(xùn)練階段的目標(biāo)函數(shù)是局部框架級狀態(tài)后驗(yàn)概率。

步驟3將所有測試序列視頻特征提取至特征文件，用Bawm-Welch算法對CRF進(jìn)行解碼。對每個測試序列分別學(xué)習(xí)后驗(yàn)概率矩陣，并將其聚類到一個全局模型中，用于解碼手勢序列。

步驟4將HMM的轉(zhuǎn)移概率和CRF的后驗(yàn)概率聚類到的一個全局模型，并進(jìn)行維特比測試數(shù)據(jù)解碼，從而得到手勢序列。

3.1 對每個狀態(tài)幀數(shù)變化的魯棒性

圖5顯示了調(diào)整后的HMM模型(上曲線)，CRF和HMM混合模型(下曲線)對每個狀態(tài)fs的幀數(shù)的識別誤差L。這些系統(tǒng)針對fs的每個值進(jìn)行了訓(xùn)練。可以觀察到，HMM和CRF混合模型的性能優(yōu)于HMM模型，并且HMM和CRF混合模型顯示出了穩(wěn)定的結(jié)果，而HMM性能卻是不穩(wěn)定的。

圖5 混合模型、HMM模型幀數(shù)變化的對比圖

3.2 對特征向量變化的魯棒性

圖6給出了兩個HMM模型(左圖)和兩個CRF和HMM混合模型(右圖)的每個狀態(tài)幀數(shù)fs的誤差L的變化。每一對系統(tǒng)都用兩個不同的特征向量進(jìn)行評估。

(a) HMM (b) 混合模型圖6 HMM和混合模型對特征向量變化的魯棒性

當(dāng)特征向量大小減小時，CRF和HMM混合模型的性能幾乎保持不變。也就是說，對于CRF和HMM混合模型，最小的特性就足夠了，而對于標(biāo)準(zhǔn)的HMM來說，需要添加特性才能大大提高識別性能。這種減少特征數(shù)的識別能力使特征提取任務(wù)更容易，速度也更快。

3.3 對手勢序列識別的準(zhǔn)確性

圖7分別得到了HMM模型，CRF和HMM混合模型的兩種不同的訓(xùn)練結(jié)果。從圖7(c)可以看出CRF和HMM混合模型達(dá)到了預(yù)期目標(biāo)，即使出現(xiàn)了如圖7(a)中橢圓標(biāo)出的多處離散性錯誤，但在手勢檢測時并未產(chǎn)生錯誤。而圖7(d)中雖然迭代了多達(dá)180次，但仍然未能實(shí)現(xiàn)預(yù)期目標(biāo)。在圖7(b)中用橢圓標(biāo)出部分表示存在連續(xù)性錯誤，從而導(dǎo)致了在圖7(b)中的真實(shí)輸出出現(xiàn)了手勢檢測錯誤。因此，當(dāng)性能曲線未達(dá)到標(biāo)準(zhǔn)時，HMM模型無法滿足識別精度要求。

(a) 混合模型準(zhǔn)確檢測手勢 (b) HMM錯誤檢測手勢

通過上述CRF和HMM混合模型的魯棒性實(shí)驗(yàn)證明了在一個簡單的系統(tǒng)中，通過對CRF和HMM融合模型的優(yōu)點(diǎn)組合和缺點(diǎn)補(bǔ)償，可以達(dá)到較高的識別性能。

4 結(jié) 語

本文提出了一種CRF和HMM混合模型的手勢識別方法。這種HMM和CRF混合模型融合了單個模型的優(yōu)點(diǎn)，是一個比經(jīng)典HMM模型和CRF模型性能更好的模型，對不同的變體具有很好的魯棒性。實(shí)驗(yàn)證明了CRF和HMM混合模型能夠有效地對序列數(shù)據(jù)的時空變化進(jìn)行建模，并能構(gòu)成一個魯棒的識別混合系統(tǒng)，為隱馬爾可夫模型在視頻語義識別領(lǐng)域開辟了新的應(yīng)用前景。