田 元,李方迪
華中師范大學(xué) 教育信息技術(shù)學(xué)院,武漢430079
隨著人工智能技術(shù)飛速發(fā)展以及許多新興智能科技在人們?nèi)粘I钪写罅科占埃谌斯ぶ悄茴I(lǐng)域,計(jì)算機(jī)視覺(jué)和人機(jī)交互技術(shù)具有重要的地位,人體姿態(tài)識(shí)別在人機(jī)交互領(lǐng)域具有重要作用,并且在道路行為監(jiān)控、人體運(yùn)動(dòng)分析、醫(yī)療康復(fù)訓(xùn)練、舞蹈教育培訓(xùn)等方面都有重要應(yīng)用前景。根據(jù)輸入圖像的類(lèi)型,姿態(tài)識(shí)別又分為基于RGB圖像和基于深度圖像的方法。彩色圖像在復(fù)雜環(huán)境和光照變化下魯棒性較差,而用于采集深度圖像信息的設(shè)備,如Microsoft推出的Kinect設(shè)備和ASUS公司的Xtion,性?xún)r(jià)比高,可以捕捉彩色和深度信息,能夠在光線(xiàn)不好的條件下工作,并且可以提供骨骼信息,簡(jiǎn)化人體檢測(cè)任務(wù)[1]。Li等人[2]綜合利用了Kinect提供的深度數(shù)據(jù)、骨架數(shù)據(jù),通過(guò)人體測(cè)量學(xué)知識(shí)和反向傳播神經(jīng)網(wǎng)絡(luò),有效提高了姿態(tài)識(shí)別的實(shí)時(shí)性和魯棒性。朱大勇等人[3]則利用Kinect攝像機(jī)采集人體的骨骼信息以及關(guān)節(jié)點(diǎn)對(duì)應(yīng)的3D數(shù)據(jù)來(lái)進(jìn)行動(dòng)作識(shí)別。Reddy等人[4]同樣是采用Kinect設(shè)備獲取深度信息,設(shè)計(jì)了專(zhuān)門(mén)針對(duì)坐姿和站姿的人體姿態(tài)識(shí)別系統(tǒng)。因此,基于深度信息的人體姿態(tài)識(shí)別技術(shù)已成為目前的熱門(mén)研究課題。
如圖1所示,基于深度信息的人體姿態(tài)識(shí)別的主要步驟分為三部分:首先對(duì)深度信息傳感設(shè)備采集到的圖像數(shù)據(jù)進(jìn)行預(yù)處理,然后提取出相應(yīng)的人體姿態(tài)圖像特征,最后采用合適的分類(lèi)算法進(jìn)行姿態(tài)分類(lèi)識(shí)別。基于深度信息的人體姿態(tài)識(shí)別技術(shù)應(yīng)用領(lǐng)域十分廣泛[5]。例如在游戲領(lǐng)域,通過(guò)體感技術(shù)來(lái)獲取玩家的姿態(tài)動(dòng)作進(jìn)行人機(jī)交互操作,能夠使游戲玩家擺脫傳統(tǒng)游戲交互設(shè)備的約束,從而大大提升玩家的游戲體驗(yàn)。在醫(yī)療領(lǐng)域,通過(guò)深度信息進(jìn)行自然肢體運(yùn)動(dòng)檢測(cè),可以使醫(yī)護(hù)工作人員的工作量得到有效減少,并且患者康復(fù)訓(xùn)練的效果也得到了有效提高。在教育領(lǐng)域,通過(guò)把基于深度信息的人機(jī)交互技術(shù)融合進(jìn)課堂教學(xué)中,為師生提供了更為自然的人機(jī)交互方式。
圖1 基于深度信息的人體姿態(tài)識(shí)別流程圖
本文對(duì)近幾年基于深度信息的人體姿態(tài)識(shí)別研究相關(guān)文獻(xiàn)進(jìn)行了歸納梳理,從深度圖像預(yù)處理、特征提取和人體姿態(tài)識(shí)別算法三方面進(jìn)行了研究概述,重點(diǎn)闡述了不同算法在人體姿態(tài)識(shí)別過(guò)程中的主要應(yīng)用和改進(jìn)思路。首先,介紹了在深度圖像預(yù)處理中的空洞填充和圖像平滑的研究進(jìn)展和解決方法;然后,介紹了特征提取的方法以及圖像特征的幾大類(lèi)型;接下來(lái),介紹了卷積神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林等算法在人體姿態(tài)識(shí)別中的應(yīng)用發(fā)展;最后,總結(jié)歸納出目前的主流研究方法,根據(jù)存在的不足,為未來(lái)研究方向提供思路。
使用RGB-D獲取的深度圖像信息可以很好地反映目標(biāo)的三維信息,但是由于測(cè)量時(shí)受到一些外在不確定因素的影響,在一定程度上會(huì)導(dǎo)致采集到的深度信息不穩(wěn)定,因此深度圖像的修復(fù)在進(jìn)行人體姿態(tài)識(shí)別過(guò)程中占有重要地位。為了使數(shù)據(jù)更加精確,在進(jìn)行圖像特征提取之前,需要對(duì)原始的深度圖像數(shù)據(jù)進(jìn)行空洞修復(fù)、圖像平滑等預(yù)處理操作。
由于受物體表面的材質(zhì)、相互遮擋以及陰影輪廓等諸多因素的影響而造成數(shù)據(jù)缺失或者匹配失敗,從而導(dǎo)致了深度圖中部分區(qū)域的深度測(cè)量值為0的情況,也稱(chēng)為黑洞噪聲。關(guān)于深度圖像的空洞修復(fù)問(wèn)題,最簡(jiǎn)單的處理辦法就是利用空洞區(qū)域邊緣的有效像素點(diǎn)來(lái)對(duì)空洞部分進(jìn)行填充。
針對(duì)Microsoft公司的Kinect傳感器所獲取的深度圖像,Yang等人[6]提出了一種基于8通道的空洞填充方法。該算法首先將具有8個(gè)連通度的空洞聚類(lèi),通過(guò)分析相鄰像素的深度分布,為每個(gè)聚類(lèi)分配一個(gè)深度值。該方法在深度顏色信息不相關(guān)的情況下,通過(guò)賦予適當(dāng)?shù)纳疃戎担行У剡M(jìn)行了空洞修復(fù)。該算法使整個(gè)連通域中的像素成為一個(gè)整體,并沒(méi)有考慮每個(gè)像素的差異,因而具有一定的局限性。
不同于Yang等人只采用深度信息進(jìn)行空洞填充的方法,趙旭[7]結(jié)合了彩色圖像信息,提出了一個(gè)能進(jìn)行自適應(yīng)處理的迭代聯(lián)合三邊濾波器。即在單幀的情況下,把彩色圖像的邊緣和深度圖像的邊緣沒(méi)有對(duì)齊的深度像素點(diǎn)坐標(biāo)都重置為0,通過(guò)該濾波器進(jìn)行黑洞填充。但是在深度圖中如果存在范圍較大的空洞,該算法修復(fù)的效果并不理想。
對(duì)于空洞較大的情況,王福偉等人[8]通過(guò)與彩色圖像信息結(jié)合來(lái)引導(dǎo)填充深度圖像存在的空洞。首先對(duì)深度圖中空洞點(diǎn)的具體位置坐標(biāo)進(jìn)行定位,然后根據(jù)彩色圖像的顏色特性具有相似性,來(lái)判斷空洞點(diǎn)的位置是在前景還是在背景,有效地進(jìn)行了像素級(jí)別的填充。不過(guò)該算法對(duì)環(huán)境背景有一定要求,如果是在復(fù)雜背景或者較暗的環(huán)境中,算法的處理效果不太理想,導(dǎo)致修復(fù)的深度數(shù)據(jù)可能具有較大的誤差。
鄭歡[9]對(duì)于空洞產(chǎn)生原因進(jìn)行了詳細(xì)了解,并提出了一種基于區(qū)域大小的黑洞填充方法。首先對(duì)深度圖像的黑洞進(jìn)行連通域分析,對(duì)由被投射物體表面材質(zhì)的吸收、折射和反射所產(chǎn)生的黑洞,利用黑洞周?chē)泥徲蛑兄敌畔?lái)進(jìn)行填充;對(duì)由遮擋產(chǎn)生的黑洞,利用基于區(qū)域大小的黑洞填充方法進(jìn)行修復(fù),其中利用鄰域信息對(duì)較小的黑洞區(qū)域進(jìn)行修復(fù)。
依據(jù)空洞區(qū)域大小來(lái)進(jìn)行空洞填充的思路,胡天佑[10]根據(jù)分割區(qū)域里的空洞大小將區(qū)域分為沒(méi)有空洞的區(qū)域、空洞較小的區(qū)域、空洞較大的區(qū)域和全部都是空洞的區(qū)域。針對(duì)不同的區(qū)域分別采用合適的空洞修復(fù)策略,空洞較大的區(qū)域使用中值填補(bǔ)算法,空洞較小的區(qū)域采用快速行進(jìn)算法進(jìn)行填補(bǔ),對(duì)于出現(xiàn)的大面積空洞,則通過(guò)非局部均值處理,利用鄰近相似區(qū)域?qū)斩催M(jìn)行填充。
與之前的空洞填充方法不同,錢(qián)銳[11]則把RGB-D攝像機(jī)同步采集到的彩色圖像利用C-means聚類(lèi)算法進(jìn)行區(qū)域分割,從而使物體的結(jié)構(gòu)信息在目標(biāo)場(chǎng)景中更加明顯,通過(guò)鄰域內(nèi)的同類(lèi)像素來(lái)不斷對(duì)邊緣空洞點(diǎn)進(jìn)行填充,使有效像素值不斷向空洞內(nèi)部擴(kuò)散,最后完成全部空洞區(qū)域的修復(fù)。
目前的空洞填充方法大多數(shù)都是基于空間相關(guān)性的思想,也就是利用深度圖周?chē)袼氐纳疃戎祦?lái)估計(jì)空洞部分的深度信息,從而達(dá)到空洞修復(fù)的目的。然而空洞區(qū)域由于大小和背景環(huán)境存在差別,同一算法對(duì)不同的空洞區(qū)域修復(fù)效果也存在區(qū)別,同時(shí)對(duì)于處理大量深度圖像信息的情況,空洞填充算法的性能也至關(guān)重要,耗時(shí)太長(zhǎng)也會(huì)對(duì)后續(xù)識(shí)別效率有所影響。因此,空洞填充方法的普遍性和魯棒性有待進(jìn)一步提高。
深度攝像機(jī)獲取深度圖像時(shí)會(huì)存在一些常見(jiàn)的噪聲,例如椒鹽噪聲、高斯噪聲等,通過(guò)抑制噪聲對(duì)圖像的影響使圖像亮度得到改善的方法就是圖像平滑。圖像平滑常用的方法就是對(duì)其進(jìn)行濾波操作,圖像處理領(lǐng)域常用的濾波有中值濾波、高斯濾波、雙邊濾波等。中值濾波(Median Filter,MF)處理椒鹽噪聲的效果比較好,但是對(duì)深度圖像中高斯噪聲濾波效果不好;高斯濾波(Gaussian Filter,GF)雖然能夠有效地平滑深度圖像,但會(huì)丟失深度圖像的邊緣信息;雙邊濾波(Bilateral Filter,BF)可以在濾波的同時(shí)保留原始圖像的一些邊緣信息,但是往往會(huì)帶來(lái)偽邊緣效應(yīng),同時(shí)不能夠有效地去除外點(diǎn),并且計(jì)算量相對(duì)較大。
針對(duì)雙邊濾波存在的權(quán)值不穩(wěn)定性問(wèn)題,聯(lián)合雙邊濾波(Joint Bilateral Filter,JBF)在雙邊濾波器的思想上進(jìn)行了拓展,將指導(dǎo)圖像替換為另一個(gè)特征比原圖像清晰的圖像,用來(lái)獲取圖像像素值之間的權(quán)重系數(shù)。Feng等人[12]將空域距離原則和彩色圖相似原則進(jìn)行了結(jié)合,提出了一種能夠自適應(yīng)噪聲平滑的聯(lián)合雙邊濾波。
為了改善聯(lián)合雙邊濾波在原始場(chǎng)景中深度信息的精確度,余亞玲等人[13]提出一種新的預(yù)處理算法。通過(guò)構(gòu)建深度圖的測(cè)量和采樣模型,從而得到深度圖的蒙特卡羅不確定度評(píng)價(jià)模型,然后利用計(jì)算的深度值估計(jì)區(qū)間來(lái)判定和濾除深度圖像中的噪聲點(diǎn)和非噪聲點(diǎn),從而達(dá)到修復(fù)噪聲點(diǎn)的作用。
深度相機(jī)和彩色相機(jī)之間的立體匹配誤差使得其成像結(jié)果之間存在一些偏差,這就使得深度圖像的物體邊緣信息和彩色圖像中的物體邊緣信息并不相同。因此Jung[14]使用了自適應(yīng)的聯(lián)合三邊濾波器來(lái)對(duì)深度圖像和彩色圖像進(jìn)行增強(qiáng),并且提出了一種基于二值模式的塊匹配方法,對(duì)深度圖像和彩色圖像進(jìn)行塊匹配,然后根據(jù)塊之間的相似度,依次對(duì)彩色圖像和深度圖像進(jìn)行聯(lián)合三邊濾波。
不同于以上算法,基于全局的圖像增強(qiáng)方法通??梢员A舾嗾w結(jié)構(gòu)信息。Diebel等人[15]最先提出了一種基于馬爾可夫隨機(jī)場(chǎng)的深度升采樣方法。Park等人[16]通過(guò)改進(jìn)原始馬爾可夫隨機(jī)場(chǎng)模型中的平滑約束項(xiàng),并使用彩色圖像的分割信息以及彩色圖像的梯度信息作為新的約束項(xiàng),解決了之前方法處理結(jié)果中的深度圖像邊緣過(guò)平滑的問(wèn)題。Kim與Yoon[17]使用雙向圖像梯度作為權(quán)重項(xiàng)對(duì)馬爾可夫隨機(jī)場(chǎng)模型的平滑項(xiàng)進(jìn)行修改,消除了深度圖像中由物體邊界區(qū)域的噪聲造成的影響。
圖像平滑是深度圖像預(yù)處理的關(guān)鍵環(huán)節(jié),針對(duì)深度圖像存在不同的噪聲類(lèi)型,采取合適的濾波器進(jìn)行圖像平滑處理具有重要的意義。不過(guò)圖像平滑處理也應(yīng)適度保留特征信息,不能過(guò)度平滑,否則會(huì)對(duì)最后的圖像識(shí)別結(jié)果造成一定的影響。
從圖像序列中將描述人體姿勢(shì)的有效特征提取出來(lái)是保證準(zhǔn)確識(shí)別動(dòng)作的重要前提[18],不同特征的效果會(huì)與目標(biāo)跟環(huán)境的特性具有很大的關(guān)聯(lián)。同一特征對(duì)于不同類(lèi)別動(dòng)作的描述能力會(huì)有些差異,不同特征對(duì)于同一類(lèi)別動(dòng)作的描述能力也參差不齊,特征描述根據(jù)不同特點(diǎn)可以分類(lèi)為全局特征描述和局部特征描述[19],因此如何根據(jù)已有的數(shù)據(jù)信息和識(shí)別目標(biāo)來(lái)選擇合適的特征描述符是人體姿勢(shì)識(shí)別的關(guān)鍵。
全局特征描述就是采用一種自上而下的描述方式,把識(shí)別目標(biāo)當(dāng)作一個(gè)整體[19]。全局特征涵蓋了全面的人體信息,由于容易受到識(shí)別目標(biāo)定位的準(zhǔn)確性以及背景剔除等圖像預(yù)處理的影響,全局特征描述也具有一定的局限性,例如對(duì)噪聲、遮擋以及攝像機(jī)視角變化等因素十分敏感。
輪廓和形狀特征是兩種比較常見(jiàn)的全局特征描述。Bobick等人[20]以?xún)煞N方式把監(jiān)測(cè)視頻里運(yùn)動(dòng)目標(biāo)的輪廓變化信息聚合成二維圖像,采用運(yùn)動(dòng)歷史圖(Motion History Image,MHI)來(lái)反映不同姿勢(shì)在運(yùn)動(dòng)過(guò)程中存在的先后順序。Ni等人[21]在MHI的基礎(chǔ)上提出了三維運(yùn)動(dòng)歷史圖(3D-MHI),也就是在原來(lái)運(yùn)動(dòng)歷史圖的基礎(chǔ)上增加了兩個(gè)附加的通道,分別是前進(jìn)的運(yùn)動(dòng)歷史圖和后退的運(yùn)動(dòng)歷史圖。Liang等人[22]把運(yùn)動(dòng)歷史圖擴(kuò)展到三維圖像,并提出了三維運(yùn)動(dòng)軌跡模型(3D Motion Trail Model,3DMTM)。
除此之外,也可以采用光流軌跡來(lái)代替形狀信息,光流特征能夠利用圖像序列中像素在時(shí)間維度上的變化和相鄰圖像幀之間的相關(guān)性來(lái)描述目標(biāo)的運(yùn)動(dòng)特征,且不依賴(lài)于環(huán)境背景的減除。也就是說(shuō),光流特征表示的是時(shí)變圖像中識(shí)別目標(biāo)的運(yùn)動(dòng)速度,但是光流特征會(huì)受到動(dòng)態(tài)環(huán)境背景的噪聲影響[19]。
局部特征描述是一種由下到上的描述方式,就是只提取運(yùn)動(dòng)目標(biāo)中有用的部位,將觀察目標(biāo)視為一個(gè)局部描述子或者局部圖像塊的集合[19]。與全局特征對(duì)比,局部特征不會(huì)隨著環(huán)境背景噪聲、物體遮擋或者人體運(yùn)動(dòng)的變化而改變,對(duì)尺度、平移和旋轉(zhuǎn)等動(dòng)作也具有較好的穩(wěn)定性。局部特征的提取一般分為局部特征區(qū)域的檢測(cè)和對(duì)局部特征區(qū)域描述兩部分。
3.2.1 時(shí)空興趣點(diǎn)
局部特征區(qū)域檢測(cè)中比較常用的方法就是檢測(cè)局部的時(shí)空興趣點(diǎn)。時(shí)空興趣點(diǎn)一般是由運(yùn)動(dòng)突變引起的,在運(yùn)動(dòng)幅度較大的地方含有豐富的信息。3DHarris、Dollar、Hessian3D是三種比較常見(jiàn)的時(shí)空興趣點(diǎn)檢測(cè)器。
其中3Dharris是Laptev[23]提出的,它是為了檢測(cè)在局部的時(shí)空維度里運(yùn)動(dòng)目標(biāo)同時(shí)產(chǎn)生較大變化的點(diǎn),將二維Harris角點(diǎn)檢測(cè)擴(kuò)展到了時(shí)空域。為了改善3DHarris檢測(cè)到的穩(wěn)定興趣點(diǎn)特征分辨力較低、不利于識(shí)別的問(wèn)題,Dollar等人[24]通過(guò)將輸入的視頻序列進(jìn)行高斯平滑和一維Gabor濾波,從而提出了一種新的檢測(cè)算法。Shotton等人[25]保留了Harris檢測(cè)子尺度不變的優(yōu)點(diǎn),把二維的Hessian算法擴(kuò)展到三維圖像當(dāng)中,提出的Hessian3D檢測(cè)算法也可以和Dollar檢測(cè)子一樣獲得稠密的興趣點(diǎn)。
3.2.2 局部描述子
梯度分布的描述子是局部特征區(qū)域描述中最常用的方法,它的基本思想是不用知道梯度或者邊緣精確的位置信息,而是通過(guò)局部強(qiáng)度梯度的分布或者目標(biāo)邊緣方向來(lái)對(duì)局部目標(biāo)的外觀和形狀進(jìn)行特征描述。
Lowe[26]首先提出了尺度不變特征變換(Scale-Invariant Feature Transform,SIFT),利用階梯式的濾波方法來(lái)確定不同空間中尺度變化都比較突出的關(guān)鍵信息點(diǎn)。Scovanner等人[27]在SIFT的基礎(chǔ)上提出了能夠很好地描述三維數(shù)據(jù)的時(shí)空信息,并且具有良好性能的3DSIFT描述子。
為了實(shí)現(xiàn)人體檢測(cè),Dalal等人[28]提出了基于統(tǒng)計(jì)圖像密集局部單元格中梯度方向的直方圖特征(Histogram of Oriented Gradient,HOG)。HOG特征能夠?qū)\(yùn)動(dòng)目標(biāo)的局部形狀信息進(jìn)行很好的描述,魯棒性較好。Kl?ser等人[29]在HOG的基礎(chǔ)上提出了計(jì)算三維梯度并且對(duì)時(shí)間與空間方向上的梯度進(jìn)行量化的HOG3D描述子,HOG3D能夠很好地描述運(yùn)動(dòng)特征信息。
針對(duì)SIFT和HOG只能描述局部圖像的零階統(tǒng)計(jì)量這一問(wèn)題,Li等人[30]提出了一種利用多變量高斯函數(shù)將每個(gè)像素點(diǎn)與其鄰域相關(guān)聯(lián)來(lái)表示局部圖像一階和二階統(tǒng)計(jì)量的L2EMG(Local Log-Euclidean Multivariate Gaussian)描述子。L2EMG既可以表示局部圖像的低階統(tǒng)計(jì)量,也可以表示局部圖像的高階統(tǒng)計(jì)量。Shi等人[31]根據(jù)L2EMG描述子可以表征圖像的高階統(tǒng)計(jì)量的優(yōu)點(diǎn)進(jìn)行特征提取,并且使用寬度學(xué)習(xí)算法進(jìn)行學(xué)生學(xué)習(xí)姿態(tài)識(shí)別,取得了很好的效果。
Ojala等人[32]提出了一種可以描述圖像的局部空間結(jié)構(gòu)的局部二值模式(Local Binary Patterns,LBP)。LBP描述子在紋理特征的分類(lèi)中有很好的區(qū)分能力,運(yùn)算簡(jiǎn)單,計(jì)算效率高,并且不受旋轉(zhuǎn)和灰度的變化影響。為了在每個(gè)關(guān)節(jié)節(jié)點(diǎn)附近的局部區(qū)域提取深度外觀信息,Wang等人[33]提出了能夠提取交互物體的尺寸、形狀等信息的局部占有模型(Local Occupancy Patterns,LOP)。LOP是針對(duì)每幀圖片中每個(gè)骨骼關(guān)節(jié)節(jié)點(diǎn)周?chē)木植咳S空間進(jìn)行特征提取工作。
分類(lèi)器是姿態(tài)識(shí)別過(guò)程中最后也是最關(guān)鍵的一步,根據(jù)表征人體動(dòng)作的特征向量進(jìn)行訓(xùn)練,從而給每一個(gè)被測(cè)對(duì)象進(jìn)行不同類(lèi)別的標(biāo)記。根據(jù)選取的特征描述來(lái)選擇合適的姿態(tài)識(shí)別算法具有重要意義。在姿態(tài)分類(lèi)識(shí)別中,主流的分類(lèi)算法有動(dòng)態(tài)時(shí)間規(guī)劃、隱馬爾可夫模型、支持向量機(jī)以及卷積神經(jīng)網(wǎng)絡(luò)等方法。
動(dòng)態(tài)時(shí)間規(guī)劃(Dynamic Time Warping,DTW)最早應(yīng)用于語(yǔ)音識(shí)別中,主要用于孤立詞的識(shí)別,在姿態(tài)識(shí)別中可以解決不同目標(biāo)完成動(dòng)作的時(shí)間長(zhǎng)度不一的問(wèn)題。DTW屬于模板匹配算法,通過(guò)給定距離矩陣,找到一條從左上角到右下角的路徑,以便路徑傳遞的元素值之和最小。
針對(duì)DTW算法在每次運(yùn)行時(shí)都要規(guī)劃路徑,存在巨大的計(jì)算量和占用大量空間等問(wèn)題,何劍彬等人[34]對(duì)DTW算法進(jìn)行了改進(jìn),提出了一種新的全局路徑窗口,減少運(yùn)算量且不降低正確率,但對(duì)于肢體遮擋問(wèn)題具有局限性。針對(duì)動(dòng)態(tài)時(shí)間規(guī)整在動(dòng)作識(shí)別中存在時(shí)間結(jié)構(gòu)突變、光照變化敏感等不足,方云錄等人[35]提出了一種改進(jìn)的動(dòng)作識(shí)別算法。該算法利用DTW對(duì)圖像序列抽樣形成的隨機(jī)時(shí)間規(guī)整反復(fù)進(jìn)行隨機(jī)抽樣,提取序列數(shù)據(jù)的時(shí)間彈性TE特征,然后采用主成分分析(Principal Component Analysis,PCA)降維生成序列子空間,最后利用線(xiàn)性判別分析完成姿勢(shì)識(shí)別,不過(guò)對(duì)于運(yùn)動(dòng)姿態(tài)識(shí)別率不高。針對(duì)DTW算法在人體動(dòng)作識(shí)別中的時(shí)效性問(wèn)題,桑海峰等人[36]提出了一種快速動(dòng)態(tài)時(shí)間彎曲距離算法,有效地解決了動(dòng)作序列在時(shí)間軸上扭曲問(wèn)題,并為了加快識(shí)別速度提出了下界函數(shù)和提前終止技術(shù)。但由于動(dòng)作庫(kù)局限性,該算法只能識(shí)別自定義動(dòng)作,在人機(jī)交互中存在一定局限性。
隱馬爾可夫模型(Hidden Markov Model,HMM)是一種關(guān)于時(shí)序的概率模型,有兩個(gè)獨(dú)立的假設(shè):一個(gè)是隨機(jī)過(guò)程假設(shè),即每個(gè)隱含狀態(tài)序列發(fā)生與否只與前一個(gè)狀態(tài)有關(guān)聯(lián);另一個(gè)是觀察狀態(tài)獨(dú)立假設(shè),即觀察狀態(tài)的序列之間相互獨(dú)立,每個(gè)觀察狀態(tài)只與當(dāng)前對(duì)應(yīng)的隱含狀態(tài)有關(guān)系,與其他隱含狀態(tài)無(wú)關(guān)。針對(duì)傳統(tǒng)的基于混合高斯的隱馬爾可夫模型(GMM-HMM)的動(dòng)作識(shí)別,楊世強(qiáng)等人[37]提出了基于深度置信網(wǎng)絡(luò)的隱馬爾可夫模型(DBN-HMM),由訓(xùn)練好的深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)模型結(jié)合GMM-HMM模型獲得的狀態(tài)轉(zhuǎn)移概率矩陣求出更準(zhǔn)確的觀察概率,從而對(duì)動(dòng)作序列進(jìn)行識(shí)別,不過(guò)該方法對(duì)于不同動(dòng)作魯棒性較差。
在假設(shè)選取的特征之間存在強(qiáng)獨(dú)立關(guān)系的情況下,樸素貝葉斯分類(lèi)器(Naive Bayesian Classifier,NBC)是一種基于貝葉斯定理的簡(jiǎn)單概率分類(lèi)器。對(duì)于給出的待分類(lèi)項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。陳平平等人[38]對(duì)傳統(tǒng)樸素貝葉斯算法進(jìn)行了改進(jìn),通過(guò)數(shù)據(jù)分析方法對(duì)康復(fù)訓(xùn)練動(dòng)作進(jìn)行分析,從而針對(duì)不同人群進(jìn)行閾值計(jì)算,處理掉在閾值誤差范圍外的動(dòng)作關(guān)節(jié)點(diǎn)信息,由此提高人體姿態(tài)的識(shí)別率,但是識(shí)別對(duì)象局限于中風(fēng)患者,缺乏普遍性。
與生成模型相比,判別模型不僅需要的樣本數(shù)量較少,且準(zhǔn)確率也較高,大大節(jié)約了計(jì)算資源。由于不需要求解不同類(lèi)別的條件概率,簡(jiǎn)化了學(xué)習(xí)問(wèn)題,但是當(dāng)樣本數(shù)量較多時(shí),收斂速度沒(méi)有生成模型快。
4.3.1 傳統(tǒng)分類(lèi)器
隨機(jī)森林(Random Forest)是由一組相互獨(dú)立的決策樹(shù)所組成的組合分類(lèi)器,預(yù)測(cè)結(jié)果是由每棵決策樹(shù)對(duì)預(yù)測(cè)值進(jìn)行投票而決定的。隨機(jī)森林學(xué)習(xí)框架主要包括四部分:隨機(jī)選擇樣本,隨機(jī)選擇特征,構(gòu)建決策樹(shù),根據(jù)決策樹(shù)的投票情況進(jìn)行分類(lèi)。在原有基礎(chǔ)上,許多學(xué)者進(jìn)行了創(chuàng)新改進(jìn),例如蔡軼珩等人[39]提出了一種多級(jí)隨機(jī)森林整合算法,其算法流程首先是采用排列組合思想對(duì)各分類(lèi)結(jié)果進(jìn)行兩兩求與運(yùn)算,同時(shí)保留相同的分類(lèi)點(diǎn),去掉不同的分類(lèi)點(diǎn);然后考慮不同分類(lèi)結(jié)果之間的差異性,針對(duì)第一階段的整合結(jié)果依次進(jìn)行求或運(yùn)算,最終可以得到更加準(zhǔn)確的動(dòng)作識(shí)別結(jié)果。該方法魯棒性好,但是對(duì)于遮擋情況的處理效果不好,實(shí)時(shí)性有待證明。
支持向量機(jī)(Support Vector Machine,SVM)是機(jī)器學(xué)習(xí)領(lǐng)域最常用的一種分類(lèi)方法,它的目標(biāo)是找到一個(gè)最大限度分離兩個(gè)類(lèi)別的二分類(lèi)超平面。因其在圖像分類(lèi)方面具有良好的性能,支持向量機(jī)也是常用的姿態(tài)識(shí)別分類(lèi)器。使用SVM進(jìn)行姿態(tài)識(shí)別的文獻(xiàn)很多,例如Manzi等人[1]利用X-means算法提取關(guān)鍵位姿特征,經(jīng)過(guò)自組織特征映射網(wǎng)絡(luò)優(yōu)化訓(xùn)練后采用多類(lèi)SVM進(jìn)行分類(lèi)識(shí)別。該方法識(shí)別準(zhǔn)確率高,但是不能識(shí)別數(shù)據(jù)集以外的未知?jiǎng)幼鳌?/p>
4.3.2 卷積神經(jīng)網(wǎng)絡(luò)
由于隨機(jī)森林和支持向量機(jī)等傳統(tǒng)分類(lèi)算法對(duì)輸入的深度圖像有一定要求,無(wú)法對(duì)原始的圖像進(jìn)行處理運(yùn)算,因此卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)具有很明顯的優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)是一種前饋型神經(jīng)網(wǎng)絡(luò),由于該網(wǎng)絡(luò)避免了對(duì)圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而在姿態(tài)識(shí)別領(lǐng)域也獲得到了廣泛應(yīng)用。Mohamed等人[40]利用RGB-D相機(jī)提供的不同類(lèi)型的視覺(jué)數(shù)據(jù),分別采用SVM和CNN兩種方法進(jìn)行了對(duì)比。SVM使用的是RGB-D相機(jī)提供的3D基礎(chǔ)骨骼特征,CNN使用的是2D深度圖像。最后在FLIC數(shù)據(jù)集和LSP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,這兩種方法具有相當(dāng)?shù)男阅芎洼^高的精度,在深度圖像上應(yīng)用時(shí),基于CNN的方法略勝一籌。
針對(duì)提取圖像特征時(shí)不同圖像區(qū)域和提取出的不同抽象特征被平等對(duì)待的問(wèn)題,趙勇等人[41]在CNN基礎(chǔ)上,根據(jù)圖像的全局特征和局部特征來(lái)計(jì)算關(guān)節(jié)的最終定位概率,從而進(jìn)行動(dòng)作識(shí)別。實(shí)驗(yàn)結(jié)果表明,此算法收斂速度更快,在FLIC數(shù)據(jù)集和LSP數(shù)據(jù)集上測(cè)試的平均估計(jì)準(zhǔn)確度也有所提升,但是此算法在人體各關(guān)節(jié)位置變化較快的情況下識(shí)別率并不高,具有一定的局限性。在趙勇研究的基礎(chǔ)上,韓貴金[42]提出了一種基于改進(jìn)CNN和加權(quán)SVDD(Support Vector Data Description)算法的關(guān)節(jié)外觀模型,并將其用于人體姿態(tài)估計(jì)。該算法對(duì)各個(gè)部位的估計(jì)準(zhǔn)確度都具有一定的提升,但是當(dāng)人體關(guān)節(jié)存在遮擋時(shí),識(shí)別率不高。
Eleni等人[43]將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)相結(jié)合用于手勢(shì)識(shí)別,取得了不錯(cuò)的效果。與之類(lèi)似,張儒鵬等人[44]將Inception卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化,設(shè)計(jì)了用多個(gè)小卷積核替換一個(gè)大卷積核的O-Inception結(jié)構(gòu),并且與LSTM進(jìn)行了結(jié)合,提出了一種基于OI-LSTM神經(jīng)網(wǎng)絡(luò)的姿態(tài)識(shí)別模型。該模型在WISDM數(shù)據(jù)集和UCI數(shù)據(jù)集上都具有較高的識(shí)別率和魯棒性,但是由于測(cè)試數(shù)據(jù)集的差異性,該模型性能的普遍性有待進(jìn)一步研究。
對(duì)于姿態(tài)識(shí)別主流算法,不同的算法由于自身算法結(jié)構(gòu)的差異性,以及特征提取的不同,所使用的范圍也具有一定的差異,不存在絕對(duì)完美的算法,使其能夠適用所有的分類(lèi)問(wèn)題,因此要使人體姿態(tài)識(shí)別效果達(dá)到相對(duì)較高的水平,根據(jù)不同的特征條件和適用范圍選取合適的算法具有重要意義。表1對(duì)本文提到的不同改進(jìn)算法進(jìn)行了總結(jié)。
表1 基于深度信息的人體姿態(tài)識(shí)別常用算法
本文通過(guò)廣泛調(diào)研基于深度數(shù)據(jù)的人體姿態(tài)識(shí)別相關(guān)文獻(xiàn),從深度圖像預(yù)處理、特征提取以及姿態(tài)分類(lèi)識(shí)別算法三方面進(jìn)行了總結(jié)概述。對(duì)于RGB-D攝像機(jī)采集到的深度圖存在空洞、噪點(diǎn)等問(wèn)題,介紹了聯(lián)合雙邊濾波器、自適應(yīng)迭代聯(lián)合三邊濾波器、基于馬爾可夫隨機(jī)場(chǎng)的深度升采樣等方法來(lái)進(jìn)行空洞填充和圖像平滑;對(duì)描述人體姿態(tài)的不同特征進(jìn)行了分類(lèi)介紹,例如光流特征、MHI、3DHarris以及SIFT、HOG等特征并進(jìn)行姿勢(shì)特征提取;從動(dòng)態(tài)時(shí)間規(guī)劃法、隱馬爾可夫模型、支持向量機(jī)以及卷積神經(jīng)網(wǎng)絡(luò)等方法介紹了目前主流的姿態(tài)識(shí)別分類(lèi)算法。
基于深度信息的人體姿態(tài)識(shí)別具有很大的發(fā)展前景,但要使人體姿態(tài)識(shí)別方法走向?qū)嵱没€有以下問(wèn)題亟需解決。
(1)多人姿態(tài)識(shí)別
目前大部分文獻(xiàn)研究的重點(diǎn)都是單人姿態(tài)識(shí)別,多人姿態(tài)識(shí)別要比單人姿態(tài)識(shí)別的難度大,在許多應(yīng)用環(huán)境中,多人姿態(tài)識(shí)別也有較高的重要性。例如在課堂上對(duì)不同學(xué)生個(gè)體進(jìn)行姿態(tài)識(shí)別和學(xué)習(xí)分析時(shí),需要多人姿態(tài)識(shí)別技術(shù),實(shí)時(shí)監(jiān)測(cè)學(xué)生的學(xué)習(xí)情況。同時(shí),多人姿態(tài)識(shí)別在道路交通安全方面也有很大的應(yīng)用價(jià)值,通過(guò)多人姿態(tài)識(shí)別技術(shù)可以在道路監(jiān)控中對(duì)行人動(dòng)作進(jìn)行檢測(cè),及時(shí)反饋危險(xiǎn)行為信息。因此,多人姿態(tài)識(shí)別方面需要進(jìn)行更多的創(chuàng)新和提升,如何提高識(shí)別準(zhǔn)確率使其能夠達(dá)到應(yīng)用的標(biāo)準(zhǔn)將是未來(lái)研究的熱點(diǎn)。
(2)肢體遮擋問(wèn)題
由于目前姿態(tài)識(shí)別算法對(duì)靜止物體的識(shí)別相對(duì)簡(jiǎn)單,但是對(duì)于運(yùn)動(dòng)的人體就存在肢體遮擋問(wèn)題。在人機(jī)交互領(lǐng)域,運(yùn)動(dòng)姿態(tài)的識(shí)別具有很大的應(yīng)用前景。由于人體運(yùn)動(dòng)存在著復(fù)雜和不規(guī)范的問(wèn)題,在使用RGB-D攝像機(jī)采集數(shù)據(jù)時(shí),如果出現(xiàn)肢體遮擋情況,很容易影響識(shí)別結(jié)果的準(zhǔn)確性,因此對(duì)肢體遮擋修復(fù)算法的研究具有重要作用。例如李昕迪等人[45]將人體運(yùn)動(dòng)結(jié)構(gòu)簡(jiǎn)化為骨架運(yùn)動(dòng),通過(guò)計(jì)算骨骼長(zhǎng)度范圍對(duì)人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)范圍進(jìn)行約束分析,最后通過(guò)幾何原理修復(fù)了被遮擋關(guān)節(jié)點(diǎn)的位置信息。不過(guò)鄧益儂等人[46]提到人體動(dòng)作具有時(shí)間連續(xù)性,姿態(tài)連續(xù)性信息可以對(duì)遮擋修復(fù)問(wèn)題提供另一種解決思路。
對(duì)于復(fù)雜的人體姿態(tài)識(shí)別,肢體遮擋是一個(gè)常見(jiàn)的問(wèn)題。目前對(duì)于骨骼信息的遮擋修復(fù)研究取得了很大的進(jìn)步,但是由于不同的人在同一個(gè)姿態(tài)上的表現(xiàn)也會(huì)存在一定的差異性,需要研究更具有魯棒性的算法,從而提高人體姿態(tài)的識(shí)別率。
(3)頭部姿態(tài)和手部姿態(tài)識(shí)別
人體姿態(tài)包含頭部姿態(tài)和手部姿態(tài),但是在識(shí)別過(guò)程中并沒(méi)有重點(diǎn)關(guān)注頭部和手部具體的動(dòng)作。陳甜甜等人[47]對(duì)目前基于深度信息的手勢(shì)識(shí)別方法進(jìn)行了總結(jié),提出在特征選擇和復(fù)雜手勢(shì)方面都存在一些熱點(diǎn)問(wèn)題有待研究。對(duì)于頭部姿態(tài),梁令羽等人[48]將頭部姿態(tài)識(shí)別問(wèn)題視為分類(lèi)問(wèn)題,提出了一種基于Bagging-SVM集成分類(lèi)器來(lái)估計(jì)頭部姿態(tài)的算法,具有良好的識(shí)別效果。
如果姿態(tài)識(shí)別能夠細(xì)化到手勢(shì)識(shí)別和頭部姿態(tài)識(shí)別,將會(huì)對(duì)被識(shí)別者進(jìn)行更詳細(xì)的信息分類(lèi),但是增加更多特征點(diǎn)會(huì)使算法識(shí)別速度變慢,識(shí)別準(zhǔn)確率也會(huì)有所影響。因此如何將人體姿態(tài)識(shí)別與手勢(shì)識(shí)別進(jìn)行融合,也是今后有待思考的問(wèn)題。
(4)構(gòu)建更精確的包含深度信息的人體姿態(tài)數(shù)據(jù)集
姿態(tài)識(shí)別算法的訓(xùn)練精度跟所訓(xùn)練的數(shù)據(jù)集息息相關(guān),同一算法在不同數(shù)據(jù)集中表現(xiàn)情況不盡相同。目前網(wǎng)絡(luò)公布的人體姿態(tài)數(shù)據(jù)集各有千秋,常見(jiàn)的單人數(shù)據(jù)集有FLIC圖像集[49]、LSP圖像集[50]等,但是包含更詳細(xì)精確信息的數(shù)據(jù)集卻很少。由于缺少深度信息姿態(tài)數(shù)據(jù)集,基于深度信息的人體姿態(tài)識(shí)別算法模型的訓(xùn)練效果和識(shí)別效果也有待驗(yàn)證。因此,構(gòu)建一個(gè)權(quán)威的更精確的人體姿態(tài)數(shù)據(jù)集對(duì)今后算法的比較研究具有重要意義。
(5)提高人體姿態(tài)識(shí)別的準(zhǔn)確性、魯棒性和實(shí)時(shí)性
人體姿態(tài)識(shí)別技術(shù)如果要在日常生活中發(fā)揮作用,必須保證其準(zhǔn)確性、魯棒性和實(shí)時(shí)性都達(dá)到較高的水平。目前存在的人體姿態(tài)識(shí)別方法具有多樣性,各具特色,而且對(duì)于單個(gè)算法的優(yōu)化已經(jīng)接近飽和狀態(tài),很難實(shí)現(xiàn)更大的突破。在目前的研究中,往往根據(jù)不同算法的優(yōu)缺點(diǎn)將算法進(jìn)行融合,使得融合結(jié)果在姿態(tài)識(shí)別數(shù)據(jù)集中的表現(xiàn)均優(yōu)于單個(gè)算法。因此,通過(guò)算法結(jié)合的方式來(lái)提高姿態(tài)識(shí)別的準(zhǔn)確性、魯棒性和實(shí)時(shí)性將會(huì)成為今后研究的熱點(diǎn)。