基于骨骼關(guān)節(jié)點投影特征的人體行為識別方法

2019-03-04 10:56:34黃瀟逸

現(xiàn)代計算機(jī) 2019年36期

關(guān)鍵詞：深度特征

黃瀟逸

（四川大學(xué)計算機(jī)學(xué)院，成都610065）

0 引言

在計算機(jī)視覺領(lǐng)域中，人體行為識別技術(shù)具有非常重要的理論研究和應(yīng)用價值。人體行為識別技術(shù)旨在讓計算機(jī)理解人體行為，主要是對圖像序列中人的行為進(jìn)行分析并識別出行為類別，其在智能監(jiān)控[1]、基于內(nèi)容的視頻檢索[2]等多個方面有著良好的應(yīng)用前景。

早期的行為識別技術(shù)主要使用RGB 圖像，由于只包含顏色信息，若人體處于復(fù)雜背景或者光照異常的環(huán)境下，難以從中分割出前景人物進(jìn)行進(jìn)一步識別。隨著深度傳感器的迅速發(fā)展，近幾年深度信息開始被廣泛地使用在人體行為識別領(lǐng)域中，相比于傳統(tǒng)的RGB 圖像，其可以很好地消除大部分由于復(fù)雜背景所帶來的干擾，但仍然存在類間差異小、類內(nèi)差異大[3]的問題。

有研究人員使用機(jī)器學(xué)習(xí)算法，從深度數(shù)據(jù)中提取出了骨骼數(shù)據(jù)，在包含運動信息的同時大大減少了數(shù)據(jù)量?，F(xiàn)有的基于骨骼數(shù)據(jù)的人體行為識別主要提取了骨骼之間的距離、夾角等信息作為識別的特征，這些特征過于依賴局部的姿態(tài)和變化，假如存在對行為類別貢獻(xiàn)不大的局部動作出現(xiàn)了異常，則整個特征很可能會出現(xiàn)較大變化，造成判別失誤。針對這個問題，本文提出了一種骨骼關(guān)節(jié)點投影特征，該特征不依賴于局部的變化，而著重于骨骼節(jié)點的整體位置分布情況，即使存在局部異常動作，提取的全局特征也不會出現(xiàn)較大的變化，依然可以正確分類。在獲得動作的骨骼累積投影圖后，劃分成若干子格進(jìn)行骨骼數(shù)量的統(tǒng)計，并使用支持向量機(jī)進(jìn)行多分類。在MSRAction3D數(shù)據(jù)集上的實驗表明，和一些現(xiàn)有的人體行為識別方法相比，能更好地表征人體行為，即識別率更高。

1 相關(guān)工作

1.1 基于RGB圖像序列的人體行為識別

早期的人體行為識別，主要基于傳統(tǒng)攝像頭獲取的RGB 圖像進(jìn)行研究。Bobick 等人[5]將人體行為序列沿著時間軸進(jìn)行加權(quán)，獲取運動歷史圖（Motion History Image，MHI）和運動能量圖（Motion Energy Image，MEI）兩種特征，再使用模板匹配進(jìn)行識別，可以識別坐下、揮手等簡單行為。此外還有Wang 等人[6]在每幀彩色圖像中劃分網(wǎng)格進(jìn)行稠密采樣，并用光流法進(jìn)行跟蹤，得到稠密采樣點的運動軌跡，并提取光流方向直方圖特征（Histogram Of Flow，HOF）、梯度方向直方圖特征（Histogram Of Gradient，HOG）[7]、MBH 特征（Motion Boundary Histograms）[8]和幀間運動軌跡共四種特征，并使用Fisher Vector 對特征進(jìn)行編碼，最后用SVM 分類。目前，在基于RGB 圖像序列的人體行為識別研究中，基于改進(jìn)稠密軌跡算法的行為識別方法取得的結(jié)果相對較好，之后的研究大都是基于改進(jìn)稠密軌跡算法。

1.2 基于深度圖像序列的人體行為識別

隨著深度傳感器的出現(xiàn)，其可以獲取視野中的深度信息，相比于傳統(tǒng)攝像頭，深度攝像頭可以不受大部分背景和光照的影響，將人體較好地從背景分隔開來。Li 等人[9]提出了的動作圖（Action Graph）概念，其將人體的深度數(shù)據(jù)向不同投影面進(jìn)行投影，并提取人體輪廓邊緣，再用詞袋模型對其進(jìn)行編碼，利用動作圖對行為進(jìn)行建模。Yang 等人[10]將深度圖像三個正交平面做投影，在每個投影面上計算相鄰深度圖的差值得到深度運動圖特征（Depth Motion Maps，DMM），再提取HOG 特征進(jìn)行識別。此外還有Jalal 等人[11]使用R 變換將從深度圖中獲取的輪廓轉(zhuǎn)化為更加緊致的特征表達(dá)，用PCA 進(jìn)行降維，最后構(gòu)建狀態(tài)轉(zhuǎn)移模型隱馬爾科夫模型（Hidden Markov Models，HMM）進(jìn)行行為識別。

1.3 基于骨骼序列的人體行為識別

相比于2 維RGB 圖像和深度數(shù)據(jù)，骨骼數(shù)據(jù)更加能表征人體行為，并且骨骼數(shù)據(jù)量相對較小，運算速度相對快些。研究人員通常利用骨骼關(guān)節(jié)點的幾何相關(guān)信息和時空運動信息來進(jìn)行人體行為的識別。如Campbell 等人[12]開發(fā)的多攝像頭運動捕捉系統(tǒng)（Multicamera motion Capture，MoCap）獲取人體骨骼數(shù)據(jù)的運動軌跡，將軌跡映射到相空間中，通過曲線的劃分進(jìn)行識別，Chen 等人[13]使用骨骼節(jié)點之間的距離、夾角和速度信息特征GPF（Geometric Pose Descriptor）進(jìn)行行為識別。Xia 等人[14]通過構(gòu)建球形坐標(biāo)系，提取人體三維骨骼節(jié)點位置統(tǒng)計直方圖（Histogram Of 3D Joint Locations，HOJ3D）作為描述人體骨架的描述子，通過使用K-means 算法得到骨架的姿態(tài)視覺詞典，最后通過狀態(tài)轉(zhuǎn)移模型隱馬爾科夫模型（Hidden Markov Model，HMM）來對人體行為建模。

2 基于骨骼關(guān)節(jié)點投影特征的人體行為識別序

2.1 骨骼數(shù)據(jù)介紹

本文使用Kinect 采集的骨骼關(guān)節(jié)點數(shù)據(jù)進(jìn)行研究，其可以不依賴于各幀之間的運動信息，從每一幀提取出20 個骨骼關(guān)節(jié)點的位置，可以完整且有效地表達(dá)人體姿態(tài)構(gòu)造，如圖1 所示。本文使用該20 個骨骼關(guān)節(jié)點的三維坐標(biāo)進(jìn)行人體行為識別的研究。

圖1 Kinect骨骼關(guān)節(jié)點位置

2.2 數(shù)據(jù)初始化

由于Kinect 提取的骨骼坐標(biāo)是在Kinect 的世界坐標(biāo)系中，而每個行為序列中人體相對Kinect 鏡頭的位置是不同的，因此需要將關(guān)節(jié)點坐標(biāo)進(jìn)行轉(zhuǎn)換。取長度為L 幀的行為序列中第1 幀的髖關(guān)節(jié)（圖1 中的HIP_CENTER）作為新坐標(biāo)系的原點，設(shè)髖關(guān)節(jié)的坐標(biāo)為P1,1(x1,1,y1,1,z1,1)，用公式（1）對整個序列的骨骼關(guān)節(jié)點進(jìn)行坐標(biāo)的變換，變換后的序列初始位置如圖2。

圖2 坐標(biāo)變換后的序列初始位置

i ∈[1,L]表示序列的第i 幀，j ∈[1,20]表示20 個骨骼關(guān)節(jié)點，P'i,j表示經(jīng)過坐標(biāo)變換的骨骼點。

2.3 特征提取

本文提出一種骨骼關(guān)節(jié)點投影特征（Skeletal joint point Projection Feature，SPF），其可以用來描述人體骨骼關(guān)節(jié)點在行為執(zhí)行時間內(nèi)的累積投影分布情況。

對于某長度為L 幀的行為序列，將第i 幀的20 個三維骨骼關(guān)節(jié)點投影到三個正交平面xoy 、yoz 、xoz上，生成投影圖（其中v ∈{f,s,t}，f ，s，t 分別表示投影前視圖、側(cè)視圖和俯視圖），表示第i 幀骨骼關(guān)節(jié)點在三個正交平面上的二維投影圖。在每個投影平面上使用公式（2）計算L 幀的累積投影圖SMMV（v ∈{f,s,t}）,其各值即為對應(yīng)投影位置上骨骼關(guān)節(jié)點出現(xiàn)的次數(shù)。

由于人與人之間的尺寸、距離鏡頭的遠(yuǎn)近不一致，導(dǎo)致SMMV之間的尺寸不同，構(gòu)造BiCubic 函數(shù)見公式（3），對像素點取其4*4 領(lǐng)域點( )xi,yj,i,j ∈[0,3], 使用雙三次插值算法（BiCubic Interpolation）見公式（4），將SMMV中相同投影面下的累積投影圖調(diào)整為相同尺寸，該尺寸是訓(xùn)練數(shù)據(jù)中所有行為序列在對應(yīng)投影面的累積投影圖尺寸的平均值。

將調(diào)整大小后的SMMV平均劃分為n*n 的子格塊，計算每個子格塊的骨骼點數(shù)之和sumi,j，其中i,j ∈[0,n)。由于行為序列之間的長度L 可能不同，需要使用公式（5）將sumi,j歸一化成區(qū)間為[ ymin, ymax]的Ni,j。

xmin和xmax表示sumi,j的最小和最大值。最后將三個投影平面的Ni,j進(jìn)行拼接，形成該行為序列的SPF，該特征向量維數(shù)是3n2。

2.4 支持向量機(jī)

支持向量機(jī)（Support Vector Machine，SVM）是由Vapnik 等人[15]提出的一種二值分類器，屬于有監(jiān)督的學(xué)習(xí)模型，可以用于模式識別、回歸分析及分類。在解決小數(shù)據(jù)量樣本、非線性分類以及高維模式分類問題中，SVM 方法表現(xiàn)出獨特的優(yōu)勢。

SVM 本身是一個典型的二值分類器，當(dāng)需要處理多分類問題時需要構(gòu)造合適的多類分類器，常用的方法有一對多法和一對一法。

對于含有K 個類別的樣本數(shù)據(jù)：一對多法將某個樣本作為正樣本，其余作為負(fù)樣本，依次訓(xùn)練出K 個二分類器，判別時選擇判別函數(shù)值最大的類別作為分類結(jié)果；一對一法對任意兩類樣本訓(xùn)練一個分類器，共得到K(K-1)/2 個分類器，判別時使用每個分類器對樣本進(jìn)行判斷，并使用Friedman 提出的投票策略來統(tǒng)計分類投票結(jié)果，最后選擇投票最高的類別作為分類結(jié)果。

3 實驗設(shè)計和結(jié)果分析

3.1 MSR Action 3D數(shù)據(jù)集

MSR Action 3D 是最常用的基于Kinect 骨骼數(shù)據(jù)的人體行為識別數(shù)據(jù)集，本文也選取該數(shù)據(jù)集來進(jìn)行相關(guān)實驗。MSR Action 3D 一共包含20 種行為類別，每種行為由10 個人重復(fù)執(zhí)行2 到3 次，共有567 個行為序列。行為序列的每一幀提供如圖3 所示的20 個骨骼關(guān)節(jié)點的三維坐標(biāo)值。本文參考Yang 等人的做法[10]，將20 種行為劃分成表1 所示的3 個子數(shù)據(jù)集AS1、AS2 和AS3，每個子集各包含8 種行為類別。

圖3 人體骨骼架構(gòu)圖

表1 MSR Action 3D 數(shù)據(jù)集的三個子集

3.2 實驗設(shè)計

本文參考文獻(xiàn)[9]中的實驗策略，使用MSR Action 3D 的三個子數(shù)據(jù)集AS1、AS2 和AS3，分別采用Test One、Test Two 和Cross Subject Test 方法進(jìn)行試驗。Test One：1/3 數(shù)據(jù)作為訓(xùn)練集，2/3 數(shù)據(jù)作為測試集。Test Two：2/3 數(shù)據(jù)作為訓(xùn)練集，1/3 數(shù)據(jù)作為測試集。Cross Subject Test：取一半的人的行為數(shù)據(jù)作為訓(xùn)練集，另一半作為測試集。共計9 組實驗。

3.3 骨骼關(guān)節(jié)點特征n值的選取

在提取SPF 時，需要將SMMV劃分成大小相同的n*n 子格塊，本實驗旨在研究不同n 值對人體行為識別率的影響，并選擇合適的n 值用于后續(xù)實驗。表2 是在AS1、AS2 和AS3 數(shù)據(jù)集上采用Test One 取不同n值得到的識別率結(jié)果。

表2 不同n 值的識別率

從結(jié)果來看，不同的n 值確會影響識別率，且n 為9 時獲得的平均識別率相對最高。

3.4 實驗結(jié)果

表3 中為9 組實驗的平均識別率，以及現(xiàn)有人體行為識別方法的識別率。從結(jié)果可以看出，本文提出的基于骨骼關(guān)節(jié)點投影特征的人體行為識別方法在Test Two 和Cross Subject Test 中的多組實驗中的識別率都超過了Li 的方法，原因是Li 使用的深度信息包含大量噪聲，在提取HOG 特征時受到了較大影響，說明本文提出的方法在解決深度數(shù)據(jù)噪聲過多這方面是有效的。但在AS2 數(shù)據(jù)集中，本文的識別率都低于Li的，是因為AS2 中存在很多相似的動作，如高處揮手、抓、畫叉、畫勾和畫圓，這些動作中手的運動軌跡和相對身體位置相似，導(dǎo)致累加后子格中的骨骼數(shù)量大致相同，說明本文在識別相似動作方面還有待提高。

表3 本文方法以及現(xiàn)有方法的識別率

4 結(jié)語

本文提出了一種基于骨骼關(guān)節(jié)點投影特征的人體行為識別方法，核心在于對整個人體行為中的所有骨骼點進(jìn)行投影，劃分子格，提取投影點的頻率并歸一化。該特征可以用來描述人體骨骼關(guān)節(jié)點的累積投影分布情況，很好地表達(dá)了所有關(guān)節(jié)點在空間中的關(guān)系。從實驗結(jié)果來看，在MSRAction3D 數(shù)據(jù)集上，該方法對于人體行為的識別是有效的，具有更高的識別率。但在類間差異小這方面仍然表現(xiàn)不足，即在識別相似動作上還有待提高。