胡珂杰, 蔣 敏, 孔 軍
(江南大學 輕工業先進過程控制重點實驗室,江蘇 無錫 214122)
近幾年中,基于深度信息的行為識別因其受環境影響小等特點得到了廣泛關注和重視。微軟公司生產的Kinect是可以同時獲取紅綠藍三原色(red green blue,RGB)彩色圖像和深度圖像的三目攝像頭,能通過深度信息快速地獲取人體關節位置和三維骨架,這些數據包含了豐富的信息,給人體行為識別帶來了新的思路和方法。
Ofli F等人[1]根據人體關節點空間坐標點提取了關節角,并計算每個關節角在整個動作過程中的方差,然后根據方差的大小排序,獲取了若干個最具信息量的關節點,最后采用排序靠前的關節點數據進行分類。Lin S Y等人[2]計算了人體各部分的平均速度,根據各部分速度變化規律采用馬爾可夫模型實現行為識別。Papadopoulos G T等人[3]采用了關節點形成的球面角以及角速度并結合動能表征不同的行為動作,再利用馬爾可夫模型進行分類識別。Khoshhal K等人[4]根據拉班運動分析(Laban movement analysis,LMA)法,將人體分為6個部分并計算了各個部分的形狀、空間位置變化等作為特征進行人體識別。
綜上所述,人的不同動作不僅表現在位置信息上的區別,而且表現在關節點序列的能量特征上。受動能定理和萬有引力的啟發,發現動能和勢能能夠有效地表現出人體能量的變化,這種能量變化相較于單個骨骼特征更加具有意義的描述。因此,本文將能量信息和骨骼關節信息結合作為一個新的特征,定義為混合關節特征。
人的行為狀態可以分為2種:靜止和運動。當人從靜止狀態變為運動狀態時,多個關節點位置信息均會發生變化,此時這些關節點都具有運動速度。定義關節點的動能作為運動的特征。在不同的行為下,人體關節點動能還表現出不同的變化規律,例如當人在踢腿時踝關節點的動能變化幅度很大且變化頻率較快,而在慢跑時踝關節的動能變化幅度相對平緩且變化頻率較慢。因此,關節點動能是人體行為識別的重要特征。
為了計算人體骨骼關節點動能信息,首先要獲取人體關節點的空間三維坐標(x,y,z),然后根據相鄰兩幀的坐標信息變化計算出每一幀人體骨骼關節點動能

(zi,t-zi,t-Δt)2),
Δs=Δt×(1/30)
(1)
式中EKi,t為Ft幀中第i個關節點的動能;k為動能參數,文中k取1;Δt為相鄰兩幀的時間間隔,根據所使用Kinect的性能指標,文中取1/30 s;Pi,t為第i個關節點在Ft幀中的空間位置,即三維空間坐標(xi,t,yi,t,zi,t)。
根據三維關節點坐標計算每個關節點的方向變化向量,計算公式為
φi,t=(xi,t-xi,t-1,yi,t-yi,t-1,zi,t-zi,t-1)
(2)
式中φi,t為Ft幀中第i個關節點相對于上一幀中第i個關節點的方向變化向量;xi,t,yi,t,zi,t分別為該關節點在Ft幀中的空間三維坐標。
由于關節點的坐標是相對于攝像機的坐標,而攝像機的位置不同會導致同一個人同一個動作的關節點的坐標值相差很大。考慮到人的姿態主要是由人體各部分之間的相對位置來決定的,若在人體上取一個運動相對穩定的點作為參照點,計算各關節點相對于這點的相對坐標,可以消除人和攝像機的相對位置不同而造成的影響。本文引入相對勢能Ei,t來表示關節點之間的相對位置信息。選擇頭部關節點Ph,t作為零勢能參照點效果較好且便于計算,人體姿態勢能定義如下
Ei,t=L(|Pi,t-Ph,t|)
(3)
式中L為勢能參數,取值9.8;Pi,t為t幀中第i個關節點位置;Ph,t為t幀中頭部關節點即零勢能參照點位置。
四肢關節角作為一種識別特征是非常直觀有效的。本文根據人體運動規律定義了6個最具代表性人體關節角。

圖1 關節角示意
如圖1所示θ4和θ2表示左、右手大臂與小臂形成的夾角,θ5和θ6分別表示左、右腿大腿與小腿的夾角,θ1和θ3分別表示左、右手大臂與軀干形成的夾角。關節角計算方法如下
(4)
式中θn,t為Ft幀中第n個關節角;“·”符號為向量的內積;“| |”表示向量的模;α和β分別為關節角對應向量。
選擇LSTM神經網絡[5]作為分類器對每個動作分類,利用特殊的調控機制存儲長時間的信息,網絡包括一個輸入層、一個輸出層、一個具有記憶塊的隱含層。單獨的記憶單元塊,包含4個特殊的神經元:輸入門、記憶細胞、遺忘門和輸出門。根據前述特征描述,網絡的輸入為由4個特征組成的行向量
xt=[EK1,t…EK20,t,φ1,t…φ20,t,E1,t…E20,t,θ1,t…θ6,t]
(5)
式中EKi,t,φi,t,Ei,t分別為動能特征、方向特征、勢能特征,t=1,…,T;T為動作的總幀數;i=1,…,20為每幀的特征值個數;θn,t為關節角度特征;n=1,…,6為關節角的個數。
輸出門、輸入門和遺忘門均選用Sigmoid激活函數,記憶細胞選用Tanh激活函數。
如圖2,給出了整個LSTM神經網絡。本文網絡中,共114個輸入神經元,一個記憶塊,20個輸出神經元(每個神經元對應每個動作類別)。在每個時間步長中,輸入神經元的值是混合關節特征組成的行向量。隨后,基于上一個時間步長的存儲單元值和當前時間步長的輸入值,計算記憶單元與各個門之間的激活值,然后將激活值傳送至輸出層,通過輸出層的激活函數Softmax得出輸出值。每個輸出的神經元加權過后應用于Softmax激活函數,可以確保輸出的總和等于1。最后,通過網絡預測將最高輸出的神經元的值對應相應的類別。

圖2 LSTM神經網絡
本文在MSR Action 3D數據庫上進行實驗, 數據庫包含了20個動作類別,由10個人演示。每個動作演示2~3次,從RGB-D視頻中提取3D人體位置的20個關節,包含了567個序列,在實驗中因為其中有10個序列的骨骼點缺失或錯誤太嚴重,不使用。進行了2組實驗,在第一組實驗,從所有序列中選擇1,3,5,7,9實驗者作為訓練,剩余的實驗者作為測試;第二組實驗,與文獻[6]相似,將數據庫分為AS1,AS2,AS3。AS1和AS2摻雜了一些相近的動作,而AS3將各類動作組合在一起。
將本文方法與其他最新基于骨骼特征的行為識別方法相比較。實驗結果表明:僅使用關節軌跡[7]作為特征對MSR Action 3D數據庫分類準確率為89 %,僅采用關節點位置[8]信息作為特征識別率為78.97 %,文獻[9]將關節角度與深度圖像相融合進行分類,準確率提高至85.35%。本文采用混合關節作為特征利用LSTM神經網絡進行分類,識別率達到了93.3 %。本文方法得出的特征表達更加具有描述性。
圖3給出了在實驗1設定下重復實驗得出的混淆矩陣。從混淆矩陣中可以發現20個類中有14個類的識別率達到了100 %,但揮手、錘擊、畫叉、畫圈和網球罰球這幾個動作卻有著明顯的混淆。發現錯誤分類主要發生在一些非常相似的行為。例如,動作揮手主要是被誤分類為高拋,動作錘擊被誤分類為畫勾。這些動作有很多重疊的序列,區分這些行為是項目的關鍵技術。

圖3 MSR Action 3D數據分類混淆矩陣
由表1可以看出本文提出的方法在某些方面要于方法文獻[10~12]。盡管文獻[11,12]在AS3和AS2的數據集上取得了最好的結果,但本文方法相對于AS1擁有更高的識別率,在其他2個數據集上的表現亦較好,說明對于各種數據本文方法具有一定的魯棒性。

表1 MSR Action 3D(實驗2設定)的動作分類識別率 %
提出了一種新的人體骨骼特征。根據人體生物學和運動學提取人體的動能特征、姿態勢能、方向變化特征以及關節角度特征構成混合關節特征,然后利用LSTM神經網絡作為分類器進行分類和識別。結果表明:運用混合關節特征和LSTM分類器的效果優于現有的行為識別方法,具有良好的研究價值和應用前景。未來工作方向是提取與環境有關的特征,實現對與人體發生交互物體的識別,并考慮人體與周圍環境的交互信息,進一步提高行為識別的準確性和適用性。
[1] Ofli F,Chaudhry R,Kurillo G,et al.Sequence of the most infor-mative joints(SMIJ):A new representation for human skeletal action recognition[J].Journal of Visual Communication and Image Representation,2014,25(1):24-38.
[2] Lin S Y,Shie C K,Chen S C,et al.Human action recognition using action trait code[C]∥2012 The 21st International Confe-rence on Pattern Recognition (ICPR),IEEE,Tsukuba,Japan,2012:3456-3459.
[3] Papadopoulos G T,Axenopoulos A,Daras P.Real-time skeleton-tracking-based human action recognition using kinect data[M].Multi-Media Modeling,Springer International Publishing,2014:473-483.
[4] Khoshhal K,Aliakbarpour H,Quintas J,et al.Probabilistic LMA-based classification of human behavior understanding using power spectrum technique[C]∥2010 The 13th Conference on Information Fusion,IEEE,UK,2010:1-7.
[5] Gers F A,Schmidhuber J,Cummins F.Learning to forget:Conti-nual prediction with LSTM[J].Neural Computation,2000,12(10):2451.
[6] Eweiwi A,Cheema F,Bauckhage C,et al.Efficient pose-based action recognition[C]∥Proceedings of Asian Conference on Computer Vision,Singapore,2015:428-443.
[7] Amor B B,Su J,Srivastava A.Action recognition using rate-invariant analysis of skeletal shape trajectories[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):1-13.
[8] Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Xi’an,China,2012:20-27.
[9] Ohnbar E,Trivedi M M.Joint angles similarities and HOG 2 for action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Tianjin,China,2013:465-470.
[10] Li W,Zhang Z,Liu Z.Action recognition based on a bag of 3D points[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,San Francisco,USA,2010:9-14.
[11] Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,OH,USA,2014:588-595.
[12] Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton-based action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:1110-1118.