周佳琪 智敏
摘要 針對人體動作識別問題,研究了一種基于運動歷史圖像(Motion History Images,MHI)的人體動作識別方法。利用從運動圖像序列獲得的MHI圖像獲取視頻幀中運動目標的運動特征,由運動特征的變化分類確定人體動作種類,同時給出相應的實驗結果。
關鍵詞 人體運動識別;運動歷史圖像;Hu矩;Zernike矩
DOI DOI: 10.11907/rjdk.162257
中圖分類號: TP301
文獻標識碼: A 文章編號 文章編號: 16727800(2017)002003603
0 引言
人體運動識別是計算機視覺領域中的一個非常重要的研究課題,在公共場所的視頻監控、人流量較大場所的智能安防,以及新興的虛擬現實、人機交互、人工智能等方面都有十分廣闊的應用前景,具有重大的研究意義。基于視頻的人體運動識別技術的關鍵,是通過從視頻中提取可靠有效的特征來表征人體的動作姿態,并通過對這些動作進行標記,借助機器學習方法來實現人體動作的識別。姿態識別是人體動作識別的前身,常用方法有兩種:第一種是利用傳感器制作可穿戴設備,比如戴在身體上的加速度計[1]或裝在衣服上的張力傳感器[2],可穿戴傳感器的特點是精確直接,但會對肢體運動造成束縛,而且攜帶不方便,會給用戶帶來額外的負擔,實用性較弱;第二種是利用視覺捕捉技術[3],例如視頻監控圖像或者靜態圖像,通過對視覺數據的處理來提取有用的信息并判斷人體的動作。基于視覺捕捉技術在特征表征方面,最直觀的方法是采用人體輪廓作為姿勢特征表達[45]。但是輪廓特征是從人體整體的角度來描述姿勢,忽略了身體各部位的細節變化,不能精確地表示多種多樣的人體姿勢。有研究[6]采用基于身體部位的姿勢表達,即將人體輪廓分成若干個身體部位,例如頸部、軀干和腿等。由于這些姿勢特征都是從二維彩色圖像中抽取而來,需要克服人體定位、肢體遮擋、不同光照條件對識別的影響等問題。人體動作識別建立在姿態識別的基礎上,有關人體動作識別的研究方向一般來講主要集中在3個方面[7],分別是人體姿態的結構分析、人體運動目標的跟蹤、基于圖像序列的人體動作識別。
1 基本原理
本文通過獲得監控圖像的MHI圖像的Hu矩和Zernike矩特征進行SVM分類,來實現人體動作識別,該方法的基本過程可以分為4個階段:
(1)運動檢測階段。即從監控視頻中提取出每一幀,并通過圖像分割方法分離出運動物體。本文采用最常用的背景減除法,同時添加了背景模型的自動更新功能。該方法能夠快速有效地分割出運動物體,計算速度較快并且具有良好的自適應能力。
(2)MHI圖像獲取階段。由于運動歷史圖像能夠很好地描述運動發生的位置、區域,以及運動方向和運動軌跡,利用運動歷史圖像可以精確地得到運動區域。
(3)Hu矩和Zernike矩提取階段。即有效地提取出這兩種全局特征,并進行特征融合。
(4)人體動作標記和識別階段。根據獲取出的視頻幀的運動歷史圖像的MHI特征值和MBH特征值,使用SVM分類器分析判斷并標記出人體動作的種類。
2 運動人體檢測
目前使用最廣泛最常見的目標檢測算法主要有背景減除法、光流法和時間差分法等。時間差分方法[8]一般不能完全提取出所有相關的像素點,而且容易在運動實體內部產生空洞現象。光流法[9]不僅計算方法相當復雜,而且抗噪能力差。本文采用最常用的背景減除方法[10],該方法實現簡單、運算速度快,在大多數情況下檢測結果較好。其基本流程包括預處理、背景建模、目標檢測、后處理。
運動歷史圖像[11](Motion History Images for Action Recognition and Understanding)是一種非常巧妙的人體運動的全局描述方法,它利用了連續圖像中目標輪廓在空間上的相關性,每個像素值是此像素點上運動時間的方程,每個MHI圖像都對應連續時間的連續圖像加權疊加的結果。記B(x,y)為運動人體的二值輪廓圖像序列,則運動歷史圖像的計算方法如式(1)所示。
hτ(x,y,t)= τ,B(x,y,t)-B(x,y,t-1)≠0max(0,hτ(x,y,t-1)-1),其它 (1)
式中,τ為時間窗口長度,即一個運動視頻序列的幀數,表示運動的持續時間。在MHI圖像中,當前視頻的運動目標輪廓都具有最大的灰度值,是圖像中最亮的部分,時間過去越久的輪廓灰度值越低、圖像越暗。
3 特征提取以及特征融合
3.1 Hu矩
幾何矩(Visual Pattern Recognition by Moment Invariants)由Hu在1962年提出,Hu矩利用了二階和三階中心矩構造了7個不變矩,是歸一化中心矩的不同的線性組合,它們在圖像連續的條件下,可保持平移、縮放和旋轉不變性。能夠獲取代表圖像某個特殊特征的矩函數,這些矩(除外)函數對某些變化,如縮放、旋轉和鏡像映射具有不變性,具體定義如下:
使用有Hu矩組成的特征向量對人體動作進行識別,運行速度非常快,但準確率較低,對于圖像的細節有缺失。
3.2 Zernike矩
Hu矩的7個矩之間并不正交[12],因此包含了很多冗余信息,對特征提取的效率和準確率不高,為了克服該缺點,Teague[13]在Hu矩的基礎上提出了正交的Zernike矩。本文選擇采用正交的Zemkie矩結合Hu矩作為圖像的統計特征進行特征提取和特征融合。
Zernike矩是圖像函數f(x,y)在正交多項式{Vnm(x,y)}上的投影。Zernike引入了一組定義在單位圓x2+y2=1的復值函數集{Vpq(x,y)},稱為Zernike多項式。{Vpq(x,y)}具有完備性和正交性,使得它可以表示定義在單位圓盤內的任何平方可積函數,定義為:
為了準確計算圖像的Zernike矩,首先要將圖像的重心平移到坐標原點處,并將圖像像素點映射到單位圓內,單位圓以外的任何點都不參與此計算過程。
4 實驗結果與分析
本文使用Weizmann通用動作識別數據庫,該數據庫包括93段視頻,9名表演者(Daia、Denis、Eli、Ido、Ira、Lena、Lyova、Moshe、Shahar)在受限場景下執行了10個不同的動作(bend、jack、jump、pjump、run、side、skip、walk、wave1、wave2)。圖1是Daria分別做這10種動作圖的舉例。
本文采用支持向量機[14]進行人體運動數據的訓練與測試,分別使用Zernkie矩(47個)、規則矩(47個)和Hu矩(7個)進行人體動作識別實驗。同時采用10次十倍交叉驗證法,此方法將實驗數據被隨機劃分為10等份,輪流將其中9份作為訓練數據(即SVM的訓練集),一份作為測試數據(即SVM的測試集),取這10次實驗結果的平均值作為這次人體動作識別實驗的結果,再按該方法將隨機劃分實驗進行10次,取這10次人體動作識別各標記準確率實驗結果的平均值作為最終識別的準確率。分別使用3種矩特征:Zernkie矩(47個)、規則矩(47個)、Hu矩(7個)進行了人體動作識別和標記實驗,都統一采用SVM分類器,最后分類的統計結果為:規則矩、Hu矩的人體動作識別準確率分別為80%和68%,Zernike矩的人體動作識別的準確率為84%,本文方法為94%。由此可見,基于MHI圖像的Hu矩和Zenrkie矩特征融合方法的準確率遠遠高于其它方法。
5 結語
本文實現了一種新的基于MHI和Zernike矩特征并使用SVM進行分類的人體動作識別方法,充分利用了Zemkie矩的正交性和不變性,使得特征的提取在保證信息量的同時避免了信息的冗余,保證了實驗準確率,提高了運行速率。實驗中對9個人的10類不同的人體動作進行了識別與標記,得到的分類準確率高于單獨以Hu矩、規則矩為特征的方法。因此,基于MHI和Zerike矩的特征提取方法對人體行為識別非常有效。
參考文獻:
[1] ALLEN F R,AMBIKAIRAJAH E,LOVELL N H,et al.Classification of a known sequence of motions and postures from accelerometry data using adapted Gaussian mixture models[J].Physiological Measurement,2006,27(10):935951.
[2] MATTMANN C,CLEMENS F,TRSTER G.Sensor for measuring strain in textile[J].Sensors,2008,8(6):37193732.
[3] WEINLAND D,RONFARD R,BOYER E.A survey of visionbased methods for action representation,segmentation and recognition[J].Computer Vision & Image Understanding,2011,115(2):224241.
[4] BOULAY B.Applying 3D human model in a posture recognition system[J].Pattern Recognition Letters,2006,27(15):17881796.
[5] COHEN I,LI H.Inference of human postures by classification of 3D human body shape[C].IEEE International Workshop on Analysis and Modeling of Faces and Gestures,2003:7481.
[6] MO H C,LEOU J J,LIN C S.Human behavior analysis using multiple 2D features and multicategory support vector machine[J].MVA,2009:4648.
[7] GAVRILA D.The visual analysis of human movement:a survey[J].Computer Vision and Image Understanding,1999,73(1):8298.
[8] ABDI J,NEKOUI M A.Determined prediction of nonlinear time series via emotional temporal difference learning[C].Control and Decision Conference,2008:52575262.
[9] AHMAD M,TASLIMA T,LATA L,et al.A combined localglobal optical flow approach for cranial ultrasonogram image sequence analysis[C].International Conference on Computer and Information Technology,2009:323328.
[10] TANG C Y,WU Y L,CHAO S P,et al.Anomaly foreground detection through background learning in video surveillance[M].Springer Berlin Heidelberg,2009:427435.
[11] BOBICK A F,DAVIS J W.The recognition of human movement using temporal templates[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(3):257267.
[12] 劉堃.基于整體特征的人體動作的識別[D].南京:南京理工大學,2009.
[13] TEAGUE M R.Image analysis via the general theory of moments[J].Journal of the Optical Society of America,1980,69(8):920930.
[14] 高雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003.
(責任編輯:孫 娟)