丁松濤, 曲仕茹
(西北工業(yè)大學 自動化學院, 陜西 西安 710129)
?
基于改進時空興趣點檢測的人體行為識別算法
丁松濤, 曲仕茹
(西北工業(yè)大學 自動化學院, 陜西 西安 710129)
提出了一種基于改進時空興趣點檢測的人體行為識別算法。旨在針對復雜環(huán)境的時空特性,在傳統(tǒng)興趣點檢測算法的基礎上,加入背景點抑制和時空興趣點約束,以減少無用興趣點對有效興趣點信息的干擾。為此,首先對Harris-Laplace 算法進行改進,以克服興趣點檢測過程中遇到的多尺度問題和冗余點過多問題,提取篩選后的有效興趣點作為目標的運動坐標信息。然后基于Bag-of-words模型思想,使用HOG算子對興趣點進行特征提取,建立視覺詞典,使用AIB算法合并詞義相近的視覺詞匯,作為單詞表中的基礎詞匯。最后使用SVM進行人體行為分類并實現(xiàn)復雜環(huán)境下的人體行為識別。為了驗證新算法的有效性,分別在現(xiàn)有的公開人體行為基準數(shù)據庫和一些復雜場景下進行實驗。試驗結果表明,通過對無用興趣點的抑制,能夠有效降低單幀圖像的計算復雜度,減少特征提取時間,提高行為識別準確度。
人體行為識別;時空抑制;HOG算子;AIB算法
人體行為識別是機器視覺、模式識別、圖像處理領域中一個非常重要的研究方向。在復雜場景下(背景擾動、光流變化、視角移動)的人體行為識別已逐漸成為研究熱點。與其他圖像識別方法相似,人體行為識別可以大致分為:圖像顯著區(qū)域檢測、底層人體特征提取和人體運動表征、簡單動作識別、高層復雜行為抽象和復雜場景理解等基本過程。一些經典的人體行為識別算法(如Rober等[1]提出的基于HMM的行為識別方法,HMM是一種常用于人體行為識別的建模方法),并涉及到行為理解。Vasu等[2]提出二維視角不變空間,以解決行為識別的視角問題。Li[3]提出使用光流方向直方圖描述人體行為的方法,這些方法都已在簡單場景下取得了理想的識別效果。復雜場景下目標檢測和特征提取過程受到遮擋、背景、視角和光線變化等因素的影響,已成為一項具有挑戰(zhàn)性的工作。
雖然復雜場景下不同的人體行為識別算法所采用的識別策略不同,但其關注點多集中在復雜場景下的目標檢測和行為理解,以及基于視頻序列的時空信息分析解算。例如,Laptev[4]將Harris角點擴展到三維空間,這些時空特征點鄰域的像素值在時間和空間都有顯著變化,并能夠自適應時間維和空間維。Dollar等[5]則指出上述算法存在一種缺陷,即檢測出來的穩(wěn)定有效興趣點數(shù)量太少,進而提出改進方法,先分別在時間維和空間維進行Gabor濾波,使得被檢測到的興趣點數(shù)目會隨著時間和空間局部尺度的改變而變化,并且滿足對興趣點的數(shù)量需求。Park等[6]提出了一種基于貝葉斯網絡的個體姿態(tài)估計方法,對個體行為建模,最后模擬出一種交互行為決策樹,進行行為分類。將興趣點檢測應用于復雜場景下,會產生大量的背景興趣點。這些無用的興趣點會增加系統(tǒng)計算成本和行為識別的錯誤率。針對這個問題,Bregonzio等[7]提出了將時空興趣點作為人體行為識別的特征描述子。通過計算前后一幀的不同,來估計視覺注意的焦點,然后利用Gabor濾波在這些子區(qū)域來檢測顯著點。基于全局或局部特征的時空興趣點檢測方法,各有利弊,都在一定程度上取得了不錯的實驗效果,但依然不能很好解決復雜背景下的人體目標識別和行為理解問題。
針對上述方法中存在的問題和不足,本文在傳統(tǒng)2D-Harris角點檢測算法的基礎上做出改進,將多尺度信息引入Harris檢測中,通過冗余點剔除、空間尺度選擇、時間尺度抑制方法,極大減少了背景興趣點的產生,提高了圖像處理速度,減輕了計算負擔,對光線變化、物體遮擋、復雜背景具有良好的適應能力。圖1是傳統(tǒng)興趣點檢測和本文算法處理過后的興趣點分布對比圖。場景選擇在較為復雜的人體行為數(shù)據庫Hollywood2中,經過冗余點剔除、時空抑制的興趣點能夠較為準確地定位運動人體附近的重要信息,并且將無關興趣點剔除,可極大提高特征提取速度和目標檢測精度。

圖1 復雜場景中人體目標興趣點檢測優(yōu)化對比
本文采用基于碼本的Bag-of-words模型和HOG算子,對處理過的時空興趣點進行特征提取。這種方法最初被應用在圖像檢索算法中,后來逐漸形成“視覺詞匯”的概念。本文使用HOG算子提取局部特征向量;然后使用AIB貪婪算法對特征向量進行合并,得到具有旋轉不變性的“視覺詞匯”。這些“視覺詞匯”作為一個整體構成字典;最后使用SVM進行訓練,得到Bag-of-words特征分類模型,對待測圖像提取相應的特征進行行為類別預測。為了驗證本文方法的有效性,我們選用目前一些較權威的人體行為識別數(shù)據庫,如KTH人體行為數(shù)據庫、羅切斯特大學的Activities of Daily Living數(shù)據庫、UCF 、Hollywood場景數(shù)據庫,YouTube行為識別數(shù)據庫等進行實驗。
1.1 冗余點剔除
基于局部特征的時空興趣點檢測方法在應對移動背景、光流場變化、視角變化等情況時,展現(xiàn)了其優(yōu)越的性能。但是,由于傳統(tǒng)Harris角點檢測中不包含尺度信息,其檢測結果中包涵大量無用的背景信息點。Yaron等[8]利用圖像邊緣濾波對圖像序列進行檢測。在一次目標檢測實驗中,有近82%的興趣點屬于背景興趣點;只有約18%的興趣點是不需要進行背景抑制處理的有效興趣點。大量無用的干擾數(shù)據會增加計算量,影響目標識別精度。圖2a)~圖2d)分別是在羅切斯特大學的Activities of Daily Living數(shù)據庫、UCF人體運動數(shù)據庫、Hollywood2場景數(shù)據庫、KTH基準數(shù)據庫上進行傳統(tǒng)興趣點檢測的結果,檢測到大量無用的興趣點。興趣點檢測與顯著區(qū)域檢測的目的相似,都希望獲得更少的興趣點以及更準確的區(qū)域劃分,為后期特征提取和行為識別提供有效的數(shù)據支持。

圖2 不同數(shù)據庫進行傳統(tǒng)興趣點檢測,產生大量無用興趣點
為了解決這一問題,本文提出了一種基于改進的Harris-Laplace算法進行時空興趣點采集,對采集到的興趣點進行冗余點剔除,以提高特征提取效率和準確度。Harris角點檢測對光線和對比度的改變具有魯棒性,但對尺度變化敏感。不同的尺度空間是通過輸入視頻序列與不同低通濾波器進行卷積得到的。在實際運算中,以變換高斯核函數(shù)尺度因子獲得濾波器然后與視頻序列卷積得到不同尺度空間的圖像序列。

(1)
式中,L(x,y,σ)表示尺度空間,I(x,y)表示輸入圖像,G(x,y,σ)為帶有尺度因子σ的高斯核函數(shù),多尺度高斯核函數(shù)G(x,y,σ)為
(2)
式中,σ為尺度因子,Harris-Laplace多尺度檢測自相關矩陣為

圖3 基于改進時空興趣點檢測的人體行為識別算法流程圖
M=μ(x,y,σI,σD)

(3)
式中,x,y代表圖像的像素坐標,σI為積分尺度,σD為微分尺度。一般σI=sσD,通常可設定經驗值s=0.6。多尺度Harris檢測每個尺度空間圖像上點的響應值
(4)
式中,α=0.04-0.06,T為閾值用來控制提取角點的數(shù)目,R越大越有可能是角點。局部檢測得到的特征點會隨著尺度變化向著梯度方向發(fā)生位移,這種改變是非常微小的,且表達相似的局部特征結構。這樣就產生了非常多表達相同結構、差異很小的冗余點,這些冗余點增加了計算量。本文提出一種在各尺度候選點中選擇最具代表性特征點的方法,具體算法如下:
Step1 多尺度興趣點檢測。首先對輸入視頻幀按照公式(1)進行不同尺度上的高斯濾波生成尺度空間L(x,y,σ)。然后按照公式(4)多尺度響應值檢測算法設定閾值,將響應值大于設定閾值的興趣點作為候選興趣點。
Step2 構建選擇矩陣。構建候選興趣點響應矩陣M(m,n)和候選點尺度矩陣K(m,n),初始化M(x,y)=0,K(x,y)=0。將檢測到的興趣點響應值和對應尺度賦給M(x,y)與K(x,y)。
Step3 興趣點篩選。利用半徑為3的像素統(tǒng)計濾波器,對候選興趣點矩陣進行濾波,通過比較領域內候選點響應值,得到半徑閾值范圍內響應最大值MaxValue1和次最大值MaxValue2的候選點。對Step1中的每一點(x,y)在不同尺度下得到的興趣點進行判斷。如果對應區(qū)域的響應值MaxValue2>T(閾值)且滿足區(qū)域點屬于M(m,n)則保留,不滿足對應位置清0。這樣最終保留下來的興趣點組成了候選興趣點矩陣。
通過上述方法的改進,在興趣點檢測階段剔除了大量冗余點,減少了后續(xù)特征提取計算量、降低了特征向量分類時的干擾,提高了圖像興趣點采集精度。
1.2 背景興趣點抑制
本文首先在最終采集到的興趣點上采用鄰域抑制標記(neighborhood suppression label),然后選出中心點并對周圍的領域點進行角點強度響應值評估,最后通過中心點附近的領域點評估結果來判斷是否應該對這個中心點進行抑制。引入影響因子θσ(X,Xu,v)
(5)
式中,θσ(X)和θσ(Xu,v)分別代表點X≡(x,y)和X≡(x-u,y-v)的梯度。u、v分別指代整個鄰域的范圍尺度。當θσ(X)和θσ(Xu,v)逐漸趨近時,影響因子逐漸達到最大值,相互正交時影響因子是最小的。對于每一個中心點Mσ(X),我們定義權重參數(shù)tσ(X)作為梯度值的和
(6)
式中,Ω代表坐標取值范圍,其中β為抑制強度因子,對候選興趣點進行鄰域抑制
(7)
式中,f為激活函數(shù),當z≥0,f(z)=z,z<0時則忽略z值。β在這里用來控制鄰域抑制強度,根據實驗得出β在[0.8-1.6]范圍內取得最好的抑制效果。當β持續(xù)變大時,抑制效果增強興趣點數(shù)量減少,最后將獲得的興趣點放入鄰域抑制響應集Mσ,β中。
1.3 時間空間抑制
為了進一步移除與運動目標不相關的興趣點,需要進行時空興趣點抑制。本文采用T.Lindeberg的尺度選擇算法[9],其中尺度Sσ=N×σ,這種方法能夠進行多尺度興趣點優(yōu)化選擇。在目標檢測階段,為了去除圖像中大量的冗余點,抑制靜態(tài)興趣點的產生是一種行之有效的方法。在進行運動目標檢測時,靜態(tài)興趣點可以當成背景點進行抑制[10],靜態(tài)興趣點抑制算法為
(8)

通過對冗余點的剔除、背景點抑制,再通過基于空間和時間約束的算法進一步剔除無用靜態(tài)興趣點,最后得到帶有尺度信息的運動目標顯著區(qū)域興趣點集合。

表1 時間約束算法
圖4~圖6分別是在不同數(shù)據庫下使用未經算法優(yōu)化的興趣點提取方法與本文興趣點提取方法的對比。可以看出,改進后的興趣點明顯減少,雖然興趣點數(shù)量減少,但都圍繞或者包裹重要目標本身,這樣十分有利于直接進行特征提取。圖6還嘗試了更為復雜的生活環(huán)境和運動觀察視角,實驗結果可以為顯著區(qū)域預測提供直接幫助,縮小特征提取區(qū)域的搜索范圍。

圖4 KTH數(shù)據庫中多尺度興趣點實驗結果對比 圖5 YouTube數(shù)據庫識別實驗結果對比 圖6 移動視角下的人體行為實驗結果對比

(9)
(10)
式中,Gx(x,y)、Gy(x,y)、H(x,y)分別表示輸入圖像中像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值。像素點在(x,y)處的梯度幅值G和梯度方向α分別為
(11)
(12)
根據像素點的幅值和方向,計算梯度投影直方圖,將整個圖像幀的梯度直方圖保存下來。與傳統(tǒng)HOG不同的是,加入時間軸t作為縱深信息,構成一個特征立方體。將特征立方體(x,y,t)按照(4∶4∶3)的比例劃分,分割成一系列小區(qū)域。目的在于提高目標識別魯棒性的同時,盡量提取更多有用的特征信息。
需要注意的是在這里并不直接使用特征立方體本身充當特征描述子,不同的人進行相同動作行為時,外觀和運動多少都會有所不同,特征立方體的數(shù)目也不盡相同,但是特征立方體的類型相對不多。所以在這里將特征立方體映射到一個與它最接近的原型向量上來,讓原型特征立方體來代替與其相近的其他特征立方體。這樣數(shù)目巨大的特征立方體就被縮減成類型特征立方體,通過對類型特征立方體進行梯度直方圖計算獲得特征描述子。
本文使用BoV模型從局部運動特征中提取視覺詞匯,采用類似金字塔分級特征空間分割方法,但在這里按時空興趣點分布進行分層。這樣做可以讓局部特征分組問題變得簡單且具有魯棒性。最后在每一層中對視覺詞匯進行壓縮以減少特征空間的維度。
取T時刻視頻圖像IT,PT代表T時刻興趣點集。我們將這些興趣點按照水平或者垂直的方法進行區(qū)域劃分,水平方向劃分可以幫助進行上肢和下肢的動作識別,垂直方向劃分可以幫助進行左右兩側肢體動作的識別。
這里采用AIB[11]視覺詞匯壓縮算法,主要思想是圖像分層處理,對相同分層的視覺單詞進行距離計算,計算公式如下
(13)
式中,{wi}和{wj}分別代表相鄰的視覺單詞,通過不斷迭代方法計算相同分層中不同視覺單詞之間的dij,當dij為最小時,將相應的2個視覺單詞進行合并。AIB本質是一種貪婪算法將局部相似詞簇進行優(yōu)化合并,在完成視覺單詞的層級壓縮之后,計算視覺單詞直方圖,最后將直方圖信息輸入SVM中進行學習、訓練最后采用打分機制得到不同行為的分類。圖7顯示了運用分層結構和詞匯壓縮對識別率的影響,圖7a)將不同算法組合實驗,證明具有分層結構和進行詞匯壓縮處理的行為識別率更高。圖7b)顯示算法在不同數(shù)據庫上實驗的識別率。

圖7 平均識別率與詞匯尺度之間的影響關系
為了驗證算法有效性,選取KTH人體行為數(shù)據庫、羅切斯特大學的Activities of Daily Living數(shù)據庫、UCF、Hollywood場景數(shù)據庫,YouTube行為識別數(shù)據庫等進行實驗。KTH是行為識別基準數(shù)據庫,由4種不同場景下25個人分別作出6種不相同的動作:行走、慢跑、快跑、拳擊、揮手、拍手,視頻總數(shù)超過了2 000個[12]。將其中7個人的視頻作為訓練集使用,再7個人作為驗證集,11個人作為測試集,在KTH數(shù)據庫上本文算法識別率達到了98.65%。
圖5選取更為復雜的YouTube數(shù)據庫,目標運動速度更快,背景復雜,與真實的環(huán)境基本一致,通過對比看到經過算法處理的興趣點數(shù)量大大減少,并且緊密附著在運動目標周圍。這樣既減輕了計算量,又不會丟失重要目標的信息。隨著人體的快速運動,興趣點坐標不會受到運動、光照、背景紋理的影響而發(fā)生漂移。
圖6選取了Hollywood2數(shù)據庫中的視頻片段,目標和鏡頭都處于運動狀態(tài)下。時空興趣點組成的顯著區(qū)域大量附著在重要運動目標周圍,在進行特征提取的時候,可以根據這些興趣點密度分布利用聚類算法進行重要目標區(qū)域預測,建立特征提取區(qū)域。表2展示了本文算法和其他不同算法在KTH、UCF和YouTube數(shù)據庫上的識別率對比。

表2 算法在不同行為數(shù)據庫上與其他算法識別率對比(%)
本文提出了一種基于改進時空興趣點的復雜場景下,人體行為識別方法。在傳統(tǒng)興趣點檢測算法的基礎上,對采集到的興趣點進行背景點抑制和時空域條件約束。目的在于盡量消除無用興趣點對重要目標檢測產生的干擾,以便能夠準確、快速提取人體目標的特征信息。在去除無用興趣點方面效果明顯,通過對不同行為識別數(shù)據庫的實驗,證明本文算法能夠較大幅度提高在復雜背景下的人體行為識別準確率,并且對移動視角下的運動目標檢測也具有較好的檢測效果。
[1] Robertson N, Reid I. Behaviour Understanding in Video: A Combined Method[C]∥10th IEEE International Conference on computer Vision, 2005: 808-815
[2] Parameswaran V, Chellappa R. View Invariance for Human Action Recognition[J]. International Journal of Computer Vision, 2006, 66(1): 83-101
[3] Li X. HMM Based Action Recognition Using Oriented Histograms of Optical Flow Field[J]. Electronics Letters, 2007, 43(10): 560-561
[4] Laptev I. On Space-Time Interest Points[J]. International Journal of Computer Vision, 2005, 64(2/3): 432-439
[5] Dollar P, Rabaud V, Cottrell G, et al. Behavior Recognition via Sparse Spatio-Temporal Features[C]∥2005 IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, 2005: 65-72
[6] Park S, Aggarwal J K. A Hierarchical Bayesian Network for Event Recognition of Human Actions and Interactions[J]. Multimedia Systems, 2004, 10(2): 164-179
[7] Bregonzio M, Gong S, Xiang T. Recognising Action as Clouds of Space-Time Interest Points[C]∥IEEE Conference on Computer Vision & Pattern Recognition, 2009: 1948-1955
[8] Yaron O, Sidi M. A Combined Corner and Edge Detector[C]∥Proc of Fourth Alvey Vision Conference, 1988: 147-151
[9] Lindeberg T. Feature Detection with Automatic Scale Selection[J]. International Journal of Computer Vision, 1998, 30(2): 77-116
[10] Chakraborty B, Holte M B, Moeslund T B, et al. A Selective Spatio-Temporal Interest Point Detector for Human Action Recognition in Complex Scenes[C]∥2011 International Conference on Computer Vision, 2011: 1776-1783
[11] Slonim N, Tishby N. Agglomerative Information Bottleneck[C]∥Advances in Neural Information Processing Systems, 1999: 617-623
[12] Schuldt C, Laptev I, Caputo B. Recognizing Human Actions: A Local SVM Approach[C]∥17th International Conference on Pattern Recognition, 2004: 32-36
An Improved Interest Point Detector for Human Action Recognition
Ding Songtao, Qu Shiru
(School of Automation, Northwestern Polytechnical University , Xi′an 710072 , China)
In this paper, we present a human action recognition algorithm based on interest points in spatial and temporal constraints. In order to overcome the problems of available information interference cause by complex background cenes, We proposed the improved Spatio-Temporal Interest Points (STIP) detection approach by surround suppression combined with local and temporal constraints. Firstly, the improved Harris-Laplace algorithm is proposed to solve the multi-scale problems. Then, based on the bag of words model, the HOG descriptor is used to extract feature vectors and Agglomerative Information Bottleneck(AIB) algorithm to combine the visual vocabulary. The Support Vector Machine (SVM) is trained for action classification and prediction. In order to validate the effectiveness of the proposed method, experiments were carried out under the existing disclosure benchmark datasets of human action and other more complex scenes. Experiment results demonstrate that the proposed human action recognition algorithm is both effective and efficient in a great variety of complex scenes.
human action recognition; Spatio-Temporal suppression; HOG; AIB
2016-04-05 基金項目:教育部高等學校博士學科點專項科研基金(20096102110027)、航天科技創(chuàng)新基金(CASC201104)與航空科學基金(2012ZC53043)資助
丁松濤(1984—),西北工業(yè)大學博士研究生,主要從事圖像處理及深度學習的研究。
TP391.41
A
1000-2758(2016)05-0886-07