郝 羽, 劉 穎, 范九倫
(1. 西安郵電大學 計算機學院, 陜西 西安 710121; 2. 西安郵電大學 通信工程學院, 陜西 西安 710121)
?
一種基于光流場的群體運動特征描述子
郝 羽1, 劉 穎2, 范九倫2
(1. 西安郵電大學 計算機學院, 陜西 西安 710121; 2. 西安郵電大學 通信工程學院, 陜西 西安 710121)
為了實現(xiàn)公共區(qū)域中的群體異常行為的自動識別,提出一種基于光流場向量的人群運動特征描述子。通過從視頻中提出的光流場信息,用位置、運動向量、運動方向和運動強度4個維度構建描述子,使用K聚類算法對描述子進行聚類處理,并對K聚類之后的結果進行了運動角度與強度數(shù)據(jù)的合并處理,最終獲得能夠描述場景中人群的全局運動特征。在試驗中,使用提出的描述子進行了異常行為檢測,并與類似的異常檢測算法進行了比較,獲得了較好的異常檢測效果。
視頻處理;行為檢測;光流
公共區(qū)域中的斗毆及踩踏等突發(fā)危害性行為嚴重威脅了市民的安全。如果此類行為能夠被預測,或在發(fā)生時自動將警報發(fā)送至公共安全部門,就可能避免進一步的傷亡。由于城市中絕大部分區(qū)域都安裝了攝像裝置,從中獲取到的視頻流能夠被用于實時自動分析,并警告異常,監(jiān)控人員就能夠立即對突發(fā)事件進行確認。從而使有關部門能夠進行更加有效的行動,以減少事故的危害。
在作者之前的研究中,提出了一種能夠快速檢測出人群中出現(xiàn)恐慌類型異常行為的方法[1]。文中提出的異常行為檢測系統(tǒng)使用了包含階段或模塊如特征提取、模型訓練、異常檢測與行為匹配步驟的結構,圖1給出了檢測方法的系統(tǒng)結構圖。
檢測方法的主要思想是:對于恐慌行為,場景中人群的運動速率在異常事件發(fā)生前后存在著劇烈變化。在恐慌情況下,運動相對強度(以下簡稱強度)大于普通狀態(tài)。對于單個個人,分析其運動變化可能會存在著較大誤差,由于相比于噪音,其變化值并不大。然而,全局的強度變化則較為明顯,通過比較計算場景中所有運動強度絕對值之和,可以觀察到所構造特征的顯著變化。如圖2所示,在群體恐慌狀況下,總體強度值急劇增加,
很容易判斷出恐慌狀態(tài)是否已經發(fā)生。

圖1 群體異常行為檢測框架

圖2 由文獻[1]檢測方法所得結果
文[1]提出的方法使用了UMN[2]數(shù)據(jù)庫來驗證探測的準確度。這里截取了11個檢測結果的前6個,如圖3所示。
在圖3中,虛線標記了實際發(fā)生的異常恐慌行為,實線標記了算法的檢測結果。可以觀察到雖然總體上每段視頻中的恐慌都能夠被成功檢測出,然而與實際標記出的真實異常并不能完全匹配。圖4中第3~6個結果立即檢測到了恐慌的發(fā)生,然而隨著場景內行人的數(shù)量迅速減少,圖像中的總體運動強度小于訓練得到的閾值,導致異常沒有被發(fā)現(xiàn)。另外,由于虛線所示的實際異常是人為標記的原因,存在不準確的狀況。

圖3 文獻[1]算法對UMN數(shù)據(jù)集的檢測結果

λ2-τλ+Δ=0
的解。然后,通過本征值獲得兩個用于判斷當前全局狀況的Δ與τ值。在檢測階段,可以通過Δ與τ的值來對5種不同情況進行匹配,獲取關鍵點ω*周圍的場景結構。例如當Δ>0且τ<0時,場景可以歸類為瓶頸型。
這種方法雖然能夠對場景的整體結構進行判斷,卻不能獲得局部的具體細節(jié),因此如果出現(xiàn)了相對較為復雜的場景結構,此方法可能會出現(xiàn)無法正確檢測到場景細節(jié)結構的情況。
本文擬在利用全局流特征對人群恐慌行為進行快速檢測的方法[1]的基礎上,提出一種基于光流場向量的人群運動特征描述子,使用該描述子對群體異常行為進行檢測實驗,并將實驗結果與其他方法進行比較。
特征描述子的基本構建與處理的流程是:首先,提取當前圖像中的光流場;其次,根據(jù)運動方向、空間位置等基礎信息進行對特征描述子的構建;再次,對描述子進行聚類處理;最后,將聚類處理后的每個聚群進行整合,得到當前場景中的全局運動特征,如圖4所示。

圖4 特征描述子的構建與處理流程
2.1 光流特征提取
對于光流特征場的提取,可以采用傳統(tǒng)的HS[4]或LK[5]等光流場方法,光流場的提取方法不是本文的重點,這里不再贅述。
2.2 描述子的構建
文[6]中使用了光流場中采樣點的運動方向與強度作為衡量特征,而本文中采用了4種特征進行描述子的構建,可表示為
Di,j=[si,j,vi,j,Ai,j,li,j]。
(1)
其中si,j代表當前采樣點在圖像中所處的位置,考慮到在恐慌的異常群體行為中,臨近人群的行為往往具有更多的相似性,因此將采樣點的位置信息引入了描述子,以便于在之后的聚類工作中將臨近且行為相似的人群聚為一類。vi,j代表采樣點當前光流場向量在水平與豎直方向上的分量,Ai,j代表當前采樣點光流場向量與水平方向夾角,都描述了當前采樣點的行為特征,這2種信息對場景中相對細節(jié)的運動特征分類起了較為重要的作用。li,j代表當前采樣點的運動強度,該特征主要為了防止背景中的噪音,盡量保證運動人群與運動的背景不被歸為一類。
2.3 對描述子的聚類
在完成對描述子的構建之后,就可以采用多種聚類方法對描述子進行聚類,例如GMM或SVM等方法。為了保證運行速度,采取了速度較快的k均值算法對描述子進行聚類,k的值根據(jù)場景的實際復雜程度進行設定。
2.4 對聚類的結果進行合并
聚類結束后,分別對每一個聚群進行合并,對同一個聚群中的所有采樣點的角度與運動強度進行整合,最終每一個聚群得到一個向量特征,可表示為
(2)
其中,m為每個聚群中假定的樣本個數(shù),li,j,n表示第n個樣本的運動強度,Ai,j,n表示第n個樣本的光流場向量沿水平方向的夾角。
至此提出的基于光流場向量的人群運動特征描述子的構建與處理過程全部執(zhí)行完畢,最終得到了k個能夠描述當前場景中全局運動狀態(tài)的特征向量。
使用UMN數(shù)據(jù)集來對新提出的特征向量進行實驗。首先根據(jù)之前提出的特征描述子構建方法流程對數(shù)據(jù)進行處理,得到的結果如圖5所示。
圖5(a)是原視頻圖像,可以注意到行人在按照不同方向行走。圖5(b)是通過光流算法提取出的光流場,可以觀察到光流場反映了原視頻圖像中各個行人的運動情況。圖5(c)是通過k均值聚類對特征描述子進行聚類的結果,一般情況下可以將全方位的運動方向粗分為8個,為避免噪音增加了2個方向,因此本實驗中k的值被固定設定為10,即將全部的描述子分為了10個聚群,直方圖的縱軸反映了各個聚群包含的特征描述子數(shù)量。圖5(d)反映了原視頻圖像中各采樣點所屬的聚類,使用不同灰度的方格進行了區(qū)分。通過與原視頻圖像對比,可以觀察到聚類大致準確地反映了全局的運動特征。
接著通過式(2)對聚類結果進行處理,可以得到10個用于描述場景全局運動的向量特征,如圖6所示。
圖6(c)是聚類之后的結果,對此結果使用式(2)進行合并,則得到圖6(a)中的10個運動向量。注意到圖6(a)中存在若干個強度較小的向量,對應聚類結果圖6(a)來看,這些向量大多對應圖像中的背景區(qū)域,由于此類區(qū)域理論上不存在光流,因此這類小強度向量實際是由噪聲產生的。圖6(b)中通過設定閾值將其進行了過濾,得到合并后的最終特征圖。

圖5 UMN數(shù)據(jù)集處理結果

圖6 合并后得到的向量特征
得到描述場景全局運動的向量特征后,設定一個閾值用于對向量進行衡量,向量強度超過設定閾值的圖像幀將被標記為異常。為了與文[1]中算法的進行對比,我們分別使用兩種算法對相同視頻進行了處理,得如圖7所示的結果。
當值為0時表示正常,值為1時表示異常,其中虛線表示真實情況,實線表示算法偵測結果。圖7中,上圖是文獻[1]中算法的偵測結果,下圖是本文提出算法的偵測結果。由圖中可以直觀地看到本文提出的算法對異常的偵測準確率明顯高于文[1]中提出的方法。而在第250幀左右出現(xiàn)的錯誤報警,由于是單幀出現(xiàn),在實際應用中可以通過連續(xù)幀檢測方法,進行去噪處理。接著比較了對4個UMN數(shù)據(jù)集中群體異常行為的檢測準確率,實驗結果如表1所示。其中算法1表示文[1]中提出的算法,算法2表示本文中提出的算法,數(shù)值代表檢測準確率。通過比較可知,除了第三組數(shù)據(jù)的檢測準確率略低外,其他均優(yōu)于算法1。

(a) 文獻[1]算法偵測結果

(b) 本文所給算法偵測結果

算法UMN1UMN2UMN3UMN4算法177.93%83.56%85.74%82.25%算法280.52%84.33%84.96%89.71%
從視頻圖像信息提取光流場信息,通過提取信息中的位置、運動速度、運動方向及運動強度構建描述子;然后利用k聚類算法,對運動方向和運動強度合并處理,給出了對公共區(qū)域中群體異常行為特征判斷的一種方法。模擬實驗表明,該方法是一種相對較準確的表述和處理方法。
實際視頻特征是二維圖像隨時間發(fā)生變化。把時間維度作為參數(shù),研究視頻圖像在時間與空間上的關聯(lián)性[7],利用本文的方法,結合全局流特征建立一種與時間有關的描述子,有望進一步加強群體異常行為探測系統(tǒng)的性能,增強對群體異常行為判斷的準確性與適應性。
[1] HAO Y, XU Z J, WANG J, et al. An Approach to Detect Crowd Panic Behavior using Flow-based Feature[C/OL]//The 22nd International Conference on Automation and Computing, 2016.
[2] UMN.UMN Crowd Dataset[EB/OL]. [2016-05-15〗.http://mha.cs.umn.edu/proj_ events.shtml#crowd.
[3] SOLMAZ B, MOORE B E, SHAH M. Identifying behaviors in crowd scenes using stability analysis for dynamical systems[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):2064-2070[2016-06-12].http://dx.doi.org/10.1109/TPAMI.2012.123.
[4] HORN B K P, SCHUNCK B G. Determining optical flow[J/OL]. Artificial Intelligence,1981,17(1-3): 185-203[2016-06-12]. http://dx.doi.org/10.1016/0004-3702(81)90024-2.
[5] LUCAS B, KANADE T. An Iterative Image Registration Technique with an Application to Stereo Vision[C/OL]//IJCAI'81 Proceedings of the 7th International Joint Conference on Artificial intelligence:Volume 2. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1981:674-679[2016-06-06].http://dl.acm.org/citation.cfm?id=1623280.
[6] KRAUSZ B, BAUCKHAGE C. Loveparade 2010: Automatic video analysis of a crowd disaster[J/OL]. Computer Vision and Image Understanding, 2012,116(3):307-319[2016-06-06].http://dx.doi.org/10.1016/j.cviu.2011.08.006.
[7] WANG J, XU Z J. STV-based video feature processing for action recognition[J/OL].Signal Processing, 2012, 93(8):2151-2168[2016-06-08].http://dx.doi.org/10.1016/j.sigpro.2012.06.009.
[責任編輯:陳文學]
A crowd behavior feature descriptor based on optical flow field
HAO Yu1, LIU Ying2, FAN Jiulun2
(1.School of Computer Science and Technology, Xi’an University of Posts and Telecommunications, Xi’an 710121, China;2.School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)
On the purpose of achieving the automatic recognition of crowd behavior abnormality in public field, a crowd behavior feature descriptor based on optical flow field is proposed. This descriptor is modeled from the extracted optical flow information with four dimensional data including coordination, motion vectors, orientation and magnitude, and clustered with K-mean cluster algorithm, then converged by orientation and magnitude, to obtain the feature which can describe the global motion feature of the crowd. In the following experiments the proposed descriptor successfully described the motion feature in video, finally an experiment is conducted by comparing the detection result with other algorithms, which proves the proposed algorithms abtains better anonaly detection performance.
video processing, behavior detection, optical flow
10.13682/j.issn.2095-6533.2016.06.011
2016-09-01
國家自然科學基金資助項目(41504115,61202183);陜西省教育廳科學研究計劃資助項目(14JK1680)
郝羽(1986-),男,博士研究生,研究方向為人群異常行為分析。E-mail:haoyu@xupt.edu.cn 劉穎(1972-),女,博士,高級工程師,從事圖像和視頻處理研究。E-mail: ly_yolanda@sina.com
TP181
A
2095-6533(2016)06-0055-05