徐凱航,彭懷亮,章東平
(中國計量學院信息工程學院,浙江 杭州310018)
近年來,人群行為檢測已經成為智能視頻分析中一個重要的研究熱點[1-3]。本文主要是對視頻場景中人群異常行為進行檢測。人群異常行為的一般定義為:違反群體行為習慣和標準的“反常”行為,即給定一個訓練樣本集其中Ni是訓練樣本的個數,i 指的是行為的種類(包括正常行為和異常行為)。aj,j=1,2,…,Ni是訓練數據(d 是特征的維數),它可以是像素、圖像塊或運動塊等。假設測試樣本y∈Rd,異常行為檢測就是要設計一種分類函數來判斷y 的所屬類別,即
f:y →{正常,異常(斗毆,恐慌,…)}
為了求解上述問題,需要重點考慮兩個問題:行為特征的表示和異常事件的判決。
對于行為特征表示,當前國內外的研究主要是考慮視頻序列中人群行為的運動特性,如文獻[1]行為特征描述子—多尺度光流直方圖用來描述視頻序列中行為的空間及時間結構。文獻[4]通過對局部時空立方體進行建模,然后利用整個時空立方體統計特征來描述整個場景的異常行為。其他行為特征表示方法,還包括基于背景模型的二值化特征[5]、光流直方圖特征[6]、時空梯度特征[7]、社會力模型[8]、混沌不變特征[9]、混合動態紋理特征[10]等。
在異常事件判決方面,最近的研究常把它看成一個分類問題來解決,大多數常用算法通過在訓練數據上擬合一個概率模型,將概率接近某一類別的測試樣本判別為該類行為。文獻[11]提取視頻場景中的行為特征,訓練各類行為樣本的隱馬爾可夫模型,進而識別人群異常行為。文獻[8]利用社會力模型來提取代表人群的粒子所受的力,然后利用詞袋來檢測異常。其他的分類模型還有諸如混合高斯模型、混合主成分分析[12]、馬爾可夫隨機場[13]、潛在狄利克雷分布[14]、條件隨機場模型[15]等。
近年來,隨著壓縮感知的發展,基于稀疏表示的方法被廣泛應用于各個領域,如超分辨率[16]、圖像去噪[17]、視覺追蹤[18]、人臉識別[19]等。基于稀疏性的分類模型假設屬于同一類的樣本位于同一位置子空間中,任意測試樣本能夠由一個超完備字典中的少量原子線性表示。眾所周知,如果相似的測試樣本能夠得到相似的稀疏表示系數會大大提高樣本的識別精度。但是,傳統的稀疏表示模型并沒有考慮測試樣本的局部流形結構,造成了稀疏分解不穩定問題,即相似的測試樣本可能會得到完全不相似的稀疏表示系數。而這種稀疏分解的不穩定性大大影響了分類正確率。
受啟發于稀疏表示和流形學習[20-21]方法,本文針對人群行為檢測問題提出了一種基于局部線性嵌入[22]稀疏表示的異常行為檢測方法,充分考慮了行為樣本的局部流形結構。通過在稀疏分類模型中加入一個LLE 正則項,來解決局部流形結構不穩定的問題。并且利用該模型對視頻場景中的人群行為進行檢測,實驗結果表明:文中的局部線性嵌入稀疏表示算法能夠有效地提高樣本的判別能力,并在人群行為檢測中得到較好的實驗效果。
通常視頻場景中的人群行為特征采用人群周圍運動區域的運動信息來描述。本文主要利用變分光流算法初步提取人群運動特征,對視頻序列中各幀圖像分塊,在人群運動前景區域中的塊內對初步的運動特征進行處理獲取維數較低的行為特征,構建行為特征描述符。
本文中人群運動區域是通過下面方法獲得的,如圖1所示。

圖1 人群運動區域計算流程
1)Canny 邊緣計算:先對圖像做高斯卷積平滑,運用梯度值非最大值壓抑細化邊緣,并用滯后的閾值將與強邊緣相連的弱邊緣加入邊緣圖像。
2)運動邊緣區域求取:對視頻場景圖像相鄰的兩幀的邊緣圖像做差,以消除靜止場景的影響。
3)運動區域獲取:在對運動邊緣區域求取后,可以得到一個封閉的包含運動目標的邊緣線。把每一行中第一個和最后一個邊緣點之間的線組成的區域稱為水平候選區域,同樣豎直候選區域、±45°候選區域也可以得到。通過對這些候選區域求并,并對得到的區域做形態學處理,可以得到基于相鄰幀的視頻場景運動目標檢測結果。如圖2 所示。
本文采用在Brox[23]變分光流基礎上改進的光流算法。為了增強光流算法對圖像灰度變化的魯棒性,Brox 變分光流算法擴展了梯度一致性假設,并在平滑約束項上,采用分段平滑來代替全局平滑。同時運用多尺度的思想來計算大位移運動的光流。

圖2 基于相鄰幀的視頻場景運動目標檢測結果
變分光流算法的能量泛函由數據項和平滑項兩部分組成,表示為

式中,u(x,y,t)和v(x,y,t)為圖像中像素點I(x,y,t)光流速度。
在改進變分光流算法中,數據項用多通道圖像I[k]取代了標值圖像I,還通過能見度項r(x,y,t)來調節

式中:k 是圖像通道的總和。圖像亮度I,綠減紅顏色成分,綠減藍顏色成分,亮度梯度Ix和Iy作為5 個圖像通道來對流量的進行估計。
為了解決小圖像梯度不連續流動的問題,在平滑項添加約束項來測量流場的變化。

式中:αg是全局平滑因子;αl是一個局部平滑因子,它是被局部平滑b(x,y,z)所調控的。
根據變分計算法,通過最小化能量函數求解u 和v,總的能量函數式先采用固定點迭代轉化為線性方程,然后使用逐次超松弛迭代及由粗到細的分層策略可以獲取光流場。
通過上述改進的變分光流方法,可以計算運動區域光流的變化從而得到三個特征信息:位置、速度和運動方向。為了量化位置信息,把分辨率為360×240 的視頻序列分為尺寸為20×20 的小塊,并把塊的運動方向被量化為5 個方向,當小塊中不存在檢測到的運動區域時,方向和速度大小都設為“0”。這樣視頻序列每一幀行為特征維數為18×12×2,整個視頻序列特征集就構成了該種行為的特征描述符。特征的描述能力和學習模型復雜性之間的平衡決定了特征的大小。在這里的視頻序列中,這樣的塊選取也是充分考慮行為時長和樣本數據量。如圖3 所示為行為特征提取過程。

圖3 行為特征提取過程
傳統的稀疏表示模型,沒有考慮測試樣本的局部流形結構,這會導致稀疏分解的不穩定性。這種不穩定性將會極大的降低檢測識別精度。本文提出了一種基于局部線性嵌入和稀疏表示的人群行為檢測方法,充分考慮了測試樣本集的局部流形結構,有效的提高了檢測效率。
本節將首先介紹一下傳統的基于l1范數的稀疏表示算法。假設有M 個明顯差別的類,其中第i 類包含Ni個訓練樣本并用表示。同一類的特征假定近似于一個低維子空間。換句話說,就是把測試樣本y 作為一個m 維的特征。如果y 屬于第i 類,那么y 就能夠用第i 類訓練樣本Di的 線性組合來緊湊表示:

式中,αi是y 在Di上的緊湊表示。要注意的是,在理想情況下如果y 屬于第i 類,那么就有αj=0,?j=1,…,M,j≠i。因此,y 能夠通過一個由M 類D=[D1,…,DM]=[d1,…,dN]∈Rd×N組成的超完備字典稀疏表示。y 的稀疏表示可以由式(5)求得

式中:α 是y 在字典D 下的稀疏表示系數;λ 是一個強制稀疏系數。
局部線性嵌入(LLE)是一種流形學習算法,是一種從高維空間非線性映射到低維空間的非監督方法。在LLE 中,基于流形假設:如果樣本集是從光滑流形中采樣得到的,每一個樣本在低維空間中可以用其近鄰點線性表示,并保持高維中的局部線性關系不變,可以保留數據集的內在結構。給定數據集,根據LLE,假設yi能夠由在同一流形上的測試樣本集最近鄰線性表示,則其相應的稀疏表示系數αi也能由相應的鄰居使用相同的權值的線性組合表示。這種假設是成立的,因為只要每個測試樣本和其近鄰能夠沿著流形的局部線性變化,則這一表示就是穩定的。
基于上述假設,LLE 的二次約束可以定義為

式中:vij表示的是αj的重構權重;N(yi)表示yi的最近鄰。yj的選擇是根據它是否在yi的k 個最近鄰樣本內。vij可以通過式(7)得到

式(6)可以化為如下形式

其中,I 是單位矩陣,M=(I-V)(I-V)T是基于LLE 矩陣。V定義為,如果
yj處于yi的k 個最近鄰樣本內,通過把,其他式(8)并入稀疏表示式中,基于局部線性嵌入稀疏表示可以表示為

其中,λ,λ1為正則化參數。
對于式(9)中的每個αi,可以改寫為式中:hi=2λ1(∑j≠i

Mijαj);α(j)i表示αi的第j 個分量。
這里采用文獻[24]中提出的Feature-sign 搜索算法求解模型(11)。
算法1 求解式(11)Feature-sign 搜索算法
Input:測試樣本yi,字典D,矩陣M,參數K1,λ,λ1
Initialization:α1=0,θ =0(θj∈{-1,0,1})表 示sign(α(j)i),激活集P={}
Step1:激活
從αi中的0 元素開始,選擇


Step2:Feature-sign 搜索
令^D 為D 的子集,即僅僅包含D 中在激活集中的列,a,^hi,^θ 分別為對應的αi,hi,θ 的子集。
通過式(11)求解:

對于解ai到anewi實施線性搜索,更新ai;
將ai中為0 的項從激活集中移除,并更新θ=sign(αi)。
Step3:最優條件

其中,αi中非0 系數表示的是對應類中的原子。y 的類別就可以通過下式中最小殘差來確定

然而,在實際中,對訓練樣本進行標記是十分困難的。因為行為特征的維數一般較大,而樣本的個數相對較少,則式(5)就變成了一個超定方程,即:方程的個數大于未知數的個數,會出現無解現象;為了使方程轉化為常見的欠定方程,一種方法就是增加D 的維數,也就是需要并入一個d×d 的單位矩陣,則方程(5)轉化為

同樣的,加入誤差矢量的目標函數可以表示為

y 的類別就可以通過求解下式的最小殘差得到

上面介紹了基本的稀疏表示的分類方法,但這些稀疏表示分類算法不能夠很好地反映樣本的局部流形結構。所以為了提高上述算法的分類性能,受流形學習算法的啟發,筆者提出了基于局部線性插入稀疏表示方法來提高各類別的區分度。
本文提出的基于局部線性嵌入稀疏表示的人群行為檢測算法歸納如下:
算法:基于局部線性嵌入稀疏表示的人群行為檢測算法
Input:訓練樣本矩陣D=[D1,D2,…,Dk]∈IRm×n,共有M 類;測試樣本y∈[y1,y2,…,ym];
For 1≤i≤m
Step 1:對訓練樣本集D=[D1,D2,…,Dk]及測試樣本y∈[y1,y2,…ym]進行歸一化;
Step 2:求解基于局部線性嵌入稀疏表示問題,即通過求解模型(9)求得稀疏表示系數αi。
Step 3:計算殘差Ri(y)end for

由于人群異常行為不像人臉識別及指紋識別有大量固定的數據集,所以本實驗的實驗數據由Sony HVR-V1C 攝像機在校園中拍攝的一組視頻,視頻中的每一幀圖像大小為360×240。視頻中包含大量人群交互行為,包含正常、打架、恐慌、踩踏這幾種群體行為(見圖4)。

圖4 視頻中的幾種群體行為
為了驗證本文算法的有效性,使用在相同場景下的描述人群正常、跌倒、踩踏和恐慌的視頻序列來測試本文的方法。從拍攝的10 個視頻中分別各自抽取如表1 中的4 種行為樣本。利用上文中的行為特征提取算法分別獲得4 種行為特征集,利用稀疏模型訓練得到訓練字典。對上述的每種行為特征,選取67%用于訓練,剩余的33%用于測試。

表1 視頻序列中的訓練和測試樣本1
獲取稀疏表示字典及測試視頻序列的行為特征后,利用局部線性嵌入稀疏分類方法對行為進行分類,這里分別選取200 幀視頻序列作為訓練樣本,這樣就可以構成了一個432×800 的稀疏字典,另外分別選取4 種行為各100 幀視頻序列用于測試。
如圖5 為4 種測試視頻序列檢測結果。從圖中可以看出測試樣本可以由稀疏字典中的原子特征重構得到,其重構系數(圖5 中的實心點)主要分布在對應該類在稀疏字典中原子所處的位置。

圖5 4 種測試視頻序列檢測結果
為了驗證提出的基于局部線性嵌入稀疏表示算法的優越性,實驗中和傳統基于l1范數的稀疏表示算法進行了比較,表2 是兩種算法對4 種測試視頻的正確識別率,可以看出基于局部線性嵌入稀疏表示算法(LLE-SR)的正確識別率明顯高于傳統基于l1范數的稀疏表示(SR)算法。
本文提出了一種基于圖像塊運動方向及速度的行為特征描述子,該特征能夠有效地反映人群行為的空間結構及運動信息,在構建行為特征描述子前,通過對人群運動區域檢測,去除背景中噪聲運動對行為特征描述子的影響。同時提出了基于局部線性嵌入稀疏表示分類方法,在稀疏表示分類的基礎上通過考慮樣本的局部流形結構,來解決相似的樣本稀疏分解內在的不穩定性。實驗結果表明該算法達到了較好的檢測效果。本方法的局限是僅僅使用圖像塊的方向及速度信息,不易區分一些細小的行為,在以后的工作中,將結合一些其他特征完善該算法,對更高層次的行為語義理解進行研究。

表2 SR 和LLE-SR 算法識別率 %
[1]CONG Y,YUAN J,LIU J. Abnormal event detection in crowded scenes using sparse representation[J]. Pattern Recognition,2013,46(7):1851-1864.
[2]CHO S H,KANG H B.Integrated multiple behavior models for abnormal crowd behavior detection[C]//Proc.2012 IEEE Southwest Symposium on Image Analysis and Interpretation.,Santa Fe,NM:IEEE Press,2012:113-116.
[3]LI C,HAN Z,YE Q,et al.Abnormal behavior detection via sparse reconstruction analysis of trajectory[C]//Proc.2011 Sixth International Conference on Image and Graphics.Hefei Anhui:[s.n.],2011:807-810.
[4]KRATZ L,NISHINO K. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009).Miami,FL:IEEE Press,2009:1446-1453.
[5]BENEZETH Y,JODOIN P M,SALIGRAMA V,et al.Abnormal events detection based on spatio-temporal co-occurences[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009).Miami,FL:IEEE Press,2009:2458-2465.
[6]LI X. HMM based action recognition using oriented histograms of optical flow field[J]. Electronics Letters,2007,43(10):560-561.
[7]KRATZ L,NISHINO K. Tracking pedestrians using local spatiotemporal motion patterns in extremely crowded scenes[J]. IEEE Trans.Pattern Analysis and Machine Intelligence,2012,34(5):987-1002.
[8]MEHRAN R,OYAMA A,SHAH M.Abnormal crowd behavior de-
徐凱航(1991—),碩士生,主研圖像處理與視頻分析;
彭懷亮(1988—),碩士生,主研圖像處理與視頻分析;
章東平(1970—),博士,副教授,主研圖像處理與視頻分析,為
本文通訊作者。tection using social force model[C]//Proc. IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009). Miami,FL:IEEE Press,2009:935-942.
[9]WU S,MOORE B E,SHAH M. Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes[C]//Proc. IEEE Computer Vision and Pattern Recognition(CVPR2010).San Francisco,CA:IEEE Press,2010:2054-2060.
[10]MAHADEVAN V,LI W,BHALODIA V,et al.Anomaly detection in crowded scenes[C]//Proc. IEEE Computer Vision and Pattern Recognition(CVPR2010).San Francisco,CA:IEEE Press,2010:1975-1981.
[11]ZHANG D P,LU,Y F,JIANG X H,et al.Abnormal crowd motion detection with hidden markov model[J]. International Journal of Advancements in Computing Technology,2013,5(8):889-897.
[12]KIM J,GRAUMAN K.Observe locally,infer globally:a space-time MRF for detecting abnormal activities with incremental updates[C]//Proc.IEEE Computer Vision and Pattern Recognition Workshops(CVPR 2009). Miami,FL:IEEE Press,2009:2921-2928.
[13]FAIGLE U,SCHONHUTH A.Efficient tests for equivalence of hidden Markov processes and quantum random walks[J].IEEE Trans.Information Theory,2011,57(3):1746-1753.
[14]WANG X,MA X,GRIMSON W E L.Unsupervised activity perception in crowded and complicated scenes using hierarchical bayesian models[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2009,31(3):539-555.
[15]PATHAN S S,AL-HAMADI A,MICHAELIS B. Crowd behavior detection by statistical modeling of motion patterns[C]//Proc.2010 International Conference of Soft Computing and Pattern Recognition.Paris:IEEE Press,2010:81-86.
[16]GAO X,ZHANG K,TAO D,et al. Image super-resolution with sparse neighbor embedding[J]. IEEE Trans. Image Processing,2012,21(7):3194-3205.
[17]LI S,YIN H,FANG L.Group-sparse representation with dictionary learning for medical image denoising and fusion[J]. IEEE Trans.Biomedical Engineering,2012,59(12):3450-3459.
[18]MEI X,LING H. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2011,33(11):2259-2272.
[19]HE R,ZHENG W S,HU B G,et al.Two-stage nonnegative sparse representation for large-scale face recognition[J]. IEEE Trans.Neural Networks and Learning Systems,2013,24(1):35-46.
[20]LU X,YUAN Y,YAN P.Image super-resolution via double sparsity regularized manifold learning[J].Circuits and Systems for Video Technology,2013,99(1):1-12.
[21]ZHANG X,YANG Y,JIAO L C.Manifold-constrained coding and sparse representation for human action recognition[J].Pattern Recognition,2013,46(7):1819-1831.
[22]ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J]. Science,2000,290(5500):2323-2326.
[23]SAND P,TELLER S.Particle video:Long-range motion estimation using point trajectories[C]//Proc. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York:IEEE Press,2006:2195-2202.
[24]LEE H,BATTLE A,RAINA R,et al.Efficient sparse coding algorithms[EB/OL].[2015-01-01].http://www.researchgate.net/publication/221620168_Efficient_sparse_coding_algorithms._NIPS.