胡學敏,易重輝,陳 欽,陳 茜,陳 龍
(1.湖北大學 計算機與信息工程學院,武漢 430062; 2. 中山大學 數據科學與計算機學院,廣州 510275)(*通信作者電子郵箱huxuemin2012@hubu.edu.cn)
近年來我國各個城市規模不斷擴大,城市人口不斷增加。在人口密度過大的區域容易發生擁堵、踩踏等突發事件,存在較大的安全隱患。因此,利用智能視監控技術進行人群異常行為檢測具有巨大的研究意義和商業價值。
目前,國內外研究人員在人群異常行為檢測方面做了許多工作,這些工作一般可分為兩大類[1]:一類是基于視覺特征提取的方法,這類方法先使用計算機視覺領域的技術提取人群特征,再利用分類器進行異常檢測。如Solera等[2]提出用空間關系理論、格蘭杰因果關系、動態時間規整和熱圖來激發特征,然后用結構化的支持向量機(Support Vector Machine,SVM)進行學習訓練。短歷史軌跡(Short Local Trajectories,SLT)[3]、光流直方圖(Histogram Of the optical Flow Orientation, HOFO)[4]、光流協方差矩陣和圖像強度[5]也可用來描述運動特征信息,這已成為近年來研究人群異常行為檢測的熱點。Wang等[6-7]提出了用支持向量機與核主成分分析(Kernel Principal Component Analysis,KPCA)兩種分類器對光流直方圖進行分類。基于視覺特征提取的方法能夠從宏觀的角度直觀反映人群形態,但是所提取的運動信息比較單一,人群的行為特征提取不夠完整,導致準確性不高,而且傳統的支持向量機存在訓練效率不高、數據處理能力有限等問題[8]。另一類是基于物理特征分析的方法,這類方法通過構建物理學模型來模擬人群行為,并用來檢測人群異常。社會力模型(Social Force Model, SFM)是其中的典型代表[9]。基于社會力模型,一種社會屬性感知力模型(Social Attribute-aware Force Model,SAFM)被提出[10-11],該模型加入了社會障礙和擁塞屬性來描述社會行為的相互作用。另外,Zhou等[12]提出動態行人代理模型對人群行為進行模擬和預測。此類方法能準確描述人群行為,但涉及到很多參數,建模比較復雜,而且實時性難以控制。
近年來,深度學習的迅速發展讓機器學習有了很大的進展,其中一個典型的模型就是卷積神經網絡(Convolutional Neural Network, CNN)。CNN在圖像檢測與識別領域已經取得了明顯的成果。文獻[13]用CNN解決在復雜情況下的圖像識別問題,該方法能夠有效識別可見光自然圖像和遙感圖像;大詞匯量連續語音識別在CNN上得以實現[14];文獻[15]用CNN針對人臉實現了對年齡和性別的識別,識別率領先于傳統算法。但是目前CNN僅能夠應用于靜態的圖像分類與識別方面,而無法應用動態的視頻分析領域。
針對人群異常行為檢測的準確性和實時性,以及CNN無法應用于視頻分析領域的問題,本文提出一種新的基于運動顯著圖(Motion Saliency Map, MSM)的人群異常行為檢測方法。該方法先通過光流法求得特征點的光流場,經過時間和空間上的濾波處理后,再計算運動方向、速度和加速度信息。為了準確描述人群的異常行為特征,將人群的速度幅值、運動方向變化量和加速度幅值分別對應圖像的紅、綠、藍(R, G, B)三通道,以此合成運動顯著圖。由于MSM含有多重動態特征,利用CNN對MSM進行訓練可構建出能夠處理動態特征的網絡。最后利用CNN對待測樣本進行分類,從而達到檢測人群異常行為的目的。因此,該方法既能解決傳統人群異常檢測的準確性和實時性問題,又能拓展CNN對動態的圖像序列的處理能力,能為CNN在視頻分類和識別領域提供研究基礎。
本文提出的基于MSM的人群異常行為檢測方法如圖1所示,該運動顯著圖以光流法提取的運動特征為基礎,將多種運動特征以8位RGB彩色圖像的形式進行融合,并設計和訓練CNN作為分類器,再對MSM進行分類,以此來檢測人群中的異常行為。相對單一參數的灰度特征圖,該運動顯著圖能更準確直觀地用二維圖像表達圖像序列中的運動特征,充分發揮CNN對靜態圖像識別的能力。

圖1 基于MSM的人群異常行為檢測流程
光流法是一種能夠有效提取運動特征的方法,Lucas-Kanade光流法[16]能夠消除光流方程里的多義性,相對于逐點計算而言,對圖像噪聲不敏感,所以本文采用Lucas-Kanade光流法計算光流場。為了減少計算量,本文先對原始圖像進行等距采樣,采樣距離大小依據實際圖像分辨率以及鏡頭與人群距離等環境確定。對像素點采樣得到的點即特征點,用于光流法計算稀疏光流場。假設圖像特征點灰度值函數為I(x,y,k),其中:(x,y)代表特征點坐標;k代表幀數。在k+Δk幀時,點(x,y)運動到(x+Δx,y+Δy)處,k時刻點(x,y)的灰度值為I(x+Δx,y+Δy,k+Δk)。光流法假設經過Δk幀后,點(x,y)的灰度值變化很小,其光流的約束方程[16]如式(1)所示:
(1)
其中:Ix、Iy和Ik分別為灰度值函數I(x,y,k)對變量x、y的k偏導。再引入附加約束條件則可得出在k幀時刻x和y方向上的速度Vx(x,y,k)和Vy(x,y,k)。為了消除噪聲抖動的影響,本文先對其進行時間和空間濾波,分別如式(2)和(3)所示:

(2)

(3)


圖2 人群運動的光流圖
正常情況下,人群運動速度會比較穩定,運動速度的大小與方向不會發生太大的改變,如圖3(a)的正常情況。異常情況下,即受到外界環境的刺激后,人群會突然向四周迅速散開或者集體跑向某一方向,如圖3(a)的異常情況所示;該過程中人群運動速度幅值、加速度幅值、運動方向變化量等物理參數會發生較大的變化,因此可以通過這三個參數來描述人群的行為[17]。

圖3 正常和異常的運動顯著圖
在描述人群運動時,運動速度幅值V映射為R通道,速度方向變化量Δθ映射為G通道,加速度幅值A映射為B通道,并融合成一幅三通道彩色圖像,其過程如圖4所示(其中:v、a與Δθ分別為速度、加速度與運動方向變化量)。

圖4 MSM的合成步驟
因圖4由人群的三種運動信息融合而成,其中人群的運動特征尤為顯著,因此本文稱之為“運動顯著圖”。V、A和Δθ的計算分別如式(4)~(6)所示:
(4)
(5)

(6)
其中:|A(x,y,k)|是加速度幅值。若以一幀作為時間尺度,即Δk=1,根據式(6)則可計算出k時刻的運動方向的變化量Δθ(x,y,k)。由于運動的特征參數的尺度單位與8位圖像的灰度數值不符合,因此本文設置三個歸一化參數去表達三個參數的圖像特征,其過程如式(7)所示:
T(x,y,k)=p|f(x,y,k)|
(7)
其中:T(x,y,k)為歸一化后的結果;f(x,y,k)為待歸一化的函數;p為歸一化參數,其取值取決于該場景中運動參數函數的最大值和最小值的差值。綜上,本文提出的MSM實際效果如圖3(b)所示,可看出二維的運動顯著圖能夠有效地表達人群的正常和異常行為的動態特征,為CNN的設計與訓練提取了合適的數據。
CNN是一種高效的識別方法,極高的準確度使得它被廣泛認可,并已經成為商業開發和學術研究的熱點之一[18]。其利用局部感受野、權值共享、空間亞采樣等特性可以提取出圖像的多種特征,并獲得圖像的平移、縮放、變形的不變性,更重要的是大大減少了參數的數量和訓練的計算量,減輕模型過擬合的程度。但是,這些特性都是以二維圖像為基礎,對于連續圖像序列檢測,CNN有著空間維度上的缺陷。
人群的異常行為檢測歸根結底就是檢測人群的運動特征,這種特征在MSM中體現得尤為明顯,并且MSM將運動特征的動態特性以靜態的二維圖像表達,因此MSM能解決CNN不能用于動態視頻分析的問題。人群異常行為檢測屬于二值分類,分類復雜程度相對較低,所以本文以LeNet-5網絡[19]為基礎,再針對人群異常行為檢測對其網絡結構進行重新設計和訓練。
本文提出的MSM用于表達人群運動信息,其圖像尺寸為320×240;而原始的LeNet-5網絡用于小目標(文字)分類,其圖像尺寸僅為28×28,故MSM的尺寸遠遠超過LeNet-5網絡的輸入圖像尺寸。如果將MSM的圖像尺寸大幅度縮減,則必定會丟失較多人群運動信息。因此,本文對輸入的MSM圖像不進行尺寸縮減,保留320×240的尺寸。
由于大尺寸的圖像輸入至CNN中進行訓練會增加非常龐大的計算量,甚至出現訓練過程中難以收斂的問題。為了盡可能有效地利用MSM中運動信息、適當精簡計算量,以及控制過擬合與欠擬合的問題,需要對CNN的每一層結構進行重新設計。如圖5所示,本文設計的模型共有11層,其中包含5個卷積層、4個池化層、1個全連接層和1個輸出層。第一層卷積運算時,卷積核尺寸被設置為11×11,步長為3,卷積核個數為256,描述了低級特征在原始圖片中的位置;第一個池化層采用重疊池化,核尺寸為3×3,有助于減少錯誤率;因為圖像尺寸上的變化,接下來的三層卷積運算的卷積核尺寸被分別設置為5×5、3×3、3×3,個數設置為128,用逐次減小尺寸的卷積核表示更高級特征的激活映射;后三層的池化尺寸設計與圖像的尺寸相關,分別為2×2、3×2、3×3,步長均為2,有效控制了過擬合,進一步減小了圖片尺寸;由于輸出只有兩類,即正常和異常,因此設置全連接層結點個數為1 024,輸出層結點個數為2。
在激活函數設計方面,由于Relu函數增加了模型乃至整個神經網絡的非線性特征,不會影響卷積層的感受野,并且可以加快收斂速度[20],因此使用Relu函數作為激活函數。另外,本文采用交叉熵作為損失函數,網絡學習率被設置為0.000 01。

圖5 面向人群異常行為檢測的CNN模型

圖6 兩個數據集的測試結果
在該網絡結構中,完整的輸入圖像和更深的卷積層數保留了充足的運動特征信息,池化層與卷積層的靈活設計減少了計算量,做到計算量和信息量之間的平衡。因此,該網絡結構既能保留MSM中的人群運動信息,又能在有限數量的樣本訓練時,讓網絡快速達到收斂。本文針對MSM的特點,設計CNN網絡結構,能有效、實時地應用于人群異常行為檢測。CNN具有強大的分類能力,MSM使CNN所識別的對象不僅僅局限于具體的靜態目標,還可以是在圖像上表現出差異性的某種動態現象,因此大大擴大了CNN的應用范疇,為CNN在動態視頻識別領域提供研究基礎。
實驗的硬件環境為:CPU為Core i7-7700K (Quad-core 4.2 GHz),顯卡為NVIDA GTX 1080ti,內存為32 GB。軟件環境為:Windows 10 Pro操作系統,MSM計算程序為Matlab 9.0,CNN計算程序為Python 3.5和Tensorflow 1.2。
為了驗證本文方法的有效性和實時性,本文利用UMN數據集和PETS2009數據集進行訓練和測試。UMN數據集是美國明尼蘇達大學為研究人群異常識別設立的公開數據集。本文從該數據集中選取三個場景的圖像序列作為實驗測試的樣本,分別為廣場、室內和草坪。圖像尺寸為320×240,幀率為25 frame/s。PETS2009是由英國雷丁大學授權使用的一個公開數據集,提供了關于人群人數與密度估計、跟蹤個人、人流檢測和人群事件檢測方面的研究數據。本文從人流檢測和人群事件檢測部分提取訓練測試數據,圖像尺寸為768×576,幀率是7 frame/s。
由于兩個數據集的尺寸、幀率以及拍攝場景、拍攝方位有較大的區別,因此本文將針對不同的數據集分別進行訓練和測試,測試結果如圖6所示。
在UMN數據集中,分別從三個場景中選擇一個視頻作為測試源數據,其他的部分作為訓練源數據,測試結果中淺色代表正常幀,深色代表異常幀,數字代表幀數;在PETS2009數據集中,選取兩個視頻Pet1和Pet2作為測試源數據,其他的數據作為訓練數據。為了解決兩個數據集中異常行為樣本過少的問題,所有的異常行為的樣本都以180°翻轉、左右鏡像和上下鏡像的形式進行數據擴充,以平衡正負樣本懸殊的數量關系。為了定量描述每個場景的測試效果,本文根據實驗結果繪制了受試者工作特性曲線(Receiver Operating Curve, ROC),為了使曲線可視化效果更好,將真陽性率(TPR)坐標軸的刻度非均勻化顯示。同時,計算了兩個數據集中每個場景ROC曲線下的面積(Area Under the Curve, AUC),并且將實驗結果與近幾年提出的HOFO(SVM)[6]、HOFO(KPCA)[6]、HOFO[7]、PureOF(histogram of optical flow orientation Pure Optical Flow)[9]、純光流法(Pure Optical Flow,PureOF)[9]和綜合光流直方圖(Synthesized Histogram of Optical Flow,SHOF)[17]等方法進行比較。其中:HOFO(SVM)是指基于SVM的HOFO分類算法;HOFO(KPCA)是指基于KPCA的HOFO分類算法。實驗結果如表1~2所示。
CNN訓練的迭代次數均35 000次。測試時,記錄了本文方法對每一幀測試圖片平均檢測時間,并與SLT[3]、SAFM1[10]、SAFM2[11]和SHOF[17]相對比,如表3所示。

表1 UMN數據集中不同方法的AUC對比
注:“—”表示該文獻未提供在該場景下的測試數據。

表2 PETS2009數據集中不同方法的AUC對比
注:“—”表示該文獻未提供在該場景下的測試數據。

表3 不同方法的實時性表現
注:“—”表示該文獻未提供在該場景下的測試數據。
根據實驗數據可知:
1)運動顯著圖能夠準確反映人群運動特征。UMN數據集的真實情況與檢測結果幾乎完全一致,PETS2009數據集中的真實情況與檢測結果基本吻合,說明MSM有效地反映了正常與異常運動特征。
2)本文方法能夠有效檢測不同環境的人群異常行為。兩種行為的運動特征可以反映在MSM上,并且本文針對MSM設計了CNN模型結構,因此通過對運動顯著圖進行監督學習,CNN能準確區分不同行為下的運動特征,進而準確檢測人群的異常行為。從圖6可看出兩個數據集的ROC曲線較理想。
3)本文方法比其他方法更能有效識別臨界狀態的異常行為。由于本文引入了加速度幅值作為MSM的組成成分,所以在人群將要發生異常時,人群的異常特征能在運動顯著圖中得以表現,因此能夠提高臨界點的檢測率。從圖6中Pet1和Pet2的測試結果中可看出在人群異常剛出現時就檢測出了異常。
4)本文方法相對于其他經典方法有更好的檢測效果。如表1~2所示,本文方法在UMN數據集中無論總體還是三個場景的AUC值均最高。其他的方法的整體AUC值不超過0.98;對于PETS2009數據集,其他的方法并未給出兩個場景的測試數據;但在綜合測試數據中,本文的ACU值最高,其他方法的檢測率均不超過0.97。綜上數據可知,本文方法檢測效果更好。
5)本文方法有優秀的實時性表現。本文方法在UMN和PETS2009兩個數據集中每幀的平均檢測時間分別為20 ms和29.17 ms,其中UMN數據集的尺寸與其他方法所用的數據集圖片尺寸接近,因此將其作為對比參數。如表3所示,相對于其他方法,雖然本文實驗中的硬件配置具有一定的優勢,但因為算法的優化,以致實時性的提升是數量級的,完全滿足多路實時監控的要求。
本文提出了一種將人群動態特性用靜態圖像表述的運動顯著圖方法,并利用CNN作為分類器解決人群異常檢測的問題。該方法首先利用光流法計算圖像序列中特征點的光流場;隨后進行時間和空間上的濾波處理;然后提取有效的運動特征和各類運動參數,并歸一化,提出了包含速度幅值、運動方向變化量以及加速度幅值在內的運動顯著圖MSM;再設計面向MSM的CNN模型,對取自不同數據集的樣本分別訓練;最后用于人群行為的檢測。對UMN和PETS2009數據集的樣本分別進行測試,并與幾種經典的方法進行了對比分析。實驗結果表明,本文方法在檢測準確性和實時性上優勢明顯。
本文方法也存在一定的局限性。由于本文是通過光流法提取運動特征的,雖然采用了時間和空間的濾波方法,能夠解決光線變化等引起的光流不穩定問題,但是受視頻的缺幀、重幀和跳幀影響仍然較大。另外,本文為CNN的模型只設置了兩種輸出,即正常和異常,并沒有識別是何種異常行為。因此未來的工作將集中于如何優化光流穩定性,以及對不同異常行為的分類問題。
參考文獻(References)
[1] LI T, CHANG H, WANG M, et al. Crowded scene analysis: a survey[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(3): 367-386.
[2] SOLERA F, CALDERARA S, CUCCHIARA R. Socially constrained structural learning for groups detection in crowd[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(5): 995-1008.
[3] BISWAS S, BABU R V. Anomaly detection via short local trajectories[J]. Neurocomputing, 2017, 242: 63-72.
[4] DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[C]// Proceedings of the 9th European Conference on Computer Vision. Berlin: Springer, 2006: 428-441.
[5] WANG T, CHEN J, SNOUSSI H. Online detection of abnormal events in video streams[J]. Journal of Electrical and Computer Engineering, 2013, 2013: Article No. 20.
[6] WANG T, SNOUSSI H. Detection of abnormal events via optical flow feature analysis[J]. Sensors, 2015, 15(4): 7156-7171.
[7] WANG T, SNOUSSI H. Detection of abnormal visual events via global optical flow orientation histogram[J]. IEEE Transactions on Information Forensics & Security, 2014, 9(6): 988-998.
[8] 陳麗, 陳靜. 基于支持向量機和k-近鄰分類器的多特征融合方法[J]. 計算機應用, 2009, 29(3): 833-835.(CHEN L, CHEN J. Multi-feature fusion method based on support vector machine andk-nearest neighbor classifier[J]. Journal of Computer Applications, 2009, 29(3): 833-835.)
[9] MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model[C]// CVPR 2009: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 935-942.
[10] ZHANG Y, QIN L, JI R, et al. Social attribute-aware force model: exploiting richness of interaction for abnormal crowd detection[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(7): 1231-1245.
[11] ZHANG Y, QIN L, YAO H, et al. Abnormal crowd behavior detection based on social attribute-aware force model[C]// Proceedings of the 2012 19th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2012: 2689-2692.
[12] ZHOU B, TANG X, WANG X. Learning collective crowd behaviors with dynamic pedestrian-agents[J]. International Journal of Computer Vision, 2015, 111(1): 50-68.
[13] 張文達, 許悅雷, 倪嘉成, 等. 基于多尺度分塊卷積神經網絡的圖像目標識別算法[J]. 計算機應用, 2016, 36(4): 1033-1038.(ZHANG W D, XU Y L, NI J C, et al. Image target recognition method based on multi-scale block convolutional neural network[J]. Journal of Computer Applications, 2016, 36(4): 1033-1038.)
[14] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8614-8618.
[15] LEVI G, HASSNCER T. Age and gender classification using convolutional neural networks[C]// Proceedings of the 2015 IEEE Workshop on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 34-42.
[16] HORN B K P, SCHUNCK B G. Determining optical flow[J]. Artificial Intelligence, 1981, 17(1/2/3): 185-203.
[17] 熊饒饒, 胡學敏, 陳龍. 利用綜合光流直方圖的人群異常行為檢測[J].計算機工程, 2017,43(10): 228-233.(XIONG R R, HU X M, CHEN L. Abnormal crowd behavior detection via synthesized optical flow histogram[J]. Computer Engineering, 2017,43(10): 228-233.)
[18] 李彥冬, 郝宗波, 雷航. 卷積神經網絡研究綜述[J]. 計算機應用, 2016, 36(9): 2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)
[19] CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]// NIPS 1989: Proceedings of the 2nd International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 1990: 396-404.
[20] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[C]// ICML 2010: Proceedings of the 27th International Conference on Machine Learning. [S.l.]: Omnipress, 2010: 807-814.
This work is partially supported by the Youth Talent Project of Scientific Research Plan of Hubei Provincial Education Department .