聶豪 熊昕 郭原東 陳小輝 張上
摘 ?要: 針對傳統的異常行為檢測算法僅使用RGB圖像作為網絡的輸入,而未考慮到視頻序列中隱藏運動信息的問題,文中提出一種基于雙流卷積神經網絡的視頻異常行為檢測算法。該算法分別使用RGB圖像與視頻幀間的光流信息作為兩個網絡分支的輸入來學習空間維信息與時間維信息,并使用長短時神經網絡來建模長時視頻幀間的依賴關系,從而得到最終的行為分類結果。仿真測試結果表明,所提出的方法在UCSD Ped1、Shanghai Tech和Pedestrian 2數據集上均能取得較好的識別效果,且使用幀間運動信息能夠顯著提升異常行為檢測性能。
關鍵詞: 視頻異常行為; 異常行為識別; 深度學習; 行為分類; 網絡訓練; 仿真測試
中圖分類號: TN926?34; TP391.4 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)24?0110?03
Video abnormal behavior identifying algorithm based on deep learning
NIE Hao, XIONG Xin, GUO Yuandong, CHEN Xiaohui, ZHANG Shang
(School of Computer and Information, China Three Gorges University, Yichang 443000, China)
Abstract: In allusion to the problem that, in the traditional abnormal behavior detection algorithms, only the RGB image is used as the input of the network, but the motion information hidden in video sequence is not considered, a video abnormal behavior detection algorithm based on two?stream convolutional neural network is proposed. In the algorithm, the optical flow information between RGB image and video frame is used as input of the two network branches to learn spatial dimension information and time dimensional information, and the long short?term neural network is used to build a model of the dependency relationship between long?term video frames, so as to get the final result of the behavior classification. The simulation testing results show that the proposed method can achieve better recognition results on the datasets of UCSD Ped1, Shanghai Tech and Pedestrian 2, and the use of inter?frame motion information can significantly improve the detection performance of abnormal behavior.
Keywords: video abnormal behavior; abnormal behavior identification; deep learning; behavior classification; network training; simulation testing
0 ?引 ?言
近年來,為了維護社會穩定與國家安全,各地大力推進視頻監控系統的建設[1]。從海量監控視頻中提取有用的信息,檢測視頻中的異常行為與事件需要大量工作人員長時間對監控畫面保持高度注意力[2?4]。然而,單純依賴人工檢測的方法極易導致誤報、漏檢等情況[5]。因此,如何從海量監控視頻中提取有用的信息并提高突發事件與異常行為的識別精度,在安防與社會安全領域具有廣泛的經濟與應用價值[6]。
視頻異常行為檢測即在一段視頻中出現異常時,能夠及時對該事件進行分類并發現異常行為的起始幀[7]。為了有效區分出視頻中的正常事件與異常事件,需要從視頻序列中提取出相關特征并對其進行分類。在傳統特征提取方法中,研究人員經常使用時間與空間特征對視頻目標的運動模式進行建模,如方向梯度直方圖特征、光流直方圖特征、動態紋理特征和社會力模型等[8?9]。
目前,隨著深度神經網絡在工業界與學術界的廣泛應用和發展,其在語音識別、自然語言處理和計算機視覺等領域取得了較高的準確率與較好的效果。因此,越來越多的領域開始使用深度神經網絡來解決視頻異常行為檢測問題。如文獻[10]提出一種AMDN網絡通過構建級聯去噪自編碼網絡來提取運動目標的外觀及運動信息,并使用單類支持向量機對特征進行分類與判定。文獻[11]構建一種時空堆棧自編碼網絡STSAE來建模視頻的時空特征,STSAE同時將多幀圖片作為網絡輸入,從而利用視頻幀間的時序信息。
為了驗證僅使用RGB圖像與運動信息作為輸入時,異常行為檢測的精度。本文在表1中也列出了僅使用RGB圖像作為輸入與同時使用RGB圖像和光流信息作為輸入時,網絡對異常行為的識別精度。從表1可以看出,加入幀間運動信息能夠明顯提升異常行為檢測網絡的性能,表明本文所提出的雙流網絡的有效性。
4 ?結 ?論
本文提出一種基于雙流卷積神經網絡的視頻異常行為檢測算法。該網絡分別使用兩個網絡分支來學習空間維信息與時間維信息,使用長短時神經網絡來建模長時視頻幀間的依賴關系,從而得到最終的行為分類結果。通過在UCSD Ped1、Shanghai Tech 與Pedestrian 2數據集上的測試結果表明,相比其他算法,本文方法在各測試數據集中均取得了較好的識別效果,且同時證明了使用幀間運動信息能夠有效提升異常行為檢測的性能。
注:本文通訊作者為張上。
參考文獻
[1] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset [J]. IEEE computer society, 2017(11): 433?445.
[2] LU X S, YAO H X, ZHAO S C, et al. Action recognition with multi?scale trajectory?pooled 3D convolutional descriptors [J]. Multimedia tools and applications, 2017, 78(3): 1?17.
[3] 夏清.視頻監控中的人群異常行為檢測研究[D].成都:電子科技大學,2019.
[4] 謝逸,張競文,李韜,等.基于視頻監控的地鐵施工不安全行為檢測預警[J].華中科技大學學報(自然科學版),2019,47(10):46?51.
[5] ULLAH A, AHMAD J, MUHAMMAD K, et al. Action recognition in video sequences using deep bi?directional LSTM with CNN features [J]. IEEE access, 2017, 19(9): 1?16.
[6] DAS S, KOPERSKI M, BREMOND F, et al. Deep?temporal LSTM for daily living action recognition [C]// 2018 15th IEEE International Conference on Advanced Video and Signal Based Surveillance. Annapolis: IEEE, 2018: 101?123.
[7] WANG Y B, LONG M S, WANG J M, et al. Spatiotemporal pyramid network for video action recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. Augusta: IEEE, 2017: 28?42.
[8] WURM M F, ARTEMENKO C, GIULIANI D, et al. Action at its place: contextual settings enhance action recognition in 4~8 year old children [J]. Developmental psychology, 2017, 53(4): 662?670.
[9] WANG Song, DANG Jianwu, WANG Yangping, et al. Research on real?time action recognition approach [J]. Computer engineering and applications, 2017, 53(9): 86?93.
[10] CHEN K, DING G G, HAN J G. Attribute?based supervised deep learning model for action recognition [J]. Frontiers of computer science, 2017, 11(2): 1616?1629.
[11] ZHANG G L, JIA S M, LI X Z, et al. Weighted score?level feature fusion based on Dempster?Shafer evidence theory for action recognition [J]. Journal of electronic imaging, 2018, 27(1): 19?36.
[12] 王杰,張曦煌.基于圖卷積網絡和自編碼器的半監督網絡表示學習模型[J].模式識別與人工智能,2019,32(4):317?325.
[13] 韓雪,馮桂.三維視頻的深度圖快速編碼算法[J].通信技術,2018,51(3):575?582.
[14] MAHADEVAN V, LI W X, BHALODIA V, et al. Anomaly detection in crowded scenes [C]// IEEE Conference on Computer Vision and Pattern Recognition. Bismarck: IEEE, 2010: 134?142.
[15] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks [J]. IEEE computer society, 2016(7): 243?249.
[16] HASAN M, CHOI J, NEUMANN J, et al. Learning temporal regularity in video sequences [J]. IEEE computer society, 2016(2): 86?93.
作者簡介:聶 ?豪(1995—)男,湖北黃岡人,碩士研究生,研究方向為深度學習、圖像識別、基于視覺的人體行為分析。
張 ?上(1979—)男,湖北宜昌人,博士,副教授,研究方向為物聯網技術、計算機應用技術。