蔡興泉,封丁惟,王通,孫辰,孫海燕
基于時間注意力機制和EfficientNet的視頻暴力行為檢測
蔡興泉,封丁惟,王通,孫辰,孫海燕*
(北方工業大學 信息學院,北京 100144)(?通信作者電子郵箱sunhaiyan80@hotmail.com)
針對一般的暴力行為檢測方法模型參數量大、計算復雜度高、準確率較低等問題,提出一種基于時間注意力機制和EfficientNet的視頻暴力行為檢測方法。首先將通過對數據集進行預處理計算得到的前景圖輸入到網絡模型中提取視頻特征,同時利用輕量化EfficientNet提取前景圖中的幀級空間暴力特征,并利用卷積長短時記憶網絡(ConvLSTM)進一步提取視頻序列的全局時空特征;接著,結合時間注意力機制,計算得到視頻級特征表示;最后將視頻級特征表示映射到分類空間,并利用Softmax分類器進行視頻暴力行為分類并輸出檢測結果,實現視頻的暴力行為檢測。實驗結果表明,該方法能夠減少模型參數量,降低計算復雜度,在有限的資源下提高暴力行為檢測準確率,提升模型的綜合性能。
暴力行為檢測;時間注意力機制;卷積長短時記憶網絡;EfficientNet模型
暴恐襲擊、惡意沖突事件的發生,會對公民的人身、財產安全造成巨大損失,對社會環境造成不良影響[1]。國家和政府不斷提高對公共安全的重視程度,持續推進“平安城市”建設。城市的安防視頻監控設備數量快速增長,人力難以及時監測大量的監控視頻[2],因此,智能安防逐漸發展起來,而暴力行為監測作為智能安防的重要分支也得到越來越多的關注和研究。
隨著各類短視頻軟件的興起,視頻更廣泛、更頻繁地在互聯網上傳播[3],不進行有效的規范和監管,大量傳播的暴力視頻可能對青少年身心造成影響,而人工難以及時審核用戶上傳的海量短視頻。因此,本文主要研究智能化的視頻暴力行為檢測方法,提高視頻監測管控的效率。
為了實現智能化監測,已經有一些學者開始研究暴力行為檢測方法。根據不同的輸入信息類型,可以將檢測方法分為基于音頻的暴力行為檢測方法、基于音視頻的暴力行為檢測方法和基于視頻的暴力行為檢測方法[4]。
暴力行為常會伴隨著喊叫聲、打斗聲、碰撞聲等,對不同的音頻進行分析可以實現暴力行為檢測。Sarman等[5]提取了音頻時域上的過零率(Zero Crossing Rate, ZCR)特征,與隨機森林(Random Forest)分類器組合,獲得了較好性能。為了降低背景噪聲對目標聲音的干擾,解決目標聲音在音頻中不夠突出的問題,楊呂祥[6]提出一種改進的卷積循環神經網絡(Convolutional Recurrent Neural Network, CRNN),并引入多層注意力機制來降低噪聲的干擾,有效提高了暴力音頻檢測的性能。但是此類基于音頻的暴力行為檢測方法不能有效利用視頻數據,難以達到最優效果。
隨著計算機視覺的發展,結合音頻特征和視頻特征的基于音視頻暴力行為檢測方法受到廣泛關注和研究。Acar等[7]提出在決策層將中間層級音頻特征和低層級視頻特征相融合,以檢測電影中的暴力鏡頭;谷學匯[8]提出結合文本、音頻和視頻的多模態信息融合暴力行為檢測算法,提高了模型性能。但是此類方法需要視頻當中包含音頻信息,而城市的監控設備所采集的視頻幾乎不包含音頻信息,且短視頻平臺的視頻多添加配樂,易對音頻識別造成巨大干擾。
為了提高暴力行為檢測方法的普適性,研究基于視頻的暴力行為檢測方法顯得尤為重要。Gao等[9]提出了一種新的光流特征定向暴力流(Oriented Violent Flows, OViF),充分利用了運動方向上的幅度變化信息;宋凱[10]提出了一種結合運動團塊屬性和光流信息進行暴力檢測的算法。Mabrouk等[11]提出了一種基于感興趣點、時空域信息和光流信息的興趣幀局部幅度方向分布特征(Distribution of Magnitude and Orientation of Local Interest Frame, DiMOLIF),在擁擠和非擁擠視頻中取得了較好性能;Zhang等[12]提出的運動韋伯局部描述符(Motion Weber Local Descriptor, MoWLD)對暴力行為的檢測效果良好。但是這類人工特征的設計過程比較繁瑣,而且針對特定數據集設計的特征易受噪聲影響。
隨著深度學習算法的快速發展,卷積神經網絡(Convolutional Neural Network, CNN)逐漸被應用于行為檢測中。丁春輝[13]利用三維卷積核提取視頻序列的時空特征,但是三維卷積不能充分地提取長時特征信息。為了獲取豐富的時空特征,Dong等[14]分別提取原視頻幀、光流圖像、加速流圖像的短期特征,利用長短時記憶(Long Short-Term Memory, LSTM)網絡提取長期特征,但是多流網絡模型較復雜,光流特征計算量較大,耗時較長。Chatterjee等[15]利用離散小波變換(Discrete Wavelet Transform, DWT)和CNN提取空間特征,然后利用雙向長短時記憶(Bi?directional LSTM, BiLSTM)網絡來預測幀序列的暴力行為。雖然LSTM在處理時序任務時表現優良,但在處理圖像序列時,LSTM通過全連接層獲取全局特征來進行建模,沒有充分利用局部的空間特征。Shi等[16]將卷積運算運用到LSTM的輸入和狀態轉換中,提出卷積長短時記憶(Convolutional LSTM, ConvLSTM)網絡預測未來的降雨強度,能夠更好地提取圖像序列的時空特征。受此啟發,本文利用ConvLSTM網絡提取暴力視頻的全局時空特征。
傳統的網絡擴展方法通常只在深度、寬度和圖像分辨率三方面的其中一個或兩個方面對網絡模型進行單方面或兩方面的擴展來提升模型性能。例如,隨著網絡層數的加深,模型的準確率達到飽和甚至下降,為了解決這種“退化”現象,He等[17]提出了深度殘差網絡(Deep Residual Network, ResNet),解決了網絡加深時的梯度消失或爆炸問題,加深了網絡層數,常用的ResNet50在各種深度學習任務中表現較好。但是ResNet只在網絡深度上進行擴展,且網絡層數的增加導致參數量較大。Han等[18]使用輕量操作代替部分傳統卷積層生成冗余特征,提出了GhostNet,能在保證精度的同時減少網絡的整體計算量。劉超軍等[19]基于GhostNet提出一種改進的有效卷積算子目標跟蹤算法,減少了網絡的參數量和計算量。Wei等[20]使用輕量級和高效的模型對遙感圖像進行分類,對GhostNet進行了改進,減少了參數量。但是GhostNet在平衡計算量和性能時,只對網絡的通道數進行了擴展,在精度方面還有待提高。Tan等[21]提出了一種高效簡單的復合縮放方法,在限制內存和計算量的情況下統一縮放網絡的深度、寬度、和圖像分辨率,得到了輕量化EfficientNet系列模型,獲得了更高的效率和準確率。尹梓睿等[22]將EfficientNet引入行人重識別領域,減小了網絡模型參數規模,性能卻有所提升。受此啟發,本文將EfficientNet引入暴力行為檢測中,提取視頻的幀級空間暴力特征。
根據人類視網膜特性,注意力機制被提出并廣泛應用,根據信息的重要性分配動態權重參數來強化關鍵信息,提升模型的性能[23]。梁智杰[24]將注意力機制引入LSTM網絡,關注重要的視頻幀,有效利用對手語識別結果影響較為顯著的信息,提高了模型對手語的識別能力。在暴力行為視頻中,每個視頻幀所包含信息的重要程度各不相同,某些重要的視頻幀對暴力行為檢測的貢獻比較大。受此啟發,本文將時間注意力機制引入暴力行為檢測方法中,充分利用關鍵視頻幀的重要信息。
基于以上分析,一般的暴力行為檢測方法存在受音頻信息限制、人工特征設計繁瑣、參數量大、計算復雜度高、時空特征提取不充分和準確度較低等問題。針對這些問題,本文主要研究基于時間注意力機制和EfficientNet的視頻暴力行為檢測方法。
本文基于時間注意力機制和EfficientNet的視頻暴力行為檢測方法的主要步驟包括:首先,預處理數據集,計算得到前景圖;然后,將前景圖輸入到網絡模型中提取視頻特征,利用輕量化模型EfficientNet提取前景圖中的幀級空間暴力特征,利用ConvLSTM網絡進一步提取視頻序列的全局時空特征;接著,結合時間注意力機制,計算得到視頻級特征表示;最后,將視頻級特征表示映射到分類空間,利用Softmax分類器進行分類,輸出檢測結果,實現視頻的暴力行為檢測。
本文所用的數據集為視頻格式,每個數據集由多個視頻段組成,視頻包含正常運動的人群以及暴力行為人群。為了提高算法的性能,在輸入網絡之前,需要對視頻數據進行預處理,包括提取視頻幀、增強數據集和計算前景圖三部分。
2.1.1提取視頻幀
2.1.2增強數據集
理論上來說,數據的規模越大、質量越高,模型的泛化能力越強。為了提高模型的魯棒性,本文采用在線數據增強的方法,不改變訓練數據的數量,而是在訓練時對加載數據進行裁剪和翻轉等處理,經過多輪次訓練之后,等效于數據增加。
翻轉主要分為水平翻轉、垂直翻轉和原點翻轉三種方法?,F實世界正常拍攝的視頻內,人群都不會是倒立的,加入垂直翻轉或原點翻轉后會改變原圖像的語義,而本文所研究的暴力行為檢測就是針對現實世界的真實視頻的,因此本文只采用水平翻轉的方法。實際操作時,對同一視頻中的所有幀,遵循相同的在線數據增強技術,在每個訓練迭代期間,從四個角或從中心隨機裁剪幀圖像中大小為224×224的一部分,并在輸入到網絡之前隨機水平翻轉。
2.1.3計算前景圖
視頻由背景圖和前景圖構成,相鄰幀圖像間的背景圖差值較小,而前景圖由于物體的運動差值較大。本文所用數據集背景變化較小,暴力行為多伴隨著劇烈的運動,前景目標運動明顯,計算前景圖能夠減少背景信息的干擾,更加關注視頻中劇烈運動部分的變化,加強對視頻中運動部分的表征能力。將幀間差分看作是光流圖像的一種粗略近似形式,使得神經網絡被迫對幀間變化而不是幀本身進行建模。幀間差分法計算簡單快速,計算復雜度比光流法低得多,因此,采用二幀差法計算前景圖,首先計算幀差圖,然后進行二值化處理,最終得到前景圖。具體步驟如下:
至此,完成數據集的預處理,得到前景圖,將其輸入到網絡模型中,能夠在計算復雜度較低的情況下,提高模型的視頻表征能力,減少背景信息的干擾,提升算法性能。
預處理數據集后,需要提取視頻的時空特征,對暴力行為進行建模,最終實現暴力行為的檢測。視頻中的暴力行為是一個連續性強、關聯性大的動作行為,具有大量的時序信息。為了減少參數量、充分利用視頻信息,本文首先利用輕量化模型EfficientNet提取前景圖中的幀級空間暴力特征;然后,利用ConvLSTM網絡進一步提取視頻序列的全局時空特征,充分利用視頻的空間信息和時間信息,提升后續的檢測分類效果。
2.2.1基于EfficientNet網絡提取空間暴力特征
為減少參數量、提升模型性能,本文采用輕量化模型EfficientNet提取空間暴力特征,即單一時刻的幀級空間特征。首先,設定縮放條件,優化縮放倍率,利用復合縮放方法得到EfficientNet系列網絡;然后,選擇EfficientNet?B0網絡提取幀級特征;最后,輸出空間暴力特征,為后續提取全局時空特征做準備。復合縮放方法如圖1所示。
圖1 EfficientNet模型復合縮放方法示意圖
步驟4 選取EfficientNet?B0。EfficientNet?B0的參數最少,對資源要求較低,EfficientNet?B1之后的網絡模型參數量逐漸增大,計算量也相應增大,效率逐漸降低。因此,本文選取EfficientNet?B0作為幀級特征提取網絡,EfficientNet?B0結構如圖2所示。
圖2 EfficientNet?B0的網絡結構
EfficientNet?B0由多個移動翻轉瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊組成,MBConv模塊由深度可分離卷積(Depthwise Separable Convolution)、批歸一化(Batch Normalization)、Swish激活函數、連接失活(DropConnect)組成,其中還引入了壓縮與激發網絡(Squeeze-and-Excitation, SE)模塊,MBConv模塊的結構如圖3所示。
步驟5 輸出空間暴力特征。本文去掉EfficientNet?B0模型最后階段的全連接層和Softmax層,將最后卷積層得到的輸出特征作為提取到的幀級空間暴力特征并輸出。
至此,通過復合縮放方法得到EfficientNet?B0模型,從前景圖中提取幀級空間暴力特征,并將輸出特征輸入到ConvLSTM網絡中,實現網絡資源、效率和精度的平衡,提升網絡模型的整體性能,為后續進一步提取全局時空特征做準備。
2.2.2基于ConvLSTM網絡提取全局時空特征
為了合理高效地利用視頻關鍵信息,本文在ConvLSTM網絡模型之后添加了時間注意力機制,根據視頻幀的重要程度為每個時刻的長時時空特征分配權重,以更合理地利用視頻重要時刻的長時時空信息計算視頻級的特征表示。時間注意力機制模型如圖5所示。首先根據ConvLSTM的輸出計算得到時間注意力初始權重,然后對得到的初始權重進行歸一化,接著對ConvLSTM的輸出進行注意力加權,最后得到視頻級特征表示。具體步驟如下:
步驟2 歸一化初始權重。利用Softmax函數對初始權重進行歸一化,使得到的所有權重系數之和為1:
圖5 時間注意力機制模型
經過時間注意力模塊處理后,得到包含更多關鍵信息的視頻級特征表示,本文通過三層全連接層將其映射到分類空間,利用Softmax分類器進行分類,輸出檢測結果,實現視頻中的暴力行為檢測。本文方法的完整網絡模型結構如圖6所示。
根據輸出檢測結果與標簽之間的誤差計算模型損失值,通過迭代訓練確保損失值最小化,在預測時,根據檢測結果,計算模型準確率。本文所使用的損失函數為交叉熵損失函數,如式(16)所示:
模型準確率計算方法如式(17)所示:
其中:為正類數量,為負類數量,表示正類被正確預測為正類的數量,表示負類被正確預測為負類的數量。
為驗證本文算法的可行性和有效性,構建了實驗數據集進行對比實驗和分析。實驗所用計算機系統的硬件環境為Intel Xeon Silver 4110 CPU @2.10 GHz 處理器,32 GB內存,NVIDIA GeForce RTX 2080Ti顯卡;軟件環境為Windows 10,開發語言為Python,開發環境為Pycharm 2019。
為了驗證本文算法的可行性和有效性,本文采用應用較多的HockeyFight、Movies和ViolentFlows三個公開視頻數據集,并根據實際需要進行預處理后再進行實驗。這三個數據集是從真實場景中提取的,具有權威性,尤其是數據集中人物動作豐富、背景多樣,能夠全面衡量本文算法性能。
HockeyFight數據集:取自北美曲棍球比賽,包含500段暴力視頻和500段非暴力視頻,視頻分辨率為360×288,每段視頻的幀率為25,平均時間長度為1.6 s,視頻畫質較高,背景較為單一。
Movies數據集:取自動作打斗電影片段,包含100段暴力視頻和500段非暴力視頻,大部分暴力視頻分辨率為720×576,少部分為720×480,每段視頻的幀率為25,平均時間長度為1.5 s。
ViolentFlows數據集:取自YouTube視頻網站,包含123段暴力視頻和123段非暴力視頻,視頻分辨率為320×240,平均時間長度為3.6 s,視頻畫質較低,背景較為豐富,場景中存在擁擠人群。
實驗時先對以上三個數據集進行預處理,提取出數據集的視頻幀,調整為256×256,并進行歸一化處理;然后利用水平翻轉和隨機裁剪方法增強數據集;最后計算得到前景圖,完成數據集的預處理,為網絡模型的訓練和測試做準備。
在網絡模型的訓練和測試階段,本文采用5折交叉驗證的方法訓練網絡模型。將原始數據分為5組,依次取其中1個子集作為測試集,剩余4組為訓練集。經過訓練得到5個網絡模型,最終計算出5個模型測試集準確率的均值作為整個網絡模型的最終準確率結果。本文算法的訓練和測試流程如圖7所示。
圖7 本文算法的訓練和測試流程
在訓練過程中,首先預處理數據集,并生成視頻的標簽;然后將訓練數據輸入到提前在ImageNet數據庫上預訓練好的EfficientNet?B0模型中,并采用Xavier算法初始化ConvLSTM模型權重,提高訓練速度;接著輸出分類結果,并根據交叉熵損失函數計算損失值;最后,采用Adam算法優化網絡參數,學習率設為0.001,批量大小設為2,經過迭代訓練,最終得到訓練好的網絡模型。
在測試過程中,將測試數據集輸入到訓練好的網絡模型中,得到預測分類結果,并計算準確率,以此來衡量模型的性能。
為了驗證本文算法的可行性,將本文算法在HockeyFight數據集和ViolentFlows數據集上訓練50輪次,在Movies訓練30輪次,并將EfficientNet?B0空間暴力特征提取網絡分別替換為ResNet50[17]、MobileNetV3?small[25]、ShuffleNetV2[26]。經過訓練之后,分別得到基于四種網絡模型的算法在三個數據集上的訓練損失和訓練準確率,結果如圖8所示。由圖8可以看出,隨著訓練輪次的增加,各網絡模型的損失值在不斷下降,準確率在不斷提升,最終達到收斂狀態。EfficientNet?B0模型在訓練時相較于其他三個模型收斂更快,損失值較低,且準確率較高,這說明本文算法可行性比較好。
圖8 訓練損失與準確率對比
為驗證引入時間注意力機制的有效性,設計了添加注意力機制前后的對比實驗,基于四個網絡模型的算法準確率對比結果如表1所示。其中:√表示在網絡中添加注意力機制,×表示未添加注意力機制。由表1可以看出,在添加時間注意力機制后,本文算法在三個數據集上的準確率均有一定提升(達到100%準確率除外)。
表1 添加注意力機制前后的準確率對比 單位: %
綜合分析,本文算法及其他網絡模型在添加時間注意力之后,在暴力行為檢測任務上的準確率均有不同程度的提升,本文添加的時間注意力機制是有效的。
為驗證EfficientNet?B0模型的有效性,對四種網絡模型的參數量以及相應算法的訓練集訓練時間、測試集預測時間和準確率進行對比,結果如表2所示。由表2可以看出,與ResNet50模型進行對比,EfficientNet?B0模型的參數量僅為ResNet50的1/5。在計算復雜度方面,ResNet50的GFLOPs約為4.1,而EfficientNet?B0的GFLOPs約為0.39,僅為ResNet50的1/10,計算復雜度更低。由于已經在ImageNet數據庫上進行預訓練,EfficientNet?B0的訓練時間比ResNet50要短,預測時間也更短。在準確率方面,在HockeyFight數據集上準確率提升1.5個百分點;在Movies數據集上都達到了最佳準確率,分析原因是該數據集數據量較小,且電影打斗片段相似度較高;在ViolentFlows數據集上準確率提升2個百分點。
與其他輕量化模型進行對比,可以看出在相同參數量級的情況下,在HockeyFight數據集上,EfficientNet?B0模型準確率分別比MobileNetV3?small、ShuffleNetV2高11.5和13.5個百分點;在Movies數據集上比MobileNetV3?small高2.5個百分點;在ViolentFlows數據集上分別比MobileNetV3?small和ShuffleNetV2高8、10個百分點。
綜合分析,EfficientNet?B0模型能夠在參數量明顯少于常規網絡模型參數量的情況下,獲得準確率的提升,且訓練時間及預測時間更短;而在相同參數量級的情況下,準確率要高于其他輕量化網絡模型。因此,本文使用的EfficientNet?B0模型能夠在參數量較小的情況下,保持較高的準確率和較短的訓練、預測時間,實現資源、效率和精度的綜合平衡。
表2 不同網絡模型的參數量、預測時間和準確率對比
為了驗證本文算法的有效性,將本文算法與其他現有的算法的準確率進行對比,對比結果如表3所示。由表3可以看出,在三個公開數據集上,與文獻[9-12]等基于人工設計特征的暴力行為檢測方法相比,本文算法準確率有明顯的提升;與文獻[13-15]等基于深度學習的暴力行為檢測方法相比,本文算法準確率依然有不同程度的提升,但是不需要計算光流等特征,且卷積網絡為輕量化模型,參數量更小,計算更簡單快捷。因此,本文算法能夠在有限的資源限制下獲得較好的性能,不需要人工設計特征,實現端到端的訓練和檢測,并且在多個數據集上取得效果的提升,具有良好的泛化能力和魯棒性。
表3 不同算法的準確率對比 單位: %
針對一般暴力行為檢測方法模型參數量大、計算復雜度高、準確率較低等問題,本文提出了一種基于時間注意力機制和EfficientNet的視頻暴力行為檢測方法。首先,預處理數據集,提取視頻幀并增強數據集,計算得到前景圖;然后,利用復合縮放方法得到輕量化EfficientNet系列網絡模型,選擇EfficientNet?B0提取前景圖中的幀級空間暴力特征;其次,利用ConvLSTM網絡的門控操作和卷積操作,進一步提取視頻的全局時空特征,充分利用視頻序列的時間信息和局部空間信息;接著,添加時間注意力機制,根據ConLSTM的輸出計算注意力初始權重,將權重歸一化后進行注意力加權,融合加權后的輸出得到視頻級特征表示;最后,利用三層全連接層將視頻級特征表示映射到分類空間,利用Softmax分類器進行分類,輸出檢測結果。最終設計并實現了該視頻暴力行為檢測方法,并進行了對比實驗。結果顯示,本文所添加的時間注意力機制可以提高模型的準確率;EfficientNet相較于常規網絡模型參數量大幅減少,預測時間更短,同時準確率得到提升,與其他輕量化模型相比,準確率遠高于MobileNetV3?small和ShuffleNetV2模型;與其他現有算法相比,本文算法計算更簡單,在三個公開數據集上均取得了良好的性能,說明本文算法具有良好的泛化能力和魯棒性。
下一階段將進一步研究暴力行為識別方法,對各類暴力行為進行定義,識別出暴力行為的具體類別,并將該方法應用于智能安防、短視頻審核等領域。
[1] SUDHAKARAN S, LANZ O. Learning to detect violent videos using convolutional long short-term memory[C]// Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2017: 1-6.
[2] 楊亞虎,王瑜,陳天華. 基于深度學習的遠程視頻監控異常圖像檢測[J]. 電訊技術, 2021,61(2): 203-210.(YANG Y H, WANG Y, CHEN T H. Detection of abnormal remote video surveillance image based on deep learning[J]. Telecommunication Engineering, 2021, 61(2): 203-210.)
[3] 盧修生,姚鴻勛. 視頻中動作識別任務綜述[J]. 智能計算機與應用, 2020, 10(3): 406-411.(LU X S, YAO H X. A survey of action recognition in videos[J]. Intelligent Computer and Applications, 2020, 10(3): 406-411.)
[4] 譚等泰,王煒,王軼群. 治安監控視頻中暴力行為的識別與檢測[J]. 中國人民公安大學學報(自然科學版), 2021, 27(2): 94-100.(TAN D T, WANG W, WANG Y Q. Recognition and detection of violence in public security surveillance video[J]. Journal of People’s Public Security University of China (Science and Technology), 2021, 27(2): 94-100.)
[5] SARMAN S, SERT M. Audio based violent scene classification using ensemble learning[C]// Proceedings of the 6th International Symposium on Digital Forensic and Security. Piscataway: IEEE, 2018: 1-5.
[6] 楊呂祥. 基于改進的CRNN的暴力音頻事件檢測方法研究[D]. 武漢:武漢理工大學, 2019.(YANG L X. Research on violent sound event detection based on improved CRNN[D]. Wuhan: Wuhan University of Technology, 2019.)
[7] ACAR E, HOPFGARTNER F, ALBAYRAK S. Violence detection in Hollywood movies by the fusion of visual and mid-level audio cues[C]// Proceedings of the 21st ACM International Conference on Multimedia. New York: ACM, 2013: 717-720.
[8] 谷學匯. 基于信息融合算法的暴力視頻內容識別[J]. 濟南大學學報(自然科學版), 2019, 33(3): 224-228.(GU X H. Information composite technology in violent video content recognition[J]. Journal of University of Jinan (Science and Technology), 2019, 33(3): 224-228.)
[9] GAO Y, LIU H, SUN X H, et al. Violence detection using oriented violent flows[J]. Image and Vision Computing, 2016, 48/49: 37-41.
[10] 宋凱. 面向視頻監控的暴力行為檢測技術研究[D]. 哈爾濱:哈爾濱工程大學, 2018.(SONG K. Research on detection technology of violence in the background of monitoring[D]. Harbin: Harbin Engineering University, 2018.)
[11] BEN MABROUK A, ZAGROUBA E. Spatio-temporal feature using optical flow based distribution for violence detection[J]. Pattern Recognition Letters, 2017, 92: 62-67.
[12] ZHANG T, JIA W J, YANG B Q, et al. MoWLD: a robust motion image descriptor for violence detection[J]. Multimedia Tools and Applications, 2017, 76(1): 1419-1438.
[13] 丁春輝. 基于深度學習的暴力檢測及人臉識別方法研究[D]. 合肥:中國科學技術大學, 2017.(DING C H. Violence detection and face recognition based on deep learning method[D]. Hefei: University of Science and Technology of China, 2017.)
[14] DONG Z H, QIN J, WANG Y H. Multi-stream deep networks for person to person violence detection in videos[C]// Proceedings of the 2016 Chinese Conference on Pattern Recognition, CCIS 662. Singapore: Springer, 2016: 517-531.
[15] CHATTERJEE R, HALDER R. Discrete wavelet transform for CNN-BiLSTM-based violence detection[C]// Proceedings of the 2020 International Conference on Emerging Trends and Advances in Electrical Engineering and Renewable Energy, LNEE 708. Singapore: Springer, 2021: 41-52.
[16] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation now casting[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 802-810.
[17] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[18] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1577-1586.
[19] 劉超軍,段喜萍,謝寶文. 應用GhostNet卷積特征的ECO目標跟蹤算法改進[J]. 激光技術, 2022, 46(2):239-247.(LIU C J, DUAN X P, XIE B W. Improvement of ECO target tracking algorithm based on GhostNet convolution feature[J]. Laser Technology, 2022, 46(2):239-247.)
[20] WEI B Y, SHEN X L, YUAN Y L. Remote sensing scene classification based on improved GhostNet[J]. Journal of Physics: Conference Series, 2020, 1621: No.012091.
[21] TAN M X, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 6105-6114.
[22] 尹梓睿,張索非,張磊,等. 適于行人重識別的二分支EfficientNet網絡設計[J]. 信號處理, 2020, 36(9): 1481-1488.(YIN Z R, ZHANG S F, ZHANG L, et al. Design of a two-branch EfficientNet for person re-identification[J]. Journal of Signal Processing, 2020, 36(9): 1481-1488.)
[23] 曹毅,劉晨,盛永健,等. 基于三維圖卷積與注意力增強的行為識別模型[J]. 電子與信息學報, 2021, 43(7): 2071-2078.(CAO Y, LIU C, SHENG Y J, et al. Action recognition model based on 3D graph convolution and attention enhanced[J]. Journal of Electronics and Information Technology, 2021, 43(7): 2071-2078.)
[24] 梁智杰. 聾啞人手語識別關鍵技術研究[D]. 武漢:華中師范大學, 2019.(LIANG Z J. Research on key technologies of sign language recognition for deaf-mutes[D]. Wuhan: Central China Normal University, 2019.)
[25] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 1314-1324.
[26] MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11218. Cham: Springer, 2018: 122-138.
[27] MOHAMMADI S, PERINA A, KIANI H, et al. Angry crowds: detecting violent events in videos[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9911. Cham: Springer, 2016: 3-18.
[28] SENST T, EISELEIN V, KUHN A, et al. Crowd violence detection using global motion-compensated Lagrangian features and scale sensitive video-level representation[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2945-2956.
[29] MAHMOODI J, SALAJEGHE A. A classification method based on optical flow for violence detection[J]. Expert Systems with Applications, 2019, 127: 121-127.
[30] 于京. 特殊視頻內容分析算法研究[D]. 北京:北京交通大學, 2020.(YU J. Study on content analysis algorithms in special video[D]. Beijing: Beijing Jiaotong University, 2020.)
Violence detection in video based on temporal attention mechanism and EfficientNet
CAI Xingquan, FENG Dingwei, WANG Tong, SUN Chen, SUN Haiyan*
(,,100144,)
Aiming at the problems of large model parameters, high computational complexity and low accuracy of traditional violence detection methods, a method of violence detection in video based on temporal attention mechanism and EfficientNet was proposed. Firstly, the foreground image obtained by preprocessing the dataset was input to the network model to extract the video features, meanwhile, the frame-level spatial features of violence were extracted by using the lightweight EfficientNet, and the global spatial-temporal features of the video sequence were further extracted by using the Convolutional Long Short-Term Memory (ConvLSTM) network. Then, combined with temporal attention mechanism, the video-level feature representations were obtained. Finally, the video-level feature representations were mapped to the classification space, and the Softmax classifier was used to classify the video violence and output the detection results, realizing the violence detection of video. Experimental results show that the proposed method can decrease the number of model parameters, reduce the computational complexity, increase the accuracy of violence detection and improve the comprehensive performance of the model with limited resources.
violence detection; temporal attention mechanism; Convolutional Long Short-Term Memory (ConvLSTM) network; EfficientNet model
This work is partially supported by Beijing Social Science Foundation (19YTC043).
CAI Xingquan, born in 1980, Ph. D., professor. His research interests include virtual reality, human-computer interaction, deep learning.
FENG Dingwei, born in 1997, M. S. candidate. His research interests include virtual reality, deep learning.
WANG Tong, born in 1996, M. S. candidate. His research interests include virtual reality, deep learning.
SUN Chen, born in 1996, M. S. His research interests include virtual reality, deep learning.
SUN Haiyan, born in 1980, Ph. D., lecturer. Her research interests include virtual reality, deep learning.
TP391.9
A
1001-9081(2022)11-3564-09
10.11772/j.issn.1001-9081.2021122153
2021?12?21;
2022?01?21;
2022?01?26。
北京市社會科學基金資助項目(19YTC043)。
蔡興泉(1980—),男,山東濟南人,教授,博士,CCF高級會員,主要研究方向:虛擬現實、人機互動、深度學習;封丁惟(1997—),男,山東青島人,碩士研究生,主要研究方向:虛擬現實、深度學習;王通(1996—),男,山西大同人,碩士研究生,主要研究方向:虛擬現實、深度學習;孫辰(1996—),男,山東臨沂人,碩士,主要研究方向:虛擬現實、深度學習;孫海燕(1980—),女,山東濟寧人,講師,博士,主要研究方向:虛擬現實、深度學習。