李南君 李爽 李拓 鄒曉峰 王長紅



摘 要:現有基于CNN模型的視頻異常事件檢測方法在精度不斷提升的同時,面臨架構復雜、參數龐大、訓練冗長等問題,致使硬件算力需求高,難以適配無人機等計算資源有限的邊緣端設備。為此,提出一種面向邊緣端設備的輕量化異常事件檢測方法,旨在平衡檢測性能與推理延遲。首先,由原始視頻序列提取梯度立方體與光流立方體作為事件表觀與運動特征表示;其次,設計改進的小規模PCANet獲取梯度立方體對應的高層次分塊直方圖特征;再次,根據每個局部分塊的直方圖特征分布情況計算表觀異常得分,同時基于內部像素光流幅值累加計算運動異常得分;最后,依據表觀與運動異常得分的加權融合值判別異常分塊,實現表觀與運動異常事件聯合檢測與定位。在公開數據集UCSD的Ped1與Ped2子集上進行實驗驗證,該方法的幀層面AUC分別達到86.7%與94.9%,領先大多數對比方法,且參數量明顯降低。實驗結果表明,該方法在低算力需求下,可以實現較高的異常檢測穩定性和準確率,能夠有效兼顧檢測精度與計算資源,因此適用于低功耗邊緣端設備。
關鍵詞:智能視頻監控;邊緣端設備;異常事件檢測;主成分分析網絡;分塊直方圖特征
中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-049-0306-08
doi:10.19734/j.issn.1001-3695.2023.04.0225
Lightweight video abnormal event detection method for edge devices
Abstract:Existing CNN-based video anomaly detection methods improve the accuracy continuously,which are faced with issues such as complex architecture,large parameters and lengthy training.Therefore,the hardware computing power requirements of them are high,which makes it difficult to adapt to edge devices with limited computing resources like UAVs.To this end,this paper proposed a lightweight abnormal event detection method for edge devices.Firstly,the method extracted gradient cuboids and optical flow cuboids from video sequence as appearance and motion feature representation.Secondly,the method designed a modified PCANet network to obtain high-level block-wise histogram features of gradient cuboids.Then,the method calculated the appearance anomaly score of each block based on histogram feature distribution,and calculated the motion ano-maly score based on the accumulation of optical flow amplitudes of internal pixels.Finally,the method fused the appearance and motion anomaly scores to identify anomalous blocks,achieving appearance and motion abnormal events detection and localization simultaneously.The frame-level AUC of proposed method reached 86.7% on UCSD Ped1 dataset and 94.9% on UCSD Ped2 dataset,which were superior to other methods and the parameters were much smaller.Experimental results show that the method achieves better anomaly detection performance under low computational power requirements,making the ba-lance between detection precision and computing resources,which is suitable for low-power edge devices.
Key words:intelligent video surveillance;edge device;abnormal event detection;principle component analysis network;block-wise histogram feature
0 引言
當前,全球城市化進程加快,人口數量激增,社會公共安全問題日漸突出。面對現實公共區域中頻發的各類安全事故與突發情況,以監控攝像機為核心設備的視頻監控系統逐漸凸顯優勢。視頻監控系統通過前端攝像機能夠全天候采集監控區域場景畫面,利用網絡傳輸技術將采集到的視頻信息輸送回監控室并在電視屏幕上實時播放,工作人員對視頻畫面進行觀察分析,及時發現可疑情況并采取措施,以維護社會秩序、保障人民生命財產安全。因此大量監控設備被廣泛安裝在街道、辦公樓、商場等公共場所,以及醫院、機場、火車站等重要機構,逐漸形成大規模視頻監控聯網建設應用,如“天網監控系統”。然而,傳統監控系統依賴人工進行視頻場景事件分析與信息提取的方式在面對眾多監控設備產生的海量視頻數據時存在執行效率低下、運行成本昂貴等問題,亟待發展能夠自主理解視頻內容并反饋異常情況的智能監控系統。
作為智能監控系統的核心功能之一,視頻異常事件檢測技術受到產業界與學術界研究人員的共同關注,研究人員不斷探索新方法并提供創新研究成果。該技術旨在采用圖像處理與機器學習相關方法,自主識別監控視頻場景中各類目標(行人、汽車等)引發的各種偏離常規的事件。因此可以最大程度地協助工作人員及時發現異常事件,在降低人力成本的同時提高監控效率,并減少誤報和漏報情況,提升現有視頻監控系統的智能化水平。
近期,以卷積神經網絡(convolutional neural network,CNN)為代表的深度學習模型在由淺自深提取視頻圖像特征方面展現出優異性能,并在各項計算機視覺(computer vision,CV)任務上,如行為識別、目標檢測、姿態估計等取得極佳效果。由此,諸多研究工作將CNN應用于視頻異常檢測任務。
不同于其他CV任務,視頻異常事件檢測實現過程面臨諸多難點:a)異常事件定義場景相關性,相同事件根據其所處的時空上下文場景不同,異常屬性判定存在差異;b)異常事件樣本稀疏性,通常情況下,異常事件屬于偶發事件,發生頻率遠低于正常事件,且通常持續時間很短難以被記錄,導致可用的異常樣本不足。因此,當前基于CNN的異常事件檢測方法廣泛采用半監督學習策略,即在訓練階段只使用正常事件樣本訓練檢測模型,并在推理階段,將明顯偏離檢測模型的待測樣本判為異常。其中,兩種常用的CNN模型為卷積自編碼器(convolutional autoencoder,CAE)與生成對抗網絡(generative adversarial network,GAN)。
當前基于CAE與GAN的半監督異常事件檢測主流框架有基于重構的方法、基于預測的方法以及基于判別的方法。其中,基于重構的方法充分利用CAE對輸入樣本的復現能力,其核心思想是:訓練階段對正常事件樣本進行編解碼操作,并以較低誤差重構正常輸入為目標訓練網絡;在測試階段,重構訓練過程未出現異常事件樣本時將得到較差的重構樣本,進而獲得較大的重構誤差。基于預測的方法充分利用CAE與GAN的生成能力,大多數情況CAE會用作GAN中的生成器(gene-rator),與重構過程單純復現已知輸入事件不同,其核心思想是采用連續歷史時刻事件作為先驗信息,預測未知的未來時刻事件,預測值與真實值間的偏差為預測誤差,用作異常判定標準。同樣地,使用正常事件樣本訓練的預測網絡僅能對其進行精準預測,而對于異常樣本的預測結果不理想,從而產生較大的預測誤差。基于判別的方法則充分利用GAN中判別器(discriminator)對生成樣本與真實樣本的區分能力,其核心思想是利用正常事件樣本學習的GAN無法識別生成正常樣本,但能夠識別生成異常樣本。現階段大多數方法沿用上述三種基本框架,通過在原始網絡中引入長短期記憶單元[1]、注意力模塊[2,3]、記憶模塊[4~6]、概率模型[7,8]、跨越連接機制[9,10]來解決CAE的強泛化能力以及GAN的訓練過程不穩定等問題,從而優化異常檢測結果。具體而言,Zhong等人[2]提出一種基于CAE的雙向視頻幀預測框架,設計基于空間注意力與通道注意力的雙向特征融合機制,同時進行前向幀預測與后向幀預測。肖進勝等人[6]構建概率記憶自編碼網絡,在自編碼主干網絡中嵌入概率模型和記憶模塊,提升其視頻幀重建質量;同時使用因果三維卷積和時間維度共享全連接層,避免未來信息丟失,強化編碼器特征提取性能。類似地,針對現有重構方法忽略正常數據內部結構致使效率較低的問題,鐘友坤等人[8]整合自編碼器與高斯概率模型,提出深度自動編碼高斯混合網絡。其中,自編碼器映射輸入視頻片段的低維隱層表示并生成重構樣本,而高斯混合模型擬合正常片段的概率分布,進而通過能量密度概率判斷異常。周航等人[11]研究基于時空融合圖網絡學習的視頻異常檢測方法,在充分挖掘視頻空間相似性與時序延續性的基礎上開展異常事件推理。
除此之外,Transformer網絡[12]作為具有全局感受野的前沿深度學習模型,能夠利用自注意力機制挖掘視頻圖像全局依賴關系,表現出比經典CNN更強的特征提取能力。基于視覺Transformer(vision Transformer,ViT)的半監督異常事件檢測方法[13~15]應運而生。需要特別說明的是,大多數ViT方法仍然使用前面所述的三種基本框架。Lee等人[14]構建多分支ViT預測架構,在充分利用視頻時空上下文的基礎上,開展不同任務設置下的未來幀預測,以完成異常識別。劉成明等人[15]設計融合門控自注意力機制的生成對抗網絡,在原始GAN的生成器部分引入門控自注意力機制,逐層對采樣過程中的特征圖進行權重分配,抑制輸入視頻幀中與異常檢測任務不相關背景區域的特征表達,從而優化時空信息建模。
然而,上述方法在依靠復雜深度學習模型取得高精度異常檢測結果的同時,也面臨網絡規模大、訓練參數多、計算開銷大等問題。特別是ViT網絡,由于需要捕獲全局注意力,訓練參數量往往達到千萬級別。這決定了這些方法必須依賴高算力的硬件設備進行訓練與推理,無法部署到計算資源有限且功耗要求嚴格的邊緣端設備上,同時難以實現在線實時檢測。為此,提出一種面向邊緣端設備的輕量化視頻異常檢測方法LVAD(lightweight video abnormal event detection),該方法利用一種性能高效、架構簡潔的主成分分析網絡(principle component analysis network,PCANet)[16]進行視頻序列不同局部區域圖像高層次特征提取,其具備規模小、參數少、無須迭代訓練等優勢。在此基礎上設計一種全新的快速異常識別策略,根據不同區域的特征分布直接計算異常得分作為異常判別標準,進而實現視頻序列中局部異常事件定位。同時,為了實現運動與表觀異常事件聯合檢測,該方法采用雙流分支結構,其中表觀分支中使用梯度特征作為視頻事件外觀表示,運動分支中使用光流特征作為視頻事件運動表示。由于PCANet無須依靠大量人工預標注的視頻事件樣本進行參數迭代訓練的特性,使得該方法硬件算力要求不高,適用于低功耗邊緣端設備下的高速推理。
具體而言,本文的主要貢獻如下:
a)提出一種全新的基于PCANet的輕量化異常事件檢測方法LVAD。首先使用PCANet在原始視頻序列劃分的梯度時空立方體中提取高層次分塊直方圖特征,進而直接依據特征分布計算標準差作為表觀異常得分,并與基于光流值計算的運動異常得分進行融合,用于異常分塊判定,以同時實現異常事件檢測與定位。
b)設計一種改進的PCANet架構。利用差異擴展化操作替代原始網絡中去均值化操作,通過該措施增大視頻圖像不同重疊采樣塊間差異,保證后續PCA濾波器能夠更容易捕獲特征變化,進而有助于識別異常圖像塊。此外,不同于原始網絡僅能處理單幀圖像,改進網絡以特征立方體為輸入,在全面考慮時序信息與空間信息基礎上生成卷積濾波器。
c)在多個公開標準數據集上的實驗結果表明,本文方法在更小空間占用、更低算力需求、更快推理速度下的性能優于部分基于大規模CNN的方法,實現了異常檢測精度與運算延遲間的最佳平衡。
1 本文方法
基于改進PCANet的輕量化異常事件檢測方法LVAD的基本流程如圖1所示。首先,針對原始視頻序列進行預處理,基于滑動窗口提取梯度特征立方體與光流特征立方體作為視頻事件表觀與運動表達;繼而,采用改進PCANet處理梯度特征立方體,獲取其高層次分塊直方圖特征向量,并通過計算每個局部分塊對應直方圖特征分布的標準差作為其表觀異常得分;最后,將表觀異常得分與基于光流特征幅值計算的運動異常得分進行加權融合,同時采用單類別分類器對融合后異常得分進行閾值化處理,判別每幀視頻圖像內的異常分塊,實現局部異常事件定位。值得注意的是,PCANet屬于一種簡化的深度學習模型,其卷積層數少、參數量低、無須冗長迭代訓練,適用于在計算資源有限的邊緣端設備上運算。
1.1 視頻序列特征立方體劃分
針對視頻序列進行預處理,將其劃分為用于分析處理的基本單位,是實現視頻中局部異常事件區域定位的必要步驟。為此,采用一種基于滑動窗口的視頻預處理方法,具體流程如圖2所示。首先,設置大小為W×H×T的滑動窗口,其中W和H分別為滑動窗口的寬度和高度,T為時間深度。使用滑動窗口將每個圖像幀分割成大小為W×H、互不重疊的多個二維圖像單元(patch);繼而,將連續T幀時序維度上相鄰的視頻圖像中同一空間坐標的二維單元堆疊在一起,構成三維時空立方體(spatial-temporal cuboid),用于視頻處理與異常檢測的基本單位;最后,提取每個立方體對應梯度特征立方體與光流特征立方體作為表觀信息與運動信息載體,用于表觀與運動異常事件聯合檢測。
針對梯度特征立方體,首先基于式(1)計算視頻幀Ft中每個像素點的時空梯度得到時空梯度圖,其中p表示Ft中的像素點。其時空梯度Fp共包含三個元素:前兩個元素Fp,x和Fp,y分別為圖像水平方向與垂直方向的梯度值,用于描述目標的姿態與形狀;第三個元素Fp,t為時間方向的梯度值,用于刻畫目標表觀特征隨時間的變化。因此,每個時空梯度圖包含三個通道,隨后采用上述滑動窗口對多個時空梯度圖構成的序列進行采樣,獲得梯度立方體。
針對光流特征立方體,首先采用Horn-Schunck光流法計算每個像素點的水平方向光流值Ip,x與垂直方向光流值Ip,y作為光流圖前兩個通道;之后,使用式(2)計算每個像素點的合成光流幅值Ip作為光流圖的第三個通道;最后,利用滑動窗口處理光流圖序列獲得光流立方體。
1.2 基于改進PCANet的高層次表觀特征提取
PCANet作為一種結構簡潔的深度學習模型,已在人臉識別、手寫字符識別以及目標識別等基于視覺語義的分類任務上取得較高精度,充分驗證其在高層次表觀特征提取方面的有效性。與CNN相似,PCANet采用分層級聯的特征學習結構,由淺自深地自動提取精細特征。然而,相較于CNN,PCANet規模較小(一般僅包含兩層卷積),且無須使用梯度下降法進行反復調參、訓練以獲取更佳效果,因而算力需求不高,適用于計算能效有限的邊緣端處理器。
PCANet基本特征提取流程包括主成分分析PCA(principal component analysis)、二值化哈希編碼(binary hashing)、分塊直方圖(block-wise histograms)三步,三個步驟分別對應CNN中的卷積、非線性處理以及下采樣操作。首先利用PCA算法學習多層濾波器(卷積核),然后使用二值化哈希編碼進行非線性處理,最后采用分塊直方圖進行重采樣,輸出分塊直方圖特征,該特征具備一定變換上的穩定性(如尺度不變性)。
很明顯,輸出的PCA濾波器W1l中記錄了輸入梯度立方體中最為關鍵的時空信息。
將每個Ol,nt輸入二值化函數H(z)處理后進行哈希編碼,編碼位數與W2n個數相同,表示為
1.3 視頻分塊表觀異常得分計算
針對局部分塊Bt(i,j)的表觀異常得分,基于其直方圖特征進行計算。一般來說,只包含正常事件的分塊對應直方圖特征分布較為集中,像素特征值主要分布在前端取值區間;而對于異常分塊,由于包含異常像素,直方圖特征分布更為均勻,像素特征值分布占據更多取值區間,如圖4所示。其中,分塊3中包含騎自行車異常事件,而分塊2僅包含行人行走正常事件,分塊1僅包含背景信息。由圖4可以看出,分塊1像素特征值集中分布于前幾個區間,分塊2特征值更均勻地分布于區間1~8,相較之下,分塊3特征值則更廣泛地分布于區間1~12。
因此,通過計算直方圖特征的標準偏差作為Bt(i,j)表觀異常得分:對于正常分塊,由于其像素特征值集中分布在直方圖前端區間內,在后續取值區間沒有分布,致使直方圖特征不同區間的高度值離散程度較大,將產生較高標準差;相反地,對于異常分塊,直方圖特征不同,區間高度值則更加連續,將產生較低標準差。Bt(i,j)直方圖特征標準差計算如下:
其中:sapp(i,j)為表觀異常得分;v(i,j){δ}表示其直方圖特征第δ個區間對應高度值。
1.4 視頻分塊異常判別
針對局部分塊Bt(i,j)的運動異常得分,對其包含所有像素的光流幅值進行求和,獲得
其中:Nf為Bt(i,j)中像素個數。通常來說,smot(i,j)越大,代表Bt(i,j)中像素運動速度越快,其中包含非常規運動事件概率越高(如正常行走人群中突然駛入的車輛),而sapp(i,j)越小,代表Bt(i,j)中像素表觀與常規偏差越大,Bt(i,j)中包含非正常外觀目標概率越高(如正常行走人群中緩慢進入的自行車)。因此,運動異常得分與表觀異常得分的融合過程為
sfus=αsmot+β(1-sapp)(8)
其中:α與β為加權融合權重。
設定檢測閾值θ,根據融合異常得分,利用單類別分類器(one-class classifier)判別異常局部塊,實現異常事件檢測與定位:
2 實驗結果與分析
2.1 數據集
本章在UCSD[17]與UMN[18]兩個公開標準異常事件數據集上對本文方法的有效性進行實驗驗證。
2.1.1 UCSD數據集
UCSD數據集由Ped1和Ped2兩個子集組成,分別包含兩臺固定視角攝像機拍攝的加利福尼亞大學圣迭戈分校(University of California,San Diego,UCSD)校園內兩條不同道路場景的多段視頻。兩個子集中均將視頻場景中的行人按正常道路方向以常規速度行走定義為正常事件,而將突然進入人行道的非人目標(如手推車、汽車等)及行人非常規行為模式(如滑滑板、騎自行車)定義為異常事件。
Ped1子集的訓練集由34段只包含正常事件的視頻序列組成,測試集由36段包含不同類型異常事件的視頻序列組成,每段視頻均由200幀圖像構成,空間分辨率為238×158。相較于Ped1,Ped2子集體量更小,訓練集和測試集分別包含16段正常視頻序列和12段異常視頻序列,每段視頻圖像幀數不等,由120幀變化到200幀,空間分辨率為360×240。
Ped1子集中僅有10段測試視頻的異常事件幀層面與像素層面真實值標注被同時提供,而Ped2子集中所有測試視頻的異常事件幀層面與像素層面真實值標注被同時提供。
2.1.2 UMN數據集
UMN數據集來源于明尼蘇達大學(University of Minnesota System,UMN)人工智能實驗室,記錄了3個不同場景(2個強光照室外場景和1個昏暗室內場景)發生的共11段視頻序列,共包含分辨率為320×240的7 739幀圖像。每段視頻以人群正常地隨意行走為開始,以突然逃散或奔跑為結束。該數據集僅提供異常事件的幀層面真實值標注,未提供像素層面的真實值標注。換言之,只知道視頻序列中哪些幀存在異常,但不知道異常幀中哪些像素是異常的(即異常發生的具體區域)。相較于UCSD,該數據集包含的異常事件側重群體行為(人群逃散、奔跑)。因此,本章在UMN數據集上進行測試以評估本文方法面向群體異常事件檢測性能。
2.2 評價標準
本文實驗同時使用如下兩種準則或其中之一評估本文方法的異常檢測效果:視頻幀層面(frame-level)標準和像素層面(pixel-level)標準,分別對應視頻異常的幀層面與像素層面真實值標注。兩個準則的基本原理均是通過統計實際檢測結果與真實值標注的匹配程度評估性能,定義異常結果與正常結果為陽性(positive)與陰性(negative)。
1)幀層面準則 視頻幀中只要一個像素被判為異常(本文中異常分塊所含像素全部被認定為異常),則被認定為異常幀,若其對應幀層面真實值同樣為異常,將視為真陽性(true positive,TP)檢測;否則,視為假陽性(false positive,FP)檢測。該評價準則一般用于衡量算法在視頻序列時序維度上的異常事件檢測(判斷視頻中哪幀圖像包含異常)準確率。
2)像素層面準則 視頻幀中判為異常的像素覆蓋至少40%的真實異常像素時,才視為TP檢測;而與幀層面準則一致,正常幀中只要一個像素被檢測為異常,將視為FP檢測。該評價準則適用于衡量算法在視頻序列空間維度上的異常事件定位(判斷異常圖像幀中哪些像素為異常)準確率。
基于幀層面或像素層面準則評判視頻序列每幀圖像后,計算真陽率(true positive rate,TPR)和假陽率(false positive rate,FPR)。
通過變換檢測閾值(式(9)中的θ)的取值,可以得到多組 FPR-TPR值,以FPR為橫坐標,TPR為縱坐標,繪制幀層面和像素層面的受試者操作特征(receiver operating characteristic,ROC)曲線。
利用ROC曲線,計算下述三個量化指標進行方法性能評估:
a)ROC曲線下的面積(area under curve,AUC)。
b)等錯率(equal error rate,EER)。當假陽率等于漏檢率時被誤判為異常的視頻幀比例,即在ROC曲線上FPR=1-TPR時的FPR值,通常用于幀層面評價標準。
c)等檢率(equal detected rate,EDR)。等錯率處的檢測率,即EDR=1-EER,通常用于像素層面評價標準。
AUC與EDR值越大,EER值越小,代表方法性能越好,異常檢測精度更高。
2.3 實驗設置
實驗過程中,數據集中視頻序列的每幀圖像尺寸被調整為360×240,相應的梯度圖與光流圖大小為360×240×3。滑動窗口大小W×H×T設置為40×40×7,由此二維圖像單元(patch)大小為40×40,而三維視頻立方體(cuboid)大小為40×40×7。在改進PCANet中,濾波器大小(采樣大小)k1×k1初始化為5×5,第一層和第二層的濾波器個數分別設置為L1=8和L2=6,局部分塊(block)大小設置為10×10,每個分塊的直方圖特征向量長度為2L2-2=16,即16個取值區間。融合權重系數α和β為0.5。
算法推理代碼在Windows系統下運行,僅使用Intel i5-4460@3.20 GHz CPU、8 GB內存,無須高算力、大功耗GPU顯卡。
2.4 實驗結果
2.4.1 UCSD Ped1數據集上的實驗結果
圖5展示了本文方法在UCSD Ped1數據集上可視化異常事件檢測結果示例,異常事件區域使用紅色矩形標記(參見電子版)。可以發現,本文方法LVAD能夠同時檢測與定位運動異常事件,如突然駛入的汽車,以及表觀異常事件,如緩慢出現的輪椅,這得益于LVAD采用的雙流分支融合策略。
至于定量分析,選取近年發表于頂級會議或期刊上的前沿方法(絕大多數來源于近三年)與LVAD基于幀層面和像素層面量化指標進行對比。同時,為了更清晰地闡明LVAD在輕量化異常檢測方面的優勢,針對其與對比方法的模型參數量、硬件平臺、推理速度進行詳盡統計,如表1所示(表中“—”代表文獻未公布相應結果或信息,其余表格與此相同)。由表1可以看出,在異常檢測輕量化方面,LVAD擁有最小的模型參數量,相應地僅需要CPU設備完成異常檢測訓練與推理。而大部分對比方法的參數量在十萬級以上,必須依賴高算力GPU開展模型訓練與異常推理。值得注意的是,LVAD在僅使用CPU的前提下達到了0.11 s/幀的推理速度,印證其可以進行實時異常檢測,易于部署到實際應用。
除此之外,在異常檢測效果方面,LVAD在幀層面評價標準上取得最低EER值與最高AUC值,分別為19.5%與86.7%,相較于排名第二的方法分別提升2.5%與0.8%,充分驗證了其優異的異常檢測性能。而像素層面評價標準,近期工作大多未基于其進行異常定位精度評估,因此公開的量化指標有限。LVAD的像素層面EDR值與AUC值分別為62.1%與62.8%,說明其面向異常定位的有效性。需要特別說明的是,對比同樣僅使用CPU執行異常推理的方法GLVP與SHAP(GPU只用于預處理階段目標檢測),LVAD的幀層面AUC分別增加了5.4%與0.8%。SHAP采用小規模降噪自編碼器(僅包含3個全連接層)作為異常檢測模型,表明了LVAD設計改進PCANet進行高層次特征提取并基于提取特征的分布特性執行異常檢測的優勢。綜上所述,LVAD在較低算力需求下,取得了更高的異常事件檢測與定位準確率,更加適用于邊緣端推理場景。
2.4.2 UCSD Ped2數據集上的實驗結果
圖6展示了本文方法在UCSD Ped2數據集上可視化異常事件檢測結果示例,異常事件區域使用紅色矩形標記。能夠看出LVAD在不同攝像機拍攝視角下仍可以同時檢測和定位多種類型的異常事件,例如正常行走人群中出現的騎自行車者、突然駛入的汽車等。
表2提供了在Ped2數據集上的基于AUC、EER和EDR指標的定量比較結果及對比方法參數量等信息統計。可以看出,在幀層面評價標準上,LVAD的AUC值在所有對比方法中最高,達到94.9%,超過次優方法Siamese-Net 0.9%。至于EER指標,略差于ISTL(△1.2%)。在像素層面評價標準上,LVAD的EDR值與AUC值分別為82%與86.2%,在所有公開結果中最高,再次驗證其在局部異常定位方面的優勢。相較于GLVP與SHAP,與Ped1子集上的結果一致,EER與AUC指標實現了大幅提升,進一步闡明了LVAD在輕量化異常檢測方面的出色性能。
2.4.3 UMN數據集上的實驗結果
圖7展示了本文方法LVAD在UMN數據集上可視化群體異常事件檢測結果示例,異常事件所在幀使用紅色長條標記,局部異常區域使用紅色矩形標記。能夠看出其不僅可以在時序維度上實現群體逃散異常事件檢測,還可以在空間維度上完成逃散個體定位。
由于UMN數據集僅提供幀層面的異常真實值標注,所以只采用幀層面準則與先進方法對比,圖8給出了在UMN數據集上LVAD與其他方法幀層面ROC曲線對比,而詳細的基于EER與AUC的定量結果比較如表3所示。能夠發現,所有方法在UMN數據集上都取得了較為理想的異常檢測表現,LVAD同樣實現了極佳效果,EER值為4.6%,AUC值達到98.7%。相較于spatial-temporal net,在量化指標上的細微差距可能是由于將視頻序列劃分為時空立方體作為檢測單元,當視頻中人群逃散過程接近結束時,隨著行人相繼跑離場景視野,每個人占據區域面積過小無法劃分到時空立方體內,從而導致漏檢。
3 實驗討論
3.1 雙流分支融合有效性分析(消融實驗)
為了驗證本文方法所用的運動分支與表觀分支融合機制的有效性,本節開展消融研究。具體而言,基于融合系數α和β的不同設置值在UCSD Ped2進行實驗:a)α=0,β=1,僅使用表觀信息進行異常檢測;b)α=0.5,β=0.5,同時使用表觀信息與運動信息進行異常檢測;c)α=1,β=0,僅使用運動信息進行異常檢測。表4展示了上述三種系數設置下的EDR和AUC指標對比結果,能夠發現,通過表觀信息與運動信息的加權融合能夠有效提升實驗表現,有力說明了其有效性。
3.2 差異擴展化操作有效性分析
為了闡明改進PCANet中設計的差異擴展化操作的優勢,本節在UCSD Ped2數據集上對改進PCANet與傳統PCANet的實驗表現進行對比,量化指標結果如表5所示。可以看出,改進PCANet在EDR與AUC指標上有了大幅度提升,進而驗證了使用差異擴展化操作替代原始去均值化操作的優勢。
3.3 超參數敏感性分析
為了探究超參數對模型性能,進而對實驗結果的影響,本節在Ped2數據集上進行超參數敏感性分析,重點針對網絡層數、濾波器尺寸及濾波器個數三個關鍵參數,實驗結果使用視頻幀層面 AUC指標值表示。表6展示了PCANet層數變化時對異常檢測效果產生的影響,至于濾波器尺寸及個數對實驗結果的影響,分別在表7和8中列出。由表6可以看出,對于單層PCANet,由于其視頻事件刻畫能力不足,相應實驗結果較差。之后將網絡層數增加至兩層,異常檢測精度提升,但持續增加層數精度提升有限。相反地,層數過多會出現精度下降的情況,同時延長檢測運算耗時(特征提取步驟增多)。因此,本文以平衡檢測精度與運行效率為目的,將網絡層數設置為2。
由表7能夠發現,濾波器尺寸在一定范圍內變化時對異常檢測效果影響不大,然而當其不斷增大超過閾值后,由于難以捕獲圖像局部精細特征,致使異常檢測精度大幅下降。而濾波器個數對實驗結果整體干擾不大,但取值過高會導致特征圖映射階段卷積運算增多,增加異常推理耗時。
4 結束語
本文提出一種面向邊緣端設備的輕量化異常事件檢測方法LVAD。首先,將原始視頻序列劃分為多個局部時空立方體,并提取相應的梯度特征立方體與光流特征立方體;其次,引入改進PCANet獲取梯度特征立方體對應的高層次分塊直方圖特征;再次,基于每個局部塊的直方圖特征計算其表觀異常得分,同時基于內部像素光流幅值求和計算運動異常得分;最后,將表觀與運動異常得分進行加權融合,使用單類別分類器判別異常局部塊,實現運動與表觀異常事件聯合檢測與定位。所使用的PCANet屬于架構簡潔的輕量化深度學習模型,特征提取過程無須耗費大量計算資源反復進行參數訓練,因此可以高效部署到邊緣端設備上。在公開標準數據集上的實驗結果表明,本文方法在低算力需求下取得了優異的異常事件檢測表現。然而,該方法依賴視頻序列RGB圖像對應的特征表示,容易受到由可見光透視投影引起的目標尺度變化影響,距離攝像機設備遠近不同的同類別目標在視頻圖像中所占區域面積大小變化極大,致使異常檢測結果不佳。因此,未來工作中考慮在PCANet中設計金字塔卷積結構,以精確捕獲不同尺度目標細節,從而提升異常檢測效果。
參考文獻:
[1]Luo Weixin,Liu Wen,Gao Shenghua.Remembering history with con-volutional LSTM for anomaly detection[C]//Proc of IEEE International Conference on Multimedia and Expo.2017:439-444.
[2]Zhong Yuanhong,Chen Xia,Hu Yongting,et al.Bidirectional spatio-temporal feature learning with multiscale evaluation for video anomaly detection[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32(12):8285-8296.
[3]Le V T,Kim Y G.Attention-based residual autoencoder for video ano-maly detection [J].Applied Intelligence,2023,53(3):3240-3254.
[4]Wang Le,Tian Junwen,Zhou Sanping,et al.Memory-augmented appearance-motion network for video anomaly detection[J].Pattern Recognition,2023,138:109335.
[5]孫敬波,季節.視頻監控下利用記憶力增強自編碼的行人異常行為檢測 [J].紅外與激光工程,2022,51(6):368-374.(Sun Jingbo,Ji Jie.Memory-augmented deep autoencoder model for pedestrian abnormal behavior detection in video surveillance [J].Infrared and Laser Engineering,2022,51(6):368-374.)
[6]肖進勝,郭浩文,謝紅剛,等.監控視頻異常行為檢測的概率記憶自編碼網絡 [J].軟件學報,2023,34(9):4362-4377.(Xiao Jinsheng,Guo Haowen,Xie Honggang,et al.Probabilistic memory auto-encoding network for abnormal behavior detection in surveillance videos[J].Journal of Software,2023,34(9):4362-4377.)
[7]于曉升,許茗,王瑩,等.基于卷積變分自編碼器的異常事件檢測方法 [J].儀器儀表學報,2021,42(5):151-158.(Yu Xiaosheng,Xu Ming,Wang Ying,et al.Anomaly detection method based on con-volutional variational auto-encoder[J].Chinese Journal of Scienti-fic Instrument,2021,42(5):151-158.)
[8]鐘友坤,莫海寧.基于深度自編碼-高斯混合模型的視頻異常檢測方法 [J].紅外與激光工程,2022,51(6):375-381.(Zhong Youkun,Mo Haining.A video anomaly detection method based on deep autoencoding Gaussian mixture model [J].Infrared and Laser Engineering,2022,51(6):375-381.)
[9]Saypadith S,Onoye T.Video anomaly detection based on deep generative network [C]// Proc of IEEE International Symposium on Circuits and Systems.2021:1-5.
[10]Nguyen T N,Meunier J.Anomaly detection in video sequence with appearance-motion correspondence [C]// Proc of IEEE/CVF International Conference on Computer Vision.2019:1273-1283.
[11]周航,詹永照,毛啟容.基于時空融合圖網絡學習的視頻異常事件檢測 [J].計算機研究與發展,2021,58(1):48-59.(Zhou Hang,Zhan Yongzhao,Mao Qirong.Video anomaly detection based on space-time fusion graph network learning[J].Journal of Computer Research and Development,2021,58(1):48-59.)
[12]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.2017.
[13]Feng Xinyang,Song Dongjin,Chen Yuncong,et al.Convolutional Transformer based dual discriminator generative adversarial networks for video anomaly detection [C]// Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:5546-5554.
[14]Lee J,Nam W J,Lee S W.Multi-contextual predictions with vision transformer for video anomaly detection[C]//Proc of International Conference on Pattern Recognition.2022:1012-1018.
[15]劉成明,薛然,石磊,等.融合門控自注意力機制的生成對抗網絡視頻異常檢測 [J].中國圖象圖形學報,2022,27(11):3210-3221.(Liu Chengming,Xue Ran,Shi Lei,et al.The gaining self-attention mechanism and GAN integrated video anomaly detection[J].Journal of Image and Graphics,2022,27(11):3210-3221.)
[16]Chan T,Jia Kui,Gao Shenghua,et al.PCANet:a simple deep learning baseline for image classification? [J].IEEE Trans on Image Processing,2015,24(12):5017-5032.
[17]Mahadevan V,Li Weixin,Bhalodia V,et al.Anomaly detection in crowded scenes[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2010:1975-1981.
[18]Mehran R,Oyama A,Shah M,et al.Abnormal crowd behavior detection using social force model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2009:935-942.
[19]Xu Dan,Yan Yan,Ricci E,et al.Detecting anomalous events in videos by learning deep representations of appearance and motion [J].Computer Vision and Image Understanding,2017,156:117-127.
[20]Wu Peng,Liu Jing,Li Mingming,et al.Fast sparse coding networks for anomaly detection in videos[J].Pattern Recognition,2020,107:107515.
[21]Nawaratne R,Alahakoon D,De Silva D,et al.Spatiotemporal anomaly detection using deep learning for real-time video surveillance[J].IEEE Trans on Industrial Informatics,2019,16(1):393-402.
[22]胡正平,趙夢瑤,辛丙一.結合全局與局部視頻表示的視頻異常檢測算法[J].模式識別與人工智能,2020,33(2):133-140.(Hu Zhengping,Zhao Mengyao,Xin Bingyi.Video anomaly detection algorithm combining global and local video representation[J].Pattern Recognition and Artificial Intelligence,2020,33(2):133-140.)
[23]Guo Aibin,Guo Lijun,Zhang Rong,et al.Self-trained prediction mo-del and novel anomaly score mechanism for video anomaly detection[J].Image and Vision Computing,2022,119:104391.
[24]Ramachandra B,Jones M,Vatsavai R.Learning a distance function with a siamese network to localize anomalies in videos[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.2020:2598-2607.
[25]Zhang Qianqian,Feng Guorui,Wu Hanzhou.Surveillance video ano-maly detection via non-local U-Net frame prediction[J].Multimedia Tools and Applications,2022,81(19):27073-27088.
[26]Kommanduri R,Ghorai M.Bi-READ:bi-residual autoEncoder based feature enhancement for video anomaly detection[J].Journal of Visual Communication and Image Representation,2023,95:103860.
[27]Wu Chongke,Shao Sicong,Tunc C,et al.An explainable and efficient deep learning framework for video anomaly detection [J].Cluster Computing,2021,25:2715-2737.
[28]Fan Yaxiang,Wen Gongjian,Li Deren,et al.Video anomaly detection and localization via gaussian mixture fully convolutional variational autoencoder[J].Computer Vision and Image Understanding,2020,195:102920.
[29]Song Hao,Sun Che,Wu Xinxiao,et al.Learning normal patterns via adversarial attention-based autoencoder for abnormal event detection in videos[J].IEEE Trans on Multimedia,2019,22(8):2138-2148.
[30]Deepak K,Chandrakala S,Mohan C K.Residual spatiotemporal autoencoder for unsupervised video anomaly detection [J].Signal,Image and Video Processing,2021,15(1):215-222.
[31]Ali M M.Real-time video anomaly detection for smart surveillance[J].IET Image Processing,2023,17(5):1375-1388.
[32]Szymanowicz S,Charles J,Cipolla R.Discrete neural representations for explainable anomaly detection[C]//Proc of IEEE Winter Confe-rence on Applications of Computer Vision.2022:148-156.
[33]Chen Tianyu,Hou Chunping,Wang Zhipeng,et al.Anomaly detection in crowded scenes using motion energy model [J].Multimedia Tools and Applications,2018,77(11):14137-14152.
[34]Zhou Shifu,Shen Wei,Zeng Dan,et al.Spatial-temporal convolutional neural networks for anomaly detection and localization in crowded scenes[J].Signal Processing:Image Communication,2016,47:358-368.
[35]Aziz Z,Bhatti N,Mahmood H,et al.Video anomaly detection and localization based on appearance and motion models[J].Multimedia Tools and Applications,2021,80(17):25875-25895.
[36]Zhang Sijia,Gong Maoguo,Xie Yu,et al.Influence-aware attention networks for anomaly detection in surveillance videos[J].IEEE Trans on Circuits and Systems for Video Technology,2022,32(8):5427-5437.
[37]Sabih M,Vishwakarma D K.A novel framework for detection of motion and appearance-based anomaly using ensemble learning and LSTMs [J].Expert Systems with Applications,2022,192:116394.
[38]Xia Limin,Li Zhenmin.An abnormal event detection method based on the Riemannian manifold and LSTM network [J].Neurocomputing,2021,463:144-154.