999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的前沿視頻異常檢測方法綜述

2025-04-10 00:00:00李南君聶秀山李拓鄒曉峰王長紅
計算機應用研究 2025年3期
關鍵詞:深度學習

摘 要:視頻異常事件檢測逐漸成為計算機視覺領域的研究熱點之一,具有重要研究意義和應用價值。近年來,以卷積神經網絡為核心的深度學習技術在多項機器視覺任務中展現優異性能,極大地啟發了其在視頻異常事件檢測領域的應用。為此,針對近年來基于深度學習的視頻異常事件檢測相關研究進行全面梳理與系統歸納。首先,根據視頻異常檢測實現流程的三個核心要素,即檢測模式、樣本設置及學習/推理機制,提出一種由淺入深的多級分類方案,面向前沿深度學習方法開展逐類概述并提煉代表性算法數學模型,同時聚焦現有方法的局限性進行闡述;其次,介紹本領域主流的基準測試數據集,匯總并對比當前先進方法在不同數據集上的檢測性能;最后,圍繞復雜光照/天氣條件、多模態圖像顯著融合、可語義解釋及自適應場景感知四個方面對未來重點研究方向進行討論和展望,期望為該領域的后續研究提供借鑒與參考。

關鍵詞:智能監控; 視頻異常檢測; 深度學習; 卷積神經網絡; 生成對抗網絡

中圖分類號:TP391"" 文獻標志碼:A

文章編號:1001-3695(2025)03-003-0663-14

doi:10.19734/j.issn.1001-3695.2024.06.0241

Frontier video anomaly detection methods based ondeep learning: comprehensive review

Li Nanjun1,2, Nie Xiushan3, Li Tuo1,2, Zou Xiaofeng1,2, Wang Changhong1,2

(1.Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Co., Ltd., Jinan 250013, China; 2. Shandong Inspur Artificial Intelligence Research Institute Co., Ltd., Jinan 250013, China; 3. School of Computer Science amp; Technology, Shandong Jianzhu University, Jinan 250101, China)

Abstract:Video anomaly detection(VAD) is one of the hottest research topics in the field of computer vision, which is significant for research and valuable for application. In recent years, inspired by the outstanding performances of deep learning technologies represented by the convolution neural networks on various tasks of machine vision, a large number of deep learning-based VAD researches have rapidly emerged. To this end, this paper comprehensively sorted out and systematically summarized the deep learning-based VAD researches. Firstly, it proposed a multi-level classification scheme based on the three core elements of anomaly detection process including detection strategy, sample setting and learning/inferring mechanism, which was utilized to summarize the frontier deep learning-based VAD methods by class, refined the mathematical models of representative algorithms and elaborated the limitations of existing works simultaneously. Secondly, it introduced the benchmark datasets of video anomaly detection and compared the performances of advanced methods on diverse datasets. Finally, it discussed the future research directions in four aspects as follows: complex lighting/weather conditions, fusion of multi-modal images, semantic interpretability and adaptive scene perception, which was expected to provide references for future research works in this field.

Key words:intelligent surveillance; video anomaly detection; deep learning; convolutional neural network; generative adversarial network

0 引言

隨著經濟飛速發展和城市化進程加快,人口密度急劇增長,社會公共安全問題日益凸顯。全球范圍內每年因恐怖襲擊、交通意外、群體性聚會等引發的安全事故和突發情況頻發,造成了巨大生命財產損失并引發了一系列嚴重的連鎖后果。而視頻監控系統具備全天候實時采集監控場景畫面的功能,能夠及時顯示監控區域發生的可疑情況,在維護社會公共安全秩序和保障人民生命財產安全方面發揮重要作用。當前,在各國一系列重要舉措與核心政策支持下,公共視頻監控系統建設加速推進落地,形成多個大型監控示范應用如美國“綠燈計劃”項目、歐盟“ADABTS”項目、中國“天網”項目等。由此,街道、辦公樓、商場等公共場所及醫院、機場、火車站等重要機構中部署的監控設備數量迅速上升,產生了龐大體量的視頻數據。然而,傳統監控系統依靠人工進行視頻分析與事件理解的模式面對海量視頻數據時逐漸凸顯出運行成本昂貴、執行效率低下等劣勢,亟需發展具備自主提取視頻信息并反饋事件內容能力的智能監控系統。

作為智能監控系統的關鍵技術之一,視頻異常事件檢測(video anomaly detection,VAD)任務近期成為學術界與產業界中研究熱點之一。該技術旨在借助圖像處理與機器學習相關理論方法,自動檢測監控視頻場景中各類目標(行人、汽車等)違背尋常的運動行為與外觀狀態引發的非常規事件,既包括在視頻時序維度上識別異常事件發生時刻(視頻序列內哪幀圖像包含異常,又稱幀級別異常事件或異常幀),也包括在視頻空間維度上定位異常事件發生區域(異常幀內哪個像素或目標為異常,又稱像素/目標級別異常事件或異常像素/目標)。通過視頻異常檢測技術推廣應用,能夠實現傳統“人工觀察”工作機制的替代化,最大程度地避免異常事件誤檢與漏檢情況,進而提升監控效率并降低人力成本,對于智能監控系統完善和發展具有十分重要的研究意義與應用價值。

與網絡入侵識別[1]、工業故障診斷[2]及大數據分析[3]等領域中異常檢測任務相同,根據訓練模式的差異,視頻異常事件檢測常用的策略分為全監督(fully-supervised)、半監督(semi-supervised)與無監督(unsupervised)三種。其中前兩種策略均依賴預先標注的視頻事件樣本訓練異常檢測模型,不同之處在于全監督策略需要異常樣本,而半監督策略僅需要正常樣本學習正常事件模型。至于無監督策略,則無須任何額外預先標注的訓練樣本,直接由待測事件樣本生成訓練樣本,用于學習檢測模型以發現異常事件。三種策略基本框架如圖1所示。

當前,以卷積神經網絡(convolutional neural network,CNN)為代表的深度學習模型(deep learning model,DLM)在多項計算機視覺(computer vision,CV)領域的任務如目標檢測[4]、行為識別[5]及視頻描述[6]上展現出優異性能。由此基于DLM的異常事件檢測新方法不斷涌現,這些方法參照上述三種策略,以各類DLM網絡為基礎架構設計異常檢測模型。

隨著研究的深入以及成果的推新,諸多學者面向基于DLM的視頻異常事件檢測開展了一些綜述性工作,本文針對一些極具代表性且水平較高的工作[7~10]進行分析。Pang等人[7]對基于DLM的異常檢測方法進行全面梳理,然而其并非聚焦CV領域的視頻異常事件檢測開展,其中部分方法分類不適用于VAD。Kiran等人[8]圍繞視頻異常事件檢測方法進行詳實總結,然而其側重半監督與無監督策略,忽略當前主流的全監督策略。Chandrakala等人[9]從學習范式角度出發,對全監督(原文中“二分類”問題)、半監督(原文中“單分類”問題)及無監督(原文中“自分類”問題)方法進行細致歸納,然而其部分類別中相關方法較為傳統,缺乏近期公布的先進工作。此外,文獻[10]僅依據異常判定的基本原理對現有方法執行單級分類,未能實現在檢測模式、樣本設置、學習/推理機制不同層次上由淺入深地多級分類。

一般來說,基于DLM的視頻異常事件檢測研究基本流程為:首先,選擇檢測模式,采用全監督、半監督及無監督策略中的任意一種;繼而,依據所選檢測模式設置訓練樣本數據;最后,構建深度神經網絡作為異常檢測模型,基于訓練樣本設計損失函數進行檢測模型迭代學習,并利用訓練好的檢測模型開展異常事件推理。為實現前沿視頻異常事件檢測研究的全面總結與系統歸納,按照異常檢測研究過程,提出一種由檢測模式、樣本設置到學習/推理機制的三級分類方案,如圖2所示,注重從多角度出發對當前先進成果進行全面覆蓋、精準分類、細致描述。

1 基于全監督模式的方法

早期的全監督視頻異常事件檢測方法使用二值分類策略[11]:在訓練階段,同時利用正常和異常事件樣本(原始視頻片段、局部片段或目標/骨架序列等)訓練CNN等DLM網絡;之后在測試階段,采用訓練好的網絡進行待測視頻中正常/異常事件分類,典型流程如圖3所示。

這些方法充分發揮了CNN在數據識別分類方面優勢,然而,受制于二分類識別機理,存在兩個關鍵弊端:a)需要在閉集合(closed-set)設置下工作,詳細地說就是在訓練階段建立分類器過程中必須指定訓練數據包含所有待測類型的異常事件樣本,換言之,只能檢測訓練數據中出現過的已知類型的異常事件,而對于未知類型的異常事件由于事先未獲取其先驗信息,無法有效檢測;b)需要在強監督(strongly-supervised)設置下工作,具體而言就是對于幀級別異常事件檢測必須依賴幀層次的真實值標注完成,難以利用粗粒度的視頻層次真實值標注實現,由此耗費人工標注成本更高。為此,近期研究從以上兩個方面入手對全監督方法進行改進。

1.1 基于開集合設置的方法

針對傳統全監督異常事件檢測方法需要采用閉集合設置進行檢測模型訓練,僅能識別已知類型異常事件的問題,部分前沿工作[12~14]開始進行面向開集合(open-set)設置的方法研究。這些方法只需訓練數據中包含部分待測類型的異常事件即可,能夠實現未知類型的異常事件檢測。Liu等人[12]率先提出基于邊界學習(margin learning,MNL)的開集合設置下的異常檢測方法。該方法以正常樣本與少量已知類型的異常樣本為輸入,通過將MNL模塊嵌入視頻預測網絡,在原始預測損失上添加三元組損失(triplet loss,TPL),實現隱含層特征空間中學習緊湊的正常特征分布,同時擴大其與已知異常特征分布間距離,進而完成未知類型的異常事件檢測,如圖4所示。TPL的計算如下:

Ltriplet=max(0,‖fa-fn‖22-‖fa-fp‖22+δ)

(1)

其中:fa、fn與fp分別表示參考視頻片段、正常視頻片段與異常視頻片段對應的隱含層特征(參考視頻片段也為正常)。

Huang等人[13]在上述框架的基礎上,引入了變分正太推理(variational normal inference,VNI)模塊,與MNL模塊發揮優勢互補,從而提升邊界度量學習效果。VNL模塊采用KL(Kullback-Leibler)散度進一步聚合正常特征分布:

LKL=DKL[qφ(fa|sa)‖pθ(fn|sn)]

(2)

其中:qφ(fa|sa)為正常參考片段特征分布;pθ(fa|sa)為正常片段特征分布。

Acsintoae等人[14]首次公開了一個開集合監督式異常事件標準數據集UBnormal。該數據集由多個虛擬場景組成,且訓練集和測試集合中包括不相交類型的異常事件,以滿足開集合設置要求。同時,其提供了專用的驗證集用于檢測網絡超參數微調,避免在測試集上進行調參引發過擬合。該數據為開集合全監督方法與閉集合全監督方法的公平對比提供標準。

1.2 基于弱標注設置的方法

針對傳統全監督異常事件檢測方法需要使用細粒度的強標注樣本進行檢測模型訓練從而導致人工成本高昂的問題,一些先進研究[15~18]借鑒弱監督理論,提供了基于弱標注設置的方法。這些方法能夠利用粗粒度的弱標注樣本,實現精細程度更高的異常檢測,例如以視頻層面的真實值標注完成幀級別的異常事件識別。

按照所用學習框架的差異,已有的弱標注全監督方法分為基于多實例學習的方法與基于非多實例學習的方法。

1.2.1 基于多實例學習的方法

在文獻[15]中,Sultani等人率先公布了基于多實例學習(multiple instance learning,MIL)的弱標注異常檢測方法:首先,將視頻層次標注的異常視頻(某處包含異常,具體位置未知)和正常視頻(不包含異常)劃分為多個視頻片段;其次,引入MIL框架將每個完整視頻視為一個袋子,而把每個局部片段看做袋中的一個實例;再次,使用預訓練的三維卷積(3D convolutional,C3D)網絡獲取視頻片段時空特征后,設計一種全新的MIL排序損失對由多個全連接(fully connected,FC)層組成的異常得分預測網絡進行回歸訓練。損失函數準則為異常袋中實例的得分最大值高于正常袋中實例的得分最大值(異常袋中必存在異常片段,而正常袋中沒有),如下所示。

maxi∈Ba s(fia)gt;maxi∈Bn s(fin)

(3)

其中:Ba與Bn分別為異常袋與正常袋;s(fia)與s(fin)分別表示Ba中實例得分與Bn中實例得分。

在添加稀疏約束項(式1)與時序平滑約束項(式2)限制后,排序損失表示為

LMIL=max(0,1-maxi∈Ba s(fia)+maxi∈Bn s(fin))+

λ1∑n-1i(s(fia)-s(fi+1a))21+λ2∑nis(fia)2

(4)

最后,采用訓練完備的FC網絡輸出待測視頻片段的異常得分,進而完成異常視頻幀判定。圖5展示了典型流程。

后續研究在文獻[15]的基礎上,主要從損失函數[16,17]、特征表示學習[19~22]以及訓練方式[18,23,24]三個方面對MIL框架進行優化,從而強化粗粒度的弱標注樣本下的異常事件檢測性能,如圖6所示。

1)損失函數優化的方法 Zhang等人[16]在原始C3D特征提取框架中嵌入時序卷積網絡(temporal convolutional network,TCN)以捕獲當前實例(視頻片段)和其相鄰實例間時序信息。同時考慮到原始MIL排序損失僅關注了Ba與Bn間實例對應異常得分的關系,不足以約束弱監督學習的大搜索空間,提出引入袋內損失(inner bag loss,IBL)項。IBL項包含Ba內排序損失與Bn內相似損失兩部分,分別用于增大Ba內正常實例(得分最小者)與異常實例(得分最大者)得分差距,并縮小Bn內任意實例間得分差距(全部實例均為正常),分別表示為

LIB-Ba=max(0,1-maxi∈Ba s(fia)+mini∈Ba s(fia))

(5)

LIB-Bn=minmaxi∈Bn s(fin)-mini∈Bn s(fin)

(6)

Wan等人[17]則采用三維膨脹卷積(3D inflated convolution,I3D)層提取視頻片段特征,然后利用FC層構建異?;貧w網路(anomaly regression network,AR-Net)用于預測異常得分。此外,鑒于傳統MIL排序損失只偏重Ba與Bn中得分最大值,無法感知不同視頻片段變化,設計基于k-max選擇策略的動態多實例損失(dynamic multiple instance learning,DMIL)損失。具體而言,選取Ba或Bn中k個最大得分,分別與視頻標簽計算交叉熵,表示如下:

LDMIL=1k∑ki∈B[-ylog(s(fi*))]+1k∑ki∈B[(1-y)log(1-s(fi*))]

(7)

其中:y為視頻標簽。若=a,y=1;若=b,y=0。最小化LDMIL,可以使Ba中異常實例得分越大,Bn中正常實例得分越小,進而增大兩者差異(類間差距)。值得注意的是,不同于之前的排序損失,DMIL損失并非成對計算的。

其次,受文獻[16]啟發,設計了中心損失(center loss,CEL)來約束Bn袋內正常實例差異(類內差距),表示如下:

LCL=1n∑ni=1‖s(fin)-c‖22,c=1n∑ni=1s(fin)

(8)

通過基于上述損失函數的加權融合訓練,保證了高度判別性特征表示提取。

2)特征表示學習優化的方法

先述研究均使用預訓練的C3D或I3D網絡作為特征編碼器提取視頻片段相應特征表示,且在MIL執行過程中,未對特征編碼器參數進行迭代訓練,致使無法得到針對當前任務的特征。為此,文獻[19]構筑融入自引導注意力模塊(self-guided attention module)的特征編碼器,以聚焦視頻幀內異常區域,并在訓練過程中基于MIL排序損失循環更新編碼器權重,以獲取任務導向的判別性特征表示。

文獻[20]使用PWC-Net[25]計算視頻片段相鄰幀間光流值,隨后以光流圖序列為輸入,提出時序增強網絡(temporal augmented network,TAN)提取視頻片段的運動感知特征。同時設計嵌入注意力機制的時序MIL排序損失,訓練特征編碼器TAN,以全面參考視頻序列時序上下文信息,用于區分異常片段與正常片段。

文獻[21]則針對之前方法未能學習視頻片段局部區域特征的問題,提供一種雙分支特征編碼架構。其中,時序分支以原始視頻片段作為實例輸入,采用C3D層提取時空特征;而空間分支以由視頻片段劃分的局部片段作為實例輸入,在提取局部區域特征基礎上實現空間維度的異常事件定位。其次,在每個分支中添加一個關系推理模塊(relationship reasoning module)來挖掘視頻片段/局部片段之間的相關性,為異常事件的概念學習提供豐富的上下文信息和復雜的實體關系。此外,創建相互引導的漸進式細化(mutually-guided progressive refinement)模式,在雙分支結構間迭代共享輔助監督信息,推動每個分支的概念學習對相應分支的指導,進而逐步完成整個特征編碼架構的細化學習。

3)訓練方式優化的方法

Yu等人[18]在訓練方式上對先前MIL方法進行優化。考慮到MIL框架將弱標注異常檢測視為異常實例與正常實例的異常得分回歸問題,單純使用小批次(mini-batch)訓練策略容易受到兩類事件樣本不均衡的影響,提出跨周期學習(cross-epoch learning,XEL)的訓練方式,在當前訓練周期引入來自先前周期的額外信息。具體而言,在每個訓練周期結束后從Bn中收集難實例樣本(Bn中異常得分最大的正常實例)對應的C3D/I3D特征,來組成難實例庫(hard instance bank,HIB),用作下個訓練周期中每個批次的補充數據。進一步,參照文獻[17],設計動態邊界損失(dynamic margin loss,DML)與驗證損失(validation loss,VL)訓練FC異常得分預測網絡,遵循擴大類間差距的同時縮小類內差距的主旨。

鑒于小批次訓練策略相鄰兩次訓練迭代(iteration)所用的輸入批次中C3D特征對應的實例在視頻序列時序維度上相鄰,進而具有較強數據相關性,會削弱FC得分網絡的學習性能。在文獻[23]中,Zaheer等人研究基于隨機批次的訓練方式,對于每次訓練迭代在所有C3D特征樣本中任意選擇一個批次,以消除相鄰迭代對應批次間的相關性。在此基礎上,提出正常抑制(normalcy suppression,NMS)機制,并依據文獻[16],設計聚類損失(clustering loss,CSL)完成異常實例與正常實例的異常得分評估。

針對在原始MIL框架中由Ba篩選異常得分最大的單一實例計算損失函數容易出錯(篩選得到的實例并非異常),并隨著訓練過程演進不斷損害得分網絡性能的瓶頸(導致對正常實例預測較高異常得分),Li等人[24]首次貢獻多序列學習(multi-sequence learning,MSL)方法。通過序列選擇機制由Ba中挑選平均異常得分最大的序列(多個相鄰實例組成)作為損失函數計算項,以降低異常實例選擇錯誤的風險,損失準則表示如下:

maxi∈Ba s(qia)gt;maxi∈Bn s(qin)

qia={fia}Ki=1,s(qia)=1K∑Ki=1s(fia)

(9)

其中:qia與qin分別為來源于Ba與Bn的序列。由此,MSL排序損失計算為

LMSL=max(0,1-maxi∈Ba s(qia)+maxi∈Bn s(qin))

(10)

之后,引入自訓練[26]方式對以Transformer層[27]為基礎架構的異常得分預測網絡進行迭代更新。詳細地說,以先前訓練周期輸出的所有實例的異常得分為依據訓練得分網絡,然后使用訓練后的模型生成更可靠的實例得分作為下次訓練周期的輸入。

1.2.2 基于非多實例學習的方法

盡管MIL框架在弱標注異常事件檢測任務上展示出強大功能,相關工作占據極高比例,一些研究[28,29]仍試圖探索其他解決方案。例如,Zhong等人[28]提出交替優化(alternate optimization,ATO)框架實現弱標注異常檢測:首先,利用主流的動作識別模型如時序片段網絡(temporal segment network,TSN)[30]獲得視頻片段偽標注(分類階段);其次,使用圖卷積網絡(graph convolution network,GCN)[31]基于特征相似性與時序延續性清洗視頻片段偽標注,去除置信度較低的標注(更正階段);再次,根據更新后的標注對動作識別模型進行重新訓練,以輸出更精準的標注;最后,分類階段與更正階段交替執行多次,直至得到可靠的動作識別模型,并在推理階段直接用于預測視頻片段異常與否。Zaheer等人[29]提供自推理框架開展視頻片段偽標注的循環生成與更正,該框架核心思路與上述ATO框架一致。

1.3 本章小結

部分前沿全監督視頻異常檢測工作[32,33]面向更具挑戰性的開集合與弱標注雙重設置下進行研究,這些工作充分借鑒現有方法提出的相應技術處理有關問題。比如,在文獻[32]中,融合了MNL框架[12]、MIL框架[15]以及基于GCN的偽數據生成與更正框架[28],實現開集合設置下基于弱標注數據的未知類型異常事件檢測。另外,當前弱標注視頻異常檢測研究僅涉及不確切標注的情況,缺乏針對不完全標注與不正確標注等弱標注情況的研究。

2 基于半監督模式的方法

先前的半監督視頻異常事件檢測方法依賴卷積自編碼器(convolutional autoencoder,CAE)[34]與生成對抗網絡(generative adversarial network,GAN)[35]等DLM網絡建模正常事件分布。然而,傳統CAE存在泛化水平過高、容納能力過強等問題,傳統GAN則存在訓練過程不穩定、梯度消失等痛點。為此,近期研究側重在原始CAE或GAN內部嵌入注意力模塊[36~41]、記憶模塊[42~45]、GCN層[46~48]、瓦氏距離[49]或Inception模塊[50]等典型單元中的一種或多種來對網絡結構進行優化,以建立更加完善的正常事件模型,進而提升異常檢測精度。此外,一些研究[51~55]開始著手面向小樣本設置進行方法設計,以應對訓練事件樣本不足情況,從而提高異常檢測對場景變化的適應性。

2.1 基于改進CAE/GAN的方法

依據所用異常推理機制的不同,當前基于改進CAE/GAN的半監督方法分為基于評估式的方法和基于判別式的方法。

2.1.1 基于評估式的方法

基于評估式的方法通過對預訓練CAE/GAN(正常事件模型)生成的事件樣本質量進行評價以判別異常事件(通常GAN中的生成器采用CAE結構,與判別器對抗學習提高生成能力)。對應于事件樣本的生成方式,常用的評估標準有重構誤差、預測誤差以及重構預測融合誤差。

其中,重構誤差來源于基于重構的生成方法,這類方法利用CAE/GAN對各類形式的輸入樣本(原始視頻片段、局部片段及目標/骨架序列等)進行復現,并計算復現輸出與原始輸入間的偏差作為重構誤差。進行異常檢測時(如圖7(a)所示),在訓練階段,僅采用正常樣本為輸入,以較低誤差對其復現為目標學習生成網絡;之后在推理階段,計算待測樣本的重構誤差作為異常判定依據。針對訓練過程未出現過的異常樣本,將得到質量較差的復現,進而輸出較大的重構誤差。計算流程如式(11)所示。

預測誤差來源于基于預測的生成方法,這類方法利用CAE/GAN,以各類樣本的歷史時刻信息為輸入,對當前某一時刻或連續時刻狀態進行預測,并計算預測輸出與真實值間的偏差作為預測誤差。進行異常檢測時(如圖7(b)所示),同樣僅采用正常樣本訓練生成網絡以較低誤差對其預測,繼而計算待測樣本的預測誤差用于異常推斷。類似地,針對異常樣本,將得到質量較差的預測,從而對應較大的預測誤差。計算流程為

(12)

其中:Ι={I1,I2,…,It-1}表示歷史時刻輸入;I^t為預測樣本;It為相應真實值;Ι′表示待測事件樣本I′t對應歷史時刻信息。

重構預測融合誤差,顧名思義,即重構誤差與預測誤差的結合,這需要相關方法中CAE/GAN同時執行重構與預測。

按照上述三種誤差,基于改進CAE/GAN的評估式方法分類如圖8所示。

1)基于重構誤差的方法 鑒于原始CAE結構具有較強泛化能力,即使僅利用正常事件樣本進行訓練,部分情況下針對異常樣本也會生成質量較高的復現樣本,進而產生較低重構誤差,致使異常事件漏檢。為此,Gong等人[42]在CAE中嵌入記憶模塊,構造記憶增強自編碼器(memory-augmented autoencoder,MemAE)。相較于傳統CAE,MemAE中的記憶模塊在訓練階段結束后存儲了正常視頻幀相應隱層特征的典型模式;之后,在測試階段,以編碼器輸出的待測幀的隱層特征作為查詢,在記憶模塊存儲的所有特征記錄中檢索與其最相關的記憶項輸入解碼器復現待測幀。由于記憶模塊中只記錄了正常特征,所以任意待測幀的重構版本都將趨于接近正常,從而擴大了異常幀的重構誤差,克服CAE強泛化能力的問題。Park等人[43]在文獻[42]的基礎上設計特征緊湊性和離散性損失來訓練記憶模塊,以提升記錄正常樣本典型模式的記憶項的判別能力;同時,在測試環節根據待測樣本狀態持續更新記憶項,以應對場景變化。

Nguyen等人[57]在GAN中生成器CAE內部嵌入跨越連接操作同時加入Inception模塊[73]減少網絡深度的影響。另外,值得注意的是,該生成器CAE包含一種單編碼器-雙編碼器架構,能夠同時重構原始視頻幀及其對應光流。類似地,Wang等人[59]在CAE的編碼層(下采樣層)與解碼層(上采樣層)間引入跨越連接(skip-connection)操作以緩解層間傳輸導致的特征損失,從而優化重構質量。

Chen等人[60]側重目標級別異常檢測,因此在使用預訓練的姿態估計模型檢測并提取視頻場景中人體目標骨架的基礎上,在時序和空間兩個維度上構建多尺度時空骨架圖表示作為輸入樣本。同時基于GCN層設計多尺度時空注意力圖卷積模塊(multiscale spatial temporal attention graph convolution block,MSTA-GCB)組建CAE的編碼器與解碼器。其中,編碼器在時域和空域上對骨架圖多尺度信息進行抽取,對應地,解碼器依據隱含層信息重構骨架圖,實現異常人體骨架重構判別。

同樣地,在文獻[61]中,Wang等人采用預訓練目標檢測模型識別并定位視頻場景中各個目標類別與區域,并構建以Transformer層為基礎的全新CAE模型——時空自轉換編碼器(spatio-temporal auto-trans-encoder,STATE)。通過Transformer層中自注意力機制更好地建模連續目標區域間時序關系,進而改善重構質量,完成異常判定。

2)基于預測誤差的方法 文獻[47]以歷史時刻人體時空骨架圖為輸入,利用時空圖卷積網絡(spatial temporal graph convolutional network,ST-GCN)對當前時刻骨架圖進行預測,之后計算預測骨架圖與真實骨架圖間關節點坐標偏差作為預測誤差。在該工作基礎上,Zeng等人[48]提出低層次/高層次融合時空骨架圖表示:低層次表示需要精準檢測每一關節點的位置坐標以刻畫人體局部動作姿態變化(即文獻[47]中的原始骨架圖),適用于骨架易于提取的高分辨率、人群稀疏場景視頻;而高層次表示使用單個節點(骨架圖幾何中心)表征人體全局運動速度與方向,并建模不同個體間交互作用,適用于骨架難以提取的低分辨率、人群密集場景視頻;之后構建分級ST-GCN采用多分支結構對不同層次時空骨架圖表示進行預測,并對預測誤差進行加權融合作為最終異常骨架的判別依據。通過此策略,解決了文獻[47]僅使用單一低層次骨架圖表示,只能應用于高分辨率視頻的問題,由此提升了針對場景變化的魯棒性。

類似地,Huang等人[65]整合GCN與Transformer設計時空圖轉換(spatio-temporal graph transformer,STGformer)模型對人體時空骨架圖高層次全局表示與低層次局部表示進行分級處理。具體而言,STGformer中全局分支使用GCN編碼描述不同個體間交互關系的全局空間圖(與文獻[48]一致,此時個體采用中心質點表示),隨后利用時序Transformer學習連續時刻全局圖的時序依賴,最后利用FC層對未來時刻全局圖進行預測;至于STGformer中的局部分支,使用上述步驟對描述每一個體內關節點連接的局部空間圖進行預測。兩個預測誤差聯合用于異常骨架檢測。

不同于傳統GAN中判別器直接面向生成樣本與真實樣本進行區分來提升生成器預測能力,文獻[63]將預測視頻幀及對應真實值與歷史時刻連續幀拼接組成片段后,從片段時空一致性角度出發辨別生成樣本與真實樣本以強化生成器預測性能,保證其輸出的預測正常幀與歷史輸入的時空一致性。類似地,文獻[64]提供雙判別器分別在幀級別與片段級別開展預測幀的空間一致性與時序連貫性評估,同時在生成器中引入時序Transformer替代文獻[63]中的C3D層來捕獲視頻動態變化。

Wang等人[66]使用多個殘差模塊[74]連接組成的編碼器與解碼器進行多路視頻幀預測,編碼器內每個殘差模塊獲得的不同尺寸特征圖經過預測模塊輸出相應尺寸的未來時刻特征圖,繼而與解碼器對應模塊輸出融合拼接后得到最終預測幀,由此處理視頻幀不同尺度區域。此外,訓練預測模型時,除采用傳統逐像素計算的預測誤差,提出噪聲容限損失以減輕視頻幀中背景像素固有噪聲引起的干擾,從而改善預測效果。

3)基于重構預測融合誤差的方法 Liu等人[45]提出一種重構/預測耦合框架HF2-VAD:一方面,設計跨越連接多級記憶模塊自編碼器(multi-level memory modules in an autoencoder with skip connections,ML-MemAE-SC)進行光流重構。相較于傳統Mem-AE[42,43],ML-MemAE-SC內部嵌入多個記憶模塊以確保更全面記錄正常模式,同時添加跨越連接避免信息濾除過度;另一方面,以重構光流為條件輸入,使用條件變分自編碼器(conditional variational autoencoder,CVAE)執行視頻幀預測。由此光流重構質量將影響幀預測質量,重構效果不佳的異常光流會進一步惡化對應異常幀預測效果,進而有助于異常識別。

相反地,Zhong等人[68]構建重構/預測級聯架構以視頻幀重構結果作為光流預測輸入,在光流預測GAN網絡的生成器中利用壓縮與激勵(squeeze-and-excitation,SE)模塊實現通道注意力機制,從而獲取不同通道特征圖的重要性權重,以優化光流預測效果。

部分研究則將重構流程和預測流程設置為兩個互不干擾的獨立環節。Morias等人[70]研究一種基于門控循環單元(gated recurrent unit,GRU)的單編碼器雙解碼器CAE網絡,單編碼器將人體骨架軌跡映射為隱層特征表示后,雙分支解碼器分別對當前連續時刻和未來連續時刻的骨架軌跡進行重構和預測。類似地,Lee等人[71]提出集成獨立上下文外觀預測分支和運動重構分支的混合結構。其中預測分支利用基于Transformer層的CAE開展多上下文設置的目標圖像預測,而運動分支使用經典CAE執行目標光流重構,兩個分支單獨運行且互不干涉。預測誤差和重構誤差融合后用于異常推理。

2.1.2 基于判別式的方法

基于判別式的方法直接使用CAE/GAN訓練過程學習到的各類模型判別待測事件樣本異常與否,如圖9所示。根據所用模型的類別,可以分為基于判別器模型的方法[49,75~79]、基于概率模型的方法[80~85]及基于決策模型的方法[86~90],如圖10所示。

其中,基于判別器模型的方法利用GAN的判別器部分輸出待測事件樣本對應生成樣本(重構/預測)與真實樣本的相似性,用作異常判定基準。一般來說,GAN的訓練結果是生成器能夠合成與真實樣本高度一致、判別器無法鑒別的生成樣本。由此,進行異常檢測時,僅采用正常樣本訓練得到的判別器在推理階段難以區分正常樣本對應的生成樣本,進而輸出較高的相似值;易于區分異常樣本對應的生成樣本,進而輸出較低的相似值。計算流程如式(13)所示。

基于概率模型的方法一般面向CAE編碼器映射的事件樣本的隱層特征,而非解碼器輸出的生成樣本。進行異常檢測時,在訓練階段,選擇合適策略建立正常樣本隱層特征分布的概率密度模型;隨后在推理階段,根據待測樣本在正常特征分布模型下的條件概率值判別其是否為異常。計算流程為

(14)

其中:G( )為正常樣本隱層特征分布的概率密度函數;W表示分布參數(如均值、方差等)。

基于決策模型的方法同樣側重分析CAE編碼器輸出的事件樣本隱層特征。進行異常檢測時,在正常特征分布區域外構建緊致決策分類面包圍大多數正常樣本;而在推理階段,落在分類面外的待測樣本被判別為異常。計算流程如式(15)所示。

(15)

其中:D( )為決策模型如單類支持向量機(one-class support vector machine,OS-SVM)或支持向量數據描述(support vector data description,SVDD);W表示決策模型的參數;W為訓練更新后的參數。

1)基于判別器模型的方法 針對傳統GAN中判別器訓練過程不穩定、梯度易消失等缺陷,文獻[49]在判別器中引入瓦氏距離(earth-mover距離)替代JS(Jensen-Shannon)散度來評估預測視頻幀與真實視頻幀之間相似性,以提升訓練階段平穩性,構建模型稱為瓦氏生成對抗網絡(Wasserstein generative adversarial autoencoder,WGAN)。與此同時,在WGAN生成器中嵌入運動一致性約束項提升正常視頻幀預測質量,確保判別器輸出較高相似性得分。

同樣地,文獻[75,76]使用瓦氏距離擬合生成樣本與真實樣本的相似性。值得注意的是,考慮到單一判別器的局限性,文獻[76]設計的視頻上下文提示生成模型包含兩個WGAN分支,即區域合成網絡(region synthesizing network,RSN)與場景細化網絡(scene refining network,SRN)。其中,RSN的生成器Gr利用視頻時序上下文線索(光流)對視頻幀局部區域進行重構,而SRN的生成器GS利用Gr的輸出作為視頻空間上下文線索對視頻幀整體場景進行重構。RSN的判別器Dr與Gr基于瓦氏距離完成對抗學習后能夠在局部層次上鑒別不協調區域(異常生成樣本),而SRN的判別器Ds能夠在整體層次上鑒別扭曲場景(異常生成樣本)。由此,在推理階段,兩個判別器的輸出聯合用于異常識別。

鑒于原始GAN的訓練階段判別器僅面向由正常樣本生成的單一樣本與對應真實樣本進行真/假二分類,致使其鑒別能力有限、容易出現異常漏判的問題,Huang等人[79]采用自監督機制設計輔助任務(proxy task),將單一正常預測幀進行多次旋轉后與相應真實視頻幀聯合組成樣本集合,旋轉角度作為樣本標簽,用于開展判別器基于旋轉角度的多分類訓練,進而強化判別器鑒別能力,優化異常判別效果。

2)基于概率模型的方法 部分研究假設正常樣本符合某一特定概率分布,并通過參數估計獲取其概率密度模型。Ou-yang等人[80]在高斯混合模型(gaussian mixture model,GMM)框架下建模CAE輸出的正常目標圖像對應隱層特征分布,并在訓練過程采用期望最大化(expectation maximization,EM)算法求解GMM參數。在測試過程,異常圖像特征難以與建立的GMM中任意高斯分量相關聯,從而在任意高斯分量下的條件概率值很低。針對EM算法中交替迭代運算冗長的問題,鐘友坤等人[81]搭建由多個FC層構成的多層感知機估計GMM的參數并評估樣本的似然。具體而言,利用MLP與softmax函數預測每個正常視頻幀屬于GMM中任意分量的概率,基于N個正常幀預測結果即可估計GMM參數。

鑒于概率密度模型參數求解需要依賴大量數據樣本,計算過程耗時長且復雜的難點,一些研究預先設定參數已知的先驗概率模型,并通過分布度量策略拉近正常樣本分布與預設的先驗概率分布,進而擬合正常樣本的概率模型。其中,Fan等人[82]通過變分自編碼器(variational autoencoder,VAE)中的KL(Kullback-Leibler)散度逼近正常隱層特征分布與已知參數的先驗GMM分布。然而,KL散度是非對稱的。由此,Li等人[83]利用對抗自編碼器(adversarial autoencoder,AAE)中編碼器與判別器的對抗學習近似正常視頻幀對應的隱層特征分布與先驗多元高斯分布。

3)基于決策模型的方法 胡海洋等人[86]使用C3D層提取正常視頻片段的時空高維特征后,引入降噪自編碼器(denoising autoencoder,DAE)對高維特征進行降維,繼而用于訓練OS-SVM模型創建超平面來分割正常特征。詳細地說,創建分類超平面時最大化超平面到中心的距離并確保大部分正常特征落在超平面內側。而在檢測環節, 落在超平面外側的特征對應的待測視頻片段為異常。但是OC-SVM模型構建的超平面屬于半開放決策面,難以全面包圍正常樣本分布區域, 從而削弱OC-SVM的異常檢測性能。因此,Wu等人[90]采用SVDD模型基于強約束創建封閉超球面,完整包裹正常視頻片段的時空隱層特征,以提升異常辨別能力。

2.2 基于小樣本學習的方法

根據檢測模型跨領域傳遞所選策略的不同,現有基于小樣本學習的半監督方法分為基于遷移學習的方法和基于元學習的方法。

2.2.1 基于遷移學習的方法

Sun等人[51]率先使用遷移學習(transfer learning)完成小樣本情況下的視頻異常檢測任務。首先,在源領域(通用場景)基于大規模強標注視頻事件樣本開展特征編碼器s監督式分類訓練;其次,搭建領域適應模塊(domain adaption module,DAM),利用目標領域(異常場景)中少量的正常事件樣本將s由源領域遷移至目標領域,縮小領域間差異;最后,采用遷移后的編碼器t進行目標領域下異常檢測。由此,目標領域無須依賴大量預標注事件樣本執行特征提取模型訓練,從而實現小樣本學習下的異常識別。

考慮到上述工作需要進行跨領域模型調整,面向場景變化的適應性與魯棒性有限,Aich等人[91]提出無須領域適應的“開箱即用(out-of-the-box)”跨域遷移框架。該框架核心模塊為基于視頻幀預測的異常檢測模型,該模塊在源領域(已知異常場景)使用全新設計的Normalcy分類器學習正常事件特征與偽異常事件特征差異。鑒于偽異常事件樣本的多樣性(由Untrained CNN在正常視頻幀中添加任意異常目標自動合成),學習得到的異常檢測模型在推理階段具備無須自適應即可實現目標領域(未知異常場景)中正常/異常區分的能力。值得注意的是,不同于文獻[51]遷移特征提取模型,該框架直接遷移異常檢測模型到目標領域。類似地,Doshi等人[92]設計“即插即用(plug-and-play)”的模塊化遷移架構,針對場景變化的適應性增強(跨域適應性)。

2.2.2 基于元學習的方法

與遷移學習直接由源領域傳遞預訓練完備的模型不同,元學習(meta learning)側重在已知源領域通過多任務自主學習如何構建模型,從而在未知目標領域下依賴小規模樣本迅速更新模型參數,通過少量迭代快速適應新任務。Lu等人[52]借鑒元學習策略,在元訓練環節,面向多個已知場景設置訓練事件樣本進行異常檢測模型多任務學習。隨后在元測試環節,面向未知待測場景只依靠少量事件樣本微調即可完成異常檢測。需要特別說明的是,所提元學習框架能夠適配不同異常檢測模型。Lv等人[53]在視頻幀預測架構中構建動態原型單元(dynamic prototype unit,DPU)學習正常視頻幀的典型動態模式,并引入元學習機制在異常推理階段根據待測幀狀態持續更新DPU參數,提升應對新場景正常/異常變化的能力。

2.3 本章小節

一些先進半監督視頻異常檢測方法[37,93~95]針對傳統重構/預測方法僅面向視頻序列正向時序開展單向生成(即只利用歷史信息生成未來事件),導致信息學習出現偏差的問題,提出同時由視頻序列正向時序與逆向時序進行雙向生成的策略。具體而言,對于t時刻視頻幀,生成網絡以其t-T時刻的歷史信息與t+T時刻的未來信息聯合作為輸入進行重構/預測。然而,實際場景應用中無法預先獲取未來時刻信息,由此,該類方法難以部署到實際監控系統中進行在線異常檢測,發揮實時報警功能。此外,現有大多數半監督研究受限于僅利用正常事件樣本的訓練設置,未能主動以正常樣本中提煉異常信息作為補充輸入以提升異常檢測表現。

3 基于無監督模式的方法

之前的無監督視頻異常事件檢測方法在沒有可用的標注訓練樣本的情況下,大多通過假設的方式開展異常檢測。

盡管這些假設通常具有一定合理性,但會限制方法的適用范圍。例如,一些方法假定待測視頻中正常事件出現頻率更高,隨后統計視頻中圖像幀的變化,將其中絕大多數相似的圖像幀視為正常,而將與這些幀差異較大的認定為異常。顯然這些方法僅適用于處理異常事件較為稀疏的視頻,對于異常事件發生頻繁導致所占比例極高的視頻,由于事先假定無法成立,檢測結果不理想。為此,近期研究嘗試由無標注待測樣本獲取標注訓練樣本,并沿用監督式模式基于生成的訓練樣本迭代優化異常檢測模型。

3.1 基于偽標注生成的方法

3.3 本章小節

由于缺乏預先標注的訓練樣本提供監督信息,無監督視頻異常檢測實現過程極為困難,所以當前相關研究數量較少。但其可以直接進行未標注待測視頻中的異常辨別,因此更容易部署到實際應用場景中執行實時異常檢測,這將是今后面向應用的異常檢測研究的主要發展方向。

4 視頻異常事件檢測數據集

當前視頻異常事件檢測領域研究常用的公開基準數據集有UCSD[106]、CUHK-Avenue[107]、ShanghaiTech[108]、UCF-Crime[15]及Street-Scene[109]。其中,前三個數據集均是拍攝記錄的大學校園或科技園區內街道場景中發生的事件,而UCF-Crime數據集重點記錄社會公共場所如銀行、商場等場景發生的各類犯罪行為,Street-Scene數據集聚焦拍攝居民社區內一條包含非機動車道、機動車道及人行道的三車道街道場景中發生的交通事件。除此之外,與其他三個數據集中絕大多數異常事件通過“表演”模擬產生不同,UCF-Crime與Street-Scene數據集中異常事件均是自然發生的。表1概述了上述數據集拍攝場景、視頻幀數目、異常事件類別及真實值標注等信息。

4.1 UCSD數據集

該數據集由加利福尼亞大學圣迭戈分校(University of California, San Diego,UCSD)統計可視化計算實驗室發布,由Ped1和Ped2兩個子集組成,分別包含兩臺固定攝像機拍攝的UCSD校園內兩條不同道路場景的多段視頻,不同視頻內的人群密度變化幅度很大。Ped1和Ped2子集中均將視頻場景中行人以正常速度沿著道路行走定義為正常事件,而將進入人行道的非人目標(表觀異常,如汽車等)及行人非常規運動模式(運動異常,如玩滑板車、騎自行車等)定義為異常事件。

Ped1子集的訓練集由34段只包含正常事件的視頻序列組成,測試集由36段包含不同類型異常的視頻序列組成,每段視頻的長度均為200幀,空間分辨率為238×158。由于攝像機拍攝視角問題,Ped1子集視頻中存在嚴重透視問題(距離攝像機較近的目標在畫面中占據的區域面積大于距離攝像機較遠的相同尺寸目標)。相較于Ped1,Ped2子集體量更小,訓練集和測試集則分別包含16段正常視頻序列和12段異常視頻序列,每段視頻長度從120幀到200幀不等,空間分辨率為360×240。

Ped1子集僅同時提供10段測試視頻的異常幀層次真實值標注與像素層次真實值標注,而Ped2子集則同時提供所有測試視頻的異常幀層次真實值標注與像素層次真實值標注。數據集中典型正常與異常視頻幀如圖12所示,其中異常視頻幀中的異常目標利用紅色邊界框標記(參見電子版)。

4.2 CUHK-Avenue數據集

該數據集由香港中文大學(The Chinese University of Hong Kong,CUHK) 盧策吾教授團隊發布,使用固定攝像機采集了CUHK校園內一條走廊及外部廣場場景視頻。類似于UCSD,Avenue數據集中將行人在攝像頭前走廊上行走定義為正常事件,而將出現的非常規目標(表觀異常,如行人推著自行車、徘徊)、行人異常運動(運動異常,如奔跑)及特殊動作(行為異常,如做體操、拋擲物品)定義為異常事件。值得注意的是,該數據集中絕大多數異常事件是由行人模擬表演而來。

Avenue數據集的訓練集和測試集分別包含16段視頻和21段視頻,視頻幀的空間分辨率為640×360。其中,21段測試視頻中共發生47個異常事件,而訓練視頻中也包含少量的異常。該數據集同時提供所有測試視頻的異常幀層次真實值標注與目標層次真實值標注。數據集中典型正常與異常視頻幀如圖13所示,其中異常視頻幀中的異常目標利用紅色邊界框標記(參見電子版)。

4.3 ShanghaiTech數據集

該數據集由上??萍即髮W(ShanghaiTech)高盛華教授團隊發布。與先前數據集只包含單一視角攝像機拍攝的單場景視頻不同,為提升場景多樣性,該數據集使用不同視角攝像機記錄了ShanghaiTech校園內13個不同光照條件街道場景的視頻。

ShanghaiTech數據集的訓練集中包含來源于13個場景的330段視頻,共274 515幀,視頻內容大多為人群沿著人行道正常行走。而測試集中包含107段視頻,共42 883幀,囊括追逐等運動異常以及爭斗等行為異常共130個異常事件。該數據集同時提供所有測試視頻異常幀層次和目標層次的真實值標注,典型正常與異常視頻幀如圖14所示。

4.4 UCF-Crime數據集

該數據集由中佛羅里達大學(University of Central Florida, UCF)計算機視覺研究中心與巴基斯坦信息技術大學(Information Technology University, ITU)聯合發布,是目前為止體量最大的公開視頻異常事件數據集,包含1 900段視頻共約13 769 300幀,總時長128 h。所含視頻涵蓋社會監控系統采集的數百個區域場景的多類異常事件,如銀行、商場等公共場所室內發生的搶劫、偷竊,室外交通主干道發生的交通事故等。

UCF-Crime數據集的訓練集包含800段正常視頻與810段異常視頻,且僅提供異常視頻層次真實值弱標注,以適用于弱監督異常檢測算法。測試集包含150段正常視頻與140段異常視頻,提供幀層次真實值標注。典型視頻畫面如圖15所示。

4.5 Street-Scene數據集

該數據集由北卡羅來納州立大學與三菱電氣研究實驗室聯合公開,采用一臺固定USB攝像機俯視拍攝了社區內一條三車道街道場景視頻。不同于UCSD簡單將汽車、自行車等非人交通目標定義為異常,Street-Scene數據集更精細地對不同交通目標的正常/異常進行了劃分。例如,針對行人目標,其在人行道上行走或在路邊上下車定義為正常,而橫穿馬路或在車道上下車視為異常;針對汽車目標,其在機動車道上合法行駛或在路邊合規停靠定義為正常,而駛離機動車道、違法掉頭或在人行道上違停視為異常;針對自行車目標,其在非機動車道上騎行或由交叉路口駛入定義為正常,而駛離非機動車道進入人行道或違停視為異常。除此之外,相較于其他數據集,該數據集不同視頻存在陰影移動與背景變化,因此更具挑戰性。

Street-Scene數據集的訓練集中包含46段正常視頻,共56 847幀,而測試集中包含35段異常視頻,共146 410幀,空間分辨率均為1280×720。測試集視頻涵蓋上述17種共205個異常事件,且所有測試視頻的異常幀層次和像素層次真實值標注均被提供。典型正常與異常視頻幀如圖16所示。

4.6 前沿方法在不同數據集上性能對比

表2總結了近期前沿視頻異常檢測方法在上述數據集上的測試結果,使用視頻幀層次AUC(area under curve)表示。可以看出,基于全監督模式的方法通常使用ShanghaiTech與UCF-Crime數據集進行性能測試,基于半監督模式的方法則大多選擇UCSD、Avenue及ShanghaiTech數據集進行性能測試,而基于無監督模式的方法并沒有統一的測試數據集規范。在ShanghaiTech數據集上,全監督方法中最高AUC值達到97.5%,超過半監督方法中最高值16.9百分點。這充分驗證了全監督方法使用異常事件樣本提供監督信息的優勢。至于UCF-Crime數據集,全監督方法取得了87.7%的最優AUC值,鑒于該數據集的樣本真實性與場景復雜性,進一步闡明了全監督方法的優越性。值得注意的是,無監督方法與全監督方法的異常檢測表現間仍存在差距(ShanghaiTech數據集△AUC=18.6百分點),然而卻逐漸趕超半監督方法。例如,在Avenue數據集上,無監督方法中最優AUC值(88.8%)對比半監督方法中最優值(90.9%)差距不大。同樣地,在ShanghaiTech數據集上,取得了相當的AUC值。這有力印證了當前無監督方法中設計的迭代回歸策略的有效性。異常檢測速度方面,大部分方法推理幀率大于10 frames/s,能夠實現實時檢測。表2同時提供了所有公開源碼方法對應的代碼鏈接,以方便讀者進行量化指標數據復現與對比。

5 研究展望

5.1 理論方法研究

在過去幾年里,視頻異常檢測研究在方法設計、模型構建、訓練等方面取得一系列重要進展,相關方法借助CNN等深度學習模型的優異學習能力,在基準數據集上實現極佳的檢測效果。然而,現有方法仍具有一定局限性與片面性,尚存在諸多極具挑戰性關鍵問題亟待取得創新與突破。最后,針對當前研究不足進行了總結,并對未來重點研究方向進行了展望:

a)多模態信息顯著融合的異常事件檢測研究。

當前異常事件檢測研究大都面向光照穩定且天氣良好簡單實驗場景。然而,復雜現實場景中,晝夜交替與天氣轉換普遍存在,引起光照變化與背景差異,對目標外觀與運動感知造成干擾,同時異常事件種類更加雜亂。因此,如何應對晝夜更迭與極端天氣導致的光照變化與背景差異以及雜亂事件,構建魯棒異常檢測模型,是未來研究需要重點解決的問題之一。

具體而言,可以探索使用視頻、音頻、紅外線等多模態信息提升方法的全面性和準確性。例如,利用音頻信息能夠完成尖叫、爆炸等視覺模糊的暴亂異常事件檢測,利用紅外信息能夠完成光照條件不良情況下異常事件識別,進而基于多模態信息提供的互補信息實現全面異常事件檢測。

b)三維場景空間下的異常事件檢測研究。

當前異常事件檢測相關研究大都基于平面RGB圖像,忽略了場景三維空間信息。然而,RGB圖像提供的場景信息有限(僅包含顏色、紋理信息)且容易受到可見光透視投影引發的尺度變化影響。因此,如何借助深度圖像等空間幾何表征提供的場景三維結構與形狀信息,彌補單一RGB圖像的不足,實現場景尺度嚴重變化下可靠的異常事件檢測,是未來研究需要重點解決的問題之一。

具體而言,可以利用深度生成網絡獲取視頻場景深度圖像,并采用三維映射模型輸出點云幾何特征,同時通過加權特征融合機制將 RGB 圖像外觀信息與三維幾何信息在特征對齊基礎上完成有效整合,從而實現三維空間下異常事件檢測。

c)可語義解釋的異常事件檢測研究。

當前異常事件檢測相關研究大都局限于粗粒度異常事件檢測與異常目標定位,難以完成細粒度異常事件語義描述,即無法解釋待測事件被判為異常的原因。然而,異常事件描述對于提升異常檢測水平至關重要。因此,如何利用視頻描述模型提取高層次語義特征,并探索與視覺特征的優勢互補,以挖掘異常事件語義,從而提升視頻異常檢測的整體性能,是未來研究需要重點解決的問題之一。

具體而言,可以通過“預訓練+微調”的模式引入視頻理解大模型,將視頻序列編碼到單獨的特征空間,并將視頻表示token與語言空間對齊。在此基礎上,基于視頻編碼特征利用異常檢測模型完成異常事件識別的同時,使用視頻理解大模型輸出場景事件文本描述,實現異常事件細粒度語義解釋。

d)自適應場景感知的異常事件檢測研究。

當前異常事件檢測相關研究大都忽略了監控場景上下文信息,缺乏對場景狀態全面感知。然而,異常事件定義與所處場景息息相關,致使在很大程度上限制現有方法在不同場景下的可擴展性和適用性。因此,如何充分提取場景信息,構筑建模目標間位置關系與交互關系的場景圖,實現場景精準感知,并借鑒場景特征開展異常事件檢測,是未來研究需要重點解決的問題之一。

具體而言,可以借助在線學習理論強化方法的動態適應性,在視頻序列中準確檢索出事件發生初始時刻與結束時刻,基于獲取的目標行為、屬性以及與場景的交互信息等先驗知識特征完成實時場景變化分析與建模,捕獲場景因果時序關系,增強特征辨識性,在此基礎上理解新的異常事件模式,實現異常事件場景自適應在線檢測。

5.2 實際應用研究

未來,實際場景在線大規模應用是視頻異常檢測研究領域需要重點關注的方向之一,旨在為上游相關行業提供技術支撐:

a)智慧交通監管領域。

交通場景中,視頻異常檢測技術的應用一方面能夠通過車輛計數、交通流分析、障礙物檢測等事件監視提高交通效率,另一方面能夠通過闖紅燈、違規變道、違法掉頭等違法檢測保證交通安全。

b)智能制造監測領域。

工廠生產線上,視頻異常檢測技術的應用不僅可以監測產線工作人員操作異常,還能監測產線異常、設備異常、物流輸送異常以及產品缺陷,保障生產安全的同時維護產品質量標準一致性。

c)智慧城市監控領域。

公共場所中,視頻異常檢測技術的應用將及時發現游行游街、聚會暴亂等群體異常事件以及打架斗毆、偷竊、搶劫等個體異常行為,維護社會公共安全秩序,保障人民生命財產安全。

d)智能醫療監護領域。

醫療場景中,視頻異常檢測技術的應用可以通過X光片、核磁共振、CT等醫學圖像完成病變區域檢測。此外,也可以完成針對特殊病人的監護任務,例如高齡老年病人跌倒檢測等,提供更智能和實時的醫療服務。

6 結束語

作為計算機視覺領域的研究熱點之一,視頻異常檢測任務受到來自學術界與產業界學者的持續關注,貢獻大量研究成果。由此,本文針對當前視頻異常檢測相關文獻進行了分類整理和概括總結,實現對該領域研究進展的全面歸納。首先,根據異常檢測實現流程的檢測模式、樣本設置及學習/推理機制三個核心要素,提出一種由粗至精的三級分類策略,聚焦基于深度學習的前沿視頻異常檢測方法并進行梳理,重點對代表性工作的基本原理進行詳細闡述并提煉數學模型;其次,面向領域廣泛使用的性能測試基準數據集開展介紹與比較,同時統計主流方法在數據集上的實驗結果,并進行細致分析;最后,圍繞復雜光照/天氣條件、多模態圖像顯著融合、可語義解釋及自適應場景感知四個方面對未來視頻異常檢測發展趨勢進行探討與展望,以期為研究者提供借鑒與參考。

參考文獻:

[1]劉金平, 何捷舟, 馬天雨, 等. 基于KELM選擇性集成的復雜網絡環境入侵檢測[J]. 電子學報, 2019,47(5): 1070-1078. (Liu Jinping, He Jiezhou, Ma Tianyu, et al. Selective ensemble of KELM-based complex network intrusion detection[J]. Acta Electronica Sinica, 2019, 47(5): 1070-1078.)

[2]陳毓坤, 于暉, 陸寧云. 基于半監督深度學習的雷達收發組件故障診斷[J]. 系統工程與電子技術, 2023, 45(10): 3329-3337. (Chen Yukun, Yu Hui, Lu Ningyun. Fault diagnosis of radar T/R module based on semi-supervised deep learning[J]. Systems Engineering and Electronics, 2023, 45(10): 3329-3337.)

[3]席亮, 王瑞東, 樊好義, 等. 基于樣本關聯感知的無監督深度異常檢測模型[J]. 計算機學報, 2021, 44(11): 2317-2331. (Xi Liang, Wang Ruidong, Fan Haoyi, et al. Sample-correlation-aware unsupervised deep anomaly detection model[J]. Chinese Journal of Computers, 2021, 44(11): 2317-2331.)

[4]琚長瑞, 秦曉燕, 袁廣林, 等. 尺度敏感損失與特征融合的快速小目標檢測方法[J]. 電子學報, 2022, 50(9): 2119-2126. (Ju Changrui, Qin Xiaoyan, Yuan Guanglin, et al. Fast small object detection method with scale-sensitivity loss and feature fusion[J]. Acta Electronica Sinica, 2022, 50(9): 2119-2126.)

[5]蒲瞻星, 葛永新. 基于多特征融合的小樣本視頻行為識別算法[J]. 計算機學報, 2023, 46(3): 594-608. (Pu Zhanxing, Ge Yongxin. Few-shot action recognition in video based on multi-feature fusion[J]. Chinese Journal of Computers, 2023, 46(3): 594-608.)

[6]李群, 肖甫, 張子屹, 等. 基于空時變換網絡的視頻摘要生成[J]. 軟件學報, 2022, 33(9): 3195-3209. (Li Qun, Xiao Fu, Zhang Ziyi, et al. Video summarization based on spacial-temporal transform network[J]. Journal of Software, 2022, 33(9): 3195-3209.)

[7]Pang Guansong, Shen Chunhua, Cao Longbing, et al. Deep learning for anomaly detection: a review[J]. ACM Computing Surveys, 2021, 54(2): 38.

[8]Kiran B, Thomas D, Parakkal R. An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos[J]. Journal of Imaging, 2018, 4(2): 36.

[9]Chandrakala S, Deepak K, Revathy G. Anomaly detection in surveillance videos: a thematic taxonomy of deep models, review and performance analysis[J]. Artificial Intelligence Review, 2023, 56(4): 3319-3368.

[10]何平, 李剛, 李慧斌. 基于深度學習的視頻異常檢測方法綜述[J]. 計算機工程與科學, 2022, 44(9): 1620-1629. (He Ping, Li Gang, Li Huibin. A survey on deep learning based video anomaly detection[J]. Computer Engineering amp; Science, 2022, 44(9): 1620-1629.)

[11]Zhou Shifu, Shen Wei, Zeng Dan, et al. Spatial-temporal convolutional neural networks for anomaly detection and localization in crowded scenes[J]. Signal Processing: Image Communication, 2016, 47: 358-368.

[12]Liu Wen, Luo Weixin, Li Zhengxin, et al. Margin learning embedded prediction for video anomaly detection with A few anomalies[C]//Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 3023-3030.

[13]Huang Xin, Hu Yutao, Luo Xiaoyan, et al. Boosting variational inference with margin learning for few-shot scene-adaptive anomaly detection[J]. IEEE Trans on Circuits and Systems for Video Technology, 2023, 33(6): 2813-2825.

[14]Acsintoae A, Florescu A, Georgescu M I, et al. UBnormal: new benchmark for supervised open-set video anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 20111-20121.

[15]Sultani W, Chen Chen, Shah M. Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 6479-6488.

[16]Zhang Jiangong, Qing Laiyun, Miao Jun. Temporal convolutional network with complementary inner bag loss for weakly supervised anomaly detection[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2019: 4030-4034.

[17]Wan Boyang, Fang Yuming, Xia Xue, et al. Weakly supervised vi-deo anomaly detection via center-guided discriminative learning[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2020: 1-6.

[18]Yu Shenghao, Wang Chong, Mao Qiaomei, et al. Cross-epoch lear-ning for weakly supervised anomaly detection in surveillance videos[J]. IEEE Signal Processing Letters, 2021, 28: 2137-2141.

[19]Feng Jiachang, Hong Fating, Zheng Weishi. MIST: multiple instance self-training framework for video anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14004-14013.

[20]Zhu Yi, Newsam S. Motion-aware feature for improved video anomaly detection[EB/OL]. (2019-07-24). https://arxiv.org/abs/1907.10211.

[21]Wu Jie, Zhang Wei, Li Guanbin, et al. Weakly-supervised spatio-temporal anomaly detection in surveillance video[EB/OL]. (2021)[2021-08-09]. https://arxiv.org/abs/2108.03825.

[22]Gong Yiling, Wang Chong, Dai Xinmiao, et al. Multi-scale continuity-aware refinement network for weakly supervised video anomaly detection[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2022: 1-6.

[23]Zaheer M Z, Mahmood A, Astrid M, et al. CLAWS: clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection[M]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 358-376.

[24]Li Shuo, Liu Fang, Jiao Licheng. Self-training multi-sequence lear-ning with transformer for weakly supervised video anomaly detection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press ,2022: 1395-1403.

[25]Sun Deqing, Yang Xiaodong, Liu Mingyu, et al. PWC-net: cnns for optical flow using pyramid, warping, and cost volume[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8934-8943.

[26]Tao Ye, Zhang Duzhou, Cheng Shengjun, et al. Improving semi-supervised self-training with embedded manifold transduction[J]. Trans of the Institute of Measurement and Control, 2018, 40(2): 363-374.

[27]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.

[28]Zhong Jiaxing, Li Nannan, Kong Weijie, et al. Graph convolutional label noise cleaner: train a plug-and-play action classifier for anomaly detection[C]//Proc of the 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1237-1246.

[29]Zaheer M Z, Mahmood A, Shin H, et al. A self-reasoning framework for anomaly detection using video-level labels[J]. IEEE Signal Processing Letters, 2020, 27: 1705-1709.

[30]Wang Limin, Xiong Yuanjun, Wang Zhe, et al. Temporal segment networks for action recognition in videos[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2740-2755.

[31]Kipf T N, Welling M. Semi-supervised classification with graph con-volutional networks[EB/OL]. (2016-09-09). https://arxiv.org/abs/1609.02907.

[32]Zhu Yuansheng, Bao Wentao, Yu Qi. Towards open set video anomaly detection[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 395-412.

[33]Zhang Chen, Li Guorong, Xu Qianqian, et al. Weakly supervised anomaly detection in videos considering the openness of events[J]. IEEE Trans on Intelligent Transportation Systems, 2022, 23(11): 21687-21699.

[34]Zhao Junbo, Mathieu M, Goroshin R, et al. Stacked what-where auto-encoders[EB/OL]. (2015-06-08). https://arxiv.org/abs/1506.02351.

[35]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

[36]Wang Ziming, Zou Yuexian, Zhang Zeming, et al. Cluster attention contrast for video anomaly detection[C]//Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2463-2471.

[37]Zhong Yuanhong, Chen Xia, Hu Yongting, et al. Bidirectional spatio-temporal feature learning with multiscale evaluation for video anomaly detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(12): 8285-8296.

[38]Liu Yang, Liu Jing, Lin Jieyu, et al. Appearance-motion united auto-encoder framework for video anomaly detection[J]. IEEE Trans on Circuits and Systems II: Express Briefs, 2022, 69(5): 2498-2502.

[39]Zhang Xinfeng, Fang Jinpeng, Yang Baoqing, et al. Hybrid attention and motion constraint for anomaly detection in crowded scenes[J]. IEEE Trans on Circuits and Systems for Video Technology, 2023, 33(5): 2259-2274.

[40]Le V T, Kim Y G. Attention-based residual autoencoder for video anomaly detection[J]. Applied Intelligence, 2023, 53(3): 3240-3254.

[41]Zhang Sijia, Gong Maoguo, Xie Yu, et al. Influence-aware attention networks for anomaly detection in surveillance videos[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32(8): 5427-5437.

[42]Gong Dong, Liu Lingqiao, Le V, et al. Memorizing normality to detect anomaly: memory-augmented deep autoencoder for unsupervised anomaly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 1705-1714.

[43]Park H, Noh J, Ham B. Learning memory-guided normality for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 14360-14369.

[44]Wang Le, Tian Junwen, Zhou Sanping, et al. Memory-augmented appearance-motion network for video anomaly detection[J]. Pattern Recognition, 2023, 138: 109335.

[45]Liu Zhian, Nie Yongwei, Long Chengjiang, et al. A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13568-13577.

[46]Markovitz A, Sharir G, Friedman I, et al. Graph embedded pose clustering for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 10536-10544.

[47]Luo Weixin, Liu Wen, Gao Shenghua. Normal graph: spatial temporal graph convolutional networks based prediction network for skeleton based video anomaly detection[J]. Neurocomputing, 2021, 444: 332-337.

[48]Zeng Xianlin, Jiang Yalong, Ding Wenrui, et al. A hierarchical spatio-temporal graph convolutional neural network for anomaly detection in videos[J]. IEEE Trans on Circuits and Systems for Video Technology, 2023, 33(1): 200-212.

[49]Li Jing, Huang Qingwang, Du Yingjun, et al. Variational abnormal behavior detection with motion consistency[J]. IEEE Trans on Image Processing, 2021, 31: 275-286.

[50]Saypadith S, Onoye T. Video anomaly detection based on deep gene-rative network[C]//Proc of IEEE International Symposium on Circuits and Systems. Piscataway, NJ: IEEE Press, 2021: 1-5.

[51]Sun Guangyu, Liu Zhang, Wen Lianggong, et al. Anomaly crossing: new horizons for video anomaly detection as cross-domain few-shot learning[EB/OL]. (2021-12-12). https://arxiv.org/abs/2112.06320.

[52]Lu Yiwei, Yu F, Reddy M K K, et al. Few-shot scene-adaptive anomaly detection[C]//Proc of the European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 125-141.

[53]Lv Hui, Chen Chen, Cui Zhen, et al. Learning normal dynamics in videos with meta prototype network[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15420-15429.

[54]Doshi K, Yilmaz Y. Continual learning for anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2020: 1025-1034.

[55]Pillai G V, Verma A, Sen D. Transformer based self-context aware prediction for few-shot anomaly detection in videos[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2022: 3485-3489.

[56]Song Hao, Sun Che, Wu Xinxiao, et al. Learning normal patterns via adversarial attention-based autoencoder for abnormal event detection in videos[J]. IEEE Trans on Multimedia, 2020, 22(8): 2138-2148.

[57]Nguyen T N, Meunier J. Anomaly detection in video sequence with appearance-motion correspondence[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 1273-1283.

[58]Chang Yunpeng, Tu Zhigang, Xie Wei, et al. Clustering driven deep autoencoder for video anomaly detection[C]//Proc of the European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 329-345.

[59]Wang Tian, Qiao Meina, Lin Zhiwei, et al. Generative neural networks for anomaly detection in crowded scenes[J]. IEEE Trans on Information Forensics and Security, 2019, 14(5): 1390-1399.

[60]Chen Xiaoyu, Kan Shichao, Zhang Fanghui, et al. Multiscale spatial temporal attention graph convolution network for skeleton-based ano-maly behavior detection[J]. Journal of Visual Communication and Image Representation, 2023, 90: 103707.

[61]Wang Yizhou, Qin Can, Bai Yue, et al. Making reconstruction-based method great again for video anomaly detection[C]//Proc of IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2022: 1215-1220.

[62]Yu J, Lee Y, Yow K C, et al. Abnormal event detection and localization via adversarial event prediction[J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 33(8): 3572-3586.

[63]Hao Yi, Li Jie, Wang Nannan, et al. Spatiotemporal consistency-enhanced network for video anomaly detection[J]. Pattern Recognition, 2022, 121: 108232.

[64]Feng Xinyang, Song Dongjin, Chen Yuncong, et al. Convolutional transformer based dual discriminator generative adversarial networks for video anomaly detection[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 5546-5554.

[65]Huang Chao, Liu Yabo, Zhang Zheng, et al. Hierarchical graph embedded pose regularity learning via spatio-temporal transformer for abnormal behavior detection[C]//Proc of the 30th ACM International Conference on Multimedia. New York: ACM Press, 2022: 307-315.

[66]Wang Xuanzhao, Che Zhengping, Jiang Bo, et al. Robust unsupervised video anomaly detection by multipath frame prediction[J]. IEEE Transon Neural Networks and Learning Systems, 2022, 33(6): 2301-2312.

[67]Cai Ruichu, Zhang Hao, Liu Wen, et al. Appearance-motion memory consistency network for video anomaly detection[C]//Proc of the AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2021: 938-946.

[68]Zhong Yuanhong, Chen Xia, Jiang Jinyang, et al. A cascade reconstruction model with generalization ability evaluation for anomaly detection in videos[J]. Pattern Recognition, 2022,122: 108336.

[69]Wang Wenqian, Chang Faliang, Liu Chunsheng. Mutuality-oriented reconstruction and prediction hybrid network for video anomaly detection[J]. Signal, Image and Video Processing, 2022, 16(7): 1747-1754.

[70]Morais R, Le V, Tran T, et al. Learning regularity in skeleton trajectories for anomaly detection in videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 11988-11996.

[71]Lee J, Nam W J, Lee S W. Multi-contextual predictions with vision transformer for video anomaly detection[C]//Proc of the 26th International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 1012-1018.

[72]Sharif M H, Jiao Lei, Omlin C W. Deep crowd anomaly detection by fusing reconstruction and prediction networks[J]. Electronics, 2023, 12(7): 1517.

[73]Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 2818-2826.

[74]Lim B, Son S, Kim H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2017: 1132-1140.

[75]Li Nanjun, Chang Faliang, Liu Chunsheng. Human-related anomalous event detection via memory-augmented Wasserstein generative adversarial network with gradient penalty[J]. Pattern Recognition, 2023, 138: 109398.

[76]Zhang Zhi, Zhong Shenghua, Liu Yan. Video abnormal event detection via context cueing generative adversarial network[C]//Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2021: 1-6.

[77]Tang Yao, Zhao Lin, Zhang Shanshan, et al. Integrating prediction and reconstruction for anomaly detection[J]. Pattern Recognition Letters, 2020, 129: 123-130.

[78]Zhang Yu, Nie Xiushan, He Rundong, et al. Normality learning in multispace for video anomaly detection[J]. IEEE Trans on Circuits and Systems for Video Technology, 2021, 31(9): 3694-3706.

[79]Huang Chao, Wen Jie, Xu Yong, et al. Self-supervised attentive generative adversarial networks for video anomaly detection[J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(11): 9389-9403.

[80]Ouyang Yuqi, Sanchez V. Video anomaly detection by estimating likelihood of representations[C]//Proc of the 25th International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8984-8991.

[81]鐘友坤, 莫海寧. 基于深度自編碼-高斯混合模型的視頻異常檢測方法[J]. 紅外與激光工程, 2022,51(6): 375-381. (Zhong Youkun, Mo Haining. A video anomaly detection method based on deep autoencoding Gaussian mixture model[J]. Infrared and Laser Engineering, 2022, 51(6): 375-381.)

[82]Fan Yaxiang, Wen Gongjian, Li Deren, et al. Video anomaly detection and localization via Gaussian mixture fully convolutional variational autoencoder[J]. Computer Vision and Image Understanding, 2020, 195: 102920.

[83]Li Nanjun, Chang Faliang. Video anomaly detection and localization via multivariate Gaussian fully convolution adversarial autoencoder[J]. Neurocomputing, 2019, 369: 92-105.

[84]Cho M, Kim T, Kim W J, et al. Unsupervised video anomaly detection via normalizing flows with implicit latent features[J]. Pattern Recognition, 2022, 129: 108703.

[85]肖進勝, 郭浩文, 謝紅剛, 等. 監控視頻異常行為檢測的概率記憶自編碼網絡[J]. 軟件學報, 2023, 34(9): 4362-4377. (Xiao Jinsheng, Guo Haowen, Xie Honggang, et al. Probabilistic memory auto-encoding network for abnormal behavior detection in surveillance videos[J]. Journal of Software, 2023, 34(9): 4362-4377.)

[86]胡海洋, 張力, 李忠金. 融合自編碼器和one-class SVM的異常事件檢測[J]. 中國圖象圖形學報, 2020,25(12): 2614-2629. (Hu Haiyang, Zhang Li, Li Zhongjin. Anomaly detection with autoencoder and one-class SVM[J]. Journal of Image and Graphics, 2020, 25(12): 2614-2629.)

[87]Xu Dan, Yan Yan, Ricci E, et al. Detecting anomalous events in videos by learning deep representations of appearance and motion[J]. Computer Vision and Image Understanding, 2017, 156: 117-127.

[88]Ionescu R T, Khan F S, Georgescu M I, et al. Object-centric auto-encoders and dummy anomalies for abnormal event detection in video[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 7834-7843.

[89]Zhong Yuanhong, Chen Xia, Jiang Jinyang, et al. Reverse erasure guided spatio-temporal autoencoder with compact feature representation for video anomaly detection[J]. Science China Information Sciences, 2022, 65(9): 194101.

[90]Wu Peng, Liu Jing, Shen Fang. A deep one-class neural network for anomalous event detection in complex scenes[J]. IEEE Trans on Neural Networks and Learning Systems, 2020, 31(7): 2609-2622.

[91]Aich A, Peng Kuanchuan, Roy-Chowdhury A K. Cross-domain video anomaly detection without target domain adaptation[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 2578-2590.

[92]Doshi K, Yilmaz Y. A modular and unified framework for detecting and localizing video anomalies[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2022: 3007-3016.

[93]Yu Guang, Wang Siqi, Cai Zhiping, et al. Cloze test helps: effective video anomaly detection via learning to complete video events[C]//Proc of the 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 583-591.

[94]Chen Chengwei, Xie Yuan, Lin Shaohui, et al. Comprehensive regularization in a bi-directional predictive network for video anomaly detection[C]//Proc of the AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2022: 230-238.

[95]Li Daoheng, Nie Xiushan, Li Xiaofeng, et al. Context-related video anomaly detection via generative adversarial network[J]. Pattern Recognition Letters, 2022, 156: 183-189.

[96]Liu F T, Ting Kai ming, Zhou Zhihua. Isolation-based anomaly detection[J]. ACM Trans on Knowledge Discovery from Data, 2012, 6(1): 3.

[97]Sugiyama M, Borgwardt K M. Rapid distance-based outlier detection via sampling[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 467-475.

[98]Pang Guansong, Yan Cheng, Shen Chunhua, et al. Self-trained deep ordinal regression for end-to-end video anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 12170-12179.

[99]Guo Aibin, Guo Lijun, Zhang Rong, et al. Self-trained prediction model and novel anomaly score mechanism for video anomaly detection[J]. Image and Vision Computing, 2022, 119: 104391.

[100]Veeramachaneni K, Arnaldo I, Korrapati V, et al. AI^2: training a big data machine to defend[C]//Proc of the 2nd IEEE International Conference on Big Data Security on Cloud(BigDataSecurity), IEEE International Conference on High Performance and Smart Computing(HPSC), and IEEE International Conference on Intelligent Data and Security. Piscataway, NJ: IEEE Press, 2016: 49-54.

[101]Thakare K V, Raghuwanshi Y, Dogra D P, et al. DyAnNet: a scene dynamicity guided self-trained video anomaly detection network[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 5530-5539.

[102]Lin Xiangru, Chen Yuyang, Li Guanbin, et al. A causal inference look at unsupervised video anomaly detection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2022: 1620-1629.

[103]Zaheer M Z, Mahmood A, Khan M H, et al. Generative cooperative learning for unsupervised video anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 14724-14734.

[104]Huang Chao, Wu Zhihao, Wen Jie, et al. Abnormal event detection using deep contrastive learning for intelligent video surveillance system[J]. IEEE Transactions on Industrial Informatics, 2022, 18(8): 5171-5179.

[105]Wang Guodong, Wang Yunhong, Qin Jie, et al. Video anomaly detection bySolving decoupled spatio-temporal jigsaw puzzles[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 494-511.

[106]Mahadevan V, Li Weixin, Bhalodia V, et al. Anomaly detection in crowded scenes[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2010: 1975-1981.

[107]Lu Cewu, Shi Jianping, Jia Jiaya. Abnormal event detection at 150 FPS in MATLAB[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2013: 2720-2727.

[108]Luo Weixin, Liu Wen, Gao Shenghua. A revisit of sparse coding based anomaly detection in stacked RNN framework[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 341-349.

[109]Ramachandra B, Jones M J. Street Scene: a new dataset and evaluation protocol for video anomaly detection[C]//Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2020: 2558-2567.

[110]李文中, 吳克偉, 孫永宣, 等. 基于對比記憶網絡的弱監督視頻異常檢測[J]. 計算機應用研究, 2023, 40(10): 3162-3167,3172. (Li Wenzhong, Wu Kewei, Sun Yongxuan, et al. Video anomaly detection combining with contrastive memory network[J]. Application Research of Computers, 2023, 40(10): 3162-3167,3172.)

[111]李南君, 李爽, 李拓, 等. 面向邊緣端設備的輕量化視頻異常事件檢測方法[J]. 計算機應用研究, 2024,41(1): 306-313,320. (Li Nanjun, Li Shuang, Li Tuo, et al. Lightweight video abnormal event detection method for edge devices[J]. Application Research of Computers, 2024, 41(1): 306-313,320.)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 国产福利小视频高清在线观看| 久久免费精品琪琪| 亚亚洲乱码一二三四区| 国产精品极品美女自在线看免费一区二区| 亚洲国产成人久久精品软件| 国产AV无码专区亚洲A∨毛片| 91色爱欧美精品www| 人妻丰满熟妇av五码区| 日韩av在线直播| 国产情侣一区二区三区| 国产91特黄特色A级毛片| 日韩a在线观看免费观看| 国产高清毛片| 99热国产这里只有精品无卡顿"| 久久国产精品影院| 欧美成一级| 四虎成人免费毛片| 亚洲天堂成人在线观看| 中文字幕在线看| 亚洲最猛黑人xxxx黑人猛交| 午夜激情婷婷| 中国丰满人妻无码束缚啪啪| 久久夜色精品国产嚕嚕亚洲av| 亚洲精选高清无码| 丝袜亚洲综合| 国产后式a一视频| 国产精品成人免费视频99| 亚洲全网成人资源在线观看| 欧美视频在线观看第一页| 毛片大全免费观看| 国产精品丝袜视频| 特黄日韩免费一区二区三区| 欧美成人免费午夜全| 亚洲swag精品自拍一区| 久久无码av三级| 日本高清免费不卡视频| 亚洲人成网线在线播放va| 国产亚洲精品在天天在线麻豆 | 国产精品v欧美| 在线观看亚洲精品福利片| 久久性视频| 亚洲一区免费看| 国产精品无码制服丝袜| 日日拍夜夜操| 国产免费网址| 啪啪国产视频| 中国一级特黄大片在线观看| 欧美yw精品日本国产精品| 色噜噜综合网| 国产一在线观看| 国产午夜无码片在线观看网站| 成人年鲁鲁在线观看视频| 91香蕉视频下载网站| 亚洲精品无码在线播放网站| 高清精品美女在线播放| 狠狠亚洲五月天| 国产精品偷伦在线观看| 国产欧美在线观看一区| 国产视频久久久久| 伊人久久大线影院首页| 精品福利视频网| 高清无码不卡视频| 国产成人禁片在线观看| 玖玖精品在线| 亚洲成av人无码综合在线观看| 国国产a国产片免费麻豆| 免费中文字幕在在线不卡 | 99伊人精品| 久久人妻xunleige无码| 国产成人盗摄精品| 欧美激情视频二区三区| 98精品全国免费观看视频| www.精品国产| 亚洲国产成人精品一二区| 日本国产精品| 久草视频中文| 国产午夜不卡| 国产婬乱a一级毛片多女| a欧美在线| 91免费国产高清观看| a级毛片网| 日韩国产精品无码一区二区三区|