摘 要:針對視頻異常檢測中對正常視頻預測不準確、學習正常特征的能力欠佳的問題,提出融合小波變換和編解碼注意力的異常檢測模型。模型中引入多級離散小波變換,設計了一種離散小波變換融合模塊,將由視頻幀分解得到的多個子帶圖拼接,傳入深度可分離卷積,再與編碼器特征融合,以彌補下采樣過程中丟失的高頻細節信息;構建了一種編解碼注意力模塊,通過對編碼器特征圖進行高斯差分操作,然后分別沿水平和垂直方向獲取注意力權重,再根據權重聚合編碼器特征,最后關聯解碼器特征,增強網絡對正常事件的學習。在Ped1、Ped2、Avenue數據集上的實驗表明,所提模型的AUC分別提升了3.2%、3.1%、2.0%,能有效提高檢測異常的能力。
關鍵詞:視頻異常檢測;多級小波變換;注意力機制;視頻預測;坐標注意力
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2023)07-047-2229-06
doi:10.19734/j.issn.1001-3695.2022.10.0527
Anomaly detection fusing wavelet transform and encoder-decoder attention
Wang Ting1a,Xuan Shibin1b,2?,Zhou Jianting1a
(1.a.College of Electronic Information,b.College of Artificial Intelligence,Guangxi Minzu University,Nanning 530006,China;2.Guangxi Key Laboratory of Hybrid Computation amp; IC Design amp; Analysis,Nanning 530006,China)
Abstract:Aiming at the problems of inaccurate prediction of normal video and poor ability of learning normal features in video anomaly detection,this paper proposed an anomaly detection model combining wavelet transform and encoder-decoder attention.The model introduced multi-level discrete wavelet transform,and designed a module of discrete wavelet transform fusion.The module concatenated the sub-bands obtained by decomposing video frames,and fed the result into depthwise separable convolution,and then fused with the encoder features to compensate for the high-frequency details lost in the down sampling process.The model also constructed encoder-decoder attention module.After performing difference of Gaussian operation on the encoder feature map,the attention weights were obtained along the horizontal and vertical directions respectively.And then the encoder features were aggregated according to the weights.Finally,the decoder features were associated to enhance the network’s learning of normal events.Experiments on Ped1,Ped2 and Avenue datasets show that the AUC of the proposed model is increased by 3.2%,3.1% and 2.0%.And the results indicate that the proposed model can effectively improve the abnormal detection ability.
Key words:video anomaly detection;multi-level wavelet transform;attention mechanism;video prediction;coordinate attention
0 引言
目前,監控攝像頭被廣泛部署在各個場所,視頻數據呈井噴式增長。在監控視頻中及時檢測到異常對社會公共安全有重要意義,但人工檢測容易漏檢,而且耗時耗力。因此,在計算機視覺領域,一些研究人員致力于設計出高效的視頻異常檢測算法,希望快速且準確地檢測出視頻中的異常事件。
傳統視頻異常檢測算法主要有基于軌跡特征[1]和基于低水平的手工特征[2]的方法。傳統方法基于視頻底層視覺特征的統計和計算,具有強大的分類能力,但它們的性能高度依賴場景,而且缺乏足夠的鑒別能力,常造成較高的假陽性率。深度神經網絡在各研究領域取得了巨大成功,受此啟發,研究人員提出了一系列深度學習異常檢測方法。深度自編碼器(auto-encoder,AE)作為典型的無監督深度學習模型,在異常檢測中得到廣泛使用[3]。Liu等人[4]將U-Net引入視頻異常檢測,并將過去幀作為自編碼器的輸入來預測未來幀,該模型基于幀預測拉大了正常幀與異常幀預測誤差的差距。為了使模型關注到特征隨時間的變化,Yang等人[5]提出通過將自編碼器與ConvLSTM相結合,來重構原始視頻和光流,其模型既運用了空間信息,又利用了時間信息。這些基于自編碼網絡的方法希望模型只能準確地預測或重構出正常視頻,但是由于自編碼器泛化能力過強,有時異常視頻也被很好地預測和重構。為了抑制自編碼的泛化能力,文獻[6,7]用記憶模塊對特征層中的正常模式進行建模,將記憶模塊設置在U-Net中,并設計損失函數來豐富學習到的正常模式,異常檢測性能得到提升,但這一方法缺乏對運動信息建模的能力。考慮到正常事件和異常事件之間的運動差異,Sharma等人[8]基于目標跟蹤技術,利用像素和邊界等信息來跟蹤多個物體,根據物體的移動信息來判斷異常。Chang等人[9]提出方差注意力模塊增強特征層中的運動信息,并利用重構和預測的視頻幀,學習正常事件的運動模式。對比學習能利用多模態數據學習樣本的高級語義信息,因此Huang等人[10]采用對比學習方式,設計多個任務來捕獲正常模式的高級語義特征,綜合多任務的誤差結果來衡量異常程度。由于監控視頻中物體大小不一,王軍[11]提出用空洞卷積提取不同感受野的特征,通過融合多尺度特征,并利用通道注意力來突出前景運動物體,進而提升異常檢測的準確率。
雖然近年來基于深度學習的視頻異常檢測技術取得了很大的進步,但是依然面臨一些問題。一方面,這些技術希望利用正常視頻與異常視頻的預測(或重構)誤差的差異來檢測出異常。然而,這些算法模型通常通過下采樣擴大感受野,以提取全局信息,不可避免地丟失了高頻細節信息,導致正常視頻的預測誤差很接近異常視頻的預測誤差;另一方面,一些異常檢測模型[9,11,12]利用注意力機制學習具有可區分性的正常特征,但只利用一個特征層就生成了最終的注意力結果圖,沒有利用到不同階段特征的潛在關系,提取的特征受場景光照干擾,穩健性欠佳,而且忽略了空間位置信息對學習正常特征的重要性。
針對模型對正常視頻的預測不夠準確的問題,在視頻預測領域中,Jin等人[13]引入多級小波變換,得到了很好的視頻預測效果。受此啟發,提出在視頻異常檢測中引入多級離散小波變換,彌補損失的高頻細節信息,以更準確地預測正常視頻。針對注意力過程的缺陷,提出了新的注意力模塊。考慮到融合網絡不同階段的特征,能夠提升模型學習效果[14],因此提出利用編碼器特征和解碼器特征作為模塊輸入以生成特征圖;然后,并引入高斯差分圖(difference of Gaussian,DoG)來提升特征的穩健性,DoG被廣泛應用在邊緣檢測[15]任務上,能夠適應復雜的光照變化;此外,利用嵌入了位置信息的坐標注意力[16](coordinate attention,CA),以便更精確地定位到感興趣區域,提出模塊改善了自編碼網絡對正常視頻的特征提取能力。本文主要貢獻如下:
a)設計離散小波變換融合模塊(discrete wavelet transform fusion,DWTF),用于提取視頻經過離散小波變換輸出的特征,并將銳化的視頻細節與編碼器融合,以補充在下采樣過程中損失的真實細節,提高模型對正常視頻的預測能力。
b)構建一個編解碼注意力模塊(encoder-decoder attention,EDA),該模塊通過坐標注意力將高斯差分圖映射到編碼器特征,用于強化物體邊緣和正常特征,并利用編碼器特征與解碼器特征的潛在關系,使自編碼網絡學習到更具有區分性的特征。
c)提出融合多級小波變換和編解碼注意力的自編碼視頻異常檢測模型(DWTF-EDA U-Net,DEU-Net)。經過實驗,提出模型在Ped1、Ped2和Avenue數據集上的AUC分別達到86.4%、98.2%、86.0%,有較強的視頻異常檢測能力。
1 相關概念
1.1 空間小波分析模塊
在視頻預測網絡中,為了保留更多的空間細節,Jin等人[13]設計了基于空間小波分析模塊(spatial wavelet analysis module,S-WAM)的視頻預測模型PredS-WAM,S-WAM先通過離散小波變換[17](discrete wavelet transform,DWT)將每一幀視頻分解為一個低頻子帶圖和三個不同的高頻子帶圖,再將這些子帶圖傳入淺層CNN進一步提取特征,并獲得與主干網絡形狀一致的特征圖。在視頻預測模型PredS-WAM中,級聯了三個S-WAM,每級的輸出分別與主干網絡的特征圖融合。級聯S-WAM增強了模型中高頻信息的表達,因此促進了對視頻細節的預測。S-WAM主要分為離散小波變換和提取特征兩部分,下面將詳細介紹該模塊的計算過程。
關于離散小波變換過程,在t時刻,離散小波變換函數fDWT將視頻幀Iit分解成四個子帶圖,分別是低頻子帶圖Ait、高頻水平子帶圖Hit、高頻垂直子帶圖Vit和高頻對角子帶圖Dit,這一過程可以表示為
[Ait,Hit,Vit,Dit]=fDWT(Iit)(1)
每一級得到的子帶圖大小為上一級的1/4;提取特征過程可表示為
fiS-WAM=σr(N(W2(σr(N(W1(cat(Ait,Hit,Vit,Dit)))))))(2)
其中:cat(,,,)表示按通道拼接的操作;W1、W2分別表示第一個和第二個3×3卷積層;N表示批正則化;σr表示ReLU激活函數,fiS-WAM表示第i個S-WAM的輸出。
1.2 坐標注意力
位置信息對計算機視覺任務有著不可替代的作用,因此Hou 等人[16]提出坐標注意力(coordinate attention,CA),CA是一種輕量化的注意力過程,通過在通道注意力中嵌入位置信息,捕獲遠距離特征間的關系,在圖像識別、目標檢測等領域[18]取得了不錯的效果。CA可以分為嵌入位置信息和生成注意力兩步,其結構如圖1所示。a)先通過兩個并行的一維全局池化操作嵌入位置信息,將水平和垂直方向的特征分別聚合為兩個獨立的、具有方向感知的特征圖;b)將得到的兩個特征圖按通道拼接,并依次經過卷積層壓縮通道、批正則化和非線性激活函數來進一步編碼空間信息;c)沿著通道維度分解得到兩個注意力權重,通過矩陣乘法將權重映射到特征圖中,得到CA模塊的最終輸出。
2 融合小波變換和編解碼注意力的異常事件檢測
提出模型遵循無監督技術設置,即在訓練時只有正常視頻。在這一前提下,模型更容易預測正常視頻,進而對異常視頻預測時會產生更大的誤差,因此提出模型與常見的視頻異常檢測算法模型相同,利用預測誤差來判斷視頻的正常程度。提出模型的結構如圖2所示,自編碼器通過卷積、下采樣獲得低維特征,再通過卷積和上采樣獲得高維特征或圖像,U-Net類似于自編碼器結構,被廣泛應用在視頻異常檢測中,與傳統自編碼器不同的是,U-Net在網絡中添加了跳躍連接。提出模型在U-Net中引入了多級小波變換,在編碼器中構建了離散小波變換融合模塊,并且在編碼器與解碼器的跳躍連接中構建了編解碼注意力模塊。下面將詳細介紹基于多級小波變換的特征融合過程和編解碼注意力模塊的計算過程。
2.1 基于多級小波變換的特征融合
小波變換能反映圖像在不同頻段的特征,圖像經過小波變換被分解為1個低頻子帶和3個高頻子帶,其中低頻子帶能夠在給定尺度和分辨率下實現對原始圖像的最佳逼近,具有與原圖像相似的統計特征,能夠保留原圖像中的大部分能量。高頻子帶保留了圖像在水平、垂直、對角方向上的細節信息。對圖像進行多級小波變換后,得到不同級的分解結果圖,分別保留了不同頻段的信息。級數越高,分辨率越低,對應的分解結果圖中的輪廓信息占比越高。通過對視頻幀多級小波變換,將提取得到低頻細節信息和高頻輪廓信息特征圖與主干網絡融合,能夠補償在采樣過程中的損失,從而輔助網絡更好地學習正常特征,更準確地預測正常視頻。提出的離散小波變換融合模塊DWTF利用深度可分離卷積從視頻幀的多級小波分解結果中提取特征,并將提取的特征圖與主干網絡進行特征融合。DWTF結構由上下兩個分支組成,如圖3所示。上分支負責傳入來自主干網絡的特征圖,下分支對基于多級小波變換得到的子帶圖進一步提取特征。
在上分支中,將由編碼層傳入的特征圖fe通過最大池化層,此時通道數、寬、高分別為Ce、He、We;在下分支中,與S-WAM相同,也是先利用小波變換將視頻幀分解得到多個子帶圖,再通過拼接子帶圖、傳入淺層CNN進一步提取特征。但在提出的DWTF中利用深度可分離卷積[19]代替S-WAM的普通卷積,模型參數比S-WAM減少了0.44M。具體來說,先將四個子帶圖按通道進行拼接,得到大小為4Cd×He×We的特征圖,再經過兩組3×3卷積、批正則化和ReLU激活函數,其中第一個卷積層輸出通道與輸入通道數相同,都為4Cd,為了與上分支特征層的通道數目保持一致,第二個卷積層輸出通道為Ce,由此得到Ce×He×We的特征圖;最后將這兩個分支的結果按位相加,即DWTF的輸出。當模型中特征圖分辨率為2He×2We,并且圖像經過小波變換后分辨率為He×We時,則可以運用DWTF融合該特征圖與子帶圖。提出模型默認設置了三個DWTF,分別將分辨率為原始輸入圖像的1/2、1/4、1/8的子帶圖融入模型中。
提出的DWTF通過對子帶圖的特征提取,增強了全局高頻特征的表達,有助于豐富物體結構特征,通過特征融合補償在下采樣過程中丟失的細節,促進對正常視頻的預測。
2.2 編解碼注意力模塊
利用編碼層f1和解碼層f2的潛在關系,可以幫助網絡關注到更有價值的正常特征。然而,在網絡模型中,雖然編碼層相較于解碼層有著更豐富的細節信息,但是由于視頻場景中光照復雜,易出現噪聲干擾。如果直接將含有噪聲的編碼層與解碼層關聯,難以準確地突出正常特征,所以可以將編碼層特征先傳入注意力過程后再與解碼層建立關系,以緩解噪聲的影響。高斯差分圖相較于原始特征圖,灰度值低,取值范圍小,感光性弱。如果將高斯差分圖中的特征映射到解碼層中,就可以弱化噪聲信息。因此,為了準確地強化編碼層中的穩定特征,在提出的編解碼坐標注意力模塊EDA中,先在高斯差分圖中嵌入位置信息,再生成權重映射到編碼層中。最后將得到的特征與解碼特征融合,從而利用編碼層f1和解碼層f2的潛在關系引導模型關注到正常區域。EDA可以表示為
f3=Att(f1,f2)(3)
其中:f1、f2分別表示來自編碼層、解碼層的特征;Att表示提出的編解碼注意力模塊的處理過程;f2表示模塊輸出的特征。與其他基于唯一特征圖的注意力過程[11,20]不同,提出的EDA基于編碼層特征和解碼層特征獲得最終結果。模塊主要由獲取高斯差分圖、嵌入位置信息和融合編解碼特征三個步驟實現,模塊的架構如圖4所示。
2.2.1 獲取高斯差分圖
為了緩解光照對特征的影響,在提出的注意力模塊中加入高斯差分圖的計算。首先將解碼器的特征圖f1(x,y)∈RC×H×W與高斯核函數G(x,y,σ0)做卷積操作,得到尺度空間L(x,y,σ0),可表示為
其中:*表示空間卷積;x和y表示特征圖坐標;σ0表示尺度參數,即高斯核的標準差。在訓練時參數固定,G的形式如下:
利用常數k生成不同的尺度空間,再將相鄰的尺度空間相減,得到邊緣特征顯著的特征圖D(x,y,σ0)∈RC×H×W,過程如下:
其中:k通常被設為2。值得注意的是,提出模型在編碼器與解碼器的三個跳躍連接中分別使用了一個編解碼注意力模塊,為了適應特征圖分辨率的變化,這些模塊的尺度參數不同,實現過程完全相同。
常見方法[15,21]針對原始圖像來構造多尺度高斯差分金字塔,由于提出模塊旨在利用高斯模型的平滑特性弱化局部細節信息在室外場景中的不穩定性,如果構造多尺度高斯差分金字塔,會使提出模塊的計算過于復雜,所以在EDA中只計算了一次高斯差分圖。
2.2.2 嵌入位置信息
為了捕獲高斯差分圖中特征點的方向和位置信息,受坐標注意力的啟發,首先利用池化層沿水平和垂直方向聚合特征,再將生成的特征權重通過卷積層和激活函數,最后將結果映射到編碼層特征中。具體地,假設特征圖形狀為C×H×W,將沿特征圖水平、垂直方向生成的權重分別記作fH∈RC×1×W、fW∈RC×H×1,得到的權重既保留了沿著一個方向的精確位置信息,又沿另一個方向捕捉到了遠程特征的依賴關系,其計算過程可表示為
其中:表示矩陣乘法操作,其中的權重參數可以學習。
坐標注意力分別沿水平和垂直方向使用平均池化層來生成特征的權重。由于希望強化編碼層的邊緣紋理,所以提出模塊利用最大池化層生成權重,在潛在的特征表示中引入稀疏性,避免過擬合。另外,為了計算簡單和簡化過程,除去了坐標注意力中的拼接和批正則化的步驟。將高斯差分圖嵌入位置信息,映射到編碼層特征,使編碼器特征圖的邊緣細節得到增強,有助于異常檢測模型在空間上更準確地關注到感興趣信息。
2.2.3 融合編解碼特征
文獻[14,22]已經驗證了淺層特征具有豐富的細節,深層特征的語義信息更突出,并且深層特征的語義信息多集中在前景物體中。相應地,在自編碼模型中,編碼器特征、解碼器特征分別對應于淺層特征和深層特征,它們之間有著潛在的相關性。更值得注意的是,在視頻異常檢測中,正常事件通常屬于前景,因此為了利用解碼層的語義信息來增強編碼層中正常特征的表達,模塊將得到的特征圖f′1通過1×1卷積和ReLU激活函數,再與解碼器特征f2矩陣相乘,將得到的特征圖與原始解碼層特征按位相加。計算過程可以表示為
事實上,EDA可以應用在任意尺寸相同的特征層之間。EDA默認設置在特征尺寸分別為64×H×W、128×H×W、256×H×W的編碼層與解碼層的跳躍連接中。傳統的跳躍連接將特征層直接與其他特征層拼接,與其不同,EDA模塊將編碼層與解碼器建立聯系,抑制編碼層中的異常特征,再將輸出與解碼層特征拼接。另外,EDA參數的更新依賴于編碼器和解碼器傳遞的梯度,有助于模型的優化。
2.3 損失函數
在訓練時,通過最小化預測視頻與真實視頻的預測誤差損失使模型得到優化。MSE[23]是異常檢測模型中最常見的誤差損失函數,其計算過程如下:
3 實驗與結果
本文分別在公開標準數據集UCSD Ped1、UCSD Ped2和Avenue上驗證方法的有效性,它們的訓練數據中只有正常視頻。其訓練集視頻片段數目、測試集視頻片段數目、分辨率、幀數以及異常事件類型見表1所示。
實驗在顯卡為NVIDIA Quadro RTX 8000,CPU為Intel Xeon Silver 4114,顯存48 GB的平臺上進行,軟件環境為PyTorch 1.8.1和Python 3.7.10。將所有視頻幀縮放為256×256,并轉換為灰度圖像后再輸入模型。訓練時使用Adam優化器來學習參數,初始學習率為0.000 1,批尺寸為4,在數據集UCSD Ped1、UCSD Ped2和Avenue上的迭代次數分別為1 400、900、1 200次。
3.1 評價指標
在測試時,根據文獻[6]使用幀級別的ROC曲線下面積AUC為評價指標,ROC曲線通過改變幀級別正常得分的閾值逐步繪制。視頻異常檢測模型常利用預測視頻幀與真實視頻幀之間的峰值信噪比PSNR[24]來計算異常得分,當真實視頻幀為異常時,將獲得較低的PSNR值,即
其中:K為視頻幀的像素數目。與文獻[6,25]相同,將測試視頻幀的PSNR值進行min-max標準化操作,使數據值映射到[0,1],最終正常得分按式(13)計算。
3.2 對比實驗
為了驗證提出模型的性能,將其與其他基于深度學習的方法進行對比,結果見表2,其中對比方法的數據來自參考文獻原文。從表2可知,提出模型在Ped1和Ped2數據集上的結果,達到了最好水平,在Avenue數據集上的結果是次優的,驗證了提出模型的有效性。
對于Ped1數據集,提出模型的AUC比次優的Att-P[12]提高了2.5%。Att-P方法是在對抗生成模型中,利用視頻幀生成注意力圖,設計了注意力驅動損失來優化模型,但其生成的注意力圖沒有考慮光照的影響;對于Ped2數據集,提出模型的AUC比CT-D2GAN[26]高出1.0%,CT-D2GAN基于生成對抗網絡設計了一個時間自注意力模塊來編碼時間和運動,使用了兩個判別器,模型更復雜,而且忽略了正常幀的多樣性;對于Avenue數據集,與S-T[9]相比,提出模型的效果欠佳,S-T模型利用兩個自編碼網絡將時空信息分離,引入了均值聚類策略,以壓縮數據表達,S-T模型在單個NVIDIA GeForce TitanXp的GPU上幀率達到32 fps。但S-T忽略了異常視頻幀可能也被重構得很好,另外,在使用聚類策略時未針對異常檢測任務進行優化,當正常視頻分布復雜時,可能會導致分類失效。
值得注意的是,這些方法都忽略了下采樣過程中高頻細節的丟失,以及在自編碼網絡中關聯不同層級特征的必要性,使用了多個損失函數來優化模型。然而,提出模型利用離散小波變換融合模塊和編解碼注意力模塊,彌補了上述方法的缺陷,而且只利用了一項損失函數就達到了不錯的效果,在單個NVIDIA Quadro RTX 8000 GPU上的幀率達到33 fps。
3.3 消融實驗
為了比較所提模塊的作用,進行了消融實驗,實驗結果如表3所示。與EDA相比,DWTF在Ped1、Ped2和Avenue數據集上的實驗效果更好。這說明DWTF更能提升模型的性能,這是因為離散小波變換能從全局上將視頻幀分解成不同頻率的子帶圖,其特征與編碼器融合后,逐層正向傳播到模型輸出層;而EDA利用高斯差分圖從局部邊緣上增強編碼特征層細節,利用解碼器特征強化表達較弱的正常特征,最后傳入到解碼層中,因此從全局上學習特征的DWTF使模型效果更好,將上述兩個模塊同時設置在模型中時,模型檢測準確率達到最好。
圖5利用預測視頻幀與真實視頻幀對應像素點的歐氏距離,分別在Ped1、Ped2、Avenue數據集上展示了模型檢測異常的能力。其中(a)~(e)分別表示原始視頻幀、基于U-Net的異常檢測、在U-Net中添加DWTF模塊、在U-Net中添加EDA模塊、在U-Net中添加DWTF和EDA模塊的異常檢測結果可視化;圖(b)~(e)中像素點的顏色越亮,表示預測幀與真實幀對應像素點灰度的歐氏距離越大。從圖中可以看出,U-Net在添加離散小波變換融合模塊和編解碼注意力模塊后,模型檢測效果更好。
在后面的實驗中,將通過利用幀級別的正常分數,即式(13),分別計算測試時正常幀、異常幀的平均分數,以及正常幀與異常幀平均分數之差Δs來分析實驗,以進一步分析和驗證提出模塊的影響。具體來說,平均分數反映預測視頻接近正常視頻的程度,同時當正常幀的平均分越高,則說明模型對正常視頻學習得越好;另外,Δs越大,表示模型越能拉大正常視頻與異常視頻的預測誤差之間的差距,進而說明模型學習到的特征有助于區分正常視頻與異常視頻。
3.3.1 離散小波變換融合模塊的影響
為了驗證離散小波變換融合模塊DWTF的有效性,通過在U-Net[27]中添加該模塊來進行消融實驗。在Avenue數據集上,分別利用U-Net、在U-Net加入離散小波融合模塊的模型進行訓練,實驗結果見圖6。
從圖6中可以看出,與U-Net相比,加入DWTF模塊后,正常幀的平均分提升了0.028,異常幀的平均分提升了0.006,說明在解碼器中添加的DWTF模塊編碼了正常幀更多區域的特征,使解碼器能夠利用這些特征更好地預測正常視頻;另外,添加的DWTF模塊使測試得到的Δs更大,說明該模塊使模型對正常視頻與異常視頻的區分性更強。在不使用DWTF的情況下,U-Net在下采樣過程中會損失空間細節,導致預測視頻時不準確,添加DWTF后,DWTF能將視頻豐富的高頻細節保留下來,使模型的特征學習更高效,因此異常檢測效果更好。為了便于理解DWTF模塊,圖7展示了Ped1、Ped2、Avenue數據集分別經過一級小波變換得到的部分子帶圖,圖7(a)~(c)分別表示原始視頻幀、低頻子帶圖、高頻水平子帶圖。從圖中可以看出大量固定的正常區域和物體細節被保留下來,這些特征有助于對正常視頻的預測。
3.3.2 編解碼注意力的影響
為了證明編解碼注意力的有效性,在Ped1上進行了三項實驗,其中一項在U-Net上進行,另外兩項分別在U-Net網絡中設置一個坐標注意力CA模塊、在U-Net中設置一個編解碼注意力EDA模塊的模型上進行,模塊設置位置相同,都在編碼器與解碼器的跳躍連接中,實驗結果如圖8所示。
從圖8可以看出,首先,U-Net視頻異常檢測的效果不夠好,這是因為U-Net直接將編碼層特征跳躍連接到解碼層,即在跳躍連接中未加入任何注意力模塊,將編碼層特征在所有空間位置上同等看待,不可避免地引入了淺層不重要的信息。其次,與基線網絡U-Net模型相比,CA模塊對應的Δs更大,說明嵌入位置信息的注意力機制提高了模型對正常視頻與異常視頻的區分能力。最后,提出的EDA模塊與CA相比,基于EDA的模型將正常視頻的平均分數進一步提升了0.019,而且異常幀的平均分數降低了0.001,Δs提高了0.02,說明在視頻異常檢測中,利用高斯差分圖增強邊緣細節,同時在解碼層與編碼層間建立特征映射為網絡編碼了更具區分性的正常特征,降低了模型的泛化能力,因此,提出的編解碼注意力模塊更能提升異常檢測的性能。
為了從視覺上理解編解碼注意力的作用,將三個跳躍連接中最淺層的特征圖進行可視化,相應特征分辨率為256×256,在測試階段,隨機選取了兩個通道上的特征熱力圖,見圖9。圖9首列的兩張圖從上至下,分別為原始正常幀和原始異常幀,(a)~(f)對應于正常幀特征圖,(g)~(l)對應于異常幀特征圖,另外(a)(d)(g)(j)為編碼層特征通道圖,(b)(e)(h)(k) 為解碼層特征通道圖,(c)(f)(i)(l)為編解碼注意力模塊輸出圖。由圖9可分析得到以下結論:
a)相對于編碼層通道圖,解碼層特征通道圖的語義性更強,即從(a)(d)(g)(j)可以看出部分物體的細節,從(b)(e)(h)(k)可以粗略看出物體概貌。
b)從模塊輸出圖可以看出,由于受解碼層的語義信息的影響,編解碼注意力模塊使行人的細節更清晰。例如在(d)難以看出物體特征,在(e)則可以初步辨識出行人區域,經過編解碼注意力模塊后,在(f)行人和其他物體的特征得到更細致的表達。
c)(g)中自行車顏色較亮,而在模塊輸出得到的(i)中,自行車輪廓顏色變淡,說明屬于異常的自行車特征得到抑制;(k)中較亮的區域包括離鏡頭較遠的行人和自行車,由于行人屬于正常特征,在(l)中行人得到增強。這是因為,通過正常視頻訓練得到的編解碼注意力模塊,其參數更傾向于表達正常特征。
4 結束語
為了能夠準確預測正常視頻,提出引入多級離散小波變換,構建了離散小波變換融合模塊,該模塊利用全局的不同頻率的子帶圖,通過深度可分離卷積提取特征,并與編碼器特征融合,以豐富細節特征;為了引導模型關注正常特征,構建了編解碼注意力模塊,該模塊利用高斯差分圖強化邊緣特征,利用坐標注意力嵌入位置信息,利用解碼層特征引導模型關注到語義信息豐富的局部特征,增強了正常視頻與異常視頻的可區分性。提出在自編碼網絡模型中設置這兩個模塊,異常檢測性能得到提升。通過在Ped1、Ped2、Avenue數據集上的實驗,驗證了提出模型的先進性和方法的有效性。在未來會繼續探究其他先進的圖像分解技術對視頻異常檢測的影響,以及提出模塊在其他領域的應用。
參考文獻:
[1]Morris B T,Trivedi M M.Trajectory learning for activity understan-ding:unsupervised,multilevel,and long-term adaptive approach[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,33(11):2287-2301.
[2]Ito Y,Kitani K M,Bagnell J A,et al.Detecting interesting events using unsupervised density ratio estimation[C]//Proc of European Conference on Computer Vision.2012:151-161.
[3]Hasan M,Choi J,Neumann J,et al.Learning temporal regularity in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:733-742.
[4]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomaly detection—a new baseline[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2018:6536-6545.
[5]Yang Biao,Cao Jinmeng,Wang Nan,et al.Anomalous behaviors detection in moving crowds based on a weighted convolutional autoencoder-long short-term memory network[J].IEEE Trans on Cognitive and Developmental Systems,2019,11(4):473-482.
[6]Park H,Noh J,Ham B.Learning memory-guided normality for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:14360-14369.
[7]Gong Dong,Liu Lingqiao,Le V,et al.Memorizing normality to detect anomaly:memory-augmented deep autoencoder for unsupervised ano-maly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1705-1714.
[8]Sharma P,Gangadharappa M.Anomaly detection in video sequences using multiple object tracking and autoencoder[C]//Proc of the 8th International Conference on Computing for Sustainable Global Deve-lopment.Piscataway,NJ:IEEE Press,2021:294-298.
[9]Chang Yunpeng,Tu Zhigang,Xie Wei,et al.Video anomaly detection with spatio-temporal dissociation[J].Pattern Recognition,2022,122(2):108213.
[10]Huang Chao,Wu Zhihao,Wen Jie,et al.Abnormal event detection using deep contrastive learning for intelligent video surveillance system[J].IEEE Trans on Industrial Informatics,2022,18(8):5171-5179.
[11]王軍.基于多尺度特征預測的異常事件檢測[J].電子科技大學學報,2022,51(4):586-591.(Wang Jun.Abnormal event detection based on multi-scale features prediction[J].Journal of University of Electronic Science and Technology of China,2022,51(4):586-591.)
[12]Zhou J T,Zhang Le,Fang Zhiwen,et al.Attention-driven loss for anomaly detection in video surveillance[J].IEEE Trans on Circuits and Systems for Video Technology,2020,30(12):4639-4647.
[13]Jin Beibei,Hu Yu,Tang Qiankun,et al.Exploring spatial-temporal multi-frequency analysis for high-fidelity and temporal-consistency video prediction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:4553-4562.
[14]Zhu Zhen,Xu Mengdu,Bai Song,et al.Asymmetric non-local neural networks for semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:593-602.
[15]穆柯楠,趙祥模,惠飛.基于非采樣高斯差分金字塔的多尺度融合邊緣檢測[J].工程科學與技術,2015,47(5):130-138.(Mu Kenan,Zhao Xiangmo,Hui Fei.Multiscale fused edge detection algorithm based on non-sampling difference of Gaussian pyramid[J].Advanced Engineering Sciences,2015,47(5):130-138.)
[16]Hou Qibin,Zhou Daquan,Feng Jiashi.Coordinate attention for efficient mobile network design[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13708-13717.
[17]Mallat S G.A theory for multiresolution signal decomposition:the wavelet representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1989,11(7):674-693.
[18]Zha Mingfeng,Qian Wenbin,Yi Wenlong,et al.A lightweight YOLOv4-based forestry pest detection method using coordinate attention and feature fusion[J].Entropy,2021,23(12):1587.
[19]Howard A G,Zhu Menglong,Chen Bo,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17).https://arxiv.org/abs/1704.04861.
[20]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.
[21]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[22]Zhao Ting,Wu Xiangqian.Pyramid feature attention network for saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3080-3089.
[23]Mohammadi B,Fathy M,Sabokrou M.Image/video deep anomaly detection:a survey[J/OL] (2021-03-02).https://arxiv.org/abs/2103.01739.
[24]Gupta P,Srivastava P,Bhardwaj S,et al.A modified PSNR metric based on HVS for quality assessment of color images[C]//Proc of International Conference on Communication and Industrial Application.Piscataway,NJ:IEEE Press,2011:1-4.
[25]Lyu Hui,Chen Chen,Cui Zhen,et al.Learning normal dynamics in videos with meta prototype network[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:15420-15429.
[26]Feng Xinyang,Song Dongjin,Chen Yuncong,et al.Convolutional transformer based dual discriminator generative adversarial networks for video anomaly detection[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:5546-5554.
[27]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer,2015:234-241.
[28]Ionescu R T,Smeureanu S,Alexe B,et al.Unmasking the abnormal events in video[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2914-2922.
[29]Luo Weixin,Liu Wen,Gao Shenghua.A revisit of sparse coding based anomaly detection in stacked RNN framework[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:341-349.
[30]Tang Yao,Zhao Lin,Zhang Shanshan,et al.Integrating prediction and reconstruction for anomaly detection[J].Pattern Recognition Letters,2020,129(1):123-130.
[31]Pang Guansong,Yan Cheng,Shen Chunhua,et al.Self-trained deep ordinal regression for end-to-end video anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12170-12179.
[32]孫奇,吉根林,張杰.基于非局部注意力生成對抗網絡的視頻異常事件檢測方法[J].計算機科學,2022,49(8):172-177.(Sun Qi,Ji Genlin,Zhang Jie.Non-local attention based generative adversarial network for video abnormal event detection[J].Computer Science,2022,49(8):172-177.)
[33]Park C,Cho M,Lee M,et al.FastAno:fast anomaly detection via spatio-temporal patch transformation[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:1908-1918.