999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空時(shí)對(duì)抗變分自編碼器的人群異常行為檢測(cè)

2023-11-23 08:12:24邢天祎郭茂祖陳加棟趙玲玲陳琳鑫田樂
智能系統(tǒng)學(xué)報(bào) 2023年5期
關(guān)鍵詞:檢測(cè)模型

邢天祎,郭茂祖,陳加棟,趙玲玲,陳琳鑫,田樂

(1.北京建筑大學(xué) 電氣與信息工程學(xué)院, 北京 100044; 2.哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部, 黑龍江 哈爾濱 150001)

視頻異常檢測(cè)指基于視頻數(shù)據(jù)檢測(cè)其中不符合正常預(yù)期的行為、事件等[1]。隨著監(jiān)控設(shè)備的廣泛普及與計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,基于視頻的異常檢測(cè)技術(shù)被廣泛應(yīng)用于交通管控、智慧安防、事故預(yù)警等諸多領(lǐng)域,為大量實(shí)際應(yīng)用場(chǎng)景提供了支撐。在踩踏、擠壓等群體事故形成初期通常伴隨有群體異常動(dòng)向[2],通過檢測(cè)監(jiān)控視頻中的人群異常行為,有助于及時(shí)感知事故危險(xiǎn)隱患,對(duì)提升公共安全監(jiān)管效率、避免重大群體事件具有重要的研究意義與研究價(jià)值。

目前基于深度學(xué)習(xí)的方法越來越多地應(yīng)用于視頻異常行為檢測(cè),這類方法通過自動(dòng)的從大量數(shù)據(jù)集中學(xué)習(xí)數(shù)據(jù)本身的分布規(guī)律來提取出更加魯棒的高級(jí)特征,具有更強(qiáng)的特征表示能力。目前,基于深度學(xué)習(xí)的視頻異常行為檢測(cè)方法主要分為基于重構(gòu)和基于預(yù)測(cè)兩類。

基于重構(gòu)誤差的方法是通過模型訓(xùn)練學(xué)習(xí)正常樣本在樣本空間服從的分布,符合該分布的正常樣本都能較好地重構(gòu),而那些重構(gòu)誤差大的樣本則屬于異常樣本。Hasan 等[3]利用2D 卷積自動(dòng)編碼器(two dimensional-convolutional autoencoder,2D-CAE)來重構(gòu)正常幀并使用多個(gè)幀作為輸入,但所提出的網(wǎng)絡(luò)僅在空間上執(zhí)行卷積和池化運(yùn)算,無法從視頻中捕獲時(shí)間模式。因此文獻(xiàn)[4-6]通過利用卷積長短期記憶自編碼器(convolution long-short term memory autoencoder,Conv LSTM-AE)重構(gòu)目標(biāo)對(duì)象的外觀信息和運(yùn)動(dòng)信息進(jìn)行異常行為檢測(cè),提出將稀疏編碼映射到堆疊的循環(huán)神經(jīng)網(wǎng)絡(luò)(stacked recurrent neural network,sRNN)框架中重構(gòu)異常行為。但由于卷積神經(jīng)網(wǎng)絡(luò)具有的強(qiáng)大的泛化能力,某些異常事件的重構(gòu)誤差也較小。Yan 等[7]提出了雙流循環(huán)變分自編碼器模型(two-stream recurrent variational autoencoder),雙流融合架構(gòu)在異常事件檢測(cè)中用于融合空間流和時(shí)間流的信息,實(shí)現(xiàn)了異常事件的幀級(jí)檢測(cè)及像素級(jí)定位。Liu 等[8]提出了雙原型自編碼器(dual prototype autoencoder,DPAE),引入了雙原型損失和重構(gòu)損失,使編碼器產(chǎn)生的潛在向量更接近自己的原型,因此潛在向量趨于接近,則表示正常,潛在向量距離較大則表示異常。但是此類方法均受限于數(shù)據(jù)樣本不均衡,正常樣本重構(gòu)誤差占主導(dǎo)地位等問題,在某些場(chǎng)景下不能準(zhǔn)確檢測(cè)出異常事件。

基于預(yù)測(cè)的視頻異常檢測(cè)方法假設(shè)正常行為是有規(guī)律的且是可預(yù)測(cè)的,而視頻中異常行為事件由于其不確定性不可預(yù)測(cè)。該類方法可通過生成未來目標(biāo)幀的預(yù)測(cè)幀,將其與對(duì)應(yīng)的視頻真實(shí)幀進(jìn)行對(duì)比來判斷該視頻中是否包含異常行為。目前,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN) 在視頻異常檢測(cè)領(lǐng)域已取得突破性進(jìn)展,其網(wǎng)絡(luò)架構(gòu)可很好地用于預(yù)測(cè)。Liu 等[9]提出基于U-net 的條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行異常行為檢測(cè),并采用Flownet 光流網(wǎng)絡(luò)對(duì)運(yùn)動(dòng)特征約束;Dong 等[10]在此基礎(chǔ)上提出基于對(duì)偶生成對(duì)抗網(wǎng)絡(luò)模型,利用雙生成器和雙辨別器的對(duì)偶結(jié)構(gòu)分別對(duì)外觀和運(yùn)動(dòng)信息判斷異常。Nguyen 等[11]采用卷積自編碼器網(wǎng)絡(luò)學(xué)習(xí)空間維度特征,與運(yùn)動(dòng)信息相關(guān)聯(lián)輸入U(xiǎn)-net 網(wǎng)絡(luò)實(shí)現(xiàn)異常檢測(cè)。通過向傳統(tǒng)卷積自編碼器引入GAN 的辨別器結(jié)構(gòu),文獻(xiàn)[12]構(gòu)建了對(duì)抗自編碼器(adversarial autoencoder,AAE)模型,該對(duì)抗式自編碼器由傳統(tǒng)的卷積自編碼器(convolutional autoencoder,CAE)[5]和辨別器[13]組成,使輸入樣本和輸入潛在表示與重構(gòu)樣本與輸出的潛在表示之間分別形成對(duì)抗關(guān)系。Li 等[14]在對(duì)抗式自編碼器的基礎(chǔ)上提出空時(shí)對(duì)抗自編碼器(spatial-temporal adversarial autoencoder,ST-AAE)模型,基于視頻數(shù)據(jù)的空時(shí)特征進(jìn)行預(yù)測(cè),實(shí)現(xiàn)了異常行為的檢測(cè)功能。Zhang 等[15]提出了一種融合變分自編碼(variational auto-encoder, VAE)和分階段生成對(duì)抗網(wǎng)絡(luò)(stack generative adversarial networks, StackGAN)的生成模型,進(jìn)一步提高了生成圖像的質(zhì)量。但是這些方法較多針對(duì)個(gè)體行為異常檢測(cè),對(duì)群體行為異常的研究仍不充分。

在最近的研究中,Park 等[16]提出使用基于CNN的記憶引導(dǎo)法異常檢測(cè)(memory-guided normality for anomaly detection,MNAD)對(duì)視頻數(shù)據(jù)進(jìn)行異常檢測(cè)。Markovitz 等[17]提出了時(shí)空?qǐng)D自編碼(spatiotemporal graph autoencoder,ST-GCAE)來檢測(cè)異常人體姿勢(shì)。Goyal 等[18]提出了一種用于無監(jiān)督異常檢測(cè)的深度魯棒單類分類(deep robust one-class classifica,DROCC)。他們的方法假設(shè)來自正常類的點(diǎn)位于一個(gè)良好采樣和局部線性低維流形上,通過學(xué)習(xí)一個(gè)表示來最小化分類損失,然后使用分類器將正常樣本從異常樣本中分離出來。為了構(gòu)建一個(gè)高性能的缺陷檢測(cè)模型,能夠從沒有異常數(shù)據(jù)的圖像中檢測(cè)出未知的異常模式,Li 等[19]提出了一種用于構(gòu)建異常檢測(cè)器的兩階段CNN,通過數(shù)據(jù)增強(qiáng)策略(CutPaste)對(duì)正常數(shù)據(jù)進(jìn)行分類來學(xué)習(xí)表示。Rudolph 等[20]提出的CS-Flow(cross-scale-flows)用一種新穎的全卷積跨尺度歸一化流,該流聯(lián)合處理不同尺度的多個(gè)特征映射。該方法保持了空間排列,使得歸一化流的潛在空間是可解釋的,這使得該方法能夠定位圖像中的缺陷區(qū)域。Carrara 等[21]提出了基于雙頭對(duì)抗生成網(wǎng)絡(luò)的CBiGAN(consistency bidirectional generative adversarial network),用GAN 和AutoEncoder的結(jié)合來學(xué)習(xí)正常數(shù)據(jù)的分布,然后通過重構(gòu)誤差來判斷當(dāng)前圖像是否異常。但此類方法在重建圖像上能力較差,導(dǎo)致正常樣本重構(gòu)誤差較大,異常事件檢測(cè)精度較低。

目前,結(jié)合對(duì)抗自編碼器結(jié)構(gòu)與空時(shí)特征的視頻異常行為檢測(cè)方法已取得了較好的效果,但仍存在部分局限性:1)現(xiàn)有研究較多針對(duì)個(gè)體或局部異常行為進(jìn)行檢測(cè),對(duì)群體異常行為的研究仍不充分;2)視頻數(shù)據(jù)由單幀圖像組成,現(xiàn)有方法主要采用圖像檢測(cè)的方法進(jìn)行視頻異常檢測(cè),損失時(shí)序信息;3)召回率低,由于異常事件罕見且具有差異性,識(shí)別所有的異常較為困難,導(dǎo)致正常樣本被誤報(bào)為異常,真實(shí)且復(fù)雜的異常卻被漏報(bào)。

為解決當(dāng)前研究存在的問題,本文提出了一種基于重構(gòu)和預(yù)測(cè)相結(jié)合的異常檢測(cè)模型:空時(shí)對(duì)抗變分自編碼器(spatio-temporal adversarial variational autoencoder,ST-AVAE)。模型同時(shí)融合了長短時(shí)記憶網(wǎng)絡(luò),變分自編碼器模塊以及對(duì)抗網(wǎng)絡(luò)模塊。保留了視頻數(shù)據(jù)的時(shí)序信息,在變分自編碼器生成重構(gòu)幀圖像時(shí),加入了對(duì)抗網(wǎng)絡(luò)模塊,進(jìn)一步提高了重構(gòu)圖像的能力,降低了正常樣本重構(gòu)誤差,增大了異常樣本重構(gòu)誤差,進(jìn)而提升異常事件檢測(cè)精度。

本文的主要?jiǎng)?chuàng)新在ST-VAE 模型基礎(chǔ)上提出ST-AVAE 模型,將GAN 模型的辨別器與ST-VAE結(jié)合,辨別器旨在使ST-VAE 模型學(xué)習(xí)到模擬正常數(shù)據(jù)分布的能力,提高對(duì)正常樣本空時(shí)特征的表示和重建能力,同時(shí)辨別器的引入使得異常樣本和正常樣本的表示區(qū)分度更強(qiáng),從而重建誤差具有顯著不同,提高對(duì)異常的檢測(cè)能力。

1 相關(guān)工作

本文在解決人群異常檢測(cè)正負(fù)樣本不均衡,過于依賴異常樣本的問題上,采用了變分自編碼器作為模型基礎(chǔ),并結(jié)合了長短時(shí)記憶網(wǎng)絡(luò),提取了視頻數(shù)據(jù)的時(shí)序信息。

1.1 變分自編碼器

自編碼器(autoencoder,AE)由編碼器-解碼器(encoder-decoder)組成,通過將輸入信息作為學(xué)習(xí)目標(biāo),對(duì)輸入信息進(jìn)行表征學(xué)習(xí)。如圖1(a)所示,輸入原圖像數(shù)據(jù)x,通過多層卷積層得到潛在向量,再經(jīng)多層反卷積層得到生成圖像y,模型訓(xùn)練過程旨在使y盡可能與x相似。

圖1 自編碼器網(wǎng)絡(luò)示意Fig.1 AutoEncoder network

變分自編碼器(variational autoencoder,VAE)在自編碼器模型上做進(jìn)一步變分處理,使得編碼器的輸出結(jié)果能對(duì)應(yīng)到目標(biāo)分布的均值和方差。如圖1(b) 所示,VAE 在生成潛在向量(c1,c2,c3)前,會(huì)向編碼添加噪音以加大潛在向量空間,編碼器輸出兩個(gè)編碼,一個(gè)是原有編碼(m1,m2,m3),另一個(gè)是控制噪音干擾程度的編碼(σ1,σ2,σ3),第2 個(gè)編碼為隨機(jī)噪音碼分配權(quán)重(e1,e2,e3),通過exp(σi)保證這個(gè)分配權(quán)重為正,最后將原編碼與噪音編碼相加,即可得到VAE 在code 層的輸出結(jié)果。

1.2 長短時(shí)記憶網(wǎng)絡(luò)

長短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),解決一般循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)存在的長期依賴問題。LSTM 的主要作用是舍去重要性較低的信息,并將較為關(guān)鍵的信息隨時(shí)間傳遞到下一時(shí)刻,由此達(dá)到預(yù)測(cè)目的。LSTM 單元結(jié)構(gòu)中包含3 種門控機(jī)制,輸入門、遺忘門、輸出門,如圖2 所示。

圖2 LSTM 結(jié)構(gòu)Fig.2 LSTM structure diagram

圖2 中ht-1,Ct-1分別代表LSTM 上一單元的輸出和狀態(tài),Xt,ht,Ct分別代表當(dāng)前時(shí)刻輸入、輸出和狀態(tài)。狀態(tài)Ct-1會(huì)被上一時(shí)刻輸出ht-1及當(dāng)前時(shí)刻輸入Xt通過3 種門結(jié)構(gòu)進(jìn)行計(jì)算,得到當(dāng)前時(shí)刻狀態(tài)Ct,當(dāng)前時(shí)刻輸出ht以同樣形式參與下一時(shí)刻狀態(tài)計(jì)算。圖中σ代表sigmoid 激活函數(shù),tanh 代表雙曲正切激活函數(shù)。

首先,遺忘門決定上一時(shí)刻狀態(tài)Ct-1中保留和刪除的信息,其公式為

ft將與Ct-1相乘,由于σ函數(shù)取值0~1,Ct-1與0 相乘的位置信息將被遺忘。

輸入門決定新輸入帶來的信息,計(jì)算過程為

輸出門決定最后需要輸出的信息,計(jì)算過程如下:

2 人群異常行為檢測(cè)算法模型

2.1 模型整體框架

針對(duì)監(jiān)控場(chǎng)景下人群異常行為檢測(cè)問題,本文利用ST-VAE 和GAN 網(wǎng)絡(luò)的辨別器結(jié)構(gòu),設(shè)計(jì)了空時(shí)對(duì)抗變分自編碼器模型,以提高異常行為檢測(cè)能力。模型由CNN 殘差網(wǎng)絡(luò)構(gòu)成的編碼器、LSTM 組成的空時(shí)預(yù)測(cè)模塊、解碼器和辨別器4 部分組成。在編碼器部分,輸入視頻幀序列(xk,xk+1,···,xk+m),生成視頻幀序列的特征潛在向量(ek,ek+1,···,ek+m) ;在LSTM 網(wǎng)絡(luò)層,對(duì)(ek,ek+1,···,ek+m)進(jìn)行預(yù)測(cè),得到預(yù)測(cè)幀向量(e′k,e′k+1,···,e′k+m+1);在解碼器部分,由特征編碼重建k+1,k+2,···,k+m+1時(shí)刻的視頻幀序列(x′k+1,x′k+2,···,e′k+m+1),與真實(shí)樣本(xk,xk+1,···,xk+m)計(jì)算重建誤差;最后,將視頻幀序列與生成的潛在向量(真實(shí)樣本對(duì))和重構(gòu)視頻幀序列與預(yù)測(cè)潛在向量(生成樣本對(duì))輸入到對(duì)抗自編碼器的辨別器結(jié)構(gòu),對(duì)原幀評(píng)價(jià)分、重構(gòu)幀評(píng)價(jià)分和重建誤差加權(quán)求和后,與選定的最佳閾值進(jìn)行比較,判定是否發(fā)生人群異常行為??諘r(shí)對(duì)抗變分自編碼器網(wǎng)絡(luò)(ST-AVAE)的整體結(jié)構(gòu)如圖3 所示。

圖3 ST-AVAE 模型結(jié)構(gòu)Fig.3 ST-AVAE model structure

2.2 編碼器模塊

本文采用的編碼器結(jié)構(gòu)如圖4 所示,圖中所有代表卷積層的藍(lán)色長方塊部分,均由殘差模塊[22]代替。編碼器部分由殘差模塊和平均池化層組成,輸入為128×3×3 尺寸的圖像數(shù)據(jù),輸入經(jīng)6 層卷積層,1 層全連接層,變?yōu)?56×1 維的向量,再通過Leaky-ReLU 激活層將向量分為兩個(gè)64×1 維的向量,分別代表均值和方差,得到一個(gè)近似正態(tài)分布的潛在向量e。

圖4 編碼器模塊Fig.4 Encoder module

編碼器的工作原理可表示為

其中,輸入xi表示第i幀原圖,經(jīng)過編碼器En得到第i幀編碼向量ei。

2.3 空時(shí)預(yù)測(cè)模塊

在2.2 節(jié)中編碼器得到的隱變量上增加LSTM模塊,結(jié)構(gòu)如1.2 節(jié)圖2 所示??諘r(shí)預(yù)測(cè)模塊的輸入為前k-1 幀序列得到的潛在向量,得到2~k幀的預(yù)測(cè)潛在向量,即:

ei=[e1e2···ek]表示k幀序列通過編碼得到的k個(gè)潛在向量,ei′=[e2′e3′···ek′]表示通過LSTM單元后得到的預(yù)測(cè)幀序列潛在向量。

2.4 解碼器模塊

解碼器由殘差模塊和上采樣層組成。解碼器部分通過進(jìn)行尺寸與編碼器對(duì)應(yīng)的反卷積層和上采樣層,將潛在向量解碼成128×3×3 與原圖相同大小的生成圖像。通過Decoder 層解碼回2~n幀的重構(gòu)幀序列。解碼器結(jié)果如圖5 所示。

圖5 解碼器模塊Fig.5 Decoder module

解碼器的工作原理可由下式表示:

其中,輸入ei′表示輸入第i幀預(yù)測(cè)的潛在向量,經(jīng)過解碼器模塊得到第i幀重構(gòu)幀xi′。

2.5 辨別器與對(duì)抗學(xué)習(xí)模塊

為了使VAE 模型更好地學(xué)習(xí)到模擬正常數(shù)據(jù)分布的能力,提高模型的泛化能力,因此在模型中加入了辨別器,利用對(duì)抗學(xué)習(xí)的方式來強(qiáng)化編碼器-解碼器的重構(gòu)圖像能力。

辨別器-編碼器-解碼器共同形成對(duì)抗網(wǎng)絡(luò),整個(gè)對(duì)抗網(wǎng)絡(luò)首先更新其辯別器以區(qū)分真實(shí)樣本(服從正態(tài)分布)和生成樣本(由編碼器計(jì)算得到的潛在向量),然后更新其生成器(編碼器-解碼器)以混淆辨別器。辨別器結(jié)構(gòu)如圖6 所示,其目標(biāo)是盡量使生成的虛假圖片和隱藏層向量對(duì)(即重建幀和預(yù)測(cè)潛在向量)與真實(shí)圖片和生成的隱藏層向量對(duì)(即原幀和潛在向量)盡量無法區(qū)分哪對(duì)才是正常樣本對(duì)。

圖6 辨別器與對(duì)抗學(xué)習(xí)模塊Fig.6 Discriminator and adversarial learning module

圖6 左半部分輸入為預(yù)測(cè)潛在向量ei′,通過解碼器網(wǎng)絡(luò)De生成圖像,然后再用編碼器網(wǎng)絡(luò)En映射成潛在向量,求重建誤差:

圖6 右半部分輸入為原幀圖像x,用編碼器網(wǎng)絡(luò)En映射生成潛在向量,用網(wǎng)絡(luò)De映射生成重構(gòu)圖像,求重建誤差:

網(wǎng)絡(luò)En、De的目標(biāo)首先要使這兩個(gè)誤差盡可能地小:

式中:Lc(x,e') 為網(wǎng)絡(luò)En、De的重建誤差損失函數(shù),它是兩個(gè)重建誤差的加和。

這里用GAN 的損失函數(shù)為

即式(7)中xi和En(xi)組成的樣本對(duì)視為正樣本對(duì),式(9)中ei′和De(ei′)組成的樣本對(duì)視為負(fù)樣本對(duì)。辨別器試圖增大正樣本對(duì)的評(píng)分,減小負(fù)樣本對(duì)的評(píng)分。

最后網(wǎng)絡(luò)En,De的損失函數(shù)式(12)與辨別器的損失函數(shù)的負(fù)數(shù)式(14)加權(quán)相加,得到整體損失函數(shù):

這樣En、De網(wǎng)絡(luò)的訓(xùn)練就和辨別器形成了對(duì)抗關(guān)系。

2.6 異常判斷

在2.3 節(jié)所示LSTM 模型訓(xùn)練完成后,即可通過模型進(jìn)行人群異常行為判斷。設(shè)原圖像幀序列為xi={x1,x2,···,xk},序列經(jīng)編碼后得到潛在向量序列ei={e1,e2,···,ek},再將前k-1 個(gè)潛在向量輸入到LSTM 模塊得到預(yù)測(cè)的潛在向量序列ei′={e2′,e3′,···,ek′}, 最后解碼得到重構(gòu)幀序列x′i={x2′,x3′,···,xk′}。通過原幀序列與重構(gòu)幀序列,可定義異常分?jǐn)?shù):

此外,利用辨別器輸出得到原幀評(píng)價(jià)分和重構(gòu)幀評(píng)價(jià)分,分別為

整體異常分?jǐn)?shù)由(16)~(18)整合得到:

其中α,β是可調(diào)參數(shù)。

通過以上公式能夠計(jì)算當(dāng)前序列的最后一幀的異常分?jǐn)?shù)。與ST-VAE 相似,采用ST-AVAE 進(jìn)行異常判斷同樣需要尋找一個(gè)最佳的閾值,通過為異常分?jǐn)?shù)設(shè)定閾值能夠判斷當(dāng)前時(shí)間對(duì)于圖像是否存在異常,令模型的異常判斷準(zhǔn)確率達(dá)到最高。即對(duì)于閾值T,Sall>T時(shí),當(dāng)前幀判斷為異常。

空時(shí)對(duì)抗變分自編碼器對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程算法描述如下。

算法對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程算法

1) 初始化編碼器En,解碼器De,辨別器D

2) 迭代N·R :N=12 000

3) 采樣M個(gè)圖像樣本(x1,x2,···,xm)

4) 編碼器生成M個(gè)編碼(z1′,z2′,···,zm′)

5) 編碼器重構(gòu)誤差:

6) 先驗(yàn)概率P(z)采 樣M個(gè)編碼(z1,z2,···,zm)

7) 解碼器生成M個(gè)圖像(x1′,x2′,···,xm′):

8) 解碼器重構(gòu)誤差:

9) 正則化項(xiàng):

10) 更新辨別器D:

11) 更新編碼器En、De:

空時(shí)對(duì)抗變分自編碼器對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程算法中分別加入了編碼器和解碼器的重構(gòu)誤差,并將兩式求和作為對(duì)其約束,即正則化項(xiàng)Lc,進(jìn)一步降低了重構(gòu)誤差,提升了模型的的重構(gòu)精度。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

為了驗(yàn)證本文模型的有效性,采用了UMN公開數(shù)據(jù)集[23]和采集的逃散事件視頻對(duì)本文方法和主流方法ST-AE[24],ST-VAE[25]進(jìn)行了對(duì)比。UMN 數(shù)據(jù)集由3 段不同場(chǎng)景下的人群異常事件模擬視頻組成,記錄了俯視視角下人群在視野中央漫步到爆炸式逃散的模擬異常事件過程。此外,本文采集了人群逃散行為的異常事件視頻,該視頻數(shù)據(jù)集中包含同一場(chǎng)景、兩種不用視角下10 人的爆炸式逃散過程。

3.1.2 數(shù)據(jù)預(yù)處理

為提取時(shí)序信息,需要將視頻數(shù)據(jù)分散成若干個(gè)視頻塊,每個(gè)視頻塊由n幀連續(xù)圖像組成,以視頻塊作為網(wǎng)絡(luò)輸入數(shù)據(jù)。由于視頻數(shù)據(jù)較大,若按連續(xù)n幀,即步長為1 的方式合成視頻塊,將導(dǎo)致數(shù)據(jù)量過大。此外,由于部分?jǐn)?shù)據(jù)集連續(xù)兩幀之間人群變化較不明顯,為更好地檢測(cè)異常事件的發(fā)生,需對(duì)視頻進(jìn)行抽幀處理,按一定步長對(duì)原視頻數(shù)據(jù)進(jìn)行采樣。本文采用步長為2 的方式由原視頻采樣12 幀的單位視頻塊,以獲得更好的算法性能。在異常檢測(cè)過程中,模型以某時(shí)刻的前11 幀作為輸入,預(yù)測(cè)該時(shí)刻是否發(fā)生異常事件。根據(jù)上述視頻塊采樣方式對(duì)數(shù)據(jù)集進(jìn)行劃分,處理后的各數(shù)據(jù)集構(gòu)成如表1 所示。

表1 訓(xùn)練集測(cè)試集劃分Table 1 Training set and test set division

3.1.3 參數(shù)設(shè)置

實(shí)驗(yàn)中ST-AE,ST-VAE,ST-AVAE 的網(wǎng)絡(luò)配置如表2 所示。

表2 網(wǎng)絡(luò)配置Table 2 Network configuration

ST-AE 模型中,編碼器的輸入維度為128×128×3,經(jīng)過5 層3×3 的卷積核,1 層1×1 卷積核,輸出維度為64。LSTM 的輸入維度即為64,隱藏層神經(jīng)元數(shù)為32。解碼器輸入維度為64,輸出維度為128×128×3。

ST-VAE 模型中,編碼器的輸入維度為128×128×3,輸出維度為64。LSTM 的輸入維度即為64,隱藏層神經(jīng)元數(shù)為64,總共兩層。解碼器輸入維度為64,輸出維度為128×128×3。

ST-AVAE 模型中,編碼器的輸入維度為128×128×3,輸出維度為64。LSTM 的輸入維度為64,隱藏層神經(jīng)元數(shù)為64,總共兩層。解碼器輸入維度為6 4,輸出維度為1 2 8×1 2 8×3。辨別器輸入維度為(128×128×3,64),輸出維度為1,代表異常得分。

其中VAE 模型學(xué)習(xí)率為0.000 2,LSTM 單元的學(xué)習(xí)率為0.01,學(xué)習(xí)回合數(shù)epoch 定為1,批量數(shù)據(jù)batch_size 為64,總批量n_batch 為12 000。

3.2 實(shí)驗(yàn)結(jié)果

本文基于包含爆炸式逃散、同方向逃散兩種異常行為的視頻樣本進(jìn)行實(shí)驗(yàn),兩種異常行為場(chǎng)景如圖7 所示。實(shí)驗(yàn)通過ST-AVAE 模型重構(gòu)誤差隨時(shí)間的變化驗(yàn)證方法框架的有效性,并對(duì)原視頻圖像、人群密度圖兩種輸入進(jìn)行對(duì)比,探究圖像中不同因素對(duì)檢測(cè)結(jié)果造成的影響。其中,實(shí)驗(yàn)采用的人群密度圖由原視頻通過DSNet[26]模型生成。

圖7 UMN 數(shù)據(jù)集與采集模擬異常視頻數(shù)據(jù)包含的兩種人群異常行為Fig.7 Two kinds of crowd abnormal behaviors included in UMN datasets and collected simulated abnormal video data

圖8 給出了將原視頻圖像輸入模型時(shí)的重構(gòu)誤差變化情況與異常檢測(cè)結(jié)果。圖9 給出了UMN公開數(shù)據(jù)集將原視頻圖像輸入模型時(shí)的重構(gòu)誤差變化情況與異常檢測(cè)結(jié)果。其中,重構(gòu)誤差變化曲線中的橫線代表模型得到最優(yōu)準(zhǔn)確率時(shí)對(duì)應(yīng)的重構(gòu)誤差異常閾值;異常檢測(cè)結(jié)果示意圖中,模型對(duì)異常樣本進(jìn)行判斷的預(yù)測(cè)值、真實(shí)值分別以紅色、藍(lán)色條帶表示,重合部分代表該時(shí)間樣本預(yù)測(cè)正確。根據(jù)實(shí)驗(yàn)結(jié)果可知,在爆炸式逃散和同方向逃散兩種異常行為出現(xiàn)的時(shí)刻,模型重構(gòu)誤差產(chǎn)生了明顯地變化,能夠獲得較好的預(yù)測(cè)效果。此外,在爆炸式逃散初期出現(xiàn)了漏檢的情況,推測(cè)為人群四散開始時(shí),速度特征、密度變化特征均不明顯,導(dǎo)致出現(xiàn)漏檢。在同方向逃散初期發(fā)現(xiàn)異常,隨后出現(xiàn)了少量的漏檢情況,推測(cè)為人群速度特征不顯著,被識(shí)別為人群正常移動(dòng)。

圖8 ST-AVAE 模型在采集數(shù)據(jù)集上重構(gòu)誤差變化及異常檢測(cè)結(jié)果Fig.8 ST-AVAE model reconstructs error changes and anomaly detection results on the collected datasets

圖9 ST-AVAE 模型在UMN 公開數(shù)據(jù)集上重構(gòu)誤差變化及異常檢測(cè)結(jié)果Fig.9 ST-AVAE model reconstructs error changes and anomaly detection results on UMN public datasets

此外,為了進(jìn)一步討論圖像的人工特征是否對(duì)基于重構(gòu)的視頻異常檢測(cè)模型有所幫助,本文用密度特征圖DSNet[26]替換原始圖像作為輸入,觀察重構(gòu)誤差和異常檢測(cè)結(jié)果,如圖10 所示。發(fā)現(xiàn)相較于原始方法,采用密度圖的ST-AVAE 的異常樣本與正常樣本的重構(gòu)誤差區(qū)分不夠顯著,預(yù)測(cè)結(jié)果準(zhǔn)確度下降,出現(xiàn)了較多的漏檢。說明顏色、外觀、紋理、光影等信息為模型提供了更豐富的特征,保留了正常樣本和異常樣本的差異性,因此主要保留圖像的密度特征對(duì)異常檢測(cè)起負(fù)面作用。同時(shí),根據(jù)異常預(yù)測(cè)結(jié)果示意圖,模型在同方向逃散行為發(fā)生初期能夠較準(zhǔn)確地做出反應(yīng),但在一段時(shí)間后出現(xiàn)了漏報(bào),推測(cè)為人群逃散方向較一致,造成畫面被誤檢測(cè)為人群正常移動(dòng)。

為進(jìn)一步驗(yàn)證模型性能,本文選取各數(shù)據(jù)集上檢測(cè)結(jié)果的精確率、召回率、F1值以及AUC 值作為評(píng)價(jià)指標(biāo)展開實(shí)驗(yàn),對(duì)比ST-AVAE 模型與作為其基礎(chǔ)的ST-AE、ST-VAE 模型的人群異常行為檢測(cè)性能。

對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示,在采集數(shù)據(jù)集上,ST-AVAE 模型的召回率、精確率、準(zhǔn)確率指標(biāo)相較ST-AE 模型在爆炸式逃散異常行為檢測(cè)上分別提升了11%、12%以及14%。在同方向逃散異常行為檢測(cè)上分別提升了2%、3%以及2%。相較ST-VAE 模型在爆炸式逃散上分別提升了4%、-3%以及1%,在同方向逃散上提升了3%、2%以及2%;在UMN 公開數(shù)據(jù)集上,ST-AVAE 模型相較ST-AE 模型在爆炸式逃散異常行為檢測(cè)上3 種指標(biāo)分別提升了14%、19% 以及16%,相較STVAE 模型分別提升了-1%、10% 以及提升了4%。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的STAVAE 模型的召回率、精確率、準(zhǔn)確率指標(biāo)整體上相較其他方法有了明顯提升,說明添加辨別器模塊,采用對(duì)抗學(xué)習(xí)方法能夠有效提升模型區(qū)分異常樣本的能力。但是在融合了密度特征圖的ST-AVAE 模型上的效果遠(yuǎn)不如在原圖上的檢測(cè)性能,僅在同方向逃散上有良好表現(xiàn),推測(cè)為密度特征圖受低分辨率影響,不能很好地表示較為稀疏的人群,由圖10(a)所示,在人群爆炸式逃散后出現(xiàn)了較多的漏報(bào),模型將異常行為識(shí)別為正常。

表3 實(shí)驗(yàn)結(jié)果指標(biāo)Table 3 Experimental result indicators

4 結(jié)束語

本文對(duì)基于深度學(xué)習(xí)的人群逃散異常行為檢測(cè)方法進(jìn)行了研究。針對(duì)現(xiàn)有方法未能充分解決樣本不均衡帶來的人群異常檢測(cè)精準(zhǔn)度低,模型訓(xùn)練效率低等問題,提出空時(shí)對(duì)抗變分自編碼器的異常檢測(cè)模型,在ST-VAE 模型基礎(chǔ)上,引入了GAN 網(wǎng)絡(luò)的辨別器結(jié)構(gòu),并采用對(duì)抗學(xué)習(xí)方式提升模型對(duì)正常異常樣本的分辨能力。通過與目前主流人群異常行為檢測(cè)模型在公開數(shù)據(jù)集和采集數(shù)據(jù)的對(duì)比實(shí)驗(yàn),驗(yàn)證了對(duì)抗學(xué)習(xí)和空時(shí)信息幫助模型擴(kuò)大了正常、異常樣本重構(gòu)誤差差異,提升了模型訓(xùn)練效率,改善了一般基于重構(gòu)的生成模型的過度泛化的問題。但該模型仍然存在對(duì)場(chǎng)景的依賴,如何通過少量樣本實(shí)現(xiàn)群體異常行為檢測(cè)的域適應(yīng)是未來的主要工作。

猜你喜歡
檢測(cè)模型
一半模型
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 看你懂的巨臀中文字幕一区二区| 77777亚洲午夜久久多人| 99热这里只有精品久久免费| 亚洲天堂视频网站| 中文字幕第4页| 亚洲人成成无码网WWW| 国国产a国产片免费麻豆| 无码啪啪精品天堂浪潮av| 午夜福利无码一区二区| 国产va在线观看免费| 免费在线观看av| 精品无码日韩国产不卡av| 免费A∨中文乱码专区| 91九色视频网| 日本三区视频| 中文字幕中文字字幕码一二区| 国产精品视频第一专区| 国产精品亚洲片在线va| 欧美成人一级| 国产又粗又猛又爽| 高清色本在线www| 中文字幕欧美日韩| 全午夜免费一级毛片| 婷婷色狠狠干| 伊人久久青草青青综合| 亚洲欧美另类色图| 亚洲天堂成人在线观看| 国产三级成人| 欧美一级大片在线观看| 国产无码精品在线| 高清不卡毛片| 香蕉久人久人青草青草| 中文国产成人久久精品小说| 麻豆精品国产自产在线| 国产成人久久综合一区| 无码在线激情片| 无码中文AⅤ在线观看| 亚洲精品老司机| 精品国产免费第一区二区三区日韩| 久久香蕉国产线看精品| 亚洲高清无在码在线无弹窗| 在线观看视频99| 成年片色大黄全免费网站久久| 色有码无码视频| 2018日日摸夜夜添狠狠躁| 九九热视频精品在线| 99视频精品全国免费品| 欧美中文一区| 亚洲色图欧美视频| 一本久道热中字伊人| 四虎精品黑人视频| 亚洲成A人V欧美综合| 国产精品露脸视频| 91系列在线观看| 国产欧美在线| 亚洲精品无码av中文字幕| 91亚洲精选| 国产精品v欧美| 国产精品国产三级国产专业不 | 国产香蕉在线| 亚洲欧美国产高清va在线播放| 国内毛片视频| 日韩欧美中文在线| 亚洲国产成人精品无码区性色| 亚洲伦理一区二区| 这里只有精品免费视频| 亚洲精品免费网站| 三上悠亚在线精品二区| 国产偷国产偷在线高清| 国产精品3p视频| 国产真实乱子伦精品视手机观看| av色爱 天堂网| 欧美日韩一区二区在线播放 | 国产18在线| 国产精品久久久久久搜索| 欧美在线精品怡红院| 日韩福利视频导航| 日日噜噜夜夜狠狠视频| 国产精品妖精视频| 九九视频免费看| 91久久夜色精品国产网站| 亚洲一区黄色|