999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙曲空間的無監(jiān)督視頻異常檢測方法

2025-07-28 00:00:00漆美林吳媛媛張航林文龍
關(guān)鍵詞:雙曲卷積閾值

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)07-042-2234-07

doi:10.19734/j. issn.1001-3695.2024.08.0371

Abstract:Inthefieldofvideoanomalydetection,anomalouseventsoftendemonstratetemporalcontinuityandsimlarityExisting unsupervised methods typicallysegment videos into multipleclipsandrandomlyselectsubsets for training,disrupting the continuityofanomalouseventsandcausing thelossofcriticalspatiotemporalinformation.AditionallycurrntEuclidean space-basedmethodsencounterlimitationsinembeddngspacedimensionalitymakingitdificulttoefectivelycapturethelatent geometrichierarchyofvideodata.Toaddress these isues,thispaper introducedanovelunsupervisedvideoanomalydetection methodbasedonhyperbolic space.Itdesignedaspatiotemporalfeatureconstruction(STFC)module toextract temporalcorrelationsand featuresimilaritiesamong videosegments,mbedding themintoLorentzandPoincaréballhyperbolicspaces to learnrichervideorepresentationsthatmoreefectivelydistinguishnormalfromabnormal events.Experimentsshowthatthis method achieves AUC scores of 93.26% and 77.55% on the Shanghai Tech and UCF-Crime datasets,respectively,outperforming existingunsupervised video anomalydetectionmethods.Theseresultsconfirmtheadvantageof hyperbolic spaceincapturingthelatentgeometrichierarchyofvideodataandhighlightitspotential inenhancinganomalydetectioncapabilities.

KeyWords:unsupervised;video anomaly detection;Lorentz hyperbolicspace;Poincaréballhyperbolic space

0 引言

隨著國家公共安全意識的不斷增強(qiáng),監(jiān)控攝像頭在街道、十字路口、銀行和購物中心等公共場所的使用日益普及,旨在提高整體的公共安全水平。然而,隨著監(jiān)控設(shè)備的廣泛部署,監(jiān)控視頻數(shù)據(jù)量急劇增加,使得人工篩查異常事件(如打斗、虐待、交通事故、盜竊等)變得極為困難。在這樣的背景下,視頻異常檢測技術(shù)應(yīng)運(yùn)而生,它通過智能化手段自動識別視頻序列中的異常行為或事件。

然而,由于視頻背景復(fù)雜、異常類型界定模糊,加之異常事件種類繁多且難以窮盡,視頻異常檢測一直是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)艱巨任務(wù)。為簡化模型,早期的研究1\~4采用了單類分類方法,僅利用正常視頻數(shù)據(jù)進(jìn)行訓(xùn)練,使模型學(xué)習(xí)正常數(shù)據(jù)的分布,并通過預(yù)測未來幀或重建視頻幀來檢測異常事件。然而,這種方法存在明顯局限性:任何偏離正常分布的樣本都可能被誤判為異常,導(dǎo)致對未見過的正常事件的錯誤檢測。因此,弱監(jiān)督學(xué)習(xí)方法開始在視頻異常檢測領(lǐng)域受到關(guān)注。該方法通過使用視頻級標(biāo)簽,降低了獲取細(xì)粒度人工標(biāo)注的成本:如果視頻的部分內(nèi)容異常,則標(biāo)記為異常;如果視頻的所有內(nèi)容都正常,則標(biāo)記為正常。盡管這種標(biāo)注方式比逐幀標(biāo)注更高效,但仍需要逐個視頻篩查以確定是否包含異常事件。

近年來,無監(jiān)督方法的發(fā)展為視頻異常領(lǐng)域開辟了新的研究方向,吸引了眾多研究者的關(guān)注。Zaheer等人[5]首次提出了生成合作學(xué)習(xí)方法(GCL)的無監(jiān)督方法,該方法由生成器和鑒別器兩個關(guān)鍵組件組成。生成器負(fù)責(zé)生成偽標(biāo)簽,鑒別器則估計(jì)實(shí)例異常的概率,并通過兩者的協(xié)作實(shí)現(xiàn)對未標(biāo)注視頻的異常檢測。Tur等人[6利用擴(kuò)散模型的重建能力,提出了一種用于無監(jiān)督視頻異常檢測的生成模型,將視頻切分為多個特征片段,訓(xùn)練時隨機(jī)選擇批量大小的片段輸入到擴(kuò)散模型中重建視頻特征,并通過重建誤差的大小判斷異常事件。潘振鵬等人[7設(shè)計(jì)了時間能量擴(kuò)散模塊和外觀能量擴(kuò)散模塊,結(jié)合自注意力層和交叉注意力層,增強(qiáng)了模型對時間信息和外觀信息的學(xué)習(xí)能力,從而提升了正常與異常樣本的區(qū)分度。Al-Lahham等人[8]提出了C2FPL框架,通過高斯聚類生成粗粒度標(biāo)簽,并進(jìn)一步利用統(tǒng)計(jì)假設(shè)檢驗(yàn)生成細(xì)粒度標(biāo)簽,使得模型可以進(jìn)行全監(jiān)督訓(xùn)練。

盡管無監(jiān)督視頻異常檢測技術(shù)近年來取得了顯著進(jìn)展,但仍面臨一些挑戰(zhàn)。一方面,現(xiàn)有文獻(xiàn)[5,6]在訓(xùn)練時將視頻劃分為多個非重疊片段,并隨機(jī)選取批次進(jìn)行訓(xùn)練,這種處理方式雖然消除了批內(nèi)和批間的相關(guān)性,卻破壞了視頻片段的連續(xù)性,導(dǎo)致關(guān)鍵時序信息丟失。另一方面,已有的視頻異常檢測方法都局限于在歐幾里德空間中使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)視頻特征表示。雖然基于歐氏空間的方法已取得較好的性能,但在應(yīng)對高度相似的正負(fù)實(shí)例時仍存在不足。

雙曲神經(jīng)網(wǎng)絡(luò)近年來在建模復(fù)雜數(shù)據(jù)結(jié)構(gòu)(如單詞嵌入[9]、生物序列[10]、社交網(wǎng)絡(luò)[1]、推薦系統(tǒng)[12]等)方面展現(xiàn)了巨大潛力。與歐氏空間相比,雙曲空間中的距離隨深度呈指數(shù)增長,更適合反映正負(fù)實(shí)例之間的差異。如圖1所示,在歐氏空間中彼此距離較近的兩點(diǎn),在樹型結(jié)構(gòu)中其實(shí)際距離為各自到根節(jié)點(diǎn)的路徑之和。受此啟發(fā),本文提出了在雙曲空間中學(xué)習(xí)視頻表示的方法,利用雙曲空間的指數(shù)增長特性能夠有效拉開歐氏空間中相似的正負(fù)實(shí)例之間的距離。針對無監(jiān)督方法在訓(xùn)練中忽視時序信息的問題,本文設(shè)計(jì)了時間特征構(gòu)建模塊。由于異常事件通常具備時間上的連續(xù)性和特征上的相似性,STFC模塊通過分析視頻片段間的特征相似性和時間相關(guān)性提取時序信息,從而幫助模型更好地區(qū)分異常和正常片段。本文的主要貢獻(xiàn)總結(jié)如下:

a)提出了一種基于雙曲空間的無監(jiān)督異常檢測方法,該方法在無任何數(shù)據(jù)標(biāo)簽的情況下實(shí)現(xiàn)了視頻異常檢測。在ShanghaiTech和UCF-Crime公共數(shù)據(jù)集上,AUC分別達(dá)到了93.26% 和 77.55% ,達(dá)到了新的最佳結(jié)果。

b)首次將雙曲空間引入無監(jiān)督視頻異常檢測領(lǐng)域,在雙曲空間中學(xué)習(xí)視頻特征表示,利用其非線性特性更精確地捕捉異常與正常視頻片段間的潛在結(jié)構(gòu)差異,提高了視頻異常檢測的準(zhǔn)確性。

c)設(shè)計(jì)了時間特征構(gòu)建模塊,以彌補(bǔ)傳統(tǒng)無監(jiān)督方法在訓(xùn)練過程中因隨機(jī)批次選擇導(dǎo)致的時序信息缺失問題。STFC模塊有效提取視頻片段間的時間相關(guān)性與特征相似性,增強(qiáng)了模型的時序分析能力。

圖1雙曲空間中的幾何距離Fig.1Geometric distancesin hyperbolic space

1方法

1.1 雙曲幾何

雙曲幾何是一種具有恒定負(fù)曲率的非歐幾里德幾何,曲率表示幾何對象偏離平面的程度,因此雙曲空間相比歐氏空間更加“廣闊”,能夠提供更多的“空間”。洛倫茲模型和龐加萊球模型是雙曲空間中常見的兩種模型,一般地,具有常數(shù)負(fù)曲率的 n 維洛倫茲模型可表示為 ,而 TxLKn 表示以 x 為中心的正切空間,具體定義如下:

其中: 為常數(shù)負(fù)曲率; gxK 是黎曼度量; ??,??c 為洛倫茲內(nèi)積,可表示為

在雙曲幾何中,龐加萊球模型可表示為 ρn=(βn,gx) ,其中 βn={x∈Rn 是黎曼度量:

雙曲空間的一個重要特性是比歐幾里德空間擴(kuò)展快,歐幾里德空間是呈多項(xiàng)式級的增長,而雙曲空間呈指數(shù)級增長。在龐加萊球中任意兩點(diǎn) u,v∈βd 的距離計(jì)算公式如下:

此外,雙曲空間和歐氏空間可以通過指數(shù)映射和對數(shù)映射相互轉(zhuǎn)換。例如在洛倫茲模型中,設(shè) x∈LKn,v∈TxLKn,x∈LKn 可使用指數(shù)映射和對數(shù)映射實(shí)現(xiàn)互相轉(zhuǎn)換:

1.2 總體框架

本文基于雙曲空間的無監(jiān)督異常檢測方法主要由生成器和鑒別器兩個子結(jié)構(gòu)組成。由于無監(jiān)督方法不依賴任何標(biāo)注信息,在訓(xùn)練過程中無法直接判斷視頻片段是否異常。所以,為了實(shí)現(xiàn)有效訓(xùn)練,本文方法首先通過生成器 G 根據(jù)重建誤差的大小生成偽標(biāo)簽用于訓(xùn)練鑒別器 D 接著,鑒別器 D 使用預(yù)測的異常分?jǐn)?shù)生成新的偽標(biāo)簽來優(yōu)化生成器 G 在后續(xù)的每一輪訓(xùn)練中,生成器和鑒別器通過不斷利用對方生成的偽標(biāo)簽來協(xié)作學(xué)習(xí),逐步提升模型性能,實(shí)現(xiàn)完全無監(jiān)督的異常檢測。

整體框架如圖2所示,生成器 G 采用自編碼結(jié)構(gòu):首先通過多個卷積層提取輸入視頻的低維特征,然后通過多個反卷積層重建視頻特征,最后通過計(jì)算輸入視頻與重建特征之間的重建誤差,生成用于訓(xùn)練鑒別器 D 的偽標(biāo)簽。而鑒別器D 將視頻特征輸入到STFC模塊中提取時空信息,并在洛倫茲雙曲空間和龐加萊球雙曲空間中學(xué)習(xí)視頻表示,并通過分類器預(yù)測每個片段的異常分?jǐn)?shù)。由于洛倫茲雙曲空間和龐加萊球雙曲空間在幾何結(jié)構(gòu)上的差異,將兩個空間學(xué)到的視頻表示進(jìn)行拼接,可以提高分類器預(yù)測正常和異常視頻異常分?jǐn)?shù)的準(zhǔn)確性。

1.3 特征提取

本文遵循先前弱監(jiān)督方法的工作[13\~19],首先將視頻 V 拆分為幀級序列 X={xi}i=1n ,并將序列 X 均勻分為 T 個不重疊的片段 V={vt}t=1T ,每個片段包括16個連續(xù)幀。然后將每個片段輸入到在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的 I3D[20] 網(wǎng)絡(luò)中,提取RGB 特征 FRGBN×D ,其中 D 表示特征維數(shù), ,N 表示片段個數(shù)。由于視頻的時長差異較大,從幾秒鐘到幾個小時不等,導(dǎo)致每個視頻的片段數(shù)也不盡相同。此外,受限于GPU內(nèi)存,直接基于批處理進(jìn)行訓(xùn)練并不可行。因此,在訓(xùn)練階段,通過統(tǒng)一的間隔將提取到的特征 FRGBN×D 重新劃分為 T 個片段,使每個視頻表示為 FRGBT×D 。在測試階段,批處理的大小設(shè)為1,無須再將視頻等間隔劃分為 T 個片段。

圖2Hyper-UVAD網(wǎng)絡(luò)模型總體框架 Fig.2Overall framework of Hyper-UVAD

1.4 生成器網(wǎng)絡(luò)

自編碼器通常以最小化正常數(shù)據(jù)的重構(gòu)誤差來學(xué)習(xí)正常數(shù)據(jù)的分布,并將重建誤差作為異常檢測的指標(biāo)。文獻(xiàn)[1\~4]提出的方法僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練,這種策略雖然能夠使網(wǎng)絡(luò)在處理未見過的異常數(shù)據(jù)時產(chǎn)生較大的重建誤差,但在面對未見過的正常數(shù)據(jù)時也可能出現(xiàn)較大的重建誤差,從而導(dǎo)致正常與異常數(shù)據(jù)之間的區(qū)分能力不足。為了解決這一問題,本文在訓(xùn)練生成器時同時使用了正常數(shù)據(jù)和異常數(shù)據(jù)。在重建視頻特征的過程中,生成器通過縮小正常特征片段的重建誤差,同時放大異常特征片段的重建誤差,以實(shí)現(xiàn)對異常數(shù)據(jù)的有效識別。重建誤差定義如下:

根據(jù)文獻(xiàn)[15],異常片段的特征幅值通常大于正常片段的特征幅值,這意味著異常片段的特征相對于正常片段更加復(fù)雜。在重建過程中,異常片段的重建誤差通常會比正常片段的誤差更大。因此,本文利用生成器的重建誤差作為建立偽標(biāo)簽的依據(jù),將重建誤差大于閾值 LGth 的片段視為異常:

其中 :LGth=u+βσ,u 和 σ 分別表示均值和方差 Δ,β 是超參數(shù)。

1.5 鑒別器網(wǎng)絡(luò)

在傳統(tǒng)的歐氏空間中,圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)將圖中的節(jié)點(diǎn)嵌入到歐幾里德空間中,當(dāng)處理具有無標(biāo)度或?qū)哟谓Y(jié)構(gòu)的真實(shí)圖時,這種嵌入方式無法準(zhǔn)確反映節(jié)點(diǎn)間的距離關(guān)系,往往會導(dǎo)致較大的失真[21]。例如,在對社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)等復(fù)雜數(shù)據(jù)建模時,歐氏空間中的球體積呈多項(xiàng)式增長,難以捕捉數(shù)據(jù)中的潛在幾何層次結(jié)構(gòu)。而雙曲空間由于其體積呈指數(shù)增長,是樹狀圖的近似空間,能夠更好地容納層次化的復(fù)雜數(shù)據(jù)。本文將視頻拆分為 T 個片段,并將每個片段視為圖中的節(jié)點(diǎn)。這種圖結(jié)構(gòu)與雙曲空間中的層次結(jié)構(gòu)十分契合,因此在雙曲空間中使用GCN學(xué)習(xí)視頻表示相較于歐氏空間更具優(yōu)勢。

本文所提鑒別器由時空特征構(gòu)建(STFC)模塊、雙曲圖卷積模塊和分類器三部分組成。STFC模塊用于生成時間關(guān)系矩陣和特征相似矩陣,雙曲圖卷積模塊基于洛倫茲雙曲空間和龐加萊球雙曲空間實(shí)現(xiàn)了圖卷積神經(jīng)網(wǎng)絡(luò),用來學(xué)習(xí)視頻特征表示。分類器由全連接層組成,預(yù)測每個特征片段的異常分?jǐn)?shù),并利用生成器 G 生成的偽標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練。

1.5.1時空特征構(gòu)建模塊

異常事件往往在一段連續(xù)的時間內(nèi)發(fā)生,同時,同種類型的事件之間可能存在一定的相似性。為了解決文獻(xiàn)[5,6]中時序信息缺失的問題,本文引入了STFC模塊,該模塊從特征相似性和時間相關(guān)性兩個方面構(gòu)建鄰接矩陣,其結(jié)構(gòu)如圖3所示。視頻經(jīng)過I3D網(wǎng)絡(luò)后得到特征表示 FT×D ,其中 T 為視頻切分的片段數(shù), D 為每個片段的維度。為避免維度災(zāi)難,STFC模塊使用兩個卷積層將特征維度降低到128,并在此基礎(chǔ)上構(gòu)建時間相關(guān)性矩陣和特征相似性矩陣。

圖3時空特征構(gòu)建模塊Fig.3Spatio-temporal feature construction module

通常情況下,異常事件和正常事件在視頻中不會在短時間內(nèi)發(fā)生劇烈變化,相鄰的視頻片段之間具備一定的時間關(guān)聯(lián)。通過分析視頻片段間的時間順序及其鄰近關(guān)系可構(gòu)建時間關(guān)系圖 G=(V,E) ,其中 V={vi,i=1,2,…,T} 表示視頻片段構(gòu)成的節(jié)點(diǎn)集合, ?E 表示片段之間的時間關(guān)系。基于時間相關(guān)性的鄰接矩陣 AijT∈RT×T 的計(jì)算公式如下所示。

其中:δ是用來控制時間范圍的超參數(shù)。

盡管異常事件種類繁多且各不相同,但同一類型的異常片段在特征上往往具有一定的相似性聯(lián)系。基于特征相似性的鄰接矩陣 AijS∈RT×T 的計(jì)算公式如下:

AijS=softmax(f(xi,xj)))

其中:函數(shù) f(xi,xj) 用來測量兩個片段之間的特征相似性:

為消除雙曲空間中的弱相似關(guān)系,函數(shù) f(xi,xj) 還定義了閾值運(yùn)算:

1.5.2龐加萊球雙曲圖卷積

在歐幾里德空間中,圖卷積運(yùn)算由線性變換、鄰域聚合和非線性激活三個步驟組成。在龐加萊球雙曲空間中執(zhí)行這三個步驟時,需要將輸入向量通過映射轉(zhuǎn)換到對應(yīng)點(diǎn)的切線空間,然后在歐氏空間中完成相關(guān)的運(yùn)算后,最后將結(jié)果再映射回雙曲空間中,從而實(shí)現(xiàn)雙曲空間下的卷積操作,確保雙曲幾何特性在計(jì)算過程中保留,同時使得圖卷積操作得以在歐氏空間中進(jìn)行。

a)線性變換:線性變換需要將嵌入向量乘以一個權(quán)重矩陣,然后進(jìn)行偏差平移。為了計(jì)算矩陣向量乘法,需要將該向量映射到它所在位置的正切平面(切線空間)。在切線空間中,可以使用標(biāo)準(zhǔn)的歐氏矩陣運(yùn)算來執(zhí)行線性變換,即將嵌入向量與權(quán)重矩陣 W 相乘,并加上偏置項(xiàng) b 。

其中: o 是雙曲空間中的原點(diǎn); P(?) 是平行轉(zhuǎn)移運(yùn)算。

b)鄰域聚合:鄰域聚合是圖卷積神經(jīng)網(wǎng)絡(luò)中最重要的一個步驟,其核心思想是整合節(jié)點(diǎn)自身及其所有鄰居的特征信息。在雙曲空間中,對于點(diǎn) xiH 和其鄰居 xj?H ,首先需要將它們映射到雙曲空間中的切線空間,這樣可以將雙曲幾何轉(zhuǎn)換為歐氏幾何來處理,計(jì)算完成后,再將結(jié)果映射回雙曲空間。鄰域聚合公式如下:

其中: 表示節(jié)點(diǎn) i 的鄰居。

c)非線性激活:為了在雙曲空間中使用非線性激活函數(shù),需先在切線空間中應(yīng)用非線性激活函數(shù),然后將結(jié)果映射回雙曲空間。其過程可表示為

其中: σ 是非線性激活函數(shù)。

總結(jié)以上三個操作,在龐加萊球雙曲圖卷積層中,第 l-1 層到第 l 層的運(yùn)算步驟可表示如下:

hil=(?Wl?xil-1)?bl

yil=AGG(hil

xil=σ(yil

1.5.3洛倫茲雙曲圖卷積

文獻(xiàn)[22]通過調(diào)整洛倫茲變換(包括升壓和旋轉(zhuǎn))來形式化神經(jīng)網(wǎng)絡(luò)的基本運(yùn)算,提出了一種基于洛倫茲模型的全雙曲型神經(jīng)網(wǎng)絡(luò),無須從雙曲空間到歐氏空間的切換,并提供了雙曲線性層具有激活、放棄、偏差和歸一化的特征變換的通用公式:

其中: x∈LKn W∈Rd×(n+1) v∈Rn+1 表示洛倫茲變換中的速度(與光速的比值), φ 可表示dropout,激活函數(shù)或者歸一化函數(shù)。在洛倫茲雙曲圖卷積中,鄰域聚合定義為

在洛倫茲雙曲圖卷積層中,由于式(20)已經(jīng)內(nèi)嵌了非線性激活函數(shù),所以第l-1層到第 ξl 層的過程中不再需要額外的非線性激活步驟:

yi=HL(xil-1

xil=HyperAgg(yi

1.6 損失函數(shù)

視頻特征 F 經(jīng)過鑒別器 D 中的雙曲圖卷積模塊后,在兩個不同的雙曲空間中分別獲得了新的特征表示 FL (洛倫茲)和FP (龐加萊球)。由于洛倫茲空間和龐加萊球空間在幾何結(jié)構(gòu)上的差異,它們能夠從不同視角對視頻內(nèi)容進(jìn)行學(xué)習(xí)與表征。所以,將這兩種特征表示融合后輸入到分類器中,有助于更準(zhǔn)確地預(yù)測每個視頻片段的異常分?jǐn)?shù) s

S=sigmoid(FC(concat(FL,F(xiàn)P))))

借助生成器 G 生成的偽標(biāo)簽,鑒別器 D 的損失函數(shù)定義如下:

其中: Si,j 表示第 i 個視頻中的第 j 個片段的預(yù)測分?jǐn)?shù)。

在訓(xùn)練過程中,由于同時引入了正常數(shù)據(jù)和異常數(shù)據(jù),生成器會無差別地重建輸入特征。為提高生成器 G 在重建正常和異常視頻特征時的區(qū)分能力,以鑒別器 D 輸出的異常分?jǐn)?shù)為依據(jù),將異常分?jǐn)?shù)超過設(shè)定閾值的視頻片段特征 f 替換為全1的特征向量 ,而正常視頻的重建特征 f 保持不變:

其中: SDth=u+ασ,u 和 σ 分別表示均值和方差, α 是超參數(shù)。訓(xùn)練生成器 D 的損失函數(shù)如下:

其中: T 是視頻片段數(shù); B 為批量大小。

此外,為了確保視頻被切分為多個片段后,相鄰片段之間的異常分?jǐn)?shù)能夠呈現(xiàn)出平滑的變化趨勢,本文引入一個平滑約束。該約束通過最小化相鄰片段間異常分?jǐn)?shù)的差異來實(shí)現(xiàn),強(qiáng)制相鄰片段在時間序列上的異常分?jǐn)?shù)變化保持平滑。在生成器和鑒別器的損失函數(shù)基礎(chǔ)上加入平滑約束后,總的訓(xùn)練損失函數(shù)定義如下:

其中: λ 是一個超參數(shù),用于平衡平滑損失與其他損失之間的權(quán)重。

2實(shí)驗(yàn)

2.1 數(shù)據(jù)集

ShanghaiTech是一個中等規(guī)模的視頻監(jiān)控數(shù)據(jù)集,由大學(xué)校園中13個固定角度拍攝的視頻組成。該數(shù)據(jù)集最初用于OCC(單類分類)方法,僅使用正常視頻用于訓(xùn)練。后來,Li等人[18]重新組織了該數(shù)據(jù)集,使其適用于弱監(jiān)督方法的訓(xùn)練。在重新劃分后,訓(xùn)練集包含63個異常視頻和175個正常視頻,測試集則包括44個異常視頻和155個正常視頻。本文采用了與文獻(xiàn)[18]中相同的數(shù)據(jù)集劃分方式。

UCF-Crime數(shù)據(jù)集是收集了來自真實(shí)監(jiān)控視頻的大規(guī)模數(shù)據(jù)集,涵蓋了13類異常事件,包括虐待、逮捕、縱火、襲擊、事故、入室盜竊、爆炸、打架、搶劫、槍擊、盜竊、商店行竊和破壞行為。該數(shù)據(jù)集共包含1900個視頻樣本,其中訓(xùn)練集包括800個正常視頻和810個異常視頻,測試集則由150個正常視頻和140個異常視頻組成。與ShanghaiTech數(shù)據(jù)集相比,UCF-Crime的視頻場景更加復(fù)雜多變,且場景類型多樣,是一個更具挑戰(zhàn)性的數(shù)據(jù)集。

2.2 評價指標(biāo)

與之前的方法[13\~19]保持一致,本文采用受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC)下的曲線面積(areaundercurve,AUC)作為ShanghaiTech和UCF-Crime數(shù)據(jù)集的評估指標(biāo)。在視頻異常檢測任務(wù)中,AUC根據(jù)數(shù)據(jù)集中測試視頻的幀級標(biāo)簽計(jì)算得到,幀級AUC越大,代表網(wǎng)絡(luò)識別能力越強(qiáng),并且在各種判別閾值下的性能越穩(wěn)健。

2.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境:本文所有的實(shí)驗(yàn)在12thGenIntel@Core TMi5 12400F的機(jī)器上完成,GPU采用NVIDIARTX3060Ti(8GB),內(nèi)存16GB。編程環(huán)境為CUDA11.7,Python3.6,PyTorch1.13。

實(shí)現(xiàn)細(xì)節(jié):在生成器的設(shè)計(jì)中,使用了3個一維卷積層和3個一維反卷積層對輸入的視頻特征進(jìn)行重建。生成器的層次結(jié)構(gòu)為[1024,512,256,128,256,512,1024],逐步提取特征并恢復(fù)到原始維度。在鑒別器的設(shè)計(jì)中,每個雙曲空間包含時間相似度和特征相似度的兩個分支,每個分支由兩層雙曲圖卷積層組成。第一層將輸入的128維特征映射到32維,第二層則保持32維輸出不變。隨后,四個分支的32維輸出特征向量融合成一個128維的視頻特征向量輸入到分類器中。分類器由一個全連接層組成,其輸入維度為128維,輸出為1維,用于預(yù)測視頻特征的異常分?jǐn)?shù)。生成器的閾值 β 和鑒別器的閾值α 分別設(shè)置為2.0和1.5。由于UCF-Crime比ShanghaiTech的規(guī)模更大,視頻時長更長,UCF-Crime數(shù)據(jù)集的訓(xùn)練輪數(shù)為15,學(xué)習(xí)率為0.00001,視頻片段 T 為50,而ShanghaiTech數(shù)據(jù)集的訓(xùn)練輪數(shù)為50,學(xué)習(xí)率為0.00002,視頻片段 T 為20。優(yōu)化器選擇RMSprop,dropout設(shè)置為0.5,雙曲空間的曲率為0.03,批量大小設(shè)置為64。

2.4 方法對比

本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上對比了現(xiàn)有的單類分類方法、弱監(jiān)督方法以及無監(jiān)督方法,結(jié)果分別展示在表1和2中。本文方法用下畫線標(biāo)出,而加粗的數(shù)字則表示在相應(yīng)監(jiān)督類型下的最佳表現(xiàn)。在ShanghaiTech數(shù)據(jù)集上,本文方法表現(xiàn)出色,超越了所有現(xiàn)有的無監(jiān)督方法和單類分類方法。與目前最佳的無監(jiān)督方法相比,本文方法提高了5.08% ,達(dá)到了該數(shù)據(jù)集的最高水平。在UCF-Crime數(shù)據(jù)集上,本文方法相較于文獻(xiàn)[5\~7」分別實(shí)現(xiàn)了 6.51% .12.33% 、2.85% 的AUC提升。盡管未能超過最新的無監(jiān)督方法C2FPL[8]和CLAP,但差距在可接受的范圍內(nèi)。這些結(jié)果證實(shí)了本文方法在雙曲空間中學(xué)習(xí)視頻表示的有效性,為視頻異常檢測領(lǐng)域提供了新的視角和方法。未來的研究可進(jìn)一步探討基于雙曲空間的自注意力機(jī)制,以期進(jìn)一步提升在該數(shù)據(jù)集上的表現(xiàn)。雙曲空間的自注意力機(jī)制通過計(jì)算節(jié)點(diǎn)之間的相對重要性來自適應(yīng)地捕捉節(jié)點(diǎn)之間的長程依賴關(guān)系,在視頻異常檢測中幫助模型聚焦于異常關(guān)鍵特征,提高模型對復(fù)雜動態(tài)變化的敏感度,從而提升檢測的精度與效率。

表1在ShanghaiTech數(shù)據(jù)集上與現(xiàn)有方法對比Tab.1Comparison with existing methods on Shanghai Tech datasel
表2在UCF-Crime數(shù)據(jù)集上與現(xiàn)有方法對比Tab.2Comparison with existing methods on the UCF-Crime datasel

2.5消融實(shí)驗(yàn)

本節(jié)對時空特征構(gòu)建模塊中的時間相關(guān)性和特征相似性進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3所示。在ShanghaiTech數(shù)據(jù)集上,同時使用時間相關(guān)性和特征相似性的網(wǎng)絡(luò)比未使用這兩個特性的網(wǎng)絡(luò)分別提高了 12.84% 和 0.44% 。在UCF-Crime數(shù)據(jù)集中,網(wǎng)絡(luò)性能也相應(yīng)地提升了 12.33% 和 6.38% 。時間相關(guān)性側(cè)重于異常事件的時間關(guān)系,考慮事件發(fā)生的連續(xù)性,而特征相似性則關(guān)注全局片段之間的相似關(guān)系。視頻本質(zhì)上是一種時間序列數(shù)據(jù),時間關(guān)系在視頻數(shù)據(jù)中起著重要作用,STFC模塊有效捕獲了視頻片段之間的時間相關(guān)性和特征相似性,有助于更精確地區(qū)分和識別異常事件。

表3時間相關(guān)性與特征相似性的影響

為了進(jìn)一步驗(yàn)證雙曲空間在異常檢測中的有效性,本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別使用歐氏空間、龐加萊球雙曲空間、洛倫茲雙曲空間及兩者組合訓(xùn)練網(wǎng)絡(luò)模型。結(jié)果如表4所示,采用雙曲空間組合的模型在ShanghaiTech數(shù)據(jù)集上的性能提升了 10.79% ,在UCF-Crime數(shù)據(jù)集上的性能提升了 16.57% 。此外,圖4展示了在UCF-Crime數(shù)據(jù)集上這四種組合方式的ROC曲線對比。從圖中可以明顯看出,采用雙曲空間組合模型的ROC曲線幾乎完全覆蓋了使用歐氏空間模型的曲線,這進(jìn)一步證實(shí)了雙曲空間在視頻表示學(xué)習(xí)中的優(yōu)勢。將視頻特征嵌人到龐加萊球雙曲空間和洛倫茲雙曲空間中,能夠利用這兩種空間的幾何差異,類似于從不同的視角分析異常事件。龐加萊球和洛倫茲雙曲空間的組合方式,相當(dāng)于從更多角度全面分析正常與異常特征,因此有效減少了異常檢測中的盲區(qū),顯著提高了對異常行為的識別效果。

表4兩種雙曲空間的影響Tab.4Impact of two hyperbolic spaces

偽標(biāo)簽的生成與均值和方差的閾值密切相關(guān)。為了研究閾值組合對模型性能的影響,實(shí)驗(yàn)針對生成器和鑒別器設(shè)置了不同的閾值組合,并將結(jié)果匯總于表5中,其中縱軸為生成器的閾值 β 設(shè)定,橫軸為鑒別器的閾值 α 設(shè)定。從表5可以看出,鑒別器的閾值 α 對模型性能的影響相對較小,而生成器的閾值 β 對性能有較大影響。具體來說,在ShanghaiTech數(shù)據(jù)集上,隨著 β 從0.1逐步增加至2.0,AUC值實(shí)現(xiàn)了顯著的15. 77% 增長;在UCF-Crime數(shù)據(jù)集上,AUC值也提升了19. 43% 。然而,當(dāng) β 進(jìn)一步增大時,兩個數(shù)據(jù)集的AUC值均開始下降。因此,本文將鑒別器的閾值 β 設(shè)為2.0,鑒別器的閾值 α 設(shè)置為1.5。

圖4在UCF-Crime數(shù)據(jù)集上的ROC曲線對比Fig.4Comparison of ROC curves on theUCF-Crime dataset表5不同閾值對網(wǎng)絡(luò)的影響

圖5展示了在不同閾值下,生成器和鑒別器的可視化結(jié)果(見電子版)。其中,真實(shí)異常區(qū)域以粉紅色標(biāo)示,藍(lán)色曲線表示生成器生成的偽標(biāo)簽:偽標(biāo)簽值為1時,該片段被判定為異常;值為0時,該片段被視為正常。隨著閾值 β 的增大,生成的異常標(biāo)簽數(shù)量逐漸減少,并且準(zhǔn)確性有所提升。適當(dāng)增加閾值β 有助于模型更準(zhǔn)確地識別異常區(qū)域,并減少假陽性(即將正常區(qū)域誤判為異常)。然而,當(dāng)閾值設(shè)置過高時(圖5(f)),雖然能夠減少異常誤判區(qū)域,但也會導(dǎo)致部分真實(shí)的異常區(qū)域未被標(biāo)記為異常,造成異常標(biāo)簽的數(shù)量不足。但是,在異常標(biāo)簽不足的情況下,鑒別器依然能夠保持較好的性能穩(wěn)定性,準(zhǔn)確識別出大致的異常區(qū)域,表明鑒別器具有良好的魯棒性和穩(wěn)定性。

2.6 可視化分析

為了更全面地評估Hyper-UVAD模型的性能,圖6展示了在ShanghaiTech和UCF-Crime兩個數(shù)據(jù)集上的可視化檢測結(jié)果。粉色區(qū)域標(biāo)記了視頻中的真實(shí)異常事件,而藍(lán)色曲線則表示模型對測試視頻每一幀的異常分?jǐn)?shù)預(yù)測(見電子版)。為了更直觀地對比異常與正常行為,分別使用紅色和綠色矩形框標(biāo)注了視頻中的異常幀和正常幀。圖6中的(a)(b)子圖源自ShanghaiTech數(shù)據(jù)集,而(c)\~(f)則取自UCF-Crime數(shù)據(jù)集。在圖6(a)中,異常事件為行人在馬路上打鬧,視頻中共包含三段異常情況;圖6(b)展示的是騎自行車者穿過人行道的異常現(xiàn)象;圖6(c)(d)分別是盜竊和破壞兩個異常行為。從可視化結(jié)果來看,模型的預(yù)測分?jǐn)?shù)與實(shí)際標(biāo)簽高度吻合:模型對異常片段預(yù)測了較高的異常分?jǐn)?shù),而對正常片段預(yù)測了較低的分?jǐn)?shù)。

圖6ShanghaiTech與UCF-Crime的異常分?jǐn)?shù)曲線Fig.6Anomaly score curve on Shanghai Tech and UCF-Crime此外,圖6(e)(f是本文模型檢測失敗的兩個場景,分別對應(yīng)的是入室盜竊和爆炸事件。在圖6(e)中,由于嫌疑人在

進(jìn)入和離開房間時的動作十分相似,模型將嫌疑人離開房間也誤判為異常。在圖6(f)中,雖然模型成功檢測到了爆炸,但未能將爆炸前的煙霧識別為異常,這可能是由于訓(xùn)練集中缺乏煙霧場景,導(dǎo)致網(wǎng)絡(luò)的泛化能力受限。盡管在某些特定場景下,模型的檢測性能仍有提升空間,但總體而言,本文方法在異常檢測方面展現(xiàn)出了良好的性能,能準(zhǔn)確識別出視頻中的異常區(qū)域,為無監(jiān)督視頻異常檢測提供了一種新的解決方案。

3結(jié)束語

本文提出了一種基于雙曲空間的無監(jiān)督異常檢測方法,在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別取得了 93.26% 、77.55% 的AUC值,取得了現(xiàn)有無監(jiān)督方法的最佳結(jié)果,證明了在雙曲空間中學(xué)習(xí)視頻表示相較于歐氏空間更具有優(yōu)勢,這是首次使用雙曲空間在無監(jiān)督視頻異常檢測領(lǐng)域的探索。本文方法通過固定閾值來生成偽標(biāo)簽,但這種方法不可避免地在訓(xùn)練過程中引入了一定誤差。未來的研究將聚焦于自適應(yīng)閾值的設(shè)計(jì)和基于雙曲空間的自注意力機(jī)制,進(jìn)一步探索雙曲空間在異常檢測領(lǐng)域的應(yīng)用,以期提高無監(jiān)督模型的泛化能力與整體性能,這將有助于在更多實(shí)際場景中實(shí)現(xiàn)更加準(zhǔn)確和穩(wěn)定的異常檢測。

參考文獻(xiàn):

[1]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomalydetection—anewbaseline[C]//Procof IEEE/CVFConferenceon ComputerVision and Pattern Recognition.Piscataway,NJ: IEEEPress,2018:6536-6545.

[2]Gong Dong,Liu Lingqiao,LeV,et al.Memorizing normality to detect anomaly:memory-augmenteddeepautoencoderforunsupervisedanomalydetection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1705-1714.

[3]陳澄,胡燕.融合記憶增強(qiáng)的視頻異常檢測[J].計(jì)算機(jī)工程與應(yīng) 用,2022,58(15):253-259.(Chen Cheng,Hu Yan.Video anomaly detection combining memory-augmented[J].Computer Engineering and Applications,2022,58(15):253-259.)

[4]Hirschorn O,Avidan S.Normalizing flows for human pose anomaly detection[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ:IEEE Press,2023:13499-13508.

[5]Zaheer M Z,Mahmood A,Khan MH,etal.Generative cooperative learning forunsupervised video anomaly detection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022:14724-14734.

[6]TurA O,Dal'Asen N,Beyan C,et al.Exploring diffusion models for unsupervised video anomaly detection[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ: IEEE Press, 2023:2540-2544.

[7]潘振鵬,李志軍,薛超然,等.一種時間-外觀能量擴(kuò)散Transformer 的無監(jiān)督視頻異常檢測[J].微電子學(xué)與計(jì)算機(jī),2025,42(2):68- 76.(Pan Zhenpeng,Li Zhijun,Xue Chaoran,et al.A time-appearance diffusion Transformer for unsupervised video anomaly detection[J]. Microelectronicsamp;Computer,2025,42(2):68-76.)

[8]Al-Lahham A,Tastan N,Zaheer M Z,et al. A coarse-to-fine pseudolabeling(C2FPL) framework for unsupervisedvideo anomalydetection [C]//Proc of IEEE/CVF Winter Conference on Applications of ComputerVision.Piscataway,NJ:IEEEPress,2024:6779-6788.

[9]Tifrea A,Becigneul G,Ganea O E. Poincare glove:hyperbolic word embeddings[C]//Proc of International Conference on Learning Representations.2018.

[10]CorsoG,YingZhitao,PandyM,etal.Neural distanceembeddingsfor biological sequences[C]//Advances in Neural Information Processing Systems.2021:18539-18551.

[11]Gerald T,Zatiti H,Hajri H,et al.A hyperbolic approach for learning communities on graphs[J]. Data Mining and Knowledge Discovery,2023,37(3):1090-1124.

[12]Wang Liping,Hu Fenyu,Wu Shu,et al.Fully hyperbolic graph convolution network for recommendation[C]//Proc of the 30th ACM International Conference on Information amp; Knowledge Management. New York : ACM Press,2021 :3483-3487.

[13]Sultani W,Chen Chen,Shah M. Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2018 : 6479-6488.

[14]Wan Boyang,F(xiàn)ang Yuming,Xia Xue,et al. Weakly supervised video anomaly detection via center-guided discriminative learning[C]// Proc of IEEE International Conference on Multimediaand Expo.Piscataway,NJ:IEEE Press,2020:1-6.

[15]Tian Yu,Pang Guansong,Chen Yuanhong,et al.Weakly-supervised video anomaly detection with robust temporal feature magnitude learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,N:IEEPress,21:4954966

[16]Zhou Hang,Yu Junqing,Yang Wei.Dual memory units with uncertainty regulation for weakly supervised video anomaly detection[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2023:3769-3777.

[17]Chen Yingxian,Liu Zhengzhe,Zhang Baoheng,etal. MGFN: magnitude-contrastive glance-and-focus network for weakly-supervised video anomaly detection[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2023:387-395.

[18]Li Nannan,Zhong Jiaxing,Shu Xiujun,et al. Weakly-supervised anomaly detection in video surveillance via graph convolutional label noisecleaning[J].Neurocomputing,2022,481:154-167.

[19]李文中,吳克偉,孫永宣,等.基于對比記憶網(wǎng)絡(luò)的弱監(jiān)督視頻異 常檢測[J].計(jì)算機(jī)應(yīng)用研究,2023,40(10):3162-3167,3172.(Li Wenzhong,Wu Kewei,Sun Yongxuan,et al. Video anomaly detection combining with contrastive memory network[J].Application Research of Computers,2023,40(10) :3162-3167,3172.)

[20] Carreira J,Zisserman A. Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Visionand Pattern Recognition.Piscataway,NJ: IEEE Press,2017: 4724-4733.

[21]Chami I, Ying R,Ré C,et al. Hyperbolic graph convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2019:4869-4880.

[22]Chen Weize,Han Xu,Lin Yankai,et al.Fully hyperbolic neural networks[C]//Proc of the 6Oth Annual Meeting of the Association for Computational Linguistics.2022;5672-5686.

[23]Liu Zhian,Nie Yongwei,Long Chengjiang,et al.A hybrid video anomalydetection framework via memory-augmented flow reconstruction and flow-guided frame prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021:13568-13577.

[24] Georgescu MI,Ionescu R T,Khan F S,et al. A background-agnostic framework withadversarial training for abnormal event detection in video[J]. IEEE Trans on Pattern Analysisand Machine Intelligence,2022,44(9):4505-4523.

[25]Nie Yongwei,Huang Hao,Long Chengjiang,et al.Interleaving oneclassand weakly-supervised models with adaptive thresholding for unsupervised video anomaly detection[EB/OL].(2024-01-24)[2024- 08-26]. https://arxiv.org/abs/2401.13551.

[26]Wang Jue, Cherian A.GODS:generalized one-class discriminative subspaces for anomaly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEEPress, 2019;8200-8210.

[27] Sun Che,Jia Yunde,Hu Yao,et al.Scene-aware context reasoning for unsupervised abnormal event detection invideos[C]//Proc of the 28th ACM International Conference on Multimedia.New York: ACM Press,2020:184-192.

[28]Al-lahham A,Zaheer M Z,Tastan N,et al. Collaborative learning of anomalies with privacy(CLAP) for unsupervised video anomaly detection:a new baseline[C]//Proc of IEEE/CVF Conference on Computer Vision andPattem Recognition.Piscataway,NJ:IEEE Press,2024: 12416-12425.

猜你喜歡
雙曲卷積閾值
基于多閥值模糊邏輯的新能源汽車電驅(qū)動系統(tǒng)絕緣故障定位技術(shù)探析
專用汽車(2025年7期)2025-08-15 00:00:00
基于時間圖卷積網(wǎng)絡(luò)的交通流時空預(yù)測模型
幾道以雙曲函數(shù)為背景的數(shù)學(xué)創(chuàng)新題探究
基于模糊控制的車道偏離預(yù)警模型研究
基于圖卷積的自適應(yīng)特征融合MRI腦腫瘤分割方法
基于YOLOX的輕量化目標(biāo)檢測算法及其應(yīng)用
面向可重構(gòu)陣列的CNN多維融合數(shù)據(jù)復(fù)用方法
不同溫度下CL-20機(jī)械感度閾值的量化研究
爆破器材(2025年4期)2025-08-03 00:00:00
用新課標(biāo)作導(dǎo)向 以新教材為源泉
基于變分模態(tài)分解和自適應(yīng)雙閥值的 心電信號R波檢測
主站蜘蛛池模板: 亚洲高清无在码在线无弹窗| 亚洲AⅤ综合在线欧美一区| 国产好痛疼轻点好爽的视频| 欧美日韩国产成人高清视频| 国产精品嫩草影院视频| 亚洲 欧美 日韩综合一区| 天天色综网| 欧美成人午夜视频免看| 伊人91视频| 国产一二视频| 好紧太爽了视频免费无码| 四虎AV麻豆| 国产成人喷潮在线观看| 午夜国产不卡在线观看视频| 精品视频一区在线观看| 91小视频在线观看免费版高清| 日韩欧美国产精品| a级毛片网| 日韩精品毛片| 久久久久国色AV免费观看性色| 国产欧美日韩另类| 最新国产你懂的在线网址| 成人国产精品2021| 午夜天堂视频| 成人蜜桃网| 亚洲最猛黑人xxxx黑人猛交| 国产三级成人| 亚洲第一区欧美国产综合| 亚洲永久色| 在线精品亚洲一区二区古装| 国产白浆一区二区三区视频在线| 九九久久精品免费观看| 草逼视频国产| 青草视频免费在线观看| 亚洲高清中文字幕在线看不卡| 国产综合色在线视频播放线视| 国产区91| 又粗又大又爽又紧免费视频| 久久福利片| 日本午夜三级| 激情在线网| 久久一日本道色综合久久| 亚洲成人在线网| 在线五月婷婷| 国产福利在线观看精品| 在线观看91精品国产剧情免费| 成人在线天堂| 综合五月天网| 久久性妇女精品免费| 日韩精品一区二区深田咏美| 国产午夜不卡| 欧美精品导航| 福利视频久久| 国外欧美一区另类中文字幕| 国产成人免费| 亚洲精品制服丝袜二区| 亚洲国产在一区二区三区| 欧美日韩福利| 91色在线观看| 亚洲成在人线av品善网好看| 天堂在线视频精品| 手机成人午夜在线视频| www.91在线播放| 午夜不卡福利| 1769国产精品免费视频| 亚洲一区二区三区麻豆| 国产va欧美va在线观看| 日本国产在线| 午夜视频免费一区二区在线看| 国产成人欧美| 国产美女免费| 国产91色| 成人免费黄色小视频| 54pao国产成人免费视频 | 女人爽到高潮免费视频大全| 亚洲精品无码AV电影在线播放| 毛片一级在线| 国产精品久久精品| 极品国产在线| 国产第一页亚洲| 日本福利视频网站| 久久综合伊人 六十路|