基于雙曲空間的無監(jiān)督視頻異常檢測方法

2025-07-28 00:00:00漆美林吳媛媛張航林文龍

計(jì)算機(jī)應(yīng)用研究 2025年7期

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2025）07-042-2234-07

doi：10.19734/j. issn.1001-3695.2024.08.0371

Abstract：Inthefieldofvideoanomalydetection，anomalouseventsoftendemonstratetemporalcontinuityandsimlarityExisting unsupervised methods typicallysegment videos into multipleclipsandrandomlyselectsubsets for training，disrupting the continuityofanomalouseventsandcausing thelossofcriticalspatiotemporalinformation.AditionallycurrntEuclidean space-basedmethodsencounterlimitationsinembeddngspacedimensionalitymakingitdificulttoefectivelycapturethelatent geometrichierarchyofvideodata.Toaddress these isues，thispaper introducedanovelunsupervisedvideoanomalydetection methodbasedonhyperbolic space.Itdesignedaspatiotemporalfeatureconstruction（STFC）module toextract temporalcorrelationsand featuresimilaritiesamong videosegments，mbedding themintoLorentzandPoincaréballhyperbolicspaces to learnrichervideorepresentationsthatmoreefectivelydistinguishnormalfromabnormal events.Experimentsshowthatthis method achieves AUC scores of 93.26% and 77.55% on the Shanghai Tech and UCF-Crime datasets，respectively，outperforming existingunsupervised video anomalydetectionmethods.Theseresultsconfirmtheadvantageof hyperbolic spaceincapturingthelatentgeometrichierarchyofvideodataandhighlightitspotential inenhancinganomalydetectioncapabilities.

KeyWords：unsupervised；video anomaly detection；Lorentz hyperbolicspace；Poincaréballhyperbolic space

0 引言

隨著國家公共安全意識的不斷增強(qiáng)，監(jiān)控攝像頭在街道、十字路口、銀行和購物中心等公共場所的使用日益普及，旨在提高整體的公共安全水平。然而，隨著監(jiān)控設(shè)備的廣泛部署，監(jiān)控視頻數(shù)據(jù)量急劇增加，使得人工篩查異常事件（如打斗、虐待、交通事故、盜竊等）變得極為困難。在這樣的背景下，視頻異常檢測技術(shù)應(yīng)運(yùn)而生，它通過智能化手段自動識別視頻序列中的異常行為或事件。

然而，由于視頻背景復(fù)雜、異常類型界定模糊，加之異常事件種類繁多且難以窮盡，視頻異常檢測一直是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)艱巨任務(wù)。為簡化模型，早期的研究1＼～4采用了單類分類方法，僅利用正常視頻數(shù)據(jù)進(jìn)行訓(xùn)練，使模型學(xué)習(xí)正常數(shù)據(jù)的分布，并通過預(yù)測未來幀或重建視頻幀來檢測異常事件。然而，這種方法存在明顯局限性：任何偏離正常分布的樣本都可能被誤判為異常，導(dǎo)致對未見過的正常事件的錯誤檢測。因此，弱監(jiān)督學(xué)習(xí)方法開始在視頻異常檢測領(lǐng)域受到關(guān)注。該方法通過使用視頻級標(biāo)簽，降低了獲取細(xì)粒度人工標(biāo)注的成本：如果視頻的部分內(nèi)容異常，則標(biāo)記為異常；如果視頻的所有內(nèi)容都正常，則標(biāo)記為正常。盡管這種標(biāo)注方式比逐幀標(biāo)注更高效，但仍需要逐個視頻篩查以確定是否包含異常事件。

近年來，無監(jiān)督方法的發(fā)展為視頻異常領(lǐng)域開辟了新的研究方向，吸引了眾多研究者的關(guān)注。Zaheer等人[5]首次提出了生成合作學(xué)習(xí)方法（GCL）的無監(jiān)督方法，該方法由生成器和鑒別器兩個關(guān)鍵組件組成。生成器負(fù)責(zé)生成偽標(biāo)簽，鑒別器則估計(jì)實(shí)例異常的概率，并通過兩者的協(xié)作實(shí)現(xiàn)對未標(biāo)注視頻的異常檢測。Tur等人[6利用擴(kuò)散模型的重建能力，提出了一種用于無監(jiān)督視頻異常檢測的生成模型，將視頻切分為多個特征片段，訓(xùn)練時隨機(jī)選擇批量大小的片段輸入到擴(kuò)散模型中重建視頻特征，并通過重建誤差的大小判斷異常事件。潘振鵬等人[7設(shè)計(jì)了時間能量擴(kuò)散模塊和外觀能量擴(kuò)散模塊，結(jié)合自注意力層和交叉注意力層，增強(qiáng)了模型對時間信息和外觀信息的學(xué)習(xí)能力，從而提升了正常與異常樣本的區(qū)分度。Al-Lahham等人[8]提出了C2FPL框架，通過高斯聚類生成粗粒度標(biāo)簽，并進(jìn)一步利用統(tǒng)計(jì)假設(shè)檢驗(yàn)生成細(xì)粒度標(biāo)簽，使得模型可以進(jìn)行全監(jiān)督訓(xùn)練。

盡管無監(jiān)督視頻異常檢測技術(shù)近年來取得了顯著進(jìn)展，但仍面臨一些挑戰(zhàn)。一方面，現(xiàn)有文獻(xiàn)[5，6]在訓(xùn)練時將視頻劃分為多個非重疊片段，并隨機(jī)選取批次進(jìn)行訓(xùn)練，這種處理方式雖然消除了批內(nèi)和批間的相關(guān)性，卻破壞了視頻片段的連續(xù)性，導(dǎo)致關(guān)鍵時序信息丟失。另一方面，已有的視頻異常檢測方法都局限于在歐幾里德空間中使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)視頻特征表示。雖然基于歐氏空間的方法已取得較好的性能，但在應(yīng)對高度相似的正負(fù)實(shí)例時仍存在不足。

雙曲神經(jīng)網(wǎng)絡(luò)近年來在建模復(fù)雜數(shù)據(jù)結(jié)構(gòu)（如單詞嵌入[9]、生物序列[10]、社交網(wǎng)絡(luò)[1]、推薦系統(tǒng)[12]等）方面展現(xiàn)了巨大潛力。與歐氏空間相比，雙曲空間中的距離隨深度呈指數(shù)增長，更適合反映正負(fù)實(shí)例之間的差異。如圖1所示，在歐氏空間中彼此距離較近的兩點(diǎn)，在樹型結(jié)構(gòu)中其實(shí)際距離為各自到根節(jié)點(diǎn)的路徑之和。受此啟發(fā)，本文提出了在雙曲空間中學(xué)習(xí)視頻表示的方法，利用雙曲空間的指數(shù)增長特性能夠有效拉開歐氏空間中相似的正負(fù)實(shí)例之間的距離。針對無監(jiān)督方法在訓(xùn)練中忽視時序信息的問題，本文設(shè)計(jì)了時間特征構(gòu)建模塊。由于異常事件通常具備時間上的連續(xù)性和特征上的相似性，STFC模塊通過分析視頻片段間的特征相似性和時間相關(guān)性提取時序信息，從而幫助模型更好地區(qū)分異常和正常片段。本文的主要貢獻(xiàn)總結(jié)如下：

a）提出了一種基于雙曲空間的無監(jiān)督異常檢測方法，該方法在無任何數(shù)據(jù)標(biāo)簽的情況下實(shí)現(xiàn)了視頻異常檢測。在ShanghaiTech和UCF-Crime公共數(shù)據(jù)集上，AUC分別達(dá)到了93.26% 和 77.55% ，達(dá)到了新的最佳結(jié)果。

b）首次將雙曲空間引入無監(jiān)督視頻異常檢測領(lǐng)域，在雙曲空間中學(xué)習(xí)視頻特征表示，利用其非線性特性更精確地捕捉異常與正常視頻片段間的潛在結(jié)構(gòu)差異，提高了視頻異常檢測的準(zhǔn)確性。

c）設(shè)計(jì)了時間特征構(gòu)建模塊，以彌補(bǔ)傳統(tǒng)無監(jiān)督方法在訓(xùn)練過程中因隨機(jī)批次選擇導(dǎo)致的時序信息缺失問題。STFC模塊有效提取視頻片段間的時間相關(guān)性與特征相似性，增強(qiáng)了模型的時序分析能力。

圖1雙曲空間中的幾何距離Fig.1Geometric distancesin hyperbolic space

1方法

1.1 雙曲幾何

雙曲幾何是一種具有恒定負(fù)曲率的非歐幾里德幾何，曲率表示幾何對象偏離平面的程度，因此雙曲空間相比歐氏空間更加“廣闊”，能夠提供更多的“空間”。洛倫茲模型和龐加萊球模型是雙曲空間中常見的兩種模型，一般地，具有常數(shù)負(fù)曲率的 n 維洛倫茲模型可表示為，而 T_xL_Kⁿ 表示以 x 為中心的正切空間，具體定義如下：

其中：為常數(shù)負(fù)曲率； g_x^K 是黎曼度量; ??，??_c 為洛倫茲內(nèi)積，可表示為

在雙曲幾何中，龐加萊球模型可表示為 ρⁿ=（βⁿ，g_x），其中 βⁿ={x∈Rⁿ ，是黎曼度量：

雙曲空間的一個重要特性是比歐幾里德空間擴(kuò)展快，歐幾里德空間是呈多項(xiàng)式級的增長，而雙曲空間呈指數(shù)級增長。在龐加萊球中任意兩點(diǎn) u，v∈β^d 的距離計(jì)算公式如下：

此外，雙曲空間和歐氏空間可以通過指數(shù)映射和對數(shù)映射相互轉(zhuǎn)換。例如在洛倫茲模型中，設(shè) x∈L_Kⁿ，v∈T_xL_Kⁿ，x∈L_Kⁿ 可使用指數(shù)映射和對數(shù)映射實(shí)現(xiàn)互相轉(zhuǎn)換：

1.2 總體框架

本文基于雙曲空間的無監(jiān)督異常檢測方法主要由生成器和鑒別器兩個子結(jié)構(gòu)組成。由于無監(jiān)督方法不依賴任何標(biāo)注信息，在訓(xùn)練過程中無法直接判斷視頻片段是否異常。所以，為了實(shí)現(xiàn)有效訓(xùn)練，本文方法首先通過生成器 G 根據(jù)重建誤差的大小生成偽標(biāo)簽用于訓(xùn)練鑒別器 D 接著，鑒別器 D 使用預(yù)測的異常分?jǐn)?shù)生成新的偽標(biāo)簽來優(yōu)化生成器 G 在后續(xù)的每一輪訓(xùn)練中，生成器和鑒別器通過不斷利用對方生成的偽標(biāo)簽來協(xié)作學(xué)習(xí)，逐步提升模型性能，實(shí)現(xiàn)完全無監(jiān)督的異常檢測。

整體框架如圖2所示，生成器 G 采用自編碼結(jié)構(gòu)：首先通過多個卷積層提取輸入視頻的低維特征，然后通過多個反卷積層重建視頻特征，最后通過計(jì)算輸入視頻與重建特征之間的重建誤差，生成用于訓(xùn)練鑒別器 D 的偽標(biāo)簽。而鑒別器D 將視頻特征輸入到STFC模塊中提取時空信息，并在洛倫茲雙曲空間和龐加萊球雙曲空間中學(xué)習(xí)視頻表示，并通過分類器預(yù)測每個片段的異常分?jǐn)?shù)。由于洛倫茲雙曲空間和龐加萊球雙曲空間在幾何結(jié)構(gòu)上的差異，將兩個空間學(xué)到的視頻表示進(jìn)行拼接，可以提高分類器預(yù)測正常和異常視頻異常分?jǐn)?shù)的準(zhǔn)確性。

1.3 特征提取

本文遵循先前弱監(jiān)督方法的工作[13＼～19]，首先將視頻 V 拆分為幀級序列 X={x_i}_i=1ⁿ ，并將序列 X 均勻分為 T 個不重疊的片段 V={v_t}_t=1^T ，每個片段包括16個連續(xù)幀。然后將每個片段輸入到在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的 I3D^[20] 網(wǎng)絡(luò)中，提取RGB 特征 F_RGB^N×D ，其中 D 表示特征維數(shù)，，N 表示片段個數(shù)。由于視頻的時長差異較大，從幾秒鐘到幾個小時不等，導(dǎo)致每個視頻的片段數(shù)也不盡相同。此外，受限于GPU內(nèi)存，直接基于批處理進(jìn)行訓(xùn)練并不可行。因此，在訓(xùn)練階段，通過統(tǒng)一的間隔將提取到的特征 F_RGB^N×D 重新劃分為 T 個片段，使每個視頻表示為 F_RGB^T×D 。在測試階段，批處理的大小設(shè)為1，無須再將視頻等間隔劃分為 T 個片段。

圖2Hyper-UVAD網(wǎng)絡(luò)模型總體框架 Fig.2Overall framework of Hyper-UVAD

1.4 生成器網(wǎng)絡(luò)

自編碼器通常以最小化正常數(shù)據(jù)的重構(gòu)誤差來學(xué)習(xí)正常數(shù)據(jù)的分布，并將重建誤差作為異常檢測的指標(biāo)。文獻(xiàn)[1＼～4]提出的方法僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練，這種策略雖然能夠使網(wǎng)絡(luò)在處理未見過的異常數(shù)據(jù)時產(chǎn)生較大的重建誤差，但在面對未見過的正常數(shù)據(jù)時也可能出現(xiàn)較大的重建誤差，從而導(dǎo)致正常與異常數(shù)據(jù)之間的區(qū)分能力不足。為了解決這一問題，本文在訓(xùn)練生成器時同時使用了正常數(shù)據(jù)和異常數(shù)據(jù)。在重建視頻特征的過程中，生成器通過縮小正常特征片段的重建誤差，同時放大異常特征片段的重建誤差，以實(shí)現(xiàn)對異常數(shù)據(jù)的有效識別。重建誤差定義如下：

根據(jù)文獻(xiàn)[15]，異常片段的特征幅值通常大于正常片段的特征幅值，這意味著異常片段的特征相對于正常片段更加復(fù)雜。在重建過程中，異常片段的重建誤差通常會比正常片段的誤差更大。因此，本文利用生成器的重建誤差作為建立偽標(biāo)簽的依據(jù)，將重建誤差大于閾值 L_Gth 的片段視為異常：

其中：L_Gth=u+βσ，u 和 σ 分別表示均值和方差 Δ，β 是超參數(shù)。

1.5 鑒別器網(wǎng)絡(luò)

在傳統(tǒng)的歐氏空間中，圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）將圖中的節(jié)點(diǎn)嵌入到歐幾里德空間中，當(dāng)處理具有無標(biāo)度或?qū)哟谓Y(jié)構(gòu)的真實(shí)圖時，這種嵌入方式無法準(zhǔn)確反映節(jié)點(diǎn)間的距離關(guān)系，往往會導(dǎo)致較大的失真[21]。例如，在對社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)等復(fù)雜數(shù)據(jù)建模時，歐氏空間中的球體積呈多項(xiàng)式增長，難以捕捉數(shù)據(jù)中的潛在幾何層次結(jié)構(gòu)。而雙曲空間由于其體積呈指數(shù)增長，是樹狀圖的近似空間，能夠更好地容納層次化的復(fù)雜數(shù)據(jù)。本文將視頻拆分為 T 個片段，并將每個片段視為圖中的節(jié)點(diǎn)。這種圖結(jié)構(gòu)與雙曲空間中的層次結(jié)構(gòu)十分契合，因此在雙曲空間中使用GCN學(xué)習(xí)視頻表示相較于歐氏空間更具優(yōu)勢。

本文所提鑒別器由時空特征構(gòu)建（STFC）模塊、雙曲圖卷積模塊和分類器三部分組成。STFC模塊用于生成時間關(guān)系矩陣和特征相似矩陣，雙曲圖卷積模塊基于洛倫茲雙曲空間和龐加萊球雙曲空間實(shí)現(xiàn)了圖卷積神經(jīng)網(wǎng)絡(luò)，用來學(xué)習(xí)視頻特征表示。分類器由全連接層組成，預(yù)測每個特征片段的異常分?jǐn)?shù)，并利用生成器 G 生成的偽標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練。

1.5.1時空特征構(gòu)建模塊

異常事件往往在一段連續(xù)的時間內(nèi)發(fā)生，同時，同種類型的事件之間可能存在一定的相似性。為了解決文獻(xiàn)[5，6]中時序信息缺失的問題，本文引入了STFC模塊，該模塊從特征相似性和時間相關(guān)性兩個方面構(gòu)建鄰接矩陣，其結(jié)構(gòu)如圖3所示。視頻經(jīng)過I3D網(wǎng)絡(luò)后得到特征表示 F^T×D ，其中 T 為視頻切分的片段數(shù)， D 為每個片段的維度。為避免維度災(zāi)難，STFC模塊使用兩個卷積層將特征維度降低到128，并在此基礎(chǔ)上構(gòu)建時間相關(guān)性矩陣和特征相似性矩陣。

圖3時空特征構(gòu)建模塊Fig.3Spatio-temporal feature construction module

通常情況下，異常事件和正常事件在視頻中不會在短時間內(nèi)發(fā)生劇烈變化，相鄰的視頻片段之間具備一定的時間關(guān)聯(lián)。通過分析視頻片段間的時間順序及其鄰近關(guān)系可構(gòu)建時間關(guān)系圖 G=（V，E），其中 V={v_i，i=1，2，…，T} 表示視頻片段構(gòu)成的節(jié)點(diǎn)集合， ?_E 表示片段之間的時間關(guān)系。基于時間相關(guān)性的鄰接矩陣 A_ij^T∈R^T×T 的計(jì)算公式如下所示。

其中：δ是用來控制時間范圍的超參數(shù)。

盡管異常事件種類繁多且各不相同，但同一類型的異常片段在特征上往往具有一定的相似性聯(lián)系。基于特征相似性的鄰接矩陣 A_ij^S∈R^T×T 的計(jì)算公式如下：

A_ij^S=softmax（f（x_i，x_j）））

其中：函數(shù) f（x_i，x_j）用來測量兩個片段之間的特征相似性：

為消除雙曲空間中的弱相似關(guān)系，函數(shù) f（x_i，x_j）還定義了閾值運(yùn)算：

1.5.2龐加萊球雙曲圖卷積

在歐幾里德空間中，圖卷積運(yùn)算由線性變換、鄰域聚合和非線性激活三個步驟組成。在龐加萊球雙曲空間中執(zhí)行這三個步驟時，需要將輸入向量通過映射轉(zhuǎn)換到對應(yīng)點(diǎn)的切線空間，然后在歐氏空間中完成相關(guān)的運(yùn)算后，最后將結(jié)果再映射回雙曲空間中，從而實(shí)現(xiàn)雙曲空間下的卷積操作，確保雙曲幾何特性在計(jì)算過程中保留，同時使得圖卷積操作得以在歐氏空間中進(jìn)行。

a）線性變換：線性變換需要將嵌入向量乘以一個權(quán)重矩陣，然后進(jìn)行偏差平移。為了計(jì)算矩陣向量乘法，需要將該向量映射到它所在位置的正切平面（切線空間）。在切線空間中，可以使用標(biāo)準(zhǔn)的歐氏矩陣運(yùn)算來執(zhí)行線性變換，即將嵌入向量與權(quán)重矩陣 W 相乘，并加上偏置項(xiàng) b 。

其中： o 是雙曲空間中的原點(diǎn)； P（?）是平行轉(zhuǎn)移運(yùn)算。

b）鄰域聚合：鄰域聚合是圖卷積神經(jīng)網(wǎng)絡(luò)中最重要的一個步驟，其核心思想是整合節(jié)點(diǎn)自身及其所有鄰居的特征信息。在雙曲空間中，對于點(diǎn) x_i^H 和其鄰居 x_j^?H ，首先需要將它們映射到雙曲空間中的切線空間，這樣可以將雙曲幾何轉(zhuǎn)換為歐氏幾何來處理，計(jì)算完成后，再將結(jié)果映射回雙曲空間。鄰域聚合公式如下：

其中：表示節(jié)點(diǎn) i 的鄰居。

c）非線性激活：為了在雙曲空間中使用非線性激活函數(shù)，需先在切線空間中應(yīng)用非線性激活函數(shù)，然后將結(jié)果映射回雙曲空間。其過程可表示為

其中： σ 是非線性激活函數(shù)。

總結(jié)以上三個操作，在龐加萊球雙曲圖卷積層中，第 l-1 層到第 l 層的運(yùn)算步驟可表示如下：

h_i^l=（?W^l?x_i^l-1）?b^l

y_i^l=AGG（h_i^l）

x_i^l=σ（y_i^l）

1.5.3洛倫茲雙曲圖卷積

文獻(xiàn)[22]通過調(diào)整洛倫茲變換（包括升壓和旋轉(zhuǎn)）來形式化神經(jīng)網(wǎng)絡(luò)的基本運(yùn)算，提出了一種基于洛倫茲模型的全雙曲型神經(jīng)網(wǎng)絡(luò)，無須從雙曲空間到歐氏空間的切換，并提供了雙曲線性層具有激活、放棄、偏差和歸一化的特征變換的通用公式：

其中： x∈L_Kⁿ W∈R^d×（n+1） v∈Rⁿ⁺¹ 表示洛倫茲變換中的速度（與光速的比值）， φ 可表示dropout，激活函數(shù)或者歸一化函數(shù)。在洛倫茲雙曲圖卷積中，鄰域聚合定義為

在洛倫茲雙曲圖卷積層中，由于式（20）已經(jīng)內(nèi)嵌了非線性激活函數(shù)，所以第l-1層到第 ξ_l 層的過程中不再需要額外的非線性激活步驟：

y_i=HL（x_i^l-1）

x_i^l=HyperAgg（y_i）

1.6 損失函數(shù)

視頻特征 F 經(jīng)過鑒別器 D 中的雙曲圖卷積模塊后，在兩個不同的雙曲空間中分別獲得了新的特征表示 F^L （洛倫茲）和F^P （龐加萊球）。由于洛倫茲空間和龐加萊球空間在幾何結(jié)構(gòu)上的差異，它們能夠從不同視角對視頻內(nèi)容進(jìn)行學(xué)習(xí)與表征。所以，將這兩種特征表示融合后輸入到分類器中，有助于更準(zhǔn)確地預(yù)測每個視頻片段的異常分?jǐn)?shù) s

S=sigmoid（FC（concat（F^L，F(xiàn)^P））））

借助生成器 G 生成的偽標(biāo)簽，鑒別器 D 的損失函數(shù)定義如下：

其中： S_i，j 表示第 i 個視頻中的第 j 個片段的預(yù)測分?jǐn)?shù)。

在訓(xùn)練過程中，由于同時引入了正常數(shù)據(jù)和異常數(shù)據(jù)，生成器會無差別地重建輸入特征。為提高生成器 G 在重建正常和異常視頻特征時的區(qū)分能力，以鑒別器 D 輸出的異常分?jǐn)?shù)為依據(jù)，將異常分?jǐn)?shù)超過設(shè)定閾值的視頻片段特征 f^′ 替換為全1的特征向量，而正常視頻的重建特征 f^′ 保持不變：

其中： S_Dth=u+ασ，u 和 σ 分別表示均值和方差， α 是超參數(shù)。訓(xùn)練生成器 D 的損失函數(shù)如下：

其中： T 是視頻片段數(shù)； B 為批量大小。

此外，為了確保視頻被切分為多個片段后，相鄰片段之間的異常分?jǐn)?shù)能夠呈現(xiàn)出平滑的變化趨勢，本文引入一個平滑約束。該約束通過最小化相鄰片段間異常分?jǐn)?shù)的差異來實(shí)現(xiàn)，強(qiáng)制相鄰片段在時間序列上的異常分?jǐn)?shù)變化保持平滑。在生成器和鑒別器的損失函數(shù)基礎(chǔ)上加入平滑約束后，總的訓(xùn)練損失函數(shù)定義如下：

其中： λ 是一個超參數(shù)，用于平衡平滑損失與其他損失之間的權(quán)重。

2實(shí)驗(yàn)

2.1 數(shù)據(jù)集

ShanghaiTech是一個中等規(guī)模的視頻監(jiān)控數(shù)據(jù)集，由大學(xué)校園中13個固定角度拍攝的視頻組成。該數(shù)據(jù)集最初用于OCC（單類分類）方法，僅使用正常視頻用于訓(xùn)練。后來，Li等人[18]重新組織了該數(shù)據(jù)集，使其適用于弱監(jiān)督方法的訓(xùn)練。在重新劃分后，訓(xùn)練集包含63個異常視頻和175個正常視頻，測試集則包括44個異常視頻和155個正常視頻。本文采用了與文獻(xiàn)[18]中相同的數(shù)據(jù)集劃分方式。

UCF-Crime數(shù)據(jù)集是收集了來自真實(shí)監(jiān)控視頻的大規(guī)模數(shù)據(jù)集，涵蓋了13類異常事件，包括虐待、逮捕、縱火、襲擊、事故、入室盜竊、爆炸、打架、搶劫、槍擊、盜竊、商店行竊和破壞行為。該數(shù)據(jù)集共包含1900個視頻樣本，其中訓(xùn)練集包括800個正常視頻和810個異常視頻，測試集則由150個正常視頻和140個異常視頻組成。與ShanghaiTech數(shù)據(jù)集相比，UCF-Crime的視頻場景更加復(fù)雜多變，且場景類型多樣，是一個更具挑戰(zhàn)性的數(shù)據(jù)集。

2.2 評價指標(biāo)

與之前的方法[13＼～19]保持一致，本文采用受試者工作特征曲線（receiveroperatingcharacteristiccurve，ROC）下的曲線面積（areaundercurve，AUC）作為ShanghaiTech和UCF-Crime數(shù)據(jù)集的評估指標(biāo)。在視頻異常檢測任務(wù)中，AUC根據(jù)數(shù)據(jù)集中測試視頻的幀級標(biāo)簽計(jì)算得到，幀級AUC越大，代表網(wǎng)絡(luò)識別能力越強(qiáng)，并且在各種判別閾值下的性能越穩(wěn)健。

2.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境：本文所有的實(shí)驗(yàn)在12thGenIntel@Core TM_i5 12400F的機(jī)器上完成，GPU采用NVIDIARTX3060Ti（8GB），內(nèi)存16GB。編程環(huán)境為CUDA11.7，Python3.6，PyTorch1.13。

實(shí)現(xiàn)細(xì)節(jié)：在生成器的設(shè)計(jì)中，使用了3個一維卷積層和3個一維反卷積層對輸入的視頻特征進(jìn)行重建。生成器的層次結(jié)構(gòu)為[1024，512，256，128，256，512，1024]，逐步提取特征并恢復(fù)到原始維度。在鑒別器的設(shè)計(jì)中，每個雙曲空間包含時間相似度和特征相似度的兩個分支，每個分支由兩層雙曲圖卷積層組成。第一層將輸入的128維特征映射到32維，第二層則保持32維輸出不變。隨后，四個分支的32維輸出特征向量融合成一個128維的視頻特征向量輸入到分類器中。分類器由一個全連接層組成，其輸入維度為128維，輸出為1維，用于預(yù)測視頻特征的異常分?jǐn)?shù)。生成器的閾值 β 和鑒別器的閾值α 分別設(shè)置為2.0和1.5。由于UCF-Crime比ShanghaiTech的規(guī)模更大，視頻時長更長，UCF-Crime數(shù)據(jù)集的訓(xùn)練輪數(shù)為15，學(xué)習(xí)率為0.00001，視頻片段 T 為50，而ShanghaiTech數(shù)據(jù)集的訓(xùn)練輪數(shù)為50，學(xué)習(xí)率為0.00002，視頻片段 T 為20。優(yōu)化器選擇RMSprop，dropout設(shè)置為0.5，雙曲空間的曲率為0.03，批量大小設(shè)置為64。

2.4 方法對比

本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上對比了現(xiàn)有的單類分類方法、弱監(jiān)督方法以及無監(jiān)督方法，結(jié)果分別展示在表1和2中。本文方法用下畫線標(biāo)出，而加粗的數(shù)字則表示在相應(yīng)監(jiān)督類型下的最佳表現(xiàn)。在ShanghaiTech數(shù)據(jù)集上，本文方法表現(xiàn)出色，超越了所有現(xiàn)有的無監(jiān)督方法和單類分類方法。與目前最佳的無監(jiān)督方法相比，本文方法提高了5.08% ，達(dá)到了該數(shù)據(jù)集的最高水平。在UCF-Crime數(shù)據(jù)集上，本文方法相較于文獻(xiàn)[5＼～7」分別實(shí)現(xiàn)了 6.51% .12.33% 、2.85% 的AUC提升。盡管未能超過最新的無監(jiān)督方法C2FPL[8]和CLAP，但差距在可接受的范圍內(nèi)。這些結(jié)果證實(shí)了本文方法在雙曲空間中學(xué)習(xí)視頻表示的有效性，為視頻異常檢測領(lǐng)域提供了新的視角和方法。未來的研究可進(jìn)一步探討基于雙曲空間的自注意力機(jī)制，以期進(jìn)一步提升在該數(shù)據(jù)集上的表現(xiàn)。雙曲空間的自注意力機(jī)制通過計(jì)算節(jié)點(diǎn)之間的相對重要性來自適應(yīng)地捕捉節(jié)點(diǎn)之間的長程依賴關(guān)系，在視頻異常檢測中幫助模型聚焦于異常關(guān)鍵特征，提高模型對復(fù)雜動態(tài)變化的敏感度，從而提升檢測的精度與效率。

表1在ShanghaiTech數(shù)據(jù)集上與現(xiàn)有方法對比Tab.1Comparison with existing methods on Shanghai Tech datasel

表2在UCF-Crime數(shù)據(jù)集上與現(xiàn)有方法對比Tab.2Comparison with existing methods on the UCF-Crime datasel

2.5消融實(shí)驗(yàn)

本節(jié)對時空特征構(gòu)建模塊中的時間相關(guān)性和特征相似性進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如表3所示。在ShanghaiTech數(shù)據(jù)集上，同時使用時間相關(guān)性和特征相似性的網(wǎng)絡(luò)比未使用這兩個特性的網(wǎng)絡(luò)分別提高了 12.84% 和 0.44% 。在UCF-Crime數(shù)據(jù)集中，網(wǎng)絡(luò)性能也相應(yīng)地提升了 12.33% 和 6.38% 。時間相關(guān)性側(cè)重于異常事件的時間關(guān)系，考慮事件發(fā)生的連續(xù)性，而特征相似性則關(guān)注全局片段之間的相似關(guān)系。視頻本質(zhì)上是一種時間序列數(shù)據(jù)，時間關(guān)系在視頻數(shù)據(jù)中起著重要作用，STFC模塊有效捕獲了視頻片段之間的時間相關(guān)性和特征相似性，有助于更精確地區(qū)分和識別異常事件。

為了進(jìn)一步驗(yàn)證雙曲空間在異常檢測中的有效性，本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別使用歐氏空間、龐加萊球雙曲空間、洛倫茲雙曲空間及兩者組合訓(xùn)練網(wǎng)絡(luò)模型。結(jié)果如表4所示，采用雙曲空間組合的模型在ShanghaiTech數(shù)據(jù)集上的性能提升了 10.79% ，在UCF-Crime數(shù)據(jù)集上的性能提升了 16.57% 。此外，圖4展示了在UCF-Crime數(shù)據(jù)集上這四種組合方式的ROC曲線對比。從圖中可以明顯看出，采用雙曲空間組合模型的ROC曲線幾乎完全覆蓋了使用歐氏空間模型的曲線，這進(jìn)一步證實(shí)了雙曲空間在視頻表示學(xué)習(xí)中的優(yōu)勢。將視頻特征嵌人到龐加萊球雙曲空間和洛倫茲雙曲空間中，能夠利用這兩種空間的幾何差異，類似于從不同的視角分析異常事件。龐加萊球和洛倫茲雙曲空間的組合方式，相當(dāng)于從更多角度全面分析正常與異常特征，因此有效減少了異常檢測中的盲區(qū)，顯著提高了對異常行為的識別效果。

表4兩種雙曲空間的影響Tab.4Impact of two hyperbolic spaces

偽標(biāo)簽的生成與均值和方差的閾值密切相關(guān)。為了研究閾值組合對模型性能的影響，實(shí)驗(yàn)針對生成器和鑒別器設(shè)置了不同的閾值組合，并將結(jié)果匯總于表5中，其中縱軸為生成器的閾值 β 設(shè)定，橫軸為鑒別器的閾值 α 設(shè)定。從表5可以看出，鑒別器的閾值 α 對模型性能的影響相對較小，而生成器的閾值 β 對性能有較大影響。具體來說，在ShanghaiTech數(shù)據(jù)集上，隨著 β 從0.1逐步增加至2.0，AUC值實(shí)現(xiàn)了顯著的15. 77% 增長；在UCF-Crime數(shù)據(jù)集上，AUC值也提升了19. 43% 。然而，當(dāng) β 進(jìn)一步增大時，兩個數(shù)據(jù)集的AUC值均開始下降。因此，本文將鑒別器的閾值 β 設(shè)為2.0，鑒別器的閾值 α 設(shè)置為1.5。

圖4在UCF-Crime數(shù)據(jù)集上的ROC曲線對比Fig.4Comparison of ROC curves on theUCF-Crime dataset表5不同閾值對網(wǎng)絡(luò)的影響

圖5展示了在不同閾值下，生成器和鑒別器的可視化結(jié)果（見電子版）。其中，真實(shí)異常區(qū)域以粉紅色標(biāo)示，藍(lán)色曲線表示生成器生成的偽標(biāo)簽：偽標(biāo)簽值為1時，該片段被判定為異常；值為0時，該片段被視為正常。隨著閾值 β 的增大，生成的異常標(biāo)簽數(shù)量逐漸減少，并且準(zhǔn)確性有所提升。適當(dāng)增加閾值β 有助于模型更準(zhǔn)確地識別異常區(qū)域，并減少假陽性（即將正常區(qū)域誤判為異常）。然而，當(dāng)閾值設(shè)置過高時（圖5（f）），雖然能夠減少異常誤判區(qū)域，但也會導(dǎo)致部分真實(shí)的異常區(qū)域未被標(biāo)記為異常，造成異常標(biāo)簽的數(shù)量不足。但是，在異常標(biāo)簽不足的情況下，鑒別器依然能夠保持較好的性能穩(wěn)定性，準(zhǔn)確識別出大致的異常區(qū)域，表明鑒別器具有良好的魯棒性和穩(wěn)定性。

2.6 可視化分析

為了更全面地評估Hyper-UVAD模型的性能，圖6展示了在ShanghaiTech和UCF-Crime兩個數(shù)據(jù)集上的可視化檢測結(jié)果。粉色區(qū)域標(biāo)記了視頻中的真實(shí)異常事件，而藍(lán)色曲線則表示模型對測試視頻每一幀的異常分?jǐn)?shù)預(yù)測（見電子版）。為了更直觀地對比異常與正常行為，分別使用紅色和綠色矩形框標(biāo)注了視頻中的異常幀和正常幀。圖6中的（a）（b）子圖源自ShanghaiTech數(shù)據(jù)集，而（c）＼～（f）則取自UCF-Crime數(shù)據(jù)集。在圖6（a）中，異常事件為行人在馬路上打鬧，視頻中共包含三段異常情況；圖6（b）展示的是騎自行車者穿過人行道的異常現(xiàn)象；圖6（c）（d）分別是盜竊和破壞兩個異常行為。從可視化結(jié)果來看，模型的預(yù)測分?jǐn)?shù)與實(shí)際標(biāo)簽高度吻合：模型對異常片段預(yù)測了較高的異常分?jǐn)?shù)，而對正常片段預(yù)測了較低的分?jǐn)?shù)。

圖6ShanghaiTech與UCF-Crime的異常分?jǐn)?shù)曲線Fig.6Anomaly score curve on Shanghai Tech and UCF-Crime此外，圖6（e）（f是本文模型檢測失敗的兩個場景，分別對應(yīng)的是入室盜竊和爆炸事件。在圖6（e）中，由于嫌疑人在

進(jìn)入和離開房間時的動作十分相似，模型將嫌疑人離開房間也誤判為異常。在圖6（f）中，雖然模型成功檢測到了爆炸，但未能將爆炸前的煙霧識別為異常，這可能是由于訓(xùn)練集中缺乏煙霧場景，導(dǎo)致網(wǎng)絡(luò)的泛化能力受限。盡管在某些特定場景下，模型的檢測性能仍有提升空間，但總體而言，本文方法在異常檢測方面展現(xiàn)出了良好的性能，能準(zhǔn)確識別出視頻中的異常區(qū)域，為無監(jiān)督視頻異常檢測提供了一種新的解決方案。

3結(jié)束語

本文提出了一種基于雙曲空間的無監(jiān)督異常檢測方法，在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別取得了 93.26% 、77.55% 的AUC值，取得了現(xiàn)有無監(jiān)督方法的最佳結(jié)果，證明了在雙曲空間中學(xué)習(xí)視頻表示相較于歐氏空間更具有優(yōu)勢，這是首次使用雙曲空間在無監(jiān)督視頻異常檢測領(lǐng)域的探索。本文方法通過固定閾值來生成偽標(biāo)簽，但這種方法不可避免地在訓(xùn)練過程中引入了一定誤差。未來的研究將聚焦于自適應(yīng)閾值的設(shè)計(jì)和基于雙曲空間的自注意力機(jī)制，進(jìn)一步探索雙曲空間在異常檢測領(lǐng)域的應(yīng)用，以期提高無監(jiān)督模型的泛化能力與整體性能，這將有助于在更多實(shí)際場景中實(shí)現(xiàn)更加準(zhǔn)確和穩(wěn)定的異常檢測。

參考文獻(xiàn)：

[1]Liu Wen，Luo Weixin，Lian Dongze，et al.Future frame prediction for anomalydetection—anewbaseline[C]//Procof IEEE/CVFConferenceon ComputerVision and Pattern Recognition.Piscataway，NJ： IEEEPress，2018：6536-6545.

[2]Gong Dong，Liu Lingqiao，LeV，et al.Memorizing normality to detect anomaly：memory-augmenteddeepautoencoderforunsupervisedanomalydetection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：1705-1714.

[3]陳澄，胡燕.融合記憶增強(qiáng)的視頻異常檢測[J].計(jì)算機(jī)工程與應(yīng) 用，2022，58（15）：253-259.（Chen Cheng，Hu Yan.Video anomaly detection combining memory-augmented[J].Computer Engineering and Applications，2022，58（15）：253-259.）

[4]Hirschorn O，Avidan S.Normalizing flows for human pose anomaly detection[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway，NJ：IEEE Press，2023：13499-13508.

[5]Zaheer M Z，Mahmood A，Khan MH，etal.Generative cooperative learning forunsupervised video anomaly detection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press，2022：14724-14734.

[6]TurA O，Dal'Asen N，Beyan C，et al.Exploring diffusion models for unsupervised video anomaly detection[C]//Proc of IEEE International Conference on Image Processing.Piscataway，NJ： IEEE Press， 2023：2540-2544.

[7]潘振鵬，李志軍，薛超然，等.一種時間-外觀能量擴(kuò)散Transformer 的無監(jiān)督視頻異常檢測[J].微電子學(xué)與計(jì)算機(jī)，2025，42（2）：68- 76.（Pan Zhenpeng，Li Zhijun，Xue Chaoran，et al.A time-appearance diffusion Transformer for unsupervised video anomaly detection[J]. Microelectronicsamp;Computer，2025，42（2）：68-76.）

[8]Al-Lahham A，Tastan N，Zaheer M Z，et al. A coarse-to-fine pseudolabeling（C2FPL） framework for unsupervisedvideo anomalydetection [C]//Proc of IEEE/CVF Winter Conference on Applications of ComputerVision.Piscataway，NJ：IEEEPress，2024：6779-6788.

[9]Tifrea A，Becigneul G，Ganea O E. Poincare glove：hyperbolic word embeddings[C]//Proc of International Conference on Learning Representations.2018.

[10]CorsoG，YingZhitao，PandyM，etal.Neural distanceembeddingsfor biological sequences[C]//Advances in Neural Information Processing Systems.2021：18539-18551.

[11]Gerald T，Zatiti H，Hajri H，et al.A hyperbolic approach for learning communities on graphs[J]. Data Mining and Knowledge Discovery，2023，37（3）：1090-1124.

[12]Wang Liping，Hu Fenyu，Wu Shu，et al.Fully hyperbolic graph convolution network for recommendation[C]//Proc of the 30th ACM International Conference on Information amp; Knowledge Management. New York ： ACM Press，2021 ：3483-3487.

[13]Sultani W，Chen Chen，Shah M. Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ： IEEE Press，2018 ： 6479-6488.

[14]Wan Boyang，F(xiàn)ang Yuming，Xia Xue，et al. Weakly supervised video anomaly detection via center-guided discriminative learning[C]// Proc of IEEE International Conference on Multimediaand Expo.Piscataway，NJ：IEEE Press，2020：1-6.

[15]Tian Yu，Pang Guansong，Chen Yuanhong，et al.Weakly-supervised video anomaly detection with robust temporal feature magnitude learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，N：IEEPress，21：4954966

[16]Zhou Hang，Yu Junqing，Yang Wei.Dual memory units with uncertainty regulation for weakly supervised video anomaly detection[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA： AAAI Press，2023：3769-3777.

[17]Chen Yingxian，Liu Zhengzhe，Zhang Baoheng，etal. MGFN： magnitude-contrastive glance-and-focus network for weakly-supervised video anomaly detection[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2023：387-395.

[18]Li Nannan，Zhong Jiaxing，Shu Xiujun，et al. Weakly-supervised anomaly detection in video surveillance via graph convolutional label noisecleaning[J].Neurocomputing，2022，481：154-167.

[19]李文中，吳克偉，孫永宣，等.基于對比記憶網(wǎng)絡(luò)的弱監(jiān)督視頻異常檢測[J].計(jì)算機(jī)應(yīng)用研究，2023，40（10）：3162-3167，3172.（Li Wenzhong，Wu Kewei，Sun Yongxuan，et al. Video anomaly detection combining with contrastive memory network[J].Application Research of Computers，2023，40（10）：3162-3167，3172.）

[20] Carreira J，Zisserman A. Quo vadis，action recognition？ A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Visionand Pattern Recognition.Piscataway，NJ： IEEE Press，2017： 4724-4733.

[21]Chami I， Ying R，Ré C，et al. Hyperbolic graph convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2019：4869-4880.

[22]Chen Weize，Han Xu，Lin Yankai，et al.Fully hyperbolic neural networks[C]//Proc of the 6Oth Annual Meeting of the Association for Computational Linguistics.2022;5672-5686.

[23]Liu Zhian，Nie Yongwei，Long Chengjiang，et al.A hybrid video anomalydetection framework via memory-augmented flow reconstruction and flow-guided frame prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway，NJ： IEEE Press， 2021：13568-13577.

[24] Georgescu MI，Ionescu R T，Khan F S，et al. A background-agnostic framework withadversarial training for abnormal event detection in video[J]. IEEE Trans on Pattern Analysisand Machine Intelligence，2022，44（9）：4505-4523.

[25]Nie Yongwei，Huang Hao，Long Chengjiang，et al.Interleaving oneclassand weakly-supervised models with adaptive thresholding for unsupervised video anomaly detection[EB/OL].（2024-01-24）[2024- 08-26]. https：//arxiv.org/abs/2401.13551.

[26]Wang Jue， Cherian A.GODS：generalized one-class discriminative subspaces for anomaly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ： IEEEPress， 2019;8200-8210.

[27] Sun Che，Jia Yunde，Hu Yao，et al.Scene-aware context reasoning for unsupervised abnormal event detection invideos[C]//Proc of the 28th ACM International Conference on Multimedia.New York： ACM Press，2020：184-192.

[28]Al-lahham A，Zaheer M Z，Tastan N，et al. Collaborative learning of anomalies with privacy（CLAP） for unsupervised video anomaly detection：a new baseline[C]//Proc of IEEE/CVF Conference on Computer Vision andPattem Recognition.Piscataway，NJ：IEEE Press，2024： 12416-12425.