程銘瑾
(福建開放大學職業學院 福建 福州 350001)
在當今社會,隨著城市化的不斷推進和科技的飛速發展,視頻監控系統已經成為維護個人和社會安全的重要工具之一[1]。然而,傳統的視頻監控系統往往僅僅能夠提供對靜態場景的觀測,對于動態場景下的異常行為檢測卻面臨著巨大的挑戰。因此,為了更加高效地應對復雜多變的安全威脅,本研究提出了一種基于深度學習的視頻監控異常行為檢測方法。
本研究通過構建一個完整的視頻智能監控系統總體框架,致力于實現對多樣化場景的全面監測。該框架以實時性和準確性為核心目標,通過整合先進的技術,為后續的異常行為檢測奠定了堅實的基礎。為了更加精準地捕捉監控畫面中的關鍵信息,本研究在目標檢測與跟蹤階段采用了深度學習的YOLO(you only look once)[2]目標檢測算法。該算法以其高效的實時性和精確的目標定位為視頻監控系統提供了可靠的目標識別能力,從而為后續的異常行為分析提供了有力的支持。本研究的關鍵創新點在于,在動作識別階段采用了三維卷積神經網絡(3-dimensional convolutional neural network, 3D-CNN)[3],以更加全面地捕捉目標在時空上的演變規律。通過對視頻序列進行立體感知,該方法能夠更準確地捕捉人體動作的細微變化,為異常行為的早期識別提供了可靠的數據支撐。最后,為了驗證所提出方法的有效性,本研究進行了一系列實驗,并對實驗結果進行了分析。實驗結果充分證明了本方法在異常行為檢測方面的卓越性能,為未來智能視頻監控系統的發展提供了有益的借鑒。
本研究所提出的視頻監控異常行為檢測方法的總體框架如圖1 所示,包括了視頻采集、目標檢測跟蹤、動作識別以及異常行為判斷等,以實現對監測場景的全面而高效的分析。

圖1 視頻智能監控的總體框架
首先,系統通過視頻采集模塊實時獲取監測區域的畫面信息。其次,系統采用YOLO 算法對監測畫面中的目標進行迅速而準確的識別與定位,該模塊不僅能夠有效檢測場景中的多個目標,而且能夠跟蹤它們在畫面中的運動軌跡,為后續的動作識別提供了可靠的基礎。最后,在目標檢測跟蹤的基礎上采用3D-CNN 實現動作識別,該模塊以視頻序列為輸入通過對時空信息的深度學習分析,能夠捕捉到目標在不同時間段內的動作演變規律,實現對人體行為的高度敏感識別。在動作識別的基礎上,系統進一步判斷是否為特定的異常動作。若檢測到特定異常動作,則系統會立即產生預警信號;反之,如果未檢測到異常動作,則系統將繼續進行視頻采集,保持對監測區域的全面監視。
定義監測區域為R,視頻幀序列為{It},其中t表示時間。在YOLO 模型中,目標檢測和跟蹤是分開進行的。
YOLO 使用一個單一的神經網絡,將目標檢測問題轉化為回歸問題。設D表示每個目標的邊界框坐標,C表示目標的類別,那么對于一個目標i, 其在圖像中的得分Pi可以表示為:
式(1)中,Pr(Ci) 是目標屬于某一類別的概率,IoU(Di,) 是目標框Di與真實框的交并比。模型的最終輸出是所有目標的得分矩陣P:
式(2)中,N是目標的數量。
在目標檢測的基礎上,本研究使用卡爾曼濾波器[4]實現目標跟蹤。設目標在時間t的狀態為St=[xt,yt,wt,ht],其中(xt,yt) 是目標中心的坐標,wt和ht分別是目標的寬和高,則卡爾曼濾波器的預測方法為:
式(3)、式(4)中,A是狀態轉移矩陣,Pt-1是時間t -1 時刻的狀態協方差矩陣,Q是過程噪聲的協方差矩陣。接著,可以通過觀測得到的目標位置更新狀態:
式(5)~式(7)中,H是觀測矩陣,R是觀測噪聲的協方差矩陣,O是在時間t時刻通過目標檢測得到的位置。
通過以上方法,YOLO 模型能夠在視頻監控中實現對目標的準確檢測和魯棒跟蹤,為后續的行為分析提供了可靠的基礎。
3D-CNN 是一種在時空域對數據進行卷積操作的深度學習模型,其結構如圖2 所示。該結構輸入層接收來自視頻的三維數據,卷積層使用卷積運算來提取特征,池化層用于減少輸出特征圖的大小同時保留重要的特征,全連接層將輸出特征圖轉換為一個標量值。

圖2 3D-CNN 的模型結構
假設有一個視頻序列V, 其中每一幀圖片為Ft, 表示為:
式(8)中,T是視頻的幀數。為了進行動作識別引入了3D 卷積操作來考慮時序上鄰近幀之間的關系。設3D卷積核的大小為C×H×W,其中C為通道數,H和W分別為高度和寬度。在時序上,卷積核將沿時間軸滑動,從而捕捉到視頻中目標的時序特征。
動作識別的過程可以表示為在每個時間步t上,使用3D 卷積核對當前幀Ft及其相鄰的若干幀進行卷積操作。假設輸出的特征圖為Mt,則該操作可以表達為:
式(9)中,?表示3D 卷積操作,σ是激活函數,W和b分別是卷積核的權重和偏置,Tk是卷積核的時間跨度,決定了網絡在時序上捕捉的信息量。通過3D 卷積的逐幀滑動,可以得到一系列時序上的特征圖{M1,M2,…,MT},這些特征圖已經融合了視頻序列中目標的時空信息。接下來,為了全局理解目標動作,可以使用全局平均池化(global average pooling,GAP)[5]對時序維度進行池化操作,得到整體的時序特征表示:
式(10)中,GAP 表示全局平均池化操作。通過這一過程,得到了對整個視頻序列進行時空建模的時序特征表示Mglobal,最后,將該時序特征表示輸入到全連接層進行分類,得到視頻中目標的動作類別預測P:
式(11)中,Softmax 是用于產生概率分布的激活函數,Wfc和bfc分別是全連接層的權重和偏置。通過上述過程,3D-CNN 能夠從時空維度上學習到視頻中目標的動作信息,實現了對目標在視頻序列中的動作識別。
本研究采用A2D 數據集對所提方法進行測試,該數據集A2D 是用于視頻中的目標識別跟蹤與行為檢測的一個大型數據集,包含多種類型的動作、場景和運動模式,并且數據集的標注質量較高,標注準確、完整。本研究采用的硬件和軟件配置如表1 所示。

表1 實驗配置
本實驗的實驗方案為:
(1)數據準備:下載A2D 數據集,并將數據集劃分為70%訓練集和30%測試集。
(2)搭建深度學習環境,安裝Python、TensorFlow、Keras 等深度學習框架。
(3)目標檢測與跟蹤:使用YOLO 模型對訓練集進行目標檢測與跟蹤,調整參數以適應特定數據集。
(4)動作識別模型建立:設計并搭建3D-CNN 模型,用于視頻中目標的動作識別。
(5)使用訓練集對3D-CNN 模型進行訓練,調整參數以提高模型性能。
(6)模型融合與預測:將訓練好的YOLO 模型與3DCNN 模型進行融合,形成完整的異常行為檢測系統。
(7)使用測試集進行綜合測試。
本實驗的部分檢測結果如圖3 所示,圖3(a)是室內場景中,一個寶寶正在奔跑,目標檢測結果準確并正確識別出其動作為“running”。圖3(b)和圖3(c)的目標檢測和動作識別也基本正確。圖3(d)是一個寶寶跌倒,目標檢測結果準確并正確識別出其動作為“rolling”。從上述實驗結果可以看出,該方法在正常情況下的目標檢測和動作識別方面表現良好,能夠準確檢測出目標和動作。在危險動作情況下,該方法也能夠正確識別出動作,即“寶寶摔倒了”。總體而言,該方法在目標檢測和動作識別方面取得了良好的效果,具有一定的應用價值。

圖3 實驗結果
本研究旨在解決視頻監控系統中異常行為檢測的挑戰,通過融合YOLO 目標檢測與跟蹤以及3D-CNN 的方法,實現了對監控場景中目標行為的全面感知。在實驗中,充分考慮了目標位置變化和動作時序的時空信息,構建了一套完整的異常行為檢測系統。通過詳細的實驗設計與分析,驗證了所提方法的有效性和性能優越性,為視頻監控系統的智能化提供了有益的參考。未來的研究方向可包括引入更復雜的模型結構、多模態信息的融合,以進一步提升系統性能。