摘要:隨著社會安全需求的提升及人工智能技術的發展,智能視頻監控系統成為保障公共安全的重要手段。設計了一個基于深度學習的智能視頻監控系統,其功能模塊設計包括目標檢測功能、行為分析功能和異常預警功能;硬件模塊設計包括圖像采集設備、數據處理單元和存儲與傳輸模塊。經過系統測試,該系統能夠有效地進行目標檢測、行為分析和異常預警,提高了監控系統的性能。
關鍵詞:深度學習;智能視頻監控;目標檢測;行為分析;異常預警
中圖分類號:TP391.4;TP18;TN948.6 文獻標識碼:A
0 引言
隨著公共安全需求的不斷提升以及視頻監控技術的迅速發展,傳統監控方式的局限性日益凸顯。然而,當前系統在目標檢測、行為分析、異常預警等方面仍存在一定局限性,如檢測準確率不高、實時性不足、報警響應不及時等。因此,設計一個功能全面、性能優異的智能視頻監控系統具有重要的意義。
1 基于深度學習的智能視頻監控系統需求分析
1.1 功能需求
基于深度學習的智能視頻監控系統應具備高精度的目標檢測功能,能準確識別多類目標。系統需要實現對復雜行為的有效分析,包括動作識別和意圖判斷,具備異常事件及時預警能力,能夠支持多場景應用,如商場、街道等。此外,系統還應具備遠程監控與管理功能。
1.2 性能需求
系統應具備低延遲的特性,處理視頻流的延遲時間需控制在毫秒級;需要具有高準確率,目標檢測和行為分析的準確率應在95%以上;能支持大規模數據處理,每秒處理幀數達50幀以上;具備良好的穩定性,可長時間持續運行,適應復雜環境和高并發訪問。
2 基于深度學習的智能視頻監控系統方案設計
2.1 整體架構設計
基于深度學習的智能視頻監控系統架構設計遵循模塊化原則,分為功能模塊設計和硬件模塊設計兩個部分(圖1)。功能模塊設計包括目標檢測功能、行為分析功能和異常預警功能3個子模塊,分別負責識別物體、解析行為和發現異常事件。硬件模塊設計則由圖像采集設備、數據處理單元和存儲與傳輸模塊構成,它們共同構成了系統的物理基礎設施,為功能模塊提供必要的數據輸入和計算資源。分層結構有利于系統維護和擴展,確保了系統的靈活性和可定制性。
2.2 功能模塊設計
2.2.1 目標檢測功能
目標檢測功能模塊作為基于深度學習的智能視頻監控系統的核心組件,主要負責實時識別視頻流中的特定對象。該模塊包括前處理模塊、特征提取模塊、區域提議模塊、目標分類與邊界框回歸模塊、非極大值抑制模塊與后處理模塊等。
(1)前處理模塊。該模塊負責完成視頻流的預處理工作,包括幀率調整、圖像縮放和去噪處理,確保系統能夠處理高分辨率視頻而不影響其實時性,圖像縮放是將輸入的不同尺寸的圖像調整為標準尺寸,便于后續算法對圖像進行統一處理,去噪提高了圖像質量,減少了噪聲對目標檢測的干擾[1]。
(2)特征提取模塊。該模塊采用卷積神經網絡(convolutional neural network,CNN),具體使用ResNet-50作為基礎網絡結構,進行多層卷積與池化操作提取圖像中的多層次特征。ResNet-50利用殘差連接解決了深度網絡中的梯度消失問題,提高了特征提取的準確性。
(3)區域提議模塊。該模塊使用基于候選區域生成算法,如區域提議網絡(region proposal network,RPN),生成候選區域為后續目標分類與邊界框回歸提供候選框,RPN采用滑動窗口方式在特征圖上生成多個錨點并在分類器中確定每個錨點是否包含目標。
(4)目標分類與邊界框回歸模塊。該模塊憑借快速區域卷積神經網絡(fast region-based convolutional network,Fast R-CNN)框架來實現,對候選區域進行感興趣區域池化(region of interest pooling,RoI Pooling),將不同大小候選區域調整為固定尺寸,在全連接層進行分類預測與邊界框坐標回歸,分類預測并輸出每個候選區域所屬類別的概率分布,邊界框回歸修正候選區域位置使其更準確地包圍目標物體。
(5)非極大值抑制模塊與后處理模塊。非極大值抑制模塊用于消除重疊邊界框,計算每個邊界框置信度得分并按得分排序,選擇得分最高的邊界框,去除與其有高度重疊的其他邊界框,以此確保針對每個目標最終僅輸出一個邊界框,進而提高檢測結果的準確性[2]。后處理模塊負責對檢測結果進行進一步處理,包括過濾低置信度檢測結果、合并相鄰邊界框等,該模塊支持將檢測結果可視化顯示在原始視頻畫面上,便于用戶直接查看檢測效果。
2.2.2 行為分析功能
行為分析功能模塊主要負責分析視頻流中檢測目標的行為模式。該模塊包括行為特征提取、行為模式識別、行為軌跡跟蹤以及行為異常檢測4個主要子功能模塊。
(1)行為特征提取模塊。該模塊采用深度學習模型,特別是長短期記憶(long short-term memory,LSTM)網絡與三維卷積神經網絡(three-dimensional convolutional neural network,3D CNN)相結合的方式,從視頻序列中提取目標的行為特征。3D CNN用于捕捉目標在時間維度上的運動特征,在連續幀之間應用卷積核,提取目標的動作特征表示。LSTM網絡則負責處理時間序列數據,捕捉目標行為的時間依賴關系,從而生成更加完整的特征向量表示,有效捕捉目標在視頻中的動態變化[3]。
(2)行為模式識別模塊。該模塊基于已提取的行為特征,使用聚類算法(如k均值聚類算法)與分類算法[如支持向量機(support vector machine,SVM)],對行為特征進行分類與識別。首先,利用k均值聚類算法將相似的行為特征歸為一類,形成行為模式庫。其次,使用SVM分類器對新的行為特征進行分類,將輸入特征映射到高維空間,并找到最優超平面進行分類決策。
(3)行為軌跡跟蹤模塊。該模塊采用卡爾曼濾波與光流算法相結合的方法,實現對目標在視頻中的連續軌跡跟蹤。卡爾曼濾波用于估計目標狀態,并預測下一時刻的位置,遞推更新狀態估計值,確保跟蹤的連續性和準確性。光流算法則用于計算相鄰幀之間目標的位移向量,分析目標在連續幀間的運動矢量,提供目標的實時位置信息。兩種方法的結合使得行為軌跡跟蹤模塊能夠穩定地跟蹤視頻中的目標,并記錄其完整的行為軌跡。
(4)行為異常檢測模塊。該模塊利用行為特征提取、行為模式識別與行為軌跡跟蹤的結果,設定行為基線和閾值,實現對異常行為的自動識別。該模塊采用自編碼器(autoencoder,AE)神經網絡進行異常檢測,AE能夠學習正常行為的低維表示,并重構誤差來判斷新觀測是否偏離正常范圍。當檢測到潛在異常時,系統會觸發進一步的驗證流程,包括重新分析行為軌跡、對比已知異常模式數據庫等。一旦確認為真實異常,系統在預定接口發送警報信號至監控中心,并記錄事件細節供后續審查。
2.2.3 異常預警功能
異常預警功能模塊作為基于深度學習的智能視頻監控系統的重要組成部分,主要負責檢測視頻流中的異常活動。該模塊主要包括行為基線構建、異常檢測、驗證流程與警報發送4個主要子功能模塊。
(1)行為基線構建模塊。該模塊基于大量的歷史視頻數據,利用AE神經網絡學習正常行為(在歷史視頻數據中頻繁出現且符合常規模式的行為)的低維表示。AE網絡包含編碼器與解碼器兩個部分,編碼器將輸入數據映射到低維特征空間,解碼器則將低維特征重構回原始數據空間[4]。最小化輸入數據與重構數據之間的重構誤差,AE能夠有效提取正常行為的關鍵特征。
(2)異常檢測模塊。該模塊利用構建的行為基線進行異常檢測。當新的視頻數據輸入時,AE同樣對其進行重構。如果重構誤差超過預先設定的閾值,則判定該數據包含異常行為。該閾值可利用交叉驗證方法確定,以平衡正常行為與異常行為之間的誤檢率與漏檢率。
(3)驗證流程模塊。該模塊在初步檢測到潛在異常后,啟動進一步的驗證機制。該模塊包括重新分析行為軌跡、對比已知異常模式數據庫等步驟。對疑似異常行為進一步分析,從而驗證流程,以減少誤報率。系統重新計算目標在視頻中的軌跡,并與已知的異常行為模式進行對比。如果匹配度高于某個預設閾值,則確認為真實異常。
(4)警報發送模塊。該模塊在確認異常后,由預定接口發送警報信號至監控中心,并記錄事件細節供后續審查。警報信號包含異常行為的具體類型、發生的時間與地點等信息。記錄的事件細節包括異常行為的視頻片段、行為軌跡圖以及異常檢測的詳細參數等,以便后續分析與審計。
2.3 硬件模塊設計
2.3.1 圖像采集設備
圖像采集設備作為智能視頻監控系統的前端感知組件,其性能直接影響后續的數據處理和分析效果。本系統選用Sony公司的IMX477RQR傳感器作為核心元件,該傳感器具備1 230萬像素,支持4K分辨率,能夠在各種光照條件下提供高質量的圖像數據。配合Ambarella 公司CV5 SoC芯片,不僅保證了圖像的清晰度和色彩還原度,還內置了CVflow?引擎,為邊緣端提供初步的人工智能(artificial intelligence,AI)處理能力。攝像頭配備f/1.4大光圈鏡頭,具有寬動態范圍(wide dynamic range,WDR)和背照式(back-side illumination,BSI)技術,有效提高了低光環境下的成像質量,并能減少高光溢出,確保在復雜光線條件下也能獲取清晰畫面。
2.3.2 數據處理單元
數據處理單元的設計旨在提供強大的計算資源,以支撐深度學習模型的高效運行。本系統選用了NVIDIA Jetson AGX Orin開發套件作為主要計算平臺,該平臺搭載了NVIDIA Ampere架構圖形處理器(graphics processing unit,GPU),具備高達275 TOPS的AI算力,能夠滿足實時視頻流的處理需求。中央處理器(central processing unit,CPU)部分采用8核ARM Cortex-A78AE,輔以32 GB 低功耗雙倍數據速率第五代(low power double data rate 5,LPDDR5)內存,確保了多任務處理能力和數據吞吐量。系統還配置了高速固態硬盤(solid state disk,SSD),用于存儲中間數據和模型權重,集成Wi-Fi 6E和藍牙5.2模塊,系統確保了數據處理單元與云端及其他設備間的高速數據交換[5]。
2.3.3 存儲與傳輸模塊
存儲與傳輸模塊對于保證數據的安全性和完整性至關重要。本系統采用了RAID 5陣列的配置方案,使用多塊Western Digital公司WD Purple NV系列16 TB硬盤組成冗余陣列,既提高了存儲容量,又增強了數據保護能力。每個存儲節點都配備了雙10GBase-T以太網接口,支持基于銅質電纜的
10 Gb以太網,提供了高帶寬和低延遲的數據傳輸能力。10GBASE-T技術能夠在保持即插即用的同時,提供高性能的網絡連接,適合數據中心和企業級網絡環境。
3 基于深度學習的智能視頻監控系統運行測試
3.1 搭建測試環境
測試環境在標準實驗室條件下搭建,采用NVIDIA Jetson AGX Orin作為計算平臺,配備
16 GB LPDDR5內存,以及Western Digital WD Purple NV系列16 TB硬盤組成的RAID 5陣列。測試數據集來源于公開的MS COCO 2017和UCF-101行為分析數據集,包含118 287張圖像和13 320個視頻片段。系統運行在Ubuntu 20.04 LTS操作系統上,并且使用Python 3.8編程語言和PyTorch 1.7框架。測試過程中,模擬了商場、街道和辦公區域等多個實際監控場景,以評估系統的準確性、響應時間和魯棒性。
3.2 測試結果分析
功能測試結果如表1所示。功能測試涵蓋了系統的主要模塊,其中目標檢測模塊在COCO數據集上的平均目標檢測精度達到了98.7%,表明系統能夠有效識別和定位圖像中的多個目標;行為分析模塊在UCF-101數據集上的行為分析準確率為95.4%,展示了系統對動態行為的良好理解;異常預警模塊在綜合測試中表現出色,異常預警準確率達到96.2%。綜上,系統各功能模塊均達到了預期性能。
4 結語
綜上,本文設計的基于深度學習的智能視頻監控系統在功能和性能方面均達到了預期目標,有效提升了視頻監控的智能化水平。面對日益復雜的監控需求,系統展現出良好的適應性和準確性。未來,需持續優化算法,提升系統穩定性和擴展性,以適應更加多樣化的應用場景。
參考文獻
[1] 聶志勇,孫占冬.基于深度學習的智能視頻監控系統應用研究[J].能源科技,2023,21(1):9-13.
[2] 趙方,潘志剛,衛晨.基于深度學習的視頻安全監控系統應用研究[J].電子技術與軟件工程,2021(21):135-138.
[3] 劉安倉,黃和龍,謝穎紈,等.一種輸煤智能視頻識別安全監控管理系統研發和應用[J].潔凈煤技術,2021,27(增刊2):56-60.
[4] 李良熹,榮進國.基于目標識別的智能視頻監控系統研究[J].電腦知識與技術,2021,17(28):1-3,7.
[5] 孫留存,蘇衛江,庫斯達,等.基于嵌入式的智能遠程視頻監控系統設計[J].自動化與儀器儀表,2024(8):163-167.