崔斌(浙江經濟職業技術學院)
視覺采集系統已經在各類經濟場景中逐步普及。歸納起來主要有三類應用,首先是各類展館、會議中心,其中各類論壇、講座頻繁舉行。第二是各類市場經營場所,交易人群眾多,人流量大。第三是伴隨著智能家居、智能辦公的推進,各類視頻采集設備進入千家萬戶和辦公場所。當前大部分場景下,還是停留在視覺信息采集和存儲上,很難實現實時監控異常行為并進行處置。伴隨著CNN(卷積神經網絡)、LSTM(長短期記憶網絡)及深度學習建模等技術的發展,目前已經具備了對異常行為提取、識別、學習及利用的條件,可以對視頻監控畫面中出現的異常行為,如非安全時段進入、進入限制區域、人員跌倒、人員高速移動等行為進行檢測,進而對危險行為進行預警,同時便于進行事后的回溯。
(一)深度學習技術
隨著近年來計算能力和計算資源的飛速發展,計算及數據存儲的成本大大降低,網絡基礎設施的不斷改善,也為萬物互聯及高速數據傳輸提供了必要的條件。通過對問題特診的抽象總結,建立深度學習模型,進而提出問題解決方案方興未艾,尤其是在圖像識別,智能家居、自動駕駛等領域,已經進行了較多的有益嘗試。深度學習使用神經網絡模型,將原始信息進行抽象及逐層分解,進而表示為分類及回歸,以及其他更高層的特征描述。
在視覺識別領域,對捕捉到的視頻行為進行比較及分類一直以來都比較困難。最初采用的是單標簽分類法,即某一段視頻只會標注一個標簽,如攀爬、跳躍、行走等。隨著技術的發展,目前較多的采用多標簽的技術,同時可以添加時序、場景等維度,從而將視頻進行多維度,細化的分類。同時由于一些異常事件的相關的樣本較少,即小概率事件樣本的采集及數據積累比較困難,需要逐步建立起異常行為數據樣本庫。
(二)CNN(卷積神經網絡)
1998 年,LeCun 等人[1]提出了名為 LeNet-5 的首個卷積神經網絡(Convoluted Neural Network,CNN)模型,這個模型涵蓋了全連接層、池化層和卷積層,該模型主要應用于從原始數據中進行提取事務特征的場景。隨著深度學習應用領域的不斷拓展,CNN 成為了該領域使用范圍最廣、相關支持廠家較多的一種研究模型。Two-Stream CNN 方法[2]最早是 VGG 團隊在 NIPS 上提出來的,現在已經成為了動作識別方面研究的一個主流方向。Two-Stream CNN方法如其名字一樣由兩部分組成,第一部分用于圖像處理,第二部分負責處理光流信息,最后將兩個部分進行整合、分類并存儲。
在雙流CNN 基礎上,后期又提出了TSN(Temporal Segments Networks),此方法是雙流CNN 的改進。TSN 的策略是將視頻信息分成 K 個分段,然后對這K 個分段的每個分段都隨機的選出一個更短的片段,對這些更短的片段,采用雙流CNN 的策略進行特征提取,最后再對這些片段上采集的信息進行進一步的融合,進而提高視頻識別的準確性。
(三)LSTM(長短期記憶網絡)
隨著技術的發展,Hochreiter[3]等人提出了長短期記憶網絡(Long-Short Term Memory,LSTM)技術。LSTM 是一種特殊的 RNNs,相對于 RNNs 不會有梯度消失的問題,它能夠學習長期依賴。經過相關研究者的不斷努力,該技術變得越來越成熟。通過特殊的循環神經網絡模型,解決對時間序列的依賴問題。長短時記憶網絡由遺忘門、傳入門、輸出門組成,可以擬合序列數據,通過遺忘門和輸出門忘記部分信息來解決梯度消失的問題[4]。
LSTM 非常適合處理與時間序列高度相關的問題,它可以方便的對視頻中的短時間和長時間信息進行模擬,但是也存在缺點,即對未來信息未能處理,只能從單一方向學習。雙向長短時記憶網絡(Bi-LSTM)對傳統的LSTM 進行了改進,捕獲了相關信息的發生時間,從時間點前后進行了信息的捕獲,模擬相反方向的信息,具有更強的針對時序信息的處理能力。
(四)三維卷積及行為預測
三維卷積在CNN 的基礎上,進一步采集更多的時間及空間信息。3D 卷積將輸入的多個連續幀堆疊成立方體,然后使用 3D卷積在堆疊立方體中執行卷積操作。[5]這種結構,可以進行提取特征的累加,捕獲各類運動信息,并對具有近似特種的多個連續圖像進行連接,比對,過濾相同特征信息。三維卷積中單次卷積操作則可同時對指定時間長度視頻幀的同一個二維局部區域進行卷積,再對提取到的特征進行疊加,針對連續3 張輸入圖片使用兩種卷積核進行三維卷積后可以得到2 張特征圖[6]。通過視頻檢測中捕捉到的信息,需要對后續的行為進行預測,在此方面相關學者也進行了較多的嘗試。行為的預測主要分類兩個大類,第一類是研究人和空間的關系,并預測在特定空間下,人的后續行為。另一類是研究人與人之間的關系,這類研究難度極大,即判斷特定人之間,某個或某類人群的后續行為。由于人員特征識別及分類的困難性,以及特定群體人群定義的復雜性,人類行為中的偶然性,情緒左右的突發性等問題,從而帶來預測結果的不確定性和多樣性。在異常行為檢測方面提出了生成對抗網絡(Generative Adversarial Networks,GAN)理論,該理論提出生成器和判別器的概念,通過生成器和判別器的對抗性學習訓練。
本次研究主要針對人群異常行為的檢測,在正常視頻監控及畫面錄制的基礎上,系統對視頻畫面進行的異常行為進行定位,當人群中出現異常行為時,系統需要能夠對異常行為進行詳細記錄,必要時對異常行為進行報警。對異常行為或異常行為人進行重點的視頻畫面捕捉,為事后的回溯追蹤做準備。該系統原型主要由五部分組成視頻信息采集、異常數據資源庫、數據處理模塊、數據訓練模塊、異常行為捕獲及展示,各模塊具體實現細節如下:
(一)視頻信息采集
該模塊主要完成正常的視頻數據信息采集,包括視頻錄制、分頻道存儲,云臺自動控制、夜視補光、數據網絡存儲等。目前大部分的人員密集場所室已經具備視頻監控條件,但是對部分老舊的設備,如模擬攝像機、非聯網攝像機、標清攝像機等設備,還需進行更換,否則無法實現異常行為的檢測。同時對于重點區域、重點設備存放處要加大攝像機的布置數量,確保監控無死角,同時對走廊,出入口等位置要配備清晰度高廣角攝像機,以便對人群實現高覆蓋的監控。
(二)異常數據資源庫
對于深度學習來說,其中一個關鍵點就是如何建立足夠豐富的學習資源庫,在這里需要引進異常行為數據資源,如各種跳躍、聚集、快速跑動、物品傾覆、火光等,這些數據資源分類存儲以后,相關異常事件發生時,可以針對捕捉到的異常行為,在資源庫中進行比對,從而快速確定異常事件,并進行必要的操作或預警。
(三)數據處理模塊
首先,將視頻幀使用雙線性差值縮放成圖片,將圖片處理按照標準化進行。將連續的視頻幀作為一個單元,在單元基礎上進行疊加,從而使其成為一條訓練樣本。從而形成一個描述為寬、深、高、頻道四個維度的矩陣,各個維度以數字化形式描述特征,如彩色圖像描述為1,黑白圖像描述為0。
(五)異常行為捕獲及展示模塊
異常行為捕獲及展示模塊,主要是在視頻監控過程中,對檢測畫面分幀進行識別及比對,結合預測信息和重構的誤差計算出檢測行為與深度學習資料庫信息中的異常行為相似度得分。進一步生成異常區域視圖,異常人群高清晰度面部捕捉、異常行為告警、全局畫面人數統計、人群擁堵報警、貴重設備移動警告、紅線區域闖入告警燈信息,并可以通過各類終端進行展示。