基于卷積神經網絡嵌套模型的人群異常行為檢測

2019-04-01 09:10:08孫月馳

計算機應用與軟件 2019年3期

孫月馳李冠

(山東科技大學計算機科學與工程學院山東省智慧礦山信息技術重點實驗室山東青島 266590)

0 引言

基于機器視覺的智能視頻監控系統能夠實時檢測公共區域中行人、車輛等目標的狀態變化，自動檢測運動目標的異常行為[1]。本文主要研究的人群異常行為分為人群異常行為(聚集、混亂、擁擠等)、非人體進入(車輛駛入、騎車駛入等)等[2]。智能視頻監控系統從視頻序列中提取大量運動目標的特征信息，進行異常行為的檢測，已成為預防公共突發事件的有效工具[3]。異常事件檢測[4]旨在自動識別監控視頻中的異常事件，檢測方法主要根據提取運動目標的各種特征信息，將特征信息進行聚類、分類等處理，進而判斷運動目標的運動狀態是否異常。隨著計算機視覺技術的發展，針對視頻序列中異常事件檢測算法得到廣泛的應用，根據提取運動目標特征信息的方式，可以將人群中異常檢測方法歸納成四類：

第一類為基于行為關系的分析。該類方法運用統計分析關系事件或行為，其中概率模型應用于描述不同行為之間的關系。例如，H?m?l?inen等[5]搭建統計顯著關聯規則模型(SARM)搜索統計顯著的行為關聯規則，該算法在搜索統計非冗余關聯規則上表現突出；Kwon等[6]將異常事件檢測轉化為圖模型編輯問題，視頻由圖來表示，圖中每個節點代表在空間和時間上分割視頻而獲得的事件，節點之間的權重描述了事件之間的關聯關系；Yuan等[7]將統計假設檢驗的想法引入到異常事件檢測框架，視頻活動被視為一組事件模式的線性組合，異常事件被認為是包含異常模式的事件，同時具有異常檢測器分數，利用高斯混合來估算復雜的噪聲分布更利于對視頻事件建模，提高了異常檢測精度。該類方法檢測效果較好，然而，需要大量的訓練樣本才能獲得穩定可靠的關系模型。

第二類為基于運動軌跡的分析。該類方法通過提取研究對象的軌跡特征信息，檢測跟蹤對象的運動軌跡是否異常。例如，Fang等[8]通過搭建自適應外觀模型，利用可靠的數據關聯策略和合理的軌跡約束運動模型來提升對目標檢測和追蹤的效率；Yuan等[9]首次提出信息結構背景描述符SCD(Structural Context Descriptor)來描述人群中的個體，通過計算SCD的變化，設計出多目標追蹤單元，用以追蹤不同幀圖像中同一目標的軌跡，通過線上時空分析SCD變化，來判斷人群異常情；Zhou等[10]嘗試構建一種新的統計框架來檢測擁擠場景中異常軌跡的人群行為，首先，由特征跟蹤器KLT(Kanade Lucas-Tomasi)獲取行人的軌跡特征，形成代表性軌跡表示人群的潛在運動模式，最后由馬爾可夫模擬模型判斷人群中異常的行為。該類算法在雜亂和擁擠的場景中不能準確地檢測和定位視頻事件，在處理霧天、雨天等背景模糊的場景時識別精度不理想。

第三類為基于底層特征的分析。該方法通過提取運動目標的低級特征進行分析運動狀態，根據研究對象的不同搭建各種各樣行為模式的模型。例如，Reddy等[11]針對檢測擁擠場景中異常目標提出了一種具有相對較低復雜度的異常檢測算法，該方法基于每幀的前景掩碼分析相關單元是否存在異常，根據檢測目標的運動狀態、大小和紋理分別建模；Li等[12]通過搭建表示復雜人群場景空間和時間的常態模型，將空間或時間常態與外觀或動態融合在一個常態模型中，對異常事件進行檢測。該類算法擁有一個共同特點需要人工輔助，設計有效的描述模型需要耗費大量時間。

第四類為基于深度學習[13]的視覺特征分析。該類方法通過基于深度學習用來提取視頻中運動目標的特征信息，根據視頻的特征信息進行人群異常事件的識別。例如，Sabokrou等[14]提出一種基于立方體補丁的方法，首先，使用3D自動編碼器進行識別正常立方體，再使用更復雜、更深的3D卷積神經網絡進行評估，將深度自動編碼器和CNN分成多個子級用作級聯分類器，最終實現對異常事件檢測；Ravanbakhsh等[15]為解決異常檢測的問題引入生成對抗網絡,組成生成對抗網絡的發生器(G)和鑒別器(D)分別進行深度網絡學習，發生器(G)僅學習生成正常模式，鑒別器(D)學習區分正常和非正常模式；Kiran等[16]提出深度卷積架構用于特征學習來進行視頻中異常事件的檢測。此類模型由多種組件構成，產生較多參數增加了算法的復雜性。

針對上述方法的不足，本文提出一種改進的卷積神經網絡人群異常行為識別方法，該方法通過嵌套mlpconv層改進卷積神經網絡結構，利用混合高斯模型有效、精確地提取視頻中前景目標，嵌套多層的mlpconv層自動學習前景目標的深度層次特征，生成的特征圖經過向量化處理輸入到與全連接層相連的Soft max分類器進行人群中異常行為檢測。仿真實驗結果表明，該算法減少對冗余信息的獲取，縮短了算法運算時間和學習時間，改進的卷積神經網絡在泛化性能和非線性擬合能力都有提高，對人群異常行為檢測取得較高準確率。

1 人群異常行為檢測流程與方法研究

本文提出基于卷積神經網絡嵌套模型的人群異常行為檢測方法的主要流程，圖1為人群異常行為檢測算法流程圖。該算法分為四個步驟：檢測和提取運動目標、獲取特征信息、構建嵌套網絡模型、進行異常行為檢測。

圖1 人群異常行為檢測算法流程圖

1.1 檢測和提取運動目標

目前，視頻中運動目標檢測的方法主要有：光流法、幀間差分法和背景差分法三種[17]。本文選取背景差分法中的混合高斯模型GMM[18](Gaussian Mixture model)，該模型與其他提取前景目標的方法比較，不但能夠成功檢測到運動目標，而且還能減少背景場景中微小重復運動的物體對前景目標檢測的影響。視頻中運動目標檢測的工作流程如圖2所示，首先高斯分布對每個像素建立背景模型，再進行背景模型參數自動更新，最后實現對視頻中運動目標的成功檢測和提取。

圖2 混合高斯模型的工作流程圖

1.1.1 混合高斯背景建模

對于任意像素點，其歷史像素序列可以下式描述[19]：

{x1,x2,…,xt}={Ii(x,y),1≤i≤t}

(1)

式中:Ii(x,y)為第i個時刻的灰度值。

在t時刻，像素點(x,y)的概率函數計算公式為[20]：

(2)

(3)

1.1.2 混合高斯模型參數更新

按優先級大小將幀像素值Ii(x,y)的高斯分布進行排序，滿足式(4)，說明幀像素值Ii(x,y)與高斯分布匹配成功，幀像素值Ii(x,y)的高斯分布的參數依次按照式(4)至式(8)進行更新；不滿足式(4)，幀像素值Ii(x,y)與高斯分布匹配不成功，高斯分布的參數不變，權重值按式(9)進行更新。

|It(x,y)-μi,t-1|

(4)

Wi,t=(1-α)Wi,t-1+α

(5)

μ=(1-β)μi,t-1+βIi(x,y)

(6)

μi,t-1)T(It(x,y)-μi,t-1)

(7)

β=αη(It(x,y)|μ,δi,t)

(8)

Wi,t=(1-α)Wi,t-1+α

(9)

式中:α、β分別表示混合高斯模型的學習率、更新率。

1.1.3 混合高斯模型對運動目標的提取

(10)

式中，T為設置的閾值。

獲取了前B個高斯分布作為背景模型，將當前像素值Ii(x,y)與生成背景進行匹配，如果當前像素值Ii(x,y)與生成背景匹配不成功，當前像素Ii(x,y)點為運動目標；否則，當前像素Ii(x,y)點為背景點。經過上述過程之后，混合高斯模型實現對視頻中運動目標的檢測及提取。與其他方法提取前景目標的結果對比圖如圖3所示。圖3(a)是原始視頻序列，圖3(b)是其他方法提取的前景目標，圖3(c)是混合高斯模型提取的前景目標。

(a) (b) (c)圖3 與其他方法提取前景目標的結果對比

1.2 獲取運動目標的特征信息

1.2.1mlpconv層

mlpconv層由一個線性卷積層和一個多層感知機MLP(Multy-Layer Perception)構成，局部感受視野中的輸入映射對應的特征向量。mlpconv層使用由多個帶非線性激活函數的全連接層構成的MLP來提取運動目標的特征信息，將提取的特征信息轉化為特征圖，再將特征圖作為下一層的輸入[22]。

mlpconv層計算過程如下所示：

(11)

(12)

(13)

式中:(i,j)是特征圖中像素的位置，xi,j是以像素點(i,j)為中心的輸入塊，k1、k2和kn等是特征圖中的各通道序號，n則是MLP的層數。

2.2.2BatchNormaliztion技術

在神經網絡學習過程中，隨著各層參數的變化，特別是算法的學習率和權值初始化會需要很長時間尋找合適值，降低了神經網絡的訓練速度。在使用飽和非線性激活函數來訓練神經網絡模型時，輸入數據會誤入激活函數的飽和區域，使神經網絡的收斂性速度降低。

Ioffe等[23]通過BN(Batch Normaliztion)技術規范化每一層的輸入來解決上述問題。BN技術使得輸入數據具有零均值和單位方差：

(14)

規范化處理后，參數需要相應的縮放和平移：

(15)

1.3 構建卷積神經網絡嵌套模型

卷積神經網絡嵌套模型的核心思想為：嵌套網絡模型可以出色地自動學習到深度層次特征，該模型獲取的深層次特征主要是局部特征，在獲取運動目標特征信息時局部特征在背景中分離目標發揮重要作用，此外，嵌套網絡模型在應對背景目標劇烈變化時也具有一定的魯棒性。

網絡嵌套模型訓練時，首先，對含有單個mlpconv層的卷積神經網絡模型的權值初始化，再進行卷積神經網絡的訓練，整個訓練過程結束，得到單個mlpconv層權值的更新；然后，接入第二個mlpconv層，第二個mlpconv層的輸入是第一個mlpconv層的輸出，進行第二個mlpconv層的權值初始化，再進行卷積神經網絡的訓練，整個訓練過程結束，得到第二個mlpconv層權值的更新。當有新的mlpconv層加入，按照上述過程進行權值初始化、卷積神經網絡的訓練以及權值更新。

此外，在進行卷積計算之后使用BN技術，也使得非線性單元能夠產生比較穩定的分布，達到去飽和的效果。在嵌套mlpconv層加入BN操作，模型中特征圖的計算方式如下：

(16)

(17)

(18)

式中:BN(g)表示BN層，(i,j)是特征圖中像素的位置，xi,j是以像素點(i,j)為中心的輸入塊，k1、k2和kn等是特征圖中的各通道序號，n則是MLP的層數。圖4為基于卷積神經網絡嵌套模型。

圖4 基于卷積神經網絡的嵌套模型

2 實驗與結果分析

在3.0 GHzCPU、64位Windows7操作系統，采用MATLAB 2016a、Open CV作為開發工具進行仿真實驗。為了驗證提出算法的有效性，本文選取常用于人群行為識別研究的基準數據集，即UCSD[24]((University of California,San Diego)數據集和UMN[25](University of Minnesota)數據集。這兩個數據集涵蓋了室內和室外、局部異常和全部異常等情況。仿真實驗中，定量評價采用AUC評價指標、等錯誤率(EER)以及運行時間(Time)等指標。

輸入數據是將每一幀都裁剪為80×60的灰度圖像，卷積神經網絡模型的三個卷積層采用的卷積核分別是9×7、7×7、6×4的尺度，兩個下采樣層采用的卷積核均為3×3尺度。輸入的80×60×9的視頻塊最終被轉化為128維的特征向量。

2.1 在UCSD數據集上實驗結果

USCD[24]數據集由加州大學圣地亞哥分校創建，數據集是通過安裝在一定高度、俯視人行道的攝像機，采集自然狀態下發生的異常行為，主要針對人群中個體行為的識別研究。數據集由98個視頻組成，被分成ped1和ped2兩個數據子集，每個場景錄制的視頻錄像被分成約200幀的片段，像素分辨率分別為158 pixel×238 pixel和240 pixel×360 pixel。圖5為UCSD數據集中的非人類實體入侵和異常人類行為場景的示例。

圖5 UCSD數據集中非人類實體入侵和異常人類行為示例

在UCSD ped1和UCSD ped2數據集驗證該算法的有效性，本文選取在上述數據庫取得較好識別率的算法進行對比，例如：TCP模型[26]、AMDN(double fusion)模型[27]、運動能量(Motion Energy)模型[28]、時空卷積神經網絡(ST-CNN)模型[29]及Commotion模型[30]等。

由表1可知，在UCSD ped1數據集上，采用幀級度量時，本文算法的EER較低，顯著提高了AUC評價指標；采用像素級度量時，在EER指標、AUC評價指標上提高不是很明顯，但是兩個指標均高于其他算法的指標。在UCSD ped2數據集上，采用幀級度量測試，本文算法在EER指標、AUC評價指標方面占優勢，AUC評價指標提高0.11。

表1 AUC和EER在于Ped1(UCSD數據集)上的幀和像素級比較

2.2 在UMN數據集上實驗結果

另外，在UMN數據集也進行了實驗驗證，該數據集前一半視頻作為訓練集，后一半作為測試集，在該數據集上采用幀級度量下的EER和AUC評價指標對算法的性能進行評估。驗證結果如表2所示。在UMN數據集上采用幀級度量下的EER和AUC評價指標對算法的性能測試結果，可以得出，本文算法在AUC評價指標與已有算法的性能上相當，在EER指標上優于其他算法，該算法在耗時方面得到了提高。

表2 AUC和EER用于UMN數據集上的幀和像素級比較

2.3 時間復雜度分析對比

算法的時間復雜度是一個函數，它定量描述了該算法的運行時間。

2.3.1 單個卷積層的時間復雜度

時間復雜度是指執行算法所需要的計算工作量，單層卷積層時間復雜度計算如下：

Time～O(M2·K2·Cin·Cout)

(19)

式中：M表示每個卷積核輸出特征圖(Feature Map)的邊長；K表示每個卷積核(Kernel)的邊長；Cin表示每個卷積核的通道數，即輸入通道數(上一層的輸出道數)；Cout表示卷積層具有的卷積核個數，即輸出通道數。

由式(19)可以得知，卷積層的時間復雜度由輸出特征圖面積M2、卷積核面積K2、輸入Cin和輸出通道數Cout決定；輸出特征圖的尺寸又由輸入矩陣尺寸X、卷積核尺寸K、Padding、Stride決定，輸出特征圖的邊長M表達式為：

(20)

2.3.2 卷積神經網絡的整體的時間復雜度

單層卷積神經網絡的復雜度由式(19)計算，卷積神經網絡(包含多層結構)整體時間復雜度為每層時間復雜度的和，計算公式如下：

(21)

式中：D表示神經網絡所具有的卷積層數，即網絡深度；l表示神經網絡第l個卷積層；Cl表示神經網絡第l個卷積層的輸出通道數Cout，即該層的卷積核個數；第l個卷積層的輸入通道數Cin是第(l-1)個卷積層輸出通道數。

在時間復雜度方面，本文選取TCP模型、AMDN(double fusion)模型、運動能量(Motion Energy)模型、時空卷積神經網絡(ST-CNN)模型及Commotion模型與本文算法進行對比。由式(13)可以計算出各算法的時間復雜度，因為各算法的具體參數數據不明確，本文只計算算法時間復雜度屬于哪個階，常見的時間復雜度關系為：O(1)

如表3所示，本文算法與其他算法時間復雜度大部分在O(n2)階上，分析其他算法神經網絡結構模型在輸出特征圖面積M2、卷積核面積K2、輸入Cin和輸出通道數Cout均比本文算法的復雜，可以得出結論本文算法在時間復雜度上優于其他算法。

表3 本文算法與其他算法時間復雜度

3 結語

本文提出基于改進的卷積神經網絡對人群異常行為檢測方法，通過嵌套mlpconv層改進卷積神經網絡結構，利用混合高斯模型有效、精確地提取出視頻序列中前景目標，混合高斯模型在復雜場景背景中表現出魯棒性，不但能夠成功檢測到運動目標，而且減少了背景場景中微小重復運動的物體對前景目標檢查的影響。嵌套多層的mlpconv層自動學習已經提取到的前景運動目標的深度層次特征，改進的卷積神經網絡減少對冗余信息的獲取。在UCSD和UMN數據集上實驗結果表明，在算法運算時間和學習時間上得到優化，對人群中異常行為檢測更迅速、準確，改進的卷積神經網絡在泛化性能和非線性擬合能力上的表現也很優秀。