李飛 李 婷 夏紅霞,3 劉文璇
(1.湖北省農業科學院 武漢 430064)(2.武漢理工大學計算機科學與技術學院 武漢 430070)(3.交通物聯網技術湖北省重點實驗室(武漢理工大學)武漢 430070)
異常檢測近年取得了很大進展,判斷監控視頻中的異常行為,對維護社會安全意義重大[1]。現存的方法大致分為兩種,一是人工進行對象特征提取,但耗費資源,效率低下且不具有魯棒性。而基于卷積神經網絡的方法彌補了人工的缺點,不僅很好地預測視頻中的異常,也可以拓展到其他任務中[2]。
異常檢測面臨著許多困難。現存方法主要在特定環境中進行檢測,在環境復雜多變時沒有泛化性,計算復雜度高[3],不符合現實中實時檢測的要求。Kooij 等針對視頻中存在的不同異常行為進行簡單的分類[4~6]。
隨著深度學習相關技術的成熟,Zhong 等使用智能技術對圖像的分類和識別進行基礎研究[7~10]。Karpathy 等針對視頻的行為分類問題進行了若干研究[11~12]。
光流法在視頻中的行為識別運用廣泛且效果良好[13~15]。Simonyan等提出了一個雙流CNN 結構,將利用網絡訓練的多幀密度光流作為輸入[14]。
本文受到光流法與CNN 的啟發,結合傳統光流法和時序CNN 模型,針對卷積神經網絡模型冗余而低效的缺點,提出一種融合該模型與光流特征的方法。該方法提高時間效率,能夠更好地辨別不同的運動模式,有效地進行人車異常行為的檢測。
基于時序CNN 視頻異常檢測過程如圖1 所示。引入一種迭代量化方法(Iterative Quantization,ITQ)來計算連續視頻幀中環境或者行為的變化。ITQ 與光流信息相結合,可以與外觀、運動方式的全局信息相補充。

圖1 時序CNN模式的計算
傳統的光流法計算過程繁瑣,效率低下。本文改進傳統光流法的特征提取,核心思想是重點關注前景計算,縮小光流計算的像素區域從而降低計算量。
將點像素的光流特征聚合成直方圖特征,如圖2 所示。根據LK(Lucas-Kanade)光流法進行前景提取得到魯棒稀疏光流;將稀疏光流進行特征聚合;得到直方圖特征。

圖2 像素光流聚合為光流直方圖的過程
如式(1)所示,塊b 在幀t 處的聚合特征由A(b,t)表示。訓練時每個特征通道找到的最大邊界表示為B(b)。
t 為所有訓練幀序列。矢量v(b,t)表示測試幀序列中的聚合特征。距離矢量如式(2)所示:

對每個通道進行閾值處理,確定連續視頻幀中是否異常。最終得到結果如下:

在攝像頭v 中,設定ft表示第t 幀,視頻塊表示為,i 是幀t 中的第i 個補丁,mt為當前t 幀的二值圖。ft幀的TCP圖為ct,光流圖表達為Oft。
具體步驟如下所示。

3)將每個視頻幀計算的TCP 圖ct,光流圖dt與重要因子α和β進行線性相加。構建如式(4)所示的運動片段圖:

其中,{mseg}為在視頻v中提取的運動幀序列。α,β均為融合圖在該幀序列中的影響力,參數設置為α=0.5,β=0.5。
本文提出的方法如圖3 所示,輸入的幀序列經過BFCN,二值全卷積網絡,提取出時序CNN 的二值圖。核心思想是在時間維度上對CNN 進行優化,與在傳統光流中提取的稀疏光流進行融合。

圖3 提出方法的技術路線
綜上所述,本文提出的方法如算法1所示。
算法1 時序CNN與稀疏光流融合的視頻

首先輸入所有幀,二值層量化高維特征,形成二值模式,得到二值圖,該圖是二值層與接收字段對應的補丁生成。然后計算二值碼直方圖,并計算直方圖的TCP 度量。最后級聯所有視頻塊的TCP度量,上采樣到原始幀大小,形成上采樣的TCP圖。同時,通過前景遮罩等方法,改進光流提取,得到穩定的稀疏光流,在稀疏光流的基礎上進行特征聚合。融合TCP計算結果與光流信息,進行異常定位。
使用訓練好的AlexNet模型提取特征圖。模型改進后,將二值量化層作為最后一個卷積層,輸出得到可定位的特征圖,并通過上采樣處理來恢復最后一層圖像的全分辨率。
該方法構建一個二值全卷積網絡結構并提出了一種計算魯棒稀疏光流的方法,更快速可靠地進行特征提取,對于異常檢測的檢測性能有所改進,提高了處理效率。
我們選定兩個數據集來驗證所提出的方法:UCSD異常檢測標準數據集和現實環境中采集的監控數據。
UCSD 數據集收集方式為人行道上的攝像機,分為Ped1 和Ped2 兩個子集。分辨率為238×158,每5 幀中存在行人的地面實況(Ground Truth)。Ped1 和Ped2 分別包含34、16 個訓練視頻,16、12 個測試視頻,異常幀個數約為1600 個,正常樣本個數為350個,該數據集一幀中平均約15人。
同時為了檢驗所提出方法的實際效果,分別在路口一、路口二、過馬路以及雨夜采集數據。采取兩種分辨率:960×540 和720×576,每個視頻長度為5min~10min。該數據集將異常行為定義為不符合常規交通規則,如逆行、闖紅燈等現象。
在一些常見的計算機視覺任務中,使用ROC(Receiver Operating Characteristic)對算法性能進行測評。假陽性率(False Positive Rate,FPR)和真陽性率(True Positive Rate,TPR)分別由ROC 的橫縱坐標軸表示。AUC(Area Under Curve)值為ROC 曲線與橫軸之間的面積,面積增大則表示性能提高[16]。
EER[7](Equal Error Rate)是等錯誤率,即ROC曲線橫縱坐標相等,得到EER 的值越低則性能越好。
對本文提出方法可由以下兩種指標進行評估:像素水平(Pixel-level)進行異常定位和幀水平(Frame-level)進行異常檢測[7]。
4.3.1 實際環境采集的監控視頻異常結果與分析
由于顏色、分辨率等不一樣,在實際環境中采集的視頻,需要進行參數調整。在路口一、路口二、過馬路的視頻中,塊大小的參數選取為:bH=bW=16,dT=10,δH=δW=4,光流直方圖柱數m=9;在雨夜數據集上bH=bW=32,dT=9,δH=δW=16,光流直方圖柱數m=16。其中,bH、δH為選取圖像幀的高度,bW、δW為寬度。dT為選取視頻的長度,單位為s。
1)異常行為檢測結果分析
圖4 展示了路口一視頻中的檢測結果。圖4(a)~(d)中摩托車明顯違反交通規則,其中在圖(a)和(b)中,在車道中與車流行駛方向相反;在圖(c)和(d)中正向車流中與車流行駛方向相反。

圖4 路口一數據集的檢測結果
2)誤檢結果分析
圖5 展示了數據集上的誤檢結果。圖5(a)將被遮擋行駛的汽車檢測為異常,分析發現汽車行駛速度較快,且部分被路旁綠化帶遮擋。這種情況下,光流計算產生誤差。圖5(b)中,公交車與其他物體產生相互遮蓋的情況,故將公交車誤檢為異常。圖5(c)將雨夜數據集中,路面反光積水檢測為異常。圖5(d)將被圍欄遮擋的車輛檢測為異常。通過分析,產生誤檢的主要原因是監控視頻中運動目標被物體遮擋。其次本文方法可以在誤檢較少的情況下,檢測出違反交通法規等異常行為事件,證明本文方法在實際環境中具有一定有效性。


圖5 誤檢結果示例
4.3.2 UCSD數據集上的異常結果與分析
本文該數據集上可能發生的小概率運動模式視為異常。與原UCSD 數據集中定義非行人為異常不完全相同。
如圖6 所示,第一行結果從Ped1 子集中選取,第二行結果從Ped2 子集中選取。圖6(a)為一些非步行行為:在人行道上的自行車行駛、滑板行駛、輪椅行駛、摩托車行駛;第二行展示將騎自行車和行駛汽車作為異常,因為與訓練數據集中步行的行為模式不匹配。

圖6 UCSD數據集異常結果示例
圖7展示了UCSD數據集上進行異常檢測的幀水平ROC 曲線,圖8 則為UCSD 數據集上進行異常定位像素水平的ROC曲線。

圖7 UCSD Ped1數據集異常檢測的幀水平ROC曲線
由圖7 可見,在幀水平上,提出的方法與現有其他技術效果相當。在圖8 中,在像素級別上,當誤報率小于25%時,本文明顯優于其他現有方法。

圖8 UCSD Ped1數據集異常定位的像素水平ROC曲線
提出的方法在數據集中能夠準確檢測出異常行為。僅在某些出現遮擋或受光照影響時,檢測性能略低。然而本文優點是可以運用到實際中,且有效地檢測、定位異常而無需額外成本進行訓練。
表1展示出在UCSD標準數據集上本文方法與其他方法ERR 及AUC 曲線的比較。本文提出的方法在幀水平的ERR 指標里分別達到了7.6%與18%,在所列方法中最低,效果最好。證明本文通過對光流計算的優化在一定程度上降低了等錯誤率,同時準確率達到先進水平。
在幀水平評估中,本文CNN 與稀疏光流的融合狀態在AUC 上達到了95.3%。在像素水平評估中,本文方法達到了64.5%。與表1 中所列方法對比,我們的結果比大多數方法更優,表明了在異常定位融合光流法的有效性,使用光流進行計算獲得了更好的定位精度。

表1 UCSD數據集方法比較
本文通過融合時序CNN 模型和稀疏光流,提出了一種時序CNN 與稀疏光流融合的視頻人車異常檢測方法。為了解決異常檢測中常見的性能不佳和效率低下的問題,我們選擇具有權威性的UCSD 標準數據集進行效果評估,對比了近年優秀技術方法,表明了本文在性能上的顯著優勢。除此之外,還在實際采集的監控視頻上實驗,結果表明,在不同條件下本文方法均可比較準確地檢測出人車流中的異常行為。