武海燕,李躍新,2,李衛平
(1.鐵道警察學院 公安技術系,河南 鄭州 450000;2.湖北大學 計算機與信息工程學院,湖北 武漢 430070;3.武漢理工大學 信息工程學院,湖北 武漢 430070)
行人是視頻監控、智能交通等領域關注的主要對象之一,研究基于視頻圖像的行人檢測技術對于提高視頻監控等系統的智能化水平有重要促進作用,理論研究和應用價值都非常大[1]。
近些年,行人檢測領域取得到許多創新的研究成果。按照特征描述子的不同,現有行人檢測方法大致可以分為4類:一是基于Haar-like特征的行人檢測方法,此類方法主要采用Haar-like特征以及一些融合的其它特征來描述行人與其它物體的差異,然后采用Adaboost、支持向量機(support vector machines,SVM)等分類器來檢測行人目標。由于Haar-like特征在提取時可以采用積分圖進行加速,因此此類方法的運算效率較高[2,3]。二是采用局部二元模式等紋理特征的行人檢測方法,此類特征的優點是受光照變化的影響較小,然而此類特征對于行人這種非剛性目標的區分能力偏弱,因此采用此類特征檢測行人時往往會造成較多的誤檢現象[4,5]。三是基于方向梯度直方圖(histogram of oriented gradients,HOG)特征的行人檢測方法,此類方法主要采用HOG特征來描述行人目標,采用SVM、隨機森林等分類器來檢測行人目標。與Haar-like特征相比,HOG特征可以更好地描述行人的結構化特征,因此采用HOG特征檢測行人目標往往可以取得比Haar-like特征更好的檢測效果,尤其是在假正率指標方面具有較大優勢[6-8]。四是采用深度學習等方法自動提取行人目標特征和進行行人檢測。此類方法在大規模數據集訓練的情況下往往可以取得較好的行人分類結果,但此類方法的運算效率偏低,資源占用率也較大[9,10]。
本文主要研究面向監控視頻的行人檢測方法。對于視頻監控系統的應用而言,為保障實時處理的需求,要求行人檢測算法的運算效率要高。另外,視頻監控系統中同時要監控的攝像機路數非常多,此時對行人檢測算法的虛警率指標要求較高,如果行人檢測算法經常引起虛警,那么視頻監控系統的行人智能預警功能就難以達到降低值班人員工作量的目標。現有行人檢測算法還難以滿足視頻監控系統的這兩種應用需求,尤其是虛警率指標。
為此,本文提出一種結合貝葉斯理論的行人檢測方法,設計思想是先依據運動檢測方法剔除大面積背景區域,降低這些背景區域引起的虛警現象和時間耗費;然后在傳統的結合HOG特征和SVM分類器的行人檢測的基礎上,基于貝葉斯理論估計每一個像素點屬于行人目標的后驗概率,濾除錯誤檢測的行人目標區域,最終目標是降低視頻監控系統的虛警率。
本文面向監控視頻的行人檢測難題,提出一種基于貝葉斯理論的行人檢測方法,實現流程如圖1所示。首先,采用Vibe方法進行前景提取,初步定位可疑行人區域;然后,采用經典的結合HOG特征和SVM分類器的行人檢測方法,獲取行人目標矩形窗口;在此基礎上,依據貝葉斯理論計算像素點屬于行人目標的后驗概率,得到一幅概率圖像;最后采用OTSU方法對概率圖像進行自適應分割,得到最終的行人檢測結果,詳細過程描述如下。

圖1 本文方法實現流程
在監控視頻中,行人屬于運動的前景目標,可以通過運動檢測方法快速提取前景目標區域。
常用的運動檢測方法可以分為背景差分法、幀間差分法和光流法3類。考慮到本文的目標是快速檢測監控視頻中的行人目標,這里采用背景差分法來提取前景區域。主要原因是光流法運算效率偏低,而幀間差分法提取的運動目標不完整且對走走停停的目標容易漏檢。
背景差分法的關鍵是構建背景模型,常用的有混合高斯背景模型、自組織背景模型等。本文采用文獻[11]所述的Vibe方法,該方法的突出特點是背景模型構建效率很高,而且可以針對單幀圖像構建背景模型,不需要特定數據的訓練過程。對于攝像機固定的監控視頻而言,該方法在高效提取前景目標區域的前提下,還取得了非常高的召回率指標。對于本文的行人目標檢測應用而言,采用該運動檢測方法提取前景目標時,目標漏檢現象很少,這非常有利于后續行人目標的檢測。
運動檢測之后可以得到一幅二值掩膜圖像B,其中,前景區域的像素點賦值為1,背景區域的像素點賦值為0。
為了修復前景區域目標的不完整現象和降低噪聲干擾,本文采用數學形態學的頂帽變換對二值掩膜圖像B進行濾波,濾波模板尺寸設為5×5。
在基于圖像的行人檢測方法中,結合HOG特征與SVM分類器的行人檢測方法相對而言兼顧了運算效率和檢測效果。本文選用該方法提取行人特征并進行分類,詳見文獻[8]。需要說明的是,本文是針對監控視頻進行行人檢測的,因此可以采用前述的前景提取步驟來縮小行人檢測的范圍。具體到實現時,在提取HOG特征前對檢測窗口所對應的二值掩膜窗口進行判斷,如果對應的二值掩膜窗口中不包含前景像素點,則認為該檢測窗口不包含行人目標,不需要再進行HOG特征提取和SVM分類步驟,這樣不僅可以提高運算效率,而且可以降低背景區域對行人目標檢測的干擾,從而降低虛警。需要指出的是,在檢測窗口中提取HOG特征時針對的是窗口區域的灰度圖像。
另外,文獻[8]在檢測行人時對圖像進行多尺度的平滑窗遍歷,這樣每一個位置可能檢測出多個行人目標窗口,文獻[8]通過窗口合并和過濾來降低誤檢,并得到最終的行人檢測結果。然而,簡單的窗口合并與過濾難以有效降低行人目標的誤檢現象。本文的思路是充分利用視頻的時間相關性,結合貝葉斯理論來對結合HOG特征與SVM分類得到的檢測結果進行濾波,詳細見下一節的描述。因此,這里不像文獻[8]那樣進行窗口的合并與過濾,而是直接保存所有檢測到的行人目標矩形框集合R。
經過前述的前景提取過程,得到了一個二值掩膜B;經過結合HOG特征與SVM分類的行人檢測,得到了一個行人目標矩形框集合R。本文結合這兩組信息,依據貝葉斯理論來計算各個像素點屬于行人目標的后驗概率。
給定兩個隨機變量Sp和Zp。其中,Sp用于指示圖像中像素點p處是否真實存在行人目標。Zp用于指示圖像中像素點p處是否檢測到行人目標,也即采用前述的行人檢測方法在像素點p處輸出的行人檢測結果。
采用貝葉斯理論,可以通過觀測值Zp來估計Sp的概率,表示為
p(Sp|Zp)=p(Sp)p(Zp|Sp)
(1)
其中,p(Sp|Zp)也稱為后驗概率,p(Sp)稱為先驗概率,p(Zp|Sp)表示似然。
采用貝葉斯理論的目標是通過與前面的觀測結果進行比較,來濾除錯誤檢測到的虛假行人目標。
下面介紹先驗概率和似然的計算方法。
(1)先驗概率計算
對于每一個像素點p,本文先從目標矩形框集合R中找到包含該像素點的矩形框子集,表示為Rp。

C(Rp)=
(2)
其中
(3)
(4)

記像素點p的坐標為(xp,yp),按照距離的遠近,橫坐標xp相對與矩形框子集Rp的權重因子可以采用分段線性函數來表示,為
w(xp,Rp)=
(5)
類似地,縱坐標yp相對與矩形框子集Rp的權重因子可以表示為
w(yp,Rp)=
(6)
本文采用這兩個權重來計算像素點p屬于行人目標的概率表示為
(7)
上式所表示的意義是,像素點p所從屬的目標矩形框數量越多,離這些矩形框的最小交叉矩形區域的中心越近,離這些矩形框的最大外接矩形區域的邊界越遠,那么該像素點屬于行人目標的概率越大。其中,|R|表示該幀圖像所檢測的目標矩形框總數。
基于此,像素點p屬于行人目標的先驗概率可以表示為
(8)

這樣,每一幀圖像檢測完之后,存儲每一個像素點屬于行人目標的先驗概率,經過每一幀計算結果的更新,行人目標的先驗概率越來越準確。
(2)似然計算
對于圖像中的每一個像素點,如果該像素點屬于行人目標,那么需要滿足兩個條件:一是該像素點是前景區域,也即在二值掩膜B中該像素點所對應的灰度值應當為1;二是該像素點應當屬于目標矩形框集合R,而且該像素點所從屬的目標矩形框越多,則該像素點屬于行人目標的概率越大。基于這一思路,本文設計的似然計算公式為
(9)
其中,NRi表示矩形框Ri的面積,也即Ri所包含的像素點數量。B(t)表示二值掩膜B在像素點t處的取值。
得到先驗概率和似然之后,依據式(1)可以計算像素點p屬于行人目標的后驗概率。
經過上述處理之后,每幀圖像上的每一個像素點都對應了一個后驗概率,取值范圍為0~1。將其乘以灰度級L,這樣每一幀圖像就可以轉換成一幅灰度級為L的概率圖像,記為I。本文取L=100。
在前面得到的概率圖像I中,像素點的值越大,說明該像素點屬于行人目標的概率越大,反之越小。這樣,可以通過圖像分割的方法來提取行人目標像素點。
在圖像分割領域,OTSU方法依據類間方差最大準則計算最優分割閾值,是公認的分割結果穩定且自適應能力強的圖像分割方法。本文采用OTSU方法計算概率圖像的最佳分割閾值,表示為
(10)
其中,δ(t)表示以灰度值t為分割閾值將圖像分為兩類時的類間方差,可以表示為

(11)
其中
(12)
(13)
(14)
(15)
這里,N表示概率圖像I中的像素點總數,ni表示概率圖像I中灰度值為i的像素點個數。
可見,OTSU算法是從所有灰度值中,選出一個使得分割后類間方差最大的灰度值作為最優的分割閾值。這樣可以保證圖像分割時錯分概率最小,而且分割效果理想與穩定。
采用最優分割閾值Topt對概率圖像進行分割,大于分割閾值Topt的像素點判定為行人目標像素點,賦值為1;其它像素點判定為背景像素點,賦值為0。最后對分割后的二值圖像進行數學形態學的頂帽變換,此處的濾波模板尺寸設為3×3,主要用于濾除噪聲。這樣,即可得到屬于行人目標的像素點。掃描這些像素點組成的各個連通域的外接矩形框,即為最終的行人檢測結果。
為了定量評價本文方法的性能,本文在公開測試數據集上進行行人檢測實驗,將本文方法與文獻[3,7,8]所述的行人檢測方法進行性能對比,定量評價本文方法的檢測性能。下面首先說明本文實驗采用的行人數據集以及定量評價指標,然后給出不同方法的實驗結果與性能對比分析。
(1)實驗數據集
在行人檢測領域的公開測試數據集中,Caltech數據集與本文的研究對象相符,為監控視頻數據集。本文選用該數據集測試本文方法的性能指標。另外,本文方法中用到SVM分類器,該分類器的訓練常用INRIA數據集,如文獻[8]所述。因此,本文也選用INRIA數據集進行SVM分類器的訓練。下面簡要介紹這兩個數據集。
1)Caltech數據集
Caltech數據集收集的是在實際監控場所拍攝的街區視頻,分辨率為640×480,幀率為30 fps,其中約含250 000幀圖像,所有行人目標都已進行人工標注,共計2300個行人、350 000個行人窗口。
2)INRIA數據集
INRIA數據集收集的是裁剪過的行人圖像和非行人圖像,其中,圖像總數為5264幅,行人圖像3548幅,非行人圖像1716幅。
在后續的性能指標測試過程中,所有行人檢測方法都采用INRIA數據集進行分類器的訓練,采用Caltech數據集進行行人檢測測試。
(2)性能評價指標
行人檢測領域常用的檢測效果評價指標有兩個,一是真正率(true positive,TP)指標,可以表示為
(16)
二是假正率(false positive,FP)指標,可以表示為
(17)
這里,行人窗口檢測結果是否正確是由IoU指標來判斷的,如文獻[8]所述。IoU的定義為
(18)

另外,對于監控視頻分析而言,算法的運算效率也是非常重要的性能評價指標。本文采用檢測幀率(detection frame rate,DFR)來描述算法的運算效率,檢測幀率是指每秒可以處理的圖像數量,單位為fps。考慮到算法運行的軟硬件平臺性能越高,檢測幀率越快。為此,本文在對比不同方法的檢測幀率時,在相同軟硬件平臺下測試檢測幀率指標,軟硬件平臺參數為:
操作系統:Windows 7 Service Pack 1 64 bits;
CPU:Intel(R) CoreTMi5-4570 @3.2 GHZ;
內存:DDR3 16 G;
軟件平臺:Microsoft Visual Studio 2012;
圖2給出了不同行人檢測方法的真正率和假正率指標的對比結果。表1給出了不同行人檢測方法的檢測幀率對比結果。

圖2 不同方法的TP和FP指標對比

方法DFR/fps文獻[3]方法10.1文獻[7]方法21.3文獻[8]方法4.9本文方法21.6
由圖2可見,4種方法的真正率指標相差不大,其中本文方法與文獻[8]所述方法的真正率指標相當,高于其它兩種方法。這說明,4種方法在檢測行人目標時漏檢行人目標的次數差異不大。從假正率指標來分析,本文方法的假正率指標明顯低于其它3種方法,尤其是文獻[3,8]兩種方法,究其原因,主要有兩個方面:第一,本文方法在前景提取階段剔除了大面積的背景區域,降低了在這些區域可能產生的誤檢行人窗口,這一點與文獻[7]所述方法類似,因此,文獻[7]的假正率指標也明顯低于文獻[3,8]兩種方法;第二,本文方法對結合HOG特征和SVM分類器檢測到的行人目標窗口進一步進行貝葉斯學習,依據視頻的時間相關性來增強行人目標區域的先驗概率,依據二值掩膜和行人目標窗口集來估計像素點屬于行人目標的后驗概率,并采用OTSU方法進行自適應的分割,可以有效剔除誤檢的行人目標窗口,大幅降低行人檢測的假正率指標。
由表1可見,本文方法的檢測幀率指標與文獻[7]所述方法相當,遠高于文獻[3,8]所述方法。這主要是因為本文方法與文獻[7]所述方法一樣,先采用運動檢測方法剔除了大面積的背景區域,降低了在這些區域進行行人檢測引起的時間消耗,因此大幅提高了整體檢測的檢測幀率指標。與文獻[7]所述方法相比,本文方法盡管增加了后驗概率估計等步驟,但是,這些步驟的計算復雜度很低,而且本文方法在前景提取步驟的運算效率高于文獻[7]所述方法,因此,最終測試結果本文方法的檢測幀率指標還略高于文獻[7]所述方法。
通過以上的實驗分析,可見本文方法在面向監控視頻的行人檢測應用時其行人檢測性能優于其它3種對比方法,不僅真正率和檢測幀率指標高,更重要的是假正率指標遠低于其它方法。這樣,將本文方法應用于視頻監控系統,可以有效降低行人檢測的虛警率。
本文主要針對視頻監控系統對行人檢測的效率和虛警率指標的要求,提出了一種基于貝葉斯理論的監控視頻行人檢測方法,與傳統方法相比,本文方法主要進行了兩個方面的改進和創新研究:
(1)結合監控視頻特性,行人屬于運動的前景目標,因此本文先采用Vibe算法提取前景目標區域,縮小后續行人檢測的范圍,間接降低虛警和提高運算效率。
(2)在前景提取結果和結合HOG特征與SVM分類的行人檢測結果的基礎上,基于貝葉斯理論計算每一個像素點屬于行人目標的后驗概率,用于濾除前期錯誤檢測的虛假目標,降低虛警。
通過這兩個方面的改進和創新,本文方法在Caltech數據集上進行行人檢測實驗時,真正率和檢測幀率高,且假正率非常低。因此,采用本文方法進行視頻監控系統的行人檢測,可以有效降低系統的虛警率,同時具有較高的運算效率。
參考文獻:
[1]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[J].Computer Scie-nce,2014,8926(1):613-627.
[2]ZHANG Ronghui,LI Fuliang,ZHOU Xi,et al.A pedestrian detection method based on spatio temporal data fusion of laser and video[J].Transportation System Engineering and Information,2015,15(3):49-55(in Chinese).[張榮輝,李福樑,周喜,等.一種基于激光與視頻信息時空數據融合的行人檢測方法[J].交通運輸系統工程與信息,2015,15(3):49-55.]
[3]Zhang S,Bauckhage C,Cremers A B.Informed Haar-like features improve pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.
[4]XIAO Degui,XIN Chen,ZHANG Ting,et al.Significant texture features and pedestrian detection in vehicular environment[J].Journal of Software,2014,25(3):675-689(in Chinese).[肖德貴,辛晨,張婷,等.顯著性紋理結構特征及車載環境下的行人檢測[J].軟件學報,2014,25(3):675-689.]
[5]ZHOU Shuren,WANG Gang,XU Yuefeng.Pedestrian detection based on improved HLBP texture features[J].Computer Engineering and Science,2016,38(5):960-967(in Chinese).[周書仁,王剛,徐岳峰.改進型HLBP紋理特征的行人檢測[J].計算機工程與科學,2016,38(5):960-967.]
[6]Hoang V D,Le M H,Jo K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.
[7]Zhang S,Klein D A,Bauckhage C,et al.Fast moving pedestrian detection based on motion segmentation and new motion features[J].Multimedia Tools and Applications,2016,75(11):6263-6282.
[8]Yadav R P,Kutty K,Ugale S P.Implementation of robust HOG-SVM based pedestrian classification[J].International Journal of Computer Applications,2015,114(19):10-16.
[9]Luo P,Tian Y,Wang X,et al.Switchable deep network for pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:899-906.
[10]Cai Z,Saberian M,Vasconcelos N.Learning complexity-aware cascades for deep pedestrian detection[C]//IEEE International Conference on Computer Vision.IEEE,2015:3361-3369.
[11]Barnich O,Droogenbroeck M V.ViBe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2015,20(6):1709-1724.