楊 陽,唐慧明,2
(1.浙江大學信息與通信工程研究所,杭州310027;2.浙江省綜合信息網技術重點實驗室,杭州310027)
其中,β為相互作用系數;c表示領域Ni的子群;C表示子群集合;fNi表示像素點i周圍點的映射關系。式(3)的作用在于計算周圍像素點的映射與i點映射的相似性。
在傳統混合高斯模型中,運動檢測過程等同于求取后驗概率p(xi/f(i))最大值的問題。對后驗進行濾波:
基于視頻的行人車輛檢測與分類
楊 陽1,唐慧明1,2
(1.浙江大學信息與通信工程研究所,杭州310027;2.浙江省綜合信息網技術重點實驗室,杭州310027)
針對傳統智能監控中行人車輛檢測與分類算法存在目標分割不完整、分類準確率低等問題,提出一種基于視頻的行人車輛檢測與分類算法。利用領域信息動態調整置信區間構造混合高斯模型,采用卡爾曼濾波預測目標下一幀的位置。通過自適應EM聚類方法提取目標長寬比和面積作為特征,將目標分為行人和車輛。在模型估計過程中假設相鄰幀目標做勻速直線運動,推導出目標面積變化滿足線性關系,并對目標跟蹤和分類進行修正,進一步提高檢測準確性。實驗結果表明,該算法的人車檢測準確率達到90%以上,分類準確率達到80%以上。
行人車輛檢測;智能監控;運動目標檢測;目標跟蹤;目標分類;模型估計
智能監控系統[1]可不在人為干預情況下對攝像機記錄的視頻序列進行分析,并且對其中的行人和車輛等目標進行檢測和分類,從而實現視頻信息檢索。目前常用的行人車輛檢測分類方法可以分為:基于監督學習的方法和基于運動分割的方法。
基于監督學習的方法需要預先對分類器進行訓練,例如,文獻[2]提取行人的HoG特征放入SVM分類器進行訓練,類似的有Harr特征與Adabost[3]算法,這類方法的優點在于準確度高、攝像機晃動影響小,但是缺點在于時間復雜度大,而且需要事先進行訓練,場景變換后需要重新訓練。
基于運動分割的方法要求攝像機固定,對運動的物體進行檢測分類。例如,文獻[4]通過幀差法檢測運動物體,提取運動物體長寬比作為特征進行分類,然后利用跟蹤將目標在每一幀獲得的分類結果進行統計,最終輸出統計結果的總數。然而,由于采用固定閾值進行目標分類,缺乏自主學習能力,因此對應用場景有嚴格限制。文獻[5]對上述方法進行了改進,對運動目標的特征進行聚類,形成樹分類器,能夠得到較好的結果,然而該算法也存在過訓練、收斂速度慢的問題。
本文針對靜止場景的視頻序列,提出一種基于運動分割的視頻內容檢索算法,以提高檢測和分類的準確性。
本文算法主要包括4個部分:運動目標檢測,目標跟蹤,目標分類和模型估計,如圖1所示。

圖1 行人車輛檢測與分類算法流程
2.1 運動目標檢測
運動目標檢測作為視頻分析的最初階段,其結果好壞直接影響后期處理的準確性。一個好的檢測算法需要能夠處理光線亮度的變化、動態背景、前景目標與背景相近等問題。文獻[6]提出混合高斯模型來解決動態背景的問題,但是像素點之間是獨立關系,沒有利用到鄰域信息。文獻[7]采用無參數窗函數估計,得到的概率模型更貼近實際,但時間復雜度高。文獻[8]采用單高斯模型與馬爾科夫隨機場(Markov Random Fields,MRF)融合對運動目標檢測進行改進,能夠得到更加完整的前景,但是仍然存在噪聲抑制差的缺點[9]。
本文利用鄰域信息構建一個濾波函數,得到一種混合高斯模型(Gaussian Mixture Model,GMM)的改進算法。
假設像素點i當前的灰度值為x(i),x(i)隱含的映射關系為f(i)(前景和若干個背景)。假定f(i)條件下,灰度值x(i)滿足高斯分布,即:

其中,μj為高斯分布j的均值;∑j為j的方差。
定義像素點i所在鄰域Ni范圍內的濾波函數為:

其中,Z為歸一化常數;E(f(i))為勢能函數,定義如下:

其中,β為相互作用系數;c表示領域Ni的子群;C表示子群集合;fNi表示像素點i周圍點的映射關系。式(3)的作用在于計算周圍像素點的映射與i點映射的相似性。
在傳統混合高斯模型中,運動檢測過程等同于求取后驗概率p(xi/f(i))最大值的問題。對后驗進行濾波:

將式(1)、式(2)代入式(5)中得到:

如果直接計算式(6)的最大值,則計算過于繁瑣,實際中采用判斷是否落入置信區間進行近似,得到:

其中,N為置信度,取值2~3。已知傳統混合高斯模型的匹配公式為:

對比式(7)、式(8)可以看出,改進算法在傳統混合高斯模型基礎上對置信度進行了修正,利用鄰域信息動態地增加或減少匹配該模型的概率。
2.2 目標跟蹤
為得到更準確的行人和車輛分類結果,需要跟蹤目標從出現到消失的所有狀態,從而聯合各幀信息提高分類正確率。常見的目標跟蹤算法有:幀間匹配[10],卡爾曼濾波[11],粒子濾波,Camshift以及Estembling Tracking[12]等。
本文采用卡爾曼濾波預測目標下一幀位置,同時提取目標的顏色直方圖作為幀間匹配特征[13]。因為在運動目標檢測階段可以得到每一個目標的掩膜,所以跟蹤時不需要在原始圖像中進行搜索,只需在前景圖中進行目標匹配,這樣做可以大大節省跟蹤時間。然而,如果目標之間出現遮擋情況,則運動目標檢測會將其判斷為一個目標,導致上述方法失效。如果目標之間存在遮擋的情況,本文采用Camshift算法。
2.3 目標分類
目標分類旨在自動判定目標所屬類別,實現過程包含2個步驟:特征提取和分類判斷[14]。本文選取目標長寬比和面積作為特征,將目標分為行人和車輛。采用一種自適應EM[15]聚類方法,實現步驟如下:
(1)將圖像劃分為若干個1 616的區域,每一個區域分別記錄覆蓋該區域的行人和車輛的信息,包括面積均值、面積方差以及樣本數量,并假設該區域內的行人和車輛目標面積滿足高斯分布。
(2)EM初始化階段:采用一個固定長寬比閾值來判定行人和車輛,例如height/width>1表示行人,否則為車輛,相應地記錄行人和車輛的面積平均值。
(3)EM估計階段:對于每一個區域,當有新目標進入時,計算目標面積值所匹配的高斯分布,從而得出分類結果,相應地更新該類的參數。
通過上述步驟,隨著樣本數量的增加,高斯分布的參數逐漸收斂[11],分類效果逐漸改善。
2.4 模型估計
模型估計是對歷史信息的一種統計應用,要求假設能夠逼近實際情況。在相鄰幀,由于運動時間很短、位移較小,本文假設目標做勻速直線運動,可以證明其面積變化呈線性關系。
設(X,Y,Z)和(X′,Y′,Z′)分別表示第k幀和第k+1幀時刻目標的世界坐標位置。目標的平移、旋轉運動可以用式(9)表示:

忽略目標的深度信息,假設目標為一平面,即:

如果運動目標與攝像機的距離遠大于目標本身的深度,即為正投影模型,則存在如下近似關系:

將式(11)代入式(9)、式(10)得到:

分別取第k幀和第k+1幀時目標矩形框的左側上下頂點:

因為存在x1=x2,x′1=x′2的關系,將其代入式(12)和式(13)中得到,矩形高度滿足h′=a2·h。同理,矩形寬度滿足w′=a1·w。所以,矩形框面積為S′=kS,呈線性關系。
利用上述結論,可以對目標分類和目標跟蹤進行修正。目標分類階段圖像特定區域存在特征樣本少或者收斂速度慢的問題,由于相鄰區域面積滿足比例變化,因此可以利用周圍塊的平均值代替當前塊。目標跟蹤階段,由于目標面積變化滿足線性條件,因此可以增加目標面積作為卡爾曼濾波器的狀態量,從而改善跟蹤的準確性。
實驗在PETS2006視頻庫以及真實采集的監控視頻上進行,以下介紹各階段的實驗結果。
3.1 運動目標檢測實驗結果
圖2展示了本文方法與文獻[5-7]方法的實驗對比結果。

圖2 運動目標檢測結果
由圖2可知,與混合高斯模型相比,本文方法運動目標分割更加完整、噪聲影響更小。對比其他常用的運動檢測方法,針對不同的室內室外場景,本文方法都能得到較好效果。
表1統計了圖2中3個不同場景下,高斯混合模型和本文方法的平均錯誤率,可以看出虛警率和漏警率都有明顯的下降。其中,虛警率和漏警率的定義如下:
虛警率=背景點被誤檢為前景的數量/檢測為前景的總數
漏警率=被遺漏的前景點數量/真實前景點的總數

表1 運動檢測錯誤率 %
3.2 目標分類實驗結果
圖3展示了目標分類的一幀結果,即使存在遮擋情況,仍然能夠得到準確的分類。表2為視頻中車輛從出現到消失過程中,每一幀分類結果的統計圖,可以看出分類準確度在80%以上。

圖3 人車分類結果

表2 人車分類結果的統計
3.3 模型估計實驗結果
圖4展示了一個做勻速直線運動的行人,面積隨時間的變化關系。可以看出面積值可以近似擬合為線性,從而證明本文假設貼近實際情況。

圖4 目標面積變化
本文提出一種行人車輛檢測算法,通過運動目標檢測、目標跟蹤、目標分類和模型估計等步驟實現。利用該算法能夠準確地檢索出監控視頻中特定目標的信息。與傳統算法相比,優勢在于能夠大幅提高準確度,并且由于采用自適應學習與分類方法,應用場景更加廣泛。在今后工作中,將通過統計目標在圖像上各區域的特征信息對場景進行建模,估計圖像深度,自動學習場景參數。
[1] 劉治紅,駱云志.智能視頻監控技術及其在安防領域的應用[J].兵工自動化,2009,28(4):75-78.
[2] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:25-28.
[3] Viola P,Jones M,Snow D.Detecting Pedestrians Using Patterns of Motion and Appearance[J].International Journal of Computer Vision,2005,63(2):153-161.
[4] Lipton A J.Moving Target Classification and Tracking from Real-time Video[C]//Proceedings of the 4th IEEE Workshop on Applications of Computer Vision.Princeton, USA:IEEE Press,1998:8-14.
[5] Stauffer C.Learning Patterns of Activity Using Real-time Tracking[J].IEEE Transactions on Pattern Analysis and Machine Intellignece,2000,22(8):747-757.
[6] Stauffer C,GrimsonW E L.AdaptiveBackground Mixture Models for Real-time Tracking [C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Computer Society,1999:2246-2257.
[7] Elgammal A,Harwood D R.Background and Foreground Modeling Using Nonparametric Kernel Density Estimation for Visual Surveillance[J].Proceedings of the IEEE, 2002,90(7):1151-1163.
[8] Kertesz C.Texture-based Foreground Detection[J].International Journalof SignalProcessing ofImage Processing and Pattern Recognition,2011,4(4):51-61.
[9] Geman S,Geman D.Stochastic Relaxation Gibbs Distributions and the Bayesian Restoration of Images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1984,6(6):721-741.
[10] Surendra G,Osama M.Detection and Classification of Vehicles [J].IEEE Transactions on Intelligent Transportation Systems,2002,3(1):37-47.
[11] Kalman R E.A New Approach to Linear Filtering and Prediction Problems[J].Journal of Basic Engineering, 1960,82(10):35-45.
[12] Avidan S.Ensemble Tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(2): 261-267.
[13] 劉 亞,艾海舟,徐光佑.一種基于背景模型的運動目標檢測與跟蹤算法[J].信息與控制,2002,31(4): 315-319.
[14] 萬 纓,韓 毅,盧漢清.運動目標檢測算法的探討[J].計算機仿真,2006,23(10):221-226.
[15] Dempster A P,LairdN M,RubinD B.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of the Royal Statistical Society,1977,l39(1): 1-38.
編輯 陸燕菲
Pedestrian-vehicle Detection and Classification Based on Video
YANG Yang1,TANG Huiming1,2
(1.Institute of Information and Communication Engineering,Zhejiang University,Hangzhou 310027,China;
2.Zhejiang Provincial Key Laboratory of Information Network Technology,Hangzhou 310027,China)
Aiming at the problem of incomplete target segmentation and low classification accuracy of traditional pedestrian-vehicle detection and classification algorithm in intelligent monitoring,this paper presents a pedestrian-vehicle detection and classification algorithm based on video.The algorithm dynamically adjusts confidence intervals for constructing Gaussian mixture model using neighborhood information,and uses the Kalman filter to predict the position of the target in the next frame.It extracts the target aspect ratio and area through adaptive EM clustering as a feature,then divides target into pedestrians and vehicles.Assume that target makes the uniform linear motion in adjacent frame and derive the target area to meet the linear relationship change.Thus target tracking and classification can be modified to improve the detection accuracy in the end.Experimental result show that the algorithm detection rate is over 90% and classification rate is over 80%.
pedestrian-vehicle detection;intelligent surveillance;motion object detection;objcet tracking;object classification;model estimation
1000-3428(2014)11-0135-04
A
TP391
10.3969/j.issn.1000-3428.2014.11.027
國家科技重大專項基金資助項目(2010ZX03004-003-01);中央高校基本科研業務費專項基金資助項目(2012FZA5008)。
楊 陽(1988-),男,碩士研究生,主研方向:視頻圖像處理,智能監控;唐慧明,副教授。
2013-12-18
2014-01-10E-mail:thm@zju.edu.cn
中文引用格式:楊 陽,唐慧明.基于視頻的行人車輛檢測與分類[J].計算機工程,2014,40(11):135-138.
英文引用格式:Yang Yang,Tang Huiming.Pedestrian-vehicle Detection and Classification Based on Video[J].Computer Engineering,2014,40(11):135-138.