邵奇可,李 路,周 宇,顏世航
(浙江工業大學 計算機科學與技術學院,浙江 杭州 310023)
一種基于滑動窗口優化算法的行人檢測算法
邵奇可,李路,周宇,顏世航
(浙江工業大學 計算機科學與技術學院,浙江 杭州 310023)
摘要:行人檢測是計算機視覺中的關鍵技術之一,在智能交通領域有大量實際應用,如何在提高行人檢測精度的同時提高檢測速度一直是研究的熱點.首先采用基于高斯混合模型的背景建模方法分離出運動目標,將原始視頻序列轉換為二值圖片,得到大量固定大小的訓練樣本;然后提取樣本圖片的HOG特征,通過SVM訓練得到分類器;接著用固定大小的滑動窗口檢測行人,并提出了一種滑動窗口優化算法來篩選檢測結果;進而用前景像素密度估算方法調整檢測結果,輸出最終統計人數,最后實驗表明方法的有效性。
關鍵詞:行人檢測;高斯混合模型;HOG;背景建模
Pedestrian detection in videos based on optimization
algorithm using sliding window
SHAO Qike, LI Lu, ZHOU Yu, YAN Shihang
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Abstract:Pedestrian detection is one of the key technologies in computer vision. It has applied in intelligent transportation field widely. How to improve the detection precision as well as the detection speed is a hot research topic. Background modeling method based on Gauss mixture model is used in this paper to separate the moving target from the background. Then the original video sequence can be converted into binary image for training. Then the HOG feature in the sample images are extracted through the Support Vector Machines. A size-fixed sliding window is used to detect pedestrians. Here an optimization algorithm using sliding window is proposed to screen the test results. Then the foreground pixel density estimation method is used to adjust the detection result. Finally the experimental results show the proposed method is effective。
Keywords:pedestrian detection; Gaussian mixture model; HOG; background modeling
隨著計算機視覺技術的發展,基于行人檢測技術的應用給人們的生活和出行帶來了諸多便利[1-2],尤其是在城市智能交通領域中的應用,對開展交通規劃和控制人流起著至關重要的作用[3].近年來,行人檢測技術的應用領域也在不斷擴展[4-6],這對行人檢測技術提出了更高的要求,復雜的環境(如光照變化,遮擋,天氣變化等)下,如何提高行人檢測的速度以及精度一直困擾著眾多研究者[7].目前行人檢測方法主要有基于運動特性的方法、基于模版匹配的方法以及基于機器學習的方法等.大多數基于運動特性的方法為了提取運動節奏特征要求一些重要部位(如腿、腳)是可見的,這對檢測目標有了過高的要求,在復雜場景下很難得到保證.Pedro F. Felzenszwalb等提出的圖形結構匹配算法是基于模版匹配的典型代表,該算法能較準確地檢測出復雜的行人姿態,但是匹配算法過于復雜,匹配速度過慢,且對復雜環境下的匹配精度無法保障[8].文獻[9]中Broggi等人提出了一種基于形狀的局部匹配算法,以大量不同大小的二值圖像為模板,對人的頭肩部分進行建模用于匹配和識別行人,提高了檢測速度,但這個方法過于依賴模版的質量.Mohan和Poggio提出的通過檢測人體部位來檢測行人的算法是基于機器學習的方法,能兼顧檢測速度和檢測精度,但訓練階段工作量過于龐大[10].針對訓練工作量大且耗時的問題,文獻[11]中提出了一種基于場景模型與統計學習的魯棒行人檢測算法,利用GMM(Gaussian mixture model)來建模[12],用Haar-like特征描述行人特征,以AdaBoost級聯結構作為分類器,并提出一種改進的弱分類器選擇算法,提高了弱分類器選擇和分類器重新訓練的速度.Dalal和Triggs提出的HOG(Histogram of oriented gradients)行人檢測算法有很好的檢測效果[13],為之后的行人檢測算法建立了良好的基礎,但HOG行人檢測算法對于檢測場景與訓練樣本有較高要求,場景的變化會對檢測精度和檢測穩定性造成影響,并且檢測速度過慢。
鑒于目前的研究狀況,筆者提出了一種基于滑動窗口優化的行人檢測算法,前期通過高斯混合模型的背景建模方法提取目標[14],降低背景因素的干擾,減少負樣本的訓練量,同時縮減檢測區域,提高檢測速度;然后提取目標的HOG特征[15],用SVM(Supportvector machines)訓練大量樣本得到自己的分類器[16],再用固定大小的滑動窗口檢測行人;并提出了滑動窗口距離優化算法對檢測到的行人進行篩選,最后通過特定的前景像素密度估計方法調整檢測結果[17],進一步提高檢測精度,輸出最終統計人數。
1總體概述
文中行人檢測算法是基于機器學習的行人檢測研究方法,前期需要對攝像機進行標定,檢測距離在3~7 m之間。
具體步驟如下:
Step 1:讀入特點區域視頻序列,用基于高斯混合模型的背景建模方法處理,得到大量二值圖片。
Step 2:從處理后圖片中截取固定大小為64×128像素的樣本圖片,提取正負樣本圖片的HOG特征,訓練自己的分類器。
Step 3:讀取待測區域的視頻序列,結合自己訓練的分類器,用固定大小的滑動窗口遍歷圖片,檢測行人目標,將檢測到的目標存入內存。
Step 4:用滑動窗口距離優化算法篩選檢測到的目標,調節閾值,去除一個目標重復檢測和一個檢測窗口多個分離目標的情況。
Step 5:用前景像素密度估計的方法調整檢測結果,輸出最終人數。
系統的總體流程圖如圖1所示。

圖1 系統總體流程圖Fig.1 The overall flow chart
Step 2中圖片的HOG特征計算公式如下:
圖像某點(x,y)水平方向梯度值Gx(x,y)方程式為
Gx(x,y)=H(x+1,y)-H(x-1,y)
(1)
垂直方向梯度值Gy(x,y)為
Gy(x,y)=H(x,y+1)-H(x,y-1)
(2)
式中H(x,y)為圖像原始點像素值。
梯度值G(x,y)為
(3)
梯度方向?(x,y)為
(4)
Step 3的檢測結果為固定大小的滑動窗口檢測到的所有目標,其中包括很多重復檢測,Step 4是筆者提出的優化算法用于去除重復檢測的目標,并保證一個檢測窗口中不存在多個分離的目標,Step 5是針對一個窗口中有多個重疊的目標而加入的人數調整方法,具體內容將在下節展開。
2滑動窗口距離優化算法和前景像素密度估計方法
用固定大小的滑動窗口檢測出所有對象W,定義一個變量i(0≤i 圖2 滑動窗口優化算法流程圖Fig.2 The flow chart of optimization algorithm using sliding window 測試可知:在當前場景下,閾值取值為410~600時,檢測效果最佳,誤檢和漏檢率最低,在研究過程中,為了能檢測到完整行人,為后續用前景像素密度估計的方法調整檢測結果作鋪墊,將閾值D設置為510.另外,由于對滑動窗口間距離的優化,有效去除了兩個人不互相遮擋但在一個檢測窗口的情況,筆者對1 000張不同圖片進行測試,都不存在此類情況,證明了算法的可靠性。 在前后兩人出現遮擋的情況下,由于無法通過距離優化算法將兩人分開檢測,采用了前景像素密度估計的方法來調整檢測結果[17].將經過距離優化算法檢測后的結果取出來,遍歷整個窗口,統計所有像素值為255的點,將統計數量記為N,檢測到的矩形窗口大小記為S,并將N/S的值作為調節閾值,記為TH,經檢測,當TH<0.28,檢測窗口內只有一個人,當0.28 3分類器的訓練與檢測結果 樣本主要來自校園人行道,公路人行道以及公交站臺等行人較多的場合,攝像機需要提前標定.為了得到檢測目標并盡量減少背景因素的干擾,筆者采用基于混合高斯模型的背景建模來處理視頻序列。 對于視頻幀中的某一點p(x,y),在一段時間內,它的像素值序列{X1,…,Xt}可以用K個混合高斯分布來描述.其中Xt表示t時刻點p的像素值.點p在t時刻的概率分布為 (5) 式中:K為該模型中高斯分布的個數;ωi,t為t時刻第i個高斯分布的權重;μi,t為t時刻第i個高斯分布的均值;∑i,t為t時刻第i個高斯分布的協方差矩陣;η為一個高斯概率密度函數,即 (6) 這里采用OnlineK-means算法初始化參數μ、ω和∑,具體如下: 1) 猜測每一類別的均值,標記為{m1,m2,…,mk}。 2) 為每一個類別設置一個計數變量,標記為n1,n2,…,nk,并且初始化為0。 4) 用各類的均值作為μ,并計算協方差∑,樣本的比例作為ω。 每個新到達的像素值Xt+1,都會與K個高斯分布進行比較,直到找到匹配的分布為止.匹配的條件為 (7) 式中k普遍認為取值為2.5時效果最佳。 當匹配過程結束時,若匹配到某個高斯分布時,更新如下: ωi,t+1=(1-α)ωi,t+α (8) μi,t+1=(1-ρ)μi,t+ρ·Xt+1 (9) (10) 式中:α為學習率,取值范圍為0~1,初始化背景時若α過大,雖然有利于背景模型的建立,但是背景模型建立后會導致模型不穩定,而過小則不利于模型的建立,此處取值為0.02;ρ=α·η(Xt+1,μi,∑i)為權值更新率.每次更新完成后,重新對高斯混合分布按從高到低的順序進行排序。 當未匹配到某個高斯分布時,用新的高斯分布代替最小的高斯分布,參數作相應修改。 經過基于混合高斯模型的背景建模方法處理視頻序列后,得到大量二值化圖片,從中提取正負樣本來訓練得到自己的分類器。 筆者共訓練了5 000張正樣本,2 115張負樣本.其中正樣本是形態各異的行人,負樣本是各種帶有噪聲點的背景圖片以及正樣本中誤檢的圖片,圖3是部分正樣本圖片示例,圖4是部分負樣本圖片示例。 圖3 部分正樣本圖片Fig.3 Part of the positive samples 圖4 部分負樣本圖片Fig.4 Part of the negative samples 采用大小為64×128像素的樣本圖片來訓練分類器,每8×8個像素為一個單元,梯度方向(0~180度)分為9個,每個20度,再對單元內各個像素所屬方向做一個投票統計,得到的票數就是該像素的邊緣強度.每2×2個單元構成一個塊,塊每次滑動的步長為一個單元(即8個像素),如此,每個塊中有4×9=36個特征,水平方向有7個步長,豎直方向有15個步長,共36×7×15=3 780個特征,對各個塊的梯度方向加權直方圖進行統計后,得到每個塊的特征,把檢測窗口內所有的塊的特征串聯起來,就構成了人體特征向量。 利用SVM訓練得到分類器后,用固定大小的滑動窗口遍歷整個待檢圖片,檢測窗口中是否有目標,若檢測到目標則存儲到內存,再用滑動窗口距離優化算法對檢測到的行人進行篩選,將篩選結果傳遞,最后通過特定的前景像素密度估計方法調整檢測結果,輸出最終統計人數。 筆者共測試了1 000張行人圖片并與原始HOG算法檢測效果進行比較,原始HOG算法檢測效果如圖5所示,筆者方法的檢測效果如圖6所示。 圖5 HOG檢測算法檢測效果Fig.5 The effect of HOG algorithm 圖6 筆者方法的檢測效果Fig.6 The effect of this method 在1 000張測試圖片中,同樣的訓練樣本,檢測的結果如表1所示。 表1 檢測效果比較 從以上檢測結果可知:當兩個檢測目標分離較遠時,原始HOG算法能有效地檢測出運動目標,但當兩個目標距離接近時,原始HOG算法會出現漏檢或誤檢現象.而提出的算法在兩個目標靠近時仍能精確地檢測出目標,在檢測精度上有了很大的改進。 同時,檢測結果顯示檢測一幀視頻序列的時間一般在140~260 ms(已將前期用混合高斯建模處理視頻時間約3 ms/幀計入)之間,而普通HOG算法檢測行人需要1 s以上的時間,可見在檢測速度上也有明顯的提升,符合實時性的要求。 4結論 提出了一種高效且較精確的行人檢測算法,用基于混合高斯模型的背景建模方法削弱背景的干擾,用HOG來描述行人特征并訓練自己的分類器,用固定大小的滑動窗口來檢測行人,同時提出了一種滑動窗口優化算法來篩選檢測結果,提高檢測精度,最后用前景像素密度估計的方法調整檢測結果,進一步提高檢測精度.在理論上分析和實際應用中,都具有良好的檢測效果.下一步研究工作主要是在確保檢測精度的基礎上,進一步提升高密度人群的檢測精度。 參考文獻: [1]湯一平,陸海峰.基于計算機視覺的電梯內防暴力智能視頻監控[J].浙江工業大學學報,2009,37(6):591-597。 [2]陳敏智,湯一平.基于支持向量機的針對ATM機的異常行為識別[J].浙江工業大學學報,2010,38(5):546-551。 [3]王為,姚明海.基于計算機視覺的智能交通監控系統[J].浙江工業大學學報,2010,38(5):574-579。 [4]SILBERSTEIN S, LEVI D, KOGAN V, et al. Vision-based pedestrian detection for rear-view cameras[C]//Intelligent Vehicles Symposium Proceedings. Dearborn: IEEE publisher,2014:853-860。 [5]PRIOLETTI A, MOGELMOSE A, GRISLIERI P, et al. Part-based pedestrian detection and feature-based tracking for driver assistance: real-time, robust algorithms and evaluation[J]. IEEE Transactions on Intelligent Transportation Systems,2013,14(3):1346-1359。 [6]OLMEDA D, PREMEBIDA C, NUNES U, et al. Pedestrian detection in far infrared images[J]. Integrated Computer-Aided Engineering,2013,20(4):347-360。 [7]DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence, IEEE Transactions on,2012,34(4):743-761。 [8]FELZENSZWALB P F, HUTTENLOCHER D P. Efficient matching of pictorial structures[C] //Computer Vision and Pattern Recognition. Hilton Head Island: IEEE publisher,2000:66-73。 [9]BROGGI A, BERTOZZI M, FASCIOLI A, et al. Shape-based pedestrian detection[C]//IEEE Intelligent Vehicles Symp. Dearborn: IEEE publisher,2000:215-220。 [10]MOHAN A, PAPAGEORGIOU C, POGGIO T. Example-based object detection in images by components[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2001,23(4):349-361。 [11]楊濤,李靜,潘泉,等.基于場景模型與統計學習的魯棒行人檢測算法[J].自動化學報,2010,36(4):499-508。 [12]STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking[C]//Computer Vision and Pattern Recognition. Fort Collins: IEEE publisher,1999:1063-1069。 [13]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition. San Diego: IEEE publisher,2005:886-893。 [14]STAUFFER C, GRIMSON W E L. Learning patterns of activity using real-time tracking[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2000,22(8):747-757。 [15]ZHU Qiang, YEH M C, CHENG K T, et al. Fast human detection using a cascade of histograms of oriented gradients[C]//Computer Vision and Pattern Recognition. New York: IEEE publisher,2006:1491-1498。 [16]CHAPELLE O, HAFFNER P, VAPNIK V N. Support vector machines for histogram-based image classification[J]. Neural Networks, IEEE Transactions on,1999,10(5):1055-1064。 [17]ZIVKOVIC Z, FERDINAND V D H. Efficient adaptive density estimation per image pixel for the task of background subtraction[J]. Pattern Recognition Letters,2006,27(7):773-780。 [18]原春鋒,王傳旭,張祥光,等.光照突變環境下基于高斯混合模型和梯度信息的視頻分割[J].中國圖象圖形學報,2007,12(11):2068-2072。 (責任編輯:陳石平) 中圖分類號:TP391 文獻標志碼:A 文章編號:1006-4303(2015)02-0212-05 作者簡介:邵奇可(1976—),男,浙江舟山人,副教授,博士,研究方向為網絡控制系統,E-mail:sqk@zjut.edu.cn。 基金項目:國家自然科學基金資助項目(61104095) 收稿日期:2014-11-20
0.7的情況,將調整數記為0,取下一幀視頻序列重新檢測,避免因突變引起誤差。 





