張 軍 楊伯軒 楊正瓴
(天津大學(xué)自動化學(xué)院 天津 300072)
?
基于行人與車輛關(guān)系模型的行人檢測
張軍楊伯軒楊正瓴
(天津大學(xué)自動化學(xué)院天津 300072)
針對在交通場景下的行人,考慮到絕大多數(shù)交通場景中車輛與行人同時存在,提出一種在對背景圖像進行初步行人檢測的同時對車輛進行檢測的方法,建立一種行人與車輛關(guān)系模型。以車輛位置作為輔助檢測基礎(chǔ),引入真假陽性檢驗用以排除出現(xiàn)在不可能區(qū)域的行人并介紹了具體方法。該方法首先對行人、車輛、行人與車輛關(guān)系特征進行定義并建模形成與其有關(guān)的函數(shù)關(guān)系,然后推導(dǎo)得到適用于支持向量機的標(biāo)準(zhǔn)形式,最后通過支持向量機回歸法訓(xùn)練分類器進行分類識別。現(xiàn)場實測結(jié)果表明,此種方法大大降低了誤檢率,對不同分辨率圖片中的行人均有較好的識別效果。
智能交通系統(tǒng)行人檢測車輛輔助檢測支持向量機多分辨率
行人檢測十幾年來一直是計算機視覺和智能交通領(lǐng)域的研究熱點,它在汽車輔助駕駛或自動駕駛系統(tǒng)、視頻監(jiān)控、運動識別等領(lǐng)域均有廣泛的應(yīng)用。目前的行人檢測方法主要分為基于視覺傳感器和基于非視覺傳感器兩大類。其中基于非視覺傳感器方法對硬件要求較高但檢測效果較差,因此使用率較低。目前主要應(yīng)用的方法是基于視覺傳感器的方法,該方法包括:基于模型匹配法、基于運動信息法、基于統(tǒng)計分類法、基于形狀分析法等。近年來,基于梯度特征的行人檢測方法逐漸普及,因其使行人檢測在有效性和效率方面均明顯提高,漸漸成為行人檢測的主流方法[1]。然而,行人檢測會受到行人的外形多種多樣,穿各種各樣顏色和式樣的服裝,行人所處的自然場景較復(fù)雜等原因的影響導(dǎo)致識別率會有所下降[2]。同時當(dāng)行人處于場景遠處而圖像的分辨率不足時,往往會導(dǎo)致行人漏檢。由于在實際交通場景中不能保證圖像均擁有較高的分辨率,所以低分辨率的行人檢測在實際應(yīng)用中也十分重要[3]。
為解決上述問題,考慮到交通場景中行人多數(shù)不是單獨孤立的存在,機動車經(jīng)常存在于其周圍且機動車相比于行人更易進行檢測[4]。因此,構(gòu)建一個行人與車輛關(guān)系模型,借助車輛來進行輔助定位,引入真假陽性檢測排除一些出現(xiàn)在不可能區(qū)域但被誤檢測的行人;同時建模形成支持向量機結(jié)構(gòu)[5]。最后通過訓(xùn)練支持向量機來進行分類識別[6]。
方向梯度直方圖HOG(Histogram of Oriented Gradient)是一種局部區(qū)域描述符。它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。可將HOG特征結(jié)合SVM分類器進行行人檢測[7]。
本文通過對目標(biāo)和掃描窗口進行檢測來計算HOG特征,具體過程如下:
(1) 將彩色圖像進行灰度化。
(2) 將圖像進行歸一化處理。
(3) 計算圖像橫坐標(biāo)和縱坐標(biāo)方向的梯度,并據(jù)此計算每個像素位置的梯度方向值,圖像中像素點(x,y)的梯度為:
Gx(x,y)=H(x+1,y)-H(x-1,y)Gy(x,y)=H(x,y+1)-H(x,y-1)
(1)
式中Gx(x,y)、Gy(x,y)、H(x,y)分別表示輸入圖像素點中水平方向梯度值、垂直方向梯度值和像素值。則轉(zhuǎn)化為(x,y)處的梯度幅值和梯度方向分別為式(2)和式(3)。
(2)
(3)
(4) HOG結(jié)構(gòu)采用矩形結(jié)構(gòu),將圖像分為若干個block,每一個block包括4個2×2的相鄰的cell構(gòu)成,每一個cell包括64個8×8的像素點,如圖1所示。

圖1 HOG塊的劃分方式
(5) 將所有block的HOG特征串聯(lián)起來,并將它們結(jié)合成最終的特征向量進行分類。
由上述方法所得的行人檢測結(jié)果往往會受到圖像以及背景中類似于行人的干擾影響,導(dǎo)致檢測準(zhǔn)確率降低。如圖2所示。

圖2 初步行人檢測結(jié)果
其中,只在區(qū)域2處得到較為準(zhǔn)確的行人檢測結(jié)果;由于區(qū)域1、3、4擁有與行人十分接近的HOG邊緣特征而導(dǎo)致誤檢測。進一步觀察,發(fā)現(xiàn)被誤檢測的區(qū)域與附近車輛擁有相對固定的位置關(guān)系。同時由于車輛體積較大,所占像素點較多,相對于行人很容易被準(zhǔn)確檢測。因此,在同一幅圖中,同時進行行人與車輛識別,并根據(jù)車輛位置排除一些出現(xiàn)在不可能區(qū)域而被誤檢測的行人,例如出現(xiàn)在車輛上方的區(qū)域1、3;車輛下方的區(qū)域4等。
2.1定義行人與車輛關(guān)系
在一幅圖像的多個車輛中選定一個車輛后,假設(shè)攝像機與地面完全水平對齊,我們將初步檢測到的行人與車輛的關(guān)系分為5種,分別是行人在車輛上方、下方、旁邊、交疊、遠離。根據(jù)此位置關(guān)系將行人與車輛的關(guān)系定義為一個與二者有關(guān)系的函數(shù)G(p,v),其中p為行人位置的中心,v為車輛位置的中心,構(gòu)建直角坐標(biāo)系,并以左下角為原點,像素點位置為其坐標(biāo)。如果兩者之間的位置關(guān)系是上述5個位置關(guān)系中除了“遠離”以外的任何一個,則將其位置關(guān)系由一個5維向量描述,將其定義為:
G(p,v)=(δ(s),ΔCx,ΔCy,Δh,1)
(4)
其中:
(5)
分別表示車輛與行人中心像素點在x,y方向上的像素點個數(shù)之差即坐標(biāo)值之差。
(6)
表示車輛與行人高度所占像素點個數(shù)之別即y軸坐標(biāo)差之比。
(7)
為整體歸一化系數(shù),通過加權(quán)提高監(jiān)測器對光照的魯棒性。當(dāng)行人與車輛之間的距離大于一定的閾值時,將行人與車輛之間的關(guān)系判定為“遠離”,此時行人與所選車輛無關(guān),上述所有值均為0 。
在上述基礎(chǔ)上進一步定義行人的特征,同樣也用一個5維向量g(p)描述行人的大小與位置,將其定義為:
g(p)=(δ(s),Cpx,Cpy,h,h2)
(8)
其中Cpx、Cpy分別為行人中心位置的橫、縱坐標(biāo),h為其高度所占像素點個數(shù)。同理對車輛進行相同定義:
g(v)=(δ(s),Cvx,Cvy,h,h2)
(9)
2.2構(gòu)建改進識別函數(shù)
在2.1節(jié)所述內(nèi)容基礎(chǔ)之上將定義擴展至整幅圖像,定義行人的識別率是所有行人識別率的均值。最終的函數(shù)值由初步HOG行人檢測結(jié)果和引入車輛后的檢測結(jié)果共同決定。
假設(shè)在一幅圖中有n個行人與m個車輛。定義數(shù)值函數(shù):
(10)
其中Wp和Wv分別對應(yīng)行人、行人與車輛之間的關(guān)系模型的參數(shù)。上式中后一項為引入車輛后對整體函數(shù)值的貢獻,用以確保正確的分類情況下函數(shù)值高于其余的可能情況。
同時,行人存在一定程度上的誤檢測,會導(dǎo)致函數(shù)值大于實際情況,因此引入真假陽檢驗修正系數(shù)tpi和tvj,則式(10)變?yōu)椋?/p>
(11)
其中tpi和tvj為2進制數(shù),當(dāng)行人出現(xiàn)在一些不可能出現(xiàn)的區(qū)域中(車輛上方、下方),例如圖2中的1、3、4區(qū)域時,其值為0;否則為1。可通過此方法使函數(shù)值更接近真實情況,降低漏檢率。
對于式(11)來說,其同時含有行人、車輛兩個變量。當(dāng)車輛參數(shù)固定時,式(11)轉(zhuǎn)化為一個將所有行人作為變量單獨考慮的一個問題。且在一個典型的交通場景中,車輛的數(shù)量一般不會超過8個,當(dāng)采用多個2類分類器時,此分類問題一般不會超過28個,在實際分類時較好解決。由于分類器的線性特性,可將式(11)如下形式:
(12)
式(12)給我們提供了一個機器學(xué)習(xí)的方法,令Wc=[Wp,Wv],假設(shè)攝像機與地面水平且行人與車輛滿足上述定義時,一個標(biāo)準(zhǔn)的支持向量機結(jié)構(gòu)便可通過對Wc的訓(xùn)練來解決此分類問題。
3.1支持向量機回歸法
在本文中,為了防止維數(shù)的災(zāi)難性增大,我們采用用于核函數(shù)估計的支持向量機即支持向量機回歸法。將原空間的向量映射到新的空間K[8]。
首先,考慮最優(yōu)分類面,在本文中采用線性回歸函數(shù):
f(x)=wcx+b
(13)
來擬合數(shù)據(jù){xi,yi;i=1,2,…,n},同時由于在實際交通場景條件下,所有的行人樣本可以在一定的精度ε范圍內(nèi)進行線性擬合,即:
(14)
其中i=1,2,…,n,兩個不等式表示擬合誤差有兩個方向。分類時為了控制最大化分類間隔類似,使回歸函數(shù)最為平坦,此時便有了用于回歸的支持向量機原問題:

(15)

若允許擬合超過誤差ε,只需引入松弛因子使ε變?yōu)棣?ζk,將其代入式(15),則目標(biāo)函數(shù)變?yōu)椋?/p>

(16)

然后,考慮到實際交通模型分類要求,則式(16)問題轉(zhuǎn)化為:

(17)
s.t.?PK,?VK,L(Pk,PKk)≤S(Pk,Vk)-S(PKk,VKk)+ξk
其中ξk為松弛因子,Pk、Vk為原圖像實際空間中的行人與車輛,PKk、VKk為所映射到的K空間的行人與車輛,L(Pk,PKk)是實際行人位置與映射的K值空間位置之間的Hamming損失,反映了錯誤檢測率。
最后,由于在式(17)中,行人在原空間的實際位置Pk由HOG檢測得到,但車輛參數(shù)Vk的精確檢測結(jié)果未知。為了解決這個問題考慮到噪聲與行人和車輛重合的情況,直接采用原始的檢測結(jié)果作為初始估計,最終其變?yōu)椋?/p>

(18)


3.2支持向量機模型參數(shù)確定
由于本文所選定的分類器為線性分類器,因此需要確定懲罰系數(shù)C。首先,從所有訓(xùn)練圖片中選取20幅圖片作為負訓(xùn)練樣本,并與正訓(xùn)練樣本一起構(gòu)成最初的訓(xùn)練樣本。之后選取2000個包含行人的正樣本和2000個不包含行人的負樣本訓(xùn)練分類器得到初步結(jié)果。最后,用此分類器對所有不含行人的訓(xùn)練樣本進行檢測得到困難負樣本,并與之前的負訓(xùn)練樣本進行合并,得到總3198個負訓(xùn)練樣本。
為了確定參數(shù)C,需要同時考慮支持向量數(shù)以及樣本的正確接收率(TPR)。在驗證過程中,將收集到的2000個正樣本隨機地平均分成10組,取其中8組與上述得到的負訓(xùn)練樣本一起作為訓(xùn)練樣本,剩下的2組作為測試樣本計算TPR,并取10次實驗結(jié)果的均值作為最終結(jié)果。如圖3所示,不同的的參數(shù)C對應(yīng)不同的樣本正確接收率。根據(jù)曲線所示,本文選取C=8作為初步檢測的支持向量機模型參數(shù)。

圖3 樣本正確接收率隨參數(shù)C變化曲線
在實驗過程中,我們嘗試對不同分辨率的圖像進行行人檢測,在高分辨率的情況下,初步的行人檢測結(jié)果便可以得到較好的識別效果,如圖4所示。

圖4 高分辨率下的行人檢測結(jié)果
但是,當(dāng)圖片的分辨率較低或受光照、黑夜或背景較為嘈雜的影響時行人檢測率會有明顯下降,此時,引入行人與車輛關(guān)系模型輔助檢測能有效地降低誤檢測率,得到較好的檢測結(jié)果。如圖5所示,當(dāng)背景較為嘈雜時。

圖5 嘈雜背景下優(yōu)化前后的行人檢測結(jié)果
如圖6所示,當(dāng)在夜晚條件下,光線昏暗且有強燈光干擾時。

圖6 夜晚條件下優(yōu)化前后的行人檢測結(jié)果
當(dāng)處在強光條件下時,檢測結(jié)果如圖7所示。

圖7 強光條件下優(yōu)化前后的行人檢測結(jié)果
從圖5-圖7中可明顯看出引入行人與車輛關(guān)系模型后,與傳統(tǒng)HOG邊緣檢測方法相比能夠在較差的圖片質(zhì)量中獲得更為準(zhǔn)確行人檢測結(jié)果。
在上述基礎(chǔ)上考慮將圖片放大至原來的1.5倍和2.5倍,以改變其分辨率狀況。在此基礎(chǔ)上,選擇200幅基礎(chǔ)圖片在改變其大小的情況下進行HOG基礎(chǔ)行人檢測,引入與車輛關(guān)系模型的行人檢測,檢測結(jié)果如圖8所示。

圖8 優(yōu)化前后不同分辨率下的行人誤檢率曲線
圖中hr、mr和lr分別表示圖像的分辨率為高分辨率、中分辨率和低分辨率。如圖所示,通過引入行人與車輛關(guān)系模型有效地降低了行人誤檢測率。
同時人為選擇高、低分辨率圖像各100張,分別采用文中所述方法和參考文獻中當(dāng)前較為主流的行人檢測方法進行行人檢測。將得到的行人檢測率匯總?cè)∑骄挡⒅谱髡劬€圖,如圖9所示。

圖9 不同方法在不同條件下的行人識別率
其中A、B、C、D、E分別表示基于行人與車輛關(guān)系型的行人檢測方法;基于Edgelet特征的分割檢測方法;基于HOG特征的初步行人檢測方法;基于輪廓模板的方法;基于人體部件的局部檢測方法。圖中所述行人識別率為綜合考慮誤檢測與漏檢測后的行人識別準(zhǔn)確率。可以看出,在高分辨率背景較為清晰時算法均有較好表現(xiàn)。但在低分辨率背景較為嘈雜時,文中所述算法擁有更高的檢測準(zhǔn)確率。
本文根據(jù)實際交通場景特點,考慮到攝像機分辨率受背景條件等各方面因素的影響。在HOG邊緣檢測方法的基礎(chǔ)上,提出了一種擁有較低行人誤檢測率的方法。此方法能有效地利用交通場景中普遍存在且較容易檢測的車輛作為輔助檢測工具并建立相應(yīng)的模型。同時構(gòu)建一個標(biāo)準(zhǔn)的支持向量機結(jié)構(gòu)便可完成對線性分類器的訓(xùn)練,操作相對簡單且準(zhǔn)確性較高。實驗結(jié)果表明,此方法在不同分辨率條件下均有良好的表現(xiàn)。可對原始行人檢測圖像進行進一步優(yōu)化處理,得到更為準(zhǔn)確的檢測結(jié)果。
但是,由于在場景中,可能存在行人處于車輛前方與車輛重疊的情況,在引入新算法時導(dǎo)致行人的漏檢。因此在接下來的工作中將嘗試改變圖像大小,把不同分辨率圖像的行人檢測結(jié)果綜合以降低漏檢率。
[1] 張學(xué)功.模式識別[M].北京:清華大學(xué)出版社,2006.
[2] 楊淑瑩.VC++圖像處理程序設(shè)計[M].北京:清華大學(xué)出版社,2003.
[3] Junjie Yan,Xucong Zhang,Zhen Lei.Robust Multi-Resolution Pe-destrian Detection in Traffic Scenes[C]//Proc. of IEEE Conference on Computer Vision and Pattern Recognition.San Diego,USA,2013:3003-3040.
[4] Carsten J,Ferguson D,Stentz A.3D field D*:Improved Path Planning and Replanning in three dimensions[C]//Proc. IEEE/RSJ Intern-ational Conference on Intelligent Robots and System Piscataway,NJ,USA:IEEE,2006:3381-3386.
[5] Yan Chen,Qiang Wu,Xiangjan He.Motion Based Pedestrian Rec-ognition[C]//Proc.of IEEE Congress on Image and Signal Processing.Sanya,China,2008:376-380.
[6] 程藝喆,雷武虎,戴勝波,等.基于圖像差分的自適應(yīng)背景建模高光譜目標(biāo)檢測[J].計算機應(yīng)用,2014,34(S2):291-294,319.
[7] 孫銳,陳軍,高雋.基于顯著性檢測與HOG-NMF特征的快速檢測方法[J].電子與信息學(xué)報,2013,35(8):1921-1926.
[8] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學(xué)學(xué)報,2011,40(1):2-10.
PEDESTRIAN DETECTION BASED ON PEDESTRIAN AND VEHICLE RELATION MODEL
Zhang JunYang BoxuanYang Zhengling
(SchoolofElectricalEngineeringandAutomation,TianjinUniversity,Tianjin300072,China)
For the pedestrians in traffic scenarios, and considering that the vehicles and pedestrians coexist in majority of traffic scenes, we put forward a method that detects vehicles on background image while carries outs preliminary pedestrian detection, and build a pedestrians and vehicles relationship model. We use the location of vehicle as the basis of auxiliary detection, introduce the true and false positive tests to exclude the pedestrians appearing in impossible region, and present the specific method. This method first defines pedestrians, vehicles, and the characteristics of pedestrians and vehicles relationship, and models them to form the correlated function relation. Then this is deduced to obtain the standard form suitable for support vector machine. Finally the method uses the support vector machine regression method to train the classifier for classification and recognition. Site measurement results show that this method greatly reduces the rate of error detection, and has good recognition effect on pedestrians on the pictures with different resolutions.
Intelligent transportation systemPedestrian detectionVehicle auxiliary detectionSupport vector machineMulti-resolution
2015-03-24。天津市科技計劃項目(13ZXCXGX404 00)。張軍,副教授,主研領(lǐng)域:智能交通與圖像處理。楊伯軒,碩士。楊正瓴,副教授。
TP391
A
10.3969/j.issn.1000-386x.2016.08.050