翟芬,蔡烜,李一蒙,馮瑞
基于局部行顏色自相似性特征的行人檢測方法
翟芬,蔡烜,李一蒙,馮瑞
針對(duì)計(jì)算機(jī)視覺領(lǐng)域的行人檢測問題,提出一種基于局部行顏色自相似性特征,該特征可表征為在HSV空間,圖像水平方向非重疊對(duì)稱塊顏色直方圖的距離信息,結(jié)合多層次導(dǎo)向邊緣能量特征形成圖像的融合特征,利用交叉核支持向量機(jī)進(jìn)行分類。與主流用于行人檢測的HOG+SVM方法相比,其特征維數(shù)低,在保證檢測精度的同時(shí),大幅提高了算法效率。實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
行人檢測;局部行顏色自相似性;多層次導(dǎo)向邊緣能量特征;交叉核支持向量機(jī)
行人檢測可定義為:判斷輸入圖片(或視頻幀)是否包含行人,如果包含,給出行人位置信息[1]。它在視頻監(jiān)控、智能交通、機(jī)器人導(dǎo)航、智能車輛輔助駕駛和人機(jī)交互等領(lǐng)域有著重要的應(yīng)用[2,3]。然而行人因光照的明暗、離攝像機(jī)鏡頭遠(yuǎn)近、姿態(tài)的變化會(huì)導(dǎo)致采集的圖像視頻千差萬別,行人檢測仍然是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)極具挑戰(zhàn)性的研究課題。
文獻(xiàn)[1]將行人檢測方法歸納成3種:DPM[4]及其變種、深度網(wǎng)絡(luò)(JointDeep[5],ConvNet[6])以及(Boosted)決策森林。這3種方法都能達(dá)到很好的效果(在Caltech-USA 上37% 的漏檢率)。特征作為描述行人的載體,手工設(shè)計(jì)的底層特征和深度學(xué)習(xí)模型自動(dòng)學(xué)習(xí)的特征應(yīng)用最為普遍。深度網(wǎng)絡(luò)學(xué)習(xí)的特征雖然在檢測的精度會(huì)優(yōu)于傳統(tǒng)的手工設(shè)計(jì)特征,然而它訓(xùn)練過程慢,參數(shù)多,計(jì)算速度慢于手工設(shè)計(jì)的特征。
Papageorgiou和Poggio[7]把Haar小波特征引入到行人檢測并由此提出了最早的滑動(dòng)窗口檢測子。Viola和Jones[8]引入了積分圖像,加快了特征計(jì)算的速度,同時(shí)他們還將級(jí)聯(lián)結(jié)構(gòu)用在檢測中,使用Adaboost自動(dòng)選擇特征。Dalal和Triggs[9]提出了方向梯度直方圖特征(histogram of Oriented Gradient,簡稱HOG),它描述了圖像局部梯度幅值和方向,把圖像分成若干塊,允許塊之間相互重疊,統(tǒng)計(jì)塊中梯度方向和幅值并歸一化處理形成直方圖。該特征結(jié)合SVM分類器,在行人檢測中獲得了極大的成功,是目標(biāo)檢測方面使用最廣泛的一種特征[10,11]。但該特征具有維度高,計(jì)算慢,遮擋處理能力差的缺點(diǎn)。Wu和Nevatia[12]利用短直線和弧線來刻畫行人的局部輪廓特征,稱為“edgelet”特征,使用Boosting來學(xué)習(xí)行人頭部、軀干、腿和整個(gè)人。另一個(gè)形狀特征“shapelets”[13]通過局部區(qū)域塊的梯度學(xué)習(xí)而得。顏色紋理信息也廣泛用于行人檢測算法中,Mu等人[14]利用廣泛應(yīng)用在人臉識(shí)別中的局部二值模式(Local Binary Pattern,簡稱LBP),提出兩種LBP描述子變體:Semantie-LBP和Fourier LBP。
行人衣著的多變性從一定程度上加大了行人檢測的難度,但行人卻有著局部對(duì)稱的自相似性。行人檢測領(lǐng)域中一般將直立的行人分為3個(gè)部分:頭部、軀干、下肢。每個(gè)區(qū)域有著對(duì)稱的自相似性,如頭部,軀干的左臂右臂,下肢的腿部,這種對(duì)稱性只在水平方向存在,豎直方向不存在。Walk等[15]基于顏色自相似性提出了刻畫了全局的自相似性特征,文獻(xiàn)[20]也提出了一種改進(jìn)的顏色自相似性特征,兩者維度都很高,計(jì)算成本大。本文充分利用行人水平方向的顏色對(duì)稱自相似性,將全局的顏色自相似性特征進(jìn)行局部化,以行來提取顏色自相似性特征(Local Row Color Self-similarity, 簡稱LRCSS特征),特征維度只有64維,大大降低了特征的維數(shù)。同時(shí),本文采用多層次導(dǎo)向邊緣能量特征(簡稱Multi-level HOG)與LRCSS特征融合形成1360+64維的新特征,并且使用直方圖交叉核支持向量機(jī)HIKSVM[2]進(jìn)行分類,該分類器能比一般的SVM速度快2000倍,并且節(jié)省200倍的空間。
直立的行人由于穿五顏六色的衣服,加大了描述行人特征的難度,但行人身體結(jié)構(gòu)和衣著具有局部對(duì)稱的自相似性,如臉部的膚色,兩只手臂,左右肩膀以及兩條褲腿的顏色都是左右對(duì)稱。行人的這種顏色自相似性,將原始1228×64的圖片轉(zhuǎn)化成灰度圖,再將灰度圖分為8*8的小塊,總共有16×8個(gè)block,每個(gè)小塊無重疊,小塊的像素值用灰度平均值來表示如圖1所示:

圖11 行人的局部對(duì)稱相似性
從圖1中可以看出每一行的行人區(qū)域block具有相似性和對(duì)稱性。
Walkk等人利用行人對(duì)稱特性,提出了顏色自相似特征(Color SSelf-similarity簡稱CSS),將128×64的圖片分成8×8的小塊,統(tǒng)計(jì)其HHSV直方圖信息,總共有166×8=128個(gè)block,然后將第1個(gè)block與其后127個(gè)block分別求直方圖相交的距離,第2個(gè)block與其后126個(gè)blocck分別比較,以此類推,最后形成N×(N-1) //2= 8128維度的特征。基于上面對(duì)行人結(jié)構(gòu)的分析,該特征行人區(qū)域與背景區(qū)域的比較沒有物理意義,具有很多的冗余信息。
本文提出的局部行顏色自相似性特征充分利用了行對(duì)稱的特點(diǎn),最終形成的顏色特征只有64維。特征計(jì)算過程如圖2,具體計(jì)算步驟如下:
(1)將輸入的彩色圖像轉(zhuǎn)換到HHSV空間中:實(shí)驗(yàn)表明[13],使用HSV空間的圖像相比RGBB,LUV等其他空間的效果好。
(2)計(jì)算每個(gè)bloock的顏色直方圖:將輸入的128×64的圖像切分為8×8的bblock,block之間無重疊,總共有16 ×8=128個(gè);分別計(jì)算H、S、V3個(gè)通道的直方圖,設(shè)定每個(gè)通道包含3個(gè)bins。為減少區(qū)域混疊效應(yīng),使用三線插值來計(jì)算直方圖,文獻(xiàn)[8]在計(jì)算HOG特征時(shí),使用了三線插值,本文直方圖按公式(1)計(jì)算。

其中(x1,y1)為bloock中心坐標(biāo),((x,y)為統(tǒng)計(jì)的坐標(biāo)點(diǎn),C1,C2為是坐標(biāo)點(diǎn)(x,yy)的通道顏色值所相鄰的兩個(gè)顏色區(qū)間,dx,dy分別為bloock的寬和高,dc是直方圖統(tǒng)計(jì)區(qū)間間隔。
(3)計(jì)算行對(duì)稱bblock顏色直方圖的相似度:在H、S、 V三個(gè)顏色通道中,分別計(jì)算每一行的第1個(gè)block和第8個(gè)block,第22個(gè)block和第7個(gè)block,第3個(gè)block和第6個(gè)block,第44、5個(gè)block直方圖的距離,將三通道計(jì)算所得到的距離值相加。最后得到的特征維數(shù)是4×16=644維。
度量直方圖相似度通常使用L1-normm、L2-norm、χ2距離和直方圖相交。本文通過實(shí)驗(yàn)發(fā)現(xiàn),采用直方圖相交效果最佳。M,N為兩個(gè)block的直方圖,i為直方圖bins,這里i=1,2,3,直方圖相交如公式(2)所示:

(4)特征歸一化:這里采用L2-normm對(duì)上一步計(jì)算的直方圖距離進(jìn)行歸一化如公式(3)所示:

多層次導(dǎo)向邊緣能量特征(Multi-Leevel Oriented EEdge Energy Featurres, 簡稱Multii-level HOG),該特征是一種多層級(jí)(multi-level)的HOGG描述子,沒有重疊的細(xì)胞單元,特征的維度也降低了,相比HOG特征的33780維,只有1360維。特征計(jì)算步驟如下:
(1)將輸入圖像與Gaabor(σ=1)濾波器卷積,獲得8個(gè)方向的能量響應(yīng)。
(2)基于上述8個(gè)方向的能量響應(yīng),分別以16×116的非重疊塊進(jìn)行L1-norm正規(guī)化,得到正規(guī)化的能量響應(yīng)如圖2所示:

圖2 LRCSS特征提取過程
(3)在每個(gè)層級(jí)l∈((1,2,3,4),圖像分別被劃分成非重疊的64×64,332×32,16×166,8×8的區(qū)域,計(jì)算每個(gè)區(qū)域的能量響應(yīng)和,構(gòu)建直方圖特征。
(4)對(duì)層級(jí)為l的直方圖賦一個(gè)權(quán)重因子CC1,C1=1/4(L-l)。其中L=4,l∈(1,2,3,44)。
由于完備的理論、良好擴(kuò)展性和性能,目前行人檢測中常用的分類器是SVM、Booosted決策樹。SVM目的是尋找最優(yōu)分類面,可分為線性核和非線性核SSVM,其中線性核的SVM訓(xùn)練和分類速度快,運(yùn)行時(shí)復(fù)雜度低,常用于實(shí)時(shí)應(yīng)用中,非線性核的SVMM分類效果更好,但比較耗時(shí)。Boosted決策樹有著更快的分類速度,但訓(xùn)練很慢,并且隨著分類類別數(shù)的增加,訓(xùn)練的復(fù)雜度呈指數(shù)級(jí)增長。
本文使用一種非線性核SVM分類器—直方圖交叉核SVM(Histoggram Intersectioon Kernel SVMM, 簡稱HIKSVVM)[2]。該分類器通過改寫交叉核,既加快計(jì)算速度又節(jié)省大量的空間。設(shè)其中yi∈{-1,1},為訓(xùn)練標(biāo)簽,x∈Rn是樣本,定義核函數(shù)k(x,z)=Φ(x)·Φ(z),iRn×Rn→R ,對(duì)于在特征空間不能找到最優(yōu)分類面的特征x,核函數(shù)將特征映射到高維空間來求解分類面。在線性SVM分類器中,通過最小化公式找到最優(yōu)的分類面如公式(4):

這里C〉0為懲罰參數(shù),最小化目標(biāo)函數(shù)(4)包含兩層含義:使盡量小,即間隔盡量大,同時(shí)使誤分類點(diǎn)的個(gè)數(shù)盡量小,C是調(diào)和二者的系數(shù)。
上述的公式(4)轉(zhuǎn)化為對(duì)偶公式如公式(5):

分類決策函數(shù)為sigh(h(x)),如公式(6):

其中xl:l∈{1,2,…,m}為支持向量,一般核SVM分類需要m次的核運(yùn)算,分類復(fù)雜度為O(mn),并且m個(gè)支持向量需要存儲(chǔ)下來。而對(duì)于線性SVM,核函數(shù)k(x,z)=〈x,z 〉,h( x)=〈w,x〉+b ,所以對(duì)于線性SVM,分類復(fù)雜度僅為O(n)。
直方圖交叉核SVM可以通過特殊的核來加速分類過程,交叉核函數(shù)為k(x,z)如公式(7):

決策函數(shù)如公式(8)、(9):

對(duì)于交叉核,我們可以交換(9)中的求和符號(hào)Σ,從而(9)可以寫成如公式(10)、(11):

在這里,分類的復(fù)雜度仍然是O(mn),對(duì)于公式(11),我們首先對(duì)xl(i)進(jìn)行排序,排序之后為l(i) ,然后與s進(jìn)行比較,如果xl(i) 〉s, 則hi(s)= 0,當(dāng)xl(i) ≤s時(shí) ,則有公式(12):

hi(s)是分段線性且連續(xù),因?yàn)楣剑?3):

先計(jì)算hi(xr),然后使用二值搜索以及在hi(xr)和hi(xr+1)中使用線性插值,找出s在xl(i) 中的位置r,最后可以求得hi(s)。此算法的時(shí)間復(fù)雜度為O(nlogm)。
4.1 數(shù)據(jù)集介紹
行人檢測里常用的數(shù)據(jù)集有INRIA,ETH,TUD-Brussels,Daimler(Daimler stereo),Caltech-USA等。INRIA 數(shù)據(jù)集是目前使用最多的靜態(tài)行人檢測數(shù)據(jù)集,包含了各種光照和場景(城市、沙灘、山),常常被用作訓(xùn)練數(shù)據(jù)。ETH和TUD-Brussels是尺寸適中的視頻數(shù)據(jù)。Daimler數(shù)據(jù)集為灰度圖像,缺少顏色通道。Caltech數(shù)據(jù)集是目前最大最具挑戰(zhàn)的數(shù)據(jù)集。
INRIA數(shù)據(jù)集提供原始圖像及相應(yīng)的標(biāo)注文件,并且包含的場景廣泛,本文使用它訓(xùn)練模型和測試。INRIA數(shù)據(jù)集有正樣本614 張(包含2416個(gè)行人),負(fù)樣本1218 張;測試集有正樣本 288 張(包含1126個(gè)行人0,負(fù)樣本 453張。圖像中人體大部分為站立姿勢(shì)且高度大于 100個(gè)像素。實(shí)驗(yàn)中訓(xùn)練集正樣本為2416張行人圖像,負(fù)樣本從1218張負(fù)樣本圖像中每張隨機(jī)截取4張圖像,組成4872張負(fù)樣本訓(xùn)練集。測試集正樣本為1126張行人圖像,負(fù)樣本從453張負(fù)樣本圖像中每張隨機(jī)截取5張圖像,組成2265張負(fù)樣本測試集。
4.2 實(shí)驗(yàn)結(jié)果及分析
在INRIA行人數(shù)據(jù)庫上,本文方法與HOG+SVM進(jìn)行比較。本文算法流程圖如圖3所示:

圖3 本文方法流程圖
實(shí)驗(yàn)環(huán)境為Intel(R)Core(TM)CPUi7,3.4GHz,內(nèi)存8G,64位Ubuntu13.10。實(shí)驗(yàn)采用特征提取時(shí)間、召回率(公式14)、檢測率(公式15)與虛警概率(公式16)組成的ROC曲線等參數(shù)來評(píng)價(jià)性能如公式(14)、(15):

HOG特征有3780維,一張128×64的圖片需要0.028s,本文提出的特征有1424維,特征提取只需要0.019s,特征提取時(shí)間快了47.4%如表2所示:

表2 特征比較
兩種方法的準(zhǔn)確率、召回率以及圖像檢測時(shí)間如表3所示:

表3 HOG+SVM方法與本文方法性能比較
從表3中可以看出,本文方法準(zhǔn)確率和召回率都比HOG+SVM方法高出2.5%。對(duì)于一張640×480的圖像,使用訓(xùn)練的模型,加上多尺度空間滑動(dòng)窗口處理及非極大值抑制(NMS),本文方法比HOG+SVM快了50倍。
兩種方法在INRIA數(shù)據(jù)集上的ROC曲線如圖4所示:

圖4 HOG+SVM方法與本文方法ROC曲線
從圖4中可看出,本文的算法比傳統(tǒng)的HOG+SVM有了較大地提升。本文提出的特征不僅描述了圖像局部梯度的信息,還包含行人顏色自相似性信息,該特征信息量更全,因而性能更好。
本文提出了一種基于局部行顏色自相似性的特征(Local Row Color Self-similarity,簡稱LRCSS),該特征具有更小的維度,并將其與Multi-level HOG特征融合,得到1380+64維的特征,使用直方圖交叉核支持向量機(jī)(HIKSVM)進(jìn)行分類,分類準(zhǔn)確率高且速度快。LRCSS特征是局部對(duì)稱特征,后續(xù)可以在解決行人遮擋問題上進(jìn)行探索和優(yōu)化。

圖5 部分實(shí)驗(yàn)結(jié)果
[1]蘇松志.行人檢測技術(shù)綜述[J].電子學(xué)報(bào), 2012, 40 (4):814-820.
[2]Dollar, Piotr, et al. Pedestrian detection: An evaluation of the state of the art. Pattern Analysis and Machine Intelligence [J].IEEE Transactions on 2012.34(4): 743-761.
[3]Wang, Qingyuan, et al. Justifying the importance of color cues in object detection: a case study on pedestrian. The Era of Interactive Media[J].Springer New York, 2013: 387-397.
[4]Felzenszwalb, Pedro, David McAllester, and Deva Ramanan. A discriminatively trained, multiscale, deformable part model. Computer Vision and Pattern Recognition, 2008. CVPR 2008 [M]. IEEE Conference on. IEEE, 2008.
[5]Ouyang, Wanli, and Xiaogang Wang.Joint deep learning for pedestrian detection [M].Computer Vision (ICCV), 2013 IEEE International Conference on.IEEE, 2013.
[6]Sermanet, Pierre, et al. Pedestrian detection with unsupervised multi-stage feature learning [M].Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013.
[7]Papageorgiou, Constantine, and Tomaso Poggio. A trainable system for object detection [J].International Journal of Computer Vision 38.1 (2000): 15-33.
[8]Viola, Paul, and Michael J. Jones. Robust real-time face detection [J].International journal of computer vision 57. 2 (2004): 137-154.
[9]Dalal, Navneet, and Bill Triggs. Histograms of oriented gradients for human detection. Computer Vision and Pattern Recognition, 2005. CVPR 2005 [M]. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.
[10]Pang Y, Yuan Y. Efficient HOG human detection[J]. Signal Processing, 2010, 91:773-781.
[11]陳銳.基于穩(wěn)定區(qū)域梯度方向直方圖的行人檢測方法. [J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,3(24):372 -377.
[12]Wu, Bo, and Ramakant Nevatia. Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors [M].Computer Vision,2005. ICCV 2005. Tenth IEEE International Conference on. IEEE, 2005(1).
[13]Sabzmeydani, Payam, and Greg Mori. Detecting pedestrians by learning shapelet features [M].Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007.
[14]Mu, Yadong, et al. Discriminative local binary patterns for human detection in personal album [M].Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008.
[15]Walk, Stefan, et al. New features and insights for pedestrian detection [M].Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. IEEE, 2010.
A Method of Pedestrian Detection Based on the Local Row Color Self-similarity
Zhai Fen1, Cai Xuan1,2, Yimeng Li2, Feng Rui1
(1.Video Technology and Systems Engineering Research Center of Shanghai, School of Computer Science, Fudan University, Shanghai 201203, China; 2.The third Institute of Ministry of public security, Shanghai 201204, China)
For pedestrian detection problems in computer vision, this paper proposes a feature based on the local row color self-similarity. In HSV space, this feature represents the color histogram distance of the symmetric non-overlapping blocks in the horizontal direction. It combined Multi-Level Oriented Edge Energy Features with this feature to obtain fusional features, and used Histogram Intersection Kernel Support Vector Machine to classify. Compared to the method of mainstream HOG+SVM, the dimension of this feature is lower. While guaranteeing the detection accuracy, the efficiency of this method is improved mostly. Experiment results validate the effectiveness of the proposed approach.
Pedestrian Detection; Local Row Color Self-similarity; Multi-level Oriented Edge Energy Features; HIKSVM
TP391
A
2015.01.26)
1007-757X(2015)04-0004-04
國家科技支撐計(jì)劃(2013BAH09F01);上海市科委科技創(chuàng)新行動(dòng)計(jì)劃(14511106900)
翟 芬(1989-),女,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海視頻技術(shù)與系統(tǒng)工程研究中心,碩士研究生,研究方向:視頻圖像處理和計(jì)算機(jī)視覺,上海,201203
蔡 烜(1980-),男,公安部第三研究所,助理研究員,博士,研究方向:機(jī)器學(xué)習(xí),上海,201204
李一蒙(1992-),男,公安部第三研究所,學(xué)士,研究方向:計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí),上海,201204
馮 瑞(1971-),男,復(fù)旦大學(xué),副教授,博士,研究方向:視頻圖像處理和計(jì)算機(jī)視覺,上海,201203