孫愛娟,顧國華,錢惟賢,俞曉東,周玉蛟
(南京理工大學,江蘇 南京 210094)
基于立體視覺的人體頭部目標識別研究
孫愛娟,顧國華,錢惟賢,俞曉東,周玉蛟
(南京理工大學,江蘇 南京 210094)
將立體視覺運用于人體頭部目標檢測,設計了一種基于圖像深度信息處理的人體頭部識別系統。系統采用Xtion攝像機采集場景的深度圖像,并對其進行特征分析,根據深度圖像的特點以及頭部的特征確定頭部目標區域。再對目標區域采用Mean Shift算法進行聚類處理,得到清晰的圖像邊緣。最后通過基于動態閾值的一維熵函數分割法實現頭部的分割識別。該系統可快速鎖定目標區域,減少了算法的計算量,大大提高了系統的識別速度。此外,采集深度圖像的Xtion攝像機懸掛在目標場景的正上方,因而較好地解決了目前人體目標檢測受遮擋的問題。經實驗論證,該系統有較高的識別精度。
立體視覺;深度信息;目標檢測;Xtion攝像機
人體運動分析是計算機視覺領域[1]備受關注的研究課題,其關鍵在于從圖像序列中檢測、跟蹤目標個體,進而分析目標的運動特性。該技術在智能監控領域有著較為廣闊的應用前景,如公共車站、商場、景點等公共場所的客流量統計,能夠為管理者提供更有效的運行管理機制,提高資源的利用率,為實現智能化辦公提供保障。
人體目標檢測是人體運動分析的基礎,同時也是至關重要的部分。基于圖像處理的目標檢測是一項較新的技術,近年來,也取得了較大的進展。由Haritaoglu等人[2]提出的W4(即Who,When,Where,What)系統,可以進行多個人體目標的檢測與跟蹤。CMU提出的VASM[3]是一個跟蹤人體和運動目標的發展系統。Kang和Lee[4]提出了可以解決多人遮擋問題的人體目標檢測與跟蹤系統。總的來說,目前多數研究都屬于單目視頻圖像處理,即對單個攝像機采集到的視頻圖像進行處理的過程。
視頻圖像中人體目標檢測常用的方法有相鄰幀差法[5]、光流法[6-7]、背景減法[8-11]等。
相鄰幀差法是指對視頻圖像序列中相鄰的兩幀圖像作差分計算,并將獲得的結果和預先設定的閾值比較,從而判斷是否為運動目標。相鄰幀差法算法簡單易實現,但是當攝像機獲取連續兩幀圖像的時間間隔較短或當運動目標變化較慢時,相鄰兩幀圖像重疊部分較多,而重疊部分較難被檢測,容易造成目標檢測的不完整。此外,當光照有明顯變化時,連續兩幀圖像之間存在的灰度的差異也會造成目標檢測的誤差,影響結果的精度。光流法是根據運動目標的光流特性結合目標的幾何特點來實現目標檢測。因為光流法體現的是運動目標和背景之間的相對運動,因此,即使在復雜背景和攝像機移動的情況下,光流法也可以較為準確地檢測運動目標。但是光流法算法過程復雜,計算量較大,很難實現實時檢測。背景減法則是將每幀圖像與當前背景模型做差分計算以得到運動目標,缺點在于當背景模型不能及時更新時,將對檢測結果造成直接的影響。上述這些方法都是基于二維圖像處理的目標檢測。綜上可知,該類算法對視頻圖像的要求比較高,容易受到光照變化以及光照產生的陰影的影響,通用性較差,很難實現較高精度的實時監測。
為了解決基于二維圖像處理的目標檢測存在的問題,很多學者做了多方面的改進。其中,基于梯度方向直方圖的人體識別方法從俯視的場景圖像中提取頭部的灰度信息作為檢測目標的特征[12],該類方法較好地解決了遮擋的問題,精度較高,但是提取目標特征的過程中需要大量的樣本訓練,因而計算量較大,影響系統的識別速度。而對圖像的深度信息進行研究處理的方法也得到了很多學者的關注。利用深度信息進行頭部檢測的方法采用頭部輪廓的面積以及圓形特征作為約束條件進行識別與篩選,較好地解決了光照對系統的影響[13]。該類算法簡單,能滿足實時的要求,但是精度較低。
本文利用可以直接獲得目標場景深度信息體感傳感器(以下簡稱Xtion傳感器),采用自頂向下的拍攝方式獲得目標場景深度圖像。即使在人流擁擠的情況下,頭部和頭部之間還有一定的空隙,可以有效避免人流的遮擋、重疊等現象。在此基礎上,本文提出了一種基于深度圖像處理的人體頭部識別的方法,首先利用深度信息快速找到疑似頭部目標,減少搜索范圍,提高識別速度,再采用Mean Shift算法對圖像進行預處理,最后通過基于動態閾值的一維熵函數分割法實現頭部的分割與識別。
1.1 三維深度圖像的采集
三維深度圖像是指用像素灰度值來表示場景中的每個像素點到傳感器距離的圖像。本文采用華碩公司的Xtion傳感器直接獲得三維深度圖像。
Xtion傳感器獲取深度信息使用的是主動獲取方式。利用PrimeSense公司提出的三維測量技術,即Light Coding(光編碼)技術來獲取圖像的深度信息。Light Coding[14]技術,顧名思義,就是用光線給測量空間進行編碼,再經感應器讀取編碼后的光線,最后通過解碼計算生成場景的深度圖像。Xtion傳感器采用的是連續的近紅外光。圖1為Xtion攝像機拍攝到的場景的彩色圖像,圖2是其對應的原始深度圖像。

圖1 彩色圖像

圖2 原始深度圖像
1.2 三維深度圖像特征分析
原始三維深度圖像中像素灰度值的大小表示物體表面與傳感器的距離,距離越近,像素灰度值越小,反之,灰度值越大。根據得到的原始三維深度圖像的灰度值信息結合像素灰度值與距離的轉換關系式,即可知道場景圖像中的每一個像素點到傳感器之間的距離
H=α×G
(1)
式中:H表示空間某點和傳感器攝像窗口的距離,其取值范圍為300 為了更直觀地顯示原始深度圖像中的灰度值和深度信息的對應關系,對原始三維深度圖像進行處理。首先對得到的原始深度圖像取反并求三維直方圖,為了更直觀地顯示深度信息,利用偽彩色算法對三維直方圖進行處理,得到圖3,其中,x和y坐標分別表示三維深度圖像的寬與高,即像素點在三維深度圖中的位置坐標信息z,坐標表示該像素點的深度信息。分析三維直方圖可以知道,像素信息大量地堆積于頭部。且頭肩存在一定的高度差異,所以頭肩的深度信息會存在一個突變值,即使在人員擁擠的情形下,頭部和頭部之間也會存在空隙。此外,頭部面積滿足一定的約束條件,并且是閉合的類圓連通域。 圖3 三維直方圖 根據上述這些頭部特征,設置約束條件,將滿足上述特征的像素點合并到一個區域,作為一個疑似目標快處理,將其余的區域作為背景處理。 本系統實驗條件為攝像機架設高度為2.5 m,攝像機之間的距離為0.8 m。在本實驗的視場條件下,頭部總像元的寬高比w/h的范圍是[0.65,1.5]。其中,w表示頭部總像元的寬度,h表示頭部總像元的高度。再以頭部最高點為起點,根據式(1),假設頭頂到肩部的最長距離為h,那么可以得到灰度的突變值g=h/α。根據以上約束條件,可得到如圖4所示的目標區域。圖4a中,左側偽目標區域由于不滿足頭部的寬高比、頭部的類圓性以及與鄰近的頭部目標之間不存在有效的間隙,所以排除目標的可能性。最后確定的場景圖像中的頭部目標如圖4b所示。 圖4 場景圖像中目標區域 2.1 基于MeanShift[15-16]算法的圖像預處理 在給定的d維空間Rd中有n個樣本點xi(i=1,2,…,n),那么x點處的Mean Shift向量定義為 (2) 式中:Sh為由所有滿足式(3)的y點的集合構成的半徑為h的高維球區域 Sh(x)={y:(y-x)T(y-x)≤h2} (3) 式中:k表示在n個樣本點組成的xi中,有k個點落入Sh區域中。 式(2)中,(xi-x)是樣本點xi相對于點x的偏移量,Mh(x) 是k個落在區域Sh中的樣本點相對于點x的偏移量的均值。其中,樣本點xi是通過概率密度函數f(x)采樣得到。因為概率密度梯度都是指向密度增大的方向,所以區域Sh的內的樣本點大部分落在沿著概率密度梯度增大的方向。因此,對應的Mean Shift向量Mh(x)也指向概率密度梯度增大的方向。 下面首先計算點x的概率密度。對落在以x為圓心,h為半徑的球內的點xi定義2個規則:1)x與xi像素點的顏色越相近,概率密度越高;2)x與xi像素點的距離越近,概率密度越高。 定義總的概率密度為以上兩個規則中概率密度的乘積,用式(4)表示 (4) 根據上述概率密度的計算方法以及Mean Shift算法的原理,實驗采用如下的步驟對圖像進行處理。本實驗處理的是二維的圖像,所以維度參數d為2。 首先根據式(4)計算每一個目標區域圖像的概率密度函數,得到khs,hr;在每一個疑似目標區域中,任選一點x作為圓心,其中x從概率密度函數khs,hr采集得到。以h為半徑做一個圓。此時所有落在圓內的點和x會產生一個向量,以x為起點,以所有落在圓內的點為終點,將這些向量相加,得到一個Mean Shift向量,接著再以Mean Shift向量的終點為圓心,重復以上計算,Mean Shift向量可以收斂到概率密度最大的地方。 最后得到的效果圖如圖5所示。圖像得到有效的聚類處理。 圖5 Mean Shift聚類處理效果圖 2.2 基于動態閾值的一維熵函數分割法 對Mean Shift算法預處理后的圖像,采用一維最大熵閾值分割法來分割頭部和非頭部區域。根據得到的三維直方圖,以圖像中像素局部最高點的集合以及像素差值小于設定值的鄰域一起作為目標圖像塊。對每一個圖像塊采用假設以灰度級t作為閾值分割頭部和非頭部區域。鄰域中像素值高于t的像素點構成頭部區域,像素值低于t的像素點構成非頭部區域。那么,非頭部和頭部區域的熵分別為HB和Ho (5) (6) φ=Ho+HB (7) 本實驗在MATLAB仿真實驗平臺上進行。為了更清晰地顯示,圖6為二值化之后的實驗結果。 圖6 二值化的頭部識別結果 3.1 精度比較 基于頭部輪廓特征和面積進行頭部識別的方法中[13],為了防止遮擋問題,將類圓形也設定為目標。根據實驗效果,在無遮擋的情況下,該類算法很容易將深度圖像中的人體肩部等類圓圖像誤判為頭部,因此,精度不高。圖7a為該類算法得到的效果圖。與原始彩色圖進行對比,可以發現,算法在畫面上方和左下方都出現了誤判,如圖7b所示。 圖7 對比算法效果圖 3.2 速度比較 為了驗證本文系統的實時性,將該方法與基于俯視圖像灰度信息處理的方法[12]進行對比,統計了兩種方法處理每幀圖像所需要的時間,并隨機抽取20個樣本(編號1~20)數據進行比較,數據如表1所示。將其用MATLAB進行統計得到直觀的效果對比圖,如圖8所示。本文算法處理圖像的速度為18.5幀/秒(f/s),視頻流暢且處理速度快。 表1 算法速度對比樣本數據 樣本編號每幀處理時間/s本文文獻[12]樣本編號每幀處理時間/s本文文獻[12]10067007220030004130069007440054006150071007660062006870031003480070007490048005610002000311100720081120054006113005100631400750082150038004516007400821700540061180070008119004300522000380042 圖8 算法速度對比圖 目標識別是目標檢測與跟蹤系統中的重要技術。本文提出了基于圖像深度信息處理的人體頭部目標識別系統。由于該系統只對深度圖像進行分析處理,因而較好地解決了目前目標檢測較容易受到光照影響的問題。經實驗論證,該算法識別精度能達95%以上,且速度較快,能較好地應用于實時監測系統。 [1] 馬頌德,張正友. 計算機視覺[M].北京:科學出版社,1998. [2] HARITAOGLU I,HARWOOD D,DAVIS L S.W4:Who?When?Where?What?A real time system for detecting and tracking people[C]//Proc. 3rd Int’l Conference on Face and Gesture Recognition. Nara,Japan:Springer,1998:222-227. [3] COLLINS R T,LIPTION A L,KANADE T,et al. A system for video surveillance and monitoring[R].Pittsburgh,USA:Robotics Institute,2000. [4] KANG S,HWANG B W,LEE S W. Multiple people tracking based on temporal color feature[J].International Journal of Pattern Recognition and Artificial Intelligence,2003,17(6):931-949. [5] ZHU Man,SUN Shuifa,HAN Shuheng,et al. Comparison of moving object detection algorithms[M].[S.l.]:World Automation Congress(WAC),2012. [6] FRADI H,DUGELAY J. Robust foreground segmentation using improved Gaussian Mixture Model and optical flow[EB/OL].[2015-03-20].http://www.researchgate.net/publication/261054309_Robust_foreground_segmentation_using_improved_Gaussian_Mixture_Model_and_optical_flow. [7] YIN Jianqin,HAN Yanbin,HOU Wendi,et al. Detection of the mobile object with camouflage color under dynamic background based on optical flow[J].Procedia Engineering,2011(15):2201-2205. [8] ZHANG Ruolin,DING Jian. Object tracking and detecting based on adaptive background subtraction[J]. Procedia Engineering,2012(29):1351-1355. [9] YANG Jingjing,DAI Yaping. A modified method of vehicle extraction based on background subtraction[C]//Proc. 2012 IEEE International Conference on Fuzzy Systems(FUZZ-IEEE),2012.Brisbane,QLD,New Zealand:IEEE Press,2012:1-5. [10] XIE Yong. Improved Gaussian Mixture Model in video motion detection[J].Journal of Multimedia,2013,8(5):527-533. [11] 白曉方,楊衛,陳佩珩. 一種改進的運動目標檢測與跟蹤方法[J].電視技術,2014,38(1):180-182. [12] 唐春暉. 一種基于梯度方向直方圖的俯視行人的檢測方法[J].模式識別與人工智能,2015,28(1):19-26. [13] 郭秀杰,葉俊勇. 利用深度信息進行頭部檢測的方法[J].煙臺大學學報,2015,28(1):38-41. [14] 許麗. 動態場景的三維信息獲取相關技術研究[D].上海:上海大學,2009. [15] 韓彩夏,王曉宇. 基于Mean-shift算法與模糊熵的圖像平滑[J].計算機應用,2009,29(1):64-67. [16] 朱勝利. Mean Shift及相關算法在視頻跟蹤中的研究[D].杭州:浙江大學,2006. Research on Human Head Detection Based on Stereo Vision SUN Aijuan, GU Guohua,QIAN Weixian,YU Xiaodong,ZHOU Yujiao (NanjingUniversityofScienceandTechnology,Nanjing210094,China) In this paper, the stereo vision is used in human head detection by the system based on depth image processing. Firstly, the characteristics of the depth image collected by camera of Xtion are analyzed by the system. Then head target area is determined according to the depth of the image characteristics and the characteristics of the head. For the determined area, Mean Shift clustering algorithm is used to get a clear image edge. Finally, head split is realized by using One-dimensional entropy function based on dynamic threshold. Through rapid target, the computational algorithm can be reduced and the speed can be greatly improved. Moreover, the issues that the accuracy of current target detection method is easily affected by obstacle can be solved by the system. It is demonstrated by experiment that the system has high recognition accuracy. stereo vision;distance information;target detection;camera of Xtion 國家自然科學基金項目(61271332) TN929.11 A 10.16280/j.videoe.2015.17.028 2015-05-03 【本文獻信息】孫愛娟,顧國華,錢惟賢,等.基于立體視覺的人體頭部目標識別研究[J].電視技術,2015,39(17). 孫愛娟(1990— ),女,碩士生,主要研究方向為目標識別與跟蹤等; 顧國華(1966— ),研究員,博士生導師,主要研究方向為目標檢測與識別及紅外成像等。 責任編輯:任健男

2 頭部目標分割





3 算法比較



4 總結