丁辰瑜,葛萬成,陳康力
(同濟大學 電子與信息工程學院,上海 200092)
近年來,在交通運輸及公共設施規劃等方面,對于慢行交通對象,比如行人及非機動車的研究越來越多,對于其流量等數據的研究方面,其精度要求也越來越高。而在建立行人模型供公共設施建設參考時,實際數據是非常重要的,尤其是微觀數據,目前,在交通運輸方面,國外針對行人以及人流的建模研究,主要集中于行人的步頻和長度,行人安全,行人數目,行人跟蹤,公共服務設施服務時間等參數進行研究[1]。由于以往的主要研究主要集中在對于機動車的研究,在對于行人和非機動車的研究方面,雖然近年來有一些算法表現良好,但是在實際應用用上仍然存在一些問題。此外,行人在公共場合存在其特殊性,一方面獨立的個體表現的行為具有隨機性,另一方面在高峰時期,大量的行人會匯聚成人流。因此,通過一系列自動化手段取得公共設施中行人行為與人流總體趨勢相關的模型,對于公共行人設施的規劃和建設,公共交通服務的加強,以及對高強度客流的預測,有著非常重要的意義。
而基于視覺的行人檢測目前仍舊是計算機視覺領域的一個公認的難題。其中一個關鍵的問題就是如何將人和車輛、樹木等其他物體區分開來。如果僅用基于運動特性的提取方法是很難做到的,原因在于他們缺少了本地描述特征。而基于特征學習的方法近年來被證明在行人檢測上有著比較好的性能。比如 Paul Viola等人提出的基于 AdaBoost Cascade的 Haar特征目標檢測算法[2],在正面無旋轉的人臉的識別上取得了比較高的識別率。2002年,Lienhart對該方法進行了擴展[3],增加了45°特性。使該方法適用于全旋轉縮放的目標檢測。2005年Dalal提出了基于HoG特征的算法,在MIT數據庫上取得了非常高的識別率[4]。Bo Wu最先提出了edgelet特性[5],這些小邊描述了人體的某個部位的輪廓,然后再用boosting算法篩選出最有效的一組edgelet來描述人的整體。該方案不需要人工標注,而且避免了相似模板之間的重復的計算。
然而這些方法在識別行人時,都是用背景分割-目標識別的順序對場景中的行人進行識別。在這些方法中,分割被視為一種小塊到整體的過程,并且僅能基于已有數據進行圖像分割。而人在對場景識別時,目標識別和背景分割被認為是交替進行的。因此Bastian Leibe和Bernt Schiele提出了基于廣義Hough變換,分割和識別交替進行的目標識別方法[6]。其核心思想是找出圖像中所有匹配的小塊,并且每個小塊進行廣義Hough變換,并用mean-shift方法找出物體最有可能的中心。在得出物體中心后,再利用中心和小塊的信息對背景和目標進行分割。另外Bastian Leibe于2005年針對不同的本地特征和分類器進行了比較[7]。
這里采用了Bastian等人提出的方法,并使用形狀上下文作為本地局部特征,并通過廣義Hough變換算法對特征進行匹配,以此對行人和背景進行分割,建立了一個基于視覺傳感器的行人檢測系統。
形狀上下文是Serge Belongie,Iitendra Malik和Jan Puzicha 2002年提出的用于匹配相似圖像的本地描述符[8]。他在匹配的時候起到了關鍵的作用。在這里將其用于行人特征的提取。
形狀上下文是一個向量集合,其中包含了從形狀輪廓中的一點到其他點的向量。因此這個描述符描述了整個形狀相對那一點的輪廓。圖1(a)、圖1(b)表示了對于行人輪廓上的一點到其他點的向量。
對于一個由n點組成的輪廓,可以得到一個n-1維向量對輪廓進行描述。但是如果將整個向量集作為形狀描述符會過于龐大,會導致訓練時間過長,識別無法做到實時性,魯棒性差等問題。并且每個實例的形狀和采樣的點都各有差別。因此這里在對應點上引入一個直方圖作為描述符使其魯棒性更高同時也更加簡潔。對于每一個輪廓中的點 pi,定義如下直方圖來表示它在目標中的形狀特征:

式中,k表示直方圖的量化階數,q為除了 pi之外的n-1個點的集合,q - pi為從點q到點 pi的向量。如圖1 (b)所示。Serge等人采用直方圖對所有向量分類是為了簡化計算量并且統一特征向量的維度,并且采用對數極坐標的表示方式以提高旋轉及縮放后目標的匹配能力,即:

具體實現中將lgr分為5段,將θ分為12段,這樣k等于 60。如圖 1(c)所示。這里對每個輪廓取300個點,實際形成的直方圖如圖 1(f)、圖 1(g)、圖 1(h)所示,可以看到,對于同樣是行人輪廓上的點,點A和點A’有著類似的直方圖,而點B’的直方圖則與點A與點A’的直方圖差異較大。
以上定義比較直觀的顯示了形狀上下文描述符,然而為了計算它們之間的相似度,需要定義一個量描述其互相之間差異的變量。若ip,jq分別表示兩個目標中的兩個點,則基于2χ統計,它們的形狀上下文描述符的差異度表示為:

這樣可以計算出兩個形狀上下文描述符之間的差異度。如圖 1(d)、圖 1(e)中,點 A 與點 A’的差異度C(A,A′) = 3 9.9,而點 A與點 B的差異度C(A,B) = 2 16.4。因此可以通過求得兩個目標A與B之間的差異度矩陣 Cn×m,并通過取最小值完成匹配,即使式(5)取最小值即可完成匹配:


圖1 形狀上下文及其直方圖表示
僅有形狀上下文特征并不能直接對復雜場景中的行人進行識別和分割,原因在于行人外觀以及動作的多樣性。如果僅用形狀上下文可能對與訓練樣本相似的行人具有比較高的檢出率,而對一些與訓練樣本整體上有一些差異的行人的檢出率比較低。
Bastian Leibe和Bernt Schiele提出了基于廣義Hough變換的目標識別和分割[6]。比起其他方法該方法的優勢在于能夠識別與之前樣本有一定差異的目標。在系統的實現中,首先使用形狀上下文對移動邊緣采樣,并且利用形狀上下文對已學習的包含空間概率分布的碼書實例進行匹配。如果找到一個匹配,則利用碼書實例對假設中心進行投票。
用SC表示一個在位置l處的采樣點的形狀上下文描述符。通過匹配描述符和碼書從訓練好的碼書中獲得一組有效的實例iI。因此,觀察到一個以c為中心的目標nO的概率可以表示為:

由于SC可以被有效的實例 Ii替代,則p(On, c|Ii,S C,l)可簡化為 p (On, c|Ii,l)。且描述符與實例之間的匹配和坐標l不相關。則上式可簡化為:

式中,p (c|On, Ii,l)表示碼書實例在位置l處觀測到目標 On在c處的投票,p (On|Ii,l)和 p (Ii|S C)分別表示碼書實例和目標以及形狀上下文與碼書之間的相似度。由此,可以通過累計所有邊緣對目標 On的中心c進行投票。

在計算了目標所有的假設后,采用Mean-shift算法在投票區域內尋找局部最大值以確定目標的中心。
在計算出目標的中心假設后,可以在概率框架下,通過對投出正確中心的本地小塊進行反向查找,也就是說,通過以下邊緣化公式估計圖像中像素作為前景的概率。

式中:

本系統中圖形-背景分割通過跟蹤匹配結果來實現。即根據碼本匹配的本地小塊在空間概率分布中的大小,通過目標中心反向映射到相應的位置。這樣就實現了目標與背景的分割。每個假設目標的邊界框是包含所有反向映射小塊的最小邊界框。如圖2所示。

圖2 行人中心假設與背景分割過程
針對行人檢測與計數的目的,提出了一種基于形狀上下文特征和廣義Hough變換的形狀上下文行人檢測系統。系統的步驟如圖3所示,在訓練時,首先使用Canny算子對幀間差進行移動邊緣提取,并對每個邊緣采樣300個點并計算它們的形狀上下文特征,并對其進行K值聚類并且計算它們的空間概率,形成碼本。檢測時,對使用已經訓練好的碼本對提取的邊緣點的上下文進行比較,并且根據碼本在投票空間進行Hough投票,用Mean-Shift找到局部最大值,反向映射到小塊。最后找出重疊程度高于70%的兩個目標,將其認為是一個目標,即假設排除。

圖3 系統工作流程
此處從PETS2006視頻中手動截取了30個訓練樣本,其中包含了正面和側面的人體,樣本的平均像素為55×95。然后按照上述步驟進行訓練,原圖像和提取的邊緣圖像如圖4所示。
檢測測試中,所有視頻均來自于PETS2006數據集。該數據集包含了公共場所中監控攝像頭在車站捕捉的若干組視頻。其中選取了6段視頻,側視角和正視角的視頻各3段,正視角幀數分別為700和1 000以及150幀,行人人次分別為461和695以及633人次;側視角視頻長度分別為643和257以及1 154幀,行人人次為1 412和667以及1 154人次。視頻尺寸為360×288,其中行人的平均大小為45×78。
測試結果如圖5所示,這里對實驗室先前研究的基于SIFT的行人檢測系統進行了對比。該系統采用 128維的SIFT特征作為特征向量。測試平臺為Pentium M 1.60 GHz,代碼為c++實現,此算法每幀的平均處理時間為150 ms。在行人密集的場景中速度降為215 ms左右。

圖4 訓練樣本及其提取的邊緣
從圖5中可以得出基于形狀上下文描述符的檢測算法比基于SIFT特征的算法更加精確。在側面視角和正面視角的大部分情況下檢出率都高于85%。但是可以看出,由于視頻3中行人較為密集,這種算法的檢出率仍然有待改善。

圖5 系統性能及比較
針對現有算法中所存在的識別率低,訓練時間長等缺陷[9-12],提出了一種基于形狀上下文和廣義Hough變換的檢測算法,并進行了系統實現與測試。測試結果顯示,在測試平臺為Pentium M 1.60 GHz的環境中,經過與SIFT特征匹配的比較,該系統有著較高的識別率,平均檢出率達到85%,能應付中、低人流密度的場景。另外,訓練樣本的選取方面,此方法只需要30個正樣本,不需要負樣本,因此只需比較短的訓練時間。另外此算法的速度在測試平臺上能達到5~10幀/秒,可以基本符合實時監測的需求。
[1] SAUNIER N, HUSSEINI A E, ISMAIL K, et al. Pedestrian Stride Frequency and Length Estimation in Outdoor Urban Environments using Video Sensors[C]// TRB 90th Annual Meeting Compendium of Papers.Washington DC: Transportation Research Board,2011:11-21.
[2] VIOLA P,JONES M J. Rapid Object Detection Using a Boosted Cascade of Simple Features[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Kauai, HI, USA: IEEE Computer Society 2001, 2001: 511-518.
[3] LIENHART R,MAYDT J. An Extended Set of Haar-like Features for Rapid Object Detection[C]// IEEE ICIP 2002. Rochester, New York, USA: IEEE ICIP Society,2002: 900-903.
[4] DALAL N,TRIGGS B. Histograms of Oriented Gradients for Human Detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE Computer Society, 2005:886-893.
[5] WU B,NEVATIA R. Detection of Multiple, Partially Occluded Humans in a Single Image by Bayesian Combination of Edgelet Part Detectors[C]//IEEE International Conference on Computer Vision. San Diego, CA, USA: IEEE Computer Society, 2005:886-893.
[6] LEIBE B,SCHIELE B. Interleaved Object Categorization and Segmentation[C]//British Machine Vision Conference (BMVC’03). British: BMVC 2003 Society, 2003: 759-768.
[7] LEIBE B, LEONARDIS A, SCHIELE B. Robust Object Detection with Interleaved Categorization and Segmentation[J]. International Journal of Computer Vision Special Issue on Learning for Recognition and Recognition for Learning, 2008, 77(01):259-289.
[8] BELONGIE S, MALIK J,PUZICHA J. Shape Matching and Object Recognition Using Shape Contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(04):509-522.
[9] 高智芳,張新家.基于小波變換的除噪方法及其應用研究[J].信息安全與通信保密,2007(06):102-104.
[10] 王忠, 陳海清.基于LAB色彩空間的自適應數字水印算法[J].信息安全與通信保密,2006(04):70-72.
[11] 戴海港,宮寧生,張德金.基于二值圖像連通域的車牌定位方法[J].通信技術,2011,44(08):116-117.
[12] 余萍,崔少飛,趙振兵,等. 圖像配準中的邊緣提取方法的研究[J].通信技術,2008,41(06):161-163.