韓廷卯
(中國(guó)海洋大學(xué) 山東 青島 266100)
商場(chǎng)、車站、機(jī)場(chǎng)等地,人群密集,存在諸多安全隱患,雖然這些領(lǐng)域已廣泛采用視覺傳感器監(jiān)控場(chǎng)景,但大部分還停留在人工監(jiān)控的模式下,浪費(fèi)人力物力,且容易因?yàn)槿藶榈氖韬龀霈F(xiàn)紕漏。因此,實(shí)現(xiàn)監(jiān)控視頻的人群自動(dòng)計(jì)數(shù),具有十分重要的意義。
近年來,隨著計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,各國(guó)研究者提出了許多人群計(jì)數(shù)的方法,但由于互相遮擋,人體行為復(fù)雜等原因,一直未能取得滿意的效果。這些方法,在檢測(cè)少量目標(biāo)時(shí),準(zhǔn)確度較高,一旦人群密集,檢測(cè)效果急劇下降。目前,人群計(jì)數(shù)的方法主要分為基于人體表觀模型的方法[1]和基于人體運(yùn)動(dòng)模型的方法[2-4]。在某些特定環(huán)境下,二者均有各自的優(yōu)勢(shì)。
二者結(jié)合的方法,效果更好,但計(jì)算費(fèi)時(shí)。受文獻(xiàn)[2-3]的啟示,在人數(shù)較多的情境下,本文給出了一個(gè)僅僅使用人體的獨(dú)立運(yùn)動(dòng)信息進(jìn)行人體計(jì)數(shù)的框架,取得了較滿意的效果。
一個(gè)二維圖像的特征,在時(shí)間軸上對(duì)其進(jìn)行追蹤,會(huì)得到關(guān)于它的一條運(yùn)動(dòng)軌跡。檢測(cè)當(dāng)前圖像中所有可靠的特征點(diǎn),追蹤得到它們的運(yùn)動(dòng)軌跡,并分別計(jì)算任意兩條軌跡之間的相似度 Z(Xi,Yj),得到特征軌跡的相似度矩陣 Z(X1:N)。假設(shè)場(chǎng)景中每個(gè)人都包含幾條特征軌跡,我們的任務(wù)就是在所有的特征軌跡中找出最可能的聚類,這樣得到的每個(gè)特征群都可能代表了一個(gè)運(yùn)動(dòng)人體。
可靠而準(zhǔn)確的聚類是關(guān)鍵,但是如果枚舉所有可能的聚類,計(jì)算量非常大,不易實(shí)現(xiàn)。我們使用運(yùn)動(dòng)的基本信息來限制可能聚類的數(shù)量,使聚類變得可行。根據(jù)這個(gè)思想,提出了本文的人群計(jì)數(shù)的方法,圖1是文中算法的整個(gè)流程。
可靠的特征,是進(jìn)行準(zhǔn)確人群計(jì)數(shù)的基礎(chǔ),因此,選取好的特征十分重要。而可靠的特征,必須能夠以高可靠性在連續(xù)圖像中被追蹤到,Tomasi-Kanade[5]和Harris角點(diǎn)特征均滿足這個(gè)條件。我們使用的是Tomasi-Kanade[5]特征,并用分層的光流法進(jìn)行追蹤[6]。而為了在所有檢測(cè)到的特征中選取能穩(wěn)定追蹤的特征,我們假設(shè)獨(dú)立檢測(cè)得到的特征在后續(xù)的圖像中匹配誤差不超過一個(gè)像素。函數(shù)W(Df,n)表示對(duì)圖像f中得到的特征進(jìn)行追蹤,返回在第幅圖像的位置。因此有以下判別式:

圖1 人群計(jì)數(shù)整體過程Fig.1 The whole process of counting crowds

凡是滿足上式的特征,選為有用特征。式中Df表示在第f幀圖像檢測(cè)到的所有的特征點(diǎn)。檢測(cè)特征時(shí),勢(shì)必會(huì)將復(fù)雜背景中滿足條件點(diǎn)檢測(cè)為特征點(diǎn),而這些特征點(diǎn)又完全符合式(1),所以這些點(diǎn)會(huì)被作為有用的特征參與后續(xù)的處理。但這些點(diǎn)實(shí)際是噪聲,會(huì)在后續(xù)的人群計(jì)數(shù)中影響結(jié)果的準(zhǔn)確性。因此在特征檢測(cè)之前,我們通過背景減除法得到前景圖像,并以此圖像作為特征檢測(cè)時(shí)的掩膜,這樣獲得的特征點(diǎn)基本都是前景物體上的特征,消除了背景噪聲的影響。
對(duì)當(dāng)前圖像進(jìn)行特征檢測(cè),并通過式(1)得到滿足要求的特征點(diǎn),然后分別向前、向后的連續(xù)30幀圖像進(jìn)行特征追蹤。追蹤使用的是分層光流法。對(duì)于待追蹤的特征點(diǎn),如果在某幀圖像中沒有追蹤到可靠的位置,則使用已知的可靠速度,通過線性插值得到在該幀的位置,然后繼續(xù)進(jìn)行追蹤。將各個(gè)特征點(diǎn)在每幀圖像的位置記錄下來,得到各個(gè)特征的軌跡{X1,X2,…,Xn}。
通過實(shí)驗(yàn)發(fā)現(xiàn),距離比較近的特征點(diǎn),更有可能來自于同一個(gè)人體,而距離非常遠(yuǎn)的點(diǎn)肯定不是來自同一個(gè)人體。因此為了限制計(jì)算最終聚類時(shí)的類(群)數(shù)量,我們使用特征點(diǎn)的空間距離信息,進(jìn)行初次聚類,我們稱之為空間聚類。而兩個(gè)特征點(diǎn)的歐氏距離,是表示空間距離的最直觀最可靠的信息。同時(shí),為了加強(qiáng)此次聚類的可靠性,我們使用的是兩條特征軌跡的最大距離,即分別求出兩個(gè)特征點(diǎn)在每一幀的歐氏距離,然后選取最大的一個(gè)代表兩個(gè)特征軌跡的空間距離:

聚類的方法,采用的是最大樹聚類法:先將特征點(diǎn)之間的最大距離按升序排列,然后將特征點(diǎn)對(duì)逐個(gè)放入樹中,直至樹中剛好包含了所有的特征點(diǎn)。再將樹中最長(zhǎng)的c-1條邊切斷,就將整個(gè)樹分成了c類(群)。其中c值是手動(dòng)設(shè)置的,一般為場(chǎng)景中可能出現(xiàn)的人數(shù)的最大值的3-5倍,但是不超過特征點(diǎn)數(shù)的1/2。
空間聚類是根據(jù)本節(jié)開頭的假設(shè),只考慮特征點(diǎn)之間的空間距離,進(jìn)行的比較粗糙的聚類,包含了一些噪聲。其中比較嚴(yán)重的情況是:當(dāng)特征點(diǎn)中噪點(diǎn)比較多時(shí),例如未消除的背景噪點(diǎn),而且這些噪點(diǎn)之間的距離較大時(shí),它們會(huì)占據(jù)c類(群)中比較多的部分,從而將運(yùn)動(dòng)軌跡完全不同,但是空間距離不是很遠(yuǎn)的真實(shí)特征點(diǎn)歸為一類(群)。因此在進(jìn)行最終聚類之前,要對(duì)c類(群)進(jìn)行分裂處理,即將類(群)中孤立的特征點(diǎn)(點(diǎn)群)從類中分離出去形成一個(gè)新類。判斷特征點(diǎn)(群)孤立的標(biāo)準(zhǔn)是:與群內(nèi)其他特征軌跡之間的相似度(下文式3)均小于0.2。0.2是經(jīng)實(shí)驗(yàn)獲得,可以根據(jù)不同的應(yīng)用場(chǎng)景,選取不同的值。
該階段的聚類,是對(duì)空間聚類的結(jié)果,根據(jù)類(群)之間特征軌跡的運(yùn)動(dòng)信息,通過挖掘類(群)之間的相似性,決定是否將兩個(gè)類(群)融合成一個(gè)類。理想情況下,來自同一個(gè)人體上的特征點(diǎn)的運(yùn)動(dòng)軌跡應(yīng)該是一致的。因此準(zhǔn)確地定義軌跡之間的相似度,是本節(jié)的關(guān)鍵。
假設(shè):兩個(gè)獨(dú)立的特征,當(dāng)它們軌跡之間的距離的變化更小時(shí),則二者更可能來自于同一個(gè)人體。因此我們定義軌跡之間的相似度

其中,Var(Xu,Xv)=Var(dist(Xu,Xv))。 當(dāng) 2 個(gè)特征軌跡來自同一個(gè)剛體,而且追蹤可靠時(shí),二者的Q值應(yīng)該是1。實(shí)際情況下,由于運(yùn)動(dòng)人體不是完全的平行于圖像平面,二者的距離不可能完全不變,但是對(duì)于非快速運(yùn)動(dòng)的人體來說,連續(xù)的61幀圖像中,在畫面中的視覺尺度變化很小,所以這個(gè)定義是可靠的。同樣,任意兩個(gè)類(群)之間的相似度,可以用特征軌跡之間的相似度來求得。
2個(gè)類Ci,Cj,定義二者之間的相似度為:

二者融合的可靠性:

只有當(dāng)相似度大于閾值T0,我們才認(rèn)為兩類有融合的可能。然后判斷 V(Ci,Cj),只有當(dāng)它小于閾值 T1時(shí),我們才認(rèn)為兩類的融合是可靠的。T0越大,T1越小,最終的分類噪聲越少,但是魯棒性比較差,所以尋找合適的T0,T1很重要,在我們的實(shí)驗(yàn)中,選取T0=0.3,T1=0.12,取得了不錯(cuò)的效果。注意,上述類間相似度的定義,必須是在兩類鄰近的前提下,當(dāng)兩類距離很遠(yuǎn)時(shí),計(jì)算它們的相似度是沒有意義的。我們判斷兩類鄰近的方法是:將兩類中心的距離與估計(jì)的人體在圖像中的視覺尺度做比較,如果大于這個(gè)尺度的1.5倍,則認(rèn)為不臨近。
得到了所有類對(duì)的相似度之后,還要選擇融合類(群)的方法。這里,可以使用任何貪婪算法或者由粗到細(xì)的融合算法,但是該算法必須滿足下面的3個(gè)條件:1)能夠?qū)崟r(shí)決定從哪一個(gè)類對(duì)開始融合;2)停止融合的標(biāo)準(zhǔn)要可靠,且不重復(fù)計(jì)算;3)對(duì)于兩人之間,邊緣共享的特征點(diǎn),做出合理且準(zhǔn)確的分類。 在實(shí)驗(yàn)中,我們使用符合條件(P(Ci,Cj)>T0,V(Ci,Cj)<T1)的類對(duì)來構(gòu)造最小生成樹,單個(gè)類也算是一棵樹。當(dāng)一棵樹中包含的特征點(diǎn)的數(shù)量不少于3個(gè),且不共線時(shí),則認(rèn)為它是一個(gè)人體。
文中實(shí)驗(yàn)選取了CAVIAR數(shù)據(jù)庫中的兩段視頻,判斷鄰近時(shí)使用的橫縱方向的距離閾值為,X方向50 pixel,Y方向80 pixel;T0為 0.3,T1為 0.12。

圖2 實(shí)驗(yàn)結(jié)果圖,左側(cè)為Q陣,右側(cè)為計(jì)數(shù)結(jié)果Fig.2 Result of experiments, left is the Q matrix,right is the counting result
結(jié)果顯示,通過本文算法進(jìn)行人體計(jì)數(shù),基本達(dá)到了區(qū)分獨(dú)立運(yùn)動(dòng)人體的要求。需要注意的是,有幾個(gè)關(guān)鍵點(diǎn)對(duì)最終的結(jié)果有較大的影響:1)前景特征點(diǎn)的檢測(cè)要準(zhǔn)確,盡量減少背景噪點(diǎn)的影響;2)人體存在相對(duì)運(yùn)動(dòng),相對(duì)運(yùn)動(dòng)變化較大的部分可能被識(shí)別為不同的人體,通過選擇視頻拍攝的角度,盡量獲取頭肩部位的特征點(diǎn);3)運(yùn)動(dòng)軌跡相同且鄰近的人體,被識(shí)別為一個(gè)人體,可以通過人體表觀特征加以區(qū)分。
文中利用物體的獨(dú)立運(yùn)動(dòng)信息,提出了用兩次聚類進(jìn)行人體計(jì)數(shù)的框架。檢測(cè)運(yùn)動(dòng)物體上可靠的特征點(diǎn),進(jìn)行追蹤,獲得特征的運(yùn)動(dòng)軌跡。先對(duì)這些特征做空間聚類,然后定義軌跡相似度和類間相似度,并進(jìn)行運(yùn)動(dòng)一致性聚類。實(shí)驗(yàn)發(fā)現(xiàn),該方法在識(shí)別獨(dú)立運(yùn)動(dòng)時(shí),取得了較好的效果。對(duì)消除背景噪點(diǎn)以及處理人體各部分相對(duì)運(yùn)動(dòng)的情況,該算法的處理結(jié)果還需要進(jìn)一步提高,這也是下一步工作的目標(biāo)。
[1]Zhao T,Nevatia.Tracking multiple humans in crowded environment[C]//CVPR,2004:406-413.
[2]Rabaud V,Belongie S.Counting Crowded Moving Objects[C]//CVPR,2006:705-711.
[3]Gabriel J B,Roberto C.Unsupervised bayesian detection of independent motion in crowds[C]//CVPR,2006:594-601.
[4]Chan A B,Vasconcelos N.Counting people with low-level features and bayesian regression[J].IEEE Transactions on Image Processing,April 2012:2160-2177.
[5]Tomasi C,Kanade T.Detection and tracking of point features[R].TechnicalReport CMU-CS-91-132.Carnegie Mellon University,1991.
[6]Bradski G.Opencv:Examples of use and new applications in stereo,recognition and tracking [C]//Proceedings of the International Conference on Vision Interface,2002:347.
[7]梁博淵.基于離散小波多分辨率分析的電網(wǎng)諧波檢測(cè)法[J].陜西電力,2010(8):53-56.LIANG Bo-yuan.Power system harmonic detection based on discrete wavelet Multi-resolution analysis[J].Shaanxi Electric Power,2010(8):53-56.