郭 妍,謝光敏,向蓓蓓,古榮龍,王 磊
(四川水利職業(yè)技術(shù)學(xué)院,成都 610039)
隨著經(jīng)濟(jì)持續(xù)穩(wěn)定的發(fā)展,生活水平的日益提高,城市公共場所作為經(jīng)濟(jì)文化的主要載體承擔(dān)著各種各樣的活動,而隨著人口密度的增大以及人們對生活質(zhì)量追求的提高,每一次的活動都會伴隨著人群的聚集。近年來,人口聚集的場所突發(fā)事件時有發(fā)生,每一次的突發(fā)事件不僅造成了人們的恐慌,也伴隨著經(jīng)濟(jì)的損失和一系列的安全問題。其實(shí)大多時候人群聚集而引發(fā)事故發(fā)生進(jìn)而導(dǎo)致重大的后果并不是事故自身的問題,而是因?yàn)槿巳哼^于密集,事發(fā)時慌亂擁擠造成的。從目前社會的整體情況來說,我國的社會形勢已經(jīng)基本保持在一個穩(wěn)定的狀態(tài)。但在經(jīng)濟(jì)蓬勃發(fā)展的今天,由于人們對物質(zhì)文化需求的增多,各種人群聚集的活動也逐漸增加。而公共場所作為承擔(dān)著各種活動的重要載體,突發(fā)事件發(fā)生的可能性也比較大。
2014年的12月31日晚,這本來是一個令人激動的跨年之夜,很多游客市民聚集在上海外灘準(zhǔn)備迎接新年的到來,但因有人失衡摔倒接連誘發(fā)多人摔倒、疊壓,致使擁擠踩踏事件發(fā)生,最終導(dǎo)致36 人遇難,49 人負(fù)傷[1]。因此,為了防止類似事件的發(fā)生,降低其概率,對人群密集的檢測是非常有必要的。
SIFT 算法,即尺度不變特征變換算法,它可以用于檢測與描述影像局部特征,找到空間尺度上的特征點(diǎn),并提取其位置、尺度、旋轉(zhuǎn)不變量。辨識物體可以通過描述與檢測局部影像特征起到作用[2]。SIFT 特征與圖像的尺寸和旋轉(zhuǎn)無關(guān),它是基于物體上的一些局部外觀興趣點(diǎn)的,對光線、噪聲以及些微視角變化也有較高的容忍度。它們因?yàn)橐陨咸卣鞫尸F(xiàn)高度顯著的特點(diǎn)并相對容易獲得,而且能夠較容易且很少錯誤地識別基數(shù)龐大的特征數(shù)據(jù)庫中的對象。
在不同的尺度空間上找到特征點(diǎn),并獲得其方向是SIFT 算法的實(shí)質(zhì)。它通過高斯模糊來達(dá)到尺度空間的獲取。因此,特征點(diǎn)的提取篩選資源從高斯金字塔產(chǎn)生的差分高斯空間中的局部特征點(diǎn)獲得。
提取人群特征點(diǎn),需要先提取出能較好反映出人物事件的特征,可以成為影響后期人群密集檢測的重要因素。即待檢測圖像讀入內(nèi)存并進(jìn)行圖像預(yù)處理之后,進(jìn)行背景差分,提取圖像的人群特征,對提取后的圖像采用SIFT 算法建立差分金字塔圖像[3],進(jìn)行極值檢測。最后通過關(guān)鍵點(diǎn)精確定位生成人群特征點(diǎn),根據(jù)視頻圖像中人群的特征點(diǎn)數(shù)目判斷人群是否密集。算法流程如圖1所示。

圖1 算法流程圖
通過圖像預(yù)處理去掉原始圖像所夾雜的一些不相干信息,可以提高我們所需的有用信息的可檢測性且盡可能精簡數(shù)據(jù),以此達(dá)到特征提取的目的[3]。目前常見的圖像預(yù)處理技術(shù)包括彩色圖像的灰度化、直方圖均衡化、圖像的二值化處理和形態(tài)學(xué)處理等。
其中圖像灰度化處理[3]是將彩色圖像轉(zhuǎn)化成為灰度圖像。彩色圖像中的每個像素的顏色是由紅(R)、綠(G)、藍(lán)(B)三個分量決定,而每個分量有255個值(0~255),經(jīng)計(jì)算,一個像素點(diǎn)約有1600多萬(256*256*256)色。而灰度圖像是紅(R)、綠(G)、藍(lán)(B)特殊的彩色圖像,一個像素點(diǎn)的取值范圍為0~255。因此,數(shù)字圖像處理中,通常將圖像進(jìn)行灰度化處理以減少計(jì)算量。圖像的灰度化處理過程可用下列公式表示:

其中WR、WG、WB分別為R、G、B 的權(quán)值。研究表明,人眼對顏色的敏感度由高到低依次為綠、紅、藍(lán)。因此若想取得較好的結(jié)果,取WG>W(wǎng)R>W(wǎng)B時的權(quán)值較合理。
背景差分法[4]又稱背景減法,它的原理是將當(dāng)前幀與背景圖像進(jìn)行差分從而得到運(yùn)動目標(biāo)區(qū)域。背景差分法將視頻幀圖像視為兩個部分,即前景和背景。它最初需要選取一幅圖像當(dāng)作背景,而且這幅圖像中不能含有運(yùn)動前景。這種方法能夠更好地識別和提取目標(biāo)。由于攝像頭和背景的固定性,采用背景差法可以簡單、快速地提取出前景圖像,即用每一幀圖像減去背景圖像,便可得到我們所需的前景圖像。它可以在背景平穩(wěn)時達(dá)到良好的檢測效果,并且視頻中靜止的目標(biāo)也可以被檢測到。
在不考慮噪聲n(x,y,t)的影響下,可以將運(yùn)動目標(biāo)m(x,y,t)與背景圖像b(x,y,t)組成的圖像稱為視頻幀圖像I(x,y,t):

由式(2)并不能夠得到真正的運(yùn)動目標(biāo),而是由運(yùn)動目標(biāo)區(qū)域與噪聲所組成的差分圖像d(x,y,t),即:

對其進(jìn)行進(jìn)一步處理后,可得到運(yùn)動目標(biāo):

其中,T代表閾值。樣本圖像和經(jīng)背景差法處理后的圖像分別如圖2和圖3所示。

圖2 樣本圖像

圖3 背景差法處理后的圖像
SIFT 為獲得連續(xù)變化的尺度,采用高斯金字塔來構(gòu)建尺度空間。尺度空間上的極值點(diǎn)可以在計(jì)算獲得金字塔后被檢測[5]。尺度規(guī)范的算子(Laplacion of Gaussian)被Tony Lindeberg 說明具備真正的尺度不變性。高斯差分金字塔類似算子被Lowe 用來對穩(wěn)固的特征點(diǎn)在尺度空間中進(jìn)行檢測。對原始圖像進(jìn)行不停降階采樣后會獲得相應(yīng)的有差別的圖像,將其由大到小、由下至上排列組成塔狀模型,這就是圖像的金字塔模型[6]。通常情況下,金字塔的第一層是原始圖像,金字塔層數(shù)為,每層(一張圖像對應(yīng)一層)是每次降采樣后獲得的新圖像。圖像的最初尺寸以及塔頂圖像的尺寸一起決定了金字塔的層數(shù),層數(shù)的計(jì)算公式如下:

其中,原始圖像的尺寸用M,N表示,t為塔頂圖像的最小維數(shù)的對數(shù)值。
本方案在現(xiàn)實(shí)中進(jìn)行極值檢測[7]時,需先建立高斯差分金字塔,其通過用高斯金字塔每組中相鄰的上下兩層圖像作差而產(chǎn)生。經(jīng)過同一組內(nèi)DOG 各相鄰兩層圖像之間的對比,由DOG 空間的局部極值點(diǎn)組成的關(guān)鍵點(diǎn)可以獲得初步檢測。本文中DOG 函數(shù)的極值點(diǎn)的檢測要求每一個像素點(diǎn)與它全部鄰近的點(diǎn)作對比,觀察結(jié)果是高于還是低于它的圖像域和尺度域的鄰近點(diǎn)。將中間的檢測點(diǎn)與具有和其相同尺度的8 個鄰近點(diǎn)以及與它相鄰尺度中對應(yīng)的9 × 2個點(diǎn)進(jìn)行對比,以確保尺度空間和二維圖像空間中的極值點(diǎn)都可以被檢測到。

圖4 DOG空間極值檢測
本文結(jié)合特征點(diǎn)鄰域像素的梯度方向分布特性,指定方向參數(shù)[6]給每個特征點(diǎn),以此讓其在圖像發(fā)生改變時不會發(fā)生變化。在對關(guān)鍵點(diǎn)進(jìn)行運(yùn)算后,鄰域內(nèi)像素的梯度和方向通過直方圖來表示。該梯度直方圖以每柱10°的區(qū)間將0~360°的方向范疇平均分成36 個柱(bins)。如圖5所示,關(guān)鍵點(diǎn)的主方向即直方圖的峰值對應(yīng)的方向。

圖5 關(guān)鍵點(diǎn)方向直方圖
在獲得關(guān)鍵點(diǎn)鄰域的像素梯度分布特征信息之后便可明確關(guān)鍵點(diǎn)主方向[8]。一個特征點(diǎn)處鄰域梯度的方向由方向直方圖的峰值代表,該關(guān)鍵點(diǎn)的主方向即是圖中最大值對應(yīng)的方向。本文將該關(guān)鍵點(diǎn)的輔方向定義為高于主方向峰值80%的方向。為了向其提供穩(wěn)定性,每個關(guān)鍵點(diǎn)都可以存在多個輔方向。本文在實(shí)際處理時,將其復(fù)制成多份。這些復(fù)制后的關(guān)鍵點(diǎn)將被賦予該點(diǎn)的多方向。而為了獲得更加準(zhǔn)確的方向角度值,要對離散的梯度直方圖進(jìn)行插值擬合處理[9]。生成關(guān)鍵點(diǎn)后的檢測效果如圖6所示。

圖6 檢測效果圖
在生成關(guān)鍵點(diǎn)后,統(tǒng)計(jì)所生成的關(guān)鍵點(diǎn)數(shù)目i,將生成的關(guān)鍵點(diǎn)數(shù)目i與預(yù)先設(shè)定的中間值c做比較。如果i≥c,則待檢測樣本判斷為密集人群,反之則為稀疏人群。
本文所采取的運(yùn)行的待檢測視頻幀圖像來源于PETS 2009 視頻數(shù)據(jù)庫中的視頻序列P2 和P3,背景原圖來自于該視頻數(shù)據(jù)庫中視頻序列P1。這些相關(guān)圖像序列均是分辨率為768×576的24 位JPG 圖像。根據(jù)算法比對,相同場景下具有不同人群密集程度的視頻序列圖像對其進(jìn)行相應(yīng)的實(shí)驗(yàn)檢測,檢測結(jié)果如圖7所示。

圖7 相同場景下不同人群密集程度
根據(jù)檢測結(jié)果,分別對這兩種情況下的人群圖像進(jìn)行討論分析,檢測結(jié)果如表1所示。

表1 對圖7中不同人群圖像的檢測對比
針對不同場景下的不同人群圖像,也分別對它們進(jìn)行相應(yīng)的SIFT 提取特征點(diǎn)的檢測,檢測結(jié)果如圖8所示。

圖8 不同場景下不同人群密集程度
根據(jù)檢測結(jié)果,分別對這兩種情況下的人群圖像進(jìn)行討論分析,檢測結(jié)果如表2所示。

表2 對圖8中不同人群圖像的檢測對比
隨著城市和經(jīng)濟(jì)的全球化發(fā)展,人口密度的增加而帶來的各種經(jīng)濟(jì)、安全問題已經(jīng)成為當(dāng)今社會所無法避免的現(xiàn)實(shí)問題。因此對人群是否密集的檢測顯得尤為重要。本文重點(diǎn)研究了SIFT 提取特征算法。通過軟件測試檢驗(yàn),SIFT 針對不同人群密集程度的圖像進(jìn)行特征點(diǎn)提取,都能夠很好地將圖像人群區(qū)域的特征點(diǎn)檢測出來。