999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)研究現(xiàn)狀與趨勢(shì)

2018-03-06 11:05:24張君軍石志廣李吉成
關(guān)鍵詞:特征檢測(cè)方法

張君軍,石志廣,李吉成

(國(guó)防科技大學(xué)電子科學(xué)學(xué)院ATR實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410073)

1 引言

隨著人口的增長(zhǎng)以及人群活動(dòng)的多樣化,人群擁擠的場(chǎng)景隨處可見(jiàn),如機(jī)場(chǎng)、車(chē)站、景點(diǎn)等,這將成為公共管理以及公共安全巨大的挑戰(zhàn)。人群密度與人群安全密切相關(guān),當(dāng)人群密度過(guò)高時(shí),容易引起恐慌、擁擠以及踩踏。在很多場(chǎng)合中,都曾因人群密度過(guò)高而引發(fā)災(zāi)禍。隨著人們對(duì)安全性要求的提高以及經(jīng)濟(jì)條件的改善,監(jiān)控?cái)z像頭越來(lái)越多,覆蓋范圍也越來(lái)越廣。傳統(tǒng)的視頻監(jiān)控系統(tǒng)需要監(jiān)控人員一刻不停地值守,但長(zhǎng)時(shí)間盯著畫(huà)面,人容易疲憊,很難對(duì)一些異常事件及時(shí)做出反應(yīng)。為防止人群踩踏等致命事故的發(fā)生,研究人員轉(zhuǎn)向了基于計(jì)算機(jī)視覺(jué)的人數(shù)統(tǒng)計(jì)和人群密度估計(jì)領(lǐng)域。自動(dòng)可靠地獲取監(jiān)控中的人數(shù)或者人群密度,不僅能對(duì)一些人群異常情況進(jìn)行自動(dòng)預(yù)警和報(bào)警,而且還能用于人群模擬、人群行為和人群心理學(xué)的研究。

人數(shù)統(tǒng)計(jì)和人群密度估計(jì)屬于智能監(jiān)控范疇,目前已有較多的工作對(duì)智能監(jiān)控和人群分析方面進(jìn)行了總結(jié)和闡述。黃凱奇等人[1]從底層、中層、高層對(duì)智能監(jiān)控計(jì)數(shù)進(jìn)行了分類(lèi),并分析了一些典型算法的優(yōu)缺點(diǎn)以及總結(jié)了待解決的問(wèn)題和難點(diǎn);文獻(xiàn)[2-4]闡述了很多人群分析技術(shù),文獻(xiàn)[2]從人群特征提取、人群建模和人群事件推理方面進(jìn)行了介紹;文獻(xiàn)[3]對(duì)人數(shù)統(tǒng)計(jì)/人群密度估計(jì)、人群跟蹤以及人群行為理解這三個(gè)重要的人群分析問(wèn)題進(jìn)行了詳細(xì)的介紹,并將人數(shù)統(tǒng)計(jì)算法分為基于像素的方法、基于紋理的方法以及基于目標(biāo)檢測(cè)的方法;文獻(xiàn)[4]從運(yùn)動(dòng)模式分割、人群行為識(shí)別以及異常檢測(cè)三個(gè)方面對(duì)人群分析的現(xiàn)狀進(jìn)行了詳細(xì)的綜述。雖然以上這些綜述性論文介紹了很多智能監(jiān)控和人群分析方面的優(yōu)秀算法,但他們并沒(méi)有特別關(guān)注人數(shù)統(tǒng)計(jì)和人群密度估計(jì)技術(shù)。為彌補(bǔ)這一漏洞,文獻(xiàn)[5]對(duì)人群計(jì)數(shù)中所用的特征以及回歸模型做了詳細(xì)的評(píng)價(jià),給出評(píng)估準(zhǔn)則,并對(duì)不同方法的性能進(jìn)行了評(píng)估,香港中文大學(xué)Loy[6]也做了類(lèi)似的工作。另外,文獻(xiàn)[7]對(duì)基于計(jì)算機(jī)視覺(jué)的人群密度估計(jì)和計(jì)數(shù)技術(shù)進(jìn)行了總結(jié),涉及的方法主要有直接法(即基于檢測(cè)的方法)和間接法(如基于像素的方法、基于紋理的方法以及基于角點(diǎn)的方法)。以上綜述論文雖然將重點(diǎn)放在了人群密度估計(jì)和計(jì)數(shù)上,但所總結(jié)的方法都是基于淺層學(xué)習(xí)模型的,本文將在上述綜述論文的基礎(chǔ)上,補(bǔ)充深度學(xué)習(xí)在人群密度估計(jì)和計(jì)數(shù)上的應(yīng)用。

具體地,本文從機(jī)器學(xué)習(xí)角度,把人數(shù)統(tǒng)計(jì)與人群密度估計(jì)算法分為淺層學(xué)習(xí)的方法和深度學(xué)習(xí)的方法。同時(shí),從學(xué)習(xí)到的人群模型角度,將其分為直接法和間接法。本文第2節(jié)介紹人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)的興起;第3節(jié)系統(tǒng)地介紹基于淺層學(xué)習(xí)模型的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)算法,包括直接法和間接法;第4節(jié)從深度學(xué)習(xí)的角度入手,闡述人數(shù)統(tǒng)計(jì)與人群密度估計(jì)算法;第5節(jié)給出人群密度估計(jì)過(guò)程中常用的性能評(píng)估方法和基準(zhǔn)數(shù)據(jù)集;第6節(jié)總結(jié)了人數(shù)統(tǒng)計(jì)與人群密度估計(jì)存在的挑戰(zhàn)以及未來(lái)的研究方向。

2 人數(shù)統(tǒng)計(jì)/人群密度估計(jì)技術(shù)的興起

視頻監(jiān)控是安防的重要組成部分,而人數(shù)和人群密度是視頻監(jiān)控所關(guān)注的一個(gè)重要因素。為了清楚地介紹人數(shù)統(tǒng)計(jì)/人群密度估計(jì)技術(shù)的發(fā)展歷程,我們從監(jiān)控設(shè)備的發(fā)展進(jìn)行闡述。

20世紀(jì)70年代開(kāi)始出現(xiàn)電子監(jiān)控系統(tǒng),至今視頻監(jiān)控技術(shù)的發(fā)展可分為三個(gè)階段:(1)第一代模擬視頻監(jiān)控系統(tǒng)。20世紀(jì)70年代,依賴同軸電纜傳輸?shù)拈]路電視監(jiān)控系統(tǒng)CCTV(Closed Circuit TeleVision)開(kāi)始出現(xiàn),這一代技術(shù)傳輸?shù)膱D像質(zhì)量差,難以適應(yīng)大規(guī)模監(jiān)控。(2)第二代數(shù)字視頻監(jiān)控系統(tǒng)。20世紀(jì)90年代中期,得益于數(shù)字編碼技術(shù)和芯片技術(shù)的進(jìn)步,數(shù)字視頻監(jiān)控系統(tǒng)應(yīng)運(yùn)而生,這一代技術(shù)圖像質(zhì)量好,城市級(jí)規(guī)模的安防系統(tǒng)也適用。(3)第三代智能視頻監(jiān)控系統(tǒng)。第二代數(shù)字視頻監(jiān)控系統(tǒng)催生了大規(guī)模的視頻監(jiān)控,人們對(duì)視頻監(jiān)控系統(tǒng)的需求空前高漲,人們所感興趣的“是誰(shuí),在哪,干什么”的問(wèn)題,智能視頻監(jiān)控系統(tǒng)通過(guò)對(duì)原始視頻圖像進(jìn)行一系列的基于計(jì)算機(jī)視覺(jué)的算法分析,使得自動(dòng)回答這些問(wèn)題成為可能。

第二代數(shù)字視頻監(jiān)控系統(tǒng)的出現(xiàn)使得監(jiān)控規(guī)模越來(lái)越大,當(dāng)監(jiān)控人員面對(duì)多路監(jiān)控視頻時(shí)就會(huì)應(yīng)接不暇,而且長(zhǎng)時(shí)間盯著畫(huà)面人也容易疲憊。為解放監(jiān)控人員,減輕監(jiān)控人員的負(fù)擔(dān),研究人員開(kāi)始關(guān)注基于計(jì)算機(jī)視覺(jué)的監(jiān)控領(lǐng)域,而人數(shù)和人群密度一直都是視頻監(jiān)控中的一個(gè)比較重要的內(nèi)容。另一方面,第二代數(shù)字視頻監(jiān)控系統(tǒng)圖像畫(huà)質(zhì)的變好,也使得基于計(jì)算機(jī)視覺(jué)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)成為可能。1995年,英國(guó)學(xué)者開(kāi)始研究人群運(yùn)動(dòng)估計(jì)和密度估計(jì),以及潛在的人群危險(xiǎn)情形,其中最主要的研究者是Davies等人[8]。之后,相繼出現(xiàn)了Marana等[9 - 12]重要學(xué)者。Davies和Marana可以說(shuō)是基于計(jì)算機(jī)視覺(jué)進(jìn)行人群密度估計(jì)領(lǐng)域的鼻祖。Davies的研究工作關(guān)注人數(shù)統(tǒng)計(jì),代表定量統(tǒng)計(jì)領(lǐng)域;而Marana將人群分為不同的密度等級(jí),是定性估計(jì)領(lǐng)域的代表。

第三代智能視頻監(jiān)控系統(tǒng)提供了海量的監(jiān)控?cái)?shù)據(jù),為發(fā)展基于深度學(xué)習(xí)的人數(shù)統(tǒng)計(jì)和人群密度估計(jì)技術(shù)提供了條件。而深度學(xué)習(xí)算法的發(fā)展,也使得視頻監(jiān)控系統(tǒng)越來(lái)越智能。

可以看出,隨著視頻監(jiān)控設(shè)備的更新,以及人們對(duì)安防領(lǐng)域的重視,使得智能監(jiān)控技術(shù)蓬勃發(fā)展。下面我們分別從淺層學(xué)習(xí)和深度學(xué)習(xí)方面,對(duì)人數(shù)統(tǒng)計(jì)和人群密度估計(jì)技術(shù)進(jìn)行詳細(xì)介紹。

3 淺層學(xué)習(xí)的方法

一般來(lái)說(shuō),基于淺層學(xué)習(xí)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)的具體流程包括圖像獲取、預(yù)處理、特征提取、特征分類(lèi)和結(jié)果輸出,如圖1所示。

Figure 1 Process of crowd counting and crowd density estimation algorithm圖1 人數(shù)統(tǒng)計(jì)與人群密度估計(jì)算法基本流程

通過(guò)攝像機(jī)獲取人群圖像,人群密度估計(jì)中攝像機(jī)的位置一般固定不變,因此可用一些能達(dá)到實(shí)時(shí)性要求的基于背景建模的方法提取前景,常用的有基于時(shí)空背景隨機(jī)更新的VIBE(VIsual Background Extractor)方法[13]、混合多高斯背景GMM(Gaussian Mixture Model)建模方法[14,15]等。人群密度估計(jì)的過(guò)程中常用幾何矯正[16,17]對(duì)圖像進(jìn)行預(yù)處理,以減小由攝影畸形帶來(lái)的誤差。特征提取、特征分類(lèi)是人群密度估計(jì)的核心部分。如何設(shè)計(jì)出有區(qū)分度的特征以便更好地進(jìn)行人群密度估計(jì),一直以來(lái)都是學(xué)者們所關(guān)注的內(nèi)容。常用的特征有Edgelet特征[18]、梯度統(tǒng)計(jì)特征[16,19,20]、局部二值模式LBP(Local Binary Pattern)特征[21,22]、Harris特征[23]等。特征分類(lèi)則是根據(jù)提取到的特征采用機(jī)器學(xué)習(xí)的方法學(xué)習(xí)一個(gè)分類(lèi)模型或分類(lèi)函數(shù)來(lái)擬合分類(lèi)對(duì)象。目前主要有兩種人群密度估計(jì)的方法:直接法和間接法。特征分類(lèi)的過(guò)程中,如果學(xué)習(xí)的是一個(gè)分類(lèi)模型則為直接法,若學(xué)習(xí)的是一個(gè)分類(lèi)函數(shù)則為間接法(或基于特征的方法),如圖2所示。直接法學(xué)習(xí)到的可以是人的整體模型,也可以是部分模型。針對(duì)運(yùn)動(dòng)個(gè)體,還可利用其運(yùn)動(dòng)信息進(jìn)行軌跡聚類(lèi)分析[24,25]。間接法中根據(jù)特征提取的不同,可將其分為基于像素的方法、基于紋理的方法以及基于角點(diǎn)的方法。

Figure 2 Examples of direct method圖2 直接法示例

3.1 直接法

直接法試圖檢測(cè)圖像中每一個(gè)體,直接法又可進(jìn)一步分為基于模型的方法和基于軌跡聚類(lèi)的方法。基于模型的方法利用圖像的局部信息,訓(xùn)練出一個(gè)人體模型檢測(cè)器來(lái)檢測(cè)個(gè)體。基于軌跡聚類(lèi)的方法假定人群由單個(gè)個(gè)體組成,且每一個(gè)個(gè)體都有著獨(dú)特而連貫的運(yùn)動(dòng)模式,通過(guò)對(duì)軌跡進(jìn)行聚類(lèi)就可以得到近似的人數(shù)。

3.1.1 基于模型的方法

人體模型可以指整體模型,也可以指頭部等部件模型,模型也稱(chēng)為檢測(cè)器。通過(guò)在圖像空間上滑動(dòng)檢測(cè)器來(lái)檢測(cè)圖像中的每一個(gè)個(gè)體,以達(dá)到統(tǒng)計(jì)人數(shù)的目的。

(1)整體檢測(cè)。最直觀、最直接的方法就是整體檢測(cè)[26],通過(guò)一組行人圖像訓(xùn)練出一個(gè)行人檢測(cè)器,如圖2a所示。通常可以用來(lái)表示行人整體的特征有Haar小波[27]、梯度方向直方圖HOG(Histograms of Oriented Gradients)[28]、edgelet[18]以及shapelet[29]。Haar小波是較早用于行人檢測(cè)的特征,HOG、edgelet以及shapelet都是基于梯度的特征,其中Dalal等人[28]提出的HOG影響最大,HOG特征也成為行人檢測(cè)中的主流特征。分類(lèi)器的選擇對(duì)檢測(cè)速度和檢測(cè)的正確率的影響很大,通常速度和正確率無(wú)法兼得,比如徑向基函數(shù)RBF(Radial Basis Function)、支持向量機(jī)的檢測(cè)正確率比較高,但是卻面臨檢測(cè)速度慢的問(wèn)題。行人檢測(cè)中常用的分類(lèi)器有Boosting、線性支持向量機(jī)、隨機(jī)森林以及霍夫森林[30]等。當(dāng)人群比較稀疏、人與人之間不存在較大的重疊時(shí),利用整體檢測(cè)能得到一個(gè)比較準(zhǔn)確的人數(shù),但當(dāng)人群變得比較密集時(shí),這種方法得出的結(jié)果將不可信。

(2)部件檢測(cè)。部件檢測(cè)能在一定程度上解決人群密集情況下的人數(shù)統(tǒng)計(jì)的問(wèn)題,當(dāng)人與人之間存在部分遮擋時(shí),部件模型[31 - 37]同樣有效。文獻(xiàn)[31,32]通過(guò)檢測(cè)監(jiān)控區(qū)域內(nèi)的人頭來(lái)實(shí)現(xiàn)人數(shù)統(tǒng)計(jì),在其工作中,Haar小波變換用于提取人頭的輪廓特征。單純利用人頭模型來(lái)進(jìn)行人數(shù)統(tǒng)計(jì)結(jié)果精度不高,如果加入肩膀區(qū)域,通過(guò)檢測(cè)人頭和肩膀區(qū)域類(lèi)似于Ω的形狀,統(tǒng)計(jì)結(jié)果將變得更加準(zhǔn)確[37],如圖2b所示。

3.1.2 基于軌跡聚類(lèi)的方法

基于軌跡聚類(lèi)的方法依賴于假定個(gè)體運(yùn)動(dòng)場(chǎng)或視覺(jué)特征相對(duì)一致,因此相干的特征軌跡可以被聚合到一起表示移動(dòng)的個(gè)體。遵循這一范式的研究包括:Brostow和Cipolla[24]提出非監(jiān)督的貝葉斯聚類(lèi)方法跟蹤局部特征,并將其聚合成簇,如圖2c所示;Rabaud和Belongie[25]利用KLT(KanadeLucasTomasi)跟蹤器來(lái)獲取一組豐富的低級(jí)跟蹤特征,然后通過(guò)對(duì)軌跡聚類(lèi)來(lái)推斷監(jiān)控區(qū)域中的人數(shù),如圖2d所示,類(lèi)似的工作還可參考文獻(xiàn)[38-40]等。

基于軌跡聚類(lèi)的方法依賴于非監(jiān)督的對(duì)個(gè)體的運(yùn)動(dòng)進(jìn)行聚類(lèi),避免了顯式地對(duì)個(gè)體的外觀進(jìn)行建模。然而,如果場(chǎng)景中兩個(gè)個(gè)體具有共同的軌跡,統(tǒng)計(jì)結(jié)果將變得不可信。

3.2 間接法

間接法又被稱(chēng)為基于回歸的方法或基于映射的方法,一般通過(guò)回歸模型求出人群特征與人數(shù)之間的函數(shù)或利用分類(lèi)器將人群特征映射到對(duì)應(yīng)的人群密度等級(jí)。前者為定量估計(jì),主要代表人物為Davies;后者為定性估計(jì),主要代表人物為Marana。定性估計(jì)一般分為五個(gè)不同的密度等級(jí),分別為很低、低、中等、高以及很高。其均參照1983年P(guān)olus[41]定義的服務(wù)級(jí)別,如表1所示。

Table 1 Service levels defined by Polus

間接的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)方法中,常用的人群特征有前景像素特征、紋理特征和角點(diǎn)特征,分類(lèi)器有支持向量機(jī)SVM(Support Vector Machine)、反向傳播BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)以及自組織映射SOM(Self Organizing Maps)神經(jīng)網(wǎng)絡(luò)等,回歸模型有高斯處理回歸、線性回歸、SVM回歸等。根據(jù)特征提取的不同,可將人數(shù)統(tǒng)計(jì)與人群密度估計(jì)方法分為基于像素的方法、基于紋理的方法以及基于角點(diǎn)的方法。

3.2.1 基于像素的方法

像素統(tǒng)計(jì)特征最先被用于人數(shù)統(tǒng)計(jì),Davies等人[13]利用圖像和背景相減的方法得到運(yùn)動(dòng)前景,然后以前景像素面積和前景邊緣為特征做線性回歸。Yang和Ma等人[42,43]則僅提取人群圖像的前景面積特征,其系統(tǒng)分別針對(duì)室內(nèi)以及室外監(jiān)控。Cho等[44 - 46]同樣利用前景像素面積和前景邊緣特征基于前向神經(jīng)網(wǎng)絡(luò)估計(jì)人群密度。Regazzoni等人[47]則認(rèn)為前景像素與人數(shù)是非線性的關(guān)系,盡管作了一些改進(jìn),但他們的方法主要專(zhuān)注于室內(nèi)的場(chǎng)景,人群數(shù)量也有限(30人)。Damian等人[17]于2007年提出射影畸形矯正方法,通過(guò)對(duì)每個(gè)網(wǎng)格內(nèi)的像素賦予不同的權(quán)值的方法,提取出像素統(tǒng)計(jì)特征,最后采用SVM進(jìn)行分析,得出相應(yīng)的人群密度信息。而Hussain等人[48]組合使用背景消除和邊緣檢測(cè)來(lái)進(jìn)行特征提取,并對(duì)前景像素塊進(jìn)行縮放以矯正透視失真,然后輸入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行人群密度估計(jì),將人群分為“很低”“低”“中”“高”和“很高”五個(gè)密度等級(jí)。

綜上所述,像素統(tǒng)計(jì)特征不僅可用于人數(shù)統(tǒng)計(jì),還可以用來(lái)進(jìn)行密度估計(jì)。基于像素的方法的一般流程包括:前景分割、人群特征提取以及學(xué)習(xí)分類(lèi)或者回歸,如圖3所示。

Figure 3 Process of pixel based method圖3 基于像素的方法流程

總體上來(lái)說(shuō),基于像素統(tǒng)計(jì)的算法比較直觀,易于理解。其基本思想是:人群越密集,分離出人群前景的像素點(diǎn)或邊緣像素點(diǎn)的數(shù)量就越大。像素統(tǒng)計(jì)特征與人群密度或者人群數(shù)量之間的關(guān)系比較簡(jiǎn)單,容易訓(xùn)練,并且訓(xùn)練后的分類(lèi)器或者函數(shù)關(guān)系的泛化能力強(qiáng)。但是,該類(lèi)方法依賴于提取前景,若前景提取不好則估計(jì)結(jié)果將失效,而且高密度人群環(huán)境下正確率低。

3.2.2 基于紋理的方法

Marana認(rèn)為人群圖像具有紋理特征,低密度的圖像具有較粗的紋理模式,而高密度的人群圖像具有較細(xì)的紋理模式,根據(jù)這個(gè)特點(diǎn),統(tǒng)計(jì)人群紋理圖像的灰度共生矩陣GLDM(Grey Level Dependence Matrices)[9 - 11]或閔科夫斯基分形維數(shù)MFD(Minkowski Fractal Dimensions)[12]作為特征,利用SOM神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi),將人群分為“很低”“低”“中”“高”和“很高”五個(gè)密度等級(jí)。隨后Marana又引入信號(hào)處理的方法,將小波變換應(yīng)用到人群密度估計(jì)中。他首先對(duì)人群圖像進(jìn)行二級(jí)小波包分解,得到小波系數(shù)矩陣,然后計(jì)算小波系數(shù)矩陣的能量,最后將能量值作為特征值送入自組織神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)。小波包的多尺度分類(lèi)特性能有效解決圖像的透視效果,該算法的精度比較高。Li[49]追隨Marana的工作,同樣將二維離散小波變換引入人群密度估計(jì)中,并基于SVM將人群密度分為四個(gè)等級(jí)。Rahmalan等人[50]提出基于切比雪夫平移正交不變矩TIOCM(Translation Invariant Orthonormal Chebyshev Moments)的人群紋理描述特征,同樣用SOM神經(jīng)網(wǎng)絡(luò)將人群密度分為五個(gè)范圍。并將TIOCM與GLDM和MFD特征做比較,在其數(shù)據(jù)集上TIOCM取得了較好的效果,而MFD效果最差。Wu等人[51]同樣結(jié)合GLDM和SVM進(jìn)行自動(dòng)的人群密度估計(jì),并能檢測(cè)出不正常的人群密度。

當(dāng)前的研究工作中,紋理特征主要用于人群密度估計(jì)。該類(lèi)方法一般在原始圖像上提取紋理特征,然后進(jìn)行特征分類(lèi)得到相對(duì)應(yīng)的人群密度等級(jí),如圖4所示。

Figure 4 Process of texture based method圖4 基于紋理的方法流程

基于圖像的紋理特征對(duì)人群密度進(jìn)行估計(jì)雖在一定程度上解決了基于像素的方法在高密度人群場(chǎng)景中估計(jì)效果差的問(wèn)題,但此方法在低密度人群環(huán)境下表現(xiàn)不是太好。此外,由于直接在原始圖像上提取紋理特征,容易被背景紋理干擾。

3.2.3 基于角點(diǎn)的方法

Albiol等人[23]最先將Harris角點(diǎn)特征引入人數(shù)統(tǒng)計(jì)中,其方法以優(yōu)越的性能在PETS2009(Performance Evaluation of Tracking and Surveillance)勝出。2010年,Conte等人[52,53]在Albiol的方法基礎(chǔ)上做了改進(jìn),他們選用了加速穩(wěn)健特征SURF(Speeded Up Robust Feature)點(diǎn)作為特征點(diǎn)來(lái)解決Harris角點(diǎn)檢測(cè)的不穩(wěn)定性問(wèn)題,同時(shí)引入逆投影變換IPM(Inverse Perspective Mapping)來(lái)解決透視效應(yīng)。呂濟(jì)民等人[54]在Albiol和Conte的方法的基礎(chǔ)上,使用了“非最大抑制聚類(lèi)”——對(duì)不同拍攝距離的人群采取不同的聚類(lèi)標(biāo)準(zhǔn),該研究成果在處理遠(yuǎn)距離人群上的精度比較高。

目前,大多數(shù)人用此類(lèi)方法進(jìn)行人數(shù)統(tǒng)計(jì),其一般經(jīng)過(guò)角點(diǎn)檢測(cè)、背景角點(diǎn)剔除,然后以前景角點(diǎn)個(gè)數(shù)進(jìn)行回歸得出相應(yīng)的人數(shù),如圖5所示。

Figure 5 Process of corner point based method圖5 基于角點(diǎn)的方法流程

角點(diǎn)特征被最后引入人群密度估計(jì)領(lǐng)域,從2009年出現(xiàn)后,以其優(yōu)越的性能獲得了大量學(xué)者的關(guān)注。

4 深度學(xué)習(xí)的應(yīng)用

2006年以來(lái),深度學(xué)習(xí)(尤其是卷積神經(jīng)網(wǎng)絡(luò))迅速成為研究的熱點(diǎn),已被廣泛應(yīng)用到目標(biāo)檢測(cè)和識(shí)別、圖像分割等領(lǐng)域。研究人員也開(kāi)始轉(zhuǎn)入到基于深度學(xué)習(xí)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù),基于深度學(xué)習(xí)的方法同樣包括直接法和間接法。接下來(lái)將介紹一些經(jīng)典的算法。

4.1 直接法

基于深度學(xué)習(xí)的直接法試圖訓(xùn)練出行人檢測(cè)器,檢測(cè)出圖像中的每一個(gè)個(gè)體,文獻(xiàn)[55]最先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人檢測(cè),該方法也被稱(chēng)為ConvNet。ConvNet混合使用了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),該項(xiàng)工作還提供了有限的樣本(614個(gè)正樣本,1 218個(gè)負(fù)樣本)訓(xùn)練深度網(wǎng)絡(luò)的策略。另一項(xiàng)經(jīng)典的工作是將2007~2009年連續(xù)三年獲得VOC(Visual Object Class)冠軍的目標(biāo)檢測(cè)算法DPM(Deformable Parts Model)用于行人檢測(cè)。文獻(xiàn)[56]通過(guò)一組受限玻爾茲曼機(jī)RBM(Restricted Boltzmann Machine)擴(kuò)展DPM,來(lái)解決行人檢測(cè)中的遮擋問(wèn)題。其后,文獻(xiàn)[57]又在此基礎(chǔ)上訓(xùn)練出多人的檢測(cè)器,該算法可以正確檢測(cè)出人群中無(wú)法通過(guò)單人檢測(cè)器檢測(cè)出的行人。一些學(xué)者將深度學(xué)習(xí)模型視為黑盒子,事實(shí)上這種看法并不全面。聯(lián)合深度學(xué)習(xí)[58]則利用傳統(tǒng)計(jì)算機(jī)視覺(jué)系統(tǒng)與深度模型之間的密切聯(lián)系,成為行人檢測(cè)方面的一個(gè)成功例子。聯(lián)合深度學(xué)習(xí)包括特征提取、部件幾何形變建模、部件檢測(cè)器、部件遮擋處理以及分類(lèi)器等組成模塊。文獻(xiàn)[59]提出的多尺度相關(guān)池化MultiSDP(Multi Scale Dependent Pooling)網(wǎng)絡(luò)組合使用多級(jí)分類(lèi)器和深度模型對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,該方法能有效避免訓(xùn)練的過(guò)擬合。SDN(Switchable Deep Network)[60]是目前行人檢測(cè)領(lǐng)域表現(xiàn)最好的算法,其引入了一個(gè)可切換的受限玻爾茲曼機(jī)來(lái)自動(dòng)學(xué)習(xí)層次特征、顯著圖以及身體部位的混合表示。

4.2 間接法

除此之外,還有一類(lèi)方法通過(guò)深度網(wǎng)絡(luò)直接回歸出人數(shù)或給出一個(gè)密度等級(jí)。Fu等人[61]提出了一個(gè)多級(jí)的卷積神經(jīng)網(wǎng)絡(luò),將人群分為“很低”“低”“中”“高”“很高”五個(gè)密度等級(jí),且分類(lèi)正確率能達(dá)到96.8%。中國(guó)科學(xué)院自動(dòng)化研究所錄制了包括不同天氣條件的人群視頻,且視頻來(lái)源于不同地點(diǎn)共6個(gè)場(chǎng)景。黃凱奇的研究團(tuán)隊(duì)[62]以6個(gè)場(chǎng)景的視頻切片的源圖像以及光流圖像分別作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,回歸出了場(chǎng)景中兩個(gè)不同方向(進(jìn)入以及離開(kāi))的人數(shù)。另一項(xiàng)比較新的工作來(lái)自于香港中文大學(xué)的王曉剛的研究團(tuán)隊(duì)[63],他們提供的方法不僅能同時(shí)估計(jì)出人群密度以及人數(shù),而且還能夠適用于不同的場(chǎng)景。

當(dāng)前,大多數(shù)基于深度學(xué)習(xí)的人數(shù)統(tǒng)計(jì)方法為直接法,為解決人數(shù)統(tǒng)計(jì)中的遮擋問(wèn)題,很多學(xué)者做了大量的研究工作。但是,這種基于檢測(cè)的直接法最大的缺點(diǎn)就是在檢測(cè)的過(guò)程中,需要大量的候選窗口,這樣大大降低了算法的時(shí)效性。通常,人數(shù)統(tǒng)計(jì)或者密度估計(jì)不應(yīng)該關(guān)注個(gè)體,近兩年也有部分工作開(kāi)始注重基于深度學(xué)習(xí)回歸的人數(shù)統(tǒng)計(jì)和人群密度估計(jì)算法。

5 性能評(píng)估與基準(zhǔn)數(shù)據(jù)集

5.1 性能評(píng)估方法

為了對(duì)人群人數(shù)統(tǒng)計(jì)和密度估計(jì)算法進(jìn)行性能評(píng)估,需要一些有效的評(píng)價(jià)指標(biāo)。對(duì)于人數(shù)統(tǒng)計(jì),常用的評(píng)價(jià)指標(biāo)有三個(gè),分別為平均絕對(duì)誤差MAE(Mean Absolute Error)、均方誤差MSE(Mean Squared Error)以及平均偏差誤差MDE(Mean Deviation Error)[6]。

MAE的定義如式(1)所示:

MSE的定義如式(2)所示:

MDE的定義如式(3)所示:

MAE和MSE被廣泛用于評(píng)價(jià)算法的性能,但對(duì)于人數(shù)統(tǒng)計(jì),這兩項(xiàng)指標(biāo)無(wú)法反映密度的變化,而MDE不僅能評(píng)測(cè)算法性能,還可以反映出密度的變化,因此被大量用于評(píng)價(jià)人數(shù)統(tǒng)計(jì)算法。

對(duì)于人群密度估計(jì),常常被看作是一個(gè)分類(lèi)問(wèn)題,因此一般都用正確率來(lái)評(píng)價(jià)算法的性能。

5.2 基準(zhǔn)數(shù)據(jù)集

人數(shù)統(tǒng)計(jì)和人群密度估計(jì)技術(shù)常用的基準(zhǔn)數(shù)據(jù)集如下:

(1)PETS2009[64]:第11屆國(guó)際跟蹤與監(jiān)控性能評(píng)價(jià)研討會(huì)上引入的數(shù)據(jù)集,包含3個(gè)不同的人群場(chǎng)景S1、S2和S3,其中S1主要用于人數(shù)統(tǒng)計(jì)和密度估計(jì),S2用于行人跟蹤,S3用于光流分析以及事件識(shí)別。

(2)Fudan[65]:錄制于上海復(fù)旦大學(xué)光華樓的入口,總共1 500幀,被分為5個(gè)不同的部分。這個(gè)數(shù)據(jù)集不僅提供了原圖像,而且還提供了分割出的前景二值圖,以及一些提取的人群特征供研究者使用。

(3)Grand Central[66]:由香港中文大學(xué)Zhou提供,拍攝了一段包含33 min的紐約中央火車(chē)站的人群視頻,監(jiān)控的范圍比較大,且行人比較多。

(4)UCSD[67]:包含2 000幀標(biāo)記好的行人視頻,視頻中行人相向而行,且人群密度從稀疏到密集變化。

(5)Mall[68]:由香港中文大學(xué)Loy提供,是一段通過(guò)公共監(jiān)控?cái)z像頭拍攝的商場(chǎng)的行人視頻。

(6)Chunxi_Road[69]:由成都電子科技大學(xué)的付敏提供,拍攝于春熙路,包含的行人比較多,且行人姿態(tài)(有運(yùn)動(dòng)的也有靜止的)和著裝各異,該數(shù)據(jù)集更接近于真實(shí)的人群場(chǎng)景。

6 人數(shù)統(tǒng)計(jì)/人群密度估計(jì)技術(shù)的挑戰(zhàn)及方向

基于計(jì)算機(jī)視覺(jué)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)歷來(lái)都是一項(xiàng)比較富有挑戰(zhàn)性的任務(wù),主要需要克服以下幾方面的困難:

(1)監(jiān)控圖像(尤其是室外監(jiān)控)容易受到光照、天氣等因素的影響;

(2)對(duì)于不同的場(chǎng)景,相機(jī)參數(shù)的不同使得人群圖像有著不同程度的攝影畸形;

(3)人群姿態(tài)各異,有擁擠以及遮擋現(xiàn)象的存在。

以上是幾個(gè)常見(jiàn)的挑戰(zhàn),這些因素要么影響人群的分割,要么使得模型在不同場(chǎng)景中無(wú)法通用,要么使得檢測(cè)個(gè)體變得很困難。

現(xiàn)有的算法大多數(shù)僅僅針對(duì)運(yùn)動(dòng)人群,且依賴于人群分割,若無(wú)法正確分割出人群,將無(wú)法有效地估計(jì)出人數(shù)。傳統(tǒng)的背景建模方法無(wú)法克服人群分割中的所有問(wèn)題,F(xiàn)CN(Fully Convolutional Networks)[70]是一個(gè)比較優(yōu)秀的用于分割的深度網(wǎng)絡(luò),未來(lái)將應(yīng)用于人群分割。

監(jiān)控?cái)z像頭日益增多,要想讓自己的算法得到大范圍的推廣,唯有設(shè)計(jì)出只需輕微修改參數(shù)就能應(yīng)用的算法。現(xiàn)階段這方面的研究工作還很少,且現(xiàn)有的基準(zhǔn)數(shù)據(jù)集也很少有提供多個(gè)場(chǎng)景的,多場(chǎng)景的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)將成為未來(lái)的熱點(diǎn)。

人群姿態(tài)與遮擋一直以來(lái)是研究者所關(guān)心的問(wèn)題,并且有大量的研究用于解決這方面的問(wèn)題。香港中文大學(xué)的王曉剛等人對(duì)DPM的應(yīng)用一定程度上解決了此問(wèn)題,而這兩年目標(biāo)檢測(cè)領(lǐng)域的另幾個(gè)優(yōu)秀的算法分別為R-CNN[71]、SPP-NET[72]、Fast R-CNN[73]以及FasterR-CNN[74],如何將這些算法應(yīng)用于行人檢測(cè)也是一個(gè)值得研究的課題。

總之,人數(shù)統(tǒng)計(jì)與人群密度估計(jì)的首要任務(wù)是設(shè)計(jì)出能更好表征人群的方法,Sermanet等人[75]指出,深度學(xué)習(xí)在很多應(yīng)用上比人工設(shè)計(jì)的特征表現(xiàn)更優(yōu)異,近幾年來(lái),也有很多學(xué)者轉(zhuǎn)向研究基于深度學(xué)習(xí)的人群密度估計(jì)算法,未來(lái)人數(shù)統(tǒng)計(jì)與人群密度估計(jì)領(lǐng)域也將涌現(xiàn)出更多的基于深度學(xué)習(xí)的方法。

7 結(jié)束語(yǔ)

作為人群分析方面的一項(xiàng)富有挑戰(zhàn)性的任務(wù),人數(shù)統(tǒng)計(jì)與人群密度估計(jì)吸引了大量學(xué)者的注意力。20世紀(jì)90年代出現(xiàn)的數(shù)字視頻監(jiān)控系統(tǒng),使得學(xué)者們開(kāi)始研究基于計(jì)算機(jī)視覺(jué)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)。從這二十多年的發(fā)展來(lái)看,人數(shù)統(tǒng)計(jì)與人群密度估計(jì)技術(shù)經(jīng)歷了從基于淺層學(xué)習(xí)的方法到基于深度學(xué)習(xí)的方法兩個(gè)階段。近些年來(lái),基于淺層學(xué)習(xí)的方法的發(fā)展速度開(kāi)始放慢,該領(lǐng)域具有影響力的研究成果大多集中在深度學(xué)習(xí)方面。隨著人們對(duì)安防方面要求的提高,基于計(jì)算機(jī)視覺(jué)的人數(shù)統(tǒng)計(jì)與人群密度估計(jì)系統(tǒng)勢(shì)必會(huì)得到大范圍的應(yīng)用。而現(xiàn)有的方法普遍存在無(wú)法適用于不同場(chǎng)景的問(wèn)題,這給系統(tǒng)的安裝帶來(lái)了不便,從而影響系統(tǒng)的推廣。但是,目前也有學(xué)者關(guān)注這個(gè)問(wèn)題,相信在不久的將來(lái),視頻監(jiān)控將變得更加智能。

[1] Huang Kai-qi, Chen Xiao-tang, Kang Yun-feng, et al. Intelligent visual surveillance: A review[J]. Chinese Journal of Computers, 2015,38(6):1093-1118.(in Chinese)

[2] Zhan B,Monekosso D N,Remagnino P,et al.Crowd analysis: A survey[J].Machine Vision & Applications,2008,19(5-6):345-357.

[3] Jacques Junior J C S,Musse R S,Jung C R.Crowd analysis using computer vision techniques[J].Signal Processing Magazine IEEE,2010,27(5):66-77.

[4] Li T, Chang H, Wang M,et al.Crowded scene analysis: A survey [J].IEEE Transactions on Circuits & Systems for Video Technology,2015,X(1):367-386.

[5] Ryan D,Denman S,Sridharan S,et al.An evaluation of crowd counting methods,features and regression models[J].Computer Vision & Image Understanding,2015,130(C):1-17.

[6] Loy C C,Chen K,Gong S,et al.Crowd counting and profiling: Methodology and evaluation[M]∥Ali S, Nishino K, Manocha D,et al.Modeling,Simulation and Visual Analysis of Crowds.Berlin:Springer,2013:347-382.

[7] Saleh S A M,Suandi S A,Ibrahim H.Recent survey on crowd density estimation and counting for visual surveillance [J].Engineering Applications of Artificial Intelligence,2015,41:103-114.

[8] Davies A C,Jia H Y A V.Crowd monitoring using image processing [J].Electronics & Communications Engineering Journal,1995,7(1):37-47.

[9] Marana A N, Velastin S A,Costa L F,et al.Estimation of crowd density using image processing[C]∥Proc of IEE Colloquium on Image Processing for Security Applications 1997,Digest No.074.

[10] Marana A N,Velastin S A,Costa L F,et al.Automatic estimation of crowd density using texture[J].Safety Science,1998,28(3):165-175.

[11] Marana A N,Costa L F,Lotufo R A,et al.On the efficacy of texture analysis for crowd monitoring[C]∥Proc of the 25th International Symposium on Computer Graphics, Image Processing, and Vision,1998:354-354.

[12] Marana A N, Da Fontoura Costa L,Lotufo R A,et al.Estimating crowd density with Minkowski fractal dimension[C]∥Proc of 1988 International Conference on Acoustics,Speech,and Signal Processing(ICASSP’88),1999:3521-3524.

[13] Wang Qiang, Sun Hong. Crowd density estimation based on pixel and texture[J]. Electronic Science and Technology, 2015,28(7):129-132.(in Chinese)

[14] Shen Na-li, Li Ning, Chang Qing-long. Crowd density estimation based on improved Gaussian mixture model[J]. Computer & Digital Engineering, 2012, 40(7):108-111. (in Chinese)

[15] Zhang Ying, Chen Lin-qiang, Yang Li-kun. People counting based on object segmentation and SVM[J]. Journal of Hangzhou Dianzi University, 2013,33(6):86-90.(in Chinese)

[16] Chan A B,Liang Z S J,Vasconcelos N.Privacy preserving crowd monitoring: Counting people without people models or tracking[C]∥Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2008:1-7.

[17] Roqueiro D, Petrushin V A. Counting people using video cameras [J].International Journal of Parallel Emergent & Distributed Systems,2007,22(3):193-209.

[18] Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]∥Proc of the 10th IEEE International Conference on Computer Vision(ICCV’05),2005:90-97.

[19] Chan A B, Vasconcelos N.Counting people with low-level features and Bayesian regression [J].IEEE Transactions on Image Processing,2012,21(4):2160-2177.

[20] Kong D,Gray D,Tao H.A viewpoint invariant approach for crowd counting[C]∥Proc of the 18th International Conference on Pattern Recognition(ICPR 2006),2006:1187-1190.

[21] Qin Xun-hui, Wang Xiu-fei, Zhou Xi, et al. Counting people in various crowed density scenes using support vector regression[J]. Journal of Image and Graphics, 2013,18(4):392-398. (in Chinese)

[22] Li Xue-feng, Li Xiao-hua, Zhou Ji-liu . Crowd density estimation based on completed local binary pattern[J]. Computer Engineering and Design, 2012, 33(3):1027-1031.(in Chinese)

[23] Albiol A,Silla M J,Mossi J M.Video analysis using corner motion statistics[C]∥Proc of IEEE International Workshop on Performance Evaluation of Tracking and Surveillance,2009:31-38.

[24] Brostow G J,Cipolla R.Unsupervised Bayesian detection of independent motion in crowds[C]∥Proc of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06),2006:594-601.

[25] Rabaud V,Belongie S.Counting crowded moving objects[C]∥Proc of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06),2006:705-711.

[26] Leibe B, Seemann E, Schiele B. Pedestrian detection in crowded scenes[C]∥Proc of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), 2005:878-885.

[27] Jones M J,Snow D.Pedestrian detection using boosted features over many frames[C]∥Proc of the 19th International Conference on Pattern Recognition(ICPR 2008),2008:1-4.

[28] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886-893.

[29] Sabzmeydani P,Mori G.Detecting pedestrians by learning shapelet features[C]∥Proc of 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:1-8.

[30] Juergen G,Angela Y,Nima R,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Software Engineering,2011,33(11):2188-2202.

[31] Lin S F,Chen J Y,Chao H X.Estimation of number of people in crowded scenes using perspective transformation [J].IEEE Transactions on Systems Man & Cybernetics Part A Systems & Humans,2001,31(6):645-654.

[32] Lin S F,Lin C D.Estimation of the pedestrians on a crosswalk[C]∥Proc of 2006 SICE-ICASE,2006:4931-4936.

[33] Felzenszwalb P F,Girshick R B,David M A,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9):1627-1645.

[34] Lin T Y,Lin Y Y,Weng M F,et al.Cross camera people counting with perspective estimation and occlusion handling[C]∥Proc of 2011 IEEE International Workshop on Information Forensics and Security (WIFS’11),2011:1-6.

[35] Wu B,Nevatia R.Detection and tracking of multiple,partially occluded humans by Bayesian combination of edgelet based part detectors [J].International Journal of Computer Vision,2007,75(2):247-266.

[36] Wu B,Nevatia R,Nevatia R.Detection and tracking of multiple,partially occluded humans by Bayesian combination of edgelet based part detectors[J].International Journal of Computer Vision,2007,75(2):247-266.

[37] Li M,Zhang Z,Huang K,et al.Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection[C]∥Proc of the 19th International Conference on Pattern Recognition(ICPR’08),2008:1-4.

[38] Sidla O,Lypetskyy Y,Brandle N,et al.Pedestrian detection and tracking for counting applications in crowded situations[C]∥Proc of 2013 10th IEEE International Conference on Advanced Video & Signal Based Surveillance,2006:70.

[39] Cheriyadat A M,Bhaduri B L,Radke R J.Detecting multiple moving objects in crowded environments with coherent motion regions[C]∥Proc of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2008:1-8.

[40] Cheriyadat A M,Radke R J.Detecting multiple moving objects in crowded environments with coherent motion regions: US,US8462987[P].2013.

[41] Polus A, Livneh M,Craus.Geometry-flow-speed relationships and their effect on level of service[J].Publication of Council for Scientific & Industrial Res S Africa,1983(S316):253-260.

[42] Yang D B,Gonzalez-Banos H H,Guibas L J.Counting people in crowds with a real-time network of simple image sensors[C]∥Proc of the 9th IEEE International Conference on Computer Vision,2003:122-129.

[43] Ma R,Li L,Huang W,et al.On pixel count based crowd density estimation for visual surveillance[C]∥Proc of 2004 IEEE Conference on Cybernetics and Intelligent Systems,2004:170-173.

[44] Chow T W S,Yam Y F,Cho S Y.Fast training algorithm for feedforward neural networks:Application to crowd estimation at underground stations [J].Artificial Intelligence in Engineering,1999,13(3):301-307.

[45] Cho S Y,Chow T S,Leung C T.A neural-based crowd estimation by hybrid global learning algorithm[J].IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics,1999,29(4):535-541.

[46] Chow T W S,Cho S Y.Industrial neural vision system for underground railway station platform surveillance[J].Advanced Engineering Informatics,2002,16(1):73-83.

[47] Regazzoni C S,Tesei A.Distributed data fusion for real-time crowding estimation[J].Signal Processing,1996,53(1):47-63.

[48] Hussain N, Yatim H S M,Hussain N L,et al.CDES: A pixel-based crowd density estimation system for Masjid al-Haram[J].Safety Science,2011,49(6):824-833.

[49] Li X,Shen L,Li H.Estimation of crowd density based on wavelet and support vector machine[J].Transactions of the Institute of Measurement & Control,2006,28(3):299-308.

[50] Rahmalan H,Nixon M S,Carter J N.On crowd density estimation for surveillance[C]∥Proc of 2006 the Institution of Engineering and Technology Conference on Crime and Security,2006:540-545.

[51] Wu X,Liang G,Lee K K,et al.Crowd density estimation using texture analysis and learning[C]∥Proc of IEEE International Conference on Robotics and Biomimetics(ROBIO 2006),2006:214-219.

[52] Conte D,Foggia P,Percannella G,et al.A method for counting people in crowded scenes[C]∥Proc of 2010 7th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS 2010),2010:225-232.

[53] Conte D, Foggia P,Percannella G,et al.Counting moving people in videos by salient points detection[C]∥Proc of International Conference on Pattern Recognition,2010:1743-1746.

[54] Lü Ji-min,Zeng Zhao-xian,Zhang Mao-jun. Counting pedestrains in video sequences based on non-maxima suppression clustering[J].Pattern Recognition and Artificial Intelligence, 2012, 25(1):150-156.(in Chinese)

[55] Sermanet P,Kavukcuoglu K,Chintala S,et al.Pedestrian detection with unsupervised multi-stage feature learning[C]∥Proc of 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR 2013),2013:3626-3633.

[56] Ouyang W.A discriminative deep model for pedestrian detection with occlusion handling[C]∥Proc of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2012),2012:3258-3265.

[57] Ouyang W, Wang X.Single-pedestrian detection aided by multi-pedestrian detection[C]∥Proc of IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2013),2013:3198-3205.

[58] Ouyang W,Wang X.Joint deep learning for pedestrian detection[C]∥Proc of 2013 IEEE International Conference on Computer Vision, 2013:2056-2063.

[59] Zeng X, Ouyang W,Wang X.Multi-stage contextual deep learning for pedestrian detection[C]∥Proc of 2013 IEEE International Conference on Computer Vision (ICCV 2013),2013:121-128.

[60] Luo P,Tian Y,Wang X,et al.Switchable deep network for pedestrian detection[C]∥Proc of 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2014),2014:899-906.

[61] Fu Min, Xu Pei, Li Xu-dong,et al.Fast crowd density estimation with convolutional neural networks[J].Engineering Applications of Artificial Intelligence,2015,43:81-88.

[62] Cao L,Zhang X,Ren W,et al.Large scale crowd analysis based on convolutional neural network[J].Pattern Recognition,2015,48(10):3016-3024.

[63] Zhang C,Li H,Wang X,et al.Cross-scene crowd counting via deep convolutional neural networks[C]∥Proc of 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2015),2015:833-841.

[64] Pets2009 dataset[DS/OL].[2016-01-20].http://ftp.pets.rdg.ac.uk/pub/PETS2009/Crowd_PETS09_dataset/a_data/a.html.

[65] Fudan dataset [DS/OL].[2016-01-20].http://www.iipl.fudan.edu.cn/~zhangjp/Dataset/fd_pede_dataset_intro.htm.

[66] Grand central dataset [DS/OL]. [2016-01-20].http://www.ee.cuhk.edu.hk/~xgwang/grandcentral.html.

[67] UCSD dataset[DS/OL].[2016-01-20].http://www.svcl.ucsd.edu/projects/peoplecnt/.

[68] Mall dataset[DS/OL].[2016-01-20].http://www.eecs.qmul.ac.uk/~ccloy/downloads_mall_dataset.html.

[69] Chunxi_Road[DS/OL].[2016-01-20].http://cvlab.uestc.edu.cn/CDE_CNN/Dataset_Chunxi_Road.zip.

[70] Long J, Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(4):640-651.

[71] Ross Girshick,Jeff Donahue,et al.Region-based convolutional networks for accurate object detection and segmentation[C]∥Proc of 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2014), 2014:1.

[72] He K,Zhang X,Ren S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1904-1916.

[73] Girshick R.Fast r-cnn[C]∥Proc of IEEE International Conference on Computer Vision,2015: 1440-1448.

[74] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards real-time object detection with region proposal networks[C]∥Proc of Advances in Neural Information Processing Systems,2015: 91-99.

[75] Sermanet P,Eigen D,Zhang X,et al.Overfeat: Integrated recognition,localization and detection using convolutional networks.arXiv preprint[J].2014: arXiv:1312.6229v4.

附中文參考文獻(xiàn):

[1] 黃凱奇,陳曉棠,康運(yùn)鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015,38(6):1093-1118.

[13] 王強(qiáng),孫紅.基于像素統(tǒng)計(jì)和紋理特征的人群密度估計(jì)[J].電子科技,2015,28(7):129-132.

[14] 沈娜黎,黎寧,常慶龍.基于改進(jìn)混合高斯模型的人群密度估計(jì)方法[J].計(jì)算機(jī)與數(shù)字工程,2012,40(7):108-111.

[15] 張英,陳臨強(qiáng),楊禮坤.基于目標(biāo)分割與SVM的人數(shù)統(tǒng)計(jì)[J].杭州電子科技大學(xué)學(xué)報(bào),2013,33(6):86-90.

[21] 覃勛輝,王修飛,周曦,等.多種人群密度場(chǎng)景下的人群計(jì)數(shù)[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(4):392-398.

[22] 李雪峰,李曉華,周激流.基于完全局部二值模式的人群密度估計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(3):1027-1031.

[54] 呂濟(jì)民,曾昭賢,張茂軍.基于非最大抑制聚類(lèi)的視頻人數(shù)估測(cè)方法[J].模式識(shí)別與人工智能,2012,25(1):150-156.

猜你喜歡
特征檢測(cè)方法
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 欧美成人免费一区在线播放| 网友自拍视频精品区| 欧美日韩亚洲国产主播第一区| 国产一区二区三区在线观看免费| 毛片网站在线看| 日本不卡视频在线| 欧美有码在线观看| 不卡午夜视频| 亚州AV秘 一区二区三区| 日韩天堂网| 亚洲中文字幕在线观看| 国产香蕉在线| 2024av在线无码中文最新| 国产女人在线视频| 在线观看国产精品第一区免费| 国产精品九九视频| 91小视频在线| 国产在线精彩视频二区| 亚洲人成网7777777国产| 国产成年女人特黄特色毛片免 | 无码 在线 在线| 真实国产乱子伦高清| 不卡无码网| 免费视频在线2021入口| 1769国产精品视频免费观看| 久久天天躁狠狠躁夜夜躁| 亚洲第一天堂无码专区| 久久黄色免费电影| 欧美一区二区精品久久久| 思思热精品在线8| 99热这里只有免费国产精品 | 日韩欧美国产三级| 婷婷六月综合| 免费在线a视频| 久久久精品国产SM调教网站| 亚洲精品自在线拍| 精品福利视频导航| 中文字幕欧美日韩| 激情综合五月网| 中文字幕久久亚洲一区| 国产成人精品一区二区三在线观看| 在线99视频| 国产成熟女人性满足视频| 国产一区在线观看无码| 久久久久青草大香线综合精品| 欧洲在线免费视频| 啊嗯不日本网站| 欧美精品在线免费| 亚洲日韩精品伊甸| 中文字幕久久波多野结衣| 香蕉久久国产超碰青草| 久久久久亚洲AV成人人电影软件| 亚洲人成网站18禁动漫无码| 中文字幕亚洲另类天堂| 国产成人精品综合| 日韩精品一区二区三区视频免费看| 国产一级裸网站| 日韩福利在线观看| 亚洲一级色| 欧美国产日产一区二区| 99精品国产高清一区二区| 亚洲不卡av中文在线| 欧美性久久久久| 青青热久免费精品视频6| 99re在线免费视频| 免费看av在线网站网址| 97视频在线精品国自产拍| 91高清在线视频| 亚洲国产成人在线| 亚洲大尺码专区影院| 中文字幕波多野不卡一区| 大学生久久香蕉国产线观看| 日本91视频| 成人精品在线观看| 国产一区在线视频观看| 有专无码视频| 亚洲丝袜第一页| 在线观看国产黄色| 激情综合五月网| 国产精品毛片一区视频播| 免费国产小视频在线观看| 91热爆在线|