999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)

2018-09-17 11:35:46李白萍韓新怡吳冬梅
圖學(xué)學(xué)報(bào) 2018年4期
關(guān)鍵詞:特征

李白萍,韓新怡,吳冬梅

?

基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)

李白萍,韓新怡,吳冬梅

(西安科技大學(xué)通信與信息工程學(xué)院,陜西 西安 710054)

針對(duì)傳統(tǒng)實(shí)時(shí)人群密度估計(jì)方法存在誤差大、分類效果不佳等缺陷,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人群密度估計(jì)方法。通過(guò)對(duì)比4種常見網(wǎng)絡(luò)結(jié)構(gòu):AlexNet、VGGNet、GoogLeNet和ResNet的準(zhǔn)確度與實(shí)時(shí)性,選擇綜合性較好的GoogLeNet作為人群密度估計(jì)的模型,利用關(guān)鍵幀截取技術(shù)實(shí)現(xiàn)人群密度的實(shí)時(shí)估計(jì)并簡(jiǎn)要分析人群密度特征圖。最后用實(shí)例驗(yàn)證了該方法的實(shí)時(shí)性與準(zhǔn)確度,證明了其可行性。

人群密度;卷積神經(jīng)網(wǎng)絡(luò);視頻處理;實(shí)時(shí)估計(jì)

1 研究背景

人群密度作為描述人群聚集程度的參數(shù),可以用來(lái)衡量人群的可控性與安全性。當(dāng)人群密度上升時(shí),人的不適程度也會(huì)隨之增加,人群會(huì)更不穩(wěn)定、不易控制。FRUIN[1]提出人群密度達(dá)到7.5人/m2時(shí),人群易失去控制,發(fā)生災(zāi)難性事件的潛在可能性較大。傳統(tǒng)的人群密度估計(jì)方法采用人工統(tǒng)計(jì)法,費(fèi)時(shí)、費(fèi)力且效率低下。近幾年,人工智能正處于蓬勃發(fā)展的時(shí)期,特別是深度學(xué)習(xí),已在圖像處理領(lǐng)域取得了巨大的成功。目前,深度學(xué)習(xí)也逐漸被用于視頻分析上,并取得了一定的成果。因此,可考慮利用深度學(xué)習(xí)良好的圖像處理能力對(duì)視頻中人群進(jìn)行密度估計(jì)。

大多數(shù)人群密度估計(jì)方法是將人群看作一個(gè)整體,尋找某種可以描述整個(gè)人群的特征,然后建立此特征與人群密度之間的關(guān)系,利用此關(guān)系估計(jì)人群密度。根據(jù)所選特征的不同,常規(guī)的人群密度估計(jì)方法分為像素統(tǒng)計(jì)法[2]和紋理分析法[3]。像素統(tǒng)計(jì)法的核心是認(rèn)為人群前景圖像的像素?cái)?shù)與人群密度存在正比例關(guān)系,借由計(jì)算整幅圖像中人群前景像素?cái)?shù)所占的比例大小,估計(jì)出人群密度。雖然此方法直觀易理解,但當(dāng)人群遮擋情況嚴(yán)重時(shí),人群前景圖像的像素?cái)?shù)無(wú)法真實(shí)反映人群密度情況,存在估計(jì)不準(zhǔn)確的現(xiàn)象。紋理分析法的思想是將密度與人群圖像的紋理特征聯(lián)系起來(lái),當(dāng)人群密度高時(shí),圖像的紋理較細(xì),反之紋理較粗。一般來(lái)說(shuō),紋理分析主要采用較為傳統(tǒng)的灰度共生矩陣法(gray level dependence matrix, GLDM)[4],紋理粗時(shí)矩陣變化較為緩慢,反之則變化快。GLDM能夠很好地解決人群的重疊遮擋問(wèn)題,在人群密度大時(shí)有良好的效果,但當(dāng)人群密度較低時(shí),此方法并不能保證良好的效果。上述兩種方法均是人工從視頻圖像上提取預(yù)先劃定好的特征,送入合適的分類器中分類。但人群場(chǎng)景較為復(fù)雜,人工選取的特征并不一定能完全地適用于各種情形,如像素統(tǒng)計(jì)法和紋理分析法均存在短板,且很難統(tǒng)一。

使用卷積神經(jīng)網(wǎng)絡(luò)處理靜態(tài)人群圖片能克服上述缺點(diǎn),但靜態(tài)圖片不能滿足實(shí)際生活中的實(shí)時(shí)性要求。為此,本文使用卷積神經(jīng)網(wǎng)絡(luò),對(duì)視頻的關(guān)鍵幀進(jìn)行處理,完成視頻上的人群密度估計(jì)。且使用PETS2009視頻庫(kù)[5]中的視頻作為研究對(duì)象,將帶標(biāo)簽的視頻幀作為卷積神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練模型,提取出可表征人群密度的特征,輸出則為人群密度的5個(gè)類別:Very Low (VL),Low (L),Medium (M),High (H),Very High (VH)。相比于常規(guī)方法,深度學(xué)習(xí)對(duì)人群視頻有較好的適應(yīng)性和魯棒性,可以克服上述兩種常規(guī)方法的缺點(diǎn),能夠真實(shí)地估計(jì)出人群密度情況。

2 卷積神經(jīng)網(wǎng)絡(luò)模型的選取

2.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)都是用卷積層、池化層等基本部件堆疊起來(lái)的結(jié)構(gòu)。其均是前向傳播計(jì)算輸出值,后向傳播調(diào)整權(quán)重與偏置。卷積層中包含多個(gè)卷積核,其分別與輸入進(jìn)行卷積,生成對(duì)應(yīng)的特征圖。設(shè)輸入為×的矩陣,卷積核的大小為×,偏置為1,卷積后可得到大小為(–+1)×(–+1)的特征圖。計(jì)算過(guò)程如下

其中,F是為特征圖矩陣中的元素;I為輸入層與卷積核相對(duì)應(yīng)的元素;為激活函數(shù)。

池化層是對(duì)原始特征圖的二次特征提取,使用一個(gè)新的特征代替小區(qū)域的總體特征。池化后的高層特征圖降低原特征圖的維度,避免過(guò)擬合問(wèn)題。池化的方法分為平均池化和最大池化[6]:平均池化是對(duì)需要池化的區(qū)域中的左右元素求和,取平均數(shù)為最終特征;最大池化是取池化區(qū)域中最大的元素為特征。兩者的計(jì)算過(guò)程如下

其中,為原始特征圖經(jīng)過(guò)步長(zhǎng)為、池化區(qū)域?yàn)椤痢⑵脼?的池化層所得到的子采樣特征圖;max=1(F)為原始特征圖池化區(qū)域×中的最大元素。

雖然采用的部件基本相同,但不同的網(wǎng)絡(luò)結(jié)構(gòu)由于卷積層尺寸大小和網(wǎng)絡(luò)深度之間的差異,對(duì)同一數(shù)據(jù)集會(huì)呈現(xiàn)出不同的效果。目前,較為經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、VGGNet和ResNet,由于其深度、參數(shù)量以及模型大小各異,因此需選擇一個(gè)較為合適的結(jié)構(gòu)完成視頻上的人群密度估計(jì)。

2.2 基于準(zhǔn)確度考慮

對(duì)于人群密度估計(jì),首先要保證密度估計(jì)準(zhǔn)確無(wú)誤。AlexNet、GoogLeNet、VGGNet和ResNet這些結(jié)構(gòu)在歷年的ImageNet挑戰(zhàn)賽均取得過(guò)很好的成績(jī),在ImageNet 1000類別數(shù)據(jù)集上的top-5錯(cuò)誤率均可達(dá)到17%以下。但本文使用的PETS2009數(shù)據(jù)集規(guī)模遠(yuǎn)小于ImageNet,且類別更細(xì)化,因此需要網(wǎng)絡(luò)有更好的特征提取能力。

從特征提取角度來(lái)看,網(wǎng)絡(luò)越深,提取特征的能力越強(qiáng),最終的分類結(jié)果也就越好。另外,網(wǎng)絡(luò)路徑數(shù)目的增加也成為卷積神經(jīng)網(wǎng)絡(luò)的一種設(shè)計(jì)趨勢(shì),人們?cè)谠黾泳W(wǎng)絡(luò)深度的同時(shí)擴(kuò)增網(wǎng)絡(luò)中的分支數(shù)量,使得模型的精度大幅度提高[7]。以下是對(duì)上述各網(wǎng)絡(luò)在準(zhǔn)確度和網(wǎng)絡(luò)深度與結(jié)構(gòu)上的討論。

(1) AlexNet的深度為8層,前5層是卷積層,后3層是全連接層,在最后一個(gè)連接層可輸出1 000個(gè)類別;AlexNet的網(wǎng)絡(luò)分支較少,屬于簡(jiǎn)單的鏈?zhǔn)浇Y(jié)構(gòu)。其在ImageNet上分類測(cè)試的top-5、top-1錯(cuò)誤率分別為15.3%和36.7%[8]。單從準(zhǔn)確度來(lái)看,AlexNet的效果并不十分出色,但其是第一個(gè)大規(guī)模卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),且思想對(duì)后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)具有指導(dǎo)作用,如第一次采用Dropout減少過(guò)擬合,使用ReLU加快網(wǎng)絡(luò)的收斂速度等。

(2) VGGNet有6種網(wǎng)絡(luò)配置,這些網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)原則均相同,不同的是網(wǎng)絡(luò)深度,最深可達(dá)19層。目前,較為常用的深度分別為16層和19層。VGGNet由AlexNet發(fā)展而來(lái),也為鏈?zhǔn)浇Y(jié)構(gòu),網(wǎng)絡(luò)不存在額外分支,從輸入到輸出只有一條路徑。VGGNet在分類與識(shí)別任務(wù)中均取得了不俗的成績(jī):效果最好的16層的VGGNet-D的top-5、 top-1錯(cuò)誤率可分別低至7.3%和24.8%[9]。VGGNet取得如此優(yōu)秀的結(jié)果,不僅是因?yàn)榫W(wǎng)絡(luò)深,也因?yàn)槠涫褂昧硕鄠€(gè)小尺寸卷積核代替一個(gè)大尺寸卷積核,在增加網(wǎng)絡(luò)非線性能力的同時(shí)減少了參數(shù)。

(3) GoogLeNet深度有22層,與前兩種網(wǎng)絡(luò)不同,GoogLeNet的路徑分支眾多,如圖1所示,Inception結(jié)構(gòu)增加了網(wǎng)絡(luò)的寬度,寬度與深度共同提升了GoogLeNet的性能。

圖1 GoogLeNet的Inception結(jié)構(gòu)

(4) 在Inception結(jié)構(gòu)中,使用了大小不同的卷積核,可融合不同尺度的特征,提高網(wǎng)絡(luò)性能。GoogLeNet在ImageNet上分類的top-5錯(cuò)誤率僅為6.66%[10],可見其性能十分優(yōu)秀,深而寬的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提取和融合不同尺寸的特征,符合人群密度分類任務(wù)的要求。

(5) ResNet深度可達(dá)152層,引入身份捷徑鏈接”(identity shortcut connection)解決了梯度彌散問(wèn)題,使網(wǎng)絡(luò)深度增加的同時(shí)性能不退化。最終,ResNet的top-5錯(cuò)誤率為3.6%[11]。

2.3 基于實(shí)時(shí)性考慮

實(shí)時(shí)性是影響視頻人群密度分類準(zhǔn)確性的重要因素。對(duì)于視頻,分類計(jì)算耗時(shí)長(zhǎng),將會(huì)導(dǎo)致預(yù)測(cè)結(jié)果滯后于視頻內(nèi)容,與實(shí)際結(jié)果偏差過(guò)大。因此,所選取的網(wǎng)絡(luò)結(jié)構(gòu)要在保證準(zhǔn)確度的同時(shí)高效運(yùn)算。網(wǎng)絡(luò)的深度對(duì)計(jì)算速度有著重要影響,一般而言,層數(shù)越多計(jì)算耗時(shí)越長(zhǎng)[12]。另外,參數(shù)量也能反映計(jì)算效率,參數(shù)越多,計(jì)算開銷越大,效率就越低。以下是關(guān)于4種網(wǎng)絡(luò)運(yùn)算效率的討論。

(1) AlexNet:8層網(wǎng)絡(luò)結(jié)構(gòu)。有3個(gè)全連接層,有60 M以上的參數(shù)量。由于結(jié)構(gòu)層數(shù)最少,計(jì)算耗時(shí)最短,但因全連接層的存在其參數(shù)量并不少。雖然AlexNet實(shí)時(shí)性好,但準(zhǔn)確度在4種網(wǎng)絡(luò)中最低,卷積層少?gòu)亩卣鞒槿∧芰θ酰夯芰σ草^差。

(2) VGGNet:深度和網(wǎng)絡(luò)結(jié)構(gòu)使得其計(jì)算單張圖片所需的時(shí)間更長(zhǎng)。由于擁有3個(gè)全連接層,參數(shù)量在133 M以上。

(3) GoogLeNet:參數(shù)量?jī)H為7 M,遠(yuǎn)遠(yuǎn)小于AlexNet和VGGNet。雖然比VGGNet更深,但GoogLeNet的Inception架構(gòu)可以將稀疏矩陣聚類為較為密集的子矩陣來(lái)提高網(wǎng)絡(luò)性能,既保持網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,又利用了密集矩陣的高計(jì)算性能。另外,Inception使用1×1卷積核進(jìn)行降維,使計(jì)算性能大幅提高。一般來(lái)說(shuō),具有Inception的網(wǎng)絡(luò)比沒(méi)有Inception的網(wǎng)絡(luò)速度快2~3倍。GoogLeNet使用average pooling代替全連接層,大幅減少參數(shù)量的同時(shí)將top-1錯(cuò)誤率降低了0.6%。GoogLeNet的計(jì)算速度低于AlexNet,遠(yuǎn)遠(yuǎn)高于VGGNet,加之準(zhǔn)確度高,適合本文任務(wù)的要求。

(4) ResNet:殘差網(wǎng)絡(luò)越深,分類效果越好。常見的殘差網(wǎng)絡(luò)結(jié)構(gòu)遠(yuǎn)比前3種深,計(jì)算開銷較之更大,準(zhǔn)確度高,但不滿足實(shí)時(shí)性要求。

綜上,AlexNet可滿足實(shí)時(shí)性,但準(zhǔn)確度不夠高;VGGNet與ResNet的準(zhǔn)確度高,但計(jì)算開銷大,這3種網(wǎng)絡(luò)均不適合本文任務(wù)。GoogLeNet不僅滿足準(zhǔn)確度要求,也滿足實(shí)時(shí)性要求,因此本文選擇GoogLeNet作為在視頻是人群密度分類的核心算法。

3 人群密度分類

人群密度分類可建立人群圖像與密度類別之間的某種關(guān)聯(lián),并以此作為衡量標(biāo)準(zhǔn),對(duì)新的視頻數(shù)據(jù)或圖像數(shù)據(jù)進(jìn)行人群密度估計(jì)。本文將人群圖像的視頻幀作為輸入,用卷積神經(jīng)網(wǎng)絡(luò)尋找特征,并分析特征圖。

3.1 人群密度特征圖

對(duì)于人群密度估計(jì),所選取的特征在很大程度上影響著估計(jì)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)能抽取較為抽象的高層非線性特征,其對(duì)訓(xùn)練數(shù)據(jù)有著最佳的本征解釋。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核可以探測(cè)特定的形狀、顏色等[13],圖2為訓(xùn)練完成的GoogLeNet模型的第一個(gè)卷積層中的卷積核。特征圖中包含卷積核所抓取到的特征。因此,將已檢測(cè)到細(xì)小形狀、顏色的特征圖作為網(wǎng)絡(luò)下一層的輸入,再次通過(guò)卷積獲得更為復(fù)雜的特征。經(jīng)過(guò)多層之后,抽取出的特征會(huì)變得復(fù)雜抽象。

圖2 GoogLeNet第一個(gè)卷積層的卷積核

特征圖可以顯示圖像經(jīng)過(guò)不同的卷積核,卷積計(jì)算之后的情形。對(duì)特征圖進(jìn)行可視化后,能夠清楚地觀察CNN網(wǎng)絡(luò)的工作過(guò)程。如圖像進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)層層卷積、下采樣后,特征圖也相應(yīng)地變得越來(lái)越傾向于某個(gè)類別。圖3是取自PETS2009視頻庫(kù)中的3幀圖片,分別代表人群密度為低、中、高3種情形。將其送入訓(xùn)練好的GoogLeNet模型,完成分類運(yùn)算后,對(duì)圖像經(jīng)過(guò)第二個(gè)卷積層后的特征圖進(jìn)行可視化,如圖3所示。

圖4中彩色區(qū)域?qū)?yīng)著3幀圖片中的人群位置,其形狀與人群形狀相近,人越多,彩色區(qū)域越大,由此可見,人群的某個(gè)特征激活了對(duì)應(yīng)該特征圖的卷積核。特征圖中的高亮彩色部分是“敏感”區(qū)域,對(duì)其分類結(jié)果的影響遠(yuǎn)大于藍(lán)色區(qū)域。在卷積神經(jīng)網(wǎng)絡(luò)的低層,卷積核提取的特征較為簡(jiǎn)單,即線條、形狀及顏色等,因此在特征圖右上角檢測(cè)到了某種與人群相似的特征,即高亮區(qū)域。類似于這樣的誤檢區(qū)域會(huì)隨著卷積層數(shù)的增多而減少。越往高層,經(jīng)過(guò)的卷積層越多,特征圖越接近于簡(jiǎn)單的像素塊。圖5為高密度時(shí)某一高層特征圖。其彩色部分依舊是對(duì)分類結(jié)果敏感的部分,但不同的是高層特征圖已不再有人群形狀等細(xì)節(jié)信息,說(shuō)明高層的卷積核提取的特征更為復(fù)雜,這種特征必然是人群所獨(dú)有的特征。

圖3 3種密度的人群圖

圖4 人群圖像的特征圖

圖5 高密度人群圖像的高層特征圖

3.2 實(shí)時(shí)人群密度分類

視頻是由連續(xù)的幀圖像組成的,幀中記錄了視頻里的所有信息,使用卷積神經(jīng)網(wǎng)絡(luò)處理視頻的實(shí)質(zhì)是對(duì)其視頻中的幀進(jìn)行處理。但視頻相鄰幀之間圖像的變化非常小,存在一定的冗余信息。實(shí)際上,人群在1 s內(nèi)不會(huì)發(fā)生巨大變化,但視頻1 s內(nèi)至少有25幀,如果將全部的幀送入卷積神經(jīng)網(wǎng)絡(luò),意味著處理一幀圖片的時(shí)間需要低于40 ms才能保證實(shí)時(shí)性。在實(shí)際處理中,不同圖片的處理耗時(shí)并不相同,有些圖片需要更長(zhǎng)的處理時(shí)間。處理全部幀必然因?yàn)樘幚砗臅r(shí)而累積與實(shí)際情況的時(shí)間差,因此,將全部的幀送入模型處理不僅會(huì)加重硬件資源的負(fù)擔(dān),更會(huì)拖慢處理速度,降低實(shí)時(shí)性。為了進(jìn)一步保證人群密度估計(jì)的實(shí)時(shí)性,降低GPU的壓力,本文使用靜態(tài)圖像作為訓(xùn)練數(shù)據(jù)集訓(xùn)練模型,在實(shí)際估計(jì)時(shí)從視頻中每隔固定時(shí)間抽取視頻的一幀,縮放及歸一化處理后送入網(wǎng)絡(luò)進(jìn)行計(jì)算,在保證實(shí)時(shí)性的同時(shí)減小了硬件壓力(圖6)。截取幀時(shí),按照時(shí)序每隔25幀取一幀,盡可能保留時(shí)間信息。預(yù)處理即對(duì)圖像的尺寸做歸一化處理,以及對(duì)幀圖像的零均值處理。GoogLeNet要求輸入圖像的大小為224×224,因此需要對(duì)截取到的幀圖像的尺寸歸一化。數(shù)據(jù)預(yù)處理還包括在RGB 3個(gè)通道上分別減去該維的均值,使彩色幀的每一個(gè)維度都具有零均值。

4 實(shí)驗(yàn)與分析

4.1 視頻人群密度估計(jì)實(shí)驗(yàn)

實(shí)驗(yàn)使用PETS2009數(shù)據(jù)集作為數(shù)據(jù)來(lái)源,內(nèi)部有不同時(shí)間、不同視角的人群視頻段,在不同的視角下,視頻中的背景是不相同的。選取4個(gè)視角下共36段視頻作為最終使用的數(shù)據(jù)集。將數(shù)據(jù)集中的所有視頻段按照1︰1的比例分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。一般訓(xùn)練集中的數(shù)據(jù)要比測(cè)試集中的數(shù)據(jù)多,才能使模型學(xué)習(xí)充分。但在本實(shí)驗(yàn)中,由于數(shù)據(jù)集的背景場(chǎng)景較少,因此適當(dāng)減少訓(xùn)練集的數(shù)據(jù)并且增加測(cè)試集的數(shù)據(jù),可以更有效的說(shuō)明模型的泛化能力。在訓(xùn)練集中,將所有樣本分為VL(Very Low)、L(Low)、M(Medium)、H(High)、VH(Very High)5類,分別對(duì)應(yīng)人數(shù)為0~8人、9~16人、17~24人、25~32人及≥33人為。對(duì)于測(cè)試集,選取4個(gè)視頻段,對(duì)其按照訓(xùn)練集的標(biāo)準(zhǔn)對(duì)幀分類并標(biāo)注,作為測(cè)試精度的驗(yàn)證數(shù)據(jù)集;剩余視頻段不分類標(biāo)注,作為實(shí)時(shí)人群密度分類的輸入視頻。實(shí)驗(yàn)使用的網(wǎng)絡(luò)模型有AlexNet、VGGNet和GoogLeNet。實(shí)驗(yàn)平臺(tái)是在Windows 10上用VS2015搭建的Caffe平臺(tái),視頻的讀取預(yù)處理均使用Opencv-Python,GPU為GTX 1080。

圖6 實(shí)時(shí)估計(jì)流程圖

直接使用人群數(shù)據(jù)集訓(xùn)練模型不僅收斂速度慢,且極易發(fā)生過(guò)擬合,因此實(shí)驗(yàn)使用人群數(shù)據(jù)集在ImageNet預(yù)訓(xùn)練模型上進(jìn)行微調(diào),迭代50 000次后測(cè)試精度達(dá)到99%以上時(shí)停止訓(xùn)練。其中,動(dòng)量項(xiàng)為0.9,基礎(chǔ)學(xué)習(xí)速率設(shè)為0.001,學(xué)習(xí)速率調(diào)整策略為均勻分布(step),batch_size設(shè)為32,權(quán)重衰減系數(shù)為0.002。使用預(yù)留的標(biāo)注視頻幀對(duì)訓(xùn)練好的模型進(jìn)行精度測(cè)試,batch_size為50,最終測(cè)試誤差低至2.5%。圖7是模型誤差隨迭代次數(shù)增加的變化。

圖7 GoogLeNet前10 000次迭代的誤差情況

使用視頻驗(yàn)證時(shí),每隔25幀截取一幀分別送入AlexNet、VGGNet和GoogLeNet計(jì)算,并將分類結(jié)果顯示在視頻畫面上,效果如圖8所示。實(shí)驗(yàn)14段視頻共截取出1 124幀圖片,分類準(zhǔn)確率為

從表1和式(4)中可以求出AlexNet的分類準(zhǔn)確率為95.6%,VGGNet的準(zhǔn)確率為96.9%,GoogLeNet的準(zhǔn)確率為97.2%。由此可見,GoogLeNet準(zhǔn)確率較高,能夠克服傳統(tǒng)方法的弊端。

表1 3種模型的錯(cuò)誤分類幀數(shù)統(tǒng)計(jì)

4.2 實(shí)時(shí)性實(shí)驗(yàn)

在使用CUDA對(duì)卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算進(jìn)行加速,需要分類計(jì)算的幀圖像平均每張耗時(shí)0.02 s,遠(yuǎn)遠(yuǎn)小于人群變化的時(shí)間,運(yùn)算效率符合實(shí)時(shí)密度估計(jì)的要求。在使用CUDA對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行加速的情況下,對(duì)層數(shù)相對(duì)較少的3種結(jié)構(gòu):AlexNet、VGGNet與本文使用的GoogLeNet進(jìn)行了實(shí)時(shí)性實(shí)驗(yàn)。實(shí)驗(yàn)中使用GPU GTX1080,分別對(duì)3種網(wǎng)絡(luò)模型處理單幀圖片所需的時(shí)間進(jìn)行比較。3種網(wǎng)絡(luò)結(jié)構(gòu)用相同的訓(xùn)練集進(jìn)行訓(xùn)練,使用相同的50幀圖片進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)時(shí)間并分別求模型的耗時(shí)均值。實(shí)驗(yàn)結(jié)果見表2。

表2 平均耗時(shí)比較

網(wǎng)絡(luò)參數(shù)量(M)平均耗時(shí)(s) AlexNet600.034 VGG-D1380.079 GoogLeNet70.043

由表2可以看出,GoogLeNet的平均處理時(shí)間為43 ms,略長(zhǎng)于AlexNet,但比VGGNet短很多。由平均時(shí)間可看出,網(wǎng)絡(luò)無(wú)法在1 s內(nèi)處理完25幀圖像,且在實(shí)驗(yàn)中一些幀的處理時(shí)間達(dá)到了150 ms以上,如果將全部的幀送入網(wǎng)絡(luò)處理,會(huì)造成處理結(jié)果遠(yuǎn)滯后于實(shí)際情況。因此,本文采用在1 s內(nèi)抓取一幀進(jìn)行處理,可以在基本保證實(shí)時(shí)性的情況下反映實(shí)際人群密度情況。

5 結(jié)束語(yǔ)

針對(duì)人群密度估計(jì),使用卷積神經(jīng)網(wǎng)絡(luò)克服像素統(tǒng)計(jì)法的遮擋問(wèn)題和紋理分析法在低密度效果不佳的問(wèn)題,將估計(jì)準(zhǔn)確率提升到96%以上并實(shí)現(xiàn)了對(duì)視頻中的人群密度估計(jì)。但文中使用的數(shù)據(jù)集的背景較為理想,沒(méi)有考慮視覺畸變問(wèn)題。同時(shí),使用的數(shù)據(jù)集的背景較為單一,因此在模型泛化上可能存在一定的局限性。人群安全不僅是要關(guān)注人群密度,也需要關(guān)注高密度時(shí)人群的行為,在未來(lái),應(yīng)該將人群密度與人群的運(yùn)動(dòng)分析相結(jié)合,使人群視頻分析更加智能化。

[1] FRUIN J J. Pedestrian planning and design [M]. New York: Metropolitan Association of Urban Designers and Environmental Planners, 1971: 26-40.

[2] DAVIES A C, YIN J H, VELASTIN S A. Crowd monitoring using image processing [J]. Electronics & Communication Engineering Journal, 1995, 7(1): 37-47.

[3] MARANA A N, VELASTIN S A, COSTA L F, et al. Automatic estimation of crowd density using texture [J]. Safety Science, 1998, 28(3): 165-175.

[4] HARALICK R M. Statistical and structural approaches to texture [J]. Proceedings of the IEEE, 1979, 67(5): 786-804.

[5] FERRYMAN J, SHAHROKNI A. PETS2009: Dateset and challenge [C]//11th IEEE International Workshop Performance Evaluation of Tracking and Surveillance. New York: IEEE Press, 2010: 1-6.

[6] BOUREAU Y L, PONCE J, LECUN Y. A theoretical analysis of feature pooling in visual recognition [C]// Proceedings of the 27th International Conference on Machine Learning. New York: ACM Press, 2010: 111-118.

[7] SMITH L N, TOPIN N. Deep convolution neural networks design patterns [EB/OL]. (2016-11-14) [2017-06-10]. https://arxiv.org/abs/1611.00847.

[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [C]//International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2012: 1097-1105.

[9] SIMONYAN K, ZISSERMAN A. Very deep convolution networks for large-scale image recognition [EB/OL]. (2015-04-10) [2016-12-4]. https://arxiv.org/abs/ 1409.1556.

[10] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolution [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

[11] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [EB/OL]. (2015-12-10) [2017-01-10]. https://arxiv.org/abs/1512.03385.

[12] 付敏. 基于卷積圣經(jīng)網(wǎng)絡(luò)的人群密度估計(jì)[D]. 成都: 電子科技大學(xué), 2014.

[13] 馬海軍. 監(jiān)控場(chǎng)景中人數(shù)統(tǒng)計(jì)算法的研究與應(yīng)用[D]. 合肥: 安徽大學(xué), 2016.

Real-Time Crowd Density Estimation Based on Convolutional Neural Networks

LI Baiping, HAN Xinyi, WU Dongmei

(College of Communication and Information Engineering, Xi’an University of Seience and Technology, Xi’an Shaanxi 710054, China)

In response to the deficiencies such as big error and poor performance in the traditional method of real-time crowd density estimation, a new one based on CNN is proposed. By comparing the accuracy and real-time of four common network structures—AlexNet, VGGNet, GoogLeNet, and ResNet, the GoogLeNet which has relatively better comprehensive performance is chosen as the model for crowd density estimation. We used the key-frame extraction technology to realize real-time crowd density estimation and briefly analyze the crowd density feature map. Finally, examples are analyzed to verify the real time, accuracy, and feasibility of this new method of real-time crowd density estimation.

crowd density; convolutional neural networks; video processing; real-time estimation

TP 391.4

10.11996/JG.j.2095-302X.2018040728

A

2095-302X(2018)04-0728-07

2017-10-16;

2017-12-18

陜西省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2017GY-095)

李白萍(1963-),女,廣東廣州人,教授,博士。主要研究方向?yàn)閿?shù)字移動(dòng)通信、數(shù)字圖像處理。E-mail:610135278@qq.com

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 自拍偷拍欧美| 中文字幕色站| 欧美精品一区在线看| 亚洲综合色区在线播放2019| 内射人妻无码色AV天堂| 亚洲天堂首页| 亚洲不卡av中文在线| 亚洲娇小与黑人巨大交| 亚洲国产高清精品线久久| 97se亚洲综合在线天天| 亚洲人成网线在线播放va| 亚洲伊人天堂| 免费观看无遮挡www的小视频| 毛片基地视频| 欧美一道本| 一级毛片基地| 精品国产免费观看| 国产成人无码综合亚洲日韩不卡| 漂亮人妻被中出中文字幕久久| 国产精品美女网站| 一级毛片高清| 欧美精品在线看| 久久a毛片| 波多野结衣一区二区三区AV| 亚洲有无码中文网| 亚洲欧美极品| 久久夜夜视频| 免费看a级毛片| 国产成人综合久久| 久久久久亚洲AV成人人电影软件| 国产中文在线亚洲精品官网| 国产欧美自拍视频| 成年免费在线观看| 欧美国产日韩在线| 日韩一级二级三级| 人妖无码第一页| 毛片一区二区在线看| 久久久久青草线综合超碰| 97久久免费视频| 久久精品66| 成人字幕网视频在线观看| 日本免费一级视频| 无码久看视频| 国产亚洲欧美在线人成aaaa| 久久永久精品免费视频| 婷婷六月综合网| 婷婷午夜影院| 91无码网站| 久久夜色精品国产嚕嚕亚洲av| 亚洲国产精品日韩av专区| h视频在线播放| 国产精品一区不卡| 午夜日b视频| 91综合色区亚洲熟妇p| 亚洲男人的天堂久久香蕉 | 国产永久在线视频| 欧美成人免费| 精品久久久久成人码免费动漫| 精品国产免费观看一区| 97青草最新免费精品视频| 国产精品视频第一专区| 国产精品手机在线播放| 国产成人盗摄精品| 国产精品午夜福利麻豆| 久久一本日韩精品中文字幕屁孩| 91精品综合| 国产精品综合久久久| 在线精品自拍| 在线精品视频成人网| 国产91特黄特色A级毛片| 国产在线一区视频| 国产麻豆永久视频| 亚洲手机在线| 国产激情影院| 国产视频自拍一区| 2020国产在线视精品在| 三上悠亚在线精品二区| 福利视频一区| 精品综合久久久久久97超人该| 国产欧美日韩综合一区在线播放| a级毛片免费在线观看| 欧美成人区|