999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ResNeXt-GRU和聚類(lèi)采樣的人體行為識(shí)別

2022-11-16 06:53:14曾慶喜
關(guān)鍵詞:模型

曾慶喜, 彭 輝

(成都信息工程大學(xué)軟件工程學(xué)院,四川 成都 610225)

0 引言

近年來(lái),隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷發(fā)展,人體行為識(shí)別已成為研究熱點(diǎn),在視頻分類(lèi)、視頻監(jiān)控、無(wú)人駕駛、人機(jī)交互等領(lǐng)域都具有廣闊的應(yīng)用前景[1]。人體行為是發(fā)生在特定時(shí)空的事件,行為特征不僅具有空間性,也具有時(shí)間性,如何有效地描述時(shí)空特征是行為識(shí)別問(wèn)題的關(guān)鍵。基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像特征提取和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理時(shí)序問(wèn)題有突出成果,研究者對(duì)行為識(shí)別任務(wù)提出了很多研究思路和方法。

Simonyan K等[2]利用人體行為具有時(shí)空信息的特點(diǎn),設(shè)計(jì)了一種時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò),在空間流和時(shí)間流上使用單獨(dú)的二維卷積神經(jīng)網(wǎng)絡(luò)提取特征,最后通過(guò)SVM分類(lèi)器進(jìn)行分類(lèi)。Wang等[3]通過(guò)對(duì)視頻分段和稀疏采樣,提出一種時(shí)間片段TSN網(wǎng)絡(luò)。Tran D等[4]提出C3D網(wǎng)絡(luò),使用三維卷積和三維池化直接處理輸入的人體行為視頻,該模型耗費(fèi)的時(shí)空資源較多,訓(xùn)練難度較大。Donahue J等[5]通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)變體長(zhǎng)短時(shí)記憶模型(LSTM)提出了長(zhǎng)時(shí)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(LRCN)。該方法先通過(guò)CNN提取行為特征,再通過(guò)一個(gè)LSTM網(wǎng)絡(luò)提取時(shí)序信息,最后,通過(guò)softmax分類(lèi),LRCN模型識(shí)別準(zhǔn)確率與雙流網(wǎng)絡(luò)相比較低。Zhao等[6]將改進(jìn)并結(jié)合注意力機(jī)制的CNN和RNN相結(jié)合解決動(dòng)作識(shí)別任務(wù),也取得了不錯(cuò)的效果。

基于以上分析,在LRCN模型基礎(chǔ)上,提出一種基于ResNeXt-GRU和聚類(lèi)采樣的人體行為識(shí)別方法。采用聚類(lèi)算法思想改進(jìn)視頻幀采樣方式,減少冗余數(shù)據(jù)輸入,提升方法效率。使用ResNeXt深度卷積神經(jīng)網(wǎng)絡(luò),加強(qiáng)人體行為空間特征提取的同時(shí)防止網(wǎng)絡(luò)退化。結(jié)合GRU網(wǎng)絡(luò),進(jìn)一步提取行為的時(shí)序性特征。利用Softmax分類(lèi)器對(duì)人體行為進(jìn)行分類(lèi)。

1 方法

1.1 概述

設(shè)計(jì)的人體行為識(shí)別方法整體流程如圖1所示。方法共包含3部分,分別為聚類(lèi)采樣、ResNeXt-GRU模塊、Softmax分類(lèi)模塊。首先,將原始行為視頻經(jīng)過(guò)提幀操作處理為圖像幀序列,再通過(guò)聚類(lèi)采樣方法提取關(guān)鍵幀序列作為網(wǎng)絡(luò)的輸入。然后,使用ResNeXt-GRU網(wǎng)絡(luò)模型提取行為的時(shí)空特征。為避免出現(xiàn)過(guò)擬合的情況,在GRU層融入Dropout技術(shù),以提高網(wǎng)絡(luò)的泛化能力和準(zhǔn)確率。最后經(jīng)過(guò)全連接層和Softmax分類(lèi)器獲得視頻序列中行為的分類(lèi)結(jié)果。

圖1 整體流程示意圖

1.2 聚類(lèi)采樣

聚類(lèi)算法[7]是機(jī)器學(xué)習(xí)中常見(jiàn)的一種算法。對(duì)于一個(gè)樣本集,將其按照某種要求劃分,然后以滿(mǎn)足要求為目的不斷迭代優(yōu)化。它可以根據(jù)樣本間的某種關(guān)系,優(yōu)化樣本質(zhì)量,減少網(wǎng)絡(luò)模型訓(xùn)練樣本的規(guī)模,提高最終的模型效果。

由于行為視頻由連續(xù)的視頻幀組成,因此,研究者在對(duì)人體行為視頻特征提取前通常將視頻處理成圖像幀序列。但僅通過(guò)此操作處理后的視頻幀序列,圖像幀之間相似度很高,直接輸入后續(xù)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,不僅增加訓(xùn)練時(shí)間,還影響最終的行為識(shí)別效果。因此,需要對(duì)圖像幀序列做進(jìn)一步的采樣操作。LRCN網(wǎng)絡(luò)采用密集時(shí)間采樣方式獲取視頻幀序列,通過(guò)將視頻處理成圖像幀序列,再隨機(jī)獲取其中一段等長(zhǎng)連續(xù)的圖像幀作為整段視頻的表示。經(jīng)過(guò)該采樣方式獲取的圖像幀序列,幀間相似度高,不僅產(chǎn)生大量的冗余信息增加網(wǎng)絡(luò)的計(jì)算成本,也存在容易丟失行為視頻關(guān)鍵動(dòng)作信息的風(fēng)險(xiǎn)。TSN網(wǎng)絡(luò)采用視頻分段和稀疏采樣方式對(duì)訓(xùn)練樣本進(jìn)行采樣,先將完整視頻進(jìn)行分段,再?gòu)拿慷沃羞x取一幀。相比LRCN網(wǎng)絡(luò),雖然一定程度上刪減了冗余視頻幀,但對(duì)于一些動(dòng)作變換頻繁的人體行為容易丟失關(guān)鍵幀。關(guān)鍵幀序列是視頻中最具代表性的圖像幀集合,該集合能夠歸結(jié)整段視頻的中心內(nèi)容。為充分提取視頻中人體行為特征,本文基于聚類(lèi)的方法對(duì)圖像幀采樣方式進(jìn)行相應(yīng)的改進(jìn)。通過(guò)以圖像幀間的相似度量為聚類(lèi)標(biāo)準(zhǔn),獲取能夠更好表示視頻內(nèi)容的視頻關(guān)鍵幀序列作為網(wǎng)絡(luò)的輸入。實(shí)現(xiàn)步驟:(1)對(duì)視頻進(jìn)行幀采樣為圖像幀序列,并將圖像幀的顏色空間由RGB轉(zhuǎn)為HSV,獲取每幀圖像的HSV直方圖。(2)設(shè)置相似度閾值,以第一幀圖像為初始聚類(lèi)中心。(3)計(jì)算下一幀和每一個(gè)聚類(lèi)中心的相似度,獲取最大值。若小于閾值則自成一類(lèi);反之,加入此類(lèi),并重新計(jì)算聚類(lèi)中心。重復(fù)此過(guò)程,直到取完所有幀。(4)計(jì)算每個(gè)類(lèi)中圖像幀與聚類(lèi)中心的相似度,獲取相似度最高的圖像幀序號(hào),按序輸出對(duì)應(yīng)的圖像幀,并保存作為視頻關(guān)鍵幀。本文關(guān)鍵幀提取的算法流程如圖2所示。行為視頻在經(jīng)過(guò)關(guān)鍵幀算法提取后所得到的為該視頻的所有關(guān)鍵幀,但由于每個(gè)視頻的長(zhǎng)度和內(nèi)容復(fù)雜情況不一致,最后得出的關(guān)鍵幀的數(shù)量也不同。本文固定長(zhǎng)度為k的關(guān)鍵幀序列的取法為如果該視頻的關(guān)鍵幀序列幀數(shù)少于k,則取最后一幀補(bǔ)充;反之,在0到該關(guān)鍵幀序列總幀數(shù)M與k的差值間取一個(gè)整數(shù),然后將這個(gè)整數(shù)作為片段的起始幀數(shù)并往后取連續(xù)的k幀作為選定好的片段。為驗(yàn)證聚類(lèi)采樣方法的性能,從數(shù)據(jù)集中任選一個(gè)視頻,對(duì)其進(jìn)行聚類(lèi)采樣操作,圖3為一打籃球行為原始視頻的全部圖像幀,圖4為該視頻經(jīng)過(guò)基于聚類(lèi)的關(guān)鍵幀提取算法后所得的全部圖像幀。通過(guò)對(duì)比圖3和圖4可知,視頻幀序列在經(jīng)過(guò)聚類(lèi)采樣操作后,序列中相似度高的數(shù)據(jù)樣本得到了刪減,一定程度上減少了數(shù)據(jù)規(guī)模,而保留下來(lái)的視頻幀也能很好地表示視頻中的人體行為。因此,通過(guò)對(duì)訓(xùn)練樣本進(jìn)行聚類(lèi)采樣處理,在保證樣本集數(shù)據(jù)質(zhì)量的同時(shí),減少了數(shù)據(jù)規(guī)模,為后續(xù)網(wǎng)絡(luò)的訓(xùn)練奠定了基礎(chǔ)。

圖2 關(guān)鍵幀提取算法流程圖

圖3 原始視頻全部圖像幀

圖4 關(guān)鍵幀提取后視頻全部圖像幀

1.3 ResNeXt

人體行為識(shí)別的前提是能夠提取行為中的有效特征。由于卷積神經(jīng)網(wǎng)[8](convolutional neural network,CNN)在圖像識(shí)別任務(wù)中有很好的效果,研究者開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到行為識(shí)別任務(wù)中。利用CNN進(jìn)行圖像識(shí)別任務(wù)時(shí),只需將圖像直接輸入到網(wǎng)絡(luò)模型中,省略了傳統(tǒng)算法中的人工特征提取過(guò)程,降低了模型處理復(fù)雜度。與全連接神經(jīng)網(wǎng)絡(luò)的不同之處在于,CNN利用多層神經(jīng)網(wǎng)絡(luò)和圖像局部性的優(yōu)點(diǎn)減少了大量參數(shù),提高了模型訓(xùn)練速度。常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)模型有 GoogLeNet、AlexNet、VGGNet等。 因此,文中同樣將經(jīng)過(guò)聚類(lèi)采樣后的訓(xùn)練樣本先輸入到卷積網(wǎng)絡(luò)中提取人體行為的空間特征。

由Donhue等提出的LRCN模型采用的是AlexNet網(wǎng)絡(luò)來(lái)提取人體行為的空間特征,該網(wǎng)絡(luò)主要由卷積層和池化層交替組成,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,無(wú)法充分學(xué)習(xí)人體行為特征,且對(duì)復(fù)雜的人體行為識(shí)別效果不佳。為提高模型準(zhǔn)確率,通常使用加深網(wǎng)絡(luò)層數(shù)或拓寬網(wǎng)絡(luò)寬度的方式。然而普通網(wǎng)絡(luò)結(jié)構(gòu)的疊加與拓寬,不僅容易導(dǎo)致網(wǎng)絡(luò)退化,而且網(wǎng)絡(luò)模型的參數(shù)也會(huì)大量增加。2017年,Xie等[9]提出了ResNeXt網(wǎng)絡(luò),它在Res-Net[10]網(wǎng)絡(luò)的基礎(chǔ)上集成了VGGNet網(wǎng)絡(luò)堆疊和Inception網(wǎng)絡(luò)拆分-轉(zhuǎn)換-合并的思想,不僅能夠解決網(wǎng)絡(luò)退化問(wèn)題,而且可以在不增加參數(shù)數(shù)量的前提下提高網(wǎng)絡(luò)性能。因此,本文將ResNeXt網(wǎng)絡(luò)作為提取人體行為空間特征的基礎(chǔ)網(wǎng)絡(luò)。ResNeXt在ResNet網(wǎng)絡(luò)的基礎(chǔ)上優(yōu)化而來(lái)。它的其中一個(gè)基本模塊結(jié)構(gòu)如圖5所示,保留了ResNet中堆疊的Block,不同之處在于ResNeXt將單個(gè)路徑進(jìn)行拆分,每個(gè)路徑都為相同的拓?fù)浣Y(jié)構(gòu),在每個(gè)拓?fù)浣Y(jié)構(gòu)都經(jīng)過(guò)降維-變換-升維操作后再進(jìn)行求和匯總。可用式(1)表示。

圖5 ResNeXt基本結(jié)構(gòu)圖

式中,X表示輸入;Y表示函數(shù)輸出;Ti為相同的拓?fù)浣Y(jié)構(gòu);C為基數(shù),表示一個(gè)模塊中所具有的相同分支的數(shù)量,可以為任意數(shù)。實(shí)驗(yàn)表明,增加基數(shù)是獲得精度的一種更有效的方法,文中C的取值為32。

1.4 門(mén)限循環(huán)單元(GRU)

人體行為視頻具有時(shí)間屬性,視頻中的行為動(dòng)作之間也往往具有一定的關(guān)聯(lián)性。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)雖然能夠提取視頻圖像幀中的有效特征,但無(wú)法挖掘各圖像幀間的時(shí)空上下文信息。為充分利用視頻的時(shí)間維度信息,學(xué)習(xí)信息之間的依賴(lài)關(guān)系,本文在方法中加入GRU[11]網(wǎng)絡(luò),提取視頻中人體行為的時(shí)序特征。

GRU是LRCN模型中LSTM網(wǎng)絡(luò)的一種變體,功能與LSTM相同,但其結(jié)構(gòu)更加清晰簡(jiǎn)潔,沒(méi)有冗余結(jié)構(gòu)。更少的參數(shù)也讓其更不容易產(chǎn)生過(guò)擬合現(xiàn)象。GRU網(wǎng)絡(luò)模型單元結(jié)構(gòu)如圖6所示,主要包括一個(gè)更新門(mén)和一個(gè)重置門(mén)。其中,Rt是t時(shí)刻的重置門(mén),用于決定是否忘記之前的計(jì)算狀態(tài);Zt是t時(shí)刻的更新門(mén),用于控制將歷史信息帶入候選狀態(tài)的程度。

圖6 GRU結(jié)構(gòu)圖

GRU結(jié)構(gòu)的計(jì)算公式如下:

式中,Xt為當(dāng)前t時(shí)刻的輸入,Ct為t時(shí)刻的候選狀態(tài),Ht為t時(shí)刻隱藏層狀態(tài),Ht-1為t時(shí)刻之前的隱藏層狀態(tài),θ為sigmoid邏輯函數(shù),作為更新門(mén)和重置門(mén)的激活函數(shù),tanh為候選狀態(tài)的激活函數(shù),⊙為點(diǎn)積操作,Wz、Wr、Wc、Vz、Vr、Vc為權(quán)重參數(shù),bz、br、bc為偏差參數(shù)。

由于直接使用全連接層進(jìn)行特征融合,會(huì)導(dǎo)致高層特征無(wú)法捕獲到空間特征在時(shí)域上的信息。因此本文使用GRU網(wǎng)絡(luò)對(duì)CNN最后一層輸出的卷積特征進(jìn)行融合以獲取CNN輸出特征的上下文信息。

1.5 Softmax分類(lèi)器

行為識(shí)別本質(zhì)上是一個(gè)多分類(lèi)問(wèn)題,文中當(dāng)輸入一個(gè)行為視頻到網(wǎng)絡(luò)后,需要判別視頻中的內(nèi)容屬于N種行為中的哪一種。因此,在經(jīng)過(guò)ResNeXt-GRU網(wǎng)絡(luò)模型提取視頻中人體行為時(shí)空特征后,再通過(guò)全連接層對(duì)所有輸入值進(jìn)行平均操作,最后使用Softmax分類(lèi)器對(duì)所提取特征數(shù)據(jù)進(jìn)行處理,進(jìn)而完成人體行為的識(shí)別。Softmax函數(shù)的定義式為

式中,Sj為分類(lèi)器前的全連接層的輸出,j表示類(lèi)別序號(hào),N為總類(lèi)別個(gè)數(shù)。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

2.1.1 數(shù)據(jù)集分析

本文在UCF101和HMDB51兩個(gè)主流人體行為視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。UCF101數(shù)據(jù)集是從YouTube網(wǎng)站上收集而來(lái)的,共包含13320個(gè)人體行為視頻片段,每個(gè)視頻片段持續(xù)3~10 s,平均為100~300幀,分辨率為320×240。它包括101個(gè)動(dòng)作類(lèi),每類(lèi)動(dòng)作均由25人完成,每人做4~7組,其部分動(dòng)作視頻圖像幀如圖7所示。HDMB51數(shù)據(jù)集共有51種類(lèi)別,包含6799個(gè)視頻片段。每個(gè)動(dòng)作至少包含51個(gè)視頻,分辨率為320×240,來(lái)自于YouTube,Google視頻等,包含單人行為、面部表情和操縱對(duì)象行為、人與人交互的行為、人與物交互等類(lèi)別。部分動(dòng)作視頻圖像幀如圖8所示。

圖7 UCF101數(shù)據(jù)集圖像幀展示

圖8 HMDB51數(shù)據(jù)集圖像幀展示

2.1.2 數(shù)據(jù)集處理

實(shí)驗(yàn)選取每個(gè)數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集,并將訓(xùn)練集和測(cè)試集按官方提供的方式劃分成3組。針對(duì)數(shù)據(jù)集中的行為視頻,首先將視頻處理成圖像幀序列,然后通過(guò)上文所提的聚類(lèi)采樣方法獲取k幀圖像序列,最后對(duì)長(zhǎng)度為k的幀序列做以下同樣的數(shù)據(jù)處理操作。具體操作:(1)為滿(mǎn)足網(wǎng)絡(luò)的輸入大小,將圖像幀分辨率由320×240處理為224×224。(2)對(duì)訓(xùn)練集內(nèi)的幀序列在空間上做上下左右的隨機(jī)翻轉(zhuǎn),擴(kuò)充數(shù)據(jù)的多樣性。(3)為加快網(wǎng)絡(luò)的訓(xùn)練和收斂,對(duì)幀序列進(jìn)行歸一化操作。

2.1.3 評(píng)價(jià)指標(biāo)

為能對(duì)所提方法的表現(xiàn)進(jìn)行評(píng)估和比較,本文使用基礎(chǔ)的分類(lèi)Top-1準(zhǔn)確率作為評(píng)判標(biāo)準(zhǔn)來(lái)評(píng)估方法的準(zhǔn)確程度,如式(4)所示。

式中,n為分類(lèi)準(zhǔn)確的樣本數(shù),N為總樣本數(shù)。

2.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境基于Window10系統(tǒng),Interl(R)Xeon(R)CPU,內(nèi)存64 G,顯卡為NVIDIA TITAN Xp。實(shí)驗(yàn)所采用的深度學(xué)習(xí)框架為 Pytorch,集成開(kāi)發(fā)環(huán)境是Pycharm。

采用ImageNet上預(yù)訓(xùn)練的ResNeXt101模型對(duì)參數(shù)進(jìn)行初始化,并使用隨機(jī)梯度下降法(SGD)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)輸入的批量數(shù)據(jù)(batch-size)大小設(shè)置為16,動(dòng)量設(shè)置為0.9,GRU中的dropout設(shè)為0.5,學(xué)習(xí)率設(shè)置為0.0015,共迭代120個(gè)周期,損失函數(shù)使用交叉熵?fù)p失函數(shù)。

2.3 實(shí)驗(yàn)結(jié)果與分析

2.3.1 網(wǎng)絡(luò)關(guān)鍵幀輸入數(shù)量k對(duì)識(shí)別結(jié)果的影響

網(wǎng)絡(luò)輸入數(shù)據(jù)的大小對(duì)網(wǎng)絡(luò)性能有重要影響,本文在將輸入數(shù)據(jù)進(jìn)行聚類(lèi)采樣后得到是每個(gè)視頻的關(guān)鍵幀序列,由于視頻內(nèi)容的復(fù)雜情況不同,導(dǎo)致提取到的關(guān)鍵幀序列的長(zhǎng)度也不一致。因此獲取k的合適取值對(duì)于實(shí)現(xiàn)良好的識(shí)別效果至關(guān)重要。本文根據(jù)數(shù)據(jù)集聚類(lèi)采樣結(jié)果,將網(wǎng)絡(luò)輸入的關(guān)鍵幀序列長(zhǎng)度k分別為5,10,15,20,25,30,并輸入到ResNext101-GRU網(wǎng)絡(luò),在其他實(shí)驗(yàn)條件一致前提下進(jìn)行實(shí)驗(yàn),并統(tǒng)計(jì)識(shí)別的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖9所示隨著k值的增加,行為識(shí)別的準(zhǔn)確率也隨之增加,當(dāng)k為15時(shí),識(shí)別效果最好。之后,隨著k值的繼續(xù)增加,準(zhǔn)確率卻提高不大。考慮到輸入網(wǎng)絡(luò)的數(shù)據(jù)規(guī)模越大,不僅會(huì)增加網(wǎng)絡(luò)的計(jì)算負(fù)擔(dān),而且效率變低。因此,本文最終確定k的為15。

圖9 不同k值下識(shí)別結(jié)果對(duì)比

2.3.2 數(shù)據(jù)采樣方式對(duì)識(shí)別結(jié)果的影響

不同的數(shù)據(jù)采樣方式獲得的訓(xùn)練樣本存在一定的差異,影響著最終的識(shí)別結(jié)果。本文分別使用的3種數(shù)據(jù)采樣方式:密集時(shí)間采樣、視頻分段采樣、聚類(lèi)采樣,對(duì)數(shù)據(jù)集UCF101中13000多個(gè)視頻均采樣15幀,然后輸入到ResNeXt101-GRU模型上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表1可知,3種采樣方式中,訓(xùn)練樣本采樣時(shí)間用時(shí)最少的是密集時(shí)間采樣方式,但識(shí)別效果卻最低。采樣時(shí)間用時(shí)最多的是聚類(lèi)采樣,平均每個(gè)視頻所消耗的時(shí)間比視頻分段采樣方式只多了0.042 s,但識(shí)別效果最佳,平均準(zhǔn)確率比密集時(shí)間采樣高4.4%,比視頻分段采樣方式高2.2%。實(shí)驗(yàn)證明了聚類(lèi)采樣方法的有效性。

表1 不同數(shù)據(jù)采樣方式對(duì)識(shí)別效果的影響

2.3.3 網(wǎng)絡(luò)模型深度對(duì)識(shí)別結(jié)果的影響

除了網(wǎng)絡(luò)輸入數(shù)據(jù)的規(guī)模和采樣方式,網(wǎng)絡(luò)模型的深度也同樣對(duì)識(shí)別結(jié)果有影響。在k為15的前提下,本文使用不同深度的空間特征提取網(wǎng)絡(luò)ResNeXt在數(shù)據(jù)集UCF101上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表2可知,在15幀視頻關(guān)鍵幀輸入的ResNeXt-GRU模型中,隨著模型網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)模型的表征能力加強(qiáng),行為識(shí)別的準(zhǔn)確率越來(lái)越高。然而增加網(wǎng)絡(luò)的層數(shù),也會(huì)加大網(wǎng)絡(luò)模型的運(yùn)算量和運(yùn)行時(shí)間。因此,綜合考慮,本文確定ResNeXt101作為行為視頻空間特征提取的網(wǎng)絡(luò)模型。

表2 不同網(wǎng)絡(luò)模型深度對(duì)分類(lèi)準(zhǔn)確率的影響

2.3.4 本文方法與現(xiàn)有的主流方法的性能對(duì)比

基于以上實(shí)驗(yàn)結(jié)果,通過(guò)聚類(lèi)采樣操作獲取每個(gè)行為視頻的15幀關(guān)鍵幀序列,并輸入組合模型ResNeXt101-GRU中進(jìn)行實(shí)驗(yàn),圖 10為該網(wǎng)絡(luò)在UCF101和HMDB兩種數(shù)據(jù)集上訓(xùn)練時(shí)loss值的下降曲線。保存實(shí)驗(yàn)結(jié)果,與現(xiàn)有主流方法在UCF101和HMDB51數(shù)據(jù)集上的平均識(shí)別率進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表3所示,對(duì)于UCF-101數(shù)據(jù)集,本文所提出的模型相對(duì)于目前識(shí)別效果最好的傳統(tǒng)方法IDT[12]而言,準(zhǔn)確率提高了7.8%;與基于雙流網(wǎng)絡(luò)的方法Twostream CNN和TSN網(wǎng)絡(luò)相比,準(zhǔn)確率分別提高了5.7%和0.2%;相比基于三維卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典方法如C3D、P3D[13]、Res3D[14],本文方法行為識(shí)別的準(zhǔn)確率更高;與基于LSTM的LRCN算法相比,準(zhǔn)確率提高了9.8%;與蔣圣南等[15]提出的方法相比,雖然同樣使用了ResNeXt網(wǎng)絡(luò),同樣僅輸入RGB圖像這一種模態(tài)數(shù)據(jù)下,本文方法的準(zhǔn)確率提高了5.9%。與文獻(xiàn)[16]相比,模型結(jié)構(gòu)與本文相似,都是結(jié)合CNN和RNN來(lái)識(shí)別人體行為,不同之處在于其使用三維卷積神經(jīng)網(wǎng)絡(luò)提取行為空間特征,實(shí)驗(yàn)結(jié)果表明,本文的準(zhǔn)確率比其高0.08%。對(duì)于HMDB51數(shù)據(jù)集,識(shí)別效果雖然不如UCF101數(shù)據(jù)集,但同樣優(yōu)于大部分方法。

圖10 訓(xùn)練loss曲線圖

表3 不同方法在UCF101和HMDB51數(shù)據(jù)集上的識(shí)別準(zhǔn)確率 單位:%

3 結(jié)束語(yǔ)

在LRCN模型的基礎(chǔ)上,提出一種基于ResNeXt-GRU的人體行為識(shí)別方法。利用聚類(lèi)算法改進(jìn)網(wǎng)絡(luò)輸入數(shù)據(jù)的采樣方式,減少冗余數(shù)據(jù)輸入,提高識(shí)別效果。同時(shí)使用 ResNeXt網(wǎng)絡(luò)結(jié)合具有記憶功能的GRU網(wǎng)絡(luò),加強(qiáng)對(duì)視頻中人體行為時(shí)空特征的提取。通過(guò)各種實(shí)驗(yàn)確定該方法最佳的輸入視頻幀數(shù)、采樣方式和網(wǎng)絡(luò)模型深度,在UCF101和HMDB51數(shù)據(jù)集上分別取得了93.7%和69.2%的準(zhǔn)確率,與現(xiàn)有許多行為識(shí)別網(wǎng)絡(luò)相比,準(zhǔn)確率更高,說(shuō)明了本文方法的有效性和可比較性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩一区二区三区在线视频| 五月婷婷中文字幕| 日韩区欧美区| 国产激情无码一区二区三区免费| 日本午夜视频在线观看| 国产天天射| A级毛片高清免费视频就| 成年人久久黄色网站| 99热6这里只有精品| 亚洲国产中文在线二区三区免| 久久 午夜福利 张柏芝| 国产精品无码影视久久久久久久| 国产精品亚洲va在线观看| 狠狠v日韩v欧美v| 中文字幕永久视频| 伊人AV天堂| 免费观看男人免费桶女人视频| 亚洲三级色| 91成人在线免费视频| 男女性色大片免费网站| 99激情网| 91久久性奴调教国产免费| 亚洲天堂日韩av电影| 最新国产网站| 青青国产视频| 久久久久久久97| 亚洲有无码中文网| 国产手机在线观看| 日本午夜三级| 国产青榴视频| 国产精品成人一区二区| 国产成年无码AⅤ片在线| 亚亚洲乱码一二三四区| 黄色网址手机国内免费在线观看| 亚洲天堂网在线播放| 国产精品一老牛影视频| 婷婷亚洲最大| 国产精品思思热在线| 国产熟女一级毛片| 麻豆国产在线不卡一区二区| 日韩一区二区三免费高清| 91精品久久久无码中文字幕vr| 国产精品视频第一专区| 毛片卡一卡二| 国产高清不卡视频| 亚洲资源站av无码网址| 一级毛片免费高清视频| 91www在线观看| 伊人久久影视| 亚洲午夜福利精品无码| 欧美日韩精品一区二区在线线 | 无码综合天天久久综合网| 亚洲v日韩v欧美在线观看| 亚洲一区二区在线无码| 色播五月婷婷| 在线观看网站国产| 午夜国产大片免费观看| 一级毛片a女人刺激视频免费| 国产一级裸网站| 国产精品香蕉| 99青青青精品视频在线| 国产精品成人免费视频99| 国产精品自在在线午夜| 日韩亚洲高清一区二区| 日韩在线观看网站| 69国产精品视频免费| 99视频在线免费观看| 亚洲精品第一页不卡| 亚洲无码精彩视频在线观看| 一区二区三区四区日韩| 午夜无码一区二区三区在线app| 日本高清在线看免费观看| 亚洲国产成熟视频在线多多| 欧美精品亚洲精品日韩专区va| 91小视频在线观看免费版高清| 激情视频综合网| 久久黄色毛片| 色一情一乱一伦一区二区三区小说| 自拍偷拍欧美日韩| www亚洲精品| 国产爽爽视频| 熟妇丰满人妻|