徐鵬飛 張鵬超 劉亞恒 咼生富



摘要:針對(duì)三維卷積神經(jīng)網(wǎng)絡(luò)無(wú)法高效地提取時(shí)空特征,提出了一種基于SR3D網(wǎng)絡(luò)的人體行為識(shí)別算法。首先,將三維殘差模塊的BN層和Relu激活函數(shù)放置在三維卷積層之前,更好地提取時(shí)空特征;然后,將改進(jìn)的三維殘差塊和SE模塊組合成SR3D模塊,增加重要通道的利用率,提高了網(wǎng)絡(luò)的識(shí)別率。在UCF-101和自制異常行為數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)結(jié)果表明,SR3D算法分別達(dá)到了47.7%和83.6%的識(shí)別率(top-1精度),與三維卷積網(wǎng)絡(luò)(C3D)相比分別提高了4.6和17.3個(gè)百分點(diǎn)。
關(guān)鍵詞:SR3D網(wǎng)絡(luò);人體行為識(shí)別;視頻分類(lèi);深度學(xué)習(xí);時(shí)空特征
中圖分類(lèi)號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)01-0010-02
1 引言
行為識(shí)別在智能視頻監(jiān)控[1]、智能機(jī)器人[2-3]等領(lǐng)域有著廣泛的應(yīng)用。早期的傳統(tǒng)行為識(shí)別方法主要由人為設(shè)計(jì)的特征來(lái)描述視頻中的行為,如方向梯度直方圖(Histogram of Oriented Gradients,HOG)[4]、密集軌跡特征( Dense Trajectory, DT)[5]等。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[6]已經(jīng)成功地應(yīng)用到靜態(tài)圖像識(shí)別領(lǐng)域,達(dá)到了很高的識(shí)別精度,但不能有效地提取時(shí)域特征。針對(duì)這一問(wèn)題,余興[7]提出了一種基于注意力機(jī)制的時(shí)空融合模型。通過(guò)利用基于快進(jìn)連接的時(shí)空融合模型和時(shí)域多尺度時(shí)空融合模型,對(duì)基礎(chǔ)深層LSTM網(wǎng)絡(luò)模型的性能進(jìn)行了提升。但該網(wǎng)絡(luò)只能進(jìn)行單幀識(shí)別,容易丟失相鄰幀間的關(guān)鍵信息,且訓(xùn)練速度慢。Tran[8]提出了一種三維卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將二維卷積神經(jīng)網(wǎng)絡(luò)中的卷積核和池化核從二維擴(kuò)展到了三維,并將卷積層進(jìn)行簡(jiǎn)單的疊加,從而提取時(shí)空特征。但三維卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量較多,容易過(guò)擬合,無(wú)法高效地提取時(shí)空信息。基于以上問(wèn)題,本文提出了一種基于SR3D的人體行為識(shí)別算法。SR3D網(wǎng)絡(luò)不僅可以重復(fù)使用上一層所提取的特征,還能對(duì)通道進(jìn)行重標(biāo)定操作,使得網(wǎng)絡(luò)可以多學(xué)習(xí)一些重要的行為特征,提高行為識(shí)別精度。
2 SR3D網(wǎng)絡(luò)模型
SR3D的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示,第一層的卷積核為3?7?7,目的是擴(kuò)大局部感知區(qū)域,更大范圍地提取行為特征。在殘差塊中,將BN層和Relu激活函數(shù)層放置在三維卷積層前面,更好地提取時(shí)空特征。在SE模塊中,用三維逐點(diǎn)卷積層代替了全連接層,減少了SE塊的參數(shù)量,加快了網(wǎng)絡(luò)模型的訓(xùn)練速度。
3實(shí)驗(yàn)
3.1 數(shù)據(jù)集
UCF-101包含101類(lèi)行為動(dòng)作,主要分為五大類(lèi)別:人物交互、身體的運(yùn)動(dòng)、人人交互、表演樂(lè)器以及體育運(yùn)動(dòng)。實(shí)驗(yàn)中,按照split1的方式對(duì)UCF-101數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
所使用的自制異常行為數(shù)據(jù)集從網(wǎng)上爬蟲(chóng)獲得,包含105個(gè)打架視頻,126個(gè)腳踢視頻,118個(gè)吸煙視頻,154個(gè)跑步視頻,133個(gè)揮拳視頻。實(shí)驗(yàn)中,按照8:2的比例將自制異常行為數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
3.2實(shí)驗(yàn)條件
所提算法均通過(guò)FaceBook公司開(kāi)源的神經(jīng)網(wǎng)絡(luò)框架Pytorch實(shí)現(xiàn),平臺(tái)為Ubuntu18.04,NVIDIATITAN XP GPU。
3.3 UCF-101數(shù)據(jù)集實(shí)驗(yàn)
為了驗(yàn)證本文算法的有效性,在UCF-101數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。實(shí)驗(yàn)采用從零開(kāi)始的訓(xùn)練方式 ,輸入的視頻大小為16?112?112,采樣間隔為2,訓(xùn)練時(shí)使用隨機(jī)剪裁、隨機(jī)抖動(dòng)以及水平翻轉(zhuǎn)來(lái)增加訓(xùn)練樣本的多樣性,并采用小批量隨機(jī)梯度下降法進(jìn)行訓(xùn)練。目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù),批量處理大小為16,momentum為0.9,epochs為80,初始學(xué)習(xí)率為0.01,每訓(xùn)練15個(gè)epochs,將學(xué)習(xí)衰減為原來(lái)的1/10,一直到訓(xùn)練完成,不同算法的Top-1識(shí)別精度如表2所示。
從表2中可以看出:在UCF-101數(shù)據(jù)集上,SR3D相比3D-ResNet和C3D分別提高了2.5個(gè)百分點(diǎn)和4.6個(gè)百分點(diǎn)。這說(shuō)明在復(fù)雜數(shù)據(jù)集上,SR3D比C3D的結(jié)構(gòu)更優(yōu)異,精確度更高。
3.4 自制數(shù)據(jù)集實(shí)驗(yàn)
自制數(shù)據(jù)集實(shí)驗(yàn)過(guò)程與UCF-101數(shù)據(jù)集實(shí)驗(yàn)過(guò)程基本相同,不同之處在于將初始學(xué)習(xí)率設(shè)置為0.001。不同算法的Top-1識(shí)別精度如表3所示。
從表3中可以看出:在自制數(shù)據(jù)集上,本文算法取得了83.6%的精確度,比C3D提高了17.3個(gè)百分比。雖然自制異常行為數(shù)據(jù)集存在背景復(fù)雜以及光照條件較差等問(wèn)題,但SR3D仍然取得了較好的結(jié)果,充分驗(yàn)證了SR3D網(wǎng)絡(luò)具有較好的魯棒性和遷移學(xué)習(xí)能力,能夠更好地提取時(shí)空特征,提高識(shí)別精度。
4 總結(jié)
針對(duì)三維卷積神經(jīng)網(wǎng)絡(luò)無(wú)法高效地提取時(shí)空特征,提出了一種基于SR3D網(wǎng)絡(luò)的人體行為識(shí)別算法,并在UCF-101數(shù)據(jù)集和自制異常行為數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),取得了較好的結(jié)果,驗(yàn)證了所提算法的有效性。由于實(shí)驗(yàn)條件有限,在UCF-101數(shù)據(jù)集上的實(shí)驗(yàn)是從零開(kāi)始的,未來(lái)可以將算法在Kinetics數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在小型數(shù)據(jù)集上進(jìn)行微調(diào),以達(dá)到更好的識(shí)別效果。
參考文獻(xiàn):
[1] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.
[2]? Sutton R S, Barto A G.ReinforcementLearning:Anintroduction[M].Cambridge, MA: The MIT press, 2018.
[3] Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992,8(3/4):279-292.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893.
[5] Wang H,Kl?ser A,Schmid C,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[6] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[7] 余興.基于深度學(xué)習(xí)的視頻行為識(shí)別技術(shù)研究[D].成都:電子科技大學(xué),2018.
[8] Tran D,Bourdev L,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE,2015:4489-4497.
【通聯(lián)編輯:唐一東】
收稿日期:2021-04-16
基金項(xiàng)目:陜西省教育廳重點(diǎn)科學(xué)研究技術(shù)(20JS022)
作者簡(jiǎn)介:徐鵬飛(1995—),男,河南南陽(yáng)人,碩士,主要研究方向?yàn)槿梭w行為識(shí)別;張鵬超(1977—),男,陜西咸陽(yáng)人,教授,主要研究方向?yàn)闄C(jī)器人及其控制技術(shù);劉亞恒(1994—),男,山西運(yùn)城人,碩士,主要研究方向?yàn)椴∠x(chóng)害識(shí)別;咼生富(1997—),男,重慶人,碩士,主要研究方向?yàn)闄C(jī)器人編隊(duì)。