999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的人體行為識別綜述

2024-06-01 12:59:34吳婷劉瑞欣劉明甫劉海華
現(xiàn)代信息科技 2024年4期
關(guān)鍵詞:深度學(xué)習(xí)

吳婷 劉瑞欣 劉明甫 劉海華

收稿日期:2023-06-27

基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目資助項(xiàng)目(61773409)

DOI:10.19850/j.cnki.2096-4706.2024.04.011

摘? 要:近年來,人體行為識別是計算機(jī)視覺領(lǐng)域的研究熱點(diǎn),在諸多領(lǐng)域有著廣泛的應(yīng)用,例如視頻監(jiān)控、人機(jī)交互等。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)作為其領(lǐng)域中表現(xiàn)能力優(yōu)越的人工神經(jīng)網(wǎng)絡(luò)之一,在動作識別領(lǐng)域中發(fā)揮著不可或缺的作用。文章基于深度學(xué)習(xí)總結(jié)基于2D CNN和基于3D CNN的動作識別方法,根據(jù)不同算法搭建的模型進(jìn)行性能對比,同時對基準(zhǔn)數(shù)據(jù)集進(jìn)行歸納總結(jié)。最后探討了未來人體動作識別的研究重難點(diǎn)。

關(guān)鍵詞:動作識別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類

中圖分類號:TP183;TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2024)04-0050-06

Summary of Human Behavior Recognition Based on Deep Learning

WU Ting, LIU Ruixin, LIU Mingfu, LIU Haihua

(South-Central Minzu University, Wuhan? 430074, China)

Abstract: In recent years, human behavior recognition is a research hotspot in the field of computer vision, and it has been widely used in many fields, such as video surveillance, human-computer interaction and so on. With the development of Deep Learning, as one of the artificial neural networks with superior performance capabilities in the field, Convolutional Neural Networks plays an indispensable role in the field of action recognition. Based on Deep Learning, this paper summarizes the action recognition methods based on 2D CNN and 3D CNN, compares the performance of models built according to different algorithms, and summarizes the benchmark data sets. Finally, the research key points and difficulties of human action recognition in the future are discussed.

Keywords: action recognition; Deep Learning; Convolution Neural Networks; image classification

0? 引? 言

人體行為識別是計算機(jī)視覺領(lǐng)域一大熱題,隨著深度學(xué)習(xí)的發(fā)展,視頻中人體動作識別課題越發(fā)成熟,在監(jiān)控系統(tǒng)[1,2]、人機(jī)交互[3]、智能看護(hù)[4]等日常生活中被廣泛應(yīng)用。

深度學(xué)習(xí)(Deep Learning)[5,6]是機(jī)器學(xué)習(xí)領(lǐng)域中一個新的研究方向,它逐漸成為計算機(jī)視覺領(lǐng)域的熱門研究方法。卷積神經(jīng)網(wǎng)絡(luò)[7](Convolution Neural Networks, CNN)主要用于計算機(jī)視覺方面的應(yīng)用,比如圖像分類、視頻識別[8]、醫(yī)學(xué)圖像分析等。由于背景的影響、光線變化以及動作相似性,使得模型識別性能下降。動作識別最重要的特征無關(guān)是外觀特征和動作特征,最初卷積神經(jīng)網(wǎng)絡(luò)利用2D卷積核,主要由圖像幀和光流圖像作為輸入,通過卷積層提取出視頻當(dāng)中的空間和動作特征進(jìn)行學(xué)習(xí),兩者組合到一起初步實(shí)現(xiàn)動作識別的目的,后續(xù)學(xué)者針對融合策略以及動作的時空特征進(jìn)行研究。

本文主要從數(shù)據(jù)集和動作識別的深度學(xué)習(xí)方法兩大方面來介紹。首先介紹了幾大類動作識別的公共數(shù)據(jù)集,從簡單動作到交互動作,從小型數(shù)據(jù)集到大型數(shù)據(jù)庫;其次分別介紹基于2D CNN和基于3D CNN的動作識別方法,根據(jù)不同算法之間的異同點(diǎn)將兩者細(xì)分;最后提出未來動作識別所研究的難點(diǎn)及發(fā)展趨勢。

1? 公共數(shù)據(jù)集

行為識別數(shù)據(jù)集是用于訓(xùn)練和測試不同算法對準(zhǔn)確識別人類行為的數(shù)據(jù)集。目前國內(nèi)外有多個公共人體行為數(shù)據(jù)庫可供廣大研究者學(xué)習(xí),它們可以為評估各種不同人體行為識別算法提供一個共同的標(biāo)準(zhǔn),便于驗(yàn)證相關(guān)算法的可行性。目前,公共行為識別數(shù)據(jù)庫可以分為以下幾種。表1列出了它們的大概信息。

1.1? KTH數(shù)據(jù)庫

KTH [9]是最早的人體行為數(shù)據(jù)集,該人體行為數(shù)據(jù)庫包括6種動作,由25個不同的人執(zhí)行的,分別在四個場景下,一共有25×4×6 = 600段視頻。視頻中的背景相對單一和靜止,拍攝過程中攝像頭穩(wěn)定。KTH數(shù)據(jù)庫部分動作示例如圖1所示。

表1? 公共行為識別數(shù)據(jù)集概覽表

數(shù)據(jù)集 時間 視頻樣本數(shù) 視頻數(shù)

KTH 2004 6 600

UCF sports 2008 10 150

UCF Youtube 2008 11 1 600

UCF50 2012 50 6 676

UCF101 2013 101 13 320

HMDB51 2011 51 6 849

Sports 1M 2014 487 1 133 158

YouTube 8M 2016 3 862 8×106

Kinetics 400 2017 400 3.06×105

Kinetics 600 2018 600 4.82×105

Kinetics 700 2019 700 6.5×105

圖1? KTH部分動作示例

1.2? UCF系列數(shù)據(jù)庫

美國University of Central Florida(UCF)[10,11]自2007年以來發(fā)布的一系列數(shù)據(jù)庫:分別是UCF Sports(2008)、UCF Youtube(2008)、UCF50和UCF101。其中UCF101包含101種動作類別共13 320個視頻。該數(shù)據(jù)集有三個官方拆分方式,大多研究者報告第一個分割方式的分類準(zhǔn)確率,或是三種分割方式的平均精度。由于該數(shù)據(jù)集包含很多低質(zhì)量和不同光照的視頻,所以極具挑戰(zhàn)性。UCF Sports數(shù)據(jù)庫部分動作示例如圖2所示。

圖2? UCF Sports部分動作示例

1.3? HMDB51數(shù)據(jù)庫

HMDB51[12]數(shù)據(jù)集包含51種行為類別共6 849個視頻。該數(shù)據(jù)集有三個與UCF101類似的官方拆分,并且以同樣的方式進(jìn)行評估。由于視頻中包含的場景復(fù)雜、光照變化等因素,是目前最具挑戰(zhàn)性的數(shù)據(jù)集之一。HMDB51數(shù)據(jù)庫部分動作示例如圖3所示。

圖3? HMDB51部分動作示例

1.4? 大型數(shù)據(jù)集

Sports 1M [13]的數(shù)據(jù)集是2014年Google公布的第一個大規(guī)模動作數(shù)據(jù)集,包含487種行為類別共1 133 158個視頻;YouTube 8M [14]數(shù)據(jù)集是迄今位置規(guī)模最大的數(shù)據(jù)集,包含3 862個動作類共800萬個視頻;Kinetics系列數(shù)據(jù)集[15]最先是17年提出的Kinetics 400,包含400個人類行為類別,直至后續(xù)提出的Kinetics 600和Kinetics 700。此類數(shù)據(jù)集包含場景多,數(shù)據(jù)量龐大,極具挑戰(zhàn)性。Sports 1M部分動作示例如圖4所示。

圖4? Sports 1M部分動作示例

2? 基于2D卷積神經(jīng)網(wǎng)絡(luò)的行為識別

卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于靜態(tài)領(lǐng)域的圖像理解中,其遵循3層體系結(jié)構(gòu),分別是卷積層、池化層和全連接層。在人類行為識別中,視頻被分為空間和時間信息。空間的視頻幀代表著物體的外觀信息,具體表征為RGB圖像;時間信息指的是幀與幀之間的運(yùn)動信息,具體表征為光流圖像。最早是Simonyan等人[16]在2014年提出的雙流CNN網(wǎng)絡(luò),其由兩條分支組成,分別處理空間的RGB圖像幀信息和時間維度的若干個圖像幀之間的光流場信息。主干網(wǎng)絡(luò)皆為CNN,最后進(jìn)行softmax融合,如圖5所示。

2.1? 融合網(wǎng)絡(luò)

在此之上,很多學(xué)者進(jìn)行了一系列改進(jìn)。Feichtenhofer等人[17]從融合策略上針對雙流網(wǎng)絡(luò)的后期融合,其從卷積層開始進(jìn)行融合,討論和融合、最大融合、串聯(lián)融合、卷積融合、雙線性融合五種空間融合方式和2D池化、3D池化、3D卷積+3D池化三種時間融合方式,如圖6(a)所示。實(shí)驗(yàn)表明替代后期融合,早期融合受相對網(wǎng)絡(luò)的約束,使模型在早期訓(xùn)練中能從兩支網(wǎng)絡(luò)互相學(xué)習(xí)、互相彌補(bǔ),一定程度上彌補(bǔ)數(shù)據(jù)不足問題,效果比雙流網(wǎng)絡(luò)好。基于雙流和時空融合,F(xiàn)eichtenhofer等人提出同時將殘差網(wǎng)絡(luò)和兩個信息流的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,一是在雙流網(wǎng)絡(luò)中引入殘差連接[18],通過發(fā)揮殘差單元的跳躍連接的優(yōu)點(diǎn),允許兩流之間時空交互,并在殘差塊之間添加時間流指向空間流,提出加法融合、乘性融合兩種融合方式,實(shí)驗(yàn)最后對比時間流指向空間流、空間流指向時間流和兩者相互指向的消融實(shí)驗(yàn),表明第一種方式實(shí)驗(yàn)效果更好;二是在2017年[19]的基礎(chǔ)上,后續(xù)提出在兩條分支中添加采用中心初始化方式的時間濾波器1D卷積以捕獲時間依賴關(guān)系,探討其中心和平均兩種初始化方式以及添加位置(每個殘差單元跳躍連接后、每個殘差塊中和僅僅在每個殘差單元的第二個殘差塊3×3卷積層后),如圖6(b)所示。結(jié)果表明,采用殘差網(wǎng)絡(luò)的2D CNN結(jié)構(gòu)在行為識別十分有效。

(a)雙流融合網(wǎng)絡(luò)

(b)時空殘差融合網(wǎng)絡(luò)

圖6? Feichtenhofer等人的雙流融合網(wǎng)絡(luò)

Wang等人[20]提出一種時空金字塔網(wǎng)絡(luò)(Spatiotemporal Pyramid Networks, STPN)來融合空間和時間特征,其結(jié)合 卷積神經(jīng)網(wǎng)絡(luò)和空間時間金字塔的結(jié)構(gòu),通過采樣不同大小的視頻片段來獲得不同尺度的特征圖。每個特征圖由一個3D CNN進(jìn)行提取,然后將不同尺度的特征圖拼接在一起,形成多尺度的特征表示,隨后將不同金字塔層中的特征進(jìn)行融合,再將不同動作分類結(jié)果進(jìn)行加權(quán)融合。該方法對各種融合策略進(jìn)行統(tǒng)一建模,在多個動作數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)展現(xiàn)其算法優(yōu)越性。

2.2? 其他網(wǎng)絡(luò)

除了時空網(wǎng)絡(luò)外,針對視頻的輸入形態(tài),即網(wǎng)絡(luò)輸入不是視頻幀,而是視頻片段進(jìn)行探討。Wang等人[21]在雙流網(wǎng)絡(luò)的基礎(chǔ)上加入分段和稀疏化采樣的思想,提出具有四種輸入模態(tài)的時域段網(wǎng)絡(luò)(Temporal Segment Networks, TSN),如圖7所示,對時間進(jìn)行稀疏采樣,即將視頻分割成若干時間段,并將每個時間段視為獨(dú)立的視頻幀進(jìn)行處理,但這樣往往忽略了時空特征的交互,使得識別準(zhǔn)確性下降。考慮到時間特征提取的困難,設(shè)計一些專門處理時間特征的網(wǎng)絡(luò),如對動作識別同樣有效的長短時記憶(LSTM)。采用CNN+LSTM網(wǎng)絡(luò)[22]進(jìn)行時間動力學(xué)建模。在這些組合網(wǎng)絡(luò)中,CNN用于提取幀特征,LSTM用于伴隨時間的特征集成。

圖7? Wang等人的TSN網(wǎng)絡(luò)

基于雙流網(wǎng)絡(luò)的動作識別在過去幾年取得了很大的進(jìn)展。以上方法在時間流的輸入上皆采用光流棧(Optical Flow Stacking),這需要耗費(fèi)大量的時間和計算成本。為此,后續(xù)研究者直接在視頻序列使用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動作識別,一方面不僅可以直接學(xué)習(xí)到視頻當(dāng)中的空間和時間特征,減少計算量;另一方面使用3D卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更加全面且準(zhǔn)確的空間和時間信息,使得識別性能變得更好。

3? 基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識別

在二維卷積神經(jīng)網(wǎng)絡(luò)中,2D特征圖僅僅處理視頻當(dāng)中的空間信息,丟失了動作之間的關(guān)聯(lián)性。而捕獲視頻的時間特征(長時間和短時間依賴關(guān)系)尤為重要。3D CNN將視頻序列看作是一個三維圖像序列,通過卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行處理以提取空間和時間特征,相對于雙流網(wǎng)絡(luò),3D CNN不需要提前提取骨骼或其他先驗(yàn)特征,具有更強(qiáng)的適應(yīng)性。

3.1? 時空網(wǎng)絡(luò)

對于連續(xù)性的圖像,2D卷積核每次只抽取一幀圖像,對這一幀進(jìn)行單獨(dú)的卷積操作,最后由每一幀的識別結(jié)果進(jìn)行判斷。3D卷積核的卷積操作會涉及前后連續(xù)性的幾幀圖像,因此3D卷積核能夠提取空間領(lǐng)域上的圖像信息,還能考慮連續(xù)幀之間的運(yùn)動信息。Ji等人[23]首先開發(fā)一個三維CNN模型,它從相鄰的輸入幀提供多個通道,并對每個通道進(jìn)行三維卷積。Tran等人[24]提出一種C3D網(wǎng)絡(luò)架構(gòu),它使用多幀作為網(wǎng)絡(luò)的輸入,對視頻數(shù)據(jù)進(jìn)行了端到端的處理,包括時空特征提取和分類。C3D網(wǎng)絡(luò)基于3D CNN通過在時間維度引入卷積和池化操作,使得網(wǎng)絡(luò)對視頻序列進(jìn)行建模。Carreira等人提出一種雙流膨脹三維CNN(I3D)[25],如圖8所示,其將ImageNet預(yù)訓(xùn)練的2D CNN延伸到3D CNN中,結(jié)合兩者優(yōu)勢,在基于二維的ResNet和Inception架構(gòu)的基礎(chǔ)上,使用3D卷積來捕捉時間信息。然而I3D網(wǎng)絡(luò)具有一定的局限性,如需大量的標(biāo)記數(shù)據(jù)和需要仔細(xì)調(diào)整參數(shù)。Tran等人[26]提出R(2+1)D模型,該模型使用一種新的卷積操作,稱為時序分離卷積(Separable Spatiotemporal Convolution)來對時間信息進(jìn)行建模,在多個數(shù)據(jù)集上取得了較好的效果。該網(wǎng)絡(luò)與C3D類似,將2D空間卷積和1D時間卷積并聯(lián)組合替代3D卷積,目的是減少模型中的參數(shù)數(shù)量,提高其效率。

3.2? 融合網(wǎng)絡(luò)

基于雙流和3D CNN的卷積網(wǎng)絡(luò)在視頻識別任務(wù)中取得了良好的性能,因?yàn)閮烧呖梢酝瑫r捕獲視頻的空間和時間線索,但是皆有其局限性。例如,基于雙流的結(jié)構(gòu)無法學(xué)習(xí)到真正的時空特征,其采用兩個流的單獨(dú)分類分?jǐn)?shù)的后期融合,而基于3D CNN的方法需要昂貴的內(nèi)存需求和計算成本。為了避免兩者缺點(diǎn),Karpathy等人[27]在雙流網(wǎng)絡(luò)中提出晚融合、早融合和慢融合三種不同的融合方式,如圖9所示,其一次可以連續(xù)輸入多幀,能夠獲取視頻中的時間信息,再通過一個CNN網(wǎng)絡(luò)進(jìn)行處理。在Feichtenhofer等人[19]提出時空乘性網(wǎng)絡(luò)的基礎(chǔ)之上,Zong等人[28]提出多流乘性殘差網(wǎng)絡(luò)(MSM-ResNets),在雙流網(wǎng)絡(luò)輸入上增加運(yùn)動顯著圖以捕獲運(yùn)動信息,然后時間流指向空間流進(jìn)行一次乘性融合,運(yùn)動顯著流指向時間流再次進(jìn)行乘性融合,最后三個分支經(jīng)過softmax層進(jìn)行后期融合以達(dá)到融合時空特征的效果。Gammulle等人[29]提出一種雙流LSTM網(wǎng)絡(luò),主干網(wǎng)絡(luò)是經(jīng)過ImageNet預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò),利用CNN提取空間特征,利用LSTM提取時間特征,結(jié)合兩者形成一個深度融合框架,評估框架融合策略上的優(yōu)劣勢,其中雙流的LSTM表現(xiàn)最好。

圖9? Karpathy等人的雙流融合網(wǎng)絡(luò)

3.3? 其他網(wǎng)絡(luò)

Donahue等人[30]提出一種結(jié)合CNN和LSTM的新型網(wǎng)絡(luò)結(jié)構(gòu),即長期循環(huán)卷積網(wǎng)絡(luò)(LRCN),通過CNN網(wǎng)絡(luò)提取空間信息,LSTM網(wǎng)絡(luò)提取視頻中的時間長期依賴性,最后實(shí)現(xiàn)分類。該網(wǎng)絡(luò)可以同時處理時序的視頻輸入和單幀圖片輸入,適用于大規(guī)模的視覺理解任務(wù)。Zhao等人[31]結(jié)合RNN和CNN的優(yōu)勢,提出基于門控循環(huán)單元的雙流神經(jīng)網(wǎng)絡(luò),空間分支采用3D CNN網(wǎng)絡(luò),時間分支采用RNN網(wǎng)絡(luò),門控循環(huán)單元層之后緊接著批量規(guī)范化和Dropout = 0.75。最后雙流網(wǎng)絡(luò)生成的特征通過一個線性SVM分類器進(jìn)行動作分類。其中RNN網(wǎng)絡(luò)使用雙向GRU,輸入為人體的骨架序列,在NTU RGB+D Dataset實(shí)現(xiàn)了很好的效果,如圖10所示,表2列出了基于深度學(xué)習(xí)的行為識別不同算法下準(zhǔn)確率對比。

圖10? Zhao等人的RNN/CNN雙流網(wǎng)絡(luò)

總體而言,3D CNN在識別效果和效率上較2D CNN是很有競爭力的。但是,3D卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量大,網(wǎng)絡(luò)結(jié)構(gòu)越深其模型參數(shù)越多,容易出現(xiàn)過擬合現(xiàn)象;且3D卷積核需要同時考慮時間和空間信息,需要消耗大量的計算資源和存儲空間,因此訓(xùn)練需要很長時間以及很好的硬性資源條件。這些問題會限制基于3D CNN的動作識別方法在實(shí)際應(yīng)用中的可行性和可擴(kuò)展性。未來,如何通過減少模型參數(shù)來降低模型過擬合的風(fēng)險以及提高網(wǎng)絡(luò)的分類準(zhǔn)確率是重要的研究方向。

4? 結(jié)? 論

視頻動作識別已成為計算機(jī)視覺領(lǐng)域一個重要的研究方向,具有十分廣泛的應(yīng)用前景。本文系統(tǒng)地講解人體行為識別領(lǐng)域的數(shù)據(jù)集和算法,基于深度學(xué)習(xí)是因?yàn)槟壳吧疃葘W(xué)習(xí)方法較于傳統(tǒng)算法來說已成為主流趨勢,并從簡單模型向復(fù)雜模型演化,從最初的監(jiān)督到弱監(jiān)督及以后的無監(jiān)督方法,都是未來發(fā)展的趨勢。本文基于雙流架構(gòu)的基礎(chǔ),從融合策略上和針對輸入模態(tài)上進(jìn)行許多方面的改進(jìn)。最后采用具有3D時空特性的卷積神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行識別,總結(jié)目前行為識別的經(jīng)典算法,指出目前存在的難點(diǎn)問題。如何在減少模型參數(shù)數(shù)量的基礎(chǔ)上提高模型識別的準(zhǔn)確率成為未來一定的研究方向和發(fā)展趨勢。

參考文獻(xiàn):

[1] AYERS D,SHAH M. Monitoring Human Behavior from Video Taken in an Office Environment [J].Image and Vision Computing,2001,19(12):833-846.

[2] 馬海兵,白潔.人臉識別技術(shù)在智能視頻監(jiān)控系統(tǒng)中的應(yīng)用 [J].現(xiàn)代電子技術(shù),2007(20):125-128.

[3] 薛雨麗,毛峽,郭葉,等.人機(jī)交互中的人臉表情識別研究進(jìn)展 [J].中國圖象圖形學(xué)報,2009(5):764-772.

[4] 吉江.幼兒/高齡視頻看護(hù)系統(tǒng)建設(shè)需求分析 [J].A&S:安全&自動化,2011(9):94-96.

[5] SCHMIDHUBER J. Deep Learning in Neural Networks: An overview [J].Neural Networks,2015,61:85-117.

[6] KRIZHEVSKY A,SUTSKEVER I,HINTON,G E. ImageNet Classification with Deep Convolutional Neural Networks [C]//Twenty-sixth Annual Conference on Neural Information Processing Systems.Lake Tahoe:NIPS,2012:1-9.

[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based Learning Applied to Document Recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.

[8] KUMAWAT S,VERMA M,NAKASHIMA Y,et al. Depthwisespatio-temporal STFT Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(9):4839-4851.

[9] SCHULDT C,LAPTEV I,CAPUTO B. Recognizing Human Actions: A Local SVM Approach [C]//Proceedings of the 17th International Conference on Pattern Recognition(ICPR 2004).Cambridge:IEEE,2004,3:32-36.

[10] RODRIGUEZ M D,AHMED J,SHAH M. Action MACH a Spatio-temporal Maximum Average Correlation Height Filter for Action Recognition [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:1-8.

[11] SOOMRO K,ZAMIR A R. Action Recognition in Realistic Sports Videos [M]//Moeslund T B,Thomas G,Hilton A. Computer Vision in Sports.Berlin:Springer,2014:181–208.

[12] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [C]//2011 International Conference on Computer Vision (ICCV).Barcelona:IEEE,2011:2556-2563.

[13] KARPATHY A,TODERICI G,SHETTY S,et al. Large-scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus:IEEE,2014:1725-1732.

[14] ABU-EL-HAIJA S,KOTHARI N,LEE J,et al. YouTube-8M: A Large-Scale Video Classification Benchmark [J/OL].arXiv:1609.08675 [cs.CV].(2016-09-27).https://arxiv.org/abs/1609.08675.

[15] KAY W,CARREIRA J,SIMONYAN K,et al. The Kinetics Human Action Video Dataset [J/OL].arXiv:1705.06950 [cs.CV].(2017-05-19).https://arxiv.org/abs/1705.06950v1.

[16] SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for Action Recognition in Videos [C]//NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2014,1(4):568-576.

[17] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two-Stream Network Fusion for Video Action Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:1933-1941.

[18] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Residual Networks for Video Action Recognition [C]//29th Conference on Neural Information Processing Systems(NIPS 2016).Barcelona:NIPS,2016:3468-3476.

[19] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Multiplier Networks for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:7445-7454.

[20] WANG Y B,LONG M S,WANG J M,et al. Spatiotemporal Pyramid Network for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:2097-2106.

[21] WANG L M,XIONG Y J,WANG Z,et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition [J/OL].arXiv:1608.00859 [cs.CV].(2016-08-02).https://arxiv.org/abs/1608.00859.

[22] STAUDEMEYER R C,MORRIS E R. Understanding LSTM--A Tutorial into Long Short-Term Memory Recurrent Neural Networks [J/OL].arXiv:1909.09586 [cs.NE].(2019-09-12).https://arxiv.org/abs/1909.09586.

[23] JI S W,XU W,YANG M,et al. 3D Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.

[24] TRAN D,BOURDEV L,F(xiàn)ERGUS R,et al. Learning Spatiotemporal Features with 3D Convolutional Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:4489-4497.

[25] CARREIRA J,ZISSERMAN A. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4724-4733.

[26] TRAN D,WANG H,TORRESANI L,et al. A Closer Look at Spatiotemporal Convolutions for Action Recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6450-6459.

[27] KARPATHY A,TODERICI G,SHETTY S,et al. Large-Scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1725-1732.

[28] ZONG M,WANG R L,CHEN X B,et al. Motion Saliency Based Multi-stream Multiplier ResNets for Action Recognition [J].Image and Vision Computing,2021,107:104108.

[29] GAMMULLE H,DENMAN S,SRIDHARAN S,et al. Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition [C]//2017 IEEE Winter Conference on Applications of Computer Vision(WACV).Santa Rosa:IEEE,2017:177-186.

[30] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:2625-2634.

[31] ZHAO R,ALI H,SMAGT P V D. Two-stream RNN/CNN for Action Recognition in 3D videos [C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Vancouver:IEEE,2017:4260-4267.

作者簡介:吳婷(1998—),女,漢族,廣西北海人,碩士研究生在讀,研究方向:視覺認(rèn)知計算與醫(yī)學(xué)圖像處理;通訊作者:劉海華(1966—),男,漢族,湖北孝感人,教授,博士,研究方向:視覺認(rèn)知計算與醫(yī)學(xué)圖像處理。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 波多野结衣视频一区二区| a级毛片毛片免费观看久潮| 亚洲精品桃花岛av在线| 黄色三级毛片网站| 91成人在线免费视频| 欧美精品伊人久久| 国产成人综合欧美精品久久| 国产精品成人一区二区不卡 | 色偷偷综合网| 成人在线不卡视频| 亚洲国产看片基地久久1024| 91久久精品日日躁夜夜躁欧美| 黄色网站在线观看无码| 亚洲精品日产精品乱码不卡| 人妻少妇久久久久久97人妻| 日韩国产黄色网站| 亚洲人成网站色7799在线播放| 香蕉伊思人视频| 亚洲国产AV无码综合原创| 欧美成人影院亚洲综合图| 狠狠亚洲婷婷综合色香| 亚洲色欲色欲www网| 中美日韩在线网免费毛片视频| 欧美精品高清| a毛片免费在线观看| 97视频免费看| 少妇高潮惨叫久久久久久| 色网在线视频| 久久成人免费| 六月婷婷激情综合| 亚洲第一国产综合| 国产激情无码一区二区免费| 亚洲成a人在线播放www| 在线观看国产精品第一区免费| 久久夜色精品国产嚕嚕亚洲av| 国产成人永久免费视频| 免费人成在线观看视频色| 久久精品亚洲专区| 国产一级做美女做受视频| 亚洲欧美综合另类图片小说区| 性网站在线观看| 日韩黄色在线| 9cao视频精品| 免费人成网站在线观看欧美| 天堂中文在线资源| 国产成人精品一区二区三区| 午夜福利无码一区二区| 日本一本正道综合久久dvd| 四虎影视8848永久精品| 久久久久人妻一区精品色奶水| 国产一区二区三区免费观看| 免费看一级毛片波多结衣| 亚洲欧美日韩另类在线一| 国产亚洲日韩av在线| 天天摸夜夜操| 午夜限制老子影院888| 亚洲国产成人综合精品2020 | 亚洲成网777777国产精品| 成人亚洲国产| 国产九九精品视频| 亚洲视频色图| 91尤物国产尤物福利在线| 国产啪在线91| 亚洲精品黄| 99r在线精品视频在线播放 | 免费看a级毛片| 婷婷激情五月网| 91极品美女高潮叫床在线观看| 美女被操91视频| 色婷婷啪啪| 国产本道久久一区二区三区| 国产在线一区二区视频| 国产成人亚洲综合A∨在线播放| 91青青视频| 国产黄色视频综合| 国产性生大片免费观看性欧美| 国产精品护士| 国产成人精品免费av| 无码啪啪精品天堂浪潮av| 亚洲国产欧洲精品路线久久| 亚洲精品日产精品乱码不卡| 免费a级毛片18以上观看精品|