楊天明,陳 志,岳文靜
(1.南京郵電大學 計算機學院,南京 210023; 2.南京郵電大學 通信與信息工程學院,南京 210003)
深度學習被運用于圖片分類[1-3]、人物臉部識別[4]和人物位置預測[5]等識別領域。視頻人物動作識別可看作隨時間變化圖片的分類問題,所以圖片識別的深度學習方法也被大量使用在視頻人物動作識別研究中[6-8]。與計算機視覺的其他領域相比,深度卷積神經網絡(Convolutional Neural Network, CNN)在動作識別領域的表現并不突出,原因有以下兩點:第一,現今視頻數據集較小并且噪聲信息較多。視頻中目標的移動以及視角的變化增加了動作識別的難度,所以需要比圖片識別更多的訓練樣本。圖片數據集ImageNet每一類具有1 000個例子,而視頻數據集比如佛羅里達大學YouTube行為數據集(University of Central Florida YouTube action dataset 101, UCF101)每一類僅僅有100個例子,比圖片數據集少很多。第二,傳統卷積神經網絡結構不能充分地提取時間特征。視頻是一種按時變化數據,任意像素與其鄰域像素之間的相似性很大,具有很強的時間相關性與空間相關性,具有時空特征。然而卷積神經網絡通常用于單一、靜止的圖片,不能有效地提取出連續幀之間的關聯特征。
為了利用視頻的時間特征,文獻[9]提出了一種時空雙流結構,該結構包含兩個并行卷積神經網絡結構。兩個卷積神經網絡分別以等間隔抽樣視頻幀和視頻的一系列光流圖片作為輸入,提取視頻人物動作的空間以及時間信息,最后將這兩方面信息融合用以辨別視頻人物動作類別;同時該結構也表明了僅僅通過光流信息也能夠辨別數據集UCF101中的大部分人物動作。雖然該結構在一定程度上利用了視頻的時間特征,但識別準確度仍然不高。
為了解決上述問題,本文在時空雙流識別模型的基礎上,提出了一種3D卷積神經網絡模型。該模型首先利用兩個卷積神經網絡分別抽取視頻人物動作片段的空間以及時間特征;接著融合這兩個卷積神經網絡提取的特征,并將融合后的特征輸入到3D卷積神經網絡中完成視頻中人物動作的識別。本文在數據集UCF101以及人物行為數據集(Human Motion DataBase, HMDB51)上進行視頻人物動作識別實驗,實驗結果表明本文提出的基于時空雙流的3D卷積神經網絡模型能夠有效地識別視頻人物動作。此網絡模型能夠同時學習靜態圖片內容的信息以及視頻人物運動信息,并且能夠將這兩個特征進行融合進而提取時空相關性信息。
利用卷積神經網絡(CNN)提取利用視頻的時間信息一直是視頻人物動作識別的難點。卷積神經網絡比較適用于提取單一靜態圖片的特征,對于視頻的時間信息不是特別的敏感。然而用于靜態圖片識別的卷積神經網絡的發展在很大程度上促進了視頻識別領域的發展,近些年來眾多CNN的調整方法被提出來,使得CNN能夠在一定程度上利用視頻的時間信息。
為了能夠讓CNN的第一層就能夠學習到視頻的時空特征,相關文獻提出了修改卷積神經網絡輸入的方法。文獻[10]中提出了將一定數量連續的視頻幀作為CNN的輸入。與文獻[10]的視頻幀的簡單疊加不同,文獻[11]更進一步地提出了多種時間域上視頻幀采樣融合方法,其中:早期融合(early fusion)與文獻[10]中提出的方法相同,緩慢融合(slow fusion)是一種逐層次地增加神經網絡輸入時間域長的方法,晚期融合(late fusion)方法融合了時間域間隔一定長度不同視頻幀對應CNN的全連接層。與單一空間卷積神經網絡相比,上述視頻識別方法在準確率上只是略有提升,說明上述研究方法沒有充分地利用視頻的時間信息。
文獻[12]提出3D卷積神經網絡結構,該結構是原先2D神經網絡在時間維度上的一種擴展,使得可以學習視頻片段時間上的特征。這種神經網絡結構使用若干個連續的視頻幀作為輸入,使用大小為3×3×3卷積核學習視頻的時空特征。實驗結果表明這種結構的準確率比文獻[10]提出的多種輸入視頻幀融合方法更高;但是這種結構是一種更加深度的結構,實驗訓練與測試的過程中需要占用更多的資源。

圖2 空間流卷積神經網絡結構 Fig. 2 Framework of spatial convolutional neural network
文獻[9]提出了時空雙流深度學習策略,用來分別提取視頻的空間信息與時間信息,最后將這兩個信息融合,其具體結構如圖1所示。首先提取視頻的RGB幀和連續視頻光流幀,將視頻分解成空間與時間元素。然后將這兩個元素分別輸入到兩個獨立的深度卷積神經網絡當中,來學習場景中運動目標外形以及動作的空間以及時間信息。用這兩個流分別進行視頻行為動作的識別,在最后將softmax層的分數通過晚期融合(late fusion)的方式進行合并[11]。文獻[9]比較了不同的連續光流幀融合方法,得出結論:連續的10幀的水平光流場與豎直的光流場表現最好。相比傳統的視頻人物動作識別方法,該方法有效地融合了視頻的時間信息,但是仍然存在以下的問題:
問題1 文獻[9]提出的深度學習結構的輸入量太少,僅僅是單個光流幀以及若干個時間域上等間隔抽樣的光流。
問題2 文獻[9]提出的空間特征與時間特征的融合僅僅是在最后的softmax層進行融合,沒有考慮到空間與時間特征之間的關聯性以及這些關聯如何隨著時間變化。
問題3 文獻[13]自編碼學習過程產生的參數數量太多,增加了深度學習的難度。
基于上述方面的考慮,本文對于文獻[9]提出的時空雙流深度學習模型的改進基礎上,引入了3D卷積神經網絡,提出一種基于視頻深度學習的時空雙流視頻人物動作識別模型(Spatio-temporal Convolutional Neural Network based on 3D-gradients, Spatiotemporal-3DCNN)。

圖1 時空雙流卷積神經網絡結構 Fig. 1 Framework of spatio-temporal two-stream convolutional neural network
2.1.1 空間流卷積神經網絡
空間流卷積神經網絡的輸入是單個視頻幀,它是一種通過提取靜態圖片信息來完成視頻人物動作識別的深度學習模型。靜態的外形特征是一個非常有用的信息,因為視頻人物的某些行為動作與某些物體有著密切的關聯性。通過后面章節的實驗也可得知,僅僅通過空間流卷積神經網絡也能夠完成部分視頻人物動作的識別。空間流卷積神經網絡在本質上屬于一種圖片分類結構,本文所述的空間流卷積神經網絡結構使用的是文獻[14]中的圖片分類卷積神經網絡,其具體結構采用的是牛津大學視覺幾何組(Visual Geometry Group,VGG)開發的VGG-M-2048模型,如圖2所示,并且該結構會在圖片數據集進行預訓練。
2.1.2 時間流卷積神經網絡
時間流神經網絡結構如圖3所示,同樣也是采用的是VGG-M-2048模型。與空間流卷積神經網絡不同,時間流卷積神經網絡輸入的是若干連續視頻幀之間的光流圖片。光流圖片可以理解為連續視頻幀之間的像素點位移場,顯式地表述了視頻的運動信息,有效地提取了視頻的時間特征,提高了視頻人物動作識別的準確率。本文中把用于輸入的若干連續光流圖片稱為光流棧。光流棧的具體描述如下:

a=[1;ω],b=[1;h],k=[1;L]
(1)
其中ω和h分別表示視頻的像素長度與像素寬度。

圖3 時間流卷積神經網絡結構 Fig. 1 Framework of temporal convolutional neural network
本文提出的Spatiotemporal-3DCNN框架如圖4所示。該模型主要包括三個模塊:空間特征與時間特征的提取、空間特征與時間特征的融合、基于3D卷積神經網絡的視頻人物動作識別。首先,分別訓練兩個2D卷積神經網絡流,用來分別提取視頻的空間特征與時間特征;之后,將空間流與時間流網絡進行再卷積進行融合,并對參數進行微調,用于提取視頻時空中層特征;最后,通過3D卷積神經網絡模型完成視頻人物動作的識別。

圖4 Spatiotemporal-3DCNN框架 Fig. 4 Framework of spatiotemporal-3DCNN
Spatiotemporal-3DCNN包含T個時空流。空間流的輸入的是視頻幀,從視頻片段的時間t開始以時間域距離d進行等間隔取樣,將在時間t,t+d,…,t+Td的視頻幀作為輸入。時間流對應的輸入是連續光流幀,在時間t時刻對應的連續光流幀圖片在時間域上的位置是(t-L/2,t+L/2)。通過融合得到在時間域上連續的T個時空特征圖,并且光流域的長度L和空間流視頻幀的取樣間隔d必定滿足關系L Spatiotemporal-3DCNN利用3D卷積神經網絡對2D時空雙流卷積神經網絡在時間軸上的進一步擴展,充分利用了視頻的時間信息。這里時空雙流卷積神經沒有使用全連接層最后的特征融合,因為全連接層輸出的是高層特征會丟失圖像特征在時間軸上的信息。將時空雙流在卷積層(Conv5)的時空特征進行融合得到的特征圖作為3D卷積神經網絡的輸入,提高了時空特征在像素點上的關聯性,因為在模型輸入中加入了光流圖片,提高了處理靜態圖像視頻幀采樣的魯棒性,每一秒的采樣都會都是幀圖像的所隱含的運動信息,而光流特征可以作為補償。接著3D卷積神經網絡對同一人物動作視頻的不同時間片段的時空特征圖進行3D卷積與池化進一步提取了時間信息。 時空網絡的融合在于使用視頻的空間特征與時間特征的關聯性判斷人物的行為動作。比如對于梳頭與刷牙兩個行為動作,空間流網絡識別出了靜態的物體頭發與牙齒,時間流網絡識別出了在一定的空間位置手部進行周期性的運動,結合這兩個網絡可以分辨梳頭和刷牙這兩個人物動作。本節從時空雙流的融合位置角度闡述時空雙流卷積神經網絡融合策略。 時空融合位置如下。 神經網絡之間的融合不是簡單地將一個神經網絡疊加到另一個神經網絡:首先要考慮的是特征圖的大小是否一致,如果不一致需要對較小的特征圖進行上采樣;接著還要考慮空間流卷積神經網絡與時間流卷積神經網絡通道之間的對應關系。本文所述的結構使用的時空融合方法具體可用如下公式進行描述: ysum=fsum(ma,mb) (2) (3) 式(2)表示將兩個網絡的特征圖ma∈RH×W×D和mb∈RH′×W′×D′通過求和的方式將兩個網絡的特征融合成一個新的特征圖ysum∈RH″×W″×D″,其中:H表示特征圖的高度,W表示特征圖的寬度,D表示特征圖通道數,并且滿足關系H=H′=H″,W=W′=W″,D=D′=D″。該公式能夠被應用于卷積層、全連接層及池化層的融合。 式(3)具體描述了如何使用求和的方法在第d通道特征圖的像素點(i,j)處進行融合,其中1≤i≤H, 1≤j≤W,1≤d≤D,ma,mb,y∈RH×W×D。 圖5 時空雙流融合網絡結構 Fig. 5 Framework of spatio-temporal fusion convolutional neural network 圖6 時空特征提取模型結構 Fig. 6 Framework of spatio-temporal feature extraction model 本節提出的3D卷積神經網絡模型如圖7所示,這種網絡結構包含5個卷積層、5個池化層、2個全連接層以及一個識別視頻行為動作的softmax損失層。這5個卷積層所使用的卷積核的數量依次是64,128,256,256,256。與傳統的卷積神經網絡不同的是,3D卷積神經網絡不僅僅對空間的水平與豎直維度進行卷積,同時將時間維度也考慮在內進行3D卷積,所有的3D卷積核的大小都是3×3×3,在空間與時間維度上的深度都是3,并且在時間與空間維度的跨度是1×1×1。池化層采用的池化方法是max pool,3D池化核的大小都是2×2×2,在空間與時間維度上的深度都是2,在時間與空間維度上的跨度是1×1×1。3D卷積神經網絡的第一層輸入是由時空雙流結構提取的T個中層時空特征圖M∈RH×W×D×T,其中H是時空特征圖的高度,W是時空特征圖的寬度,D是時空特征圖的通道數。最后的兩個全連接層都是2 048維的特征向量。 圖7 3D卷積神經網絡結構 Fig. 7 Framework of convolutional neural network based on 3D-gradients 本節實驗的數據集來源于兩個有名的視頻動作識別數據集:UCF-101與HMDB51[15]。UCF-101是目前動作類別數、樣本數最多的數據庫之一,一共包含13 320段視頻樣本101個視頻類別,其數據庫樣本來自從BBC/ESPN的廣播電視頻道收集的各類運動樣本,以及從互聯網尤其是視頻網站YouTube上下載而來的樣本。HMDB51數據集包含6 849段視頻樣本51個視頻類別,視頻多數來自于電影,小部分來自于公共數據庫以及YouTube等網絡視頻庫。本文將這兩個數據集都分成3份訓練集與測試集進行實驗,通過計算同一數據集3次實驗的準確率的平均值作為最終的實驗結果。 本文提出的Spatiotemporal-3DCNN模型的主要實驗過程,主要分為三大步: 1)預訓練空間與時間流卷積神經網絡。 使用兩個預先訓練的圖片分類模型來單獨訓練空間流卷積神經神經網絡和時間流卷積神經網絡。VGG-M-2048模型具有5個卷積層和3個全連接層,結構更深層的牛津大學視覺幾何組(Visual Geometry Group,VGG)開發的VGG-16模型具有13個卷積層和3個全連接層。在訓練空間流卷積神經網絡的過程中,使用單個視頻幀圖像對預先在圖片數據庫ImageNet上訓練的模型進行訓練,輸入的是大小為224×224視頻幀隨機位置裁剪的子圖,并且對這個子圖進行水平翻轉和RGB隨機顏色抖動增加訓練的數據。在時間流卷積神經網絡的訓練過程中,同樣也使用了圖像分類模型進行訓練,輸入立方體是大小為224×224×2L在原光流圖像上隨機位置裁剪的連續子視頻光流幀。根據文獻[9]中的結論,將光流在時間域上的長度設置為L=10表現效果最好。將丟失率設置為0.85,初始的學習率設置為10-2,在第30 000次迭代后每20 000次迭代將學習率縮小為原先的1/10,在迭代80 000次后停止訓練。 2)訓練時空混合卷積神經網絡。 在上述空間流與時間流卷積神經網絡的基礎上進行時空雙流融合網絡的訓練。實驗過程中將會嘗試在不同的卷積層進行融合,并且通過上采樣的方法使兩個神經網絡的特征圖分辨率大小一致。沒有在全連接層進行融合是因為全連接層在某些程度上已經破壞了時間與空間特征,不能有效地提高識別準確率。在訓練的過程中,每一批的大小設置為96,通過反向傳播對融合后的結構參數進行微調。初始的學習率設置為10-3,在迭代14 000次后學習率降為10-4,在迭代30 000次后停止訓練。訓練完成后的時空融合結構可被用于初步提取時空融合特征。 3)基于3D卷積神經網絡進行人物動作識別。 將由時空混合卷積神經網絡提取到的中層時空特征輸入到3D卷積神經網絡當中進行訓練,這個過程中進一步提取利用的時間特征并且完成人物動作的識別。將連續等間隔時間段的時空特征圖作為3D卷積神經網絡的輸入,抽樣的起始時間隨機選取,時間段個數取值為T=5,并且每個融合的時空特征圖共有1 024個特征通道。3D卷積核的大小為3×3×3并且在第一個卷積層共有64個卷積核。3D卷積神經網絡比較容易過擬合,所以丟失設置較高為0.9。初始的學習率設置為0.003,每150 000次迭代會將學習率除以2,當迭代次數達到1 900 000時停止訓練。 實驗過程中采用了兩個數據庫UCF-101和HMDB-51,并將它們分成3份,每份UCF-101數據集包含9 500個訓練視頻,每份HMDB-51包含3 700個訓練視頻。對數據集分成的3份內容都進行訓練與測試,得到3個視頻人物動作識別準確率,將得到的3個識別準確率的加權平均值作為視頻人物動作識別模型的定量評估指標。 通過VGG-M-2048模型來分別提取RGB圖像特征與光流圖像特征,對于在不同位置融合時空雙流結構的動作識別準確率如表1所示。由表1可知雙流在卷積層進行融合時,從Conv1層到Conv5層動作識別的準確率逐步提升,說明在卷積層中更深層的融合能夠更加有效地利用時空信息。同時表1給出了文獻[9]提出的時空雙流卷積神經網絡的識別準確率,該結構在softmax層進行融合,結果表明在卷積層(Conv5)融合的結構略優于在softmax層融合的結構。本文提出的時空域3D卷積神經網絡模型,都將在最深層次的卷積層進行融合提取中層時空特征圖。本文最終的模型使用更深層的神經網絡模型VGG-16模型來提取中層融合時空信息,之后將提取到的中層時空信息輸入到3D卷積神經網絡中。將提出的時空域3D卷積神經網絡模型與文獻[16]提出的長周期循環卷積神經網絡(Long-term Recurrent Convolutional Network, LRCN)模型、文獻[12]提出的3D卷積神經網絡(Convolutional neural network based on 3D-gradients, C3D)模型、文獻[9]提出的雙流卷積神經網絡(Two-Stream Convolutional neural network, Two-Stream ConvNet)模型和在文獻[17]提出的因式分解卷積神經網絡(Factorized Convolutional neural Network, Factorized ConvNet)模型進行了對比。從表2可以看出單個的時間流與空間流卷積神經網絡也能夠識別部分視頻人物動作,并且可以看出本文提出的時空雙流3D卷積神經網絡模型能夠更加精確地識別出視頻人物動作。 表1 雙流結構在不同融合位置的比較(VGG-M-2048模型)Tab. 1 Comparison of two-stream convolutional neural network fused in different layers (VGG-M-2048 model) 表2 本文人物動作識別方法與其他方法的準確率比較 %Tab. 2 Accuracy comparison of human action recognition method presented in this article with others % 圖8為數據集部分視頻中人物動作識別正確案例的展示。視頻(a)(b)(c)表示了刷牙、剃胡子與頭部按摩三種相似的人物動作,視頻(d)(e)(f)表示了三種常見的體育運動。 圖8 數據集部分視頻中人物動作識別正確案例 Fig. 8 Some correct cases of human action recognition in dataset 本文提出了一種基于視頻深度學習的時空雙流人物動作識別模型,來完成視頻中的人物動作識別任務。該模型先利用預先訓練好的圖片分類模型訓練空間流與時間流卷積神經網絡,并在最深層次的卷積層進行時空雙流的融合,完成中層時空特征信息的提取;再將提取的中層時空特征信息輸入到3D卷積神經網絡中,來完成識別視頻人物動作識別任務。實驗表明本文提出的動作學習模型能夠比較有效地識別出部分視頻中人物簡單的動作。 但是,本文模型仍存在很多不足之處需要改進與提高,比如:視頻中的音頻、文本等固有信息沒有被充分地利用與考慮;以及當視頻出現多人物并且存在互相遮擋,這些都是識別視頻中人物語義的重要線索[18-19],如果可以很好地利用與融合這些線索信息,對視頻中人物動作的識別能力必定會得到很大的提升。后面本人將會繼續研究怎么利用與融合視頻中更多語義線索。 參考文獻(References) [1] 唐宋, 陳利娟, 陳志賢, 等. 基于目標域局部近鄰幾何信息的域自適應圖像分類方法[J]. 計算機應用, 2017, 37(4): 1164-1168.(TANG S, CHEN L J, CHEN Z X, et al. Domain adaptation image classification based on target local-neighbor geometrical information [J]. Journal of Computer Applications, 2017, 37(4): 1164-1168.) [2] XIONG H, YU W, YANG X, et al. Learning the conformal transformation kernel for image recognition [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(1): 149-163. [3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9. [4] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 815-823. [5] TOMPSON J, GOROSHIN R, JAIN A, et al. Efficient object localization using convolutional networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 648-656. [6] ZHANG J, HAN Y, TANG J, et al. Semi-supervised image-to-video adaptation for video action recognition [J]. IEEE Transactions on Cybernetics, 2016, 47(4): 960-973. [7] LIU L, SHAO L, LI X, et al. Learning spatio-temporal representations for action recognition: a genetic programming approach [J]. IEEE Transactions on Cybernetics, 2016, 46(1): 158-170. [8] HUSAIN F, DELLEN B, TORRAS C. Action recognition based on efficient deep feature learning in the spatio-temporal domain [J]. IEEE Robotics and Automation Letters, 2016, 1(2): 984-991. [9] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [EB/OL]. [2017- 05- 06]. http://www.datascienceassn.org/sites/default/files/Two-Stream%20Convolutional%20Networks%20for%20Action%20Recognition%20in%20Videos.pdf. [10] JI S, YANG M, YU K, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231. [11] KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks [C]// CVPR ’14: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732. [12] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// ICCV ’15: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4489-4497. [13] DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activetion feature for generic visual recognition [EB/OL]. [2017- 05- 09]. https://people.eecs.berkeley.edu/~nzhang/papers/icml14_decaf.pdf. [14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [2017- 05- 07]. http://xanadu.cs.sjsu.edu/~drtylin/classes/cs267_old/ImageNet%20DNN%20NIPS2012(2).pdf. [15] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition [C]// ICCV ’11: Proceedings of the 2011 International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 2556-2563. [16] DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634. [17] SUN L, JIA K, YEUNG D Y, et al. Human action recognition using factorized spatio-temporal convolutional networks [C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4597-4605. [18] NAHA S, WANG Y. Beyond verbs: understanding actions in videos with text [C]// Proceedings of the 2016 23rd International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1833-1838. [19] HU R, XU H, ROHRBACH M, et al. Natural language object retrieval [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 4555-4564. This work is partially supported by the National Natural Science Foundation of China (61501253), the Basic Research Program of Jiangsu Province (Natural Science Foundation) (BK20151506), the 11th Six Talent Peaks Program of Jiangsu Province (XXRJ-009), the Key Research and Development Program (Social Development) of Jiangsu Province (BE2016778), the Scientific Research Foundation of Nanjing University of Posts and Telecommunications (NY217054). YANGTianming, born in 1993, M. S. candidate. His research interests include machine learning, video data mining. CHENZhi, born in 1978, Ph. D., professor. His research interests include sensor network, cyber-physical system, machine learning, data mining, Agent and multi-Agent system. YUEWenjing, born in 1982, Ph. D., associate professor. Her research interests include cognitive radio network, data mining.2.3 時空融合策略



2.4 基于3D卷積神經網絡的視頻人物動作識別

3 實驗分析
3.1 實驗設計
3.2 結果分析



4 結語