羅會(huì)蘭,童康
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
視頻作為信息的主要載體之一,已越來(lái)越多地被人們共享。如何理解和分析這些海量涌現(xiàn)的視頻數(shù)據(jù)至關(guān)重要。視頻中的人體動(dòng)作識(shí)別[1-4]一直廣受研究者的青睞,在日常生活安全、視頻信息檢索、公共視頻監(jiān)控、人機(jī)交互等領(lǐng)域都有廣泛的應(yīng)用。當(dāng)前視頻中的人體動(dòng)作識(shí)別研究方法大致可以分為2 類:傳統(tǒng)手動(dòng)特征提取方法和基于深度學(xué)習(xí)的方法。
傳統(tǒng)手動(dòng)特征提取方法是將特征的提取與后續(xù)動(dòng)作識(shí)別的訓(xùn)練分成2 個(gè)獨(dú)立的過(guò)程,在獲得動(dòng)作視頻的特征表示后輸入機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)最終的分類與識(shí)別。比較有代表性的早期工作有Bobick 等[5-6]采用運(yùn)動(dòng)能量圖像和運(yùn)動(dòng)歷史圖像來(lái)解釋圖像序列中人的運(yùn)動(dòng)。Yilmaz 等[7]提出通過(guò)在時(shí)間軸上疊加目標(biāo)的輪廓來(lái)構(gòu)建時(shí)空卷,再根據(jù)時(shí)空卷的不同屬性來(lái)識(shí)別動(dòng)作。該類方法需要將運(yùn)動(dòng)人體從背景中分割出來(lái),所以在復(fù)雜動(dòng)態(tài)背景情況下效果不好。Wang 等[8]提出了利用時(shí)空興趣點(diǎn)(STIP,space time interest point)來(lái)描述視頻,STIP特征是利用角點(diǎn)探測(cè)器獲得興趣點(diǎn)進(jìn)行跟蹤并提取描述符信息。Klaser 等[9]通過(guò)采樣和跟蹤多個(gè)尺度上每幀的稠密點(diǎn)來(lái)提取稠密軌跡(DT,dense trajectory),并用DT 表示視頻。DT 特征是對(duì)視頻進(jìn)行稠密采樣,捕捉運(yùn)動(dòng)軌跡,并沿著光流方向提取軌跡的方向梯度直方圖、光流直方圖和運(yùn)動(dòng)邊界直方圖這些描述符信息。Wang 等[10]提出了改進(jìn)的稠密軌跡(IDT,improving dense trajectory),對(duì)人物進(jìn)行了框定,消除了相機(jī)抖動(dòng)及背景雜亂的影響。基于IDT特征的動(dòng)作識(shí)別方法獲得的識(shí)別準(zhǔn)確率一度達(dá)到世界領(lǐng)先水平。
不同于傳統(tǒng)手動(dòng)特征提取方法,基于深度學(xué)習(xí)的方法旨在自動(dòng)從視頻中學(xué)習(xí)到有效特征用于動(dòng)作識(shí)別。為了便于處理視頻,Ji 等[11]提出了三維卷積網(wǎng)絡(luò),并將其用于識(shí)別視頻中的人類動(dòng)作。在此基礎(chǔ)上,Du 等[12]提出了深度三維卷積神經(jīng)網(wǎng)絡(luò),該方法直接利用深度三維卷積網(wǎng)絡(luò)中的三維卷積和三維池化對(duì)RGB 視頻進(jìn)行處理,并利用大規(guī)模有監(jiān)督視頻數(shù)據(jù)集進(jìn)行訓(xùn)練獲得 C3D(convolutional 3D)模型。后來(lái),Tran 等[13]將三維卷積和殘差網(wǎng)絡(luò)相結(jié)合,并在數(shù)據(jù)集Sports-1M[14]上訓(xùn)練獲得Res3D(residual 3D)模型,它比C3D模型小一半且運(yùn)行速度更快。為了更好地獲得時(shí)間信息和空間信息,Simonyan 等[15]提出了雙流卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別,分別使用RGB 視頻幀和光流圖片作為輸入進(jìn)行訓(xùn)練,以構(gòu)成空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò),并用這2 個(gè)網(wǎng)絡(luò)流的分類得分的平均值作為最終分類結(jié)果。在此基礎(chǔ)上,很多基于雙流卷積神經(jīng)網(wǎng)絡(luò)的方法,包括時(shí)間分割網(wǎng)絡(luò)[16]、時(shí)空殘差網(wǎng)絡(luò)[17]、動(dòng)作變換[18]、時(shí)空金字塔網(wǎng)絡(luò)[19]等被提出,并且獲得了不錯(cuò)的識(shí)別率。針對(duì)雙流卷積神經(jīng)網(wǎng)絡(luò)中時(shí)間流和空間流平均融合方法的不足,F(xiàn)eichtenhofer 等[20]提出了在卷積層之后進(jìn)行融合的新方法,實(shí)現(xiàn)了從分類器級(jí)融合到特征級(jí)融合的轉(zhuǎn)變。隨后,F(xiàn)eichtenhofer 等[21]探索了許多連接外觀流和運(yùn)動(dòng)流的方法,并提出了乘法交互的跨流殘差連接,這種新的時(shí)空乘法網(wǎng)絡(luò)結(jié)構(gòu)在視頻中的人體動(dòng)作識(shí)別上獲得了良好的性能。
有些研究者試圖構(gòu)造更多流的網(wǎng)絡(luò)來(lái)盡可能多地獲取到視頻中的動(dòng)作特征信息。Wang 等[22]提出了全局時(shí)空三流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用單幀圖像、10 幀光流堆疊以及運(yùn)動(dòng)堆疊的差分圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練獲得空間流、局部時(shí)間流和全局時(shí)間流特征。對(duì)這些學(xué)習(xí)到的特征先進(jìn)行PCA(principal component analysis)-Whitening 操作,然后進(jìn)行soft-VLAD(soft vector of locally aggregated descriptor)矢量編碼,最后使用支持向量機(jī)分類。Bilen 等[23]提出了四流網(wǎng)絡(luò)結(jié)構(gòu),分別應(yīng)用排序池化和近似排序池化對(duì)RGB 圖像和光流進(jìn)行編碼得到動(dòng)態(tài)圖像,并將其輸入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到RGB 動(dòng)態(tài)圖像流網(wǎng)絡(luò)和動(dòng)態(tài)光流網(wǎng)絡(luò),結(jié)合原始RGB 流網(wǎng)絡(luò)和光流網(wǎng)絡(luò)形成四流網(wǎng)絡(luò)結(jié)構(gòu),最后用四流網(wǎng)絡(luò)輸出得分的均值來(lái)預(yù)測(cè)動(dòng)作類,獲得了不錯(cuò)的識(shí)別效果。
本文基于雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了一種用于動(dòng)作識(shí)別的時(shí)空壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)。受殘差網(wǎng)絡(luò)模型[24]和壓縮激勵(lì)(SZ,squeeze and excitation)網(wǎng)絡(luò)模型[25]的啟發(fā),本文將壓縮激勵(lì)塊和殘差網(wǎng)絡(luò)模型結(jié)合的壓縮激勵(lì)殘差網(wǎng)絡(luò)模型用于空間流和時(shí)間流。受文獻(xiàn)[21]中的時(shí)空乘法交互以及恒等映射濾波器的啟發(fā),本文對(duì)空間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型和時(shí)間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型采用特征相乘融合,以更好地學(xué)習(xí)時(shí)空特征;同時(shí),將恒等映射核作為時(shí)間濾波器注入網(wǎng)絡(luò)模型中,以此來(lái)學(xué)習(xí)長(zhǎng)期時(shí)間依賴關(guān)系。鑒于單個(gè)模型獲得性能的局限性以及受集成學(xué)習(xí)思想的啟發(fā),本文使用3 種不同的策略生成多個(gè)模型,并對(duì)它們進(jìn)行均值及加權(quán)平均集成方法來(lái)獲得最終的識(shí)別結(jié)果。
本文的貢獻(xiàn)介紹如下。1)將圖像識(shí)別領(lǐng)域的殘差網(wǎng)絡(luò)和壓縮激勵(lì)網(wǎng)絡(luò)結(jié)合的壓縮激勵(lì)殘差網(wǎng)絡(luò)遷移到視頻動(dòng)作識(shí)別中;2)以RGB 和光流圖片為輸入,訓(xùn)練獲得雙流卷積神經(jīng)網(wǎng)絡(luò),同時(shí)注入時(shí)間濾波器對(duì)空間流和時(shí)間流進(jìn)行特征級(jí)別的乘法融合;3)采用集成學(xué)習(xí)思想,將不同策略獲得的多個(gè)模型進(jìn)行直接平均和加權(quán)平均集成;4)進(jìn)行了一系列比較分析實(shí)驗(yàn),結(jié)果表明本文通過(guò)特征級(jí)別乘法融合以及多模型集成獲得了很好的識(shí)別效果。
本文動(dòng)作識(shí)別的整體框架結(jié)構(gòu)如圖1 所示。首先,將壓縮激勵(lì)塊和殘差網(wǎng)絡(luò)結(jié)合的壓縮激勵(lì)殘差網(wǎng)絡(luò)模型作為網(wǎng)絡(luò)的基礎(chǔ)模型,同時(shí)注入時(shí)間濾波。然后,用RGB 視頻幀和光流數(shù)據(jù)分別進(jìn)行訓(xùn)練,獲得空間流網(wǎng)絡(luò)模型和時(shí)間流網(wǎng)絡(luò)模型;在此基礎(chǔ)上,將空間流網(wǎng)絡(luò)訓(xùn)練獲得的空間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型與時(shí)間流網(wǎng)絡(luò)訓(xùn)練獲得的時(shí)間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型進(jìn)行乘法融合并再次訓(xùn)練。最后,利用不同策略訓(xùn)練獲得多個(gè)時(shí)空壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)模型,通過(guò)直接平均和加權(quán)平均對(duì)這些模型進(jìn)行集成以獲得最終的識(shí)別結(jié)果。
壓縮激勵(lì)塊的原理如圖2 所示。任何一個(gè)卷積層的輸出都可以通過(guò)壓縮激勵(lì)塊實(shí)現(xiàn)跨通道全局信息依賴關(guān)系的學(xué)習(xí),每個(gè)通道得到一個(gè)尺度系數(shù)。由圖2 可知,對(duì)于一個(gè)輸出維度為W×H×C的卷積層,首先通過(guò)全局平均池化獲得維度為1 × 1×C的輸出,得到每個(gè)特征通道的全局信息;然后通過(guò)2 個(gè)全連接層來(lái)學(xué)習(xí)不同特征通道間的依賴關(guān)系,2個(gè)全連接層后面分別采用了Re LU 和Sigmoid 激活函數(shù)對(duì)全連接層的輸出激活;最后將壓縮激勵(lì)塊得到的輸出1 × 1×C和最初卷積層的輸出W×H×C相乘,即每個(gè)特征通道乘以一個(gè)學(xué)習(xí)得到的尺度系數(shù)。一個(gè)輸出維度為W×H×C的卷積層通過(guò)壓縮激勵(lì)塊操作之后,特征維度沒(méi)有發(fā)生改變,但充分學(xué)習(xí)了C個(gè)通道間的全局依賴關(guān)系。
殘差網(wǎng)絡(luò)對(duì)學(xué)習(xí)深度表征十分有效,而壓縮激勵(lì)(SE,squeeze-and-excitation)塊具有學(xué)習(xí)跨通道全局依賴的能力,它可以嵌入任何的卷積層后,所以本文將壓縮激勵(lì)塊集成到殘差網(wǎng)絡(luò)中構(gòu)建壓縮激勵(lì)殘差網(wǎng)絡(luò)。圖3 為本文構(gòu)建的一個(gè)50 層的壓縮激勵(lì)殘差網(wǎng)絡(luò)結(jié)構(gòu),圖中省略了跳躍連接。
一維卷積可以有效捕捉時(shí)間依賴性。為了提供更大間隔的時(shí)間支持,本文使用一維時(shí)間卷積,它結(jié)合了初始化為恒等映射的特征空間變換,可以將時(shí)間濾波加入殘差層中,從而產(chǎn)生局部影響,也可以加入跳躍連接層,產(chǎn)生全局影響。
第l層后的時(shí)間濾波操作如式(1)所示,跨越Cl個(gè)特征通道實(shí)現(xiàn)時(shí)間濾波。

圖1 動(dòng)作識(shí)別整體框架結(jié)構(gòu)

圖2 壓縮激勵(lì)塊的原理

圖3 壓縮激勵(lì)殘差網(wǎng)絡(luò)結(jié)構(gòu)

其中,xl+1和xl分別表示第l+1層和第l層;*為卷積操作;偏置bl初始化為0;是跨越時(shí)間為t=1,…,T的時(shí)間濾波器權(quán)值,它由特征通道間堆疊的恒等映射來(lái)初始化。時(shí)間濾波器權(quán)值計(jì)算式如式(2)所示。

其中,?表示張量外積,f表示一個(gè)長(zhǎng)度為T的一維時(shí)間濾波器。
在時(shí)間濾波的基礎(chǔ)上,同時(shí)引入全局時(shí)間池化,放置于最后一個(gè)卷積層,用于捕獲全局時(shí)間信息,在時(shí)間范圍1≤t≤T內(nèi),給定x(i,j,t,c),全局最大時(shí)間池化計(jì)算式如式(3)所示。

為了更好地學(xué)習(xí)時(shí)空流網(wǎng)絡(luò)特征,本文采用特征級(jí)別的融合方法,即對(duì)空間壓縮激勵(lì)殘差網(wǎng)絡(luò)和時(shí)間壓縮激勵(lì)殘差網(wǎng)絡(luò)進(jìn)行乘法交互。2 個(gè)壓縮激勵(lì)殘差塊雙向連接(時(shí)間流到空間流、空間流到時(shí)間流)乘法融合如圖4 所示。將時(shí)間流壓縮激勵(lì)殘差塊的輸出與空間流對(duì)應(yīng)的壓縮激勵(lì)殘差塊輸出進(jìn)行元素級(jí)別的乘法,這樣通過(guò)空間流殘差單元的信息就被時(shí)間信號(hào)所調(diào)整。類似地,將空間流壓縮激勵(lì)殘差塊的輸出與時(shí)間流的壓縮激勵(lì)殘差塊的輸出進(jìn)行乘法融合,時(shí)間流的信息被空間信號(hào)所調(diào)整。通過(guò)時(shí)間流與空間流的乘法融合,學(xué)習(xí)到特征級(jí)別的時(shí)空信息,有助于區(qū)分外觀上相似的動(dòng)作。
本文提出的注入時(shí)間濾波器的壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。其中,⊙表示乘法融合交互點(diǎn),inject 表示注入時(shí)間濾波器。在圖5 所示的結(jié)構(gòu)中,空間流與時(shí)間流的乘法融合交互分別在conv2_x、conv3_x、conv4_x、conv5_x中的第一個(gè)壓縮激勵(lì)殘差塊后進(jìn)行,inject 除了在conv5_x的最后一個(gè)壓縮激勵(lì)殘差塊后進(jìn)行,還分別在conv2_x、conv3_x、conv4_x、conv5_x的第二個(gè)壓縮激勵(lì)殘差塊中的3 ×3 卷積后進(jìn)行。

圖4 乘法融合示意
由于空間流與時(shí)間流的乘法融合方式(空間流到時(shí)間流、時(shí)間流到空間流)、次數(shù)和位置可以變化,以及受集成學(xué)習(xí)思想的啟發(fā),對(duì)本文所提的注入時(shí)間濾波器的壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)架構(gòu),采用不同的乘法融合策略,在不同的訓(xùn)練數(shù)據(jù)劃分子集上學(xué)習(xí),從而可以獲得多個(gè)動(dòng)作分類模型,并在測(cè)試階段對(duì)這些分類模型結(jié)果進(jìn)行集成以進(jìn)一步提升識(shí)別效果。

圖5 注入時(shí)間濾波器的壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)結(jié)構(gòu)
針對(duì)不同策略生成的多個(gè)模型,本文采用直接平均法和加權(quán)平均法進(jìn)行集成。直接平均法就是對(duì)不同模型產(chǎn)生的類別置信度求均值得到最終的測(cè)試結(jié)果。而加權(quán)平均法則是在直接平均方法基礎(chǔ)上,通過(guò)加入權(quán)重來(lái)調(diào)節(jié)不同模型輸出間的重要程度。假設(shè)共有N個(gè)模型待集成,對(duì)測(cè)試樣本D,其測(cè)試結(jié)果為N個(gè)M維(M為數(shù)據(jù)的標(biāo)記空間大小)向量q1,q2,…,qN。直接平均法和加權(quán)平均法對(duì)應(yīng)的計(jì)算式分別如式(4)和式(5)所示。

其中,wi對(duì)應(yīng)第i個(gè)模型的權(quán)重,wi≥0且
本文實(shí)驗(yàn)采用Matlab 2017a 的仿真軟件以及MatConvNet 的深度學(xué)習(xí)工具包。實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為64 位的Windows10,CPU 為Intel(R)Xeon(R)CPU E5-2690 v4 @ 2.60 GHz;內(nèi)存為512 GB,顯卡為16 GB 的NVIDIA Tesla P100-PCIE。
UCF101[26]數(shù)據(jù)集是最流行的動(dòng)作識(shí)別數(shù)據(jù)集之一,包含13 320 個(gè)來(lái)自101 個(gè)動(dòng)作類別的視頻片斷。其中,每一個(gè)類別至少有100 個(gè)視頻片段,每一個(gè)片段持續(xù)3~10 s。該數(shù)據(jù)集的101 個(gè)類別可以分為五大類,包括體育運(yùn)動(dòng)、樂(lè)器演奏、人與人之間的交互、身體運(yùn)動(dòng)、人與對(duì)象的交互。由于該數(shù)據(jù)集來(lái)源于現(xiàn)實(shí)環(huán)境,包含雜亂背景、相機(jī)抖動(dòng)、遮擋、不同光照條件等各種因素的影響,故該數(shù)據(jù)集具有一定的挑戰(zhàn)性。
HMDB51[27]數(shù)據(jù)集是一個(gè)大而真實(shí)的視頻集合,包含51 個(gè)動(dòng)作類別,涵蓋了6 766 個(gè)視頻片斷。這些視頻片斷主要來(lái)源于電影,只有一小部分來(lái)自公共數(shù)據(jù)庫(kù),并且每一個(gè)片斷都包含一個(gè)人類活動(dòng)。該數(shù)據(jù)集的行為類別包括普通面部動(dòng)作、操縱對(duì)象面部動(dòng)作、一般身體運(yùn)動(dòng)、與對(duì)象交互運(yùn)動(dòng)、與人交互運(yùn)動(dòng)共5 種類型。HMDB51 數(shù)據(jù)集來(lái)源不同,并伴有遮擋、相機(jī)移動(dòng)、復(fù)雜背景、光照條件變化等諸多因素的影響,相較于UCF101 數(shù)據(jù)集更具挑戰(zhàn)性。
本文采用交叉驗(yàn)證方法進(jìn)行訓(xùn)練,UCF101數(shù)據(jù)集的訓(xùn)練集的3 種不同劃分分別為split1、split2和split3。每種數(shù)據(jù)劃分將全部訓(xùn)練視頻數(shù)據(jù)按7:3 的比例分為訓(xùn)練集和驗(yàn)證集。具體步驟如下。每個(gè)動(dòng)作類共有25 組訓(xùn)練視頻,其中split1將前面7 組視頻作為驗(yàn)證集,剩下的18 組視頻作為訓(xùn)練集;split2將第8 組到第14 組視頻作為驗(yàn)證集,其余的作為訓(xùn)練集;split3則將第15 組到第21 組視頻作為驗(yàn)證集,剩下的視頻作為訓(xùn)練集。HMDB51 數(shù)據(jù)集的3 種不同劃分和UCF101數(shù)據(jù)集類似。除了從視頻中提取RGB 視頻幀外,還預(yù)先計(jì)算光流并以JPEG 形式存儲(chǔ)。本文采用文獻(xiàn)[21]中使用的UCF101、HMDB51 的視頻幀和光流數(shù)據(jù)。
本文使用50 層的壓縮激勵(lì)殘差網(wǎng)絡(luò)作為基礎(chǔ)模型,并將其分別用于空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)。空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)的訓(xùn)練是分開(kāi)進(jìn)行的,并且都使用動(dòng)量為0.9 的隨機(jī)梯度下降。時(shí)間流網(wǎng)絡(luò)使用10 幀堆疊的光流幀作為輸入,通過(guò)對(duì)光流的中間和邊緣的隨機(jī)裁剪,將圖片大小調(diào)整為224 像素×224 像素。時(shí)間流網(wǎng)絡(luò)訓(xùn)練的批量處理大小為128 張圖片,初始學(xué)習(xí)率為0.01,每次減小到原來(lái)的,直至減小到初始值的。空間流網(wǎng)絡(luò)以大小為224 像素×224 像素的RGB 圖片作為輸入,批量處理大小為256 張圖片,學(xué)習(xí)率分別為0.01、0.001、0.000 1。
3.2.1單流網(wǎng)絡(luò)性能分析
本節(jié)評(píng)估訓(xùn)練獲得的空間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型和時(shí)間壓縮激勵(lì)殘差網(wǎng)絡(luò)模型在UCF101 和HMDB51 數(shù)據(jù)集上的識(shí)別效果,以及它們?cè)诓煌瑒澐窒掠?xùn)練后獲得測(cè)試性能的差異。表1 給出了空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)在UCF101 和HMDB51 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。從表1 空間流和時(shí)間流網(wǎng)絡(luò)的對(duì)比可以看出,時(shí)間流網(wǎng)絡(luò)在HMDB51 和UCF101數(shù)據(jù)集上的識(shí)別準(zhǔn)確率都要高于空間流網(wǎng)絡(luò)。在UCF101 數(shù)據(jù)集上,時(shí)間流網(wǎng)絡(luò)識(shí)別準(zhǔn)確率比空間流網(wǎng)絡(luò)識(shí)別準(zhǔn)確率高2.8%;在HMDB51 數(shù)據(jù)集上,時(shí)間流網(wǎng)絡(luò)比空間流網(wǎng)絡(luò)高 10.9%。數(shù)據(jù)集HMDB51 受相機(jī)抖動(dòng)、復(fù)雜背景等因素的影響要大于數(shù)據(jù)集UCF101,并且數(shù)據(jù)集HMDB51 上同一動(dòng)作具有大的類內(nèi)散度以及不同動(dòng)作具有小的類間散度的程度要大于數(shù)據(jù)集UCF101。時(shí)間流網(wǎng)絡(luò)能夠更好地對(duì)這兩者的影響進(jìn)行補(bǔ)償,這可能就是時(shí)間流網(wǎng)絡(luò)在HMDB51 數(shù)據(jù)集上較空間流網(wǎng)絡(luò)提升比在UCF101 數(shù)據(jù)集上高的原因。此外,HMDB51和UCF101 數(shù)據(jù)集在不同劃分下訓(xùn)練后獲得的測(cè)試識(shí)別準(zhǔn)確率也有差異,在HMDB51 數(shù)據(jù)集上,時(shí)間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)均在split2劃分下訓(xùn)練后取得最高的測(cè)試識(shí)別準(zhǔn)確率;而在UCF101 數(shù)據(jù)集上,空間流網(wǎng)絡(luò)在split1劃分下訓(xùn)練后的測(cè)試識(shí)別準(zhǔn)確率較高,時(shí)間流網(wǎng)絡(luò)卻在split3劃分下訓(xùn)練后的測(cè)試識(shí)別準(zhǔn)確率最高。這也說(shuō)明訓(xùn)練數(shù)據(jù)對(duì)識(shí)別性能有較大影響。

表1 HMDB51 和UCF101 數(shù)據(jù)集上識(shí)別準(zhǔn)確率
3.2.2空間流與時(shí)間流乘法融合方式、次數(shù)及位置對(duì)識(shí)別性能的影響分析
本節(jié)實(shí)驗(yàn)分析了使用相同乘法融合方式情況下,即采用從時(shí)間流到空間流的乘法融合方式,融合次數(shù)和位置對(duì)識(shí)別性能的影響,實(shí)驗(yàn)結(jié)果如表2所示,結(jié)果報(bào)告了在HMDB51 數(shù)據(jù)集split1劃分下訓(xùn)練后獲得的測(cè)試識(shí)別準(zhǔn)確率。其中“conv2_1_relu和conv2_1”表示從時(shí)間流的conv2_1 層連接到空間流的conv2_1_relu 層進(jìn)行乘法融合,其他依次類推。
從表 2 可以看出,對(duì)于單次融合來(lái)說(shuō),“conv5_1_relu 和conv5_1”融合獲得了67.1%的識(shí)別準(zhǔn)確率,它比“conv2_1_relu 和 conv2_1”“conv3_1_relu 和 conv3_1”“conv4_1_relu 和conv4_1”融合分別高了1.2%、1.0%和0.6%。由此可見(jiàn),從時(shí)間流 conv5_1 層連接到空間流conv5_1_relu 層融合效果更好,這可能是由于更高的卷積層學(xué)到的特征更完整、更具有判別性。

表2 HMDB51 數(shù)據(jù)集上從時(shí)間流到空間流在不同次數(shù)和位置下融合的識(shí)別準(zhǔn)確率
從表2 還可以看出,在“單次融合、兩次融合、三次融合和四次融合”這些不同次數(shù)的融合中,“ conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1 ”兩次融合和“ conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”三次融合分別取得了最高識(shí)別準(zhǔn)確率和次高識(shí)別準(zhǔn)確率,識(shí)別率分別為69.7%和69.1%。而“conv2_1_relu 和 conv2_1&conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”四次融合的識(shí)別準(zhǔn)確率比三次融合和兩次融合分別低了1.5%和2.1%。造成這個(gè)差異可能的一個(gè)原因是“conv2_1_relu 和conv2_1”底層卷積層融合學(xué)到的更多是顏色、邊緣等淺層特征,并沒(méi)有學(xué)到高層具有的判別性語(yǔ)義特征,將底層卷積層和其他相對(duì)高層的卷積層融合一定程度上降低了識(shí)別的準(zhǔn)確率。
同樣地,為了探究不同融合方式對(duì)識(shí)別性能的具體影響,進(jìn)一步實(shí)驗(yàn)分析了在不同融合次數(shù)及位置情況下,將融合方式設(shè)置成從空間流到時(shí)間流的乘法融合,在HMDB51 訓(xùn)練集第一劃分下訓(xùn)練,在HMDB51 測(cè)試集上的識(shí)別準(zhǔn)確率,如表3 所示。從表3 的實(shí)驗(yàn)結(jié)果可以看出,采用“時(shí)間流到空間流”比采用“空間流到時(shí)間流”融合的效果更優(yōu)。在單次融合中,“conv2_1_relu 和conv2_1”采用“時(shí)間流到空間流”融合識(shí)別準(zhǔn)確率比采用“空間流到時(shí)間流”高1.3%。而“conv5_1_relu 和conv5_1”采用“時(shí)間流到空間流”比采用“空間流到時(shí)間流”高2.1%。在兩次融合、三次融合和四次融合中,采用“時(shí)間流到空間流”融合的識(shí)別準(zhǔn)確率比采用“空間流到時(shí)間流”融合的識(shí)別準(zhǔn)確率分別高7.6%、12.0%和15.6%。
從表3 還可以看出,在采用“空間流到時(shí)間流”的融合方式時(shí),“conv5_1_relu 和conv5_1”單次融合取得了最好的識(shí)別效果,識(shí)別準(zhǔn)確率達(dá)到65.0%。而隨著融合次數(shù)的增加,兩次融合、三次融合和四次融合在采用“空間流到時(shí)間流”融合時(shí)的識(shí)別準(zhǔn)確率卻呈逐漸下降趨勢(shì),識(shí)別率分別為62.1%、57.1%和52.0%。造成識(shí)別率下降的原因可能是:相較于空間流網(wǎng)絡(luò)來(lái)說(shuō),時(shí)間流網(wǎng)絡(luò)學(xué)習(xí)能力更強(qiáng),學(xué)到的特征更具判別性;而將學(xué)習(xí)特征能力相對(duì)不太強(qiáng)的空間流網(wǎng)絡(luò)特征注入時(shí)間流網(wǎng)絡(luò)融合,一定程度上會(huì)干擾原本時(shí)間流網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí),隨著融合次數(shù)的增多,將可能帶來(lái)負(fù)面影響,從而造成識(shí)別率逐漸降低。
比較表1 和表3 的結(jié)果也可以看出,采用時(shí)間流到空間流的融合方式,相較于單個(gè)空間流和時(shí)間流網(wǎng)絡(luò),性能都有了較大的提升。
綜合以上對(duì)比分析,可以得到如下結(jié)論。
1)單次融合中,在更高層位置融合所獲得的識(shí)別效果更優(yōu)。
2)融合次數(shù)為“conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1”的兩次融合所獲得的識(shí)別效果更優(yōu)。

表3 HMDB51 數(shù)據(jù)集上不同融合方式下的識(shí)別準(zhǔn)確率
3)采用時(shí)間流到空間流的乘法融合方式所獲得的識(shí)別效果更優(yōu)。
3.2.3不同策略下產(chǎn)生的多模型集成對(duì)識(shí)別性能的影響分析
為了分析生成多個(gè)模型的不同策略對(duì)集成性能的影響,本節(jié)實(shí)驗(yàn)比較了3 種不同的策略。
策略1固定融合方式為“時(shí)間流到空間流”,分別使用如表2 所示的“三次融合”和“兩次融合”2 種融合模式,分別在數(shù)據(jù)集HMDB51 的3個(gè)劃分上訓(xùn)練獲得6 個(gè)模型進(jìn)行集成。
策略2固定使用如表2 所示的“兩次融合”,分別使用“時(shí)間流到空間流”和“空間流到時(shí)間流”2 種融合方式,在數(shù)據(jù)集HMDB51 的3 個(gè)劃分上訓(xùn)練獲得6 個(gè)模型進(jìn)行集成。
策略3受“輪數(shù)集成”[28]的啟發(fā),固定融合方式為“時(shí)間流到空間流”以及使用“兩次融合”,在數(shù)據(jù)集HMDB51 的3 個(gè)劃分上訓(xùn)練,分別取每個(gè)劃分上訓(xùn)練得到的最后2 輪模型共獲得6 個(gè)模型進(jìn)行集成。
最后,分別對(duì)策略1、策略2 和策略3 生成的6 個(gè)模型結(jié)果進(jìn)行直接平均法和加權(quán)平均法集成以得到最終的識(shí)別結(jié)果。對(duì)于加權(quán)平均法中權(quán)值的設(shè)置,根據(jù)不同模型在驗(yàn)證集上各自單獨(dú)的準(zhǔn)確率而定,高準(zhǔn)確率的模型權(quán)值較高,低準(zhǔn)確率模型的權(quán)值較小。對(duì)于策略1 訓(xùn)練獲得的6 個(gè)模型,先將其按驗(yàn)證集上的準(zhǔn)確率進(jìn)行排序,然后將準(zhǔn)確率第一和第二的分為一組,準(zhǔn)確率第三和第四的分為一組,準(zhǔn)確率第五和第六的分為一組。這三組分別稱為高準(zhǔn)確率組、次高準(zhǔn)確率組和低準(zhǔn)確率組,權(quán)值分別為0.30、0.15 和0.05,策略2 和策略3 進(jìn)行相同操作。
表4 為不同策略下產(chǎn)生的多模型采用直接平均和加權(quán)平均集成后,在HMDB51 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。從表4 可以看出,采用加權(quán)平均法比采用直接平均法在策略1、策略2 和策略3 上分別高0.7%、2.0%和0.5%。由此可見(jiàn),采用加權(quán)平均法比采用直接平均法更有利于識(shí)別準(zhǔn)確率的提升,特別地,策略3 生成的6 個(gè)模型進(jìn)行加權(quán)平均集成后在HMDB51 數(shù)據(jù)集上獲得了69.3%的識(shí)別準(zhǔn)確率。

表4 不同策略下產(chǎn)生的多模型集成在HMDB51 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率
3.2.4和當(dāng)前其他動(dòng)作識(shí)別算法的性能比較
表5 為本文方法與當(dāng)前其他動(dòng)作識(shí)別算法在UCF101 和HMDB51 數(shù)據(jù)集上識(shí)別準(zhǔn)確率的對(duì)比。表5 中給出的本文方法的結(jié)果,是使用生成多個(gè)模型的策略3 以及加權(quán)平均的集成方法獲得的結(jié)果。本文方法在HMDB51 和UCF101 數(shù)據(jù)集上分別獲得了69.3%和92.4%的識(shí)別準(zhǔn)確率。從表5 可以看出,雖然在UCF101 數(shù)據(jù)集上本文方法較時(shí)空乘法網(wǎng)絡(luò)、時(shí)空金字塔網(wǎng)絡(luò)識(shí)別率要分別低1.8%和0.8%,但是相較于改進(jìn)稠密軌跡方法、三維殘差卷積網(wǎng)絡(luò)、雙流卷積神經(jīng)網(wǎng)絡(luò)及三流卷積神經(jīng)網(wǎng)絡(luò),本文方法分別獲得了6.0%、6.6%、4.4%和0.3%的準(zhǔn)確率的提升。相較于UCF101 數(shù)據(jù)集,本文方法在HMDB51 數(shù)據(jù)集上獲得了更高程度的性能提升,特別地,相比較于識(shí)別率較低的三維殘差卷積網(wǎng)絡(luò)和雙流卷積神經(jīng)網(wǎng)絡(luò),本文方法分別獲得了14.4%和9.9%的準(zhǔn)確率提升;相較于識(shí)別率較高的時(shí)空乘法網(wǎng)絡(luò)和三流卷積神經(jīng)網(wǎng)絡(luò),本文方法也分別獲得了0.4%和2.1%的準(zhǔn)確率提升。時(shí)空乘法網(wǎng)絡(luò)中的外觀流(即空間流)和運(yùn)動(dòng)流(即時(shí)間流)分別使用50 層和152 層的殘差網(wǎng)絡(luò),而本文方法中的空間流和時(shí)間流均使用50 層的壓縮激勵(lì)殘差網(wǎng)絡(luò)。對(duì)于單個(gè)空間流網(wǎng)絡(luò)來(lái)說(shuō),時(shí)空乘法網(wǎng)絡(luò)對(duì)于224 像素×224像素的輸入圖像單向傳播處理需要大約3.86 GFLO/s(GFLO/s 表示每秒10 億次浮點(diǎn)運(yùn)算)。相較于時(shí)空乘法網(wǎng)絡(luò),本文方法由于利用了壓縮激勵(lì)操作,故此需要大約3.87 GFLO/s,增加了大約0.26%。對(duì)于256 個(gè)圖像的訓(xùn)練批量,時(shí)空乘法網(wǎng)絡(luò)需要380 ms,本文方法需要大約418 ms。雖然本文方法中的空間流網(wǎng)絡(luò)總參數(shù)量較時(shí)空乘法網(wǎng)絡(luò)中的外觀流網(wǎng)絡(luò)需要的2.5 ×108的參數(shù)量增加了約10%,但是對(duì)于單個(gè)時(shí)間流網(wǎng)絡(luò)來(lái)說(shuō),時(shí)空乘法網(wǎng)絡(luò)運(yùn)動(dòng)流使用的152 層殘差網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是本文時(shí)間流網(wǎng)絡(luò)層數(shù)的3 倍,而且它的參數(shù)量也遠(yuǎn)多于本文時(shí)間流網(wǎng)絡(luò)的參數(shù)量。因此,綜合考慮空間流和時(shí)間流這兩方面,本文方法在總的參數(shù)量上少于時(shí)空乘法網(wǎng)絡(luò),并且在HMDB51 數(shù)據(jù)庫(kù)上本文方法獲得了更好的識(shí)別效果,在UCF101 數(shù)據(jù)庫(kù)上也達(dá)到了和時(shí)空乘法網(wǎng)絡(luò)相媲美的效果。最近提出的語(yǔ)義圖像網(wǎng)絡(luò)方法[29]將扭曲光流和語(yǔ)義光流輸入狀態(tài)細(xì)化的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)訓(xùn)練,通過(guò)對(duì)這2 種網(wǎng)絡(luò)的結(jié)果求均值得到最終預(yù)測(cè)結(jié)果。本文方法相較于語(yǔ)義圖像網(wǎng)絡(luò)方法在UCF101 和HMDB51 數(shù)據(jù)集上準(zhǔn)確率分別提升了0.3%和3.5%。綜合以上分析可知,本文方法在視頻動(dòng)作識(shí)別上具有一定的先進(jìn)性和優(yōu)越性。

表5 HMDB51 和UCF101 數(shù)據(jù)集上平均識(shí)別準(zhǔn)確率
本文提出了一種時(shí)空壓縮激勵(lì)殘差乘法網(wǎng)絡(luò)的動(dòng)作識(shí)別方法。將圖像領(lǐng)域的壓縮激勵(lì)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)相結(jié)合得到的壓縮激勵(lì)殘差網(wǎng)絡(luò),遷移到時(shí)空網(wǎng)絡(luò)的雙流動(dòng)作識(shí)別中。將恒等映射核作為時(shí)間濾波器注入到網(wǎng)絡(luò)模型中,以學(xué)習(xí)長(zhǎng)期時(shí)間依賴關(guān)系。并對(duì)空間壓縮激勵(lì)殘差網(wǎng)絡(luò)和時(shí)間壓縮激勵(lì)殘差網(wǎng)絡(luò)進(jìn)行特征相乘融合,以便更好地學(xué)習(xí)視頻時(shí)空特征。此外,通過(guò)3 種不同的策略生成多個(gè)模型,并在測(cè)試階段對(duì)這些模型結(jié)果進(jìn)行均值以及加權(quán)平均法集成以得到最終識(shí)別結(jié)果。在HMDB51 和UCF101 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率實(shí)驗(yàn)表明,本文方法對(duì)動(dòng)作識(shí)別具有良好的性能。本文網(wǎng)絡(luò)結(jié)構(gòu)采用經(jīng)典的以RGB 圖像和光流為輸入的雙流網(wǎng)絡(luò)結(jié)構(gòu),下一步的研究工作是探索新的輸入方式,以利用多流網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行動(dòng)作識(shí)別。