羅會蘭,童康
(江西理工大學信息工程學院,江西 贛州 341000)
視頻作為信息的主要載體之一,已越來越多地被人們共享。如何理解和分析這些海量涌現(xiàn)的視頻數(shù)據(jù)至關重要。視頻中的人體動作識別[1-4]一直廣受研究者的青睞,在日常生活安全、視頻信息檢索、公共視頻監(jiān)控、人機交互等領域都有廣泛的應用。當前視頻中的人體動作識別研究方法大致可以分為2 類:傳統(tǒng)手動特征提取方法和基于深度學習的方法。
傳統(tǒng)手動特征提取方法是將特征的提取與后續(xù)動作識別的訓練分成2 個獨立的過程,在獲得動作視頻的特征表示后輸入機器學習算法進行訓練,實現(xiàn)最終的分類與識別。比較有代表性的早期工作有Bobick 等[5-6]采用運動能量圖像和運動歷史圖像來解釋圖像序列中人的運動。Yilmaz 等[7]提出通過在時間軸上疊加目標的輪廓來構建時空卷,再根據(jù)時空卷的不同屬性來識別動作。該類方法需要將運動人體從背景中分割出來,所以在復雜動態(tài)背景情況下效果不好。Wang 等[8]提出了利用時空興趣點(STIP,space time interest point)來描述視頻,STIP特征是利用角點探測器獲得興趣點進行跟蹤并提取描述符信息。Klaser 等[9]通過采樣和跟蹤多個尺度上每幀的稠密點來提取稠密軌跡(DT,dense trajectory),并用DT 表示視頻。DT 特征是對視頻進行稠密采樣,捕捉運動軌跡,并沿著光流方向提取軌跡的方向梯度直方圖、光流直方圖和運動邊界直方圖這些描述符信息。Wang 等[10]提出了改進的稠密軌跡(IDT,improving dense trajectory),對人物進行了框定,消除了相機抖動及背景雜亂的影響?;贗DT特征的動作識別方法獲得的識別準確率一度達到世界領先水平。
不同于傳統(tǒng)手動特征提取方法,基于深度學習的方法旨在自動從視頻中學習到有效特征用于動作識別。為了便于處理視頻,Ji 等[11]提出了三維卷積網絡,并將其用于識別視頻中的人類動作。在此基礎上,Du 等[12]提出了深度三維卷積神經網絡,該方法直接利用深度三維卷積網絡中的三維卷積和三維池化對RGB 視頻進行處理,并利用大規(guī)模有監(jiān)督視頻數(shù)據(jù)集進行訓練獲得 C3D(convolutional 3D)模型。后來,Tran 等[13]將三維卷積和殘差網絡相結合,并在數(shù)據(jù)集Sports-1M[14]上訓練獲得Res3D(residual 3D)模型,它比C3D模型小一半且運行速度更快。為了更好地獲得時間信息和空間信息,Simonyan 等[15]提出了雙流卷積神經網絡進行動作識別,分別使用RGB 視頻幀和光流圖片作為輸入進行訓練,以構成空間流網絡和時間流網絡,并用這2 個網絡流的分類得分的平均值作為最終分類結果。在此基礎上,很多基于雙流卷積神經網絡的方法,包括時間分割網絡[16]、時空殘差網絡[17]、動作變換[18]、時空金字塔網絡[19]等被提出,并且獲得了不錯的識別率。針對雙流卷積神經網絡中時間流和空間流平均融合方法的不足,F(xiàn)eichtenhofer 等[20]提出了在卷積層之后進行融合的新方法,實現(xiàn)了從分類器級融合到特征級融合的轉變。隨后,F(xiàn)eichtenhofer 等[21]探索了許多連接外觀流和運動流的方法,并提出了乘法交互的跨流殘差連接,這種新的時空乘法網絡結構在視頻中的人體動作識別上獲得了良好的性能。
有些研究者試圖構造更多流的網絡來盡可能多地獲取到視頻中的動作特征信息。Wang 等[22]提出了全局時空三流卷積神經網絡結構,利用單幀圖像、10 幀光流堆疊以及運動堆疊的差分圖像作為卷積神經網絡的輸入,訓練獲得空間流、局部時間流和全局時間流特征。對這些學習到的特征先進行PCA(principal component analysis)-Whitening 操作,然后進行soft-VLAD(soft vector of locally aggregated descriptor)矢量編碼,最后使用支持向量機分類。Bilen 等[23]提出了四流網絡結構,分別應用排序池化和近似排序池化對RGB 圖像和光流進行編碼得到動態(tài)圖像,并將其輸入卷積神經網絡訓練得到RGB 動態(tài)圖像流網絡和動態(tài)光流網絡,結合原始RGB 流網絡和光流網絡形成四流網絡結構,最后用四流網絡輸出得分的均值來預測動作類,獲得了不錯的識別效果。
本文基于雙流卷積神經網絡結構,提出了一種用于動作識別的時空壓縮激勵殘差乘法網絡。受殘差網絡模型[24]和壓縮激勵(SZ,squeeze and excitation)網絡模型[25]的啟發(fā),本文將壓縮激勵塊和殘差網絡模型結合的壓縮激勵殘差網絡模型用于空間流和時間流。受文獻[21]中的時空乘法交互以及恒等映射濾波器的啟發(fā),本文對空間壓縮激勵殘差網絡模型和時間壓縮激勵殘差網絡模型采用特征相乘融合,以更好地學習時空特征;同時,將恒等映射核作為時間濾波器注入網絡模型中,以此來學習長期時間依賴關系。鑒于單個模型獲得性能的局限性以及受集成學習思想的啟發(fā),本文使用3 種不同的策略生成多個模型,并對它們進行均值及加權平均集成方法來獲得最終的識別結果。
本文的貢獻介紹如下。1)將圖像識別領域的殘差網絡和壓縮激勵網絡結合的壓縮激勵殘差網絡遷移到視頻動作識別中;2)以RGB 和光流圖片為輸入,訓練獲得雙流卷積神經網絡,同時注入時間濾波器對空間流和時間流進行特征級別的乘法融合;3)采用集成學習思想,將不同策略獲得的多個模型進行直接平均和加權平均集成;4)進行了一系列比較分析實驗,結果表明本文通過特征級別乘法融合以及多模型集成獲得了很好的識別效果。
本文動作識別的整體框架結構如圖1 所示。首先,將壓縮激勵塊和殘差網絡結合的壓縮激勵殘差網絡模型作為網絡的基礎模型,同時注入時間濾波。然后,用RGB 視頻幀和光流數(shù)據(jù)分別進行訓練,獲得空間流網絡模型和時間流網絡模型;在此基礎上,將空間流網絡訓練獲得的空間壓縮激勵殘差網絡模型與時間流網絡訓練獲得的時間壓縮激勵殘差網絡模型進行乘法融合并再次訓練。最后,利用不同策略訓練獲得多個時空壓縮激勵殘差乘法網絡模型,通過直接平均和加權平均對這些模型進行集成以獲得最終的識別結果。
壓縮激勵塊的原理如圖2 所示。任何一個卷積層的輸出都可以通過壓縮激勵塊實現(xiàn)跨通道全局信息依賴關系的學習,每個通道得到一個尺度系數(shù)。由圖2 可知,對于一個輸出維度為W×H×C的卷積層,首先通過全局平均池化獲得維度為1 × 1×C的輸出,得到每個特征通道的全局信息;然后通過2 個全連接層來學習不同特征通道間的依賴關系,2個全連接層后面分別采用了Re LU 和Sigmoid 激活函數(shù)對全連接層的輸出激活;最后將壓縮激勵塊得到的輸出1 × 1×C和最初卷積層的輸出W×H×C相乘,即每個特征通道乘以一個學習得到的尺度系數(shù)。一個輸出維度為W×H×C的卷積層通過壓縮激勵塊操作之后,特征維度沒有發(fā)生改變,但充分學習了C個通道間的全局依賴關系。
殘差網絡對學習深度表征十分有效,而壓縮激勵(SE,squeeze-and-excitation)塊具有學習跨通道全局依賴的能力,它可以嵌入任何的卷積層后,所以本文將壓縮激勵塊集成到殘差網絡中構建壓縮激勵殘差網絡。圖3 為本文構建的一個50 層的壓縮激勵殘差網絡結構,圖中省略了跳躍連接。
一維卷積可以有效捕捉時間依賴性。為了提供更大間隔的時間支持,本文使用一維時間卷積,它結合了初始化為恒等映射的特征空間變換,可以將時間濾波加入殘差層中,從而產生局部影響,也可以加入跳躍連接層,產生全局影響。
第l層后的時間濾波操作如式(1)所示,跨越Cl個特征通道實現(xiàn)時間濾波。

圖1 動作識別整體框架結構

圖2 壓縮激勵塊的原理

圖3 壓縮激勵殘差網絡結構

其中,xl+1和xl分別表示第l+1層和第l層;*為卷積操作;偏置bl初始化為0;是跨越時間為t=1,…,T的時間濾波器權值,它由特征通道間堆疊的恒等映射來初始化。時間濾波器權值計算式如式(2)所示。

其中,?表示張量外積,f表示一個長度為T的一維時間濾波器。
在時間濾波的基礎上,同時引入全局時間池化,放置于最后一個卷積層,用于捕獲全局時間信息,在時間范圍1≤t≤T內,給定x(i,j,t,c),全局最大時間池化計算式如式(3)所示。

為了更好地學習時空流網絡特征,本文采用特征級別的融合方法,即對空間壓縮激勵殘差網絡和時間壓縮激勵殘差網絡進行乘法交互。2 個壓縮激勵殘差塊雙向連接(時間流到空間流、空間流到時間流)乘法融合如圖4 所示。將時間流壓縮激勵殘差塊的輸出與空間流對應的壓縮激勵殘差塊輸出進行元素級別的乘法,這樣通過空間流殘差單元的信息就被時間信號所調整。類似地,將空間流壓縮激勵殘差塊的輸出與時間流的壓縮激勵殘差塊的輸出進行乘法融合,時間流的信息被空間信號所調整。通過時間流與空間流的乘法融合,學習到特征級別的時空信息,有助于區(qū)分外觀上相似的動作。
本文提出的注入時間濾波器的壓縮激勵殘差乘法網絡結構如圖5 所示。其中,⊙表示乘法融合交互點,inject 表示注入時間濾波器。在圖5 所示的結構中,空間流與時間流的乘法融合交互分別在conv2_x、conv3_x、conv4_x、conv5_x中的第一個壓縮激勵殘差塊后進行,inject 除了在conv5_x的最后一個壓縮激勵殘差塊后進行,還分別在conv2_x、conv3_x、conv4_x、conv5_x的第二個壓縮激勵殘差塊中的3 ×3 卷積后進行。

圖4 乘法融合示意
由于空間流與時間流的乘法融合方式(空間流到時間流、時間流到空間流)、次數(shù)和位置可以變化,以及受集成學習思想的啟發(fā),對本文所提的注入時間濾波器的壓縮激勵殘差乘法網絡架構,采用不同的乘法融合策略,在不同的訓練數(shù)據(jù)劃分子集上學習,從而可以獲得多個動作分類模型,并在測試階段對這些分類模型結果進行集成以進一步提升識別效果。

圖5 注入時間濾波器的壓縮激勵殘差乘法網絡結構
針對不同策略生成的多個模型,本文采用直接平均法和加權平均法進行集成。直接平均法就是對不同模型產生的類別置信度求均值得到最終的測試結果。而加權平均法則是在直接平均方法基礎上,通過加入權重來調節(jié)不同模型輸出間的重要程度。假設共有N個模型待集成,對測試樣本D,其測試結果為N個M維(M為數(shù)據(jù)的標記空間大小)向量q1,q2,…,qN。直接平均法和加權平均法對應的計算式分別如式(4)和式(5)所示。

其中,wi對應第i個模型的權重,wi≥0且
本文實驗采用Matlab 2017a 的仿真軟件以及MatConvNet 的深度學習工具包。實驗環(huán)境配置如下:操作系統(tǒng)為64 位的Windows10,CPU 為Intel(R)Xeon(R)CPU E5-2690 v4 @ 2.60 GHz;內存為512 GB,顯卡為16 GB 的NVIDIA Tesla P100-PCIE。
UCF101[26]數(shù)據(jù)集是最流行的動作識別數(shù)據(jù)集之一,包含13 320 個來自101 個動作類別的視頻片斷。其中,每一個類別至少有100 個視頻片段,每一個片段持續(xù)3~10 s。該數(shù)據(jù)集的101 個類別可以分為五大類,包括體育運動、樂器演奏、人與人之間的交互、身體運動、人與對象的交互。由于該數(shù)據(jù)集來源于現(xiàn)實環(huán)境,包含雜亂背景、相機抖動、遮擋、不同光照條件等各種因素的影響,故該數(shù)據(jù)集具有一定的挑戰(zhàn)性。
HMDB51[27]數(shù)據(jù)集是一個大而真實的視頻集合,包含51 個動作類別,涵蓋了6 766 個視頻片斷。這些視頻片斷主要來源于電影,只有一小部分來自公共數(shù)據(jù)庫,并且每一個片斷都包含一個人類活動。該數(shù)據(jù)集的行為類別包括普通面部動作、操縱對象面部動作、一般身體運動、與對象交互運動、與人交互運動共5 種類型。HMDB51 數(shù)據(jù)集來源不同,并伴有遮擋、相機移動、復雜背景、光照條件變化等諸多因素的影響,相較于UCF101 數(shù)據(jù)集更具挑戰(zhàn)性。
本文采用交叉驗證方法進行訓練,UCF101數(shù)據(jù)集的訓練集的3 種不同劃分分別為split1、split2和split3。每種數(shù)據(jù)劃分將全部訓練視頻數(shù)據(jù)按7:3 的比例分為訓練集和驗證集。具體步驟如下。每個動作類共有25 組訓練視頻,其中split1將前面7 組視頻作為驗證集,剩下的18 組視頻作為訓練集;split2將第8 組到第14 組視頻作為驗證集,其余的作為訓練集;split3則將第15 組到第21 組視頻作為驗證集,剩下的視頻作為訓練集。HMDB51 數(shù)據(jù)集的3 種不同劃分和UCF101數(shù)據(jù)集類似。除了從視頻中提取RGB 視頻幀外,還預先計算光流并以JPEG 形式存儲。本文采用文獻[21]中使用的UCF101、HMDB51 的視頻幀和光流數(shù)據(jù)。
本文使用50 層的壓縮激勵殘差網絡作為基礎模型,并將其分別用于空間流網絡和時間流網絡??臻g流網絡和時間流網絡的訓練是分開進行的,并且都使用動量為0.9 的隨機梯度下降。時間流網絡使用10 幀堆疊的光流幀作為輸入,通過對光流的中間和邊緣的隨機裁剪,將圖片大小調整為224 像素×224 像素。時間流網絡訓練的批量處理大小為128 張圖片,初始學習率為0.01,每次減小到原來的,直至減小到初始值的??臻g流網絡以大小為224 像素×224 像素的RGB 圖片作為輸入,批量處理大小為256 張圖片,學習率分別為0.01、0.001、0.000 1。
3.2.1單流網絡性能分析
本節(jié)評估訓練獲得的空間壓縮激勵殘差網絡模型和時間壓縮激勵殘差網絡模型在UCF101 和HMDB51 數(shù)據(jù)集上的識別效果,以及它們在不同劃分下訓練后獲得測試性能的差異。表1 給出了空間流網絡和時間流網絡在UCF101 和HMDB51 數(shù)據(jù)集上的識別準確率。從表1 空間流和時間流網絡的對比可以看出,時間流網絡在HMDB51 和UCF101數(shù)據(jù)集上的識別準確率都要高于空間流網絡。在UCF101 數(shù)據(jù)集上,時間流網絡識別準確率比空間流網絡識別準確率高2.8%;在HMDB51 數(shù)據(jù)集上,時間流網絡比空間流網絡高 10.9%。數(shù)據(jù)集HMDB51 受相機抖動、復雜背景等因素的影響要大于數(shù)據(jù)集UCF101,并且數(shù)據(jù)集HMDB51 上同一動作具有大的類內散度以及不同動作具有小的類間散度的程度要大于數(shù)據(jù)集UCF101。時間流網絡能夠更好地對這兩者的影響進行補償,這可能就是時間流網絡在HMDB51 數(shù)據(jù)集上較空間流網絡提升比在UCF101 數(shù)據(jù)集上高的原因。此外,HMDB51和UCF101 數(shù)據(jù)集在不同劃分下訓練后獲得的測試識別準確率也有差異,在HMDB51 數(shù)據(jù)集上,時間流網絡和空間流網絡均在split2劃分下訓練后取得最高的測試識別準確率;而在UCF101 數(shù)據(jù)集上,空間流網絡在split1劃分下訓練后的測試識別準確率較高,時間流網絡卻在split3劃分下訓練后的測試識別準確率最高。這也說明訓練數(shù)據(jù)對識別性能有較大影響。

表1 HMDB51 和UCF101 數(shù)據(jù)集上識別準確率
3.2.2空間流與時間流乘法融合方式、次數(shù)及位置對識別性能的影響分析
本節(jié)實驗分析了使用相同乘法融合方式情況下,即采用從時間流到空間流的乘法融合方式,融合次數(shù)和位置對識別性能的影響,實驗結果如表2所示,結果報告了在HMDB51 數(shù)據(jù)集split1劃分下訓練后獲得的測試識別準確率。其中“conv2_1_relu和conv2_1”表示從時間流的conv2_1 層連接到空間流的conv2_1_relu 層進行乘法融合,其他依次類推。
從表 2 可以看出,對于單次融合來說,“conv5_1_relu 和conv5_1”融合獲得了67.1%的識別準確率,它比“conv2_1_relu 和 conv2_1”“conv3_1_relu 和 conv3_1”“conv4_1_relu 和conv4_1”融合分別高了1.2%、1.0%和0.6%。由此可見,從時間流 conv5_1 層連接到空間流conv5_1_relu 層融合效果更好,這可能是由于更高的卷積層學到的特征更完整、更具有判別性。

表2 HMDB51 數(shù)據(jù)集上從時間流到空間流在不同次數(shù)和位置下融合的識別準確率
從表2 還可以看出,在“單次融合、兩次融合、三次融合和四次融合”這些不同次數(shù)的融合中,“ conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1 ”兩次融合和“ conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”三次融合分別取得了最高識別準確率和次高識別準確率,識別率分別為69.7%和69.1%。而“conv2_1_relu 和 conv2_1&conv3_1_relu 和conv3_1&conv4_1_relu 和conv4_1&conv5_1_relu 和conv5_1”四次融合的識別準確率比三次融合和兩次融合分別低了1.5%和2.1%。造成這個差異可能的一個原因是“conv2_1_relu 和conv2_1”底層卷積層融合學到的更多是顏色、邊緣等淺層特征,并沒有學到高層具有的判別性語義特征,將底層卷積層和其他相對高層的卷積層融合一定程度上降低了識別的準確率。
同樣地,為了探究不同融合方式對識別性能的具體影響,進一步實驗分析了在不同融合次數(shù)及位置情況下,將融合方式設置成從空間流到時間流的乘法融合,在HMDB51 訓練集第一劃分下訓練,在HMDB51 測試集上的識別準確率,如表3 所示。從表3 的實驗結果可以看出,采用“時間流到空間流”比采用“空間流到時間流”融合的效果更優(yōu)。在單次融合中,“conv2_1_relu 和conv2_1”采用“時間流到空間流”融合識別準確率比采用“空間流到時間流”高1.3%。而“conv5_1_relu 和conv5_1”采用“時間流到空間流”比采用“空間流到時間流”高2.1%。在兩次融合、三次融合和四次融合中,采用“時間流到空間流”融合的識別準確率比采用“空間流到時間流”融合的識別準確率分別高7.6%、12.0%和15.6%。
從表3 還可以看出,在采用“空間流到時間流”的融合方式時,“conv5_1_relu 和conv5_1”單次融合取得了最好的識別效果,識別準確率達到65.0%。而隨著融合次數(shù)的增加,兩次融合、三次融合和四次融合在采用“空間流到時間流”融合時的識別準確率卻呈逐漸下降趨勢,識別率分別為62.1%、57.1%和52.0%。造成識別率下降的原因可能是:相較于空間流網絡來說,時間流網絡學習能力更強,學到的特征更具判別性;而將學習特征能力相對不太強的空間流網絡特征注入時間流網絡融合,一定程度上會干擾原本時間流網絡對特征的學習,隨著融合次數(shù)的增多,將可能帶來負面影響,從而造成識別率逐漸降低。
比較表1 和表3 的結果也可以看出,采用時間流到空間流的融合方式,相較于單個空間流和時間流網絡,性能都有了較大的提升。
綜合以上對比分析,可以得到如下結論。
1)單次融合中,在更高層位置融合所獲得的識別效果更優(yōu)。
2)融合次數(shù)為“conv4_1_relu 和 conv4_1&conv5_1_relu 和conv5_1”的兩次融合所獲得的識別效果更優(yōu)。

表3 HMDB51 數(shù)據(jù)集上不同融合方式下的識別準確率
3)采用時間流到空間流的乘法融合方式所獲得的識別效果更優(yōu)。
3.2.3不同策略下產生的多模型集成對識別性能的影響分析
為了分析生成多個模型的不同策略對集成性能的影響,本節(jié)實驗比較了3 種不同的策略。
策略1固定融合方式為“時間流到空間流”,分別使用如表2 所示的“三次融合”和“兩次融合”2 種融合模式,分別在數(shù)據(jù)集HMDB51 的3個劃分上訓練獲得6 個模型進行集成。
策略2固定使用如表2 所示的“兩次融合”,分別使用“時間流到空間流”和“空間流到時間流”2 種融合方式,在數(shù)據(jù)集HMDB51 的3 個劃分上訓練獲得6 個模型進行集成。
策略3受“輪數(shù)集成”[28]的啟發(fā),固定融合方式為“時間流到空間流”以及使用“兩次融合”,在數(shù)據(jù)集HMDB51 的3 個劃分上訓練,分別取每個劃分上訓練得到的最后2 輪模型共獲得6 個模型進行集成。
最后,分別對策略1、策略2 和策略3 生成的6 個模型結果進行直接平均法和加權平均法集成以得到最終的識別結果。對于加權平均法中權值的設置,根據(jù)不同模型在驗證集上各自單獨的準確率而定,高準確率的模型權值較高,低準確率模型的權值較小。對于策略1 訓練獲得的6 個模型,先將其按驗證集上的準確率進行排序,然后將準確率第一和第二的分為一組,準確率第三和第四的分為一組,準確率第五和第六的分為一組。這三組分別稱為高準確率組、次高準確率組和低準確率組,權值分別為0.30、0.15 和0.05,策略2 和策略3 進行相同操作。
表4 為不同策略下產生的多模型采用直接平均和加權平均集成后,在HMDB51 數(shù)據(jù)集上的識別準確率。從表4 可以看出,采用加權平均法比采用直接平均法在策略1、策略2 和策略3 上分別高0.7%、2.0%和0.5%。由此可見,采用加權平均法比采用直接平均法更有利于識別準確率的提升,特別地,策略3 生成的6 個模型進行加權平均集成后在HMDB51 數(shù)據(jù)集上獲得了69.3%的識別準確率。

表4 不同策略下產生的多模型集成在HMDB51 數(shù)據(jù)集上的識別準確率
3.2.4和當前其他動作識別算法的性能比較
表5 為本文方法與當前其他動作識別算法在UCF101 和HMDB51 數(shù)據(jù)集上識別準確率的對比。表5 中給出的本文方法的結果,是使用生成多個模型的策略3 以及加權平均的集成方法獲得的結果。本文方法在HMDB51 和UCF101 數(shù)據(jù)集上分別獲得了69.3%和92.4%的識別準確率。從表5 可以看出,雖然在UCF101 數(shù)據(jù)集上本文方法較時空乘法網絡、時空金字塔網絡識別率要分別低1.8%和0.8%,但是相較于改進稠密軌跡方法、三維殘差卷積網絡、雙流卷積神經網絡及三流卷積神經網絡,本文方法分別獲得了6.0%、6.6%、4.4%和0.3%的準確率的提升。相較于UCF101 數(shù)據(jù)集,本文方法在HMDB51 數(shù)據(jù)集上獲得了更高程度的性能提升,特別地,相比較于識別率較低的三維殘差卷積網絡和雙流卷積神經網絡,本文方法分別獲得了14.4%和9.9%的準確率提升;相較于識別率較高的時空乘法網絡和三流卷積神經網絡,本文方法也分別獲得了0.4%和2.1%的準確率提升。時空乘法網絡中的外觀流(即空間流)和運動流(即時間流)分別使用50 層和152 層的殘差網絡,而本文方法中的空間流和時間流均使用50 層的壓縮激勵殘差網絡。對于單個空間流網絡來說,時空乘法網絡對于224 像素×224像素的輸入圖像單向傳播處理需要大約3.86 GFLO/s(GFLO/s 表示每秒10 億次浮點運算)。相較于時空乘法網絡,本文方法由于利用了壓縮激勵操作,故此需要大約3.87 GFLO/s,增加了大約0.26%。對于256 個圖像的訓練批量,時空乘法網絡需要380 ms,本文方法需要大約418 ms。雖然本文方法中的空間流網絡總參數(shù)量較時空乘法網絡中的外觀流網絡需要的2.5 ×108的參數(shù)量增加了約10%,但是對于單個時間流網絡來說,時空乘法網絡運動流使用的152 層殘差網絡的網絡層數(shù)是本文時間流網絡層數(shù)的3 倍,而且它的參數(shù)量也遠多于本文時間流網絡的參數(shù)量。因此,綜合考慮空間流和時間流這兩方面,本文方法在總的參數(shù)量上少于時空乘法網絡,并且在HMDB51 數(shù)據(jù)庫上本文方法獲得了更好的識別效果,在UCF101 數(shù)據(jù)庫上也達到了和時空乘法網絡相媲美的效果。最近提出的語義圖像網絡方法[29]將扭曲光流和語義光流輸入狀態(tài)細化的長短時記憶網絡訓練,通過對這2 種網絡的結果求均值得到最終預測結果。本文方法相較于語義圖像網絡方法在UCF101 和HMDB51 數(shù)據(jù)集上準確率分別提升了0.3%和3.5%。綜合以上分析可知,本文方法在視頻動作識別上具有一定的先進性和優(yōu)越性。

表5 HMDB51 和UCF101 數(shù)據(jù)集上平均識別準確率
本文提出了一種時空壓縮激勵殘差乘法網絡的動作識別方法。將圖像領域的壓縮激勵網絡和殘差網絡相結合得到的壓縮激勵殘差網絡,遷移到時空網絡的雙流動作識別中。將恒等映射核作為時間濾波器注入到網絡模型中,以學習長期時間依賴關系。并對空間壓縮激勵殘差網絡和時間壓縮激勵殘差網絡進行特征相乘融合,以便更好地學習視頻時空特征。此外,通過3 種不同的策略生成多個模型,并在測試階段對這些模型結果進行均值以及加權平均法集成以得到最終識別結果。在HMDB51 和UCF101 數(shù)據(jù)集上的識別準確率實驗表明,本文方法對動作識別具有良好的性能。本文網絡結構采用經典的以RGB 圖像和光流為輸入的雙流網絡結構,下一步的研究工作是探索新的輸入方式,以利用多流網絡結構進行動作識別。