錢慧芳,易劍平,付云虎
西安工程大學(xué) 電子信息學(xué)院,西安710048
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和視頻獲取設(shè)備的普及,視頻已成為信息的主要載體。視頻數(shù)據(jù)的數(shù)量呈爆炸式增長(zhǎng),如何分析和理解視頻的內(nèi)容顯得越來越重要。人體動(dòng)作識(shí)別作為視頻理解(video understanding)的重要課題之一,已經(jīng)成為了計(jì)算機(jī)視覺領(lǐng)域研究的焦點(diǎn)。動(dòng)作識(shí)別通過對(duì)預(yù)先分割好的時(shí)域序列進(jìn)行時(shí)空信息建模,從而學(xué)習(xí)視頻中所包含的表象(appearance)和運(yùn)動(dòng)(motion)信息,以此來建立視頻內(nèi)容與動(dòng)作類別之間的映射關(guān)系,使得計(jì)算機(jī)能夠有效地勝任視頻理解的任務(wù)。動(dòng)作識(shí)別在運(yùn)動(dòng)分析、智能監(jiān)控、人機(jī)交互、視頻信息檢索等方面都具有廣泛的應(yīng)用前景。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]在圖像分類任務(wù)中的成功應(yīng)用為視頻分類任務(wù)提供了大量的參考。然而,相比于圖像分類任務(wù)而言,視頻中的動(dòng)作識(shí)別多出一個(gè)待處理的時(shí)序維度。因此,如何捕獲視頻幀之間所包含時(shí)序信息是動(dòng)作識(shí)別的重點(diǎn)。本任務(wù)主要的難點(diǎn)在于:
(1)不確定因素
動(dòng)作數(shù)據(jù)集中往往存在光照不均、背景變化、相機(jī)抖動(dòng)等問題,在人-物交互的這一類型的視頻中,會(huì)存在物體形變的現(xiàn)象,在人-人交互這一類視頻中,還會(huì)存在目標(biāo)遮擋的現(xiàn)象。這些不確定因素的干擾,會(huì)嚴(yán)重影響模型的性能,這也是導(dǎo)致動(dòng)作識(shí)別未能實(shí)用化的重要原因。
(2)動(dòng)作邊界的不確定性
針對(duì)未修剪的視頻而言,一段視頻可能包含多個(gè)動(dòng)作,一些動(dòng)作持續(xù)時(shí)間較短,而有些動(dòng)作持續(xù)時(shí)間較長(zhǎng),且速度變化快,難以在時(shí)序上對(duì)動(dòng)作的邊界進(jìn)行精準(zhǔn)的定位,模糊的動(dòng)作邊界將很大程度上影響識(shí)別的精度。
(3)動(dòng)作類間差距較小
在細(xì)粒度視頻動(dòng)作數(shù)據(jù)集上,會(huì)存在動(dòng)作類間差異性小的問題,即不同類別的動(dòng)作之間只存在細(xì)微的差距。然而,要精確地區(qū)分這些動(dòng)作往往是比較困難的,要求模型能夠編碼更深層次的時(shí)間特征,這對(duì)于現(xiàn)有的模型而言,極具挑戰(zhàn)性。
目前,動(dòng)作識(shí)別方法主要包括兩類:基于傳統(tǒng)手工特征的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的動(dòng)作識(shí)別方法依據(jù)特征的提取方式不同可以分為基于人體關(guān)節(jié)點(diǎn)[2-5]、基于時(shí)空興趣點(diǎn)[6-8]和基于密集軌跡[9-10]的特征提取方法。這類方法需要將手工提取到的特征編碼成高維的特征向量,然后利用特征向量訓(xùn)練分類器以進(jìn)行動(dòng)作識(shí)別。然而,在特征向量的提取和編碼的過程中,往往會(huì)導(dǎo)致較高的時(shí)空復(fù)雜度,這將嚴(yán)重影響到算法的性能。隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中的成功應(yīng)用,其精度已經(jīng)明顯超過了傳統(tǒng)手工方法,動(dòng)作識(shí)別也從傳統(tǒng)手工特征的方法轉(zhuǎn)移到基于深度學(xué)習(xí)的方法。
本文從2D CNN、3D CNN、時(shí)空分解網(wǎng)絡(luò)三個(gè)主流基線介紹了動(dòng)作識(shí)別領(lǐng)域的最新成果;全面歸納了動(dòng)作識(shí)別領(lǐng)域常用的數(shù)據(jù)集,并細(xì)致地探討了各種數(shù)據(jù)集的特點(diǎn)、在動(dòng)作識(shí)別中的應(yīng)用以及改進(jìn)的建議;著重分析了預(yù)訓(xùn)練技術(shù)對(duì)模型性能的影響;從動(dòng)作識(shí)別最新的研究動(dòng)態(tài)出發(fā),探討了其未來的發(fā)展方向。
得益于大規(guī)模數(shù)據(jù)集和更強(qiáng)大模型的提出,基于深度學(xué)習(xí)的方法已經(jīng)成為動(dòng)作識(shí)別任務(wù)的主流。如圖1所示,基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法以一種端到端的形式,通過網(wǎng)絡(luò)自主地學(xué)習(xí)視頻中的行為表征來完成分類。目前,根據(jù)主干網(wǎng)絡(luò)的特點(diǎn)而言,基于深度學(xué)習(xí)的動(dòng)作識(shí)別網(wǎng)絡(luò)主要包括:(1)2D CNN;(2)3D CNN;(3)時(shí)空分解網(wǎng)絡(luò)。

Fig.1 Action recognition method based on deep learning圖1 基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法
基于2D CNN 的動(dòng)作識(shí)別方法主要經(jīng)歷了兩個(gè)研究階段:第一階段,在雙流網(wǎng)絡(luò)的基礎(chǔ)上展開研究;第二階段,在2D CNN的基礎(chǔ)上,通過有效地構(gòu)建時(shí)間特征提取模塊以捕獲時(shí)間的上下文信息,從而避免光流的輸入。
第一階段:針對(duì)單流的2D CNN無法建模時(shí)間信息的問題,Simonyan等[11]提出了雙流網(wǎng)絡(luò),網(wǎng)絡(luò)的架構(gòu)如圖2所示。雙流網(wǎng)絡(luò)由空間流網(wǎng)絡(luò)(spatial stream)和時(shí)間流(temporal stream)網(wǎng)絡(luò)組成。空間流網(wǎng)絡(luò)以單幀RGB圖像作為輸入,用于建模外觀特征;時(shí)間流網(wǎng)絡(luò)以堆疊的光流圖像作為輸入,用于建模運(yùn)動(dòng)特征。訓(xùn)練時(shí),空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)單獨(dú)地訓(xùn)練。測(cè)試時(shí),通過平均所有采樣的視頻幀匯總兩個(gè)流的softmax得分,從而得到視頻級(jí)預(yù)測(cè)結(jié)果。
傳統(tǒng)雙流網(wǎng)絡(luò)的缺點(diǎn)在于:(1)由于光流僅表示相鄰幀之間的運(yùn)動(dòng)信息,因此雙流網(wǎng)絡(luò)對(duì)時(shí)間上下文的訪問十分有限,這不利于建模一些時(shí)間跨度較大的動(dòng)作;(2)雙流網(wǎng)絡(luò)只是簡(jiǎn)單地融合了空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)分類器的預(yù)測(cè),當(dāng)視頻中的場(chǎng)景或者運(yùn)動(dòng)極其相似時(shí),容易由某一個(gè)網(wǎng)絡(luò)的誤判而導(dǎo)致整個(gè)視頻級(jí)預(yù)測(cè)的錯(cuò)誤。
為了解決上述(1)中雙流網(wǎng)絡(luò)對(duì)于長(zhǎng)時(shí)間結(jié)構(gòu)建模能力較弱的問題,Ng 等[12]提出采用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[13]聚合視頻幀序列的CNN 底層輸出。相比于傳統(tǒng)的雙流網(wǎng)絡(luò),LSTM 能夠更加有效地表達(dá)視頻幀在時(shí)間序列上的依賴關(guān)系,從而實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)間序列進(jìn)行建模。然而,其對(duì)于視頻幀之間底層的時(shí)間信息建模是不夠的,會(huì)造成時(shí)序信息的丟失,并且LSTM的引入會(huì)導(dǎo)致大量的計(jì)算開銷,不利于網(wǎng)絡(luò)后期的優(yōu)化。因此,Wang等[14]提出了時(shí)域分段網(wǎng)絡(luò)(temporal segment networks,TSN),網(wǎng)絡(luò)架構(gòu)如圖3 所示。TSN 在雙流網(wǎng)絡(luò)的基礎(chǔ)上引入了稀疏采樣策略,首先將輸入視頻分割成若干片段,然后從各片段中隨機(jī)地采樣一幀,各幀獨(dú)立地通過CNN提取時(shí)空特征。利用段共識(shí)函數(shù)將各個(gè)片段的輸出進(jìn)行組合,以獲得片段之間有關(guān)類別假設(shè)的共識(shí)。最后,融合空間流和時(shí)間流的類別分?jǐn)?shù),以得到視頻級(jí)預(yù)測(cè)的結(jié)果。

Fig.2 Architecture of two-stream圖2 雙流架構(gòu)

Fig.3 Architecture of temporal segment networks圖3 TSN的網(wǎng)絡(luò)架構(gòu)
TSN 的稀疏采樣策略確保輸入幀覆蓋了視頻中的各個(gè)時(shí)間段,這種視頻級(jí)監(jiān)督的方法使得網(wǎng)絡(luò)具備提取全局時(shí)空特征的能力,有效地解決了傳統(tǒng)的雙流網(wǎng)絡(luò)缺乏長(zhǎng)時(shí)間結(jié)構(gòu)建模能力的問題。然而,隨機(jī)采樣的片段并不是都包含與動(dòng)作識(shí)別有關(guān)的信息,因此Lan等[15]在TSN的基礎(chǔ)上提出了一種自學(xué)習(xí)加權(quán)融合的方法,每個(gè)片段的權(quán)重由網(wǎng)絡(luò)自主學(xué)習(xí)得到,有效地解決了TSN的權(quán)重分配不合理的問題。
為了解決上述(2)中分類器級(jí)融合所導(dǎo)致的誤分類問題,有兩種常見的改進(jìn)方案:①改變雙流網(wǎng)絡(luò)的融合方式;②改變雙流網(wǎng)絡(luò)的特征編碼方式,將幀級(jí)特征編碼成視頻級(jí)特征。
針對(duì)方案①,F(xiàn)eichtenhofer 等[16]提出采用卷積網(wǎng)絡(luò)融合雙流特征的方法,通過CNN 學(xué)習(xí)空間線索和時(shí)間線索的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了分類器級(jí)融合到特征級(jí)融合的轉(zhuǎn)變。Wang等[17]提出采用時(shí)空金字塔(spatiotemporal pyramid network)網(wǎng)絡(luò)來融合時(shí)空特征。時(shí)空金字塔結(jié)構(gòu)支持長(zhǎng)期的時(shí)間融合和視覺注意力機(jī)制[18],并采用時(shí)空緊湊雙線性(spatiotemporal compact bilinear,STCB)模塊來實(shí)現(xiàn)時(shí)空信息的交互,在盡可能地保留時(shí)空信息的同時(shí),最大限度地實(shí)現(xiàn)空間和時(shí)間信息的交互。
針對(duì)方案②,Diba 等[19]采用時(shí)間線性編碼(temporal linear encoding,TLE)的方式聚合時(shí)空特征。TLE從不同幀或片段的長(zhǎng)時(shí)間結(jié)構(gòu)中捕獲時(shí)空信息,將視頻編碼成一個(gè)緊湊的視頻級(jí)特征表示。此外,Zhu 等[20]提出一種端到端的深度金字塔池(deep networks with temporal pyramid pooling,DTPP)網(wǎng)絡(luò)。DTPP 采用多尺度池將由空間和時(shí)間線索組成的幀級(jí)特征以金字塔的形式編碼成固定大小的視頻級(jí)表示,使得該模型能夠捕獲視頻中全局性、多尺度的時(shí)間結(jié)構(gòu)。相比于傳統(tǒng)的雙流網(wǎng)絡(luò),TLE和DTPP旨在學(xué)習(xí)視頻級(jí)特征表示,而不是幀級(jí)特征,以期望解決雙流網(wǎng)絡(luò)的部分觀察訓(xùn)練所導(dǎo)致的誤分類問題。
上述網(wǎng)絡(luò)都是建立在雙流網(wǎng)絡(luò)的基礎(chǔ)上,因此都需要預(yù)計(jì)算光流。然而光流的預(yù)計(jì)算和存儲(chǔ)都十分昂貴,并且光流會(huì)導(dǎo)致設(shè)備延遲,這也會(huì)限制它在實(shí)時(shí)性檢測(cè)方面的表現(xiàn)。因此,如何有效地設(shè)計(jì)時(shí)間特征提取模塊以捕獲時(shí)間的上下文,從而避免光流的輸入,一直是動(dòng)作識(shí)別領(lǐng)域研究的熱點(diǎn)。
第二階段:為了避免光流的提取,一種思路是從光流算法的原理出發(fā),通過設(shè)計(jì)卷積模塊去隱式地模擬光流的提取過程,從而達(dá)到建模時(shí)間特征的目的。例如,Zhu 等[21]提出了一種隱式的雙流網(wǎng)絡(luò)(hidden two-stream convolutional network,Hidden Two-Stream)。它可以隱式地去捕捉相鄰幀之間的運(yùn)動(dòng)信息,而不需要預(yù)計(jì)算光流,在節(jié)省了存儲(chǔ)空間的同時(shí),也加快了算法運(yùn)行的速度。Sun 等[22]提出了一種光流引導(dǎo)特征(optical flow guided feature,OFF),通過計(jì)算特征圖水平和垂直方向的空間梯度和不同特征圖之間的時(shí)間梯度,來提取不同層級(jí)的光流引導(dǎo)特征,使得CNN 可以直接捕獲不同幀之間的時(shí)間信息。此外,Lee 等[23]提出了一種運(yùn)動(dòng)特征網(wǎng)絡(luò)(motion feature network,MFNet),用于建模連續(xù)幀之間的時(shí)空信息。MFNet 由編碼空間信息的外觀塊和編碼時(shí)間信息的運(yùn)動(dòng)塊組成。其中,運(yùn)動(dòng)塊以相鄰時(shí)間的特征圖作為輸入,采用運(yùn)動(dòng)濾波器代替空間特征圖之間的移位操作,用于模擬光流的計(jì)算過程。
另一種思路是對(duì)時(shí)間通道上的信息進(jìn)行有效的處理,以捕獲特征圖之間的時(shí)間線索。例如,Lin等[24]提出一種時(shí)間移位模塊(temporal shift module,TSM)用于處理時(shí)序信息。TSM的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其通過時(shí)間域上的通道移位操作將相鄰特征圖上的時(shí)間信息混合在一起,時(shí)間感受野被相應(yīng)地?cái)U(kuò)大了兩倍,用于模擬時(shí)間內(nèi)核大小為3 的一維卷積,從而達(dá)到建模時(shí)間特征的目的。同時(shí)利用2D卷積通道間融合能力進(jìn)行原始的時(shí)間融合,使得2D CNN具備捕獲時(shí)間線索的能力,且不會(huì)帶來額外的計(jì)算成本。
為了解決2D CNN 在長(zhǎng)視頻內(nèi)建模復(fù)雜的運(yùn)動(dòng)特征能力較弱的問題,Hussein 等[25]提出時(shí)間感受層(timeception layer)的概念。時(shí)間感受層采用Inception網(wǎng)絡(luò)[26]的多尺度卷積的思想,通過對(duì)原始輸入采用深度可分的時(shí)間卷積來捕獲長(zhǎng)期時(shí)間的依賴關(guān)系。同時(shí)借助分組卷積的思想,采用各組通道分別建模的方式來降低跨信道關(guān)聯(lián)的復(fù)雜性。時(shí)間感受層參數(shù)復(fù)雜度較小,使得編碼長(zhǎng)時(shí)間步長(zhǎng)的時(shí)間模式成為可能。

Fig.4 Architecture of TSM framework圖4 TSM框架的結(jié)構(gòu)
視頻序列中的動(dòng)作是三維的時(shí)空信號(hào),采用三維卷積對(duì)時(shí)空信號(hào)進(jìn)行建模,為動(dòng)作識(shí)別提供了一種自然且有效的方式。Ji 等[27]首次提出采用三維卷積提取視頻的時(shí)空特征。該架構(gòu)從視頻中相鄰幀之間獲取灰度、梯度和光流通道信息,然后對(duì)每一個(gè)通道分別進(jìn)行卷積和下采樣操作,最后將所有通道的信息組合起來得到最終的特征表示。
Tran等[28]在此基礎(chǔ)上提出了C3D,C3D的網(wǎng)絡(luò)架構(gòu)如圖5所示。其中,C3D包含了5個(gè)卷積層、5個(gè)最大值池化層、2 個(gè)全連接層和1 個(gè)softmax 分類層。C3D 采用三維卷積對(duì)時(shí)空信號(hào)進(jìn)行建模,得到了相比于2D CNN更緊湊的特征表示。然而,C3D網(wǎng)絡(luò)通過重復(fù)堆疊三維卷積塊用于獲取較大的時(shí)間感受野,因此具有以下缺點(diǎn):(1)3D 卷積會(huì)引入大量的參數(shù),這極大地增加了網(wǎng)絡(luò)的時(shí)空復(fù)雜度,從而導(dǎo)致內(nèi)存消耗和計(jì)算量劇增的后果。(2)3D卷積將時(shí)間和空間維度上的信息混合在一起,導(dǎo)致了優(yōu)化的困難和過擬合的風(fēng)險(xiǎn)。
針對(duì)C3D的局限性,主要有兩種解決方案:①基于2D CNN 的良好實(shí)踐,進(jìn)行有效的網(wǎng)絡(luò)架構(gòu)探索;②對(duì)現(xiàn)有的模型進(jìn)行精簡(jiǎn)、量化和壓縮,以實(shí)現(xiàn)高效的網(wǎng)絡(luò)部署。
針對(duì)方案①,受殘差網(wǎng)絡(luò)(ResNet)[29]在圖像分類領(lǐng)域中表現(xiàn)出色的啟發(fā),Tran等[30]將C3D架構(gòu)拓展到深度殘差網(wǎng)絡(luò)中,提出了Res3D網(wǎng)絡(luò)。通過改變各卷積層濾波器的個(gè)數(shù)來保持網(wǎng)絡(luò)架構(gòu)的參數(shù)一致,從而探討了輸入幀的采樣頻率、空間分辨率以及卷積的類型對(duì)模型性能的影響。同時(shí),Res3D的參數(shù)量和計(jì)算復(fù)雜度是C3D 的1/2,在Sport-1M 數(shù)據(jù)集[31]上的top-1 和top-5 分別提升了4.5 個(gè)百分點(diǎn)和2.6 個(gè)百分點(diǎn)。Liu等[32]將TSN和Res3D相結(jié)合,提出了時(shí)域三維卷積網(wǎng)絡(luò)(temporal convolutional 3D network,T-C3D)。T-C3D 引入了TSN 的視頻級(jí)監(jiān)督方法,同時(shí)確保各片段的3D CNN共享權(quán)值,既有利于得到全局的時(shí)空特征,又不產(chǎn)生額外的參數(shù)。此外,采用注意力池作為段共識(shí)函數(shù),使得網(wǎng)絡(luò)能夠高效地區(qū)分各個(gè)輸入片段的重要性,大大提升了模型的性能。Wang 等[33]在Res3D的基礎(chǔ)上,通過在相鄰殘差塊之間部署一支額外的跳躍連接,不僅充分融合了淺層和深層的時(shí)空特征,而且有效地緩解了3D CNN隨著網(wǎng)絡(luò)加深容易產(chǎn)生的梯度消失和過擬合問題,進(jìn)一步提升了Res3D 的性能。Qian 等[34]則通過自定義殘差網(wǎng)絡(luò)的跳躍連接系數(shù),探討了五種凸策略對(duì)殘差學(xué)習(xí)的影響。實(shí)驗(yàn)表明,當(dāng)跳躍連接系數(shù)呈正態(tài)分布時(shí),網(wǎng)絡(luò)的泛化能力相較于傳統(tǒng)的殘差網(wǎng)絡(luò),有明顯的提升。

Fig.5 Architecture of C3D圖5 C3D的網(wǎng)絡(luò)架構(gòu)
Diba 等[35]將三維卷積和池化操作引入到Dense-Net[36]中,并提出一種時(shí)域過渡層(temporal transition layer,TTL),構(gòu)建了T3D(temporal 3D ConvNet)網(wǎng)絡(luò)。TTL由若干個(gè)可變的時(shí)間深度三維卷積構(gòu)成,采用多尺度時(shí)間卷積用于捕獲短期、中期和長(zhǎng)期的時(shí)間信息,相比于固定的內(nèi)核時(shí)間深度,TTL能夠提取更加豐富的時(shí)序特征。
Carreira 等[37]采用三維卷積和池化操作擴(kuò)展了Inception網(wǎng)絡(luò),提出了I3D(inflated 3D ConvNet),I3D網(wǎng)絡(luò)的輸入采用了更大的時(shí)空分辨率,并提出了一種新的初始化3D CNN的方法,即通過將ImageNet[38]初始化的2D濾波器的權(quán)重沿時(shí)間維度擴(kuò)展,同時(shí)除以擴(kuò)展的次數(shù)以確保濾波器的維度響應(yīng)相同。同時(shí),在Kinetics[39]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在UCF101[40]和HMDB51[41]數(shù)據(jù)集上進(jìn)行微調(diào),分別得到了98.0%和80.7%的準(zhǔn)確率。然而,由于I3D 采用了大量的輸入幀和光流圖像進(jìn)行訓(xùn)練和測(cè)試,因此對(duì)于硬件配置的要求極高。
不同于上述網(wǎng)絡(luò)在短剪輯(16幀)中學(xué)習(xí)時(shí)空特征,Varol 等[42]針對(duì)局部三維卷積難以在動(dòng)作持續(xù)時(shí)間較長(zhǎng)的輸入中建模時(shí)空特征的問題,提出了LTC(long-term temporal convolutions)網(wǎng)絡(luò)。其主要思想是通過減小輸入幀的空間分辨率從而增大其時(shí)間分辨率,以此來維持參數(shù)上的平衡,驗(yàn)證了長(zhǎng)時(shí)間輸入對(duì)動(dòng)作識(shí)別模型性能的影響。Gao 等[43]根據(jù)人體質(zhì)心的運(yùn)動(dòng)軌跡的周期性定義了原子行為,并針對(duì)不同原子行為的特征向量存在維度差異的問題,采用了空間金字塔池化結(jié)構(gòu),將幀級(jí)特征編碼成固定大小的視頻級(jí)表示,有效地解決了傳統(tǒng)的3D CNN相對(duì)固定的局部采樣可能存在的信息冗余問題。
針對(duì)方案②,Wang 等[44]在Res3D 的基礎(chǔ)上通過SMART塊構(gòu)建了外觀關(guān)系網(wǎng)絡(luò)(appearance and relation networks,ARTNet)。SMART塊將時(shí)空學(xué)習(xí)模塊分離為用于空間建模的外觀分支和用于時(shí)間建模的關(guān)系分支。外觀分支是基于單幀中像素和濾波器響應(yīng)的線性組合來實(shí)現(xiàn)的,而關(guān)系分支是基于多幀像素和濾波器響應(yīng)之間的乘法交互[45]來實(shí)現(xiàn)的。采用SMART 塊替換ResNet-18 基本的殘差單元,得到了相比于C3D ResNet-34更好的特征表示。
為了降低時(shí)空融合的復(fù)雜性,Zhou 等[46]提出了一種混合的二維、三維卷積管(mixed 2D/3D convolutional tube,MiCT),其架構(gòu)如圖6 所示。MiCT 通過2D 卷積和3D 卷積共享空間信息,利用2D 卷積并通過跨域殘差連接的方式來促進(jìn)3D時(shí)空特征的學(xué)習(xí)。MiCT使得在時(shí)空融合之前,每個(gè)時(shí)空層次上的特征映射更深入,從而促使網(wǎng)絡(luò)能夠在較少的時(shí)空融合中獲得更好的性能。與逐層堆疊的3D CNN 相比,MiCT將2D 卷積和3D 卷積集成在一起,不僅增強(qiáng)特征學(xué)習(xí),而且大大降低了時(shí)空融合的復(fù)雜性。此外,Zolfaghari 等[47]提出ECO(efficient convolutional network)架構(gòu),ECO 網(wǎng)絡(luò)包括兩部分:一部分是底層的2D CNN,用于建模空間特征;另一部分是2D CNN和3D CNN 的并行分支,用于處理底層2D CNN 的輸出,建模時(shí)空特征。并行的2D CNN分支能夠簡(jiǎn)化處理以及確保靜態(tài)圖像特征獲得必要的重視,3D CNN則主要負(fù)責(zé)處理更為復(fù)雜的動(dòng)作。在推理階段,ECO 只采用了一組經(jīng)過中心裁剪的視頻幀進(jìn)行預(yù)測(cè),因此對(duì)內(nèi)存的消耗較低。然而,ECO犧牲了低層次的時(shí)間建模以提高效率,但在時(shí)間融合發(fā)生之前,許多有用的信息在特征提取過程中丟失。

Fig.6 Architecture of MiCT圖6 MiCT的網(wǎng)絡(luò)架構(gòu)
針對(duì)視頻信號(hào)的時(shí)空特征演化存在差異性的問題,F(xiàn)eichtenhofer 等[48]提出SFN 網(wǎng)絡(luò)(SlowFast networks),網(wǎng)絡(luò)架構(gòu)如圖7所示。慢路徑以低幀率速度運(yùn)行,用于捕獲稀疏視頻幀提供的空間語義信息;快路徑以高幀率運(yùn)行,用于捕獲精細(xì)時(shí)間分辨率下快速變化的動(dòng)作信息。同時(shí),快路徑和慢路徑通過橫向連接實(shí)現(xiàn)信息交互。快路徑通過降低輸入幀的空間分辨率、去除顏色信息等方式,使得其更加注重時(shí)序維度上的信息。此外,通過減少快路徑的通道容量以此來降低模型的復(fù)雜度。實(shí)驗(yàn)表明,SFN網(wǎng)絡(luò)對(duì)于建模幅度大、變化快的動(dòng)作更具優(yōu)勢(shì)。

Fig.7 Architecture of SlowFast圖7 SlowFast的網(wǎng)絡(luò)架構(gòu)
3D CNN采用三維卷積同時(shí)捕獲時(shí)空信息,且一次能夠處理多個(gè)輸入幀,因此算法的運(yùn)行速度較快。然而,三維卷積會(huì)引入大量的參數(shù),從而造成較高的計(jì)算成本和內(nèi)存開銷。目前基于3D CNN 的方法大都結(jié)合了雙流網(wǎng)絡(luò)的思想,采用光流圖像作為輸入用來增強(qiáng)模型的性能。得益于大型數(shù)據(jù)集的提出以及預(yù)訓(xùn)練技術(shù)的支持,基于3D CNN的動(dòng)作識(shí)別方法的性能已經(jīng)超過了基于2D CNN的動(dòng)作識(shí)別方法。
時(shí)空分解網(wǎng)絡(luò)主要包括解耦時(shí)空濾波器的時(shí)空分解卷積以及分離時(shí)空特征通道的通道分離卷積。其主要思想都是通過將時(shí)空特征進(jìn)行分開建模,以達(dá)到減少參數(shù)和易于優(yōu)化的目的。
Sun 等[49]提出了時(shí)空分解網(wǎng)絡(luò)(factorized spatiotemporal convolutional network,F(xiàn)stCN),通過將三維卷積解耦為空間上二維卷積和時(shí)間上的一維卷積,不僅減少了參數(shù)量,而且可以采用ImageNet 上預(yù)訓(xùn)練的模型對(duì)空間二維卷積進(jìn)行初始化,從而大大縮短了網(wǎng)絡(luò)訓(xùn)練的時(shí)間。在此基礎(chǔ)上,Qiu 等[50]提出了偽三維殘差網(wǎng)絡(luò)(pseudo 3D residual networks,P3D),通過在1×3×3和3×1×1卷積的兩端引入了瓶頸架構(gòu),用于減小和恢復(fù)輸入特征圖的維度,從而進(jìn)一步減少了參數(shù)量。如圖8所示,采用級(jí)聯(lián)、串行、級(jí)聯(lián)和串行三種跳躍連接模式,用于表示空間和時(shí)間濾波器之間存在的直接影響或間接影響,構(gòu)建了三種偽三維殘差單元。通過引入瓶頸塊架構(gòu)和時(shí)空分解卷積,使得P3D可以嵌入到ResNet-152 中,極大地拓展了網(wǎng)絡(luò)的深度。Du等[51]提出的“R(2+1)D”,進(jìn)一步驗(yàn)證了通過解耦后的網(wǎng)絡(luò)模型相比于Res3D,具有更小的損失,更有利于優(yōu)化。Xie等[52]則通過時(shí)空分解卷積改造了I3D網(wǎng)絡(luò),提出S3D 網(wǎng)絡(luò)。通過時(shí)空解耦的S3D 的網(wǎng)絡(luò)相比于I3D網(wǎng)絡(luò),具有更少的參數(shù)和更小的計(jì)算復(fù)雜度。同時(shí),在Kinetics數(shù)據(jù)集和Something-something[53]數(shù)據(jù)集上top-1準(zhǔn)確率分別提升了1.1個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了時(shí)空分解卷積更有利于分配參數(shù)空間,且具有更優(yōu)秀的時(shí)空建模能力。

Fig.8 Pseudo 3D residual units圖8 偽3D殘差單元
此外,Li 等[54]提出了一種協(xié)同時(shí)空模塊(collaborative spatiotemporal,Cost),通過對(duì)可學(xué)習(xí)的參數(shù)施加權(quán)重共享約束,協(xié)同編碼時(shí)空特征。其主要思想是對(duì)三個(gè)正交視圖(H-W、T-H、T-W)分別執(zhí)行1×3×3、3×3×1、3×1×3的二維卷積,分別學(xué)習(xí)空間外觀和時(shí)間運(yùn)動(dòng)線索,最終得到的三個(gè)特征圖采用加權(quán)求和的方法進(jìn)行聚合。通過共享不同視圖的濾波器參數(shù),Cost可以協(xié)同學(xué)習(xí)空間和時(shí)間特征并維持與單視圖二維卷積相同的參數(shù)數(shù)量。此外,基于在不同視圖中學(xué)習(xí)到的系數(shù),可以量化空間和時(shí)間特征的貢獻(xiàn),使得模型的可解釋性更強(qiáng)。
與上述方法通過解耦時(shí)空濾波器來降低網(wǎng)絡(luò)參數(shù)的方式不同的是,采用通道分組卷積能夠有效地減少時(shí)空交互的次數(shù),從而降低網(wǎng)絡(luò)的時(shí)間復(fù)雜度。Luo等[55]提出一種分組時(shí)空聚合(grouped spatialtemporal aggregation,GST)的方法。GST將特征通道并行分解為空間組和時(shí)間組,空間組采用二維卷積用于捕獲外觀線索,時(shí)間組采用三維卷積用于捕獲時(shí)間線索。GST 以一種非對(duì)稱的通道分解方式,通過可視化正則化層每個(gè)通道的比例因子,可以定性地分析不同階段時(shí)間特征和空間特征的重要性,從而了解到空間和時(shí)間線索是如何從底層特征編碼到高層特征的。
考慮到時(shí)空特征和運(yùn)動(dòng)特征的互補(bǔ)性,Jiang等[56]提出了一種時(shí)空和運(yùn)動(dòng)編碼(spatiotemporal and motion encoding,STM)。STM 包括編碼現(xiàn)時(shí)空特征的通道式時(shí)空模塊和高效編碼運(yùn)動(dòng)特征的通道式運(yùn)動(dòng)模塊。通道式時(shí)空模塊通過重組輸入通道,采用二維的空間卷積和一維的時(shí)間卷積以實(shí)現(xiàn)分離建模時(shí)空特征;通道式運(yùn)動(dòng)模塊在時(shí)間維度上對(duì)相鄰的特征圖進(jìn)行特征差分,用于提取相鄰幀之間的特征級(jí)運(yùn)動(dòng)模式。STM 通過引入時(shí)空分解卷積,以極小的計(jì)算開銷得到了與光流相媲美的運(yùn)動(dòng)特征描述,極大地減少了內(nèi)存的消耗。
針對(duì)動(dòng)作視頻數(shù)據(jù)集存在信息幀冗余的問題,Zhu 等[57]提出了關(guān)鍵卷(key volume)提取框架,該框架與網(wǎng)絡(luò)訓(xùn)練過程中的正向和反向傳播階段相結(jié)合,通過正向傳播為每一個(gè)類別標(biāo)識(shí)關(guān)鍵卷;并在反向傳播過程中,利用提取的關(guān)鍵卷更新參數(shù),使得網(wǎng)絡(luò)能夠自主學(xué)習(xí)輸入卷的重要性。Kar等[58]提出了一種自適應(yīng)掃描池(adaptive scan pooling,Adascan),Adascan 能夠判別輸入視頻幀對(duì)于動(dòng)作識(shí)別的重要性,同時(shí)在學(xué)習(xí)過程中丟棄大部分非信息性幀,在減少冗余信息的同時(shí)能夠減少網(wǎng)絡(luò)的計(jì)算開銷,從而提高模型的性能。針對(duì)短視頻而言,采用剪輯平均的方式進(jìn)行預(yù)測(cè)被認(rèn)為是合理的。然而,在未修剪的視頻中存在大量的與動(dòng)作識(shí)別無關(guān)的片段,此時(shí)若采用剪輯平均的方式進(jìn)行預(yù)測(cè),則大量的無關(guān)片段會(huì)參與到預(yù)測(cè)過程中,這將嚴(yán)重影響到模型的性能。因此,Korbar等[59]基于注意力機(jī)制提出了一種輕量級(jí)的clips-sampling 模型,該模型可以有效地識(shí)別出視頻中最突出的時(shí)間段,并針對(duì)最突出的時(shí)間段進(jìn)行分類,從而有效地降低計(jì)算的代價(jià)。
此外,基于深度圖以及骨骼信息的動(dòng)作識(shí)別方法也取得了一定的進(jìn)展。例如:Li 等[60]并行地采用VGG-16 網(wǎng)絡(luò)和密集軌跡算法提取深度運(yùn)動(dòng)圖中的靜態(tài)特征和RGB視頻幀序列中的運(yùn)動(dòng)特征,然后采用Fisher特征編碼方式將提取的靜態(tài)和動(dòng)態(tài)特征編碼成Fisher 向量,最后將靜態(tài)和動(dòng)態(tài)特征向量串聯(lián),并采用支持向量機(jī)對(duì)其進(jìn)行分類。采用深度運(yùn)動(dòng)圖的方式,能夠提取到豐富的深度信息和紋理信息,從而實(shí)現(xiàn)其與運(yùn)動(dòng)特征的互補(bǔ),有助于提高精度。Ge 等[61]將輸入幀的骨骼序列表示成行為矩陣,并針對(duì)固定尺寸的卷積核無法捕獲相距較遠(yuǎn)的骨骼關(guān)節(jié)點(diǎn)之間特征信息的問題,提出了采用多尺度卷積的思想去提取不同層級(jí)的語義特征,從而更好地實(shí)現(xiàn)行為分類。
跨模態(tài)監(jiān)督在未修剪動(dòng)作識(shí)別中也有著一定的進(jìn)展。例如,Nagrani 等[62]通過電影視頻中語音與臺(tái)詞之間的對(duì)應(yīng)關(guān)系構(gòu)建了一個(gè)動(dòng)作識(shí)別的分類器,然后采用該模型對(duì)大規(guī)模視頻數(shù)據(jù)集進(jìn)行弱監(jiān)督標(biāo)注,使用這種標(biāo)注數(shù)據(jù)訓(xùn)練的模型在動(dòng)作識(shí)別中表現(xiàn)良好。Gao等[63]提出了一種更輕的輸入模態(tài),即圖像-音頻對(duì)。在此基礎(chǔ)上,提出了一種基于注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)在迭代的過程中能夠從未修剪的視頻中挑選出與動(dòng)作識(shí)別高度相關(guān)的圖像-音頻對(duì),減少了長(zhǎng)期的時(shí)間冗余,從而實(shí)現(xiàn)高效的動(dòng)作識(shí)別。
動(dòng)作視頻數(shù)據(jù)集主要包括以場(chǎng)景為主和以時(shí)間為主兩類。兩類數(shù)據(jù)集的相關(guān)介紹如表1和表2所示。

Table 1 Scene-related action video datasets表1 場(chǎng)景相關(guān)的動(dòng)作視頻數(shù)據(jù)集

Table 2 Temporal-related action video datasets表2 時(shí)間相關(guān)的動(dòng)作視頻數(shù)據(jù)集
如圖9所示,場(chǎng)景相關(guān)的動(dòng)作數(shù)據(jù)集包含較多與動(dòng)作識(shí)別有關(guān)的場(chǎng)景信息,因此依靠單幀去建模空間特征就可以完成識(shí)別任務(wù)。其中KTH[64]、Weizman[65]、IXMAS[66]三種實(shí)驗(yàn)室數(shù)據(jù)集包含表演者在受限場(chǎng)景下執(zhí)行的一系列簡(jiǎn)單動(dòng)作。三種數(shù)據(jù)集包含的動(dòng)作都比較規(guī)范,對(duì)于動(dòng)作識(shí)別任務(wù)的挑戰(zhàn)性較小。其中,KTH 數(shù)據(jù)集包含尺度、衣著和光照的變化,但背景和拍攝視角相對(duì)固定,因此該數(shù)據(jù)集相對(duì)簡(jiǎn)單,同時(shí)其視頻實(shí)例數(shù)對(duì)于主流的動(dòng)作識(shí)別模型的訓(xùn)練而言還算豐富,可用于評(píng)估基于2D CNN的動(dòng)作識(shí)別方法,但不適用于3D CNN 的動(dòng)作識(shí)別方法。IXMAS數(shù)據(jù)集除了視頻數(shù)據(jù)之外,還包括人體骨骼和體積元等信息,可用于基于人體骨架點(diǎn)的動(dòng)作識(shí)別方法。Weizman數(shù)據(jù)集的視頻實(shí)例數(shù)偏少,容易導(dǎo)致深度模型的過擬合,不太適用于深度學(xué)習(xí)算法,但可從遷移學(xué)習(xí)的角度對(duì)其進(jìn)行處理。此外,該數(shù)據(jù)集還提供了利用背景建模算法得到的前景掩碼圖像,如圖9所示。因此,該數(shù)據(jù)集比較適用于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,例如模板匹配算法或K臨近算法。總體而言,三類實(shí)驗(yàn)室數(shù)據(jù)集都不需要額外的數(shù)據(jù)預(yù)處理工作就可以很好地完成識(shí)別任務(wù),并且視頻的拍攝視角相對(duì)固定,不存在相機(jī)抖動(dòng)的因素,因此同樣適用于基于光流的動(dòng)作識(shí)別方法。但三種數(shù)據(jù)集的整體分辨率偏低,因此在基于超分辨的動(dòng)作識(shí)別方法中具有潛在的應(yīng)用價(jià)值。

Fig.9 Sample images and foreground mask of Weizman dataset圖9 Weizman數(shù)據(jù)集的動(dòng)作示例及前景掩碼圖
與三種實(shí)驗(yàn)室數(shù)據(jù)集不同的是,Hollywood2[67]和Olympic sports[68]數(shù)據(jù)集來自于真實(shí)的場(chǎng)景,不再局限于受限的環(huán)境。其中,Hollywood2 從電影劇本中自動(dòng)進(jìn)行動(dòng)作注釋,避免了手動(dòng)注釋的困難。但是,電影鏡頭往往不是表示的單一動(dòng)作,許多動(dòng)作混合在一起可能會(huì)帶來噪聲干擾,同時(shí)由于鏡頭切換,視頻存在光照變化、遮擋、背景不連續(xù)等問題,因此會(huì)對(duì)模型的訓(xùn)練造成一定的影響,在模型的魯棒性方面有著極大的考驗(yàn)。Olympic sports數(shù)據(jù)集最大的特點(diǎn)是存在相機(jī)抖動(dòng)的問題,因此該數(shù)據(jù)集不適用于傳統(tǒng)的光流算法。這兩種數(shù)據(jù)集的共同特點(diǎn)就是包含相機(jī)抖動(dòng)、場(chǎng)景變換、遮擋等問題。因此,在該數(shù)據(jù)集上使用深度學(xué)習(xí)算法時(shí),可以采用改進(jìn)的密集軌跡算法[10](improved dense trajectory,iDT)去估計(jì)相機(jī)運(yùn)動(dòng),或使用深度圖、骨架點(diǎn)等方法,減少雜亂的背景所帶來的干擾信息,進(jìn)一步提升模型的性能。
UCF101 和HMDB51 是兩種最常見的動(dòng)作視頻數(shù)據(jù)集,一般被作為動(dòng)作識(shí)別的目標(biāo)數(shù)據(jù)集,用于評(píng)估模型的性能。UCF101[40]數(shù)據(jù)集的示例圖如圖10所示。HMDB51[41]數(shù)據(jù)集和UCF101 數(shù)據(jù)集在動(dòng)作的組成類別上比較相似,但HMDB51 數(shù)據(jù)集規(guī)模更小,且包含更多的相機(jī)運(yùn)動(dòng)、光照變化、復(fù)雜背景等因素的影響,因此其識(shí)別率相較于前者偏低,更具挑戰(zhàn)性。在HMDB51 數(shù)據(jù)集上進(jìn)行分類任務(wù)時(shí),數(shù)據(jù)預(yù)處理顯得尤為關(guān)鍵,而目前這方面的工作很少。可以借鑒iDT算法的思想來估計(jì)相機(jī)運(yùn)動(dòng),同時(shí)采用高效的前景提取算法,以消除復(fù)雜背景以及光照變化對(duì)模型訓(xùn)練產(chǎn)生的影響。然后,采用預(yù)訓(xùn)練技術(shù)來減緩由于訓(xùn)練數(shù)據(jù)不足而可能產(chǎn)生的過擬合現(xiàn)象。

Fig.10 Sample images of UCF101 dataset圖10 UCF101數(shù)據(jù)集示例圖
Sport-1M[31]和Kinetics[39]數(shù)據(jù)集包含大量的標(biāo)注實(shí)例,是時(shí)空特征學(xué)習(xí)的極佳來源,因此這兩種數(shù)據(jù)集被廣泛應(yīng)用于預(yù)訓(xùn)練和消融實(shí)驗(yàn)環(huán)節(jié)。HACS Clips[69]最近才被提出,其包含約1 550 000個(gè)視頻剪輯,是迄今為止規(guī)模最大的動(dòng)作視頻數(shù)據(jù)集,并且其采用了高效的注釋方式,動(dòng)作類別的標(biāo)注噪聲相對(duì)較少,因此在未來遷移學(xué)習(xí)任務(wù)中,HACS Clips 非常具有潛力,有望成為預(yù)訓(xùn)練以及動(dòng)作識(shí)別的新基準(zhǔn)。
時(shí)間相關(guān)的動(dòng)作視頻數(shù)據(jù)集更加關(guān)注運(yùn)動(dòng)本身,且動(dòng)作類間差異性小,例如如圖11 所示,Something數(shù)據(jù)集中的從左向右移動(dòng)物體和從右向左移動(dòng)物體,僅僅依靠單幀無法出色地完成推理工作,因此在該類數(shù)據(jù)集上進(jìn)行的動(dòng)作識(shí)別任務(wù)極具挑戰(zhàn)性。Charades[70]、Epic-Kitchens[71]以及Something[53]數(shù)據(jù)集主要包括日常生活中人與物的一系列交互動(dòng)作。其中,Charades 數(shù)據(jù)集既包含原始視頻數(shù)據(jù),又包含物體類的標(biāo)簽信息,可采用基于物體的動(dòng)作識(shí)別方法對(duì)其進(jìn)行分類;Epic-Kitchens 還包含了部分音頻數(shù)據(jù),因此其在多模態(tài)動(dòng)作識(shí)別上具有一定的應(yīng)用價(jià)值。Something v1 與Something v2 數(shù)據(jù)集的組成類別一致,但Something v2 與Something v1 相比,具有更少的標(biāo)注噪聲,更多的實(shí)例數(shù),更大的像素分辨率等特點(diǎn)。因此,其識(shí)別率較前者平均高出15 個(gè)百分點(diǎn),處理起來更簡(jiǎn)單。在以上三種數(shù)據(jù)集上進(jìn)行動(dòng)作識(shí)別任務(wù)時(shí),應(yīng)該更加關(guān)注時(shí)序信息建模,在設(shè)計(jì)時(shí)空特征學(xué)習(xí)的模型時(shí),可以采用與文獻(xiàn)[72-73]相結(jié)合的方式,進(jìn)一步提升時(shí)序特征學(xué)習(xí)能力。

Fig.11 Sample images of Something dataset圖11 Something數(shù)據(jù)集示例圖
Diving-48[74]包含了48 種細(xì)粒度的跳水動(dòng)作,視頻的真實(shí)標(biāo)簽由跳水比賽的信息板中轉(zhuǎn)錄。該數(shù)據(jù)集不同子動(dòng)作之間具有相似的靜態(tài)視覺屬性和動(dòng)態(tài)視覺屬性,旨在體現(xiàn)時(shí)間層次上進(jìn)行動(dòng)作表征的重要性。其中,48 種跳水動(dòng)作由5 種起跳、3 種飛行、2種入水動(dòng)作組合而成。由于跳水動(dòng)作可能在3 個(gè)階段中的任何一個(gè)階段存在差異,因此需要對(duì)長(zhǎng)期的時(shí)間動(dòng)力學(xué)信息進(jìn)行建模,這對(duì)于當(dāng)前的動(dòng)作識(shí)別系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。同時(shí),跳水視頻一般是通過側(cè)面攝像機(jī)錄制,因此存在身體部位遮擋的問題,基于骨架的方法不再適用。但跳水動(dòng)作都包含3個(gè)固定的環(huán)節(jié),即起跳、飛行和入水,且3個(gè)環(huán)節(jié)持續(xù)時(shí)間大致相同。因此,可以借鑒TSN 的分段稀疏采樣的思想,確保輸入幀覆蓋整個(gè)跳水動(dòng)作的各個(gè)環(huán)節(jié),增強(qiáng)模型長(zhǎng)時(shí)間結(jié)構(gòu)建模的能力。同時(shí),對(duì)于長(zhǎng)期時(shí)間結(jié)構(gòu)建模,可以采用LSTM捕獲視頻幀序列長(zhǎng)期的時(shí)間依賴關(guān)系。
與上述數(shù)據(jù)集類似于圖像分類的標(biāo)注機(jī)制不同的是,AVA[75]數(shù)據(jù)集以人體為中心,為同一場(chǎng)景下執(zhí)行不同動(dòng)作的人劃分不同的標(biāo)簽,如圖12 所示。同時(shí),AVA數(shù)據(jù)集中也存在大量的共現(xiàn)動(dòng)作對(duì),即活動(dòng)主體可能同時(shí)執(zhí)行至少兩個(gè)動(dòng)作,這為復(fù)雜活動(dòng)建模提供了可能。Moment in time數(shù)據(jù)集[76]的動(dòng)作類別可由多個(gè)主體完成,視覺差異較大,同時(shí)該數(shù)據(jù)集的部分動(dòng)作需要依賴音頻才能做出識(shí)別,這也增加了該數(shù)據(jù)集的挑戰(zhàn)性。Jester數(shù)據(jù)集[77]主要包含了人體手勢(shì)動(dòng)作,該數(shù)據(jù)集包含的噪聲較少,背景相對(duì)單一,處理難度小。但該數(shù)據(jù)集不適用隨機(jī)翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)技術(shù),因?yàn)闀?huì)導(dǎo)致部分動(dòng)作出現(xiàn)混淆,例如向上/向下移動(dòng)兩根手指。

Fig.12 Sample images of AVA dataset圖12 AVA數(shù)據(jù)集示例圖
FineGym[78]數(shù)據(jù)集從3個(gè)語義層級(jí)和兩個(gè)時(shí)間層級(jí)對(duì)視頻剪輯進(jìn)行標(biāo)注,語義層級(jí)包括事件(event)、集合(set)和元素(element),時(shí)間層級(jí)包括動(dòng)作(action)和子動(dòng)作(sub-action)。其中,事件主要包括4 種女子體操項(xiàng)目:自由體操、平衡木、跳馬和高低杠。集合是在事件的基礎(chǔ)上將動(dòng)作細(xì)分成若干類子動(dòng)作,例如平衡木包括手翻類、跳步類、轉(zhuǎn)體類動(dòng)作。最后,元素對(duì)集合內(nèi)的子動(dòng)作進(jìn)行進(jìn)一步劃分,例如:轉(zhuǎn)體類動(dòng)作包括轉(zhuǎn)體、直體和屈體,空翻包括前空翻和后空翻。FineGym 專注于細(xì)粒度的動(dòng)作識(shí)別,元素級(jí)(element-level)動(dòng)作的類內(nèi)、類間差距都極小,這要求模型能夠更加細(xì)微地去捕獲動(dòng)作之間的微小差距。FineGym 有望推動(dòng)動(dòng)作識(shí)別領(lǐng)域向更深層次的方向發(fā)展。此外,F(xiàn)ineGym為運(yùn)動(dòng)分析和體操運(yùn)動(dòng)項(xiàng)目的自動(dòng)打分系統(tǒng)提供了一定的數(shù)據(jù)基礎(chǔ)。
由于雙流網(wǎng)絡(luò)中空間流網(wǎng)絡(luò)的輸入是單幀RGB圖像,因此可以使用ImageNet 上預(yù)訓(xùn)練的模型進(jìn)行初始化。然而,時(shí)間流網(wǎng)絡(luò)的輸入為多幀光流圖像,其分布與RGB 圖像不同,無法直接使用ImageNet 預(yù)訓(xùn)練的網(wǎng)絡(luò)模型。為了進(jìn)一步提升網(wǎng)絡(luò)初始化的效率,Wang 等[79]提出了跨模態(tài)預(yù)訓(xùn)練(cross modality pre-training),其本質(zhì)是利用RGB 模型對(duì)時(shí)間流網(wǎng)絡(luò)進(jìn)行初始化。首先,通過線性變換將光流場(chǎng)的分布離散化為0~255,使得光流場(chǎng)的分布與RGB 圖像相同。然后對(duì)RGB 模型3 個(gè)通道的權(quán)重進(jìn)行平均,并通過時(shí)間網(wǎng)絡(luò)輸入的通道數(shù)復(fù)制這個(gè)平均值。采用跨模態(tài)預(yù)訓(xùn)練,TSN的時(shí)間流網(wǎng)絡(luò)在UCF101數(shù)據(jù)集上的精度從81.7%增加到86.6%,跨模態(tài)預(yù)訓(xùn)練為雙流風(fēng)格的網(wǎng)絡(luò)提供了一種非常高效的初始化方式。
當(dāng)目標(biāo)數(shù)據(jù)集沒有足夠的訓(xùn)練樣本時(shí),預(yù)訓(xùn)練是一種有效的深度卷積初始化方式。預(yù)訓(xùn)練技術(shù)的優(yōu)點(diǎn)主要包括:(1)經(jīng)過預(yù)訓(xùn)練之后,模型具備一定的學(xué)習(xí)時(shí)空特征的能力,當(dāng)對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào)時(shí),可以使得模型快速適應(yīng)目標(biāo)數(shù)據(jù)集,從而加快模型收斂的速度;(2)預(yù)訓(xùn)練技術(shù)可以有效地緩解由缺乏訓(xùn)練數(shù)據(jù)所導(dǎo)致的過擬合問題。動(dòng)作識(shí)別中常見的預(yù)訓(xùn)練數(shù)據(jù)集的相關(guān)介紹如表3所示。

Table 3 Pre-training datasets表3 預(yù)訓(xùn)練數(shù)據(jù)集
預(yù)訓(xùn)練對(duì)模型性能的影響如表4 所示。相比于不進(jìn)行預(yù)訓(xùn)練,R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-Two-Stream(R(2+1)D-T-S)通過Sport-1M數(shù)據(jù)集預(yù)訓(xùn)練,在Kinetics數(shù)據(jù)集上的top-1準(zhǔn)確率分別提升了2.3個(gè)百分點(diǎn)、1.0個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn),top-5的準(zhǔn)確率分別提升了1.4 個(gè)百分點(diǎn)、0.9 個(gè)百分點(diǎn)和1.0 個(gè)百分點(diǎn)。RGB-I3D、Flow-I3D、Two-Stream I3D 在ImageNet上進(jìn)行預(yù)訓(xùn)練之后,在Kinetics數(shù)據(jù)集上的top-1 準(zhǔn)確率分別提升了2.7 個(gè)百分點(diǎn)、1.9 個(gè)百分點(diǎn)和2.6 個(gè)百分點(diǎn),top-5 準(zhǔn)確率分別提升了1.3 個(gè)百分點(diǎn)、1.5 個(gè)百分點(diǎn)和1.3 個(gè)百分點(diǎn)。結(jié)果表明:預(yù)訓(xùn)練技術(shù)能夠在一定程度上提升動(dòng)作識(shí)別模型的性能。

Table 4 Impact of pre-training on accuracy表4 預(yù)訓(xùn)練對(duì)準(zhǔn)確率的影響 %
如表5所示,動(dòng)作識(shí)別模型性能的提升與預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模和類型存在聯(lián)系。例如:T-C3D在Kinetics上進(jìn)行預(yù)訓(xùn)練與在Sport-1M上進(jìn)行預(yù)訓(xùn)練相比,在UCF101 上的平均準(zhǔn)確率從89.5%提升到92.5%。R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-T-S 在Sport-1M上進(jìn)行預(yù)訓(xùn)練,在UCF101和HMDB51上微調(diào),分別得到了93.6%、93.3%、95.0%和66.6%、70.1%、72.7%的準(zhǔn)確率。同時(shí),將預(yù)訓(xùn)練數(shù)據(jù)集更換為Kinetics,在UCF101和HMDB51上的準(zhǔn)確率分別提升了3.2個(gè)百分點(diǎn)、2.2個(gè)百分點(diǎn)、2.3個(gè)百分點(diǎn)和7.9個(gè)百分點(diǎn)、6.3個(gè)百分點(diǎn)、6.0個(gè)百分點(diǎn)。結(jié)果表明:Kinetics比Sport-1M 更適合作為網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集,這與Kinetics數(shù)據(jù)集的全面性和相似性有關(guān)。

Table 5 Impact of type of pre-training datasets on accuracy表5 預(yù)訓(xùn)練數(shù)據(jù)集的類型對(duì)準(zhǔn)確率的影響%
此外,T-S R(2+1)D-34在Sport-1M上進(jìn)行預(yù)訓(xùn)練后,在目標(biāo)數(shù)據(jù)集上的平均準(zhǔn)確率分別為97.3%和78.7%,采用HACS Clips 預(yù)訓(xùn)練后,在目標(biāo)數(shù)據(jù)集上的平均準(zhǔn)確率分別提升了0.7個(gè)百分點(diǎn)和1.1個(gè)百分點(diǎn)。同樣,Two-Stream I3D 在HACS Clips 上預(yù)訓(xùn)練相比于在ImageNet+Kinetics 上預(yù)訓(xùn)練,在目標(biāo)數(shù)據(jù)集上的平均準(zhǔn)確率分別提升了0.2個(gè)百分點(diǎn)和0.6個(gè)百分點(diǎn)。這是因?yàn)镠ACS Clips相比于Kinetics具有更多的標(biāo)注實(shí)例,因此進(jìn)一步證實(shí)了數(shù)據(jù)集規(guī)模越大,對(duì)于動(dòng)作識(shí)別模型性能的提升更加明顯。同時(shí),TSN的空間流網(wǎng)絡(luò)通過在ImageNet上預(yù)訓(xùn)練,在UCF101上的準(zhǔn)確率為86.4%,通過Kinetics預(yù)訓(xùn)練后,準(zhǔn)確率提升了4.7個(gè)百分點(diǎn)。結(jié)果表明:對(duì)于動(dòng)作識(shí)別中的預(yù)訓(xùn)練環(huán)節(jié),選擇動(dòng)作視頻數(shù)據(jù)集比選擇靜態(tài)圖像數(shù)據(jù)集在模型性能的提升方面更有幫助。進(jìn)一步證實(shí)了模型性能的提升與預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的相似性有關(guān)。
近年來,從傳統(tǒng)的手工特征方法到深度學(xué)習(xí)方法,從小規(guī)模數(shù)據(jù)集到大規(guī)模數(shù)據(jù)集,從對(duì)網(wǎng)絡(luò)的淺層探索到設(shè)計(jì)專門用于時(shí)空特征提取的網(wǎng)絡(luò),視頻中的人體動(dòng)作識(shí)別取得了重大的進(jìn)展。然而,人體動(dòng)作識(shí)別仍有許多值得進(jìn)一步研究的方向:
(1)細(xì)粒度動(dòng)作識(shí)別
2019—2020年,在CVPR、ICCV等頂會(huì)中,Something、Charades、Jester、AVA、Epic-Kitchens 等細(xì)粒度動(dòng)作視頻數(shù)據(jù)集所占的比重越來越大,表明動(dòng)作識(shí)別正在由粗粒度向細(xì)粒度轉(zhuǎn)變。相比于粗粒度動(dòng)作識(shí)別,細(xì)粒度動(dòng)作識(shí)別更加注重運(yùn)動(dòng)本身和時(shí)間的上下文信息,并且要求模型能夠區(qū)分動(dòng)作之間存在的微小差距。此外,其在實(shí)際應(yīng)用中的局限性更少,例如運(yùn)動(dòng)分析和動(dòng)作打分。然而,目前大多數(shù)的深度學(xué)習(xí)模型在細(xì)粒度數(shù)據(jù)集上的表現(xiàn)未達(dá)到先進(jìn)的水平。在未來,可以采用強(qiáng)監(jiān)督的方式,使用邊界框和局部標(biāo)注信息,采用注意力機(jī)制的方式去獲取動(dòng)作的顯著特征,從而提高細(xì)粒度動(dòng)作的分類精度。或采用弱監(jiān)督的方式,通過定位出能判別出動(dòng)作類別的關(guān)鍵部位,利用判別行特征作為輔助來完成分類。
(2)小樣本學(xué)習(xí)
大多數(shù)基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法需要大量的訓(xùn)練樣本才能使模型達(dá)到收斂。然而,當(dāng)動(dòng)作識(shí)別應(yīng)用于某一個(gè)特定的場(chǎng)景時(shí),往往沒有足夠多的訓(xùn)練樣本,訓(xùn)練樣本的缺少可能會(huì)導(dǎo)致深度學(xué)習(xí)模型的過擬合問題,這將嚴(yán)重影響到模型的泛化能力。目前,小樣本學(xué)習(xí)已取得一定的進(jìn)展,例如Ji 等[80]提出的動(dòng)作基因組的概念,將動(dòng)作分解為時(shí)空?qǐng)鼍皥D的形式,用于捕獲對(duì)象之間及其關(guān)系之間的變化,使得主流的動(dòng)作識(shí)別模型在小樣本學(xué)習(xí)中獲得了較大的性能提升。此外,Cao等[81]設(shè)計(jì)了一種時(shí)序校正模塊,通過時(shí)序校正有效地利用了視頻數(shù)據(jù)中的時(shí)間順序信息,提高了數(shù)據(jù)利用的效率。在小樣本學(xué)習(xí)方面,可以從多模態(tài)信息利用的角度緩解小樣本學(xué)習(xí)中標(biāo)注數(shù)據(jù)少的問題,例如增加深度圖、骨架圖等信息。同時(shí),可以引入新的視頻數(shù)據(jù)增強(qiáng)技術(shù),以及采用生成對(duì)抗式網(wǎng)絡(luò),在特征層面做數(shù)據(jù)增強(qiáng),提升模型的魯棒性。
(3)更精簡(jiǎn)的模型
目前,大多數(shù)的深度學(xué)習(xí)模型仍具有參數(shù)多、時(shí)間復(fù)雜度高的特點(diǎn),這就導(dǎo)致算法對(duì)內(nèi)存的消耗較高且運(yùn)行速度較慢,不能滿足實(shí)時(shí)性和高效性的要求,也無法在移動(dòng)設(shè)備上運(yùn)行。目前,為了同時(shí)保證效率和準(zhǔn)確率,大多數(shù)輕量級(jí)模型都建立在2D CNN的基礎(chǔ)上,通過部署不帶參數(shù)或參數(shù)較少的時(shí)序特征提取模塊使得2D CNN具備時(shí)空特征學(xué)習(xí)的能力,例如TSM[24]、GST[55]等。同時(shí),隨著ResNext[82]和Shuffle-Net[83]在圖像分類領(lǐng)域的成功應(yīng)用,在未來的研究中,可以借助通道分組卷積或深度可分離卷積的思想去設(shè)計(jì)時(shí)序特征提取模塊,從而在保證時(shí)空交互的同時(shí),有效地減少網(wǎng)絡(luò)的參數(shù)。此外,采用知識(shí)蒸餾的方式,將復(fù)雜、學(xué)習(xí)能力強(qiáng)的網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí),即輸入輸出的映射關(guān)系,轉(zhuǎn)移到參數(shù)少、學(xué)習(xí)能力弱的網(wǎng)絡(luò),能間接起到模型壓縮的效果。
(4)無監(jiān)督學(xué)習(xí)
視頻數(shù)據(jù)中包含大量的動(dòng)態(tài)結(jié)構(gòu)信息,是無監(jiān)督學(xué)習(xí)的極佳素材。無監(jiān)督的視頻學(xué)習(xí)主要包括時(shí)間自編碼器的方法,例如PredNet[84]、PredRNN[85]和PredRNN++[86],但是尚未證實(shí)其在大規(guī)模遷移學(xué)習(xí)中的表現(xiàn)。最近在文獻(xiàn)[87]中提到,通過訓(xùn)練深度視頻嵌入,以最大化不同視頻之間的距離,最小化相同視頻之間的距離。這種在大量的動(dòng)作視頻中學(xué)習(xí)到的視覺表示可以顯著地提高動(dòng)作識(shí)別的精度,但是要在大規(guī)模數(shù)據(jù)集上訓(xùn)練強(qiáng)大的視頻嵌入視覺特征,往往是比較困難的。在未來,可以借助文獻(xiàn)[35]中的思路,通過兩個(gè)網(wǎng)絡(luò)之間正負(fù)標(biāo)簽的對(duì)應(yīng)關(guān)系去學(xué)習(xí)視頻表示,從而實(shí)現(xiàn)跨網(wǎng)絡(luò)的監(jiān)督轉(zhuǎn)移。
(5)自適應(yīng)網(wǎng)絡(luò)
動(dòng)作視頻數(shù)據(jù)集的分辨率表現(xiàn)出強(qiáng)烈的差異性,處理不同的數(shù)據(jù)集應(yīng)該采用不同的輸入方式。然而,目前的動(dòng)作識(shí)別模型大多采用固定的時(shí)空分辨率,這種相對(duì)固定的輸入方式對(duì)于網(wǎng)絡(luò)的訓(xùn)練而言可能不是最佳的。在未來,在進(jìn)行廣泛架構(gòu)探索的同時(shí),也應(yīng)該關(guān)注輸入模式的探索,例如分析采樣的輸入幀序列的特點(diǎn),動(dòng)態(tài)調(diào)整其時(shí)空分辨率,若輸入幀與動(dòng)作類別高度相關(guān),則增大其分辨率,反之則減小其分辨率,這樣有助于減少冗余和提高效率。此外,通過注意力機(jī)制,自適應(yīng)進(jìn)行網(wǎng)絡(luò)架構(gòu)的探索,也是未來值得研究的方向。
(6)視頻超分辨動(dòng)作識(shí)別
在現(xiàn)實(shí)場(chǎng)景中,由于光照不均或監(jiān)控設(shè)備受限等因素的影響,最終呈現(xiàn)的視頻內(nèi)容往往是低質(zhì)量的,低質(zhì)量的視頻內(nèi)容呈現(xiàn)出視頻分辨率低、噪聲以及運(yùn)動(dòng)模糊等特點(diǎn),容易導(dǎo)致模型對(duì)動(dòng)作造成誤判,大大降低動(dòng)作識(shí)別模型的性能。在未來,可以通過設(shè)計(jì)模塊進(jìn)行幀內(nèi)的空間相關(guān)性以及幀間的時(shí)間相關(guān)性抽取,然后借鑒圖像超分辨技術(shù)的思想,將抽取到的特征進(jìn)行通道間融合與放大,實(shí)現(xiàn)視頻幀序列的超分辨。最后,基于視頻超分辨的結(jié)果,再對(duì)其進(jìn)行時(shí)空特征的學(xué)習(xí)。視頻超分辨技術(shù)能夠有效地提升動(dòng)作識(shí)別模型在復(fù)雜場(chǎng)景下的性能,是動(dòng)作識(shí)別走向?qū)嵱没倪^程中,非常具有潛力的研究方向。
本文從2D CNN、3D CNN 以及時(shí)空分解網(wǎng)絡(luò)三個(gè)角度介紹了人體動(dòng)作識(shí)別的最新研究進(jìn)展,并著重探討了各類方法的優(yōu)缺點(diǎn)。然后,從以場(chǎng)景為主和以時(shí)間為主兩方面介紹了動(dòng)作識(shí)別中常用的數(shù)據(jù)集,并著重分析了各類數(shù)據(jù)集的特點(diǎn)及在動(dòng)作識(shí)別中的應(yīng)用。隨后,從預(yù)訓(xùn)練的角度,探討了預(yù)訓(xùn)練技術(shù)以及預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模和類型對(duì)動(dòng)作識(shí)別模型的影響,結(jié)果表明模型性能的提升與預(yù)訓(xùn)練數(shù)據(jù)集的全面性和相似性有關(guān)。最后,從動(dòng)作識(shí)別的最新動(dòng)態(tài)出發(fā),探討了其未來研究的方向。