彭 月 甘臣權(quán) 張祖凡
(重慶郵電大學(xué)通信與信息工程學(xué)院 重慶 400065)
近年來隨著數(shù)碼相機、智能手機等視頻拍攝設(shè)備的普及以及視頻應(yīng)用軟件的大幅推廣,網(wǎng)絡(luò)視頻業(yè)務(wù)呈現(xiàn)出指數(shù)級增長的發(fā)展趨勢,視頻載體已經(jīng)成為人們?nèi)粘Ia(chǎn)生活中傳播信息的重要媒介。視頻中隱藏著巨大的信息,網(wǎng)絡(luò)視頻市場龐大的用戶量、高速增長的市場規(guī)模給網(wǎng)絡(luò)視頻的管理、存儲、識別帶來了極大的挑戰(zhàn),因此網(wǎng)絡(luò)視頻業(yè)務(wù)日益受到各方的重視[1]。在以人為焦點的計算機視覺(Computer Vision,CV)研究領(lǐng)域中,如手勢識別[2](Hand Gesture Recognition)、人體姿態(tài)估計[3](Human Pose Estimation)、步態(tài)識別[4](Gait Recognition)等任務(wù),人類動作識別(Human Action Recognition,HAR)任務(wù)因其在人機交互、智能家居、自動駕駛、虛擬現(xiàn)實等諸多領(lǐng)域中應(yīng)用廣泛,日益成為計算機視覺領(lǐng)域中一個重要的研究課題。視頻中的人類動作識別的主要任務(wù)是幫助計算機自主識別出視頻中的人體動作,通過解析視頻內(nèi)容來推理人體的運動模式,從而建立視頻信息和人體動作類別之間的映射關(guān)系。準(zhǔn)確地識別出視頻中的人體動作,有利于互聯(lián)網(wǎng)平臺對海量相關(guān)視頻數(shù)據(jù)進行統(tǒng)一分類管理,有助于營造和諧的網(wǎng)絡(luò)環(huán)境。此外,HAR技術(shù)的發(fā)展也促使了視頻異常監(jiān)控業(yè)務(wù)的成熟,在公共場合中能輔助社會治安管理人員迅速對危機事件做出預(yù)測,在家庭生活中能及時監(jiān)控用戶的異常行為(如暈倒、摔跤等)以便及時就醫(yī)[5]。因此,對視頻中的人類動作識別這一任務(wù)進行深入研究,具有重要的學(xué)術(shù)意義和應(yīng)用價值。
動作識別任務(wù)的實現(xiàn)過程一般可分為兩個步驟:動作表示和動作分類,動作表示又被稱為特征提取,被認(rèn)為是動作識別的最主要任務(wù)。本文主要將人類動作識別相關(guān)特征提取算法分為基于傳統(tǒng)手工特征的方法和基于深度學(xué)習(xí)的方法,分別從視頻中提取手工設(shè)計的特征和可訓(xùn)練的特征[6]。傳統(tǒng)的特征提取方法依賴于相關(guān)領(lǐng)域的專業(yè)知識,往往需要根據(jù)不同的任務(wù)進行特定的特征設(shè)計,識別算法的性能嚴(yán)重依賴于數(shù)據(jù)庫本身,增加了不同數(shù)據(jù)集上處理過程的復(fù)雜度,泛化能力和通用性較差。并且,在現(xiàn)如今信息爆炸的時代背景下,視頻數(shù)據(jù)的爆炸式增長無疑給手工特征的制作帶來了巨大的挑戰(zhàn),因此人們更傾向于采用非人工的方法提取更具有一般性的特征表示以滿足現(xiàn)實任務(wù)需求。深度學(xué)習(xí)(Deep Learning,DP)在語音、圖像識別等領(lǐng)域中的重大突破鼓勵了其在計算機視覺領(lǐng)域中的應(yīng)用。隨著海量數(shù)據(jù)的爆發(fā)與GPU等硬件設(shè)備的快速發(fā)展,深度學(xué)習(xí)更能契合時代特點,提升了從大規(guī)模視頻數(shù)據(jù)中迅速挖掘出有用信息的可能性,在HAR任務(wù)中逐漸成為一種不可或缺的研究方法。基于深度學(xué)習(xí)的方法通過構(gòu)建一個層級的學(xué)習(xí)訓(xùn)練模式,借助模型與標(biāo)簽在輸入與輸出數(shù)據(jù)之間建立層層遞進的學(xué)習(xí)機制,自主獲取原始視頻數(shù)據(jù)的動作表征,從而克服了手工特征設(shè)計的缺陷,是一種更為高效且泛化性能更好的特征提取方式。
本文從基于傳統(tǒng)手工特征的方法和基于深度學(xué)習(xí)的特征提取方法兩方面對人類動作識別領(lǐng)域中的特征提取方法進行了分類與總結(jié),如圖1所示,最后概括了動作識別領(lǐng)域中所面臨的困難和挑戰(zhàn),并總結(jié)了未來可能的研究方向。

圖1 人類動作識別特征提取方法總結(jié)
大多數(shù)傳統(tǒng)動作識別算法都依賴于人工設(shè)計特征的方法,其目的是從原始視頻輸入中剖析人體的運動模式并提取對應(yīng)的底層特征,將視頻數(shù)據(jù)信息轉(zhuǎn)化為可以被分類模型所理解的特征向量,以便將原始的視頻數(shù)據(jù)映射為相應(yīng)的動作類別標(biāo)簽。視頻數(shù)據(jù)不僅包括了靜態(tài)的場景信息,還蘊含了豐富的動態(tài)變化,因此針對視頻分類,穩(wěn)健的視頻特征表示除滿足區(qū)分性與有效性兩個基本特性之外,還需要包含大量的時間信息和空間信息,增加了手工設(shè)計特征的難度。傳統(tǒng)的手工特征主要分為全局特征和局部特征,其對應(yīng)特征提取算法優(yōu)缺點總結(jié)如表1所示,接下來將從這兩方面出發(fā)對相關(guān)算法進行總結(jié)與對比。

表1 傳統(tǒng)手工特征提取方法總結(jié)
動作的全局特征表示是出于對運動目標(biāo)的整體描述,通常需要先用背景相減法或目標(biāo)跟蹤法將視頻中的人體分割出來,再進行全局特征的提取。常用的全局特征包括基于人體輪廓的特征、基于骨架的特征與基于光流的特征。
(1) 基于人體輪廓的特征。早期的動作識別研究大多數(shù)都依賴于人體輪廓特征,通過特定的算法設(shè)計在時域中反映出人類動作序列的排列組合情況,通常需要預(yù)先建立各個動作類別的樣本模板,在分類過程中將待測動作模板與所建立的標(biāo)準(zhǔn)模板進行比對,然后選擇相似性最大的模板作為其最終分類結(jié)果。較為常見的人體輪廓特征有運動能量圖[7](Motion Energy Images,MEI)和運動歷史圖[8](Motion History Images,MHI),通過從特定的方向來觀察與給定動作相關(guān)聯(lián)的粗粒度圖像運動,從而保存人體動作信息。其中,MEI通過描述人體在空間中的位置移動及其能量的空間分布情況,反映了運動的輪廓以及動作發(fā)生強度;MHI通過觀測視頻幀中人體在某一時間段內(nèi)同一位置的圖像亮度變化情況,反映了運動發(fā)生的時間及其在時域上的變化情況。文獻[9]在捕捉到運動片段的MEI的基礎(chǔ)上提取其增強的Gabor張量特征,最后進行子空間投影得到有效的運動描述符。文獻[10]在圖像序列的MHI特征的基礎(chǔ)上利用不同的幾何矩對其進行特征編碼,在不損失信息量的前提下提升了計算效率。基于人體輪廓的特征提取方法計算成本低且具有較強的魯棒性,得到了廣泛使用[11]。
人體輪廓特征是一種基于視覺的描述方法,在觀察方向以及相機位置發(fā)生改變時容易受到影響,導(dǎo)致識別結(jié)果不準(zhǔn)確。此外,該方法對分類過程中所需要的標(biāo)準(zhǔn)模板的精度要求較高,而模板的精確度高低依賴于數(shù)據(jù)庫的樣本容量大小以作為其計算的支撐。
(2) 基于人體模型的特征。由于人類的運動模式可以抽象成簡單幾何結(jié)構(gòu)所表示的骨架的移動情況,基于人體模型的相關(guān)研究也成為了HAR領(lǐng)域中的一個重要方向,它通過視頻幀之間人體關(guān)節(jié)點的變化來直觀地描述人體動作,可以劃分為二維表現(xiàn)形式[12]與三維表現(xiàn)形式[13-14]。二維模型利用二維幾何形狀(如:矩形、橢圓形、不規(guī)則形狀)表征人體各部分,然后通過從圖像中提取到的底層表觀特征來估計相應(yīng)模型參數(shù)與對應(yīng)模型進行匹配,以區(qū)分頭部、身軀與四肢等不同的身體區(qū)域,通過各幾何圖形的移動變形來描述具體的運動模式。文獻[15]利用不規(guī)則的二維剪影圖像來近似人體運動輪廓,并從中抽取圖形節(jié)點的直方圖以得到分類特征向量,該方法不需要精確定位人體關(guān)節(jié)信息,節(jié)省了計算開支。但二維模型不能表征運動過程中的人體距離信息,因此當(dāng)運動過程中出現(xiàn)自遮擋、碰撞等情況時,估計到的運動模式會存在較大誤差。為緩解上述問題,文獻[16]利用深度相機估計不同人體骨骼關(guān)節(jié)的位置,并使用關(guān)節(jié)之間的夾角變化序列來刻畫人體動作。文獻[17]通過定位每一視頻幀中人體的關(guān)節(jié)位置坐標(biāo)來提取相應(yīng)的姿態(tài)特征。文獻[18]通過三維掃描設(shè)備獲取靜態(tài)的人體模型數(shù)據(jù),然后利用蒙皮算法實現(xiàn)骨骼數(shù)據(jù)的綁定,從而重構(gòu)實時運動模式。骨架特征精確地表征了靜態(tài)人體姿態(tài),但弱化了動作的時間演變,因此文獻[19]將骨架特征與RGB數(shù)據(jù)相結(jié)合,基于RGB數(shù)據(jù)構(gòu)造時間圖像以表征動作的動態(tài)變化。當(dāng)人體部位出現(xiàn)遮擋情況時,會嚴(yán)重影響基于骨骼數(shù)據(jù)的動作識別精度,而深度信息包含豐富的距離信息,緩解了骨骼數(shù)據(jù)的遮擋問題,因此文獻[20]結(jié)合了深度信息與骨骼數(shù)據(jù)兩種模態(tài)的優(yōu)勢,避免了單一輸入模式的缺陷。三維模型利用圓柱或圓錐等幾何模型來與人體構(gòu)造模式相對應(yīng),通過結(jié)合人體運動學(xué)等先驗信息與深度信息完成相關(guān)數(shù)據(jù)的估計,克服了二維模型在處理自遮擋與運動碰撞等問題時的缺陷。
基于人體模型的方法通過套用統(tǒng)一的人體模型來代表任意個體,一定程度上緩解了個體變化所導(dǎo)致的類內(nèi)差異性,但是將復(fù)雜人體動作粗略地簡化成一種僵化的幾何模式,單純地利用關(guān)節(jié)點變化來進行動作識別會產(chǎn)生較大誤差。此外,三維模型所需的深度信息需要通過昂貴的攝像設(shè)備進行采集,模型的構(gòu)建也將更加復(fù)雜。
(3) 基于光流的特征。光流一般由前景目標(biāo)自身的運動、相機拍攝視角的移位或者兩種現(xiàn)象同時發(fā)生的情況所產(chǎn)生,其計算依據(jù)建立于圖像的亮度變化僅僅來源物體的移動這一假設(shè)之上,通過利用相鄰幀上的像素點在時域上的亮度變化情況來反映人體的運動情況。文獻[21]通過一個基于計算光流的描述符來描述遠(yuǎn)距離人類運動,通過追蹤每個穩(wěn)定的人類圖像軌跡并計算其模糊形式的光流而非精確的像素位移來近似人類運動的平滑軌跡。文獻[22]利用光流場中興趣點的密集程度追蹤運動過程的人體位置,并利用水平方向和垂直方向的平均差值與標(biāo)準(zhǔn)差值對其定位進行進一步的評估。文獻[23]為減少光流提取過程中所需的計算量,利用光流的關(guān)鍵點軌跡在頻域的多尺度表征來推理人體的運動情況。文獻[24]將光流特征與MHI相結(jié)合以準(zhǔn)確跟蹤運動對象在某一段時間內(nèi)的運動狀態(tài)。光流特征因其在時間維度上良好的運動表征能力,在動作識別領(lǐng)域得到了大面積的應(yīng)用,但光流特征易受到光照和遮擋的影響,且采用光流數(shù)據(jù)作為輸入的模型內(nèi)存需求大、計算成本高昂。
總體而言,基于全局特征的表示方法受限于相機運動、光照變化等因素,且需要去除背景、前景提取、人體定位與追蹤等預(yù)處理操作,因此在復(fù)雜動態(tài)背景情況下對于運動的表征能力效果不佳。
為避免預(yù)處理操作,局部特征表示方法側(cè)重于視頻中的感興趣點的檢測,并將人體動作局部表示進一步編碼為用于分類階段的特征向量,在特定的動作識別任務(wù)中分類效果良好。常見的局部特征包括基于時空興趣點的特征和基于軌跡的特征。
(1) 基于時空興趣點的特征。基于時空興趣點的特征提取方法可分為興趣點檢測與特征點描述兩部分。首先通過檢測器檢測出時空興趣點,即時空中突然發(fā)生變化的點,利用時空興趣點構(gòu)成的點集來表示人體動作,然后利用描述子將興趣點編碼為分類器能理解的特征向量,從而描述動作信息,因其容易采集且對視覺變化不敏感等優(yōu)點在復(fù)雜背景下的動作識別任務(wù)中備受推崇。Harris3D特征檢測器[25]將空間域上的角點檢測擴展到了時空域,通過融合梯度直方圖(Histogram of Oriented Gradients,HOG)特征和光流直方圖(Histogram of Optical Flow,HOF)特征以得到局部描述子,進而描述局部運動。在此基礎(chǔ)上,文獻[26]利用哈希方法和稀疏編碼方法對最終的特征編碼進行了改進,但是該方法產(chǎn)生的描述子對噪聲、尺度和角度變化敏感。為克服上述缺點,文獻[27]利用一種尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)算法來檢測幀序列中的關(guān)鍵點,但該方法僅考慮空間維度上的外觀信息,忽略了人體動作在時間維度上的演變。因此3D SIFT算子[28]在時間維度上對SIFT算子進行了擴展,以期準(zhǔn)確地描述視頻數(shù)據(jù)的時空特性,得到了良好的局部時空特征描述符。但是對于模糊圖像和邊緣平滑的圖像而言,其檢測出的特征點較少,增加了動作識別的難度。為克服視覺變化敏感問題,文獻[29]將時空興趣點特征與局部光流特征結(jié)合起來,通過提取不同興趣區(qū)域的光流直方圖與視頻片段詞袋直方圖來構(gòu)成混合特征,緩解了遮擋問題。文獻[30]將HOG與三維空間里的散射變換系數(shù)相結(jié)合,提出了一種魯棒性更強的局部描述子。針對視覺范圍的局限性問題,文獻[31]將3D時空興趣點擴展到了四維空間,以強調(diào)動作隨時間的變化。為克服Harris興趣點檢測算法缺乏尺度信息的缺陷,文獻[32]將其與Laplace尺度空間相結(jié)合,提出了改進的Harris-Laplace檢測算法。但時空興趣點的篩選條件較為苛刻從而導(dǎo)致選中的興趣點個數(shù)較少,進而影響識別精度,因此文獻[33]提出一種基于光流場旋度的興趣點檢測方法,降低了篩選難度。
基于時空興趣點的特征檢測得益于角點檢測器的發(fā)展而容易提取且得到了普遍采用,但是它利用一些不關(guān)聯(lián)的點的集合形式來描述人體動作信息,局限于現(xiàn)實場景中人體運動的復(fù)雜性,因此該技術(shù)很難得到實際應(yīng)用。
(2) 基于軌跡的特征。人類的運動軌跡中蘊含著豐富的運動信息,且軌跡速度、方向的突變點的區(qū)別表征著不同類別運動,基于軌跡的特征提取方法主要包括對特征點進行密集采樣與追蹤、基于軌跡進行特征提取、特征編碼三個步驟。為有效地捕獲運動信息,文獻[34]通過以不同的尺度來采樣每一幀的局部模塊的稠密點,并在密集光流場中對其進行追蹤,以提取運動物體的稠密軌跡,同時從圖像的底層特征入手,通過組合每個稠密點上的HOG和HOF等特征進一步提升了性能。文獻[35]定義了軌跡運動相關(guān)性,以確定分類過程中不同軌跡的相應(yīng)權(quán)值,用以權(quán)衡與目標(biāo)動作更為相關(guān)的運動軌跡。為提取優(yōu)質(zhì)的軌跡特征,文獻[36]通過補償相機運動對稠密軌跡特征進行了改進,在追蹤視頻中的人體運動軌跡時,沿著光流場中的運動軌跡提取HOG、HOF、MBH和密集軌跡等特征,并采用特征詞袋(Bag of Word,BoW)或費舍爾向量(Fisher Vector,FV)兩種方法分別對特征進行編碼,得到最終的視頻特征表示,再使用支持向量機將提取到的特征表示編碼到固定尺寸用于最終的分類識別。文獻[37]結(jié)合顯著性檢測方法與改進稠密軌跡特征以期緩解相機運動對識別結(jié)果帶來的影響。但無效的運動軌跡會影響模型判別能力,因此文獻[38]在提取密集軌跡前利用運動邊界策略進行采樣以保存更有意義的軌跡特征。為減小相機運動的干擾,文獻[39]利用動態(tài)高斯金字塔對快速魯棒性特征進行了改進,并與IDT特征相結(jié)合從而減少了背景信息的干擾。為提高分類精度,需要確保人體的運動軌跡精確,但獲取準(zhǔn)確的軌跡本身就是一個研究難點。
與全局特征相比,局部特征不需要精確地定位出人體,對視角變化、復(fù)雜場景、遮擋等干擾不敏感,穩(wěn)定性好,抗干擾能力強,且避免了預(yù)處理操作,但手工特征編碼時需要的內(nèi)存開銷較大,而且局部特征缺乏外觀上的細(xì)節(jié)信息,并需要額外的專業(yè)知識以進行特定領(lǐng)域的特征設(shè)計,具有領(lǐng)域局限性,難以泛化。
為便于直觀比較,表2給出了不同的傳統(tǒng)手工特征提取方法在其對應(yīng)數(shù)據(jù)集上的分類精確度對比,表2中數(shù)據(jù)直接來源于相應(yīng)的原文獻。由于多數(shù)傳統(tǒng)方法并未采用統(tǒng)一的數(shù)據(jù)集進行實驗分析,因此文中并未對涉及到的數(shù)據(jù)集進行詳細(xì)介紹,僅在表2中給出了各數(shù)據(jù)集名稱及其所包含的動作類別個數(shù)。

表2 傳統(tǒng)手工特征提取方法的識別準(zhǔn)確率對比
可以看出,多數(shù)傳統(tǒng)的特征提取方法是在不同的數(shù)據(jù)集上進行實驗,這是因為針對不同的分類任務(wù)需要進行特定的特征設(shè)計,從側(cè)面印證了傳統(tǒng)方法的領(lǐng)域局限性。而且利用傳統(tǒng)的手工特征進行動作分類均需要分類器的參與(表2中LDA、KNN、SVM等均為常用的分類器模型),這種做法將特征提取與分類預(yù)測剝離為兩個單獨的步驟,得到的分類解不一定是全局最優(yōu)結(jié)果。此外,大多數(shù)傳統(tǒng)方法受限于計算復(fù)雜度,僅能對少數(shù)動作類別進行分類預(yù)測,表2中所涉及到的數(shù)據(jù)集多數(shù)都未超過20個類別,這并不滿足實際應(yīng)用需求。雖然文獻[36]利用IDT等手工特征在HMDB51數(shù)據(jù)集上實現(xiàn)了對51個動作類別的識別,但其準(zhǔn)確率較低,僅為57.2%,因此僅依賴傳統(tǒng)的手工特征提取方法進行動作識別無疑是不現(xiàn)實的。
基于深度學(xué)習(xí)的特征提取方法從輸入視頻數(shù)據(jù)中自動學(xué)習(xí)可訓(xùn)練特征,克服了傳統(tǒng)方法需要人工參與特征設(shè)計的缺陷,其識別性能更為高效,應(yīng)用領(lǐng)域更加廣泛,在HAR研究領(lǐng)域中掀起了一輪新的浪潮。根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的不同,基于深度學(xué)習(xí)的特征提取算法主要可分為:基于雙流卷積網(wǎng)絡(luò)的特征提取、基于多流卷積網(wǎng)絡(luò)的特征提取、基于三維卷積網(wǎng)絡(luò)的特征提取與基于長短時期記憶網(wǎng)絡(luò)的特征提取。上述方法的優(yōu)缺點總結(jié)如表3所示,接下來將從這四個方面對其相關(guān)工作進行討論與總結(jié)。

表3 基于深度學(xué)習(xí)的特征提取方法總結(jié)
RGB數(shù)據(jù)具有豐富的外觀信息,能直觀地表示出人體形狀與物體外觀,補償了傳統(tǒng)方法中表觀特征缺乏的不足,在動作識別領(lǐng)域中得到了大面積的應(yīng)用。但僅采用單一視頻幀作為模型輸入只能表征單一時間節(jié)點的空間信息,因此為挖掘視頻流的時間信息,文獻[40]提出了基于RGB視頻幀的后期融合(Late Fusion)、早期融合(Early Fusion)、緩慢融合(Slow Fusion)三種方法,但其識別效果與傳統(tǒng)的手工模型相比還相差較遠(yuǎn)。為解決RGB單模態(tài)輸入模型的識別性能受限于動態(tài)特征信息缺乏的問題,研究逐漸進入對多模態(tài)輸入結(jié)構(gòu)的探索。文獻[41]將RGB與RGB-D兩種模式共同作為模型輸入,并探討了不同數(shù)據(jù)類型的融合方式對分類器性能的影響。文獻[42]將RGB與Depth Frames兩種數(shù)據(jù)相結(jié)合用于連續(xù)手勢的分割與識別任務(wù)中。由于骨骼信息可通過RGB-D數(shù)據(jù)進行快速準(zhǔn)確的估計,因此也有文獻嘗試將RGB-D與人體骨骼信息相結(jié)合以表示動作[43],但RGB-D數(shù)據(jù)采集困難,且?guī)в蓄~外的噪聲信息干擾識別效果。
光流+RGB數(shù)據(jù)形式為使用范圍最廣的雙流輸入模式,文獻[44]提出了著名的雙流假設(shè),即視覺信息可以被加工成兩條路徑:用于形狀感知的腹側(cè)流和用于運動感知的背側(cè)流。源于此線索,文獻[45]首次將雙通道方法運用到動作識別領(lǐng)域中,將視頻信息劃分為空間信息與時間信息兩個部分,其基本思路為先計算相鄰視頻幀之間的密集光流,然后將RGB視頻幀與光流特征分別輸入到Two-Stream結(jié)構(gòu)中,分別訓(xùn)練雙流CNN識別模型,最后融合兩個網(wǎng)絡(luò)的預(yù)測結(jié)果,其精度超過了傳統(tǒng)動作識別方法,驗證了光流信號對時間信息的補償,證明了采取深度學(xué)習(xí)的特征提取方法替代傳統(tǒng)手工設(shè)計特征的可能性。但該文獻僅采用均值融合與線性SVM融合兩種簡單的方式來融合雙流網(wǎng)絡(luò)的識別結(jié)果,未考慮到兩個卷積流之間的信息交互。為更好地融合雙流網(wǎng)絡(luò)的兩路特征,文獻[46]利用殘差連接方式在時空卷積流之間建立起信息連接,以促進其信息交互。此外,文獻[47]基于遠(yuǎn)程時間結(jié)構(gòu)建模的思想構(gòu)造了時域分割網(wǎng)絡(luò)(Temporal Segment Networks,TSN),以RGB+光流兩種輸入模式分別作為不同網(wǎng)絡(luò)流的輸入,提出一種稀疏采樣策略從給定視頻中稀疏地采樣一系列視頻剪輯,不同于原始的雙流網(wǎng)絡(luò)結(jié)構(gòu)采用相對較淺的網(wǎng)絡(luò),ClarifaiNet[48]作為卷積流的基礎(chǔ)模型,該文獻采取BN-Inception[49]網(wǎng)絡(luò)分別進行特征提取,以實現(xiàn)準(zhǔn)確率與模型效率之間的良好折中,然后對每一片段進行初步推斷,通過各預(yù)測結(jié)果的“共識”來確定其最終所屬類別,而且作者還提出了一種加權(quán)融合方法,讓深度模型自適應(yīng)地分配時間流特征與空間流特征在最終識別結(jié)果中所占的不同權(quán)重。為捕捉長時動態(tài)信息,文獻[50]將雙流網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)相結(jié)合以捕捉全局時空信息。文獻[51]利用分段采樣策略進行采樣,并構(gòu)建了時空異構(gòu)雙流網(wǎng)絡(luò),以實現(xiàn)長范圍時序建模。文獻[52]將TSN網(wǎng)絡(luò)與時間金字塔池化方式相結(jié)合,通過構(gòu)建多尺度時間特征建模長距離視頻幀之間的依賴性。文獻[53]構(gòu)建了一種深度殘差LSTM網(wǎng)絡(luò),并與雙流網(wǎng)絡(luò)相結(jié)合以提取全局信息。不同于傳統(tǒng)時空雙流網(wǎng)絡(luò)采用并行排列的方式,文獻[54]利用串行連接結(jié)合時空流網(wǎng)絡(luò),節(jié)省了硬件資源。為避免手動計算光流特征,文獻[55]提出了一種多任務(wù)學(xué)習(xí)模型ActionFlowNet,從原始像素點出發(fā),分別訓(xùn)練兩個卷積流網(wǎng)絡(luò),在模型自動估計光流值的同時進行動作識別,模型不需要額外地進行手工設(shè)計,而是在帶有真實光流值標(biāo)簽的數(shù)據(jù)集上訓(xùn)練模型使其自適應(yīng)地學(xué)習(xí)連續(xù)視頻幀之間的光流信息,在提取運動信息的同時降低了計算量。
雙流模型利用兩個卷積網(wǎng)絡(luò)分別對時間信息和空間信息進行建模,一定程度上緩解了基于RGB數(shù)據(jù)的單流識別網(wǎng)絡(luò)所面臨的動態(tài)特征缺乏問題,但是以光流為代表的動態(tài)特征僅能表示部分時間信息,并且在視頻中準(zhǔn)確有效地提取光流本身就是一個亟待解決的難題。
為提高模型的描述能力,部分研究者豐富了模型的輸入模式,將雙流網(wǎng)絡(luò)模型擴展到三流網(wǎng)絡(luò)甚至多流網(wǎng)絡(luò),對不同的輸入模式分別進行處理后再加以融合,用于后續(xù)的分類識別以期得到更具判別力的人體動作表征。
文獻[47]在光流+RGB輸入模式的基礎(chǔ)上提出了扭曲光流(Warped Optical Flow)作為額外的輸入模式,將這三種模式分別輸入到TSN網(wǎng)絡(luò)中,以探索多輸入模式對模型判別力的影響。文獻[56]將骨架序列特征按照不同的方向映射為RGB圖像特征,并將其分別作為三流網(wǎng)絡(luò)的輸入,實現(xiàn)了多特征之間的信息交互。文獻[57]提出了一個三流卷積網(wǎng)絡(luò),在光流+RGB數(shù)據(jù)的基礎(chǔ)上提出了堆疊的運動差分圖像(Motion Stacked Difference Image,MSDI)構(gòu)成三模式輸入,MSDI通過融合每個局部動作特征來建立用以表征全局動作的時間特征,將三種數(shù)據(jù)形式分別通過相同設(shè)置的卷積神經(jīng)網(wǎng)絡(luò)(即五個卷積層與兩個全連接層的順序堆疊)進行特征學(xué)習(xí),以捕捉空間表觀信息、局部時間特征、全局時間表示。文獻[58]提出了動態(tài)圖像的概念,使用排序池化和近似排序池化對RGB圖像和光流進行編碼,經(jīng)訓(xùn)練后得到RGB動態(tài)圖像流網(wǎng)絡(luò)和動態(tài)光流網(wǎng)絡(luò),結(jié)合原始RGB網(wǎng)絡(luò)和光流網(wǎng)絡(luò)形成四流網(wǎng)絡(luò)結(jié)構(gòu),利用其輸出得分的均值來預(yù)測動作類。文獻[59]利用RGB數(shù)據(jù)、光流和深度信息的多模態(tài)輸入形式結(jié)合了多種特征類型的優(yōu)勢以提升模型識別效果。為提高有限訓(xùn)練樣本情況下模型的學(xué)習(xí)能力,文獻[60]在水平與垂直兩個方向上提取原始視頻幀的光流與梯度信息分別送入多流卷積網(wǎng)絡(luò)通道,增加了訓(xùn)練樣本數(shù)量。與上述文獻對于不同的輸入模式均采用相同設(shè)計的卷積流做法不同,文獻[61]將深度MHI、骨架數(shù)據(jù)分別輸入ResNet101與ST-GCN中提取對應(yīng)的全局運動與局部運動信息,并結(jié)合RGB圖像構(gòu)成了三模態(tài)輸入,考慮了目標(biāo)與動作之間的依賴關(guān)系。文獻[62]從特征級的光流正交空間出發(fā),通過直接計算深度特征圖的時空梯度,定義了光流引導(dǎo)特征(Optical Flow Guided Feature,OFF),該方法設(shè)計了三種子網(wǎng)絡(luò):特征生成子網(wǎng)絡(luò)、OFF子網(wǎng)絡(luò)與分類子網(wǎng)絡(luò),其中特征生成子網(wǎng)絡(luò)由BN-Inception網(wǎng)絡(luò)構(gòu)成,并以RGB視頻幀與堆疊的光流作為模型輸入,分別提取對應(yīng)特征,然后將其分別送入OFF子網(wǎng)絡(luò),得到OFF(RGB)與OFF(Optical Flow)兩種新的輸入模式,分別表征經(jīng)OFF子網(wǎng)絡(luò)處理后的兩種數(shù)據(jù)類型,OFF子網(wǎng)絡(luò)得到的特征通過堆疊的殘差塊進行細(xì)化,最后對四種模式輸入到分類子網(wǎng)絡(luò)分別進行分類預(yù)測,將融合結(jié)果作為最終的判別依據(jù),獲得了明顯的性能增益。
基于多流卷積網(wǎng)絡(luò)的動作識別方法雖然能夠有效捕捉圖像的空間特征,且更全面地補償了單一視頻幀所缺乏的時間信息,但輸入模式種類越多意味著深度模型所需訓(xùn)練的參數(shù)量越多,這使模型的有效性大打折扣。此外,輸入模式的增多也意味著對特征融合模塊設(shè)計的要求也更高,增加了多流模型的復(fù)雜性。
基于三維卷積網(wǎng)絡(luò)的特征提取算法的一般做法為將少量連續(xù)的視頻幀堆疊而成的時空立方體作為模型輸入,然后在給定動作類別標(biāo)簽的監(jiān)督下通過層級訓(xùn)練機制自適應(yīng)地學(xué)習(xí)視頻信息的時空表征。三維卷積網(wǎng)絡(luò)在時空兩個維度上直接從視頻數(shù)據(jù)中同時捕獲具有區(qū)分性的視頻特征,無須刻意設(shè)計時空特征融合模塊,能有效地處理短期時空信息的融合問題,更好地促進了時空特征在識別判斷過程中的相互交互。
(1) 基于標(biāo)準(zhǔn)三維卷積的模型。文獻[63]將二維卷積網(wǎng)絡(luò)擴展到三維空間,同時從時空維度提取視頻特征。在此基礎(chǔ)上,提出了多種3DCNN的變形,如C3D[64]、I3D[65]、Res3D[66]等。得益于GPU的發(fā)展,基于3DCNN的方法逐漸成為視頻動作識別領(lǐng)域的主流方法。文獻[67]利用多視圖學(xué)習(xí)提取多個局部形狀描述符,然后與3DCNN相結(jié)合將多個視圖描述符進行融合,以提高分類特征的描述能力。文獻[68]在C3D網(wǎng)絡(luò)之前添加了一個緩沖區(qū),實現(xiàn)了模型在視頻流輸入的同時執(zhí)行實時分類預(yù)測。針對C3D網(wǎng)絡(luò)層數(shù)較淺不利于學(xué)習(xí)深度特征的問題,文獻[69]將殘差思想與深度C3D網(wǎng)絡(luò)相結(jié)合,在其中引入短路連接,避免了深度C3D網(wǎng)絡(luò)會導(dǎo)致其學(xué)習(xí)能力退化的缺陷。但3DCNN較之于2DCNN倍增的參數(shù)量使得其相應(yīng)模型在小數(shù)據(jù)集上進行訓(xùn)練易導(dǎo)致過擬合效應(yīng),因此文獻[70]將密集連接方式應(yīng)用到3DCNN中,并結(jié)合空間金字塔池化方式,減小了模型的訓(xùn)練難度。此外,研究者們采用遷移學(xué)習(xí)方法,在公共大型數(shù)據(jù)集對模型進行預(yù)訓(xùn)練后,再利用小數(shù)據(jù)集對模型進行微調(diào)。文獻[71]受2DCNN在ImageNet[72]數(shù)據(jù)集上進行預(yù)訓(xùn)練后極大地促進了通用特征表示的獲取的啟發(fā),針對3DCNN的巨大參數(shù)量是否會引起訓(xùn)練過程中的過擬合問題進行了研究,首次提出在Kinetics[73]數(shù)據(jù)集上從零開始訓(xùn)練多種3DCNNs模型(ResNet[74]、Pre-activation ResNet[75]、Wide ResNet[76]、ResNeXt[77]、DenseNet[78]),通過由淺(18層)到深(200層)的網(wǎng)絡(luò)結(jié)構(gòu)研究了在不導(dǎo)致過擬合的情況下該數(shù)據(jù)集可訓(xùn)練的深層結(jié)構(gòu)的層數(shù)上限,證明使用Kinetics數(shù)據(jù)集訓(xùn)練深度3D CNN將追溯2D CNN和Image Net的成功歷史。預(yù)訓(xùn)練緩解了常用小數(shù)據(jù)集的過擬合效應(yīng),是一種有效的初始化方式,能夠加快模型的收斂速度。但在大型視頻數(shù)據(jù)集上進行預(yù)訓(xùn)練操作需要昂貴的時間成本,因此文獻[79]利用在圖像數(shù)據(jù)集ImageNet上進行預(yù)訓(xùn)練后的2DCNN模型來構(gòu)建3DCNN,其沿著時間維度堆疊相同大小的二維卷積核來重構(gòu)三維濾波器,并且通過在幀序列上同時進行二維卷積來模仿視頻流中的三維卷積操作,避免了在大型視頻數(shù)據(jù)集中進行繁瑣的預(yù)訓(xùn)練過程。但是視頻數(shù)據(jù)包含許多無用信息,若對所有特征同等對待,會導(dǎo)致特征提取過程中包含大量不必要的特征,從而干擾識別結(jié)果并增加多余的計算量。
文獻[80]表明人類在觀察周遭環(huán)境時并非關(guān)注全部內(nèi)容,而是將注意力集中在環(huán)境的顯著性區(qū)域。部分學(xué)者受此啟發(fā),在特征提取算法的設(shè)計中引入了注意力機制,幫助模型在特征學(xué)習(xí)的過程中為目標(biāo)區(qū)域分配更多的注意力資源,進而抑制冗余信息,在復(fù)雜的視頻內(nèi)容中快速篩選出關(guān)鍵信息。文獻[81]提出了一種卷積注意模塊(Convolutional Block Attention Module,CBAM),在二維殘差網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上構(gòu)建了層級雙重注意機制,將通道注意力與空間注意力依序添加到每一殘差塊中,但該網(wǎng)絡(luò)結(jié)構(gòu)忽略了對動作識別任務(wù)來說至關(guān)重要的時間信息。文獻[82]在其基礎(chǔ)上將二維殘差注意結(jié)構(gòu)擴展到三維空間,提出了一種三維殘差注意網(wǎng)絡(luò)(3D Residual Attention Networks,3DRAN),根據(jù)信道和空間注意機制子模塊在每個三維殘差塊中依次推斷所提取到的特征的信道注意映射和空間注意映射,使中層卷積特征序列性地在通道域和空間域中學(xué)習(xí)關(guān)鍵線索。文獻[83]以殘差網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了一種雙流殘差時空注意(Residual Spatial-Temporal Attention Network,R-STAN)網(wǎng)絡(luò),該網(wǎng)絡(luò)分支由集成時空注意力的殘差塊(R-STAB)堆疊而成,從而使R-STAN具有沿時間維和空間維生成注意力感知特征的能力,引導(dǎo)網(wǎng)絡(luò)更加注重為具有不同判別力的時空特征分配相應(yīng)權(quán)重,大大減少了冗余信息。文獻[84]為克服3×3×3卷積核在時空域上感受野較小未考慮到整個特征圖以及整個幀序列中的全局信息,提出了一種帶有注意力機制的時空可變形三維卷積模塊(Spatio-Temporal Deformable 3D ConvNets with Attention,STDA),沿時空維度同時執(zhí)行幀間變形操作和幀內(nèi)變形操作,自主學(xué)習(xí)在時空維度上的偏移量以自適應(yīng)擬合視頻中發(fā)生的即時復(fù)雜動作,從而產(chǎn)生更具區(qū)分度的視頻表征,補償全局信息缺失問題,更好地捕捉時空領(lǐng)域內(nèi)的長期依賴性和視頻中不規(guī)則的運動信息。
基于標(biāo)準(zhǔn)三維卷積結(jié)構(gòu)的模型因其固有的內(nèi)在結(jié)構(gòu)在提取局部時空融合特征時具有先天的優(yōu)勢,但同時也存在很多局限性。基于標(biāo)準(zhǔn)三維卷積結(jié)構(gòu)的模型所需訓(xùn)練的模型參數(shù)量十分巨大,增加了模型的計算復(fù)雜度與存儲開銷且不利于模型的迭代優(yōu)化,導(dǎo)致模型難以迅速收斂到最優(yōu)解。
(2) 基于三維卷積結(jié)構(gòu)變形的模型。為減少模型的訓(xùn)練參數(shù)、提升計算速度、減小內(nèi)存消耗,多種基于標(biāo)準(zhǔn)三維卷積網(wǎng)絡(luò)的結(jié)構(gòu)變形被提出。在早期的相關(guān)研究中,研究者將一層卷積核大小為3×3×3的標(biāo)準(zhǔn)三維卷積層近似為三個級聯(lián)的卷積層,它們的濾波器大小分別為1×3×1、1×1×3與3×1×1,提升了模型的有效性[85],但這種做法相當(dāng)于將模型的深度加深了三倍,導(dǎo)致模型難以訓(xùn)練。為解決上述問題,文獻[86]提出了一種非對稱三維卷積來近似傳統(tǒng)三維卷積以改進傳統(tǒng)3D CNN的計算復(fù)雜問題,通過將兩層卷積核大小為3×3×3卷積層近似為一層卷積核大小為1×5×1、1×1×5與3×1×1的非對稱三維卷積層,然后再堆疊多個不同的微網(wǎng)來構(gòu)建非對稱3D卷積深層模型,提高了非對稱三維卷積層的特征學(xué)習(xí)能力且不增加計算成本。
此外,分解的時空卷積網(wǎng)絡(luò)[87](Factorized spatio-temporal Convolutional Networks,FstCN)與偽三維網(wǎng)絡(luò)[88](Pseudo-3D network,P3D)也被提出用于緩解三維卷積網(wǎng)絡(luò)計算復(fù)雜的問題。文獻[89]提出了一種基于三維殘差網(wǎng)絡(luò)的時空分解方法,將標(biāo)準(zhǔn)三維卷積操作解耦為級聯(lián)的二維空間卷積與一維時間卷積,以更為緊湊的結(jié)構(gòu)取得了良好的結(jié)果。隨后,該團隊又基于分組卷積從通道分離這一全新視角提出了一種通道分離卷積網(wǎng)絡(luò)(Channel-Separated Convolutional Networks,CSN),將標(biāo)準(zhǔn)三維卷積分解為通道交互層(濾波器大小為1×1×1)與局部時空信息交互層(濾波器大小為3×3×3),前者通過減少或增加通道維度以加強不同通道之間的信息交流,后者利用深度可分離卷積的思想,摒棄了通道之間的信息傳輸而著重于局部時空信息之間的交互,降低了模型的計算量[90]。文獻[91]將二維空間卷積核與一維時間卷積核按照三種不同的方式進行連接,然后將三種網(wǎng)絡(luò)串接起來構(gòu)造偽三維殘差網(wǎng)絡(luò),降低了模型訓(xùn)練難度。文獻[92]利用張量低秩分解理論提出了Fake-3D模塊,選取C3D網(wǎng)絡(luò)作為其基礎(chǔ)架構(gòu)并結(jié)合殘差連接的思想,降低了C3D模型的參數(shù)規(guī)模且提升了識別性能。文獻[93]證明了I3D較之于I2D的性能增益,同時對該模型中全3D卷積模塊的冗余度提出了疑問,進而提出一種輕量級模型S3D-G,在底層網(wǎng)絡(luò)中采用2DCNN提取空間特征,在頂層3DCNN模塊中利用深度可分卷積構(gòu)造分離的3D時空卷積,結(jié)合了2DCNN與分解的3DCNN以實現(xiàn)在計算速度以及識別精度上的更好折中。但上述模型受限于輸入數(shù)據(jù)的時間維度僅能表征局部時空信息。
計算復(fù)雜度與內(nèi)存消耗量限制了輸入視頻數(shù)據(jù)的長度,因此基于三維卷積網(wǎng)絡(luò)的特征提取模型僅能表征短期時間范圍內(nèi)的人體動作,很難處理具有長時間跨度的視頻數(shù)據(jù)信息,從而影響模型性能,因此長期時空序列信息能否獲得充分的分析是提升視頻動作分類準(zhǔn)確性的關(guān)鍵。
為捕捉具有長時間跨度的動作信息,文獻[94]設(shè)計了具有長期時間卷積核(Long-term Temporal Convolutions,LTC)的神經(jīng)網(wǎng)絡(luò),通過同時卷積更多的視頻幀獲取更長的時間特征,但其參數(shù)量巨大,訓(xùn)練十分困難。文獻[95]提出了一種Timeception模塊,利用深度可分卷積構(gòu)造temporal-only卷積核(T×1×1×1),通過堆疊多個Timeception模塊以對視頻進行長時序建模,但該模塊選擇犧牲空間信息來交換時序信息,在長期時序建模過程中可能會導(dǎo)致上下文語義信息被壓縮,甚至丟失。基于長短時期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的模型具體指在卷積神經(jīng)網(wǎng)絡(luò)的末端添加LSTM或者與之對應(yīng)的變體結(jié)構(gòu),得益于其強大的序列建模能力,該方法也逐漸成為動作識別領(lǐng)域中的一個研究熱點。
(1) 基于標(biāo)準(zhǔn)LSTM的模型。LSTM的引入不僅解放了輸入長度,而且能更好地捕獲長期視頻數(shù)據(jù)之間的依賴性,文獻[96]先使用卷積神經(jīng)網(wǎng)絡(luò)捕捉各個獨立視頻幀的特征,然后將CNN的特征按視頻中的時間順序依次送入LSTM中以獲得時間相關(guān)性特征,以補償CNN所缺乏的時間動態(tài)。除了探索視頻幀之間的關(guān)聯(lián),LSTM還可用于建模不同視頻片段之間的語義關(guān)系,文獻[97]在經(jīng)過kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的I3D模型上引入了LSTM,利用I3D網(wǎng)絡(luò)提取不同時刻的輸入視頻剪輯的局部時空特征,然后使用LSTM建模不同剪輯片段之間的時序依賴性,實現(xiàn)了高級時間特征與局部時空融合特征的結(jié)合。與上述方法類似,文獻[98]將視頻幀和光流兩種模式送入3DCNN網(wǎng)絡(luò)與特征融合模塊,得到兩種模式的融合特征,最后利用深層LSTM對序列性的融合特征進行時序建模,以強調(diào)模型表征連貫性動作的能力。文獻[99]在3DCNN與LSTM網(wǎng)絡(luò)的基礎(chǔ)上引入了多任務(wù)學(xué)習(xí),在建模視頻幀之間的時序關(guān)系的同時強調(diào)了相關(guān)任務(wù)中所包含的豐富信息。為解決隨著LSTM網(wǎng)絡(luò)層數(shù)加深所引起的過擬合問題,文獻[100]在遞歸網(wǎng)絡(luò)中引入了殘差連接構(gòu)建偽遞歸殘差神經(jīng)網(wǎng)絡(luò)用以提取時空特征。LSTM除了用于時序建模,還可用作編碼-解碼網(wǎng)絡(luò),文獻[101]提出一種基于3DCNN的運動圖網(wǎng)絡(luò)結(jié)構(gòu)(Motion Map Network,MMN),通過迭代的方式將整個視頻所包含的運動信息集成到運動圖中,然后LSTM編碼網(wǎng)絡(luò)將提取到的特征圖編碼為對應(yīng)的隱藏激活形式,再通過輸入層的解碼網(wǎng)絡(luò)重構(gòu)近似輸出,以探索視頻序列之間的隱藏模式。
盡管LSTM具有強大的序列建模能力,但依然存有各種不足。標(biāo)準(zhǔn)LSTM僅考慮了單一方向上的序列信息,且采用向量化后的一維數(shù)據(jù)作為模型輸入,易導(dǎo)致關(guān)鍵信息的丟失問題,因此CNN與LSTM變體結(jié)構(gòu)的組合也開始受到研究者的青睞。
(2) 基于LSTM變體結(jié)構(gòu)的模型。單向LSTM僅考慮了過去的序列信息,利用其對相似性較大的動作(例如跑步與三級跳)進行分類識別易產(chǎn)生混淆,所以預(yù)知運動的結(jié)果信息也至關(guān)重要。受此啟發(fā),研究者們采用Bi-LSTM網(wǎng)絡(luò)對時間信息進行建模[102-103]。雙向LSTM由兩個不同方向的標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)堆疊而成,具有前向、后向兩條通路,將卷積神經(jīng)網(wǎng)絡(luò)所提取的特征送入后續(xù)的深層Bi-LSTM網(wǎng)絡(luò)中進行依賴性探索,能幫助模型有效地提取動作發(fā)生的過去與未來的上下文語義信息,從而更有效地區(qū)分相似運動。文獻[104]將雙流3DCNN網(wǎng)絡(luò)與雙向LSTM相結(jié)合以期在視頻流前后兩個方向上對長期依賴性進行建模。但是將卷積層特征向量化后直接輸入到LSTM中會破壞特征平面之間固有的空間位置相關(guān)性,從而干擾識別效果。
為保留特征圖的空間拓?fù)浣Y(jié)構(gòu),文獻[105]結(jié)合了3DCNN和ConvLSTM,并將這兩個網(wǎng)絡(luò)所捕獲到的二維特征送入2DCNN用于學(xué)習(xí)更深層次的特征,以實現(xiàn)任意長視頻序列的動作識別。文獻[106]結(jié)合多層密集雙向Conv-LSTM后產(chǎn)生具有豐富時空信息的相應(yīng)采樣幀的特征圖,然后與原始采樣幀一起送入3D DenseNet網(wǎng)絡(luò),在考慮不同視頻剪輯相關(guān)性的同時保留了卷積層特征平面的空間拓?fù)浣Y(jié)構(gòu)。文獻[107]設(shè)計了一種僅使用RGB圖像數(shù)據(jù)的輕量級架構(gòu),通過ConvLSTM和FC-LSTM在不同視覺感知層分別建模時序信息,有利于更好地融合局部空間細(xì)節(jié)特征與全局語義特征,增強了模型的綜合表征能力。但是ConvLSTM結(jié)構(gòu)在輸入-狀態(tài)以及狀態(tài)-狀態(tài)轉(zhuǎn)換過程中利用其內(nèi)部卷積結(jié)構(gòu)顯式地編碼輸入空間位置的相關(guān)關(guān)系與長期時間依賴性關(guān)系,其參數(shù)量較大,在小數(shù)據(jù)集上難以得到充分訓(xùn)練從而導(dǎo)致模型過擬合。針對上述問題,文獻[108]提出了一種結(jié)合3DCNN和ConvGRU結(jié)構(gòu)的深度自編碼網(wǎng)絡(luò)用于學(xué)習(xí)視頻的時空維度特征,其性能與ConvLSTM相當(dāng),但前者參數(shù)量更少且更容易訓(xùn)練。文獻[109]借助計算分解以及稀疏連接的思想,利用深度可分離卷積、分組卷積與混疊卷積替換ConvLSTM中的傳統(tǒng)卷積結(jié)構(gòu),以獲取冗余性分析。
基于CNN與LSTM網(wǎng)絡(luò)相結(jié)合的動作識別算法能最大程度地利用兩種模型的優(yōu)點,在不均勻的時間跨度內(nèi)將表觀信息、運動信息和長短期時空信息關(guān)聯(lián)起來,為后續(xù)的分類判別階段提供了一個較為全面的時空表征,但是上述模型仍然需要大量的視頻數(shù)據(jù)用于模型訓(xùn)練,這對用于訓(xùn)練的數(shù)據(jù)集要求較高,且訓(xùn)練過程中的時間成本較大,增加了模型的訓(xùn)練難度。
在基于深度學(xué)習(xí)的特征提取方法的相關(guān)實驗中,UCF101與HMDB51是使用范圍最為廣泛的數(shù)據(jù)集。UCF101是收集自YouTube的真實動作視頻數(shù)據(jù)集,囊括101個動作類別,共13 320個視頻,包羅了人與物的交互運動、身體運動、人與人的交互運動、彈奏樂器和各類運動五種動作類型。HMDB51數(shù)據(jù)集包括從各種電影片段以及公共數(shù)據(jù)庫中收集的大量真實視頻剪輯的集合。該數(shù)據(jù)集包含6 849個剪輯,涵蓋51個動作類別。動作類別可分為五種類型:一般面部動作、含對象交互的面部動作、一般肢體動作、人物交互肢體動作和人與人交互肢體動作。該數(shù)據(jù)集來源于現(xiàn)實場景,含有復(fù)雜的背景信息且在不同類別的運動中含相似場景,因此相較于UCF101更具挑戰(zhàn)性。表4羅列出了不同的深度學(xué)習(xí)特征提取方法在上述數(shù)據(jù)集上的識別準(zhǔn)確率對比。為便于描述,光流(Optical Flow)、扭曲光流(Warped Optical Flow)、堆疊的運動差分圖像(Motion Stacked Difference Image)、動態(tài)圖像(Dynamic Image)、動態(tài)光流(Dynamic Optical Flow)等輸入數(shù)據(jù)類型分別簡化為OF、WOF、MSDI、DI、DOF。此外,OFF(RGB)與OFF(OF)分別表示經(jīng)OFF子網(wǎng)絡(luò)處理后的RGB和光流數(shù)據(jù)。

表4 基于深度學(xué)習(xí)的特征提取方法識別準(zhǔn)確率對比(%)
可以看出,相較于文獻[40]利用2DCNN與單一RGB輸入模式相結(jié)合的方式,雙流網(wǎng)絡(luò)得益于光流數(shù)據(jù)在時間流信息上的補償,其平均識別精確度相較于單流網(wǎng)絡(luò)在UCF101數(shù)據(jù)集上提升了25.84百分點,證明了雙流卷積網(wǎng)絡(luò)的有效性。在基于雙流卷積網(wǎng)絡(luò)的特征提取方法中,文獻[51]利用時空異構(gòu)雙流網(wǎng)絡(luò)在UCF101數(shù)據(jù)集上達到了94.40%的準(zhǔn)確率,文獻[47]利用加權(quán)法融合TSN雙流網(wǎng)絡(luò),在HMDB51數(shù)據(jù)集上達到了68.50%的準(zhǔn)確率,實現(xiàn)了最優(yōu)的識別結(jié)果。
在基于多流卷積網(wǎng)絡(luò)的特征提取方法中,文獻[57]利用三流卷積網(wǎng)絡(luò)結(jié)合SVM模型,在UCF101和HMDB51數(shù)據(jù)集上達到了89.70%與61.30%的準(zhǔn)確率,與文獻[45]中利用雙流網(wǎng)絡(luò)結(jié)合SVM模型的方法相比較,分別提升了1.7百分點與1.9百分點。文獻[62]利用OFF子網(wǎng)絡(luò)構(gòu)建四流卷積網(wǎng)絡(luò),在兩個數(shù)據(jù)集上均取得了最優(yōu)結(jié)果,在UCF101和HMDB51數(shù)據(jù)集上分別實現(xiàn)了96.00%與74.20%的準(zhǔn)確率。與單流網(wǎng)絡(luò)相比,其平均準(zhǔn)確率在UCF101數(shù)據(jù)集上增加了28.33百分點,但是多流卷積網(wǎng)絡(luò)中精確度的提升需要以巨大的計算量為代價。
在基于三維卷積網(wǎng)絡(luò)的特征提取方法中,僅采用RGB輸入模式也能達到與雙流甚至多流卷積網(wǎng)絡(luò)相當(dāng)?shù)淖R別效果,避免了復(fù)雜的預(yù)處理過程。與其他模型相比,C3D[64]與I3D[65]模型并未在大型數(shù)據(jù)集上進行預(yù)訓(xùn)練,因此識別效果不是很理想,證明了3DCNN在小數(shù)據(jù)集上容易引起過擬合的問題。在UCF101和HMDB51數(shù)據(jù)集中,文獻[71]利用3DResNeXt-101分別實現(xiàn)了94.50%與70.20%的準(zhǔn)確率,文獻[89]利用三維卷積的結(jié)構(gòu)變形構(gòu)造R(2+1)D網(wǎng)絡(luò),分別實現(xiàn)了96.80%與74.50%的準(zhǔn)確率。與文獻[71]相比,文獻[89]利用更少的卷積層(34 vs 101)實現(xiàn)了更高的精確度,證明了基于三維卷積結(jié)構(gòu)變型模型的有效性。文獻[93]利用S3D-G模型取得了96.80%與75.90%的準(zhǔn)確率,在表4所有方法中識別精度最高,但是該方法在Kinetics與ImageNet數(shù)據(jù)集上同時進行了預(yù)訓(xùn)練,訓(xùn)練過程中的時間成本十分高昂。
在基于LSTM的特征提取方法中,文獻[97]與文獻[98]通過LSTM模型的引入,明顯提升了C3D[64]與I3D[65]模型的識別效果。此外,文獻[53]通過在雙流網(wǎng)絡(luò)中引入LSTM變體模型,在UCF101和HMDB51數(shù)據(jù)集上取得了良好的識別效果,分別實現(xiàn)了96.10%與74.20%的準(zhǔn)確率,證明了LSTM強大的序列建模能力在特征提取過程中的性能增益。該方法適用于任意長度的視頻幀輸入,在復(fù)雜度與精確度之間取得了良好折中,但是仍然要求昂貴的訓(xùn)練成本。
基于傳統(tǒng)手工特征提取的方法需要巨大的內(nèi)存開銷與計算成本,且依賴于領(lǐng)域?qū)<业南闰炛R,具有較強的主觀性,在很多情況下基于深度學(xué)習(xí)的方法表現(xiàn)更為優(yōu)越。基于深度學(xué)習(xí)的特征提取方法得益于神經(jīng)網(wǎng)絡(luò)的層級訓(xùn)練模式,通過層層遞進的特征提取機制自動從原始視頻數(shù)據(jù)中抽取高維特征,充分捕獲視頻數(shù)據(jù)的上下文語義信息,從而增加了模型的描述能力,有利于最后的識別判斷。特征提取直接關(guān)系到視頻內(nèi)容是否能夠得到準(zhǔn)確且充分的表達,進而影響分類結(jié)果。但面對爆炸式增長的視頻數(shù)據(jù)量,日趨復(fù)雜的視頻內(nèi)容以及實時性分析的現(xiàn)實需求,視頻特征提取方法也對有效性、魯棒性與時效性提出了更高的要求。現(xiàn)將視頻特征提取方法中存在的挑戰(zhàn)及未來可能的研究方向總結(jié)如下:
1) 多特征融合。不同形式的輸入通過特征提取模型處理后會得到不同類別的特征,從不同方面描述了視頻中的人體運動模式。各特征側(cè)重點不同,僅利用單一特征進行后續(xù)的識別判斷容易導(dǎo)致錯誤的分類結(jié)果。很多模型直接基于RGB數(shù)據(jù)進行特征提取,隨著攝像設(shè)備的應(yīng)用與發(fā)展,RGB數(shù)據(jù)具有便于采集且細(xì)粒度信息豐富的優(yōu)點,其對應(yīng)特征能直觀地反映物體表觀與細(xì)節(jié)紋理信息。但由于視頻采集過程中攝像頭的抖動、環(huán)境光照與遮擋等因素,RGB數(shù)據(jù)通常會帶有大量的背景噪聲,造成視頻數(shù)據(jù)時空維度上的復(fù)雜性與多變性,從而導(dǎo)致不同個體的相同動作之間會出現(xiàn)較大的類內(nèi)差距,進而影響分類特征的視頻表征能力。融合不同類別的特征能結(jié)合各特征的優(yōu)勢,以規(guī)避單特征分類任務(wù)的缺陷。目前部分研究者通過結(jié)合視頻數(shù)據(jù)中的深度信息來克服RGB數(shù)據(jù)對背景噪聲敏感的缺陷[110],但深度信息的采集成本較高且識別精度不理想。因此設(shè)計更為簡單有效的額外的輸入模式以產(chǎn)生不同類型的特征,通過多種特征相融合的方式來表征人體的運動模式更加值得討論,利用不同特征之間的互補性實現(xiàn)對多種特征的優(yōu)勢進行綜合。
2) 動態(tài)信息的表征。動態(tài)的運動信息是視頻數(shù)據(jù)中的多幀差分所包含的內(nèi)容,用以描述運動歷史,如何設(shè)計特征提取機制以期準(zhǔn)確地描述人體動作在時間維度上的動態(tài)演變,對視頻中人體動作的正確區(qū)分而言意義重大。部分研究者利用視頻中的光流特征表征人體動態(tài)信息,在補償時間信息的同時消除了無關(guān)背景因素的影響,雖然帶來了精度提升,但光流計算的復(fù)雜度較高且內(nèi)存開銷較大,極大地降低了模型的有效性與實用性。此外,光流特征往往需要預(yù)先計算,且光流視頻的生成需要耗費大量時間成本,不能達到實時分類預(yù)測的效果。因此,為滿足實用性要求,尋求一種簡單高效的動態(tài)表征以代替復(fù)雜的光流計算從而減小內(nèi)存消耗,具有重要的現(xiàn)實意義;為滿足實時性要求,將動態(tài)特征提取過程融入到動作識別網(wǎng)絡(luò)中以便進行實時預(yù)測分析,也是一個亟待解決的問題。
3) 特征篩選。視頻數(shù)據(jù)包含許多冗余信息,若對所有特征同等對待,會導(dǎo)致特征提取過程中包含大量不必要的特征,從而干擾識別結(jié)果并增加多余的計算量。注意力機制能夠模仿人類觀察世界時所采用的視覺注意機制,著重觀察空間區(qū)域中的核心目標(biāo)以及時間維度上的動作發(fā)生片段。近年來,研究者們設(shè)計了不同的時空注意力機制,趨向于將目光集中在幀級時空注意力的相關(guān)研究上,以輔助模型自動篩選重要的視頻幀以及其對應(yīng)的突出空間區(qū)域,然而相鄰幀所包含的動作信息幾乎等同以至于難以區(qū)分其重要性,部分學(xué)者試圖通過添加復(fù)雜的正則化來解決上述問題,但模型的計算量與復(fù)雜度也隨之上升,因此將研究重點從幀級注意力轉(zhuǎn)向剪輯級注意力,為不同的視頻剪輯片段分配不同的重要性分?jǐn)?shù)也是一個值得研究的方向。此外不同的卷積核對應(yīng)著不同的通道以提取不同類別的特征,因此不同通道所對應(yīng)的特征也應(yīng)該被區(qū)別性對待。綜上所述,如何調(diào)整注意力機制,以輔助模型靈活篩選關(guān)鍵性特征,是提升最終分類特征的判別能力的關(guān)鍵。
4) 多模態(tài)特征挖掘。目前大多數(shù)人類動作識別任務(wù)的研究僅考慮了視頻中的視覺特征,基于直觀感受到的視頻畫面進行人體動作的分類判別。然而現(xiàn)實生活中的視頻數(shù)據(jù)不僅僅包含圖像特征,還含有大量的語音信息與文本信息,對這些數(shù)據(jù)類型的充分利用能輔助模型進一步挖掘深層次特征,進而理解視頻內(nèi)容。如何結(jié)合視頻中不同屬性的數(shù)據(jù)類型,對各類數(shù)據(jù)所包含的信息進行顯示挖掘,協(xié)同利用多模態(tài)特征之間的互補特性,是輔助模型確定動作類別以提升識別精度的關(guān)鍵。多模態(tài)數(shù)據(jù)的引入雖然增加了不同數(shù)據(jù)類型之間的聯(lián)系,但是多模態(tài)特征的挖掘需要模型在不同數(shù)據(jù)集上進行訓(xùn)練,以及需要分別對各個模態(tài)分別進行特征提取與類別預(yù)測,這也意味著模型復(fù)雜度與模型訓(xùn)練成本的增加,因此設(shè)計一個易于訓(xùn)練優(yōu)化的模型以生成簡單有效的多模態(tài)表征也是一個值得探究的方向。
近年來,人類動作識別技術(shù)的應(yīng)用領(lǐng)域愈加廣泛,涵蓋自動駕駛、機器人與智能監(jiān)控等多個領(lǐng)域,具有重要的現(xiàn)實意義。本文對視頻中的人類動作識別領(lǐng)域中所涉及到的特征提取方法進行了全面的概述,從傳統(tǒng)的手工特征提取方法與基于深度學(xué)習(xí)的特征提取方法兩方面對其研究現(xiàn)狀進行了歸納并分析了各類方法的優(yōu)點與不足,最后總結(jié)了人類動作識別領(lǐng)域中現(xiàn)存的挑戰(zhàn)及未來可能的研究方向,以期幫助后續(xù)科研人員更加清晰明確地了解人類動作識別任務(wù)中的特征提取算法的相關(guān)研究現(xiàn)狀。