












摘 要: "為了梳理深度學習方法在人體動作識別領域的發展脈絡,對該領域近年來最具代表性的模型和算法進行了綜述。以人體動作識別任務流程為線索,詳細闡述了深度學習方法在視頻預處理階段、網絡結構上的最新成果及其優缺點。介紹了人體動作識別相關的兩類數據集,并選取常用的幾種進行具體說明。最后,對人體動作識別未來的研究方向進行了探討與展望。
關鍵詞: "人體動作識別; 深度學習; 視頻預處理; 網絡結構; 數據集
中圖分類號: "TP391.41 """文獻標志碼: A
文章編號: "1001-3695(2022)02-003-0342-07
doi:10.19734/j.issn.1001-3695.2021.07.0296
Review of human action recognition based on improved deep learning methods
Zhu Xianghua, Zhi Min
(College of Computer Science amp; Technology, Inner Mongolia Normal University, Hohhot 010022, China)
Abstract: "In order to sort out the development of deep learning methods in the field of human action recognition, this paper summarized the most representative models and algorithms in this field in recent years. Firstly, it described in detail the latest achievements, advantages and disadvantages and network structure of deep learning methods in video pre-processing stage based on the task flow of human action recognition. Then, it introduced two kinds of datasets related to human action recognition. Finally, it discussed and prospected the future research direction of human action recognition.
Key words: "human action recognition; deep learning; video pre-processing; network structure; datasets
人體動作識別一直以來都是計算機視覺領域的熱門課題之一,隨著視頻網絡信息量的急劇增加,如基于人體關節點[1,2]、基于時空興趣點[3,4]和基于密集軌跡[5]等傳統的機器學習方法已經不能滿足日益增長的應用需求,因此動作識別的重心轉向基于視頻數據的深度學習。卷積神經網絡(convolutional neural network,CNN)[6] 已經在圖像分類研究中取得優良的成果,為視頻分類任務提供了大量的信息。然而,相對于圖像而言,視頻還存在時間維度問題,如何捕獲到視頻相鄰幀之間的時間維度則是研究重點,其難點主要在于:
a)場景信息的復雜性。場景信息復雜性主要是影響動作識別的準確性,在不同角度、不同光照和不同視角下,場景所呈現的信息往往不同,相同的人體動作通常也會產生較為明顯的差異;此外,對于人體活動尺度較大、不同人的外型和人體自遮掩、部分物體遮掩等問題也都是人體動作識別中場景信息復雜性的體現,對動作識別準確性方面有很大影響。
b)動作邊界的不確定性。對于一段未剪輯過的視頻來說,其中可以包括多個動作,并且每個動作的延續時間長短不同、速度變化快,不能在時間上對動作邊界進行準確的定位,也不能在時域和時序范圍內對人體動作進行更加精細的分析。然而,模糊的動作邊界在很大程度上會減弱動作識別的準確度,并且對動作識別的高效性也有很大影響。
本文將對改進深度學習方法的人體動作識別展開綜述。
1 改進深度學習方法的人體動作識別
受益于大規模數據集和更強大的模型的提出,改進深度學習方法的人體動作研究已經成為識別主流。如圖1所示,人體動作識別的方法大多是通過模型架構自動地學習視頻中的人體行為表征來完成分類。目前,改進深度學習方法可以分為視頻預處理和網絡結構兩方面。
1.1 視頻預處理
視頻預處理的目的是從視頻的底層數據中選取部分特征信息進行動作識別。受視頻質量和場景信息復雜的影響,特征提取的方法往往也不相同,光流特征、骨骼特征、時空特征是目前人體動作識別中最常用的方法。
1.1.1 光流特征
光流特征是人體動作識別中的重要特征,它是通過視頻序列中的像素點隨時間變化而產生的軌跡特征。Horn和Schunck在1981年首次提出光流的計算,將二維速度場與灰度場相結合進行計算。隨著卷積神經網絡的提出,光流特征的有效提取也逐漸得以改進。文獻[7]在FlowNet[8]的基礎上引入了翹曲操作,提出了FlowNet2,使用翹曲操作堆疊多個網絡可以顯著 改善結果,FlowNet2延伸到了全分辨率,這不僅產生了明確的運動邊界,而且在小位移和大位移上都表現得很好。文獻[9]將雙通道光流場轉換為與RGB圖像維數一致的三通道形式,在訓練過程中使用在RGB圖像數據集上預先訓練好的模型對網絡進行初始化。其中,光流圖的兩個通道不是RGB圖像的顏色通道,而是兩個速度的矢量通道,目的是將光流信息轉換為三通道光流圖像,以提取更有價值的動作特征。文獻[10]將每個連續的幀饋入PWCNet中計算光流特征,PWCNet結構由翹曲層、成本體積層、光流估計器等六個特征金字塔組成。在每個金字塔層級,使用雙線性插值在相鄰幀之間進行翹曲操作,來處理兩幀間運動差異較大的影響。成本體積層計算第一幀對應的像素和第二幀的翹曲特征之間的相關性,得到更具區別性的光流表示;然后利用光流估計器生成金字塔級別的光流特征并進行處理得到更精細的特征。
從表1的識別準確率來看,改進后的方法在公共基準數據集上可以高效地模擬出視頻中的動作信息,但在提取光流特征時存在計算量大、消耗時間長等問題,所以對于實時性苛刻的情況應避免采用,這也將是未來研究者進一步改進的突破點。
1.1.2 骨骼特征
骨骼特征是人體動作識別中特征提取的類型之一,因為人體3D骨骼中含有關節的位置信息,并且大多數研究也是基于3D骨骼數據來說明不同的人體動作,分析每個關節之間的關系、挖掘出具有典型的一組關節特征來完成動作識別。隨著圖卷積神經網絡的提出,改進提取骨骼特征的方法成為了炙手可熱的研究熱點。文獻[11]將完整的人體骨架圖分成四個部分,并且節點之間是共享的,使用基于零件的GCN學習識別模型,結果表明,與使用全骨架圖的模型相比,不使用3D關節坐標作為節點特征而使用相對坐標和時間位移能夠提高識別性能。文獻[12]利用注意力增強圖卷積LSTM(AGC-LSTM)網絡,不但在空間和時間上獲取具有判斷力的特征,而且也能探索兩者之間的共同關系。為了更好地適應動作識別任務,文獻[13]將骨架數據設計為有向圖神經網絡(DAG)以提取關節、骨骼和兩者關系的線索,并對已獲得的特征信息進行評估預測,還將其運動信息、空間信息聯合以提高雙流框架中的性能。文獻[14]提出多尺度聚集方案,消除了不同鄰域節點特征之間的冗余依賴,使得強大的多尺度聚集器能夠有效地捕捉人類骨骼上的圖形范圍的關節關系,并且將多尺度聚集方案與時空圖卷積G3D相結合,提供了一個功能強大的特征提取器(MS-G3D), 該特征提取器具有跨空間和時間維度的多尺度感受場,使多尺度聚合進一步提高了模型的性能。文獻[15]提出了一種基于時間和信道注意的偽圖卷積網絡(PGCN-TCA),用可學習矩陣代替固定的歸一化鄰接矩陣,通過這種方式,矩陣可以學習連接關節和非物理連接關節之間的依賴關系;同時,不同層次的可學習矩陣可以幫助網絡獲取空間域的多層次特征。
從表2的識別準確率來看,改進后的方法在公共基準數據集上得到了先進的結果。但是基于目前的研究,大多數方法還存在普適性差、局限于淺層、無法處理有向圖等問題,這也將是研究者下一步的工作重點。
1.1.3 時空特征
在視頻理解領域,為了保留時序信息,需要同時學習時間特征和空間特征,從而獲得相鄰幀中的運動信息再進行特征聚合,使得到的特征信息更清晰、更有效。隨著特征提取方法的日益改進,提取具有價值的時空特征也有了顯著進步。
為了共同學習時變信息和多模態特征,文獻[16]提出深度雙線性學習框架,此框架中包括了由兩個線性池化層組成的雙線性塊,用于分別從模態和時間方向上合并輸入立方體特征,從而得到更具價值的動作信息。文獻[17]將特征圖分為空間組和通道組,并且在每個殘差塊中設計一個雙路徑模塊,使用其中一條路徑來建模空間信息,另一條路徑來探索時間信息;然后對時空特征通過并行的方式進行拼接,可以更有效地利用特征。這種時空特征的提取方法不僅減少了參數,而且便于網絡在單層中分別學習不同的方面(即靜態和動態信息)和時間多尺度特征。文獻[18]利用稀疏采樣方法進行特征融合,將得到的視頻RGB圖與光流圖送到VGG16中提取時空特征;再利用時空CNN提取中層特征,并將其送入到C3D CNN中進行分類。文獻[19]使用COTS路由器開發了一個精確的無設備動作識別系統,并提出了一種新的深度學習框架來挖掘信道狀態信息(CSI)中的時空線索。具體來說,它將整個動作樣本分割成一系列連貫的子活動片段,然后從原始CSI片段和CSI幀之間的運動中捕獲外觀上的互補特征,進而捕獲到在視頻流中的運動線索。文獻[20]通過自適應地重新校準通道性特征來有效地學習人類行為的區別性特征,采用雙流結構能夠有效地提取時空特征信息,通過使用注意力單元CAU模塊對通道間的關系進行模型化處理以進一步生成權重分布,從而有選擇地增強動作特征信息。
從表3所示的識別準確率來看,現有的改進時空特征提取方法主要以不受約束的方式聯合學習,在公共基準數據集上達到了很好的性能。但是目前的方法普遍引入了大量的參數,導致了計算負擔的增加,所以找到既可以降低參數又能得到較高準確率的方法是未來研究者主要改進的方向。
1.2 網絡結構
根據主干網絡的特點而言,基于傳統的深度學習方法的人體動作識別網絡已經不再適用于強大的模型,因此研究人員開始在其基礎上進行改進,并取得了顯著的成效。下面將從2D CNN、3D CNN和上下文推理網絡的改進進行說明。
1.2.1 "2D CNN改進
隨著人體動作識別研究的不斷發展,基于2D CNN也經歷了兩個發展歷程:第一個歷程是在傳統2D CNN的基礎上展開具體的研究;第二個歷程是構建時間序列,根據時間上下文來提取動作信息。針對第一個發展歷程,其中的一個方法是構建單流的2D CNN,主要思想是將視頻序列分割成幀,連續使用大量的卷積層和采樣層,將龐大的信息量圖像逐漸降維以獲得動作信息。但是傳統的單流結構無法在堆疊的局部區域內實現空間旋轉的不變性,并且池化層在特征提取時只能獲得局部信息,會丟失大量的動作信息。基于單流的2D CNN存在的上述問題使得2D CNN的發展進入了第二個發展歷程,即文獻[21]提出的雙流結構,如圖2所示。這個結構包含一個從每一幀中學習靜態特征的空間2D CNN和一個以光流形式為動作信息建模的2D CNN,雙流分開訓練,然后取兩個流的均值作為預測結果,識別準確率也得到了顯著提升。但是傳統的雙流網絡都存在兩個缺點:a)光流只可以模擬相鄰幀之間的運動信息,對時間跨度較大的動作信息存在局限;b)需要對光流進行額外的計算而且存儲消耗較大。
針對缺點a)對于長時間信息無法有效提取等問題,文獻[22]使用長短期記憶網絡(LSTM)聚合幀級預測得到視頻級預測。與傳統的雙流網絡框架相比,LSTM具有長時記憶功能,解決了在長時間序列訓練的過程中出現的梯度消失和梯度爆炸問題,并且實現起來簡單。文獻[23]對初始的ResNet進行改進,增加了卷積層數使其能夠更深層次地提取特征,通過與原網絡及其他的模型進行對比實驗,新網絡的模型性能得到了較高的識別準確度。文獻[24]提出長期時空特征提取(LT-NET),通過將濾波器從正方形膨脹到立方體,將2D卷積轉換為3D卷積。該研究選擇C3D作為骨干網絡,其中主要包括8個卷積層和5個池化層,它可以從堆疊的RGB圖像中捕獲長期的時空特征并且具有很強的表示能力。
針對缺點b)計算光流信息消耗大等問題,文獻[25]提出的representation flow是一個卷積神經網絡(CNN)中完全可微的層,能夠端到端地進行動作識別,實驗證明此方法比傳統的光流算法在速度和性能上都有很大提升。文獻[26]提出STM網絡,將時空和運動特征融合在統一的2D CNN框架中,不需要額外的3D卷積以及提取光流的預處理工作,其中包括兩個模塊,CSTM(逐通道時空)模塊學習到了時空特征,與輸入相比較更注重動作的主體對象部分;CMM(逐通道運動模塊)模塊則能夠像光流一樣捕捉到邊緣的運動信息。文獻[27]提出了運動激發(ME)模塊,使用ME模塊來代替傳統的提取手工光流后輸入基于2D CNN的雙流框架來進行動作識別,該模塊不需要將時空特征分流訓練,而是將運動建模直接全部整合到時空特征中學習。
從表4中對2D CNN改進前后最新研究成果可以看出,改進后的研究方法在公共基準數據集上不僅識別動作的準確率得到了顯著的提升,同時還解決了傳統雙流網絡存在的計算量大等缺點,使算法的運行時間得到了大幅度的下降,相對于單流網絡有更強的推廣性。
1.2.2 "3D CNN改進
在人體動作識別中,視頻中包含的信息往往都是三維的,傳統的2D CNN已經不能達到理想的效果。采用3D CNN對時空信息進行建模,為動作識別提供了非常有效的方式。
基于3D CNN方法最早是由文獻[28]提出的,通過將多個連續幀堆疊在一起形成立方體,再運用3D卷積核,在這個結構中,卷積層中的每一個時空特征圖都會與上一層中多個相鄰的連續幀相連,進而提取相鄰幀之間的信息以獲得時空特征。文獻[29]在此基礎上進行改進,提出了C3D,在相鄰幀上使用3D卷積將時空特征以統一的方式建模,網絡結構如圖3所示,其中包括8個卷積層、5個池化層、2個全連接層和1個softmax分類函數。與傳統的3D CNN相比,C3D更具有普遍性,適用于各種場景而且短小緊湊易于計算。雖然3D CNN可以有效地提取動作特征,但是存在如下缺點:a)大量的卷積操作產生了較多的參數,增加了時空復雜度,導致計算的負擔;b)時間信息和空間信息不易區分,容易出現過擬合的風險。對于上述兩種缺點,本文歸納了兩種改進方案:a)是在2D CNN的基礎上進行深度架構的研究;b)對現有的3D CNN模型進行改進,通過精簡、壓縮模型的方式減少復雜度和計算量。
針對方案a),文獻[30]對于2D CNN中只能對單幀圖像進行特征提取和無法建模長時間運動信息等問題提出了利用3D CNN建模,使其充分捕捉到視頻幀之間的時空信息,并得到了較好的性能。文獻[31]利用2D CNN提出I3D,將2D CNN膨脹為3D CNN卷積,就是將深度圖像分類的濾波器和池化核擴展為3D,使得從視頻信息中直接提取時空特征變成了可能,同時也利用成功的ImageNet架構精確地設計其參數,并獲得了極好的性能。文獻[32]在3D CNN模型架構的基礎上引入輕量級多尺度卷積模塊,首先,輕量級多尺度卷積模塊將中間的特征圖切割成若干個部分,再經過3D CNN進行融合,進而得到多尺度特征并賦予通道間不同的權重值,最后利用softmax分類。文獻[17]提出了協作時空(CoST)特征網絡結構,它不僅是基于3D CNN的,而且可以共享權重來學習時空特征信息。除此之外,CoST保留了原始C2D和 C3D各自的優勢,即緊湊性和表現能力,大大提升了模型性能。文獻[33]提出了X3D,網絡結構如圖4所示,沿著多個網絡軸分別在空間、時間、寬度和深度四個方面上逐一展開,形成較小的2D圖像分類體系結構。為了將X3D擴展到特定的目標復雜性,采取漸進式的方法先向前擴張,再向后收縮,X3D在具有高時空分辨率的網絡中可以執行得很好,同時需要更少的乘法和參數,實現了先進的性能。
針對方案b),文獻[34]將特征圖分解為空間組和信道組,并在每個殘差塊中設計了一個雙路徑模塊,使用一條路徑來建模空間信息,另一條路徑來探索時間信息,然后對時空特征進行拼接。與P3D網絡[35]中使用的級聯分解不同,該研究方法是以并行方式實現的,可以更有效地利用特征。這種時空分解不僅減少了參數,而且便于網絡在單層中分別學習不同的方面(即靜態和動態信息)和時間多尺度特征。文獻[36]提出了三維動態體素(3DV),3DV的核心思想是通過時間序池將深度視頻中的3D運動信息緊湊地編碼成規則的體素集,每個可用的3DV體素本質上都涉及到3D空間特征和運動特征,然后將每個3DV體素抽象為由其3D位置索引和運動值表征的點并輸入到PointNet+ +中,以端到端的學習方式進行3D動作識別,由于PointNet+ +是輕量級的,不僅可以減少參數,還可以減輕訓練的難度和負擔。文獻[37]通過GateShift模塊(GSM)將空間門技術引入到3D核時空分解中,其中GSM是輕量級的,它將2D CNN變成了一個高效的時空特征提取器。GSM首先應用2D卷積,然后將空間門分解成門控和殘差兩個張量,門控張量通過1D時間卷積,而殘差跳躍連接到其輸出。在網絡中插入GSM后,2D CNN可以通過自適應的特性將它們組合在一起,并且不增加額外參數和計算開銷,在公共基準數據集上也達到了最先進的結果。
從表5中對3D CNN改進前后的最新研究成果可以看出,改進后的3D CNN在公共基準數據集上得到了較高的動作識別準確率。同時,由于3D CNN通過共享卷積核進而產生了多張連續幀,這些幀還含有時間信息,大大降低了算法的參數量,進而加快了算法的運行速度。但是3D CNN捕獲的是短時間序列,所以在未來應該積極探索捕獲長時間序列的方法,例如在自然語言處理領域火熱的Transformer架構。
1.2.3 上下文推理網絡改進
從視覺世界更深層次的探析,機器不僅需要自動地識別出單一物體的種類,還要檢測出它們之間的相互關系。然而人類往往在兩者之間位于中心位置,如何確定人與物體之間的關系則是一個至關重要的研究問題。于是,研究者提出上下文推理網絡,在不同物體之間及整個場景之間迭代地傳播信息,有效地提取了全局上下文信息,其主要研究方法為長短期記憶網絡(LSTM)[38]和圖卷積神經網絡(GCN)[39]。
1)長短期記憶網絡
傳統的LSTM是引入細胞狀態專門進行線性的循環消息傳遞,并且引入門機制作為控制信息傳遞的路徑。雖然在處理順序數據方面有很強的能力,但是對人體動作識別缺乏很強的注意能力。其原因是LSTM在感知視頻序列的全局信息方面存在限制,使得在LSTM的每個演變過程中可以使用的都是局部上下文信息。
針對傳統LSTM的缺點,文獻[40]改進了LSTM網絡,提出了全局上下文感知注意力LSTM。在此網絡中,全局上下文信息被輸送到各個階段,因此可以利用它來評估在每個步驟中新輸入的信息性分數,并相應地調整它們的注意力權重,即:如果新輸入是關于全局動作的信息,則網絡導入更多信息;如果它不相關,則網絡阻止它輸入。文獻[41]提出了全局上下文的感知注意力LSTM (GCA-LSTM)網絡,結構如圖5所示,通過全局上下文記憶單元來選擇性地注意各個幀中的信息節點,并且引入循環注意力機制從而逐步提高網絡的性能。文獻[42]在LSTM的基礎上引入Faster R-CNN結構,通過Faster R-CNN劃分為以人為主體的感興趣區域和以場景信息為輔助區域的動作信息,然后輸送到LSTM中進行邊框回歸處理并進行動作分類。通過兩者之間的結合,可以有效地獲得空間特征和時間特征,進而得到更精確的動作分類。
2)圖卷積神經網絡
GCN在基于骨架的人體動作識別研究中獲得了很大的成功。但是圖卷積是局部運算,它不能全面研究對動作識別具有重要意義的非局部關節,并且在人體骨骼距離相差較遠的動作中不能確保關節能夠很好地融合。
針對圖卷積在人體動作識別中存在的缺點,文獻[43]提出了上下文感知圖卷積網絡(CA-GCN),網絡結構如圖6所示。它不僅計算了局部圖卷積,而且通過整合所有其他頂點的信息來為每個頂點考慮一個上下文項。因此,關節之間的長時間建模自然地集中在上下文信息,進而可以消除堆疊多層存儲的需要,并大大地縮減了網絡。此外,研究者又進行了改進,利用非對稱相關性度量和高層表示來計算上下文信息,以獲得更大的靈活性和更好的性能。文獻[44]提出了動態GCN,引入了上下文編碼網絡(CeN),通過全局的方式來學習上下文的動態骨架拓撲。特別地,當學習兩個關節之間的依賴性時,來自其余關節的上下文特征以全局方式結合。通過堆疊多個CeN到圖形卷積層中構建了動態GCN,在三個具有挑戰性的數據集上實現了最先進的性能。
從表6對改進上下文推理網絡中LSTM和GCN的最新研究成果可以看出,改進后的LSTM和GCN通過加入人體區域和場景區域的線索提高了相似動作的識別準確率;但是該方法需要識別人體位置,并且判斷人與物體的關系,使得與其他直接對人體動作識別的方法增加了大量的時間消耗。所以,降低計算量的復雜度和計算時間的消耗將是研究者的主要工作。
2 相關數據集
在人體動作識別研究領域,基于視頻預處理和網絡結構的改進方法越來越多,但是不同的網絡框架也需要一個共同的數據集來衡量性能的優劣。人體動作識別的相關數據集主要分為如表7所示的以場景為主的數據集和如表8所示的以時間為主的數據集。
2.1 以場景為主的數據集
場景信息對確定視頻中的動作標簽具有很大作用,以場景為主的數據集包含較多與動作識別有關的場景信息,因此依靠單幀去建模空間特征就可以完成識別任務。以下主要介紹在人體動作識別中幾種以場景為主的數據集:
a)Kinetics。Kinetics數據集是具有400個種類的大范圍人體動作識別視頻數據集,包含用于訓練的236 763個剪輯和用于驗證的19 095個剪輯。這些視頻片段源自于YouTube視頻,種類龐雜,僅提供沒有骨架數據的原始視頻剪輯。文獻[59]在此基礎上進行改進,主要使用OpenPose工具箱來剪輯每個幀上的18個關節位置,根據平均聯合置信度選擇兩個人進行多人視頻剪輯,并將其命名為Kinetics-Skeleton。
b)HMDB-51。HMDB-51共有51種動作類別,且每一類別至少包括了101個片段,共有6 766個視頻片段,每個片段都由至少兩名人類觀察者驗證以確保一致性。額外的元信息允許對測試數據的精確選擇以及識別系統的培訓和評估。每個片段的元標簽包括攝像機視角、攝像機運動的存在或不存在、視頻質量和參與動作的演員數量,這使設計更靈活的實驗變為可能,以評估計算機視覺系統的性能,使用選定的數據庫子集。
c)UCF101。UCF Sports、UCF11、UCF50和UCF101是UCF按時間順序編譯的四個動作數據集,每一個都包括它的前體。UCF101是對UCF50數據集進行了兩個小的改進:所有動作的組數固定為25個,每組最多包含7個剪輯。UCF101作為動作識別中最具挑戰性的數據集,是一個相對較小的數據集,總共包含101個類別和13 320個剪輯。UCF101是從YouTube下載的不受限制的視頻組成的,因此具有光照差、背景混亂和嚴重的攝像機抖動等缺點。
2.2 以時間為主的數據集
對于以時間為主的數據集,對象的時間運動交互是了解動作的關鍵,如果不考慮時間關系,就無法識別大多數動作。以下主要介紹在人體動作識別中幾種常用的以時間為主的數據集:
a)Something-Something。Something-Something v1是由大量標簽的視頻剪輯組成的,展示了人類與日常對象之間進行的基本交互。該數據集包含174個類別、108 499個視頻;Something-Something v2是v1的改進版本,具有更多視頻(總計220 847個),并大大降低了標簽噪聲。為了展示組合動作識別的思想,Materzynska等人[60]在Something-Something v2數據集的基礎上進行改進,創建了新的注釋和拆分,并將新拆分上的動作識別命名為Something-else數據集。
b)Diving。Diving48數據集包含用于48個潛水課程的超過18 000個視頻剪輯,用四種屬性組合定義了48種潛水類別:起飛、翻筋斗、扭轉和跳水姿勢,分別有4、8、8和4個不同類別。由此可見,跳水運動員表演的動作相當復雜,并且隨著運動時間的變化而變化,這使得捕捉細粒度的表現是必要的,以便捕捉那些微妙的移動以及長期的動態。與其他基準數據集相比,該數據集也在最大程度上減少對靜態框架的偏見,并促進對動作識別動力學的研究。
3 未來的研究方向
隨著深度學習方法在人工智能的廣泛應用,人體動作識別的數據集急劇膨脹轉向大型數據集,從對網絡淺層的探索轉向更深層次的探究。基于視頻的人體動作識別已經取得了較大的進展,但是在人體動作識別研究方法中還有很多值得未來研究者繼續探索的方向。
1)細粒度動作識別 2020—2021年,在計算機視覺的頂級會議CVPR、ICCV、ECCV中,Stanford Cars、Epic-Kitchens、Stanford Cars、Jester等細粒度動作識別的數據集得到了廣泛的使用, 這充分表明了人體動作識別也即將從粗粒度轉向細粒度,所謂細粒度就是側重于區分基本類別中細微的視覺差異。盡管用于一般圖像識別的卷積神經網絡技術已經越來越實用,但基于視頻的細粒度動作識別仍然是一項具有挑戰性的任務,因為動作識別更加注重運動本身和時間的上下文信息,而且要求模型能夠區分動作之間存在的微小差距,傳統的CNN無法很好地代表。因此在未來,細粒度動作識別的大部分工作都將集中在為這些微妙而有區別的細節學習更好地表示上。
2)人體動作重識別 現有的人體動作重識別方法可以分為基于圖像的[61]和基于視頻的[62]兩類。基于圖像的人體動作重識別是在不考慮時間信息的情況下將一個或多個圖像作為輸入,通常它在很大程度上依賴于與衣服的顏色或質地有關的外觀特征;相反,通過將短視頻剪輯作為輸入,基于視頻的人體動作再識別可以利用更豐富的信息,這可能有利于減輕基于外觀功能的局限性。大多數基于視頻的方法都采用3DCNN [63]、RNN/LSTM [64]或注意力機制[65]進行開發視頻中的時間關系,但是這些方法只針對跨不同幀的時間關系進行建模,忽視了幀內或跨幀的人體不同部位之間潛在的隱藏關系,這些關系可能包含有關人體動作重識別的更多判別性和魯棒性信息。盡管近年來視頻中的人體動作重識別取得了很大的進展,但是如何有效地解決視覺相似樣本間的遮掩問題和視覺模糊問題仍然是一個具有挑戰性的問題。
3)小樣本學習
深度學習在許多多媒體應用中都取得了巨大的成功,由于強大的學習能力,深度架構也已擴展為可處理更復雜的視頻領域中的任務,如視頻分類。但是在訓練這些模型的過程中需要手動標記大量的數據,這在現實世界的多媒體應用中并不現實。因此,旨在使模型僅用一個或幾個例子就能識別一個新穎的未見概念的小樣本學習[66,67]研究引起了越來越多的關注,并且取得了顯著的進展。例如,文獻[68]提出了小樣本動作識別網絡,它包括一個編碼器、解碼器和一個注意力機制來模擬短距離和長距離的時間模式,通過結合自我監督的損失和對齊的關注,使得該模型在小樣本學習領域得到較高的識別準確率。此外,文獻[69]提出了時間對齊模塊,通過時間對齊來顯式地使用視頻序列的時間上下文信息,充分增強了數據的利用率。小樣本學習在未來還可以從多模態信息、遷移學習等方面進行不斷的深入研究。
4 結束語
本文基于改進的深度學習方法展開了總結與歸納,從視頻預處理、網絡結構改進兩個方面介紹了人體動作識別的研究進展;分別介紹了以場景為主的數據集和以時間為主的數據集的特點及應用;最后從人體動作識別研究的最新動態來看,未來可以繼續從細粒度動作識別、人體動作重識別、小樣本學習等方向進行不斷的創新。
參考文獻:
[1] "Jhuang H, Gall J, Zuffi S, "et al . Towards under-standing action re-cognition[C]//Proc of the 14th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2013:3192-3199.
[2] Yang Xiaodong, Tian Yingli. Effective 3D action recognition using EigenJoints[J]. Journal of Visual Communication and Image Representation ,2014, 25 (1):2-11.
[3] Dollar P, Rabaud V, Cottrell G W, "et al . Behavior recognition via sparse spatio-temporal features[C]//Proc of the 14th International Conference on Computer Communications and Networks.Washington DC:IEEE Computer Society,2005:65-72.
[4] "Willems G, Tuytelaars T, Van Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector[C]//Proc of the 10th European Conference on Computer Vision.Berlin:Springer,2008:650-663.
[5] Wang Heng, Schmid C. Action recognition with improved trajectories[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:3551-3558.
[6] Krizhecsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM ,2017, 60 (6):84-90.
[7] Ilg E, Mayer N, Saikia T, "et al . FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2462-2470.
[8] Dosovitskiy A, Fischer P, Ilg E, "et al . FlowNet: learning optical flow with convolutional networks[C]//Proc of IEEE International Confe-rence on Computer Vision. Washington DC:IEEE Computer Society,2015:2758-2766.
[9] Wan Yanqin, Yu Zujun, Wang Yao, "et al . Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features[J]. IEEE Access ,2020, 8 :85284-85293.
[10] Berlin S J, John M. Spiking neural network based on joint entropy of optical flow features for human action recognition[J/OL]. The Visual Computer .(2020-09-21).https://doi.org/10.1007/s00371-020-02012-2.
[11] Thakkar K, Narayanan P J. Part-based graph convolutional network for action recognition[EB/OL].(2018-09-13).https://arxiv.org/pdf/1809.04983.pdf.
[12] "Si Chenyang, Chen Wentao, Wang Wei, "et al . An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-1236.
[13] Shi Lei, Zhang Yifan, Cheng Jian, "et al . Skeleton-based action re-cognition with directed graph neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:7912-7921.
[14] Liu Ziyu, Zhang Hongwen, Chen Zhenghao, "et al . Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:143-152.
[15] Yang Hongye, Gu Yuzhang, Zhu Jianchao, "et al . PGCN-TCA: pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition[J]. IEEE Access ,2020, 8 :10040-10047.
[16] Hu Jianfang, Zheng Weishi, Pan Jiahui, "et al . Deep bilinear learning for RGB-D action recognition[C]//Proc of the 15th European Confe-rence on Computer Vision.Cham:Springer,2018:346-362.
[17] Li Chao, Zhong Qiaoyong, Xie Di, "et al . Collaborative spatiotemporal feature learning for video action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:7872-7881.
[18] 王倩,孫憲坤,范冬艷.基于深度學習的時空特征融合人體動作識別[J].傳感器與微系統,2020, 39 (10):35-38.(Wang Qian, Sun Xiankun, Fan Dongyan. Fusion of spatio-temporal features based on deep learning for human action recognition[J]. Transducer and Microsystem Technologies ,2020, 39 (10):35-38.)
[19] Sheng Biyun, Fang Yuanrun, Xiao Fu, "et al . An accurate device-free action recognition system using two-stream network[J]. IEEE Trans on Vehicular Technology ,2020, 69 (7):7930-7939.
[20] Chen Lin, Liu Yungang, Man Yongchao. Spatial-temporal channel-wise attention network for action recognition[J]. Multimedia Tools and Applications ,2021, 80 (6):21789-21808.
[21] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[EB/OL].(2014-11-12).https://arxiv.org/abs/1704.00389.
[22] Ng J Y H, Hausknecht M, Vijayanarasimhan S, "et al . Beyond short snippets: deep networks for video classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:4694-4702.
[23] 呂淑平,黃毅,王瑩瑩.基于雙流卷積神經網絡的人體動作識別研究[J].實驗技術與管理,2021, 38 (8):144-148.(Lyu Shuping, Huang Yi, Wang Yingying. Research on human action recognition based on dual stream convolutional neural network[J]. Experimental Technology and Management ,2021, 38 (8): 144-148. )
[24] Wan Yanqin, Yu Zujun, Wang Yao, "et al . Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features[J]. IEEE Access ,2020, 8 :85284-85293.
[25] Piergiovanni A J, Ryoo M S. Representation flow for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9945-9953.
[26] Jiang Boyuan, Wang Mengmeng, Gan Weihao, "et al . STM: spatiotemporal and motion encoding for action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:2000-2009.
[27] Li Yan, Ji Bin, Shi Xintian, "et al . TEA: temporal excitation and aggregation for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:909-918.
[28] Ji Shuiwang, Xu Wei, Yang Ming, "et al . 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis amp; Machine Intelligence ,2013, 35 (1):221-231.
[29] Tran D, Bourdev L, Fergus R, "et al . Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC: IEEE Computer Society,2015:4489-4497.
[30] 朱云鵬,黃希,黃嘉興.基于3D CNN的人體動作識別研究[J].現代電子技術,2020, 43 (18):150-152,156.(Zhu Yunpeng, Huang Xi, Huang Jiaxing. Human action recognition based on 3D CNN[J]. Modern Electronic Technology ,2020, 43 (18):150-152,156.)
[31] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:6299-6308.
[32] 范銀行,趙海峰,張少杰.基于3D卷積殘差網絡的人體動作識別算法[J].計算機應用研究,2020, 37 (S2):300-301,304.(Fan Yinhang, Zhao Haifeng, Zhang Shaojie. Human action recognition algorithm based 3D convolution residual network[J]. Application Research of Computers ,2020, 37 (S2):300-301,304.)
[33] Feichtenhofer C. X3D: expanding architectures for efficient video recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:203-213.
[34] "Luo Chenxu, Yuille A L. Grouped spatial-temporal aggregation for efficient action recognition[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2019:5512-5521.
[35] Qiu Zhaofan, Yao Ting, Mei Tao. Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5533-5541.
[36] Wang Yancheng, Xiao Yang, Xiong Fu, "et al . 3DV: 3D dynamic voxel for action recognition in depth video[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:511-520.
[37] Sudhakaran S, Escalera S, Lanz O. Gate-Shift networks for video action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020.
[38] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.
[39] Kipf T N, Welling M. Semi-supervised classification with graph con-volutional networks[EB/OL].(2017-02-22).https://arxiv.org/pdf/1609.02907.pdf.
[40] Liu Jun, Wang Gang, Hu Ping, "et al . Global context-aware attention LSTM networks for 3D action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1647-1656.
[41] Liu Jun, Wang Gang, Duan Lingyu, "et al . Skeleton-based human action recognition with global context-aware attention LSTM networks[J]. IEEE Trans on Image Processing ,2018, 27 (4):1586-1599.
[42] 葛鵬花,智敏.基于推理網絡的人體動作識別[J].計算機工程與設計,2021, 42 (3):853-858.(Ge Penghua, Zhi Min. Human action recognition based on inference network[J]. Computer Engineering and Design ,2021, 42 (3):853-858.)
[43] Zhang Xikun, Xu Chang, Tao Dacheng. Context aware graph convolution for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:14333-14342.
[44] Ye Fanfan, Pu Shiliang, Zhong Qiaoyong, "et al . Dynamic GCN: context-enriched topology learning for skeleton-based action recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:55-63.
[45] Sigurdsson G A, Varol G, Wang Xiaolong, "et al . Hollywood in homes: crowdsourcing data collection for activity understanding[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:510-526.
[46] Gu Chunhui, Sun Chen, Ross D A, "et al . AVA: a video dataset of spatio-temporally localized atomic visual actions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6047-6056.
[47] Goyal R, Kahou S E, Michalski V, "et al . The “something something” video database for learning and evaluating visual common sense[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5842-5850.
[48] Li Yingwei, Li Yi, Vasconcelos N. RESOUND: towards action recognition without representation bias[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:520-535.
[49] Materzynska J, Berger G, Bax I, "et al . The Jester dataset: a large-scale video dataset of human gestures[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshops.Piscataway,NJ:IEEE Press,2019.
[50] "Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach[C]//Proc of the 17th International Conference on Pattern Re-cognition. Washington DC:IEEE Computer Society,2004:32-36.
[51] Gorelick L, Blank M, Shechtman E, "et al . Actions as space-time shapes[J]. IEEE Trans on Pattern Analysis amp; Machine Intelligence ,2008, 29 (12):2247-2253.
[52] Weinland D, Boyer E, Ronfard R. Action recognition from arbitrary views using 3D exemplars[C]//Proc of the 11th IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2007:1-7.
[53] Laptev I, Marszalek M, Schmid C, "et al . Learning realistic human actions from movies[C]//Proc of IEEE Conference on Computer "Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2008:1-8.
[54] Niebles J C, Chen C W, Li Feifei. Modeling temporal structure of decomposable motion segments for activity classification[C]//Proc of the 11th European Conference on Computer Vision.Berlin:Springer-Verlag,2010:392-405.
[55] Kuehne H, Jhuang H, Garrote E, "et al . HMDB: a large video database for human motion recognition[C]//Proc of International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2011:2556-2563.
[56] Soomro K, Zamir A R, Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL].(2012-12-03).https://arxiv.org/pdf/1212.0402v1.pdf.
[57] Kay W, Carreira J, Simonyan K, "et al . The kinetics human action video dataset[EB/OL].(2017-05-19).https://arxiv.org/pdf/1705.06950.pdf.
[58] Zhao Hang, Torralba A, Torresani L, nbsp;et al . HACS: human action clips and segments dataset for recognition and temporal localization[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8668-8678.
[59] Yan Sijie, Xiong Yuanjun, Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018.
[60] Materzynska J, Xiao Tete, Herzig R, "et al . Something-else:compositional action recognition with spatial-temporal interaction networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1049-1059.
[61] Zhao Liming, Li Xi, Zhuang Yueting, "et al . Deeply-learned part-aligned representations for person re-identification[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3219-3228.
[62] Fu Yang, Wang Xiaoyang, Wei Yunchao, "et al . STA: spatial-temporal attention for large-scale video-based person re-identification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8287-8294.
[63] Li Jianing, Zhang Shiliang, Huang Tiejun. Multi-scale 3D convolution network for video based person re-identification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8618-8625.
[64] Yan Yichao, Ni Bingbing, Song Zhichao, "et al . Person re-identification via recurrent feature aggregation[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:701-716.
[65] Li Shuang, Bak S, Carr P, "et al . Diversity regularized spatiotemporal attention for video-based person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:369-378.
[66] Snell J, Swersky K, Zemel R S. Prototypical networks for few-shot learning[EB/OL].(2017-06-19).https://arxiv.org/pdf/1703.05175.pdf.
[67] Vinyals O, Blundell C, Lillicrap T, "et al . Matching networks for one shot learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:3637-3645.
[68] "Zhang Hongguang, Zhang Li, Qi Xiaojuan, nbsp;et al . Few-shot action recognition with permutation-invariant attention[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:525-542.
[69] Cao Kaidi, Ji Jingwei, Cao Zhangjie, "et al . Few-shot video classification via temporal alignment[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10618-10627.