999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的人體行為識別檢測綜述

2021-08-11 06:46:12梁起明楊凱凱郭少哲張友善
科學技術與工程 2021年20期
關鍵詞:檢測

李 永, 梁起明, 楊凱凱, 郭少哲, 張友善

(1.武警工程大學信息工程學院, 西安 710086; 2.武警工程大學研究生大隊, 西安 710086)

由于人機交互、智能安防等領域迫切的應用需求,人體行為識別檢測近年來成為計算機視覺領域的研究熱點之一。依據任務的性質劃分,行為識別檢測主要包括行為識別和行為檢測兩大部分。行為識別的主要任務是在已剪切視頻中對正在進行的行為進行分類。行為檢測的主要任務是在視頻序列中檢測出行為發生的時空位置,并對行為進行分類,主要包括時序行為檢測和時空行為檢測[1]。具體來講,時序行為檢測是指在包含背景片段的視頻中準確定位行為發生的起止時間,并對行為進行識別;時空行為檢測是指在包含背景片段的視頻中準確定位行為發生的起止時間、在畫面中標定行為主體的位置,并進行行為識別。

目前,對行為識別檢測的總結和綜述主要聚焦在行為識別領域,對行為檢測的關注度較低。文獻[2]對早期的行為識別數據集以及基準進行了總結,并介紹了2013年以前行為識別領域面臨的困難和挑戰。文獻[3]重點對基于手動提取特征表示的行為識別方法進行了詳細的綜述。文獻[4]對基于傳統方法和基于深度學習方法的行為識別進行了概述,重點對基于不同輸入內容與不同深度網絡的行為識別方法進行了詳細的總結和比較。文獻[5]對基于手工特征及基于深度學習的行為識別方法進行了系統的總結,指出當前各種算法的缺陷和不足,并從性能和應用兩個方面對基于深度學習的人體行為識別方法進行了展望。文獻[1]對行為識別檢測的研究現狀進行了詳細的總結。

前人在行為識別檢測領域的研究論述對行為檢測的關注度不足,也沒有包括目前最先進的行為識別、行為檢測方法。為此,聚焦行為識別和行為檢測兩個領域,分別綜述了行為識別以及行為檢測的各種方法,對行為識別檢測常用的各種數據集進行了總結介紹,并分析了行為識別檢測各種算法的特點。

1 行為識別

行為識別屬于計算機視覺領域中的模式分類問題,主要包括視頻預處理、行為表達和行為分類3個步驟[6]。表1為UCF-101和HMDB51數據集中各種算法的準確度[7-21]。

表1 行為識別算法在UCF-101和HMDB51數據集準確度

1.1 行為識別數據集介紹

自2004年KTH[22]數據集發布后,許多優秀的行為識別數據集雨后春筍般涌現,表2簡要介紹了其中具有代表性的幾種。目前行為識別領域應用最廣的數據集為UCF-101[23]及HMDB51[24]。UCF數據集由美國中佛羅里達大學(University of Central Florida)發布,其中UCF101是應用最廣的數據集,囊括收集自YouTube的101個動作類別的13 320個視頻片段,每個類別分為25組,每組包含4~7個剪切后的視頻片段。UCF101涵蓋視頻種類多,場景豐富,具備優良的挑戰性。

表2 行為識別常用數據集

HMDB51由布朗大學發布,擁有收集自電影、YouTube和谷歌視頻等的51個動作類別的6 849個視頻片段,每個類別包含至少101個剪輯片段。行為識別領域對UCF-101以及HMDB51的高關注度促進了相關準確度的提升,目前UCF-101和HMDB51數據集的識別最高準確度分別達到了98.69%和85.1%。但是UCF-101和HMDB51數據集的數據規模相對而言已經偏小,無法滿足算法進步的需求。

在UCF-101及HMDB51之后,規模更大的數據Kinetics-400[25]的應用也十分廣泛。Kinetics數據集2017年作為ActivityNet視頻理解競賽的數據集之一發布,擁有收集自YouTube的400個動作類別的306 245個視頻片段,每個視頻片段長度約10 s。Kinetics-400之后,DeepMind又對數據集進行了擴充,分別于2018、2019年發布了Kinetics-600[26]和Kinetics-700[27]。對UCF-101和HMDB51等數據集研究的深入并不代表著現行行為識別算法具備足夠的泛化能力,能夠應對各種實際場景的挑戰,因此,行為識別數據集也慢慢向著種類更多、場景更復雜的方向發展。表2為行為識別常用數據集的基本情況[28-39]。

1.2 基于手動提取特征的行為識別

傳統的行為識別方法主要是基于手動提取特征的方法,其流程圖如圖1所示[3]。傳統方式采用的特征提取方式主要包括全局特征提取和局部特征提取。全局特征提取中主要包括輪廓剪影和人體關節點兩種方法。Bobick等[40]在背景減除法的基礎上建立運動能量圖實現行為的分類;文獻[41-42]通過確定關節點的坐標建立人體三維輪廓進行特征提取。局部特征提取主要包括時空興趣點采樣和軌跡跟蹤這兩種特征提取方法。Willems等[43]提出了基于Harris3D的時空興趣點檢測方法;Wang等[9,44]提出了的稠密軌跡提取相關算法DT(dense trajectories)和IDT(improved dense trajectories)。

圖1 基于手動提取特征的行為識別流程[3]

1.3 基于深度學習的行為識別

根據特征提取的方式不同,目前基于深度學習的行為識別常用方法大致可以分為:雙流卷積神經網絡(convolution neural network,CNN)模型、時空模型和時序模型。雙流CNN模型主要通過兩條并行的通路分別提取時空信息,采用合適的通道融合方式實現行為的分類。時空模型主要采用3D卷積來同時提取行為的時空信息,近幾年部分學者采用合適的視頻預處理方式使得時空模型也可以通過簡單的2D卷積來實現行為的分類。時序模型主要依賴循環神經網絡及其變體來提取行為中的時序信息,通過卷積神經網絡來提取空間信息。

1.3.1 雙流CNN模型

對于視頻行為的分析,不僅需要了解某一時刻的靜態單幀,也需要“結合上下文”獲取視頻的時序信息。雙流神經網絡使用時間流對視頻的靜態圖像幀進行處理,使用空間流對幀間密集光流進行識別,而后對識別結果進行融合,實現對行為的分類。這一思想在2014年由Simonyan等[10]提出,圖2[10]為分離空間和時間識別流,采用光流圖進行訓練有效地降低了訓練時間,每個支流都采用AlexNet[45]進行處理,而后通過softmax層進行分類得分融合,實現了對行為的識別。

聚焦雙流的融合,Feichtenhofer等[14]發現可以在卷積層而不是在softmax層融合時空網絡,這樣可以節省大量參數;在類預測層上進行額外融合可以提高準確性,在最后的卷積層上進行融合可以取得最佳效果。He等[46]提出了的殘差網絡(residual network, ResNet)在圖像分類和目標檢測方面表現出優良的性能;Feichtenhofer等[47]首次將ResNet引入雙流神經網絡中用于行為識別,在雙流架構間注入殘差連接,以允許兩個流之間進行時空交互。Ng等[48]在雙流神經網絡的基礎上引入長短期記憶網絡(long short-term menory, LSTM)[49]進行改進,使用LSTM對雙流CNN的輸出進行融合,與最大池化不同,使用遞歸神經網絡來明確考慮CNN激活的序列,通過LSTM的記憶單元有效地表達幀的前后順序,實現了對長視頻中動作的識別。

上述方法雖然實現了對于長視頻的識別,但是需要處理的數據量過大。為此Wang等[17]采用稀疏時間采樣策略和基于視頻監督的策略即時域分割網絡(temporal segment network, TSN),實現了對長期運動的識別,并大幅降低了數據量。

雙流神經網絡雖然能夠有效地融合視頻行為的時域和空域信息,提升識別的準確性,但是一個嚴重的弊端是在進行數據處理之前必須獲取視頻的RGB幀和光流圖像,這個過程需要耗費大量的時間和算力,導致雙流神經網絡的實用性不強。因此Zhu等[15]在雙流神經網絡的基礎上進行改進,通過在時間流建立被稱為MotionNet的網絡結構產生與傳統方法相近的光流,然后以一種端到端的方式調整這個堆疊時間流CNN來實現預測輸入幀動作類別的目標,由此雙流神經網絡實現了端到端的行為識別。

Feichtenhofer等[50]受到雙流CNN模型的啟發設計了輕量級的雙流網絡Slowfast, Slowfast在空間流以低幀速率進行卷積運算來獲取空間信息,在時間流通過高幀速率進行卷積運算來獲取時序信。最終通過橫向連接進行通道融合,避免光流的參與實現了行為的分類。

Qiu等[19]提出了一種新的基于局部和全局擴散(local and global diffusion,LGD)的時空表示學習框架。這種結構由基本的LGD模塊構成,其中每一個模塊通過兩個特征互相傳播來同時更新局部和全局特征。這種傳播操作有效地結合了局部和全局兩方面的信息,從而獲得了更加強大的視頻特征表達能力。

雙流CNN模型目前還很難應用于端到端的行為識別,但是采用雙流CNN來提取時空特征的思想啟發了行為識別和行為檢測相關算法的創新,促進了行為識別檢測的發展。

1.3.2 時空模型

在2D CNN中,卷積只能應用于2D特征圖,難以處理包含時序特征的視頻數據。Ji等[41]首先將3D卷積應用到視頻行為分析中,實現了從視頻中提取空間與時序特征。Tran等[7]在3D卷積的基礎上進行整合,提出建立C3D(convolutional 3D),通過3D卷積和3D池化同時在時間和空間中進行時空特征提取。C3D實現了使用大規模視頻數據集訓練來學習視頻的時空特征,有效提升了相關算法的泛化能力。

Diba等[13]提出了一種模型遷移的方法,引入一種新的時域層“時間過渡層”(temporal transition layer,TTL)為可變時域卷積核深度建模,而后將TTL嵌入到的3D CNN中,并將DenseNet[51]結構從2D擴展到3D,形成DenseNet3D,從而構建起新的網絡Temporal 3D ConvNets(T3D)。實驗結果顯示,T3D可以有效利用視頻中的時間線索進行行為分類,在一定程度上提升了識別的準確度。

針對3D卷積網絡參數量大的問題,Qiu等[11]對殘差網進行改進,提出了Pseudo-3D Residual Net (P3D ResNet)。P3D ResNet在每個瓶頸結構塊中使用1×3×3卷積層和3×1×1卷積層進行組合,以并行或串行的方式替代原有的3×3×3卷積層,形成新的P3D塊。而后將P3D塊進行適當的組合,構建起類似殘差網絡的結構偽3D殘差網(P3D ResNet)。最終實驗證明,P3D ResNet在行為識別方面有明顯的提升。

在圖像分類的領域中,通過ImageNet獲取的訓練模型可以很好地應用到其他領域和任務中;在行為識別領域也可以采用類似的方法來降低訓練的工作量。為了能夠在3D卷積網絡上使用預訓練參數,Carreira等[18]在成熟的2D卷積網絡Inception-v1[52]的基礎上進行改進,將該網絡的卷積核池化核全部擴充至三維。將3D模型在ImageNet上進行隱式預訓練,在Kinetics獲取3D卷積的預訓練模型。最終結果顯示,經過Kinetics預訓練過的I3D模型在行為識別領域有較大的提升。

3D卷積較2D卷積計算更復雜、運算量也更大,為此眾多學者提出了各種方法,但卻沒有實質性地解決3D卷積的問題。Lin等[53]創造性地提出了時序遷移模塊(temporal shift module, TSM),通過在時序維度將相鄰幀之間進行遷移拼接,采用2D卷積的方式同時提取時空信息,實現了3D卷積的效果,有效解決了3D卷積在參數和計算中存在的問題。而后,在TSM的基礎上,Shao等[54]進一步改進,提出了時間交錯網絡(temporal interlacing network, TIN)強化了時空信息的融合;Fan等[55]提出了可學習的3D遷移網絡RubkisNet,將遷移拼接操作拓展到空間領域,引入可學習的時空遷移操作,更大范圍獲取了時空信息。

另外,Li等[56]通過建立時序激勵聚集模塊(temporal excitation and aggregation block, TEA) 分別提取了相鄰幀信息與多幀全局信息,有效地進行了時序信息建模,有效降低網絡的復雜度,同樣有效避免了3D卷積神經網絡的弊端。

時空模型目前通過特殊的數據預處理方式,僅通過2D卷積就可以實現對行為的準確分類。這樣的設計使得行為識別變得更加簡便,可以通過終端部署實現相應的行為識別功能。基于時空模型的行為識別是當前研究的突出方向,相關算法一定程度滿足了準確性和實時性的要求。

1.3.3 時序模型

循環神經網絡(recurrent neural network,RNN)的突出優點是可以根據歷史信息來輔助當前的決策,具體是指一個序列當前的輸出與之前的輸出也有關,網絡會對之前的信息進行記憶并應用于當前的輸出中。但是受限于梯度發散或梯度消失,RNN只能保留較短時間的記憶,LSTM[49]很好地解決了上述問題。LSTM的記憶特性使得其廣泛應用于自然語言處理,能夠有效聯系上下文進行學習分析;同樣LSTM也可以通過記憶特性處理時序信息,在行為識別領域也可以發揮強大的作用。Donahue等[8]基于LSTM建立了長時循環卷積神經網絡,通過CNN提取視頻中的空間特征,而后將全連接層的輸出通過LSTM進行時序學習,由此實現對行為進行分類。

LSTM部門之間是依賴于類似前饋式神經網絡來計算的,故又稱為全連接LSTM(FC-LSTM)。這種FC-LSTM可以很方便地處理時序數據,但是對于空間數據來說,由于其具備很強的局部特征,而FC-LSTM無法刻畫局部特征,將會帶來嚴重的冗余性。文獻[8]引入convLSTM[57]替換傳統的LSTM,實現了時空信息的融合。結果表明,與傳統的FC-LSTM模型相比,convLSTM模型能夠以較少的參數生成更好的視頻表示,避免了過擬合,在一定程度上提升了識別的準確度。

Li等[12]將convLSTM與Attention LSTM進行了融合,構建了新的網絡結構VideoLSTM。VideoLSTM引入卷積以充分利用圖像中的空間相關性,引入淺卷積神經網絡,允許運動信息生成基于運動的注意圖,僅依靠視頻級的動作類別標簽,利用注意圖對動作進行時空定位。結果表明,VideoLSTM可以在UCF-101數據集上取得88.9%的識別準確率,在HMDB-51數據集上取得56.4%的識別準確率。然而,LSTM和GRU對時序信息的處理能力有限,當卷積神經網絡過于復雜時,往往難以有效進行時序信息建模,這就導致目前基于循環神經網絡的行為識別發展面臨瓶頸。

2 行為檢測

2.1 行為檢測數據集介紹

時序行為檢測常用的數據集主要是THUMOS14、MEXaction2和ActivityNet。THUMOS 14由THUMOS Challenge 2014大賽發布,包括行為識別子數據集和時序行為檢測子數據集。時序行為檢測子數據集的訓練集來自UCF101數據集,共包含20個類型;驗證集包括20個類型的200個視頻;背景數據集包含與UCF101數據集動作場景相近的2 500個背景視頻,但沒有收錄UCF101數據集中的任一實例;測試集包含1 574個未經剪切的長視頻。

時空行為檢測數據集中常用的是J-HMDB和UCF101-24。J-HMDB是HMDB數據集的子集,共有21個類型的動作,每個動作類型包含36~55個剪輯,每個剪輯包含15~40幀,一共包含928個短視頻。UCF101-24是UCF101的子集,共包括24個行為類別的3 207個視頻片段,并提供了相應的時空標注。此外,每個視頻中可能有多個行為實例,它們具有相同的類標簽,但是具有不同的空間和時間邊界。這樣的特性使得行為檢測更具挑戰性。

2.2 時序行為檢測

時序行為檢測區別于行為識別,不僅需要對行為本身進行分類,也需要在視頻中定位行為發生的時間段,具體來講,就是在未經剪切的長視頻中準確定位行為發生的起止時間,并判定行為的類別。表3[58-65]、表4[66-77]分別為時序行為檢測常用算法在ActivityNet-1.3數據集和THUMOS′14數據集中的準確度,其中mAP@k表示交并比等于k(0

表3 ActivityNet-1.3數據集各算法比較

表4 THUMOS′14數據集各算法比較

2.2.1 基于局部特征的檢測方法

與行為識別類似,傳統的時序行為檢測方法使用局部描述子和線性分類器來生成目標片段[78]。此類方法首先在時序上生成候選片段,然后對每段構建局部時空特征表達并根據該片段于Ground Truth的tIoU(temporal IoU)的大小確定樣本標簽,而后訓練分類器實現行為檢測[1]。

動作定位的主要難點是動作發生的不確定性和對不同尺度信息的利用。Yuan等[79]為解決這一問題,提出了兩項創新。首先,基于IDT特征提出了一種分數分布金字塔特征(pyramid of score distribution feature,PSDF)來捕捉以每個檢測窗口為中心的多分辨率運動信息。其次,通過將PSDF與最新的LSTM相結合,應用Elman-Net和LSTM對定位任務進行了優化,在時序行為檢測時獲得額外的性能增益。但是由于IDT特征的提取過于復雜,因此該種方法的實際應用價值不大。Hou等[80]提出了一種新的全自動子動作發現算法,實現了實時的時序行為檢測。使用支持向量機對相鄰的子動作進行劃分,使用層次聚集聚類來合并相似的候選子動作,通過迭代過程來調整子動作分區。使用子動作檢測器進行檢測,獲取一系列的檢測分數。而后通過同時考慮子動作得分和子動作之間的距離來選擇子動作檢測的最佳組合,實現動作檢測。

2.2.2 基于深度學習的檢測方法

時序行為檢測的另一種主要方法是使用各種各樣的深度網絡來實現。Shou等[67]受到R-CNN的影響,開發出了一種用于時序行為檢測的高效神經網絡分段CNN(Segment-CNN,S-CNN)。S-CNN通過滑動窗口機制將長視頻劃分為不同長度的片段,而后采用3D-CNN判斷不同的片段是否存在動作場景。該算法可以生成高召回率的預選框,但同時計算量也很大。

Shou等[68]在C3D網絡基礎上,借鑒了FCN[81]的思想,提出了經典的卷積-反卷積網絡(convolutional-de-convolutional,CDC)。C3D網絡能夠很好地學習時空的高級語義抽象,但是丟失了時間上的細粒度,作者提出用CDC filter在空間上卷積,在時間上反卷積,解決了時間定位的精度問題。但是CDC通過逐幀預測實現行為檢測,因此,當視頻片段較長時,CDC只能通過犧牲效率來維持準確性。Xu等[58]受到目標檢測方法Faster R-CNN[82]的啟發,提出了區域卷積3D網絡(Region Convolutional 3D Network,R-C3D),可以快速檢測任意長度的視頻。R-C3D是用于行為檢測的第一個端到端時序候選分類網絡,有比較好的效果,在THUMOS2014數據集上交并比(intersection over union,IoU)等于0.5時的mAP達到了28.9%。

同樣受到Faster R-CNN的影響,Chao等[60]提出了一種改進的時序行為檢測方法TAL-Net。在Faster R-CNN的基礎上對網絡架構進行了重新設計,主要包括:Faster R-CNN采用共享的特征表示來評估不同尺度的錨,但這可能導致特征的感受野與錨的跨度之間不匹配,TAL-Net使用多塔網絡和擴張的時間卷積確保了匹配關系。Faster R-CNN無法通過時間上下文獲取定位和分類的關鍵信息,TALNet通過擴展提案生成和動作分類中的接受字段來顯式編碼時間上下文,使用晚融合機制融合RGB和光流的特征。實驗表明,TAL-Net在IoU=0.5時可以在THUMOS2014數據集上實現42%的mAP,在準確度上有較大的提升

上述的諸多行為檢測網絡僅僅單獨處理每個動作,而在學習過程中不會明確利用它們之間的關系。但是有意義的動作始終在視頻中包含多個候選區域,候選區域之間的關系實際上在動作定位中起著重要作用。Zeng等[63]使用圖卷積網絡(graph convolutional networks,GCN)[83]探索候選區域之間的關系,構建了新的網絡模型P-GCN,解決了上述問題。P-GCN在THUMOS2014數據集上IoU=0.5時的mAP達到了49.1%,是目前最好的成績。

Liu等[84]提出了建立多粒度生成器(multi-granularity generator, MGG)來進行時序行為檢測,通過類似雙流CNN的結構,在兩條通路分別判定行為的起止時間以及進行逐幀評估。Gao等[85]在金字塔網絡的基礎上提出關系感知金字塔(relation-aware pyramid,RapNet),有效獲取全局特征信息,并定位了不同長度的行為片段。Lin等[86]建立了一種新穎的稠密邊界動作生成器(dense boundary generator,DBG),同樣采用類似雙流CNN的方式分別提取RGB特征和光流特征,建立動作感知完備性回歸分支和時間邊界分類分支實現對行為的快速檢測。

2.3 時空行為檢測

時空行為檢測的目的是在視頻序列中判斷行為的起止時間、空間位置以及行為類型,也就是在時序行為檢測的基礎上在視頻畫面中準確標記出行為的主體。該任務主要面臨的挑戰在于視頻數據的分辨率不足、視角變化多、行為時長分布廣、同一個視野中行人干擾多等[1]。表5為時空行為檢測算法在J-HMDB-21和UCF101-24數據集中的準確度[71-75]。

表5 時空行為檢測算法性能比較

Puscas等[87]采用無監督的樣本采集方法,使用DT算法在不同幀上匹配和跟蹤候選區域。以連續

兩幀之間的光流信息作為權值參考,使用簡單的投票機制來連接幀級的行為模式,構成時空行為模式,被稱為時空管道。這些候選的時空管道,可以用于訓練行為檢測器。

上述方法沒有有效地利用行為的時序特征,容易造成檢測的結果偏模糊。Kalogeiton等[88]在SSD框架的基礎上搭建起動作管檢測器(action tubelet detector,ACT)。ACT考慮到多個視頻幀的連續性特征,從而減少了行為預測的模糊性,同時提高定位準確度。Gu等[89]采用I3D進行上下文時序建模,使用Faster R-CNN進行端到端的定位和動作分類。采用雙流的方法,通過RGB流獲得候選區域,將RGB連同堆疊在5個連續幀上的光流特征輸入區域分類器,將conv4特征圖與平均池融合來聯合訓練RGB流和光流流。實驗表明,該種方法具備良好的性能。

受到人類視覺認知系統的啟發,Kpüklü等[90]提出了一個用于時空行為檢測的統一的CNN架構YOWO(you only watch once)。如圖3所示,YOWO包括3D-CNN分支、2D-CNN分支、通道融合與注意機制(channel fusion and attention mechanism, CFAM)部分和邊界框回歸部分,其中H、W為張量的高和寬,C、W分別為張量的通道和深度。YOWO在3D-CNN分支使用3D-ResNet-101[91]來提取時空特征,在2D-CNN分支使用DarkNet-19[92]來提取關鍵幀的二維特征,解決空間定位問題。3D-CNN分支和2D-CNN分支的輸出具有相同的尺寸,便于在CFAM進行特征映射的融合,最終在邊界框回歸部分采用與YOLO[92]相同的邊界框回歸準則進行輸出。

圖3 YOWO網絡結構圖[90]

僅依靠自身,3D-CNN和2D-CNN都無法獨立解決時空定位任務。但是,如果它們同時運行,則有可能彼此受益。YOWO在UCF101-24數據集上的frame-mAP指標達到87.2%,在J-HMDB-21數據集上則達到了74.4%,明顯優于其他算法。同時YOWO在處理過程中避免了光流的參與,提升了模型的速度,實現了端到端的快速時空行為檢測。

Mo等[93]在YOWO的基礎上提出了使用Linknet在2D卷積和3D卷積結構之間引入連接,采用類似YOLOv2的DIYAnchorBox來實現行為主體的精確定位,建立了YOWOv2網絡,有效降低了模型的復雜度,進一步了提升網絡的準確度。

3 算法總結

在實際場景中,行為檢測的應用價值要大于行為識別。但就目前的發展趨勢來看,行為檢測需要完成的任務更多、數據集更大,因此行為檢測的難度要遠大于行為識別。行為識別是行為檢測的基礎,行為識別的發展可以促進行為檢測的進步,行為識別常用的雙流法、3D卷積等思想為行為檢測算法的發展提供了借鑒。

在行為識別領域,主流的算法包括雙流網絡、3D卷積神經網絡和循環神經網絡等。雙流網絡通過兩條路徑分別提取視頻行為的時空信息,而后采用恰當的方式進行融合,有效地提升了識別的準確性,但也必然導致運算量的增加。3D卷積神經網絡使用三維卷積的方式同時提取時空信息,在運算速度上較雙流網絡快一些,但是在識別的準確性方面不及雙流網絡。循環神經網絡在時序信息的提取方面存在先天優勢,再利用卷積神經網絡提取行為的空間信息即可以實現對行為的識別,但是目前在準確性方面的表現明顯要弱于其他主流方法。行為檢測起步較行為識別要晚,但是在行為識別算法的影響下發展較快。行為檢測在視頻領域的作用類似于目標檢測在圖片領域的作用,因此行為檢測的很多算法受到了目標檢測的影響。從總體上來看,行為檢測的很多算法剛剛處于起步狀態,無論在實時性還是準確性上仍有大幅的提升空間。

3.1 當前主要困難

3.1.1 硬件條件要求高

行為識別和行為檢測仍然面臨很多問題,主要集中在硬件計算能力和神經網絡性能方面。目前最先進的行為識別算法也需要依靠頂尖級的中央處理器(central processing unit, CPU)、圖形處理器(graphics processing unit,GPU)來提供算力支撐,普通計算機無法運行相關算法,這就導致行為識別無法做到大規模推廣部署。隨著行為識別和行為檢測的發展,為了有效地學習視頻中的特征,相應的數據集規模不斷被擴充,目前部分開源數據集動輒上百GB甚至達到幾TB,對硬件的存儲空間以及讀寫能力都提出更高要求。

3.1.2 數據收集困難

行為識別以及行為檢測主要通過監督學習來實現對特征的有效提取,這就必然導致在學習的過程中需要大量帶有標簽的視頻片段作為數據支撐,然而在實際研究過程中,對于視頻數據的收集、處理以及標記都需要耗費大量時間精力,這就導致行為識別以及行為檢測在獲取數據過程中將面臨不小的困難。

就時序行為檢測而言,為了在包含背景信息的視頻中準確定位行為發生的時間段,需要使用較行為識別更長的視頻數據進行訓練驗證,導致時序行為檢測的數據集過于龐大。例如用于時序行為檢測的數據集ActivityNet僅提視頻的相應YouTube鏈接,并沒有完整的數據集可供研究人員下載。對時空行為檢測而言,行為的檢測需要動態把握行為主體的位置,相對于靜態的目標檢測而言難度更大。為了進行時空行為定位,時空行為檢測需要對獲取的視頻數據進行有效標定,這就導致相應數據的處理較行為識別更加復雜,所以當前在時空行為檢測領域可供使用的數據集十分稀缺。

3.1.3 行為特征判斷困難

人類可以做出的行為千變萬化,在不同的場景、面對不同的對象、做出動作的快慢等等細微的差別都會影響行為的類別。例如,人與人之間簡單的拍打動作,動作發生的快慢將直接決定動作本身是否具備暴力屬性,而快慢的程度卻無法采用任何定量標準來簡單判斷,在特征提取時視頻中細節性的變化都會對行為的分類產生干擾。同時,背景信息所產生的光照變化、遮擋以及噪聲問題也會對特征的提取產生不利影響。總而言之,行為識別以及行為檢測對特征提取的敏感度很高,特征提取比較困難。

3.2 未來研究方向

3.2.1 擴充數據集

行為識別在常用的數據集如HMDB51和UCF101已經可以達到90%左右的準確度,目前已經難以滿足算法進步的需求。下一步需要采用場景更加豐富、更具挑戰性的數據集來支持算法性能的進一步提升,逐步滿足實際應用實時性和準確性的要求。行為檢測在較小數據集上可以達到70%左右的準確度,效果有待提升。目前亟需擴充行為檢測數據集,提升標定的動作種類,下一步需要結合目標檢測和行為識別的先進思想,創新網絡算法,重點提升檢測的準確性,為后續的實際應用準備。

3.2.2 模型輕量化

現有的算法對于硬件的要求過高,難以實現有效地推廣部署,因此模型的輕量化是后續研究的重點方向。例如Slowfast網絡、TSM網絡、YOWO網絡,這些網絡很大程度降低了網絡的復雜度和計算量,有助于后續網絡的部署應用。

4 結論

行為識別檢測廣闊的應用前景使其成為計算機視覺領域的熱門研究方向。在前人工作的基礎上分別綜述了行為識別和行為檢測領域的各種方法。對行為識別檢測常用的數據集進行了介紹和分析,對目前主流的各種算法進行了總結。通過以上工作可以看出:行為識別檢測目前仍然處于實驗階段,無法有效地投入到實際場景中進行應用,發展前景仍舊十分廣闊。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 国产福利小视频在线播放观看| 国产精品极品美女自在线网站| 欧美国产菊爆免费观看| 免费人成视频在线观看网站| 免费毛片全部不收费的| AV无码无在线观看免费| 在线精品自拍| 蜜芽国产尤物av尤物在线看| 成年av福利永久免费观看| 曰韩人妻一区二区三区| 日韩无码黄色| 黄色网在线免费观看| 91丨九色丨首页在线播放| 九色在线视频导航91| 亚洲精品自产拍在线观看APP| 超碰免费91| 亚洲中文久久精品无玛| 亚洲精品国产乱码不卡| 在线看片国产| 中文字幕无线码一区| 毛片手机在线看| 欧美区一区| 自拍偷拍欧美| 全部免费特黄特色大片视频| 日本免费a视频| 成人免费午夜视频| 国产精品一区二区在线播放| 亚洲欧美精品一中文字幕| 国产精品久久自在自2021| www.亚洲一区二区三区| 激情在线网| 国产噜噜在线视频观看| 欧美亚洲一区二区三区在线| 在线观看无码av五月花| 无套av在线| 国内老司机精品视频在线播出| 激情综合激情| 欧美一区二区精品久久久| 国产情精品嫩草影院88av| 国产精品永久在线| 欧美成人手机在线视频| 91精品啪在线观看国产| 国产嫩草在线观看| 91亚洲精品国产自在现线| 伊在人亞洲香蕉精品區| 亚洲中文字幕23页在线| 91视频区| 国产区福利小视频在线观看尤物| 视频二区亚洲精品| 亚洲欧洲日韩国产综合在线二区| 一级毛片免费高清视频| 国产免费精彩视频| 99精品国产电影| 国产成人精品亚洲77美色| 一级做a爰片久久毛片毛片| 中国精品久久| 成人福利在线免费观看| 国产在线自揄拍揄视频网站| 在线观看精品自拍视频| 国产日韩AV高潮在线| 好吊色妇女免费视频免费| 一本大道无码日韩精品影视| 亚洲中文字幕日产无码2021| 亚洲人成网7777777国产| 啪啪啪亚洲无码| 99热国产在线精品99| 欧美日韩精品综合在线一区| 亚洲人成网站在线播放2019| 国产国产人免费视频成18| 国产亚洲美日韩AV中文字幕无码成人| 五月婷婷综合色| 高清精品美女在线播放| 久久综合伊人 六十路| 国产一级毛片在线| 精品伊人久久大香线蕉网站| 亚洲电影天堂在线国语对白| 在线欧美a| 一级看片免费视频| 国产天天色| 久夜色精品国产噜噜| 国产亚洲精品在天天在线麻豆 | 免费国产无遮挡又黄又爽|