基于ResNeXt的人體動作識別

2020-05-21 07:55:32蔣圣南陳恩慶鄭銘耀段建康

圖學學報 2020年2期

蔣圣南，陳恩慶，鄭銘耀，段建康

基于ResNeXt的人體動作識別

蔣圣南，陳恩慶，鄭銘耀，段建康

(鄭州大學信息工程學院，河南鄭州 450000)

人體動作識別是計算機視覺領域的核心研究方向之一，在很多場合都有應用。深度卷積神經網絡在靜態圖像識別方面已取得了巨大成功，并逐漸擴展到視頻內容識別領域，但應用依然面臨很大挑戰。為此提出一種基于ResNeXt深度神經網絡模型用于視頻中的人體動作識別，主要包括：①使用新型ResNeXt網絡結構代替原有的各種卷積神經網絡結構，并使用RGB和光流2種模態的數據，使模型可充分地利用視頻中動作外觀及時序信息；②將端到端的視頻時間分割策略應用于ResNeXt網絡模型，同時將視頻分為段實現對視頻序列的長范圍時間結構進行建模，并通過測試得到最優視頻分段值，使模型能更好地區分存在子動作共享現象的相似動作，解決某些由于子動作相似而易發生的誤判問題。通過在動作識別數據集UCF101和HMDB51上進行的測試表明，該模型和方法的動作識別準確率性能優于目前文獻中的一些模型和方法的性能。

動作識別；ResNeXt；視頻時間分割；數據增強；多模態

在視頻中識別人體行為是一項具有挑戰性的任務，也是計算機視覺領域的核心任務之一，并受到了研究人員的廣泛關注[1-6]。其在行為分析、人工智能交互、視頻監控等領域均有重要的應用。與靜止的圖像分類相比，視頻的時間分量提供了用于識別的重要線索，因此基于運動信息可識別多個動作。此外，視頻為單個圖像提供自然數據增強。對于視頻中的動作識別，外觀和時間動態是2個關鍵且互補的線索。然而，由于背景雜亂、視點變化、尺度變化、光照條件不同以及相機運動等局限性，提取其信息是不易的。因此，在學習行為類別分類信息的同時，設計有效的表示是應對這些挑戰的關鍵。

ResNeXt網絡同時采用了VGGNet網絡堆疊的思想和Inception網絡的拆分-轉換-合并的策略，以及ResNet網絡的殘差模塊的思路，并且通過增加基數來提高網絡的性能，使得網絡在不增加參數復雜度的前提下提高準確率，同時還減少了超參數的數量[15]，因此，ResNeXt網絡模型在ImageNet和CIFAR數據庫上均展現了優異的性能。另一方面，從動作識別角度看，一個好的視頻特性應該包含盡可能豐富的動作的空間信息和時間信息，而網絡模型層數越多，意味著能夠提取到不同水平的特征越豐富，不同層次信息的組合也會越多，模型的學習和表征能力也會更強。因此本文考慮將ResNeXt網絡模型應用到視頻人體動作識別中，從而更好地獲取動作的空間和時間特征，實驗結果也表明了其用于動作識別的有效性。

此外，在基于視頻的動作識別應用中，動作的各視頻幀之間存在著很強的時間相關性和空間相關性，好的動作視頻表示方法還需要在有效避免樣本數量限制的同時，盡可能少冗余且充分利用視頻中的時間信息。本文采用RGB以及光流 2種模態的數據作為動作識別模型的輸入，RGB數據代表視頻幀的動作空間信息，而光流數據代表視頻幀的動作時間信息。2種模態的數據結合，能夠優勢互補，使動作識別獲得更高的精確度。在實際應用中，由于密集采樣的視頻幀在計算量等方面的限制，對于持續時間較長的動作視頻，往往無法通過采樣全部視頻幀獲取整個動作視頻的視覺信息，因此本文引入TSN[16](時間分割網絡)中視頻時間分割的思想，對長范圍時間結構的動作進行分段采樣建模。即將動作視頻時間分割為段(segment)，從每個對應的片段中隨機采樣得到短片段(snippet)，再將短片段分別送入ResNeXt網絡得到初始的動作類別得分，最后將初始類別得分融合得到最終識別結果。因此本文模型可以利用整個視頻中動作的長范圍時間信息進行端到端的視頻級別的動作分類識別。

1 基于ResNeXt架構的動作識別模型

圖1為本文提出的用于動作識別的整體網絡結構。一個輸入待識別的動作視頻將被分割成段，然后從段中隨機選取一個短片段送入ResNeXt網絡獲得動作的初始類別得分，最后融合初始類別分數來獲得最終的動作類別得分。

圖1 基于ResNeXt和視頻時間分割建模的網絡架構

1.1 ResNeXt網絡結構

視頻識別的基礎是能夠提取更具有判別性的時間和空間信息，眾多研究[14,17]表明，更深的CNN能夠提取更多的判別信息，從而提高預測性能。此外，最近的研究成果[8,18]證明，網絡模型的深度對于視覺表現特征至關重要。殘差網絡[14]有效地解決了加深網絡層引起的退化問題。要提高模型的準確率，一般的方法是加深或加寬網絡，但是，隨著超參數數量的增加(比如channels數，filter size等)，網絡設計的難度和計算開銷也會增加，而ResNeXt[15]結構可以在不增加參數復雜度的前提下提高準確率，同時還減少了超參數的數量。因此，本文將ResNeXt作為提取動作空間和時間特征的基礎網絡。

ResNeXt網絡模型是高度模塊化的設計，同時采用了VGG網絡堆疊的思想和Inception網絡拆分-轉換-合并的思想，以及ResNet網絡殘差模塊的思想。網絡由一系列殘差塊組成，其具有相同的拓撲結構，且遵循2個簡單規則：①如果生成同樣大小的空間映射，則模塊中的拓撲結構共享相同的超參數(如寬度和濾波器大小等)；②每次當空間映射基于因子2下采樣時，模塊的寬度乘以2。第二個規則保證了計算的復雜度，對于浮點數運算(包括乘-加法)，所有模塊的計算量大致相同。

在ResNeXt中，拆分-轉換-合并的形式可表示為

其中，Ti為相同的拓撲結構；C為一個模塊中所具有的相同分支的數目，通常將C稱為基數[15]，用于模型復雜度的另外一個度量。C的取值可以是任意數，本文C取值為32。雖然寬度的大小與簡單變換(內積)的數量有關，但基數的大小控制著復雜變換的數量，并且實驗證明基數是一個基本維度，增加基數比增加CNN的寬度和深度更有效，能夠獲得更好的模型表達能力。圖2為ResNeXt網絡的一個基本模塊，可在每個低維嵌入上實施一系列變換，然后再將輸出通過相加的方式聚合。

1.2 長范圍時間結構建模

對于一般的CNN，其輸入是單幀或連續的堆疊幀，只關注短時間的視頻變化，無法有效地提取長范圍時間信息。然而視頻中的長范圍時間信息對于動作識別起著更重要的作用[19]。例如籃球投籃和扣籃在短時間內彼此相似，但是在長時間范圍上卻存在較大的差異，因此如果只是將運動中的一小段視頻用于訓練網絡，很可能會造成誤判。受到TSN[16]的啟發，本文采用視頻時間分割的思想，對基于ResNeXt網絡的方法進一步改進，實現對整個視頻的長范圍時間結構建模。

首先，等間隔將視頻分為個片段，即{1,2,…,S}，然后從相應的片段中隨機采樣得到短片段{1,2,…,x}，并將其送入ResNeXt網絡以獲得初始動作類別得分。再通過求平均的方法對個短片段的類別得分進行融合，從而獲得短片段之間關于類別假設的共識。最后，基于該共識，使用Softmax函數預測整段視頻中屬于每個行為類別的概率，即

其中，為數據集中包含的動作類別數；y為第類動作的真實標簽；g為第類動作的類別共識得分，其通過類別共識函數對個短片段上相同類別的得分數取平均得出。

在反向傳播過程中，使用個短片段來聯合優化模型參數，并且通過小批量梯度下降來學習模型參數，在參數更新時使用了個短片段的類別共識。這種優化方法，能夠學習到視頻級的模型參數，從而獲得長范圍的時間信息。

1.3 數據增強方法

使用數據增強技術能夠增加樣本的多樣性，彌補數據樣本量不足的缺點，從而防止模型過擬合，讓模型更具魯棒性。本文使用了多剪裁、水平翻轉和尺度抖動3種方法擴充數據集。尺度抖動將輸入圖像或者光流場的大小固定為256×340，裁剪區域的寬和高隨機從{256,224,192,168}中選擇。最后再將裁剪區域調整到224×224用于網絡訓練。另外，在所有訓練中本文均使用了隨機水平翻轉。

2 實驗結果分析

2.1 數據集

本文在UCF101[20]和HMDB51[21]數據集上評估基于ResNeXt網絡的性能。UCF101是從YouTube上剪輯的101類真實世界中不同種類的人類動作視頻，包含有13 320個視頻，每個視頻片段持續3~10 s，平均為100~300幀，其部分動作視頻的采樣幀如圖3所示。UCF101給出了最大的多樣性，且在攝像機運動、物體外觀和姿態、物體尺度、視點、雜亂背景、光照條件等方面存在較大的差異，是迄今為止最具挑戰性的數據集之一。HMDB51數據集共有51個類別，包含6 799個視頻。視頻主要來自于電影，還有一些是從YouTube和Google Videos中得到。HMDB51數據集的部分動作視頻的采樣幀如圖4所示。對于這2個數據集，本文遵循提供的評估協議并使用標準的訓練/測試splits。首先在UCF-101數據集的split1上探索和評估本文方法。為了與現有技術方法進行比較，列舉了UCF101和HMDB51的3個splits的平均識別準確度。

圖3 UCF101的部分動作視頻采樣幀

圖4 HMDB51的部分動作視頻采樣幀

2.2 實驗設置

訓練：本文使用小批量隨機梯度下降算法學習網絡的權重，由于硬件限制，批量大小設置為16。權重衰減和動量分別設置為0.000 5和0.900 0，基本學習率設置為0.001 0。通過ImageNet上的預訓練初始化權重，epoch設置為30。本文實驗均在CPU(E5-2640 v4)和Ttian V GPU上進行的，使用的深度學習平臺為Pytorch。

測試：本文遵循了原始雙流ConvNets的測試方案[22]。對動作視頻以相等的時間間隔對25個RGB幀或光流幀采樣。對每個采樣幀，通過裁剪4個角，一個中心和其水平翻轉來獲得10個ConvNet輸入。本文將加權平均用于融合空間和時間網絡。空間網絡和時間網絡的權重比設置為1∶1.5。

2.3 基于ResNeXt網絡與其他卷積網絡的性能對比

對本文提出的基于ResNeXt網絡的視頻動作識別方法進行評估，且與VGGNet-16、ResNet101和BN-Inception網絡進行比較，分別評估這4個網絡在RGB和光流以及雙流融合后的識別率。實驗結果見表1，由結果可知，在RGB數據和光流數據及在雙流的網絡上，使用ResNeXt網絡的精度皆優于其他網絡，證明了ResNeXt網絡在用于視頻的人體動作識別上的有效性。

表1 UCF101(split1)上不同網絡在RGB和光流上的精確度(%)

2.4 不同視頻時間分段數K的影響

視頻時間分割短片段數對于分類結果有重要的影響，因此控制的取值對于實現良好的分類效果至關重要。當取1時，相當于未使用視頻時間分割的策略，但增加值有望提高模型的識別性能。在實驗中，本文將的取值設置為1~9，并使用相同的測試方法進行性能評估。結果見表2。隨著短片段數值的增加，分類正確率也相應地提升，比如取5時比取1時結果提升了2.4%。說明使用更多的時間片段有助于捕獲更豐富的信息，從而更好的模擬整個視頻的時間結構。當值繼續增加時，識別性能趨向于飽和。

表2 不同K值下UCF101(split1)的分類精確度(%)

2.5 本文算法模型與現有的主流方法的性能對比

本文將實驗得到的最佳性能與現有的先進算法在UCF101和HMDB51的數據集3個splits上的平均識別率進行了比較。結果見表3，對于UCF101數據集，本文方法優于其他先進算法，相對于目前最好的傳統方法IDT[2]而言，精度提高了9.3%；與基于三維卷積神經網絡的方法T3D[23]相比，精度提高了2.0%；與使用雙流網絡的方法ST-ResNet[24]相比，精度也提高了1.8%。對于HMDB51數據集，本文方法也具有相當的競爭力，相比于基于雙流網絡的方法TSN[16]和ST-ResNet[24]，精度分別提高了3.1%和5.2%。實驗證明了本文所提出的基于ResNeXt的動作識別方法的有效性。

表3 在UCF101和HMDB51的3個split的識別精確度(%)

3 結束語

本文提出了一種基于ResNeXt網絡的用于視頻中的人體動作識別方法。以ResNeXt網絡為基礎，使用RGB及光流2種模態的數據，能夠更多地提取關于動作的外觀特征和時間特征，從而更好地實現對于動作的分類。視頻時間分割方法的使用，能夠對視頻中的長范圍時間建模，從而更好地利用視頻中更長范圍的時間信息。實驗結果表明，本文方法在UCF101和HMDB51兩個主流動作識別數據集上均帶來了一定程度的性能提升。

[1] VEERIAH V, ZHUANG N F, QI G J. Differential recurrent neural networks for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4041-4049.

[2] WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 3551-3558.

[3] WANG L M, QIAO Y, TANG X O. Motionlets: mid-level 3D parts for human motion recognition[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2674-2681.

[4] NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classi?cation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4694-4702.

[5] WANG L M, QIAO Y, TANG X O. Action recognition with trajectory-pooled deep-convolutional descriptors[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.

[6] GAN C, WANG N Y, YANG Y, et al. DevNet: a deep event network for multimedia event detection and evidence recounting[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2568-2577.

[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[8] SIMONYAN K, ZISSERMAN, A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-07-05]. https://arxiv.org/ abs/1409.1556.

[9] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS). New York: CAM Press, 2014: 487-495.

[10] SHEN L, LIN Z C, HUANG Q M. Relay backpropagation for effective learning of deep convolutional neural networks[M]//Computer Vision-ECCV 2016. Heidelberg: Springer International Publishing, 2016: 467-482.

[11] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.

[12] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.

[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.

[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[15] XIE S N, GIRSHICK R, DOLLáR, PIOTR, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 634.

[16] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[M]//Computer Vision–ECCV 2016. Heidelberg: Springer International Publishing, 2016: 20-36.

[17] YU W, YANG K, BAI Y, et al. Visualizing and comparing AlexNet and VGG using deconvolutional layers[EB/OL]. [2019-07-05]. https://arxiv.org/abs/ 1412.6631.

[18] SZEGEDY C, LIU W, JIA Y Q. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015:1-9.

[19] WANG L M, QIAO Y, TANG X O. Latent hierarchical model of temporal structure for complex activity classification[J]. IEEE Transactions on Image Processing, 2014, 23(2): 810-822.

[20] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. [2019-07-05]. https://arxiv.org/abs/1212. 0402.

[21] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2556-2563.

[22] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[M]//Neural Information Processing. Heidelberg: Springer International Publishing, 2018: 251-262.

[23] DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3D ConvNets: new architecture and transfer learning for video classification[EB/OL]. [2019-07-05]. https://arxiv. org/abs/1711.08200.

[24] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal residual networks for video action recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3468-3476.

[25] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1933-1941.

[26] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4489-4497.

[27] GIRDHAR R, RAMANAN D, GUPTA A, et al. ActionVLAD: learning spatio-temporal aggregation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 337.

Human action recognition based on ResNeXt

JIANG Sheng-nan, CHEN En-qing, ZHEN Ming-yao, DUAN Jian-kang

(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450000, China)

Human action recognition is one of the core research directions in the field of computer vision and is applied in many occasions. Deep convolutional neural networks have achieved great success in static image recognition and have gradually expanded into the field of video content recognition, but they still face great challenges in applications. This paper proposes a deep neural network model based on ResNeXt network for human action recognition in video. The main innovations of this paper include: ① The new ResNeXt network structure was used to replace the original convolutional neural network structure. Two kinds of modal data of RGB and optical flow was collected to make full use of the appearance and temporal order information in the video. ② The end-to-end video time segmentation strategy was applied to the proposed ResNeXt network model. The video was divided intosegments to model the long-range time structure of the video sequence, and the optimal value ofwas obtained through tests, which enables the model to better distinguish the similar actions with sub-action sharing phenomenon and solve the problems of misjudgment that are easy to emerge due to similar sub-actions. Tests performed on the widely used action recognition data sets UCF101 and HMDB51 showed that the action recognition accuracy of the proposed model and method is better than that of the models and methods in the existing literature.

action recognition; ResNeXt; video temporal segmentation; data enhancement; multimodal

TP 391

10.11996/JG.j.2095-302X.2020020277

2095-302X(2020)02-0277-06

2019-08-05；

2019-08-29

國家自然科學基金項目(U1804152，61806180)

蔣圣南(1994–)，女，河南商丘人，碩士研究生。主要研究方向為人工智能、計算機視覺等。E-mail：shengnanjiang77@163.com

陳恩慶(1977–)，男，福建龍海人，教授，博士，碩士生導師。主要研究方向為計算機視覺、模式識別和多媒體信息處理。E-mail：ceq2003@163.com