基于注意力機(jī)制的改進(jìn)殘差網(wǎng)絡(luò)的人體行為識(shí)別方法

2021-11-09 06:49:51王昊飛李俊峰

軟件工程 2021年11期

王昊飛　李俊峰

摘? 要：針對(duì)ResNeXt網(wǎng)絡(luò)（殘差網(wǎng)絡(luò)）中存在的對(duì)特征提取不充分，以及數(shù)據(jù)集中背景信息干擾的問題，將ResNeXt網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合，提出了一種基于注意力機(jī)制的ResNeXt模型。首先，在ResNeXt網(wǎng)絡(luò)的基礎(chǔ)上，將淺層和深層的特征融合生成新型網(wǎng)絡(luò)結(jié)構(gòu)。其次，將全連接層由全局平均池化層替代，然后在通道空間注意力機(jī)制中添加一個(gè)條件因子，同時(shí)將改進(jìn)后的注意力機(jī)制嵌入上述網(wǎng)絡(luò)中。最后，在UCF101和HMDB51上分別進(jìn)行實(shí)驗(yàn)，得到了95.2%和65.6%的準(zhǔn)確率。研究表明，本文提出的模型可以有效地提取關(guān)鍵特征，充分利用不同層次的特征信息獲得較好的準(zhǔn)確率。

關(guān)鍵詞：人體行為識(shí)別;注意力機(jī)制;ResNeXt;全局平均池化

中圖分類號(hào)：TP183? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

Human Action Recognition Method based on Attention

Mechanism and Improved ResNeXt Network

WANG Haofei， LI Junfeng

（Faculty of Mechanical Engineering & Automation， Zhejiang Sci-Tech University， Hangzhou 310018， China）

haofeiwang@yeah.net; ljf2003zz@163.com

Abstract： Aiming at problems of insufficient feature extraction in ResNeXt network and background information interference in the dataset， this paper proposes a ResNeXt model based on attention mechanism， which combines the ResNeXt network and attention mechanism. First， based on ResNeXt network， shallow and deep features are merged to generate a new network structure. Second， the fully connected layer is replaced by a global average pooling layer. Then channel attention mechanism is improved by adding a condition factor. At the same time， the improved attention mechanism is embedded in the above-mentioned network. Finally， experiments are performed on UCF101 and HMDB51 respectively， and the accuracy rates of 95.2% and 65.6% are obtained. Experiments show that the proposed model can effectively extract key features， and make full use of feature information of different layers to achieve better accuracy.

Keywords： human action recognition; attention mechanism; ResNeXt network; global average pooling

1? ?引言（Introduction）

人體行為識(shí)別技術(shù)是從包含運(yùn)動(dòng)信息的圖像、視頻中進(jìn)行識(shí)別的。在視頻監(jiān)控、智能家居、運(yùn)動(dòng)分析以及VR等領(lǐng)域都離不開人體行為的識(shí)別。人體行為識(shí)別已成為計(jì)算機(jī)視覺研究中的一個(gè)非常重要的領(lǐng)域[1]。由于視點(diǎn)的不同、背景的復(fù)雜性以及光照條件等的影響，人體行為識(shí)別仍然是一項(xiàng)非常具有挑戰(zhàn)性的課題。傳統(tǒng)人體行為識(shí)別是基于手工設(shè)計(jì)的特征[2]進(jìn)行識(shí)別，并且依賴數(shù)據(jù)集特征提取的先驗(yàn)知識(shí)，耗費(fèi)大量的時(shí)間和精力。隨著深度學(xué)習(xí)的興起，解決了手動(dòng)設(shè)計(jì)特征的不足，在人體行為識(shí)別領(lǐng)域取得了重大進(jìn)展[3]，已經(jīng)明顯超過了手工設(shè)計(jì)的特征。XIE等[4]提出了ResNeXt網(wǎng)絡(luò)，用一種平行堆疊相同拓?fù)浣Y(jié)構(gòu)的blocks來代替殘差網(wǎng)絡(luò)三層卷積的block，同時(shí)增加了“基數(shù)”這一概念，減少了超參數(shù)數(shù)量，計(jì)算效率高，準(zhǔn)確率高。注意力機(jī)制可以將其他不重要的信息忽略掉，重點(diǎn)關(guān)注關(guān)鍵信息[5]。將注意力機(jī)制應(yīng)用到視頻中的行為識(shí)別，能夠有效提取視頻幀中的關(guān)鍵信息。基于上述方法，為了充分提取視頻中的特征，本文對(duì)ResNeXt網(wǎng)絡(luò)進(jìn)行改進(jìn)并嵌入了改進(jìn)后的通道空間注意力機(jī)制模型。

2? 改進(jìn)后的ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)（Improved ResNeXt network architecture）

首先，本文將使用改進(jìn)后的ResNeXt網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)來提取時(shí)空特征，并將不同層次的特征進(jìn)行融合，以充分利用各類特征信息。其次，網(wǎng)絡(luò)中嵌入改進(jìn)后的通道空間注意力機(jī)制，使網(wǎng)絡(luò)更加關(guān)注有強(qiáng)反饋能力的特征。最后，經(jīng)過全局平均池化操作后送入softmax函數(shù)進(jìn)行分類，得到最終結(jié)果。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

本文采用的卷積網(wǎng)絡(luò)為ResNeXt101，主體由四個(gè)殘差模塊組成。殘差模塊的結(jié)構(gòu)如圖2所示，1×1×1和3×3×3表示卷積核大小，F(xiàn)表示通道數(shù)，group表示分組卷積的組數(shù)，即將特征圖分成group組的小特征圖。ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)采用VGG網(wǎng)絡(luò)和inception網(wǎng)絡(luò)中轉(zhuǎn)換合并的思想，用一種平行的相同拓?fù)浣Y(jié)構(gòu)的block進(jìn)行堆疊來進(jìn)行分組卷積，用來控制分組數(shù)量，在沒有增加參數(shù)復(fù)雜度的情況下提高了準(zhǔn)確率。

本文中網(wǎng)絡(luò)的殘差模塊分別用layer1、layer2、layer3、layer4表示，網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖3所示。隨著網(wǎng)絡(luò)的加深，一些細(xì)節(jié)特征被過濾掉，導(dǎo)致對(duì)提取到的特征利用不充分。本文改進(jìn)后的ResNeXt網(wǎng)絡(luò)將淺層網(wǎng)絡(luò)提取的細(xì)節(jié)特征和深層網(wǎng)絡(luò)提取的特征相融合，以充分利用各個(gè)層次所提取的特征信息。

對(duì)注意力機(jī)制輸出的特征進(jìn)行步長為2、卷積核大小為1的卷積，卷積操作后的特征和layer2輸出的特征相融合輸入layer3中繼續(xù)進(jìn)行卷積操作。同理，將和layer2融合后的特征進(jìn)行兩次步長為2、卷積核大小為1的卷積操作，并和layer4輸出的特征相融合。進(jìn)行卷積操作的目的是為了降低維度，使特征圖能夠進(jìn)行融合。文中沒有采用逐層特征融合，而是采用跳層融合的方式，首先是為了降低模型參數(shù)，減少計(jì)算量;其次，如果采用逐層融合的方式，包含過多的特征，會(huì)造成冗余的信息。兩種特征采用element-wise進(jìn)行融合。

3? ?注意力機(jī)制（Attention mechanism）

注意力機(jī)制模型[6]如圖4所示，由通道注意力機(jī)制和空間注意力機(jī)制串聯(lián)組成，對(duì)特征圖在通道和空間維度上進(jìn)行注意力生成，可以在不明顯增加計(jì)算量的基礎(chǔ)上提高準(zhǔn)確率。

（1）通道注意力機(jī)制

本文對(duì)通道注意力機(jī)制進(jìn)行了改進(jìn)，由于平均池化和最大池化提取到的特征有所區(qū)別，添加了條件因子來對(duì)不同的特征進(jìn)行權(quán)重分配。改進(jìn)后的通道注意力機(jī)制如圖5所示。首先將輸入特征圖在空間維度上進(jìn)行壓縮，分別進(jìn)行平均池化和最大池化操作，得到和。然后對(duì)得到的這兩個(gè)特征圖進(jìn)行權(quán)重分配，將這兩個(gè)重新分配的特征輸入一個(gè)共享網(wǎng)絡(luò)中，該共享網(wǎng)絡(luò)是包含一個(gè)隱藏層的多層感知機(jī)（MLP），經(jīng)過共享網(wǎng)絡(luò)的處理后，用element-wise求和輸出特征向量。

（2）空間注意力機(jī)制

空間注意力機(jī)制如圖6所示，將特征圖在通道維度上進(jìn)行壓縮。對(duì)輸入的特征圖分別在通道維度做平均池化和最大池化操作，得到兩個(gè)二維特征;然后，按照通道將特征進(jìn)行拼接得到一個(gè)特征圖;最后，對(duì)其進(jìn)行卷積操作，使得最終得到的特征圖和輸入的特征圖在空間維度上一致。

4? ?全局平均池化（Global average pooling）

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)分類時(shí)使用全連接層和softmax回歸層。但是，由于全連接層參數(shù)過多，計(jì)算量大，容易造成過擬合，同時(shí)全連接層容易導(dǎo)致特征圖損失空間位置信息。因此，本文采用全局平均池化層[7]來代替ResNeXt的全連接層，使特征圖和行為類別之間的聯(lián)系更加直觀，轉(zhuǎn)換為分類的概率更加容易，對(duì)空間位置信息的魯棒性更強(qiáng)。

全局平均池化是對(duì)每一個(gè)通道圖的所有像素求平均值，在特征提取的最后一個(gè)卷積層生成k 個(gè)特征圖;經(jīng)過全局平均池化層后得到k 個(gè)1×1的特征圖，將這些特征圖輸入softmax層，輸出結(jié)果就是k 個(gè)類別的置信度。

圖7為全局平均池化示意圖，圖8為全連接示意圖。本文對(duì)圖7和圖8進(jìn)行參數(shù)計(jì)算，假設(shè)輸入特征圖大小為3×3×3，則全連接層產(chǎn)生的參數(shù)個(gè)數(shù)為3×3×3×3=81 個(gè)，而全局平均池化層將輸入特征進(jìn)行池化后直接送入softmax，所以參數(shù)個(gè)數(shù)為3×1×1×3=9 個(gè)。相比于全連接層，全局平均池化層的參數(shù)成倍數(shù)減少。

5? ?實(shí)驗(yàn)（Experiment）

5.1? ?數(shù)據(jù)集

（1）UCF101數(shù)據(jù)集

UCF101[8]是行為類別和樣本數(shù)量最多的數(shù)據(jù)庫之一，其中包含13，320 個(gè)視頻和101 個(gè)類別。數(shù)據(jù)庫的樣本取自從BBC/ESPN收集并從網(wǎng)絡(luò)上下載的各種運(yùn)動(dòng)的樣本。UCF101多樣性較強(qiáng)，在相機(jī)運(yùn)動(dòng)，人體的外形、形態(tài)、視點(diǎn)、背景、光照條件等各種不同的條件下存在較大差異，是目前為止最具挑戰(zhàn)性的數(shù)據(jù)庫之一。101 類行為被分成25 組，每組包括4—7 個(gè)視頻，主要分為人與物體之間的交互、人與人之間的交互、人體自身的行為、演奏樂器和運(yùn)動(dòng)五類，如畫眼妝、打籃球、打太極拳、彈吉他、攀巖等。同一組視頻可能有一些共同的特征，如背景、視點(diǎn)等。如圖9所示為部分動(dòng)作示意圖。

（2）HMDB51數(shù)據(jù)集

HMDB51[9]包含6，849 個(gè)視頻，總共51 個(gè)類別，每個(gè)類別至少包含101 個(gè)視頻。大多數(shù)視頻來自電影片段，有些來自公共數(shù)據(jù)庫，例如YouTube。動(dòng)作主要包含一般面部的行為、面部的操作與對(duì)象的操作、身體的行為、身體與對(duì)象交互的行為和人體自身的行為五類，如交談、喝水、倒立、騎自行車、擁抱等。部分動(dòng)作示意圖如圖10所示。

5.2? ?視頻采樣與參數(shù)設(shè)置

本文將視頻隨機(jī)的一個(gè)位置進(jìn)行均勻采樣生成16 幀的輸入片段，并通過裁剪的方式將樣本尺寸統(tǒng)一為112×112，所以網(wǎng)絡(luò)的輸入樣本大小為3×16×112×112。訓(xùn)練過程中，初始學(xué)習(xí)率設(shè)置為0.05，并在驗(yàn)證損失達(dá)到飽和后將其除以10，進(jìn)行學(xué)習(xí)率衰減優(yōu)化。使用動(dòng)量為0.9的隨機(jī)梯度下降優(yōu)化器來對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化，使用ReLU激活函數(shù)，采用交叉熵?fù)p失函數(shù)計(jì)算損失。

5.3? ?結(jié)果與分析

（1）不同條件因子下的比較實(shí)驗(yàn)

該部分就改進(jìn)的注意力機(jī)制中的條件因子的不同取值進(jìn)行實(shí)驗(yàn)，分別在UCF101和HMDB51數(shù)據(jù)集劃分的spilt1部分進(jìn)行實(shí)驗(yàn)，條件因子分別取0.1、0.3、0.5、0.7、0.9，得到的結(jié)果如圖11所示。可以看出，在UCF101上，當(dāng)取值為0.5時(shí)，效果較好;在HMDB51上，當(dāng)取值為0.7時(shí)，效果較好。所以本文選取為0.5和0.7分別進(jìn)行實(shí)驗(yàn)。

（2）拆分實(shí)驗(yàn)

該部分將數(shù)據(jù)集UCF101和HMDB51分別拆分成三個(gè)部分進(jìn)行實(shí)驗(yàn)，取三者的平均值作為最終結(jié)果。UCF101數(shù)據(jù)集被分成三個(gè)部分，每個(gè)部分包含測(cè)試集和訓(xùn)練集，每類行為的測(cè)試集和訓(xùn)練集總共為25 組，其中測(cè)試集包含7 組，訓(xùn)練集包含18 組。三種不同的拆分方式中的測(cè)試集交叉取前中后7 組，訓(xùn)練集取剩下的18 組，三個(gè)部分的測(cè)試集和訓(xùn)練集一一對(duì)應(yīng)。而HMDB51數(shù)據(jù)集隨機(jī)生成三種拆分方式。首先選擇元標(biāo)簽分布最平衡的片段，然后選擇與之關(guān)聯(lián)最小的第二、第三片段，一次得到三種不同的拆分方式。每種拆分方式的每類行為都包含70 組訓(xùn)練片段和30 組測(cè)試片段，結(jié)果如表1所示。

（3）有無注意力機(jī)制對(duì)比實(shí)驗(yàn)

該部分對(duì)添加了注意力機(jī)制的特征圖進(jìn)行了可視化，將生成的熱力圖和原圖相結(jié)合，如圖12所示。圖中熱力圖深色區(qū)域表示所預(yù)測(cè)到的行為，淺色區(qū)域表示背景部分，深色越深代表所受的關(guān)注越多。可以看出，添加注意力機(jī)制模型后，能夠更有效地集中在關(guān)鍵信息處，能夠更好地提取行為的關(guān)鍵信息，以便提高識(shí)別的準(zhǔn)確率。本部分有無注意力機(jī)制模型進(jìn)行對(duì)比的實(shí)驗(yàn)結(jié)果如表2所示。由表2可知，添加注意力機(jī)制后，無論是在UCF101還是在HMDB51上的準(zhǔn)確率都有一定的提升。

（4）與其他算法的對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文算法的有效性，在數(shù)據(jù)集UCF101和HMDB51上，與近年來主流的iDT[10]、TSN[11]、Two-Stream CNN[12]等人體行為識(shí)別方法進(jìn)行了比較，實(shí)驗(yàn)結(jié)果如表3所示。結(jié)果表明，本文的識(shí)別模型相比一些主流模型準(zhǔn)確率有了大幅度提高，尤其在UCF101數(shù)據(jù)集上比iDT、Two-Stream分別提高了8.8%和7.2%。

6? ?結(jié)論（Conclusion）

本文提出了一種基于注意力機(jī)制的改進(jìn)ResNeXt模型，并將其用于視頻中的人體行為識(shí)別，將ResNeXt網(wǎng)絡(luò)中的淺層特征和高層特征相融合，充分利用不同層次的特征。在通道空間注意力機(jī)制中加入條件因子，對(duì)不同的池化分配權(quán)重，并嵌入改進(jìn)后的ResNeXt網(wǎng)絡(luò)中，能夠有效提取行為的關(guān)鍵特征;網(wǎng)絡(luò)的最后用全局平均池化層取代全連接層，降低了網(wǎng)絡(luò)過擬合的可能性，同時(shí)減少了參數(shù)。實(shí)驗(yàn)結(jié)果表明，本文提出的改進(jìn)ResNeXt人體行為識(shí)別模型在UCF101和HMDB51數(shù)據(jù)集上獲得了較好的識(shí)別率，具有一定的泛化性。

參考文獻(xiàn)（References）

[1] 周波，李俊峰.結(jié)合目標(biāo)檢測(cè)的人體行為識(shí)別[J].自動(dòng)化學(xué)報(bào)，2020，46（09）：1961-1970.

[2] 朱煜，趙江坤，王逸寧，等.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J].自動(dòng)化學(xué)報(bào)，2016，42（6）：848-857.

[3] 周風(fēng)余，尹建芹，楊陽，等.基于時(shí)序深度置信網(wǎng)絡(luò)的在線人體動(dòng)作識(shí)別[J].自動(dòng)化學(xué)報(bào)，2016，42（7）：1030-1039.

[4] XIE S， GIRSHICK R. Aggregated residual transformations for deep neural networks[C]// IEEE.IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， Hawaii， USA： IEEE， 2017：1492-1500.

[5] 王翔，任佳.基于多注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)故障診斷算法[J].浙江理工大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，43（02）：224-231.

[6] 徐巖，李曉振，吳作宏，等.基于殘差注意力網(wǎng)絡(luò)的馬鈴薯葉部病害識(shí)別[J].山東科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2021，40（02）：

76-83.

[7] LIN M， CHEN Q， YAN S. Network in network[J/OL]. （2013-10-16）[2021-3-18]. https：//arxiv.org/abs/1312.4400.

[8] SOOMRO K， ZAMIR A R， SHAH M. UCF101： A dataset of 101 human actions classes from videos in the wild[J/OL]. （2012-10-3）[2021-3-18]. https：//arxiv.org/abs/1212.0402.

[9] 朱紅蕾，朱昶勝，徐志剛.人體行為識(shí)別數(shù)據(jù)集研究進(jìn)展[J].自動(dòng)化學(xué)報(bào)，2018，44（6）：978-1004.

[10] 程海粟，李慶武，仇春春，等.基于改進(jìn)密集軌跡的人體行為識(shí)別算法[J].計(jì)算機(jī)工程，2016，42（08）：199-205.

[11] WANG L， XIONG Y， WANG Z， et al. Temporal segment networks： Towards good practices for deep action recognition[C]// ECCV. The 14th European Conference on Computer Vision. Berlin， Germany： Springer， 2016：20-36.

[12] SIMONYAN K， ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J/OL]. （2014-6-9）[2021-3-18]. https：//arxiv.org/abs/1406.2199.

作者簡(jiǎn)介：

王昊飛（1994-），女，碩士生.研究領(lǐng)域：模式識(shí)別與智能系統(tǒng).

李俊峰（1978-），男，博士，副教授.研究領(lǐng)域：智能信息處理，缺陷檢測(cè).

軟件工程2021年11期

軟件工程的其它文章: 基于深度學(xué)習(xí)的情感分類技術(shù)在高校輿情分析中的應(yīng)用研究; 一種面向?qū)构舻聂敯粜哉Z音情感識(shí)別方法; 電子政務(wù)中身份認(rèn)證技術(shù)的研究與實(shí)現(xiàn); 基于圖像處理的工程制圖作業(yè)批改方法研究; 基于自優(yōu)化深度網(wǎng)絡(luò)的模型攻擊方法; 經(jīng)管類實(shí)驗(yàn)室智慧云服務(wù)平臺(tái)建設(shè)分析