錢惠敏 陳 實 皇甫曉瑛
(河海大學 南京 211100)
視頻中的人體行為識別旨在對人體的運動模式進行描述和識別,并最終分析出行為所暗含的情感和目的。其應用前景和場景較為廣泛,如基于互聯網的視頻檢索、人機交互、醫療保健、智能安防等等。
目前,基于深度學習的視頻中人體行為識別的研究受到了廣泛關注,并取得了較多的研究成果。最為常用的深度神經網絡架構包括3維卷積神經網絡(Three-Dimensional Convolution Neural Network, 3D CNN)(簡稱3D網絡)[1-4]、雙流卷積神經網絡(two-stream Convolution Neural Network,two-stream CNN)(簡稱雙流網絡)[5-7],以及兩種架構的融合。3D網絡旨在端到端地從視頻段中學習人體行為的表征和分類識別,如果直接采用3D網絡從視頻中學習人體行為表示,由于輸入視頻段的幀長受限,對空間域輪廓信息和時間域運動信息的學習效果受限,此外,隨著視頻數據的增加,通常需要更深的3D網絡來學習人體行為的特征表示,因而會導致網絡的參數量過大而難以訓練。鑒于此,研究者提出了許多改進網絡,如雙流膨脹3D卷積網絡(two-stream Inflated 3D convolution network, I3D)、偽3D殘差網絡(Pseudo-3D residual networks, P3D)等[2,3]。雙流網絡旨在分別采用2維卷積網絡從視頻數據的空間流和時間流中學習人體行為的表征和分類識別,并最終融合空間流、時間流的識別結果。但是,空間流和時間流的交互融合、時間流信息的表示和學習方式都有待改進。例如,光流序列常用作視頻數據的時間流信息,而采用傳統方法計算光流序列不僅需要巨大的計算開銷,其生成過程需獨立于雙流網絡之外,從而導致不能實現端到端的人體行為識別。基于此,基于深度神經網絡的光流序列提取/生成方法被相繼提出,如FlowNet2.0、金字塔扭曲代價容量網絡(Pyramid Warping Cost-volumn Network, PWCNet)等[8,9]。此外,雙流網絡的子網絡通常采用2維卷積運算,不能有效提取視頻幀間的時序信息。
3D網絡架構和雙流網絡架構各有優勢,本文旨在針對視頻中的人體行為識別,研究結合兩種架構的、性能更優的雙流-時空殘差卷積神經網絡(Two-stream Spatial Temporal Residual Convolution Neural Network, TST-ResCNN)。這里的性能更優主要指網絡的復雜度低、識別精度高。
網絡剪枝是壓縮網絡、降低網絡復雜度的常用方法之一。其中,通道剪枝是網絡結構化剪枝的方法之一,旨在刪除不重要的通道,從而加快網絡的推理速度。本文將針對時空殘差卷積神經網絡設計基于通道剪枝的網絡壓縮方案。但是,網絡壓縮通常會降低網絡的精度。本文還將進一步研究如何有效保持網絡的識別精度。
視頻中的人體行為在視頻幀序列的時、空域上均有信息變化,因此,網絡若能對連續的視頻幀之間的信息變化進行有效學習,如人體姿態的變化、人與人之間/人與物體之間的位置變化等長距離時空依賴關系,其識別精度將被提高。例如,Wei等人[10]發現通過堆疊深度卷積網絡中的卷積運算,擴大感受野,可以捕捉輸入的長距離依賴關系。然而,由此導致的網絡深度增加會增加網絡的訓練難度,并且其中的重復局部運算會導致部分局部重要信息的丟失。Li等人[11]提出時間差分網絡(Temporal Difference Networks, TDN),通過分別設計短時差分模塊和長時差分模塊,分別實現對短時和長時運動中變化信息的時序建模,由此提高網絡對長距離依賴信息的學習能力。但這種模塊難以直接運用在現有人體行為識別模型。受到圖像去噪領域的非局部均值啟發,研究者發現,非局部模塊可以對長距離依賴關系建模[12]。因此,本文通過在網絡中引入非局部模塊,計算多幀輸入特征圖中所有位置像素間的相關性,表達信息變化的長距離時空依賴,并為相關性更大的位置分配更大的注意力權重,提高后續網絡對變化信息的學習能力,從而提高網絡的識別精度。并且,在原網絡中引入非局部模塊,不需要改變網絡的整體結構以及網絡的輸入方式,結構清晰,參數量小。
綜上,本文通過設計針對時空殘差卷積神經網絡的通道剪枝方案,并在網絡中引入非局部模塊,提出基于通道剪枝的雙流-非局部時空殘差卷積神經網絡(Two-stream NonLocal Spatial Temporal Residual Convolution Neural Network based on channel Pruning , TPNLST-ResCNN),本網絡具有復雜度低、識別準確率高的優點。本文的主要貢獻包括:
(1) 提出基于通道剪枝的雙流-非局部時空殘差卷積神經網絡(TPNLST-ResCNN),本網絡結合了3D網絡和雙流網絡的優勢,具有參數量少而識別精度較高的特性;
(2) 提出針對殘差型網絡結構的通道剪枝方案,實現了深度神經網絡的模型壓縮,降低了模型的訓練難度;
(3) 提出在時間流子網絡和空間流子網絡的首個殘差型時空卷積塊前增加一個非局部模塊,提高網絡對人體行為的長距離時空依賴關系的學習能力,提高網絡的識別精度。
鑒于雙流網絡和3D網絡在識別視頻中的人體行為時的各自優勢,本文提出融合雙流架構和3D架構的雙流-非局部時空殘差卷積神經網絡,網絡模型具體如圖1所示。

圖1 雙流-非局部時空殘差卷積神經網絡
本網絡分別從視頻的時間流和空間流中學習人體行為的表征和分類,并融合雙流結果實現人體行為的識別。首先,給定待識別視頻段,以按幀提取方式生成三原色(Red Green Blue, RGB)序列;然后,將RGB序列分別送入空間流子網絡和時間流子網絡,兩個子網絡中均采用基于通道剪枝后的非局部時空殘差卷積神經網絡(NonLocal Spatial-Temporal Residual Convolution Neural Network based on channel Pruning, PNLST-ResCNN)實現人體行為的特征表示與分類;最后,融合空間、時間流子網絡的結果,得到雙流-非局部時空殘差卷積神經網絡的識別結果。
本文采用的時空殘差卷積神經網絡(Spatial Temporal Residual Convolution Neural Networks,ST-ResCNN)參考了文獻[13]提出的網絡結構,該網絡將3D卷積核進行時空分解,同時通過保證空間卷積核的個數保持網絡的參數量,確保不損失網絡的信息表達能力。為了降低網絡復雜度,提高識別精度,本文以ST-ResCNN為基礎,提出PNLSTResCNN,其網絡結構如圖1所示。PNLSTResCNN包含5個時空卷積塊(Conv1~Conv5)、1個非局部模塊和1個全連接層,其中,Conv1為非殘差型時空卷積塊,Conv2~Conv5為殘差型時空卷積塊。這4個殘差型時空卷積塊均包含多個殘差塊,為了方便敘述,殘差型時空卷積塊分別記為Conv2_x(x=1,2,3), Conv3_x(x=1,2,3,4),Conv4_x(x=1,2,3,4,5,6), Conv5_x(x=1,2,3),x表示殘差塊編號。每個殘差塊又由時空卷積層、批規范層(BatchNorm, BN)、激活函數層(Leaky ReLU, LR)、時空卷積層及直連結構組成。圖1給出了Conv2_1的結構。更進一步地,時空卷積層由空間卷積層,BN,LR激活函數層和時間卷積層組成。文獻[13]給出了具體的非/殘差型時空卷積塊的結構。特別地,時間流子網絡先采用金字塔扭曲代價容量(Pyramid Warping Cost-volumn Network,PWC-Net)光流提取網絡從RGB序列中提取具有運動信息的光流序列[9];然后,采用PNLST-ResCNN實現基于光流序列的人體行為特征表示與分類。
本文采用的雙流-時空殘差卷積神經網絡(TSTResCNN)的參數量為:光流圖像估計網絡PWC-Net的參數量約為8.75M,單流識別網絡ST-ResCNN的參數量約為63.5M,整體網絡的參數量約136M。因此,網絡的訓練和使用均對硬件和數據集的大小有較高要求。鑒于ST-ResCNN主要由殘差型時空卷積塊構成,本文將針對其中的殘差型時空卷積塊設計通道剪枝方案,在盡可能保持精度的條件下壓縮網絡,減少網絡參數量。
通道剪枝是指對網絡中不重要的卷積通道進行裁剪以降低網絡復雜度。文獻[14]指出,卷積網絡中BN層的縮放因子可度量其前繼卷積通道的重要性,裁剪不重要的卷積通道即可實現網絡壓縮。具體地,在網絡訓練過程中,通過在損失函數中引入懲罰項對網絡進行稀疏化訓練;繼而根據網絡BN層中與每一個卷積通道對應的縮放因子確定卷積通道的重要性,并對縮放因子值小于給定剪枝閾值的通道進行裁剪;最后,對剪枝后的網絡進行恢復性訓練。
假設原網絡的損失函數為交叉熵損失L
其中,Yk表示輸入xk的真實標簽;f(xk,W)表示輸入xk經網絡(參數矩陣為W時)的預測標簽。網絡稀疏化訓練時,引入由BN層縮放因子γ確定的L1正則化懲罰項,此時,損失函數Lp為
其中,ζ為稀疏因子,Γ是網絡中所有BN層縮放因子的集合。
圖2為ST-ResCNN經稀疏化訓練后的時間卷積層的通道剪枝示意圖。如圖2所示,時間卷積層的每個通道均有與其一一對應的BN層縮放因子γ,根據設定的剪枝閾值,將γ小于閾值的時間卷積通道進行裁剪。假設某個BN層縮放因子γ=0.004,小于設定的剪枝閾值,則將連接該BN層的前繼卷積通道的權重、其輸入和輸出連接(即圖中虛線部分)一并刪除,由此得到結構更為緊湊的剪枝后網絡

圖2 時間卷積層的通道剪枝示意圖
由此可知,損失函數Lp中稀疏因子ζ的大小決定了縮放因子γ的稀疏程度,而γ的稀疏程度不同,網絡的剪枝上限也不盡相同,這進而會影響剪枝后網絡經恢復性訓練后的性能。本文認為一個合適的稀疏因子應滿足兩個要求:(1)為了提高網絡的壓縮率,γ的稀疏程度不能太低,即網絡經稀疏化訓練后γ的值在0附近處的數量應占比50%左右;(2)為了剪枝后網絡經恢復性訓練后的性能較好,稀疏程度不能太高,即網絡剪枝后剩余的γ值在0附近處的數量不能太多。本文通過實驗確定時間流子網絡和空間流子網絡的稀疏因子。以HMDB51數據集的空間流子網絡為例,統計ζ分別取0, 10-5,10-4, 10-3時,稀疏化訓練后γ的分布,通過分析選擇稀疏因子為10-4。同理,時間流子網絡的稀疏因子取為10-5。
本文將采用基于BN層縮放因子的通道剪枝方法對子網絡ST-ResCNN進行壓縮。為了保持STResCNN網絡的性能優勢,提出兩個剪枝原則:(1)剪枝時不能破壞其殘差結構;(2)剪枝時不能破壞殘差塊中空間卷積層的結構。遵循剪枝原則1,保留每一個殘差塊的直連結構,參照圖1中殘差塊的結構,不能對殘差塊的最后一個時間卷積層進行剪枝。遵循剪枝原則2,僅對每個殘差型時空卷積塊中的時間卷積層進行剪枝。為了進一步壓縮網絡,本文提出通過減少輸入全連接層的通道數的方法實現全連接層參與剪枝。也就是說,刪除最后一個殘差塊(Conv5_3)的直連,并對Conv5_3的最后一個時間卷積層也進行剪枝。
綜上,本文對ST-ResCNN的剪枝方案為:刪除網絡的最后一個殘差塊(即Conv5_3)的直連,并將該殘差塊中所有的時間卷積層參與剪枝,如圖3(b)所示,紅框標注的時間卷積層均參與剪枝;其余的殘差型時空卷積塊中的所有殘差塊,包括Conv2_x(x=1,2,3), Conv3_x (x=1,2,3,4), Conv4_x(x=1,2,3,4,5,6), Conv5_x (x=1,2),均保留其直連,對除殘差塊的最后一個時間卷積層之外的所有時間卷積層都進行剪枝。以Conv5_2為例,僅紅框標注的第1個時間卷積層參與剪枝,如圖3(a)所示。需要說明的是,剪枝方案將BN層的縮放因子作為衡量通道重要性的指標,并根據該指標剪除對網絡貢獻小的非重要通道,從而壓縮網絡。同時,正因為被剪除通道對網絡的貢獻小,剪枝后網絡的識別精度損失不大。例如,在UCF101數據集上,模型經過剪枝后,壓縮率約為45%,而識別精度僅降低了0.05%。
Varol等人[15]發現提高雙流網絡的輸入視頻段的幀長,有助于提高網絡精度。本文實驗也驗證了這一點。例如,本文在HMDB51數據集上,采用雙流-時空殘差卷積神經網絡進行識別,當將輸入幀長從8提高到16時,網絡的識別精度提高了7.1%,但是,本文在對經通道剪枝后的雙流-時空殘差卷積神經網絡執行相同實驗時發現,提高輸入幀長并不能明顯提高網絡的識別精度。因此,本文認為通道剪枝降低了原網絡對人體行為在長時間段內的變化信息的學習能力。文獻[12]提出非局部模塊可以捕獲圖像、視頻中的長距離依賴信息。受此啟發,本文將非局部模塊引入通道剪枝后的雙流-時空殘差卷積神經網絡中,以提高網絡對視頻中長距離依賴信息的學習能力。
假設非局部模塊的輸入特征圖為I1,I2,xi和xj分別為I1,I2在位置i和j處的特征值,Z為非局部模塊的輸出,且Zi與輸入特征圖I1中的xi對應,則
其中,f(xi,xj) 為輸入特征圖I1,I2中位置i和j處的特征值的相關性度量,本文中函數f選用式(4)所示的嵌入式高斯函數[12]
其中,Θ(xi)=WΘxi,Φ(xj)=WΦxj,且WΘ WΦ為映射矩陣,T指轉置操作。嵌入式高斯函數先將特征值xi和xj分別映射到新的線性空間,再計算它們之間的相關性度量。f的值越小,表示位置i和位置j之間的像素相關性越小。
此外,g(xj)=Wgxj,Wg和WZ為權重矩陣。C(x)為歸一化參數,且
需要說明的是,式(3)中的矩陣WΘ,WΦ,Wg和WZ均由網絡訓練確定。
圖4給出了非局部模塊的具體結構。本文中,非局部模塊的輸入是多幀特征圖,輸入特征圖序列輸入模塊Θ,Φ,g(分別對應Θ(·),Φ(·)和g(·))進行處理,模塊f為式(4)所示的嵌入式高斯函數,計算得到每幀輸入像素與其他所有幀中像素的相關性權重后,再由1×1×1模塊進行維度轉換,得到多幀特征圖之間的長距離依賴度量矩陣,最后與直連的多幀輸入特征圖相加,得到非局部模塊的輸出。

圖4 非局部模塊的網絡結構
本文將在時空殘差卷積神經網絡中引入非局部模塊。經分析,為了使得后續網絡層能提取到更豐富的語義信息,在網絡的靠前層引入非局部模塊效果更佳,后續實驗也驗證這一分析結果。其次,非局部模塊的計算需要較大的顯存開銷,在引入時,數量應該適當。因此,本文考慮在ST-ResCNN的Conv1后增加一個非局部模塊,如圖1所示。非局部模塊的引入,使得改進后的模型具備了對長距離依賴關系的學習能力,此時再進行基于BN層縮放因子的通道剪枝,可確保剪枝后網絡能夠在提高視頻輸入的幀長時,進一步提高網絡的識別精度。
目前常用的人體行為識別視頻數據集有UCF101,HMDB51, Kinetics-400, Kinetics-700等[16-20]。本文選擇其中較為常用的,樣本數量相對較少的兩個數據集:UCF101和HMDB51,以驗證提出模型在無大數據支撐下的識別效果。
基于數據集,本文采用按幀提取的方式從視頻樣本中獲取RGB圖像序列,設置幀提取率為30,并基于PWC-Net生成光流圖像序列。訓練前,對已有數據集中的樣本按訓練集:測試集等于7:3劃分,為了提高模型的泛化性,對數據集做一定的數據增強。首先,將原始大小為320×240的圖像縮放至171×128后隨機裁剪為112×112大小;然后將圖像以0.5的概率水平翻轉。為了降低網絡的訓練難度,提高網絡性能,本文使用了在Kinetics-400上的預訓練模型1https://github.com/open-mmlab/mmaction。模型訓練時,輸入網絡的是一系列設定幀長的連續RGB幀或光流序列,并采用基于梯度中心化算法改進的帶動量的隨機梯度下降算法(Gradient Centralization Stochastic Gradient Descent with Momentum, GC-SGDM)優化器,設置權重衰減為0.000 5,動量為0.9,初始學習率為0.000 1,并以損失是否下降為指標更新學習率,學習耐心設置為10,且根據現有實驗條件,設置網絡的輸入幀長為8時批尺寸為10,輸入幀長為16時批尺寸為5,對于UCF101數據集,設置訓練epoch為600,HMDB51數據集設置為800。實驗硬件為:兩塊型號為RTX 2080Ti的GPU,型號為i7-7800X@3.50GHz×12的CPU,實驗環境為Ubuntu 16.04,CUDA 8.0, CUDNN 7.4,所有實驗均在PyTorch框架下完成。
4.2.1 主干網絡的深度選擇
一般而言,神經網絡的深度越深,特征表達能力越強,模型性能越好。但是層數越深的神經網絡對訓練數據的數量要求也會增加。層數深的神經網絡在小數據集上訓練時易出現過擬合現象。因此,需要探討不同大小數據集適用的主干網絡的深度。以空間流子網絡為例,實驗首先采用34層STResCNN作為主干網絡。實驗發現,在UCF101上,34層ST-ResCNN的性能較優,而在HMDB51上,34層ST-ResCNN出現了過擬合現象。
因此,本文將首先為HMDB51數據集選擇合適的網絡深度。具體地,本文對4個殘差型時空卷積塊進行刪減,經過試驗共得A, B, C, D 4種模型,表1給出了它們的網絡層數,每個時空卷積塊中的殘差塊個數,刪減后模型的參數量,以及將其作為空間流子網絡時的識別精度。在后續針對HMDB51數據集的實驗中,本文將使用識別精度最高的模型A。

表1 不同網絡深度ST-ResCNN的結構及其識別精度
4.2.2 基于雙流-時空殘差卷積神經網絡的人體行為識別結果
由上可知,在數據集UCF101和HMDB51上,本文將分別采用34層ST-ResCNN、10層ST-ResCNN(即表1中的模型A)作為時間流、空間流子網絡的主干網絡。設置兩個子網絡的輸入幀長均為16,且34層ST-ResCNN使用在Kinetics-400上的預訓練模型。分別采用均值融合法和最大值融合法,融合時間流、空間流子網絡的識別結果。實驗結果見表2。由表2可知,本文提出的雙流-時空殘差卷積神經網絡在采用均值融合方法時,在UCF101和HMDB51上均獲得了較高的識別精度,分別為98.00%和69.20%。

表2 融合實驗結果對比(%)
4.2.3 基于通道剪枝的雙流-時空殘差卷積神經網絡的人體行為識別結果
由2.1.1節可知,根據實驗,識別UCF101數據集的時間流和空間流子網絡的稀疏因子選為10-4;識別HMDB51數據集的時間流、空間流子網絡的稀疏因子分別選為10-5和10-4。此外,網絡的壓縮率與剪枝閾值相關,剪枝閾值設置較大,壓縮后模型更小,但其識別精度也會降低更多。因此,以UCF101數據集為例,本文分別選取剪枝閾值為70%和80%時,對比兩個數據集下,剪枝后網絡的參數量、模型大小、壓縮率和識別精度。根據在模型壓縮率和模型精度間折衷的原則,本文選取出不同數據集下子網絡的最佳剪枝閾值,如表3所示。實驗中,設置網絡的輸入幀長為8,且使用Kineticts-400數據集上的預訓練模型。

表3 UCF101和HMDB51上剪枝的實驗結果(%)
由表3可知,在數據集UCF101上,當空間流子網絡的剪枝閾值為70%時,剪枝后網絡可獲得最高精度92.13%,對比表2與原始網絡相比僅低了0.95%,而此時模型的壓縮率有41.70%。而在HMDB51上,剪枝后的網絡獲得比剪枝前網絡更高的識別精度。分析可知,模型A在HMDB51上仍存在過擬合,經剪枝壓縮網絡后,性能得到提升。
同時,表3給出了在兩個數據集上,采用均值融合算法的識別結果。此外,本文對全連接層是否參與剪枝的模型進行了實驗對比,由實驗可知,在相同剪枝閾值下,全連接層參與剪枝后網絡的模型壓縮率提高,且識別精度也有所提高。以34層ST-ResCNN的空間流子網絡為例,剪枝閾值為80%時,全連接層參與剪枝后,模型的參數量減少3.86M,模型大小降低15.5MB,壓縮率提高6%,且識別精度提高了0.84%。
本文將網絡的輸入幀長從8提高到16,實驗發現,提高輸入幀長,在剪枝前網絡上能獲得更高的精度收益,而剪枝后網絡的精度收益較小,如表4所示。本文認為通道剪枝降低了原網絡對人體行為在長時間段內的變化信息的學習能力。因此,本文將通過在網絡中增加非局部模塊來提升網絡對視頻中長距離信息的學習能力。

表4 提高輸入幀長后網絡的識別精度對比
在網絡中引入非局部模塊時,對網絡的參數量影響不大。例如,表1中的模型A,其參數量為14.38M,按40%的剪枝閾值剪枝后的模型參數量為8.92M,引入一個非局部模塊后網絡的參數量為10.05M。但是,非局部模塊的計算需要較大的顯存開銷,對硬件設備的要求較高,因此,本文嘗試在網絡中引入1個非局部模塊,進行相關實驗探討其引入位置。以時間流子網絡在HMDB51數據集上的實驗為例,分別在10層ST-ResCNN的4個殘差型時空卷積塊的輸入前端添加一個非局部模塊進行實驗。發現非局部層的位置越靠網絡的輸入端,測試的精度逐漸變高。最高在第1個殘差型時空卷積塊前添加非局部模塊,比原始網絡高出0.68%,最低在第4個殘差型時空卷積塊前添加非局部模塊,只比原始網絡高出0.04%。基于此,在不同深度的ST-ResCNN中的第1個殘差型時空卷積塊前添加非局部模塊,并采用上述剪枝方案將網絡參與剪枝。再次訓練分析其性能。選擇輸入幀長為16,各子網絡的剪枝閾值均為上述表3所示的最佳方案,并將網絡進行融合實驗。如表5所示,在剪枝后網絡中引入非局部模塊后,提高網絡輸入幀長,網絡的識別精度增長有提高。

表5 3種網絡的對比實驗(輸入幀長為16、均值融合)
本文比較了本文算法與現有算法在相同數據集上的識別結果,如表6所示。需要說明的是,與本文相比較的算法的技術重點均為網絡結構改進。除ActionCLIP采用了Transformer架構外[22](預訓練數據來源于網絡無具體名稱),表6中“輸入”僅為“RGB”的行為識別算法均采用3D網絡,“輸入”為“雙流”的行為識別算法均采用RGB+光流作為輸入的雙流網絡。

表6 本文算法與現有算法的比較
由表6可知,相對于單流的R(2+1)D-50而言[21],與雙流網絡相結合的R(2+1)D-34算法更優[24],本文算法剪枝前后的結果與針對網絡結構進行優化改進的最新技術(ActionCLIP)及采用STM的方法相比[22,23],在UCF101數據集上,識別率均更高。與TDN相比[11],本文算法在UCF101數據集上的準確率高了0.93%;雖然TDN在HMDB51數據集上的準確率比本文提出方法高出1.67%,但其主干網絡為ResNet-50(參數量為25.5M),而本文PNLSTResCNN-10的主干網絡只有10層(參數量為10.5M),因此本文算法具有一定優勢。綜上,本文提出模型與前沿技術均有可比較性且在中小型數據集上都具有良好的精度,在UCF101和HMDB51數據集上的最高識別精度為98.33%和74.63%。
本文首先針對3D結構和雙流結構的各自優缺點,提出雙流-時空殘差卷積神經網絡。為了降低模型復雜度,減輕網絡的訓練難度,提出針對殘差型網絡結構的通道剪枝方案,實現網絡的壓縮。進一步地,本文提出在時間流和空間流網絡的首個殘差型時空卷積塊前增加非局部模塊,經剪枝后得到基于通道剪枝的雙流-非局部時空殘差卷積神經網絡(TPNLST-ResCNN),適當提高了剪枝后網絡的復雜度,有利于網絡提取長時間段內人體動作的變化特征。除此之外,在未來工作中還會使用更多的圖像增強技術來擴大小數據集的規模,也會嘗試特征融合代替分數融合以提高實驗精度。