張君秋 趙建光



摘? 要:由于視頻數據大量,視覺內容豐富,如何有效地提取視頻中的時間特征,有效地融合時空特征是動作識別中的一個難題。針對這些困難,提出了一種基于注意力機制和三維卷積聚合的動作識別新算法。為了驗證該算法的有效性,在大型公共行為數據集UCF101上進行了驗證。實驗結果表明,該算法具有良好的時間特征建模能力,有效地提高了動作識別的精度。
關鍵詞:動作識別;注意力機制;模型聚合;三維卷積;雙流架構
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)17-0071-05
Action Recognition Based on Attention Mechanism and Three-dimensional Convolutional Aggregation
ZHANG Junqiu, ZHAO Jianguang
(Information Engineering College, Hebei University of Architecture, Zhangjiakou? 075000, China)
Abstract: Due to the large amount of video data and rich visual content, how to effectively extract the temporal features in the video and effectively fuse the spatiotemporal features is a difficult problem in action recognition. To solve these difficulties, a new algorithm for action recognition based on attention mechanism and three-dimensional convolutional aggregation is proposed. To verify the effectiveness of the algorithm, it is verified on the large public behavior dataset UCF101. The experimental results show that the algorithm has good temporal feature modeling ability, which effectively improves the accuracy of action recognition.
Keywords: action recognition; attention mechanisms; model aggregation; three-dimensional convolution; dual-stream architecture
0? 引? 言
近年來,動作識別[1]已逐漸成為研究的熱點領域,并在智能監控[2]和人機交互[3]中得到了廣泛的應用。動作識別任務的重點是如何準確地判斷視頻中人體正在進行的行為。在深度學習發展之前,動作識別主要依靠手動選擇的特征來對特定的視頻進行分類。隨著視頻多樣性的增加,視頻動作特征的表達逐漸從二維發展到三維,傳統手工特征提取的復雜性也在增加。深度學習為動作識別的深入研究提供了一種新的方案。目前,基于深度學習的主流動作算法包括雙流卷積網絡[4]、長短期記憶網絡[5]和三維卷積網絡[6]。
1? 相關工作
早期的動作識別方法主要采用人工特征提取來進行動作表示。Davis等人利用空間中的人體等高線信息,利用時間上的運動能量圖和運動歷史圖來描述動作的變化和動作發生的順序[7]。丁重陽[8]等以人體骨骼特征作為動作表示特征,利用雙線性分類器計算時空編碼特征的權重,獲得了較好的識別效果。
2012年,在ILSVRC圖像分類比賽中,Hinton隊伍使用AlexNet模型獲得冠軍,以神經網絡為中心的深度學習開始發展。2014年,Simonyan等人提出了一種雙流卷積神經網絡[9]模型。空間網絡以RGB圖像作為輸入來描述空間特征,時間網絡以堆疊的光流圖像作為輸入來描述時間特征,將兩個網絡的最大分類分數進行融合,作為最終的識別結果。為了更好地整合外觀信息和運動信息,Feichtenhofer[10]等人研究了雙流卷積神經網絡的多種融合方法。然而,上述方法只能捕捉到較短的時間依賴性。為了獲取較長的時間依賴性,謝昭[11]等人增加了LSTM網絡中的時空注意,利用空間注意抑制空間冗余信息,利用時間注意抑制大量無用的幀圖像。
動作識別的研究雖然取得了一定的進展,但在時間特征表征方面仍處于停滯狀態,導致動作識別不能廣泛應用于實踐。針對這一問題,我們引入了時間注意機制,通過時間注意機制增強了連續圖像之間的運動信息,并利用三維卷積來聚合視頻幀級特征,有效地捕獲了圖像序列之間的相關性,并在一定程度上增強了長距離的時間特征。
2? 方法設計
針對存在的問題,我們提出了一種基于注意機制的三維卷積特征聚合的動作識別新算法。該網絡結構由雙流網絡的時空特征提取模塊、時間注意模塊、基于三維卷積的特征聚合模塊和雙流網絡的融合與識別模塊四個部分組成。其網絡結構如圖1所示。
2.1? 視頻預處理
視頻預處理的兩個主要任務是光流圖像的提取和片段采樣。為了提取光流,首先通過OpenCV庫將數據集中的視頻轉換為圖像,然后利用總變化線性范數(TVL-1)提取光流。光流圖像示意圖如圖2所示。
由于視頻序列中存在大量冗余幀,為了消除冗余幀信息,采用稀疏采樣策略,在一定的時間間隔內獲取一張圖像,組成序列數據,以此作為網絡模型的輸入。
2.2? 雙流網絡的時空特征提取模塊
時空特征提取模塊采用雙流卷積網絡結構。根據不同的輸入源,一個分支是空間流網絡分支,以RGB圖像作為輸入源,提取視頻圖像的空間特征;另一個分支是運動流網絡分支,利用堆疊的光流圖像作為輸入源,提取連續視頻圖像的時間特征。這兩個網絡分支都使用在大型數據集ImageNet[12]上預先訓練過的ResNet101網絡模型來提取高級語義特征。圖3就是一個ResNet的殘差學習單元。
2.3? 時間注意模塊
由于進入三維卷積網絡的信道輸入對網絡模型識別結果的貢獻不同,因此引入注意模塊來建立各信道之間的相關性,以增強特征圖之間關鍵信息的提取。本文在時空特征提取模塊后面引入了SENet[13]通道注意力模塊,用來連接特征提取模塊和三維的聚合網絡。通道注意模塊結構如圖4所示。
注意力機制的兩個重要步驟是壓縮操作和激勵操作。首先,在空間維度上進行全局平均池化操作,以融合特征,并對特征圖進行壓縮:
2.4? 基于三維卷積特征聚合模塊的雙流網絡融合與識別模塊
由于數據預處理過程中的稀疏采樣步驟,導致相鄰的兩幀之間存在較大的時間間隔,因此本文選擇三維神經卷積網絡來對相鄰圖像之間的相關性進行建模。將融入時間注意加權的信道輸入到三維卷積網絡模塊中,進行特征聚合。本文設計的三維卷積網絡的具體結構如表1所示。在訓練過程中為了加快網絡的收斂速度,避免過擬合的產生,在每個卷積過程中都增加了一個BN層。
經過三維卷積聚合模塊生成多個特征向量,然后分別用一個分類器得到每個分支的分類結果。最后,將時間特征聚合和空間特征聚合這兩個分支進行融合,得到最終的分類結果。
3? 實驗及結果分析
3.1? 數據集
本文選用的行為識別數據集為UFC101[14],采用01劃分來劃分訓練集和測試集。視頻種類有101種,主要包含人和物體交互、只有肢體動作、人與人交互、玩音樂器材和各類運動5大類動作。
3.2? 實驗環境及參數設置
實驗中的硬件環境如表2所示。
網絡訓練采用小批量樣本迭代的方式,由于考慮到顯卡的性能以及收斂速度等多方面的因素影響,設置批處理大小值為4,初始學習率為0.001。網絡模型訓練參數設置如表3所示。
實驗中使用了交叉熵損失函數[15]。目標函數表示為:
3.3? 網絡訓練過程
為了降低實驗過程中過擬合的風險,增加了訓練的樣本數量,在網絡訓練前進行圖像增強處理,對處理完的RGB圖像和光流圖像進行角裁剪和水平翻轉操作,以此來擴大數據集的規模。為了加速網絡模型的收斂速度,同時達到更好的訓練效果,對網絡模型進行了預訓練。使用現有模型對所設計的網絡模型進行初始化,后續在UCF101數據集上繼續訓練進行參數的調整,以此獲得最優的網絡模型。
3.4? 實驗結果與分析
網絡模型在經過100次迭代后,訓練損失趨于平穩,說明訓練基本完成。網絡的損失變化曲線如圖5所示。網絡在迭代20次之前,損失變化十分明顯,之后損失變化緩慢,經過100次的迭代后,網絡模型訓練的損失趨于穩定,由此可見網絡的預測值和真實值越來越接近,其準確率也達到了90.7%。
由于本文算法參數量較大且計算成本高,對訓練好的網絡模型結構和參數進行微調。為解決網絡結構復雜、訓練速度較慢的問題,引入加速神經網絡模塊,加速網絡收斂速度,同時允許使用更大的學習率,使得訓練更快;且BatchNorm(BN)能將非線性層輸入分布更多的拉到0附近,在使用sigmoid等非線性層時梯度不容易消失。如圖6所示,加入BN模塊的網絡模型的損失值更貼近于0。
為了提高模型整體的準確率,避免網絡輸出都是輸入的線性組合,使得深層神經網絡有意義,引入了LeakyReLU(LR)函數,如圖7所示,加入LR函數的網絡模型的損失值更貼近于0。
針對網絡模型的結構和參數微調,分別對比了基礎網絡和加入BN模塊、融入LR函數的網絡在UCF101數據集上的分類結果,基礎網絡指未加入BN模塊和LR函數的網絡。比較的結果如表4所示。從表格4中可以看出,對基礎網絡進行微調在對識別準確率影響不大的情況下,大大提高了網絡模型的收斂速度和模型的穩定性。
4? 模型評價
為了能直觀地展示本文算法的優勢,與目前在行為識別領域先進的深度學習算法進行了比較,表5比較了UCF101數據集上各種行為識別算法的Top-1精度??梢?,本文的方法在一定程度上取得了良好的識別效果。但由于硬件等資源的限制,并未完全解決識別速度問題。在識別速度上還有一定的提升空間,下一步的研究工作還要注重識別速度和網絡輕量化模型的構建,在保證識別準確率的前提下,盡可能地降低模型的復雜度。
5? 結? 論
本文提出了注意機制和三維聚合的行為識別算法。通過對UCF101數據集的測試,結果表明該方法具有較好的識別效果。雖然行為識別目前已經取得了一定的研究成果,但仍沒有非常成熟的識別框架,在實際的場景中應用還存在不足。目前針對光流計算成本高、三維卷積參數較多且大多數都是基于視頻片段的方法,研究者們更關注于輕量化模塊和卷積維數更高的殘差4D模塊,這也成為未來行為識別的重要研究目標。
參考文獻:
[1] 朱相華,智敏.基于改進深度學習方法的人體動作識別綜述 [J].計算機應用研究,2022,39(2):342-348.
[2] SHARIF A,KHAN M A,JAVED K. Intelligent Human Action Recognition:A Framework of Optimal Features Selection based on Euclidean Distance and Strong Correlation [J].Control Engineering and Applied Informatics,2019,21(3):3-11.
[3] 劉均發.面向人機交互的3D人體姿態估計與行為識別研究 [D].廣州:廣東工業大學,2021.
[4] 丁雪琴,朱軼昇,朱浩華,等.基于時空異構雙流卷積網絡的行為識別 [J].計算機應用與軟件,2022,39(3):154-158.
[5] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780.
[6] 齊琦,錢慧芳.基于融合3DCNN神經網絡的行為識別[J].電子測量技術,2019,42(22):140-144.
[7] RODR?GUEZ N D,CU?LLAR M P,LILIUS J,et al. A survey on ontologies for human behavior recognition [J].ACM Computing Surveys,2014,46(4):1-33.
[8] 丁重陽,劉凱,李光,等.基于時空權重姿態運動特征的人體骨架行為識別研究 [J].計算機學報,2020,43(1):29-40.
[9] WANG X H ,GAO L L,WANG P,et al.Two-Stream 3-D convNet Fusion for Action Recognition in Videos With Arbitrary Size and Length [J].IEEE Transactions on Multimedia,2018,20(3):634-644.
[10] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two-Stream Network Fusion for Video Action Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:1933-1941.
[11] 謝昭,周義,吳克偉,等.基于時空關注度LSTM的行為識別 [J].計算機學報,2021,44(2):261-274.
[12] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet Large Scale Visual Recognition Challenge [J/OL].arXiv:1409.0575 [cs.CV].(2014-09-01).https://arxiv.org/abs/1409.0575v3.
[13] CHEN Q,LIU L,HAN R,et al. Image identification method on high speed railway contact network based on YOLO v3 and SENet [C]//2019 Chinese Control Conference (CCC).Guangzhou:IEEE,2019:8772-8777.
[14] XUE F,JI H B,ZHANG W B,et al. Attention-based spatial–temporal hierarchical ConvLSTM network for action recognition in videos [J].IET Computer Vision,2019,13(8):708-718.
[15] 周博言.基于殘差神經網絡的代價敏感人臉識別研究 [D].南京:南京大學,2019.
[16] KARPATHY A,TODERICI G,SHETTY S,et al. Large-scale video classification with convolutional neural networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:1725–1732.
[17] CARREIRA J,ZISSERMAN A. Quo vadis,action recognition? A new model and the kinetics dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:4724-4733.
[18] TRAN D,BOURDEV L,FERGUS R,et al. Learning spatiotemporal features with 3D convolutional networks [C]//2015 IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE,2015:4489-4497.
[19] SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for action recognition [J/OL].arXiv:1406.2199 [cs.CV].(2014-06-09).https://arxiv.org/abs/1406.2199.
[20] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-term recurrent convolutional networks for visual recognition and description [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:2625-2634.
作者簡介:張君秋(1999—),女,漢族,河北唐山人,碩士研究生在讀,研究方向:計算機視覺;通訊作者:趙建光(1978—),男,漢族,河北大名人,副教授,碩士生導師,博士,研究方向:感知互聯與智能計算。