汪威 胡旭曉 吳躍成 丁楠楠 王佳



摘? 要:在自動扶梯場景下的視頻人體動作識別中,視頻數據源不穩定,如遮擋、多視角、光照、低分辨率、動態背景以及背景混亂等均導致動作分類及檢測不準確。針對這些問題,提出使用基于改進的SlowFast網絡的人體動作識別方法,以更好地捕獲視頻連續幀中隱藏的時間和空間信息。通過與R(2+1)D卷積網絡模型的識別準確率進行對比,改進的SlowFast網絡模型在視頻中的動作分類和檢測方面都表現了很好的性能,能夠有效地解決自動扶梯場景下的人體動作識別問題。
關鍵詞:人體動作識別;單流三維卷積神經網絡;慢速路徑;快速路徑;改進的SlowFast
中圖分類號:TP249? ? ?文獻標識碼:A
文章編號:2096-1472(2021)-09-24-03
Abstract: In human motion recognition in escalator scene video, the instability of the video data source, such as occlusion, multiple viewing angles, illumination, low resolution, dynamic background, and background confusion, leads to inaccurate motion classification and detection. Aiming at these problems, this paper proposes to use a human motion recognition method based on the improved SlowFast network to better capture the temporal and spatial information hidden in the continuous video frames. Compared with the recognition accuracy of the R (2+1) D convolutional network model, the improved SlowFast network model has achieved better performance in motion classification and detection in videos, and can effectively solve the problem of Human body motion recognition in escalator scene.
Keywords: human motion recognition; single stream 3-D convolutional neural network; slow path; fast path; improved SlowFast
1? ?引言(Introduction)
自動扶梯是空間開放性運輸工具,活動空間相對較大,導致傷害的因素比較多[1]。臺階是持續運動的,乘客進入或者離開臺階區域時運行狀態的改變容易使其站立不穩,發生跌倒危險;在乘客越界后自動扶梯與墻壁交叉處產生的“剪切”將嚴重威脅乘客安全[2];此外,乘客逆行、攜帶大件物品等都容易發生意外傷害。自動扶梯人體動作識別的主要目標是判斷一段視頻中人的動作的類別,主要識別判斷危險動作類別,比如身體部位越過安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等,保障乘客的人身與財產安全。近年來,基于深度學習網絡模型的端到端方法實現了特征提取和分類的無縫連接[3]。本文基于深度學習的方法實現自動扶梯視頻中的人體動作識別,對自動扶梯乘客危險動作進行實時監測預警。
2? 單流三維卷積神經網絡(Single stream 3D convolution neural network)
2.1? ?三維卷積
單流三維卷積神經網絡使用時間卷積來識別視頻中人類行為,利用在大規模監控視頻數據集上訓練的深度三維卷積網絡進行時空特征學習。三維卷積網絡比二維卷積網絡更適于時空特征學習,在所有層中均具有3×3×3卷積核的同類架構是三維卷積網絡性能最佳的架構之一[4]。與二維卷積網絡相比,由于三維卷積和三維池化操作,三維卷積網絡能夠對時間信息進行建模。在三維卷積網絡中,卷積和池化操作是在時間上進行的,而在二維卷積網絡中,卷積和池化操作僅在空間上進行。二維卷積網絡在每次卷積操作之后立即丟失輸入信號的時間信息,只有三維卷積才能保留輸入信號的時間信息,從而產生輸出量。
2.2? ?R(2+1)D卷積
將三維卷積濾波器分解為單獨的空間和時間分量會顯著提高準確性。基于三維卷積,研究設計了一個新的時空卷積塊“R(2+1)D”[5],它將3D卷積顯式分解為兩個獨立且連續的運算,即2D空間卷積和1D時間卷積。用一個大小為的卷積濾波器和一個大小為的時間卷積濾波器組成的(2+1)D塊替換了大小為的卷積濾波器。第一個優點是這兩個操作之間的附加非線性整流。與在相同數量的參數下使用完整3D卷積的網絡相比,這有效地使非線性數量增加了一倍,從而使網絡模型能夠表示更復雜的函數。第二個潛在的好處是分解有助于優化。
3? 改進的SlowFast網絡(Improved SlowFast network)
3.1? ?網絡原理
一種著名的視頻識別體系結構是雙流設計[6],但其提出的觀念并沒有探索時間軸的影響,其兩個流采用相同的主干結構。
運動是方向的時空對應物,但并非所有的時空方向都具有相同的可能性。慢動作比快動作更有可能運動,如果所有時空方向的可能性都不相同,那么就沒有理由像基于時空卷積的視頻識別方法中所說明的那樣,對空間和時間進行對稱處理。對于人體動作識別,SlowFast網絡[7]不額外捕獲光流或近似光流特征,而是用幀的刷新速度來區分空間和時間關系,分別處理空間結構和時間事件。視頻場景中的幀通常包含兩個不同的部分:不怎么變化或者緩慢變化的靜態區域和正在發生變化的動態區域。在視覺內容的范疇空間語義往往發展緩慢,例如,揮手在揮手動作的跨度上不會改變自己作為“手”的身份,一個人即使可以從走路切換到跑步,也始終處于“人”的范疇。因此,動作分析中語義的識別,如顏色、紋理、光線等可以相對緩慢地刷新。另一方面,正在執行的動作可以比主體身份變化快得多,例如拍手、揮手、顫抖、走路或跳躍,于是我們迅速地去刷新動作幀,但是不改變執行動作人的身份信息。利用快速刷新幀(高時間分辨率)對潛在的快速變化運動進行有效建模是一種理想的方法。
3.2? ?網絡結構
SlowFast網絡可以描述為在兩個不同幀率下運行的單一流架構,可以進行端到端的網絡訓練。其網絡結構原理圖如圖1所示。
SlowFast網絡主要包含兩個網絡分支:一個低幀,低時序分辨率的慢速路徑;一個高幀,高時序分辨率的快速路徑。快速路徑的時序分辨率為慢速路徑的倍數,通道數為慢速路徑的倍數(如1/8)。最后,進行橫向連接融合兩個路徑。
(1)慢速路徑(Slow pathway)
慢速路徑輸入為低幀率數據,主要捕獲空間語義信息,以低幀率和緩慢的刷新速度運行。慢速路徑可以是任何卷積模型,其輸入源視頻剪輯作為一個時空量。慢速路徑在輸入幀上有一個大的時間步伐,原始輸入視頻幀,以步伐進行采集,采集到幀圖像送入慢速通道訓練。
(2)快速路徑(Fast pathway)
快速路徑輸入為高幀率數據,主要捕獲時序動作信息,以高幀率和快速的刷新速度運行。盡管快速路徑在時間維度刷新很快,但是在整個網絡中,其只占用了20%的計算量,通道數很少,是一個輕量級子網絡。快速路徑對空間信息的捕獲能力較弱,但能捕獲到對動作識別有用的信息。快速路徑與慢速路徑平行,是另一個卷積模型。快速路徑在時序方向使用步伐比較小的方式進行采樣,步伐表示為,這里,表示快速路徑與慢速路徑幀率的比值。這兩條路徑在同一輸入視頻源上進行剪輯操作(但步伐不一樣)。快速路徑采樣幀,比慢速路徑密度大。
(3)橫向連接(Lateral connections)
兩條路徑的信息是融合的,在融合之前,其中一條路徑并不會意識到另一條路徑所習得的信息。每一個“階段”在兩條路徑之間附加一個橫向連接[8],對于ResNets[9],這些橫向連接的部分分別位于pool1、res2、res3與res4層之后。兩種路徑的時間維度是不一樣的,需要對它們進行一個轉換后才能進行匹配,使用單向連接的方式,融合快速路徑的特征到慢速路徑。最后,對于每個路徑的輸出,將兩個混合的特征向量串聯起來作為全連通分類器層的輸入。
3.3? ?網絡結構的改進
(1)進一步減少輕量級快速路徑的空間容量
快速路徑在空間維度上沒有特殊處理。因此,其空間建模能力應低于慢速路徑,需要減少快速路徑對空間的捕獲能力,同時增加其對時間的捕獲能力。結合降低輸入空間分辨率和去除顏色信息等方式,最大化降低快速路徑的空間容量來實現輕量化。
(2)對時態卷積的優化應用
在慢速路徑中,從conv1層到res3層本質上都是使用二維卷積核。通過實驗發現,如果在早期的網絡層使用帶時序的卷積核會降低準確率。當目標移動比較快、時間步長比較大時,如果時間感受野比較小,就沒有辦法把動作連貫起來,除非空間感受野足夠大,否則在一個時間感受野內幾乎沒有相關性。因此,我們只在res4層和res5層中使用非退化的時態卷積。
4? ?實驗與結果分析(Experiment and result analysis)
4.1? ?數據集與實驗環境
按照UCF101[10]公共數據集,將一個人體動作類的剪輯分為25 個組,每個組包含4—7 個剪輯,每一組剪輯具有一些共同的特征,例如背景或乘客。針對身體部位越過安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等危險動作類別,采集動作序列視頻數據作為自動扶梯人體動作模型庫標準,劃分出訓練集和測試集。
利用樓梯場景下人體動作數據集進行預訓練,進一步提高訓練模型針對我們預設幾種人體動作的識別準確率。其中樓梯場景下的人體動作類別與自動扶梯場景下需進行識別的人體動作類別一致。部分自動扶梯場景下人體動作數據集視頻幀如圖2所示。
此次實驗在Ubuntu 16.04操作系統下進行,處理器型號為Intel i7-9750H,顯卡型號為NVIDIA GTX1660ti,深度學習平臺使用PyTorch框架搭建。網絡訓練的初始學習率設置為0.01,每進行10 次迭代學習率除以10;網絡訓練的周期設置為300,一次訓練所選取的樣本數設置為16。以原始圖像數據的方式加載數據,把視頻先切割成每幀圖片,然后加載訓練。使用訓練集進行訓練,并使用測試集進行測試。
4.2? ?實驗過程
針對R(2+1)D網絡訓練,將網絡設置為18 層,輸入的視頻幀被縮放為128×170的大小,然后通過隨機裁剪大小為112×112的窗口方式來生成每個剪輯。在訓練時,從視頻中隨機采樣 個連續幀,并對視頻進行時間抖動。批量歸一化應用于所有卷積層。
針對SlowFast網絡訓練,慢速路徑的主干網絡選擇3D ResNet-50結構,從輸入的64 幀圖像中,使用時間步長稀疏采樣的方式,采集幀圖像作為慢速路徑的輸入。快速路徑的時間步長以及采樣 幀圖像,在整個網絡的時序維度上都沒有進行下采樣,盡可能保持時間逼真度。橫向連接從快速路徑到慢速路徑使用一個卷積層進行融合。慢速路徑的特征形狀表示為,快速路徑的特征形狀表示為。慢速路徑的特征形狀不進行改變,主要調整快速路徑輸出特征的形狀,讓其能和慢速路徑進行匹配。
4.3? ?實驗結果與對比分析
針對網絡訓練所得到的網絡模型,R(2+1)D網絡模型與改進的SlowFast網絡模型的最終訓練效果比較如表1所示。
使用R(2+1)D模型的RGB網絡流在自動扶梯數據集上達到了80.65%的識別準確率。以視頻切割幀的方式進行模型訓練的部分識別測試結果截圖,如圖3所示。
R(2+1)D模型以視頻切割幀的方式進行模型訓練的部分錯誤識別測試結果截圖,如圖4所示。
使用改進的SlowFast網絡模型在自動扶梯數據集上達到了93.4%的識別準確率。以視頻切割幀的方式進行模型訓練的部分識別測試結果截圖,如圖5所示。
針對不同的人做同一類動作,即使同一個人做同一類動作,由于個體差異、動作快慢、環境及背景等不同,以及不同類的動作可能表現出很相似的特征[3],R(2+1)D模型在視頻中的表現可能會產生很大誤差。通過實驗對比,改進的SlowFast網絡對于動作的類內差異性和類間相似性表現出了相對于R(2+1)D模型更加優異的性能,大大提高了識別準確率,并且達到了更好的實時性要求。
5? ?結論(Conclusion)
本文根據自動扶梯場景下人體危險動作類別識別監測的需要,考慮到時間軸這一特殊的維度,研究設計了一種架構,該架構對比了沿時間軸的速度,它可為視頻動作分類和檢測提供更優異的準確性與更好的識別速度。通過與R(2+1)D
網絡模型的對比分析,改進的SlowFast網絡能有效地解決自動扶梯場景下的人體動作識別問題,并且能夠滿足實時性要求,一定程度上促進了對視頻識別的進一步研究。
參考文獻(References)
[1] 楊冠寶.基于全景視覺的自動扶梯節能及智能監控系統[D].杭州:浙江工業大學,2011.
[2] 陳旻.淺析自動扶梯及自動人行道中的“剪切”危險[J].機電技術,2009,32(04):104-107.
[3] 羅會蘭,童康,孔繁勝.基于深度學習的視頻中人體動作識別進展綜述[J].電子學報,2019,47(05):1162-1173.
[4] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3d convolutional networks[C]// MORTENSEN E, FIDLER S. 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015:4489-4497.
[5] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]// MORTENSEN E. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:6450-6459.
[6] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems, 2014, 1(4):568-576.
[7] FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]// MORTENSEN E. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South):IEEE, 2019:6201-6210.
[8] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// MORTENSEN E. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017:936-944.
[9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// MORTENSEN E, SAENKO K. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: IEEE, 2016:770-778.
[10] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[J]. Computer Science, 2012, 3(12):2-9.
作者簡介:
汪? 威(1997-),男,碩士生.研究領域:圖像處理,計算機視覺.
胡旭曉(1965-),男,博士,教授.研究領域:圖像處理,機器視覺.
吳躍成(1966-),男,博士,副教授.研究領域:人機交互.
丁楠楠(1996-),男,碩士生.研究領域:圖像處理.
王? ?佳(1998-),女,碩士生.研究領域:故障診斷算法研究.