趙金龍,陳春雨,于德海,孟天禹
(哈爾濱工程大學,黑龍江 哈爾濱 150000)
近些年隨著電子硬件水平的提升,計算機智能技術發展迅猛,已經逐漸影響人們的日常生活并成為學習工作的重要部分。例如,人臉識別等人機交互技術,已在安全認證等領域大放異彩。而人體手勢作為一種新型的人機交互手段,憑借其便捷、高效的特點逐漸成為新的研究熱點。手勢識別的最終目的是讓計算機能夠讀懂人體手勢,對人類控制智能機器和實現聾啞人手語翻譯具有重大意義。使用計算機技術來識別人物手勢的課題最早開始于1980年代,由于受到計算機計算能力的限制,大多使用手工提取手勢特征的方式,使用機器學習技術如Dynamic Time Warping、隱馬爾可夫模型(Hidden Markov Model,HMM)[1]來進行手勢的識別任務。經過多年發展,這類傳統的手勢識別方法的效果依然不盡人意。
如今計算機的運算能力大大提高,依托計算能力的深度學習技術掀起了人工智能的熱潮。在計算機視覺領域中,利用深度神經網絡處理圖片、視頻等數據的方法已經獲得了越來越多學者的青睞。由于常用的2D卷積神經網絡在處理連續視頻幀的時候會丟失目標在時間維度上的特征信息,因此降低了識別準確率。Ji等人[2]針對該缺陷提出利用3D CNN網絡來進行視頻動作的識別,核心思想是通過3D卷積操作,從時間維度和空間維度構建視頻特征,取得了良好的結果。Tran等人[3]提出了一種新型的C3D模型,經過多次實驗最終確定了最佳時間卷積核長度,完成了對視頻的分類識別任務。張國山等人[4]在CNN網絡中加入了扁平卷積模塊,能夠對手勢動作進行準確分類。
3D卷積操作基于2D卷積操作發展得到,被廣泛應用于視頻識別等領域。3D CNN具備提取視頻中時序信息的能力。圖1和圖2分別為2D卷積操作應用于單通道圖像和多通道圖像(多張圖像)的情況。每一次卷積操作得到一張二維特征圖,壓縮了多張圖像的信息,從而完全丟失了時間維度上的特征信息。圖3中的連續視頻幀經過3D卷積操作得到由多個特征圖組成的特征卷,因此能夠有效提取到輸入的連續視頻幀的時間特征信息和空間特征信息。

圖1 2D卷積操作

圖2 2D卷積操作應用在連續視頻幀

圖3 3D卷積操作
3D卷積的具體方法為同時將由多個連續視頻幀圖像組成的數據與一個3D卷積核(正方體)進行運算。如圖4所示,卷積得到的每一張特征圖都與上一層的3個相鄰的幀有關,包括了時間維度上的特征信息。

圖4 2D卷積操作與3D卷積操作
隨著任務難度的不斷提高,神經網絡越來越深,導致梯度消失和爆炸、訓練過程十分艱難以及網絡深度加深準確率卻降低的性能退化現象。ResNet殘差網絡[5]利用殘差的思想,巧妙化解了網絡退化現象,同時解決了因梯度消失和爆炸而使訓練網絡變得容易的問題。如圖5所示,殘差單元的核心思路為高速路網絡跨層鏈接,使用短鏈接(Shortcuts Connections)方法將輸入數據直接傳遞到輸出端。

圖5 ResNet殘差單元
當F(x)=0時,則有H(x)=x,從而實現一種恒等映射。此時,網絡只需要學習H(x)和x的差F(x)。
本文中的雙通道卷積神經網絡就是基于ResNet-50基本框架提出的,不僅有助于增加網絡深度,而且能保證網絡良好的性能。
為了更好地捕捉連續視頻幀中人物動作在時間維度上的特征信息,提高對動態手勢的識別準確率,本文設計了一種新型的雙通道卷積神經網絡。該網絡的核心思想為將同一個視頻動作輸入至兩個平行的卷積神經網絡,低采樣頻率網絡,關注視頻中變化緩慢的信息,捕獲語義信息;一個高采樣頻率網絡,關注視頻中快速變化的內容,捕獲運動信息。兩個通道都參考3D ResNet-50網絡結構進行時空信息的提取,具體的網絡結構如表2所示。卷積核的信息為{T×S2,C},其中T、S、C對應temporal、spatial、channel的大小。

表1 雙通道卷積神經網絡主干信息
如表1所示,為了保持模型的輕量化,高采樣頻率通道的卷積寬度設置為低采樣頻率通道的1/4。低采樣頻率通道使用較大的時間采樣間隔,在輸入視頻為每秒30幀的情況下,設置為16則表示每秒采集2幀。高采樣頻率通道使用小的時間采樣間隔,設置為2代表每秒采集15幀,即時間上的采樣間隔比為8。
對于眾多雙分支卷積神經網絡結構,它的特征融合的方式通常很固定,即在網絡的終端進行特征向量的拼接,然后將拼接完成的特征數據輸入至分類器進行最終的分類。如圖6所示,本文將兩個網絡分支的最終輸出進行拼接,即將1×512維度特征向量與1×2 048維度特征向量進行拼接得到1×2 560維度的特征向量,然后將其送入全連接層完成分類。

圖6 網絡終端特征融合
另一種融合方式為將來自高采樣頻率通道的數據通過側向連接被送入低采樣頻率通道,使得低采樣頻率通道可以在不同階段了解到高采樣頻率通道的處理結果[6]。而單一數據樣本的格式在兩個通道間是不同的(高采樣頻率通道{8T,S2,C},低采樣頻率通道{T,S2,4C}),因此要對高采樣頻率通道的特征數據進行格式變換,然后融合至低采樣頻率通道。融合方式為使用一個尺寸為{5×12,2C}的3D卷積核進行卷積操作。如圖7所示,用于不同通道特征數據轉換的卷積層2、卷積層3、卷積層4的具體細節將會以表2的形式給出,包含卷積的輸入通道數、輸出通道數、卷積核大小、步長以及填充的尺寸。

表2 用于側向鏈接的卷積層信息
圖7是數據在網絡中流通時的具體特征格式,輸入為連續的32幀圖像,圖像為RGB三通道大小為112×112。圖7中的數據格式為{B,C,T,H,W}。其中B為Batch size大小,為了說明方便,圖7中設置為1;C為數據的通道數;T為時序上特征圖厚度;H為數據的高度;W為數據寬度。可以從圖7看到數據的流通過程,輸入圖像經過不同的采樣頻率采樣后,輸入兩個平行的三維卷積神經網絡:
(1)左側為高采樣頻率通道,32幀輸入該通道,在殘差塊2、殘差塊3、殘差塊4模塊的輸出分別并聯上卷積層2、卷積層3、卷積層4,得到需要融合至低采樣頻率通道的特征數據,將殘差塊5的輸出輸入自適應池化層并進行拉平后得到1×512維的數據;
(2)右側通道為低采樣頻率通道,4幀輸入該通道,并在殘差塊2、殘差塊3、殘差塊4的輸出數據上拼接上來自另一通道的數據后輸入下一階段,最終得到1×2 048維的數據;
(3)將兩個通道的輸出進行拼接后接入全連接層,得到N個類別的得分。

圖7 網絡側向特征融合
UCF-101是一個包含了5大類人體動作的數據集,分別為人與物、人體肢體動作、人與人、樂器以及體育,共包含13 320個視頻片段,全部來源于YouTube視頻網站。UCF-101又可細分為101個動作類別,如射箭、俯臥撐、跳水、彈吉他和保齡球等動作,如圖8所示。每個視頻片段長短不一、背景雜亂多變且攝像角度隨機,是非常具有挑戰性的數據集。
該手勢數據集是本文自制的中國聾啞人日常生活中常用的手語手勢動作數據集,包含了3個表演者在RGB攝像頭的可視范圍內(距離攝像頭1M)的左、中、右3個角度做出預設好的聾啞人日常手語手勢動作。每人采集每個手勢動作20次,RGB攝像頭每秒采集25幀,幀大小為480×320。由于數據量過小,通過隨機裁剪、抖動以及鏡像翻轉等數據增強方法獲得更多數據。如圖9所示,最終數據集包含39種手勢2 000余個手勢動作視頻。

圖8 UCF-101數據集

圖9 手勢數據集
本次實驗的平臺在Ubuntu18.04系統下,通過Anaconda、Pycharm等軟件構建實驗環境。實驗所用的網絡模型使用Pytorch深度學習框架搭建完成。硬件配置為處理器為8核Intel(R)Core(TM)i7-9700K CPU @ 3.60GHz,GPU為英偉達GTX 1080 Ti 11 GB顯存。
為了說明提出的網絡模型的有效性與通用性進行了以下實驗。將提出的雙通道卷積神經網絡(兩種特征融合方式)與3D ResNet-50網絡進行實驗驗證,實驗的數據集為UCF-101和自建孤立詞動態手勢數據集,數據集均以3:1的比例劃分訓練集與驗證集。
實驗中每一次從訓練集數據中隨機選取16個樣本作為一組數據進行網絡參數更新。學習率設置為0.000 1,選取Adam優化算法進行網絡參數的學習,使用Cross Entropy Error Function完成損失計算。
提出的具有雙通道結構的卷積神經網絡(包括終端融合與側向融合兩種),如表3所示。在UCF-101人體動作數據集上取得了77.78%和80.43%的準確率。對于動作識別的效果優于其中任意單獨分支的識別效果,其中高采樣率分支準確率為52.55%,低采樣率分支即3D Resnet-50網絡結構準確率為71.13%。如表4所示,在手勢數據集上取得的實驗結果同樣如此,雙通道網絡終端融合策略、雙通道網絡側向融合策略分別取得了93.96%和95.78%的準確率,均優于任意單獨分支的識別準確率。

表3 UCF-101數據集實驗結果

表4 手勢數據集實驗結果
在驗證特征融合方式對識別效果的影響實驗中,從圖10與圖12(或圖11與圖13)中可以明顯看出,兩個單獨分支的特征向量通過側向連接融合的方式相比于在終端融合的方式,其損失曲線更優,驗證集上的準確率更高,因此側向連接融合特征信息的方式要比在終端融合的方式更有效,對模型的性能提升更大。

圖10 UCF-101數據集訓練損失曲線下降情況

圖11 UCF-101驗證集top1準確率實驗情況

圖12 手勢數據集訓練過程損失曲線下降情況

圖13 手勢數據集驗證集top1準確率情況
因此,無論是進行人體肢體的識別分類,還是人體手勢動作的識別分類,提出的雙通道卷積神經網絡識別的準確率都優于3D ResNet-50模型,證明了該網絡結構能夠更好地捕捉連續視頻幀中人物動作在時間維度上的特征信息,提高對動態動作的識別準確率,展示了該網絡的有效性和通用性。
本文基于3D ResNet網絡結構,搭建了一種雙通道卷積神經網絡,使其在不同通道中時序上的感受野不同,能夠更好地捕捉到時間空間特征。實驗結果表明,提出的網絡結構在視頻識別領域性能良好,但仍然存在不足,需在模型訓練與使用過程中有強大的硬件計算力支撐,因此還需要加速優化網絡結構。同時,對于連續手勢動作的檢測識別也非常具有挑戰性,在后續的研究中將會把3D卷積技術應用到連續手勢動作檢測與識別的任務中。