











摘 要:針對基于深度學習的動態手勢識別方法網絡規模龐大、提取的時空特征尺度單一、有效特征的提取能力不足等問題,提出了一種深度網絡框架。首先,使用時域多尺度信息融合的時空卷積模塊改進3D殘差網絡結構,大幅度縮小網絡規模,獲得多種尺度的時空感受野特征;其次,引入一種全局信息同步的時空特征通道注意力機制,使用極少量參數構建特征圖通道之間的全局依賴關系,使模型更加高效地獲取動態手勢的關鍵特征。在自建手勢數據集SHC和公開手勢數據集SKIG上的實驗結果顯示,提出的手勢識別方法參數量更少且多尺度時空特征提取能力強,識別率高于目前的主流算法。
關鍵詞:深度學習;動態手勢識別;多尺度時空特征;注意力機制
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)07-045-2196-07
doi:10.19734/j.issn.1001-3695.2021.11.0620
基金項目:國家重點研發計劃資助項目(2017YFC1601800);國家自然科學基金資助項目(61672263)
作者簡介:毛力(1967-),男(通信作者),江蘇無錫人,教授,碩士,主要研究方向為人工智能、機器學習(wxmaoli@163.com);張藝楠(1997-),男,黑龍江富錦人,碩士,主要研究方向為深度學習、手勢識別;孫俊(1971-),男,江蘇無錫人,教授,博士,主要研究方向為人工智能、計算智能、機器學習、大數據分析、生物信息學等.
Gesture recognition algorithm combining attention and time-domain multiscale convolution
Mao Li?,Zhang Yinan,Sun Jun
(Jiangsu Provincial Engineering Laboratory of Pattern Recognition amp; Computational Intelligence,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:In dynamic gesture recognition methods based on deep learning,aiming at the problems of large network scale,simple dimension of extracted spatiotemporal features,and insufficient extraction ability of effective features,this paper proposed a deep network framework.Firstly,this paper applied a novel spatiotemporal convolution module based on multiscale information fusion in the time domain to improve the 3D residual network structure,greatly reduced the size of the network and obtained rich spatiotemporal receptive field characteristics.Then it introduced a spatiotemporal feature channel attention mechanism with global information synchronization,and used a few parameters to construct the global dependency between feature maps,and the module could obtain the key features of dynamic gestures more efficiently.The experimental results on the self-built gesture dataset SHC and the public gesture dataset SKIG show that the proposed gesture recognition method has fewer parameters and more powerful multiscale spatiotemporal feature extraction ability,and gains a higher recognition rate than the current mainstream algorithms.
Key words:deep learning;dynamic gesture recognition;multiscale spatiotemporal features;attention mechanism
0 引言
手勢識別是計算機科學和語言技術中的一個重要研究內容,其在人機交互、輔助駕駛、虛擬現實和異常行為檢測等領域[1,2]的應用愈加廣泛,已逐漸發展為一個富有挑戰性的多學科交叉的重要研究方向。手勢識別按照任務類型可劃分為靜態手勢識別和動態手勢識別[3],前者只需關注某個時間點的空間特征即可,而后者則需要同時分析手勢的空間和運動信息,復雜程度更高。相比之下,動態手勢更符合人的表達習慣,對于動態手勢識別的研究更具有現實意義。
最初的手勢識別依靠穿戴設備直接檢測各關節的角度和空間相對位置,從而達到良好的識別效果[4],然而此類設備便捷性低且價格昂貴,無法大規模應用于手勢識別領域,具有一定的局限性。基于視覺信息的手勢識別方法研究[5,6]逐漸受到越來越多的關注,其通過分析包含手勢的圖像序列特征進而理解所表達的具體含義。其中通過人工經驗進行特征提取的許多算法已經得到了較好的結果,如隱馬爾可夫模型[7]、動態時間規整[8]和改進的密集軌跡算法[9]等,此類方法雖然只占用少量的計算資源,但特征提取過程通常耗時耗力,并且難以適應動態手勢的復雜多變性。另外,由于復雜的光照條件、背景環境以及不同執行者之間的行為差異性等影響,實現高效和普遍的動態手勢識別效果仍然是一個巨大的挑戰[10]。
隨著深度學習的不斷發展,具有強大的特征提取能力的卷積神經網絡被廣泛應用于識別算法的設計。3D卷積神經網絡(3D convolutional neural networks,3DCNN)可以從圖像序列中同時學習到時空特征信息,已被應用到大量的基于視頻的識別任務。Tran等人[11]基于3D卷積提出了經典的C3D網絡,其結構簡單且容易部署,一些研究者在此基礎上設計了用于動態手勢識別的深度學習框架[12,13]。與此同時,許多算法利用3D卷積模塊對高性能的2D卷積神經網絡進行維度擴展,在基于視頻的分類任務中實現了很好的效果。其中,文獻[14]基于Inception V1網絡和3D卷積提出了雙流I3D模型,同時處理 RGB 數據和光流數據,有效提高了動作識別準確率;Hara等人[15]創造性地將3D卷積與殘差網絡相結合,提出了3D殘差網絡結構,實現了更深層的時空信息獲取。然而,此類基于3D卷積模塊的3DCNN模型,其訓練參數量會隨著網絡規模的擴大急劇增加,需要消耗大量的計算資源,模型的訓練難度也隨之不斷增大。
近年來,許多研究通過對卷積結構進行優化來減少參數量和運算量。其中,P3D[16]、R(2+1)D[17]和S3D[18]等網絡框架通過大量的實驗證明了將3D卷積替換為空間維度的2D卷積和時間維度的1D卷積是有效的,這種分解的卷積結構能夠大幅度縮小傳統3DCNN的網絡規模,提高網絡性能。然而優化后的結構雖然能夠有效減少參數量,但依然只能處理小范圍且固定長度的時域窗口,實現對短期內的信息進行編碼,不能捕獲遠程的時間信息。受上述研究的啟發,本文提出了一種新穎的基于時域多尺度融合的時空卷積和通道注意力機制的深度網絡框架GIS-ResT用于動態手勢識別。該網絡以TMST卷積模塊為基礎,將3D卷積結構的時空維度分離,通過空間域卷積運算輸出一系列特征圖集合,隨后在特征圖集合的通道維度進行分割,將分割的特征子集在不同的分支使用時間域卷積交叉處理得到多尺度時空特征并進行融合。TMST模塊能夠在降低參數量的前提下有效獲得多種尺度的時間域感受野,使得網絡在圖像序列樣本中提取豐富的時空特征。此外,為了進一步優化網絡性能,提出了GIS通道注意力模塊,該模塊僅使用少量的參數實現了同時處理通道特征圖的全局特征和最顯著特征并進行有效融合,提高了網絡對多尺度時空特征圖的選擇能力。本文所提出的GIS-ResT網絡結構有利于解決3DCNN參數量大、難以進行多尺度時間維度編碼等問題,并在自建手勢數據集SHC和公開手勢數據集SKIG上取得了很好的識別結果,優于主流的動態手勢識別算法。
1 網絡結構優化
1.1 TMST卷積模塊
3D卷積在處理基于連續圖像序列數據的分類任務時,能夠同時捕獲多個連續圖像之間的空間信息和運動信息。其通過將3D卷積核在特征圖立方體中按照一定的規律移動并計算輸出,從而實現特征提取過程,如圖1所示。3D卷積的計算過程如下:
在使用3D卷積核進行運算時,若卷積層的輸入特征圖通道數為C1,卷積核尺寸為k×k×k,對應的輸出通道數為C2,則該層卷積的總參數量為
為了簡化神經網絡的特征處理過程,本文使用退化的3D卷積結構實現更低維的卷積運算。相同條件下,在進行空間域卷積運算時,卷積核尺寸將被設置為1×k×k,此時所使用的參數量為
同理,計算時間維度卷積時,每個分支的輸入和輸出通道數為ci=C2/S,i∈{1,2,…,S},卷積核尺寸為k×1×1,而多尺度信息融合所需的卷積核大小為1×1×1,對應的輸入輸出通道數均為C2,故時間域所使用的總參數量為
由式(5)(6)可得TMST模塊的總參數量為
特別地,對于卷積核尺寸為1×1×1的3D卷積操作則無須進行結構替換。通常情況下,卷積的輸出通道數C2最多為輸入通道數C1的兩倍,不妨設C1=C2/2=η。為便于比較,令S=1,那么不同結構的卷積模塊所使用的參數量與卷積規模之間的關系如表1所示。從表1中數據可知,當卷積規模k=3時,TMST模塊就可以把參數量優化為原來的3/5左右,而隨著卷積規模的增大,兩種結構之間所使用的參數量差距也不斷擴大。在搭建3DCNN框架時,本文所提出的TMST模塊可以有效減少網絡的參數規模,同時實現多尺度時空特征提取。
1.2 GIS通道注意力模塊
從人類的視覺特點可以看出,識別的關鍵信息來自特征圖的部分通道或位置,并非全部特征信息,而深度神經網絡在生成特征映射的過程中不做任何區分。注意力機制能夠有側重點地關注有用的特征,抑制不重要的特征,使得深度學習算法從復雜的特征信息中選擇出對當前所訓練的任務目標來說更加關鍵的信息[20],從而有效提高深度神經網絡的表征能力。然而,大部分注意力模塊所使用的計算框架結構復雜,造成較大的計算代價,耗費更多額外的計算資源。為了進一步提高網絡對多尺度時空特征的選擇能力并盡量增加更少的參數量和計算量,本文提出了一種全局信息同步的通道注意力模塊GIS,以自適應調整網絡在多尺度時空特征學習過程中各個通道的貢獻度,具體結構如圖3所示。
其中:r對應其中的一個通道,GAP表示全局平均池化計算函數,GMP表示全局最大池化計算函數。在訓練時,GAP對特征圖上的每個元素均有反饋,能夠學習通道的全局特征,而GMP更關注特征圖中響應最大的位置,從而實現最顯著的特征學習[21]。
映射過程將捕獲通道之間的上下文信息,注意力機制中通常使用的映射方法是多級全連接網絡[22,23],而這種結構會增加大量的訓練參數。由于時序上所排列的特征圖通道之間具有一定的局部周期性[24],即每個通道僅與其鄰近的l個通道間存在較強的關聯性,可以通過每個特征圖及其相鄰的l個通道對應的緊湊特征計算映射結果:
其中:F表示聚合操作得到的緊湊向量;δ表示取Fr的鄰近l個特征;λj為映射過程中的可訓練參數;ρ為映射過程函數。在該映射函數中,l的取值與通道數C之間存在如下的非線性關系[25]:
其中:|·|odd表示向上舍入取最鄰近奇數;γ和b為任意自然數,本文取γ=2,b=1。需要注意的是,上述的映射過程函數ρ可以通過去偏置項的1D卷積操作快速實現,而所使用的參數量也僅為l個。與全連接網絡的映射方法相比,本文所提出的GIS注意力機制在參數量方面具有明顯的優勢。
融合過程會將獲得的上下文信息進行同步整合,權衡GAP和GMP兩個分支所獲得的重要信息,避免通道注意力對其中某個分支產生過度的依賴關系。激發過程將上下文信息轉換為相應通道的權重系數,權重的計算結果如式(13)所示。
其中:σ表示sigmoid激活函數;w為各通道對應的權重系數組成的權重向量。最后,需要對所有通道特征圖進行加權運算得到輸出結果,從而使模型在訓練時對各通道的特征具有更高的區分能力。
其中:χ′表示加權后的通道特征圖。GIS注意力模塊在運算過程中不改變特征圖的時空尺度,但能夠有效增強網絡整體的特征表達能力,充分發揮多尺度時空特征提取的優勢。
2 模型框架
本文所提出的深度網絡架構GIS-ResT如圖4所示。為了提取更深層的時空特征并且避免網絡發生退化,模型借鑒ResNet3D的網絡構成進行搭建,并設計了T-block殘差結構實現特征圖的級聯映射。為了提高網絡性能,在T-block模塊的多尺度信息融合結構中結合GIS通道注意力機制。所提出的GIS-ResT網絡可以有效提取圖像序列中的時空特征,具有很好的動態手勢理解能力。
基于3D卷積和基礎殘差模塊的ResNet3D已被證明在許多動作識別數據集上產生了過擬合現象[15],為此,GIS-ResT進一步對網絡參數和時空特征提取結構進行了調整和優化。在網絡的低層特征提取階段,為了保留更多的時序信息并初步縮小特征圖的空間尺度,圖4中的首個TMST結構采用卷積規模為k=7,空間步長為2,時間步長為1的參數設置來提取多尺度時空特征,隨后采用大小為3×3×3,空間步長為2、時間步長為1的最大池化層進行下采樣,縮小特征圖尺寸。對于模型中所涉及的多個T模塊(T-block),在各個階段的特征提取過程所使用的結構有所差異,本文分別針對不同的時空步長對殘差結構進行優化,殘差結構對比如圖5所示。
基礎殘差模塊中共有兩層3D卷積結構,如圖5(a)所示,在特征提取時,卷積層conv1實現了對時空特征圖進行下采樣,并使用conv2提取更高層特征。考慮到多尺度時空特征提取過程中的模型復雜度問題,T-block將SepConv結構用于縮小時空特征圖,進而使用TMST和GIS模塊實現更復合且全面的高級時空特征提取,如圖5(b)所示。該模塊能夠使得后續的網絡結構提前把握全局時序信息,提高網絡對不同層次時空特征處理時的整體性。所有的殘差結構中卷積規模設置為k=3,最后采用GAP和全連接網絡完成動態手勢的分類。所提出的GIS-ResT和ResNet3D網絡的結構對比如表2所示。為了使對比結果更加清晰,令輸入數據大小為16×160×160,并保持模型卷積通道數的一致性。
3 實驗結果及分析
為了驗證本文提出的網絡框架GIS-ResT在動態手勢識別任務中的有效性,分別在自建手勢數據集SHC和公開手勢數據集SKIG上進行了大量的實驗。模型基于TensorFlow 2.3.0(Python 3.8)深度學習框架進行搭建,使用Nvidia GeForce RTX 2060 GPU硬件平臺運行。
3.1 實驗數據集
SHC自建手勢數據集是一個基于標準手部清洗動作建立的動態手勢數據集,共包含1 861組RGB視頻樣本。該數據集在制作過程中使用Kinect V2設備進行數據獲取,收集了手部清洗時的12種基本動作。為了保證數據的多樣性,分別選取了室內和室外五個不同場景進行視頻采集,每種場景下由三名執行者完成,并且同時考慮了不同的光照條件和背景紋理,以模擬現實生活中的各種復雜環境。針對動態手勢識別任務中的實驗條件要求,SHC數據集有較高的復雜性。
SKIG公開數據集是由Liu等人[26]建立的一個含有多種數據類型的動態手勢識別數據集,共包含2 160個動態手勢視頻樣本,其中有1 080個RGB視頻數據和1 080個深度信息視頻數據,每個視頻樣本中包含一種獨立的可重復執行的動態手勢。SKIG按照手勢執行方法共分為circle、triangle、up-down、right-left、wave、“Z”、cross、come here、turn around和pat 10個類別,該數據集在制作過程中將真實情況下的復雜背景環境和不同的光照情況考慮在內,由六名執行者分別在三種背景、兩種光照下使用三種姿態來完成。因此,對于動態手勢識別任務來說,SKIG具有較大的挑戰性。
實驗過程中,分別將各數據集的視頻樣本分解為圖像序列。對于動態手勢在時間維度上存在的差異性,按照手勢的起始和結束位置提取圖像序列的關鍵幀,以一定的時間間隔將每個樣本采樣到16幀,保留手勢的時序整體性。由于原始數據具有較大的分辨率,且各數據集的空間尺寸不同,本文將每個動態手勢的整體作為一個基本單位進行隨機剪裁,并縮放為160×160像素進行標準化處理。訓練過程中,需要對數據進行數值歸一化,并將所有樣本隨機打亂,以3:1劃分訓練集和測試集,進而實現權重的學習和模型的評估。
3.2 評價指標
本文分別從參數量、計算量、準確率和F1分數等方面綜合評估模型性能。傳統的F1分數僅適用于二分類問題,對于多分類任務,本文引入macro-F1和micro-F1兩種度量方法[27]對模型進行評估。這兩種度量方法是精準率和召回率的調和平均數,macro-F1分數通過所有類別的每個統計指標的算數平均值來計算,micro-F1分數則通過對所有實例的精準率和召回率進行平均得到。macro-F1分數定義為
F1macro=2PmacroRmacroPmacro+Rmacro(15)
其中:Pmacro和Rmacro為macro-F1分數度量下的精確率和召回率,分別由如式(16)(17)計算。
Pmacro=1c∑ci=1TPiTPi+FPi(16)
Rmacro=1c∑ci=1TPiTPi+FNi(17)
其中:TP表示正確分類的正樣本數;FP表示錯誤分類的正樣本數;FN表示錯誤分類的負樣本數;c表示類別數量。
對應的micro-F1分數定義如式(18)所示。
F1micro=2PmicroRmicroPmicro+Rmicro(18)
其中:Pmicro和Rmicro為micro-F1分數度量下的精確率和召回率,分別由式(19)(20)計算。
Pmicro=∑cj=1TPj∑cj=1(TPj+FPj)(19)
Rmicro=∑cj=1TPj∑cj=1(TPj+FNj)(20)
macro-F1和micro-F1分數的取值為0~1,得分越高,表明模型的分類性能越好。
3.3 消融實驗
為了驗證所提出的TMST模塊和GIS注意力機制的有效性,本文在SHC自建手勢數據集上進行了消融實驗。該實驗過程分別對ResNet3D、ResT、GIS-ResT三種網絡模型進行對比分析。其中,ResNet3D為基于3D卷積結構的經典殘差網絡;ResT表示基于TMST模塊對殘差網絡進行優化的模型,其中T-block結構中不包含GIS注意力模塊;GIS-ResT則是使用了GIS注意力機制進一步優化的模型。實驗時,所有模型均隨機初始化權值,每次將四組樣本作為輸入進行網絡參數更新,訓練采用隨機梯度下降(stochastic gradient descent,SGD)優化算法和交叉熵損失函數,動量設置為0.9,初始學習率設為0.001,經過50個epoch的迭代后學習率下降為原來的1/10,實驗一共進行70個epoch的迭代。
各方法在SHC數據集上的測試準確率和損失值變化情況如圖6所示。訓練初期所有模型均處于快速收斂階段,損失值急劇下降,準確率大幅上升。經過20個epoch的迭代后,各模型的收斂速度放緩,其中ResNet3D方法的測試準確率幾乎不再上升,達到了最高水平,而ResT和GIS-ResT的測試準確率仍然有所提高。經過約30個epoch的迭代后,所有模型趨于收斂,測試準確率和損失值在小范圍內振蕩。最終,GIS-ResT的測試準確率曲線處于最高水平,ResT方法次之,ResNet3D最低。
表3給出了三種方法在SHC數據集上的實驗結果,該表分別從參數量(M)、計算量(G)和準確率(%)方面對模型從多個角度進行分析。由表3的實驗結果可以看出,與ResNet3D模型相比,使用時域多尺度時空卷積模塊優化的ResT網絡架構能夠大幅度縮小網絡規模,將參數量減少到2.87 M,僅為ResNet3D模型的46.14%,計算量也同樣得到了優化,總體減少了約9.3%,ResT網絡在SHC數據集上的識別準確率達到了92.58%,比ResNet3D提高了2.96個百分點,各方面的表現均有提升。進一步地,GIS-ResT模型使用了GIS注意力模塊,與ResT相比,GIS模塊幾乎對模型規模不產生影響,僅增加了0.04 G的計算量,而準確率則再次提升了1.49%,比ResNet3D模型的測試準確率高4.45個百分點。
為了評估所提出的TMST和GIS模塊對模型性能的影響,本文在SHC數據集上對各方法進行了基于精確率、召回率和F1分數的實驗,評估結果如表4所示。ResNet3D方法在此評估準則上分別得到了0.899 3和0.896 2的macro-F1和micro-F1分數,以該方法作為基準,使用TMST模塊搭建的ResT模型獲得的macro-F1和micro-F1分數相比于ResNet3D方法分別提升了0.031 4和0.029 6,這說明TMST模塊對模型的性能提升是有效的。融合GIS注意力機制的GIS-ResT方法則在相同的準則中得到了最高的macro-F1和micro-F1分數,分別為0.942 9和0.940 7,實現了最好的模型性能。
此外,本文從動態手勢的樣本特征提取層面對所提出的模塊進行了分析,圖7顯示了傳統的3D卷積模塊和TMST模塊的淺層時空特征提取結果對比。不難看出,應用3D卷積模塊所提取的時空特征尺度較為單一,并且對于一些復雜的高級特征提取能力存在不足,如邊緣特征、紋理特征等。相比之下,TMST模塊能夠通過多級類殘差結構獲取豐富的多尺度時空感受野范圍,對于短期和長期的時空特征表達方式具有一定的多樣性,有效提高了模型的信息承載量。
總體來看,使用TMST模塊優化傳統3D卷積結構能夠有效減少參數量和計算量,所使用的時域多尺度卷積通過更廣闊的時空感受野范圍充分提取網絡各階段的特征信息。注意力機制GIS模塊結合全局特征和局部最顯著特征優化各通道的時空特征權重,使得模型的總體性能得到更好的提升。
3.4 對比實驗
為了進一步驗證所提出的GIS-ResT網絡架構在動態手勢識別方面的有效性,本文在公開手勢數據集SKIG所包含的RGB和Depth類型的數據上分別進行實驗,并與目前主流的多種方法進行比較。實驗過程中依然隨機初始化權值,批尺寸設置為4,訓練采用SGD優化算法和交叉熵損失函數,動量參數設置為0.9,初始學習率設為0.001,經過20個epoch的迭代后學習率下降為原來的1/10,共進行30個epoch的迭代。
GIS-ResT模型在RGB和Depth類型數據上進行訓練時,準確率和損失值變化情況如圖8所示。由于RGB數據中所包含的信息更復雜,經過近10個epoch的迭代周期準確率和損失值趨于平緩,隨后在小范圍內尋找最優解,如圖8(a)所示;Depth類型的數據受背景和光照因素影響較小,所包含的信息量相比于RGB數據更少,模型在訓練過程中實現了較快速的收斂,如圖8(b)所示。
表5給出了GIS-ResT模型在SKIG數據集上不同類型數據的實驗結果與其他方法[26,28~33]的對比。從表中數據可以看出,本文方法在RGB和Depth數據上實驗時所使用的訓練參數與其他深度學習算法相比最少,分別為2.87 M和2.86 M,識別準確率也處于較高水平,達到了99.81%(RGB)和99.44%(Depth),在單一數據類型下優于其他的對比算法,并且在Depth數據類型下的識別準確率僅略低于文獻[31,33]使用的多種數據類型融合的識別方法。實驗結果顯示,TMST與 GIS注意力模塊相結合可以有效提取圖像序列樣本中的時空特征,從而使整個網絡框架具有較好的泛化能力和識別效果。
模型在SKIG數據集上的分類混淆矩陣如圖9所示,其中主對角線上的值為對應手勢的正確識別率。對于數據集包含的相似度較高的動態手勢,比如pat和come here、right-left和wave等,其部分樣本的差別僅體現在手臂或手腕運動時的小角度偏差,分類難度較大,如圖10所示。對于SKIG數據集的RGB和Depth類型數據,本文提出的GIS-ResT模型基本能夠實現所有手勢的精確分類。
本文同樣在SKIG數據集上對GIS-ResT模型進行了基于精確率、召回率和F1分數的實驗,結果如表6所示。從表6數據可以看出,無論是RGB還是Depth數據類型,本文提出的GIS-ResT方法獲得的macro-F1和micro-F1分數都十分接近1,這表明該模型對于多種類別的動態手勢均可達到很高的分類精度,模型具有較好的識別性能。
4 結束語
本文提出了一種簡單高效的時域多尺度信息融合的時空卷積網絡GIS-ResT用于動態手勢識別任務。所使用的TMST時空卷積結構能夠獲取多尺度的時空特征,使網絡從圖像序列樣本中提取到更加豐富的時空信息,相比于傳統的3D卷積結構,TMST能夠有效減少網絡的訓練參數;此外,提出了一種時空特征通道注意力模塊GIS,通過對特征的全局和局部信息同時進行處理并融合,進一步增強了網絡對時空特征的提取能力,使網絡更加高效地完成動態手勢識別。在SHC數據集和SKIG數據集的實驗結果表明,所提出的GIS-ResT模型參數量少,且能以更高的性能取得優異的識別效果。未來的改進方向則是對實時的動態手勢進行分析和識別,以擴大模型的適用范圍。
參考文獻:
[1]Chakraborty B K,Sarma D,Bhuyan M K,et al.Review of constraints on vision-based gesture recognition for human-computer interaction[J].IET Computer Vision,2018,12(1):3-15.
[2]Chevtchenko S F,Vale R F,Macario V,et al.A convolutional neural network with feature fusion for real-time hand posture recognition[J].Applied Soft Computing,2018,73(2):748-766.
[3]Plouffe G,Cretu A M.Static and dynamic hand gesture recognition in depth data using dynamic time warping[J].IEEE Trans on Instrumentation and Measurement,2016,65(2):305-316.
[4]Lu Zhiyuan,Chen Xiang,Li Qiang,et al.A hand gesture recognition framework and wearable gesture-based interaction prototype for mobile devices[J].IEEE Trans on Human-Machine Systems,2017,44(2):293-299.
[5]Tran D S,Ho N H,Yang H J,et al.Real-time hand gesture spotting and recognition using RGB-D camera and 3D convolutional neural network[J].Applied Sciences,2020,10(2):722.
[6]曹潔,趙修龍,王進花.基于RGB-D信息的動態手勢識別方法[J].計算機應用研究,2018,35(7):2228-2232.(Cao Jie,Zhao Xiulong,Wang Jinhua.Dynamic gesture recognition approach based on RGB-D information[J].Application Research of Computers,2018,35(7):2228-2232.
[7]Parcheta Z,Martínez-Hinarejos C D.Sign language gesture recognition using HMM[C]//Proc of Iberian Conference on Pattern Recognition and Image Analysis.Cham:Springer,2017:419-426.
[8]張備偉,吳琦,劉光徽.基于DTW的交警指揮手勢識別方法[J].計算機應用研究,2017,34(11):3494-3499.(Zhang Beiwei,Wu Qi,Liu Guanghui.Method for recognizing gesture of traffic police based on DTW algorithm[J].Application Research of Computers,2017,34(11):3494-3499.)
[9]Wang Heng,Schmid C.Action recognition with improved trajectories[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:3551-3558.
[10]Obo T,Loo C K,Seera M,et al.Hybrid evolutionary neuro-fuzzy approach based on mutual adaptation for human gesture recognition[J].Applied Soft Computing,2016,42(5):377-389.
[11]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:4489-4497.
[12]Miao Qiguang,Li Yunan,Ouyang Wanli,et al.Multimodal gesture reco-gnition based on the ResC3D network[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3047-3055.
[13]Funke I,Bodenstedt S,Oehme F,et al.Using 3D convolutional neural networks to learn spatiotemporal features for automatic surgical gesture recognition in video[C]//Proc of International Conference on Medical Image Computing and Computer Assisted Intervention,Cham:Springer,2019:467-475.
[14]Carreira J,Zisserman A.Quo vadis,action recognition?A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4724-4733.
[15]Hara K,Kataoka H,Satoh Y.Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6546-6555.
[16]Qiu Zhaofan,Yao Ting,Mei Tao.Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:5534-5542.
[17]Tran D,Wang Heng,Torresani L,et al.A closer look at spatiotemporal convolutions for action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6450-6459.
[18]Xie Saining,Sun Chen,Huang J,et al.Rethinking spatiotemporal feature learning:speed-accuracy trade-offs in video classification[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:318-335.
[19]Gao Shanghua,Cheng Mingming,Zhao Kai,et al.Res2Net:a new multi-scale backbone architecture[J].IEEE Trans on Pattern Ana-lysis and Machine Intelligence,2021,43(2):652-662.
[20]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[21]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:3-19.
[22]Hu Jie,Shen Li,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[23]Fu Jun,Liu Jing,Tian Haijie,et al.Dual attention network for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3141-3149.
[24]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM network:a machine learning approach for precipitation nowcasting[C]//Advances in Neural Information Processing Systems.2015:802-810.
[25]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.
[26]Liu Li,Shao Ling.Learning discriminative representations from RGB-D video data[C]//Proc of the 23rd International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press.2013:1493-1500.
[27]Liu Chuan,Wang Wenyong,Wang Meng,et al.An efficient instance selection algorithm to reconstruct training set for support vector machine[J].Knowledge-Based Systems,2017,116(1):58-73.
[28]Li Dexu,Chen Yimin,Gao Mingke,et al.Multimodal gesture recognition using densely connected convolution and BLSTM[C]//Proc of the 24th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3365-3370.
[29]Nishida N,Nakayama H.Multimodal gesture recognition using multi-stream recurrent neural network[C]//Proc of the 7th Pacific-Rim Symposium on Image and Video Technology.Cham:Springer,2016:682-694.
[30]Zhu Guangming,Zhang Liang,Shen Peiyi,et al.Multimodal gesture recognition using 3D convolution and convolutional LSTM[J].IEEE Access,2017,5:4517-4524.
[31]Lu Zhi,Qin Shiyin,Li Xiaojie,et al.One-shot learning hand gesture recognition based on modified 3D convolutional neural networks[J].Machine Vision and Applications,2019,30(10):1157-1180.
[32]Tang Xianlun,Yan Zhenfu,Peng Jiangping,et al.Selective spatiotemporal features learning for dynamic gesture recognition[J].Expert Systems with Applications,2021,169(5):114499.
[33]Peng Yuqing,Tao Huifang,Li Wei,et al.Dynamic gesture recognition based on feature fusion network and variant ConvLSTM[J].IET Image Processing,2020,14(11):2480-2486.