一種復合型手勢識別方法研究

2021-02-22 12:00:04韓文靜羅曉曙楊日星

計算機工程與應用 2021年4期

韓文靜，羅曉曙，楊日星

1.廣西師范大學電子工程學院，廣西桂林 541004

2.廣西師范大學創新創業學院，廣西桂林 541004

隨著計算機視覺技術的飛速發展[1]，計算機在社會各領域的應用更加廣泛和深入，逐漸成為人們日常生活不可或缺的一部分。人機交互（Human Computer Interaction，HCI）[2]作為人與計算機交換信息的過程，智能化成為其發展趨勢。手勢能夠表達豐富的信息，是一種自然而又直觀的人際交流模式，具有極強的信息表達與傳遞功能。手勢識別被廣泛應用于機器人控制[3]、智能駕駛和智能家居等領域。在人機交互中，與鼠標、鍵盤、觸摸屏等圖形用戶界面相比，手勢通信顯得更加自然。人們嘗試使用基于手套的設備來解決人機交互中的手勢識別問題，但是基于手套的界面要求用戶佩戴笨重的設備，限制了用戶與計算機交互的自由度[4]。2010年，微軟推出了一款名為Kinect 的3D 深度感應相機[5]。雖然Kinect 在增強現實、人體跟蹤、人體動作識別等方面取得了很多成功的應用，例如能夠很好地跟蹤人類身體運動這樣大型的對象，但由于Kinect 的低分辨率深度圖，很難檢測和分割具有低分辨率的小物體圖像[6]，在手勢識別領域使用Kinect方法仍是一個有待優化和完善的問題。基于卷積神經網絡（Convolutional Neural Network，CNN）[7]的手勢識別方法，它不再依靠人工設計的方法來提取特征，通過組合簡單的非線性模塊，網絡能夠自主學習，逐步將原始數據轉化為高層次并且抽象的表示。例如，Yamashita 等人[8]是第一個利用CNN 并將手勢定位和分類一起處理的系統，他們提出了一種自底向上結構的深度CNN，包含一個特殊的層，用于提取可以分割手部的二值化圖像。Li 等人[9]使用靜態RGB-D 圖像進行關節手勢圖像的特征提取，以端到端的方式訓練一個基于注意力機制的CNN 模型，該模型能夠使用單個網絡自動定位手勢并對手勢進行分類。馮家文等人[10]構建了雙通道卷積神經網絡模型，通過使用不同大小卷積核的雙通道卷積網絡來提取圖像特征并在手勢識別上進行應用，取得了較好的識別效果。Hinton等人[11]提出膠囊網絡（Capsule-EM），膠囊網絡采用神經膠囊，上一層神經膠囊輸出到下一層神經膠囊中的是向量，向量可以表示出組件的朝向和空間上的相對關系，以及高層特征與低層特征之間的位姿關系。莫偉瓏[12]構建了基于膠囊網絡的手勢識別網絡模型（ICapsule-EM），通過在膠囊網絡中使用多尺度卷積核，在多角度手勢圖像上實現了較好的識別效果。

為了使卷積神經網絡模型學習到更加豐富的特征信息，同時不改變輸入數據量的大小，本文在上述工作基礎上，提出了一種雙通道卷積神經網絡的特征融合與動態衰減學習率相結合的復合型手勢識別方法。手勢圖像通過兩個相互獨立的通道進行特征提取，使用SENet（Squeeze-and-Excitation Networks）[13]構成的第一通道提取手勢圖像全局特征，使用RBNet（Residual Block Networks）構成的第二通道提取手勢圖像局部特征，然后將全局特征和局部特征在通道維度上進行融合，使得網絡學習到更全面的手勢特征信息，實現手勢圖像的精確識別。同時，利用動態衰減的學習率訓練模型，以提高模型的收斂速度及穩定性，仿真實驗結果證實了本文方法的有效性。

1 理論方法概述

卷積神經網絡是近幾年圖像處理領域最熱門的技術，其強大的學習能力受到研究者們的青睞。與此同時也出現了一大批優秀的圖像識別網絡模型，如LeNet[7]、ResNet[14]、Xception[15]、EfficientNet[16]和 SENet 等。下面介紹本文涉及到的兩個卷積神經網絡模型ResNet 和SENet的基本工作原理與算法流程。

1.1 ResNet

卷積（Convolution，Conv）是卷積神經網絡最重要且最基礎的部分，其參數是卷積神經網絡訓練的核心，具有強大的特征提取能力[17-18]。在圖像識別過程中，加深卷積神經網絡的深度可以提高網絡的學習能力，但隨著網絡層數增加到一定深度，會帶來梯度消失的問題。為了解決梯度消失的問題，微軟亞洲研究院在文獻[14]中提出了殘差網絡（ResNet），這種簡單的跨層連接方式，在幾乎不增加參數量的前提下，有效地提升了網絡的學習能力。該網絡并不會受到網絡層數的限制，可以通過加深網絡層數提升網絡性能。圖1 為ResNet 中的殘差結構，可以用如下公式表示：

其中，xl+1為l+1 層的輸出，xl為l層的輸出，Wl表示權重。F(·)表示待學習的殘差映射。其性能主要歸功于一種恒等映射的思想：假設在網絡達到最優的條件下繼續加深網絡，只需讓深層的網絡能夠保持恒等映射，則網絡性能不會受到干擾而出現退化問題。

圖1 ResNet殘差結構

1.2 SENet

現有的多種圖像分類網絡是通過引入空間維度的創新來提升網絡的性能，2017年，來自自動駕駛公司的Momenta 研發團隊（WMW）在文獻[13]中提出了SENet架構，其以2.3%的識別錯誤率榮獲2017 年ILSVRC 挑戰賽物體識別任務的冠軍。該網絡通過自動學習特征信息，獲得特征圖每個通道的重要程度，然后根據重要程度去增強有益特征并抑制無用特征，從而實現特征通道的自適應校準。圖2 是SENet 模塊，其映射關系可以表示為：

其中，Fsq(·)表示對特征進行壓縮操作，Fex(·)表示對特征進行提取操作，Fscale(·) 表示對特征進行重標定操作。壓縮所采取的方式是將原始特征圖（SENet模塊的Base layer）的一個通道uc的均值作為其特征表示，從而達到數據降維的目的，對應于圖2中的全局平均池化（Global Average Pooling，GAP），將多通道的二維特征圖轉化為壓縮特征向量zc后，通過兩個全連接（Fully Connected，FC），權重分別為W1和W2，訓練出對特征圖具有選擇能力的網絡，在兩個全連接之間使用激活函數δ進行非線性處理，激活函數δ為ReLU（Rectified Linear Units），最后通過歸一化函數σ（Sigmoid），輸出一個不同特征圖的相對應的權重向量，并與原始特征圖對應相乘得到最終輸出xc。

圖2 SENet模塊

2 雙通道卷積神經網絡的特征融合模型

本文提出的復合型手勢識別方法，其雙通道卷積神經網絡的特征融合模型的具體結構如圖3 所示。該模型將手勢圖像的全局特征和局部特征進行通道維度上的融合，使得網絡學習到更全面的手勢特征信息。

圖3 雙通道卷積神經網絡的特征融合模型

為了增強卷積神經網絡的特征提取能力，提高泛化能力，將輸入數據為32×32×3 的手勢圖像，經過隨機的亮度和對比度調整等預處理（Preprocess）操作，得到含有噪聲的手勢圖像。

雙通道卷積神經網絡的特征融合模型由兩個相對獨立的通道構成。對于第一個通道，如圖4（a）所示，在SENet模塊之后添加第二個Conv+BN+ReLU層，以加強SENet模塊的特征提取能力，從而提取手勢圖像的全局特征。

對于第二個通道，即RBNet模塊，如圖4（b）所示，包括順序連接的第三個Conv+BN+ReLU 層、Stacked block（如圖4（c）所示）、第四個Conv+BN+ReLU層、由3個相同深度可分離卷積（Separable Convolution，Separable-Conv）順序連接構成的深度可分離卷積層和第五個Conv+BN+ReLU層。考慮到過深的網絡結構雖然可以使圖像的特征得到更好的擬合，學習到更高層次的紋理信息，但同時也可能由于層數過多而帶來梯度消失、特征丟失等問題。RBNet 模塊選擇了ResNet 殘差網絡來進行改善，使網絡更快更好地達到收斂。

圖4 雙通道結構

第一通道和第二通道提取的手勢圖像特征進行通道維度上的融合，隨后使用GAP，將融合后的特征展開為一維向量模式，最后添加一個FC進行手勢圖像的分類。

3 網絡模型參數的動態衰減學習率

為提高雙通道卷積神經網絡的特征融合模型的收斂速度及穩定性，本文使用動態衰減的學習率進行網絡模型訓練，動態衰減的學習率公式為：

其中，α表示衰減系數，ηn表示當前的學習率，ηn-1表示前一個迭代次數的學習率，θ表示最小學習率。在網絡模型訓練過程中，當ηn ＞θ時，ηn=αηn-1，當ηn≤θ時，ηn=θ，當n=1時，η0即為初始學習率。

4 仿真實驗

4.1 參數設置

本文主要實驗環境：Intel Xeon Gold 6152，256 GB RAM，NVIDIA Tesla P40。實現的代碼均采用python語言在tensorflow1.8-gpu框架下完成。利用CUDA和cuDNN提供的并行加速能力實現快速的訓練和識別任務。

本文使用優化算法Adam（Adaptive Moment Estimation）進行訓練。Adam優化器的參數為β1=0.1，β2=0.999。其中數據批處理大小為32，卷積神經網絡的參數進行隨機初始化，采用動態衰減學習率。在訓練的初始階段，利用初始學習率加快迭代更新的速度，隨著迭代次數的增加，學習速率將以動態衰減的方式減小，以期望獲取模型的全局最優解。采用此方法的目的是希望減弱迭代過程中收斂曲線的震蕩，提高模型收斂速度與穩定性，得到全局最優解。

4.2 在ASL數據集上仿真實驗

美國手語手勢數據集ASL[19]由36種手勢類別組成，包含26 種字母手勢和10 種數字手勢，圖像總數量為2 515 張。設置2 165 張圖像為訓練集，350 張圖像為測試集。數據集中的手勢圖像類別示意圖如圖5所示。

圖5 ASL數據集上36種手勢類別示意圖

4.2.1 動態衰減學習率對網絡性能的影響

首先驗證學習率對手勢圖像訓練集的準確率及loss曲線的影響，如圖6、圖7所示。當初始學習率η0設置為0.100，最小學習率θ設置為0.000 1，衰減系數α設置為0.99 時，由于初始學習率大，而網絡權重更新變化小，導致訓練集準確率及loss 曲線收斂速度慢，且震蕩幅度較大。當初始學習率η0設置為0.100，最小學習率θ設置為 0.000 1，衰減系數α設置為 0.90 時，網絡權重更新快，訓練集準確率及loss 曲線收斂速度加快，但仍然有震蕩。當初始學習率η0設置為0.001，最小學習率θ設置為 0.000 001，衰減系數α設置為 0.90 時，由于訓練后期學習率過小，導致訓練集準確率及loss曲線不收斂。當初始學習率η0設置為0.001，最小學習率θ設置為0.000 001，衰減系數α設置為0.99 時，訓練集準確率達到最高，且訓練集準確率及loss曲線收斂快，穩定性好。

圖6 ASL數據集上訓練準確率曲線

圖7 ASL數據集上訓練損失值曲線

然后驗證學習率對手勢圖像測試集的準確率曲線的影響，如圖8 所示。可以看出，學習率對測試集準確率曲線的影響與學習率對訓練集準確率及loss 曲線的影響一致。由此，對于ASL數據集選取初始學習率η0=0.001，最小學習率θ=0.000 001，衰減系數α=0.99 作為最優的學習率參數。

圖8 ASL數據集上測試準確率曲線

4.2.2 手勢圖像特征提取可視化結果

為了使網絡學習到更全面的手勢圖像特征信息，提高手勢圖像的分類準確率。雙通道卷積神經網絡的特征融合模型，對輸入的手勢圖像，如圖9（a）所示，使用SENet構成的第一通道提取手勢圖像全局特征，如圖9（b）所示，使用RBNet構成的第二通道提取手勢圖像局部特征，如圖9（c）所示，將全局特征和局部特征進行通道維度上的融合，如圖9（d）所示，從而實現手勢圖像的精確識別。使用tensorboard 進行特征提取過程的可視化結果如圖9所示。

圖9 ASL數據集上特征提取的可視化結果

4.3 在LIS數據集上仿真實驗

為了進一步驗證本文方法的有效性和適應的廣泛性，使用LIS數據集進行仿真實驗。

意大利手語手勢數據集LIS由26種手勢類別組成，包含22種靜態字母手勢和4種動態字母手勢，每種手勢分別從前、后、左、右和頂部5個不同的角度拍攝。本文使用的靜態字母手勢圖像總數量為8 980張，設置8 080張圖像為訓練集，900張圖像為測試集。數據集中的手勢圖像類別和5種不同拍攝角度的示意圖如圖10所示。

圖10 LIS數據集26種字母手勢類別和不同拍攝角度示意圖

4.3.1 動態衰減學習率對網絡性能的影響

對于LIS數據集，動態衰減學習率對網絡性能的影響如圖11～圖13 所示，與ASL 數據集類似，也存在最優的學習率參數。當初始學習率η0設置為0.001，最小學習率θ設置為 0.000 001，衰減系數α設置為 0.99 時，訓練集準確率達到最高，且訓練集準確率及loss曲線收斂快，穩定性好。學習率對測試集準確率曲線的影響與學習率對訓練集準確率及loss曲線的影響一致。

圖11 LIS數據集上訓練準確率曲線

圖12 LIS數據集上訓練損失值曲線

圖13 LIS數據集上測試準確率曲線

由此，選取初始學習率η0=0.001，最小學習率θ=0.000 001，衰減系數α=0.99 作為最優的學習率參數。

4.3.2 手勢圖像特征提取可視化結果

雙通道卷積神經網絡的特征融合模型，對輸入的手勢圖像（圖14（a）），使用SENet 構成的第一通道提取手勢圖像全局特征（圖14（b）），使用RBNet構成的第二通道提取手勢圖像局部特征（圖14（c）），將全局特征和局部特征進行通道維度上的融合（圖14（d）），從而實現手勢圖像的精確識別。使用tensorboard 進行特征提取過程的可視化結果如圖14所示。

圖14 LIS數據集上特征提取的可視化結果

4.4 模型的運行時間復雜度分析

將在最優學習率參數下的模型訓練好后，分別使用不同數量的ASL 和LIS 測試集中手勢圖像做識別仿真實驗，記錄每次識別的時間，仿真結果如圖15、圖16 所示。從圖中可以看出，在模型測試階段，設手勢圖像數量為n，那么模型的運行時間復雜度基本為O(n)。

圖15 ASL數據集上時間復雜度分析

圖16 LIS數據集上時間復雜度分析

4.5 不同模型的測試集準確率對比分析

為增加實驗結果的完整性與說服力，將本文提出的方法與經典的四層CNN網絡模型及文獻[11-12]方法進行對比，結果呈現在表1 中。仿真實驗結果表明，本文方法相較于其他方法在識別率上提升效果明顯，且網絡模型的參數數量少，體現了雙通道卷積神經網絡的特征融合與動態衰減學習率相結合的復合型手勢識別方法在手勢識別問題中的優越性。

表1 不同模型的測試集準確率比較

5 結論

本文提出了一種雙通道卷積神經網絡的特征融合與動態衰減學習率相結合的復合型手勢識別方法。本文方法通過兩個相互獨立的通道，進行手勢圖像的全局特征和局部特征提取，兩個通道提取的手勢圖像特征進行通道維度上的融合，可以獲得更加豐富的手勢局部信息和整體信息。利用兩個手勢圖像數據集，通過數值模擬的方法找到了最優的學習率參數。在最優參數條件下，本文提出的方法手勢識別率高，參數數量少，且適應性廣，在手勢識別控制領域，有較好的應用前景。