

摘 要:手勢識別是目前計算機科學領域的熱門研究課題之一。3D手勢識別是利用相機、傳感器和算法分析等技術,對三維空間內的動態或靜態手勢進行姿態分析,從而實現對手勢行為的理解和識別。與2D手勢識別相比,3D手勢識別能夠更準確地捕捉和分析手部動作的位置、方向等信息,在各種應用領域實現更自然、直觀的人機交互。文中介紹了3D手勢識別的研究意義、應用領域、國內外研究現狀、識別方法及未來發展方向,以期為手勢識別研究的初學者提供參考。
關鍵詞:深度學習;手勢識別;3D深度圖片;剛性骨架模型;柔性骨架模型;多模態和多視角
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2095-1302(2024)11-00-03
0 引 言
3D手勢識別是識別手在三維空間中的姿態的過程,其主要通過測量并描述手部各關節在三維空間中的位置來實
現[1-2]。3D手勢識別的提出源于人們對人機交互方式自然、直觀的追求。傳統的人機交互方式,如鍵盤、觸摸屏等,雖然已經發展得非常成熟,但仍然存在一些局限,如需要物理接觸、操作不夠直觀等。為了克服這些限制,研究人員開始探索使用手勢來進行人機交互。最早的手勢識別系統可以追溯到20世紀80年代,當時主要使用2D攝像頭和計算機視覺算法來捕捉和識別手勢。然而,這種方法僅能對手勢的平面運動進行識別,無法獲取手勢的深度信息。隨著深度相機(如Microsoft Kinect)的問世,3D手勢識別得以實現。目前,3D手勢識別的研究在國內外尚處于起步階段,但已吸引了很多國內外著名學者和技術公司的關注,如微軟公司正在研究基于3D手勢的跟蹤系統等。
1 3D手勢識別的應用
3D手勢識別在以下幾個領域得到了廣泛的應用[3-4]:
(1)電子消費領域。對電子產品如手機、平板電腦的非接觸操作。
(2)軍事領域。遠程對機器人、無人飛機發出手部控制指令。
(3)輔助控制領域。自動駕駛中通過手勢對汽車進行控制或自動識別特殊手勢,例如識別警察做出的停車手勢。
(4)輔助醫療領域。遠程手術中通過手勢識別進行精細操作,將聾啞人手語自動識別轉化成對應的文本或語音信號。
準確估計手的姿勢對于許多應用至關重要。隨著技術的不斷進步和創新,將會有更多的領域和場景與3D手勢識別相結合,為用戶帶來更便捷、智能和沉浸式體驗。但人手時常做出精細微小的動作,且手具有更高的自由度,因此很難準確識別手的姿勢。
2 國內外研究現狀和方法
目前,手勢識別在國內外尚處于研究起步階段。大多數工作是基于3D深度圖片(Depth Image)來進行手勢識別。不同于傳統2D圖像(彩色圖像或灰度圖像),深度圖片中每個點的數值代表現實3D空間中的對應點到攝像頭的距離。通過評估深度圖像中每個點的空間位置關系才能準確確定手部各關節的位置。傳統的2D圖像中廣泛應用的特征并不適合用到3D圖像中。為了解決深度圖像中手勢識別的問題,文獻[5]通過比較局部不同位置的深度值大小來描述3D物體的變化,這種局部特征簡單且有效,在3D手勢識別中取得了初步成功。
一些研究中考慮采用結構化的方法來描述各關節的空間位置關系進而識別手勢。結構化的方法是將手部各關節表示成一個樹狀結構,如手腕的關節是根節點,從根節點出發延伸出不同的樹枝來代表不同的手指關節。文獻[6]提出了一種采用級聯方式的手勢回歸方法,其先用回歸方法估計手掌中心的關節坐標,然后基于此依次估計每個手指的關節坐標。文獻[7]提出了一種層級式的手勢識別方法,將所有關節視作一個運動鏈,在運動鏈中每個關節的位置都取決于前一個關節。沿著運動鏈逐個估計每個關節的位置,進而得到最終的手勢。層級式方法在考慮到手部結構的同時,往往按一定空間順序(沿著運動鏈)估計每個關節的位置,而不是將所有關節作為一個有機整體考慮。
文獻[8-9]提出了基于模型的手勢識別方法。基于模型的方法不直接預測關節的3D坐標,而是通過描述關節之間的空間約束關系來預測坐標位置。在這種約束關系中考慮到了某些關節是分布在同根手指上的,而不同手指的關節是沒有空間聯系的。通過顯式地描述關節之間的關系,基于模型的方法進一步提高了手勢的預測精度。文獻[8]利用剛性骨架模型來約束關節之間的關系,并用隨機森林算法來預測骨架模型參數,進而計算關節的3D坐標。剛性骨架模型中,不同手指的關節被認為是分布在多條不同的運動鏈上,每個關節的坐標取決于同一個運動鏈上所有關節的之前位置,通過約束關節之間的相對活動范圍(角度)來縮小3D坐標的搜索范圍。剛性骨架模型的骨架結構是一定的,不同手勢只能通過關節的旋轉來產生,關節的3D位置是通過精確預測骨骼的相對方向來獲得的。而這種方法只能對同一個人的手勢進行準確的姿勢估計,對于不同的手需要通過一些專門的處理,如尺度變換,才能得到比較好的結果。雖然剛性骨架模型需要的參數比較少(只考慮關節方向而不用考慮手掌手指的大小),但是對其的運用缺少靈活性。
為了解決剛性骨架模型的3D手勢識別方法中存在的問題,文獻[10]提出基于柔性骨架模型的手勢識別方法,在柔性骨架模型中每個手指(腕部)上的關節構成一個運動鏈。在每個運動鏈上用傳輸矩陣來表示相鄰關節之間的關系,如圖1所示,其中圓點代表需要估計的關節。
白色關節代表根節點,所有關節組成樹狀結構。每個手指(腕部)上的關節構成一個運動鏈,采用傳輸矩陣表示相鄰關節之間的關系,表達式為:
(1)
式中:x, y∈R3×1為相鄰2個關節的3D坐標;C∈R4×4為傳輸矩陣,用來描述2個關節之間的任意方向及距離的變化。運動鏈上的任意一個關節坐標均可以根據之前的傳輸矩陣從根節點計算得到。為了靈活地表示任意手勢變化,在柔性骨架模型中,傳輸矩陣中所有的系數是可變的。
隨著深度學習在3D圖像識別中的成功應用,研究者嘗試應用深度學習算法來提取3D手勢圖像特征[11-13]。在基于深度學習的方法中,將整張3D深度圖像用作卷積神經網絡(CNN)的輸入,通過監督學習,CNN可以自動學習到適合手勢圖像的有效特征。與傳統定義的局部特征相比,運用深度學習的方法識別度更高。同時,深度學習還提供了便捷的端對端(end-to-end)解決方案[13]。
目前,在深度學習模型中融合2D/3D多模態和多視角圖像數據的手勢識別方法在3D手勢識別領域引起重視。一方面,在3D手勢圖像數據采集的過程中,2D圖像往往會隨之產生。另外,目前大多數圖像采集設備還是2D的,專業的3D圖像采集設備由于價格昂貴還未普及。盡管2D圖像本身并不能有效估計手勢,但作為3D圖像數據的補充,起到了很大的作用。另一方面,現有的手勢識別往往采用一個視角的圖像數據而忽視了不同視角圖像的作用。利用同一個手勢的多視角圖像相互補充,更利于改善圖像識別效果。文獻[14]針對2D和3D不同模態不同視角的手勢圖像,通過CNN訓練得到了一個有效的特征,并將特征進行最終融合得到3D手勢的全局特征。采用深度學習框架,將多模態多視角圖像數據融合是當前3D手勢識別中的主流方法。
2D/3D多模態和多視角圖像手勢識別方案如圖2所示。其中,輸入是同一個手勢的2種不同模態(2D/3D)、多個不同視角的圖像,輸出為所有關節的3D坐標,即3D手勢。在輸入端,每個通道的圖像作為一個深度學習模型的輸入。深度學習模型可以是深度卷積神經網絡和長短期記憶神經網絡(LSTM)等。CNN是目前應用最廣泛也是最直接的方法;LSTM適合用來處理序列信號,這與關節之間存在的空間序列性相吻合。深度學習模型的輸出將被進一步融合來預測骨架模型的參數。多視角學習模塊輸出代表當前模態的特征,表達式為:
output=g(f1(I1)+f2(I2)+ ... +fN(IN))" " " " " " " " " " "(2)
式中:f代表不同的深度學習模型;I代表不同視角的輸入圖像;g代表多視角學習模塊的函數,一般為非線性函數。f和g從訓練集學習得到。2個模態的多視角學習模塊分別輸出output2D和output3D。多模態融合模塊采用類似的方法對2個不同模態的特征進行融合,表達式為:
skeleton=h1[h2(output2D)+h3(output3D)]" " " " " " " " (3)
式中:h1、h2、h3為非線性函數,從訓練集學習得到。多模態融合模塊的輸出skeleton為骨架模型的參數。由于輸入中包含多張3D圖像,算法可以從圖像中學習得到完整的3D手勢信息。
3 3D手勢識別發展方向
3D手勢識別技術在未來將持續發展,并在各個領域展現出廣闊的應用前景。列出3D手勢識別技術的未來發展方向如下:
(1)精確性提升。當前的3D手勢識別技術仍存在一定的識別精度低的問題。未來通過深度學習、神經網絡等不斷提升算法的準確性,將實現更精確的手勢識別。
(2)多模態感知。將3D手勢識別與其他傳感器技術結合,如眼動追蹤、聲音識別、面部表情分析等,可以實現更全面的多模態感知,提供更豐富的交互方式和更好的用戶體驗。
(3)實時性和低延遲。對于虛擬現實游戲和醫療手術模擬等手勢識別場景,未來的發展方向將聚焦于優化算法和硬件設備,以實現更快的響應速度和更低的延遲。
(4)手勢識別與機器學習相結合。通過機器學習算法,不僅可以實現更準確的手勢識別,還可以根據用戶的個性化需求和習慣優化交互方式,實現更智能化的交互體驗。
(5)更多的應用領域。3D手勢識別已經在虛擬現實、增強現實等領域得到應用。未來還將在智能家居、智能交通、醫療輔助、教育等領域發揮更大的作用。
總之,3D手勢識別技術在未來有著廣闊的發展前景。隨著算法、硬件設備和技術的不斷發展和改進,期待更精確、實時和智能的3D手勢識別系統的出現,并且為各個領域帶來更多創新和便利。
4 結 語
總的來講,手勢識別在人機交互領域有著廣泛的應用前景。3D手勢識別方法中需要解決的主要問題為如何有效地描述關節之間的結構信息。已有的結構化手勢識別方法往往基于一些假設,如手指的長度一定或是手指只能在一定范圍內活動,從而限制了手勢識別的應用范圍。另外,大多數方法只考慮單張3D圖像的手勢識別問題,而沒有有效利用廣泛存在的2D圖像及多視角圖像數據。針對這些問題,已有研究提出了柔性骨架模型來靈活地描述任意大小、不同方向的手勢變化,并采用深度學習算法來學習骨架模型參數。同時,考慮從不同模態不同視角的圖像中提取更豐富的信息來輔助手勢識別。
參考文獻
[1]徐飛,鄒壽春.基于計算機視覺技術和支持向量機的手勢識別算法研究[J].佳木斯大學學報(自然科學版),2023,41(1):29-33.
[2]趙明宇,苗玉彬.基于RGB-D視頻序列的動態手勢識別[J].機械設計與研究,2023,39(4):27-31.
[3]趙雅琴,宋雨晴,吳晗,等.基于DenseNet和卷積注意力模塊的高精度手勢識別[J].電子與信息學報,2024,46(3):967-976.
[4]袁文濤,衛文韜,高德民.融合注意力機制的多視圖卷積手勢識別研究[J].計算機工程,2004,50(3):208-215.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classi?cation with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems.[S.l.]: [s.n.], 2012: 1097-1105.
[6] SUN X, WEI Y, LIANG S, et al. Cascaded hand pose regression [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015: 824-832.
[7] TANG D, TAYLOR J, KOHLI P, et al. Opening the black box:" Hierarchical sampling optimization for estimating human hand pose [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 3325-3333.
[8] XU C, GOVINDARAJAN L N, ZHANG Y, et al. Lie-X: Depth image based articulated object pose estimation, tracking, and action recognition on Lie groups [J]. International journal of computer vision, 2016, 123(3), 1-25.
[9] ZHOU X, WAN Q, ZHANG W, et al. Model based deep hand pose estimation [J]. International joint conference on artificial intelligence, 2016: 9511016.
[10] GE L, LIANG H, YUAN J, et al. Thalmann, robust 3D hand pose estimation in single depth images: from single-view CNN to multi-view CNNs [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016:3593-3601.
[11]劉杰,王月,田明.多尺度時空特征融合的動態手勢識別網絡[J].電子與信息學報,2023,45(7):2614-2622.
[12]毛力,張藝楠,孫俊.融合注意力與時域多尺度卷積的手勢識別算法[J].計算機應用研究,2022,39(7):2196-2202.
[13]顧明,李軼群,張二超,等.可分離長短期注意力網絡的手勢識別方法[J].計算機應用,2022,42(z1):59-63.
[14] ZHANG Y, MI S, WU J X, et al. Simultaneous 3D hand detection and pose estimation using single depth images [J]. Pattern recognition letters, 2020, 140: 43-48.
作者簡介:張會影(1981—),女,副教授,主要研究方向為計算機視覺、圖像處理和深度學習。
圣文順(1979—),男,副教授,主要研究方向為計算機視覺、圖像處理和人工智能。
收稿日期:2023-11-21 修回日期:2023-12-19
基金項目:2023年度江蘇高校哲學社會科學研究項目(2023SJYB 0687);南京工業大學浦江學院2022教改重中之重項目(2022JG001Z);南京工業大學浦江學院自然科學重點培育項目(njpj2022-1-06);南京工業大學浦江學院2020重點精品課程《數據庫原理與應用》項目研究成果之一;江蘇省高校自然科學研究項目(19KJD520005);江蘇省高校“青藍工程”項目(蘇教師函[2021]11號)