





摘 要:人類在認識事物時往往是從粗到細再到精,受認識過程的啟發,根據手的拓撲結構設計了一種新的手勢估計網絡。該方法首先從手的角度提取全局特征,然后從手指角度提取局部特征,最后從關節點的角度提取點的細化特征,并融合三個不同階段特征回歸出每一關節點的3D空間坐標值,從而改善了回歸精度。由于深度圖只保存了目標點到相機的深度信息,以深度圖作為神經網絡的輸入不利于卷積核獲取其他兩個方向的坐標信息;為了能在2D卷積核中直接利用空間坐標的全部信息,利用相機成像原理對深度圖進行轉換,將深度圖轉換為3通道的圖像,這樣提高了神經網絡的回歸精度。最后在公開數據集NYU和MSARA上進行訓練和測試,測試結果表明,提出的網絡結構及輸入數據的轉變都取得了良好的效果。
關鍵詞:神經網絡;手勢估計;RGBD相機;深度圖;手的拓撲結構
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)03-049-0925-06
doi:10.19734/j.issn.1001-3695.2021.06.0289
基金項目:國家重點研發專項資助項目(2018YFB1004902);廣東省重點研發資助項目(2017B010110008)
作者簡介:鄒序焱(1983-),男(通信作者),湖南婁底人,講師,博士研究生,主要研究方向為增強現實和人工智能(zxy03102@163.com);何漢武(1966-),男,湖北荊州人,教授,博導,博士,主要研究方向為制造自動化系統、VR/AR技術及應用;吳悅明(1979-),男,廣東廣州人,高級實驗師,博士,主要研究方向為虛擬現實與增強現實在工業中的可視化應用.
Robust 3D hand pose estimation based on three-level cascade neural network
Zou Xuyan1,2?,He Hanwu1,3,Wu Yueming1
(1.School of Electromechanical Engineering,Guangdong University of Technology,Guangzhou 510006,China;2.Dept.of Artificial Intelligence amp; Big Data,Yibin University,Yibin Sichuan 644000,China;3.Guangdong Polytechnic of Industry amp; Commerce,Guangzhou 510510,China)
Abstract:Human understanding of things is often from coarse to fine and then to refined.Inspired by the cognitive process,this paper proposed a new gesture estimation network structure based on hand topology.Firstly,this model extracted the global feature from the angle of the whole hand,then extracted the local feature from the angle of the finger,finally extracted the refined feature from the angle of the joint point,and regressed the 3D spatial coordinate information of each joint point by fusing the different features of the three stages.Since the depth map only saved the depth information from the target point to the camera,taking the depth map as the input of the neural network,the convolution kernel couldn’t directly obtain the coordinate information in the other two directions.In order to obtain the coordinate information of the other two directions,it converted the depth map into a 3-channel image using the camera imaging principle,which improved the regression accuracy of the neural network.This paper trained and tested the model on the NYU and MSARA datasets.The test results show that the proposed network structure and the transformation of the input data have achieved good results.
Key words:neural network;hand pose estimation;RGBD camera;depth image;hand topology
0 引言
隨著深度學習的發展,人機交互的應用也越來越廣泛[1,2]。手勢交互因為其交互方式自然、方便、靈活等特點在虛擬現實[3]、增強現實[4]、智能控制及機器人交互等方面應用廣泛。Wang等人[3]構建出一個實時手勢交互的虛擬現實系統,利用手勢交互對虛擬物體進行移動、縮放、選擇等操作;Karambakhsh等人[4]構建出一個手勢交互的增強現實系統,主要利用神經網絡對手勢進行識別,從而達到人與計算機交互的目的。手勢交互技術的發展得益于計算機硬件、深度相機及神經網絡等技術的發展,近年來取得了顯著成就,然而由于手的自由度高、手指間相互遮擋、環境、光照等因素,手勢估計仍然是一個具有挑戰性的任務。
隨著深度學習的發展,卷積神經網絡在手勢估計中取得了巨大的成功。卷積神經網絡根據網絡結構的不同,大致可以分為兩種:
a)將手部所有關節點當成一個整體而構建出神經網絡結構[5,6],如Che 等人[6]提出了一種層次式的手勢估計網絡結構,該網絡結構主要分成兩部分,第一部分用于粗略估計手的中心點,再以中心點為基礎對手部分進行處理,然后構建出第二部分網絡結構,用于回歸出手的3D空間坐標。該回歸網絡將所有節點作為一個整體進行回歸,首先估計手的中心點,然后以中心為基礎對手部節點進行估計。
b)根據手形拓撲結構設計的分支式網絡模型。Du等人[7]根據手的結構將手勢估計任務分為手掌姿勢估計和手指姿勢估計子任務,并采用了十字交叉網絡對這兩部分進行特征提取,兩個分支可以彼此共享信息,從而提高了3D位姿的回歸精度;Sinha等人[8]將整個手部的節點按著大拇指、食指、中指、無名指和小指劃分為五部分并分別提取特征,根據手部的連接關系構建約束矩陣,從而回歸出手的3D位姿,在一定程度上提高了位姿的精度,然而它不是從端到端的神經網絡;Chen等人[9]根據手形拓撲結構對特征進行分區,在不同區域上提取特征圖,該方法解決了平等對待特征區域的問題,它根據手關節的拓撲來集成特征圖,然后將所有特征進行連接,最后利用全連接層進行3D位姿回歸;Guo等人[10]提出了一種樹形結構的區域集成網絡(REN),將卷積輸出劃分為多個區域,并在每個區域上集成來自多個回歸器的結果;Zhou等人[11]提出了具有三個分支的網絡結構,稱為分支集成網絡(HBE),在此體系結構中三個分支代表手的三個部分,分別是拇指、食指和其他手指。綜上可知,利用手形拓撲結構設計出的多分支網絡結構在一定程度上提高了3D位姿的回歸精度。
1 卷積神經網絡的數據輸入
在深度學習中,從數據的輸入形式上看,手勢估計可分為三類:
a)以RGB圖像作為數據輸入[12,13],由于RGB圖像是一種二維數據格式,只有顏色和紋理等信息,缺少空間信息,增加了回歸的難度。Zimmermann 等人[12]利用RGB圖像訓練神經網絡,最后回歸出手部節點的3D空間坐標。
b)以深度圖作為數據輸入[7,14~17],它是一種2.5D數據格式,利用傳感器從一個視角上獲取手部深度信息,但是缺少多個視角的深度信息,其好處是不受光照的影響且包含了深度信息,因此大大改善了以RGB圖像作為輸入的手勢估計結果。Oberweger等人[14]構建出一個以深度圖作為數據輸入的反饋神經網絡,利用反饋的數據修正網絡對3D位姿的預測,但從目前的文獻結果對比來看,其結果并不優越;Oberweger等人[15]利用深度圖構建出幾種網絡結構并對各種網絡結構進行了評價;Choi等人[17]在深度圖的基礎上利用熱擴散原理描述了表面幾何特性,從而提高了3D位姿的回歸精度;Kazakos等人[18]構建了一個融合RGB圖像數據和深度圖像數據的神經網絡,分別對RGB數據和深度圖像數據使用九個卷積層和三個池化層進行特征提取,然后融合兩個方面的特征,最后利用全連接層回歸出手的三維姿態,但是融合兩種類型數據并沒有顯著提高手勢估計精度。
c)以點云數據作為神經網絡的輸入[5,19~21]。點云數據是由手部空間坐標點構成的,點云數據中點與點之間的關系是無序的、雜亂無章的,所以在神經網絡中,首先需要將點云數據轉換為體素結構,然后利用3D卷積核提取特征,從而回歸出關節點的3D空間位置[5]。如Chang 等人[19]采用點云作為輸入數據,建立一個體素到體素的預測網絡結構,雖然改善了結果,但同時也增加了計算量。以RGB圖像或深度圖作為數據輸入,神經網絡模型主要采用2D卷積核對特征進行提取。以點云數據輸入則主要采用3D卷積核,因此在速度上,以點云數據作為神經網絡輸入是最慢的,但是能夠更好地利用空間坐標信息,從而改善了3D位姿精度。
本文主要選取第二類數據,但對第二類數據格式進行了轉換。首先利用相機成像原理將深度圖轉換為空間坐標,然后按深度圖中行和列的順序存儲為3通道的圖像。第一個通道上存儲點的x坐標信息,第二個通道存儲y坐標信息,第三個通道存儲z坐標信息。對轉換以后的數據利用2D卷積核進行圖像特征提取,不僅可以直接獲取z坐標信息,也可以直接獲取其他兩個方向上的信息,并沒有顯著增加算法的時間復雜度。通過數字實驗結果表明,這種轉換是有效果的。
設包含手的深度圖為D,它只有一個通道的信息,表示為
其中:(u,v)代表深度圖的像素坐標,d(u,v)代表該像素坐標(u,v)對應的深度值,M和N代表圖像的行數和列數。傳統的手勢估計是從一個深度圖中估計出關節點的3D空間坐標Φ={φi},其中φi=(xi,yi,zi)為第i個手部節點的空間坐標,i=1,2,…,J,J為節點的個數。因此手勢估計的數學模型可以表示為
其中:F(·)代表各種卷積神經網絡。深度圖D可以通過式(3)將深度信息(u,v,d)轉換為空間立體坐標(x,y,z)。
其中:fx和fy為相機在x軸及y軸上的焦距,(u0,v0)為深度圖的中心坐標。
在以深度圖作為神經網絡的輸入數據時,神經網絡主要獲取深度圖中深度的信息。為了能直接獲取深度圖中點的x坐標及y坐標,對深度圖中的每一點利用式(3)將深度圖轉換為空間坐標,然后按照深度圖行和列的順序存儲為3通道的圖像。深度圖D由1通道的圖像轉變為3通道的圖像,即
從而式(2)轉換為
從式(2)可以看出,其定義域為深度值,值域為手部節點的空間坐標信息;從式(5)可以看出,其定義域和值域都是空間坐標,這樣有利于神經網絡的回歸。
為了減小環境對神經網絡造成的影響,本文采用了與文獻[15,16]相同的數據處理方式。根據深度值檢測手的位置,計算出手的中心點,然后以手的中心建立裁剪立方體,以立方體的邊界對圖像I進行裁剪,然后按照深度值z值規范到[-1,1],且在x和y通道上也作相同的處理,最后按照比例縮放至96×96的大小。在實際應用中,由于手的各種操作和變換,本文采用了與文獻[16]相同的方法對數據進行增強處理。主要對訓練數據進行隨機的比例、旋轉和平移變換,增加了訓練樣本,改善了回歸的精度。
2 本文方法
2.1 手的拓撲結構
手是由手腕、手掌和手指構成[22],主要包括27根骨頭。腕骨有8根短骨,手掌由5根長骨構成,手指由大拇指、食指、中指、無名指和小指構成。大拇指由近節指骨和遠節指骨構成,其他手指都包含近節指骨、中間指骨和遠節指骨三部分。手是一種高度復雜且非常優雅的生物機械設備,能夠進行粗糙和精細的運動。手是由骨骼形成的剛體系統,每一節點的自由度并不相同,如圖1所示。食指、中指、無名指和小指具有相同的關節結構,主要包括一個連接手指底部和掌的鞍關節和兩個鉸鏈關節;拇指只包含一個鞍關節和一個鉸鏈關節,鉸關節只能屈伸,因此它只有一個自由度;鞍關節能夠屈伸或者左右擺動,因此它具有兩個自由度。將手部手掌和手腕看做一個整體,它具有六個自由度。
2.2 網絡結構
從圖1可知,手具有高度的靈活性,手掌在整個手的運動過程中起到關鍵作用,每一根手指依附于手掌存在。在同一根手指上的兩個關節點之間具有很強的關聯性,但每一個節點也具有其獨特的特征。手的這種特點稱為手形拓撲結構,利用手形拓撲結構設計多分支的網絡結構,在一定程度上改善了3D位姿的回歸精度。人們在認識復雜事物時往往是從全局角度上進行整體認識,然后從局部角度上對細節進行區分。依據這個原理,本文設計了一個三級神經網絡結構,首先從整體上獲取手的特征,然后從每一根手指的角度獲取局部特征,最后從節點角度獲取細化特征。它遵循從全局到局部再到點的認識規律,其主體結構如圖2所示。其中,T代表大拇指,I為食指,M為中指,R為無名指,P為小指。
在三級神經網絡結構中,主要分三個階段來提取特征,分別是全局特征提取模塊、局部特征提取模塊和節點回歸模塊。全局特征提取模塊用于提取手部的全局特征;局部特征提取模塊是根據手的拓撲結構提取不同手指特征;節點回歸模塊是針對每一關節點提取細化特征,用于回歸計算每一個關節點的空間位置。在全局特征提取模塊中輸入96×96大小的3通道圖像,輸出為12×12大小的特征圖,且這個特征圖作為局部特征提取模塊的輸入;局部特征提取模塊的輸出依然為12×12的特征圖,該特征圖作為節點回歸模塊的輸入數據。文獻[7]研究表明,用點的熱圖監督特征的提取是一種有效的辦法。根據不同的網絡模塊,本文采用不同大小的熱圖來監督特征的提取。
2.2.1 全局特征提取模塊
編碼解碼網絡結構在圖像分割任務中取得了巨大的成功[24],本文采用了編碼解碼網絡結構作為全局特征模塊的主體結構。結合殘差網絡,在編碼解碼的網絡結構基礎上加入了 ResNet-50[23]結構。除此之外,本文對每一殘差模塊的特征進行像素級的加法,極大地豐富了全局特征。
熱圖是一種監督特征提取的有效方法。熱圖由手部節點的像素坐標生成,假設第i個節點在深度圖中的像素坐標為(ui,vi),則第i個節點的熱圖計算如下:
其中:λ0為常數,代表在多大范圍內生成熱圖;σ為標準差,在本文中σ設置為1,每一個節點生成的熱圖大小都是24×24。在全局特征提取模塊中,λ0取值為7,7代表以節點為中心的7×7矩形范圍內的值為非零,而其余值為零,其效果如圖3所示。
2.2.2 局部特征提取模塊
從手的結構可以看出,關節點之間的聯系是不一樣的,如大拇指上的關節點與小指上的關節點之間的聯系相對較弱,而在同一根手指上關節點之間的關聯程度比較高。根據這個特點,本文設計了五個分支的模塊結構,每一分支結構如圖4所示。在每一分支結構中采用了文獻[23]的“瓶頸結構”。受到文獻[15,23]的啟發,殘差網絡和多尺度不同的特征都會不同程度地提高3D位姿的回歸精確度,因此本文設計一個特殊結構用于提取不同尺寸的特征,即圖4中的多尺度特征結構,該結構分為三個分支:第一分支是利用上采樣對圖像進行放大,然后利用卷積層提取特征,最后利用池化層保持原有特征的尺寸,這個分支有利于提取更小范圍內的特征;第二個分支與殘差網絡的想法一致,在這個分支上不做任何處理,直接利用原有特征,這個分支的目的是為了保持原有特征;第三個分支與第一個分支剛好相反,先采用池化層,然后進行卷積層,最后利用上采樣保持原有尺寸的大小,這個分支主要用于提取更大范圍內的特征。最后再將這三個分支進行像素級的加法操作,以達到提取不同尺度特征的目的。
在局部特征提取模塊中,全局特征提取模塊中的輸出特征圖12×12作為該模塊的輸入,并輸出大小為12×12的特征圖。 利用式(6)生成的熱圖監督特征的提取,為了更好地監督局部特征的提取,該階段熱圖中λ0取值為5。
2.2.3 節點回歸模塊
每一個節點有其獨自的特點,在手勢交互中起著不同的作用,對每一個節點構建一個模塊,提取每一個節點各自不同的特征。在這一部分網絡中本文采用了“瓶頸結構”和圖4中的多尺度特征結構,然后利用一個全連接層對每一節點的3D位姿進行回歸,其結構如圖5所示。
節點回歸模塊中,以局部特征提取模塊中的輸出特征圖12×12為輸入數據,并輸出節點的3D空間坐標。為了更好地提取手指部分的特征,同樣利用式(6)生成的熱圖,但其中λ0設置為3,是為了更好地關注局部的特征。為了防止過擬合的現象,在全連接中采用了隨機剔除算法,其剔除率為0.6。
2.2.4 損失函數
在全局特征提取模塊中,采用熱圖監督網絡提取全局特征。針對熱圖的損失函數為
其中:Lweight為訓練參數的正則化值,α、β及λ為損失函數權重值,α和β用于平衡兩種類型的損失函數值,λ為正則化參數。
3 實驗及分析
3.1 網絡訓練的參數設置
本文利用Adam優化算法對神經網絡進行端到端的訓練。在訓練開始時,所有權重參數利用零均值的正態分布進行初始化。訓練采用初始學習率為0.001,隨著訓練的進行,學習率進行衰減,其衰減率為0.96。每一次迭代計算20張圖,在每一個數據集上都訓練了110遍。為了防止過擬合,在全連接層中設置0.6的隨機剔除率。在神經網絡的訓練中,由于式(7)~(9)代表的是預測熱圖與實際熱圖之間的差距,熱圖大小是24×24,每一點的取值為[0,1],且式(7)~(9)都存在J對預測熱圖和實際熱圖,所以總共包含J×24×24對像素級的誤差。然而根據熱圖生成的原理,在實際熱圖和預測熱圖中有很多像素值為0,因此在考慮損失函數權重值時,每一對熱圖約以6×6對非零像素值進行考慮。式(10)代表手部關鍵點的3D坐標預測值與實際值之間的差距,只包含了J對預測值與實際值之間的差距。綜合所述,損失函數中的參數α和β分別設置為0.03和1,而λ設置為0.000 01。
本文的數值實驗是在TensorFlow平臺下進行的訓練和測試,計算機顯卡的型號為GTX 1650。在數據集MSRA和NYU上的訓練時間大約花費了60 h;在測試階段,模型在單個GPU上運行約為66.9 fps。
3.2 數據集
本文選擇在兩個公開的數據集NYU和MSRA上進行訓練、測試和評價。
a)NYU數據集[25]是由深度攝像頭從三個不同的視角收集得到的。它分為訓練集和測試集,訓練集只拍攝了一個人,而測試集則來自兩個人。在整個數據集中標注了36個手部的關節點。在大多數研究中,主要利用了14個關節點,本文實驗中也選擇了14個關節點進行訓練和測試,這樣有利于實驗對比。
b)MSRA數據集[26]是由深度相機SR300拍攝得到的,一共有76 500張圖片,并對手部21個關節點進行了標注。整個數據集分為9個目錄,每一個目錄下17種不同的手勢。在訓練的過程中,將第一個目錄(即P0)作為測試集合,其他目錄(P1~P8)作為訓練集。
3.3 評價標準
本文采用兩個標準去評價手勢3D位置的精確度,第一個是平均誤差,即手部節點的預測值與精確值之間誤差的平均值,即
3.4 深度圖轉變的對比實驗
為了評價數據轉變后的效果,本文分別利用了深度圖和轉變后的圖像作為輸入數據在兩個數據集上分別進行訓練,并在測試集上進行驗證,其平均誤差如表1所示。
從表1可以看出,利用轉變后的圖像作為輸入數據,在一定程度上改善了預測精度,在NYU數據集上由10.88 mm下降到10.53 mm,而在MSRA數據集上由8.66 mm下降到了8.03 mm,但在運行時間上沒有顯著的變化。在每一節點上的平均誤差如圖6(MSRA數據集)和7所示(NYU數據集)。
3.5 與當前方法進行對比
為了驗證本文方法的有效性,本文將其與目前幾個較先進的方法在兩個公開的數據集上進行比較,主要包括以深度圖作為輸入的模型CrossInfoNet[7]、Pose-REN[9]、Ren-9x6x6[10]、Feedback[14]、DeepPrior++[16]、DenseReg[27]、DeepModel[28]、Lie-X[29];另一部分是以點云數據作為輸入的模型V2V-PoseNet[19]、HandPointNet[20]、3DCNN[30]、SHPR-Net[31]、Point-to-Point[32]、JGR-P2O[33]、pseudo-3D[34]。這些算法所預測的結果和標簽值來源于在線資源[35],提供了MSRA數據集上所有目錄(P0~P8)的預測值和NYU數據集上測試集合的預測值,其對比結果如表2所示。
從表2可以看出,本文方法在MSRA數據集上表現最優,但是在NYU數據集上的表現不是很好。主要原因在于MSRA數據集上的深度圖已經剔除了背景的深度值,而NYU數據集包含了背景的深度值,影響了回歸的精度。為了能夠進一步提高網絡的預測精度,可以先對深度圖像進行手勢分割,然后再利用本文方法進行手勢估計。其最終在兩個評價標準上的表現如圖8和9所示。
本文方法及部分方法在兩個數據集上的預測效果如圖10所示,其中紅色的線代表真實值,藍色線代表預測值(參見電子版)。
4 實際場景中的應用
為了驗證手勢估計的實時性和有效性,本文利用RGBD深度相機構建出虛擬實驗平臺[36]。虛擬實驗是學生通過操作實驗資源而推進實驗的,從而產生實驗現象。在虛擬實驗中主要通過手勢識別技術操作虛擬實驗器材、虛擬實驗藥品等虛擬物體。為了能夠實現像現實世界一樣的實驗操作,手勢交互需要解決兩個方面的問題:a)手指在空間中的坐標信息,用于判別手是否與虛擬實驗器材發生碰撞以及碰撞的位置信息等,即手勢估計,本文前面所提出的方法就是解決手勢估計的方法;b)實驗操作時的語義信息,即對虛擬器材進行何種操作,如移動、拿、放等操作。本文簡化了虛擬實驗的操作,主要考慮了對物體的抓、放、移動。為了理解手勢語義信息,本文采用大拇指末端節點和食指末端節點之間的距離來判別手勢語義信息。假設食指末端節點的空間坐標為p1=(x1,y2,z3),大拇指末端節點的空間坐標為p2=(x2,y2,z2),則手勢的語義定義為
其中:G=1代表抓物體;0代表釋放物體;d(p1,p2)代表p1與p2的歐幾里德距離;d0是一個閾值,衡量食指末端節點與大拇指末端節點的接近度,當食指末端節點與大拇指末端節點的距離小于閾值d0時代表抓住虛擬物體,大于閾值d0時代表釋放虛擬物體,本文中d0取值為3 cm。本文在中學化學鋁熱反應的虛擬實驗下進行驗證,該虛擬實驗利用前文提出的手勢估計方法對手部節點進行估計,從而判別出手是否與虛擬物體發生碰撞,然后利用式(14)識別手勢的語義信息,最終達到人機交互的目的。圖11中分別顯示操作虛擬物體的情形。
5 結束語
隨著人工智能的發展,手勢交互受到越來越廣泛的關注,然而在手勢交互中估計手部關節點仍然是一個挑戰的問題。在本文中,根據手的拓撲結構建立一個三級神經網絡結構,其主要包含三部分:a)全局特征提取模塊,主要用于提取手部的全局特征;b)局部特征提取模塊,用于提取不同手指的特征;c)點的特征提取模塊,用于提取每一關節點獨有的特征。通過從粗到細的結構提取不同程度的特征,從而提高神經網絡的精度。另外,2D卷積核直接利用的是深度圖的深度信息,不能直接利用x軸和y軸方向的信息。為了彌補這一缺陷,本文利用相機成像原理將深度圖轉換為3通道的圖像,其中既包含了深度信息,也包含了x軸和y軸方向的信息,這樣能夠直接利用2D卷積核計算x軸和y軸方向的信息。雖然增加了數據的輸入,但是其計算復雜度并沒有成倍地增加。數值實驗表明,這種轉變是有效的,能夠有效地提高網絡回歸的精度。
參考文獻:
[1]Supancic J S,Rogez G,Yang Yi,et al.Depth-based hand pose estimation:methods,data,and challenges[J].International Journal of Computer Vision,2018,126(4):1180-1198.
[2]Ahmad A,Migniot C,Dipanda A.Hand pose estimation and tracking in real and virtual interaction:a review[J].Image and Vision Computing,2019,89(9):35-49.
[3]Wang K R,Xiao Bingjia,Xia J Y,et al.A real-time vision-based hand gesture interaction system for virtual EAST[J].Fusion Engineering and Design,2016,112(11):829-834.
[4]Karambakhsh A,Kamel A,Sheng Bin,et al.Deep gesture interaction for augmented anatomy learning[J].International Journal of Information Management,2019,45(4):328-336.
[5]Deng Xiaoming,Yang Shuo,Zhang Yinda,et al.Hand3D:hand pose estimation using 3D neural network[EB/OL].(2017-04-07).https://arxiv.org/pdf/1704.02224.pdf.
[6]Che Yunlong,Song Yuxiang,Qi Yue.A novel framework of hand loca-lization and hand pose estimation[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:2222-2226.
[7]Du Kuo,Lin Xiangbo,Sun Yi,et al.CrossInfoNet:multi-task information sharing based hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9896-9905.
[8]Sinha A,Choi C,Ramani K.DeepHand:robust hand pose estimation by completing a matrix imputed with deep features[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:4150-4158.
[9]Chen Xinghao,Wang Guijin,Guo Hengkai,et al.Pose guided structured region ensemble network for cascaded hand pose estimation[J].Neurocomputing,2020,395(6):138-149.
[10]Guo Hengkai,Wang Guijin,Chen Xinghao,et al.Region ensemble network:improving convolutional network for hand pose estimation[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2017:4512-4516.
[11]Zhou Yidan,Lu Jian,Du Kuo,et al.HBE:hand branch ensemble network for real-time 3D hand pose estimation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:521-536.
[12]Zimmermann C,Brox T.Learning to estimate 3D hand pose from single RGB images[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:4913-4921.
[13]Ge Liuhao,Ren Zhou,Li Yuncheng,et al.3D hand shape and pose estimation from a single RGB image[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10825-10834.
[14]Oberweger M,Wohlhart P,Lepetit V.Training a feedback loop for hand pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:3316-3324.
[15]Oberweger M,Wohlhart P,Lepetit V.Hands deep in deep learning for hand pose estimation[C]//Proc of the 20th Computer Vision Winter Workshop.2015:21-30.
[16]Oberweger M,Lepetit V.DeepPrior++:improving fast and accurate 3D hand pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:585-594.
[17]Choi C,Kim S,Ramani K.Learning hand articulations by hallucinating heat distribution[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:3104-3113.
[18]Kazakos E,Nikou C,Kakadiaris I A.On the fusion of RGB and depth information for hand pose estimation[C]//Proc of the 25th IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2018:868-872.
[19]Chang J Y,Moon G,Lee K M.V2V-PoseNet:voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5079-5088.
[20]Ge Liuhao,Cai Yujun,Weng Junwu, et al.HandPointNet:3D hand pose estimation using point sets[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8417-8426.
[21]Malik J,Abdelaziz I,Elhayek A, et al.HandVoxNet:deep voxel-based network for 3D hand shape and pose estimation from a single depth map[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:7113-7122.
[22]Ahmad A,Migniot C,Dipanda A.Hand pose estimation and tracking in real and virtual interaction:a review[J].Image and Vision Computing,2019,89(9):35-49.
[23]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[24]Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.
[25]Tompson J,Stein M,LeCun Y,et al.Real-time continuous pose reco-very of human hands using convolutional networks[J].ACM Trans on Graphics,2014,33(5):article No.169.
[26]Sun Xiao,Wei Yichen,Liang Shuang,et al.Cascaded hand pose regression[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:824-832.
[27]Wan Chengde,Probst T,Van Gool L,et al.Dense 3D regression for hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5147-5156.
[28]Zhou Xingyi,Wan Qingfu,Zhang Wei,et al.Model-based deep hand pose estimation[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,PA:AAAI Press,2016:2421-2427.
[29]Xu Chi,Govindarajan L N,Zhang Yu,et al.Lie-X:depth image based articulated object pose estimation,tracking,and action recognition on lie groups[J].International Journal of Computer Vision,2017,123(7):454-478.
[30]Ge Liuhao,Liang Hui,Yuan Junsong,et al.3D convolutional neural networks for efficient and robust hand pose estimation from single depth images[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2017:5679-5688.
[31]Chen Xinghao,Wang Guijin,Zhang Cairong,et al.SHPR-Net:deep semantic hand pose regression from point clouds[J].IEEE Access,2018,6:43425-43439.
[32]Ge Liuhao,Ren Zhou,Yuan Junsong.Point-to-point regression PointNet for 3D hand pose estimation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:489-505.
[33]Fang Linpu,Liu Xingyan,Liu Li,et al.JGR-P2O:joint graph reasoning based pixel-to-offset prediction network for 3D hand pose estimation from a single depth image[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:120-137.
[34]張宏源,袁家政,劉宏哲,等.基于偽三維卷積神經網絡的手勢姿態估計[J].計算機應用研究,2020,37(4):1230-1233,1243.(Zhang Hongyuan,Yuan Jiazheng,Liu Hongzhe,et al.Hand pose estimation using pseudo-3D convolutional neural network[J].Application Research of Computers,2020,37(4):1230-1233,1243.)
[35]https://github.com/xinghaochen/awesome-hand-pose-estimation/tree/master/evaluation[DB/OL].
[36]鄒序焱,何漢武,吳悅明,等.基于手勢交互的虛實融合實驗仿真技術[J].系統仿真學報,2021,33(10):2488-2498.(Zou Xuyan,He Hanwu,Wu Yueming,et al.Virtual and real fusion experiment simulation technology based on hand gesture interaction[J].Journal of System Simulation,2021,33(10):2488-2498.)