999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視角統一的手姿態估計優化方法

2025-03-09 00:00:00曹忠銳謝文軍王冬鈕立超王婷玉劉曉平
計算機應用研究 2025年1期

摘 要:從深度圖像中準確估計手的三維姿態是計算機視覺領域的重要任務。然而,由于手的自遮擋和關節自相似性,使得手姿態估計任務極具挑戰性。為了克服這些困難,考察了深度圖像采樣視角對于估計精度的影響,提出了一種基于視角統一(UVP)的網絡。該網絡旨在將輸入的深度圖像重采樣為更易于估計的“正面”視角,而后通過原始視角下的特征提高關節估計精度。首先,提出了視角轉換模塊,實現對輸入的單張深度圖像的視角旋轉,提供作為補充的第二視角;然后,提出了視角統一損失函數,確保轉換后的第二視角為“正面”視角,最大程度規避自遮擋問題;最后,通過改變卷積組合結構、降低網絡深度等網絡輕量化手段,進一步優化方法的性能。通過在三個公開的手姿態數據集(包括ICVL、NYU和MSRA)上進行實驗,所提方法分別取得了4.92 mm、7.43 mm和7.02 mm的平均關節位置誤差,且在搭載RTX3070的計算機上能以159.39 frame/s的速度運行。可見,轉換深度圖的采樣視角,并融合雙視角下的特征有利于提高手部姿態估計的精度。同時,所提方法具備自適應性,并表現出優秀的泛化能力,可以推廣到大多數基于單深度圖像的手部姿態估計模型,為深度學習在三維手姿態估計中的應用提供了有力支持。

關鍵詞:手部姿態估計;手關節自遮擋;視角統一;深度圖像;點云變換

中圖分類號:TP391"" 文獻標志碼:A

文章編號:1001-3695(2025)01-041-0293-07

doi: 10.19734/j.issn.1001-3695.2024.03.0113

Optimization method of hand pose estimation based on unified view

Abstract:Estimating the three-dimensional pose of hands accurately from depth images is an important task in the field of computer vision. However, due to self-occlusion of hands and joint self-similarity, hand pose estimation is extremely challen-ging. To overcome these difficulties, this paper investigated the impact of depth image sampling viewpoints on estimation accuracy and proposed a UVP network. This network aimed to resample input depth images to a more easily estimable “front-facing” viewpoint and then enhance joint estimation accuracy through features from the original viewpoint. Firstly, it proposed a viewpoint transformation module to perform viewpoint rotation on input single-depth images, providing a supplementary se-cond viewpoint. Then, it introduced a viewpoint unification loss function to ensure that the transformed second viewpoint aligned with the “front-facing” viewpoint, minimizing self-occlusion issues. Finally, by employing network lightweight techniques such as changing convolutional combinations and reducing network depth, the method’s performance was further optimized. Experimental results on three publicly available hand pose datasets (including ICVL, NYU, and MSRA) show average joint position errors of 4.92 mm, 7.43 mm, and 7.02 mm, respectively. Moreover, the method achieves a processing speed of 159.39 frame/s on a computer equipped with an RTX3070 graphics card. Thus, it is evident that sampling depth images from different viewpoints and integrating features from dual viewpoints contribute to improved hand pose estimation accuracy. Additionally, the proposed method demonstrates adaptability and outstanding generalization capabilities, making it applicable to most single-depth image-based hand pose estimation models and providing robust support for the application of deep learning in three-dimensional hand pose estimation.

Key words:hand pose estimation; hand joint self occlusion; unified view point(UVP); depth image; point cloud transformation

0 引言

基于單深度圖像的三維手姿態估計是計算機視覺中的重要任務之一,在人機交互、虛擬現實、增強現實、醫學診斷和手語識別等多個領域的應用中都發揮著重要的作用[1~4]。隨著商用深度相機(如Microsoft Kinect、Intel RealSense、Leap Motion Controller等)精度的提升和成本的降低,基于深度圖像的三維手姿態估計任務取得了顯著進展[5~7]。然而,由于手的高度靈活性和手指之間的相似性,三維手姿態估計仍然面臨著一系列挑戰,其中包括手部自遮擋和同質外觀模糊性問題,限制了估計精度和算法效率的進一步提升[8,9]。

隨著深度學習的快速發展和其所表現出來的驚人能力,越來越多基于深度學習的手姿態估計方法被提出,這些方法大致可以分為兩類。a)基于回歸的方法,即直接利用全連接層回歸三維手關節坐標[10~13]。例如,Oberweger等人[11]采用卷積神經網絡實現手部位置的定位和特征提取,并通過全連接層回歸關節位置。然而,這種方法只是簡單地將深度圖像視為二維圖像,未充分挖掘深度信息。b)采用網絡生成熱圖,隨后通過一系列不可學習的信息聚合過程(如argmax運算或均值偏移估計)來推斷關節坐標[14~17]。如Moon等人[14]將深度圖像轉換為體素,以體素化數據作為輸入,然后通過三維卷積回歸熱圖。盡管這種方法在基于深度圖像的手姿態估計領域取得了一定成功,但信息聚合操作通常作為后處理步驟,并未納入訓練階段,導致網絡提取特征和估計結果之間存在差距。

為了避免上述問題并充分利用深度圖像的優勢,近期研究趨向于挖掘更多相關信息以提高方法的精度,這主要分為兩類方法。a)一類方法嘗試挖掘深度圖像所附帶的第三維信息,形成空間結構信息,從而彌補在從二維圖像中估計三維手姿態參數時可能存在的維度缺失問題[18~20]。然而,所有對空間信息的挖掘模塊都是網絡訓練的一部分,這可能導致誤差的積累,限制估計效果的提升。b)另一類方法則致力于利用更多視角下手姿態信息的豐富性,以減弱手自遮擋的影響[21,22]。這種方法類似人眼的特性,利用左右兩眼的視覺差異,人腦就可以推斷出物體的遠近信息。通過將手姿態投影到多個視角下,得到多視角下手姿態的特征,利用多視角信息的互補性來融合特征就能夠減弱由手自遮擋和手關節自相似性帶來的影響。Ge等人[21]利用這種方式將單視角深度圖像轉換到三個正交視角下,并用實驗證明了融合三個視角下的特征比使用原始視角更有優勢。

綜上所述,多視角下的特征融合能夠幫助解決手自遮擋等問題,提升手姿態估計任務的精度。然而,選擇哪些視角和多視角同時訓練導致性能降低成為了新的挑戰。為此,本文提出了一種基于視角統一的優化方法(unified view point,UVP),實現僅融合兩個視角下的深度圖像特征來提升手姿態估計的效果。對于輸入的單張深度圖像,提出視角轉換模塊將其轉換為另一個視角下的表征,以便實現雙視角下的特征融合。由于文獻[4]的實驗中指出偏向“正面”視角下的輸入深度圖像相比其他視角在手姿態估計中具有更好的效果,所以本文還提出了一種新的視角監督損失函數,監督視角轉換模塊統一生成“正面”視角下的深度圖像。最終,所有原始視角下的深度圖像被統一到“正面”視角后再輸入到后續的三維手姿態估計網絡中。由于這種方式還增加了輸入數據的共性,會更有利于網絡的學習,所以一定程度上也會提高手姿態估計的精確度和魯棒性。

本文的主要貢獻為

a) 提出視角轉換模塊,實現了對輸入圖像視角的轉換,并通過在ICVL[23]、MSRA[7]和NYU[24]數據集上的實驗證明了該模塊的有效性。

b) 提出視角標準化的建議,并通過損失函數量化后用于視角轉換模塊,實現轉換后視角的統一,同時通過實驗證明了該方法有效性。

c) 使用改進basic block等輕量化手段對視角轉換模塊進行改進,以實現模塊的高效性,并通過實驗證明了輕量化改進的效果。

本文提出的UVP方法可以集成到大部分目前已有的單深度圖像手姿態估計模型中,并提升其估計精度。這些貢獻共同為三維手姿態估計領域的研究和應用提供了新的思路和解決方案,為人機交互和深度學習方法的發展帶來了積極的影響。

1 相關工作

手姿態估計任務根據輸入模態可以分為基于RGB的方法[12, 16]和基于深度圖像的方法[21,22]。由于深度圖像在攜帶空間信息方面的優勢,基于深度圖像的三維手姿態估計任務近年來受到了越來越多的關注。鑒于所提方法也是基于深度圖像的,因此本文將主要聚焦于基于深度圖像的相關研究。

為了克服深度學習方法在手姿態估計中面臨的挑戰,一些研究嘗試從手關節關聯性和不同視角中獲得更多線索,以提高估計的準確性。這包括提取空間相關性的方法[19, 20, 25]和利用多視角下的信息互補的方法[12, 21~22, 26]。對于提取空間相關性的方法,主要是通過利用局部特征點與關節點的空間相關性來推斷出關節點的坐標。例如Huang等人[19]使用非因果自注意力機制捕捉關節點之間的結構相關性,并將捕獲的姿態相關性和逐點特征相關聯,從而推斷每個關節點位置。Cheng等人[20]提出多級網絡,該網絡首先提取手的全局特征和關節的局部特征,通過關節之間的空間相關性進行特征聚合,最后利用解碼器獲取關節點的位置。Rezaei等人[26]提出的多分支網絡分別提取了關節點附近像素和非關節點附近但相關的像素,生成它們對每個關節點的注意力特征圖,最后將特征圖融合以解碼出關節點的位置。這些方法在充分利用空間相關性方面取得了一定的成果,但受限于輸入數據都是單視角下的深度圖像,且部分深度圖像帶有明顯的深度噪聲[6],因而在數據較差的情況下會取得更壞的效果。對于這一挑戰,通過多視角下的特征融合可以有效緩解[9]。

最近的研究發現,利用多視角下的信息互補的方法在解決手部自遮擋和關節自相關性方面表現出了更好的魯棒性。通過充分利用多個視角下的信息,可以更好地處理手部在單一視角下的缺陷。Zheng等人[12]提出了一種可學習的跨視圖交互網絡,用以捕獲跨視圖特征,并利用多視圖交互結果去增強單目視圖的預測。但如果一個視角的錯誤被其他視角所“接受”,可能會導致錯誤在所有視角中傳播,從而影響整體性能。Ge等人[21]將深度圖像轉到點云后采集三個正交視角下深度圖像,然后將三個深度圖像都輸入網絡中訓練得到局部特征,最后利用融合模塊回歸手關節位置。但三張深度圖像同時訓練會大幅增加網絡的計算量,且文獻[4]的實驗表明“側面”視角下的深度圖像對手姿態估計幫助甚微。Chen等人[22]在所提單視圖估計方法的基礎上,通過級聯的方式輸入并融合多視圖特征,用以預測最終的手關節點位置。但這種方法依賴于同時從多個視角下采集的數據集,且多視角數據都要經過單視角估計網絡輸入特征,大大降低了估計效率。Cheng等人[25]提出了一種視角轉換方法,將輸入深度圖像投影到空間中多達25個固定視角上,然后從額外的置信網絡訓練所有視角的置信度,從中選擇置信度最高的3個用于后續手部姿態估計任務的訓練。這種方法雖然通過多個視角的信息互補,提高了網絡手部姿態的理解和建模能力。但將25個視角下的深度圖像都送入網絡中訓練明顯會增大網絡的負擔,從而降低網絡的效率。

本文方法受到上述基于多視角方法的啟發,將不同視角下采集到的輸入深度圖統一到“正面”視角下,并通過融合原始視角與“正面”視角下的特征,有效地減弱了自遮擋的影響,提高了估計的準確性。然而,本文方法在一些關鍵方面與以上方法存在本質的不同。首先,本文方法作用于單張深度圖像,通過網絡生成該深度圖像對應的“正面”視角,從而利用原始視角與“正面”視角下的信息互補性來提升模型的精度。與需要處理多視角多幀數據的方法不同,本文方法通過單一深度圖像就能實現對雙視角信息的有效利用,使得方法有更高的效率,在如虛擬現實人機交互場景中滿足低成本采集數據與高效處理數據的應用需求。其次,本文方法并非從一組固定視角中選擇有益于手姿態估計的視角,而是通過網絡自適應地訓練出“正面”的視角。這種自適應性訓練使得提出的模塊在處理不同場景和數據集時更具泛化性,能夠滿足實際場景中相機隨機擺放的需求。

2 方法

2.1 概述

基于深度圖像的三維手姿態估計任務是指對于給定的輸入深度圖像,通過提取其中的信息特征,估計一組預定義的手關節在相機坐標系中的三維位置。為此,本文提出了一種基于視角統一的優化方法。如圖1所示,首先,輸入的深度圖像經過深度學習網絡進行位姿估計,從中提取旋轉變換特征。接著,原始深度圖像被轉換為三維點云數據,并根據旋轉變換特征將點云渲染到目標視圖中。最后,經過變換的點云數據被還原為深度圖像,在融合從原始視圖提取的特征后被輸入到后續的三維手姿態估計網絡中。值得注意的是,引入的視角統一損失函數對生成的新視角下的深度圖像進行監督,將視角統一到“正面”視角下,這是因為在三維手姿態估計任務中,“正面”視角下的深度圖像通常能取得更高的精度[4]。通過視角的統一,能夠積極促進后續的手姿態估計網絡,因為網絡更容易捕捉輸入圖像的共性特征,從而減輕手關節自遮擋的影響,提高后續三維手姿態估計的準確性。

2.2 視角轉換模塊

本節將詳細介紹提出的視角轉換模塊,該模塊的目標是生成有益于手姿態估計的新視角下的深度圖像。受到文獻[21]的啟發,深度相機擺放位置不確定,從各種視角采集到的深度圖像可能不適合直接用于手姿態估計,因此轉換視角將有利于提升任務的精度。

a)旋轉變換特征的獲取。為了實現視角的轉換,首先需要以某種方式表示三維空間中的旋轉變換,本文選擇最常見、最簡單的旋轉變換表示方式之一的歐拉角作為旋轉變換依據。為了獲得旋轉歐拉角,本文引入了一種旋轉特征提取網絡,其結構如圖2所示。該網絡是在 HRNet[27]的基礎上進行改造的,因為HRNet的網絡結構與歐拉角的特性相近。

旋轉歐拉角的生效需要先約定旋轉軸的順序,例如按照x軸、y軸、z軸的順序進行旋轉。這種約定會導致前面的旋轉對后續旋轉產生單向影響,即繞x軸的旋轉結果會對后續繞y軸和z軸的旋轉產生影響。與此類似,HRNet的特征融合部分采用的下采樣融合操作也具有這種單向影響的特性。這種共性使得HRNet更適合進行旋轉歐拉角的訓練任務。因此,HRNet的上采樣部分被舍棄,以更好地適應這種單向影響性。

b)統一視角下深度圖像的生成。依據所獲得的旋轉歐拉角,可使輸入深度圖像從原始視角轉換到“正面”視角。首先,輸入深度圖像中的每一個像素會借助采集相機的內參矩陣進行轉換,生成相機坐標系下的三維點云數據,令所有數據點的位置都以三維坐標的形式表示(xc,yc,zc)。然后,利用歐拉角的轉換規則得到三維空間中的旋轉矩陣,旋轉矩陣描述了點云數據在三維空間中的旋轉變換。令Rx、Ry、Rz分別代表繞x軸、y軸和z軸的對應旋轉矩陣。本文約定外旋順序為z → x → y,所以得到最終的旋轉矩陣R為

R=Ry·Rx·Rz(1)

最后,將點云數據中的每個點都通過旋轉矩陣進行旋轉變換,將每個點的三維坐標向量與旋轉矩陣相乘即可得到旋轉后的新坐標(x′c,y′c,z′c):

所有點云數據點都利用旋轉矩陣R在三維空間中進行旋轉,因此其整體姿態不會改變,使關節之間的拓撲關系和空間關系一致,保證了轉換視角前后深度圖像中的手姿態的不變性。當網絡預估出手關節位置后,直接乘上旋轉矩陣R的逆矩陣R-1,就還原回了原始視角,并與原始視角下的標簽關節位置求損失誤差。最后,按照深度圖像的生成原理將旋轉后的點云數據轉換到像素坐標系上,生成新的深度圖像。由于這些操作都是簡單的矩陣運算,且可以通過GPU進行加速,所以對訓練效率的影響較小。整個流程的設計旨在確保輸入深度圖像在統一視角下的有效表示,以提高手姿態估計模型的性能和魯棒性。

c)基于單深度的三維手勢姿態估計。生成的新視角下的深度圖像可以被應用到手姿態估計方法中。在本文中,兩個視角下的深度圖像會分別經過卷積操作提取特征,并將特征進行融合后輸入后續網絡。本文選擇了A2J[13]回歸網絡作為后續三維手姿態估計網絡的骨干,因為它具有很高的運行效率和有競爭力的準確性。但是,在實際應用中,任何其他基于單深度圖像的三維手姿態估計模型都可以被用作后續手部姿態估計網絡。

2.3 旋轉變換特征網絡的輕量化

在上一節中提到為了適應旋轉特征而取消了HRNet的所有上采樣操作,這樣輸入的深度圖像通過多分辨率的特征提取與融合模塊,并通過最大池化層和1×1卷積輸出旋轉歐拉角。盡管這樣已經能夠獲得旋轉角度,但在訓練過程中觀察到,雖然提出的視角轉換模塊提升了估計精度,但效率有所下降,這主要是由于HRNet需要大量的計算。為了輕量化HRNet,本文采用了三個措施:

a)第一個輕量化措施是將HRNet的上采樣部分舍棄。該舍棄主要出于兩個原因:(a)為了模擬2.2節所提到的旋轉單向性影響;(b)為了輕量化整體模型,提高計算效率。

b)第二個措施是將HRNet中出現最頻繁的basic block 全部替換為以depthwise 卷積為基礎的多分支卷積組合(depthwise convs,DWConvs)。depthwise卷積是一種輕量級卷積操作,它在保持模型性能的同時減小了參數量和計算復雜度,有助于提升模型的輕量化程度。改進的 basic block 如圖2的右方灰色區域所示,其借鑒了MogaNet[28]的思想,對原本的HRNet中basic block進行了重新設計。具體而言,首先對輸入特征進行一次 depthwise 卷積操作,然后將卷積后的特征按照 channel 維度進行分割。分割后的特征分別形成兩個八分之一 channel 的部分、一個四分之一 channel 的部分以及一個二分之一 channel 的部分。接下來,對這四個部分的特征分別進行 depthwise 卷積操作,最后將它們按照 channel 維度進行融合。

c)第三個措施是減少HRNet的stage數量。減少網絡的深度通常會明顯降低計算復雜度,對于輕量化模型而言,能帶來直觀的效果。通過減少stage數量,可以在一定程度上減小模型的規模,同時確保了模型在三維手姿態估計任務上的性能。

這三個措施共同作用,使得HRNet在保持三維手姿態估計任務精度的同時,更輕量化、更適用于實際應用場景。這些改進的效果將在3.4節的實驗和結果分析中進一步驗證。

2.4 視角統一損失函數

通過坐標映射和視角轉換,已經能夠獲得新視角下的深度圖像。然而,為了找到有利于三維手姿態估計任務的新視角仍然需要優化模型,使其產生更為有效、有助于提升任務精度的深度圖像。

為了實現這一目標,本文使用兩個損失函數來對視角轉換模塊進行監督。第一個損失函數LJ的計算公式如式(3)所示,它衡量了平均每個關節之間的位置估計誤差。

本文還提出了另一個損失函數LS,旨在提供對視角的監督作用。受文獻[4]的啟發,“正面”視角下的深度圖像表現出更低的估計誤差。如圖3所示,展示了多個視角下手部的點云圖。觀察可以發現,相對其他視角,在“正面”視角下手的部分占據的面積最大,更能反映手的姿態布局信息。這是由于手掌的靈活度較低,占據整個手的大部分面積,且手指只能向內彎曲。相比之下,其他視角中手部分的面積較小,更容易出現手指之間的遮擋。基于這種現象,一種直觀的想法是求深度圖像中手部分的凸包面積,并期望凸包面積盡可能大,對應的損失函數公式為

其中:Areahand為手部分的凸包面積。

但是在后續實驗中發現該損失函數對網絡精度的提升效果不明顯,且對應的損失值曲線波動較大。從圖3可以看出,當手部分占深度圖像的面積盡量大時,其深度值的分布更加均勻,也即更加扁平。利用這一特點,本文提出利用手部分深度值的方差作為另一種損失函數:

最終的損失函數公式設計如下:

L=LJ+λLS(6)

其中:LJ是關節位置誤差的平均值;LS是用于監督視角的損失項。超參數λ用于調整兩個損失項的相對權重。本文將λ設置為0.5。

3 實驗結果及分析

3.1 實現細節

本文對輸入深度圖像的預處理方法進行了詳細設計。首先,從輸入深度圖像中裁剪出手部區域,然后將其大小調整為固定的 176×176。深度值經過歸一化處理,限定在 [-1, 1] 。為了進行數據增強,實驗引入了幾何變換,包括平面內的隨機旋轉、三維隨機縮放和三維隨機平移。

處理后的深度圖首先輸入到圖2所示的旋轉變換特征網絡中進行旋轉特征提取,并輸出歐拉角數值,歐拉角再轉換為旋轉矩陣;然后輸入的深度圖通過相機內參矩陣的逆矩陣生成點云數據,所有點云點的三維坐標值點乘旋轉矩陣實現三維空間中的旋轉,旋轉后的點云數據一方面通過視角統一損失函數監督轉換后視角為“正面”視角,一方面再利用內參矩陣將點云數據“映射”到XOY平面生成“正面”視角下的深度圖;原始深度圖和生成深度圖分別輸入到下游手部姿態回歸網絡中通過編碼器進行姿態提取,并通過求和的方式融合局部特征,其中“正面”視角下的特征比例為0.8,原始視角下的比例為0.2,融合后的特征最后輸入到解碼器得到三維手關節位置。

實驗在一臺配置為Intel i5-12400、16 GB內存、NVIDIA RTX3070顯卡的機器上進行模型的訓練和評估。模型基于PyTorch實現,使用Adam優化器,batch_size設置為20,初始學習率設置為5E-4,權重衰減設置為1E-6。模型是端到端可訓練的,通過最小化損失函數來進行訓練,從而讓模型更好地學習三維手姿態。

3.2 數據集和評價指標

a)ICVL[23]數據集。ICVL數據集包含來自10個不同受試者的手姿態數據,一共包括331 000個用于訓練的深度幀和16 000個用于測試的深度幀,每幀對應標注了16個手關節的真實值坐標。

b)MSRA[7]數據集。MSRA數據集包含從9個受試者采集的17個手勢的姿態數據,總共包括76 000個深度幀,每幀都標注了21個手關節的真實坐標。實驗中選擇其中8個受試者的數據進行訓練,并使用剩下一個受試者的數據進行測試。

c)NYU[24]數據集。該數據集包括72 000個用于訓練的深度幀和8 000個用于測試的深度幀。每個深度幀都標注了36個手關節,實際實驗中僅使用了其中14個手關節的子集。

d)評估指標。實驗使用平均每關節位置誤差和成功率這兩個主要的評估指標來度量所提出的方法在這些數據集上的性能。其中平均距離是計算所有關節的估計坐標和真實值坐標之間的平均歐幾里德距離,該指標衡量了估計值與真實值之間的整體差異;而成功率是計算滿足平均距離在某個距離閾值范圍內幀的數量占總幀數的比例。成功率指標衡量了模型在不同距離閾值下的性能,反映了對于不同精度要求的適應能力。

3.3 對比實驗

本節將所提方法與目前主流的方法進行了比較,這些方法包括將深度圖像轉換為點云進行姿態估計的方法HandPointNet[29]、NARHT[19]、HandFoldingNet[20]和Virtual View Selection[25];直接使用深度圖像進行姿態估計的方法DeepPrior++[11]、A2J[13]、Dense Reg[17]和DePOTR[30];改進熱圖信息聚合過程的方法AWR[26];多任務多分支手姿態估計方法CrossInfoNet[15]和TriHorn-Net[26];以及深度圖像體素化進行手姿態估計的方法V2VPoseNet[14]。實驗在ICVL、NYU和MSRA數據集上評估了方法的性能,結果如表1所示,表中的數據是各種方法在三個數據集上根據平均每關節位置誤差(mm)評估的結果。此外,由于本文方法只使用一張深度圖像用于網絡訓練,所以表1中有關Virtual View Selection[25]的數據是從25個候選視角中選擇1個視角下的深度圖像用于網絡訓練結果,而不是原文中將3個視角下的深度圖像都用于網絡訓練的結果。圖4、5分別顯示了每個關節的位置平均估計誤差,以及在一定誤差閾值下各方法的估計成功率。從表1可以發現,所提方法在ICVL和MSRA上取得了優于其他方法的結果,并在NYU上也取得了較高的精度。同時,本文在相同硬件環境且batch_size被設置為2時,和最新的方法比較了幀率,其中virtual view selection[25]的幀率為16.5,TriHorn-Net[26]的幀率為43.99,而本文方法取得了65.5的幀率(batch_size設置為20時,幀率為159.39)。圖6展示了本文方法與其他方法之間的定性結果比較,從圖中可以看到本文方法僅出現對部分關節點的估計偏向手輪廓的邊緣,而其他方法則出現了更嚴重的偏離手輪廓的情況。可以看出,本文的方法整體估計效果更好。

3.4 消融實驗

a)視角統一方法(UVP)的作用。為了驗證所提方法對現有模型估計精度的提升,并證明將深度圖像轉換為“正面”視角的有效性,本文選擇了3個基于單深度圖像的手姿態估計模型,并將視角統一模型嵌入這些模型中,以評估搭載了模型和未搭載模型的精度差異。該消融實驗在ICVL數據集上進行,實驗結果如表2所示。從表中可以明顯看出,搭載了視角統一模型的網絡表現出更高的精度,這表明所提方法在提升估計性能方面是有效的,并且將深度圖像轉換為“正面”視角確實有助于提高模型的精度。這個結果進一步證明了所提方法的實用性和泛化性,為單深度圖像手姿態估計任務提供了一種有效的性能增強手段。

b)輕量化的影響。在前述章節中詳細討論了取消上采樣、使用多分支depthwise卷積組合(DWConvs)以及減少stage的數量三種輕量化策略。為了深入了解這些改進對模型性能的影響,本文進行了詳細的消融實驗。

首先,本文評估了取消上采樣的影響。通過對擁有上采樣和去掉上采樣的網絡進行訓練,并利用每關節位置誤差來評估改進效果。訓練結果如表3所示,HRNet和HRNet-nUp分別代表取消上采樣前和取消后的模型。可以看到取消上采樣后,HRNet-nUp對應的每關節位置誤差減小,這說明去掉上采樣有助于模擬歐拉角的單向作用性,使網絡更適合輸出特性進行訓練,從而提高了訓練效果。

接下來,本文對比了替換basic block的差異。將傳統 HRNet的basic block替換為DWConvs,并分別對替換前后的網絡進行訓練,同樣使用兩個指標來衡量性能,最終結果如表3所示。其中HRNet-nUp-DWConvs代表取消上采樣和替換basic block的模型,可以發現替換后的模型相比僅取消上采樣的模型,精度得到進一步的提升,且參數量明顯減少。這是由于basic block只是簡單地使用普通卷積操作,而depthwise卷積相比普通卷積計算量更少,且多分支depthwise卷積能夠更多地關注于局部的特征融合。這表明DWConvs的應用在輕量化網絡結構、提高泛用性方面具有積極的影響。

由于本文僅需網絡訓練提取輸入數據的一種特征(旋轉變換數值),而原版HRNet[27]已被用于完成關鍵點檢測。此外,由于輸入深度圖像分辨率較小,不適合多次下采樣操作。因此,本文進行了實驗,以評估不同stage數量對訓練效果的影響。實驗結果如表3所示,表3中stage列代表stage數量的選取,其中1-4-3代表原版HRNet的設置,即stage2數量為1,stage3數量為4,stage4 數量為3。其他stage數量的模型名稱含義與此類似。從表中可以看出,當stage2數量為1且stage3數量為3時(stage:1-3),取得最佳的訓練效果。這是因為歐拉角有三個分量數據,所以三個分支的融合更貼合歐拉角的特性,從而提高了網絡的訓練效果。

所有的輕量化策略生效后,參數量從28.8 M顯著降低到1.5 M,并且在提高效率的同時還取得了最低的誤差,這說明輕量化策略是有效的。

c)視角統一損失函數的作用與選擇。為了更加有力地驗證將輸入深度圖像統一為“正面”視角深度圖像對估計的積極影響,本文進行了針對性的消融實驗,分別比較了未搭載損失函數監督的模型和搭載了視角統一損失函數的模型的性能。實驗結果如表3所示,HRNet-nUp-DWConvs-nLS代表取消上采樣、使用DWConvs且不使用任何視角統一損失函數時的模型,其stage數量配置為stage2數量為1,stage3數量為3(stage:1-3),與相同stage數量配置的模型HRNet-nUp-DWConvs相比,明顯可見搭載了以深度值的方差作為視角統一損失函數進行監督的模型取得了更高的精度。同時,本文還通過實驗比較了兩種視角統一損失函數之間的差距,結果如表3所示。其中HRNet-nUp-DWConvs-LS_t為使用凸包面積作為損失函數的模型,與相同stage數量配置的模型HRNet-nUp-DWConvs相比,顯然使用深度值的方差作為損失函數更加有效,本文猜測這是因為方差更容易求導,對梯度變化更敏感。總的來說,實驗結果更有力地證明了選擇“正面”視角,并在模型中使用相應的損失函數進行監督,有助于提高訓練效果,使模型更好地學到有利于手姿態估計的特征。

4 結束語

本文提出了一種稱為基于統一視角(UVP)的優化方法,通過將非“正面”視角下的輸入深度圖像轉換到“正面”視角,優化提升手姿態估計任務的性能。首先,提出了一個視角轉換模塊,該模塊能夠實現對輸入深度圖像視角的轉換。接著,通過專門設計的損失函數對該模塊進行監督,確保了轉換后的視角能夠被統一到“正面”視角。經過實驗證明,將輸入視角統一到“正面”視角下確實提升了手姿態估計任務的準確性。為了保證方法的效率,還采取了三種輕量化策略,有效地減少了模型的參數量。通過將所提模型應用于不同的基于深度圖像的手姿態估計網絡中進行實驗,驗證了所提方法的泛用性。在后續工作中,從表2的實驗數據中發現不同模型搭載UVP后估計效果表現出不同程度的提升,這可能是因為不同的網絡結構對視角統一后的特征發掘程度不同。因此,研究這種原因,并設計出更適合視角統一后進行手部姿態回歸的網絡模塊,將能夠進一步提升手關節估計的精度。

參考文獻:

[1]Doosti B. Hand pose estimation: a survey [EB/OL]. (2019-06-02). https://arxiv.org/abs/1903.01013.

[2]Erol A, Bebis G, Nicolescu M,et al. Vision-based hand pose estimation: a review[J]. Computer Vision and Image Understanding, 2007, 108(1-2): 52-73.

[3]Chen Weiya, Yu Chenchen, Tu Chenyu, et al. A survey on hand pose estimation with wearable sensors and computer-vision-based methods [J]. Sensors, 2020, 20(4): 1074.

[4]Yuan Shanxin, Garcia-Hernando G, Stenger B, et al.Depth-based 3D hand pose estimation: from current achievements to future goals[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2636-2645.

[5]鄒序焱, 何漢武, 吳悅明. 基于三級神經網絡的魯棒3D手姿估計[J]. 計算機應用研究, 2022, 39(3): 925-930. (Zou Xuyan, He Hanwu, Wu Yueming. Robust 3D hand pose estimation based on three-level cascade neural network[J]. Application Research of Computers, 2022, 39(3): 925-930.)

[6]Xu Chi, Cheng Li. Efficient hand pose estimation from a single depth image [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2013: 3456-3462.

[7]Sun Xiao, Wei Yichen, Shuang Liang, et al.Cascaded hand pose regression [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 824-832.

[8]張宏源, 袁家政, 劉宏哲, 等. 基于偽三維卷積神經網絡的手勢姿態估計 [J]. 計算機應用研究, 2020, 37(4): 1230-1233, 1243. (Zhang Hongyuan, Yuan Jiazheng, Liu Hongzhe, et al. Hand pose estimation using pseudo-3D convolutional neural network[J]. Application Research of Computers, 2020, 37(4): 1230-1233, 1243.)

[9]Li Rui, Liu Zhenyu, Tan Jianrong. A survey on 3D hand pose estimation: cameras, methods, and datasets[J]. Pattern Recognition, 2019, 93: 251-272.

[10]馬利, 金珊杉, 牛斌. 基于改進PointNet網絡的三維手姿估計方法[J]. 計算機應用研究, 2020, 37(10): 3188-3192. (Ma Li, Jin Shanshan, Niu Bin. 3D hand pose estimation method based on improved PointNet[J]. Application Research of Computers, 2020, 37(10): 3188-3192.)

[11]Oberweger M, Lepetit V. DeepPrior++: improving fast and accurate 3D hand pose estimation[C]// Proc of IEEE International Confe-rence on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2017: 585-594.

[12]Zheng Xiaozheng, Wen Chao, Xue Zhou, et al.HaMuCo: hand pose estimation via multiview collaborative self-supervised learning[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 20706-20716.

[13]Xiong Fu, Zhang Boshen, Xiao Yang, et al. A2J: anchor-to-joint regression network for 3d articulated pose estimation from a single depth image[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 793-802.

[14]Moon G, Chang J Y, Lee K M. V2V-PoseNet: voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscata-way, NJ: IEEE Press, 2018: 5079-5088.

[15]Du Kuo, Lin Xiangbo, Sun Yi,et al. CrossInfoNet: multi-task information sharing based hand pose estimation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 9896-9905.

[16]GeLiuhao, Ren Zhou, Li Yuncheng, et al. 3D hand shape and pose estimation from a single RGB image[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 10833-10842.

[17]Wan Chengde, Probst T, Van Gool L,et al. Dense 3D regression for hand pose estimation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5147-5156.

[18]Deng Xiaoming, Yang Shuo, Zhang Yinda, et al.Hand3D: hand pose estimation using 3D neural network [EB/OL]. (2017-04-07). https://arxiv.org/abs/1704.02224.

[19]Huang Lin, Tan Jianchao, Liu Ji,et al. Hand-transformer: non-autoregressive structured modeling for 3D hand pose estimation[C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer-Verlag, 2020: 17-33.

[20]Cheng Wencan, Park J H, Ko J H. HandFoldingNet: a 3D hand pose estimation network using multiscale-feature guided folding of a 2D hand skeleton[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11240-11249.

[21]Ge Liuhao, Liang Hui, Yuan Junsong,et al. Robust 3D hand pose estimation in single depth images: from single-view CNN to multi-view CNNs [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 3593-3601.

[22]Chen Liangjian, Lin S Y, Xie Yusheng, et al. MVHM: a large-scale multi-view hand mesh benchmark for accurate 3D hand pose estimation [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2021: 836-845.

[23]Tang Danhang, Jin Chang H, Tejani A,et al. Latent regression fo-rest: structured estimation of 3D articulated hand posture[C]// Proc of IEEE conference on computer vision and pattern recognition. Piscataway, NJ: IEEE Press, 2014: 3786-3793.

[24]Tompson J, Stein M, LeCun Y,et al. Real-time continuous pose recovery of human hands using convolutional networks[J]. ACM Trans on Graphics, 2014, 33(5): 1-10.

[25]Cheng Jian, Wan Yanguang, Zuo Dexin,et al. Efficient virtual view selection for 3D hand pose estimation[C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 419-426.

[26]Rezaei M,Rastgoo R, Athitsos V. TriHorn-Net: a model for accurate depth-based 3D hand pose estimation[J]. Expert Systems with Applications, 2023, 223: 119922.

[27]Sun Ke, Xiao Bin, Liu Dong,et al. Deep high-resolution representation learning for human pose estimation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 5693-5703.

[28]Li Siyuan, Wang Zedong, Liu Zicheng, et al.MogaNet: multi-order gated aggregation network [EB/OL]. (2024-02-16). https://arxiv.org/abs/2211.03295.

[29]Ge Liuhao, Cai Yujun, Weng Junwu,et al. Hand PointNet: 3D hand pose estimation using point sets[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8417-8426.

[30]Kanis J, Gruber I,Krňoul Z, et al. MuTr: multi-stage transformer for hand pose estimation from full-scene depth image [J]. Sensors, 2023, 23(12): 5509.

[31]Ge Liuhao, Liang Hui, Yuan Junsong, et al. 3D convolutional neural networks for efficient and robust hand pose estimation from single depth images[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1991-2000.

[32]Huang Weiting, Ren Pengfei, Wang Jingyu,et al. AWR: adaptive weighting regression for 3D hand pose estimation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 11061-11068.

主站蜘蛛池模板: 凹凸国产分类在线观看| 亚洲码在线中文在线观看| 沈阳少妇高潮在线| 国产91在线|日本| 2021天堂在线亚洲精品专区| 欧美a在线视频| 亚洲Aⅴ无码专区在线观看q| 亚洲男人在线天堂| 2020国产免费久久精品99| 久久www视频| 免费观看无遮挡www的小视频| 五月激激激综合网色播免费| 伊人天堂网| 91亚洲精品国产自在现线| 一级毛片无毒不卡直接观看| av一区二区人妻无码| 国产毛片高清一级国语| www.亚洲天堂| 国产激情无码一区二区免费| 欧美一区日韩一区中文字幕页| 无码一区中文字幕| 在线看AV天堂| 欧美成人午夜视频| 蜜臀AVWWW国产天堂| 精品综合久久久久久97超人该| 精品国产网站| 久久综合婷婷| 在线欧美国产| 日韩在线成年视频人网站观看| 亚洲天堂免费观看| 日本日韩欧美| 免费无码又爽又黄又刺激网站| 国产成人精品一区二区三区| 亚洲精品日产AⅤ| 5555国产在线观看| aaa国产一级毛片| 精品国产一二三区| 国产91视频免费| 成人午夜免费观看| 成人中文字幕在线| 无码又爽又刺激的高潮视频| 亚洲一级毛片在线播放| 欧美日韩另类国产| 人妖无码第一页| 99热最新在线| V一区无码内射国产| 特级aaaaaaaaa毛片免费视频| 夜夜爽免费视频| 亚洲成人一区二区| 国产欧美日韩专区发布| 国语少妇高潮| 亚洲国产午夜精华无码福利| 亚洲AV人人澡人人双人| 久久动漫精品| 熟女视频91| 国产国产人在线成免费视频狼人色| 爆操波多野结衣| 99久久精彩视频| 久久精品一品道久久精品| 亚洲国产精品日韩av专区| 九九久久精品免费观看| 久久久噜噜噜久久中文字幕色伊伊| 91在线激情在线观看| 国产成在线观看免费视频| 欧美19综合中文字幕| 99九九成人免费视频精品| 区国产精品搜索视频| 国产成人精品在线| 亚洲色图在线观看| 国产在线无码一区二区三区| 91无码视频在线观看| 精品人妻一区二区三区蜜桃AⅤ| 亚洲免费人成影院| 超清人妻系列无码专区| 国产视频入口| 777国产精品永久免费观看| 国产国产人成免费视频77777| 国产成人a在线观看视频| 97在线国产视频| 亚洲成人高清无码| 91精品情国产情侣高潮对白蜜| 国产免费网址|