999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務學習CNN輔助Transformer的手部mesh重建

2022-12-31 00:00:00謝蘇張孫杰王永雄顏婷麗
計算機應用研究 2022年12期

收稿日期:2022-04-03;修回日期:2022-05-20" 基金項目:國家自然科學基金資助項目(61673276,61603255)

作者簡介:謝蘇(1998-),男,江西鷹潭人,碩士研究生,主要研究方向為手勢姿態估計、人體姿態估計;張孫杰(1988-),男(通信作者),上海人,副教授,碩導,博士,主要研究方向為非線性控制、圖像處理(zhang_sunjie@126.com);王永雄(1970-),男,上海人,教授,博導,博士,主要研究方向為智能機器人與機器視覺;顏婷麗(1998-),女,吉林長春人,碩士研究生,主要研究方向為非線性復雜系統.

摘 要:針對當前手勢姿態估計算法未充分利用2D信息輔助3D手部mesh重建的問題,首次在手部Mask、2D熱力圖的基礎上提出引入RGB圖像的HOG特征圖,通過多任務學習CNN的框架對2D信息進行特征提取,并針對手的拓撲結構進行信息融合增強。為了解決Transformer encoder中的隱層embeddings維度一致性以及參數過大問題,設計了一種新的 MLP(multi-layer perception)模塊嵌入Transformer encoder之間,達到embeddings的數量漸進增加以及其維度漸進減少的目的,從而完成手部mesh精細化的預測。實驗結果表明該CNN與Transformer混合的新框架在 FreiHAND 和 RHD 數據集均取得了較好效果。

關鍵詞:手勢姿態估計;手部mesh重建;HOG 特征;多任務學習;Transformer

中圖分類號:TP391.41"" 文獻標志碼:A

文章編號:1001-3695(2022)12-050-3830-07

doi:10.19734/j.issn.1001-3695.2022.04.0161

Hand mesh reconstruction based on Transformer with assist of multi task learning CNN

Xie Sua,Zhang Sunjiea,Wang Yongxionga,Yan Tinglib

(a.School of Optical-Electrical amp; Computer Engineering,b.School of Science,University of Shanghai for Science amp; Technology,Shanghai 200093,China)

Abstract:Aiming at the current hand pose estimation which doesn’t fully use 2D information to assistance 3D hand mesh reconstruction,this paper further introduced HOG feature of the RGB image based on the use of hand Mask and 2D heatmaps.This paper designed the framework of multi task learning CNN to extract the 2D information,and used the topology of the hand to fused the relevant information.In order to solve two problems:the consistency of hidden embeddings dimensions in Transformer encoder as well as requires heavy computational resources,the model introduced a new MLP(multi-layer perception) module into transformer encoder to increase the length of embeddings and decrease the dimensions of embeddings,thereby the hand mesh was completed in the way from coarse to fine.The proposed new method has achieves better results in two FreiHAND and RHD datasets.

Key words:hand pose estimation;hand mesh reconstruction;HOG feature;multi task learning;Transformer

0 引言

手憑借著強大的機動性和靈敏性成為人類日常生活中使用最頻繁的器官之一,主要用來與外界環境進行互動、表達人類情感等等,被稱為“人類外部的大腦”。手物交互的姿態估計是實現沉浸式人機交互體驗的重要基礎[1,2],可以應用于 VR(virtual reality)、AR(augment reality)以及元宇宙中。目前基于深度學習的單目 RGB 圖像2D、3D 關節點的手勢姿態估計已取得了良好的性能,但是2D、3D 關節點的信息難以完全還原手的全部信息,近年來受到3D 計算機圖形學提出的用多邊形網格(mesh)來進行三維物體重建[3]的影響,手勢姿態估計開辟三維手部mesh重建的新分支。基于mesh的手勢姿態估計不僅包含了豐富的3D手勢關節點的信息,還包含有手的姿態形狀、紋理、明亮程度等,因此可以完整地還原手部的運動姿態。然而由于手勢的關節自由度高、左右手的高度相似性、雙手或者手與物體的遮擋問題以及RGB圖像固有的深度和尺度模糊性等問題,基于RGB圖像的手部mesh重建是一個亟待解決且具有挑戰的任務[4~6]。基于深度學習的手部mesh重建或者3D姿態估計的方法常用2D、3D等信息作為監督。比如文獻[7]利用深度圖轉換為三通道圖像使用三級神經網絡進行3D 手勢估計;Ge等人[8]利用深度圖像生成的3D點云作為網絡的輸入,針對手的拓撲結構改進PointNet;Iqbal等人[9]將由編解碼網絡生成的中間隱層熱力圖特征和深度特征融合為2.5D表征進而預測手勢的3D姿態;同樣Moon等人[10]利用3D點云信息使用V2V-PoseNet進行體素到體素的預測;Chen等人[11]利用手部Mask和2D熱力圖的信息以及3D mesh標簽實現了相機坐標下手部mesh的估計,文獻[12]提出通過高分辨率的RGB圖片以圖像到圖像的形式生成UV圖像,分別使用改進型U-Net和SRCNN(super resolution CNN)來預測UV圖進而通過匹配算法合成手部mesh。

當前的大多數手勢數據集的2D、3D標簽的標注方式一般采用人工標注、機器標注以及兩者相互結合的方式,但這些方法標注的精度是有限的,特別是復雜手勢的3D關節點以及手部mesh的標注。上述提到的3D點云信息以及高分辨率的UV圖等也存在內存占用大或者冗余性過大的問題,而原始圖像所提供的信息是完備精確的,因此可以考慮從原始RGB圖像的HOG特征入手,將其作為一種新的2D信息來輔助手部mesh的重建。2020年ViT[13]掀起了視覺領域的Transformer熱潮,但經典的ViT通過不斷的堆疊Transformer塊形成柱式結構,而非CNN的方式學習層次化的特征,而且在網絡前向傳播時embeddings的數量和維度均不改變,因此Heo等人[14]提出將CNN中的pooling層引入ViT網絡,構建embeddings數量減少4倍、維度增大2倍的PiT網絡結構;Transformer在人體姿態估計和手勢姿態估計領域也取得了一定的進展,傳統Transformer encoder中存在隱層embeddings維度一致性問題,而手勢姿態估計的輸出embeddings為3D關節點(21,3)或者mesh頂點(778,3),因此文獻[15,16]采用Transformer的輸出加上FFN層(feed forward neural network)或者在Transformer encoder之間加上全連接層實現embeddings的維度一步或者逐步地降維。但文獻[15,16]基于Transformer的方法仍然存在著參數量過大的問題,本文在對Transformer encoder的embeddings維度進行漸進降維的基礎上,將embeddings的數量以類似的方式進行漸進升維,使得Transformer的輸入embeddings的數量大大減少,提高整體網絡的效率并實現以coarse-to-fine的方式對手部mesh不斷優化。

針對上述存在的問題,本文提出了一種新的基于CNN和Transformer的混合框架,主要創新和貢獻如下:

a)本文首次將HOG特征引入到基于深度學習的手部mesh重建領域,提出了一種基于手部Mask、HOG特征以及2D熱力圖的多任務學習模塊,設計了2D信息交叉增強模塊來融合不同任務輸出的有效特征信息,為后續手部mesh重建提供更豐富的2D信息特征。

b)通過Grid Mask數據增強方式線性擦除RGB圖像中的像素點,來模擬手與物體或者手與手之間的遮擋情況,以提高網絡模型的魯棒性。

c)從人類手的生物學拓撲結構以及正逆運動學角度出發,提出使用HOG、Mask的輪廓紋理信息以及2D熱力圖的關節點位置信息對五個指尖關節點和手腕關節點進行2D信息增強。

d)為解決Transformer encoder隱層embeddings維度的一致性以及參數量大的問題,提出使用ENUDS_MLP(embeddings number upsampling dimensionality subsampling MLP)模塊嵌入到Transformer encoder之間實現手部mesh的coarse-to-fine式重建。

1 本文方法

該工作的目標是通過對多個2D視覺信息分布式進行特征提取,使用解碼器預測輸出相應的2D信息對原始RGB圖像進行信息增強來進一步提取更豐富的特征,最后使用帶有ENUDS_MLP模塊的Transformer encoder重建手部mesh并得到21個3D關節點。本文網絡框架為CNN與Transformer的混合框架,如圖1所示,主要為2D多任務學習、MTFF信息增強、3D重建三個模塊。

1.1 基本知識

本文使用如圖2(a)所示的21個關節點手部模型,該模型具有較好的普適性。本文使用的手部mesh是由778的頂點組成,每個頂點包含了如顏色、法向量和紋理坐標等信息,由頂點組成線進而形成多邊形網格的mesh,其示例如圖2(b)所示。手勢3D關節點預測以及mesh重建的任務目標是:從包含手部的RGB圖像中預測出mesh的頂點坐標以及21個3D關節點坐標。

1.2 引入 HOG 特征

HOG(histograms of oriented gradients)特征是一種在局部區域檢測梯度和邊緣方向的特征描述符,其首先對圖像進行歸一化,使用梯度濾波器來計算圖像中各個像素的梯度的幅度和方向,然后對周圍一定數量的像素點組成的cell(細胞單元)以及由相鄰細胞單元組成的block(塊單元)進行統計得到梯度直方圖特征。傳統的機器學習中,梯度直方圖特征在行人檢測[17]中取得突破性成果;Wei等人[18]將傳統的手工特征HOG首次引入深度學習領域的視頻自監督預訓練;文獻[19,20]指出2D信息例如手部Mask、2D熱力圖可以有效幫助回歸3D手勢姿態和mesh重建。

受以上觀點的啟發,本文在手勢 Mask和2D熱力圖的基礎上進一步提出將HOG特征作為2D的監督信息之一,相比于3D點云數據、體素信息、高分辨率的UV圖,HOG特征具有內存占用小、計算速度快以及由圖像生成的算法簡單高效等優點。如圖3所示為 FreiHAND數據集中圖像、Mask標注以及本文制作的HOG特征圖標注,由圖3第二列和第三列可以看出Mask和HOG均注重關注手勢的邊緣信息,為網絡模型提供了手的輪廓性位置信息,有利于提高網絡的效率和精度。但是手部Mask在手指全部彎曲狀態下會導致部分關節紋理信息丟失,而且人工標注的Mask存在精度低甚至錯誤的情況,如圖3第一行Mask列方框區域所示;而HOG特征通過算法對每個像素進行計算統計,因而包含了更多的局部信息;同時HOG特征具有圖像的形狀不變性和光度抗干擾性,如圖3第一行所示,HOG特征對光度顏色變換具有較好的魯棒性;當存在手與物交互的情況,如圖3第三行所示,物體的HOG特征也有助于對手的姿態進行約束性確定。因此將HOG特征與Mask相結合可以實現對整體手勢輪廓和局部彎曲關節點的全部紋理信息進行捕獲,并可以有效糾正由于人工標注Mask帶來的誤差問題。

1.3 2D多任務學習模塊

假設bs為輸入網絡訓練時的batchsize,則輸入圖像維度為bs×3×224×224,上述Mask、HOG特征圖以及2D熱力圖三種2D信息均使用ResNet18作為編碼網絡來提取低層至高層的特征 F1~F4,分別為經過圖4所示的Mask_HOG decoder和heatmaps decoder得到預測的Mask、HOG、2D熱力圖以及由Mask和 HOG經過信息增強生成的權重系數圖,記為I_mask(bs×1×112×112)、I_hog(bs×1×112×112)、I_heatmaps(bs×21×112×112)和I_weight(bs×1×112×112)。

Mask_HOG decoder模塊如圖4所示,該模塊的輸入為經過編碼器輸出得到的Mask和HOG各四個高低語義特征,首先分別將Mask和HOG的高級特征F4通過MFCSA(multiple features cross self-attention)模塊后得到各自的交叉注意特征與上一層 F3特征首先進行concat拼接,后經過起降維作用的conv卷積層進行特征融合作為下一階段的輸入,其內部結構將在1.4節詳細闡述,循環3個MFCSA模塊和1個MFCSA_C模塊,該過程張量的維度變化過程如圖4所示,最終得到輸出張量大小分別為bs×64×112×112的中間特征以及通過MFCSA_C模塊中的1×1卷積、sigmod激活函數計算后上采樣為bs×1×112×112的權重系數圖,中間特征再經過1×1卷積分別得到Mask和HOG的預測結果。heatmaps decoder結構與Mask_HOG decoder類似,輸入為heatmaps和HOG的相應特征,將輸出端的1×1卷積輸出轉換為21×112×112對應21個關節點的熱力圖。

1.4 Mask模擬遮擋

由于手勢姿態估計存在著雙手交互以及手與物交互的情況下的遮擋問題,如何提高網絡對遮擋部分關節點的預測是關鍵的一步。文獻[18,21]均對輸入的像素進行隨機部分擦除,在圖像修復和視頻自監督預訓練取得了 SOTA 效果;Huang等人[22]提出AID(augmentation by information dropping)數據增強手段運用于人體姿態估計;Lin等人[16]提出使用Transformer框架進行手勢mesh重建,并借鑒自然語言處理領域的MLM(masked language modeling)思想將Transformer的輸入embeddings進行隨機掩碼來模擬手勢遮擋情況。不同于上述方法,本文提出使用Grid Mask[23]數據增強的方法對圖像的部分像素進行線性遮擋,起到擦除部分手的關節點信息來模擬手勢遮擋情況,使得網絡在真實標簽的監督下學習利用周圍有效信息對遮擋部分的關節點進行預測。

1.5 2D信息交叉注意以及多任務特征融合

為了增強原始圖像的手勢紋理信息以輔助后續3D重建預測手部mesh和3D關節點,本文設計了2D信息交叉注意以及多任務特征融合模塊。如圖5所示,MFCSA_C模塊為對多任務的特征進行交叉注意力增強模塊。以Mask_HOG decoder為例,將Mask和HOG的特征記為Fa、Fb,該模塊首先通過concat將兩個特征進行拼接,圖5中1×1卷積和sigmod激活函數的作用分別為通道降維、計算得到特征大小為1×W×H的中間權重系數圖A;接著采用兩個和為1的權重系數分別對原始特征進行像素級相乘,即用不同的空間注意力作用于兩者原始特征,達到在動態保留不同原始特征的有效紋理信息的同時,為后續上采樣2倍后相加實現兩者內在紋理信息的交叉增強的目的,該操作過程見式(1)。

Up(FaA)+Up(Fb(1-A))(1)

其中:表示哈達瑪積;1-A表示使用全1矩陣減去中間權重系數圖A。MFCSA_C 模塊兩個輸出分別為兩個經過空間注意力的特征上采樣2倍后再張量相加得到的中間特征、由1×1卷積和sigmod 激活函數得到的中間權重系數圖A上采樣2倍作為交叉增強生成的權重系數圖I_weight。MFCSA模塊則直接輸出經過空間注意力的特征再上采樣2倍后的兩個交叉注意特征作為后續階段使用。

有研究者以手的生物學的拓撲結構為出發點對網絡進行特定的設計,Chen等人[24]提出將手視為五分支的樹型結構,使用Pose-REN網絡對每個關節點獨立的使用全連接層預測,接著分層次的連接起來形成3D手勢姿態;文獻[19]認為對手部2D關節點熱力圖進行分組的方式可以更有效地表明2D關節點之間的語義關系;文獻[25]提出一種探索人體關鍵點之間關系用于強化結構特征的方法;文獻[16]認為人體可以看成連接體結構,其內部關節點可以由末端關節點根據逆運動學原理估算出來。受以上觀點啟發,本文認為可以結合2D熱力圖、Mask以及HOG特征的關節紋理和位置信息進行信息增強處理手部的指尖(末端關節點)和手腕(根關節點)共六個關節點,從而提高整體關節點的預測精度。為了將Mask、HOG、權重圖、2D heatmaps以及權重圖的特征進行有效融合,本文提出了MTFF(multi-task-feature fusion)模塊,具體做法如下:首先在融合2D 熱力圖中時將五個指尖和手腕關節點的權重設置為1,其他關節點的權重設置為0.8,來對末端關節點和根關節點進行位置信息增強;接著用2D 信息中的Mask和 HOG 豐富的手部邊緣紋理信息來進一步加強手勢末端關節點語義關系。其計算方法如式(2)所示(式中i=0,4,8,12,16,20表示手腕和指尖末端關節點,Cat表示張量拼接,表示哈達瑪積)。經過MTFF模塊融合輸出F_Inter維度為bs×6×112×112,如圖6所示。

Cat[RGB,I_enweight,I_mask,I_hog]

其中:I_enweight=I_weight(∑20i=0a·Ii_heatmaps)

(當i=0,4,8,12,16,20,a=1;否則a=0.8)(2)

通過使用2D heatmaps手工設置關節點權重及用Mask和HOG提供的邊緣紋理信息自適應關注結合關節點的方法具有對手勢姿態預測的強魯棒性。

1.6 3D重建模塊

對于2D模塊輸出的包含豐富關節點信息的F_Inter,本文采用ResNet50作為編碼器提取高級語義特征,輸出為F_Mesh(bs×256×14×14)。傳統方法大多采用MANO模型的方法輸出MANO模型的形狀參數(shape)和姿態參數(pose),但是該方法往往具有高度非線性,而手部mesh包含大量的頂點,并且Transformer的多頭注意力機制可以很好地建立mesh頂點之間的關系。文獻[16]指出的是在人體部分關節存在遮擋情況下,Transformer具有更好的全局交互能力,可以充分利用全局和局部信息交互能力解決遮擋問題。本文參考METRO模型[16]進行輕量化以及新模塊設計,并受Ge等人[26]使用圖卷積網絡(GCN)對手的mesh網格實現由粗略到精細優化啟發,本文提出如圖7所示的帶有ENUDS_MLP的Transformer encoder,整個框架稱為ENUDS_Former,實現手部mesh重建以及3D關節點的預測。

為進行網絡輕量化設計,首先將F_mesh轉換大小為(bs×196×256),196近似等于將MANO模型的778頂點下采樣4倍,相比于METRO模型大大減少了輸入的維度,達到降低計算量和減少冗余性的目的,位置編碼為原始ViT[13]使用的正余弦函數。在ViT的encoder中,單個embeddings輸入的大小為二維矩陣(N×C),N表示embeddings的數量,C表示單個embeddings的維度,該模型設計中embeddings的維度為超參數,在所有Transformer encoder層中均為固定值,即隱層embeddings維度一致性。不同于METRO提出在Transformer encoder中加入漸進線性降維層解決隱層embeddings維度一致性問題,本文提出的ENUDS_MLP模塊作用是在減少embeddings維度的同時上采樣embeddings數量,經過3個帶有ENUDS_MLP模塊的Transformer encoder后,最后得到embeddings的大小為(bs×778×3),即組成了MANO模型778個三維頂點,其中embeddings數量變化過程為194→388→776→778,embeddings維度變化為256→32→4→3,該模塊使用兩個全連接層實現embeddings數量和維度的變化。圖7左側為通過ENUDS_MLP實現mesh的coarse-to-fine方式可視化結果,由于embeddings的維度難以可視化,均以紅點表示,將mesh通過預定義的轉換矩陣得到手勢3D關節點。

2 損失函數

為了訓練整個CNN和Transformer的混合結構,本文對CNN和Transformer的輸出結果進行有監督和自監督的方式來減少預測值和真實值的誤差并加快網絡的收斂速度。對于數據集D={Ii,i,i3D,i2D,,i,i}T,T表示數據集圖片的數量,上橫線表示真實值,I∈Euclid Math TwoRApw×h×3表示原始RGB圖像,∈Euclid Math TwoRApm×3表示MANO模型的頂點真實坐標,用m表示頂點個數778,3D∈Euclid Math TwoRApn×3表示3D關節點真實坐標,用n表示關節點的個數21,2D∈Euclid Math TwoRApn×w×h×3表示2D關節點真實熱力圖,∈Euclid Math TwoRApw×h×3表示圖片中手部剪影Mask圖,∈Euclid Math TwoRApw×h×3表示手部的HOG特征圖。

本文使用各個損失函數公式如下:BCE表示二值交叉熵,除mesh法向量和mesh邊長外其余均為L1正則化。

首先定義2D分支相關損失函數,分別為Mask、HOG、heatmaps三者的損失函數,組成L2D,如式(3)~(5)所示。

Lmask=BCE(M,)(3)

Lhog=BCE(H,)(4)

Lheatmap=1n∑n1‖J2D,2D‖1(5)

其次定義在三維空間中,關節點和mesh定點的相關損失函數,組成L3D,如式(6)~(9)所示。

L3D joint=1n∑nj=1‖JregV-3D‖1(6)

Lverts=1m∑nj=1‖V-‖1(7)

Lnorm=∑K∈F ∑(a,b)∈K|Va-Vb‖Va-Vb‖·nk|(8)

Ledge=∑K∈F ∑(a,b)∈K|‖Va-Vb‖2-‖a-b‖2|(9)

其中:Jreg∈Euclid Math TwoRApm×n表示由mesh生成3D關節點的矩陣;Va、Vb表示頂點V上第a個和第b個頂點坐標;F表示MANO模型mesh的真實表面網格面;nk表示F的法向量;Lreg3D joint表示由預測的mesh通過Jreg矩陣生成的3D關節點與真實3D關節點之間的損失函數;Lverts表示預測的mesh與真實mesh各個頂點坐標之間的損失函數;為了使得生成的mesh更加逼真光滑[27],使用Lnorm、Ledge對mesh的表面網格面進行優化。

由于2D關節點、Mask、HOG以及heatmaps與3D中的關節點和mesh是手在不同空間的表現形態,所以兩種形態之間必然有類似的結構性質。為了使得2D、3D保持結構的一致性,本文使用Lrenmask、Lrenhog表示由預測的mesh渲染成Mask和HOG圖與對應真實值之間的損失函數;取預測的2D熱力圖的中各通道的最大值作為2D關節點,用Lproj2D joint表示由3D關節點通過正交投影矩陣K生成的2D關節點與由熱力圖生成的關節點之間的損失函數,如式(10)~(12)所示。

Lrenmask=BCE(Mren,)(10)

Lrenhog=BCE(Hren,)(11)

Lproj2D joint=1n∑nj=1‖KJregV3D-max(2D)‖1(12)

為了使模型達到較快的收斂速度,用超參數來平衡誤差的范圍,因此總的損失函數見式(13)。

Lall=Lmask+aLhog+bLheatmap+L3D joint+

Lverts+cLnorm+dLedge+Lproj2D joint+Lrenmask+Lrenhog(13)

其中:a=0.5,b=2.0,c=d=0.1。

3 實驗與評價指標

3.1 數據集

本文使用的手勢數據集為FreiHAND和RHD,FreiHAND數據集包含13 024張的訓練集和3 960張測試集,其中含有訓練集的真實標簽為圖片Mask、3D關節點坐標、MANO模型參數、相機內外參數。由于缺少本文所需要的2D關節點熱力圖、HOG特征,本文通過對訓練集圖片使用文獻[16]提出的梯度直方圖算法生成手部HOG特征圖;再使用相機參數將真實標簽世界3D關節點坐標轉換為RGB圖像中的2D關節點坐標并進行高斯模糊化得到2D關節點熱力圖。RHD數據集為合成數據集,包含41 258個訓練樣本和2 728個測試樣本,本文使用該數據集來進行模型泛化能力測試。整個網絡模型的輸入為圖像以及相應的數據增強圖像,并裁剪大小為224×224,其中數據增強的方法包括旋轉、縮放變形、顏色抖動以及Grid Mask。

3.2 實驗細節

本文使用PyTorch進行實驗,使用ImageNet數據集的預訓練模型初始化多任務學習的編碼主干網絡以及3D編碼網絡的ResNet,Transformer Encoder采用Xavier初始化的方法。采用初始學習率為10-4的Adam優化器,訓練batch size為24,訓練周期為100 epoch,訓練到40和80 epoch時學習率乘以0.1。由于Mask和HOG在80 epoch時非常小,將這兩者的損失函數值置為0。本文所提出的框架在帶有3080Ti的Ubuntu 18.04操作系統運行。數據處理和數據增強見3.1節。

3.3 評價指標

本文在定量分析中使用以下指標:

a)MPJPE/MPVPE(mean per joint/verts position error):這兩個指標用來衡量每個關節點或者mesh頂點的位置坐標在歐幾里德距離(mm)下與真實值的誤差。

b)PA-MPJPE/PA-MPVPE(Procrustes analysis mean per joint/verts position error):該指標通常用于三維重建,是上述指標的改進型,在計算預測值和真實值的誤差前,使用普氏分析方法(Procrustes analysis)[28]對齊,從而解決了由于三維模型旋轉和平移帶來的尺度問題。

c)3D PCK(3D percentage of keypoint):該指標是在給定誤差閾值下,以每個關節點的真實坐標值作為球心,以給定閾值為半徑組成球體,預測的關節點坐標值在球體內占所有預測關節點的百分比。

d)F-scores5/F-scores15:該指標是在給定距離閾值(5 mm或者15 mm)下,由預測值和真實值組成的兩個關節點集合之間的召回率和精度計算調和平均值得來。

4 消融實驗

本章針對本文提出的HOG特征圖、2D信息增強模塊、Grid Mask數據增強、ENUDS_MLP 模塊這些創新改進點進行消融實驗分析。表1第一行表示為baseline,采用雙分支結構分別預測Mask和熱力圖,并使用簡單的concat連接兩者輸入到ResNet50提取特征,最后使用METRO模型[16]中的Transformer encoder模塊預測mesh和手勢的3D關節點,得到了PA-MPJPE和PA-MPJVE結果為7.5 mm和7.7 mm。

2D信息交叉增強模塊作用:該模塊包括1.5節提到的MFCSA和MTFF模塊。在baseline的基礎上,將Mask和熱力圖進行信息融合增強,結果如表1第二行,可以看出關節點和頂點的誤差均減少近1 mm,表明融合Mask紋理信息有助于確定手的輪廓位置;而后融合HOG特征后進一步提高了效果,說明這兩個2D信息模塊能夠融合有效的紋理信息,同時去除了無效信息的干擾。

HOG特征圖作用:由表1第三行可以看出簡單地加入HOG特征反而增大了關節點和頂點的誤差;而繼續加入2D信息增強模塊后,如表1第六行所示,效果得到了大幅度提升,說明單純加入HOG特征會造成了信息冗余,進一步說明2D信息增強模塊的對紋理信息的有效提取能力,以及HOG特征對局部彎曲關節點的定位提供了更多紋理信息,進一步增強對末端關節點的定位,起到更充分地結合與手交互物體的信息輔助手勢的確定作用。

Grid Mask數據增強作用:如表1第四行所示,加入Grid Mask數據增強方式同樣造成了網絡性能的降低;而在引入HOG特征并添加2D信息增強模塊后才起到正作用。原因可能在于通過擦除像素點模擬遮擋情況造成了部分關節點信息的丟失,引入HOG特征和2D信息增強模塊則通過信息融合的方式彌補了丟失的信息,此時該數據增強手段起到了進一步提高了網絡整體魯棒性的作用。

ENUDS_MLP模塊作用:baseline中輸入維度為(778,2051),為使得輸出(778,3)維度的mesh頂點,采用在最后一層Transformer encoder后加入MLP層起到將輸入維度降維作用;本文方法采用帶有ENUDS_MLP模塊的Transformer encoder后,其輸入維度為(196,256),可以看出采用逐步增加embeddings數量并減少其維度的方法大大減少了計算參數量。表1第五行和第八行均表明該模塊可以顯著減少頂點和關節點的誤差,結合上述四種方法后得到了PA-MPJPE和PA-MPJVE結果均減少近4 mm,表明通過引入HOG特征并進行信息增強來輔助Transformer以coarse-to-fine的方式優化手部mesh重建更加有效。

5 定性分析與定量分析

表2展示了本文方法與一些SOTA(state of the art)方法比較,包括提出FreiHAND、YouTubeHand數據集所使用的方法以及采用線素Lixel方法的I2L-MeshNet和2021年提出的CMR方法,其中I2L-MeshNet方法采用了手勢框作為輔助信息,結果表明本文提出的采用CNN與Transformer混合的框架在無須手勢邊框的信息輔助下取得了更好的結果。

同時為了驗證本文方法的魯棒性,使用本文提出的網絡模型在RHD數據集上進行微調實驗,由于RHD的數據集沒有提供mesh頂點的真實值,將本文的ENUDS_Former輸入輸出改為3D關節點并進行相關改動,在不考慮mesh的相關損失函數的情況下,與其他方法的對比結果如圖8所示。可以看出該網絡模型在3D PCK指標下優于其他方法,同樣取得了很好的泛化效果。圖9(a)~(c)為本文網絡模型在FreiHAND數據集與開源代碼I2L-MeshNet方法進行可視化比較的結果,可以看出本文方法所得到的mesh更加真實光滑,在手物交互場景中具有更好的預測能力。圖9(d)(e)為RHD數據集以及作者拍攝的包含手物交互以及場景亮度變化的情況下的圖片測試結果展示圖,結果表明本文方法具有較好的魯棒性。

6 結束語

為了充分利用2D信息來輔助3D手部mesh重建任務,本文首次引入HOG特征作為2D信息之一,并使用多任務學習的框架對2D信息進行特征提取融合到原始圖像中實現信息的增強;提出使用Grid Mask的數據增強來模擬雙手交互以及手與物交互的遮擋問題;針對手的特殊的拓撲結構設計了MTFF信息融合增強模塊;通過實驗證明本文提出帶有ENUDS_DMLP模塊的Transformer encoder框架可以更好地實現mesh精細化的預測。雖然本文提出的手部mesh重建框架以及近年相關方法均取得了較好的結果,但是實際運用部署到VR、AR應用中仍存在以下難點:a)本文包括當前大多數手勢姿態估計或者手部mesh重建的算法均假設相機的內外參數為已知條件,采用弱透視相機模型是一種可行方法,但實際運用效果仍待提高;b)目前針對視頻流的手部mesh重建較少,對于快速變化的手勢姿態,往往存在預測誤差過大的問題;c)在VR、AR運用中不可避免地存在多人雙手交互以及手與物交互而導致的左右手判別問題、遮擋問題以及交互物體的預測問題。因此后續工作考慮針對相機內外參數、多人雙手交互以及手與物交互問題并針對視頻流三大方面展開研究;方法上則可以進一步向弱監督、無監督的學習方式進行深入研究。

參考文獻:

[1]Sarma D,Bhuyan M K.Methods,databases and recent advancement of vision-based hand gesture recognition for HCI systems:a review[J].SN Computer Science,2021,2(6):1-40.

[2]Tang Xiao,Wang Tianyu,Fu C W.Towards accurate alignment in real-time 3D hand-mesh reconstruction[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11698-11707.

[3]Wang Nanyang,Zhang Yingda,Li Zhuwen,et al.Pixel2mesh:generating 3D mesh models from single RGB images[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:52-67.

[4]王麗萍,汪成,邱飛岳,等.深度圖像中的3D手勢姿態估計方法綜述[J].小型微型計算機系統,2021,42(6):1227-1235.(Wang Liping,Wang Cheng,Qiu Feiyue,et al.A survey of 3D hand estimation methods in depth images[J].Journal of Chinese Computer Systems,2021,42(6):1227-1235.)

[5]張繼凱,李琦,王月明,等.基于單目RGB圖像的三維手勢跟蹤算法綜述[J].計算機科學,2022,49(4):174-187.(Zhang Jikai,Li Qi,Wang Yueming,et al.Survey of 3D gesture tracking algorithms based on monocular RGB image[J].Computer Science,2022,49(4):174-187.)

[6]Huang Lin,Zhang Boshen,Guo Zhilin,et al.Survey on depth and RGB image-based 3D hand shape and pose estimation[J].Virtual Reality amp; Intelligent Hardware,2021,3(3):207-234.

[7]鄒序焱,何漢武,吳悅明.基于三級神經網絡的魯棒3D 手姿估計[J].計算機應用研究,2022,39(3):925-930.(Zou Xuyan,He Hanwu,Wu Yueming.Robust 3D pose estimation based on the three levels of neural network[J].Application Research of Computers,2022,39(3):925-930.)

[8]Ge Liuhao,Cai Yujun,Weng Junwu,et al.Hand PointNet:3D hand pose estimation using point sets[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8417-8426.

[9]Iqbal U,Molchanov P,Gall T B J,et al.Hand pose estimation via latent 2.5 D heatmap regression[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:118-134.

[10]Moon G,Chang J Y,Lee K M.V2V-PoseNet:voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5079-5088.

[11]Chen Xingyu,Liu Yufeng,Ma Chongyang,et al.Camera-space hand mesh recovery via semantic aggregation and adaptive 2D-1D registration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13274-13283.

[12]Chen Ping,Chen Yujin,Yang Dong,et al.I2UV-HandNet:image-to-UV prediction network for accurate and high-fidelity 3D hand mesh mode-ling[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:12929-12938.

[13]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL](2021-06-03).https://arxiv.org/abs/2010.11929.

[14]Heo B,Yun S,Han D,et al.Rethinking spatial dimensions of vision transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11936-11945.

[15]Hampali S,Sarkar S D,Rad M,et al.HandsFormer:keypoint transformer for monocular 3D pose estimation of hands and object in interaction[EB/OL].(2021-04-29).https://arxiv.org/abs/2104.14639.

[16]Lin K,Wang Lijuan,Liu Zicheng.End-to-end human pose and mesh reconstruction with transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1954-1963.

[17]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:886-893.

[18]Wei Chen,Fan Haoqi,Xie Saining,et al.Masked feature prediction for self-supervised visual pre-training[EB/OL].(2021-12-16).https://arxiv.org/abs/2112.09133.

[19]Chen Xingyu,Liu Yufeng,Ma Chongyang,et al.Camera-space hand mesh recovery via semantic aggregation and adaptive 2D-1D registration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13274-13283.

[20]Du Kuo,Lin Xiangbo,Sun Yi,et al.CrossInfoNet:multi-task information sharing based hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9896-9905.

[21]He Kaiming,Chen Xinlei,Xie Saining,et al.Masked autoencoders are scalable vision learners[EB/OL].(2021-12-19).https://arxiv.org/abs/2111.06377.

[22]Huang Junjie,Zhu Zheng,Huang Guan,et al.AID:pushing the performance boundary of human pose estimation with information dropping augmentation[EB/OL].(2020-12-17).https://arxiv.org/abs/2008.07139.

[23]Chen Pengguang,Liu Shu,Zhao Hengshuang,et al.Grid Mask data augmentation[EB/OL].(2020-01-14).https://arxiv.org/abs/2001.04086.

[24]Chen Xinghao,Wang Guijin,Guo Hengkai,et al.Pose guided structured region ensemble network for cascaded hand pose estimation[J].Neurocomputing,2020,395:138-149.

[25]黃程遠,宋曉寧,馮振華.ARGP-Pose:基于關鍵點間關系分析與分組預測的3D人體姿態估計[J].計算機應用研究,2022,39(7):2178-2182,2202.(Huang Chengyuan,Song Xiaoning,Feng Zhenhua.ARGP-Pose:3D human pose estimation based on the keypoint relationship analysis and grouping prediction[J].Application Research of Computers,2022,39(7):2178-2182,2202.)

[26]Ge Linhao,Ren Zhou,Li Yuncheng,et al.3D hand shape and pose estimation from a single RGB image[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10833-10842.

[27]Zhang Xiong,Huang Hongsheng,Tan Jianchao,et al.Hand image understanding via deep multi-task learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11281-11292.

[28]Gower J C.Generalized Procrustes analysis[J].Psychometrika,1975,40(1):33-51.

[29]Zimmermann C,Ceylan D,Yang Jimei,et al.FreiHAND:a dataset for markerless capture of hand pose and shape from single RGB images[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:813-822.

[30]Kulon D,Guler R A,Kokkinos I,et al.Weakly-supervised mesh-convolutional hand reconstruction in the wild[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:4990-5000.

[31]Moon G,Lee K M.I2I-MeshNet:image-to-lixel prediction network for accurate 3D human pose and mesh estimation from a single RGB image[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:752-768.

主站蜘蛛池模板: 精品午夜国产福利观看| 欧美视频在线播放观看免费福利资源| 亚洲无码一区在线观看| 黄片一区二区三区| 香蕉国产精品视频| 情侣午夜国产在线一区无码| 四虎在线观看视频高清无码| 国产一级一级毛片永久| 亚洲无码不卡网| 成人毛片在线播放| aⅴ免费在线观看| 九色在线视频导航91| 成人一级免费视频| 久久久波多野结衣av一区二区| 婷婷六月综合网| 国产精品对白刺激| 国产三级成人| 99re66精品视频在线观看| 亚洲天堂区| 亚洲国产精品日韩av专区| 欧美日韩一区二区在线播放 | 国产亚洲现在一区二区中文| аv天堂最新中文在线| 国产中文一区a级毛片视频| 五月激情婷婷综合| 国产午夜一级毛片| 久久久受www免费人成| 成人永久免费A∨一级在线播放| 国产免费久久精品99re不卡| 亚洲国产精品VA在线看黑人| 日韩在线第三页| 日韩在线中文| 大陆精大陆国产国语精品1024| 国产真实乱人视频| 精品久久久久久成人AV| 亚洲第一网站男人都懂| 亚洲天堂免费| 国产男女XX00免费观看| 亚洲欧美一区二区三区图片 | 欧美一级黄色影院| 欧美精品啪啪| 中国一级特黄视频| 丰满的少妇人妻无码区| 一区二区午夜| 国产日产欧美精品| 视频一区亚洲| 色综合天天娱乐综合网| 亚洲综合色婷婷中文字幕| 欧美日韩在线第一页| 国产特级毛片aaaaaa| 毛片基地美国正在播放亚洲| 午夜国产大片免费观看| 国产成人高精品免费视频| 一级毛片免费观看久| 亚洲不卡av中文在线| 人妻无码AⅤ中文字| 久草网视频在线| 97狠狠操| 成年人久久黄色网站| www精品久久| 国产美女91视频| 亚洲无码视频图片| 91精品久久久无码中文字幕vr| 欧美国产日韩一区二区三区精品影视| 亚洲国产成人精品一二区| 97亚洲色综久久精品| 欧美国产综合色视频| a毛片免费在线观看| 漂亮人妻被中出中文字幕久久| 中文字幕有乳无码| 亚洲永久色| 91网红精品在线观看| 国产美女无遮挡免费视频| 国产亚洲视频免费播放| 亚洲中文制服丝袜欧美精品| 欧美精品一二三区| 久久人午夜亚洲精品无码区| 国产日韩AV高潮在线| 狂欢视频在线观看不卡| 国产精品无码一二三视频| 福利片91| 色偷偷男人的天堂亚洲av|