




摘要:人體姿態識別因其自身優勢已在各個領域得到廣泛運用,但由于網球運動中存在環境噪聲、數據遮擋、視點變化、身體大小等制約條件,各類動作的姿態識別仍然具有一定的難度.為了提高人體姿態的識別能力,提高網球運動員在賽場上的技戰術以及體能分配,從深度貼圖和骨骼關節兩種不同的數據類型出發,提出了基于三維多視點網球運動數據集的人體姿態識別與估計方法,同時為了獲得特征集數據,采用3種不同的卷積神經網絡模型進行訓練,并將結果融合到最終動作分類中.最后,通過兩個標準數據集驗證了所提方法的準確性.
關鍵詞:人體姿態識別;網球運動;骨骼關節;深度貼圖
中圖分類號:G845"" 文獻標志碼:A
Human Pose Recognition and Estimation MethodBased on 3D Multi-view Tennis Motion Dataset
ZHANG Wei, KANG Li
(Anhui Technical College of Mechanical and Electrical Engineering, Wuhu 241002, Anhui, China)
Abstract:Human pose recognition has been widely used in various fields because of its advantages, but it is still difficult to recognize the pose of various movements in tennis due to the constraints such as environmental noise, data blocking, the change of view point and body size. In order to improve the recognition performance of tennis players’ human posture and improve their technical tactics and physical fitness distribution in the field, a human posture recognition and estimation method based on three-dimensional multi-view tennis motion data set is proposed from two different data types of depth mapping and skeletal joints. At the same time, in order to obtain the feature set data, three different convolutional neural network models are used for training, and the results are fused into the final action classification. Finally, the accuracy of the proposed method is verified in two standard data sets.
Key words:human action recognition; tennis; bone joint; depth mapping
人體姿態識別(Human action recognition,HAR)不僅能完成人體姿態、行為、形貌的測量,而且可以自動重建人體運動,被廣泛應用于公共安全、人類行為、虛擬現實、人機交互、視頻索引等領域[1-3] .因此,將網球運動與HAR技術結合在某種程度上可以提高網球運動員的技術動作,設計得分評估算法,實現精細動作的自動評估,提升其技戰術能力,對于分析和調整連續參加各站比賽的網球運動員的動作具有重要意義.然而,由于運動員服裝顏色、照明變化和背景復雜等原因,通過彩色圖像提取精確的運動區域或姿態動作并進行識別變得困難[4] .
RGB+深度貼圖(Depth Map,RGBD)的傳感器在市場上的發售為人體姿態識別提供了經濟、高效、可靠的解決方案,借助深度傳感器(如Microsoft Kinect sensors),利用深度貼圖來開發人體姿態識別系統,可以簡化上述的HAR問題[5] .
早期開發的人體姿態特征提取方法分為兩類:手動輸入和深度學習[6] .與手動輸入相比,基于深度學習的特征提取表現突出,例如:卷積神經網絡(Convolutional Neural Network,CNN)是用于特征提取和分類的強大深度學習模型,不僅可以自動提取特征,而且可以有效幫助運動員準確地對動作分類姿態進行調整[7-8] .基于此,本文使用3個CNN模型,基于深度貼圖和骨骼關節開發了一種基于三維多視點網球運動數據集的人體姿態識別與估計方法,并通過“微軟姿態3D數據集”和“UTD-MHAD數據集(德克薩斯大學達拉斯分校-多模式人類姿態數據集)” 兩個標準數據集驗證方法的準確性.以此來搭建網球打法精細評估數據庫,設計得分評估算法,實現對網球運動員精細動作的自動評估,并對其技術的改進提供一種新的服務平臺.
1 研究方法
網球運動姿態識別方法的流程如圖1.使用深度貼圖和骨架關節兩種不同的數據類型來表示網球動作,兩種數據都被轉換成一個描述符,表示動作序列中存在的動作.使用深度貼圖的差分深度運動圖(Differential Depth Motion Map,D2MM)和修正運動歷史圖(Modified Motion History Image,M2HI)兩個描述符對輸入的網球視頻幀數據進行前期融合.對于骨架關節,使用球面關節描述符(Spherical Joint Descriptor,SJD)和運動學關節描述符(Kinematic Joint Descriptor,KJD)對輸入的關節動作數據集進行融合.上述數據集將被送入3個CNN模型進行特征提取,然后進行分類,最后在Softmax層獲得的輸出進行融合處理,以獲得高精度動作姿態識別.
本文使用的計算機配備i7 Intel core處理器、8GB RAM、Windows10 64位操作系統和MatlabR2015A進行模型求解.為了驗證所提出的方法,使用兩個標準數據集:“微軟姿態3D數據集”和“UTD-MHAD數據集(德克薩斯大學達拉斯分校-多模式人類姿態數據集)”進行驗證方法的準確性,這兩個數據集都提供了適用于構建骨架關節和深度貼圖數據.
1.1 運動關節描述
1.1.1 人體骨骼關節分段
一般來說,人類有206塊骨頭,分為5類;軸向骨骼、右上部骨骼、左上部骨骼、右下部骨骼和左下部骨骼[11].本文利用20個骨骼關節來表示人體:臀部中心(HC)、脊椎(S)、肩部中心(SC)、頭部(H)、左肩(LS)、左肘(LE)、左腕(LW)、左手(LH)、右肩(RS)、右肘(RE)、右腕(RW)、右手(RH)、左髖(HL),左膝(LK)、左踝(LA)、左腳(LF)、右髖(HR)、右膝(RK)、右踝(RK)和右腳(RF),將20個骨骼關節分割成5段,每段包含4個關節,如圖2所示.
1.1.2 球面關節描述符(Spherical Joint Descriptor,SJD)
通常,骨架關節數據以笛卡爾坐標系(x、y、z)的形式表示,但笛卡爾坐標系中動作表示對關節的微小運動非常敏感,可以歸為一類的相似動作被識別成兩個不同動作,使得動作識別系統對于具有相似動作的魯棒性降低[12].而且,在運動過程中,人體關節有一些約束,它們從臀部中心
(HC)移動不能超過一定距離.因此,在身體構架由笛卡爾坐標系轉換為球面坐標系過程中,將臀部中心作為參考位置.臀部中心和身體關節之間的距離用r表示,它表示身體關節距離跳躍中心的距離.其次,球坐標系引入θ和兩個角度參數,表示運動角度.笛卡爾坐標系中關節JC={HC,J1,J2,...,J19},變換后在球坐標系中轉化為JS={r,θ,}.人體關節從笛卡爾坐標系到球面坐標系的轉換過程如下:
1.1.3 運動學關節描述符(Kinematic Joint Descriptor,KJD)
KJD的主要目的是識別網球運動員運動姿態空間和時間變化,在此過程中,對于一個幀數為N的動作序列,每個幀用i=20個關節表示.一個關節的位置利用x,y和z軸坐標表示為Pi=(xi,yi,zi).針對第N幀位置Pi,重新定義為:P(N)i=(x(N)i,y(N)i,z(N)i).例如,第N幀中,右膝(RK)關節可以定義為:P(N)RK=(x(N)RK,y(N)RK,z(N)RK).同樣,第N幀中,左肩(LS)關節可以定義為:P(N)LS=(x(N)LS,y(N)LS,z(N)LS).
1.2 CNN模型與特征融合
網球運動員的運動姿態特征提取CNN模型框架如圖3所示.
在提出的CNN模型中,Softmax層提供一個輸出,其長度等于動作總數的向量,向量的每個值表示輸入姿態成為特定姿態的概率.通常,在這些值中,考慮最大值表示輸入序列的相應動作.但是,對于相同的操作,最大值與正確的操作可能不對應.在這種情況下,為了提高動作的識別精度,將3個CNN模型的Softmax層的輸出進行后期融合,如圖1所示.本文考慮最大值和乘積兩種融合過程,因為它們比其他融合方式可以獲得更好的性能[13].考慮P1j、P2j和P3j是分別作為第一、第二和第三CNN模型的Softmax層輸出姿態j的概率,因此本文基于最大值融合4次,基于乘積融合4次,在整個過程中,融合進行了8次,對獲得的8個融合結果取最大值來預測最終姿態識別的準確性.
2 結果與討論
2.1 微軟姿態3D數據集驗證
此數據集是最流行的深度視頻數據集之一,早期的大多數作品都使用它進行驗證[14] .該數據集共包括20種不同的動作:側平舉(HiW)、手臂高舉(HoW)、高拋(HT)、前沖(FP)、抓(HC)、錘擊(H)、劃勾(DT)、劃十字(DX)、劃圓(DC)、側面拳擊(SB),雙手揮舞(ThW)、拍手(HP)、慢跑(J)、側踢(SK)、前踢(FK)、彎腰(B)、拾起和投擲(PuT)、高爾夫式揮桿(GS)、發球(TS)和網球式揮桿(TW).深度攝影機用于捕捉所有姿態,此數據集的創建涉及10個受試者,每個受試者完成每個動作2到3次.驗證過程在奇偶分組基礎上進行,即在10名受試者中,對奇數排序(1、3、5、7和9)進行姿態訓練,并對偶數排序(2、4、6、8和10)進行姿態測試,通過改變訓練和測試對象進行了五折交叉驗證,所得結果如表1所列.
從表1可以看出,在不同驗證時分類精度的細節,F8的準確率較高(93.9448%),其次是F2(93.6733%)和F6(93.6541%).在F8中,所有模式的CNN模型乘積的輸出之間實現融合,因此,它具有最大的分類精度.F2分類精度為第二,融合在第二個和第三個CNN模型的輸出之間完成.由于骨架關節是比深度貼圖具有更重要的信息線索,因此通過融合兩個不同的骨架關節(球關節和運動關節)獲得的精度較高.在這20個動作中,15個動作召回率達到了90%以上,HT、HP和TS三個動作召回率最高,均超過95%.由此可以看出,本文采用的方法對網球運動員的動作姿態進行分類與識別具有良好的效果.
2.2 UTD-MHAD數據集驗證
該數據集是在微軟Kinect傳感器和可穿戴式傳感器的幫助下在室內環境中收集的,該數據集共包含27個動作,由8名受試者(4名男性和4名女性)執行,每個動作執行4次.此數據集中存在的數據序列總數為861,記錄了4種不同的數據模型(RGB格式視頻、深度視頻、骨骼關節和慣性傳感器信號),動作包括:蹲下(S)、前弓箭步(L)、站到坐(S2S)、坐到站(S1S)、走路(W)、慢跑(J)、拾起和投擲(PT)、抓(CT)、敲(K)、推(P)、發球(TS)、手臂彎曲(AL)、網球式揮桿(TW)、棒球式揮桿(BW)、正面出拳(BX)、保齡球式前撲(B)、畫三角(DT)、逆時針轉(DCCW)、順時針轉(DCW)、畫十字(DX)、投籃式拋出(BS)、抱臂(AC)、投擲(T)、拍手(C)、揮手(W)、向右滑(SR)和向左滑(SL).
在861個樣本中,600個用于訓練,其余261個用于測試,同樣執行五折交叉驗證.在每次模擬中,訓練和測試的對象都是不同的,每次驗證時,通過不同的融合機制測量所提出方法的精度,每次融合操作的平均正確率如圖4所示.
從圖4中可以看出,F8的正確率最高,其次是F4.由于F8處的融合過程考慮了3個CNN模型概率的乘積,因此獲得了最大的正確率,約為87.749%.在F4處得到第二個最大值,約為86.679%.最小正確率是在F3,因其輸入數據僅有深度貼圖.對于姿態識別來說,基于骨骼關節數據比深度數據更有效,因為它提供了關節運動的清晰信息,因此本文提出方法在UTD-MHAD數據集上的平均準確率約為83.411%.
圖5為分類后每個姿態測量的召回率.從圖5中可以看出,AC的召回率最高,約為96.172%,而CT的召回率最低,約為63.133%.在CT動作中,“右手右揮”、“右臂右揮”等動作相似.因此,部分CT動作可能被識別為W和SR,導致姿態召回率較低.然而,本方法測試后的整體平均召回率約為84.787%,說明本文所提方法對動作有輕微差異的姿態進行分類與識別時仍具有較好的效果.
3 結論
本文使用3個CNN模型,基于深度貼圖和骨骼關節開發了一種基于三維多視點網球運動數據集的人體姿態識別與估計方法,使用深度貼圖D2MM和M2HI兩個描述符對輸入的網球視頻幀數據進行早期融合,使用SJD和KJD兩個關節描述符對輸入的骨骼關節動作數據集進行融合.最后,通過兩個標準數據集:“微軟姿態3D數據集”和“UTD-MHAD數據集(德克薩斯大學達拉斯分校-多模式人類姿態數據集)”驗證了本文方法的準確性.本文方法為網球高難度技術動作訓練中避免運動損傷,更好地提升網球運動員動作技巧具有指導意義.
參考文獻:
[1]WANG S,ZHOU G.A review on radio based activity recognition[J].Digital Communications amp; Networks,2015,1(1):20-29.
[2] DANIEL W,REMI R,EDMOND B.A survey of vision-based methods for action representation,segmentation and recognition[J].Computer Vision and Image Understanding,2011,115(2):224-241.
[3] 王天雷,王柱,周昌,等.基于OTSU算法的BP神經網絡網球識別方法[J].機電工程技術,2018,47(2):15-19.
[4] 段俊臣,梁美祥,王瑞.基于人體骨骼點檢測與多層感
知機的人體姿態識別[J].電子測量技術,2020,43(12):168-172.
[5] 張增會,姚彥鑫.基于深度學習的人體姿態檢測算法綜述[J].電腦知識與技術,2021,17(27):92-93.
[6] XU Q,ZHENG W,SONG Y,et al.Scene image and human skeleton-based dual-stream human action recognition[J].Pattern Recognition Letters,2021,148:136-145.
[7] 陳浩龍.基于卷積神經網絡的多傳感器下坐姿識別研究[J].計算機技術與發展,2021,31(11):183-188.
[8] 周義凱,王宇,趙勇飛,等.基于CNN的人體姿態識別[J].計算機與現代化,2019(2):49-54,92.
[9] 李元祥,謝林柏.結合RGB-D視頻和卷積神經網絡的行為識別算法[J].計算機與數字工程,2020,48(12):3052-3058.
[10]CHEN H,WANG G,XUE J,et al.A novel hierarchical framework for human action recognition[J].Pattern Recognit,2016,55:148-159.
[11] LIU J,YANG Z,LIU Y,et al.Hyperspectral remote sensing images deep feature extraction based on mixed feature and convolutional neural networks[J].Remote Sensing,2021,13(13):2599-2599.
[12] SANDHYA R,APPA R,USHA S.Spatio-temporal depth motion descriptor for action recognition using 2D convolutional neural networks[J].Journal for the Study of Research,2020,7(4):372-386.
[13] 孫淑娥,姚柳,趙怡.基于卷積神經網絡的時間序列數據融合算法[J].西安石油大學學報(自然科學版),2021,36(5):136-142.
[14] 王發明,李建微,陳思喜.三維人體姿態估計研究綜述[J].計算機工程與應用,2021,57(10):26-38.