蔡興泉 李發(fā)建



收稿日期:2023-04-29
基金項目:北京市社會科學基金(19YTC043)
DOI:10.19850/j.cnki.2096-4706.2023.22.017
摘? 要:在研究了目前古典手舞動作提取與分析方法并改進相關問題后,設計并實現了操作簡單、用戶體驗感強的古典手舞動作提取與分析系統(tǒng)。該系統(tǒng)分為古典手舞視頻學習、古典手舞動作提取和古典手舞動作分析三個模塊,可以實現二維和三維手部姿態(tài)的估計以及古典手舞動作的識別和對比分析。經實驗驗證系統(tǒng)運行良好,可完成古典手舞動作的識別和對比分析。
關鍵詞:古典手舞;手部姿態(tài)估計;手部動作識別
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)22-0078-05
Design and Implementation of Video-based Classical Hand Dance Movement Extraction and Analysis System
CAI Xingquan, LI Fajian
(School of Information Science and Technology, North China University of Technology, Beijing? 100144, China)
Abstract: After studying the current classical hand dance movement extraction and analysis methods and improving related problems, this paper designs and implements a classical hand dance movement extraction and analysis system with simple operation and strong user experience. The system is divided into three modules of classical hand dance video learning, classical hand dance movement extraction and classical hand dance movement analysis, which can realize the estimation of 2D and 3D hand pose and the recognition and comparative analysis of classical hand dance movements. The system is verified by experiments to work well and it can complete the recognition and comparative analysis of classical hand dance movements.
Keywords: classical hand dance; hand pose estimation; hand movement recognition
0? 引? 言
中國古典舞基本動作具有濃厚的古典韻味,在各類古典舞動作中,手法、步法、身法互相依存、融會貫通、缺一不可。在古典舞表演中,演員經常通過手部動作的變換對實物進行詮釋,表達自己的情感,推動情節(jié)的發(fā)展,因此有很多人對古典手舞動作進行分析與研究。
隨著各類短視頻軟件的興起,視頻越來越廣泛地在互聯網上傳播,因此,設計并開發(fā)一款操作簡單、用戶體驗感強的古典手舞動作提取與分析系統(tǒng),讓用戶能夠通過視頻對古典手舞動作進行認識、分析和研究,有助于用戶加強對中國古典手舞的認知和研究,也有助于中國古典傳統(tǒng)文化藝術的普及和傳播,從而使民族和國家增強文化自信。
1? 相關工作
在進行二維手部關鍵點檢測時,文獻[1]提出了卷積姿態(tài)機模型,通過熱力圖來解決人體骨架關鍵點定位問題,穩(wěn)定性、魯棒性較好,但包含的語義信息較少,容易產生欠分割現象。文獻[2]提出了基于卷積神經網絡的堆疊沙漏網絡模型,通過將每個模塊中的特征圖經過卷積層和下采樣層,獲取到不同尺度的特征圖,與之后在多次上采樣中得到的不同尺度特征圖合并到一起,最終得到一個包含多尺度信息的特征圖,精度和速度相對較好,能較好地解決被遮擋關鍵點難以預測的問題。文獻[3]提出了始終輸出高分辨率的HRNet方法,但其對內存等硬件設備要求較高,不利于普遍使用。
在進行三維手部姿態(tài)估計時,文獻[4]提出了一個三階段的網絡從單張彩色圖像中估計手部姿態(tài),第一次實現了基于深度學習的單幅彩色圖像的三維手部姿態(tài)估計。該方法首先使用語義分割網絡提取手部區(qū)域,然后采用卷積網絡定位手部關節(jié)點的位置,最后根據2D關節(jié)點位置和先驗知識估計出3D關節(jié)位置。但是該方法只利用二維關節(jié)點位置估計三維姿態(tài),忽略了彩色圖像中的彩色紋理的特征。文獻[5]基于循環(huán)生成網絡構建了合成的手勢數據集,并以此訓練了現有的卷積神經網絡,提升了現有方法的泛化性,但對真實數據的效果較差。文獻[6]提出了一個端到端的手部姿態(tài)估計方法,避免圖像中信息丟失,但直接回歸內參困難,數據量小,效果不高。文獻[7]提出一種使用單張RGB圖像估計手部姿態(tài)以及生成手部掩膜的方法,該方法采用沙漏網絡模型和線性回歸的方式生成手部模型,魯棒性較好。
在進行手勢識別時,文獻[8]提出了一種三維卷積神經網絡模型以提取時空特征信息,使用RGB-D視頻數據進行大規(guī)模手勢識別,效果有所提升,但依賴于圖像的深度信息。文獻[9]將注意力機制引入LSTM網絡,關注重要的視頻幀,有效利用對手語識別結果影響較為顯著的信息,提高了模型對手語的識別能力。文獻[10]采用CNN與長短期記憶網絡(LSTM)相結合的方法,利用骨骼的3D數據作為整體網絡的輸入,用以提取動作的時空特征信息。文獻[11]提出使用CNN提取動態(tài)手勢的空間特征,并且降維之后使用雙向LSTM提取全局時空特征的動態(tài)手勢識別模型。文獻[12]提出了一種新的基于特征融合網絡和ConvLSTM的手勢識別方法,識別準確率較高。
在研究了二維手部關節(jié)點檢測、三維手部姿態(tài)估計和手勢識別相關方法的優(yōu)缺點以后,本文設計并開發(fā)了基于視頻的古典手舞動作提取與分析系統(tǒng)。
2? 基于視頻的古典手舞動作提取與分析系統(tǒng)設計與實現
古典手舞是一種古老的中國傳統(tǒng)藝術形式,以手部動作為主要表現形式,具有高度的藝術性和文化內涵,深受人們喜愛。隨著越來越多的人開始學習和研究古典手舞,線下的學習和研究受到時間和空間上的限制,可能無法滿足學習者的靈活學習需求。然而,線上學習和研究古典手舞也存在著一些問題。它無法給學習者提供真實的舞蹈演示和身臨其境的體驗,有時難以感受到舞蹈的真正魅力。同時,學習者也很難發(fā)現和糾正自己的問題和不足,對自己的學習效果也難以進行客觀評價。這些問題都會影響學習者的學習水平和學習效果的提高。為了提高古典手舞學習的專業(yè)性并為廣大學習者和藝術愛好者提供更加便利和多元化的學習和研究途徑,本文設計并開發(fā)了一個古典手舞動作提取與分析系統(tǒng)。
2.1? 系統(tǒng)模塊劃分
如圖1所示,本文設計的古典手舞動作提取與分析系統(tǒng)主要包括三個模塊,分別為古典手舞視頻學習模塊、古典手舞動作提取模塊和古典手舞動作分析模塊。古典手舞視頻學習模塊主要是為學習者提供選擇喜歡和感興趣的古典手舞視頻進行觀看和學習的功能,以及對學習者練習古典手舞動作的視頻進行錄制、保存和查看的功能。古典手舞動作提取模塊主要是對古典手舞視頻進行二維手部關節(jié)點檢測和三維手部姿態(tài)估計,提供了二維和三維兩個維度進行學習的可能性。古典手舞動作分析模塊主要是根據提取的姿態(tài)對所選視頻進行古典手舞動作的識別和相似度分析,幫助學習者學習古典手舞經典動作并進行動作對比。
2.2? 系統(tǒng)模塊實現
針對當前線上古典手舞動作學習和研究存在互動和指導不足、體驗欠缺的問題,本文設計并開發(fā)了一款設備簡單、人機交互性強的古典手舞動作提取與分析系統(tǒng)。該系統(tǒng)主要包括古典手舞視頻學習、古典手舞動作提取和古典手舞動作分析三個主模塊。其中,古典手舞視頻學習主模塊包括古典手舞視頻觀看和古典手舞視頻錄制兩個子模塊;古典手舞動作提取主模塊包括二維手部關節(jié)點檢測和三維手部姿態(tài)估計兩個子模塊;古典手舞動作分析主模塊包括古典手舞動作識別和古典手舞動作對比兩個子模塊。以下是系統(tǒng)主要模塊的實現過程。
2.2.1? 古典手舞視頻學習模塊
古典手舞視頻學習模塊包括視頻觀看和視頻錄制兩個子模塊。在視頻觀看子模塊中,學習者可以選擇古典手舞模板視頻庫中的模板視頻,學習專業(yè)人員的動作和技巧。同時,學習者也可以觀看歷史視頻庫中的自己的學習視頻,以檢查學習效果。此外,學習者還可以跳轉到古典手舞動作提取模塊,對自己的歷史學習視頻進行二維和三維手部姿態(tài)估計,從二維和三維兩個維度研究自己的學習效果。
在視頻錄制子模塊中,學習者首先選擇古典手舞動作模板視頻,并根據模板視頻錄制自己的練習視頻。錄制完成后,如果學習者對自己錄制的視頻不滿意,可以選擇重新錄制;如果滿意,可以保存錄制的視頻。此外,學習者還可以選擇對錄制的視頻進行二維和三維手部姿態(tài)分析,將選擇的模板視頻和錄制的練習視頻傳入古典手舞動作提取模塊,對錄制的練習視頻進行動作對比分析。
2.2.2? 古典手舞動作提取模塊
古典手舞動作提取模塊是古典手舞動作提取與分析系統(tǒng)的關鍵模塊之一,可以對古典手舞模板視頻和學習者練習視頻進行二維和三維手部姿態(tài)估計,根據二維和三維骨骼可視化結果,可以從二維和三維兩個不同的角度研究和學習古典手舞動作。具體來說,古典手舞動作提取模塊主要包括對模板視頻和練習視頻進行二維手部關節(jié)點檢測以及對模板視頻和練習視頻進行三維手部姿態(tài)估計。
1)對模板視頻和練習視頻進行二維手部關節(jié)點檢測。二維手部關節(jié)點檢測可以突出古典手舞動作中重點關節(jié)的位置,方便用戶更直觀地觀察古典手舞動作,并為后續(xù)的三維手部姿態(tài)估計和動作對比分析提供基礎。本文采用基于改進堆疊沙漏網絡的二維手部關節(jié)點檢測方法,對模板視頻和練習視頻進行二維關節(jié)點檢測。首先對沙漏子網絡進行改進,增加大感受野殘差模塊,并將上采樣方法替換為轉置卷積,使用Mish激活函數,來提高效率和準確率;然后構建堆疊沙漏網絡模型對輸入的圖像在不同尺度上的特征進行提取,將得到的多尺度特征圖輸入到卷積層,預測骨骼關節(jié)點在每個像素上存在的概率,輸出關節(jié)點熱圖;最后,對關節(jié)點熱圖進行解碼,得到原始輸入圖像的二維手部骨骼關節(jié)點坐標。
2)對模板視頻和練習視頻進行三維手部姿態(tài)估計。三維手部姿態(tài)估計可以突出古典手舞動作中重點關節(jié)在三維空間中的位置和角度,方便用戶觀察古典手舞動作在三維空間中的肢體信息,并為后續(xù)的動作對比分析提供基礎。本文采用基于多模態(tài)數據融合的三維手部姿態(tài)估計方法,對模板視頻和練習視頻進行三維手部姿態(tài)估計。首先,將手部RGB圖像和二維關節(jié)熱圖進行空洞卷積操作,并將得到的特征圖進行融合;然后使用卷積塊注意力機制,引入通道和空間注意力模塊對特征進行約束;接著通過規(guī)范坐標和旋轉矩陣計算估計標準坐標系下的三維關節(jié)點;最后,利用損失函數對估計的三維關節(jié)點施加約束,實現準確的三維手部姿態(tài)估計。
2.2.3? 古典手舞動作分析模塊
古典手舞動作分析模塊是古典手舞動作提取與分析系統(tǒng)的關鍵模塊,根據提取的姿態(tài)對所選視頻進行古典手舞動作的識別和相似度對比分析,幫助學習者學習古典手舞經典動作并進行動作對比。具體來說,古典手舞動作分析模塊主要包括對模板視頻和練習視頻進行古典手舞動作識別以及對模板視頻和練習視頻進行古典手舞動作對比。
1)對模板視頻和練習視頻進行古典手舞動作識別。為了使古典手舞學習者更好地學習和探索古典手舞,了解傳統(tǒng)古典手舞動作的類別和意義,本文采用基于BiConvLSTM的古典手舞動作識別方法,對模板視頻和練習視頻進行古典手舞動作識別。首先,對輸入的古典手舞動作骨骼序列進行數據預處理;然后,通過多個基于BiConvLSTM的模塊提取古典手舞動作序列的多尺度時空特征;最后,利用兩個全連接層和一個Softmax分類器實現古典手舞動作識別。該過程如圖2所示。
2)對模板視頻和練習視頻進行古典手舞動作對比。為了使古典手舞學習者更好地了解練習視頻中自己的學習效果,進一步掌握并改進自己的動作,本文采用DTW相關算法,對模板視頻和練習視頻進行古典手舞動作對比。首先,輸入古典手舞動作模板視頻和練習視頻,獲取它們的手部動作姿態(tài)序列;然后,分別采用DTW、FastDTW和SoftDTW算法,構建距離矩陣,計算模板視頻和練習視頻的手部姿態(tài)序列之間的最小距離;最后,計算序列相似度,得到它們的動作對比分數,實現古典手舞動作的對比分析。
3? 實驗結果與分析
本文設計實現的古典手舞動作提取與分析系統(tǒng)的軟硬件開發(fā)環(huán)境為:處理器Intel(R) Xeon(R) Silver 4110 CPU @ 2.10GHz 2.10 GHz,內存64 GB,顯卡NVIDIA Quadro RTX 6000以及HIKVISION DS-E12電腦攝像頭;Windows 10操作系統(tǒng),開發(fā)語言Python,開發(fā)工具PyCharm 2020和Anaconda 3,開發(fā)框架TensorFlow,圖形界面開發(fā)工具PyQt 5。
進入“古典手舞視頻學習”模塊,界面顯示“視頻觀看”和“視頻錄制”兩個功能子模塊按鈕以及“返回”功能按鈕。點擊“視頻觀看”,可以選擇古典手舞模板視頻或古典手舞學習者錄制的歷史視頻進行觀看,如圖3所示。點擊“視頻錄制”,進行對古典手舞模板視頻的練習和錄制,錄制完成后,可選擇“重新錄制”按鈕,也可選擇“保存”按鈕對錄制視頻進行保存,或點擊“返回”按鈕返回上一模塊,如圖4所示。
進入古典手舞動作提取模塊后,先選擇古典手舞模板視頻和學習者錄制的視頻,點擊“二維手部關節(jié)點檢測”按鈕,即可查看二維手部關節(jié)點可視化結果,如圖5所示;點擊“三維手部姿態(tài)估計”按鈕,即可查看三維手部姿態(tài)可視化結果,如圖6所示;點擊“返回”按鈕即返回上一模塊界面。
進入古典手舞動作分析模塊后,先選擇古典手舞模板視頻和學習者錄制的視頻,點擊“古典手舞動作識別”按鈕,即可查看視頻中出現的古典手舞動作類別結果,如圖7所示;點擊“古典手舞動作對比”按鈕,即可查看模板視頻和錄制視頻的對比分析結果,如圖8所示;點擊“返回”按鈕即返回上一模塊界面。
4? 結? 論
為了完成智能化的古典手舞動作提取和分析,并更好地提升學習者對古典手舞動作的認知和研究的便捷性和體驗感,達到有效學習和研究古典手舞的目的,本文設計并實現了古典手舞動作提取與分析系統(tǒng)。該系統(tǒng)主要分為三個主要模塊,分別是古典手舞視頻學習模塊、古典手舞動作提取模塊和古典手舞動作分析模塊。本文詳細說明了每個模塊的功能和實現方法,并展示了每個模塊的功能效果。實驗結果表明,本文設計的古典手舞動作提取與分析系統(tǒng)運行穩(wěn)定,效果良好。
參考文獻:
[1] WEI S E,RAMAKRISHNA V,KANADE T,et al. Convolutional pose machines [C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:4724-4732.
[2] NEWELL A,YANG K,DENG J. Stacked hourglass networks for human pose estimation [C]//European conference on computer vision.Cham:Springer,2016:483-499.
[3] SUN K,XIAO B,LIU D,et al. Deep high-resolution representation learning for human pose estimation [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Long Beach,IEEE:2019:5693-5703.
[4] ZIMMERMANN C,BROX T. Learning to estimate 3d hand pose from single rgb images [C]//Proceedings of the IEEE international conference on computer vision.Venice:IEEE,2017:4903-4911.
[5] MUELLER F,BERNARD F,SOTNYCHENKO O,et al. Ganerated hands for real-time 3d hand tracking from monocular rgb [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:49-59.
[6] ZHANG X,LI Q,MO H,et al. End-to-end hand mesh recovery from a monocular rgb image [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:2354-2364.
[7] GE L,REN Z,LI Y,et al. 3d hand shape and pose estimation from a single rgb image[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:10833-10842.
[8] LI Y,MIAO Q,TIAN K,et al. Large-scale gesture recognition with a fusion of rgb-d data based on the c3d model [C]//2016 23rd international conference on pattern recognition (ICPR).Cancun:IEEE,2016:25-30.
[9] 梁智杰.聾啞人手語識別關鍵技術研究 [D].武漢:華中師范大學,2019.
[10] NUNEZ J C,CABIDO R,PANTRIGO J J,et al. Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition [J].Pattern Recognition,2018,76(C):80-94.
[11] PIGOU L,VAN DEN OORD A,DIELEMAN S,et al. Beyond temporal pooling:Recurrence and temporal convolutions for gesture recognition in video [J].International Journal of Computer Vision,2018,126(2):430-439.
[12] PENG Y,TAO H,LI W,et al. Dynamic gesture recognition based on feature fusion network and variant ConvLSTM [J].IET Image Processing,2020,14(11):2480-2486.
作者簡介:蔡興泉(1980—),男,漢族,山東濟南人,教授,博士,主要研究方向:虛擬現實、深度學習;李發(fā)建(1996—),男,漢族,山東濰坊人,碩士研究生,研究方向:深度學習。