








摘" 要:為了更好地傳承傳統文化皮影戲,提出了一套基于人體姿態估計的多維交互智能皮影系統,包括皮影機器人和虛擬皮影人。該系統應用了人體姿態估計網絡,使用運動算法計算骨骼旋轉角度,并設計了一款類人體機械結構應用到皮影上,可以與觀眾進行多維交互。為了優化皮影系統的流暢性,文章提出了針對皮影戲表演特點的基于透視投影約束的三維關鍵點優化方案和防遮擋策略。在輸出上,增加了卡爾曼濾波,在Jetson AGX上將模型輕量化,并實現了TensorRT加速。經過這些模塊處理后,皮影系統的識別準確度和動作流暢度都得到了不小于30%的提升,幀速率達到了33幀/秒。
關鍵詞:深度學習;人體姿態估計;多維交互;皮影戲
中圖分類號:TP391.4 文獻標識碼:A 文章編號:2096-4706(2025)03-0056-06
Multi-dimensional Interactive Intelligent Shadow Play System Based on Human Pose Estimation
ZHAO Jianwen1, ZENG Junying1, QIN Chuanbo1, ZHANG Zhongheng1, WU Jiantao1, WU Liu2, NI Zijun1
(1.School of Electronics and Information Engineering, Wuyi University, Jiangmen" 529020, China;
2.Guangzhou Preschool Teachers College, Guangzhou" 511300, China)
Abstract: In order to better inherit traditional culture shadow play, a multi-dimensional interactive intelligent shadow play system based on human pose estimation is proposed, including shadow play robot and virtual shadow play person. The system applies a human pose estimation network, uses a motion algorithm to calculate the rotation angle of the bone, and designs a human-like mechanical structure applied to the shadow play, which can interact with the audience in multiple dimensions. In order to optimize the fluency of the shadow play system, this paper proposes a three-dimensional key point optimization scheme and anti-occlusion strategy based on perspective projection constraint for the characteristics of shadow play performances. In the output, the Kalman filter is added, the model is lightweight on Jetson AGX, and TensorRT acceleration is realized. After processing by these modules, the recognition accuracy and action fluency of the shadow play system are improved by no less than 30%, and the frame rate reaches 33 FPS.
Keywords: Deep Learning; human pose estimation; multi-dimensional interaction; shadow play
0" 引" 言
當今社會,受社會環境影響,優秀傳統文化逐漸淡出人們的視野,以皮影戲為代表的優秀傳統文化面臨著傳播形式缺乏創新、吸引力不足等難題。本文將人工智能融入非遺文化傳承,旨在為新時代傳統文化發展注入新動力[1-2]。近年來,深度學習,尤其是人體姿態估計網絡的發展[3-5],為皮影戲的創新提供了有力的工具。傳統的皮影戲需要熟練的藝人手工操作,而皮影機器人和虛擬皮影數字人的創新使得操作變得更加簡便,觀眾可以通過自身動作與皮影機器人或虛擬數字人進行交互。目前,基于深度學習的機器人已得到較為廣泛的應用,主流方式為機械臂運動,例如采用一種可拓展的皮影機器人裝置[6],崔鑫等[7]采用了機電一體化的設計。然而,隨著時代的進步,上述方式已經不能滿足當代需求,它們無法進行多維交互,而且皮影機器人的動作顯得生硬。針對皮影戲傳承難的問題,本文提出基于人體姿態評估的多維交互智能皮影系統,期望能通過該系統提高人們對傳統文化的重視程度,活化傳統文化,從而增強人們的文化自信。
1" 智能皮影系統設計
本文提出的智能皮影系統,主要包括圖像采集模塊、語音識別模塊、顯示終端、Jetson AGX、皮影機器人、虛擬數字人等。系統流程圖如圖1所示。
本套智能皮影系統可以進行多維交互,包括實時交互、視頻交互、語音交互、手勢交互等多種交互方式。該系統可以滿足用戶的以下需求:
1)實時交互。利用USB攝像頭或CSI攝像頭通過實時拍攝獲取人體姿態估計檢測所需要的數據,其分辨率不低于710P,傳輸速率不低于每秒30幀。攝像頭捕獲到畫面后,傳輸至Jetson AGX的MediaPipe Holistic進行人體關鍵點提取。
2)視頻交互。通過輸入一段包含人體運動的視頻到Jetson AGX,在Jetson AGX上將導入的視頻流輸入到MediaPipe Holistic做人體關鍵點提取,機器人據此表演視頻中的人物動作。實時交互和視頻交互均需對視頻流信息進行人體姿態估計,然后將關鍵點信息進行基于幾何算法、坐標系變換、向量法求角等的處理,算出各個關節之間的旋轉角度,再通過串口通信,傳送至下位機,實現皮影機器人與用戶實時交互。
3)語音識別。皮影表演系統配備了語音設備模塊,用戶可錄入特定的語音。開啟語音識別表演模式后,LD3320語音識別模塊接收到特定的語音信息,皮影表演機器人會做出系統預先編排好的表演動作。
4)手勢交互。基于攝像頭模塊,采用2D攝像頭進行二維手勢識別,同時使用了動態手勢識別技術。手勢識別的實現,采用了MediaPipe Hands的手勢識別框架[7-9],在開啟手勢識別表演模式時,攝像頭采集手勢圖像信息再進行深度學習神經網絡的識別。識別特定手勢后,皮影機器人會表演特定的姿勢或者做出預先設定好的動作。
1.1" 皮影機器人
皮影機器人的機械結構主要由機械臂與BLDC三相無刷直流電機[10]組成。與傳統皮影相比,皮影機器人采用夾層式設計,將八個三相無刷直流電機設置在機器人內部,實現正反面的靈活轉換,增加了表演的多樣性。
機器人在內部設置燈珠作為機器人表演時的透射光源,機身材料采用透明亞克力,既增加了機身透明度,又提高了機器人的表演效果,避免了傳統皮影表演中光源遮擋被的缺陷。此外,機器人的機械臂桿采用了鏤空設計,以減小機械臂的質量,從而達到減輕電機負載的目的。
這種設計有效地減輕了機器人長時間表演產生的負載過大、發熱嚴重的問題。將三相無刷直流電機、機械臂與皮影三者組裝在一起,通過單片機產生的三相電流控制三相無刷直流電機達到固定的速度、處于固定的位置狀態并實現特定的擺動曲線。圖2為皮影機器人機械平面結構圖。
皮影機器人采用STM32H723VGT6作為主控芯片,電機驅動電路由DRV8313三相無刷電機驅動器構成。當上位機傳來角度數據包時,本系統會對其進行解包,計算出電機需要達到的角度和力矩大小,再通過磁場定向控制(Field Oriented Control, FOC)算法模型[11]計算出所需的三相電壓與電流。式(1)、式(2)可以表示三相電壓Ua、Ub、Uc的計算過程,這些電壓值將被用于驅動電機,使皮影機器人完成預定的動作。
(1)
(2)
1.2" 虛擬皮影人
一個皮影虛擬人模型是由大量的頂點組成的,頂點與頂點之間的位置是相對固定的。因此,手動將每一幀如此大量的頂點移動到指定位置,顯然是一項難以完成的任務。
在這個虛擬骨骼結構中,每一個骨頭都控制著附近區域的頂點。通過建立父子關系,使一個物體的移動服從另一個物體。這樣,當骨頭移動時,它控制的頂點也會隨之移動。這種設計使得我們只需要移動部分骨骼,就可以達到符合人體動力學的效果。
通過蒙皮操作將骨骼和模型結合起來,最后通過刷新權重,分配這些骨頭對每個頂點的控制權,以防止模型發生不自然的扭曲,從而實現更為自然的動畫效果。最終,我們可以通過驅動骨骼來調整人物模型的動作。圖3為虛擬皮影人框架圖。
本文在Unity3D中建立虛擬皮影人開發,方便部署到各個平臺應用,如Linux、Android等。同時,配置了物理引擎,加入了質量、速度、摩擦、空氣阻力等各種物理量,可高度模擬真實世界中的物理效果,有效還原皮影的打斗場景及打斗動作效果。為了實現這一目標,本文將Unity3D與關鍵點識別模型MediaPipe Holistic進行了端對端的連接。本系統可以實時接收模型識別到的三維坐標點信息,并通過預設的算法實現預測坐標到骨骼坐標的轉換。這種轉換是通過關鍵點的三維坐標信息到Unity3D的映射操作實現的。
通過這種映射,系統可以實時更新皮影人物模型的骨骼坐標狀態,從而驅動皮影人物模型進行模仿運動。這個模型不僅具有高度的真實感,而且具有很強的交互性,為用戶提供了一種全新的皮影戲觀賞體驗,如圖4所示。
在Unity3D中,需要自己逐個計算關節與關節之間形成的夾角。為解決使用歐拉角計算旋轉時會出現的萬向鎖問題,可使用四元數矩陣來表示骨骼相對于父骨骼的旋轉。通過使用四元數矩陣,可以在骨骼層次結構中更穩定地計算和應用旋轉變換,確保物體在旋轉過程中不會出現不自然的扭曲或翻轉。在動畫和姿勢控制中,通過計算骨骼的四元數偏移量,可以更精確地調整骨骼的朝向,使其更符合期望的動作效果。
式(3)則表示在三維空間中一個四元數的表示,其中a,b,c,d為實數部分和虛數部分的系數。四元數的實數部分a通常用于表示旋轉的角度,而虛數部分則表示旋轉軸的方向。一個單位四元數表示一個旋轉。四元數的旋轉運算可以通過式(4)表示,其中,θ為旋轉的角度,I,J,K為單位向量,表示旋轉軸的方向。
(3)
(4)
旋轉的基本原理是通過四元數的乘法來進行組合。給定兩個四元數和,它們的乘積可以通過式(5)~式(8)計算:
(5)
(6)
(7)
(8)
通過將兩個旋轉用四元數表示,可以通過乘法運算合并它們的旋轉效果。四元數的使用有助于避免由歐拉角帶來的問題,提供更可靠和精確的旋轉表示。
1.3" 算法設計
在算法設計中,采用MediaPipe Holistic算法作為人體關鍵點提取模型,以解決關鍵點三維坐標信息的識別與提取問題,并處理視頻流分辨率、幀率問題。后續,對提取到的坐標信息基于物理動學方程使用向量法進行分析與計算,以得到關節運動時的角度信息[12-15]。
系統的運動算法采用向量法計算關節轉動角度,通過二維向量角公式求解對應骨骼之間的角度信息,這簡化了算法模型,降低了計算過程中的參數量,提升了運算效率。本文設計了一套皮影運動算法,用于確定任務模型骨骼旋轉量,計算并估計根關節的位置以及各個關節的旋轉信息。算法中,節點的Z軸和Y軸方向在運動過程中始終保持相互垂直,以達到精準指向。為保證運動方向的正確,將所有的關節都利用初始旋轉量(InitRotation)做了當前關節的旋轉量(LookRotation)對齊,得到了一個中間矩陣(Intermediate matrix),通過Intermediate matrix,就能夠在骨骼驅動的過程中使各個骨骼點的坐標系統一起來。對于某些特定的關節,需要單獨設置用計算中間變換矩陣關節旋轉量(LookRotation)信息,在實際模型中做了軀干、頭和手掌的獨立中間變換矩陣。式(9)可表示為LookRotation計算公式,LR表示當前關節旋轉量(LookRotation),IR表示初始旋轉量(InitRotation),IM表示中間矩陣(Intermediate matrix)。
(9)
通過LookRotation公式,得到了每個關節的對齊矩陣信息,再通過Rotation(旋轉量)計算公式,得到每個關節的當前旋轉信息,對齊矩陣是從初始姿態中獲取的,通過深度學習預測的3D關節坐標中計算對應的LookRotation參數,再通過Rotation計算公式,計算出實時的關節旋轉量,模型即可根據實時的當前Rotation進行動作模仿。式(10)可表示為Rotation計算公式,R表示旋轉量(Rotation),LR表示當前關節旋轉量(LookRotation),IM表示中間矩陣(Intermediate matrix)。
(10)
2" 系統改進與測試
對于原始的模型來說,皮影系統的幀速率(FPS)和交互性能還達不到理想的要求,對此本文進行了一系列的改進。
在人體姿態估計中,姿態、照明、遮擋和低分辨率等情況都是任務中的關鍵障礙。為此,針對皮影的表演特點,本文提出了新的人體關鍵點防遮擋策略。當人體的某一個關鍵點被物體遮擋時,防遮擋算法可以將遮擋點的對稱點反轉到遮擋點,具體做法為將對稱點的關節轉動量反映到遮擋點的關節轉動量上,可以實現對稱點與遮擋點同步運動。即使人體某個關鍵點被物體短暫地遮擋了,依然可以預測人體關鍵點的位置,不至于丟失關鍵點位置,實現了皮影機器人能夠更流暢地做出動作。
同時,在實際應用場景中,皮影系統的攝像頭選用的是成本更低的單目攝像頭,因此系統應將二維的檢測點轉換成三維立體的信息。
本文提出了針對皮影基于透視投影約束的三維關鍵點優化方案[16]。首先,對輸入圖像中的噪聲利用透視投影矯正方法進行優化處理;其次,在更緊湊的運動空間中,用人體拓撲對關節運動進行顯式分解,得到更緊湊、更易于估計的三維靜態結構,進一步估計三維關鍵點信息;最后,剔除處理得到的不可靠估計的3D關鍵點信息并細化關鍵點信息。
通過三維關鍵點優化方案,系統能夠在不同環境中識別人體運動,減少了背景和噪聲的干擾,更準確地捕捉到人體姿態和動作,同時忽略背景干擾,從而提高了系統的穩定性和可靠性,能夠適應更極端的環境,為各種實際應用場景提供了更為可靠的解決方案。
式(11)為投影變換矩陣M,其中N為攝像頭到近裁剪平面的距離,F為攝像頭到遠裁剪平面的距離。
(11)
帶有噪聲的情況下,仍然可以實現實時人體姿態估計的效果。在加入卡爾曼濾波處理后,能夠有效消除皮影系統出現過多抖動的情況,使皮影系統的動作更加流暢。式(12)~式(16)分別為計算向前推算狀態變量、卡爾曼增益、zk更新估計、誤差協方差、向前推算誤差協方差的計算式:
(12)
(13)
(14)
(15)
(16)
在算法計算層面,采用了權值共享和權重矩陣剪枝策略。在權值量化層面,將模型的權值參數從32位浮點數量化為8位的定點數,使參數大小縮小為原來的1/4,整個模型的大小也隨之縮小為原來的1/4,從而有效地減少網絡參數計算量,加快運算速度[17-19]。
由于本皮影系統選用的上位機為Jetson AGX,因此本文使用TensorRT進行加速[20-21],使得訓練的模型在測試階段的速度加快。由于在Jetson AGX上實時推理人體姿態模型的檢測速度較慢,在應用TensorRT加速后,能夠有效地提升模型在Jetson AGX上的運行速度。
為確保本文所提出的各個模塊是有效的,針對各個模塊進行了實驗對比。實驗對比結果顯示,原模型MediaPipe的準確率為95.42%,幀速率為23幀/秒;在添加了卡爾曼濾波處理、模型輕量化處理、TensorRT加速混合模塊后,準確率為96.23%,幀速率FPS為33,說明本文添加的模塊是可行且有效的。實驗結果如表1所示。
3" 結" 論
本文提出了一套基于人體姿態估計的多維交互智能皮影系統。首先,該皮影系統由皮影機器人和虛擬皮影兩大部分組成,具備實時交互、視頻交互、語音交互、手勢交互等多種交互方式。由于皮影運動對實時性要求較高,因此本文訓練出的人體姿態估計模型具有較高的精度和較快的幀速率。同時,本研究提出了防遮擋策略、基于透視投影約束的三維關鍵點優化方案、卡爾曼濾波等多模塊,并將它們應用到皮影系統上。經過實驗驗證,本文所提出的模型在皮影系統上的準確率和幀速率(FPS)均優于原模型,由此論證了本文模型改進的正確性。
本文的主要貢獻如下:一是創造性地將類人體機械結構與傳統皮影相結合,開發了新的機械結構,為未來的研究提供了新的發展方向;二是利用人體姿態估計模型和運動算法計算骨骼旋轉角度,使皮影系統具有較高的自由度。基于人體姿態估計的皮影系統為傳統文化傳承提供了新的思路,具有重要的應用價值。
參考文獻:
[1] 歐陽軍喜,崔春雪.中國傳統文化與社會主義核心價值觀的培育 [J].山東社會科學,2013(3):11-15.
[2] 李宗桂.試論中國優秀傳統文化的內涵 [J].學術研究,2013(11):35-39.
[3] 張宇,溫光照,米思婭,等.基于深度學習的二維人體姿態估計綜述 [J].軟件學報,2022,33(11):4173-4191.
[4] 孔英會,秦胤峰,張珂.深度學習二維人體姿態估計方法綜述 [J].中國圖象圖形學報,2023,28(7):1965-1989.
[5] 曹曉瑜,夏端峰.基于深度學習的人體姿態估計方法綜述 [J].現代信息科技,2022,6(23):1-6.
[6] 廖海燕,王婧怡,希治遠,等.一種用于皮影戲表演的可擴展機器人裝置 [J].電子制作,2022,30(18):83-85+89.
[7] 崔鑫,王新懷,徐茵,等.機電一體化的智能皮影表演系統 [J].電子產品世界,2020,27(9):50-52.
[8] 倪廣興,徐華,王超.融合改進YOLOv5及Mediapipe的手勢識別研究[J].計算機工程與應用,2024,60(7):108-118.
[9] 陳敬宇,徐金,羅容,等.基于手勢識別的3D人機交互系統 [J].現代信息科技,2023,7(22):88-91.
[10] 王楓.無傳感器無刷直流電機控制系統研究與設計 [D].蘇州:蘇州大學,2020.
[11] LIU Z C,LI Y D,ZHENG Z D. A Review of Drive Techniques for Multiphase Machines [J].CES Transactions on Electrical Machines and Systems,2018,2(2): 243-251.
[12] 王楚.仿人機械臂的運動規劃與優化算法研究 [D].杭州:浙江大學,2018.
[13] 袁蒙恩.基于單目視覺估計的機械臂運動規劃算法 [D].開封:河南大學,2020.
[14] 黃水華.多約束下的機械臂運動控制算法研究 [D].杭州:浙江大學,2016.
[15] 朱宇輝.基于Kinect的機械臂人機交互控制系統設計 [D].綿陽:西南科技大學,2016.
[16] 張峻寧,蘇群星,劉鵬遠,等.一種基于透視投影的單目3D目標檢測網絡 [J].機器人,2020,42(3):278-288.
[17] 符惠桐.基于深度學習的目標識別輕量化模型研究 [D].西安:西安工業大學,2022.
[18] 袁哲明,袁鴻杰,言雨璇,等.基于深度學習的輕量化田間昆蟲識別及分類模型 [J].吉林大學學報:工學版,2021,51(3):1131-1139.
[19] XIONG B,SUN Z Z,WANG J,et al. A Lightweight Model for Ship Detection and Recognition in Complex-Scene SAR Images [J]. Remote Sensing,2022,14(23):6053.
[20] LIU Z Q,DING D. TensorRT Acceleration Based on Deep Learning OFDM Channel Compensation [J/OL].Journal of Physics: Conference Series,2022,2303(1):012047[2025-02-14].https://iopscience.iop.org/article/10.1088/1742-6596/2303/1/012047.
[21] YEGULALP S. Nvidia's New TensorRT Speeds Machine Learning Predictions [EB/OL].[2025-02-14].https://www.infoworld.com/article/2253746/nvidias-new-tensorrt-speeds-machine-learning-predictions.html.
作者簡介:趙健文(2004—),男,漢族,廣東江門人,碩士研究生在讀,研究方向:深度學習理論與應用、計算機視覺;曾軍英(1977—),男,漢族,江西贛州人,教授,博士,研究方向:圖像處理、深度學習理論與應用、信息處理、機器視覺;通信作者:秦傳波(1982—),男,漢族,安徽宿州人,副教授,博士,研究方向:醫學影像處理、生物特征識別。