




摘 要:【目的】為了給用戶提供個性化健身指導,設計出一種基于LLM大語言模型和計算機視覺(CV)的AI個人健身教練系統。【方法】采用PP-TinyPose進行關鍵點匹配,并使用微調后的InternLM2大語言模型,使系統能通過攝像頭捕捉用戶運動姿態并進行分析,從而提供個性化的健身指導。【結果】測試結果表明,該系統能準確識別運動姿態,并提供實時反饋和建議,顯著提高健身效果。【結論】基于PP-TinyPose和微調后的InternLM2模型的AI健身教練系統能為用戶提供有效的個性化健身指導,具有廣泛的應用前景。
關鍵詞:人工智能;PP-TinyPose;XTuner;InternLM2;個人健身教練
中圖分類號:TP18;TP391.41" "文獻標志碼:A" "文章編號:1003-5168(2025)02-0024-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.02.005
Abstract:[Purposes] To provide personalized fitness guidance to users, an artificial intelligence (AI) personal fitness coach system based on a large language model (LLM) and computer vision (CV) is proposed. [Methods] The system utilizes PP-TinyPose for key point detection and a fine-tuned InternLM2 large language model. By capturing and analyzing users' exercise postures through the camera, the system generates personalized fitness guidance.[Findings] The test results demonstrate that the system can accurately recognize exercise postures and provide real-time feedback and suggestions, significantly improving fitness outcomes. [Conclusions] The AI fitness coach system proposed in this paper, based on PP-TinyPose and the fine-tuned InternLM2 model, effectively provides users with personalized fitness guidance and shows great potential for wide application.
Keywords: AI; PP-TinyPose; XTuner; InternLM2; certified personal trainer
0 引言
隨著健康知識的普及和生活水平的提升,人們越來越重視身體健康。然而,對于缺乏專業指導的初學者,想要掌握正確的運動姿勢和有效的訓練方法并不容易,而健身教練現場指導的高昂費用和時間、地點的限制一直困擾著健身愛好者。AI個人健身教練系統作為新型的“AI+體育”[1]健身指導方式,能提供個性化、低成本的服務。通過AI和CV技術,可開發出虛擬AI個人健身教練系統,通過嵌入式設備和輔助系統[2]提供實時、個性化的指導,幫助用戶糾正動作,制定科學的健身計劃,提高訓練效果,減少受傷風險。這種方式不僅成本低,還能極大地提高健身的便利性和可達性。
本研究利用大語言模型實現對話功能,提供個性化健身建議和指導。研究內容如下:基于健身訓練特點,利用大語言模型原理和實現方法進行優化;構建健身訓練對話數據集,利用大語言模型進行訓練和優化;根據用戶問題和需求,實現個性化回答和建議,提供實時交互和幫助。在實際應用中,健身訓練數據的個性化和特殊性可能導致大語言模型無法直接應用。利用XTuner[3]微調技術,對大語言模型進行少量數據集微調,提高用戶訓練效果和體驗。通過以上研究,本研究可實現基于計算機視覺和自然語言處理技術的AI個人健身教練系統,從而為初學者提供個性化、實時和高精度的健身訓練指導和幫助。
1 關鍵技術
PaddlePaddle擁有豐富的模型庫和工具鏈路支持,PP-TinyPose能實時檢測人體關鍵點,InternLM2結合XTuner微調技術,可對健身場景進行場景優化,從而提供自然流暢的多輪對話體驗。
1.1 PaddlePaddle
PaddlePaddle是由百度研發并維護的開源深度學習框架。在AI個人健身教練項目中,使用PaddlePaddle對人體姿態估計模型進行訓練和部署。
1.2 PP-TinyPose和PPicoDet
PP-TinyPose是一種為移動和實時應用設計的輕量級人體姿態估計模型,是PaddleDetection項目中基于PicoDet優化的實時關鍵點檢測模型,適用于移動設備上的多人姿態估計任務。使用PP-Tinypose[4]算法對人物身體關鍵點進行檢測和匹配,結果如圖1所示。該算法用于檢測和匹配關鍵點,并基于匹配結果識別和評估健身動作,為用戶提供實時反饋和指導。
PP-PicoDet由百度公司開發,具有低參數量、高效率和高準確率的目標檢測性能,其關鍵技術包括網絡架構優化、特征融合策略、動態標簽分配策略、損失函數優化、神經網絡架構搜索及其他策略。
PP-PicoDet架構如圖2所示。PP-PicoDet在移動設備上具有優異的目標檢測性能,其小模型(PicoDet-S)在保持0.99 M參數量的同時,達到30.6%的mAP,超越了其他輕量級模型。
1.3 InternLM2大語言模型
InternLM2[5]由上海人工智能實驗室、商湯科技集團和香港中文大學聯合開發,是一個開源的大型語言模型(LLM),在長文本建模和開放式主觀評估方面表現卓越。
1.4 XTuner
XTuner是一個高效、靈活、全能的輕量化大模型微調工具庫,支持大語言模型和多模態圖文模型的預訓練和微調,適用于8 GB顯存下的7 B模型和多節點跨設備的更大尺度模型。
2 設計與實現
2.1 系統架構
AI個人健身教練系統由多個模塊組成,包括數據采集模塊、姿態估計模塊、對話生成模塊、模型微調模塊和反饋模塊。系統架構如圖3所示。
數據采集模塊通過攝像頭實時獲取用戶的健身視頻,并將視頻幀傳輸至姿態估計模塊中進行處理。
模型微調模塊使用Xtuner對預訓練的大語言模型進行微調,確保其能準確生成針對健身和營養的建議和對話。
反饋模塊結合用戶的動作識別結果和對話生成結果,實時提供個性化健身指導和營養建議。該模塊通過API與其他模塊進行數據交換,實現系統的整體功能。
2.2 姿態估計與識別
2.4 系統實現
系統界面和姿態識別如圖5所示。系統采用Qt開發,提供跨平臺的圖形用戶界面,利用模塊化設計,各模塊通過API通信,保證靈活性和可擴展性。實現過程如下。
①前端界面。使用Qt開發,提供用戶友好的交互界面,支持跨平臺操作。
②后端服務。采用Python和Flask框架實現處理數據采集、姿態估計和對話生成等功能。
③數據處理。系統不存儲用戶數據,所有數據處理均在內存中進行,確保用戶隱私和數據安全。
系統整體架構保證了高效的數據處理和實時反饋,為用戶提供個性化的健身指導和營養建議。
2.5 PP-Tinypose關鍵點匹配的算法和XTuner微調的實現
在處理骨骼點數據時,首先根據人體檢測框對數據進行歸一化處理,實現數據的標準化,確保不同尺寸和姿態的人體數據能進行有效比較。其次使用余弦距離計算不同骨骼點數據之間的相似度,從而快速評估兩個姿態或動作的相似性。上述過程的實現代碼如下。
3.2 結果分析
對LLM個性化對話表現分析后發現,InternLM2模型通過XTuner微調后,在健身指導對話中表現出色,能準確理解用戶需求,并提供個性化建議,展示出大語言模型在個性化對話指導中的潛力。未來,可優化對話數據集,增強復雜對話場景表現。
對帕梅拉動作識別表現分析后發現,PP-TinyPose模型在動作識別中具有高精度和實時性的特點,表明其在健身指導中具有廣闊的應用前景。然而,在復雜動作或快速運動中,檢測精度仍需提升。未來,可引入多樣化數據集和改進模型結構,提高動作識別的準確性和魯棒性。
4 結語
本研究使用Python和計算機視覺技術開發出AI個人健身教練系統,通過PaddlePaddle深度學習框架和PP-Tinypose人體姿態估計算法,完成健身動作的關鍵點檢測和匹配;采用XTuner微調技術,提高大模型的健身動作識別準確性。通過對LLM和PP-TinyPose模型的測試與分析,驗證AI個人健身教練系統在個性化對話和動作識別方面的有效性。在項目實現過程中,還設計了用戶友好界面,支持自定義健身計劃,并提供實時的健身動作反饋和糾錯建議。測試結果顯示,優化和微調后的模型能提供準確、實時和個性化的健身指導,并帶來良好的用戶體驗。未來,可聚焦于提升模型的泛化能力和用戶交互體驗,進一步完善AI健身教練系統。
參考文獻:
[1]張榜顯.“AI+體育”助力全民健身公共服務數字創新發展研究[C]//中國體育科學學會.第十三屆全國體育科學大會論文摘要集:墻報交流(體育信息分會).2023:163-165.
[2]王暢.基于人體姿態估計的嵌入式AI健身輔助訓練系統研究[D].重慶:西南大學,2024.
[3]HU E J,SHEN Y L,WALLIS P,et al.LoRA: Low-rank adaptation of large language models[J].arXiv,2021.
[4]YU G H,CHANG Q Y,LV W Y,et al.PP-PicoDet: A better real-time object detector on mobile devices[J].arXiv,2021.
[5]CAI Z,CAO M S,CHEN H J,et al.Internlm2 technical report[J].arXiv,2024.