







摘 要:為了實現體育訓練關鍵動作的精準定位,提出基于弱監督信息的體育訓練關鍵動作定位方法。本文基于分析幀間差分法采集能夠組成連續靜態幀的視覺圖像,并通過多幀圖像的像素差異來檢測運動目標,實現視頻幀圖像中的體育訓練動作檢測;對視頻幀二值圖像進行形態學處理,提取體育訓練關鍵運動特征;利用BP神經網絡構建分類器,提取包含關鍵動作的弱監督信息;創新性地基于弱監督學習思路,設計包含視頻特征提取模塊、視頻幀級動作分類模塊、上下文注意力模塊的弱監督學習框架,進行體育訓練關鍵動作定位。實驗結果表明:利用本文的設計方法可以產生較準確的訓練關鍵動作時序定位效果,所獲取的mAP值最高值為49.52、最低值為25.63。在應用過程中所產生的實際內存占用量為2 145MB、參數量為15.3M、整體定位消耗時間為8.36ms,算法整體復雜度較低,具有較好的實際應用效果。
關鍵詞:弱監督信息;體育訓練;動作定位;圖像處理
中圖分類號:TP391.6文獻標識碼:A文章編號:1673-260X(2024)11-0017-05
體育訓練視頻中通常承載著大量的運動員動作信息以及運動訓練環境背景信息,如運動姿勢、速度呈現、運動方向以及訓練環境上下文信息等,包含了體育訓練過程與運動動作的視覺記錄,是呈現運動員體育訓練實時動作的重要載體[1,2]。而體育訓練關鍵動作定位的目的是需要在訓練視頻中標記出具有時序關系的關鍵訓練動作,以此對應地提升體育訓練動作準確性,優化體育訓練效果。郭文斌等人提出一種考慮多時間尺度一致性的體育訓練動作定位方法,基于訓練視頻的時序關系,對應構建包含多時間尺度信息的特征激活圖,有效獲取了動作預測標簽,實現訓練動作的有效定位[3]。王靜等人提出一種基于特征挖掘技術的動作定位方法,通過計算訓練視頻片段的相似分數,聚合包含上下文的視頻信息,有效實現訓練動作的完整定位[4]。侯永宏等人提出一種多分注意力單元的動作定位系統架構,通過應用多分注意力機制,對視頻中的多片段分別進行建模,有效細化提取視頻動作特征,實現動作時間的精準感知[5]。基于此,提出基于弱監督信息的體育訓練關鍵動作定位方法。
1 體育訓練關鍵動作定位方法設計
1.1 體育訓練動作檢測
在體育訓練的實踐中,考慮到體育訓練中關鍵動作的連續性與動態性,在體育訓練關鍵動作定位前,需要采用高分辨率的幀掃描技術,對訓練視頻進行連續幀數分割,獲取多個視頻塊。再基于每個視頻塊,通過幀間差分法采集能夠組成連續靜態幀的機器視覺圖像[6,7],捕捉訓練動作在某一時刻的具體狀態,實現體育訓練動作檢測,為弱監督學習提供數據基礎。高分辨率幀掃描技術在體育訓練中的應用,主要依賴于其能夠提供精細的圖像細節和連續的動態捕捉能力。該技術通過高速攝像設備捕捉訓練過程中的每一幀畫面,確保每一動作的細微變化都能被精確記錄。在實際操作中,訓練視頻首先被輸入高分辨率幀掃描系統中,系統會根據預設的參數自動進行幀數分割,將整個訓練過程分解為一系列連續的視頻塊。這些視頻塊不僅包含了動作的完整信息,還保留了動作間的動態聯系,為后續的動作分析和檢測提供了堅實的基礎。通過這種方式,高分辨率幀掃描技術不僅提高了訓練視頻的分析效率,還極大提升了動作捕捉的準確性和連續性。
在獲取視頻塊的過程中,首先需要對經過高分辨率幀掃描技術分割后的視頻進行細致的分析。這一步驟至關重要,因為它直接影響到后續處理的質量和效率。通過對視頻的每一幀進行精確的定位和切割,可以確保每個視頻塊都包含關鍵動作的完整信息。這些視頻塊不僅保留了動作的連續性,還捕捉到了動作的動態變化,為后續的幀間差分法提供了豐富的數據源。在處理每個視頻塊時,需要特別注意保持幀與幀之間的連貫性,確保從每個視頻塊中提取的靜態幀能夠準確反映動作在某一時刻的具體狀態。這一過程不僅需要技術上的精確操作,還需要對體育訓練動作有深入的理解和分析,以確保最終的圖像數據能夠為體育訓練動作檢測提供堅實的基礎。
定義采集到的體育訓練動作視頻塊為Q,體育訓練視頻幀圖像為q。為了便于進行體育訓練動作檢測,對視頻幀圖像進行灰度處理,通過灰度色彩空間轉化,將色彩信息轉化為單一亮度值,以簡化視頻幀圖像,具體過程為:
=0.299R1(m1′,m2′)+0.587R2(m1′,m2′)
+0.114R3(m1′,m2′)(1)
式中:表示經過灰度色彩空間轉化后的單色圖像;m1′、m2′表示q中的像素值;R1(m1′,m2′)、R2(m1′,m2′)、R3(m1′,m2′)表示原始彩色圖像中像素m1′、m2′的顏色通道值;0.299、0.587、0.114分別對應各顏色通道亮度值的加權平均結果。
基于,定義前一幀圖像為-1,后一幀圖像為+1,通過差分運算生成差分圖像為:
′(m1′,m2′)=|[+1(m1′,m2′)]-[-1(m1′,m2′)]| (2)
式中:′(m1′,m2′)表示差分運算后的差分圖像。
在獲取′(m1′,m2′)的基礎上,將′(m1′,m2′)作為固定差分值。定義一個閾值?啄,用于判斷差分圖像中的像素是否代表動作,如果′(m1′,m2′)中某個像素的值超過了?啄,則判定該像素點位置是體育訓練動作產生的位置。則視頻幀二值圖像計算過程為:
\"(m1′,m2′)=1,|′(m1′,m2′)|gt;?啄0,|′(m1′,m2′)|≤?啄(3)
式中:\"(m1′,m2′)表示二值圖像。
若差分值大于?啄,則\"(m1′,m2′)設為1,表示該像素點位置有動作發生;如果差分值小于或等于?啄,則\"(m1′,m2′)設為0,表示該像素點位置沒有動作發生。以此通過多幀圖像的像素差異來檢測運動目標,實現視頻幀圖像中體育訓練動作檢測。
1.2 體育訓練關鍵運動特征提取
考慮到二值圖像存在噪聲干擾情況,容易影響訓練動作發生位置判別的準確性,導致視頻運動特征提取結果出現冗余與特征點丟失情況,因此對\"(m1′,m2′)進行形態學處理,去除噪聲點和不重要的孤立像素[8],連接相鄰的動作區域,實現二值圖像中像素位置的更新,以確定動作發生的最終位置,具體過程為:
\"(m1\",m2\")={1|c1,c2∈S(m1′,m2′),\"(c1,c2)}(4)
(m1?蓯,m2?蓯)={1|c1,c2∈(m1′,m2′),\"(c1,c2))}(5)
\"(m1\",m2\")=[(\"(c1,c2))](6)
式中:(m1\",m2\")表示腐蝕后的圖像在(m1\",m2\")處的值;c1,c2表示原始二值圖像位置;S表示膨脹處理過程中引入的3×3的結構元素(二值矩陣); (m1?蓯,m2?蓯)表示膨脹后的圖像在(m1?蓯,m2?蓯)處的值;\"(m1′,m2′)表示融合腐蝕-膨脹操作的運算結果;表示腐蝕處理過程中引入的3×3的結構元素。
基于式(4)—式(6)的形態學處理過程,進行二值圖像中像素位置更新。將結構元素在(m1?蓯,m2?蓯)上滑動,使得其的中心與c1,c2對齊。如果覆蓋的所有像素位置在\"(m1′,m2′)中的對應值全部為1,則(m1?蓯,m2?蓯)=1,表示該像素點位置有動作發生;對于腐蝕后的圖像(m1\",m2\")中的每個像素位置c1,c2,將結構元素S在圖像(m1\",m2\")上滑動,使得S(m1′,m2′)的中心與c1,c2對齊。如果S覆蓋的任何像素位置在(m1\",m2\")中對應的值是1,則(m1\",m2\")=1。
通過分析形態處理過程中二值圖像中的像素點位置,定義動作區域為(m1?蓯m1\",m2?蓯m2\")。對Q進行裁剪,獲取包含動作的視頻幀圖像片段Qm?蓯,m\",其中m?蓯、m\"均表示片段中連續靜態圖像的像素位置。
設定a為Qm?蓯,m\"中具有穩定結構特性的輪廓起點(本文選為人體頭部頂點),為上半身輪廓終點,即運動員手部移動邊緣點,為下半身身體輪廓終點,即運動員腳底邊緣點。提取Qm?蓯,m\"中的體育訓練運動輪廓為A且A=[a1(1+1),a2(2+2),…,an(n+n),其中n表示視頻輪廓點采集總量[9]。為了分析運動輪廓呈現的關鍵動作特征,將A視為一個時間序列信號,其中每個輪廓點對應時間序列中的一個樣本。再通過傅里葉變換提取輪廓的低頻和高頻成分,得到輪廓序列的頻域表示X(k),k=0,1,2,…,n-1,對應輪廓的總體形狀變化和局部細節變化[10]。從X(k)中提取前個傅里葉系數作為體育訓練運動特征描述子X(0),X(1),…,X(-1),提取的描述子即為保留了輪廓主要形狀信息的關鍵動作特征分量[11]。再對提取的傅里葉系數進行歸一化處理提取關鍵動作特征向量為:
(k)=,k=1,2,…,-1(7)
式中:(k)表示歸一化后的體育訓練關鍵動作特征向量。
1.3 基于弱監督信息的體育訓練關鍵動作定位
1.3.1 包含關鍵動作的弱監督信息提取識別
考慮到(k)中包括了從Qm?蓯,m\"中提取出的較為全面的關鍵動作特征(即可以通過(k)描述Qm?蓯,m\"),因此,將(k)作為輸入,利用BP神經網絡構建分類器,輸出體育訓練關鍵動作分類結果,再根據輸出結果選取Qm?蓯,m\"中被分類為包含關鍵動作的幀,這些幀將構成視頻段中的關鍵動作片段[12]。用于構建分類器的BP神經網絡結構如圖1所示。
由圖1可知,BP神經網絡中每個神經元接收來自前一層神經元的輸入,并將所有輸入值與其對應的權重相乘,對乘積結果進行求和,獲取所有輸入通過各自權重加權后的綜合影響[13]。然后應用softmax函數來決定是否以及如何將信號傳遞到下一層。當隱含層的輸出進一步傳遞到輸出層后,應用交叉熵損失函數衡量網絡輸出與真實標簽之間的差異[14],幫助網絡優化權重,使得網絡能夠更準確地識別出視頻中的關鍵動作,輸出最終體育訓練關鍵動作分類結果Y(1)、Y(2)、Y(3),獲取包含關鍵動作的視頻幀圖像片段,其中y′、y\"表示被分類為包含關鍵動作的幀。
此時,由于輸出的僅包含關鍵動作的視頻幀,整體片段未經過詳細的動作邊界標注(僅簡單地標記了包含關鍵動作的幀),因此將作為包含關鍵動作的弱監督信息提取結果。
1.3.2 基于弱監督學習的體育訓練關鍵動作定位
為了實現體育訓練關鍵動作的精準定位,設計包含視頻特征提取模塊、視頻幀級動作分類模塊、上下文注意力模塊的弱監督學習框架[15],進行體育訓練關鍵動作定位。基于弱監督學習的動作定位方法框架如圖2所示。
基于圖2方法框架,在特征提取模塊,為了有效處理數據,本文應用I3D深度學習模型,提取的空間流與時間流特征,即處理視頻的靜態幀與時間動態。在視頻幀級動作分類模塊,本文基于卷積神經網絡構建分類模型,首先從的每一幀中提取雙流特征,再將特征傳輸至后續層進行幀級處理,識別視頻幀中的潛在動作。對于每一幀,CNN模型會輸出一個激活向量,這個向量代表了模型對每一幀屬于不同類別的可能性估計,即該模型最終對視頻中每一幀生成一個分類激活值的序列。在上下文注意力模塊中,主要涉及了包含上下文以及視頻幀級圖像動作背景分布結構,用于提取動作幀與上下文幀特征,并生成包含時序信息的背景類別標簽。在獲取類別標簽的基礎上,基本上實現了弱監督學習模型的訓練,此時需要對分類激活序列進行置信度閾值調整、分類輸出聚類以及弱監督信息的標注修正,以此完成體育訓練關鍵動作定位。
2 實驗分析
2.1 實驗環境搭建
為了驗證設計方法的實際應用效果,采集選擇24個運動員進行日常體育訓練,在訓練過程中記錄運動員演示的各種體育動作,共獲得210條體育訓練視頻,構成實驗數據集。數據集中包含16類體育訓練動作,關鍵動作為5類,分別為上肢伸肌屈伸動作、雙腳前后跳動作、站立提膝動作、碎步跑動作、開合波比跳動作。視頻長度在40s~110s不等,每條視頻約平均包含8.5個動作片段。采用數據集中100條具有時序信息的視頻作為訓練集,另110條視頻作為測試集,進行實驗測試。數據集中閾值IoU范圍為0.3~0.7,平均間隔為0.1。數據集中部分視頻片段如圖3所示。
基于采集的視頻數據,進行體育訓練關鍵動作定位方法性能測試,測試環境為:Intel Core i7-10700K中央處理器,8核心16線程、基礎頻率3.8GHz、最大睿頻5.1GHz;NVIDIA GeForce RTX 3080圖形處理器,10GB GDDR6X顯存、8704 CUDA核心、基礎頻率1.44GHz;Samsung 970 EVO Plus 1TB存儲設備;Magewell USB Capture HDMI Gen 2視頻采集卡、Ubuntu 20.04 LTS操作系統、OpenCV 4.5.1視頻處理庫。
2.2 體育訓練關鍵動作識別效果分析
為了驗證設計方法的關鍵動作識別效果,采用訓練集構建關鍵動作識別模型(基于BP神經網絡的分類器模型),利用設計方法、文獻[3]方法、文獻[4]方法對測試集進行關鍵動作識別效果驗證。在測試過程中,將上肢伸肌屈伸動作、雙腳前后跳動作、站立提膝動作、碎步跑動作、開合波比跳動作等5類關鍵動作作為識別目標,通過分析設計方法對目標的誤識率,判斷關鍵動作識別有效性,體育訓練關鍵動作識別有效性結果如圖4所示。
由圖4可知,在體育訓練關鍵動作識別過程中,利用文獻[3]方法獲取的關鍵動作誤識率最高值為62.5%,利用文獻[4]方法的誤識率最高為68%,方法整體動作目標誤識率均較高。而利用設計方法對5種關鍵動作的誤識率均未超過10%,對于雙腳前后跳動作的誤識率最高為9.8%,誤識率結果整體低于其他兩種算法。由此可知,利用本文的設計方法可以有效識別體育訓練視頻中包含關鍵動作的視頻幀,使體育動作識別整體結果的有效性較強,識別效果較好。
2.3 體育訓練關鍵動作定位效果分析
為了驗證本文設計方法的體育訓練關鍵動作定位效果,引入文獻[3]方法、文獻[4]方法作為對比方法將每一視頻幀的標記定位任務作為一個動作檢索問題進行處理。將110條測試數據集中所有幀進行動作分類排序,再對所有類進行平均計算,得到定位精度均值(mAP)。基于上述過程,本文將實驗數據集的重疊閾值IoU范圍定位在0.3~0.7中,對比分析不同方法在閾值范圍所產生的mAP值,不同方法體育訓練關鍵動作定位mAP值如表1所示。
由表1可知,在IoU閾值范圍內,利用本文設計方法所獲取的mAP值最高值為49.52,最低值為25.63,整體定位精度均高于其他方法。由此可知,利用本文設計方法可以產生較準確的訓練關鍵動作時序定位效果,能夠在整體定位過程中得到更加精確的關鍵動作區域,定位結果精度較高。
2.4 定位方法復雜度分析
為了分析關鍵動作定位方法在實際應用過程中的綜合性能表現,將定位方法在實際應用中所需的運行時間、參數量、內存占用量作為評價指標,分析設計方法、文獻[3]方法、文獻[4]方法的復雜度,評價方法的實用性與應用效率。定位方法復雜度分析結果如表2所示。
由表2可知,在體育訓練關鍵動作識別過程中,利用設計方法所產生的實際內存占用量為2 145MB、參數量為15.3M、整體定位消耗時間(包括具有時序信息的動作定位結果輸出過程)為8.36ms,算法整體復雜度較低,表示模型結構更精簡,運行成本較低,能夠提供快速的實時反饋,同時減少了對高性能硬件的依賴。
3 結論
綜上所述,本文設計的動作定位方法能夠在不需要大量精確標注的情況下,有效實現體育訓練關鍵動作的識別與定位,有效提升了體育訓練關鍵動作分析的準確性。本文通過檢測體育訓練動作,提取體育訓練關鍵運動特征,獲取包含體育訓練關鍵動作的弱監督信息。基于此,將弱監督信息作為弱監督學習的輸入,設計視頻特征提取模塊、視頻幀級動作分類模塊、上下文注意力模塊進行關鍵動作定位。實驗結果表明:利用設計方法可以有效識別體育訓練視頻中包含關鍵動作的視頻幀,使體育動作識別整體結果的有效性較強,識別效果較好。同時,利用設計方法還能夠在整體定位過程中得到更加精確的關鍵動作區域,定位結果精度較高。
參考文獻:
〔1〕劉和軍.基于深度學習的體操錯誤訓練動作識別方法[J].信息技術,2023,47(02):46-51.
〔2〕徐林森,張恒瑋,陳根,等.采用深度學習和表面肌電信號的上肢動作識別[J].哈爾濱理工大學學報,2023,28(06):24-32.
〔3〕郭文斌,楊興明,蔣哲遠,等.多時間尺度一致性的弱監督時序動作定位[J].計算機工程與應用,2023, 59(10):151-161.
〔4〕王靜,王傳旭.特征挖掘與區域增強的弱監督時序動作定位[J].計算機應用研究,2023,40(08):2555-2560.
〔5〕侯永宏,李岳陽,郭子慧.基于對比學習的弱監督時序動作定位[J].天津大學學報,2023,56(01):73-80.
〔6〕董春麗,胡賢芬.融合幀內與幀間技術的數字視頻篡改檢測方法[J].計算機仿真,2023,40(06):182-186.
〔7〕劉思楊,程方.一種融合背景差分和幀間差分的運動目標檢測方法[J].艦船電子工程,2024,44(02):45-48.
〔8〕寧明峰.一種信號檢測預處理的改進多尺度形態學濾波方法[J].電訊技術,2023,63(04):499-504.
〔9〕李豪,袁廣林,秦曉燕,等.基于空間加權對數似然比相關濾波與Deep Snake的目標輪廓跟蹤[J].電子學報,2023,51(01):105-116.
〔10〕張印輝,海維琪,何自芬,等.尺度自適應生成調控的弱監督視頻實例分割[J].光學精密工程,2023, 31(18):2736-2751.
〔11〕游前,翁慧,趙江,等.基于改進Goldstein枝切法的傅里葉變換輪廓術[J].光學學報,2023,43(05):70-79.
〔12〕黃富幸,韓文花.基于Voting機制的IMA-BP不平衡數據分類算法[J].科學技術與工程,2023,23(27):11698-11705.
〔13〕趙楊鑫,曹旭,余志強,等.基于殘差BP神經網絡的Baxter機器人逆運動學分析方法[J].安徽工業大學學報(自然科學版),2024,41(02):165-172.
〔14〕李偉,黃鶴鳴.基于雙交叉熵的自適應殘差卷積圖像分類算法[J].計算機工程與設計,2023,44(12):3670-3676.
〔15〕侯永宏,李岳陽,郭子慧.基于對比學習的弱監督時序動作定位[J].天津大學學報(自然科學與工程技術版),2023,56(01):73-80.
收稿日期:2024-07-17
基金項目:安徽省質量工程重點教學研究項目(2023jyxm0783)