賀 莉,李慧萌,金慶凱,趙樹桐
(皖西學院 體育學院,安徽 六安 237012)
隨著健美操事業的發展,運動員的技術水平得到了大幅度的提高。在健美操運動競技中,運動員對于高難度動作技術的掌握是獲得勝利的核心[1]。在一些國際比賽中不難看出,國內健美操運動員與國外運動員之間的差距主要來自高難度動作,成套中難度動作整體布局均衡性不夠,健美操運動員對高難度運動的完成質量也比較差[2]。針對這種問題,有專家建議采用錄像分析法來訓練運動員的動作技術,提高競技水平,主要目的是通過動作圖像揭示動作特點和規律,準確地捕捉各個瞬間,為運動員訓練科學性提供理論依據[3]。
在對健美操運動員訓練中,如何精確地識別高難度視頻中的動作是一個難點。只有精確地識別出運動員的動作,才能更好地為健美操運動員的后續訓練提供依據。視頻動作識別技術一直是國內外研究的重點,特別是在計算機視覺技術發展越來越成熟之后,主要利用計算機來識別視頻數據進行處理和識別[4-6]。人體運動識別技術應用范圍十分廣泛,國內外研究內容也比較多,如基于Kinect的動作識別方法、基于3D-LCRN的視頻動作識別方法,這兩種識別方法在實際應用中,受到光照、遮擋等因素的影響,動作特征的表征效果比較弱,方法的實用性需要進一步提高[7-9]。因此,本文提出健美操運動員高難度視頻動作識別方法,以解決上述傳統的視頻動作識別方法中存在的問題。
在檢測前,設置一個判斷閾值,對健美操高難度視頻序列中相鄰的兩幀或多幀圖像中相對應的像素點進行計算,計算出灰度差值的絕對值,與設置好的判斷閾值相比較,從而提取出運動目標。以連續的兩幀計算,計算公式為:

式(1)中表示包含動作目標的二值差分圖像,Li(x, y)表示第i幀圖像中(x, y)處的像素值,Li-1(x, y)表示前一幀圖像中對應的像素值,ψ表示預先設置的閾值[10]。當G(x, y)的計算結果為1時,表示連續兩幀圖像對應像素點的灰度值大于設置的閾值ψ,通過這一判斷可知,當前幀中的該像素點屬于前景,反之屬于背景[11]。將前景與背景區分開,即可完成對動作的檢測。在后續操作中,提取出動作特征用于后續識別。
使用Zernike矩提取視頻動作整體特征,一幅圖像的Zernike矩就是該圖像在Zernike多項式上的投影。對于健美操高難度視頻圖像上的點(x, y),與其相對應的Zernike多項式為:


式(2)(3)(4)(5)中n為非負數,m為正整數或負整數,滿足n-∣m∣為非負偶數,Um(a)表示角函數,Wnm(r)表示徑向多項式[12]。具體表示為:

式(6)(7)中t表示方向,Zernike多項式和徑向多項式Wnm(r)滿足正交性,并且Zernike矩還具有旋轉不變性,有效地減少了Zernike矩包含的冗余信息[13]。對于連續函數z(x, y),其相對于坐標原點的Zernike矩為

式(8)中F*nm(r, a)表示Zernike多項式的共軛多項式。對于圖像,采用求和的方式來代替積分:

式(9)中L(x, y)表示圖像中的像素值。對于某一幀圖像,在計算前,將平移圖像的重心到坐標原點,以單位圓為映射范圍完成圖像像素點的映射,再利用公式7計算出對應的Zernike矩[14]。對于一個圖像序列,計算出3D Zernike矩的公式為:

式(10)(11)中O(i, x, y)是引入的第三維度,u和v表示的是由用戶定義的參數,pic表示整個序列中圖像的數目,-1表示前一幀圖像的重心,表示當前圖像的重心。在計算過程中視頻圖像可能存在不同的數目,為了避免對計算結果產生影響,對計算出的3D Zernike矩進行歸一化處理。處理如下:

式(12)中C表示目標的像素個數。使用公式(9)和公式(11)來得到對應的3D Zernike矩即為目標的整體特征,在獲得此特征后,使用CNN-RNN模型識別視頻動作。
由于健美操視頻中時空場景比較復雜,圖像中包含的大量噪聲會影響動作識別的精確性,也會為識別方法增加不必要的計算量[15]。因此在提取特征之前,在視頻動作識別過程中引入注意力機制,賦予CNN-RNN模型自動篩選人物相關特征功能。
通過一個串行支路將通道注意力和空間注意力連接起來。在通道注意力中,對獲取通道注意力進行分散處理,將其映射在不同通道,增強通道有效信息,抑制通道無效信息,在空間注意力模塊中,引入加權調整參數,對特征平面進行池化以及激活處理,獲取通道值為1的空間注意力平面,得到注意力特征。
對空間位置權重加以反復更新,在下一刻CNN特征輸入上映射空間注意力機制,充分結合時間以及上下文信息,基于動態學習觀測關鍵動作特征變化。
對于動作識別過程中的時間注意力,之前在不同時刻權值獲取中,基于卷積神經網絡賦予不同時刻不同值,提高特征的表征能力。具體過程如圖1所示。

圖1 深度特征幅值過程示意圖
以視頻動作數據中包含的特征信息作為輸入,使用CNN-RNN模型多層逐級地表征輸入特征。通過LSTM,時序建模CNN導出特征,對視頻動作時空特征加以積聚處理,將其輸入分類器進行動作識別。識別過程如圖2所示。

圖2 CNN視頻動作識別示意圖
通過卷積神經網絡,對任意幀圖像高層表征加以導出,基于LSTM體系結構,對時序深度特征加以提取,該體系結構包括512個隱藏節點,特征輸出在任意時刻都在發生。神經網絡訓練過程中,輸出層不同視頻片段的圖像幀均分配到0-1權重,表征后面幀獲取信息重要程度。在測試過程中,加權求和幀分數,通過softmax分類器加以分類,完成視頻動作識別。至此,健美操運動員高難度視頻動作識別方法設計完成。
實驗研究主要在MATLAB環境下進行,使用的視頻序列為健美操基礎動作數據集中的視頻通過分幀化得到,在實驗前將每一視頻序列統一處理為灰度圖像。實驗采用的動作片段如圖3所示。

圖3 實驗部分數據集
對于實驗數據的處理,先對每個視頻片段進行分幀處理,轉化為彩色格式的圖像序列,再將其轉換為灰度圖像序列,再使用不同的識別方法識別視頻動作。
考慮到實驗的公正可靠,實驗以對比實驗為主,將基于3D-LCRN的視頻動作識別方法、基于Kinect的動作識別方法和提出視頻動作識別方法作為實驗對象,設計兩組對比實驗,驗證識別方法的實用性。針對對比實驗搭建的平臺配置如表1所示。

表1 實驗平臺配置
設計的對比實驗一組為識別精度實驗與驗證,另一組是計算復雜度實驗與驗證,其中:計算復雜度以計算成本和迭代次數來衡量。
為了驗證視頻動作識別方法的計算復雜度,使用MATLAB軟件作為主要平臺,將實驗圖像作為輸入,使用不同的視頻動作識別方法處理實驗圖像,通過MATLAB輸出實驗結果,如圖4所示。


圖4 不同識別方法的計算復雜度實驗結果
對比觀察圖中結果可知,基于3D-LCRN的動作識別方法,在迭代計算過程中,計算并不穩定,在迭代次數達到200次左右時,計算損失量逐漸平穩,但是損失量在7.5以上,側面說明了該識別方法的計算復雜度比較高;基于Kinect的動作識別方法在迭代計算過程中,計算比較穩定,同樣在迭代次數達到200次左右,計算損失量逐漸平穩,損失量雖然沒有上一識別方法多,但是整體計算復雜度也是比較高的;與前兩組實驗結果相比,提出的視頻動作識別方法在迭代計算未達到200次時就已經有平穩的趨勢,并且計算損失量極低,這一現象說明該方法的計算復雜度比較低。
在識別精度實驗研究中,隨機選擇實驗數據中某一組圖像數據,將其作為識別目標,使用不同的視頻動作識別方法識別實驗視頻數據,利用統計軟件計算并輸出識別精度結果,如表2所示。

表2 不同識別方法識別精度實驗結果
從表2中數據可以觀察到,對于不同的健美操高難度動作,識別精度存在一定的差異。三組實驗結果對比觀察可知,本文提出的視頻動作識別方法對于實驗數據中的大多數動作均能達到1.00的識別精度,即使有未能達到1.00的,其識別水平也在0.95以上,但是另外兩組數據顯示,對于不同的視頻動作,其識別精度不僅不穩定,而且識別水平較低,未能達到0.95以上。結合計算復雜度可知,設計的健美操運動員高難度視頻動作識別方法計算復雜度低、識別精度高,該方法的實用性能更好。
本文圍繞健美操運動員高難度視頻的分析展開調查,在大量研究文獻和資料的支持下,設計健美操運動員高難度視頻動作識別方法,并在方法設計完成后,利用大量對比實驗,驗證了提出的視頻動作識別方法的可靠性和實用性。目前,視頻動作識別技術已經在眾多領域得到了應用,考慮到基于視頻內容的動作識別技術的重要性,在后續研究中,將對動作情感發掘和數據集的擴充進行深入研究與分析,進一步完善視頻動作識別技術。