劉俊來
(濟寧學院 體育系, 山東 濟寧 273100)
體育視頻的動作識別屬于多類別模式識別問題,主要面臨兩個方面的挑戰[1-4]:一個是從各類體育視頻中較為相似的體育動作中提取出有效的特征;另一個是構建機器學習模型完成對動作特征的分類.一般情況下,體育視頻中提取到的動作特征有側影以及輪廓兩種主流形式[5],其中,側影類動作特征維度高,并且具有大量的噪聲,影響機器學習分類算法的應用.而輪廓類特征采用傅里葉變換獲取,雖然能夠清晰描繪具體的體育動作,但是使用受限、變化范圍較大且維度較高,此類特征的分類效果不佳.
現階段在體育動作識別研究中,基于機器學習的方法已成為主流算法.其中,粒子群優化神經網絡[6]采用背景差法獲取動作輪廓,并給出體育動作的分割結果.但是在對體育視頻動作分析時,由于BP神經網絡的權重太多,計算復雜度高,因此很難適應視頻分析.高亮[7]采用高斯混合模型與支持向量機完成體育動作識別,然而,該方法使用的高斯混合模型的特征維度太高,不利于支持向量機的分類,因此體育動作識別的效果較差.
鑒于上述問題,本文提出了一種結合融合不變性特征與混合核方法的體育視頻動作識別算法.該方法雖然采用高斯混合模型建模,但是針對建模后的高維特征,通過特征降維獲取融合不變性特征;隨后,針對融合不變性特征,采用一種混合核方法對該特征分類,識別體育視頻動作;最后,在標準體育視頻動作數據集上進行對比實驗,分別從識別率和識別時間上驗證本文算法的可行性與有效性.
在對視頻動作識別過程中,需通過體育動作的運動軌跡描述出相應的體育動作類型,然后通過光流法完成對運動軌跡的跟蹤,從而完成視頻動作的特征提取[8].由于提取到的體育運動動作特征在不同的視頻中位置各不相同,因此需要針對視頻序列構建全局高斯混合模型,分別描述體育運動過程中的時間、空間和運動邊界信息.
在構建全局統計特征信息中,高斯混合模型應用廣泛[9],假設X={x1,x2,…,xT}表示視頻的有效運動動作序列,且服從獨立分布,設符合參數集合λ={wi,ui,Mi},i=1,2,…,k,則k個高斯核函數組成的高斯混合模型可表示為
(1)
式中,wi,ui,Mi分別為高斯混合模型的混合權重、均值以及各個高斯核函數之間的協方差矩陣.第i個高斯核函數pi(xi)可被定義為
(2)
式中,d為特征維度.
根據貝葉斯公式可以完成各個高斯核函數在混合模型中的權重分配.在提取融合不變性特征時,假設視頻序列X與其相應的參數集合λ之間的對數似然關系為
(3)
(4)
通過對多個視頻幀組成的運動視頻序列及對應的高斯混合函數的梯度計算,可以從視頻每個動作中提取多維不變性特征.分別為30維的動作位置信息、480維的動作方向梯度信息、540維的動作光流信息以及960維的運動邊界信息,并組成了一個大小為2 010維的體育運動動作不變性特征.
在隨機投影特征降維中,針對每個測量矩陣,只需要計算出每列的非零個數,即可達到降維減小時間復雜度的目的,從而提取出穩定的融合不變性特征[10-11].
核方法也被稱為支持向量機(SVM)法,是一種常用的分類與識別方法[12].在核方法中,通過求解線性分類面,將融合不變性特征極大分離開來,從而完成對體育視頻運動動作的識別.假設通過高斯混合模型以及隨機投影變換方法獲得的融合不變性特征以及相應的體育運動動作標簽為{αi,βi,i=1,2,3,…,n},則在特征集合與標簽下,核方法旨在尋找一個最優的線性分類面ωα+b=0,使得該分類面能夠將不同動作標簽對應的融合不變性特征分離開來,從而完成對體育運動動作的識別.
在二維空間中要求支持向量到分類面權重的距離最大,則可轉化為求解下述帶限制條件的二次優化問題,即
s.t.βi(ωαi+b)≥1,i=1,2,…,n
(5)
在實際的體育動作識別中,不同類別的動作通常有一些相似之處,若將相似之處都以嚴格的支持向量作為區分,那么將會極大地影響識別準確率.因此,在支持向量基礎之上,本文還引入了松弛變量,允許某些相似的融合不變性特征可以被錯分到相鄰類別中,這樣雖然引入了少量錯誤,但是可以讓最優分類面變得更寬,能夠容納更多樣本分類[13].此外,針對多個類別的最優分類面通常不是線性可分的問題,本文還在支持向量基礎上,引入核函數將原始線性不可分的特征空間投影到高維線性可分的空間中,在新的空間中求解最優分類面,然后再將最優分類面變換至原始特征空間中.
在傳統核方法基礎上,分別引入了松弛變量ξi以及核函數φx,將傳統核方法的優化問題轉化為
s.t.βi(ωφ(αi)+b)≥1-ξi,
ξi≥0,i=1,2,…,n
(6)
式中,C為懲罰系數,其大小由實際數據決定.通過求解轉化后的優化問題,可以得出視頻動作識別的最優分類面,即
(7)
式中,K(αi,αj)為核函數.通過核函數將原本線性不可分的融合不變性特征轉換至線性可分的高維空間中,將能極大地解決相似動作的分類問題,提升動作識別的性能和魯棒性.
實際使用中,核函數均采用試錯的方法進行選擇,效率低且沒有任何理論依據.然而在常用的核函數中,線性函數偏向于局部支持向量分析,徑向基函數則偏向于全局支持向量分析.在視頻動作識別的融合不變性特征提取中,本文提出的方法既提取了全局的光流信息和動作邊界信息,也提取了局部動作位置信息和動作方向梯度信息.因此,在本文的核方法分類與識別過程中,構建了一種混合核函數,該核函數包括局部線性核函數和全局徑向基函數,從而使得混合核方法能夠處理融合不變性特征[14].在混合核方法中,采用權重θ、γ來融合線性核函數與徑向基函數,構建混合核函數為
Kmix=θKLINE+γKRBF
(8)
式中:KLINE為處理局部特征的線性核函數;KRBF為處理全局特征的徑向基函數.在混合核方法中,采用遺傳算法求解最優的權重θ*,γ*,在實際實驗中,根據局部特征和全局特征的比例完成最終的視頻動作識別結果.
結合融合不變性特征與混合核方法的視頻動作識別算法主要流程如圖1所示.通過高斯混合模型從視頻序列中提取出運動動作特征,并將多維特征融合為高維的不變性特征,然后采用隨機投影算法降維,選擇出最有利于動作識別的融合不變性特征,并計算局部特征與全局特征的比例,最后,通過計算獲得的特征比例,結合遺傳算法求解出最優的混合核方法權重,采用混合核方法完成對融合不變性特征的分類與識別,實現視頻動作識別.

圖1 體育視頻動作識別流程
為了驗證所提算法的可行性與有效性,通過仿真對比實驗完成算法對視頻動作識別性能分析.在仿真實驗中,選擇了10位運動員,并讓每位運動員演示各種簡單的體育動作,一共獲取了600個體育動作視頻.每個動作視頻中隨機包含有1組固定的5個動作,由行走、跑步、彎腰、下蹲及坐下組成,被試者的視頻動作序列如圖2所示.

圖2 實驗中運動員演示的基本動作序列
在實驗中,將其中400個動作視頻劃分為訓練集,剩下的200個動作視頻作為測試集.為了完成動作識別算法的橫向對比,本文選擇了主流體育視頻動作識別算法粒子群優化BP神經網絡(PSO-BPNN)[7]與高斯混合模型與支持向量機(GMM-SVM)[14]進行對比分析.PSO-BPNN算法為體育動作識別構建3層BP神經網絡,在優化神經網絡參數時,PSO算法的種群設置為40個,每個粒子維度為20,迭代1 000次;GMM-SVM算法為動作視頻幀構建了5個高斯模型的混合建模,然后在SVM分類器中選擇了徑向基函數,懲罰參數和核函數參數分別為c=0.01,g=0.2.本文算法首先提取視頻動作序列中的高維不變性特征,并通過降維算法降低不變性特征維度;隨后,將降維后的不變性特征輸入至混合核方法中進行訓練、測試,在核函數分類器中懲罰參數依然設置為c=0.01.在混合核方法的權重選擇上,經過遺傳算法的優化,用于實驗對比時的式(8)對應權重θ、γ的最優值分別為θ*=0.392,γ*=0.608.在3種對比算法中,都采用相同的數據訓練模型以及相同的數據測試模型,測試模型采用5×5交叉驗證法.實驗采用統一環境,即8核2.75 Hz Intel CPU,搭配一塊1080Ti GPU,實驗算法均基于Python平臺完成.實驗分析指標采用視頻動作識別率作為性能指標,某項動作平均識別時間作為效率指標.
圖3給出了體育視頻動作平均識別率的對比結果.

圖3 體育視頻動作平均識別率對比
從圖3中的結果可以看出:
1) 本文提出的融合不變性特征在表達上更為優秀,并且混合核方法的識別率高于傳統的BPNN與SVM等機器學習方法,有效降低了誤識率.混合核方法分別采用線性核函數以及徑向基函數,獲取了體育識別所需的局部動作區別和全局動作輪廓.
2) 與傳統高斯混合模型相比,融合不變性特征融入了更多維度的特征,表達出了區分動作的關鍵特征.實際上,在體育動作識別的原始特征中,存在較多的重復特征和無用特征,這些特征將會對分類器產生負面影響.因此,本文在采用高斯混合模型構建融合不變性特征后,通過投影降維的方式,從融合不變性特征中提取區分不同動作的關鍵特征.通過這些特性完成分類,極大地提升了視頻動作識別結果.
此外,表1給出了3種對比算法在走、跑、蹲、坐及彎腰等5種常見的體育動作中的平均識別時間.從表1的統計結果中可以看出,本文提出的融合不變性特征與混合核方法識別時間最短.雖然融合不變性特征計算了大量的高斯混合模型及其梯度特征,但是經過投影變換降維后,融合不變性特征維度極大降低了,因此在通過混合核方法分類時,時間復雜度較低.混合核方法的分類效率明顯高于傳統SVM與BPNN方法,可以完成實時在線的視頻動作識別工作,滿足實際的應用需求.

表1 三種識別算法平均識別時間對比
為了完成對體育視頻動作識別,構建統一的體育運動標準,提升體育運動效率,本文提出了一種結合融合不變性特征與混合核方法的體育視頻動作識別方法.該方法依靠高斯混合模型構建混合不變特征,并通過投影降維方法降低維度.降維后的融合不變性特征與混合核方法的配合效果更佳,在標準體育視頻動作數據集上的對比實驗結果表明,本文提出算法分別在動作識別的性能與效率上獲得了顯著提升.今后的主要工作是為更復雜的體育動作構建穩定的特征,并通過分類性能更好地完成模型動作識別,以構建真實場景可用的實時體育視頻動作識別方法.