許 誠,金慶紅
(安徽工程大學 體育學院,安徽 蕪湖 241000)
近年來,隨著機器視覺的廣泛應用,利用機器視覺對圖像進行識別和分類取得了較好的應用效果。傳統的舞蹈動作識別方法只能對某一個單一的舞蹈動作進行識別,當舞蹈動作加快或更為復雜時,傳統識別方法不能精準捕捉到舞蹈的動作,從而不能對其進行特征提取,更不能實現精準識別。復雜舞蹈動作的識別和分類可以幫助舞蹈訓練者找出動作存在的問題,從而進行針對性的改進和糾正,取得更好的復雜舞蹈效果。因此,對于復雜舞蹈動作的識別還有待進一步研究。為解決此問題,已有眾多專家和學者進行了深入研究并取得了一些成果。閆琳[1]提出基于深度學習網絡的舞蹈動作識別方法,利用深度學習的基本原理和結構特點,對舞蹈動作進行深層特征提取,相較于傳統方法,此方法的識別精度提升了2.8%;畢雪超[2]提出基于2D姿勢估計的高動態復雜舞蹈動作識別方法,構建了舞蹈高動態內的2D模型,該模型性能優越,可準確快速地對復雜高動態時的舞蹈進行捕捉和識別;王雪嬌等[3]提出基于可變形卷積神經網絡的人體動作識別方法,此方法的識別準確率提升了10.5%,可在動作識別領域進行大力推廣和應用。但以上學者采用的動作識別方法大部分只針對于單一舞蹈動作,對于復雜舞蹈動作的研究較少。基于以上經驗,本研究嘗試提出一種多核學習特征融合的舞蹈動作識別方法,以更好地對舞蹈特征進行提取,提高舞蹈動作的識別率。
多核學習屬于核方法的一類,其特別之處在于由多個核函數以線性方式組成,具體如圖1所示。圖1中,線性組合的核函數為
(1)
式中,M代表核函數數目;kj(x,z)表示核函數;βj表示核函數對應權重;k(x,z)由特征相關性確立,為使k(x,z)滿足Mercer定理,設βj≥0[4]。
多核學習方法對于圖像特征的提取優于單核學習,但也存在損耗時間長和空間范圍過大的問題。由于SimpleMKL可快速得到多核學習算法的最佳核函數權值,故采用該方法對多核學習進行改進,并通過梯度下降的方式對核函數的權值進行迭代[5],由此得到多核學習的目標函數:
(2)
式中,fm為映射函數[6];dm對fm范式產生約束,dm值越小,表明fm越平滑[7]。該函數的對偶式為
(3)
式(3)通過梯度下降可取得核函數的權值,具體計算為
(4)
式中,Dm為梯度下降的指向。在對核函數進行迭代的過程中,線性搜索方式可準確高效地捕捉到最優權值[8]。

圖1 多核學習核函數線性組合示意圖
為更好地對復雜舞蹈動作進行識別,將舞蹈視頻或圖像進行特征提取,提取流程如圖2所示。從圖2可以看出,舞蹈視頻進行特征提取前需對數據進行預處理,然后再采用累加邊緣方法和音頻流文件分別對特征進行提取[9]。
基于以上改進的多核學習方法將3種特征融合起來,由此更全面地對復雜舞蹈動作進行識別和分類,從而提高識別準確率[10]。具體流程如圖3所示。
若舞蹈動作數據集中存在p個舞蹈動作x1,x2,…,xp和類別y1,y2,…,yp。同時將HOG特征對應的G個核函數定義為kg(xi,xj),g=1,2,…,G;HOG特征對應的F個核函數定義為kf(xi,xj),f=1,2,…,F;音頻簽名特征對應的M個核函數為km(xi,xj),m=1,2,…,M[11]。將上述3種特征的核函數線性組合進行融合,采用式(5)進行計算:
(5)
式(5)滿足條件:
(6)
式中,βg、βf和βm均為核函數權重[12]。

圖2 特征提取流程 圖3 特征融合過程
舞蹈動作識別中,對各參數進行訓練的目的是對權值β以及支持向量機分類器自身的參數α和b進行學習和求解 。根據以上SimpleMKL算法的基本原理,確定多特征融合算法的目標函數,可表示為
(7)
式中,通過梯度下降算法將目標函數進行最小化,由此計算出最佳參數[13]。首先,利用權值β,求出分類器參數α和b;然后再計算出新的權值參數β。由此得到多核學習的分類函數,用式(8)表示為
(8)
其中,本算法的目標為對復雜舞蹈動作進行多分類。目前常用多分類方法包括一對一和一對多的方式。 根據舞蹈動作的分類特點,將選擇一對多的多分類方法,具體表示為
(9)
式中,J表示目標函數;Jp表示分類器;p表示舞蹈動作分類。
為驗證以上方案的可行性,實驗環境選擇CPU型號為Intel(R) Core(TM) i5-4460 @ 3.20 GHZ,內存大小8 GB。在64位Ubuntu下進行實驗操作。仿真實驗平臺為MATLAB2018b。
數據集選擇常用的DanceDB舞蹈數據集和FolkDance舞蹈數據集。其中,DanceDB內包含12種舞蹈動作,用情緒標簽表示,主要包括恐懼的、惱怒的、無聊的、高興的、痛苦的、疲憊的動作等[14];FolkDance 包含4類舞蹈動作,即跟步雙花組合、里片花組合、手巾花組合和片花組合。兩個數據集的幀速率均為20 fps,幀節尺寸為480*360。
上述兩個數據集均為現場錄制的視頻圖像。視頻轉化為圖像的過程中出現了大量噪聲,從而導致舞蹈動作特征提取效果不佳。為解決此問題,對兩個數據集進行預處理。具體處理方法為背景消除和中值濾波方法。其中,背景消除主要功能是對前景進行提取,然后將人體動作區域進行分離;中值濾波方法則對數據集中的噪聲進行過濾,以此降低噪聲對特征提取的影響,提取效果如圖4所示。
為更好地對提出的算法進行驗證,采用交叉驗證法進行測試。常用方法為 K折交叉和留一交叉驗證,其中留一交叉取得的結果更真實準確,即取10次驗證結果的均值,因此選擇留一交叉進行算法驗證。
(1)算法驗證。為驗證所提算法的有效性,實驗將FolkDance 和DanceDB數據集作為測試集,以此實現復雜舞蹈動作識別。并將所提方法與另外3種單一特征分別在兩個數據集中的識別率進行對比,結果如圖5、6所示。由圖5可知,4種方法中,所提方法的識別準確率均高于另外3種方法。其中,舞蹈動作不同,每個方法的識別效果均有所不同。在跟步雙花動作中,所提方法的識別準確率達到52.5%,方向梯度直方圖的識別率為43.1%,均高于光流特征和音頻特征的識別率;在里片花中,本方法識別率為53.9%,方向梯度特征與音頻特征識別率相同,均為40%,光流特征識別率最低;在手巾花和片花組合中,本方法識別率分別為50%和45%,均高于另外3種方法,但不同之處在于音頻特征的識別率比方向梯度和光流特征的識別率更高,分別為42.8%和37.5%。綜合分析可知,在FolkDance數據集中,所提出的方法對復雜舞蹈動作的識別準確率最高,具備一定的有效性。

圖4 圖像預處理結果示例
DanceDB數據集上各特征與方法的識別率對比如圖6所示。從圖6可以直觀地看出,相較于另外3種單一方法,本文方法的識別準確率最高,識別率高達41.7%,分別比方向梯度、光流方向和音頻特征高了11%、6.7%和9.2%。由此說明,相較于單一的特征識別方法,本文方法對復雜舞蹈動作的識別準確率更高,識別效果更好。

圖5 FolkDance 數據集實驗結果對比 圖6 DanceDB 數據集實驗結果對比
(2)算法對比。為更好地探討提出的算法是否更為優越,實驗將本文方法與深度學習中的多模態時空動作識別方法[15]進行動作識別對比,依舊采用以上復雜舞蹈動作FolkDance 和DanceDB 數據集。對比結果如圖7、8所示。
由圖7可知,本文方法除里片花組合外,均高于多模態時空動作識別方法的識別率,且在跟步雙花組合、手巾花組合和片花組合中,本文方法識別率分別為51.9%、50%和44.7%,比多模態時空動作識別方法分別高了4.8%、2.1%和4.2%。由此可知,本文方法對多種舞蹈的識別率有所提升,具有一定的有效性和可行性。
從圖8可以看出,本文方法的識別準確率高達41.82%,深度學習方法的識別率為39.5%,本文方法比多模態時空動作識別方法識別率提高了2.32%,說明本文方法對于舞蹈動作的識別準確率更高。

圖7 FolkDance 數據集中本文方法與多模態時空 動作識別方法在4個分組上的實驗結果 圖8 DanceDB 數據集上兩種方法對比結果
綜上所述,本文提出的基于多核學習特征融合的舞蹈動作識別方法,具備可行性和有效性,相對于單一特征在復雜舞蹈動作DanceDB和FolkDance數據集同組中的表現,該方法的魯棒性更強,識別準確率更高。同時,采用本文方法識別率為41.82%,相較于多模態時空動作識別方法提高了2.32%,說明本文算法舞蹈動作識別準確率較高,算法性能更為優越,也進一步驗證該識別算法具備有效性。