鄭永權,張飛云,董 坤
(1.西安交通大學城市學院,陜西 西安 710018;2.西北工業大學,陜西 西安 710072)
人體運動姿態識別是計算機視覺與人工智能領域的重要研究方向。進行人體姿態識別對于促進視頻監控、智能家居發展及輔助體育訓練等均具有一定的指導作用[1]。但由于人體的運動姿態較為復雜,且目前基于單特征的傳統人體姿態識別算法難以對其進行有效地描述與分析,故使該方法在實際應用中無法達到良好的效果。因此,亟需一種準確率高、性能較優并可應用于日常生活中的人體運動姿態智能識別算法[2-3]。
針對上述問題,該文基于多特征融合技術提出了一種運動姿態智能識別算法。該算法由圖像數據采集、圖像預處理、單特征提取、多特征融合及運動姿態識別五個模塊組成,各模塊相互配合共同完成對人體運動姿態的智能識別。運動姿態識別與性能測試的實驗結果證明了所提方法的有效性與可靠性。
人體運動姿態識別由四個基本部分組成,分別為原始數據圖像集獲取、圖像預處理、運動特征提取及姿態分類識別。人體運動姿態識別過程如圖1所示。

圖1 人體運動姿態識別過程
原始數據圖像集獲取是指利用攝像機等圖像采集設備獲取所需的人體運動姿態原始數據;而圖像預處理負責對獲得的圖像數據進行去噪、歸一化等處理,使其更加清晰[4],并突出關鍵信息;運動特征提取是指在處理后的圖像中提取運動關鍵特征的過程,以便于后續的多特征融合及分類識別;而姿態分類識別可根據提取到的單特征或融合后的多特征,利用SVM(Support Vector Machine)[5]、貝葉斯分類器[6]等算法對人體運動姿態進行分類,進而實現對姿態的識別。
原始數據圖像集獲取是運動姿態識別的基礎部分,也是人體運動分析中的重要環節。根據獲取方式的不同,目前的圖像采集技術可分為接觸式與非接觸式兩大類。而考慮到接觸式采集方式會對運動員的運動姿態產生一定影響,且不適用于本次需求,故選用非接觸式的采集技術。
非接觸式采集技術的主要原理:通過特定攝像設備實時獲取人體的運動姿態。常見的包括Kinect三維體感攝像機及Vicon 光學捕捉系統等。因Kinect 具備更強的適用性與精確性,所以文中的數據圖像采集也利用該設備實現。Kinect[7-8]攝像機的部分參數如表1 所示。其運行環境為常規Windows7系統,同時還使用Kinect SDK for Windows 處理采集到的視頻流。

表1 Kinect攝像機的部分參數
人體視頻圖像的采集除了自身因素外,周圍環境也會對Kinect 的采集結果產生干擾,從而增加后續的識別難度、降低識別準確性。因此在進行后續處理之前,還需對采集到的原始圖像進行預處理,其包括去噪、圖像灰度化、歸一化及圖像增強等操作。
目前,常見的圖像去噪方法包括直方圖均衡化法(Histogram Equalization,HE)、高斯濾波法(Gauss Filtering)、雙邊濾波法(Bilateral Filter)與Top-Hat 濾波法等。而該文采用的是其中使用最為廣泛的雙邊濾波算法[9-10],該算法是針對高斯濾波會產生模糊邊緣,同時無法有效保護圖像高頻細節而提出的一種改進算法。其處理結果依賴于近鄰像素點的加權組合,具體的數學表達式如下:
式中,f(i,j)是像素點(i,j)經濾波的處理結果,g(k,l)與R分別為待處理像素點的近鄰像素點灰度值及鄰域,ω則是雙邊濾波核函數。
人體運動特征提取是多特征融合及運動姿態識別的重要組成部分,且不同特征能反映信息在不同層面的表現[11]。而特征的選擇對人體運動姿態的描述程度、在姿態識別時對識別結果的穩定性與準確性均有較大影響。因此在選擇特征時,除了準確描述運動特征外,還需考慮不同特征所屬類別的差異。
該文在考慮人體運動姿態的特殊性及特征提取全面性的基礎上,選取了人體姿態的Hu不變矩、HOG(Histogram of Oriented Gradient)直方圖及小波矩三種特征構建所需的多特征算子,并結合局部尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)算法對核心位置進行描述。
姿態分類識別的主要作用是根據樣本特征信息完成運動姿態分類器的訓練,并通過該分類器實現人體運動姿態的智能識別。目前,常用的分類方法包括SVM、樸素貝葉斯及決策樹(Decision Tree)算法[12]等。該文選擇其中相對成熟,同時在人體姿態識別方面適用性更優的SVM 算法進行相關識別處理。
該文旨在設計一種人體運動姿態智能識別算法,并在訓練過程中識別運動員的姿態動作,從而進行精準的智能化輔助訓練與技戰術分析,以提高運動成績。
針對上述提到的算法設計需求,文中基于多特征融合的人體運動姿態智能識別算法架構如圖2所示。

圖2 人體運動姿態識別算法架構
該算法主要由圖像數據采集、圖像預處理、單特征提取、多特征融合及運動姿態識別五個模塊所組成。其中,圖像數據采集模塊功能與上文提到的保持一致。圖像預處理模塊則除了上述提到的去噪、灰度化、歸一化等方式外,還引入了背景分割算法(Background Segment,BS)來進一步提高預處理的效果,并突出人體運動姿態特征。而單特征提取模塊負責利用OpenCV 對預處理后的數據集進行Hu 不變矩、HOG 直方圖及小波矩三種單特征的提取,以此進行后續的多特征融合與分析。多特征融合模塊將提取到的三種特征利用神經網絡算法進行合理融合,進而解決單特征描述不完備與不可靠的問題,且提高了算法的性能。運動姿態識別模塊則負責利用SVM 算法與融合后的多特征算子建立樣本分類模型,并通過模型實現對人體運動姿態的智能識別。
背景分割[13-14]的基本思想:對場景進行建模,并利用輸入圖像數據及場景模型間的差異實現場景中背景與有效信息或目標的分割。背景分割過程如圖3所示。

圖3 背景分割過程
針對人體運動姿態的特點,文中選用對硬件要求較低,適用于運動目標背景分割的ViBe(Visual Background Extractor)算法[15-16]進行處理。該處理過程描述如下:
1)單幀圖像背景模型初始化:以幀為單位對圖像各像素點進行建模,并從第一幀開始進行模型初始化。背景模型的數學表達式為:
式(2)中,M(x)為像素點x處的背景模型,pi為像素點x處的背景像素值。
2)前景目標分割:根據設定的閾值進行前景目標與背景的分割。分割判定如下:
式中,T為設定的閾值。當像素點背景大于或等于設定的閾值時,可認定該點為前景目標;反之,則為背景。
3)背景模型更新:采用八鄰域更新法(Eight Neighborhood Contour Tracking Algorithm)對背景模型進行更新,進而令背景分割更為準確。
該文利用神經網絡算法對提取到的Hu 不變矩、HOG 直方圖及小波矩三個單特征進行融合。融合設計方案如圖4 所示。

圖4 多特征融合過程
SVM 是基于統計分析(Statistical Analysis)與機器學習(Machine Learning,ML)的一種分類算法。該文利用SVM 算法實現人體運動姿態的分類,具體如圖5 所示。

圖5 基于SVM的運動姿態分類設計方案
該方案主要由訓練與測試樣本輸入、SVM 分類器構建及投票分類四部分組成。其中,SVM 分類器是利用機器學習與訓練樣本集構建的。投票分類則是在完成SVM 構建后,對測試樣本集的運動姿態進行分類投票,并選取票數最高的作為該運動姿態的最終類別。
為驗證文中基于多特征融合人體運動姿態智能識別算法的有效性與可靠性,該文以UCF-Sport 庫、KTF 庫及自建運動識別庫(MDB)作為實驗數據集,并分別進行運動姿態分類實驗。
實驗環境的硬件配置及涉及的軟件版本如表2所示。
而所選用三種行為識別數據集的相關屬性如表3 所示。

表3 行為識別數據集信息
實驗主要驗證該文算法在不同數據集上的性能表現。同時,為了體現算法的優勢,實驗中還將基于HOG 單特征的人體運動姿態識別算法設置為對照組。在相同條件下,采用上述兩種算法進行人體運動姿態識別,并計算在不同數據集中對運動姿態識別的準確率,實驗結果如表4-6 所示。

表4 UCF-Sport數據集實驗結果

表5 KTF數據集實驗結果

表6 MDB數據集實驗結果
通過上述實驗結果發現,與HOG 單特征算法相比,該文算法對各數據集運動姿態識別的準確率明顯更高,且可達93%以上,由此證明了算法的有效性與可靠性。
該實驗主要驗證所提算法的處理效率能否滿足設計需求。為此,對算法在不同樣本數下的單幀圖像平均處理時間進行測試,結果如表7 所示。

表7 算法性能測試結果
從性能測試結果可看出,該文算法對單幀圖像的平均處理時間在46 ms左右,即每秒能夠處理約22 幀圖像。因此,其處理效率能夠滿足算法設計需要。
基于多特征融合技術,該文文設計了一種人體運動姿態智能識別算法,其將表征人體姿態的多個特征進行了有效融合,從而得到了描述能力更強的多特征算子,再將該算子與支持向量機相結合,以實現對人體運動姿態的準確識別。為了驗證所提算法的可行性,還進行了運動姿態識別與性能測試兩項實驗。實驗結果表明,與基于方向梯度直方圖的單特征姿態識別算法相比,該文算法對各數據集運動姿態識別的準確率較高,且性能也較優。因此,該文算法的提出為進一步分析人體運動姿態,并將其實際應用于體育訓練等領域提供了重要的技術支持與保障。