劉瑩瑩,邱 崧,孫 力,周 梅,徐 偉
(1.華東師范大學 信息科學技術學院 上海市多維度信息處理重點實驗室,上海 200241;2.上海交通大學 圖像處理與模式識別研究所,上海 200240)
人體動作識別是計算機視覺領域中的主要研究方向之一,其廣泛應用于人機交互、虛擬現實、智能監控、人體運動分析等領域,因此,基于視頻的人體動作識別具有非常重要的學術研究價值。
視頻中人體動作識別的核心方法是從視頻序列中提取能夠有效描述動作特征的視覺信息,再通過機器學習算法對其進行分類,最終實現人體動作識別。動作識別的設計方法一般可以從特征設計、分類器設計2個角度出發。本文屬于后者。
動作識別中常用的分類器設計方法主要分為基于模板的方法、基于概率統計的方法以及基于語法的方法。基于模板匹配的方法[1-2]較簡單,但乏魯棒性,常用于靜態姿勢或簡單動作的識別;基于語法的方法[3]計算復雜度高,且其魯棒性依賴于底層描述;基于概率統計的方法[4-5]在目前應用最廣泛,該方法用一個連續的狀態序列表示動作,每個狀態都有自己的特征描述,用時間轉移函數表示狀態之間的切換規律。常見的基于概率統計的動作識別方法有支持向量機(Support Vector Machine,SVM)[6]、條件隨機場(Conditional Random Fields,CRF)[7]等,這些方法需大量的訓練數據來學習模型參數,且未考慮訓練樣本的學習順序對學習效果的影響。
文獻[8]提出課程學習算法,先用簡單樣本進行訓練,逐步引入復雜樣本,通過該機制設置合理的學習次序,可有效地提升算法的收斂速度及局部最優解的質量[9]。文獻[10]在課程學習算法的基礎上提出自步學習(Self-Paced Learning,SPL)。SPL的課程由模型本身基于其已經學到的內容動態生成,而非預先定義的啟發式標準。文獻[11]將SPL算法引入動作識別領域,SPL算法具有對于有標簽訓練樣本需求比較低、魯棒性好等優點,效果遠好于常規機器學習算法,尤其是對較難的數據集,課程的優越性更加明顯,但該算法忽略了不同視角對課程的影響。對于多分類的復雜人體動作識別,每個人的每類動作往往有不同的顯著特征,因此,不同視角下的特征描述對所有類的區分能力不同,對應的課程難易度各異。
針對上述算法的不足,本文提出一種多視角自步學習(Multi-view Self-Paced Learning,MSPL)算法,將不同視角下的不同課程進行融合,學習得出更適合解決動作識別問題的綜合課程。
本文提出一種基于MSPL的動作識別方法。對于人體動作二維視頻序列,提取其在多種視角下的二維特征信息后,利用多分類的SPL算法分別為各個視角訓練課程,然后通過線性規劃增強(Linear Programming Boosting,LPBoost)方法計算每個視角課程的權重參數,融合學習出綜合課程模型。圖1為基于MSPL的動作分類器訓練流程。當獲得測試動作序列特征時,即可用訓練好的課程模型進行分類。

圖1 基于MSPL的動作分類器訓練流程
本文在對各類二維視頻特征進行綜合評估后,選擇5種視角下適合人體二維動作視頻的底層特征:Trajectory[12],HOG[13],HOF[14],MBHx和MBHy[15](分別用視角A、B、C、D、E表示)。為了驗證本文多視角融合方法的有效性,將其與各類特征進行簡單合并的多特征融合方法作對比。現將5種底層特征進行簡單合并得到COM特征[12],特征提取過程如下:
1)將RGB圖片合成為.avi格式的視頻序列,一個動作對應一個視頻段。
2)分別提取人體動作序列的5種底層特征Trajectory、HOG、HOF、MBHx和MBHy,并將5種底層特征進行簡單合并得到COM特征。
3)采用基于核密度估計(Kernel Density Estimation,KDE)的特征選擇算法對上述底層特征進行降維。
4)將訓練樣本集中的數據進行聚類,以每個聚類中心為一個單詞,組成字典。
5)對降維后的特征進行稀疏編碼,生成稀疏向量。
6)使用最大值合并算法,得到稀疏向量的全局統計特性,最終用一個視頻集特征代表一個人體動作序列。
輸入多個視角多種類別人體動作數據集的特征及其所對應的標簽:


?

其中,Q表示訓練數據集的特征描述及標簽的集合;xi表示第i個觀察樣本的特征向量;yi∈(1,2,…,C)表示相應的類別標簽;m為訓練數據集的長度。
參數學習對于每個視角的特征描述,采用多分類的SPL算法訓練學習出相應的課程,用SPL_A、SPL_B、SPL_C、SPL_D、SPL_E表示,具體過程參閱1.3節內容。
融合用LPBoost方法計算各個課程的權重參數,融合學習得出綜合的課程模型。具體過程參閱1.4節內容。
SPL算法以人的教學過程為背景,先從簡單樣本開始進行訓練,逐步引入復雜樣本,并在此基礎上考慮“學習者的反饋”。具體的過程如下。
對于訓練數據集:


(1)
其中,參數λ用來控制學習進度。
式(1)表明樣本的損失值受到相應的權重值影響。SPL目的是使E(ωK,vK;λK)值最小。
通常用交替凸搜索 (Alternative Convex Search,ACS)方法[10]來求解式(1)。
為了實現多視角融合,本文用LPBoost[17-18]方法學習出每個視角下課程的權重參數,即通過求解下面的線性過程[16]得到權重矩陣B:
(2)
(3)
i=1,2,…,n,yj≠yi
(4)
(5)
εi≥0,i=1,2,…,n
(6)


向訓練好的分類器輸入待識別人體動作數據集的多視角特征向量:


?

其中,D為待識別數據集的特征描述;xi表示第i個待識別樣本的特征向量;n為待識別數據集的長度。
該過程輸出每類動作的識別結果:
(7)
其中,fs,yi(xi)表示xi樣本在s視角下的SPL模型所預測出的yi類別的值。
為了驗證本文方法的識別效果,利用UTKinect-Action[19]和Florence3D-Action[20]2個數據集進行實驗。UTKinect-Action數據集包括扔、推、拉、揮手、鼓掌、行走、起立、坐下、撿起、搬運10種動作類型。 Florence3D-Action數據集包括喝水、接電話、拍手、系鞋帶、坐下、看手表、起立、鞠躬、揮手9種動作。這2個數據庫提供了二維圖像數據、深度信息圖以及骨骼關節的位置數據。本文實驗僅利用數據集的二維圖像數據,即RGB圖片(如圖2所示),因為在實際應用中很容易由普通攝像機獲取二維圖像數據。

圖2 UTKinect-Action數據集
2.2.1 實驗設置
分別用單視角的SPL和SVM方法,以及基于上述2種方法的多視角融合方法進行實驗,對UTKinect-Action數據集的199個動作樣本進行隨機處理,其中80個用作訓練樣本,20個用作驗證樣本,99個用作測試樣本。對Florence3D-Action數據集采用類似的設置。
2.2.2 最優參數的選取
SVM常用交叉驗證方法[21]獲取最優的懲罰系數c和核函數半徑gamma。首先在一定的范圍內對c和gamma取值,然后利用訓練樣本和驗證樣本進行5-折交叉驗證,得到此組c和gamma下由驗證樣本得到的分類準確率,最終取使驗證數據集分類準確率最高的一組c和gamma作為最佳的參數。為了統一標準,在對同一視角的特征進行分類實驗時,SPL和SVM 2種方法的參數c、gamma都采用相同的最優參數設置。
表1和表2分別是UTKinect-Action數據集和Florence3D-Action數據集在利用驗證樣本求得最優參數后,在5種不同單一視角下的SVM和SPL分類準確率、利用COM特征的SVM和SPL分類準確率以及本文LPBoost融合方法的SVM和SPL分類準確率。

表1 不同方法在UTKinect-Action數據集上的識別結果

表2 不同方法在Florence3D-Action數據集上的識別結果
2.3.1 分類器效果分析
在UTKinect-Action數據集上,對SVM、SPL以及本文多視角融合方法的SVM、SPL(以MSVM、MSPL(OURS)表示)4種分類器的效果進行比較。對SVM、SPL分類器進行比較時,在表1中選取識別效果最好的視角特征HOF。由于SPL算法按照課程學習的思路,先從簡單樣本開始進行訓練,逐步引入復雜樣本,并在此基礎上考慮分類器的學習情況,因此理論上SPL的分類效果應該比SVM好,同理,MSPL的分類效果比MSVM好。 從圖3的實驗結果中可以看到,在相同的字典長度和視角下,SPL的分類效果都比SVM好,SPL比SVM的分類準確率平均高5%左右。在相同字典長度下,MSPL的分類效果都比MSVM好,MSPL比MSVM的分類準確率平均高5.3%左右,驗證了課程學習思路的有效性。MSVM的分類準確率都高于SVM,MSPL的分類準確率都高于SPL,驗證了多視角融合方法確實可以提升分類準確率,且MSPL可以學到更加適合動作識別問題的綜合課程。在字典長度比較小的情況下,SVM和SPL分類器對視角的選取比較敏感,此時多視角融合方法可以顯著提升分類器的識別效果。選取識別效果最好的視角特征時,MSVM的分類準確率比SVM平均高3%左右,MSPL的分類準確率比SPL平均高5%左右。

圖3 分類器對識別結果的影響
2.3.2 融合方法分析
從圖4中可以看到,在相同的字典長度下,用本文融合方法(MSVM、MSPL)得到的識別準確率都高于將多視角特征進行簡單合并的融合方法(以CSVM、CSPL表示),驗證了本文利用LPBoost進行多視角融合的方法更加有效,且表明MSPL可以學到更適合解決動作識別問題的綜合課程。

圖4 融合方法對識別結果的影響
2.3.3 字典長度分析
從表1實驗結果可以分析出,當字典長度增大時,識別率普遍會有一個顯著的提升,因為字典長度越大,特征描述越全面。但在字典長度達到一定大小后,識別率提升幅度減小,甚至趨于平穩。隨著字典長度增加,計算時間相應增大。所以,進行動作識別時需要合理選擇字典長度,綜合考慮識別效果和識別過程的耗時。
2.3.4 訓練樣本長度分析
用UTKinect-Action和Florence3D-Action 2個數據集分別對SVM、SPL、MSVM和MSPL(OURS)進行訓練樣本長度分析實驗,字典長度設置為500個。
UTKinect-Action數據集共199個樣本,隨機選取訓練樣本,樣本大小分別設置為40個、50個、60個、70個、80個,選取99個測試樣本,其余為驗證樣本。對于Florence3D-Action數據集采用類似的設置。實驗結果如圖5所示。可以看出:隨著訓練樣本長度的增大,SPL和MSPL 2種分類器的識別率相對較高且上升幅度較小,基本趨近平穩;SVM和MSVM 2種分類器得到的識別準確率都呈現明顯的上升趨勢,但大小仍明顯低于SPL和MSPL。實驗結果表明,SPL和MSPL的魯棒性較好,尤其針對有標簽的訓練樣本比較少時,仍能保持比較穩健的性能,再次驗證了本文MSPL分類器的識別效果優于其他3種分類器(SVM、SPL、MSVM)。

圖5 多視角融合方法中訓練樣本長度對識別結果的影響
2.3.5 參數敏感度分析
本文在UTKinect-Action數據集(500個單詞的字典長度)上,測試SVM、SPL、MSVM、MSPL 4種分類器對c和gamma2個參數的敏感度。從圖6可以看到,SVM分類器的識別結果隨著參數c和gamma變化的波動范圍較大,SPL分類器的識別結果隨著參數c和gamma變化的波動范圍減小,說明SPL較SVM對參數不敏感,自身魯棒性較好。MSVM分類器對參數的敏感性與SVM相似,MSPL分類器對參數的敏感性與SPL相似,MSPL分類器較MSVM分類器魯棒性更好。

圖6 UTKinect-Action數據集在不同分類器下的識別結果對比
本文改進SPL動作識別算法,提出基于MSPL模型的人體兩維視頻動作識別方法。該方法在保留SPL本身優良特性的基礎上,能夠融合各個不同視角下學習的課程,獲取更適合解決動作識別問題的綜合課程,從而提高動作識別的準確率。在2個識別難度較高的多類復雜動作數據集上進行實驗,結果表明本文算法具有較高的準確率與魯棒性。此外,本文選取的5個視角動作特征僅需使用普通兩維攝像機即可獲取,無需升級現有視頻捕獲設備,相較于依靠三維特征信息的動作識別方法,具有成本低廉、實時性高和數據處理量小等優點,可應用于道路暴力行為監控、商場偷竊行為監測等領域。本文將各個視角下單獨學習的基礎課程進行融合,但每個視角下課程的內容有一定的聯系性,因此,后續的工作將集中于挖掘每個課程之間的聯系,同時聯合學習得出更全面高效的課程。
[1] 羅會蘭,馮宇杰,孔繁勝.融合多姿勢估計特征的動作識別[J].中國圖象圖形學報,2015,20(11):1462-1472.
[2] LIU J,ALI S,SHAH M.Recognizing Human Actions Using Multiple Features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recog-nition.Washington D.C.,USA:IEEE Press,2008:1-8.
[3] NEVATIA R,ZHAO T,HONGENG S.Hierarchical Language-based Representation of Events in Video Streams[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshop.Washington D.C.,USA:IEEE Press,2003:38-39.
[4] YAMATO J,OHYA J,ISHII K.Recognizing Human Action in Time-sequential Images Using Hidden Markov Model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,1992:379-385.
[5] SHI Q,CHENG L,WANG L,et al.Human Action Segmentation and Recognition Using Discriminative Semi-markov Models[J].International Journal of Computer Vision,2011,93(1):22-32.
[6] 朱國剛,曹 林.基于Kinect傳感器骨骼信息的人體動作識別[J].計算機仿真,2014,31(12):329-333.
[7] NATARAIAN P,NEVATIA R.View and Scale Invariant Action Recognition Using Multiview Shape-flow Models[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2008:1-8.
[8] BENGIO Y,LOURADOUR J,COLLOBERT R,et al.Curriculum Learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning.New York,USA:ACM Press,2009:41-48.
[9] BENGIO Y,COURVILLE A,VINCENT P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[10] KUMAR M P,PACKER B,KOLLER D.Self-paced Learning for Latent Variable Models[C]//Proceedings of the 23th Annual Conference on Neural Information Processing Systems.Cambridge,USA:MIT Press,2010:1189-1197.
[11] JIANG L,MENG D,YU S I,et al.Self-paced Learning with Diversity[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Cambridge,USA:MIT Press,2014:2078-2086.
[12] WANG H,KLASER A,SCHMID C,et al.Dense Trajectories and Motion Boundary Descriptors for Action Recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[13] DALAL N,TRIGGS B.Histograms of Oriented Gradients for Human Detection[C]//Proceedings of IEEE Con-ference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2005:886-893.
[14] LAPTEV I,MARSZALEK M,SCHMID C.Learning Realistic Human Actions from Movies[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2008:1-8.
[15] DALAL N,TRIGGA B,SCHMID C.Human Detection Using Oriented Histograms of Flow and Appearance[C]//Proceedings of European Conference on Computer Vision.Berlin,Germany:Springer,2006:428- 444.
[16] GEHLER P V,NOWOZIN S.Let the Kernel Figure It out:Principled Learning of Preprocessing for Kernel Classi-fiers[C]//Proceedings of IEEE Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:2836-2843.
[17] 許允喜,蔣云良,陳 方.基于支持向量機增量學習和LPBoost的人體目標再識別算法[J].光子學報,2011,40(5):758-763.
[18] 方育柯,傅 彥,周俊臨,等.基于選擇性集成的最大化軟間隔算法[J].軟件學報,2013,34(5):1132-1147.
[19] XIA L,CHEN C C,AGGARWAL J K.View Invariant Human Action Recognition Using Histograms of 3D Joints[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C.,USA:IEEE Press,2012:20-27.
[20] SEIDENARI L,VARANO V,BERRETTI S,et al.Recognizing Actions from Depth Cameras as Weakly Aligned Multi-part Bag-of-poses[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C.,USA:IEEE Press,2013:479-485.
[21] 湯榮志,段會川,孫海濤.SVM訓練數據歸一化研究[J].山東師范大學學報(自然科學版),2016,31(4):60-65.