龔冬穎,黃敏,張洪博,李紹滋
(1.廈門大學 智能科學與技術系,福建 廈門 361005;2.廈門大學 福建省仿腦智能系統重點實驗室,福建 廈門 361005; 3.華僑大學 計算機科學與技術學院,福建 廈門 361005)
RGBD人體行為識別中的自適應特征選擇方法
龔冬穎,黃敏,張洪博,李紹滋
(1.廈門大學 智能科學與技術系,福建 廈門 361005;2.廈門大學 福建省仿腦智能系統重點實驗室,福建 廈門 361005; 3.華僑大學 計算機科學與技術學院,福建 廈門 361005)
目前在RGBD視頻的行為識別中,為了提高識別準確率,許多方法采用多特征融合的方式。通過實驗分析發現,行為在特定特征上的分類效果好,但是多特征融合并不能體現個別特征的分類優勢,同時融合后的特征維度很高,時空開銷大。為了解決這個問題,提出了RGBD人體行為識別中的自適應特征選擇方法,通過隨機森林和信息熵分析人體關節點判別力,以高判別力的人體關節點的數量作為特征選擇的標準。通過該數量閾值的篩選,選擇關節點特征或者關節點相對位置作為行為識別特征。實驗結果表明,該方法相比于特征融合的算法,行為識別的準確率有了較大提高,超過了大部分算法的識別結果。
人體行為識別;自適應特征選擇;信息熵;隨機森林
人體行為識別在計算機視覺領域上有很重要的研究意義,廣泛應用于異常人體行為識別、用戶身份識別、基于內容的體育視頻檢索、智能家居環境等。目前,人體行為識別主要困難在于用于人體行為識別的視頻持續在一系列的時間和空間,視頻基于一個很高維的時間和空間,行為表示困難,同時同一個動作受執行個體、速度、衣著、光照、遮擋和攝像頭拍攝角度的影響,行為的類內距離大,類間差異小。新推出的3-D體感攝像機(例如Kinect),除了提供RGB視頻外,還有深度信息、關節點信息,能快速分割前景背景,為人體行為識別帶來了新的思路。因此,目前許多行為識別的工作都是基于RGB視頻序列的。
現有RGBD視頻的行為識別中,特征主要分為兩種:深度表觀特征和關節點運動特征。深度表觀特征主要基于某一時空領域內的深度點云信息,側重描述時空域內的深度表觀細節,可以是某一時空域內的占有模式[1]、4-D法向量統計[2]和運動歷史圖梯度統計[3]等。關節點運動特征主要基于關節點3-D位置,通過關節點位置的時間變化[1]和空間偏移值[4]來描述行為,此方法特征緊湊,避免了大量的冗余計算。但在一些人物交互的行為中,僅采用關節點運動特征無法刻畫交互物體,需要引入深度表觀特征。
因此,很多學者嘗試采用特征融合的方法,同時使用多模態特征來描述行為。在一些方法中[5-7],結合了多種從2-D圖像提取的特征,使用單個分類器進行分類。還有一些方法中設計了多種分類器。文獻[8-9]通過對各種分類器的分類結果進行整合,從而提高了行為識別的準確率。
但是這些特征融合方法普遍存在3個缺陷:1)視頻存在類內類間的區別,用多個特征串聯可能存在結果受其中某個特征影響,結果達不到預期效果;2)無法對特征與類別之間的關系進行分析;3)多特征融合的維度很高,對于訓練以及測試需要大量的時間,而目前普遍采用的降維方式如PCA會降低準確率。因此,本文設計了一種特征選擇方式,根據關節特征分析關節點的判別類型,選擇不同的行為特征用于識別行為。
本文提出的自適應特征選擇方法,分別采用HON4D關節點表觀特征[10]和關節點相對距離特征作為行為表示特征。要實現上述目的,主要存在的問題是在測試過程中,需要確定特征選擇的依據。對于MSR-Daily Activity 3-D數據集來說,盡管已經知道HON4D關節點特征在喝水、吃東西等類別上效果較好,相對距離特征對于看書、打電話、玩游戲等行為的識別較好,但是在測試過程中測試樣本卻是不知道該使用什么特征來表現。通過實驗分析發現,采用HON4D關節點特征分類較好時,對應于高判別力的關節點數量較多。因此在本文中采用隨機森林對HON4D關節點進行建模,根據關節點的類別投票結果熵,將其結果作為關節點的判別力,提出了自適應熵閾值,選擇高判別力的關節點;同時基于高判別力關節點數量的特征選擇方法,用于表示行為,進而提高行為的識別率。
目前,在RGBD的人體行為識別中主要采用基于關節點序列的運動軌跡特征以及基于局部或者整體的表觀特征。
關節點運動軌跡特征是指骨架在時間序列上的變化所提取的特征。Yang[11]提出基于關節點3-D位置的位置特征、運動特征和位移特征,使用貝葉斯最鄰近法則(NBNN)進行分類。Wang等[1]在Actionlet Ensemble中使用到3-D關節點相對位置特征,并且添加了傅里葉時間金字塔提高精度。Xia等[4]在3-D關節點球形位置計算直方圖,通過隱馬爾可夫模型建立3-D關節點的時間演變模型進行分類。
另一種主要特征是基于局部或整體的表觀表示。Wang等[1]提出LOP作為關節點的深度表觀信息,用此特征來描述人體與物體的交互。HOPC是Rahmani[12]提出的基于3-D點云的表示方法,圍繞該點可以得到自適應時空支撐體。SNV是Yang等[2]在時空體內描述的深度表觀信息和變化信息,該特征是由深度序列劃分成時空網格,并聚類底層法向量獲得的。
不同的特征在不同行為上具有不同的識別強度。不少文章也選擇了多特征的方法,使得這些特征存在互補性。除了一些單純使用不同特征簡單連接進行融合以外[1,13-14],還有一些特征進行了融合處理。Gao等[15]提取深度序列圖的不同特征,然后進行多特征映射并且使用字典學習模型。Liu等[16]提出基于3D2的CNN框架,這個框架可以自動從原始深度視頻序列提取時空特征。Li等[17]使用組合稀疏正則化,提出用多特征稀疏融合(MFSF)排序以獲得特征的共享和特定結構的重要性。
現有方法中,結合關節點運動信息和局部表觀信息能很好地描述行為。關節點運動信息雖然可以表現人體運動姿態,但是在捕獲變化的時候無法避免運動速度的影響。在關節點局部表觀信息上,雖然可以捕捉一些人體的姿態信息,但是描述運動特點有限。HON4D的特征較短,經過傅里葉變化后,保留的低頻信息不僅特征短、而且判別力強。因此,在本文提出的模型中,采用關節點相對距離作為運動信息模型,關節點位置的HON4D特征作為表觀信息模型,根據關節點的判別力,選擇不同的特征,進而增強分類性能。在特征處理上采用Actionlet Ensemble提出的傅里葉時間金字塔,此方法能夠很好地去除時間上對分類帶來的影響。
在本節中,我們將詳細介紹自適應特征選擇方法。本文考慮了兩種特征,即體現關節點表觀信息的HON4D特征[10]和運動變化的關節點相對距離特征。在特征選擇上,基于關節點熵進行自適應特征選擇,人體行為識別方法如圖1所示。

圖1 自適應特征選擇方法框架Fig.1 The frame of adaptive feature selection method
2.1 特征介紹


再將各幀的相對關節點位移串聯,進行傅里葉變換,即
取變換后的低頻信息,最終得到關節點相對距離特征。其次,在表觀特征上,我們對HON4D進行了改進,根據關節點判別力篩選出前N個判別力強的關節點特征。關節點判別力是指某個關節點的特征在數據集上準確率的評判值。為了得到不同關節點判別力評價,我們將每個關節點HON4D特征隨機森林(RF)中進行模型訓練,得到各個模型中的袋外估計錯誤率,以便用來評價關節點的判別力。隨機森林是一個具有T棵決策樹的集成模型。本文采用自舉采樣法,在訓練階段,每棵決策樹都會在訓練集中生成自舉采樣,大約丟棄37%的樣本,根據這些丟棄樣本去計算袋外估計錯誤率。
對于給定行為c(c=1,2,…,cCls),cCls為數據集的類別,根據各關節點p(p=1,2,…,nJoint)在相應的RF模型上計算的該行為上的袋外估計錯誤率,每個行為將得到一個關節點錯誤率升序的排序表。則最終數據為(1+cCls)個排序表,其中第1列為所有數據集對于其中一個行為的平均錯誤率。最終,從基于整個數據集上的關節點升序表中取出前N個關節點,將其HON4D特征串聯,得到表觀特征。
2.2 基于熵的自適應特征選擇方法
關節點相對位移特征,適用于運動變化較大的行為,如靜止、站起、坐下等,而表觀特征則可以刻畫交互物體和局部細節變化的行為,如看書、打電話等。因此,應根據行為的特點選擇合適的特征。為此,本文提出了基于熵的自適應特征選擇方法。
首先,為了評估表觀特征對于各行為的判別力,我們將各關節點的表觀特征輸入RF模型,從訓練模型中得到決策樹的投票結果,由投票結果的不確定性去判斷該類特征在行為分類上是否具備代表性。確定性強,表示該特征能夠充分代表樣本,反之,則使用關節點相對位移。由于任何信息都存在冗余,冗余的程度與不確定性有關,排除冗余后的平均信息量稱為“信息熵”。不確定性函數為
對于整個信息源而言,熵的定義為

由此得到每個樣本的信息熵,并求出S個樣本的平均信息熵,因此在cCls類行為中可得到在該模型的信息熵Enj(nj=1,2,…,nJoint)。
在訓練模型中可以得到平均信息熵,根據此信息熵得到針對于此關節點模型的熵的閾值。
作為特征自適應選擇的選擇器時,測試樣本在經過20個關節點模型時,可以類似于訓練模型得到20個熵。本文中熵的意義為,HON4D特征的熵越大信息不確定性越大,表示測試樣本使用HON4D不能準確描述行為,因此不使用關節點特征,而選擇關節點相對距離特征。
在實驗中,本文設定當測試樣本的熵超過訓練模型中得到的平均信息熵的個數為C,設置閾值為Cp,C 算法詳見算法1。 算法1 基于熵的自適應特征選擇算法 輸入 訓練樣本平均熵,測試樣本HON4D特征與關節點相對距離特征,20個關節點模型,關節點相對距離模型,HON4D關節點組合模型,閾值Cp,平均信息熵Enj(nj=1,2,…,nJoint) 輸出 預測標簽。 1)初始化C為0。 2)for 第nj個關節點in所有關節點數目 do。 3)第nj個關節點的HON4D特征作為測試樣本特征,由相對應的關節點模型測試得到cCls個投票結果。 4)計算cCls個投票結果的投票概率。 5)計算該模型下的投票熵。 6)比較Enj與該模型下的投票熵,若Enj小,則C+1。 7)end for。 8)比較C與Cp,若C小,則使用關節點相對距離特征;若C大,則使用HON4D特征。 9)輸出預測標簽。 為了驗證本方法的可用性,我們將在MSR-Daily Activity 3D數據集上驗證。該數據使用Kinect設備拍攝,是日常活動的數據集,如圖2。在這個數據集中,動作覆蓋手、腿、軀干以及其他一些互動行為。其中數據集中每個行為由10個人完成,每個人分別以不同的姿態完成。該數據集樣本數為320。在本文的實驗中,我們將在每個行為中選取5個人所完成的10個樣本,也就是其中160個作為訓練樣本,其余160個作為測試樣本。 在設置參數方面,HON4D中網格大小為60×60×10,步長為3×3×1,傅里葉變換取低頻信息10。在本文的方法中,需要設置閾值:每個關節點的信息熵閾值和高判別力關節點的數量閾值。其中,每個關節點的信息熵閾值采用各自的平均信息熵作為閾值,是一種自適應的方法,不需要手動調節。同時,通過實驗對比,關節點數量的閾值Cp=16時,行為識別的準確率最高。 3.1 特征介紹 在HON4D的關節點判別力表示中,我們采用錯誤率的方式進行衡量,可以從20個關節點模型中分別得到16個行為的錯誤率。從圖2可以看出,某個行為中錯誤率較低的關節點在該行為中占據比較重要的位置,比如圖2(a)的行為為喝水的動作,重要的關節點主要集中在手部、頭部,這些關節點的錯誤率也較低。 根據這16個行為的關節點錯誤率可以得到針對整個數據集的平均錯誤率,由平均錯誤率可以得到相應關節點的排序為{2,10,11,1,12,5,9,3,17,4,7,13,6,8,14,18,15,19,16,20}。 圖2 關節點錯誤率骨架圖Fig.2 The skeleton diagram of joint point error 實驗中,我們采用交叉驗證法,發現取前12個關節點子序列時,分類模型結果最佳。圖3給出了測試集在不同關節點個數下的準確率變化,準確率隨關節點個數增加而提升,但到達某個范圍值后趨于穩定。在后續實驗中,我們選取前12個關節點子序列的HON4D特征作為表觀特征。 圖3 HON4D模型關節點準確率Fig.3 The joint accuracy of HON4D model 為了判斷關節點局部特征是否能夠代表該行為,本文引入關節點的信息熵。從圖2可以清楚看到,(c)(d)(e)(f)(j)(k)圖中的行為中大部分的關節點錯誤率都較高,而(i)(o)(p)圖中行為的關節點錯誤率都很低。如圖4中所示,這幾個行為的熵在錯誤率高的行為中,熵同樣高,這樣說明了關節點表觀特征在這些行為中,不確定性大,無法將其分到正確的類別。相反的,在其錯誤率較低的行為中,其熵普遍也比較低,可以使用關節點表觀特征代表該行為。因此,可以看出使用熵作為兩個特征模型的判斷標準是可行的。 同時,每個關節點信息熵的閾值,對實驗結果有著較大影響。采用統一閾值的方式雖然簡單,但是并沒有區分不同關節點的差異,而每個關節點采用不同的閾值手動調節的方法,參數較多。因此,本文采用平均信息熵作為閾值的自適應方法,不需要設置參數。 由圖5可以看出,在設置相同的閾值中準確率最高為88.75%,而采用本文提出的方法,在該數據集上準確率可以達到91.25%,提高了2.5%。 圖4 關節點熵骨架圖Fig.4 The skeleton diagram of joint point entropy 圖5 相同閾值準確率Fig.5 The accuracy of same threshold 3.2 行為識別分析結果 本文使用了兩種特征,一種是基于關節點判別力的HON4D 局部表觀特征,另一種是使用關節點相對距離變化來表達該數據集。根據高判別力關節點的數量選擇不同的特征用于行為識別。在實驗中,數量閾值Cp從1~20,結果如圖6所示。 圖6 Cp取值準確率Fig.6 The accuracy of Cp’s value 通過圖6的對比可以看出,在Cp=16時,準確率是91.25%, 達到最高。分類的混淆矩陣如圖7~圖9所示。 圖7 HON4D特征的混淆矩陣Fig.7 The confusion matrix of HON4D feature 圖8 相對距離特征的混淆矩陣Fig.8 The confusion matrix of the relative positions feature 圖9 自適應特征選擇方法的混淆矩陣Fig.9 The confusion matrix of adaptive feature selection method 從混淆矩陣可以看出,在圖2中(c)(d)(e)(f)(j)(k)這幾種行為上,HON4D特征的分類效果較差,由此可以驗證本文引入熵來作為判斷該特征是可以成立的。關節點相對距離特征在圖2(c)(d)(e)(f)(j)(k)這些行為上較有優勢。而本文提出的特征選擇方法,將這兩種特征的優勢進行了充分的合并,結果有了很大的提高。 目前,基于該數據集的方法非常多。由表1可知,目前大部分使用直接串聯的特征效果并不理想,使用本文中的兩個特征時,整體的準確率只達到了86.25%,由于特征關節點相對距離線性可分,直接導致結果受到關節點相對距離的影響,其中HON4D特征就無法發揮作用。 表1 對比實驗準確率 文中提出了特征自適應選擇方法,此方法包括4個組成部分,即 HON4D關節點模型、HON4D關節點組合模型、關節點相對距離模型和自適應特征選擇器。首先我們根據HON4D的關節點特征訓練得到關節點隨機森林的模型,根據平均熵結果為測試投票結果的閾值,以此來權衡HON4D關節點特征在此測試樣本中是否存在較高的識別率。本文提出的方法在MSR-Daily Activity 3D這個數據集上評估。實驗結果表明,本文的方法確實有效。 [1]WANG Jiang, LIU Zicheng, WU Ying, et al. Mining actionlet ensemble for action recognition with depth cameras[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA, 2012: 1290-1297. [2]YANG Xiaodong, TIAN Yingli. Super normal vector for activity recognition using depth sequences[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 804-811. [3]CHEN Chen, JAFARI R, KEHTARNAVAZ N. Action recognition from depth sequences using depth motion maps-based local binary patterns[C]//Proceedings of 2015 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, USA, 2015: 1092-1099. [4]XIA LU, CHEN C C, AGGARWAL J K. View invariant human action recognition using histograms of 3D joints[C]//Proceedings of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, USA, 2012: 20-27. [5]LIU Jingen, ALI S, SHAH M. Recognizing human actions using multiple features[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8. [6]WANG Liang, ZHOU Hang, LOW S C, et al. Action recognition via multi-feature fusion and Gaussian process classification[C]//Proceedings of 2009 Workshop on Applications of Computer Vision. Snowbird, USA, 2009: 1-6. [7]LIU Jia, YANG Jie, ZHANG Yi, et al. Action recognition by multiple features and hyper-sphere multi-class SVM[C]//Proceedings of the 20th International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 3744-3747. [8]BENMOKHTAR R. Robust human action recognition scheme based on high-level feature fusion[J]. Multimedia tools and applications, 2014, 69(2): 253-275. [9]TRAN K, KAKADIARIS I A, SHAH S K. Fusion of human posture features for continuous action recognition[C]//Proceedings of the 11th European Conference on Trends and Topics in Computer Vision. Heraklion, Greece, 2010: 244-257. [10]OREIFEJ O, LIU Zicheng. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 716-723. [11]YANG Xiaodong, TIAN Yingli. Effective 3D action recognition using EigenJoints[J]. Journal of visual communication and image representation, 2014, 25(1): 2-11. [12]RAHMANI H, MAHMOOD A, HUYNH D Q, et al. Real time action recognition using histograms of depth gradients and random decision forests[C]//Proceedings of 2014 IEEE Winter Conference on Applications of Computer Vision. Steamboat Springs, USA, 2014: 626-633. [13]YU Gang, LIU Zicheng, YUAN Junsong. Discriminative orderlet mining for real-time recognition of human-object interaction[M]//CREMERS D, REID I, SAITO H, et al. Computer Vision—ACCV 2014. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 50-65. [14]CHAARAOUI A A, PADILLA-LOPEZ J R, FLOREZ-REVUELTA F. Fusion of skeletal and silhouette-based features for human action recognition with RGB-D devices[C]//Proceedings of 2013 IEEE International Conference on Computer Vision Workshops. Sydney, Australia, 2013: 91-97. [15]GAO Zan, ZHANG Hua, LIU A A, et al. Human action recognition on depth dataset[J]. Neural computing and applications, 2016, 27(7): 2047-2054. [16]LIU Zhi, ZHANG Chenyang, TIAN Yingli. 3D-based deep convolutional neural network for action recognition with depth sequences[J]. Image and vision computing, 2016, 55(2): 93-100. [17]LI Meng, LEUNG H, SHUM H P H. Human action recognitionvia skeletal and depth based feature fusion[C]//Proceedings of the 9th International Conference on Motion in Games. Burlingame, USA, 2016: 123-132. Adaptive feature selection method for action recognition of human body in RGBD data GONG Dongying1,2,HUANG Min1,2,ZHANG Hongbo3,LI Shaozi1,2 (1. Intelligent Science & Technology Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of Brain-like Intelligent Systems, Xiamen University, Xiamen 361005, China; 3. Computer Science & Technology School, Huaqiao University, Xiamen 361005, China) Many methods adopt the technique of multi-feature fusion to improve the recognition accuracy of RGBD video. Experimental analyses revealed that the classification effect of certain behavior in some features is good; however, multi-feature fusion cannot reflect the classification superiority of certain features. Moreover, multi-feature fusion is highly dimensional and considerably expensive in terms of time and space. This research proposes an adaptive feature selection method for RGBD human-action recognition to solve this problem. First, random forest and information entropy were used to analyze the judgment ability of the human joints, whereas the number of human joints with high judgment ability were chosen as the feature selection criterion. By screening the threshold number, either the joint feature or the relative positions of the joints was used as the recognition feature of action. Experimental results show that compared with multi-feature fusion, the method significantly improved the accuracy of action recognition and outperformed most other algorithms. action recognition of human body; adaptive feature selection; information entropy; random forest 龔冬穎,女,1992年生,碩士研究生,主要研究方向為行為識別、機器學習。 黃敏,女,1982年生,博士研究生,主要研究方向為行為識別、機器學習、目標檢測和圖像檢索。 張洪博,男,1986年生,講師,博士,主要研究方向為人體行為識別,主持國家自然科學基金青年項目和福建省自然科學基金面上項目各1項,發表學術論文多篇,其中被SCI、EI檢索20余篇。 10.11992/tis.201611008 http://kns.cnki.net/kcms/detail/23.1538.TP.20170228.1323.004.html 2016-11-07. 日期:2017-02-28. 國家自然科學基金項目 ( 61572409, 61571188 ,61202143);福建省自然科學基金項目 (2013J05100);中醫健康管理福建省2011協同創新中心項目. 李紹滋. E-mail:szlig@xmu.edu.cn. TP391.41 A 1673-4785(2017)01-001-07 龔冬穎,黃敏,張洪博,等.RGBD人體行為識別中的自適應特征選擇方法[J]. 智能系統學報, 2017, 12(1): 1-7. 英文引用格式:GONG Dongying,HUANG Min,ZHANG Hongbo,et al.Adaptive feature selection method for action recognition of human body in RGBD data[J]. CAAI transactions on intelligent systems, 2017, 12(1):1-7.3 實驗結果









4 總結


