動態視角下人體行為識別研究

2019-06-06 04:21:26紀亮亮趙敏

軟件導刊 2019年3期

紀亮亮趙敏

摘要：3D人體行為識別數據庫發展給人體行為識別研究者提供了便利，然而現存數據庫視角固定等問題限制了機器人移動范圍。為了研究真實環境下的人體行為識別，建立一個基于RGB-D攝像機的動態多視角人體行為數據庫DMV Action3D，收集了20人的600多個行為視頻，約60萬幀彩色圖像和深度圖像。另外，在DMV Action3D數據庫基礎上，利用CRFasRNN圖片分割技術將人像進行分割并分別提取Harris3D特征，利用隱馬爾可夫模型對動態視角下的人體行為進行識別。實驗結果表明，在動態視角下使用CRFasRNN圖像分割方法，人像分割效果突出，且不受環境、場景、光照因素影響，與真實環境下人體輪廓的相似度極高。DMV Action3D數據集對于研究真實環境下人體行為具有較大優勢，為服務機器人識別真實環境下人體行為提供了一個較佳資源。

關鍵詞：人體行為識別;3D數據庫;CRFasRNN

DOI：10. 11907/rjdk. 182080

中圖分類號：TP317.4文獻標識碼：A文章編號：1672-7800（2019）003-0178-05

0 引言

基于視覺的行為識別研究在人機交互、智能監控和視頻檢索中有重要應用價值。隨著立體視覺和深度傳感器的發展，3D場景和深度信息獲取為人體行為識別分析提供了多樣化的研究手段和方法。人體行為數據庫的建立給行為識別研究提供了便利，常用的人體行為3D數據庫包括：微軟MSR Action3D[1]、MSR Daily Activity[2]、康奈爾大學CAD-60[3]和CAD-120[4]、UTD-MHAD[5]、UWA3D Multiview II[6]、南陽理工大學的NTU RGB+D[7]等。其中，NTU RGB+D數據庫極其豐富，包含17個視角、80個場景、40個采集動作對象、60組動作、56 880個樣本，存有RGB+D+IR+3DJoints數據提供研究者使用。然而，這些數據庫在滿足場景多變、視角多變、動作類別豐富的條件下卻忽略了重要一點：所有機器視角都為靜態視角，服務型機器人在移動情況下，其視角信息會隨著移動路徑發生背景變化、光照變化、遮擋等情況，因此靜態視角提供的數據信息對于移動機器人識別研究不再適用。

研究動態機器視角信息需要建立動態視角人體行為數據庫。本文使用Microsoft Kinect傳感器，選取30組復雜人體行為，包括日常生活行為、運動行為和異常行為三大類，設計多個人體、物體、環境具有交互作用的動作，采集20個人的習慣動作，建成一個超過60萬幀的人類行為識別3D數據庫DMV3 Dataset。Kinect從3個視角出發，其中2個為固定垂直視角（正視角、側視角），1個為為動態視角，用一款ROS機器人圍繞人體作半圓運動，動態錄制了人體行為動作的整個過程。

數據庫人體行為的復雜性和多變性使得識別算法復雜度大幅增加。基于圖像的常用算法如幀差法[9]、光流算法[10]在動態機器視角下完全失效，使得動態視角下行為識別難度遠遠超過靜態視角。本文提出使用CRFasRNN[8]對移動視頻序列幀中的人體進行分割，CRFasRNN是一個端到端的深度學習方法，將神經網絡與概率圖模型的優勢結合，用于解決像素級圖像分割問題。該方法不受場景和光照變化影響，對分割后的人像提取人體特征，最后利用隱馬爾可夫模型進行訓練分類。

1 相關工作

人體行為識別方法研究隨著3D深度圖像的發展有了很多突破。隨著人體數據庫更新，人體識別方法經歷了3個階段：第一階段，基于灰度視頻序列的特征提取方法，例如幀差算法、光流算法等;第二階段，基于彩色圖、深度圖以及關節點的特征提取方法，例如三通道HOG特征[11]、SIFT[12]、BRISK[13]等;第三階段，基于深度學習的特征提取方法，例如文獻[14]提出用3D CNN模型自動識別視頻序列中的人體動作。但是，也存在一定不足：一是現有的數據庫動作類別較少且部分行為數據不完整，如MSR Action3D數據庫僅限于游戲動作，沒有與物體交互的行為，CAD數據庫具有多背景特點，但視頻樣本數量有限;二是目前已經存在的數據庫多數都為固定單視角，多視角數據能給研究者提供多角度間信息相關研究，以此判斷視角的優劣性問題;三是目前采集的數據庫背景都是靜態的，靜態視角下人體行為識別方法在動態視角下出現了不適用性，在機器人移動視角下，無法驗證跟隨機器人動態識別人體行為，或者為移動機器人尋找最佳視角。

在神經網絡和概率圖模型結合方面，使用神經網絡預測結構化輸出研究中較為杰出的方法有：Do等[15]提出了神經網絡和馬爾可夫網絡進行組合，對序列標簽進行分類識別;Bell等[16]和Chen[17]使用CRF改進從CNN中獲得的分割結果，前者重點為材料識別和分割，后者則在語意圖像分割上提出了顯著的改進方法;在自然語言處理中，Yao等[18]表明通過引入CRF模型可以顯著提高基于RNN的字體識別性能。在此之前所有方法都是利用神經網絡提取特征，再將特征輸入圖模型進行訓練分類，而文獻[19]則將卷積網絡中可變形的部分模型表示為一種MRF，作為神經網絡的一層，將圖模型結構直接變為神經網絡的迭代層。而CRFasRNN的突出貢獻在于將密集CRF作為RNN，形成端到端可訓練的圖像分割系統。

2 動態多視角數據庫建立

TurtleBot[20]是一款移動機器人，其硬件主要有Yujin Kobuki移動底座、Kinect視覺傳感器、2 200mAh（或?????????? 4 400mAh）電池和可裝卸的結構模塊，使用著名的ROS（Robot Operating System）作為操作系統，能實現3D地圖導航、跟隨等功能。

在DMV3 Dataset數據庫中，所有動作都是在復雜背景中使用Kinect從兩個靜態視角和一個動態視角進行攝制完成的。動態攝像頭由TurtleBot機器人外接Kinect，從正面到側面以人為圓心、半徑2.5m的軌道上隨機進行錄制。圖2為攝像機錄制場景。兩個靜態攝像頭的角度為90°，攝像頭1從正面錄制，攝像頭2從側面錄制。

數據庫包含3個不同場景下的30個不同人體行為。每類行為包含20個動作，是一個多角度、動態視角下交互式人體行為數據庫。人體行為包含三大類，分別為基本動作類（10個）、與物體交互類（15個）和行為異常類（5個）。基本動作類有單手高舉揮舞、拋出、鼓掌、雙手揮舞、慢跑、坐下起立、原地向上跳、自拍、看手表、坐在地上。與物體交互類有讀書、寫字、擦汗、脫外套、穿/脫鞋子、戴/摘眼鏡、踢箱子、從口袋里拿東西、打電話、喝水、吃零食、在黑板上寫字、使用電腦、搬箱子、搬椅子。行為異常類包含摔倒、躺在地上、摔杯子、從椅子上跌落、肚子疼。DMV Action3D數據庫包含彩色圖、深度圖、關節點位置和時間等信息，既保證了多視角、多背景、多樣本和多交互行為，還增加了一個動態視角，為實驗者分析視角和尋找最佳角度提供了可供驗證的數據庫。

3 CRFasRNN人像提取

人體行為識別研究重點在于如何提取視頻序列中的人體特征。人體特征值是指可以描述人體運動信息的特征，一般方法有：提取圖像的顏色、紋理特征、角點或者利用關節點狀態獲取人體運動的方向、速度等。本文提出使用CRFasRNN方法對移動視頻序列幀中的人體進行分割并提取特征。CRFasRNN是一個端到端的深度學習方法，其將神經網絡與概率圖模型的優勢結合，用于解決像素級圖像分割問題。本文將簡單介紹用于分割圖像的條件隨機場圖模型和CRFasRNN方法中用到的公式標簽等。

圖像中每個像素[i]具有類別標簽[xi]，還有對應的觀測值[yi]，每個像素點作為圖模型的節點，像素與像素間的關系作為邊，即構成了一個條件隨機場，通過觀測變量[yi]推測像素[i]對應的類別標簽[xi]。條件隨機場滿足吉布斯分布，如式（1）。

CRF-RNN網絡使用反向傳播算法[21]和隨機梯度下降法形成了端到端可訓練網絡。在訓練期間，將一張完整的圖片作為輸入，使用損失函數計算網絡中每個像素輸出的誤差，例如圖4中Softmax函數表示相對于真實圖片分割的誤差。FCN-8s作為網絡的第一部分，輸出作為CRF的一元勢函數，在網絡的正向傳輸中，通過CNN階段進入CRF-RNN網絡中后，需要[T]次迭代才可以輸出，Softmax損失函數隨著CRF-RNN網絡迭代的結束而結束。在反向傳播期間，一旦誤差達到了CRF-RNN網絡輸出[Y]，則在RNN網絡輸入[U]到來之前進行[T]次迭代。訓練期間，平均場迭代次數[T]設置為5，避免了網絡崩潰，也減少了訓練時間，測試時迭代次數為10。

4 實驗與分析

CRFasRNN分割人像不受光照變化和場景變化影響，在機器震動或者人速度較快、圖片幀出現模糊的情況下分割效果依然顯著，人像分割精確，邊緣少有毛刺現象。圖5展示動態機器視角下復雜環境中的30組人體分割效果。

對分割好的圖片分別利用Harris3D方法[24]提取特征，3D特征的優勢在于增加了時間維度，保留了動作的運動趨勢特征。圖6、圖7分別展示分割前與分割后的角點檢測對比，可以看出，經過分割后的圖片去除了大量背景干擾，由于在運動視角下，人和背景相對于攝像頭產生的復雜運動使得人體運動檢測變得困難，利用CRFasRNN進行人像提取去除背景后，在移動視角下能夠準確提取人體運動特征信息。

最后，利用HMM模型對獲取的人體邊緣特征進行訓練分類，最終得到行為識別率為94.74%，混淆矩陣如圖8所示。

5 結語

本文提出一種動態機器視角下的人體姿態識別方法，利用CRFasRNN對移動機器視角下的人像進行分割并提取角點信息。實驗證明，在動態視角下CRFasRNN圖像分割方法使人像分割效果突出、邊界清晰，與真實環境下的人體輪廓相似度極高，超越了其它圖像分割方法。CRFasRNN對視頻幀進行分割后去除了大量背景環境干擾，該方法不受環境、場景、光照因素影響，也不受機器視角中人數的影響，可以識別多人的行為。另外，本文提供了一個較大規模的動態視角人體行為識別數據庫DMV3 Dataset，數據庫場景多變、動作復雜，對于研究真實環境下的人體行為具有顯著優勢和較大使用價值。

參考文獻：

[1] LI W，ZHANG Z，LIU Z. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops ，2010：9-14.

[2] WANG J， LIU Z， WU Y， et al. Mining action let ensemble for action recognition with depth cameras[C]. Computer Vision and Pattern Recognition （CVPR）， 2012： 1290-1297.

[3] SUNG J， PONCE C， SELMAN B， et al. Unstructured human activity detection from RGBD images[J]. IEEE International Conference on Robotics & Automation， 2011， 44（8）：47-55.

[4] KOPPULA H S，GUPTA R，SAXENA A. Learning human activities and object affordances from RGB-D videos[J]. International Journal of Robotics Research， 2013， 32（8）：951-970.

[5] CHEN C，JAFARI R，KEHTARNAVAZ N. UTD-MHAD： a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing， 2015：168-172.

[6] RAHMANI H，MAHMOOD A，DU H，et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence，2016，38（12）：2430-2443.

[7] SHAHROUDY A， LIU J， NG T T， et al. NTU RGB+D： a large scale dataset for 3D human activity analysis[C]. Computer Vision & Pattern Recognition ，2016：1010-1019.

[8] ZHENG S，JAYASUMANA S， ROMERA-PAREDES B， et al. Conditional random fields as recurrent neural networks[C]. IEEE International Conference on Computer Vision， 2016：1529-1537.

[9] YAMADA T，HAYAMIZU Y， YAMAMOTO Y， et al. A stretchable carbon annotate strain sensor for human-motion detection[J]. Nature Nanotechnology， 2011， 6（5）：296-301.

[10] TAO M，BAI J，KOHLI P， et al. Simple flow： a non iterative， sub linear optical flow algorithm[J]. Computer Graphics Forum， 2012， 31（2pt1）：345-353.

[11] LI N， CHENG X， ZHANG S， et al. Realistic human action recognition by fast HOG3D and self-organization feature map[J]. Machine Vision & Applications， 2014， 25（7）：1793-1812.

[12] TOMPSON J， JAIN A， LECUN Y， et al. Joint training of a convolution network and a graphical model for human pose estimation[C]. Eprint Arxiv， 2014：1799-1807.

[13] LEUTENEGGER S， CHLI M， SIEGWART R Y. BRISK： binary robust invariant scalable key points[J]. International Conference on Computer Vision（ICCV）， 2011， 58（11）：2548-2555.

[14] XU W， XU W， YANG M， et al. 3D Convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012： 35（1）：221-231.

[15] DO T M T， ARTIERES T. Neural conditional random fields[C]. Thirteenth International Conference on Artificial Intelligence & Statistics， 2010：177-184.

[16] BELL S，UPCHURCH P，SNAVELY N， et al. Material recognition in the wild with the Materials in context database[C]. IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2015：3479-3487.

[17] CHEN L C， PAPANDREOU G， KOKKINOS I， et al. Deep lab： semantic image segmentation with deep convolution nets， aurous convolution， and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intel， 2016， 40（4）：834-848.

[18] YAO K， PENG B， ZWEIG G， et al. Recurrent conditional random field for language understanding[C]. IEEE International Conference on Acoustics， Speech and Signal Processing， 2014：4077-4081.

[19] GIRSHICK R R，IANDOLA F，DARRELL T，et al. Deformable part models are convolutional neural networks[C]. Computer Vision and Pattern Recognition， 2015：437-446.

[20] KNISS J， JIN K， IVANS R， et al. Robotics Research with TurtleBot 2016[D]. Idaho：Boise State University Scholar Works， 2016.

[21] LéCUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE， 1998， 86（11）：2278-2324.

[22] LONG J，SHELHAMER E，DARRELL T. Fully convolution networks for semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition， 2015：3431-3440.

[23] KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. International Conference on Neural Information Processing Systems， 2011：109-117.

[24] SIPIRAN I， BUSTOS B. Harris 3D： a robust extension of the Harris operator for interest point detection on 3D meshes[J]. Visual Computer， 2011， 27（11）：963.

（責任編輯：何麗）