999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態視角下人體行為識別研究

2019-06-06 04:21:26紀亮亮趙敏
軟件導刊 2019年3期
關鍵詞:數據庫動作方法

紀亮亮 趙敏

摘 要:3D人體行為識別數據庫發展給人體行為識別研究者提供了便利,然而現存數據庫視角固定等問題限制了機器人移動范圍。為了研究真實環境下的人體行為識別,建立一個基于RGB-D攝像機的動態多視角人體行為數據庫DMV Action3D,收集了20人的600多個行為視頻,約60萬幀彩色圖像和深度圖像。另外,在DMV Action3D數據庫基礎上,利用CRFasRNN圖片分割技術將人像進行分割并分別提取Harris3D特征,利用隱馬爾可夫模型對動態視角下的人體行為進行識別。實驗結果表明,在動態視角下使用CRFasRNN圖像分割方法,人像分割效果突出,且不受環境、場景、光照因素影響,與真實環境下人體輪廓的相似度極高。DMV Action3D數據集對于研究真實環境下人體行為具有較大優勢,為服務機器人識別真實環境下人體行為提供了一個較佳資源。

關鍵詞:人體行為識別;3D數據庫;CRFasRNN

DOI:10. 11907/rjdk. 182080

中圖分類號:TP317.4文獻標識碼:A文章編號:1672-7800(2019)003-0178-05

0 引言

基于視覺的行為識別研究在人機交互、智能監控和視頻檢索中有重要應用價值。隨著立體視覺和深度傳感器的發展,3D場景和深度信息獲取為人體行為識別分析提供了多樣化的研究手段和方法。人體行為數據庫的建立給行為識別研究提供了便利,常用的人體行為3D數據庫包括:微軟MSR Action3D[1]、MSR Daily Activity[2]、康奈爾大學CAD-60[3]和CAD-120[4]、UTD-MHAD[5]、UWA3D Multiview II[6]、南陽理工大學的NTU RGB+D[7]等。其中,NTU RGB+D數據庫極其豐富,包含17個視角、80個場景、40個采集動作對象、60組動作、56 880個樣本,存有RGB+D+IR+3DJoints數據提供研究者使用。然而,這些數據庫在滿足場景多變、視角多變、動作類別豐富的條件下卻忽略了重要一點:所有機器視角都為靜態視角,服務型機器人在移動情況下,其視角信息會隨著移動路徑發生背景變化、光照變化、遮擋等情況,因此靜態視角提供的數據信息對于移動機器人識別研究不再適用。

研究動態機器視角信息需要建立動態視角人體行為數據庫。本文使用Microsoft Kinect傳感器,選取30組復雜人體行為,包括日常生活行為、運動行為和異常行為三大類,設計多個人體、物體、環境具有交互作用的動作,采集20個人的習慣動作,建成一個超過60萬幀的人類行為識別3D數據庫DMV3 Dataset。Kinect從3個視角出發,其中2個為固定垂直視角(正視角、側視角),1個為為動態視角,用一款ROS機器人圍繞人體作半圓運動,動態錄制了人體行為動作的整個過程。

數據庫人體行為的復雜性和多變性使得識別算法復雜度大幅增加。基于圖像的常用算法如幀差法[9]、光流算法[10]在動態機器視角下完全失效,使得動態視角下行為識別難度遠遠超過靜態視角。本文提出使用CRFasRNN[8]對移動視頻序列幀中的人體進行分割,CRFasRNN是一個端到端的深度學習方法,將神經網絡與概率圖模型的優勢結合,用于解決像素級圖像分割問題。該方法不受場景和光照變化影響,對分割后的人像提取人體特征,最后利用隱馬爾可夫模型進行訓練分類。

1 相關工作

人體行為識別方法研究隨著3D深度圖像的發展有了很多突破。隨著人體數據庫更新,人體識別方法經歷了3個階段:第一階段,基于灰度視頻序列的特征提取方法,例如幀差算法、光流算法等;第二階段,基于彩色圖、深度圖以及關節點的特征提取方法,例如三通道HOG特征[11]、SIFT[12]、BRISK[13]等;第三階段,基于深度學習的特征提取方法,例如文獻[14]提出用3D CNN模型自動識別視頻序列中的人體動作。但是,也存在一定不足:一是現有的數據庫動作類別較少且部分行為數據不完整,如MSR Action3D數據庫僅限于游戲動作,沒有與物體交互的行為,CAD數據庫具有多背景特點,但視頻樣本數量有限;二是目前已經存在的數據庫多數都為固定單視角,多視角數據能給研究者提供多角度間信息相關研究,以此判斷視角的優劣性問題;三是目前采集的數據庫背景都是靜態的,靜態視角下人體行為識別方法在動態視角下出現了不適用性,在機器人移動視角下,無法驗證跟隨機器人動態識別人體行為,或者為移動機器人尋找最佳視角。

在神經網絡和概率圖模型結合方面,使用神經網絡預測結構化輸出研究中較為杰出的方法有:Do等[15]提出了神經網絡和馬爾可夫網絡進行組合,對序列標簽進行分類識別;Bell等[16]和Chen[17]使用CRF改進從CNN中獲得的分割結果,前者重點為材料識別和分割,后者則在語意圖像分割上提出了顯著的改進方法;在自然語言處理中,Yao等[18]表明通過引入CRF模型可以顯著提高基于RNN的字體識別性能。在此之前所有方法都是利用神經網絡提取特征,再將特征輸入圖模型進行訓練分類,而文獻[19]則將卷積網絡中可變形的部分模型表示為一種MRF,作為神經網絡的一層,將圖模型結構直接變為神經網絡的迭代層。而CRFasRNN的突出貢獻在于將密集CRF作為RNN,形成端到端可訓練的圖像分割系統。

2 動態多視角數據庫建立

TurtleBot[20]是一款移動機器人,其硬件主要有Yujin Kobuki移動底座、Kinect視覺傳感器、2 200mAh(或?????????? 4 400mAh)電池和可裝卸的結構模塊,使用著名的ROS(Robot Operating System)作為操作系統,能實現3D地圖導航、跟隨等功能。

在DMV3 Dataset數據庫中,所有動作都是在復雜背景中使用Kinect從兩個靜態視角和一個動態視角進行攝制完成的。動態攝像頭由TurtleBot機器人外接Kinect,從正面到側面以人為圓心、半徑2.5m的軌道上隨機進行錄制。圖2為攝像機錄制場景。兩個靜態攝像頭的角度為90°,攝像頭1從正面錄制,攝像頭2從側面錄制。

數據庫包含3個不同場景下的30個不同人體行為。每類行為包含20個動作,是一個多角度、動態視角下交互式人體行為數據庫。人體行為包含三大類,分別為基本動作類(10個)、與物體交互類(15個)和行為異常類(5個)。基本動作類有單手高舉揮舞、拋出、鼓掌、雙手揮舞、慢跑、坐下起立、原地向上跳、自拍、看手表、坐在地上。與物體交互類有讀書、寫字、擦汗、脫外套、穿/脫鞋子、戴/摘眼鏡、踢箱子、從口袋里拿東西、打電話、喝水、吃零食、在黑板上寫字、使用電腦、搬箱子、搬椅子。行為異常類包含摔倒、躺在地上、摔杯子、從椅子上跌落、肚子疼。DMV Action3D數據庫包含彩色圖、深度圖、關節點位置和時間等信息,既保證了多視角、多背景、多樣本和多交互行為,還增加了一個動態視角,為實驗者分析視角和尋找最佳角度提供了可供驗證的數據庫。

3 CRFasRNN人像提取

人體行為識別研究重點在于如何提取視頻序列中的人體特征。人體特征值是指可以描述人體運動信息的特征,一般方法有:提取圖像的顏色、紋理特征、角點或者利用關節點狀態獲取人體運動的方向、速度等。本文提出使用CRFasRNN方法對移動視頻序列幀中的人體進行分割并提取特征。CRFasRNN是一個端到端的深度學習方法,其將神經網絡與概率圖模型的優勢結合,用于解決像素級圖像分割問題。本文將簡單介紹用于分割圖像的條件隨機場圖模型和CRFasRNN方法中用到的公式標簽等。

圖像中每個像素[i]具有類別標簽[xi],還有對應的觀測值[yi],每個像素點作為圖模型的節點,像素與像素間的關系作為邊,即構成了一個條件隨機場,通過觀測變量[yi]推測像素[i]對應的類別標簽[xi]。條件隨機場滿足吉布斯分布,如式(1)。

CRF-RNN網絡使用反向傳播算法[21]和隨機梯度下降法形成了端到端可訓練網絡。在訓練期間,將一張完整的圖片作為輸入,使用損失函數計算網絡中每個像素輸出的誤差,例如圖4中Softmax函數表示相對于真實圖片分割的誤差。FCN-8s作為網絡的第一部分,輸出作為CRF的一元勢函數,在網絡的正向傳輸中,通過CNN階段進入CRF-RNN網絡中后,需要[T]次迭代才可以輸出,Softmax損失函數隨著CRF-RNN網絡迭代的結束而結束。在反向傳播期間,一旦誤差達到了CRF-RNN網絡輸出[Y],則在RNN網絡輸入[U]到來之前進行[T]次迭代。訓練期間,平均場迭代次數[T]設置為5,避免了網絡崩潰,也減少了訓練時間,測試時迭代次數為10。

4 實驗與分析

CRFasRNN分割人像不受光照變化和場景變化影響,在機器震動或者人速度較快、圖片幀出現模糊的情況下分割效果依然顯著,人像分割精確,邊緣少有毛刺現象。圖5展示動態機器視角下復雜環境中的30組人體分割效果。

對分割好的圖片分別利用Harris3D方法[24]提取特征,3D特征的優勢在于增加了時間維度,保留了動作的運動趨勢特征。圖6、圖7分別展示分割前與分割后的角點檢測對比,可以看出,經過分割后的圖片去除了大量背景干擾,由于在運動視角下,人和背景相對于攝像頭產生的復雜運動使得人體運動檢測變得困難,利用CRFasRNN進行人像提取去除背景后,在移動視角下能夠準確提取人體運動特征信息。

最后,利用HMM模型對獲取的人體邊緣特征進行訓練分類,最終得到行為識別率為94.74%,混淆矩陣如圖8所示。

5 結語

本文提出一種動態機器視角下的人體姿態識別方法,利用CRFasRNN對移動機器視角下的人像進行分割并提取角點信息。實驗證明,在動態視角下CRFasRNN圖像分割方法使人像分割效果突出、邊界清晰,與真實環境下的人體輪廓相似度極高,超越了其它圖像分割方法。CRFasRNN對視頻幀進行分割后去除了大量背景環境干擾,該方法不受環境、場景、光照因素影響,也不受機器視角中人數的影響,可以識別多人的行為。另外,本文提供了一個較大規模的動態視角人體行為識別數據庫DMV3 Dataset,數據庫場景多變、動作復雜,對于研究真實環境下的人體行為具有顯著優勢和較大使用價值。

參考文獻:

[1] LI W,ZHANG Z,LIU Z. Action recognition based on a bag of 3D points[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops ,2010:9-14.

[2] WANG J, LIU Z, WU Y, et al. Mining action let ensemble for action recognition with depth cameras[C]. Computer Vision and Pattern Recognition (CVPR), 2012: 1290-1297.

[3] SUNG J, PONCE C, SELMAN B, et al. Unstructured human activity detection from RGBD images[J]. IEEE International Conference on Robotics & Automation, 2011, 44(8):47-55.

[4] KOPPULA H S,GUPTA R,SAXENA A. Learning human activities and object affordances from RGB-D videos[J]. International Journal of Robotics Research, 2013, 32(8):951-970.

[5] CHEN C,JAFARI R,KEHTARNAVAZ N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]. IEEE International Conference on Image Processing, 2015:168-172.

[6] RAHMANI H,MAHMOOD A,DU H,et al. Histogram of oriented principal components for cross-view action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2430-2443.

[7] SHAHROUDY A, LIU J, NG T T, et al. NTU RGB+D: a large scale dataset for 3D human activity analysis[C]. Computer Vision & Pattern Recognition ,2016:1010-1019.

[8] ZHENG S,JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]. IEEE International Conference on Computer Vision, 2016:1529-1537.

[9] YAMADA T,HAYAMIZU Y, YAMAMOTO Y, et al. A stretchable carbon annotate strain sensor for human-motion detection[J]. Nature Nanotechnology, 2011, 6(5):296-301.

[10] TAO M,BAI J,KOHLI P, et al. Simple flow: a non iterative, sub linear optical flow algorithm[J]. Computer Graphics Forum, 2012, 31(2pt1):345-353.

[11] LI N, CHENG X, ZHANG S, et al. Realistic human action recognition by fast HOG3D and self-organization feature map[J]. Machine Vision & Applications, 2014, 25(7):1793-1812.

[12] TOMPSON J, JAIN A, LECUN Y, et al. Joint training of a convolution network and a graphical model for human pose estimation[C]. Eprint Arxiv, 2014:1799-1807.

[13] LEUTENEGGER S, CHLI M, SIEGWART R Y. BRISK: binary robust invariant scalable key points[J]. International Conference on Computer Vision(ICCV), 2011, 58(11):2548-2555.

[14] XU W, XU W, YANG M, et al. 3D Convolution neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012: 35(1):221-231.

[15] DO T M T, ARTIERES T. Neural conditional random fields[C]. Thirteenth International Conference on Artificial Intelligence & Statistics, 2010:177-184.

[16] BELL S,UPCHURCH P,SNAVELY N, et al. Material recognition in the wild with the Materials in context database[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:3479-3487.

[17] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deep lab: semantic image segmentation with deep convolution nets, aurous convolution, and fully connected CRFs[J]. IEEE Trans Pattern Anal Mach Intel, 2016, 40(4):834-848.

[18] YAO K, PENG B, ZWEIG G, et al. Recurrent conditional random field for language understanding[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2014:4077-4081.

[19] GIRSHICK R R,IANDOLA F,DARRELL T,et al. Deformable part models are convolutional neural networks[C]. Computer Vision and Pattern Recognition, 2015:437-446.

[20] KNISS J, JIN K, IVANS R, et al. Robotics Research with TurtleBot 2016[D]. Idaho:Boise State University Scholar Works, 2016.

[21] LéCUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.

[22] LONG J,SHELHAMER E,DARRELL T. Fully convolution networks for semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.

[23] KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]. International Conference on Neural Information Processing Systems, 2011:109-117.

[24] SIPIRAN I, BUSTOS B. Harris 3D: a robust extension of the Harris operator for interest point detection on 3D meshes[J]. Visual Computer, 2011, 27(11):963.

(責任編輯:何 麗)

猜你喜歡
數據庫動作方法
動作描寫要具體
畫動作
動作描寫不可少
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動作
主站蜘蛛池模板: 国产在线观看第二页| 日韩欧美亚洲国产成人综合| 26uuu国产精品视频| 国产杨幂丝袜av在线播放| 欧美成在线视频| 国产熟睡乱子伦视频网站| 亚洲丝袜第一页| 亚洲综合九九| 最新亚洲人成无码网站欣赏网| 中文天堂在线视频| 亚洲天堂免费| 天天综合天天综合| 亚洲美女视频一区| 99视频国产精品| 欧美激情首页| 婷婷色婷婷| 亚州AV秘 一区二区三区| 日本亚洲最大的色成网站www| 热思思久久免费视频| 婷婷六月综合网| 全部免费毛片免费播放 | 亚洲视频在线青青| 日本高清免费一本在线观看| 欧美一区二区丝袜高跟鞋| 亚洲人成电影在线播放| 久久精品国产精品青草app| 波多野结衣一区二区三区四区视频| 亚洲VA中文字幕| 99久久国产综合精品2020| 亚洲一区色| 日韩福利在线视频| 国产成人一区在线播放| 欧美在线网| 2021天堂在线亚洲精品专区 | 国产av一码二码三码无码| 国产熟女一级毛片| 国产成人亚洲欧美激情| 国产真实乱人视频| 天天色天天操综合网| 国产精品99在线观看| 国产高清在线观看| 99免费在线观看视频| 视频二区国产精品职场同事| 重口调教一区二区视频| 国产午夜不卡| 国产精品亚洲精品爽爽| 福利在线不卡| 91蜜芽尤物福利在线观看| 一级成人a毛片免费播放| 一级一级特黄女人精品毛片| 动漫精品中文字幕无码| 无码精品国产dvd在线观看9久| 92午夜福利影院一区二区三区| 欧美 国产 人人视频| 久久夜色撩人精品国产| 国内精自线i品一区202| 九月婷婷亚洲综合在线| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲aⅴ天堂| 久久精品91麻豆| 91久久偷偷做嫩草影院电| 久久伊人色| 国产亚洲欧美日韩在线观看一区二区| 日本日韩欧美| 嫩草国产在线| 欧美人人干| 国产亚洲欧美另类一区二区| 国产白浆在线| 麻豆精品视频在线原创| 黄色网站在线观看无码| 欧美中文字幕一区| 国产永久免费视频m3u8| 人人妻人人澡人人爽欧美一区| 欧美成人a∨视频免费观看 | 免费人成视频在线观看网站| 无码福利日韩神码福利片| 国产欧美中文字幕| 亚国产欧美在线人成| 毛片视频网| 好吊妞欧美视频免费| 免费国产高清精品一区在线| 国产精品成人第一区|