999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人體運動視頻關鍵幀優化及行為識別

2018-07-12 06:32:02宣士斌
圖學學報 2018年3期
關鍵詞:動作優化方法

趙 洪,宣士斌

?

人體運動視頻關鍵幀優化及行為識別

趙 洪,宣士斌

(廣西民族大學信息科學與工程學院,廣西 南寧 530006)

在行為識別過程中,提取視頻關鍵幀可以有效減少視頻索引的數據量,從而提高動作識別的準確性和實時性。為提高關鍵幀的代表性,提出一種關鍵幀序列優化方法,并在此基礎上進行行為識別。首先根據3D人體骨架特征利用K-均值聚類算法提取人體運動視頻序列中的關鍵幀,然后根據關鍵幀所在序列中的位置進行二次優化以提取最優關鍵幀,解決了傳統方法中關鍵幀序列冗余等問題。最后根據最優關鍵幀利用卷積神經網絡(CNN)分類器對行為視頻進行識別。在Florence3D-Action數據庫上的實驗結果表明,該方法具有較高的識別率,并且與傳統方法相比大幅度縮短了識別時間。

行為識別;關鍵幀;K-均值;卷積神經網絡

人體行為識別是近年來計算機視覺領域的一個研究熱點,廣泛應用于人機智能交互、視屏監控、虛擬現實等領域[1]。隨著多媒體技術和網絡信息的飛速發展,視頻數據大量充斥在我們周邊,如何在規定的時間內從大量視頻數據中檢索出有效的、關鍵的信息進行應用是當前一個急需解決的關鍵問題。關鍵幀則是反映鏡頭主要內容的一幀或者若干幀圖像,不僅可以簡單、概括的描述視頻主要視覺內容,而且相比于原始視頻中所含圖像幀的數目,關鍵幀的使用可以大幅度減少視頻索引的數據量,為后期的應用提供了很好的數據預處理作用。目前,關鍵幀提取技術主要包括以下4類:①基于鏡頭邊界法[2]。該方法通常提取鏡頭固定位置上的幀作為關鍵幀,例如首幀、中間幀或尾幀。此類方法簡單易行,但提取的關鍵幀有時因為視頻數據的類型不能很好地反映鏡頭內容。②基于視覺內容分析法[3-4]。該方法將視頻內容變化程度作為選擇關鍵幀的標準,但當有鏡頭運動時,此類方法容易選取過多的關鍵幀,造成數據冗余并且所提關鍵幀不一定具有代表性。③基于運動分析法[5-6]。該方法通過計算鏡頭中的運動量,在運動量達到局部最小值處選取關鍵幀,該方法能很好地表達視頻內的全局性運動,但計算量較大,耗時較長。④基于聚類的方法[7-9]。該方法在預先設定好聚類數目的前提下提取的關鍵幀能夠很好地表達視頻主要內容,提取關鍵幀的數量也可以根據視頻內容和種類來動態確定,此類方法已經成為目前主流的關鍵幀提取方法。但這些方法提取的關鍵幀往往存在大量冗余,為此本文在由K-均值聚類的方法提取的初始視頻關鍵幀的基礎上,提取距離每個聚類中心最近的幀作為關鍵幀,構造初始關鍵幀序列然后根據關鍵幀幀間位置對初始關鍵幀序列進行二次優化,提高關鍵幀質量,消減冗余信息構建最優關鍵幀序列,最后利用CNN在Florence3D-Action數據庫上進行識別實驗。

1 運動特征表示

在人體行為識別中,利用Kinect獲取3D骨架信息,可以有效避免物體遮擋或者重疊問題,并很好地適應環境的變化,具有很好的魯棒性。而在實際運動中,人體主要部位的骨骼運動對動作識別結果起到決定性的作用,細節骨骼運動對人體的整體運動起到的影響有限,因此,采用文獻[10]中的15個主要關節點的骨架模型,骨架表示及關節點索引如圖1所示。選取髖關節(點)為根節點即局部坐標系原點,將關節點坐標數據和人體剛體部分之間的骨架角度作為特征用于人體動作識別。

1.1 關節點位置

本文使用15個主要關節點位置作為人體動作識別的特征。每一個關節點為(,,)三維坐標組成,每一幀圖像提取15個關節點,所以一幀圖像就可以得到一個45維的特征向量,如關節點的3D坐標為(x,y,z),每一幀圖像得到的45維特征向量表示為

1.2 角度信息

利用提取的關節點3D坐標計算人體剛體部分之間的角度作為人體動作識別的特征,從一幀圖像的關節位置中計算出的15個角度組成的特征向量[11]為

2 關鍵幀提取

關鍵幀即特征幀,是在一個動作視頻序列中可以概括反映該動作的視頻幀,需要體現動作視頻中具有代表意義的關鍵姿態。有效的關鍵幀序列意味著可以代表性的表示該行為,最大限度的使該行為區別于其他類型的行為,同時減少數據存儲空間的使用。在動作識別過程中可以利用從關鍵幀中提取的特征識別人體動作,考慮每一個動作執行動作速率不一致問題,本文利用K-均值聚類算法進行聚類,提取出相似數據的聚類中心,然后進行關鍵幀的提取。

2.1 K-means聚類算法

(4) 重復步驟(2)、(3)直到函數收斂。

在進行聚類前,K-means 需要指定聚類個數,且初始聚類中心選取具有隨機性,所以實驗中提取=8、=10、=12時的關鍵幀。以Florence3D-Action數據集中的動作:wave、drink、sit down為例,=10時提取關鍵幀如圖2所示,其中圖2(a) “揮手”序列關鍵幀從左至右依次為:1幀、5幀、9幀、15幀、19幀、22幀、24幀、26幀、29幀、30幀;圖2(b) “坐下”序列關鍵幀從左至右依次為:1幀、3幀、9幀、11幀、14幀、15幀、18幀、22幀、27幀、29幀。

圖2 視頻序列關鍵幀提取

2.2 二次優化關鍵幀

從圖2發現初次提取的關鍵幀有大量的重復,對比這些重復的關鍵幀,可以發現有些是因為動作運動過快,有些則是由于動作過于緩慢,最終導致相似的兩幀相似度變小,誤判為關鍵幀,例如在揮手關鍵幀序列中22幀與24幀;坐下關鍵幀序列中14幀與15幀。另外還可以看出重復的關鍵幀在視頻鏡頭中的位置序列比較近,因此本文提出基于視頻幀間隔的二次提取關鍵幀的方法,對初次聚類得到的關鍵幀進行二次提取,優化關鍵幀序列,具體方法如下:

①記錄初次提取的關鍵幀在視頻中的位置可得序列號數組p,即

④最終得到的最優后的關鍵幀序列(圖3),其中圖3(a) “揮手”序列關鍵幀從左至右依次為:1幀、5幀、9幀、15幀、19幀、22幀、29幀,共7幀;圖3(b) “坐下”序列關鍵幀從左至右依次為:1幀、9幀、14幀、18幀、22幀、27幀,共6幀。

圖3 二次優化后的關鍵幀

3 行為識別

卷積神經網絡(convolutional neural network, CNN)[13]最先應用到手寫識別,后來廣泛應于模式識別各領域,共有3種類型的層:卷積層、下采樣層和全連接層。全連接層的連接方式與以往的神經網絡連接方式相同,即一個神經元連接上一層所有的輸出。卷積層的輸出是通過一些核來卷積上一層的輸入得到的,卷積操作公式為

圖4 算法流程圖

4 實驗結果與分析

在實驗中,使用K-means聚類算法聚類出原始關鍵幀序列,然后對初始關鍵幀序列進行二次優化,得到最優關鍵幀序列。最后使用CNN分類器進行人體動作的分類和識別。實驗結果表明,對行為視頻進行關鍵幀提取后,通過分析關鍵幀進行行為識別不但沒有降低識別的效果,而且在識別時間上與直接對原始視頻進行識別有大幅度的縮減。在Florence3D-Action數據集上進行了驗證。

Florence3D-Action數據集由一個固定的Kinect傳感器獲得,含有10個人執行的9個基本動作,即:揮手(wave)、喝水(drink)、接電話(answer phone)拍手(clap)、系鞋帶(tight lace)、坐下(sit down)和站起來(stand up)、看手表(read watch)、彎腰(bow)共215個行為序列。

實驗中選取數據集中9種動作視頻序列,記錄K-means聚類算法提取=8、=10、=12時的關鍵幀、經過本文二次優化算法得到的關鍵幀以及消除冗余關鍵幀。實驗結果見表1。

表1 關鍵幀提取及優化實驗結果

從表1可以看出,本文算法提取出的關鍵幀準確率高,冗余度小。經K-means聚類算法提取出的關鍵幀存在一定的冗余,但是通過對初始關鍵幀序列進行二次優化處理后,基本上消除了冗余幀,達到了預期優化目的。由于數據集中的視頻序列的總幀數有限,初次提取的關鍵幀和二次優化的關鍵幀數目也有限。但隨著視頻總幀數的增加,消除冗余關鍵幀的效果會越來越明顯。

表2展示了文獻[6]、文獻[14]、文獻[15]、文獻[16]以及本文算法在Florence3D-Action數據集上的實驗結果。文獻[6]和文獻[14]對原始視頻序列進行識別,平均識別率88.0%和94.5%,用本文算法提取關鍵幀后利用二次優化后的關鍵幀序列進行識別的平均識別率為93.1%,在保證識別精度的前提下大幅度縮短了識別時間,提高了識別效率。相比文獻[15]、文獻[16]同樣對關鍵幀序列進行識別,本文采用的二次優化后的關鍵幀序列識別的精度分別提高了2.7%和0.8%。實驗結果表明,使用基于關鍵幀運動序列識別的方法,提取人體骨架角度特征進行分類識別所需的時間最短。相比于傳統方法中直接對原始視頻序列進行識別大大縮減了識別時間,在保證識別精度的前提下提高了識別效率。基于視頻關鍵幀的識別在視頻監控、網絡視頻數據庫等大數據中有更突出的表現,可以大幅度的減少識別時間,減少人力物力的消耗。

表2 各方法在Florence3D-Action數據集上的實驗結果

使用本文提出的基于關鍵幀序列的行為識別的方法,采用人體骨架剛體部分之間的角度特征,得到的Florence3D-Action數據集的混淆矩陣如圖5所示,其中drink和answer phone這兩個動作由于都是頭面上的運動,并且手臂對頭部也有一定的遮擋作用,使得識別過程中容易混淆。而tight lace、sit down、stand up和bow這些近似全身運動的動作具有很高的識別率,分別為98%、98%、100%、99%。所以在今后的研究和改進中對混淆動作或者只調動局部肢體部分動作的識別是一項挑戰性任務。

圖5 Florence3D-Action數據集混淆矩陣

5 結束語

本文提出了一種基于視頻關鍵幀序列的人體行為識別方法,主要思想是對原始視頻運動序列聚類獲取關鍵幀序列,再對初始關鍵幀序列進行二次優化,提高關鍵幀質量,獲得最優關鍵幀序列。實驗表明使用該方法提取的關鍵幀能較好地反映視頻鏡頭的內容,利用卷積神經網絡在Florence3D-Action數據庫上的識別實驗結果表明對視頻關鍵幀序列進行識別在保證識別精度的前提下與傳統方法相比提高了識別效率。

盡管實驗結果達到了預期效果,但在以下方面還可以進行改進:①實驗中只使用了人體骨架關節角度作為關鍵幀的特征,在下一步的工作中,將會添加更多特征,如:形狀,紋理等,以期得到更好的效果。②對數據集中的混淆動作的識別結果還有待于提高,在今后的研究中對局部動作或者極易混淆動作識別會更加努力。此外,基于視頻關鍵幀的識別可以應用于日常視頻監控調看、互聯網視頻數據篩選等領域。

[1] 朱煜, 趙江坤, 王逸寧, 等. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報, 2016, 42(6): 848-857.

[2] PRIYA G G, DOMNIC S. Shot based keyframe extraction for ecological video indexing and retrieval [J]. Ecological Informatics, 2014, 23 (9): 107-117.

[3] SUN Z H, JIA K B, CHEN H X. Video key frames extraction based on spatial-temporal color distribution [C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Los Alamitos: IEEE Computer Society Press, 2008: 196-199.

[4] HANNANE R, ELBOUSHAKI A, AFDEL K, et al. An efficient method for video shot boundary detection and keyframe extraction using SIFT-point distribution histogram [J]. International Journal of Multunedia Information Retrieval, 2016, 5(2): 89-104.

[5] 潘志庚, 呂培, 徐明亮, 等. 低維人體運動數據驅動的角色動畫生成方法綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(12): 1775-1785.

[6] DEVANNE M, WANNOUS H, BERRETTI S, et al. 3-D human action recognition by shape analysis of motion trajectories on riemannian manifold [J]. IEEE Transactions on Cybernetics, 2014, 45(7): 1340-1352.

[7] LIU F, ZHUANG Y T, WU F, et al. 3D motion retrieval with motion index tree [J]. Computer Vision and Image Understanding, 2003, 92(2/3): 265-284.

[8] 王方石, 須德, 吳偉鑫. 基于自適應閾值的自動提取關鍵幀的聚類算法[J]. 計算機研究與發展, 2005, 42(10): 1752-1757.

[9] SONG X M, FAN G L. Joint key-frame extraction and object segmentation for content-based video analysis [J] IEEE Transactions on Circuits and Systems for Video Technology, 2006 16(7): 904-914.

[10] 田國會, 尹建芹, 韓旭, 等. 一種基于關節點信息的人體行為識別新方法[J]. 機器人, 2014, 36(3): 285-292.

[11] 石祥濱, 劉拴朋, 張德園. 基于關鍵幀的人體動作識別方法[J]. 系統仿真學報, 2015, 27(10): 2401-2408.

[12] 孫淑敏, 張建明, 孫春梅. 基于改進K-means算法的關鍵幀提取[J]. 計算機工程, 2012, 38(23): 169-172.

[13] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos. [J]. Computational Linguistics, 2014, 1(4): 568-576.

[14] VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos: IEEE Computer Society Press, 2014: 588-595.

[15] ZHANG Q, YU S P. An Efficient method of keyframe extraction based on a cluster algorithm [J]. Journal of Human Kinetics, 2013, 39(1): 5-14.

[16] WANG C Y, WANG Y Z, YUILLE A L. Mining 3D key-pose-motifs for action recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos: IEEE Computer Society Press, 2016: 289-293.

Optimization and Behavior Identification of Keyframes in Human Action Video

ZHAO Hong, XUAN Shibin

(School of Information Science and Engineering, Guangxi University for Nationalities, Nanning Guangxi 530006, China)

In the course of behavior identification, extracting keyframes from the video can effectively reduce the amount of video index data, so as to improve the accuracy and real-time performance of behavior identification. A method for optimizing the keyframe sequence is proposed to improve the representativeness of keyframes, on which the behavior identification is based. Firstly, the K-means clustering algorithm is employed to extract keyframes in the human action video sequence according to 3D human skeleton features. Then, the quadratic optimization is performed in the light of the location of keyframes to extract the optimal keyframe, and it can reduce the redundancy of keyframe sequence, compared with traditional ways. Finally, the behavior video is identified by convolutional neural network (CNN) classifiers in accordance with the optimal keyframe. The experiment results on the Florence 3D Action dataset indicate that the method has a high identification rate, and drastically shortens the identification time, compared with the traditional method.

behavior identification; keyframes; K-means; convolutional neural network

TP 399

10.11996/JG.j.2095-302X.2018030463

A

2095-302X(2018)03-0463-07

2017-07-18;

2017-09-01

廣西自然科學基金項目(2015GXNSFAA139311)

趙 洪(1991-),女,山東濟南人,碩士研究生。主要研究方向為視頻圖像處理及行為識別。E-mail:15777169369@163.com

宣士斌(1964-),男,廣西南寧人,教授,博士。主要研究方向為圖像處理、模式識別。E-mail:xuanshibin@mail.gxun.cn

猜你喜歡
動作優化方法
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
動作描寫要具體
畫動作
動作描寫不可少
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動作
主站蜘蛛池模板: 亚洲综合狠狠| av色爱 天堂网| 一级毛片中文字幕| 午夜电影在线观看国产1区| 国产伦精品一区二区三区视频优播 | 亚洲最黄视频| Jizz国产色系免费| 国产精品第5页| 亚洲天堂视频网站| 欧美国产综合视频| 亚洲国产成人自拍| 丁香五月激情图片| 九九热精品视频在线| 亚洲人成网站色7799在线播放| 亚洲综合香蕉| 在线一级毛片| 亚洲日产2021三区在线| 欧美精品色视频| 久久精品66| 一级在线毛片| 亚洲欧美人成电影在线观看| 国产免费福利网站| 国产日韩欧美中文| 老色鬼欧美精品| 97综合久久| 国产精品无码翘臀在线看纯欲| 日韩精品成人在线| 99国产在线视频| 国产理论精品| 中文字幕天无码久久精品视频免费| 国产女人18水真多毛片18精品| 日本AⅤ精品一区二区三区日| 国产精品yjizz视频网一二区| 超碰精品无码一区二区| 国产www网站| 91丝袜美腿高跟国产极品老师| 青青青国产精品国产精品美女| 四虎影视无码永久免费观看| 亚洲人成网站18禁动漫无码| 成人亚洲视频| 亚洲中文字幕日产无码2021| 韩国自拍偷自拍亚洲精品| 一级毛片免费观看久| 久无码久无码av无码| 国精品91人妻无码一区二区三区| 欧美在线精品怡红院| 亚洲成人手机在线| 五月婷婷导航| 久久毛片网| 人妻无码AⅤ中文字| 欧美成人在线免费| 男女男精品视频| 毛片在线看网站| 无码福利日韩神码福利片| 国产精品尤物在线| 综合色88| 国产乱人伦AV在线A| 亚洲熟女偷拍| 国产日韩精品欧美一区灰| 亚洲一区二区三区国产精品| 亚洲日本精品一区二区| 奇米影视狠狠精品7777| 成人综合在线观看| 国产情侣一区| 91色在线观看| 国产成人久视频免费| 亚洲欧美色中文字幕| 亚洲日本中文综合在线| 国产丝袜无码一区二区视频| 午夜色综合| 欧美日韩国产成人在线观看| 一级毛片在线直接观看| 久久综合一个色综合网| 中文字幕日韩丝袜一区| 国产办公室秘书无码精品| 久久人体视频| 国产91丝袜| 青草免费在线观看| 黄色三级网站免费| 亚洲啪啪网| 欧美翘臀一区二区三区| 欧美激情第一区|