999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖卷積的骨架行為識別

2020-03-05 09:33:56董安左劼孫頻捷
現(xiàn)代計(jì)算機(jī) 2020年2期
關(guān)鍵詞:動(dòng)作特征實(shí)驗(yàn)

董安,左劼,孫頻捷

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)

0 引言

隨著視頻大規(guī)模增長,視頻人體行為分析成一個(gè)研究的熱點(diǎn)。通常,人體行為可以通過外觀特征、深度信息、光流、骨架序列來進(jìn)行識別。骨架序列特征可以作為其他模態(tài)數(shù)據(jù)的重要補(bǔ)充。骨架模態(tài)的信息,對于不依賴場景和物體信息的類別,只包含行為動(dòng)作本身的類別具有較好的區(qū)分度。人體的骨架關(guān)節(jié)點(diǎn)的坐標(biāo)隨著動(dòng)作的變化而變化,例如起身和摔倒兩個(gè)動(dòng)作涉及到的骨架關(guān)節(jié)點(diǎn)坐標(biāo)變化是完全不同的。

如圖1 所示人體骨架關(guān)節(jié)點(diǎn)序列,節(jié)點(diǎn)與節(jié)點(diǎn)通過邊相連接,可以構(gòu)成一個(gè)圖的表示。本文研究了基于圖卷積神經(jīng)網(wǎng)絡(luò)的骨架序列行為方法,并在自采集的室內(nèi)監(jiān)護(hù)視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)及分析。

1 動(dòng)作行為識別現(xiàn)狀

動(dòng)作行為識別具有廣泛的應(yīng)用場景,包括安防場景的異常行為識別,自動(dòng)駕駛場景下行人的行為識別等。識別視頻中人的行為類別是動(dòng)作行為識別的主要任務(wù)。傳統(tǒng)方法通過使用全局和局部特征識別任務(wù)行為已經(jīng)取得了顯著的進(jìn)展,但是這些手工特征需要大量的人力和專業(yè)知識來開發(fā)有效的特征提取方法,無法在大型的數(shù)據(jù)集上很好的概括。

圖1 人體骨架關(guān)鍵點(diǎn)序列

iDT[1]算法是深度學(xué)習(xí)興起之前,在動(dòng)作行為識別領(lǐng)域效果,穩(wěn)定性最好,可靠性最高,最好的方法,不過算法速度很慢。近年來,使用深度學(xué)習(xí)技術(shù)進(jìn)行特征學(xué)習(xí),由于其強(qiáng)大的功能的能力而受到越來越多的關(guān)注。深度網(wǎng)絡(luò)在動(dòng)作識別中的成功也可以歸因于將網(wǎng)絡(luò)擴(kuò)展到數(shù)以千萬計(jì)的參數(shù)和大量標(biāo)記的數(shù)據(jù)集。最近的深度網(wǎng)絡(luò)在各種動(dòng)作數(shù)據(jù)集上均取得了令人驚訝的高識別性能。

通過深度學(xué)習(xí)技術(shù)學(xué)習(xí)到的動(dòng)作特征已得到廣泛研究,近年來,開發(fā)用于動(dòng)作識別的深度網(wǎng)絡(luò)的兩個(gè)主要變量是卷積運(yùn)算和針對時(shí)序的建模,這產(chǎn)生了幾種網(wǎng)絡(luò)。

基于Two-Stream 的方法,從時(shí)間維度上,是對對視頻序列中每兩幀計(jì)算密集光流,得到密集光流的時(shí)序序列。從空間維度上,是利用RGB 視頻關(guān)鍵幀的信息。使用兩路CNN 分別對RGB 和光流進(jìn)行訓(xùn)練,兩路網(wǎng)絡(luò)分別對動(dòng)作類別進(jìn)行識別,最后對兩路網(wǎng)絡(luò)的分類分?jǐn)?shù)進(jìn)行融合(直接平均或者使用SVM),得到最終的分類結(jié)果。

C3D 是由Facebook 提出的基于三維卷積的工作,使用三維卷積和三維池化構(gòu)建網(wǎng)絡(luò)。通過三維卷積,C3D 可以同時(shí)學(xué)習(xí)視頻的時(shí)空特征,對運(yùn)動(dòng)信息和外觀信息進(jìn)行建模。由于省去了耗時(shí)的光流計(jì)算,C3D的速度也有效提升。

而基于骨架特征的行為識別因?yàn)槠鋵庹蘸蛨鼍白儞Q具有很好的魯棒性,得到了越來越多的關(guān)注。通過姿態(tài)估計(jì)算法或高精度的深度攝像頭也可以較為容易得獲取到骨架特征。基于此,本文從骨架特征的角度來研究行為識別。

2 基于圖卷積的行為識別方法

2.1 骨架序列的表示

OpenPose[2]是一個(gè)可以從視頻中實(shí)時(shí)提取人體關(guān)鍵點(diǎn)的算法框架,本文只關(guān)注OpenPose 的輸出,在一個(gè)視頻中,可以有很多幀,每幀可以有多個(gè)人,每個(gè)人有多個(gè)關(guān)節(jié)點(diǎn),每一個(gè)關(guān)節(jié)點(diǎn)有不同的特征(位置信息和置信度)。通過OpenPose 處理一個(gè)Batch 視頻,可以得到一個(gè)5 維矩陣的特征表示(N,C,T,V,M),其中N表示視頻的數(shù)量,C 表示關(guān)節(jié)點(diǎn)的特征(關(guān)節(jié)的坐標(biāo)以及置信度),T 表示視頻關(guān)鍵幀的數(shù)量,V 表示一個(gè)人的關(guān)節(jié)點(diǎn)的數(shù)量,M 表示一幀中人的數(shù)量。

2.2 圖卷積神經(jīng)網(wǎng)絡(luò)分類模型

現(xiàn)實(shí)世界中,許多數(shù)據(jù)都是以圖或者網(wǎng)絡(luò)的方式存在的,例如社交網(wǎng)絡(luò)、知識圖譜、世界貿(mào)易網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)的提出,使得對這些非規(guī)則數(shù)據(jù)進(jìn)行表示學(xué)習(xí)成為可能。本文采取了類似Kipf 等人[3]和Sijie Yan 等人[4]提出的圖卷積方法,設(shè)計(jì)了如圖2 所示的圖卷積神經(jīng)網(wǎng)絡(luò)。模型主要分為三部分,輸入模塊、圖卷積模塊和輸出模塊。其中,輸入模塊是對2.1 小節(jié)中OpenPose 提取的骨架序列進(jìn)行歸一化,也就是將關(guān)節(jié)在不同幀下的位置特征進(jìn)行歸一化,做歸一化的原因在于關(guān)節(jié)在不同幀下位置變化很大,如果不進(jìn)行歸一化不利于算法的收斂。第二個(gè)模塊是交替使用GCN和TCN,對時(shí)間和空間維度進(jìn)行變換。第三個(gè)模塊是使用平均池化和全連接層對特征進(jìn)行分類。其中GCN部分使用的公式是(1),D 表示關(guān)節(jié)點(diǎn)的度矩陣,A 表示關(guān)節(jié)點(diǎn)的鄰接矩陣,X 是輸入的骨架序列。公式的實(shí)際含義是以邊為權(quán)值對節(jié)點(diǎn)的特征進(jìn)行求加權(quán)平均。GCN 可以學(xué)習(xí)到空間中相鄰關(guān)節(jié)的局部特征,而TCN 幫助學(xué)習(xí)到時(shí)間維度上關(guān)節(jié)變化的局部特征。

圖2 圖卷積神經(jīng)網(wǎng)絡(luò)

2.3 遷移學(xué)習(xí)方法

遷移學(xué)習(xí)是通過利用已經(jīng)訓(xùn)練好的模型,使用其參數(shù)去初始化一個(gè)新的模型,從而提升新模型的性能。現(xiàn)實(shí)場景中,許多數(shù)據(jù)或任務(wù)是存在相關(guān)性的,通過遷移學(xué)習(xí),可以將已經(jīng)學(xué)到的模型通過初始化新模型的方式來分享給新模型,從而優(yōu)化并加快模型的學(xué)習(xí)效率,不需要讓新網(wǎng)絡(luò)從頭開始學(xué)習(xí)。DeepMind 在2018 年發(fā)布了大規(guī)模的視頻動(dòng)作數(shù)據(jù)集Kinetics[5],由于本文自采集的數(shù)據(jù)集較小,從零開始訓(xùn)練,數(shù)據(jù)量不夠,所以本文先用Kinetics 訓(xùn)練好圖卷積模型,將模型參數(shù)初始化新的圖卷積模型(由于分類的類別不同,全連接層的參數(shù)不復(fù)用),在此基礎(chǔ)上,再用自采集的數(shù)據(jù)集來訓(xùn)練新的圖卷積模型。

3 實(shí)驗(yàn)部分

3.1 實(shí)驗(yàn)數(shù)據(jù)以及數(shù)據(jù)預(yù)處理

本次實(shí)驗(yàn)采用的數(shù)據(jù)集是模擬監(jiān)護(hù)場景中,老人的起身、摔倒以及正常行走的視頻,根據(jù)標(biāo)注動(dòng)作的起始和結(jié)束時(shí)間,利用FFmpeg 進(jìn)行視頻分割,得到的數(shù)據(jù)集總共包含1549 個(gè)5s 左右的視頻,其中訓(xùn)練集1037 個(gè),驗(yàn)證集512 個(gè),訓(xùn)練集和驗(yàn)證集中三個(gè)類別各占1/3。然后利用OpenPose[2]提取視頻中每一幀的骨架信息。

3.2 圖卷積神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練細(xì)節(jié)

實(shí)驗(yàn)中采用圖卷積神經(jīng)網(wǎng)絡(luò)輸出維度的細(xì)節(jié)如表1 所示。空間維度是關(guān)節(jié)的特征,開始是3,時(shí)間的維度是關(guān)鍵幀數(shù),開始是150,在經(jīng)過所有時(shí)空卷積之后,關(guān)節(jié)的特征維度增加到256 維,關(guān)鍵幀的維度降低到38,最后使用平均池化和全連接層對特征進(jìn)行分類,F(xiàn)C層神經(jīng)元的個(gè)數(shù)取決于要分類的類別數(shù)。

在全連接層使用了dropout 技術(shù)避免過擬合,以0.5 的概率隨機(jī)失活神經(jīng)元。優(yōu)化算法采用了隨機(jī)梯度下降,學(xué)習(xí)率是0.01,每10 個(gè)epoch 衰減0.1。

表1 實(shí)驗(yàn)使用的圖卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

3.3 實(shí)驗(yàn)結(jié)果與分析

本文進(jìn)行了三組實(shí)驗(yàn),第一個(gè)實(shí)驗(yàn)室是利用大規(guī)模的視頻動(dòng)作行為識別數(shù)據(jù)集Kinetics 提取到的骨架信息進(jìn)行訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò),第二個(gè)實(shí)驗(yàn)是利用自采集的室內(nèi)監(jiān)護(hù)視頻提取到的骨架特征對圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,第三個(gè)實(shí)驗(yàn)是在第一個(gè)實(shí)驗(yàn)得到的模型的基礎(chǔ)上,進(jìn)行遷移學(xué)習(xí)。識別的準(zhǔn)確率定義如下:

實(shí)驗(yàn)一的結(jié)果如表2 所示,我們使用了Kinetics 數(shù)據(jù)集中的訓(xùn)練集提供的240000 個(gè)短視頻,然后利用OpenPose 提取到骨架序列,進(jìn)行訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò),然后在20000 個(gè)驗(yàn)證集的骨架序列上進(jìn)行了評估。觀察實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)準(zhǔn)確度并不高,遠(yuǎn)遠(yuǎn)低于常見的基于RGB 或者光流模態(tài)的方法,例如i3D[5]。分析原因,本文認(rèn)為這是由于Kinetics 包含大量的類別都需要去識別與人體交互的物體和場景,例如打籃球這個(gè)動(dòng)作,需要有籃球這個(gè)物體,例如踢足球,需要有足球場這個(gè)場景。而基于骨架的行為識別,能夠?qū)鼍昂臀矬w本身不敏感,對動(dòng)作本身有較好的區(qū)分度。

表2 Kinetics 視頻數(shù)據(jù)集從頭訓(xùn)練

實(shí)驗(yàn)二的結(jié)果如表3 所示,我們使用了自采集的室內(nèi)監(jiān)護(hù)視頻數(shù)據(jù)集中的訓(xùn)練集提供的1037 個(gè)短視頻,同樣利用OpenPose 提取骨架序列,從頭開始訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò),然后在512 個(gè)驗(yàn)證集進(jìn)行評估,得到0.78 的準(zhǔn)確率。這符合實(shí)驗(yàn)一的分析,基于骨架的行為識別,對于不依賴場景和物體本身的動(dòng)作類別具有較好的區(qū)分度。但這個(gè)精度還有提升的空間,分析其原因是數(shù)據(jù)量不夠,基于此,我們進(jìn)行了實(shí)驗(yàn)三。

表3 室內(nèi)監(jiān)護(hù)視頻數(shù)據(jù)集從頭訓(xùn)練

實(shí)驗(yàn)三的結(jié)果如表4 所示,我們利用實(shí)驗(yàn)一訓(xùn)練好的模型的參數(shù)初始化一個(gè)新的圖卷積神經(jīng)網(wǎng)絡(luò),然后再用訓(xùn)練集中1037 個(gè)短視頻提取的骨架,訓(xùn)練新的圖卷積神經(jīng)網(wǎng)絡(luò),得到了0.9 的準(zhǔn)確率。由于實(shí)驗(yàn)一的模型是基于大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練得到的,有更加豐富的知識,通過遷移學(xué)習(xí),可以讓基于小數(shù)據(jù)的任務(wù)性能提升。

表4 室內(nèi)監(jiān)護(hù)視頻數(shù)據(jù)集遷移學(xué)習(xí)

4 結(jié)語

本文使用骨架模態(tài)的數(shù)據(jù),基于圖卷神經(jīng)網(wǎng)絡(luò),進(jìn)行人體動(dòng)作行為識別。通過實(shí)驗(yàn)證明了基于骨架模態(tài)的動(dòng)作識別,對于不依賴場景和物體的類別具有較好的區(qū)分度。使用大規(guī)模動(dòng)作視頻數(shù)據(jù)集提取得到的骨架信息來訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò),再通過遷移學(xué)習(xí)的方式,對于小數(shù)據(jù)的任務(wù)性能提升具有很大的幫助。但是由于基于視頻RGB 數(shù)據(jù)來提取骨架特征的這個(gè)過程,比較耗時(shí),還不能做到實(shí)時(shí),在未來的工作中,可以考慮把姿態(tài)估計(jì)網(wǎng)絡(luò)和行為識別網(wǎng)絡(luò)進(jìn)行有效融合,減少整個(gè)過程的耗時(shí)。

猜你喜歡
動(dòng)作特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
做個(gè)怪怪長實(shí)驗(yàn)
不忠誠的四個(gè)特征
動(dòng)作描寫要具體
抓住特征巧觀察
畫動(dòng)作
動(dòng)作描寫不可少
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久久久久高潮白浆| 成人自拍视频在线观看| 日韩欧美中文| 怡红院美国分院一区二区| 18禁色诱爆乳网站| 91麻豆精品国产91久久久久| 国产精品黄色片| 国产杨幂丝袜av在线播放| 九九精品在线观看| 91精品国产91欠久久久久| 免费看的一级毛片| 日韩小视频在线播放| 亚洲视频免费播放| 99免费视频观看| 亚洲最大福利视频网| 日韩精品欧美国产在线| 中文国产成人精品久久| 国产在线观看人成激情视频| 在线视频一区二区三区不卡| 精品视频第一页| 色哟哟色院91精品网站| 四虎影院国产| 久青草国产高清在线视频| 色哟哟国产成人精品| 日韩一区二区在线电影| 国产一级视频久久| 欧美日韩在线第一页| 国产丝袜无码精品| 国产va在线| 日本成人一区| 91福利免费| 亚洲精品第一页不卡| 欧美日韩免费在线视频| 久久五月视频| 久久黄色一级片| 视频一区视频二区日韩专区| 亚洲日韩精品无码专区| 国产尹人香蕉综合在线电影| 青青草原国产一区二区| 国产成人盗摄精品| 国产电话自拍伊人| 日韩中文无码av超清| 全午夜免费一级毛片| 三级视频中文字幕| 少妇精品久久久一区二区三区| 中日韩一区二区三区中文免费视频| 日韩成人在线网站| 欧美成人一级| 国产精品免费入口视频| 久久成人免费| 91精品国产麻豆国产自产在线| 国产色爱av资源综合区| 亚洲欧美成aⅴ人在线观看 | 亚洲最大福利网站| 这里只有精品在线播放| 亚洲AV无码一区二区三区牲色| 日韩成人在线视频| 天天色综合4| 干中文字幕| 亚洲aaa视频| 中国一级毛片免费观看| 色综合久久无码网| 国产黄色片在线看| 亚洲国产亚洲综合在线尤物| 亚洲综合色吧| 亚洲免费人成影院| 欧美日韩激情| 热99精品视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 色婷婷成人| 香蕉eeww99国产在线观看| 大香网伊人久久综合网2020| 天堂亚洲网| 91精品久久久无码中文字幕vr| 欧美a√在线| 凹凸精品免费精品视频| 中文字幕一区二区视频| 无码一区二区波多野结衣播放搜索| 亚洲视频免费在线| 亚洲成人一区二区| 精品自拍视频在线观看| 国产精品主播|