查寬

摘要:深度卷積神經(jīng)網(wǎng)絡(luò)在靜態(tài)圖像識(shí)別領(lǐng)域應(yīng)用范疇不斷拓展,但在行為視頻建模運(yùn)動(dòng)上不占優(yōu)勢(shì),運(yùn)動(dòng)信息是行為最顯著的特征,本文提出應(yīng)用時(shí)空域深度卷積神經(jīng)網(wǎng)絡(luò)的建議,并進(jìn)行實(shí)驗(yàn)探究與分析。結(jié)果表明,該網(wǎng)絡(luò)能實(shí)現(xiàn)對(duì)行為視頻的精確分類,同時(shí)和最近幾年中發(fā)展起到的幾種算法相比較,體現(xiàn)出一定優(yōu)越性。
關(guān)鍵詞:時(shí)空域;深度卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-1578(2019)02-0267-01
以視頻資料為載體對(duì)人類行為方式進(jìn)行學(xué)習(xí),是一類難度相對(duì)較大的機(jī)器視覺任務(wù),最近幾年受到研究人員的重視。靜態(tài)圖像識(shí)別只需對(duì)一張圖像中的靜態(tài)特點(diǎn)進(jìn)行學(xué)習(xí),行為識(shí)別目的是對(duì)幀與幀間的運(yùn)動(dòng)特點(diǎn)進(jìn)行學(xué)習(xí),以上學(xué)習(xí)過程需要分析空間域中相鄰像素間的相關(guān)性,以及時(shí)間域上相鄰幀之間的關(guān)系,這是時(shí)空域深度卷積神經(jīng)網(wǎng)絡(luò)提出與應(yīng)用的直接動(dòng)力,基于此本文展開較為詳細(xì)的探究與分析。
1.時(shí)空域深度卷積神經(jīng)網(wǎng)絡(luò)
在三維空間中,當(dāng)個(gè)體運(yùn)動(dòng)軌跡被映射到攝像機(jī)的二維底片上時(shí),三維運(yùn)動(dòng)信息將會(huì)被轉(zhuǎn)換為相鄰幀間的二維圖像,人們通常采用探究二維空間上的變換關(guān)系去學(xué)習(xí)三維空間上呈現(xiàn)出的運(yùn)動(dòng)信息。針對(duì)相鄰幀x與Y,其間存在的變化關(guān)系可以用Y=LX表示,L代表變換矩陣,其均可應(yīng)用正交矩陣去表示…。因?yàn)殡x散傅里葉變換的基函數(shù)屬于復(fù)數(shù),故此可以將x與Y投射至傅里葉基函數(shù)對(duì)上,進(jìn)而確定D。基于此,可對(duì)空域深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)做出如下規(guī)劃:先把與每個(gè)幀相對(duì)應(yīng)的卷積核(或?yàn)V波器)分為二組,經(jīng)訓(xùn)練活動(dòng)后,組間基本上會(huì)建設(shè)傅里葉基函數(shù)對(duì),在該層面上形成的濾波器響應(yīng)又被叫做特征映射,后續(xù)層把與之相匹配的不同幀特征映射兩兩求積與求和,進(jìn)而同步獲得建模運(yùn)動(dòng)信息和靜態(tài)圖像內(nèi)容特征,最后把獲得的特征進(jìn)行空域池化處理,以減少或規(guī)避圖像形變引起的噪音。
2.行為識(shí)別模型
2.1行為矩陣c:不同類型行為信息對(duì)應(yīng)的數(shù)量,T:測(cè)試序列的長(zhǎng)度,0:輸出的向量,h.:模型的輸出,概率最高的類型被作為最后的分類結(jié)果。
3.實(shí)驗(yàn)方法
為檢測(cè)本文算法在行為識(shí)別方面的有效性,提出在MSR-Action3D數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試的建議。實(shí)驗(yàn)過程中應(yīng)用留一法,把部分樣本排除后進(jìn)行訓(xùn)練,繼而對(duì)排除的樣本進(jìn)行檢測(cè)。Ubuntul6.04為實(shí)驗(yàn)應(yīng)用的系統(tǒng)環(huán)境,Tensor Flow為算法運(yùn)行的框架。
MSR-Action3D數(shù)據(jù)庫(kù)屬于一個(gè)深度行為序列數(shù)據(jù)庫(kù),含有20個(gè)類型的行為,各個(gè)行為由10個(gè)對(duì)象分別運(yùn)行三次,每一視頻序列的幀率為15幀/s,深度圖的分辨率為640×640。納入本次研究的樣本共有23760幀,400個(gè)行為樣本。數(shù)據(jù)庫(kù)中的行為涵蓋了肢體的各種運(yùn)動(dòng)組合,當(dāng)某一動(dòng)作由單側(cè)肢體完成時(shí),實(shí)驗(yàn)者會(huì)在實(shí)驗(yàn)過程中交替應(yīng)用不同側(cè)肢發(fā)出相應(yīng)的行為信息。此外,該數(shù)據(jù)可還提供了與深度圖像相對(duì)應(yīng)的行為點(diǎn)序列樣本,每個(gè)行為點(diǎn)的信息由(u,v,d,c)四部分構(gòu)成,u、v對(duì)應(yīng)屏幕坐標(biāo),d表示深度,c對(duì)應(yīng)的是可信指數(shù)。每個(gè)幀中的行為向量含有20個(gè)點(diǎn),不同動(dòng)作序列的長(zhǎng)度有別。為方便計(jì)算,本次研究應(yīng)用固定采樣數(shù)法采集初始樣本,進(jìn)而促進(jìn)每個(gè)動(dòng)作序列所包含幀數(shù)的統(tǒng)一性。為規(guī)避卷尺計(jì)算期間樣本尺度過小而造成不能計(jì)算的問題,可采用行列元素復(fù)制方法對(duì)輸入樣本特征圖進(jìn)行適量拓展。拓展方法的應(yīng)用,有益于為實(shí)驗(yàn)研究提供更多的行為向量中不同幀之間的相鄰關(guān)系。本次研究討論了Multi-layer Perception、Deep LSTM十Co-occurrence、Hierarchi-cal RNN在數(shù)據(jù)庫(kù)中準(zhǔn)確率,分別為74.5%、82.2%、81.0%。在對(duì)以上測(cè)試結(jié)果進(jìn)行分析后,發(fā)現(xiàn)不同方法的準(zhǔn)確率無(wú)明顯差異,這可能是由訓(xùn)練資源不充分造成的,若能為數(shù)據(jù)庫(kù)分析搭建更高性能的服務(wù)器作為訓(xùn)練平臺(tái),那么將會(huì)獲得更為優(yōu)秀的結(jié)果。此外,訓(xùn)練過程中為保證卷積參數(shù)所需內(nèi)存空間在可接受范疇中,若采用大量刪減識(shí)別模型參數(shù)的方法,會(huì)造成最后的識(shí)別效果偏低,故而在后續(xù)的研究工作中,應(yīng)關(guān)注怎樣在拓展卷積尺度的基礎(chǔ)上,達(dá)到不明顯增加卷積元素?cái)?shù)目的效果。
4.結(jié)語(yǔ)
為對(duì)人體行為的失控特征信息有更明確認(rèn)識(shí),可以行為樣本序列為基礎(chǔ),采用建設(shè)行為矩陣的方式去表示樣本的時(shí)空信息,同時(shí)建設(shè)了卷積神經(jīng)網(wǎng)絡(luò)模型。該方法的應(yīng)用不僅能獲得行為樣本的時(shí)空信息,也能有效學(xué)習(xí)不同鄰接行為之間的相互關(guān)系。實(shí)驗(yàn)結(jié)果提示,該方法在MSR-Action3D數(shù)據(jù)庫(kù)上體現(xiàn)出較好的應(yīng)用效果,可在圖像序列間相互關(guān)系的視覺任務(wù)執(zhí)行期間推廣。