郭洪濤 龍娟娟
1(洛陽(yáng)師范學(xué)院信息技術(shù)學(xué)院 河南 洛陽(yáng) 471934)2(江南大學(xué)數(shù)字媒體學(xué)院 江蘇 無(wú)錫 214122)
動(dòng)作識(shí)別和行為理解是目前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[1],其難點(diǎn)在于需要從背景中檢測(cè)出目標(biāo)和動(dòng)作,同時(shí)需要準(zhǔn)確識(shí)別動(dòng)作的多樣化[2]。在傳統(tǒng)動(dòng)作識(shí)別方法中,基于動(dòng)作特征和軌跡特征的識(shí)別效果較好[3],但視頻中存在遮擋或者同一動(dòng)作在不同環(huán)境下的差異導(dǎo)致傳統(tǒng)動(dòng)作識(shí)別方法的準(zhǔn)確率難以得到提高。傳統(tǒng)方法對(duì)某些動(dòng)作具有較強(qiáng)的識(shí)別能力,但對(duì)動(dòng)作多樣化的識(shí)別能力存在明顯的不足[4]。
隨著近期深度學(xué)習(xí)技術(shù)在模式識(shí)別領(lǐng)域的廣泛應(yīng)用,日益增多的研究人員將深度學(xué)習(xí)技術(shù)應(yīng)用到視頻識(shí)別的領(lǐng)域中[5],包括:基于深度學(xué)習(xí)的時(shí)空雙流視頻動(dòng)作識(shí)別[6]、基于訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別[7]、基于光流約束自編碼器的動(dòng)作識(shí)別[8]等。這類動(dòng)作特征學(xué)習(xí)方法的識(shí)別準(zhǔn)確率在大型動(dòng)作數(shù)據(jù)集上較傳統(tǒng)動(dòng)作識(shí)別方法獲得了顯著的提升。
另外一些研究人員提出了基于無(wú)監(jiān)督學(xué)習(xí)的視頻動(dòng)作識(shí)別方法[9]。這類動(dòng)作特征學(xué)習(xí)算法將視頻塊像素作為輸入信號(hào),通過(guò)統(tǒng)計(jì)視頻塊中的像素分布信息學(xué)習(xí)動(dòng)作特征。此類方法未考慮像素在時(shí)空域的特征,因此僅能描述視頻像素塊的外觀信息,忽略了動(dòng)作的運(yùn)動(dòng)信息[10]。
本文利用深度學(xué)習(xí)的泛化能力和視頻的時(shí)空信息,提出了一種基于四元組Siamese網(wǎng)絡(luò)[11]的動(dòng)作識(shí)別算法。為了提高動(dòng)作識(shí)別的泛化效果,增強(qiáng)對(duì)動(dòng)作多樣性的區(qū)分能力,提出了一種增強(qiáng)Siamese神經(jīng)網(wǎng)絡(luò)的完全無(wú)監(jiān)督學(xué)習(xí)算法提取視頻的動(dòng)作特征。為了提高動(dòng)作識(shí)別的效率,做了兩點(diǎn)設(shè)計(jì):(1) 通過(guò)三維Harris角點(diǎn)檢測(cè)時(shí)空域中發(fā)生顯著變化的局部結(jié)構(gòu),對(duì)這些興趣點(diǎn)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),由此提高學(xué)習(xí)的速度;(2) 為興趣點(diǎn)的特征索引構(gòu)建投影樹(shù),由此提高模式匹配的搜索速度。


(1)


文獻(xiàn)[12]的慢特征分析(Slow Feature Analysis,SFA)框架能夠從向量形式的輸入信號(hào)學(xué)習(xí)緩慢變化的特征,視頻序列恰好是該模型的理想輸入信號(hào),將連續(xù)視頻幀間的時(shí)間一致性作為監(jiān)督結(jié)構(gòu)。SFA具有以下屬性:在時(shí)域上接近的視頻幀在特征空間內(nèi)的距離也接近,設(shè)一個(gè)學(xué)習(xí)的描述符為ψ,兩個(gè)連續(xù)視頻幀為Vi,t和Vi,t+1,可得ψ(W,Vi,t)≈ψ(W,Vi,t+1)。下文將ψ(W,Vi,t)簡(jiǎn)寫(xiě)為ψ(Vi,t),假設(shè)學(xué)習(xí)的特征描述符是一個(gè)關(guān)于網(wǎng)絡(luò)參數(shù)W的函數(shù)。
第1個(gè)Siamese模型的關(guān)鍵思想為:學(xué)習(xí)程序的目標(biāo)是保證查詢幀和相鄰視頻幀在特征空間ψ中接近,而查詢幀和其他視頻的幀間距離大于某個(gè)閾值δ。圖1是本文的Siamese網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)由兩個(gè)基礎(chǔ)網(wǎng)絡(luò)組成,基礎(chǔ)網(wǎng)絡(luò)之間共享參數(shù)。模型的輸入是一對(duì)視頻幀:(Vi,t,Vi,t+1)或者(Vi,t,Vj,t′),以及相關(guān)的標(biāo)記Y(兩個(gè)幀屬于相同的視頻,Y=1;否則Y=0)。基礎(chǔ)網(wǎng)絡(luò)的輸出均為4 096維的特征空間ψ(·),在訓(xùn)練之前無(wú)需初始化基礎(chǔ)網(wǎng)絡(luò)和相關(guān)的權(quán)重參數(shù),直接將網(wǎng)絡(luò)的參數(shù)設(shè)為隨機(jī)值,因此本模型為完全無(wú)監(jiān)督模型。

圖1 第1個(gè)Siamese網(wǎng)絡(luò)的結(jié)構(gòu)
假設(shè)查詢視頻為Vi,兩個(gè)連續(xù)幀Vi,t和Vi,t+1之間特征描述符的距離應(yīng)當(dāng)小于查詢幀Vi和其他任意隨機(jī)幀Vj的距離。
如果Vx=Vi,t,并且Vy=Vi,t+1

如果Vx=Vi,t,并且Vy=Vi,t′,那么:
max(0,δ-ψ(Vx),ψ(Vy))
(2)
式中:d為歐氏距離,式(2)(對(duì)比損失函數(shù))懲罰連續(xù)幀之間的距離,獎(jiǎng)賞不同視頻幀之間的距離。
在模型的訓(xùn)練程序中未考慮視頻的標(biāo)記,所以本模型支持任意的視頻,是一種完全無(wú)監(jiān)督的學(xué)習(xí)方法。
第1個(gè)Siamese網(wǎng)絡(luò)僅僅學(xué)習(xí)了連續(xù)的視頻幀,第2個(gè)Siamese網(wǎng)絡(luò)為四元組Siamese網(wǎng)絡(luò),負(fù)責(zé)提取視覺(jué)內(nèi)容的細(xì)節(jié)特征。文獻(xiàn)[13]提出歸一化SFA模型,該模型在學(xué)習(xí)視頻描述符的過(guò)程中能夠產(chǎn)生一個(gè)二階時(shí)間導(dǎo)數(shù),將三個(gè)時(shí)間緊密幀組成三元組(Vi,a,Vi,b,Vi,c),該模型使得緊密幀之間的特征變化也保持相似,即d(ψ(Vi,b),ψ(Vi,a))≈d(ψ(Vi,c),ψ(Vi,b))。該模型的目標(biāo)函數(shù)結(jié)合了監(jiān)督損失函數(shù)和無(wú)監(jiān)督的正則化項(xiàng),而本模型則是完全無(wú)監(jiān)督的學(xué)習(xí)模型。
深度學(xué)習(xí)特征的核心思想是保證連續(xù)幀特征描述符之間的時(shí)間一致性,所以長(zhǎng)度n的時(shí)間窗口內(nèi)幀間距離應(yīng)當(dāng)小于不同視頻的幀間距離。圖2是本文設(shè)計(jì)的四元組Siamese網(wǎng)絡(luò),該模型捕獲視頻的局部微小變化,并保持全局的判別力。

圖2 第2個(gè)Siamese網(wǎng)絡(luò)的結(jié)構(gòu)(四元組Siamese網(wǎng)絡(luò))
模型共有4個(gè)基礎(chǔ)網(wǎng)絡(luò)組成,網(wǎng)絡(luò)之間共享相同的參數(shù)。模型的輸入為四個(gè)視頻幀的元組(Vi,t,Vi,t+1,Vi,t+n,Vj,t′),每個(gè)基礎(chǔ)網(wǎng)絡(luò)的輸出為1024-D的特征空間。選擇4個(gè)視頻幀的原因在于:查詢幀Vi,t和相鄰視頻的幀Vi,t+1在學(xué)習(xí)的特征空間中極為靠近(ψ(Vi,t)≈ψ(Vi,t+1)),查詢幀Vi,t和相同視頻的幀Vi,t+n在特征空間中也較為接近,而查詢幀Vi,t和其他視頻的幀Vj,t′在特征空間則較為疏遠(yuǎn),即d(ψ(Vi,t),ψ(Vi,t+n)) 四元組Siamese網(wǎng)絡(luò)的損失函數(shù)定義為: d(ψ(Vi,t),ψ(Vi,t+1))+max{0,d(ψ(Vi,t), ψ(Vi,t+n))-d(ψ(Vi,t),ψ(Vi,t′))+α} (3) 式中:α表示全局的margin。 動(dòng)作識(shí)別程序需要消耗大量的內(nèi)存空間和計(jì)算時(shí)間,而且Siamese網(wǎng)絡(luò)的學(xué)習(xí)成本也較高,為了提高動(dòng)作識(shí)別的效率和速度,提出一種基于局部最大差異圖像的興趣點(diǎn)檢測(cè)技術(shù),將視頻分割為動(dòng)作主要區(qū)域和動(dòng)作次要區(qū)域,Siamese網(wǎng)絡(luò)僅學(xué)習(xí)主要區(qū)域的特征。在興趣點(diǎn)的檢測(cè)程序中,使用相鄰幀差分技術(shù)獲得差分圖像。 圖3是動(dòng)作識(shí)別算法的流程框圖。算法主要由三個(gè)模塊組成:① 興趣點(diǎn)檢測(cè)模塊,檢測(cè)身體的移動(dòng)部分,其優(yōu)點(diǎn)在于提取運(yùn)動(dòng)行程較大的身體區(qū)域,這些區(qū)域?qū)τ趧?dòng)作區(qū)分具有較高的判別力。② 建立投影樹(shù)的過(guò)程中,設(shè)計(jì)了重疊區(qū)域分割機(jī)制,降低邊界點(diǎn)分類的錯(cuò)誤率。③ 采用霍夫投票機(jī)制統(tǒng)計(jì)測(cè)試視頻和各個(gè)訓(xùn)練分類的相似性,結(jié)合投票得分和投票數(shù)量的結(jié)果識(shí)別出目標(biāo)動(dòng)作。 圖3 動(dòng)作識(shí)別算法的流程框圖 視頻的興趣點(diǎn)一般為邊緣和角點(diǎn)等,三維角點(diǎn)是一種效果較好的人體動(dòng)作描述符,采用三維Harris角點(diǎn)檢測(cè)興趣點(diǎn)。將Harris角點(diǎn)檢測(cè)技術(shù)從空間域擴(kuò)展到時(shí)間域和空間域,提取時(shí)空域中發(fā)生顯著變化的局部結(jié)構(gòu)。三維Harris角點(diǎn)檢測(cè)一般通過(guò)Harris角點(diǎn)移動(dòng)檢測(cè)三維角點(diǎn)的變化,但在一些視頻中發(fā)生三維角點(diǎn)變化的部分并非主要區(qū)域,因此無(wú)法檢測(cè)出關(guān)鍵的移動(dòng)區(qū)域。所以設(shè)計(jì)了差分視頻幀的局部最大化機(jī)制,提高動(dòng)作識(shí)別的精度。 算法1是興趣點(diǎn)檢測(cè)算法的偽代碼。假設(shè)查詢視頻V共有Nf個(gè)幀,計(jì)算連續(xù)幀之間的差分圖像Di。應(yīng)用中值濾波器處理差分圖像,抑制多余的毛刺,計(jì)算三維局部最大值。計(jì)算目標(biāo)像素的26個(gè)相鄰像素(3×3×3的三維立方體),分別和目標(biāo)像素比較來(lái)判斷目標(biāo)像素是否為局部最大值。圖4是判斷局部最大像素的實(shí)例,將圖中26個(gè)像素的強(qiáng)度值與中心像素比較,如果均小于中心像素,那么該中心像素為一個(gè)興趣點(diǎn)。 圖4 判斷局部最大像素的實(shí)例 最終計(jì)算所有興趣點(diǎn)之間的歐氏距離,如果兩個(gè)點(diǎn)的距離小于閾值θ,那么刪除其中一個(gè)興趣點(diǎn),本文將θ設(shè)為20個(gè)像素對(duì)應(yīng)的歐氏距離。 算法1檢測(cè)興趣點(diǎn)的算法 輸入:查詢視頻V,視頻幀數(shù)量Nf 輸出:興趣點(diǎn)IP,迭代次數(shù)i 1.whilei 2.D(i)=median_filter(V(i+1)-V(i)); /*中值濾波*/ 3.i++; 4.} /*計(jì)算目標(biāo)像素的26個(gè)相鄰像素,判斷是否為局部最大*/ 5. foreachpixelinDdo { 6.center_pixel=pixel; 7.nei_pixel=pixel的26個(gè)鄰居像素 8. foreachlfrom 1 to 26 do { 9. ifnei_pixel[i]>center_pixelthen 10.pixel不是興趣點(diǎn); 11. break; 12. endif 13. endfor 14.IP=center_pixel; //該中心點(diǎn)為興趣點(diǎn) 15.endfor /*刪除接近的冗余興趣點(diǎn)*/ 16.foreachiinIPdo { 17.dis=ED(IP(i),IP(i-1)); /*計(jì)算歐式距離*/ 18. ifdis<θthen 19. 刪除該冗余點(diǎn); 20. endif 21.endfor 圖5是興趣點(diǎn)檢測(cè)的實(shí)例圖。(a)是一個(gè)拳擊動(dòng)作的視頻幀;(b)是兩個(gè)連續(xù)幀的差分圖像;(c)是輪廓檢測(cè)的局部最大興趣點(diǎn),刪除了近距離的興趣點(diǎn)和低強(qiáng)度的興趣點(diǎn)。 (a)(b) (c)圖5 檢測(cè)興趣點(diǎn)的實(shí)例圖 采用第1節(jié)無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻幀興趣點(diǎn)的特征,特征集總體的維度為162。 采用投影樹(shù)構(gòu)建特征空間的索引,提高興趣點(diǎn)的搜索速度。隨機(jī)投影樹(shù)(Random Projection tree,RP-tree)對(duì)于低維流形學(xué)習(xí)的效果好于近鄰樹(shù),所以本文采用RP-tree建立特征空間的索引,RP-tree為訓(xùn)練數(shù)據(jù)集建立索引,在測(cè)試過(guò)程中快速搜索查詢興趣點(diǎn)的匹配數(shù)據(jù)。但是RP-tree存在一個(gè)問(wèn)題:如果不同分區(qū)的興趣點(diǎn)相似,則會(huì)導(dǎo)致RP-tree出現(xiàn)較高的失敗率。 將重疊區(qū)域分割能夠有效地降低失敗率,圖6是分割重疊區(qū)域的示意圖,將區(qū)域Χ沿隨機(jī)方向U分割,控制變量α,將區(qū)域分割為(1/2-α)和(1/2+α)。 圖6 重疊區(qū)域分割的示意圖 算法2是建立RP-tree的算法,將視頻提取的興趣點(diǎn)集表示為P={pi;i=1,2,…,NP},其中pi=[fi,li],fi和li分別為興趣點(diǎn)pi的描述符和時(shí)空位置,NP為興趣點(diǎn)的總數(shù)量,設(shè)參數(shù)td是tree的最大深度。mk_RPtree是建立RP-tree的程序,div_data(P)是分割重疊區(qū)域的函數(shù)(見(jiàn)算法3)。 算法2mk_RPtree函數(shù) 輸入:特征集P,深度depth。 輸出:投影樹(shù)tree 1.初始化:最大樹(shù)深度td,葉節(jié)點(diǎn)中興趣點(diǎn)的最少數(shù)量msz。 2.ifdepth 3. if |P| 4. returnleaf; 5. } else { 6. rule=div_data(P); 7.left_tree=mk_RPtree({x∈P:rule(x)=true}∪ {x∈P:x∈Pcommon}); 8.right_tree=mk_RPtree({x∈P:rule(x)=false}∪ {x∈P:x∈Pcommon}); 9. } 10.} 算法3分割重疊區(qū)域的函數(shù)div_data(P) 輸入:特征集P 輸出:數(shù)據(jù)分割規(guī)則rule 1.產(chǎn)生一個(gè)隨機(jī)方向v; /* 產(chǎn)生的列表為p1≤p2≤…≤pn。*/ 2.將投影值排序p(x)=v.x, ?x∈P; 3.for (i=1,…,n-1) { 7. 搜索ci的最小值, 8.θ=(pi+pi+1)/2; 9.rule(x)=v.x≤θ; 10.} 上節(jié)為興趣點(diǎn)構(gòu)建了RP-tree,訓(xùn)練數(shù)據(jù)為R={dr=[fr,lr];r=1,2,…,NR},fr和lr分別為興趣點(diǎn)dr的描述符和時(shí)空位置,NR為興趣點(diǎn)的總數(shù)量,V(x,t,ρ)表示時(shí)間中心為t、空間中心為x的測(cè)試視頻,ρ為測(cè)試視頻的縮放尺度。從V提取的興趣點(diǎn)表示為P,V和R之間的相似性匹配分?jǐn)?shù)計(jì)算為: S(V(x,t,ρ),R)∝ (4) 如果fi,fr屬于樹(shù)Tj的同一個(gè)葉節(jié)點(diǎn),那么Ij(fi,fr)=1,否則為0。lv=[xv,tv]為投票位置,xv和tv分別為: (5) 圖7是投票程序的詳細(xì)流程。 圖7 投票程序的詳細(xì)流程 相似性匹配度表示為[xv,tv],xv為查詢點(diǎn)和動(dòng)作中心間的歐氏距離,tv為訓(xùn)練興趣點(diǎn)和動(dòng)作中心間的歐氏距離,[xv,tv]表示xv和tv之間的差值。如果不同分類的訓(xùn)練視頻之間興趣點(diǎn)數(shù)量不相等,那么在tree某些深度的葉節(jié)點(diǎn)具有不等的興趣點(diǎn)數(shù)量,該情況導(dǎo)致誤檢率升高,容易將查詢視頻誤分類為假正類。為了避免該問(wèn)題,對(duì)于投票技術(shù)進(jìn)行修改,保持興趣點(diǎn)數(shù)量相等。 計(jì)算匹配點(diǎn)到查詢點(diǎn)間歐氏距離的差值之和,其結(jié)果用于計(jì)算相似性匹配度。此外,記錄每個(gè)分類的興趣點(diǎn)數(shù)量,綜合上述兩個(gè)結(jié)果,識(shí)別出查詢視頻。 圖8 查詢視頻的投票分?jǐn)?shù)和興趣點(diǎn)匹配示意圖 算法4是改進(jìn)投票算法的偽代碼,通過(guò)投票的分?jǐn)?shù)初始化類Vi,統(tǒng)計(jì)和查詢興趣點(diǎn)匹配的興趣點(diǎn)數(shù)量,分別做如下不同處理:(1) 如果當(dāng)前類匹配的興趣點(diǎn)數(shù)量最多,那么該查詢視頻增加該類的類標(biāo)簽。(2) 匹配興趣點(diǎn)的數(shù)量和初始識(shí)別的類做比較,投票總分?jǐn)?shù)更高的類作為識(shí)別的分類。 算法4改進(jìn)的投票算法 輸入:匹配的興趣點(diǎn)數(shù)量Ij,分類數(shù)量N,投票分?jǐn)?shù)Vi 1.ifi==j{ 2. 類標(biāo)簽=i; 3.} else { 4.Ii=Vi; //匹配的興趣點(diǎn)數(shù)量 5. 搜索Ik>Ii的類標(biāo)簽; 7. 類標(biāo)簽=k; 8.} (1) 實(shí)驗(yàn)方法。基于MATLAB(9.0.0.341360 release 2016a)實(shí)現(xiàn)實(shí)驗(yàn)中的各個(gè)算法。實(shí)驗(yàn)環(huán)境為PC機(jī),CPU為Intel Core i5,主頻為3.2 GHz,內(nèi)存為8 GB,操作系統(tǒng)為Window 10。 UCF101數(shù)據(jù)集是從YouTube網(wǎng)站采集的實(shí)際動(dòng)作視頻,共包含12 000個(gè)視頻,101個(gè)動(dòng)作類型。數(shù)據(jù)集分為3個(gè)子部分,本實(shí)驗(yàn)采用其中第1個(gè)部分,該部分共有9 537個(gè)訓(xùn)練視頻和3 783個(gè)測(cè)試視頻。上述數(shù)據(jù)集的視頻均包含標(biāo)注信息,但是本文在學(xué)習(xí)視頻特征的過(guò)程中忽略了這些標(biāo)注信息,而是從視頻集中提取一部分的子集作為訓(xùn)練集。 J-HMDB數(shù)據(jù)集是一個(gè)單人交互的動(dòng)作視頻數(shù)據(jù)集,該數(shù)據(jù)集能夠清晰地觀察動(dòng)作識(shí)別算法的處理過(guò)程。該數(shù)據(jù)集共包含21個(gè)動(dòng)作類型,每個(gè)動(dòng)作類型有36~55個(gè)視頻。實(shí)驗(yàn)從每個(gè)類型中隨機(jī)選出6個(gè)視頻作為訓(xùn)練集,隨機(jī)選出30個(gè)視頻作為測(cè)試集。 實(shí)驗(yàn)方法有以下幾個(gè)步驟:(1) 采用訓(xùn)練視頻集以無(wú)監(jiān)督的方式學(xué)習(xí)本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。(2) 計(jì)算測(cè)試視頻的特征。(3) 檢測(cè)視頻動(dòng)作的類型。每組實(shí)驗(yàn)獨(dú)立重復(fù)10次,統(tǒng)計(jì)每組實(shí)驗(yàn)的平均值和標(biāo)準(zhǔn)偏差作為最終的實(shí)驗(yàn)結(jié)果。 (2) 性能評(píng)價(jià)指標(biāo)。采用條件熵(Conditional Entropy,CE)評(píng)估檢測(cè)的性能。CE定義為: (6) 式中:X為正定標(biāo)簽;Y為算法檢測(cè)的標(biāo)簽;變量(x,y)是從有限離散相交空間X×Y獲得的采樣。 圖9 CE與邊界寬度的關(guān)系 分別測(cè)試神經(jīng)網(wǎng)絡(luò)fc6層和fc7層學(xué)習(xí)特征的效果,結(jié)果如圖10所示。綜合4個(gè)參數(shù)組合的結(jié)果,fc6層的性能優(yōu)于fc7層。 圖10 fc6層和fc7層學(xué)習(xí)特征的結(jié)果 采用3個(gè)動(dòng)作識(shí)別算法與本文算法做比較,分別為SVRL[16]、RVOT[11]、DLVF[3]。SVRL是一種無(wú)監(jiān)督學(xué)習(xí)視頻特征的方法,該方法的分類準(zhǔn)確率較高。RVOT是一種基于卷積神經(jīng)網(wǎng)絡(luò)的視頻特征選擇算法,該算法設(shè)計(jì)了多尺度完全全局Siamese網(wǎng)絡(luò),與本算法同屬于Siamese網(wǎng)絡(luò)的改進(jìn)算法。DLVF也是一種使用神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別算法,該算法是一種分布式動(dòng)作識(shí)別算法。使用K-means聚類算法[15]和譜聚類(Spectral clustering,SC)分別測(cè)試特征子集的性能,基于高斯核距離的全連接方式生成SC的相似矩陣。 圖11是4個(gè)動(dòng)作檢測(cè)算法的CE結(jié)果。觀察圖中的結(jié)果,本文算法均實(shí)現(xiàn)了最低的CE值,SVRL是一種提取視頻時(shí)空特征的算法,其特征的效果明顯低于其他三個(gè)深度學(xué)習(xí)的特征。在三個(gè)基于神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法中,本文算法實(shí)現(xiàn)了最低的CE值,并且雖然RVOT和DLVF的CE值與本文算法較為接近,但這兩個(gè)算法均為有監(jiān)督特征學(xué)習(xí)方法,需要預(yù)知系統(tǒng)的參數(shù)和應(yīng)用場(chǎng)景的先驗(yàn)知識(shí)。本文算法則是完全無(wú)監(jiān)督學(xué)習(xí)方法,無(wú)需任何的先驗(yàn)知識(shí)。 圖11 4個(gè)動(dòng)作檢測(cè)算法與不同分類器組合的CE結(jié)果 通過(guò)J-HMDB數(shù)據(jù)集能夠觀察動(dòng)作檢測(cè)算法的細(xì)節(jié)信息,為J-HMDB數(shù)據(jù)集的動(dòng)作類型編號(hào):(1) Brush hair,(2) Catch,(3) Clap,(4) Climb stairs,(5) Golf,(6) Jump,(7) Kick ball,(8) Pull up,(9) Push,(10) Run,(11) Shoot ball,(12) Shoot bow,(13) Swing baseball,(14) Throw,(15) Walk,(16) Wave。采用3個(gè)指標(biāo)評(píng)估本算法的總體性能[17],分別為靈敏度、準(zhǔn)確度、特異度,敏感度高說(shuō)明漏檢率低,特異度高說(shuō)明誤檢率低。圖12是本文算法對(duì)于J-HMDB數(shù)據(jù)集的動(dòng)作識(shí)別結(jié)果,(a)中15個(gè)數(shù)據(jù)集的靈敏度均達(dá)到了0.4以上,Push數(shù)據(jù)集的敏感度較低,漏檢率較高,主要原因是Push動(dòng)作的幅度較小,提取的特征判別能力弱于其他類型的動(dòng)作;(b)中Pull up動(dòng)作和Push動(dòng)作的準(zhǔn)確率較低,其他14個(gè)動(dòng)作的準(zhǔn)確率也均高于0.4;(c)中所有動(dòng)作的特異度均達(dá)到0.9以上,說(shuō)明算法的誤檢率較低。 (a) 靈敏度 (b) 準(zhǔn)確度 (c) 特異度圖12 J-HMDB數(shù)據(jù)集的動(dòng)作識(shí)別結(jié)果 表1是4個(gè)動(dòng)作識(shí)別算法對(duì)于H-HMDB數(shù)據(jù)集的平均準(zhǔn)確率結(jié)果。本文算法的平均準(zhǔn)確率接近0.6,明顯高于其他3個(gè)動(dòng)作識(shí)別算法,表明本文算法具有較好的識(shí)別準(zhǔn)確率性能。表2是4個(gè)動(dòng)作識(shí)別算法對(duì)于H-HMDB數(shù)據(jù)集的平均時(shí)間結(jié)果,4個(gè)算法在時(shí)間效率上均具有良好的性能,均可在10秒以內(nèi)成功完成檢測(cè),而本文算法則具有最快的速度。 表1 4個(gè)動(dòng)作識(shí)別算法的平均準(zhǔn)確率 表2 4個(gè)動(dòng)作識(shí)別算法的平均時(shí)間 本文設(shè)計(jì)了新的動(dòng)作識(shí)別算法,主要包括三點(diǎn)創(chuàng) 新:(1) 設(shè)計(jì)了興趣點(diǎn)檢測(cè)模塊,檢測(cè)身體的移動(dòng)部分,其優(yōu)點(diǎn)在于提取運(yùn)動(dòng)行程較大的身體區(qū)域,這些區(qū)域?qū)τ趧?dòng)作區(qū)分具有較高的判別力。(2) 建立投影樹(shù)的過(guò)程中,設(shè)計(jì)了重疊區(qū)域分割機(jī)制,降低邊界點(diǎn)分類的錯(cuò)誤率。(3) 采用霍夫投票機(jī)制統(tǒng)計(jì)測(cè)試視頻和各個(gè)訓(xùn)練分類的相似性,結(jié)合投票得分和投票數(shù)量的結(jié)果識(shí)別出目標(biāo)動(dòng)作。最終通過(guò)實(shí)驗(yàn)驗(yàn)證了本文算法的有效性,在檢測(cè)準(zhǔn)確率和時(shí)間效率上均具有明顯的優(yōu)勢(shì)。未來(lái)將利用分布式計(jì)算和并行計(jì)算實(shí)現(xiàn)本算法,將算法的識(shí)別速度加快到1秒以內(nèi),進(jìn)一步提高算法的實(shí)用性。
1.3 Siamese網(wǎng)絡(luò)的實(shí)現(xiàn)細(xì)節(jié)

2 動(dòng)作識(shí)別的算法設(shè)計(jì)

2.1 檢測(cè)興趣點(diǎn)


2.2 特征提取
2.3 重疊區(qū)域分割的隨機(jī)投影樹(shù)



2.4 投票模型


2.5 改進(jìn)投票算法




3 仿真實(shí)驗(yàn)和結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境和方法
3.2 神經(jīng)網(wǎng)絡(luò)參數(shù)的效果



3.3 UCF101數(shù)據(jù)集實(shí)驗(yàn)

3.4 J-HMDB數(shù)據(jù)集實(shí)驗(yàn)





4 結(jié) 語(yǔ)