999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多視角邊緣設(shè)備下的人體行為對(duì)比識(shí)別方法

2023-09-15 03:34:08張潤(rùn)秀許志偉
軟件導(dǎo)刊 2023年9期
關(guān)鍵詞:動(dòng)作特征模型

張潤(rùn)秀,許志偉,云 靜

(1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院;2.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010080;3.中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190)

0 引言

在邊緣環(huán)境中,高效的視頻理解是實(shí)際環(huán)境部署的重要基礎(chǔ)。邊緣視頻識(shí)別技術(shù)在自動(dòng)駕駛、智慧醫(yī)療、智慧交通、智慧城市等方面都發(fā)揮著關(guān)鍵支撐作用。隨著科學(xué)技術(shù)的發(fā)展,邊緣設(shè)備收集數(shù)據(jù)的技術(shù)水平得以逐步提升,在實(shí)際環(huán)境中部署邊緣設(shè)備的成本也逐步下降。在此基礎(chǔ)上,人們考慮到可以利用邊緣節(jié)點(diǎn)收集到同一對(duì)象不同視角的視頻,這引發(fā)了學(xué)者們對(duì)于多視角數(shù)據(jù)的研究,其中多視角人類行為識(shí)別也是熱點(diǎn)研究方向之一。邊緣多視角數(shù)據(jù)行為識(shí)別圖例如圖1 所示(彩圖掃OSID 碼可見(jiàn))。通過(guò)較好地融合多視角數(shù)據(jù)獲得的豐富視角信息,可以學(xué)習(xí)到泛化性更好的模型,并且從多個(gè)視角觀察到動(dòng)作變化之間的相關(guān)性是一項(xiàng)具有挑戰(zhàn)性的工作。從多視角學(xué)習(xí)到視角無(wú)關(guān)動(dòng)作表示的行為識(shí)別是當(dāng)前比較熱門(mén)的問(wèn)題之一,它試圖突破成像角度對(duì)于行為識(shí)別的限制,使得攝像機(jī)從任意角度獲取的運(yùn)動(dòng)都可以被準(zhǔn)確識(shí)別與理解[1]。視角無(wú)關(guān)在智能人機(jī)互動(dòng)、異常行為監(jiān)控等場(chǎng)景的應(yīng)用中十分重要,研究行為識(shí)別多視角無(wú)關(guān)特征的提取有助于推動(dòng)現(xiàn)實(shí)應(yīng)用的發(fā)展。

Fig.1 Example of multi-view data action recognition model圖1 多視角數(shù)據(jù)行為識(shí)別模型示例

多視角數(shù)據(jù)行為識(shí)別研究大多基于RGB 圖像、深度圖像和骨骼點(diǎn)等多種數(shù)據(jù)融合的方式以學(xué)習(xí)視角無(wú)關(guān)的特征。Ren 等[2]提出一種雙向秩池化方法以構(gòu)建RGB 視覺(jué)動(dòng)態(tài)圖像(VDI)和深度動(dòng)態(tài)圖像(DDI),并且設(shè)計(jì)了一種基于多模態(tài)分層融合策略的有效分割卷積網(wǎng)絡(luò)架構(gòu),用于人體動(dòng)作識(shí)別。Wang 等[3]提出一個(gè)生成框架,以探索RGB 和深度模式中的特征分布。Cai 等[4]和Li 等[5]分別提出兩種雙流網(wǎng)絡(luò)結(jié)構(gòu),有效地融合了RGB 和骨架特征。對(duì)于深度圖和骨骼點(diǎn)的融合方法,Xu 等[6]提出一種基于雙線性池和注意力網(wǎng)絡(luò)(BPAN)的多模態(tài)動(dòng)作識(shí)別模型,可以有效地融合多模態(tài)進(jìn)行動(dòng)作識(shí)別。盡管這些方法都顯示出較好的效果,但在邊緣資源受限情況下,這些方法由于融合了多種數(shù)據(jù),時(shí)序上動(dòng)作運(yùn)動(dòng)的計(jì)算代價(jià)過(guò)高,不適合部署在實(shí)際場(chǎng)景中。邊緣視頻識(shí)別需在無(wú)監(jiān)督情況下更新模型,確保在無(wú)需連接數(shù)據(jù)中心服務(wù)器的情況下更新模型。邊緣視頻識(shí)別具有能夠正確刻畫(huà)瞬息萬(wàn)變的實(shí)際生產(chǎn)生活環(huán)境特點(diǎn),能夠支撐相關(guān)識(shí)別和預(yù)測(cè)工作。上述多視角行為識(shí)別方法無(wú)法在實(shí)際應(yīng)用中有效地學(xué)習(xí)到視角無(wú)關(guān)的動(dòng)作表示,如何在邊緣設(shè)備有限的資源支撐下高效更新模型,以及如何學(xué)習(xí)視角無(wú)關(guān)的特征,特別是高效利用邊緣節(jié)點(diǎn)收集同一對(duì)象不同視角的視頻,獲取更多有效特征以支持動(dòng)作識(shí)別,是邊緣視頻識(shí)別的關(guān)鍵問(wèn)題。因此,亟需研究一種自監(jiān)督的視角無(wú)關(guān)行為識(shí)別技術(shù),提高面向?qū)嶋H環(huán)境解決多角度普適問(wèn)題的能力,同時(shí)保證行為識(shí)別結(jié)果的高準(zhǔn)確率。

對(duì)比學(xué)習(xí)是適用于多視角行為識(shí)別的一種自監(jiān)督方法,其最早作為一種降維方法被提出:只需要訓(xùn)練樣本空間的相對(duì)關(guān)系(對(duì)比平衡關(guān)系)即可在空間內(nèi)表示向量并將原始數(shù)據(jù)映射到一個(gè)特征空間[7]。在該特征空間中,正樣本的相似性被最大化,而負(fù)樣本的相似性被最小化,對(duì)比學(xué)習(xí)通過(guò)最大化正樣本對(duì)之間的一致性進(jìn)行學(xué)習(xí)表示[8]。本文使用對(duì)比學(xué)習(xí)實(shí)現(xiàn)最大化同一動(dòng)作不同視角之間的一致性以獲得多視角的視角無(wú)關(guān)特征。

本文提出一種基于對(duì)比學(xué)習(xí)的端到端多視角人體行為自監(jiān)督識(shí)別網(wǎng)絡(luò),從多視角數(shù)據(jù)中學(xué)習(xí)和辨別視角無(wú)關(guān)的特征。模型將同一動(dòng)作下不同視角的視頻作為網(wǎng)絡(luò)輸入,基于對(duì)比學(xué)習(xí)的思想,對(duì)比各類多視角下人體的動(dòng)作變化,學(xué)習(xí)到多個(gè)視角觀察下不同動(dòng)作中的空間不變性特征,從而獲取視角無(wú)關(guān)的各類動(dòng)作信息。本文模型采用多數(shù)據(jù)流輸入方式,將來(lái)自不同視角和時(shí)間的多個(gè)短視頻剪輯作為輸入,并使用所提出的多視角人體行為識(shí)別網(wǎng)絡(luò)學(xué)習(xí)多視角間的視角無(wú)關(guān)特征。學(xué)習(xí)到的動(dòng)作表示用于在下游任務(wù)中使用分類網(wǎng)絡(luò)的動(dòng)作識(shí)別任務(wù)。本文主要貢獻(xiàn)有3 個(gè)方面:①提出了一種邊緣環(huán)境下自監(jiān)督的多視角人體行為識(shí)別網(wǎng)絡(luò)模型,可以進(jìn)行端到端的訓(xùn)練,適用于實(shí)時(shí)視頻監(jiān)控、智能人機(jī)互動(dòng)等實(shí)際應(yīng)用場(chǎng)景,提供高精度在線行為識(shí)別;②模型基于對(duì)比學(xué)習(xí)理論,高效利用多視角數(shù)據(jù),來(lái)自不同視角的視頻被映射到嵌入空間中,在該嵌入空間中,通過(guò)拉近同一動(dòng)作不同視角特征間的距離提取具有空間不變性的特征,從而學(xué)習(xí)到視角無(wú)關(guān)的動(dòng)作表示,在多視角數(shù)據(jù)研究中保留了視角的信息,增強(qiáng)了模型泛化能力;③本文方法在NTU RGB+D 數(shù)據(jù)集上優(yōu)于現(xiàn)有一些算法,在基于單一RGB 模態(tài)的自監(jiān)督方法中表現(xiàn)出良好的識(shí)別效果,使用多個(gè)評(píng)價(jià)指標(biāo)進(jìn)行比較,證明了本文提出模型所學(xué)的動(dòng)作表示在多視角動(dòng)作識(shí)別任務(wù)中的有效性。

1 相關(guān)工作

1.1 行為識(shí)別方法

早期行為識(shí)別大多采用手工特征提取的方式,利用動(dòng)作的運(yùn)動(dòng)軌跡進(jìn)行動(dòng)作分類,其中效果最好的方法為Klaser 等[9]提出的密集軌跡算法。Wang 等[10]在密集軌跡算法基礎(chǔ)上引入背景光流消除方法,使得特征更集中于對(duì)人的運(yùn)動(dòng)描述。然而,這些基于特征工程的方法十分耗時(shí)費(fèi)力。

深度學(xué)習(xí)方法的出現(xiàn)取代了傳統(tǒng)行為識(shí)別方法。如基于3D 卷積網(wǎng)絡(luò)的方法[11-13],基于雙流卷積網(wǎng)絡(luò)的方法[14],特征工程與深度學(xué)習(xí)相結(jié)合的方法[15]和基于圖卷積網(wǎng)絡(luò)的方法[16-17]等。文獻(xiàn)[18]提出一種新的視角無(wú)關(guān)特征,將骨架關(guān)節(jié)點(diǎn)序列的時(shí)空信息編碼為視角不變骨架圖(VISM),并采用3D 卷積神經(jīng)網(wǎng)絡(luò),利用VISM 的特征進(jìn)行3D 動(dòng)作識(shí)別。文獻(xiàn)[19]提出一種基于骨架的動(dòng)作識(shí)別方法改進(jìn)卷積注意力模塊(CBAM),并將改進(jìn)的模塊應(yīng)用于自適應(yīng)網(wǎng)絡(luò)捕獲通道域和空間域的隱式加權(quán)信息。文獻(xiàn)[20]提出一種新的圖卷積網(wǎng)絡(luò)(CTR-GC)以動(dòng)態(tài)學(xué)習(xí)不同的拓?fù)浣Y(jié)構(gòu)并有效地聚合不同通道中的聯(lián)合特征,以進(jìn)行基于骨架的動(dòng)作識(shí)別。提出的CTR-GC 通過(guò)學(xué)習(xí)共享拓?fù)洌⒆鳛樗型ǖ赖耐ㄓ孟闰?yàn),使用特定于每個(gè)通道的相關(guān)性對(duì)其加以細(xì)化,從而對(duì)通道拓?fù)溥M(jìn)行建模。這些模型準(zhǔn)確率較好,但結(jié)構(gòu)復(fù)雜,動(dòng)作表示計(jì)算代價(jià)高,不適合部署在邊緣設(shè)備上。

1.2 多數(shù)據(jù)模態(tài)行為識(shí)別方法

近年來(lái),使用雙流和多流的行為識(shí)別方法取得了不錯(cuò)進(jìn)展。Li 等[5]提出一種雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)由3 個(gè)主要組件組成,即提取骨架特征的ST-GCN 網(wǎng)絡(luò)、提取RGB 特征的R(2+1)D 網(wǎng)絡(luò),以及利用這些特征增強(qiáng)RGB 視頻中動(dòng)作相關(guān)信息的引導(dǎo)塊,并利用分?jǐn)?shù)融合方法進(jìn)行分類。Zhao等[21]使用兩個(gè)3DCNN 流(以原始深度數(shù)據(jù)和深度運(yùn)動(dòng)圖像為輸入)和一個(gè)以3D 骨骼為輸入的表示流(以深度和骨骼序列為輸入)進(jìn)行特征提取。這3 個(gè)網(wǎng)絡(luò)的分類分?jǐn)?shù)通過(guò)加權(quán)法進(jìn)行融合。這些基于多種數(shù)據(jù)模式輸入的方法需要人工標(biāo)注的可靠2D/3D 姿勢(shì)信息,在邊緣資源受限情況下,基于RGB 視頻模式的自監(jiān)督行為識(shí)別方法更為高效。

1.3 自監(jiān)督行為識(shí)別

行為識(shí)別過(guò)程中,監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域占有主導(dǎo)地位,但監(jiān)督學(xué)習(xí)需要大量人類標(biāo)注的數(shù)據(jù),實(shí)際場(chǎng)景下大量的數(shù)據(jù)沒(méi)法進(jìn)行人工標(biāo)記,導(dǎo)致監(jiān)督學(xué)習(xí)存在不具有實(shí)時(shí)收集數(shù)據(jù)訓(xùn)練的局限性。自監(jiān)督學(xué)習(xí)能夠解決這一難點(diǎn),已有一些研究利用3D 運(yùn)動(dòng)預(yù)測(cè)作為自監(jiān)督學(xué)習(xí)的一種方式[22-24],但需對(duì)光流方式和3D 卷積方法進(jìn)行計(jì)算且成本很高,數(shù)據(jù)擴(kuò)增的方法包括對(duì)邊緣設(shè)備存儲(chǔ)空間的要求[25],這些方法都無(wú)法在資源有限的邊緣設(shè)備上進(jìn)行部署。因此,本文采用RGB 數(shù)據(jù)輸入,2D 卷積作為模型骨干網(wǎng)絡(luò)的自監(jiān)督方案。

2 自監(jiān)督行為對(duì)比識(shí)別框架

本文提出端到端多視角人體行為自監(jiān)督識(shí)別網(wǎng)絡(luò)。使用多視角數(shù)據(jù)視角豐富的特點(diǎn),將對(duì)比學(xué)習(xí)的思想引入人體行為識(shí)別,通過(guò)孿生神經(jīng)網(wǎng)絡(luò)模型(Siamese Network)搭建基于多視角的人體行為對(duì)比識(shí)別框架,提出的自監(jiān)督網(wǎng)絡(luò)模型可以在實(shí)際場(chǎng)景中提供人體行為在線識(shí)別。本文所用到的符號(hào)描述如表1所示。

Table 1 Description of symbols表1 符號(hào)描述

2.1 多視角數(shù)據(jù)嵌入

在多個(gè)角度下觀察人的行為,每個(gè)觀察視角下行為的運(yùn)動(dòng)軌跡都不同。大多數(shù)行為識(shí)別方法在使用數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)沒(méi)能考慮到這一問(wèn)題,從而導(dǎo)致行為識(shí)別準(zhǔn)確度不高,不能很好地適應(yīng)行為隨角度變化而運(yùn)動(dòng)軌跡不同的情況。因此,本文在構(gòu)建模型時(shí)采用多視角數(shù)據(jù)輸入,利用視角豐富的多視角人體行為數(shù)據(jù)讓模型學(xué)習(xí)到適應(yīng)觀察角度不同的行為特征,得到泛化性能更好的模型。

數(shù)據(jù)輸入以兩個(gè)視角為例,從同一行為類別的兩個(gè)不同視角數(shù)據(jù)中將視頻幀對(duì)(x1和x2)作為輸入,i?{1,2,…,n}表示視頻序列長(zhǎng)度為n的時(shí)刻數(shù),x1和x2分別表示同一行為類別中兩個(gè)不同視角的視頻幀。模型具體輸入如下:

從同一動(dòng)作兩個(gè)不同視角的視頻序列中采集視頻幀對(duì)x1和x2。x1和x2被認(rèn)為是一對(duì)相似的視頻幀并作為對(duì)比數(shù)據(jù)輸入,并且同一動(dòng)作的每個(gè)視頻采樣都從同一時(shí)刻開(kāi)始到同一時(shí)刻結(jié)束。樣本選擇如下:從數(shù)據(jù)集的其中一個(gè)視角V1數(shù)據(jù)中隨機(jī)抽樣N個(gè)樣本,然后從另一視角V2中找到對(duì)應(yīng)的樣本,總樣本批次大小為2N。將樣本中同一動(dòng)作V1和V2兩個(gè)視角對(duì)應(yīng)時(shí)間得到的視頻幀對(duì)x1和x2作為輸入。

在實(shí)驗(yàn)中,根據(jù)下文介紹的數(shù)據(jù)集劃分,從同一時(shí)刻同一動(dòng)作的兩個(gè)不同視角進(jìn)行幀采樣作為輸入。同時(shí),按照數(shù)據(jù)集驗(yàn)證協(xié)議,實(shí)驗(yàn)將數(shù)據(jù)集中同一動(dòng)作區(qū)別于前兩個(gè)視角的第三視角作為測(cè)試集對(duì)訓(xùn)練結(jié)果進(jìn)行測(cè)試。

2.2 視角不變特征學(xué)習(xí)

人體行為識(shí)別中動(dòng)作表示的學(xué)習(xí)尤為重要,動(dòng)作由人完成,人體姿態(tài)的變化在行為識(shí)別中是關(guān)鍵。實(shí)際場(chǎng)景中人體行為數(shù)據(jù)記錄的人體姿態(tài)常常隨著觀測(cè)相機(jī)的視角變化而變化。但行為的本質(zhì)特征是不隨視角而改變的,動(dòng)作特征作為行為的表示也應(yīng)當(dāng)不隨視角而變化,因此學(xué)習(xí)視角不變的特征十分重要。

為了使用多視角數(shù)據(jù)學(xué)習(xí)視角不變的特征,模型采用Siamese Network 結(jié)構(gòu)作為特征提取網(wǎng)絡(luò)的整體框架。在模型中使用多視角數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)得到利于行為識(shí)別的視角不變特征,在兩條神經(jīng)網(wǎng)絡(luò)中共享網(wǎng)絡(luò)參數(shù),這是學(xué)習(xí)的關(guān)鍵。簡(jiǎn)單而言,通過(guò)共享參數(shù)實(shí)現(xiàn)了讓同一個(gè)網(wǎng)絡(luò)同時(shí)從不同視角觀測(cè)某一動(dòng)作,并理解不同視角下哪些是行為表示的一致性特征從而進(jìn)一步拉近距離。如圖2所示(彩圖掃OSID 碼可見(jiàn)),兩個(gè)獨(dú)立的數(shù)據(jù)從同一時(shí)刻同一動(dòng)作的兩個(gè)不同視角視頻中采樣;一個(gè)基本編碼器網(wǎng)絡(luò)f(·)和一個(gè)預(yù)測(cè)MLPg(·)被訓(xùn)練成用于計(jì)算對(duì)比損失,最大化同類別動(dòng)作的一致性;訓(xùn)練完成后,使用預(yù)測(cè)MLPg(·)得到特征z,對(duì)下游任務(wù)進(jìn)行處理。該網(wǎng)絡(luò)框架包括以下主要組件:

Fig.2 Simple example of a visual feature contrast learning framework圖2 視覺(jué)特征對(duì)比學(xué)習(xí)框架的簡(jiǎn)單示例

(1)一種神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器f(·)。神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器的主干網(wǎng)絡(luò)可以由不同的卷積神經(jīng)網(wǎng)絡(luò)模型替換,用于提取視頻特征。實(shí)驗(yàn)中所用的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器由經(jīng)典網(wǎng)絡(luò)VGG16 和一個(gè)多層感知器組成,多層感知器包括輸入層、隱藏層和輸出層。基礎(chǔ)編碼器輸入為視頻幀對(duì)x1和x2,經(jīng)過(guò)主干網(wǎng)絡(luò)提取視頻特征,隱藏層將視頻特征映射到高維度空間后輸出的特征用h表示,h=f(x)為輸出層輸出的二維向量。

(2)一個(gè)小型神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)MLPg(·)。參考Simclr[8]和SimSiam[26],模型使用具有一個(gè)隱藏層的多層感知器獲取特征z=g(h)。

(3)對(duì)比任務(wù)定義的對(duì)比損失函數(shù)。損失函數(shù)使用編碼器f(·)和預(yù)測(cè)MLPg(·)提取的特征計(jì)算其空間距離,使同類動(dòng)作的相似視頻幀對(duì)實(shí)現(xiàn)最大化一致性。

2.3 自監(jiān)督行為對(duì)比識(shí)別

現(xiàn)有的行為識(shí)別模型大多為有監(jiān)督的方法,而有監(jiān)督學(xué)習(xí)需要大量人工標(biāo)簽標(biāo)注,這很難實(shí)現(xiàn)。大多行為識(shí)別方法無(wú)法提供在線識(shí)別,不能在實(shí)際場(chǎng)景中應(yīng)用。MARNET 是自監(jiān)督的網(wǎng)絡(luò)模型,在對(duì)比學(xué)習(xí)的啟發(fā)下,通過(guò)計(jì)算潛在空間中的對(duì)比損失,最大化同一動(dòng)作不同視角之間的一致性來(lái)學(xué)習(xí)表示,可以部署在實(shí)際場(chǎng)景中實(shí)時(shí)學(xué)習(xí)和識(shí)別。

MAR-NET 經(jīng)過(guò)Siamese Network 中的隱藏層將視頻幀映射到高維度空間,然后通過(guò)對(duì)比損失比較其嵌入高維度空間特征的相似程度。具體過(guò)程如下:

一對(duì)相似視頻幀x1和x2由神經(jīng)網(wǎng)絡(luò)基礎(chǔ)編碼器f(·)處理,即h=f(x),由此得到特征對(duì)h1和h2,隨后經(jīng)過(guò)小型神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)MLPg(·)處理,即z=g(h),由此得到特征對(duì)z1和z2,編碼器f(·)和預(yù)測(cè)MLPg(·)在兩個(gè)視頻幀之間共享權(quán)重。處理得到的特征對(duì)h1和h2以及特征對(duì)z1和z2為一對(duì)相似視頻幀處理得到的特征表示對(duì),具有一定的相似度。對(duì)于處理得到的特征表示對(duì),通過(guò)使用余弦相似度計(jì)算兩個(gè)向量的夾角余弦值以評(píng)估向量間的相似度,適用于同一動(dòng)作不同視角間的相似度度量,因此,分別最小化z1和h1以及z1和h2的負(fù)余弦相似性如下:

其中,‖ · ‖2是L2 范數(shù),這兩個(gè)公式用來(lái)計(jì)算向量間的相似程度。因此,兩個(gè)視角的損失函數(shù)定義為:

參考Simsiam 網(wǎng)絡(luò)框架[28],為了防止模型崩塌,兩個(gè)視角的損失函數(shù)最終定義為:

其中,stopgrad(·)是梯度停止操作,x1的編碼器在第一項(xiàng)中沒(méi)有接收到來(lái)自h1的梯度,但是在第二項(xiàng)中接收到來(lái)自z1的梯度(對(duì)于x2反之亦然)。

當(dāng)輸入角度多于2 個(gè)時(shí),例如有x1、x2、……、xv共v個(gè)角度,對(duì)輸入角度進(jìn)行排列組合,以兩個(gè)不同角度組成一組正樣本。一組正樣本的損失為(以x1、x2為例):

則v個(gè)角度的總體損失為:

Lv計(jì)算v個(gè)角度向量間的空間距離總和,在模型迭代過(guò)程中,Lv不斷優(yōu)化并最終得到最優(yōu)解。在這一過(guò)程中,不同視角的同一動(dòng)作表示在嵌入空間中的距離最大限度地被拉近。同時(shí),在拉近同一動(dòng)作不同視角的空間距離時(shí),相同類別的動(dòng)作也在嵌入空間中被拉近,不同類別的動(dòng)作被拉遠(yuǎn)。不同類別的對(duì)比損失定義如下:

其中,y是判斷兩個(gè)樣本是否匹配的標(biāo)簽,當(dāng)兩個(gè)樣本的類別標(biāo)簽一致時(shí)y=1,當(dāng)兩個(gè)樣本的類別標(biāo)簽不一致時(shí)y=0;d=‖z1-z2‖2代表兩個(gè)樣本特征的歐氏距離;margin為設(shè)定的閾值。

La損失能夠用于在嵌入空間中有效區(qū)分不同動(dòng)作類別,當(dāng)兩個(gè)樣本標(biāo)簽相同,損失計(jì)算為d2,即樣本為同一動(dòng)作類別時(shí),如果在嵌入空間的歐式距離較小,則損失函數(shù)越小,說(shuō)明當(dāng)前模型拉近同一類別動(dòng)作的效果越好;當(dāng)兩個(gè)樣本標(biāo)簽不同時(shí),損失計(jì)算為max(margin-d,0)2,即樣本為不同的動(dòng)作類別時(shí),其嵌入空間的歐式距離較大,損失函數(shù)減小,說(shuō)明當(dāng)前模型區(qū)別不同類別動(dòng)作的效果越好。

因此,模型總體的損失定義為L(zhǎng)all:

其中,λ為損失權(quán)重,用于平衡動(dòng)作的視角和類別的損失計(jì)算。

最后,在模型訓(xùn)練過(guò)程中,相同類別動(dòng)作的多個(gè)視角在嵌入空間中被拉進(jìn),學(xué)習(xí)到視角無(wú)關(guān)的動(dòng)作表示,不同類別的動(dòng)作在空間中被區(qū)分開(kāi),利于下游進(jìn)行行為識(shí)別。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)配置

本文所有實(shí)驗(yàn)都在Ubuntu 16.04 環(huán)境的Caffe 深度學(xué)習(xí)框架下進(jìn)行,使用一塊NVIDIA GeForce RTX 2060 顯卡和16 GB 內(nèi)存。由兩個(gè)樹(shù)莓派收集不同視角下的視頻并傳輸?shù)竭吘売?jì)算服務(wù)器,邊緣計(jì)算服務(wù)器完成模型訓(xùn)練和動(dòng)作識(shí)別。邊緣計(jì)算服務(wù)器和樹(shù)莓派配置如表2、表3所示。

Table 2 Configuration information of edge server hardware表2 邊緣服務(wù)器硬件配置信息

Table 3 Configuration information of Raspberry Pi 4B hardware表3 樹(shù)莓派(Raspberry Pi 4B)硬件配置信息

實(shí)驗(yàn)過(guò)程中,預(yù)處理后的視頻幀輸入深度學(xué)習(xí)模型,并經(jīng)過(guò)主干網(wǎng)絡(luò)VGG16 和多層感知機(jī)的學(xué)習(xí);對(duì)不同視角的動(dòng)作提取視角無(wú)關(guān)的各類行為表示,訓(xùn)練完成后保存預(yù)訓(xùn)練網(wǎng)絡(luò)模型;對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)模型微調(diào)進(jìn)行下游動(dòng)作分類任務(wù)。微調(diào)時(shí)使用初始模型架構(gòu),將損失換為SoftMax損失并用于動(dòng)作的多分類。采用SGD 優(yōu)化器,初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率衰減采用Step 機(jī)制,每1 000 輪學(xué)習(xí)率進(jìn)行衰減,學(xué)習(xí)率調(diào)整倍數(shù)為0.1。損失中Margin 值為1,超參數(shù)λ設(shè)定為0.5。

3.2 數(shù)據(jù)準(zhǔn)備

NTU-RGB+D 數(shù)據(jù)集[27]由南洋理工大學(xué)提供,包括60種動(dòng)作,約56 000 個(gè)視頻片段。分為三大類:40 個(gè)日常動(dòng)作(飲酒、進(jìn)食、閱讀等)、9 個(gè)與健康相關(guān)的動(dòng)作(打噴嚏、蹣跚、摔倒等)和11個(gè)互動(dòng)動(dòng)作(拳打腳踢、擁抱等)。RGB視頻的分辨率為1 920×1 080,深度圖和紅外視頻均為512x424,3D 骨骼數(shù)據(jù)包含每幀25 個(gè)身體關(guān)節(jié)的三維坐標(biāo)。數(shù)據(jù)集采用兩種不同的評(píng)估協(xié)議,分別是交叉主體和交叉視圖。NTU-RGB+D 120 數(shù)據(jù)集[28]通過(guò)添加另外60類,約57 600 個(gè)視頻樣本以擴(kuò)展NTU-RGB+D 數(shù)據(jù)集,即NTU-RGB+D 120數(shù)據(jù)集總共有120類和114 480個(gè)樣本。

基于RGB 模式的人體行為識(shí)別方法通常對(duì)背景雜波敏感。考慮到該問(wèn)題,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:對(duì)提取的視頻幀作進(jìn)一步去背景處理,即估計(jì)出目標(biāo)人體的大致范圍后進(jìn)行人體框的提取和圖片裁剪。對(duì)數(shù)據(jù)集原始采樣的視頻幀和數(shù)據(jù)作進(jìn)一步處理后的采樣視頻幀如圖3所示。

Fig.3 Example of the original sampled picture frame of the data set and the sampled picture frame after further processing of the data圖3 數(shù)據(jù)集原始采樣視頻幀和數(shù)據(jù)進(jìn)一步處理后的采樣視頻幀示例

圖3(a)為數(shù)據(jù)集原始采樣的視頻幀,圖3(b)為數(shù)據(jù)進(jìn)一步處理后的采樣視頻幀。將進(jìn)一步處理后的數(shù)據(jù)放入MAR-NET 模型進(jìn)行學(xué)習(xí)。模型設(shè)置與之前相同,不同的是采樣視頻幀有進(jìn)一步處理,得到的結(jié)果與處理前的結(jié)果比較如表4 所示。通過(guò)對(duì)比可以證實(shí)采樣的視頻幀進(jìn)行處理后對(duì)分類準(zhǔn)確度有顯著提高。

Table 4 Accuracy comparison of sampled frames after further processing表4 采樣視頻幀進(jìn)一步處理后準(zhǔn)確度對(duì)比(%)

本文所有實(shí)驗(yàn)使用的數(shù)據(jù)集均為NTU-RGB+D 數(shù)據(jù)集[28]的RGB 視頻,且采用交叉視角的評(píng)估協(xié)議。同時(shí),參考文獻(xiàn)[29]對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:①將視頻的分辨率從1 920×1 080×D(其中D是幀數(shù))降低到512×384×50,在每個(gè)視頻中,這50 幀的起始點(diǎn)相同;②估計(jì)出目標(biāo)人體的大致范圍后進(jìn)行人體框的提取和圖片裁剪;③對(duì)輸入視頻幀進(jìn)行[0,1]區(qū)間內(nèi)的歸一化。

3.3 準(zhǔn)確性分析

為了評(píng)估MAR-NET 模型性能,本文將其與目前主流的深度學(xué)習(xí)算法進(jìn)行比較。表5 給出了本文模型與使用RGB 的空間卷積網(wǎng)絡(luò)(2D 卷積)、時(shí)空卷積網(wǎng)絡(luò)(CNN-BiLSTM)和使用骨骼的李群網(wǎng)絡(luò)(Lie group)、時(shí)空卷積網(wǎng)絡(luò)(Skelemotion)、時(shí)空交叉注意力網(wǎng)絡(luò)(STAR-Transformer)的行為識(shí)別效果。可以看出,MAR-NET 同基于2D 的空間卷積相比表現(xiàn)出更好的性能,且與文獻(xiàn)[31]提出的僅使用RGB 的自監(jiān)督行為識(shí)別方法相比準(zhǔn)確度提升18.7%。

Table 5 Comparison with other action recognition methods表5 與其他行為識(shí)別方法比較

MAR-NET 與使用骨骼數(shù)據(jù)的方法相比具有更好的識(shí)別準(zhǔn)確度。但是,通過(guò)與文獻(xiàn)[33]、文獻(xiàn)[34]提出的方法相比可以看出,由于骨骼模態(tài)能夠清晰地體現(xiàn)動(dòng)作變化,基于骨骼的時(shí)空卷積方法為識(shí)別準(zhǔn)確性帶來(lái)較大提升。然而,在實(shí)際場(chǎng)景中使用骨骼存在模態(tài)缺失及提取骨骼質(zhì)量劣質(zhì)的問(wèn)題,導(dǎo)致識(shí)別效果不佳。本文方法針對(duì)邊緣環(huán)境中資源受限情況下的行為識(shí)別,考慮到更多現(xiàn)實(shí)環(huán)境因素,提高了行為識(shí)別算法實(shí)際應(yīng)用時(shí)的在線識(shí)別精度。

3.4 消融實(shí)驗(yàn)

為了驗(yàn)證本文使用對(duì)比學(xué)習(xí)提出對(duì)比損失對(duì)模型性能的影響,在NTU-RGB+D 數(shù)據(jù)集上進(jìn)行了3組消融實(shí)驗(yàn)。

(1)模型損失計(jì)算僅采用式(6)。模型設(shè)置使用與之前相同的設(shè)置,損失計(jì)算不使用不同類別間的對(duì)比損失計(jì)算,僅使用計(jì)算視角間的對(duì)比損失。得到的結(jié)果與未修改的對(duì)比損失的結(jié)果比較如表6 所示。通過(guò)對(duì)比可以證實(shí),采用本文方法計(jì)算不同類別間的對(duì)比損失能夠形成類間區(qū)別性,在特征空間中更好地約束不同行為類別的特征分布,從而得到更加準(zhǔn)確的行為分類結(jié)果。

Table 6 Accuracy comparison of loss calculation used only by equation(6)表6 僅使用式(6)進(jìn)行損失計(jì)算后的準(zhǔn)確度比較(%)

(2)模型損失計(jì)算僅采用式(7)。模型設(shè)置使用與之前相同的設(shè)置,損失計(jì)算不使用視角間的對(duì)比損失計(jì)算,僅使用計(jì)算不同類別的對(duì)比損失。得到的結(jié)果與未修改的對(duì)比損失結(jié)果比較如表7 所示。通過(guò)對(duì)比可以證實(shí),采用本文提出的視角間對(duì)比損失能夠更加有效地學(xué)習(xí)行為的本質(zhì)特征,從而獲取更為優(yōu)秀的人體行為表示。

Table 6 Accuracy comparison of loss calculation used only by equation(7)表7 僅使用式(7)進(jìn)行損失計(jì)算后的準(zhǔn)確度比較(%)

(3)主干網(wǎng)絡(luò)不變,自監(jiān)督損失改為簡(jiǎn)單分類損失。為了驗(yàn)證使用對(duì)比學(xué)習(xí)思想學(xué)習(xí)視角無(wú)關(guān)特征的效果,MAR-NET 的主干網(wǎng)絡(luò)結(jié)構(gòu)不變,不使用共享參數(shù)的多個(gè)視角的視頻數(shù)據(jù)輸入,人工將視頻數(shù)據(jù)打上類別標(biāo)簽,僅使用分類損失對(duì)視頻幀進(jìn)行訓(xùn)練。空間上簡(jiǎn)單分類的深度學(xué)習(xí)網(wǎng)絡(luò)(Supervised-net)最后分類結(jié)果與MAR-NET的結(jié)果比較如表8 所示。對(duì)于多個(gè)視角的數(shù)據(jù),簡(jiǎn)單分類方法未考慮視角間動(dòng)作不一致的問(wèn)題,無(wú)法分辨同一個(gè)目標(biāo)人體做出的不同動(dòng)作而得到較差的識(shí)別結(jié)果。通過(guò)對(duì)比可以證明,本文提出的多視角自監(jiān)督行為識(shí)別方法相比簡(jiǎn)單的分類學(xué)習(xí)可以學(xué)習(xí)到更有效的動(dòng)作表示,提高了動(dòng)作分類效果。

4 結(jié)語(yǔ)

本文提出了一種基于對(duì)比學(xué)習(xí)的端到端多視角人體行為自監(jiān)督識(shí)別模型,主要解決了實(shí)際場(chǎng)景中資源受限,并且因人體角度不同或遮蔽所帶來(lái)的人體行為識(shí)別難題。本文提出的模型基于對(duì)比學(xué)習(xí)的思想,學(xué)習(xí)不同動(dòng)作多個(gè)視角之間潛在的空間關(guān)系,將不同視角學(xué)習(xí)到的特征映射到同一特征空間,利用遷移學(xué)習(xí)在下游任務(wù)中對(duì)視頻中的行為類別進(jìn)行識(shí)別。多視角特征學(xué)習(xí)模型是端到端訓(xùn)練,使得該模型能夠更好地學(xué)習(xí)到多個(gè)視角之間的視角不變特征且適用于實(shí)際場(chǎng)景中,為行為識(shí)別的高準(zhǔn)確度和實(shí)用性提供了保障。在NTU-RGB+D 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明了該方法對(duì)于多視角動(dòng)作識(shí)別的有效性,同時(shí)與其他多視角行為識(shí)別方法對(duì)比,證明了本文方法的優(yōu)越性。

猜你喜歡
動(dòng)作特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
動(dòng)作描寫(xiě)要具體
抓住特征巧觀察
畫(huà)動(dòng)作
動(dòng)作描寫(xiě)不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 综合久久久久久久综合网| a毛片基地免费大全| 亚洲高清无码精品| 亚洲成A人V欧美综合| 成人在线综合| 中文字幕无码av专区久久| 欧美成人一级| 中文国产成人精品久久| 国产精品美女网站| 亚洲AV成人一区二区三区AV| 久久成人国产精品免费软件| 久久永久精品免费视频| 国产成人精品午夜视频'| 成人福利免费在线观看| 国产午夜无码片在线观看网站| 九色国产在线| a亚洲天堂| 欧美午夜视频| 国产在线视频自拍| 国产精品视频猛进猛出| 欧美色视频在线| 亚洲一级毛片免费观看| 国产一级毛片网站| 国产精品久久精品| 国产成人综合亚洲网址| 天天摸夜夜操| 亚洲一区二区约美女探花| 国产区精品高清在线观看| 怡红院美国分院一区二区| 亚洲一区黄色| 精品午夜国产福利观看| 伊在人亞洲香蕉精品區| 亚洲大尺度在线| 久久久久青草线综合超碰| 亚洲欧美不卡视频| 无码高清专区| 久久精品最新免费国产成人| 在线观看亚洲精品福利片 | 无码一区中文字幕| 青青青国产视频手机| 在线观看精品自拍视频| 不卡午夜视频| 国产打屁股免费区网站| 色综合久久久久8天国| 午夜啪啪网| 99在线视频免费| 精品成人免费自拍视频| 国产成人免费观看在线视频| 国产成人福利在线| 国产sm重味一区二区三区| 国产成人精品三级| 97精品伊人久久大香线蕉| 亚洲av无码久久无遮挡| 欧美国产日产一区二区| 青青草原偷拍视频| 久久这里只精品国产99热8| 色135综合网| 日韩精品无码免费一区二区三区| 久久精品人人做人人爽电影蜜月 | 欧美一级高清片久久99| 毛片一区二区在线看| 欧美性精品不卡在线观看| 72种姿势欧美久久久大黄蕉| 伊人无码视屏| 婷婷开心中文字幕| 亚洲无线观看| 国产一级毛片高清完整视频版| 91在线日韩在线播放| 欧美成人手机在线观看网址| 9966国产精品视频| 欧美啪啪网| 亚洲精品午夜天堂网页| 亚洲中文字幕无码爆乳| 亚洲国产精品日韩av专区| 国产喷水视频| 久久99国产综合精品1| 中文国产成人久久精品小说| 色综合手机在线| 中文字幕调教一区二区视频| 精品视频一区二区观看| 蜜桃臀无码内射一区二区三区| 国产成人亚洲综合A∨在线播放|