999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于2S-LSGCN的人體動作識別

2022-03-01 13:13:08邱衛根張立臣黃云暉
計算機工程與設計 2022年2期
關鍵詞:動作特征

葉 典,邱衛根,張立臣,黃云暉

(廣東工業大學 計算機學院,廣東 廣州 510006)

0 引 言

隨著網絡多媒體的快速發展以及視頻獲取設備的日漸普及,越來越多的視頻被共享。如何理解和分析這些海量涌現的視頻數據具有重大的理論及應用價值[1,2]。一般而言,人類行為可以從多種模式中識別[3-5],其中人的骨架關節圖中包含豐富的動作特征信息[6-9]。通過分析動態骨架模態與運動模式的關系,就可以對人類的動作進行識別。

盡管傳統的卷積神經網絡在文本和圖像領域帶來提升[10-13],但是它僅能處理歐氏空間數據,不能直接處理不規則的非歐式空間數據。最近,Shahroudy等[14]已開發出嘗試利用關節之間自然連接的方法。Donahue等[15]提出GCA-LSTM用來建模動作序列中有效的全局上下文信息,該模型能有效提取人體動作的時序特征,但模型收斂慢,訓練難度大。Yan等[16]提出了一種基于距離的采樣函數來構造圖卷積層,然后將其用作基本模塊以構建時空圖卷積網絡。Liu等[17]構建基于骨骼特征的全局上下文感知LSTM(GCA-LSTM)網絡,在人體動作識別數據集NTU-RGBD上的識別率達到77.1%。

本文從以上問題出發,提出了一種基于GCN與LSTM相結合的雙流網絡方法2S-LSGCN。本模型中,GCN網絡主要用于提取人體骨架中隱含的空間特征信息,采用Bi-LSTM提取完整骨架圖中動作的時間特征信息作為補充,并在輸入LSTM網絡前加入時間特征下采樣層,用于提取豐富且抽象的時序特征。最后分別將雙流網絡的預測輸出進行晚融合,得到雙流網絡最終預測輸出值。該方法在具有3D骨骼關節點的數據集NTU-RGBD上進行驗證。

1 相關原理介紹

1.1 人體骨架特征的獲取

在視頻流的人體動作識別任務中,大多數研究者關注的僅僅是RGB視頻流中的像素信息,忽略人的動作表現,最主要是由骨架和關節點間相互牽引協作共同完成,所以人的骨架關節圖中包含豐富的動作特征信息。但大多數動作識別數據集,例如HMDB、20BN-jester、Kinetics等,只有RGB視頻或圖像樣本,并沒有標注人的關節點信息。

目前主要有兩種方法獲取時序流的人體關節點特征信息:①通過Kinect(3D體感攝影機)捕捉三維空間中人物的運動的深度信息,進而從深度圖像中獲取骨骼點坐標組成人體骨架關節圖,具體流程如圖1所示;②動作RGB視頻流可以使用2D姿態估計算法(例如OpenPose),提取其中人物的關節點2維坐標和關節間的骨骼信息。

圖1 Kinect獲取骨架圖的架構

1.2 圖卷積神經網絡

卷積神經網絡是深層神經網絡一種經典而廣泛應用的結構,其中深層神經網絡是包含多級非線性變換的層級機器學習方法,所以CNN在這方面更加超越原始基礎的神經網絡。卷積神經網絡的局部連接、權值共享和池化運算可以有效地降低網絡的復雜度,減少訓練參數的數目,使模型在一定程度上對平移、失真和縮放不變性,具有較強的魯棒性和容錯性,且易于訓練并進行優化。

盡管傳統的卷積神經網絡在文本和圖像領域帶來提升,但是它僅能處理歐氏空間數據,卻不能直接處理不規則的非歐式空間數據。但由人的動作可以由關節間位置的變化[15,19],抽象成圖結構表示,所以2D或3D關節點坐標組成的動作骨架關節圖中,包含了豐富的動作特征信息。最近,已開發出嘗試利用關節之間自然連接的新方法。骨架關節圖是圖結構形式,而不是2D或3D網格,這使得很難使用卷積網絡等經過驗證的模型。對于基于骨骼的動作識別任務,Yan等[16]首先應用GCN對骨架數據進行建模。提出了一種基于距離的采樣函數來構造圖卷積層,然后將其用作基本模塊以構建最終的時空圖卷積網絡。

由于輸入網絡的人體骨架時空圖是不規則的非歐式空間數據,傳統的卷積網絡(CNN)不能直接應用于提取圖數據的特征,因此使用圖卷積提取關節點空間上的局部位置特征。對于骨架時空圖的空間維度,圖卷積(graph convolution operation)對于各個頂點vi的卷積運算如下

其中,fout表示特征結構體,vj表示圖中的頂點,Bi表示卷積操作在vi上的感受野(定義卷積中心和它鄰居節點相距1)。 W是權重函數,與傳統卷積(CNN)的相似。

1.3 長短期記憶網絡

RNN在視頻時序類任務中已經成為常用方法,而LSTM是目前效果最好的一種RNN,主要得益于它具有長時間的記憶,在處理序列時,該時刻的輸出特征,將會與下一個時刻的樣本信息一起輸入,如此很好保留了序列的時間信息,大大提升模型對動作幀間信息的感知能力。

LSTM通常用來處理依賴時間的序列問題,但LSTM的記憶能力也是有限的,Bi-LSTM處理時間序列的能力更強。Bi-LSTM使用兩層不同方向的LSTM相連,用于捕獲三維骨骼坐標隨時間演變的深層時空特征。LSTM網絡主要包含:3個gate門(輸入門it、 遺忘門ft、 輸出門ot), 單元狀態ct, 隱藏狀態ht。 其中LSTM從時間序列中提取關聯信息的能力,主要得益于單元狀態ct, 隱藏狀態ht的巧妙設計,這使得LSTM能選擇丟棄或保留具有時序意義的特征。具體運算如下式

ft=σg(Wfxt+Ufht-1+bf)it=σg(Wixt+Uiht-1+bi)ot=σg(Woxt+Uoht-1+bo)ct=ft°ct-1+it°σc(Wcxt+Ucht-1+bc)ht=ot°σh(ct)

2 本文的模型

2.1 總體框架

在這一節中,主要介紹本文提出的2S-LSGCN雙流網絡結構的細節。2S-LSGCN是由長短記憶網絡(LSTM)與圖卷積神經網絡(GCN)相結合,其中圖卷積神經網絡(GCN)用于提取骨架圖中節點的空間關系特征,并使用時間記憶能力更強的雙向長短記憶網絡(Bi-LSTM),用于提取骨架圖中動作序列的時間特征信息。

具體的,模型的思路是利用2D姿態估計算法,從動作視頻流中計算出人體關節點,在每一幀空間上的2維坐標 (x,y,c), 其中x,y分別表示二維坐標,c表示置信度。并將時間與空間上的關節特征組成的骨架關節圖,分別輸入GCN網絡和LSTM網絡中。由于原始骨架關節的時間序列長度過長,且每個視頻樣本的時長不一,LSTM網絡無法有效提取時間序列前后的特征關系。通過加入時間特征下采樣層(subsampled layers),對骨架關節圖中時間維度進行降維處理。最后分別將雙流網絡的預測輸出進行晚融合(late fusion),提高單個網絡泛化能力不足的問題。本文的模型如圖2所示。

圖2 2S-LSGCN網絡結構

2.2 構建骨架關節圖

本文采用圖結構數據—骨架關節圖,分別作為LSTM和GCN兩個網絡的輸入。以下介紹骨架關節圖的構建方法。首先,本文采用2D姿態估計算法,OpenPose獲取視頻中各幀關節點的坐標信息,并將每一幀關節點不同位置的坐標,組合成骨架關節時空圖。

具體的,需要將所有視頻的分辨率調整為較小的(340×256),幀率轉換為30 FPS。這樣做的目的是,提高姿態估計的準確率,并減小模型的推理時間。其次,使用OpenPose工具箱來估計每一幀中18個關節的位置。該工具箱在像素坐標系中提供了2D坐標 (x,y), 并給出了18個人體關節的置信度得分c。 因此,我們用 (x,y,c) 元組表示每個關節的二維坐標信息。

2D姿態估計算法僅僅只是獲得關節點的坐標信息,但關節點間的空間和時間維度并沒有建立聯系,并不能直接輸入圖卷積神經網絡,所以首先要根據關節坐標建立完整的骨架關節圖。在視頻的一幀中,原始的骨架數據始終以向量序列的形式表示,每個向量代表相應人體關節點的2D或3D坐標。對于不同的樣本,一個完整的動作包含多個長度不同的幀。本文建立的圖結構遵循ST-GCN[16]的工作,采用時空圖來模擬這些關節沿空間和時間維度的結構化信息。圖3顯示了所構建的時空骨架關節圖,其中關節表示為頂點,而它們在人體中的自然連接表示為邊。對于時間維度,相鄰兩幀之間的相應關節與時間邊緣連接,每個關節的坐標矢量設置為相應頂點的屬性。

圖3 時空骨架關節

2.3 空間GCN網絡

相比于動作RGB視頻流動作,骨架關節圖的特征維度更小。所以基于圖結構作為輸入的網絡,不僅在運行速度成倍提升,而且計算量也遠遠小于傳統CNN網絡。但同樣帶來一個難題,就是如何在空間拓撲結構簡單和時間序列信息缺乏的情況下,依然能保持很高的識別準確率。也就是如何從少量的低維特征中,提取出抽象的高維特征,進而準確預測出動作的類別。從這個問題出發,本文使用多層堆疊的深層神經網絡,具體是將多個輸入輸出維度不同的圖卷積層進行堆疊,進而提取出豐富的高維特征。其次,人的關節點數目一般小于30個,所以采用3*3尺度小的卷積核,大大縮小感受野,并能更集中地提取到空間依賴性強的關節信息。最后,實驗結果表明小于9層的圖卷積網絡,預測結果會大大降低,而大于9層后,網絡的準確率不僅沒有提高,計算量反而成倍增加,所以本模型將圖卷積層的數量確定在9層。

骨架時空圖中各頂點并沒有固定數量的鄰居節點,所以在圖結構數據中做卷積操作,需要定義映射函數li, 使得各個頂點對應唯一的權重向量。根據ST-GCN中的結果顯示,依據離重心點的距離定義分割策略,得到的映射函數最優。具體運算如下式

該策略將圖卷積核尺寸設為3,并將感受野Bi分為3個子集:①S1根節點本身;②S2向心子集,即該鄰居節點離重心更近;③S3離心子集,即該鄰居節點離重心更遠。

隨著網絡深度的加深,多次卷積連乘后梯度越來越小,出現了梯度消散的問題。且輸入維度與輸出維度相差太大,提取特征過于抽象,與原始特征信息相差甚遠,導致動作預測的準確率降低。所以本文引入了殘差機制(skip connect),將卷積層的輸入特征與該層的輸出進行融合,計算模式如下式所示

xl+1=xl+F(xl,Wl)

其中,xl,xl+1分別表示為圖卷積層的輸入特征與輸出特征,F表示為該層中一系列的非線性變換,Wl為權重參數的集合。若特征經過卷積層后,輸出的特征維度發生變化,則需要在殘差公式中加入上采樣或下采樣處理,視具體情況而定。修改后的公式如下

xl+1=h(xl)+F(xl,Wl)

為避免在該層產生過擬合,并降低網絡的參數量。將圖卷積網絡的輸出特征進行全局池化,最后損失函數是ReLu函數,對輸入進行非線性處理,輸出預測結果。

2.4 時間LSTM網絡

長短記憶網絡是一種時序神經網絡(RNN),能夠記住很長一段時間序列的前后特征關系。由于圖卷積神經網絡僅適用簡單的時間卷積核,對骨架關節圖的時間維度進行處理。因此只提取到部分關節點前后變化的特征,卻丟失視頻流豐富的時間信息。所以本文模型選擇使用雙向長短記憶網絡(Bi-LSTM)作為補充,Bi-LSTM能夠同時學習順序和逆序的時間信息,以此增強模型對時序信息的提取能力。

不同于端到端的CNN-LSTM網絡,將CNN提取的高維特征輸入LSTM中。在本文模型中,雙層Bi-LSTM網絡使用原始未經處理的骨架關節時空圖作為輸入,因此保留了更加豐富的原始時序特征。具體的,BL-1、BL-2表示第一層和第二層Bi-LSTM層。即將BL-1與BL-2層堆疊在一起,BL-1的輸出作為BL-2的輸入。具體通過如下公式表示

fout(x)=fBL-2(fBL-1(x,W1),W2)

其中,fout為第二層Bi-LSTM的輸出, fBL-1(*) 為第一層Bi-LSTM的特征提取函數, fBL-2(*) 為第二層Bi-LSTM的特征提取函數,W1、W2分別表示BL-1與BL-2層的權重參數。

由于輸入的原始骨架關節時空圖中,時間的特征序列長度太長,且每個視頻樣本的時長不一。以10 s的跑步視頻V1為例,經過30 FPS/S提取出一個代表視頻的輸入樣本 {x1,x2,x3,…,xt-1,xt}, 其中t=300, 即輸入的時間特征維度T=300。 若將該樣本數據直接輸入Bi-LSTM網絡中,則網絡中的輸入維度也必須與樣本特征維度相等。但循環神經網絡的記憶能力是有限的,Bi-LSTM無法從T=300這么長的時間特征中學習到前后的相關性,并且將會大大增加網絡的權重數量,損耗大量的計算資源。

基于上述問題,本文在骨架關節圖直接輸入Bi-LSTM網絡之前,引入下采樣層(subsampled layer),通過對樣本的時間維度進行下采樣,得到時間維度更短、特征更抽象的時間序列。通過調查研究發現,均值池化(mean-pooling)與1*1卷積(1*1 convolution)兩種常見且有效的下采樣策略。均值池化對圖像特征進行降維的效果優異,但由于圖結構數據與歐氏空間數據最大的區別在于,圖中各頂點間存在空間拓撲關系,而均值池化會丟失這種重要的拓撲連接。所以本文采用1*1卷積操作,對骨架關節圖的時間維度進行下采樣降維。具體用T、T′分別表示下采樣層的輸入和輸出時間維度,其中T=300經過下采樣后得到T′=75。 實驗結果表明,當T′=75, Bi-LSTM能學到更好的時間特征依賴,具體見實驗部分。

2.5 雙流2S-LSGCN網絡

將2.4節的GCN與2.5節改進的Bi-LSTM網絡進行融合,形成2S-LSGCN雙流網絡,不僅大大提高了識別的精度,而且是并行同步運行的強大特征提取網絡。其中GCN用于提取輸入的骨架關節點間的空間信息,改進的Bi-LSTM提取依賴于時間的時間特征,以此補充GCN在時間敏感性上的不足。將兩個網絡的預測結果進行晚融合(late fusion),得到雙流網絡最終的預測輸出值。

具體的,通過相加并行(add connection)策略,結合GCN與Bi-LSTM兩個網絡的檢測結果改進最終的檢測性能。具體公式如下

y2S-LSGCN=yGCN+α*yBi-LSTM

其中,y2S-LSGCN表示雙流網絡最終的分類(classification)預測結果,yGCN,yBi-LSTM分別表示GCN和Bi-LSTM網絡的檢測結果。α是通過實驗結果反饋,可調整的超參數。

3 實驗及其結果分析

3.1 實驗數據集

本文的實驗是在富有挑戰性的NTU-RGBD數據集上進行的,該數據集是目前在人體動作識別領域,最大的具有3D關節標簽的數據集。該數據集包含60個日常動作類別,共56 000個動作視頻片段,部分動作樣例如圖4所示。這些視頻動作樣本是由3個固定位置的Kinect深度傳感器,在實驗環境下采集40個志愿者演示的結果。其中,每一幀骨架序列包含人體的25個關節點的3D坐標信息 (x,y,z)。 除此之外,該數據集可按訓練與測試集樣本類型的不同,分為兩個具有挑戰性的任務——跨人物(cross-subject,X-Sub)與跨視角(cross-view,X-View)。①X-Sub:訓練集共40 320個樣本,測試集包含16 560個樣本。其中訓練集均來自同一個志愿者的動作,該任務要求模型在包含不同人的測試集上進行性能評估。②X-View:訓練集共37 920個樣本,測試集18 960個樣本。其中訓練集的動作片段,采集自攝像機2號與攝像機3號。測試集的樣本全部均有攝像機1號采集獲取。

圖4 NTU-RGBD數據集的部分樣例

3.2 實驗細節

本實驗將雙流網絡中的GCN與LSTM,分開在兩臺服務器上并行運行,之后將GCN和Bi-LSTM在NTU-RGBD數據集上返回的預測結果,通過晚融合得到雙流網絡的最終輸出。空間流(GCN)與時間流(LSTM)網絡均采用原始的骨架關節圖 (N,C,T,V,M) 作為輸入,參數分別對應(批大小、關節點維度、時序長度、關節點數量、單幀中人的個數)。Bi-LSTM網絡使用的優化器為Adam優化器,批大小設置為40。Bi-LSTM中的下采樣層,即1*1卷積層的輸入維度T=300, 輸出維度T′=75。 除此之外,GCN與LSTM網絡均采用小批量隨機梯度下降來學習網絡權重,權重衰減設置為10-4,且初始學習率與dropout的大小分別為0.1,0.5。兩個網絡的激活函數為ReLu,最后用Softmax函數實現最后的輸出。

本文模型使用基于python的深度學習框架PyTorch實現,并在Ubuntu16.04系統,NVIDIA-P100 32 G顯存的GPU上進行實驗。

3.3 實驗結果和分析

在2.4節中介紹了1*1卷積下采樣層,為了驗證下采樣層對Bi-LSTM網絡性能提升的有效性。本文在NTU-RGBD數據集的跨人物(cross-subject,X-Sub)任務中,雙層Bi-LSTM網絡上進行實驗,具體實驗結果見表1。從表中可以看出,當不使用下采樣層,即直接使用時間維度T=300的原始骨架圖作為輸入,網絡在驗證集上的Top1精度僅為54.38%,遠遠低于時間降維后的結果。其次,在實驗中不斷調整下采樣層的輸出維度時,發現時間維度越高T=125, 雖然保留的特征信息越豐富,但不利于Bi-LSTM 網絡學習時間特征前后關系。但時間維度降維到更抽象的T=50時,卻會嚴重丟失時序信息。而當降維使用得恰當,即T=75能使Bi-LSTM網絡的預測Top1精度達到最高66.90%。所以本文以下實驗中,統一采用該下采樣層參數。

表1 不同下采樣維度的影響

為分析不同LSTM網絡對雙流網絡預測結果的影響,做了以下對比實驗。從表2可以看出,當沒有LSTM網絡時,GCN單流網絡的精度要低于其中任何一個雙流網絡。并且,在僅使用簡單的單層LSTM網絡作為補充,就能提高預測精度。Bi-LSTM相比于LSTM有明顯的改善,在同等條件下精度提升了0.6%。而當使用雙層Bi-LSTM時,Top1的精度提升了將近2%,Top5分類的正確率也提高了1%~2%,這主要得益于Bi-LSTM能夠學習到時間的逆序信息。

表2 LSTM網絡對2S-LSGCN的影響

為了驗證本文算法的識別效果,將本文模型與國內外相關模型進行對比。Liu等將RNN同時延伸到時間與空間維度,來同時從兩個維度分析數據中的動作信息,在NTU-RGBD數據集X-Sub與X-View上,分別達到50.1%、52.8%的精度。Yan等提出時空圖卷積神經網絡,在單幀上使用空間卷積,并用時間卷積提取幀間關節點時序特征,該網絡達到81.5%、88.3%。Tang等提出了一種用于基于骨架的視頻中的動作識別的深度漸進強化學習(DPRL)方法,其旨在提取最具信息性的幀并丟棄序列中的模糊幀以識別動作,分類的精度達到83.81%和89.8%。具體實驗比較結果見表3。

表3 NTU-RGBD數據集上的精度對比/%

4 結束語

本文提出一種基于GCN和LSTM結合的雙流網絡方法,用于解決視頻流中動作識別的難題。不同于傳統的利用RGB圖像作為輸入的網絡,2S-LSGCN使用人體關節點坐標組成的骨架關節圖作為輸入,GCN作為空間特征提取器,Bi-LSTM用于提取時間維度的逆序信息。并在時序流網絡中,加入1*1卷積下采樣層,提取豐富且抽象的時序特征,最后分別將雙流網絡的預測輸出進行晚融合,得到雙流網絡最終的預測輸出值。本文2S-LSGCN模型在富有挑戰性的NTU-RGBD數據集上分別達到83.8%、90.2%的精度,結果表明本文所述識別算法具有較高的識別能力,該識別方法可行。

猜你喜歡
動作特征
抓住特征巧觀察
下一個動作
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 日韩av无码DVD| 国产欧美中文字幕| 97在线国产视频| 日韩欧美国产三级| 无码久看视频| 老色鬼欧美精品| 欧美日韩福利| 亚洲综合婷婷激情| 麻豆AV网站免费进入| 国产精品刺激对白在线 | 一区二区三区高清视频国产女人| 亚洲国产第一区二区香蕉| 国产精品不卡片视频免费观看| 高清不卡毛片| 国产成人精品午夜视频'| 蜜桃视频一区| 91在线国内在线播放老师| 亚洲成人免费在线| 久久6免费视频| 男人天堂伊人网| 欧美精品亚洲二区| 99热这里只有精品2| 尤物亚洲最大AV无码网站| 国产精品视频猛进猛出| 亚洲精选无码久久久| 综合色区亚洲熟妇在线| 88国产经典欧美一区二区三区| 91精品国产91久无码网站| 国产成人高清精品免费5388| 国产一级特黄aa级特黄裸毛片 | 亚洲va视频| 手机在线国产精品| 青青热久麻豆精品视频在线观看| 国产杨幂丝袜av在线播放| 91亚洲国产视频| 亚洲综合九九| 久久中文电影| a在线观看免费| 国产中文一区二区苍井空| 99久久99这里只有免费的精品| av一区二区三区高清久久| 欧美三级日韩三级| 久久青草热| 亚洲综合激情另类专区| 色噜噜狠狠狠综合曰曰曰| 国产精品第三页在线看| 中文字幕亚洲乱码熟女1区2区| 国产激爽大片高清在线观看| 亚洲第一极品精品无码| 日韩高清无码免费| 国产大片黄在线观看| 国产亚洲欧美在线人成aaaa| 国内精品久久九九国产精品| 伊人国产无码高清视频| 亚洲Av激情网五月天| 国产精品自在线天天看片| 欧美日韩在线成人| 国产欧美精品一区二区| 在线视频精品一区| 在线高清亚洲精品二区| 青青草国产精品久久久久| 国产一级视频久久| 91久久偷偷做嫩草影院精品| 国产在线观看精品| 最新痴汉在线无码AV| 色亚洲成人| 国产亚洲现在一区二区中文| 亚洲精品色AV无码看| 国产精品hd在线播放| 日本一区高清| 日本福利视频网站| 欧美三级不卡在线观看视频| 久久黄色免费电影| 午夜小视频在线| 亚洲制服丝袜第一页| 色成人综合| 午夜久久影院| 日韩精品少妇无码受不了| 91系列在线观看| www.精品国产| 亚洲色图狠狠干| 秋霞国产在线|