999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模態特征學習的人體行為識別方法①

2021-04-23 13:00:22周雪雪雷景生卓佳寧
計算機系統應用 2021年4期
關鍵詞:模態動作特征

周雪雪,雷景生,卓佳寧

(上海電力大學 計算機科學與技術學院,上海 200090)

近年來,隨著計算機視覺技術的不斷發展,人體行為識別逐漸成為一個重要的研究領域,在視頻監控、醫療看護、游戲應用與人機交互等方面有著廣泛的應用[1].目前,人類行為主要可以基于RGB 視頻[2,3],深度圖[4,5]和3D 骨架[6,7]等3 種模態的特征進行識別.

盡管基于每種特征的識別技術發展迅速并取得了很多成果,當前仍然存在以下幾個問題:(1)現有的人體識別算法大多是基于單一模態特征進行識別的.(2)基于RGB 視頻的行為識別容易受到遮擋、環境變化或陰影的干擾;深度圖中顏色和紋理的缺失容易導致相關模型識別率較低;3D 骨架由于角度、姿勢以及關節點數有限等原因,容易導致動作被錯檢或漏檢.(3)視頻中存在大量與行為識別無關的畫面,這些信息會降低算法的準確度.針對以上情況,本文融合RGB視頻和3D 骨架兩種行為信息的特征,充分利用兩者的優勢,同時引用注意力機制來研究行為識別.

對于RGB 視頻行為特征,前人提出了一些經典的識別模型.Tran 等[8]采用3D 卷積和3D 池化構建了三維卷積神經網絡(3D CNN),它可以同時提取視頻行為的外觀和運動特征,而且結構簡單,運行速度較大多行為識別算法更快,并在UCF101 等公開數據集上取得了不錯的效果.然而,3D CNN 也存在一定的技術缺陷:(1)網絡的訓練及測試均要求輸入尺寸和比例固定的視頻幀.當輸入任意大小的視頻時,3D CNN 會對其進行裁剪或縮放以產生固定大小的輸入樣本,而這種操作會導致信息丟失或扭曲,從而影響特征的提取,如圖1所示.(2)網絡每次只能接收7 幀輸入.3D CNN 將連續的視頻分割成多個長度為7 幀的片段,降低了動作識別的連續性,具有一定的局限.

圖1 將視頻幀裁剪或縮放后導致關鍵信息丟失

如今,He 等[9]提出的空間金字塔池化網絡(SPPnet)已經成功解決了深度神經網絡中輸入數據維度固定的問題,并在目標分類、目標檢測等領域取得了良好的效果.本文將空間金字塔池化擴展為時空金字塔池化(STPP),并將其應用在3D CNN中,使得任意尺寸的視頻都可以直接輸入網絡,并產生固定大小的輸出.此外,LSTM 因其對長短時特征的記憶功能而被廣泛應用于視頻識別中,由于3D CNN 不能充分提取長時序的時間特征,本文采用添加時空注意力機制[10]的LSTM 來進一步獲取長時序視頻幀的時間信息,并自適應地分配不同注意力的權重,感知關鍵幀信息,最終得到更為完整的動態行為.

基于骨架的行為識別方面,本文采用Yan 等[11]提出的時空圖卷積網絡提取骨骼特征.在骨骼序列上構建時空圖,通過對其應用多層時空圖卷積操作,逐漸在圖像上生成高級的骨骼特征.最后,本文將第1 層通道C3DP-LA 提取到的RGB 視頻特征和第2 層通道ST-GCN 提取到的骨骼特征進行早期融合,充分學習不同類型特征的優點,并用標準的Softmax 分類器完成動作識別.

本文的貢獻:(1)考慮到單一模態的特征各有不足,本文提出一種雙流行為識別框架,先分別提取兩種不同類型的特征,再將其融合,利用兩者的互補性綜合表征人體行為.(2)為了能夠處理任意大小和長度的RGB視頻,本文在3D CNN中接入時空金字塔池化,然后連接LSTM 學習時間特征.(3)為了增強關鍵特征,提高算法精度,本文在LSTM 模塊加入時空注意力機制.(4)本文的方法在NTU RGB+D 數據集上優于現有的一些算法,在基于單一特征和融合特征兩類識別方法中表現出良好的識別效果.

1 相關工作

人體行為識別是計算機視覺領域中的一個熱門研究課題.目前,針對動作識別的研究大多是基于單一模態開展的,例如,Simonyan 等[12]提出的首個雙流卷積網絡框架,采用兩個分支CNN 分別對RGB 視頻的靜態幀圖像和動態光流進行特征提取,以獲得空間和時間信息,最后用SVM 將兩種信息進行融合分類,完成動作的識別.Chen 等[13]提出基于深度圖的行為識別算法DMMs,利用深度圖投影之間的絕對差形成一個DMM,然后應用帶有距離加權的正則協同分類器識別動作.Lee 等[14]提出基于骨架進行動作識別的時間滑動LSTM (TS-LSTM)網絡,依靠多個LSTM的集合捕獲人體行為的短期、中期和長期運動特性,有效地學習時間和空間特征,增加對動態時間變化的魯棒性.這些方法可以正確識別一些動作,但單一模態的特征難以準確、全面地表達復雜的人體動作.為了解決這一問題,一些研究者嘗試將不同模態的特征融合起來,利用其互補性達到更好的識別效果.

Chaaraoui 等[15]提出一種二維形狀的人體姿態估計與骨骼特征相結合的方法,通過將有效的2D 輪廓和3D 骨骼特征融合獲取具有較高鑒別價值的視覺特征,同時利用輪廓提供的額外判別數據,提高人體行為識別誤差的魯棒性.Sanchez-Riera 等[16]針對手勢識別和通用對象識別,將RGB 特征與深度特征融合起來,并評估早期和晚期融合兩種方案,結果表明,兩種特征的早期融合相比于晚期融合和單一特征具有更有效的行為表達能力.Li 等[17]提出了多特征稀疏融合模型,分別從骨架和深度數據中提取人體部位的多個特征,并利用稀疏正則化技術自動識別關鍵部分的特征結構,由此學習到的加權特征對于多任務分類更具鑒別性.Chen 等[18]基于深度相機和慣性體傳感器,分別提取人體行為的深度圖像特征和RGB 視頻特征,并評估特征級融合和決策級融合兩種識別框架.

上述多特征融合模型由于從所選模態中提取的時間或空間特征不夠顯著,識別準確度仍然有所欠缺.考慮到深度圖像色彩、紋理等重要信息的缺失可能導致模型混淆分類,本文從RGB 視頻和3D 骨骼兩種模態中提取特征,將其融合,利用兩種特征的優勢進行動作分類.

2 算法框架

本文基于多模態特征融合的行為識別算法框架如圖2所示.模型在行為特征的提取階段主要包含兩層:C3DP-LA 網絡和ST-GCN 網絡,其中C3DP-LA 網絡由改進3D CNN和包含時空注意力機制的LSTM 模型組成.輸入一段視頻,我們可以得到行為樣本的RGB視頻序列和3D 骨骼序列.在C3DP-LA 網絡中,添加時空金字塔池化的3D CNN 可以自動處理任意尺寸大小的RGB 視頻幀序列,快速卷積得到初步的時空特征,緊接著的LSTM 模塊憑借其記憶功能將當前甚至更早時刻的信息傳遞給下一刻使用,進一步提取時間特征,同時采用時空注意力機制增強關鍵信息,得到最終的RGB 視頻特征.ST-GCN 網絡通過在骨骼序列上構建時空圖并對其應用多層時空圖卷積操作,生成更高級的骨骼特征.最后,將提取到的兩種模態特征融合,采用標準的Softmax 對融合特征向量做出動作分類預測.下面詳細介紹了算法中的每個模塊.

圖2 基于多模態特征學習的人體行為識別模型

2.1 改進3D CNN 結構

3D 卷積網絡與2D 卷積網絡相比,可以同時捕捉目標的外觀和運動信息,具有更好的行為識別性能,且其結構比目前許多行為識別模型都簡單,具有較快的運行速度.該模型將多個連續幀堆疊形成立方體,每幀中生成多個通道信息,采用不同的核對連續幀的每一個通道做3D 卷積,這樣得到的特征圖連接到了多個鄰近幀,從而在提取空間信息的同時獲得時間信息.最終將所有通道上的信息結合計算得到多種類型的特征.

3D CNN 結構包括1個硬線層、3個卷積層和2個下采樣層,網絡以尺寸為60×40的連續7 幀圖像作為輸入.硬線層從每幀圖像中提取灰度、橫坐標梯度x、縱坐標梯度y、光流x、光流y這5個通道信息,生成33個特征圖;C2 卷積層采用兩種不同的3D 核對上一層輸出的5個通道信息分別進行卷積操作,C4 卷積層則采用3 種不同的卷積核分別對特征圖進行卷積操作,從而得到更多的、兼具空間和時間兩種維度的特征圖;降采樣層S3和S5 分別采用大小為2×2和3×3的滑動窗口對上一層得到的每個特征圖進行下采樣,保持特征圖數量不變的同時減少空間上的分辨率;最后一個卷積層C6 對每個特征圖采用7×4的2D 核進行卷積操作,得到128個特征圖,即輸入幀中動作信息的128D 特征向量,并送入全連接層做動作識別.

然而,3D CNN中全連接層的長度大小是事先定義好的,這就要求網絡的訓練及測試都需要輸入尺寸和比例固定的視頻幀.當輸入任意大小的視頻時,3D CNN 會對幀圖像進行裁剪或縮放以產生固定大小的輸入樣本,而這樣操作很可能會導致重要信息丟失、扭曲,從而影響特征的提取.為了對任意尺寸的視頻幀做更全面的處理,本文用時空金字塔池化層替換掉3D CNN中最后一個池化層,來接收大小不同的輸入并將其轉化為固定長度的特征向量,同時提取更多不同時間角度的特征.

由于卷積層可以接收任意大小的輸入,并隨之產生不同大小的輸出.給定一段任意尺寸的RGB 視頻序列作為3D CNN的輸入,經過前期的3D 卷積和普通下采樣后,假設最后一個卷積層的特征映射尺寸為T×W×H,其中T為池化立方體的時間,H和W是幀的高度和寬度.不同于3D CNN中使用的常規滑動窗口池化,STPP在給定池化層產生的特征數量后,會動態地調節滑動窗口的大小.具體來說,我們將P(pt,ps)表示為時空池化級,其中pt是時間池化級,ps是空間池化級,因此,每個池化立方體的大小為當ps=4,2,1且pt=1 時,大小不同的卷積輸出就可轉化為維度固定的特征向量,輸入全連接層.其中,每個時空池化立方體均對響應值采用最大池化.這樣,配置了STPP的改進3D CNN 就可以適應任意尺寸或比例的視頻幀,并支持對幀尺度的任意縮放.

2.2 基于時空注意力機制的LSTM 模型

不同視頻的長度不一定相同,視頻中每個動作的時間長度也是不一樣的,因為任何動作的發生都是一個動態的過程,單純的一幀視頻圖像或者連續幾幀形成的片段常常不能在時間上表達出完整的動作.然而,3D CNN 只能接受長度固定(7 幀)的視頻輸入,這導致任意長度視頻的行為識別精度變低.為了更充分地提取動作的連續特征,本文在改進3D CNN 后連接LSTM模型進一步識別人體行為.

LSTM 對輸入或輸出的長度沒有固定限制,這有利于捕捉任意長度數據的動作特征;且作為循環神經網絡的變體,它不僅解決了RNN 梯度爆炸的問題,還對長期時間依賴關系具有很好的建模能力.LSTM 模塊連接在改進3D CNN的全連接層后,根據其特定的學習機制,可以通過內部的門控單元對輸入的數據選擇性遺忘、記憶或更新,獲得可變長度的連續動作序列特征之間的關系.此外,由于時空注意力機制(Spatial-Temporal Attention,ST-Att)可以同時捕捉行為特征的空間相關性和動態時間相關性,本文在LSTM 模型中加入ST-Att,以篩選出權重較大的值,增強關鍵特征,獲得更復雜的時空線索.其單元結構如圖3所示.

圖3 包含時空注意力機制的LSTM 模型

在基本的LSTM 單元中,it、ft、ot分別代表3個門:輸入門,遺忘門和輸出門.it根據傳入信息選擇性地更新細胞狀態;ft負責對細胞狀態中的信息選擇性記憶或遺忘;ot控制的輸出會對其他神經元產生一定的影響.ct、、htct、、ht則分別代表記憶細胞狀態、LSTM 原始單元的輸出和添加注意力后的輸出.xt代表行為視頻經過改進3D CNN 后得到的一系列特征,具體計算公式如下:

其中,σ (·)表示取值范圍為(0,1)的Sigmoid 非線性激活函數,t anh(·)表示取值范圍為(?1,1)的tangent 非線性激活函,⊙表示哈達瑪積,Wij表示對應的權重矩陣,bj代表偏差,表示隱藏狀態,gt表示記憶調制狀態,fatt(·)表示能夠自適應感知關鍵幀特征的注意力機制.為了在加強關鍵幀信息的情況下不丟失非聚焦信息,最 終以與的和作為輸出,保持時空特征的完整性.

2.3 時空圖卷積網絡

骨架序列能夠有效地代表人體行為的動態,目前,我們已經可以通過Kinect和先進的人體姿態估計算法獲得完整的3D 骨架序列.為了得到更加豐富的行為特征,進一步提高動作識別精度,本文采用ST-GCN 作為基于骨架識別動作的通道模型.ST-GCN是由圖卷積網絡擴展的時空圖模型,是用于行為識別的骨骼序列通用表示,它不僅擁有很強的表達能力和很高的性能,而且易于在不同環境中推廣.

首先,對于具有T幀和N個節點的骨架序列,構造表示該信息的時空圖G=(V,E),圖中的節點集V={vti|t=1,···,T;i=1,···,N}表示骨骼序列中所有關節點,每個節點都對應人體該處的關節,其中第t幀的第i個節點的特征向量F(vti)由該節點的坐標向量和估計置信度組成.這個圖結構包括兩種邊:一種是根據人體結構,將每幀中的節點自然連接起來的空間邊;另一種是將連續兩幀中相同關節點連接起來的時間邊.然后,以構造的骨架圖中關節點的坐標向量作為ST-GCN的輸入,對其應用多層時空圖卷積操作,圖卷積后各關節的輸出特征是由采樣函數定義的鄰域內關節特征的加權和,最終得到人體行為視頻的3D 骨架特征圖.

2.4 特征融合

對于行為識別,RGB 視頻模態具有豐富的顏色和紋理信息,3D 骨骼模態不容易受到光照、遮擋、衣著等不利因素的影響,本文考慮到特征融合的互補性優勢,提出基于上述兩種模態特征的人體行為識別方法.根據融合發生的時間,特征融合通常可分為:早期融合、晚期融合和雙向融合.早期融合是指在進行識別之前將多種不同的特征融合,其優勢在于特征融合模塊是獨立于后期其他模型的.因此,本文采用早期融合策略,將RGB 視頻和3D 骨骼這兩種類型的特征歸一化后拼接起來,生成新的混合特征向量,并應用Softmax分類器對得到的融合特征進行動作分類.融合后的特征可以使RGB 視頻與3D 骨骼模態相輔相成,優勢互補,從而傳達重要的行為信息.

3 實驗

3.1 數據集和評價標準

本文實驗所用到的數據集為UCF101[19]和NTU RGB+D[20].UCF101 包含13320個視頻,視頻主要來源于YouTube 等網站,空間分辨率為320×240.該數據集共101個行為類別,主要分為人和物體交互、只有肢體動作、人與人交互、玩音樂器材、各類運動五大類.本文選取9320個視頻用于訓練,剩下的4000個視頻用于測試.NTU RGB+D 包含56880個視頻樣本,視頻由3個Microsoft Kinect v2 相機同時記錄在不同水平視圖下40個人的行為.該數據集共有60個動作類別,每個樣本都包括RGB 視頻、深度圖序列、3D 骨架數據和紅外視頻4 種形式,RGB 視頻的分辨率為1920×1080,深度圖和紅外視頻均為512×424,3D 骨架數據包含每幀25個主要身體關節的三維位置.本文選用40880個視頻作為訓練集,剩下16000個視頻作為測試集.

算法的評價標準為行為識別的準確率,準確率取每個類別準確率的平均值.

3.2 訓練細節

本文實驗選擇Linux 操作系統和PyTorch 深度學習框架.首先,UCF101 數據集與NTU RGB+D 數據集相比明顯較小,為了提高模型的泛化能力,并且防止在UCF101 上訓練時出現過擬合現象,本文對該數據集的視頻做數據增廣處理,將樣本擴充為原來的5 倍.其次,為了減少視頻長度對訓練精度的影響,統一將每個視頻插值化處理為32 幀.由于本文在3D CNN中添加的STPP 可以接受任意尺寸的輸入,因此不需要對兩個數據集中視頻的分辨率大小進行調整.最后,在特征融合階段,通過實驗對比兩種特征各占的權重,選用1:1.2作為RGB 特征和骨骼特征的權重.

訓練時,參考隨機梯度下降算法中的參數,將批處理大小設為128,動量設為0.9.將初始學習率設置為0.001,經過15000 次迭代后縮小0.1,最大迭代次數為25000 次.

3.3 實驗結果與分析

本文的關鍵點主要在于:(1)在3D CNN中添加STPP;(2)在提取RGB 視頻特征的通道加入包含時空注意力機制的LSTM;(3)將RGB 特征與骨骼特征融合.下面分別評估前兩個模塊對識別性能的影響,并將最終識別模型與現有的流行方法做對比分析.本文選用UCF101 數據集,添加各模塊后的識別性能如表1.

3.3.1 RGB 通道的模塊分析(1)添加STPP的效果

帶有STPP的改進3D CNN 支持不同尺寸的視頻輸入而原始3D CNN 不能,因此,本文在UCF101 數據集上用多尺寸視頻訓練該模塊,用固定尺寸的視頻訓練3D CNN.由表1可知,多尺寸訓練的改進3D CNN比單尺寸訓練的原始3D CNN 效果要好,識別精度提升了2.4%,這是因為多尺寸訓練可以防止網絡陷入過擬合.

(2)添加基于時空注意力的LSTM的效果

由表1給出的在UCF101 數據集上LSTM和時空注意力機制對視頻行為的識別效果,改進3D CNN 連接LSTM 模型后的識別準確度有所提升;進一步添加了時空注意力機制后,性能優化更加明顯,準確度提高了4.5%,這是因為時空注意力機制可以有效地增強關鍵特征,篩選出更復雜的時空信息,從而提高模型的表達能力.

表1 添加模塊對識別性能的影響

3.3.2 方法對比

將C3DP-LA和ST-GCN 兩個特征提取網絡進行早期融合形成最終的識別模型,為了評估模型性能,本文將其與目前主流的深度學習算法進行比較.

(1)UCF101 數據集上的結果對比

表2給出了本文算法中RGB 特征提取模型與雙流卷積網絡(Two Stream),3D 卷積網絡(3D CNN),遞歸混合密度網絡(RMDN)[21],時空注意力模型(STACNN)[10]的行為識別效果,可以看出,本文RGB 通道模型的識別準確率優于其他算法,表現出更好的性能.

表2 不同行為識別算法在UCF101 數據集上的準確率(%)

(2)NTU RGB+D 數據集上的結果對比

表3給出了本文最終識別模型與一些算法在交叉主體(Cross-Subject,CS)和交叉視圖(Cross-View,CV)兩個評估協議上的識別效果.對比算法分為兩類:一類是基于單一模態(如RGB 或骨骼)進行識別的模型,包括姿態估計圖的演化模型(Pose Estimation Maps)[3],關節軌跡圖模型(JTM)[7],本文用到的時空圖卷積網絡(ST-GCN)和基于空間推理和時間堆棧學習的網絡(SR-TSL)[22];另一類是基于多種模態識別的模型,包括手勢識別網絡(STA-Hands)[23],基于姿態的注意力模型(Pose-based Attention)[24]和深度聚合網絡(DAN)[25].由表3可以看出,本文提出的方法在NTU RGB+D 數據集上取得了88.7%和92.8%的識別準確率,不僅優于單一模態的識別方法,與其他多種模態融合的方法相比也表現出更好的性能,證明了本文算法對人體行為識別的有效性.

表3 不同行為識別算法在NTU RGB+D數據集上的準確率(%)

4 結論與展望

針對單一行為模態的特征難以充分表達復雜的人體動作,導致行為識別準確度不高的問題,本文提出基于多模態特征學習的行為識別算法,分別學習視頻的RGB 特征和骨骼特征,然后將兩者融合,利用融合特征的互補性優勢,達到提高行為識別率的目的.通過在UCF101和NTU RGB+D 兩個公開的行為識別數據集上進行實驗,證明了本文方法與目前多種行為識別算法相比有著較高的識別準確率,能夠更有效地識別人體動作.今后的研究將考慮到更多現實環境的因素,提高算法實際應用時的在線識別精度和速度.

猜你喜歡
模態動作特征
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
國內多模態教學研究回顧與展望
非同一般的吃飯動作
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 久久精品一品道久久精品| 日韩在线欧美在线| 亚洲AV无码精品无码久久蜜桃| 国产精品专区第一页在线观看| 黄色网址免费在线| 亚洲日韩精品综合在线一区二区 | 2020亚洲精品无码| 国产幂在线无码精品| 真人高潮娇喘嗯啊在线观看 | 人妻21p大胆| 幺女国产一级毛片| 尤物精品视频一区二区三区| 国产办公室秘书无码精品| 久久精品人人做人人综合试看| 99精品久久精品| 亚洲第七页| 亚洲国产精品国自产拍A| 99精品免费欧美成人小视频 | 欧美区一区二区三| 日韩在线永久免费播放| 日韩精品久久久久久久电影蜜臀| 九九九久久国产精品| 国产丝袜无码精品| 亚洲人成影视在线观看| 亚洲国产精品不卡在线 | 国产天天射| 大乳丰满人妻中文字幕日本| 午夜无码一区二区三区| 国产视频大全| 高清久久精品亚洲日韩Av| 在线观看免费人成视频色快速| 欧美激情二区三区| 精品剧情v国产在线观看| 国产99在线| 青青国产视频| 久久情精品国产品免费| 40岁成熟女人牲交片免费| 欧美啪啪一区| 国产黄色免费看| 久久婷婷综合色一区二区| 天天操天天噜| 久久久亚洲色| 欧美成人综合视频| 国产激情无码一区二区APP| 亚洲欧州色色免费AV| 亚洲侵犯无码网址在线观看| 国内精品一区二区在线观看| 日韩免费毛片| 97se亚洲综合不卡| 精品综合久久久久久97| 日本高清免费不卡视频| 91九色最新地址| 日韩精品少妇无码受不了| 国产xx在线观看| 色国产视频| 中日无码在线观看| 九九热精品在线视频| 成人一区专区在线观看| 国产综合精品日本亚洲777| 91亚洲精选| 亚洲精品制服丝袜二区| 国产精品美女网站| 三区在线视频| 91热爆在线| 亚洲欧美国产高清va在线播放| 97av视频在线观看| a级高清毛片| 欧美日韩国产成人在线观看| 成人午夜视频网站| 久久亚洲中文字幕精品一区| 亚洲无码视频一区二区三区| 成人国产精品视频频| 久久夜色精品国产嚕嚕亚洲av| a级毛片免费在线观看| 丁香五月婷婷激情基地| 欧美日韩亚洲国产| 这里只有精品在线| 亚洲无码视频喷水| 91福利免费| 亚洲三级电影在线播放| 嫩草国产在线| 国产精品男人的天堂|