










摘要:基于多模態數據的動作識別主要利用視覺、觸覺等多感官通道數據進行人體姿態識別。由于不同模態數據的存儲結構、采樣頻率差異性較大,多模態動作數據在特征提取過程中,容易出現語義偏移問題,影響了模型的識別效果。為解決上述問題,文章提出了基于多模態對比學習的動作識別模型(Multimodal Contrastive Fusion-based Action Recognition,MCFAR)。該模型將同一動作的不同模態特征作為正樣本對,利用對比學習縮小正樣本對的空間距離,解決特征提取過程中的語義偏移問題,實現各模態特征的語義對齊。在多種數據集上的實驗結果證明了所提方法的有效性。
關鍵詞:動作識別;多模態;對比學習;特征交互融合
中圖分類號:TP183
文獻標志碼:A
0 引言
人體動作能夠清楚表達人自身行為意圖,不僅蘊含了豐富的語義信息,更是在人機交互領域發揮著重要的作用。基于多模態數據的動作識別通過視覺相機[1]、聲波傳感器[2]、可穿戴傳感器[3]等多通道感官設備采集動作數據并對其進行計算、分析及識別,從而使計算機理解人類行為意圖。因此,多模態動作識別已經成為人機交互研究的熱點,被廣泛地應用于智能家居[4]、工業控制[5]以及健康醫療[6]等領域。
根據采集動作數據的設備類型,可將動作識別方法分為基于視覺、基于聽覺和基于觸覺的動作識別方法。借助于視頻數據的光流信息以及視覺特征,基于視覺的動作識別方法能夠提取豐富的動作語義信息;基于聽覺的動作識別方法通過聲波反射信號的相位變化,來檢測人體的運動距離,實現對人體動作的識別檢測;基于觸覺的動作識別方法使用可穿戴傳感器采集人體姿態及運動信息。然而,單一模態的動作數據無法全方位描述人體姿態及運動信息,不同模態數據之間的異構性導致了語義鴻溝,從而忽略了多模態數據之間的互補信息,進而影響了動作識別的效果。
常用于動作識別的深度學習方法有卷積神經網絡[7]、循環神經網絡[8]以及圖神經網絡[9]。然而,常見的動作識別模型容易受多模態數據存儲結構、采樣頻率差異性影響,在特征提取過程中出現語義偏移的問題,從而影響模型的泛化性與魯棒性。因此,在進行特征提取時,常見的動作識別模型無法實現特征向量的語義對齊,從而產生了語義偏移現象。
針對以上問題,本文提出了基于多模態對比融合的動作識別模型MCFAR。首先,MCFAR從自監督學習的角度創建了多模態對比學習模型,通過縮小同一動作不同模態特征的空間距離,實現各模態特征的語義對齊;然后,MCFAR遵循特征融合的思路,利用跨模態注意力機制提取模態間的交互信息,提高模型識別精度。在多種數據集上的實驗結果證明了本文所提方法的可用性及有效性。
1 研究方法
本文提出的基于多模態對比融合的動作識別模型MCFAR主要包含以下3個部分:多模態對比學習、多模態特征交互及多模態特征融合,其研究框架如圖1所示。
1.1 多模態對比學習
多模態動作數據容易受到自身噪聲、融合機制及訓練策略等復雜場景的影響,導致其在訓練過程中出現語義偏移的問題,從而影響動作識別的精度。因此,本文采用對比學習的方式,通過代理任務,聚合同一動作不同模態的動作特征,擴大不同動作的各模態數據距離,如公式(1)所示。
s(f(d),f(d+))lt;lt;s(f(d),f(d-))(1)
其中,s(·)表示樣本距離,f(·)表示特征提取模型,d表示動作數據,d+表示正樣本數據,d-表示負樣本數據。
經過特征提取器分別得到動作特征向量fv和ft(fv表示視覺特征,ft表示觸覺特征),那么各模態之間的距離計算公式如公式(2)所示。
其中i,j∈{v,t}。因此,在特征進行多模態對比學習過程中,同一動作不同模態數據互為正樣本,不同動作各模態數據互為負樣本,實現多模態動作數據的特征對齊。此外,MCFAR通過多模態匹配任務充分挖掘多模態語義一致性信息,其損失函數如公式(3)所示。
其中, yl^表示預測匹配結果,yi表示真實匹配標簽,n表示樣本數。
1.2 多模態特征交互融合
使用多模態對比學習在實現多模態動作特征對齊時,往往忽略了各模態數據的交互信息。因此,MCFAR使用多模態特征交互模塊提取動作特征的交互信息,利用多模態數據的互補性提升特征向量的表征能力。特征交互模塊采用跨模態交叉注意力機制實現同一動作不同模態特征之間的深度交互,如圖2所示。
1.3 模型訓練
經過多模態交互融合模型得到的特征向量forth=(f1orth,f2orth,…,fnorth)作為softmax層的輸入,計算每個動作(動作種類數為n)的條件概率。最后使用max()函數得到動作分類結果,即選擇softmax層中條件概率最大的類別為動作種類。
使用交叉熵損失函數Lce作為訓練目標,優化動作識別模型,如公式(4)所示。
其中,m表示動作種類數,n表示每批次訓練樣本數。基于交叉熵損失函數,結合用于特征對齊的對比學習損失函數和模態匹配損失函數,MCFAR的訓練目標如公式(5)所示。
L=λceLce+λmmLmm+λmmcLmmc(5)
其中,λce、λmm和λmmc分別為Lce、Lmm和Lmmc的權重參數。
2 實驗結果與分析
2.1 實驗數據
CZU-MHAD數據集由5名男性志愿者通過微軟Kinect攝像機和可穿戴傳感器采集而成,包含2個同步數據模態:深度圖、可穿戴傳感數據。在數據采集過程中,每名志愿者按照動作協議執行22個動作,每個動作執行8次。UTD-MHAD數據集由4名男性及4名女性通過微軟Kinect攝像機和可穿戴傳感器采集而成,包含了2個同步數據模態:深度圖、可穿戴傳感數據。在數據采集采集過程中,每名志愿者按照動作協議執行27個動作,每個動作執行4次。數據集的具體描述如表1所示。
2.2 數據預處理與超參數設置
多模態數據的采樣頻率、存儲結構存在很大的差異性,因此,在進行實驗之前要對數據進行預處理。在CZU-MHAD數據集中,將變長的樣本數據轉化成大小為100×424×512的視覺模態數據和大小為2000×10×6的觸覺模態數據;在UTD-MHAD數據集中,將變長的樣本數據轉化成大小為125×240×320的視覺模態數據和大小為326×6的觸覺模態數據。
在特征提取過程中,本文利用卷積神經網絡獲取多模態數據的視覺特征和觸覺特征,通過1×1卷積層將特征映射為1×128征向量;模型訓練過程中超參數設置如下:學習率learning_rate=0.005,訓練次數epoch=100,批訓練大小batch_size=32,梯度下降算法Adam。
本文選取MCAE、HTMCCA、HR-MSCNN、C2LSTM、DCNN-BiLSTM、SimCLR、CMC作為對比算法,驗證所提方法的有效性,使用準確率和混淆矩陣來評價動作識別性能。
2.3 結果分析
實驗結果表明,MCFAR在UTD-MHAD和CZU-MHAD數據集的表現效果均優于最新方法,如表2所示。基于視覺模態的識別效果優于基于觸覺模態的識別方法,可能由于基于視覺模態的動作數據包含的語義信息多于基于觸覺模態的動作數據。同時,有監督學習方法的識別效果往往高于無監督學習方法,可能原因在于無監督學習的主要任務是學習具有良好表征能力的特征表達,而有監督學習則是以標簽數據為目標,學習適應訓練數據集的模型,因此,MCAE、HTMCCA、HR-MSCNN、C2LSTM、DCNN-BiLSTM整體識別效果優于SimCLR、CMC。然而,無監督學習方法的魯棒性和普適性優于有監督學習方法。
MCAE通過注意力機制捕捉動作數據的時間依賴關系;HTMCCA利用梯度直方圖和時空圖卷積神經網絡提取動作數據的時空特征;HR-MSCNN構建多流卷積神經網絡來識別人體動作;C2LSTM和DCNN-BiLSTM設計卷積神經網絡作為特征提取器,長短期記憶網絡作為分類器的動作識別架構。但以上算法都忽略了各模態數據在特征提取過程中出現的語義偏移問題。SimCLR和CMC利用對比學習方法實現動作識別,往往忽略了各模態之間的潛在關聯信息,從而影響了動作識別效果。因此,MCFAR能夠解決多模態特征的語義偏移問題,增強各模態數據之間的特征交互與深度融合,進而提高動作識別精度。
為精確評價動作識別模型的性能,本文采用混淆矩陣描述各類動作識別情況,如圖3所示。在UTD-MHAD數據集中,逆時針畫圓與順時針畫圓動作、網球發球與網球揮桿動作容易發生混淆;在CZU-MHAD數據集中,抓(右手)與錘(右手)動作、左體轉與右體轉容易發生混淆。因此,動作數據的時序信息以及難負樣本影響著動作識別模型的效果。
2.4 消融實驗
為驗證MCFAR模型各部分的有效性,本文設計了消融實驗來分析各模塊的性能,實驗結果如表3所示。其中,MCFAR-w/o MCL表示MCFAR模型不包含多模態對比學習模塊,只使用多模態對比融合模塊,用于驗證語義偏移對動作識別的影響程度;MCFAR-w/o MIF表示MCFAR模型只使用多模態對比學習模塊,忽略了各模態特征之間的交互信息,用于驗證模態信息交互性、互補性對動作識別的影響程度。
多模態動作數據的存儲結構、采樣頻率存在差異性,導致動作數據在特征提取過程中出現語義偏移問題。因此,在動作識別模型MCFAR中將用于語義對齊的多模態對比學習模塊去除以后,識別精度出現明顯的下降趨勢。同時,使用不同類型數據刻畫同一動作的運動軌跡,各數據之間存在潛在關聯交互信息。因此,在動作模型MCFAR基礎上去除多模態交互融合模塊,導致模型識別效果降低。綜上所述,多模態數據特征的語義偏移問題以及多模態數據之間的潛在關聯信息影響著模型識別的效果,MCFAR能夠有效解決以上問題。
2.5 參數敏感度實驗
本文采用卷積神經網絡提取動作數據的特征向量,然而不同層次的特征圖包含的語義信息存在著差異性。淺層特征往往關注數據的原始信息,而深層特征側重于數據的語義信息。因此,卷積神經網絡的層數影響著動作識別的性能。經過多次實驗,圖4給出了不同網絡層數下的動作識別精度。從圖中可以看出,隨著卷積神網絡層數的不斷增加,識別準確率也逐漸提升。在UTD-MHAD數據集中,當網絡層數取8時,動作識別精度最高;在CZU-MHAD數據集中,當網絡層數取5時,動作識別精度最高。
3 結語
本文針對多模態動作識別過程中的語義偏移問題,提出了基于多模態對比融合的動作識別模型MCFAR。該模型將同一動作不同模態數據作為正樣本,通過構建多模態對比學習模型實現不同模態數據間的語義對齊。此外,MCFAR使用跨模態注意力機制完成多模態數據之間潛在關聯信息挖掘,結合向量正交融合方式完成多模態數據的深度融合。實驗結果表明,MCFAR能夠有效地識別動作,在UTD-MHAD數據集的識別準確率為96.54%,在CZU-MHAD數據集的識別準確率為98.72%,均優于最新的識別算法。
本文方案仍存在一些不足的地方亟須改進,在未來工作中,將會進行以下研究:首先,實驗結果表明,視覺模態的語義信息高于觸覺模態,因此充分挖掘不同模態數據之間的潛在均衡信息,能夠提升動作識別精度。其次,不同模態的數據特征既具有關聯互補特性,也具有特異性,因此,利用特征解耦方法融合各模態互補信息,研究各模態獨特語義信息,能夠增強數據特征的表征能力。
參考文獻
[1]GENG T,ZHENG F,HOU X,et al.Spatial-temporal pyramid graph reasoning for action recognition[J].IEEE Transactions on Image Processing,2022(8):5484-5497.
[2]YANG Y,LI J,LI B,et al.MDHandNet:a lightweight deep neural network for hand gesture/sign language recognition based on micro-doppler images[J].World Wide Web,2022(2):1951-1969.
[3]QU Y,TANG Y,YANG X,et al.Context-aware mutual learning for semi-supervised human activity recognition using wearable sensors[J].Expert Systems with Applications,2023(6):119679-119691.
[4]ZAMIL M G H A L.Multimodal daily activity recognition in smart homes[C]//International Conference on Control,Decision and Information Technologies(CoDIT),April 5-7,2017,Barcelona(ES),Spain.2019:922-927.
[5]DE GEA FERNáNDEZ J,MRONGA D,GüNTHER M,et al.Multimodal sensor-based whole-body control for human-robot collaboration in industrial settings[J].Robotics and Autonomous Systems,2017(94):102-119.
[6]ISLAM M M,NOORUDDIN S,KARRAY F,et al.Multi-level feature fusion for multimodal human activity recognition in Internet of Healthcare Things[J].Information Fusion,2023(94):17-31.
[7]YUDISTIRA N,KAVITHA M S,KURITA T.Weakly-supervised action localization,and action recognition using global-local attention of 3D CNN[J].International Journal Computer Vision,2022(8):2349-2363.
[8]QI M,WANG Y,QIN J,et al.StagNet:An attentive semantic RNN for group activity and individual action recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2019(2):549-565.
[9]HAO X,LI J,GUO Y,et al.Hypergraph neural network for skeleton-based action recognition[J].IEEE Transactions on Image Processing,2021(1):2263-2275.
(編輯 王雪芬)
Research on action recognition algorithms based on multimodal contrastive fusion
XIA Sili
(Xuzhou Finance Branch, Jiangsu Union Technical Institute, Xuzhou 221008, China)
Abstract:Action recognition based on multimodal data primarily leverages multi-sensory channel data, such as visual and tactile information, for human pose identification. Due to significant disparities in the storage structures and sampling frequencies of different modalities, multimodal action data often encounters issues of semantic misalignment during feature extraction, which adversely affects the recognition performance of models. To address these challenges, we propose a Multimodal Contrastive Fusion-based Action Recognition (MCFAR) model. This model treats features from different modalities of the same action as positive sample pairs, utilizing contrastive learning to minimize the spatial distance between these pairs. By doing so, it resolves the issue of semantic misalignment in feature extraction, achieving semantic alignment across modalities. Experimental results on various datasets substantiate the effectiveness of the proposed method.
Key words:action recognition; multimodal; contrastive learning; feature interaction fusion