











摘" 要: 為了應(yīng)對多角度、多姿態(tài)特點的人體動作圖像識別難的問題,研究一種基于顯著性特征的多視角人體動作圖像識別方法。通過顯著性區(qū)域檢測模塊處理多視角人體動作圖像,獲取顯著性區(qū)域序列并拼接成多視角顯著性區(qū)域拼接圖;利用VGG?Net網(wǎng)絡(luò)從中提取其卷積特征圖,輸入到CA(上下注意力)模塊中,將有利于人體動作識別的區(qū)域予以突出顯示,并輸出人體動作類別標(biāo)簽的概率值,實現(xiàn)多視角人體動作識別。實驗結(jié)果表明,所提方法能夠有效識別多視角人體動作,同時通過整合顯著性區(qū)域檢測和CA模塊,可以顯著提升其在多視角人體動作識別方面的應(yīng)用效果。
關(guān)鍵詞: 顯著性特征; 多視角; 人體動作; 圖像識別; 類別標(biāo)簽; CA模塊; LSTM單元
中圖分類號: TN911.73?34; TP391" " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)24?0143?05
Research on multi?perspective human action image recognition
based on significant features
LIAO Minling
(Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: In order to address the difficulty of recognizing human motion images with multiple angles and postures, a method of multi?perspective human motion image recognition based on salient features is researched. By using salient region detection module to process multi?perspective human motion images, a sequence of salient regions is obtained and concatenated into a multi?perspective salient region mosaic images. The convolutional feature map is extracted by means of VGG?Net network and input into CA (up and down attention) module. The region conducive to human action recognition is highlighted, and the probability value of human action category label is output to realize multi?perspective human action recognition. The experimental results show that the proposed method can effectively recognize multi?perspective human movements. By integrating salient region detection and CA modules, the application effectiveness of the method in multi?perspective human action recognition can be improved significantly.
Keywords: significant features; multi?perspective; human action; image recognition; category label; CA module; LSTM unit
0" 引" 言
人體動作識別技術(shù)正逐步滲透到人們生活的各個方面,如智能監(jiān)控、人機交互、體育分析和醫(yī)療康復(fù),為智能化生活提供了強有力的技術(shù)支撐[1?2]。然而,現(xiàn)實場景中的人體動作往往發(fā)生在多變的視角和復(fù)雜的環(huán)境中,使得人體動作圖像往往呈現(xiàn)出多角度、多姿態(tài)的特點,這對動作識別的準(zhǔn)確性和魯棒性提出了極高的要求[3]。因此,開展多視角人體動作圖像識別研究不僅具有重要的理論價值,更在實際應(yīng)用中展現(xiàn)出巨大的潛力和需求。
當(dāng)前動作識別技術(shù)正快速發(fā)展,并且已經(jīng)在多個方面取得了顯著成果,文獻[4]通過構(gòu)建FP?Net網(wǎng)絡(luò)訓(xùn)練人體圖像數(shù)據(jù)集,并通過加入回歸模塊和特征融合模塊,提升了正面姿態(tài)估計的準(zhǔn)確性。FP?Net能夠從任意角度的人體圖像中有效提取正面姿態(tài),實現(xiàn)對人體動作圖像的準(zhǔn)確識別。但在人體被其他物體嚴(yán)重遮擋時,F(xiàn)P?Net可能無法準(zhǔn)確估計出被遮擋部分的關(guān)鍵點位置。文獻[5]利用Transformer網(wǎng)絡(luò)進行時序建模,在單模態(tài)和跨模態(tài)下以自監(jiān)督方式區(qū)分實例,同時引入雷達組合圖來增強數(shù)據(jù)密度,解決了雷達數(shù)據(jù)稀疏性問題,實現(xiàn)了對人體動作的有效識別。該方法需要專業(yè)的雷達設(shè)備來獲取數(shù)據(jù),但這些設(shè)備通常價格昂貴,增加了硬件成本;同時雷達數(shù)據(jù)需要經(jīng)過復(fù)雜的預(yù)處理和特征提取步驟,增加了數(shù)據(jù)處理的難度和計算資源的消耗,影響方法的實用性。文獻[6]采用三維殘差網(wǎng)絡(luò)融合各視角動作序列的時空特征,并利用多層長短期記憶網(wǎng)絡(luò)學(xué)習(xí)視頻流中的長期活動序列及幀間時序信息,實現(xiàn)多視角人體動作識別。但是該方法通過無差別提取人體動作圖像特征的方式來實現(xiàn)人體動作識別的過程中,針對相似度較高人體動作的識別精度較差,難以實現(xiàn)對高度相似動作的有效區(qū)分。文獻[7]結(jié)合多視角人體動作圖像骨骼邊緣信息及運動特性,通過2D投影子空間實現(xiàn)多視角動作表征,并利用改進卷積神經(jīng)網(wǎng)絡(luò)框架綜合提取特征,克服了骨骼點模型在物理結(jié)構(gòu)和視角多樣性方面的局限性。該方法需要定義和計算骨骼邊緣、運動方向與大小等特征,增加了特征提取的復(fù)雜性。
在人體動作識別中,顯著性特征可以構(gòu)建出對視角變化具有魯棒性的動作表示,從而提高識別效果。為此,本文研究一種基于顯著性特征的多視角人體動作圖像識別方法,以期實現(xiàn)多視角人體動作的高精度識別。
1" 多視角人體動作圖像識別
1.1" 多視角人體動作圖像識別模型總體結(jié)構(gòu)
構(gòu)建一種基于VGG?Net+CA模型的深度學(xué)習(xí)網(wǎng)絡(luò)來實現(xiàn)多視角人體動作圖像識別。該模型主要包括三個模塊,分別為顯著性區(qū)域檢測模塊、基于VGG?Net的顯著性特征提取模塊以及基于CA(上下注意力)的人體動作圖像識別模塊。多視角人體動作圖像識別模型結(jié)構(gòu)如圖1所示。
設(shè)定多視角人體動作圖像識別模型輸入、輸出單元數(shù)量分別為[L]、[M],二者分別對應(yīng)人體動作圖像的[L]個視角以及[M]個人體動作類型。多視角人體動作視頻首先通過顯著性區(qū)域檢測模塊處理,獲取多個視角圖像的顯著性區(qū)域序列,并通過拼接獲取多個視角顯著性區(qū)域拼接圖,將其作為基于VGG?Net的顯著性特征提取模塊的輸入,自動獲取多視角融合特征的卷積圖;再將其作為CA模塊的輸入,自動突出多視角融合特征的卷積圖中有助于人體動作識別的區(qū)域,輸出多個視角顯著性區(qū)域拼接圖對應(yīng)的人體動作類別標(biāo)簽的概率值,實現(xiàn)多視角人體動作識別。
1.2" 多視角人體動作圖像顯著性區(qū)域檢測
采用靜態(tài)顯著性檢測來降低背景處非顯著區(qū)域的顯著性,突出多視角人體動作圖像中人體目標(biāo)顯著性區(qū)域與背景非顯著性區(qū)域的差異[8?9]。
將每個視角人體動作視頻圖像幀劃分成若干像素塊,并計算像素塊處于顏色空間中的歐氏距離,對比像素塊[Pi]與剩余像素塊[Pj],組建用于描述顏色空間內(nèi)[Pi]與其余塊之間像素差距大小的[Dcolor(Pi,Pj)],其數(shù)值越大,表示[Pi]對應(yīng)像素塊的顯著性越優(yōu)于其余像素塊,可被稱為顯著性像素塊。同時考慮到顯著性區(qū)域的空間距離相對較近,結(jié)合[Pi]與[Pj]獲取二者的空間距離[Dposition(Pi,Pj)],結(jié)合[Dcolor(Pi,Pj)]和[Dposition(Pi,Pj)]獲取[D(Pi,Pj)]。
[D(Pi,Pj)=Dcolor(Pi,Pj)1+Dposition(Pi,Pj)] (1)
公式(1)用于表征[Pi]與[Pj]之間的顏色距離越大、位置距離越小,則二者之間的差異性越大[10],那么可以認(rèn)為[Pi]具備顯著性。
計算各個視角人體動作圖像幀的顯著性區(qū)域,將其組建為顯著性區(qū)域序列,表達式為:
[Rji=(rji,1,rji,2,…,rji,T)] (2)
式中:[T]用于描述人體動作視頻的圖像幀總數(shù);[rji,T]用于描述人體動作視頻第[T]幀的顯著性區(qū)域。
將多個視角的人體動作顯著性區(qū)域拼接起來,組建顯著性區(qū)域拼接圖序列,表達式為:
[Ui=(ui,1,ui,2,…,ui,T)ui,t=rji,t, j∈(1,2,…,L)] (3)
式中:[ui,t]用于描述由單一視角人體動作顯著性區(qū)域序列組建的顯著性區(qū)域拼接圖序列;[Ui]用于描述由多個視角的顯著性區(qū)域拼接圖組建的多視角顯著性區(qū)域拼接圖序列,[Ui∈(1,N)],其中[N]用于描述多視角人體動作圖像總數(shù)。將[Ui]作為基于VGG?Net的顯著性特征提取模塊的輸入,從中提取出用于人體動作識別的顯著性特征。
1.3" 基于VGG?Net的顯著性特征提取
將VGG?Net網(wǎng)絡(luò)作為多視角人體動作圖像顯著性區(qū)域的特征提取網(wǎng)絡(luò),從1.2節(jié)檢測到的多視角人體動作圖像顯著性區(qū)域中有效獲取顯著性區(qū)域的卷積特征圖[11]。
VGG?Net通過不斷堆疊大小為3×3的卷積層和大小為2×2的池化層,組建層數(shù)為18層的深度卷積神經(jīng)網(wǎng)絡(luò),完成輸入多視角顯著性區(qū)域拼接圖序列的特征提取工作[12]。將提取特征圖的大小[Wf×Hf]與輸入拼接圖大小[W×H]以及卷積層參數(shù)之間關(guān)系的表達式描述為:
[Wf=1+W-F+2QS] (4)
[Hf=1+H-F+2QS] (5)
式中:[F]、[Q]、[S]分別用于描述卷積核尺寸、網(wǎng)絡(luò)填充數(shù)、卷積步長。
激活層處于卷積層之后,其不會變更輸入多視角人體動作圖像顯著性區(qū)域圖像的尺寸,因此輸入圖像在經(jīng)過卷積以及池化處理后圖像尺寸維持恒定。池化層可以降低采樣激活層輸出的尺寸為2×2的非重疊最大值[13]。因此VGG?Net網(wǎng)絡(luò)提取到的多視角人體動作圖像顯著性區(qū)域特征圖尺寸為輸入特征的[132],所提取多視角人體動作圖像顯著性區(qū)域卷積特征圖的維度為512。
1.4" 基于CA的多視角人體動作圖像識別
將1.3節(jié)VGG?Net網(wǎng)絡(luò)提取到的多視角人體動作圖像卷積特征圖作為基于CA的多視角人體動作圖像識別模塊(CA模塊)的輸入。用[et]描述1.3節(jié)提取到的多視角人體動作圖像顯著性區(qū)域的卷積特征圖,CA模塊可以從[et]中學(xué)習(xí)到能夠有效凸顯出有利于多視角人體動作識別區(qū)域的注意力地圖[At]。CA模塊堆疊了3個神經(jīng)元數(shù)量不同(分別為128、256、100)的LSTM(長短期記憶)單元[14],每個LSTM單元的實現(xiàn)過程為:
[ct=ft·ct-1+it·gt] (6)
[ht=ot·tanh(ct)] (7)
式中:[it]、[ft]、[ot]、[gt]分別用于描述輸入門、遺忘門、輸出門以及門控狀態(tài);[ct]、[ht]分別用于描述細(xì)胞狀態(tài)以及隱含狀態(tài)。[ct]、[ht]的初始化[c0]、[h0]表達式為:
[c0=finit,c1Tt=1T1K·Lk=1K·Lxt,k] (8)
[h0=finit,h1Tt=1T1K·Lk=1K·Lxt,k] (9)
式中:[finit,c]、[finit,h]均用于描述具備多層次結(jié)構(gòu)的感知器;[T]、[K·L]分別用于描述拼接后顯著性區(qū)域圖像序列長度、卷積特征圖中各通道的行數(shù)[15];[xt,k]用于描述匯總在各個通道上的位置元素組建的特征切片。
時刻[t]的注意力地圖[At]由此時刻位置[k]重要性的預(yù)測概率值[at,k]組建,其表達式為:
[at,k=exp(WTkht-1)β=1K·Lexp(WTβht-1)] (10)
式中[Wk]用于描述權(quán)值。[at,k]的數(shù)值越大,表明該位置在人體動作識別中的重要性越強。
CA模塊的輸入為依據(jù)特征圖中全部位置特征切片求解獲取的下一時刻期望輸入,用[Xt]描述,表達式為:
[Xt=k=1K·Lat,kxt,k] (11)
[t]時刻CA模塊以公式(11)為輸入,通過softmax分類器輸出[t+1]時刻的注意力地圖[At+1=at+1,k,k∈(1,K·L)]以及[t]時刻多視角人體動作圖像顯著性區(qū)域在[M]個人體動作類型標(biāo)簽上的概率分布預(yù)測結(jié)果[yi,t],將概率值最大的[yi,t]對應(yīng)的人體動作類別作為最終的識別結(jié)果。
2" 實驗分析
選取MVHumanNet多視角人體動作識別數(shù)據(jù)集進行實驗,MVHumanNet中含有4 500個不同人物的6萬個動作序列和6.45億幀圖像。數(shù)據(jù)集通過多視角捕捉系統(tǒng)獲取,具有豐富的注釋信息,包括人體遮罩、相機參數(shù)、2D和3D關(guān)鍵點、SMPL/SMPLX參數(shù)和文本描述,其中包含體育活動圖像、日常動作圖像等60多種動作類型。
隨機選取2張不同視角的體育動作圖像,應(yīng)用本文方法進行動作識別,識別結(jié)果如圖2和表1所示。圖2中:圖2a)為從數(shù)據(jù)集中隨機選取的不同視角的人體動作原始圖像;圖2b)為通過本文方法檢測到的多視角圖像顯著性區(qū)域;圖2c)為VGG?Net?CA模塊從顯著性區(qū)域中獲取的有利于完成人體動作特征識別的凸顯區(qū)域。
綜合分析圖2和表1數(shù)據(jù)可知,本文方法可以有效識別出不同視角下人體動作圖像,并給出正確的動作識別結(jié)果。原因在于顯著性區(qū)域的檢測以及VGG?Net?CA模塊能夠從檢測到的顯著性區(qū)域中進一步提取出有利于完成人體動作特征識別的凸顯區(qū)域,這些凸顯區(qū)域包含了豐富的動作特征信息,二者的結(jié)合為動作識別過程提供了有力的支持。
為進一步驗證本文方法引入不同模塊對于多視角人體動作識別效果的貢獻,設(shè)計消融實驗。其中:實驗1為去除顯著性區(qū)域檢測模塊和CA模塊,直接采用多視角人體動作圖像作為VGG?Net的輸入,完成人體動作識別;實驗2為應(yīng)用顯著性區(qū)域檢測模塊,去除CA模塊,直接利用VGG?Net網(wǎng)絡(luò)輸出識別結(jié)果;實驗3為應(yīng)用本文方法,即顯著性區(qū)域檢測模塊、VGG?Net模塊、CA模塊均應(yīng)用。選取Top1、Top5的準(zhǔn)確率為衡量指標(biāo),分別用于描述人體動作識別概率中排名在第1位、第5位的類別即為正確類別。消融實驗結(jié)果如表2所示。
通過分析表2中的消融實驗結(jié)果發(fā)現(xiàn),顯著性區(qū)域檢測模塊和CA模塊對于提升多視角人體動作識別的準(zhǔn)確性具有顯著貢獻。實驗1未使用顯著性區(qū)域檢測模塊和CA模塊,Top1和Top5準(zhǔn)確率相對較低;實驗2引入顯著性區(qū)域檢測模塊后,Top1和Top5準(zhǔn)確率均有明顯提升;而實驗3在應(yīng)用顯著性區(qū)域檢測模塊的基礎(chǔ)上,進一步添加了CA模塊,使得Top1和Top5準(zhǔn)確率達到了最高值,分別為0.91和0.95。這表明本文方法通過整合顯著性區(qū)域檢測模塊和CA模塊,有效地提高了多視角人體動作識別的準(zhǔn)確性。
3" 結(jié)" 論
本文在公開數(shù)據(jù)集MVHumanNet上進行了所提多視角人體動作識別方法的應(yīng)用效果測試,實驗結(jié)果展示了該方法能夠準(zhǔn)確識別出不同視角下的人體動作。同時通過設(shè)計的消融實驗驗證,顯著性區(qū)域檢測模塊和CA模塊在提高多視角人體動作識別的準(zhǔn)確性方面發(fā)揮了重要作用,特別是當(dāng)這兩個模塊同時應(yīng)用時,Top1和Top5準(zhǔn)確率分別達到了0.91和0.95。這充分證明了本文方法通過整合顯著性區(qū)域檢測模塊和CA模塊,有效地提升了多視角人體動作識別的性能。因此,本文所提出的方法在多視角人體動作識別領(lǐng)域具有較高的應(yīng)用價值和研究意義。
參考文獻
[1] 白忠玉,丁其川,徐紅麗,等.融合顯著性圖像語義特征的人體相似動作識別[J].中國圖象圖形學(xué)報,2023,28(9):2872?2886.
[2] 孫琪翔,何寧,張聰聰,等.基于輕量級圖卷積的人體骨架動作識別方法[J].計算機工程,2022,48(5):306?313.
[3] 吳子依,陳泯融.融合時空域注意力模塊的多流卷積人體動作識別[J].華南師范大學(xué)學(xué)報(自然科學(xué)版),2023,55(3):119?128.
[4] 陳路飛,張勇,唐永正,等.FP?Net:基于任意角度單幅人體圖像的正面姿態(tài)估計[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(10):1604?1612.
[5] CHEN Y S, CHENG K H. BiCLR: radar?camera?based cross?modal bi?contrastive learning for human motion recognition [J]. IEEE sensors journal, 2024, 24(3): 4102?4119.
[6] 楊思佳,辛山,劉悅,等.基于3D ResNet?LSTM的多視角人體動作識別方法[J].電訊技術(shù),2023,63(6):903?910.
[7] 蘇本躍,張鵬,朱邦國,等.投影子空間下基于骨骼邊信息的人體動作識別[J].系統(tǒng)仿真學(xué)報,2024,36(3):555?563.
[8] 謝一博,劉衛(wèi)國,周順,等.基于顯著性的雙鑒別器GAN圖像融合算法[J].應(yīng)用光學(xué),2024,45(1):107?117.
[9] 趙衛(wèi)東,王輝,柳先輝.邊緣信息增強的顯著性目標(biāo)檢測網(wǎng)絡(luò)[J].同濟大學(xué)學(xué)報(自然科學(xué)版),2024,52(2):293?302.
[10] 王子威,郭苗苗.多視角手部肌肉疲勞動作智能識別方法仿真[J].計算機仿真,2024,41(1):238?242.
[11] 李晶晶,黃章進,鄒露.基于運動引導(dǎo)圖卷積網(wǎng)絡(luò)的人體動作識別[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2024,36(7):1077?1086.
[12] 劉寬,奚小冰,周明東.基于自適應(yīng)多尺度圖卷積網(wǎng)絡(luò)的骨架動作識別[J].計算機工程,2023,49(10):264?271.
[13] 杜啟亮,向照夷,田聯(lián)房,等.用于動作識別的雙流自適應(yīng)注意力圖卷積網(wǎng)絡(luò)[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2022,50(12):20?29.
[14] 楊世強,李卓,王金華,等.基于新分區(qū)策略的ST?GCN人體動作識別[J].計算機集成制造系統(tǒng),2023,29(12):4040?4050.
[15] 解宇,楊瑞玲,劉公緒,等.基于動態(tài)拓?fù)鋱D的人體骨架動作識別算法[J].計算機科學(xué),2022,49(2):62?68.
作者簡介:廖民玲(1979—),女,廣西北海人,副教授,研究方向為圖像處理。