
















摘" 要: 為拓展機器視覺技術在醫工結合場景下的應用,文中基于改進的時空Transformer模型,提出一種動作規范識別模型。該模型由數據嵌入層、時空Transformer層、決策融合層組成。數據嵌入層利用Openpose模型從sRGB圖像中提取人體骨骼數據,降低環境部署成本;時空Transformer層使用時空模塊和塊間模型對圖像數據特征進行訓練和分類,提升原模型的分類精度;決策融合層實現對應用場景的規范性判別。實驗測試結果表明:所提算法的TOP1和TOP5精度指標在所有對比算法中均為最優;在以心肺復蘇術為例進行的實際應用測試中,該算法的綜合性能較為理想,能夠滿足工程需要。
關鍵詞: 計算機視覺; 時空Transformer模型; 骨骼模型; 決策融合; 動作識別; 多頭注意力機制
中圖分類號: TN919?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " nbsp; " " " 文章編號: 1004?373X(2024)08?0160?05
An action analysis and evaluation model based on video spatiotemporal feature
extraction and classification
CHEN Di1, LI Yanfang2, BI Weiyun2, LI Lang2, PU Shanshan2
(1. School of Basic Medical Sciences, Air Force Medical University, Xi’an 710032, China; 2. The First Affiliated Hospital of AFMU, Xi’an 710032, China)
Abstract: In order to expand the application of machine vision technology in medical and industrial integration scenarios, an action specification recognition model based on an improved spatiotemporal Transformer model is proposed. The model is composed of data embedding layer, spatiotemporal Transformer layer, and decision fusion layer. In the data embedding layer, the Openpose model is used to extract human bone data from sRGB images, so as to reduce environmental deployment costs. In the spatiotemporal Transformer layer, the spatiotemporal modules and inter block models are used to train and classify image data features, so as to improve the classification accuracy of the original model. The decision fusion layer is used to realize the normative discrimination for application scenarios. The experimental testing results show that the TOP1 and TOP5 accuracy indicators of the proposed algorithm are the best among all comparative algorithms. In practical application testing using cardiopulmonary resuscitation as an example, the comprehensive performance of the algorithm is relatively ideal and can meet engineering needs.
Keywords: computer vision; spatiotemporal Transformer model; bone model; decision fusion; action recognition; multi head attention mechanism
0" 引" 言
隨著計算機視覺的發展,國內外眾多學者使用深度學習的框架實現了人體的動作識別與預測,還能夠提取人體的骨架特征,但計算機視覺在醫師規培領域的應用目前較少。由于臨床操作的實施與醫師的職業技能有著直接關系,若動作不規范,則會導致診療水平下降,甚至會對患者造成不可逆轉的次生傷害。因此,對醫師操作過程中動作的規范性評價成為了研究熱點[1?3]。
目前,臨床操作的培訓以及動作規范判斷大多依靠具有反饋裝置的假人訓練模型,這種方式成本較高、效率低、單次規培人數少,同時反饋裝置只能對醫師的動作力度進行評判,無法識別動作是否規范。在醫工結合的背景下,本文基于計算機視覺技術,提出一種動作規范性識別模型,進而提升培訓、操作的效率與質量。
1" 動作規范性識別算法
1.1" 算法結構設計
本文的動作規范性識別算法結構設計如圖1所示。該算法由數據嵌入層、時空Transformer層、決策融合層組成。視頻嵌入層主要負責從視頻中提取骨骼數據,并處理數據格式;時空Transformer層負責對數據進行處理,同時還可以捕獲數據的時空相關性;最后進行決策層融合,得到動作識別判定結果。
1.2" 骨骼數據嵌入提取模型
常用的骨骼數據提取方法大多依賴于深度圖像,需要由專業的深度相機拍攝,環境部署成本較高。本次使用Openpose模型提取骨骼數據[4?6],其可以直接對sRGB圖像幀數據進行訓練與識別,進而增強模型的適用性。
Openpose模型由卷積姿態機和局部親和度組成。卷積姿態機是一種序列形式的全卷積網絡,由多個Stage構成,網絡的輸入數據為sRGB圖像序列。本文使用的卷積姿態機共有4個Stage,具體結構如圖2所示。
在訓練過程中,每個階段結束之后均要將損失函數的輸出值作為中間值進行替換,從而避免梯度爆炸或梯度消失等問題。模型使用到的損失函數公式如下:
[Losstotal =t=1Tp=1Pj∈Jbpt(j)-bp*(j)2] (1)
式中:t為階段數;p表示圖像中像素點的序號;j代表人體骨骼關節序號;b表示實時熱力圖分布。
模型還使用了局部親和度對圖像像素點的親和度進行標注與計算,進而將像素點的關鍵位置連接構成帶有方向的向量,從而記錄人體骨骼運動的方向及位置信息。向量合成關系如圖3所示。
圖3中,xj1,k和xj2,k為第k個人肢體的關節起始位置,p代表像素點,v、vt分別表示水平和垂直方向的肢體移動速度。設L為親和度,公式如下:
[Lc,k(p)=v,p∈c0,p?c] (2)
[v=xj1,k-xj2,kxj1,k-xj2,k2] (3)
基于該親和度信息,可以自上而下地進行單人檢測,得到肢體的位置和方向信息,進而確定關節點之間的聯通區域。
1.3" 基于編碼的骨骼數據嵌入模塊
為了將骨骼數據送入時空Transformer模塊中進行分析,還需要對數據進行編碼并將其嵌入到模型中。本文使用的編碼方案如圖4所示。
可將圖4中的骨骼數據看作張量,故得:
[XC=[x1,x2,…,xT], xi∈Rn×V×C] (4)
式中:n為幀數;T為時空塊;V是關節個數;C表示關節數據維度。公式(4)將數據XC分割為多個不重疊的時空塊數據,同時通過特征映射層將高維特征嵌入到后續模型中。
1.4" 動作特征提取模型
Transformer模型[7?11]由編碼器和解碼器組成,最早被應用于自然語言處理等領域。編碼器被用于提取輸入數據特征,同時還能夠提取同等維度的感知數據特征。Transformer模型的編碼器結構如圖5所示。
在圖5中,編碼器的單個子層由多層感知機和多頭注意力機制構成,編碼器由多個子層結構組成。同時,在連接部分加入了殘差網絡(Residual Network)和LN層,則第n個編碼器子層結構的數據處理過程如下:
[Z′n=MSALNZn-1+Zn-1] (5)
[Zn=MLPLNZ′n+Z′n] (6)
式中:[Zn-1]和[Zn]分別表示第n個子層的輸入與輸出特征。該特征具有相同的維度,通過殘差的連接方式也避免了網絡訓練過程出現的過擬合。多頭注意力機制的結構如圖6所示。
多頭注意力機制[12?14]由查詢向量矩陣Q、鍵向量矩陣K以及值向量矩陣V組成,可由線性變換計算得到。多頭注意力機制的權重矩陣通常是通過點積得到的,公式如下:
[Attention(Q,K,V)=SoftmaxQKTdV] (7)
[MSA(Q,K,V)=Concat(Y1,Y2,…,YH)Wo] (8)
[Yh=Attention(Qh,Kh,Vh)," h∈{1,2,…,H}] (9)
本文基于Transformer結構,提出一種耦合時空因素的Transformer網絡算法,其結構如圖7所示。
所構建的Transformer網絡算法由時空塊和塊間網絡組成,其中,時空塊網絡主要用來學習多個圖像幀之間的關節特征,網絡的輸入部分為處理過后的骨架數據。輸入部分嵌入模塊的具體結構如圖8所示。
在圖8中:輸入數據為張量Zin;LP表示線性投影算法,該算法的輸入為特征重塑后的張量;定義域設置為B×T1×V1×C1,其中B為塊大小,T1是時空塊數量,V1為圖像中的關節個數,C1表示關節數據維度。
塊間的Transformer是在時空塊基礎結構上改進的,模型可以對高維度的數據進行有效處理,同時能夠在時間維度中對數據進行處理,并生成多個空間注意力圖。
2" 實驗分析
2.1" 實驗環境與數據集搭建
首先預設實驗環境,本文算法以Pytorch為基礎深度學習框架,所使用的硬件配置如表1所示。
使用兩個主流人體動作識別數據集作為模型訓練數據集,分別為Kinetics?400和FineGYM[15?16]。Kinetics?400是從YouTuBe中采集的人體運動數據集,共有400個人體動作分類,樣本數量超過30萬條。FineGYM也為人體動作識別數據集,但是其為細粒度數據集,數據來源于體操比賽,共有100個細粒度分類,樣本總量約7萬條。文中構建的實驗數據集分為訓練集和驗證集,數量比例為8∶2,再將兩種數據集按照1∶1的比例隨機混合成本文所需數據集。
2.2" 算法測試
為驗證算法模型中每個部分對整體性能的貢獻,進行消融實驗。實驗使用5種模型,分別為基本Transformer(模型1)、時空Transformer(模型2)、嵌入層+
Transformer(模型3)、嵌入層+時空Transformer(模型4)、本文模型嵌入層+時空Transformer+塊間Transformer(模型5)。模型使用TOP1和TOP5精度作為評價指標,實驗測試結果如表2所示。
由表2的實驗結果可以看出:將原始模型的線性嵌入模塊改進為Openpose嵌入層后,TOP1精度對應提升了5%,TOP5精度也有相應提升,表明改進嵌入模塊是有效的策略,也說明了提取骨骼數據特征的重要性;而改進后的時空Transformer模型(模型2)相較原始模型TOP1精度提升了3.3%;本文模型TOP1精度最高,相較原始精度提升了7.6%,這充分說明了改進算法的有效性。
為了對算法性能進行橫向評估,本文還使用多種常用算法模型進行精度比較,對比算法為GCN(Graph Convolutional Network)、2D?CNN(2D?Convolutional Neural Network)、HCN(HyperCube Network)、CNN?LSTM(Convolutional Neural Network?Long Short?Term Memory)以及TP?ViT。橫向對比測試的實驗結果如表3所示。
由表3可以看出,本文算法在所有算法中的精度指標最優,比TP?ViT算法的TOP1和TOP5精度分別高0.9%和3.7%,比CNN?LSTM算法的TOP1和TOP5精度分別高2.6%與10.6%。綜上可得,本文算法表現良好,具有較為理想的性能。
心肺復蘇術(Cardio Pulmonary Resuscitation, CPR)是急救領域最基礎且常用的手段之一,本文以CPR動作規范性識別為例,進行了應用場景下的實驗驗證,結果如圖9所示。圖9表明,模型可識別出sRGB圖像的骨架,并能對動作規范性進行識別,驗證了算法的工程實用價值。
3" 結" 語
本文充分利用Transformer模型訓練效率和識別準確率高的特點,提出了一種可用于醫學場景下的動作識別模型。該模型由數據嵌入層、時空Transformer層、決策融合層組成,可以從sRGB圖像中提取骨骼數據,并對數據特征進行學習,進而判斷動作的規范性。實驗測試證明,所提模型的綜合性能良好,TOP1和TOP5精度均優于對比算法。
注:本文通訊作者為李焱芳。
參考文獻
[1] 莫加良,韋燕運,盧偉光,等.根因分析法在急診心肺復蘇中的應用效果及其對患者預后的影響[J].廣西醫科大學學報,2023,40(9):1597?1602.
[2] 馮航測,田江濤,郝美林,等.基于SE?Stacking算法的心肺復蘇結果預測分析[J].國外電子測量技術,2023,42(9):155?161.
[3] 張友坤,陳偉,靳小靜,等.基于MW?REF算法的心肺復蘇影響因素分析[J].科學技術與工程,2023,23(22):9543?9549.
[4] 蘇波,柴自強,王莉,等.基于姿態估計的八段錦序列動作識別與評估[J].電子科技,2022,35(12):84?90.
[5] 張富凱,賀天成.結合輕量Openpose和注意力引導圖卷積的動作識別[J].計算機工程與應用,2022,58(18):180?187.
[6] 李一凡,袁龍健,王瑞.基于OpenPose改進的輕量化人體動作識別模型[J].電子測量技術,2022,45(1):89?95.
[7] 余子丞,凌捷.基于Transformer和多特征融合的DGA域名檢測方法[J].計算機工程與科學,2023,45(8):1416?1423.
[8] 鄧帆,曾淵,劉博文,等.基于Transformer時間特征聚合的步態識別模型[J].計算機應用,2023,43(z1):15?18.
[9] 徐麗燕,徐康,黃興挺,等.基于Transformer的時序數據異常檢測方法[J].計算機技術與發展,2023,33(3):152?160.
[10] 黨曉方,蔡興雨.基于Transformer的機動目標跟蹤技術[J].電子科技,2023,36(9):86?92.
[11] 石躍祥,朱茂清.基于骨架動作識別的協作卷積Transformer網絡[J].電子與信息學報,2023,45(4):1485?1493.
[12] 趙英伏,金福生,李榮華,等.自注意力超圖池化網絡[J].軟件學報,2023,34(10):4463?4476.
[13] 常月,侯元波,譚奕舟,等.基于自注意力機制的多模態場景分類[J].復旦學報(自然科學版),2023,62(1):46?52.
[14] 李垚,余南南,胡春艾,等.基于自注意力機制的腦血腫分割和出血量測量算法[J].數據采集與處理,2022,37(4):839?847.
[15] 屈小春.基于Transformer的雙流動作識別方法研究[D].重慶:西南大學,2023.
[16] 蔡思佳.基于注意力機制的細粒度行為識別算法研究[D].南京:東南大學,2022.
作者簡介:陳" 迪(1980—),女,遼寧大連人,碩士,講師,研究方向為生物醫學可視化、教育技術。