王華鋒 張 鵬
(北方工業大學信息學院,北京100144)
人體的骨架圖是對人體輪廓的抽象,是一種包含了人體主要關節點信息和骨架連接結構信息的圖形。與傳統的卷積神經網絡不同的是,本此研究提出的網絡輸入中包含了人體的骨架信息。其特征用如下公式來表示:

其中V 為骨架圖中所有關節點的集合,包含了兩個子集,第一個子集描述每個幀的骨架內連接,第二個子集包含幀間邊緣信息,代表了關節隨著時間的運動軌跡。在此網絡的傳播規則如下:

Wi表示第i 層的權重矩陣,σ 表示ReLU 激活函數,I 為輸入鄰接矩陣,它是某一關節點和其他關節點連接特征的數學表示。首先在鄰接矩陣左側乘以特征矩陣,完成了特征的融合操作,然后再在右側乘以權重矩陣,實現了傳統卷積神經網絡加權操作。具體到x 層卷積其輸出為:

其中,p 為采樣函數,表示對輸入信息的特征提取,列舉了位置x 的近鄰區域,K 為卷積核的維度,加權函數w提供了一個權重向量,來計算其與經過采樣的輸入向量的內積。在網絡中將骨骼節點的近鄰劃分為固定的K 個子集,W 通過索引一個K維的張量來實現。則上述公式被重新定義如下:

本次研究在上述提到的骨架網絡結構里創新性地引入了注意力模塊,模塊中包括了兩種注意力機制:時間注意力機制和空間注意力機制。在空間維度上不同關節點之間存在連通,具有很強的動態性,可以用注意力機制去自適應調節空間維度上節點之間的動態相關性:

其中為前一層的輸入,V 是骨架關節點的集合,W 為需要進行學習的參數。在S 中代表了索引i 的點和索引j 的點的相關性。在進行卷積操作時將使用鄰接矩陣A 與空間注意力矩陣S 一起對兩點之間的動態權重值進行更新。

圖1 時空注意力機制示意圖
時空注意力模塊能夠使網絡對不同時刻的信息賦予不同的權重。在時間維度上,不同的幀之間的行為特征也存在著相關性,這些相關性在不同點之間也是時刻發生著變化,因此,網絡使用一個時間注意力機制去調整數據在各個時間的權重:


本研究中構建了自己的行為識別骨架數據集。數據集中主要有五類日常的動作:跌倒,坐下,站立,喝水,太極,其中每個動作有30-40 個視頻剪輯,共計170 個。其中一部分視頻片段在實驗室拍攝完成,一部分從網絡的視頻中提取。首先通過ffmpeg將視頻的幀率轉到30FPS,并將視頻的分辨率進行統一調整為340*256,然后開始對視頻中的人體骨架信息進行提取,每個信息元組中包含三組數據包括人體關節點的2D 坐標和置信度,最終將其保存為json 文件。
本文從傳統的卷積神經網絡模型出發,引入了骨架網絡模型,并對日常中常見的動作進行了分類和識別。實驗完成了行為動作的分類任務,但當檢測目標在快速運動下的采樣會出現模糊,導致骨架信息丟失。

圖2 行為檢測結果圖(1)

圖3 行為檢測結果圖(2)
如圖所示,骨架關節點的亮度半徑代表了其權重的大小,不同關節點在不同動作中的權重有高有低,其中的空間注意力模塊決定了不同關節點在行為構成中占的權重,時間注意力決定了不同幀在行為識別中占的比重。
具體而言在跌倒中的肩部關節點的權重較高,關節點亮度范圍較大;喝水的動作中手部和胳膊的關節點權重更高,而下肢的權重則相對較低。
在行為識別任務上與四種不同的算法進行了對比,Two Stream Networks[1]以堆疊的光流矢量的形式對運動特征進行了建模,然后通過兩個單獨的網絡進行訓練。C3D[2]利用3x3x3 的三維卷積網絡在大規模有監督的數據集上進行訓練。LRCN 網絡[3]輸入圖片后先使用傳統CNN 來提取輸入圖片的特征,然后送入后續的LSTM網絡進行處理。TSN 網絡[4]對整個視頻進行稀疏采樣,而不是采用單幀分析的方法,然后網絡對各個片段進行動作類別的初步預測??梢钥闯?,本文提出的模型在識別率上更有優勢。
本文從傳統的卷積神經網絡模型出發,引入了骨架網絡模型,并對日常中常見的動作進行了分類和識別。主要的研究成果主要體現在如下方面:

表1 實驗結果
(1)本文提出了一種基于骨架信息的神經網絡模型,并且在其中引入了注意力模塊,對時間和空間的特征進行了研究。
(2)構建了行為識別的數據集。對生活中常見的行為如跌倒,坐下,站起等進行了拍攝剪輯,最后利用相關算法對骨架信息進行了采集,得到了經過預處理的行為識別數據集。