黃瀚, 程小舟,2, 云霄, 周玉, 孫彥景,3
(1.中國(guó)礦業(yè)大學(xué) 信息與控制工程學(xué)院, 江蘇 徐州 221116;2.中鋼集團(tuán)馬鞍山礦山研究院股份有限公司 選礦及自動(dòng)化研究所,安徽 馬鞍山 243000; 3.中國(guó)礦業(yè)大學(xué) 徐州市智能安全與應(yīng)急協(xié)同工程研究中心, 江蘇 徐州 221116)
煤礦生產(chǎn)環(huán)境較為復(fù)雜,需要進(jìn)行實(shí)時(shí)監(jiān)控,但人工監(jiān)管的方式耗時(shí)耗力?,F(xiàn)階段針對(duì)煤礦智能監(jiān)控的研究大多集中于開(kāi)采和運(yùn)輸過(guò)程[1],對(duì)煤礦井下人員行為識(shí)別的研究較少。煤礦監(jiān)控場(chǎng)景的智能行為識(shí)別技術(shù)有利于推進(jìn)煤礦產(chǎn)業(yè)的智能化發(fā)展,但煤礦人員行為識(shí)別易受背景信息、光照強(qiáng)度、攝像機(jī)視角等因素的影響[2-5]。
隨著深度學(xué)習(xí)的發(fā)展,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)學(xué)習(xí)人體行為特征逐漸成為主流。文獻(xiàn)[6]提出一種端對(duì)端的時(shí)間卷積網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)動(dòng)作識(shí)別,使用CNN將骨架數(shù)據(jù)建模為偽圖像,并對(duì)偽圖像進(jìn)行卷積操作。文獻(xiàn)[7]提出了一種雙向分層RNN網(wǎng)絡(luò)來(lái)識(shí)別骨骼序列,對(duì)時(shí)序數(shù)據(jù)處理效果良好,但是對(duì)每一個(gè)時(shí)間幀內(nèi)的空間信息提取效果不佳。近年來(lái),圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)為基于骨架點(diǎn)的行為識(shí)別提供了一種新的捕捉關(guān)節(jié)依賴(lài)的方法。文獻(xiàn)[8]建立了時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatial Temporal Graph Convolutional Network,ST-GCN),該網(wǎng)絡(luò)構(gòu)建了以關(guān)節(jié)為節(jié)點(diǎn)、骨架為邊的骨架圖結(jié)構(gòu),并使用GCN和時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network, TCN)分別從骨架圖中提取時(shí)空特征。為了捕獲非骨骼直接連接的關(guān)節(jié)特征,文獻(xiàn)[9]提出了一種雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(2S-AGCN)。
上述方法在一定程度上解決了監(jiān)控環(huán)境下的行為識(shí)別問(wèn)題,但煤礦生產(chǎn)區(qū)域的監(jiān)控視頻較為模糊且人員行為類(lèi)型復(fù)雜,上述行為識(shí)別方法的準(zhǔn)確率較低。為了解決上述問(wèn)題,本文提出了一種基于動(dòng)態(tài)注意力與多層感知圖卷積網(wǎng)絡(luò)(Dynamic Attention and Multi-layer Perception Graph Convolutional Network,DA-GCN)的煤礦人員行為識(shí)別方法。
基于DA-GCN的行為識(shí)別模型結(jié)構(gòu)如圖1所示。對(duì)于輸入視頻,首先,通過(guò)人體關(guān)鍵點(diǎn)提取算法獲得人體骨架特征,構(gòu)造骨架圖結(jié)構(gòu),得到初始人體特征圖,以降低模糊背景信息的干擾。其次,通過(guò)動(dòng)態(tài)多層感知圖卷積網(wǎng)絡(luò)(D-GCN)和TCN聯(lián)合卷積網(wǎng)絡(luò)提取特征圖的空間、時(shí)間特征,通過(guò)D-GCN的多核卷積模式,學(xué)習(xí)更有辨識(shí)度的特征,提高對(duì)不同行為的泛化能力。然后,對(duì)特征圖進(jìn)行動(dòng)態(tài)注意力分配,提高不同時(shí)間幀和關(guān)節(jié)的權(quán)重,進(jìn)一步降低復(fù)雜環(huán)境所帶來(lái)的影響。最后,使用Softmax分類(lèi)器得到行為類(lèi)別。

圖1 DA-GCN行為識(shí)別模型結(jié)構(gòu)Fig.1 Action Recognition framework of DA-GCN
傳統(tǒng)的人體關(guān)鍵點(diǎn)檢測(cè)算法采用“自頂向下”方法,先在待檢測(cè)圖像中檢測(cè)所有人,再分別對(duì)每個(gè)人的關(guān)鍵點(diǎn)進(jìn)行檢測(cè),這種方法很難在多人場(chǎng)景下進(jìn)行快速檢測(cè)。DA-GCN通過(guò)“自底向上”的Openpose算法提取人體關(guān)鍵點(diǎn),該方法的運(yùn)算速度不因檢測(cè)人數(shù)的增加而降低,能實(shí)現(xiàn)多人人體關(guān)鍵點(diǎn)實(shí)時(shí)檢測(cè)。首先,在視頻中檢測(cè)所有人的關(guān)鍵點(diǎn)。然后,再通過(guò)匹配優(yōu)化方法將單人的關(guān)鍵點(diǎn)進(jìn)行聚類(lèi)。最后,成功檢測(cè)到所有人的骨架點(diǎn)坐標(biāo)[10]。
Openpose算法將視頻作為輸入,首先,通過(guò)VGG-19網(wǎng)絡(luò)提取初步特征,得到特征圖。然后,將特征圖輸入到2條并行的CNN分支中,分支1網(wǎng)絡(luò)預(yù)測(cè)一組關(guān)鍵點(diǎn)置信圖(Part Confidence Map,PCM),表示像素在關(guān)節(jié)點(diǎn)的高斯響應(yīng),分支2網(wǎng)絡(luò)預(yù)測(cè)一組關(guān)節(jié)親和場(chǎng)(Part Affine Field, PAF),表示骨架位置和骨架上像素的方向。最后,通過(guò)PCM和PAF的預(yù)測(cè)結(jié)果對(duì)關(guān)鍵點(diǎn)進(jìn)行二分圖匹配,得到單人骨架結(jié)構(gòu)。
在多人環(huán)境下,利用匈牙利算法優(yōu)化多人關(guān)節(jié)點(diǎn)連接結(jié)果。2個(gè)分支的目標(biāo)函數(shù)為
(1)
(2)

為了盡可能避免梯度消失問(wèn)題,在訓(xùn)練過(guò)程中定期補(bǔ)充梯度。算法整體目標(biāo)函數(shù)為
(3)
式中T為視頻總幀數(shù)。
行為識(shí)別模塊的主要功能是對(duì)人體骨架信息進(jìn)行時(shí)間、空間特征提取,并進(jìn)行動(dòng)作分類(lèi)。以GCN為基礎(chǔ),通過(guò)GCN-TCN聯(lián)合卷積網(wǎng)絡(luò)提取動(dòng)作的空間、時(shí)間特征,對(duì)信息進(jìn)行深層表征。
為了提高行為識(shí)別的泛化能力,通過(guò)2S-AGCN架構(gòu),在鄰接矩陣Ak的基礎(chǔ)上增加了Bk,Ck。其中Ak為骨架圖的鄰接矩陣;Bk為可訓(xùn)練的權(quán)重參數(shù);Ck是對(duì)不同樣本進(jìn)行學(xué)習(xí)的獨(dú)有的圖,它利用高斯嵌入函數(shù)來(lái)捕獲關(guān)節(jié)間的相似性。
(4)
式中:fout為輸出特征圖;fin為輸入特征圖。
這種聚合方式對(duì)于一些較為簡(jiǎn)單的動(dòng)作來(lái)說(shuō)過(guò)于冗余。在2S-AGCN的基礎(chǔ)上,D-GCN為每個(gè)鄰接矩陣配置一個(gè)權(quán)重參數(shù),并用注意力機(jī)制動(dòng)態(tài)地約束多個(gè)串行鄰接矩陣。注意力機(jī)制會(huì)根據(jù)輸入的骨架點(diǎn)數(shù)據(jù)動(dòng)態(tài)地調(diào)整每個(gè)鄰接矩陣的權(quán)重,從而生成自適應(yīng)的動(dòng)態(tài)圖卷積核。由于注意力機(jī)制本身輸入的是一個(gè)函數(shù),圖卷積過(guò)程通過(guò)注意力機(jī)制,以非線性方式疊加鄰接矩陣具有更強(qiáng)的表征能力。
(5)
式中α、β、γ為鄰接矩陣權(quán)重系數(shù)。
D-GCN的聚合過(guò)程如圖2所示。特征圖輸入后,通過(guò)多層感知機(jī)計(jì)算鄰接矩陣的注意力參數(shù),加權(quán)得到D-GCN圖卷積核。

圖2 D-GCN聚合過(guò)程Fig.2 D-GCN aggregation process
注意力機(jī)制首先使用全局平均池化來(lái)壓縮空間信息,然后使用2個(gè)全連接層將學(xué)到的權(quán)重特征映射到標(biāo)記空間,最后使用Softmax函數(shù),將注意力機(jī)制參數(shù)取值限制在0~1之間,并將所有注意力機(jī)制的和限制為1。以α為例,鄰接矩陣權(quán)重系數(shù)計(jì)算公式為
(6)
式中:FC為全連接層;fave為平均池化后的輸入特征圖。
為了對(duì)多個(gè)鄰接矩陣和注意力權(quán)重進(jìn)行聯(lián)合優(yōu)化,在訓(xùn)練初期將α的值設(shè)為1,將β,γ的值設(shè)為0。
為了提升關(guān)鍵幀、骨架點(diǎn)在判斷行為時(shí)的權(quán)重,并降低光照強(qiáng)度和視頻質(zhì)量對(duì)行為識(shí)別的影響,提出了時(shí)間-關(guān)鍵點(diǎn)動(dòng)態(tài)注意力模塊。
引入時(shí)間注意力機(jī)制來(lái)區(qū)分每一個(gè)時(shí)間序列對(duì)于判斷行為的重要程度。為了計(jì)算時(shí)間注意力,對(duì)通道維度使用最大池化和全局平均池化聚合通道信息,得到只保留時(shí)間和關(guān)鍵點(diǎn)特征的特征圖Fave和Fmax。將特征圖Fave和Fmax拼接后通過(guò)一個(gè)標(biāo)準(zhǔn)卷積層卷積,卷積核大小為t×1(與TCN保持一致),生成時(shí)間注意力特征ωt。
ωt=σ{Convt×1[cat(Fave;Fmax)]}
(7)
式中:σ為sigmoid函數(shù);Convt×1為卷積核大小是t×1的卷積運(yùn)算;cat為拼接函數(shù),將Fave和Fmax拼接到一起。
關(guān)鍵點(diǎn)注意力與時(shí)間注意力設(shè)置方式較為相似,在拼接后通過(guò)一個(gè)標(biāo)準(zhǔn)卷積層卷積,卷積核大小為1×v,生成關(guān)鍵點(diǎn)注意力特征ωv。
ωv=σ{Conv1×v[cat(Fave;Fmax)]}
(8)
實(shí)驗(yàn)采用64位Ubuntu 16.04操作系統(tǒng),搭載4塊NVIDIA 1080Ti GPU,采用CUDA 9.0運(yùn)算平臺(tái),在Pytorch 0.4.1框架下進(jìn)行訓(xùn)練。使用隨機(jī)梯度下降法優(yōu)化模型。選擇交叉熵?fù)p失函數(shù)作為反向傳播梯度的損失函數(shù)。
將DA-GCN分別在標(biāo)準(zhǔn)公開(kāi)數(shù)據(jù)集NTU-RGBD和自制的Cumt-Action數(shù)據(jù)集上進(jìn)行測(cè)試。
以煤礦人員的站立、行走、坐、跨越和操作設(shè)備5類(lèi)行為動(dòng)作為基礎(chǔ)制作數(shù)據(jù)集Cumt-Action,該數(shù)據(jù)集包括750個(gè)行為視頻,每個(gè)視頻時(shí)長(zhǎng)為10 s,其中600個(gè)行為視頻(每個(gè)動(dòng)作120個(gè))為訓(xùn)練集,150個(gè)行為視頻(每個(gè)動(dòng)作30個(gè))為測(cè)試集。煤礦人員動(dòng)作如圖3所示。





圖3 Cumt-Action煤礦人員數(shù)據(jù)集部分動(dòng)作樣例Fig.3 Actions of the Cumt-Action coal mine personnel dataset
將視頻的分辨率調(diào)整為640×480,將幀率轉(zhuǎn)換為30幀/s,制作的每段視頻內(nèi)由一個(gè)或多個(gè)煤礦工人做相同的動(dòng)作。使用Openpose算法計(jì)算視頻內(nèi)每個(gè)人體的18個(gè)關(guān)鍵點(diǎn)坐標(biāo)(x,y)和關(guān)鍵點(diǎn)的置信度z,生成單幀下的18組數(shù)據(jù)(x,y,z)。對(duì)于多人的情況,只選取平均置信度最高的2個(gè)人進(jìn)行關(guān)鍵點(diǎn)信息保存。
NTU-RGBD數(shù)據(jù)集包含日常行為、相互行為和與健康相關(guān)行為,共有56 880個(gè)動(dòng)作樣本。每個(gè)動(dòng)作樣本均包含原始視頻、深度圖序列、3D骨架數(shù)據(jù)以及紅外視頻。
4.3.1 Cumt-Action數(shù)據(jù)集實(shí)驗(yàn)
在Cumt-Action數(shù)據(jù)集上對(duì)DA-GCN進(jìn)行實(shí)驗(yàn)驗(yàn)證,采用準(zhǔn)確率和召回率作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表1。由表1可知,DA-GCN在Cumt-Action數(shù)據(jù)集上識(shí)別站立動(dòng)作的準(zhǔn)確率最高,識(shí)別行走動(dòng)作的召回率最高。結(jié)果證明了DA-GCN的良好效果。

表1 Cumt-Action數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn)結(jié)果Table 1 The verification results of Cumt-Action dataset %
4.3.2 NTU-RGBD數(shù)據(jù)集實(shí)驗(yàn)
在NTU-RGBD數(shù)據(jù)集上對(duì)基于DA-GCN的行為識(shí)別方法進(jìn)行實(shí)驗(yàn)。訓(xùn)練時(shí),將模型的初始學(xué)習(xí)率設(shè)為0.1,迭代次數(shù)設(shè)為50,并在迭代次數(shù)達(dá)到30和40時(shí)對(duì)學(xué)習(xí)率進(jìn)行衰減調(diào)整。
與Deep LSTM[7],TCN[11],ST-GCN[8],HCN[12],AS-GCN[13]以及ST-GR[14]算法進(jìn)行對(duì)比,結(jié)果見(jiàn)表2。采用Cross Subject(CS)和Cross-View(CV)為2種評(píng)估協(xié)議對(duì)數(shù)據(jù)集進(jìn)行驗(yàn)證。CS評(píng)估協(xié)議由20名受試者完成的動(dòng)作構(gòu)成訓(xùn)練集,其余20名受試者完成的動(dòng)作用于測(cè)試。對(duì)于CV評(píng)估協(xié)議,前2個(gè)攝像頭捕獲的樣本用于訓(xùn)練,其余用于測(cè)試。由表2可知,根據(jù)評(píng)估協(xié)議CS和CV,DA-GCN在NTU-RGBD數(shù)據(jù)集上的準(zhǔn)確率分別為87.6%,95.0%。

表2 NTU-RGBD數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn)結(jié)果Table 2 The verification results of NTU-RGBD dataset %
為了進(jìn)一步驗(yàn)證DA-GCN多個(gè)模塊的有效性,選用CS評(píng)估協(xié)議,在NTU-RGBD數(shù)據(jù)集上分別檢驗(yàn)D-GCN以及動(dòng)態(tài)注意力機(jī)制的有效性。
在驗(yàn)證D-GCN效果時(shí),將DA-GCN中的卷積核還原為2S-AGCN模型中的A-GCN分支,并在NTU-RGBD數(shù)據(jù)集上計(jì)算CS分?jǐn)?shù)。D-GCN實(shí)驗(yàn)驗(yàn)證結(jié)果見(jiàn)表3,使用D-GCN后準(zhǔn)確率提高到了87.2%,證明了D-GCN的有效性。

表3 D-GCN實(shí)驗(yàn)驗(yàn)證結(jié)果Table 3 The verification results of D-GCN %
為了驗(yàn)證動(dòng)態(tài)注意力機(jī)制的有效性,驗(yàn)證了將動(dòng)態(tài)注意力添加到2S-AGCN模型中的A-GCN分支的準(zhǔn)確率。動(dòng)態(tài)注意力機(jī)制模塊實(shí)驗(yàn)驗(yàn)證結(jié)果見(jiàn)表4,可以看出,動(dòng)態(tài)注意力機(jī)制將原模型準(zhǔn)確率提高到了87.0%,證明了該模塊的有效性。同時(shí)在實(shí)驗(yàn)的過(guò)程中,注意力機(jī)制加快了收斂速度,降低了網(wǎng)絡(luò)擬合時(shí)間,對(duì)于模型的訓(xùn)練速度有顯著提高。

表4 動(dòng)態(tài)注意力機(jī)制模塊實(shí)驗(yàn)驗(yàn)證結(jié)果Table 4 The verification results of dynamic attentionmechanism module %
提出了一種基于DA-GCN的煤礦人員行為識(shí)別方法。采用Openpose算法提取輸入視頻的人體關(guān)鍵點(diǎn),得到3個(gè)維度,18個(gè)坐標(biāo)的人體關(guān)鍵點(diǎn)信息,降低模糊背景信息的干擾;通過(guò)D-GCN提取人體關(guān)鍵點(diǎn)的空間特征,通過(guò)TCN提取人體關(guān)鍵點(diǎn)的時(shí)間特征,提高網(wǎng)絡(luò)對(duì)不同動(dòng)作的泛化能力;使用動(dòng)態(tài)注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對(duì)于動(dòng)作關(guān)鍵幀、關(guān)鍵骨架的注意力程度,進(jìn)一步緩解視頻質(zhì)量不佳帶來(lái)的影響;使用Softmax分類(lèi)器進(jìn)行動(dòng)作分類(lèi)。通過(guò)場(chǎng)景分析,將井下行為分為站立、行走、坐、跨越和操作設(shè)備5種類(lèi)型,構(gòu)建適用于煤礦場(chǎng)景的Cumt-Action數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,DA-GCN在Cumt-Action數(shù)據(jù)集的最高準(zhǔn)確率達(dá)到99.3%,最高召回率達(dá)到98.6%;與其他算法相比,DA-GCN在Cumt-Action數(shù)據(jù)集和公共數(shù)據(jù)集NTU-RGBD上均具有較高的識(shí)別準(zhǔn)確率,證明了DA-GCN優(yōu)秀的行為識(shí)別能力。