閆雨寒 陳 天 劉忠育 劉曉文
(中國礦業(yè)大學(xué)物聯(lián)網(wǎng)(感知礦山)研究中心 江蘇 徐州 221008) (中國礦業(yè)大學(xué)信息與控制工程學(xué)院 江蘇 徐州 221008)
行為識別在人機交互、目標檢測、視頻描述等多個領(lǐng)域具有巨大的應(yīng)用潛力和價值,然而由于視頻數(shù)據(jù)中存在運動風(fēng)格復(fù)雜、背景雜亂、光照環(huán)境復(fù)雜等問題[1-2],如何準確提取人員行為的時空特征并識別是目前極具挑戰(zhàn)性的任務(wù)。
基于視頻數(shù)據(jù)的行為識別需要考慮單幀圖像的靜態(tài)特征以及連續(xù)多幀圖像之間的動態(tài)特征,在深度學(xué)習(xí)方法取得突破性進展之前,手動提取特征獲取人員行為的時空特征是行為識別的通常做法。受益于深度學(xué)習(xí)方法在特征提取方面的獨特優(yōu)勢,目前利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻數(shù)據(jù)中的深度特征并實現(xiàn)行為識別的方法主要包括雙流CNN、C3D、CNN-LSTM等。Han等[3]在ImageNet上對深度殘差網(wǎng)絡(luò)進行預(yù)訓(xùn)練的基礎(chǔ)上提出了一種深層雙流卷積模型用于學(xué)習(xí)動作的復(fù)雜信息,在UCF101和KTH數(shù)據(jù)集上取得了良好效果。Yang等[4]利用3D卷積能夠有效從視頻數(shù)據(jù)中提取時空特征的優(yōu)勢,提出一種用于行為識別的非對稱3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在預(yù)處理階段融合了RGB圖像和光流圖像的有效信息。Ullah等[5]將具有人類顯著活動特征的視頻鏡頭用于FlowNet2-CNN網(wǎng)絡(luò)來提取時間特征,最后通過多層LSTM學(xué)習(xí)時間光流特征實現(xiàn)行為識別。
CNN作為特征提取的有效深度模型,通常被應(yīng)用于二維圖像,然而2DCNN沒有考慮多個連續(xù)幀之間的時間動態(tài)信息。3DCNN通過在輸入的同一位置進行三維卷積,能夠有效捕獲空間和時序特征,同時具有時間注意力模塊的雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)能夠充分獲取上下文信息。在此基礎(chǔ)上,本文提出一種基于雙重注意力和3DResNet-BiLSTM的混合模型用于行為識別。首先將原始視頻的連續(xù)幀作為3DResNet的輸入,并利用卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)聚焦空間和通道特征,抑制無關(guān)信息,為了更好地保留特征提取時的背景信息,提出一種加權(quán)池化融合系數(shù)對CBAM進行改進。隨后利用嵌入時間注意力的BiLSTM進一步捕獲時序特征實現(xiàn)行為識別。與基線模型相比,所提模型在UCF101和HMDB51數(shù)據(jù)集上的識別效果均具有較為明顯的提升。
2DCNN通常在卷積層上進行二維卷積操作,從上一層的特征圖中提取局部感受野中的特征,在應(yīng)用加性偏置后通過非線性激活函數(shù)得到當前卷積層的輸出特征圖。在池化層中,通過下采樣減少特征尺寸,增強不變性。CNN模型通常以交替疊加多個卷積層和池化層的方式構(gòu)建,利用反向傳播算法實現(xiàn)權(quán)重參數(shù)更新。
由于2DCNN僅從空間維度計算特征,當對視頻數(shù)據(jù)進行分析時,需要捕獲多個連續(xù)視頻幀中的動態(tài)時序信息,因此需要在卷積層進行3D卷積來計算空間和時間維度特征。3D卷積通過一個三維卷積核對多個連續(xù)幀疊加構(gòu)成的立方體進行卷積,將卷積層中的特征圖連接到前一層中的多個相鄰幀來獲取時序信息[6]。通常第i層網(wǎng)絡(luò)中第j個特征圖在(x,y,z)位置進行3D卷積的值可表示為:
(1)


圖1 殘差學(xué)習(xí)結(jié)構(gòu)示意圖
遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過將輸入序列映射到隱藏層,再將隱藏層狀態(tài)映射到輸出,其計算過程可表示為:
ht=σ(Wxhxt+Whhht-1+bh)
(2)
zt=σ(Whzht+bz)
(3)
式中:σ(·)表示激活函數(shù);xt表示輸入序列;ht∈RN表示具有N個隱藏單元的隱藏層狀態(tài);zt表示t時刻的輸出;W和b分別表示權(quán)重矩陣和加性偏置。
RNN能夠?qū)⑸舷挛男畔⑷谌氲綇妮斎氲捷敵龅挠成渲校窃趯W(xué)習(xí)長期序列信息的過程中存在梯度消失或梯度爆炸的問題,導(dǎo)致其難以實現(xiàn)學(xué)習(xí)長期依賴。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是RNN的改進算法,通過輸入門、遺忘門、輸出門三個門控單元對信息流進行控制,有效克服了RNN存在的問題[7-8]。BiLSTM分別由前向LSTM和后向LSTM構(gòu)成,能夠有效獲取上下文信息。LSTM的單元結(jié)構(gòu)如圖2所示。

圖2 LSTM 單元結(jié)構(gòu)
LSTM單元狀態(tài)更新過程如下。
it=σ(Wxixt+Whiht-1+bi)
(4)
ft=σ(Wxfxt+Whfht-1+bf)
(5)
ot=σ(Wxoxt+Whoht-1+bo)
(6)
gt=tanh(Wxcxt+Whcht-1+bc)
(7)
ct=ct-1·ft+gt·it
(8)
ht=ot·tanh(ct)
(9)
式中:it、ft、ot、gt、ct、ht∈RN分別表示輸入門、遺忘門、輸出門、輸入調(diào)制門、記憶存儲單元和隱藏單元。由于it、ft、ot均為S形的,取值范圍均在[0,1]之間,因此it和ot用于控制狀態(tài)信息的輸入和輸出,ft決定了上一單元中哪些狀態(tài)信息會被遺忘。
對于給定的輸入三維特征圖F∈RT×H×W×C,H和W分別表示特征圖的長和寬,C表示通道數(shù)量,T表示時間尺度。依次沿通道和空間分別生成注意力特征權(quán)重Mc和Ms,然后對t時刻特征圖Ft進行重標定[9],其過程可表示為:
(10)
(11)

圖3 卷積塊注意力模塊示意圖

Mc(Ft)=σ(MLP(Avg(Ft)))=
(12)


圖4 通道注意力模塊算法流程示意圖
由于3D卷積需要同時考慮連續(xù)幀之間的時空信息,提取特征時的背景信息變得更為重要,因此在擠壓操作中通常利用平均池化保留細節(jié)信息。而最大池化能夠保留紋理信息,為了同時獲得平均池化和最大池化的優(yōu)勢,提出利用融合系數(shù)對擠壓操作中的平均池化和最大池化進行加權(quán)融合。設(shè)最大池化融合系數(shù)為λ,則對通道注意力的最大池化操作應(yīng)用融合系數(shù)得到:
Mc(Ft)=σ(MLP(Avg(Ft))+λ·MLP(Max(Ft)))=
(13)
空間注意力利用特征之間的空間關(guān)系生成空間注意力特征圖,用于聚焦特征圖中的重要信息。首先沿通道維度應(yīng)用平均池化進行擠壓操作生成空間描述符,通過卷積層后構(gòu)建出空間注意力特征權(quán)重Ms,最后將特征圖Ft與空間特征權(quán)重Ms逐元素相乘得到空間注意力特征圖。其計算過程可表示為:
Ms(Ft)=σ(f7×7(AvgPool(Ft)))=
(14)
式中:σ(·)表示S型函數(shù);f7×7(·)表示卷積核大小為7×7的卷積運算。
空間注意力模塊算法流程如圖5所示。

圖5 空間注意力模塊算法流程示意圖
軟注意力機制通過模擬視覺注意力的分配過程,最大化相關(guān)上下文編碼信息,減少無關(guān)信息的影響。對輸入特征向量集合X中的任一向量xi,時間注意力權(quán)重的計算過程如下:
(15)
式中:f(x)=WTX為評價函數(shù),用于反映特征的時序重要性,W為模型參數(shù)。注意力模塊的輸出為輸入序列的加權(quán)和,利用注意力權(quán)重融合特征向量得到具有時間關(guān)注度的輸出特征Xa。
(16)
本文提出一種基于卷積和時間雙重注意力的3DRAN-BiLSTM-Attention模型。其中,三維殘差注意力網(wǎng)絡(luò)(3D Residual Attention Network,3DRAN)通過在ResNet網(wǎng)絡(luò)中的第一個卷積層和最后一個卷積層后嵌入CBAM構(gòu)建得到,殘差注意力單元結(jié)構(gòu)如圖6所示。3DRAN中卷積層卷積核大小均為3×3×3,同時利用具有通道加權(quán)融合的CBAM聚焦空間和通道特征,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。將16個連續(xù)幀作為3DRAN的輸入提取視頻的時空特征,作為BiLSTM模型輸入。

圖6 殘差注意力模塊結(jié)構(gòu)
在解碼部分,BiLSTM分別利用前向和后向隱藏層節(jié)點獲取全局上下文信息,得到輸入特征序列H={h1,h2,…,hn-1,hn}。利用軟注意力模塊獲取特征序列的權(quán)重分布,使關(guān)鍵特征信息具有更高的注意力權(quán)重,能夠更好地聚焦重要時序特征,從而得到注意力加權(quán)特征序列A={a1,a2,…,an-1,an}。具體結(jié)構(gòu)如圖7所示。

圖7 具有時間注意力的BiLSTM模型結(jié)構(gòu)
最后,結(jié)合3DRAN和具有時間注意力的BiLSTM構(gòu)建用于行為識別的混合模型,其整體結(jié)構(gòu)如圖8所示。

圖8 雙重注意力和3DResNet-BiLSTM模型結(jié)構(gòu)
分別利用UCF101和HMDB51公共數(shù)據(jù)集進行實驗。UCF101從YouTube上收集得到的真實動作數(shù)據(jù)集,共包含101個類別的13 320個短視頻。HMDB51中的視頻來自電影片段和一些在線視頻網(wǎng)站,共包含55個類別6 849個短視頻。兩個數(shù)據(jù)集的70%用于訓(xùn)練,30%用于測試。
本文實驗運行環(huán)境為Intel Core i7-8700K,主頻為3.70 GHz的6核心12線程CPU,16 GB內(nèi)存,GPU為GTX1080Ti。首先對訓(xùn)練數(shù)據(jù)集利用水平翻轉(zhuǎn)、隨機剪裁、亮度調(diào)整等方式進行擴充,并從視頻中隨機選取16個連續(xù)幀,如果視頻長度不夠則進行循環(huán)播放和選取,最后將所有視頻幀的大小調(diào)整為112×112,因此模型的輸入尺寸為16×3×112×112,batch-size大小為256。為了減少模型過擬合,使用動量為0.9的隨機梯度下降算法在Kinetics數(shù)據(jù)集上對3DRAN進行預(yù)訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.01,當驗證損失達到飽和后將學(xué)習(xí)率除以10。最后將預(yù)訓(xùn)練的3DRAN與具有時間注意力的BiLSTM結(jié)合構(gòu)建得到本文的實驗?zāi)P汀?/p>
為了驗證本文模型的有效性,分別設(shè)計了三組實驗。首先第一組實驗利用不同深度的嵌入卷積注意力的殘差網(wǎng)絡(luò)結(jié)構(gòu)用于3D特征提取,對比不同深度模型的識別效果。由表1結(jié)果可以看出,隨著殘差注意力網(wǎng)絡(luò)的加深,識別準確率呈上升趨勢,表明深度網(wǎng)絡(luò)能夠提取到更多有效特征。

表1 具有不同深度殘差結(jié)構(gòu)的模型識別準確率(%)
卷積和時間注意力模塊都是靈活的通用模塊,其中卷積注意力模塊能夠利用通道和空間注意力模塊的多種不同的組合順序?qū)崿F(xiàn)。第二個實驗中對不同組合方式實現(xiàn)的注意力模型進行實驗,并與無卷積和時間注意力的基礎(chǔ)模型進行對比。為了節(jié)約計算資源和時間,均以3DResNet18為基礎(chǔ)進行實驗,實驗結(jié)果如表2所示。結(jié)果表明,單通道注意力的效果要優(yōu)于單個空間注意力模塊,均好于基礎(chǔ)模型。當同時使用通道和空間注意力時,通道注意力在前的順序結(jié)構(gòu)具有最好的識別效果。并且具有卷積注意力的模型在兩個數(shù)據(jù)集上的識別效果與基礎(chǔ)模型相比分別提升了1.7百分點和2.2百分點,說明卷積注意力模塊能夠有效抑制背景運動。此外,僅使用時間注意力的模型的識別效果要略低于僅使用卷積注意力的模型,這是因為Att-BiLSTM要依賴于3DResNet18提取的特征。

表2 不同注意力結(jié)構(gòu)的模型識別準確率(%)
最后與其他流行的網(wǎng)絡(luò)結(jié)構(gòu)進行對比,由于模型訓(xùn)練和評估耗時較長,我們直接引用其他論文的實驗結(jié)果。為了保證公平性,所有實驗均采用RGB幀作為輸入,結(jié)果如表3所示。可以看出,本文模型在UCF101和HMDB51數(shù)據(jù)集上的識別準確率分別達到92.7%和64.8%,要明顯優(yōu)于標準C3D、P3D、3DResNet101等模型。并且具有加權(quán)融合的通道注意力模型較上述模型的識別準確率分別提升了0.4百分點和1.1百分點,表明通過最大池化捕獲特征紋理信息能夠在一定程度上提升3DResNet的時空特征提取能力。此外,I3D的性能較好于本文模型,因為I3D采用的224×224大小的視頻幀作為輸入,包含了更多的特征信息,同時也使得I3D參數(shù)量較大,計算復(fù)雜度較高。

表3 不同模型的識別準確率對比(%)
本文提出一種基于雙重注意力和3DResNet-BiLSTM的行為識別算法。3DResNet借助殘差結(jié)構(gòu)不會顯著增加計算成本,將卷積注意力模塊嵌入3DResNet模型中,聚焦重要特征信息而抑制無關(guān)信息。并且采用兩種池化加權(quán)融合方式計算通道注意力能夠在保留背景細節(jié)信息的同時獲得紋理信息,有效提高了網(wǎng)絡(luò)的時空特征學(xué)習(xí)能力。最后利用具有時間注意力的BiLSTM模型能夠進一步學(xué)習(xí)時序信息從而實現(xiàn)行為識別。在UCF101和HMDB51數(shù)據(jù)集上進行的多組實驗表明,在僅使用RGB幀作為輸入的情況下,本文模型能夠分別達到93.1%和65.9%的識別準確率。