武東輝, 許靜, 陳繼斌, 孫彥璽, 仇森
(1.鄭州輕工業(yè)大學(xué)建筑環(huán)境工程學(xué)院, 鄭州 450002; 2.大連理工大學(xué)控制科學(xué)與工程學(xué)院, 大連 116024)
目前,人體行為識別(human activity recognition,HAR)已經(jīng)成為計算機(jī)視覺領(lǐng)域最活躍的研究課題之一,并且在智能監(jiān)控、視頻檢索、智能家居、人機(jī)交互和智慧養(yǎng)老等方面得到了廣泛的應(yīng)用[1-4]。近年來,深度學(xué)習(xí)方法逐漸出現(xiàn)在人體行為識別領(lǐng)域[5],與傳統(tǒng)方法相比,深度學(xué)習(xí)方法可以從較低的層次特征中自動提取到更抽象的高層次特征來描述人的行為,使特征更具魯棒性。卷積神經(jīng)網(wǎng)絡(luò)(convolutional netral network,CNN)和長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)是兩種常用的解決問題的網(wǎng)絡(luò),很多學(xué)者都在此基礎(chǔ)上構(gòu)建了模型[6-7]。Li等[8]提出了一種基于CNN融合模型的人體行為識別方法,CNN融合模型允許分層學(xué)習(xí)空間特征,提供更好的動作識別性能,在3個公共數(shù)據(jù)集的實驗結(jié)果較好,但該方法僅考慮了數(shù)據(jù)的空間信息,而沒有充分考慮人體行為識別具有的時序性。Zheng等[9]提出了一種基于LSTM的遞歸神經(jīng)網(wǎng)絡(luò)算法來實現(xiàn)行為模式的識別,該算法在公共數(shù)據(jù)集上的實驗結(jié)果表明,基于LSTM的方法是可行的,但LSTM主要是基于時序特征的提取,而對于信號具有的空間信息挖掘不充分。陳馨瑤等[10]提出一種將CNN和LSTM融合的復(fù)合模型,鄒小武等[11]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)(bidirectional LSTM,BiLSTM)模型的人體行為識別方法,以及孫彥璽等[12]提出了基于時空特征融合的深度學(xué)習(xí)模型(convolutional neural network-long short term memory network-attention mechanism,CLT-net),能夠提取豐富的空時融合特征,并對時間連續(xù)的行為動作獲得了較高的識別性,但對于提取的特征都是基于相同權(quán)重的處理,而實際上不同的特征對于識別結(jié)果的影響通常具有不同的權(quán)值。
注意力機(jī)制(attention mechanism,AT)[13]是一種自動加權(quán)機(jī)制,它可以將不同模塊通過加權(quán)的形式進(jìn)行聯(lián)系,迫使模型學(xué)會將注意力集中在輸入序列的特定部分。朱銘康等[14]提出了一種基于BiLSTM_Attention模型的人體行為識別算法,由于注意力機(jī)制的引入,該算法能夠根據(jù)行為的前后關(guān)系實現(xiàn)更精確的識別,在Action Youtobe和KTH數(shù)據(jù)集上的實驗結(jié)果表明,該算法有效地提高了行為識別率。張海超等[15]提出了一種融合注意力的輕量級行為識別網(wǎng)絡(luò),該網(wǎng)絡(luò)引入通道注意力建模通道之間的相關(guān)性而定位關(guān)鍵特征。陳瑩等[16]提出了矩陣操作的時空交互和深度可分離卷積兩種改進(jìn)的通道注意力模塊,并將此模塊插入現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò),實現(xiàn)了識別正確率的提升。
綜上所述,盡管國內(nèi)在計算機(jī)視覺領(lǐng)域取得了系列成果,但在分類模型與仿真方面還有待深入。為此,現(xiàn)提出一種融合注意力機(jī)制與時空網(wǎng)絡(luò)(CLA-net)人體行為識別模型,該模型由CNN和LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,得到豐富的時間和空間上的特征信息,并且在LSTM神經(jīng)網(wǎng)絡(luò)中增加注意力機(jī)制,進(jìn)一步提升網(wǎng)絡(luò)的識別準(zhǔn)確率,最后使用Softmax分類器得到每個行為的最后得分。
CNN網(wǎng)絡(luò)為近年來深度學(xué)習(xí)領(lǐng)域最受歡迎、應(yīng)用最廣泛模型之一。主要由卷積層、池化層和全連接層組成。卷積層和池化層用于特征工程,卷積層是特征提取的過程,通過對輸入數(shù)據(jù)進(jìn)行卷積運算提取局部特征,降低了原始數(shù)據(jù)的維度。池化層是對特征的篩選過程,通過去掉部分特征進(jìn)行特征降維。全連接層用于特征加權(quán),相當(dāng)于CNN網(wǎng)絡(luò)的“分類器”。CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
卷積核與輸入數(shù)據(jù)先相乘再對應(yīng)求和的過程稱之為卷積運算,其具體運算過程為
(1)
式(1)中:G為卷積層的輸入數(shù)據(jù);w為卷積核的權(quán)重參數(shù);C、W、H分別為卷積核的通道數(shù)、寬、高。
卷積層中還會加入激活函數(shù),完成非線性運算。選用Leaky Relu函數(shù)作為激活函數(shù),它是用于解決Dead Relu問題的激活函數(shù),其公式為

(2)
LeakyRelu函數(shù)通過把x的非常小的線性分量給予負(fù)輸入ax來調(diào)整負(fù)值的零梯度問題,a為非常小的正數(shù)。

圖1 CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 CNN network structure

門控單元為
ft=σ(Wfxt+Ufht-1+bf)
(3)
it=σ(Wixt+Uiht-1+bi)
(4)
ot=σ(Woxt+Uoht-1+bo)
(5)
記憶單元為

(6)

ht為時間序列的輸出;xt為時間序列的輸入;t為時間圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 LSTM network structure
(7)
輸出狀態(tài)為
ht=ottanhct
(8)
式中:Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門、候選單元的輸入權(quán)值向量;Uf、Ui、Uo、Uc分別為各個門控單元的循環(huán)權(quán)值向量;bf、bi、bo、bc分別為各個門控單元的偏置向量;σ為sigmoid激活函數(shù),值域為[0,1],其表達(dá)式為
(9)
注意力機(jī)制是一種類似人類視覺所特有的大腦信號處理機(jī)制,可以對事物不同部分賦予不同的權(quán)重,從而降低其無關(guān)部分的作用。本文研究通過Attention機(jī)制賦予LSTM神經(jīng)網(wǎng)絡(luò)輸出的隱藏層向量不同的權(quán)重,突出一些重要特征,從而使整個神經(jīng)網(wǎng)絡(luò)能表現(xiàn)出更好的性能。Attention機(jī)制結(jié)構(gòu)如圖3所示。

圖3 Attention 機(jī)制結(jié)構(gòu)Fig.3 Attention model structure
圖3中H1,H2,…,Hn表示LSTM神經(jīng)網(wǎng)絡(luò)每個時間步輸出的隱藏層向量,作為Key,n為時間步;最后一個時間步輸出的隱藏層向量Hn作為Query。計算過程為
mi=α(Hi,Hn)
(10)
(11)
(12)
首先,通過一個學(xué)習(xí)函數(shù)α計算Query與每一個Key之間的相關(guān)性大小,得到每個時間步輸出的隱藏層Hi的相似度得分mi,然后通過softmax函數(shù)對相似度得分mi進(jìn)行歸一化處理,得到每個Hi的注意力權(quán)值ai,最后算出ai與Hi乘積并求和得到上下文向量c(context vector)。
針對CNN在特征提取上的優(yōu)勢和LSTM神經(jīng)網(wǎng)絡(luò)在時間序列方面的優(yōu)勢,且人體行為識別就是將人體某些部位在三維空間中的加速度、角速度、角度等時間序列進(jìn)行分類識別,本文研究提出了融合注意力與時空網(wǎng)絡(luò)(CLA-net)的人體行為識別方法。CLA-net主要包括3個部分:CNN、LSTM神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,其整體結(jié)構(gòu)如圖4所示。

圖4 CLA-net整體結(jié)構(gòu)Fig.4 Overall structure of CLA-net
如圖4所示,該模型首先通過CNN提取由慣性傳感器采集到的人體行為時序數(shù)據(jù)的高級特征,并將其作為LSTM神經(jīng)網(wǎng)絡(luò)的輸入。然后由LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人體行為類別與輸入特征的非線性關(guān)系以及人體行為序列存在的時序依賴性。最后利用注意力機(jī)制,賦予重要時刻行為數(shù)據(jù)較大的權(quán)重,并通過全連接層(fully connected layer,fc)和輸出層得到輸入行為數(shù)據(jù)樣本的預(yù)測類別。因此該模型旨在獲取行為類別和行為數(shù)據(jù)的映射關(guān)系。其具體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
如表1所示,該模型主要含8層結(jié)構(gòu)。第1層為輸入層,輸入格式為(B1HW)的人體行為數(shù)據(jù),其中B為批量數(shù),表示每次送入模型的樣本數(shù),通道數(shù)為1,H和W分別表示輸入數(shù)據(jù)的高和寬。第2~4層為卷積核個數(shù)分別為K1、K2、K3的CNN層,每個CNN層都由批歸一化層(batch normalization, BN)、激活層(leaky relu)、CNN層和最大池化層(maxpooling)組成,用于提取輸入數(shù)據(jù)的特征信息,輸出數(shù)據(jù)的格式分別為(BK1H1W1)、(BK2H2W2)、(BK3H3W3)。第5層為LSTM神經(jīng)網(wǎng)絡(luò)層,其LSTM隱藏單元的個數(shù)為N,用于學(xué)習(xí)人體行為類別和特征之間的非線性關(guān)系和人體行為序列的時序依賴性,輸出格式為(BLN)的隱藏狀態(tài)。第6層為注意力機(jī)制層,注意力機(jī)制獲取每個時刻行為數(shù)據(jù)的權(quán)重并對LSTM神經(jīng)網(wǎng)絡(luò)輸出的隱藏狀態(tài)進(jìn)行加權(quán)。第7層為全連接層,全連接層將篩選后得到的人體行為特征通過權(quán)重矩陣映射至樣本標(biāo)記空間。模型最后為輸出層,將softmax分類器作為輸出層,得到取值在0~1的實數(shù),并且歸一化保證和為1。

表1 CLA-net網(wǎng)絡(luò)結(jié)構(gòu)Table 1 CLA-net network structure
在計算機(jī)硬件方面,本實驗在 Windows10 專業(yè)版 64 位的操作系統(tǒng)下進(jìn)行深度學(xué)習(xí)的模型訓(xùn)練,配置為Intel(R) Core(TM) i5-7500 CPU@3.40 GHz,16 GB的內(nèi)存。在軟件配置方面,本文模型使用Python代碼進(jìn)行編寫。
UCI HAR(University of California,Irvine, Human Action Recognition )數(shù)據(jù)集[18]由意大利熱那亞大學(xué)非線性復(fù)雜系統(tǒng)實驗室發(fā)布。該數(shù)據(jù)集的采集有30名健康受試者參與(年齡在19~48歲),數(shù)據(jù)采集時將智能手機(jī)固定在實驗參與者的腰部,利用手機(jī)中的嵌入式加速度計和陀螺儀采集6種行為數(shù)據(jù)(行走、上樓、下樓、坐、站、躺),采樣率50 Hz。該數(shù)據(jù)集已經(jīng)經(jīng)過滑動窗口處理,窗長128,50%的重疊率,共有10 299個樣本,并且進(jìn)行了隨機(jī)劃分,其中70%作為訓(xùn)練集,30%是測試集。
DaLiAc(daily life activities)數(shù)據(jù)集[19]由德國埃爾朗根-紐倫堡大學(xué)計算機(jī)科學(xué)系,數(shù)字體育組,模式識別實驗室進(jìn)發(fā)布,該數(shù)據(jù)集的采集實驗有19名健康受試者參與(年齡18~34歲),數(shù)據(jù)采集時將4個6軸可穿戴傳感器節(jié)點分別放置在實驗參與者右臀、胸前、右手腕和左腳踝,利用可穿戴傳感器采集13種行為數(shù)據(jù)[坐、躺、站、洗盤子、吸塵、掃地、步行、上樓、下樓、跑步機(jī)上跑步、測功單車騎車(50 W)、測功單車騎車(100 W)、跳繩],采集率204.8 Hz。采用滑動窗口技術(shù)實現(xiàn)樣本分割,窗長設(shè)為410,重疊率設(shè)為50%,共有22 860個樣本,其中80%作為訓(xùn)練集,20%作為測試集。分別在上述2個數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,以驗證本文所提算法的有效性。
由上文可知CLA-net的超參數(shù)為3層CNN層的卷積核個數(shù)K1、K2、K3和LSTM單元的個數(shù)N。為了得到最優(yōu)的超參數(shù),進(jìn)行了大量實驗。結(jié)果表明,當(dāng)K1=32、K2=128、K3=64和N=64時,模型取得了最高的分類準(zhǔn)確率。因此,設(shè)置3層CNN層卷積核的個數(shù)分別為32、128、64,LSTM層的隱藏單元個數(shù)為64。另外,卷積核大小分別為(1,11)、(1,9)、(1,7),步長均為(1,2),Padding分別為(0,5)、(0,4)、(0,3),且在每層CNN層之前依次添加批歸一化層(BN)、激活層,之后添加最大池化層,并設(shè)置最大池化層的窗口長度為(1,3),池化步長為(1,2)。在神經(jīng)網(wǎng)絡(luò)正向傳播的過程中,采用交叉熵作為模型的損失函數(shù)。誤差反向傳播時,使用Adam優(yōu)化方法更新神經(jīng)網(wǎng)絡(luò)的權(quán)重與偏置。設(shè)置模型訓(xùn)練的批次大小為128,學(xué)習(xí)率的初值為0.001、衰減乘法因子為0.99,迭代次數(shù)為100次。
實驗結(jié)果以識別準(zhǔn)確率和F1進(jìn)行評價,其中準(zhǔn)確率分為總體識別準(zhǔn)確率和各類行為識別準(zhǔn)確率,總體識別準(zhǔn)確率為識別正確的樣本數(shù)量與樣本總數(shù)的百分比,各類行為識別準(zhǔn)確率為該類行為識別正確的樣本數(shù)量與該類別樣本總數(shù)的百分比,F(xiàn)1為精確率和召回率的調(diào)和平均值。具體計算過程為
(13)
(14)
(15)
(16)
式中:TP+TN+FP+PN為測試集中樣本總數(shù);TP為真正類,表示樣本的真實類別為正類,模型預(yù)測類別為正類,即正類被預(yù)測正確;FP為假正類,表示樣本的真實類別為負(fù)類,模型預(yù)測類別為正類,即負(fù)類被預(yù)測錯誤;TN為真負(fù)類,表示樣本的真實類別為負(fù)類,模型預(yù)測類別為負(fù)類,即負(fù)類被預(yù)測正確;FN為假負(fù)類,表示樣本的真實類別為正類,模型預(yù)測類別為負(fù)類,即正類被預(yù)測錯誤。
實驗過程中,為了更好地反映不同模型對人體行為識別效果的真實性能,將作為對比建立的CNN、LSTM和CNN_LSTM 3種模型的結(jié)構(gòu)和各層參數(shù)的設(shè)定以及規(guī)范函數(shù)的選擇與CLA-net模型的各個局部模塊保持一致。另外,為了驗證神經(jīng)網(wǎng)絡(luò)模型優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,對比實驗中引入支持向量機(jī)算法(SVM)。模型在UCI HAR數(shù)據(jù)集和DaLiAc數(shù)據(jù)集上的總體識別準(zhǔn)確率和F1如表2所示。
如表2所示,本文所提CLA-net網(wǎng)絡(luò)模型在UCI HAR和DaLiAc數(shù)據(jù)集上的總體行為識別準(zhǔn)確率和F1均優(yōu)于對比實驗?zāi)P汀F渲校赨CI HAR數(shù)據(jù)集上,本文模型較對比實驗?zāi)P偷目傮w識別準(zhǔn)確率和F1分別最大提高了7.53%和7.69%。在DaLiAc數(shù)據(jù)集上,本文模型較對比實驗?zāi)P偷淖R別準(zhǔn)確率和F1分別最大提高了36.07%和38.74%。
模型在UCI HAR數(shù)據(jù)集和DaLiAc數(shù)據(jù)集上的各類行為識別準(zhǔn)確率如表3所示。由表3可知,本文所提CLA-net網(wǎng)絡(luò)模型對UCI HAR數(shù)據(jù)集中6種行為類別的準(zhǔn)確率均高于89%,對DaLiAc數(shù)據(jù)集中13種行為類別的準(zhǔn)確率均高于96%,在兩個數(shù)據(jù)集上CLA-net網(wǎng)絡(luò)模型的各類行為識別準(zhǔn)確率值波動都是最小的。此外,由表2可知,CLA-net在UCI HAR、DaLiAc數(shù)據(jù)集上的總體識別準(zhǔn)確率,相比傳統(tǒng)機(jī)器學(xué)習(xí)SVM模型準(zhǔn)確率分別提升了7.53%和36.07%,相比于融合前的傳統(tǒng)深度學(xué)習(xí)模型CNN和LSTM模型,復(fù)合模型CNN-LSTM和CLA-net也有明顯的提升,并且本文提出的CLA-net相比CNN-LSTM在UCI HAR、DaLiAc數(shù)據(jù)集上的總體識別準(zhǔn)確率上分別提升了1.76%和1.86%。以上結(jié)果說明相較于對比實驗?zāi)P停珻LA-net網(wǎng)絡(luò)模型對各類行為的識別結(jié)果均具有極佳的穩(wěn)定性,且對易混淆行為類別的識別效果更好。

表2 在UCI HAR、DaLiAc數(shù)據(jù)集上的總體識別 準(zhǔn)確率和F1Table 2 Overall recognition accuracy and F1 value on UCI HAR, DaLiAc datasets

表3 在UCI HAR數(shù)據(jù)集和DaLiAc數(shù)據(jù)集上的各類行為識別準(zhǔn)確率Table 3 Accuracy of various types of behavior recognition on UCI HAR dataset and DaLiAc dataset
模型在UCI HAR數(shù)據(jù)集和DaLiAc數(shù)據(jù)集上測試過程準(zhǔn)確率曲線如圖5所示。從圖5可以看出,各模型在測試過程中的準(zhǔn)確率隨著迭代次數(shù)的不斷增加呈上升趨勢,最終趨于平穩(wěn)。其中,本文所提CLA-net網(wǎng)絡(luò)模型的準(zhǔn)確率曲線始終高于其他對比實驗?zāi)P偷臏?zhǔn)確率曲線,說明該方法具在訓(xùn)練集的訓(xùn)練過程有較快的收斂速度,并且在訓(xùn)練集上訓(xùn)練達(dá)到穩(wěn)定后具有更好的分類準(zhǔn)確率。

圖5 UCI HAR和DaLiAc數(shù)據(jù)集上的測試過程 準(zhǔn)確率曲線Fig.5 Test process accuracy curves on UCI HAR and DaLiAc
為了更直觀地表示CLA-net網(wǎng)絡(luò)模型在UCI HAR數(shù)據(jù)集和DaLiAc數(shù)據(jù)集上的表現(xiàn),分別制作其識別結(jié)果的混淆矩陣圖,如圖6所示。兩個混淆矩陣分別為N行、N列(N表示行為類別數(shù))。左側(cè)行為類別代表樣本的真實行為類別,底側(cè)行為類別代表樣本的預(yù)測行為類別。每個方格上的數(shù)值代表樣本個數(shù),百分?jǐn)?shù)代表該類樣本占總樣本的百分比。混淆矩陣主對角線上的數(shù)值代表分類正確的樣本個數(shù),其余框格中的數(shù)值代表分類錯誤的樣本個數(shù)。
根據(jù)圖6可以看出,對于運動軌跡相似的行為,如UCI HAR數(shù)據(jù)集中的坐和站立,以及DaLiAc數(shù)據(jù)集中的吸塵和掃地高度相似行為誤差率較高。但是對于其他絕大部分行為都能夠準(zhǔn)確識別其行為類別,誤識別率低,這充分證明了本文所提模型在人體行為分類時的性能更為優(yōu)越。
表4為本文所提方法與其他文獻(xiàn)所提方法在UCI HAR和DaLiAc數(shù)據(jù)集上的實驗結(jié)果對比。從表4可以看出,相較于其他文獻(xiàn)所提模型,本文所提CLA-net網(wǎng)絡(luò)模型對人體行為的總體識別準(zhǔn)確率最高。證明了本文所提的融合注意力與時空網(wǎng)絡(luò)的人體行為識別網(wǎng)絡(luò)模型(CLA-net)用于基于可穿戴傳感器數(shù)據(jù)的人體行為識別時的優(yōu)越性和可行性。

表4 本文所提網(wǎng)絡(luò)模型與其他文獻(xiàn)所提模型在 UCI HAR和DaLiAc數(shù)據(jù)集上的對比Table 4 The network model proposed in this paper compared with the models proposed in other literature on the UCI HAR and DaLiAc datasets
為了提高人體行為識別準(zhǔn)確率,提出了一種融合注意力與時空網(wǎng)絡(luò)的人體行為識別網(wǎng)絡(luò)模型(CLA-net)的人體行為識別方法,本文方法利用了CNN在特征提取上的優(yōu)勢以及LSTM神經(jīng)網(wǎng)絡(luò)在時間序列識別方面的優(yōu)勢,并利用注意力機(jī)制解決了LSTM神經(jīng)網(wǎng)絡(luò)對輸入樣本不同時刻行為數(shù)據(jù)同等看待的問題。通過對比實驗,驗證了本文所提CLAnet網(wǎng)絡(luò)模型用于人體行為識別時的高識別準(zhǔn)確率和F1,說明該方法具有較好的人體行為識別效果。

圖6 CLA-net在UCI HAR和DaLiAc數(shù)據(jù)集準(zhǔn)確率混淆矩陣Fig.6 Accuracy confusion matrix of CLA net in UCI HAR and DaLiAc data sets
此外,與其他文獻(xiàn)中提出的最新分類模型相比,CLA-net模型在準(zhǔn)確性能方面也有所改進(jìn)。基于注意力機(jī)制融合CNN和LSTM提出的CLA-net 模型也為基于注意力機(jī)制的時空信息融合分類模型提供了一個有效的例證。此外,提出的CLA-net模型不僅可以提高HAR系統(tǒng)的抗干擾能力和穩(wěn)定性,還可以完成數(shù)據(jù)分析、顯示功能和測量控制,有效保證了整個HAR系統(tǒng)的可靠性和實用性。因此,本文研究為HAR系統(tǒng)開發(fā)了一種新的具有高精度和強(qiáng)魯棒性的混合深度學(xué)習(xí)模型CLA-net。在未來的工作中會重點關(guān)注模型復(fù)雜度與識別準(zhǔn)確率間的平衡。