戚艷軍,孔月萍,王佳婧,朱旭東
(1.西安建筑科技大學 機電工程學院,陜西 西安 710055;2.西北政法大學 商學院,陜西 西安 710063;3.西安建筑科技大學 信息與控制工程學院,陜西 西安 710055)
步態識別是通過走路的姿態對行人身份進行識別,具有非接觸、非侵入、難偽造、可遠距離獲取的特點,在安全監控、醫療診斷等領域有著廣闊的應用前景[1]。由于步態受外部環境(拍攝視角、路面等)以及行走條件(著裝、攜帶物等)的影響較大,因此,挖掘并學習與視角無關的、可抵御行走條件變化的步態特征是步態識別研究的熱點之一。
現有步態識別方法多使用由圖像或視頻序列生成的類能量圖(如步態能量圖、運動輪廓圖等)進行表觀建模。基于表觀建模的跨視角步態識別方法有聚類視角估計[2-3]、投影映射法[4-5]、視覺轉換法[6-7]等。近年來,使用深度學習實現跨視角步態識別的方法不斷涌現,這些方法利用卷積神經網絡(Convolutional Neural Networks,CNN)[8-9]、3D CNN[10-11]的層級抽象特征提取能力,提取類能量圖中與視角無關的時空特征;文獻[12]采用GaitGAN網絡解決視角、衣著等因素對步態識別性能的影響。這些方法較好地應對了步態識別中的視角變化難題,但是類能量圖本質上是步態特征的二維表達,在視角跨度較大的情況下,識別性能急劇下降。同時,部分類能量圖在步態疊加過程中也會造成步態時序信息以及細粒度的空間信息丟失問題。
還有學者使用基于模型的步態識別方法。這類方法對人體結構和姿態信息進行特征建模。文獻[13]利用Kinect傳感器采集的人體骨架數據研究步態,結果表明人體關節包含足夠的信息描述步態特征。從步態信息的三維本質出發,文獻[14-15]嘗試使用三維成像設備或在多攝像機協作環境下重構人體的三維步態模型,但復雜的攝像機參數調整及建模計算限制了應用場景。隨著人體姿態估計方法[16]的不斷成熟,研究人員可以利用人體姿態估計從圖像或視頻中實時獲取關節姿態信息,這為基于模型的步態識別方法帶來了曙光。文獻[17]利用姿態估計從視頻序列中提取二維關節姿態,構建PTSN網絡獲取關節序列的時空變化特征,在相同視角下取得了較好的效果,但沒有在跨視角場景下驗證模型的有效性。文獻[18]構建了姿態長短時記憶模塊(Pose-based LSTM,PLSTM)對人體的12個關節熱圖序列進行視角重構,消減了視角變化對步態識別的影響,但是難以同時對3個以上跨視角步態序列進行視角重構。最近,LIAO等[19]首先使用三維姿態估計直接從視頻中獲取人體關節的三維坐標,并建立關節姿態模板;然后通過卷積神經網絡提取關節運動的時空特征。該方法計算簡單,在跨視角場景下獲得了較好的識別率。在此基礎上,該方法還可以進一步考慮挖掘關節姿態的時序特征。
綜上可知,步態的三維建模對視角變化具有較高的魯棒性。而在一定運動周期中,視頻行人的關節運動及身體結構變化存在時序相關性,可以利用行人步態的三維數字特征構建步態的時空運動特征模型,進而利用深度網絡挖掘行人關節點的三維深度時空運動特征,可有望提高跨視角步態識別的準確率。
人體運動時關節夾角以及關節間的相對位置關系呈周期性變化,且下半身的運動變化較上半身更為明顯。關節之間的夾角、足部與行進方向的夾角、身體重心擺動以及身體結構比例等變化關系相互作用、相互約束,形成一個有機的整體,能夠反映行人的步態變化特點。此外,每個人運動的快慢、位移變化狀況也能通過關節位置來表達。這些關節點間的關系在三維空間并不隨拍攝視角而變化,滿足視角不變性。因此,利用三維空間下的關節運動約束關系和關節位移變化規律可以綜合表達步態的時空特征。


圖1 人體三維姿態特征矩陣構建流程

圖2是行人關節點及運動約束關系示意圖。

圖2 行人關節點及其運動約束關系示意圖

(1)
其中,kb為下肢關節點,ki、kj是與kb相鄰的關節點。

(2)


(3)
其中,NG為身體重心,kn、kl為下肢關節點。

(4)

(5)
其中,kb的含義與式(1)中的相同。
將關節運動約束矢量和人體結構約束特征矢量按式(6)方式組合,得到行人的運動約束矩陣Mr。該矩陣保持了關節運動約束的時序特征。
(6)
此外,每個人在時域和空域的運動特點也存在差異,如圖3所示。

圖3 相鄰兩幀間關節點運動示意圖

(7)

(8)
為了從三維姿態特征矩陣中挖掘行人的步態特征,同時緩解視角、衣著、攜帶物等因素對步態的影響,選擇使用深度網絡的非線性映射能力來提取三維姿態特征矩陣中的步態時空特征。長短時記憶網絡(Long Short Term Memory networks,LSTM)是一種時間循環神經網絡,它的記憶單元和門機制使其在學習長序列數據的時序依賴關系方面有著優良的性能,適合學習矩陣Mr中的關節約束時序特征;而卷積神經網絡(Convolutional Neural Networks,CNN)則通過局部連接、權值共享以及池化機制,可以逐層提取數據的局部相關特征。由于行人的關節位移在局部區域具有自相關性,可借助卷積神經網絡捕捉矩陣Ma中的空間動作關聯特征。所以,構建了長短時記憶網絡與卷積神經網絡并行組合的三維步態識別網絡,命名為“LC-POSEGAIT”,該網絡模型的結構如圖4所示。

圖4 LC-POSEGAIT網絡模型結構
LC-POSEGAIT的長短時記憶網絡分支由2個長短時記憶網絡層和Flatten層組成,運動約束矩陣Mr經過兩層長短時記憶網絡后在Flatten層轉換為一維運動約束向量;卷積神經網絡分支由4個卷積層、4個池化層及1個Flatten層組成,動作特征矩陣Ma經過卷積神經網絡分支的4次卷積和池化后,在Flatten層轉換為一維動作特征矢量。將兩路一維向量合并后,經過全連接層FC-1、FC-2降維得到步態特征矢量,使用FC-1層矢量作為行人三維步態特征進行步態識別。
考慮到行人步態相似度較高,加之拍攝視角及行走條件變化會影響步態特征的類內變化,借鑒文獻[19]的思想,采用Softmax損失函數LS和Center損失函數LC聯合的多損失函數優化網絡。其中,LS用于拉大行人的類間距離,LC用于緊湊行人的類內距離,保證不同行人的特征可分離。因此,LC-POSEGAIT網絡的損失函數定義如下:
(9)

為了驗證新方法的有效性,在Win10、Pytorch1.4、python3.6環境下使用中科院自動化所發布的CASIA-B多視角步態數據庫進行網絡訓練和行人識別驗證。該數據庫共有124個行人,3種行走條件(即背包行走bg、穿外套行走cl和正常行走nm),每個人分別在11個視角(每兩個視角間隔18°,即0°,18°,…,180°)采集了10種行走狀態,即每人擁有13 640(124×10×11)個視頻片段。視頻分辨率為320×240,幀速為25幀每秒。
根據圖1流程,提取124個行人所有視頻中的關節點三維姿態數據,計算得到視頻片段中每一幀的14個關節運動約束值,然后建立運動約束矩陣Μr和動作特征矩陣Μa。由于部分視角的視頻卡頓,致使數據并未完全提取到,在使用時刪除不滿足訓練及測試要求的矩陣。圖5(a)是第001人在72°視角的10種行走狀態下的某一幀圖,圖5(b)是001人在bg-01,bg-02,cl-01,cl-02狀態下左膝關節運動約束值在一段時間內的變化關系。從圖5(b)中可以看出,行人背包或穿外套行走會對步態產生一定的影響。

(a)第001人在72°視角10個行走狀態圖
將矩陣Mr和Ma送入網絡的兩個分支。在兩個分支網絡的最后一層,分別將關節約束二維矢量和動作特征二維矢量展開為一維矢量,然后將它們融合后送入全連接層。其中訓練集使用001#-074#行人的全部10個行走狀態數據;注冊集(gallery set)使用075#-124#行人的nm01-04數據;驗證集(probe set)使用075#-124#行人的nm05-06、bg01-02、cl01-02數據。LC-POSEGAIT網絡參數設置如表1所示。

表1 LC-POSEGAIT網絡參數
當LC-POSEGAIT網絡訓練完成后,將網絡的FC-1層輸出的128維向量作為三維步態特征向量。首先進行跨視角、跨行走狀態的步態識別實驗。表2是在正常行走狀態下的識別率。從表2中可以看出,在注冊集與驗證集相同視角下,平均識別率在90%以上。當驗證集樣本與注冊集樣本的視角差在±36°以內時,平均識別率為86%。

表2 CASIA-B 數據集上正常行走的跨視角識別率 %
其次,分別統計不同行走狀態的平均識別率,結果如表3所示,得到nm-nm的平均識別率為66.62%,nm-bg的平均識別率約為45.92%,nm-cl的平均識別率約為33.49%。其中,0°和180°視角的平均識別率最低,這和姿態估計在這兩個角度的精度有關。而且從表3中可以看出,穿外套、背包對跨視角步態識別的準確率都有一定的影響。

表3 CASIA-B數據集同狀態跨視角平均識別率 %
新方法構建的三維姿態特征矩陣著眼于人體姿態的運動約束和動作特征,保持了人體運動系統的整體特點和時空特性。為了檢驗兩類特征矩陣對步態識別的有效性,將LC-POSEGAIT與LSTM分支、卷積神經網絡分支分別學習步態特征得到的識別效果進行比較,在不同行走狀態下的平均識別率如表4所示。可以看出,卷積神經網絡(CNN)分支的識別率相對較低,LSTM分支次之,LC-POSEGAIT的識別率最高,說明人體運動約束和關節的動作特征能夠充分表達步態特征。同時,使用LSTM和CNN結合的模型能挖掘步態的多角度特征,提高三維步態的識別率。

表4 LC-POSEGAIT網絡、LSTM分支及CNN分支的跨視角平均識別率 %
最后,將新方法和基于表觀特征的SPAE[20]、GaitGANv2[21]方法以及基于模型的PoseGait[19]方法進行識別性能對比,結果如表5所示。可以看出,新方法在3種行走狀態下的識別率均高于其他方法。與表觀特征方法SPAE、GaitGANv2相比,新方法建立的特征矩陣比類能量圖能更好地表達行人運動的時空特性。新方法和PoseGait方法都采用三維姿態估計進行步態建模,由于新方法綜合考慮了人體運動的整體約束性、LSTM的時序特征學習以及卷積神經網絡對關節動作局部特征的學習能力,識別率有所提高。從兩種方法的跨狀態實驗結果和圖5(b)可以看出,正常行走狀態和其他兩種行走狀態的平均識別率有較大差異,其原因可能在于CASIA-B數據集的視頻采集分辨率不高,影響到三維姿態估計的準確性;同時,三維姿態估計是兩次估計得到的值,其精度波及到三維姿態特征矩陣的向量值,導致識別率低于其他兩種行走狀態。

表5 PoseGait、SPAE、GaitGANv2和文中方法的跨視角平均識別率對比 %
為了緩解拍攝角度、行走狀態對行人步態識別的影響,以及部分類能量圖在表征步態特征時造成的時序信息丟失問題,提出了一種長短時記憶網絡和卷積神經網絡相結合的并行網絡步態識別方法。相比基于步態能量圖的表觀步態建模,新方法構建的三維姿態特征矩陣很好地表征了行人步態的時空特征,并使用深度步態網絡LC-POSEGAIT中的LSTM分支和卷積神經網絡分支分別挖掘行人關節約束的時序特征和關節動作的空間特征。由于采用了人體姿態估計,在三維姿態特征矩陣構建過程中避免了行人檢測跟蹤預處理工作。所設計的深度步態網絡充分挖掘了三維姿態特征矩陣的時空特征,使得識別準確率有所提高。對新方法在公開步態數據庫CASIA-B上進行評估,并未在真實場景中檢驗,在有遮擋的情況下,還需要進一步優化三維姿態特征矩陣。