








摘要:針對步態識別模型在特征表示粒度和時空依賴建模的不足,提出了一種融合多尺度特征表示和注意力機制的步態識別模型。該模型包含兩個關鍵模塊:多尺度特征融合網絡(multi-scalefeatures fusion network,MFFN)和步態注意力融合模塊(gait attention fusion module,GAFM)。其中,MFFN 通過多尺度、多粒度特征融合提高特征表示的豐富性和判別力; GAFM 通過自適應地關注步態序列中的關鍵幀和重要區域,從而有效地建模長期時空依賴關系。在3 個數據集CASIAB,CASIA-B*和OUMVLP 上的實驗結果表明,該模型在多種復雜條件下均優于現有模型,相較于基準模型,平均識別率分別提升了0.9%,0.3% 和0.6%。
關鍵詞:步態識別;多尺度特征;注意力機制;時空依賴;特征融合
中圖分類號:TP 181 文獻標志碼:A
生物特征識別技術是指利用人體的生理或行為特征進行識別的技術,與傳統身份識別相比,其具有更高的安全性,這是因為生物特征難以被復制、盜用或遺忘。常見的生物特征包括指紋、虹膜、人臉、聲紋、筆跡等。
步態識別是一種通過人體步行的特征進行身份識別的技術[1]。與其他生物特征識別方法相比,步態識別具有以下獨特的優勢:非接觸性、隱蔽性、難以偽造性、魯棒性等。其中:非接觸性意味著步態識別可以遠距離進行[2],不需要與被識別對象直接接觸;隱蔽性是指步態識別可以在不引起被識別對象注意的情況下進行;難以偽造性是因為步態是一種人體動態的特征,受個人身體結構、肌肉力量、神經控制等因素影響,每個人都有一種獨屬于自己的步態模式[3]。并且,步態識別對環境光照和服裝變化也同時具有一定的魯棒性,即使在戶外場景中也能取得較好的識別效果。這些優勢使步態識別適用于公共安全應用,例如刑事調查、嫌疑人追蹤[4] 和身份驗證[5]。
盡管步態識別技術具有諸多優勢,但現有方法仍面臨兩個關鍵挑戰:首先是步態特征表示的粒度問題,現有方法往往依賴于單一尺度的特征提取,或是將全局特征和局部特征分開處理。這種處理方式難以全面捕捉步態的多尺度信息,導致一些細微但對身份識別至關重要的步態特征被忽略。例如,在處理攜帶物品或穿著外套等復雜場景時,由于遮擋和變形的影響,單一尺度的特征表示往往無法準確描述人體運動特征;其次是步態序列的時空依賴建模的問題,步態是一個時序運動的過程,其中包含時間和空間的依賴關系,現有方法在建模這些依賴關系時存在不足:一方面是對于長時序的建模能力有限,難以捕捉跨越多個步態周期的長期依賴關系,而另一方面,現有方法對重要性不同的區域缺乏自適應的權重分配機制,這意味著模型無法根據不同場景動態調整關注重點,進而影響識別的準確率。這些問題在實際應用中尤為突出,直接影響識別性能的穩定性和魯棒性。為了解決上述問題,本文旨在提升步態特征的多尺度建模能力和時空依賴關系的建模效果。通過實現對不同粒度的步態信息進行有效融合,提高特征表示的豐富性和判別力,同時使用自適應的注意力機制捕捉長期時空依賴,增強模型對復雜場景的適應能力。
針對上述目標,本文提出了一種融合多尺度特征表示和注意力機制的步態識別模型( multiscaleand attention gait recognition model, MSAGait)。具體而言,本文的主要貢獻如下:
a. 提出并實現了改進的多尺度特征融合網絡( multi-scale features fusion network,MFFN)。該網絡在BNNeck[6] 的基礎上,通過多尺度、多粒度的特征融合機制實現局部細節與全局語義特征的自適應融合。并且特征融合有效地平衡了特征的判別性和多樣性,顯著提升了模型捕捉細微步態信息的能力。
b. 設計并實現了步態注意力融合模塊( gaitattention fusion module,GAFM)。該模塊通過融合不同的注意力機制,實現對步態序列中關鍵幀和區域的自適應關注。并通過空洞卷積增強了長期時空依賴關系的建模能力,提高了模型在復雜場景下的魯棒性。
1 相關工作
1.1 基于模型的步態識別
相比于其他方法,基于模型的方法在復雜場景下面臨著多重挑戰。Bouchrika 等[7] 通過特征提取和建模實現步態分析,但在低分辨率場景下性能顯著下降。SMPL(skinned multi-person linear) 模型把人體模型作為一個參數化的線性模型,但該模型在處理復雜動作和快速運動時仍存在姿態估計不準確的問題[8]。PostGait 方法利用3D 身體姿勢和先驗知識來克服服裝變化的影響,但其復雜的人體結構建模帶來了較大的計算開銷[9]。而GaitGraph 模型雖然采用圖卷積網絡簡化了建模過程,但在遮擋情況下,關鍵點定位的準確性仍然受到嚴重影響[10]。HMRGait( human mesh recoverygait)通過微調預訓練的 HMR 網絡來構建基于端對端的SMPL 模型,但當前用于姿態特征的識別網絡忽略了關節之間的結構信息[11]。SMPLGait 方法通過SMPL 模型提取3D 信息來增強特征學習,但對輸入圖像質量的要求較高,限制了其實際應用場景[12]。GPGait(generalized pose-based gait) 方法提出人體導向的姿態變換和描述器來提升骨骼特征的跨數據集泛化能力,并通過部位感知圖卷積網絡挖掘局部與全局關系,但在單一數據集上的識別性能略低于先前方法[13]。BiFusion(bimodal fusion)模型提出多尺度步態圖網絡來集成骨架和輪廓特征,但其在衣著變化場景下的骨架估計精度仍有待提高 [14]。