







摘要:隨著深度學習技術的發展,基于卷積神經網絡的人體姿態估計和追蹤的準確率得到大幅提高。但在面對遮擋問題時,還存在人體關鍵點檢測困難、姿態追蹤精度偏低和速度較慢等問題。本文針對這些問題,構建了一個ybasTrack 多人姿態估計和追蹤模型;提出采用一種改進的YOLOv5s 網絡進行目標檢測;采用BCNet 分割網絡區分遮擋與被遮擋人體,限定人體關鍵點定位區域;基于Alphapose 的SPPE(Single-Person Pose Estimator)進行改進,優化人體關鍵點檢測結果;采用改進的Y-SeqNet 網絡進行行人重識別,采用MSIM(Multi-Phase IdentityMatching)身份特征匹配算法對人體框、人體姿態和人體身份信息進行匹配,實現人體姿態追蹤。實驗表明,所提算法對遮擋場景下的人體姿態估計和姿態追蹤具有較好的效果,模型運行具有較快速度。
關鍵詞:人體姿態估計;AlphaPose;YOLOv5s;BCNet;SeqNet
中圖分類號:TP391 文獻標志碼:A
基于機器視覺的人體姿態估計指的是從輸入的圖像或視頻中定位出人體關鍵部位,如眼、肩、肘和膝等,并通過關鍵點之間的連接構建人體骨架,從而形成對人體姿態的表達。基于機器視覺的人體姿態估計和跟蹤能夠使計算機更好地理解人類行為,進而為許多應用場景提供支持,比如人機交互、運動捕捉和行為檢測等。傳統人體姿態估計和跟蹤的方法使用人工設計的圖像特征檢測人體關鍵點,受限于提取特征的完備性和準確性,精度往往不高。近年來,隨著深度學習技術的迅速發展,基于深度學習的人體姿態估計和跟蹤算法成為研究熱點。相較于傳統方法,基于深度學習的人體姿態估計和跟蹤方法具有較好的魯棒性和更高的準確率。
在多人姿態估計方面, Papandreou 等[1] 提出了G-RMI 模型, 該方法使用Fater RCNN 進行人體檢測,采用ResNet 對每個人體預測密集熱圖和偏移,通過融合兩者的結果得到人體關鍵點的定位。Chen等[2] 基于GlobalNet 和RefineNet 提出了級聯金字塔網絡(Fcascaded Pyramid Networks,CPN),利用GlobalNet進行基本的人體關鍵點檢測,利用RefineNet,通過卷積和下采樣融合多分辨率的特征圖,使得姿態估計模型對于復雜背景或遮擋關鍵點的估計準確率得到提高。Zhang 等[3] 提出了一種名為DARKPose 的方法,該方法采用分布感知解碼技術,通過改進標準坐標編碼過程,降低了編解碼過程中關鍵點坐標變換產生的誤差。Fang 等[4] 提出一種名為AlphaPose 的多人姿態估計模型,使用YOLOv3 作為人體檢測器,并在單人姿態估計SPPE(Single-Person Pose Estimator)部分提出一種對稱變換空間網絡(Symmetric SpatialTransformer Network,SSTN),可以從不準確的邊界框中提取高質量的單人區域。
在多人姿態跟蹤方面,Zhang 等[5] 提出了一種實時目標跟蹤網絡Ocean,使用無錨點目標網絡與特征對齊模塊相結合,直接預測人體的位置和比例,該方法可以糾正不精確的邊界盒預測,學習對象感知特征以提高匹配精度。Yan 等[6] 提出了一種多人姿態估計和跟蹤框架LightTrack,使用YOLOv3 作為目標檢測器, 基于結構化圖卷積網絡( Structured GraphConvolutional Networks, SGCN)進行人體姿態匹配,相比于其孿生網絡跟蹤算法Ocean,LightTrack 的結果在達到了與之相似精度的同時,計算量和參數量分別下降了97.4% 和92.3%。Fang 等[7] 在AlphaPose的基礎上附加一個行人重識別分支,使得該網絡可以同時估計人體姿態和重識別特征,設計了一種姿勢引導注意機制( Pose-Guided Attention Mechanism,PGA)來增強人體的身份特征,并使用多階段身份匹配算法(Multi-Phase Identity Matching,MSIM)集成人體的檢測框、人體的姿態以及身份信息,實現了多人姿態估計和跟蹤。Wang 等[8] 提出了一種基于Transform 的姿態引導特征分離方法( Pose-guidedFeature Disentangling,PFD),利用姿態信息對人體關節部分進行拆分,選擇性地匹配非遮擋部分,強調可見身體部位的特征。Bazarevsky 等[9] 提出BlazePose姿態追蹤框架,由于人臉相對于全身而言不容易被遮擋,而且在神經網絡中該部分的響應值通常是較高的,因此使用面部檢測器代替人體檢測器解決密集人群中遮擋嚴重的問題。Chen 等[10] 提出了遮擋感知掩模網絡(Occlusion-Aware Mask Network,OAMN),可以使模型有效關注人體區域而非背景區域,讓現有的注意力機制能夠不受遮擋物體的影響,從而精確地捕捉身體部位。
以上方法證明了深度學習方法在人體姿態估計和跟蹤中的有效性,但是,在實際應用中,對復雜場景中的多目標、小目標和遮擋問題,姿態估計和跟蹤的準確率和速度仍有待提高。針對上述問題,本文提出了一個基于人體姿態估計框架AlphaPose、YOLOv5s 目標檢測網絡、YoloBCNet 分割網絡與SeqNet 行人重識別網絡的人體姿態估計和追蹤框架ybasTrack。針對多人姿態估計,在人體檢測中,在YOLOv5s 的Neck 部分添加小目標檢測模塊,改進模型因下采樣倍數較大、丟失小目標特征信息的缺點;在關鍵點檢測中,使用三重注意力(TAM)改進關鍵點空間信息丟失問題,采用AdaPool 池化改進模型參數量較大問題以及下采樣造成的特征信息丟失問題。針對多人姿態追蹤,在行人重識別模塊,提出基于改進的SeqNet 網絡構建行人重識別分支,采用弱監督預訓練框架(PNL) 預訓練SeqNet 網絡,得到更準確的re-ID 特征表達。
1 多人姿態估計與追蹤框架
針對遮擋場景下的人體姿態估計和姿態追蹤任務,本文構建了一個基于目標檢測、關鍵點檢測、圖像分割和行人重識別的多人姿態估計與追蹤框架ybasTrack,如圖1 所示。
本文所提出的多人姿態估計與追蹤框架ybasTrack的基本原理如下: ( 1)人體檢測( Human detection)。使用改進的YOLOv5s 網絡檢測畫面中所有的人體區域位置,得到的人體區域框作為后續人體分割網絡與行人重識別網絡的輸入。(2)人體分割(Humansegmentation)。根據人體檢測階段得到的人體區域,使用BCNet 分割網絡對多人體實例進行像素級分割,分別得到遮擋人體的分割區域和被遮擋人體的分割區域。(3)姿態估計(Pose estimation)。使用改進的Alphapose 姿態估計模型,對于人體分割階段得到的遮擋人體進行關鍵點檢測;對于被遮擋人體,利用人體分割階段得到的分割區域約束檢測到的候選關鍵點的位置。(4)行人重識別(Pedestrain recognition)。提出基于改進的SeqNet 網絡構建行人重識別分支,采用弱監督預訓練框架( Pre-training frameworkutilizing Noisy Labels,PNL) 預訓練SeqNet 網絡,得到更準確的re-ID 特征表達。(5)身份特征匹配(Identityfeature matching)。對于人體檢測階段得到的人體區域框、姿態估計階段得到的人體姿態和行人重識別分支得到的行人重識別特征,使用身份特征匹配算法MSIM 進行匹配,最終輸出姿態追蹤結果。
1.1 多人姿態估計
本文提出的多人姿態估計方法(命名為ybaPose),包括人體檢測、人體分割和姿態估計3 個模塊。
1.1.1 基于改進的YOLov5s的人體檢測算法 YOLOv5s是YOLOv5 系列中復雜度最小、速度最快的模型,本文提出采用YOLOv5s 作為多人姿態估計模型中的人體檢測器,使模型在維持較低復雜度的同時還能保持較高的檢測精度。考慮到實際多人姿態估計中許多目標人體尺寸很小,而YOLOv5s 的下采樣倍數比較大,較深的特征圖難以有效學習到小目標的特征信息, 因此本文提出在YOLOv5s 的Neck部分添加小目標檢測模塊,使較淺層特征圖與深層特征圖融合后再進行檢測。改進后的YOLOv5s 命名為S-YOLOv5s,結構如圖2 所示,其中CBL 模塊由卷積層、批歸一化層和激活函數LeakyReLu 組成,CSP1_X 模塊由卷積層和X 個殘差單元組成,CSP2_X 模塊由CBL 模塊、殘差單元以及卷積層組成,SPP 模塊采用1×1、5×5、9×9 和13×13 的最大池化方式,進行多尺度特征融合。
圖2 中紅色虛線框內為新增加的小目標檢測模塊,該模塊在YOLOv5s 中的Neck 部分的最后一次上采樣后,繼續對特征圖進行CSP2_1、CBL 和上采樣操作,然后將上采樣后的特征圖與Backbone 中第2 層特征圖進行融合,以此來獲得更大的特征圖。改進后的YOLOv5s 最終輸出的特征圖大小有152×152、76×76、38×38 和19×19 這4 種尺寸,分別對應檢測4×4以上、8×8 以上、16×16 以上和32×32 以上尺寸的目標。
1.1.2 基于BCNet的人體分割 BCNet 是Ke 等[11] 提出的一種應用于遮擋場景下的輕量級雙圖層實例分割網絡,具有較好的分割精度,本文采用BCNet 進行遮擋目標人體分割。BCNet 將圖像中感興趣區域建模為上、下兩個重疊的圖層,其中上方圖層檢測遮擋目標,下方圖層檢測被遮擋的對象。這種顯式建模方式可以將遮擋與被遮擋目標的邊界進行解耦,并在掩膜和邊界預測的同時考慮遮擋與被遮擋關系之間的干擾,使得現有圖像實例分割模型在復雜遮擋場景中的處理效果得到了顯著提升。