并聯化高分辨網絡的人體姿態估計方法

2022-02-15 07:01:20任立成張建林徐智勇

計算機工程與設計 2022年1期

劉勇，李杰，任立成，張建林，徐智勇

(1.中國科學院光電技術研究所，四川成都 610209； 2.中國科學院大學電子電氣與通信工程學院，北京 100049)

0 引言

基于深度神經網絡的2D人體姿態估計是計算機視覺圖像信號處理中的經典課題，其相關算法被廣泛應用[1,2]。然而隨著對姿態估計結果精度要求的提高，網絡規模也不斷擴大，導致訓練時間過長與模型所需存儲過大等問題。在保證高精度的情況下對網絡進行模型優化的研究[3]逐漸受到關注。

文獻[4]采取多尺度特征融合方法來豐富感受野信息；文獻[5,6]則對殘差模塊[7]進行改良；文獻[8]采用特征金字塔網絡級聯架構兼顧了圖像的全局與局部特征；文獻[9]提出的并聯網絡結構以及特征匹配算法則針對關鍵點的定位特征與連接特征；文獻[10]采用轉置卷積代替了上采樣處理。以上處理策略主要以網絡結構設計與多尺度融合方法為主。

Sun等提出的高分辨網絡(high-resolution net，HRNet)[11]通過網絡分支策略在保持特征圖像原始分辨率的情況下實現對人體姿態的精確估計。雖然這種保持高分辨率的策略對提升網絡特征提取精度效果顯著，但隨著網絡加深，其對計算能力以及網絡參數量的需求也隨之增大。

本文提出一種針對HRNet-W32網絡結構進行優化的并聯化高分辨網絡。首先對網絡分階段進行消融實驗以確定高分辨網絡的可精簡范圍，然后對余下特征提取部分添加并聯網絡模塊以維持分辨率提取范圍。改進后的并聯化高分辨網絡(以下簡稱并聯化HRNet)其網絡參數僅為原網絡的37%，保證其在MPII和COCO數據集上的測試精度的同時，浮點運算量比原網絡降低30%。

1 HRNet網絡

HRNet在特征提取以及特征融合的過程中始終保持著網絡輸入時的高分辨率，并在利用多組分辨率不斷豐富高維空間的特征細節信息的同時保證其低維空間中的全局定位分布，兼顧了局部特征的提取與全局特征的定位，從而使得預測結果得到優化，最后對多尺度特征信息進行融合，得到最終的輸出結果。HRNet與其它網絡結構的相關參數與性能對比見表1。

HRNet的網絡結構按輸入特征圖像分辨率的情況可分為4個階段。對各階段又可再次劃分為3部分：由多個級聯殘差模塊所構成的特征提取部分，各分辨率之間經由卷積采樣后的特征融合部分和低分辨率網絡分支的特征擴增部分。其網絡結構如圖1所示，網絡具體參數見表2。

圖1 HRNet網絡

如表3所示，其特征提取效率出現明顯的衰減趨勢。第4階段比前3階段增加的參數量以及浮點運算量占比分別為72.5%和38.1%，其在MPII數據集上的人體姿態估計結果精度僅提高了不到0.5%。如圖2所示為表3中針對HRNet網絡階段數消融實驗在MPII中對人體姿態關鍵點的特征響應結果。

綜上所述，不論從16個關鍵點特征響應范圍，還是最終數據評測結果，階段數為4的HRNet對姿態估計的提升效果相較于網絡階段數為3時并未獲得與其所增加的參數量與浮點計算量相匹配的有關人體姿態估計的精度改良。如果將第4階段整體移除，并等價地在剩余各階段中添加參數量相對較少的等尺度的特征提取網絡模塊，那么便能在保證網絡性能不變時減少網絡訓練成本與結構規模。

2 并聯化HRNet

參考表2中消融實驗的結果以及表3中HRNet各階段的參數分布，可以看出從第4階段開始，隨著網絡層數的逐步加深，其對特征精度的提高不再如之前層更有效率，因為第4階段的特征提取因感受野尺度超出原圖尺度而造成信息過冗余[12]。

表2 HRNet網絡參數配置

表3 HRNet在MPII數據集上的消融實驗

2.1 并聯化HRNet網絡結構

為減少網絡參數量和浮點數運算量的同時保持網絡對人體姿態估計結果的精度，本文對原始HRNet網絡的特征感受野尺寸進行調整，剔除了特征提取相對較為冗余的第4階段，并設計相應的并聯網絡架構彌補第4階段剔除后所造成的低分辨率下特征提取情況的缺失問題。新的并聯化高分辨網絡架構如圖3所示。

圖2 基于MPII數據集的HRNet網絡各階段16個關鍵點特征響應輸出情況

圖3 并聯化HRNet網絡

2.1.1 特征感受野尺寸的調整

特征感受野計算如式(1)所示。其中RFi為當前層輸出結果的感受野尺寸，RFi-1為當前層輸入結果即前一層輸出結果的感受野尺寸，Kerneli為當前層卷積核尺寸，Stridek為第k層卷積采樣步長

(1)

HRNet-W32輸入圖像尺寸為256，經過HRNet的前3個網絡階段后，其在3條支路輸出特征圖像的特征感受野尺寸分別為目標原圖尺寸的58.9%、108%和165%。

而加上第4階段后，網絡最終所輸出的4條支路的特征感受野則分別達到了原目標尺寸的83.9%、158%、265%和377%，其大部分的支路感受野尺度遠遠超過了原圖尺寸。

過大的感受野會導致網絡過度地傾向于對全局特征進行提取和學習[13]。若感受野尺度大于目標物體尺度，則這些物體會被直接忽略掉而成為背景的一部分。這也很好地解釋了網絡消融實驗中第4階段的引入為何沒能從實質上提升網絡對人體姿態估計的效果。

2.1.2 并聯網絡結構的設計

為補充被剔除掉的第4階段的低分辨率情況，網絡對第2階段與第3階段的部分并聯一個全卷積的U型網絡。該并聯卷積層的數據傳輸流程如圖4所示。

該并聯網絡的拓撲結構參考U-Net[14]的網絡架構，按分辨率共分為4層，其各層的分辨率依次與原始HRNet網絡的分辨率相對應，同時保持其與所并聯階段輸出的感受野尺度一致。

圖4 并聯網絡模塊流程

設計這種分辨率由高到低的處理方法是為了生成多種分辨率下感受野不同的特征表示模式，以便進行多尺度特征融合，最終將豐富的特征信息再由低到高地在所保持的高分辨率下進行表征。為避免特征信息在返回到高分辨率時出現信息重復導致網絡特征提取冗余，在由低到高的信息處理過程中，新設計的并聯網絡采用了轉置卷積對圖像的分辨率進行恢復，同時為避免原始特征信息的缺失以及網絡較深而在訓練時出現梯度消失的問題，在分辨率相同的操作層之間建立特征信息的直聯通道。

2.2 損失函數

與之前的多階段人體姿態估計網絡在訓練時采用中繼監督策略來優化特征提取能力不同，HRNet采取的是直接以末端的輸出結果來計算人體關鍵點定位的損失函數。

而針對特征關鍵點定位問題來說，由于涉及到歐式距離的計算，因此均方誤差函數比較適宜作為網絡的損失函數。該損失函數可以對每批次每個關鍵點的預測輸出最大響應與真實關定位最大響應之間的L2距離進行最小化約束。如式(2)所示，人體關鍵點總數為K，第k個關鍵點的真實位置用gtk表示，對應預測結果的最大響應位置用dtk表示，N為每批次的訓練的樣本數量，n為對應樣本

(2)

3 實驗

實驗以Pytorch作為網絡設計開發平臺，所使用的CPU型號為i5-8500，GPU型號為GTX1660Ti，顯存為6 GB，操作系統為Ubuntu16.04。

實驗中網絡輸入圖片的原始分辨率依數據集的選取不同而不同。在MPII數據集上的圖像輸入格式為256×256，在MSCOCO數據集上的圖像輸入格式為256×192。輸入的圖像數據首先進行隨機預處理，包含對原圖像的裁剪、旋轉、翻轉以及相關圖像增強等策略。選擇Adam優化器對模型迭代210輪。動量值設置為0.9，學習率采用階段式設置，初始學習率為0.001，并在第170輪和第200輪時以學習因子按10%的比例各進行一次學習率衰減。為減少特征干擾，提高預測精度，最終輸出的特征響應結果采用非極大值抑制(non-maximum suppression，NMS)策略進行響應截斷。

3.1 數據集和評價指標

本實驗分別在MPII數據集和MSCOCO數據集上對網絡進行人體姿態估計的訓練與測評。

3.1.1 MPII數據集評測指標

網絡對MPII數據集中22 246幅圖像進行訓練，2958幅圖像進行測試，每批8幅圖像，輸出為16通道，對其中6對左右對稱的關鍵點的精度結果相加取均值。以PCKh作為評測指標，且綜合評測結果的PCKh比例因子分別取0.5和0.1。

3.1.2 MSCOCO數據集評測指標

網絡對MSCOCO數據集中118 287幅圖像進行訓練，5000幅圖像進行測試，每批16幅圖像，輸出為17通道。對人體17個關鍵點進行綜合評測，以mAP作為關鍵點預測性能評測指標，按OKS標準與樣本尺度標準又細分成5項測評指標。

3.2 實驗結果

實驗結果對原始HRNet與改進后的并聯化HRNet分別從網絡參數量、浮點運算量以及人體姿態預測精度方面進行評估。結果表明，通過剔除冗余的網絡結構以及添加適當的并聯模塊可以在保證原有精度的情況下，降低網絡參數量以及算法復雜度，甚至在測評指標要求略為寬松的情況下，改進后網絡模型的預測結果會略優于原網絡模型。

MPII數據集上的實驗對并聯模塊上采樣部分進行4組對照實驗，其并聯模塊中各層間的參數部署具體見表4。在保證計算復雜度與網絡參數量遠低于原網絡的情況下，當轉置卷積核尺寸為3時網絡對人體關鍵點的預測精度保持了原始網絡的精度，且當測評標準更加嚴格時，并聯化HRNet的預測結果比原網絡的結果更好，圖5所示為表5中各網絡在MPII中人體姿態關鍵點特征響應結果。

之后在MSCOCO數據集上的實驗又進行了3組對照實驗，具體參數也見表4，其中去除了浮點計算量過大的轉置卷積步長為1時的并聯網絡配置模型，其實驗結果具體如表6和圖6所示。

表4 各實驗組網絡相關參數配置

表5 在MPII-val數據集上的實驗結果

圖5 在MPII-val上的各模型16個關鍵點特征響應輸出結果

表6 在MSCOCO-val數據集上的實驗結果

圖6 在MSCOCO-val上的各模型17個關鍵點特征響應輸出結果

可見，在數據集訓練樣本變得更加豐富后，采用并聯化HRNet除了將網絡參數量以及浮點計算量分別減少63%和30%外，其在mAP上更是比原始HRNet的網絡結果高出了近1%。

但對比大尺度情況下的mAP，并聯化HRNet的精度下降了1.5%，但其對樣本占比更高的中等尺度的mAP卻提高了1.9%。圖7為不同尺度下序號為2的并聯化HRNet 在MSCOCO上的結果展示。

圖7 并聯化HRNet人體姿態估計結果展示

除此之外，在與網絡參數量和浮點運算量相當的人體姿態估計網絡算法的結果進行對比時，因為對高分辨的保持，多尺度融合以及并聯化特征增強等策略，并聯化HRNet 對人體姿態的預測精度要更高一些，見表7。

表7 MSCOCO-val數據集上的結果比較

4 結束語

針對減小人體姿態估計算法的網絡參數量以及浮點運算量的問題，本文在高分辨網絡HRNet的網絡架構基礎上進行刪改并提出了一種并聯化HRNet人體姿態估計網絡架構。在對原始HRNet網絡進行逐層的特征圖感受野尺寸分析后，該架構刪除了性能不高的第4階段，大大減少了網絡參數量與浮點計算量；為保持多分辨率的特征提取，該架構又為剩余階段網絡添加了輕量化的全卷積U型并聯模塊，保持了原始HRNet的檢測精度。其在同等參數量與浮點運算量的人體姿態估計算法中有著更高的檢測精度。下一步將繼續對并聯模塊進行進一步優化設計，提升其大尺度樣本的檢測精度，形成一種更加輕量化和精確高效的人體姿態估計網絡架構。