張大勇,陳一茗
(中國技術經濟學會數字體育專業委員會,北京 100081)
關鍵字:多人姿態估計;熱力圖;變形感受野;尺度感知
關鍵點檢測網絡是多人姿態估計研究的一大核心工作,能否準確定位多人關鍵點直接關乎姿態結果的精度高低。卷積神經網絡是最常用且最強大的圖像特征提取網絡。Zeiler等人[1]將每層卷積輸出可視化發現,隨著卷積堆疊和網絡加深,卷積網絡抽取的特征從高分辨率低層次的邊緣輪廓、方向細節和幾何形態演變到低分辨率高層次的語義抽象信息。自深度卷積發展以來,許多工作通過特征提取網絡結構設計和多尺度特征融合技術,成功地增強了人體姿態估計模型對精細關鍵點的檢測能力和對人體尺度變化的感知能力。
人體姿態估計任務對位置敏感度很高,基于熱力圖預測的網絡中,特征和熱力圖的分辨率將直接影響最終的定位結果。近年,深度神經網絡的發展啟發了研究人員對網絡結構的革新,許多工作開始從分辨率的角度思考如何提升關鍵點的表征能力。其中,HRNet[2]及其團隊另一力作HigherHRNet[3]成功登頂當年自頂向下和自底向上多人姿態估計的榜單,并持續為后續工作提供方向與靈感。
本文先從分辨率和感受野兩方面對現有的多人姿態關鍵點檢測網絡結構進行影響分析,然后提出多人關鍵點特征提取模塊設計理念和特征融合修正策略。通過優化關鍵點檢測網絡,提升自底向上多人姿態估計方法的尺度感知性。
以往關鍵點檢測網絡方法大多通過重復級聯獨立網絡,多階段地預測并修正同一學習目標。隨著多人姿態估計問題研究的深入,關鍵點檢測網絡結構不斷更新迭代。圖1中給出了多人姿態關鍵點檢測網絡組成。首先,原始圖像會在Stem部分進行分辨率調整,得到縮放后的網絡輸入。其次,通過特征提取網絡進行圖像語義的學習,獲得關鍵點特征圖。最后,特征圖傳入熱力圖預測網絡估計關鍵點的位置,獲得高斯響應熱力圖。整個關鍵點檢測過程中,特征圖和熱力圖在網絡里前向傳遞、反向修正,不斷訓練。近年許多圍繞特征圖、熱力圖的改進工作卓有成效,下面分別從分辨率和感受野兩方面對關鍵點檢測網絡進行影響分析。

圖1 多人姿態關鍵點檢測網絡組成部分示意圖
導致嚴重定位精度誤差的原因之一是網絡中的低分辨率表征。在特征金字塔理論里,高分辨率的表征一般可以保留更多的空間位置信息,而低分辨率的表征則能展現出更強的語義分析能力。因此許多經典工作一般從如何恢復高分辨率、如何維持高分辨率和如何融合多分辨率三方面入手。
PersonLab[7]方法簡單粗暴,直接在輸入網絡前數倍放大原圖,提升人體姿態估計模型的整體分辨率。同年,Magnify-Net[8]和Simple Baseline[9]通過對網絡中的特征圖進行線性插值或反卷積等上采樣操作恢復高分辨率。然而,Sun[2]認為僅憑上述的上采樣操作無法真正恢復有效的高分辨率特征,應該在不同語義階段自始至終都維持高分辨率表征;同時受到Hourglass[4]和CPN[10]的多尺度連接思想啟發,提出特征多次重復融合的高分辨率網絡——HRNet[2]。其團隊的另一力作HigherHRNet[3]則是同時針對特征圖和熱力圖,利用HRNet提取高分辨率特征,再使用反卷積放大熱力圖的分辨率,最后提出多尺度熱力圖平均融合策略,大大增強了網絡對尺度變化的魯棒性。對于多尺度特征的融合方式除了上述提及的平均融合外,Su等人[11]也嘗試在熱力圖上進行加權融合。關鍵點檢測網絡中的表征(特征圖、熱力圖)分辨率對定位精度至關重要,因此選用高分辨率的網絡設計往往可以事半功倍。
在卷積神經網絡中,感受野(Receptive Field)指的是中層特征圖上某神經元位置計算輸出所用到的有效圖像區域,示意圖如圖2(a)左圖所示。相關工作[12,13]認為,如果僅從局部細節出發,容易出現人體姿態的漏檢和交叉誤判;足夠大的感受野可以包含更多的上下文信息,協助推理復雜場景下的多人姿態結果。

圖2 可變形卷積DCN示意圖
常見的增強感受野方式有使用更大的卷積核和采用擴張的空洞卷積(Dilated Convolution)[14],例如經典的算法CPM[15]采用9×9卷積配合多階段級聯網絡來增大感受野,獲得明顯效果。類似地,循環(Recurrent)姿態網絡[16]設計了一種循環遞歸模塊來提升感受野。
由于人體姿態關鍵點尺度不一,處于較為精細位置的關鍵點需要較小的感受野才能捕獲細節信息。因此一味地增大感受野不一定持續受益,反而會引入許多干擾信息。針對感受野的研究大體分為兩類:第一,特征尺度金字塔;第二,幾何變換自適應。可變形卷積DCN[17]的思想和實現過程如圖2(b)所示,通過一個3×3卷積,對感受野上的每個卷積采樣點學習相應的偏移量,使得常規的N×N卷積區域變形為不規則感受野,從而更好地擬合尺度不一的困難目標,與常規卷積的效果對比見圖2(a)右圖。然而,近年受其影響的多人姿態估計工作更傾向于在分組網絡上遷移“偏移修正”概念,例如CenterNet[18提出無錨偏移思想修正人體關鍵點;DEKR[19]參照空間變換網絡STN[20]來設計自適應卷積(Adaptive Convolution)并構建多分支的關鍵點回歸網絡。
有效的高分辨率表征和適度變形的卷積感受野對尺度不一的多人關鍵點檢測大有裨益。結合多尺度的高分辨率網絡和變形感受野思想,本節設計基于變形卷積的關鍵點檢測模塊DB-Module,并用優化后的模塊批量更新高分辨率網絡,配合熱力圖指導的特征融合修正策略,完成多尺度的自適應檢測網絡優化。
卷積網絡發展至今,依靠更大、更多卷積的笨重設計已經暴露出明顯缺點:計算量大且面臨性能退化。Simonyan等人[21]提出使用多個3×3卷積代替較大卷積核,堆疊而成的感受野等大,同時引入更多非線性變換增強學習能力。He等人[22]針對深度網絡的性能退化問題,推出跳躍連接的殘差網絡(Residual Network,ResNet)結構設計,利用殘差學習思想緩解梯度爆炸和梯度彌散問題。
模塊化設計這種“即插即用”的特征,使網絡的改進變得簡單快速。下面基于高分辨率網絡HRNet[2]的主體部分,對每個階段的子模塊進行重新設計,并封裝成DB-Module模塊,然后批量替換整個網絡,簡單、快速地實現關鍵點網絡的優化。
圖3中展示了特征提取模塊DB-Module的組成結構。DB-Module是本文關鍵點檢測網絡的基本模塊,其中包含4個特征提取單元。模塊中的特征提取單元分2種,藍色方框部分采用殘差結構[22]的Basic Block基礎塊;橙色變形方框部分則是以變形卷積[17]為靈感設計的Deformable Block變形塊。卷積層的卷積核(Kernel))大小和通道數(Channel)分別表示為“k×k”和“(C)”,空心塊均由普通卷積/變形卷積和整流線性單位(Rectified Linear Unit,ReLU)[67]共同構成。

圖3 特征提取模塊DB-Module示意圖
考慮到多人姿態場景中的復雜姿勢和人體關鍵點的尺度變化,既需要足夠大的感受野來適應變化的困難姿勢,還應該保留較小的局部卷積區域來感知精細關鍵點。因此在DB-Module的模塊設計中,僅允許1/4的特征提取單元進行不規則的感受野變形,同時采用跳躍連接減緩堆疊卷積造成的感受野發散和網絡退化問題。參照經典目標檢測工作[23,24],選取第2個連接單元進行變形操作可以將變形空間限制在整個模塊的感受野中,讓封裝好的特征提取模塊既保留高效的圖像語義學習能力,又能發揮可變形卷積的尺度特性,更精準地捕捉困難人體實例。
優秀的多尺度表征不僅可以通過高分辨率網絡和變形感受野提取得到,還可以利用特征融合策略進一步放大其尺度感知特性。Cheng等人[3]認為不同分辨率大小的高斯分布熱力圖可以“響應”不同尺度的人體關鍵點,因此在2020年提出了更高的高分辨率網絡——HigherHRNet。其核心在于對熱力圖進行尺度增強,并在訓練、推理階段都使用多尺度融合策略,成功提升了中小尺度目標的解碼定位精度。近期,該團隊推出最新研究DEKR[19],將高斯響應熱力圖的注意力機制特性與特征融合策略結合,通過熱力圖進行局部指導,也在定位精度上取得進步。
本節基于骨干網絡HRNet[2]和分組方法AE[25]結合的多人姿態估計流程,提出一個簡單的尾部融合策略:將熱力圖與高分辨率特征對齊平均相加后,再利用反卷積模塊預測更高分辨率的熱力圖并在分組前對熱力圖進行融合修正(Aggregation Refine,ARefine)。
圖4中可視化了熱力圖指導特征融合策略主要流程。由上一節的特征提取網絡得到尺度感知特征圖后,先照慣例通過一個1×1卷積層預測所需的熱力圖。一般該預測模塊還同時預測標簽集合用作分組關聯信息指導,但分組算法不是本文重點,此處只形式化表示。按照尺度金字塔理論,低分辨率的熱力圖里含有較強的分類指導作用,再加上高斯響應本身自帶的注意力機制,兩者共同作用在尺度感知的特征圖上可以融合成更強大的高分辨率表征,從而更精準地指導熱力圖預測。受到Simple Baseline[9]的啟發,反卷積通常也被叫做轉置卷積,通過反向捕捉卷積規律,既能夠恢復部分有效的高分辨率表征,又可以在一定程度上擁有卷積的語義學習特性。本文沿用HigherHRNet[3]中反卷積層的結構設計與參數設定,在上采樣出更大分辨率熱力圖的同時進行關鍵點的預測,并為多分辨率熱力圖設計A-Refine融合修正模塊。以往工作中多使用連續的殘差基礎結構(Basic Res-Block)進行修正,本文額外增設變形模塊DBModule與DEKR[19]方法中的自適應矩陣(Adaptive Metrix)對比,從網絡自行學習和手工主動設計兩種改進角度尋求良好的修正模式。

圖4 熱力圖指導特征融合策略流程示意圖
本質上說,DCN[17,24]和STN[20]均研究如何擬合物體的空間幾何變換,前者使用非參數式的網絡自主學習思路進行模塊級別設計,后者通過參數式的網絡人工設計進行網絡級別搭建。DCN方法易于泛化,即插即用但不可避免增加一定參數量;STN結構通過手動規劃且在后續工作[19,26]中被提煉成自適應矩陣(Adaptive Metrix)用于卷積改造,詳見式(1)至(3),參數量可觀但針對性強、不易泛化。

其中,c=(xc,yc)表示中心(center)坐標,wi為卷積核的權值,oi=(xo,yo)表示距離中心的偏移量(offset)。其中oi屬于表示感受野偏移的2×9矩陣Ot={oi,…,o9}中元素。
DEKR將STN設計的矩陣放入MSCOCO[27]訓練集中學習,獲得整體的仿射變換矩陣A∈?2×2和翻轉向量t∈?2×1。然后對常規(regular)卷積進行幾何變換捕捉,求得變換(transformation)后的Ot,以下以3×3卷積為例:

本文將可變形卷積和自適應矩陣應用到基于熱力圖預測的多人姿態估計中,通過在A-Refine融合修正模塊上的實驗對比擇優,尋找良好的特征融合策略。
本文提出的關鍵點檢測網絡模塊DB-Module和特征融合修正策略A-Refine均在MSCOCO[26]數據集上進行訓練和驗證。表1中給出了姿態估計任務常用的評價指標。

表1 人體姿態估計常用評價指標
MSCOCO關鍵點挑戰為人體姿態估計任務設計了一套多標準評價指標,以目標關鍵點相似度(Object Keypoint Similarity,OKS)系數和目標尺度為基準,計算平均精確度(Average Precision,AP)和平均召回率(Average Recall,AR)。
OKS主要計算預測的姿態關鍵點與標注之間的相似度,數值在0~1之間。公式如下:


此處,ks為預測的人體的第i種姿態關鍵點坐標和實際的關鍵點坐標pi的相似度;s2是當前人體分割掩碼(Segmentation Mask)區域面積;ki=2σi為當前關鍵點的標注抖動分布歸一化,用于調節關鍵點相對當前人體尺度的標注抖動。
AP和AR針對預測中得分前20的姿態估計結果進行計算,計算OKS=.50:.05:.95區域的AP和AR值,在不同的閾值下分別對兩者求平均,可以得到最后使用的主流指標meanAP(mAP)和meanAR(mAR)。MSCOCO評價指標里還提供與尺度相關的指標APM、APL和ARM、ARL。
本文提出的關鍵點檢測模塊設計和融合修正策略更關注于中小尺度人體關鍵點定位情況和召回能力的提升,而不是大尺度目標的評測情況,因此在后續的評估中,將針對與人物尺度相關的精細化評價指標mAP、APM、mAR、ARM進行重點觀測與分析。
本文使用Python語言和PyTorch深度學習框架實現基于變形卷積的關鍵點檢測模塊DB-Module,并批量更新自底向上的多人姿態模型HigherHRNet中關鍵點檢測網絡主體部分的HRNet,最后在分組網絡AE[25]前置部分實現特征融合修正策略。
4.2.1 數據處理
在多人姿態估計網絡的輸入階段,為便于數據并行,先對原圖集體進行填充并縮放到512×512的固定尺寸,然后在訓練階段使用了隨機裁剪、隨機縮放、隨機旋轉和隨機翻轉等數據增廣技術進行數據預處理。
根據本文3.2節提出的熱力圖指導特征融合修正策略,生成兩種尺寸的Ground-Truth關鍵點熱力圖作訓練標簽,分別是128×128和256×256。
4.2.2 訓練參數
隨機初始化網絡的權值,使用初始學習率為1.875e-3的Adam優化器對網絡損失進行優化,訓練的批尺度大小為8。學習率調整策略為先線性預熱,后階梯下降。本文實驗訓練了120個周期,總耗時約5.5天。學習率從lr×0.01開始預熱500個輪次,60個周期后開始階梯式下降,在第80個周期降至1.875e-4。多次實驗保留最佳驗證結果并取平均。
整個網絡在2張NVIDIA GTX 1080Ti GPU上進行分布式訓練,同時采用線性尺度規則(Linear Scaling Rule)對基準網絡預設的學習率進行調整,使之在不同批尺度大小和不同GPU數量的情況下,依舊獲得接近原始訓練精度的復現結果。
本文提出的特征融合策略中應用了兩款融合修正模塊:DB-Module和Adaptive-Metrix。兩者均在模塊更新后的網絡上進行實驗,各自分配1張NVIDIA GTX 1080Ti GPU并行訓練。公平起見,模型微調(fine-tune)期間其余參數保持一致。整個實驗過程中,前80個周期訓練就變形模塊DB-Module的DBPose網絡,后40個周期內學習率×0.1并列進行最優融合修正模塊的探索。
4.2.3 驗證細節
本文的基準網絡選定為HigherHRNet[3],其分組算法沿用AE[25]。但是,由于HigherHRNet中自帶多尺度熱力圖融合機制,容易混淆特征融合修正策略的有效來源,公平起見,本文將HigherHRNet中去除熱力圖融合策略后的主體網絡HRNet[2]與分組算法AE拼合,作為第二基準網絡進行參考。上述工作的源代碼在驗證、測試階段均使用了[ ]×0.5,×1,×1.5,×2尺度金字塔技術對預測的不同尺度的人體實例進行融合增強。為公平地驗證尺度感知的關鍵點檢測模塊有效性,本文去除基準網絡中的多尺度部分,并在本地環境下按與本文實驗的相同配置重新運行和驗證其開源模型,從而排除原文中額外進行姿態修正后帶來的漲幅偏差。
本文以2020年榜首HigherHRNet作為第一基準網絡;同時將2020年的多任務骨干網絡HRNet和經典分組算法AE拼合,作為第二基準網絡共同進行對比實驗。為節省成本,僅在使用最小模型(w32)在MSCOCO[26]驗證集上進行實驗。
4.3.1 定量分析
在MSCOCO[26]驗證集上的各項精細指標評測結果參見表2。驗證集上的本地消融實驗數據額外保留兩位小數。
為便于區分,本文3.1節的DB-Module模塊化設計對應模型表示為“DBPose”;后續加入本文3.2節特征融合修正策略A-Refine后,對應模型表示為“SSRPose”,進行如表2所示的消融實驗。
(1)關鍵點檢測模塊DB-Module的評測結果
根據表2中結果可知,單純對基準網絡HigherHRNet進行DB-Block批量更新得到的DBPose,無需微調即可得到66.83%的mAP精度,比第一基準模型提升1.14%。并且在各項與尺度變化相關的精細指標上都超越了基準,其中APM和ARM較為明顯,分別是1.41%和1.45%的漲幅,體現了DB-Module變形感受野在捕捉尺度不一人體方面的優勢。

表2 MSCOCO驗證集上的結果
采取特征融合修正策略A-Refine將兩者融合形成本文的尺度感知多人姿態估計模型SSR-Pose,通過下述消融實驗探索“性價比”更高的最終模型。表2中的最后實驗條目,整體平均精度mAP達到67.83%。與第一和第二基準網絡相比,分別提升2.14%和5.95%的平均精度,尺度指標APM上的漲幅更是高達2.36%和6.50%。
(2)特征融合修正模塊A-Refine的消融實驗
表3中分別對三種類型的特征融合修正模塊進行實驗評測,實驗條目1,2為基于STN和DCN設計的Adaptive Metrix和DB-Module。實驗條目3為使用HR-Module的基礎模式搭建的高分辨率修正模塊。

表3 特征融合修正模塊的消融實驗
從實驗數據上看,手工設計的Adaptive Metrix自適應矩陣在微調的情況下仍需要更復雜的參數調整才能獲得理想精度,泛化性和拓展性不強。本文提出的DB-Module雖能得到與HR-Module高分辨率修正模塊相同的精度,但對比尺度指標發現,變形感受野更擅長捕捉困難的大型人體,而高分辨率的基礎模塊才更適合用于修正精細關鍵點坐標的偏移;同時變形卷積DB-Module代碼量稍大,耗時略久,因此性價比更高的方法為使用HR-Module(Basic)。本文SSRPose的最終版本搭建擬使用基于高分辨率的特征融合修正模塊。
4.3.2 誤差分析
采用coco-analyze誤差分析工具[28]對基準網絡HigherHRNet[3]和本文的變形感受野檢測網絡DBPose以及應用特征融合修正策略后的SSR-Pose進行定量評價誤差分析。定位誤差的結果是從被成功檢測的姿態關鍵點中求得,與驗證集評測結果有所出入,因此以下主要對比分析誤差趨勢。
圖5中三種方法在定位誤差上的分布大致相同,均有較高的Jitter抖動誤差,和較小的Swap交換誤差和Inversion逆轉誤差,具體數值結果和比較見表4。

圖5 不同類型定位誤差得分布情況

表4 四類定位誤差的數值結果與趨勢
通過條目1和2的對比發現,使用變形感受野模塊DB-Module更新高分辨率的關鍵點檢測網絡,可以明顯緩解Miss遺漏誤差和Swap交換誤差。這說明對本文提出的特征提取模塊優化同時擁有高分辨率和尺度感知的特性,共同作用緩解因分辨率變化帶來的定位丟失問題;同時得益于更高質量關鍵點預測熱力圖,其分組效果也有所提升。對比條目2和3,最終的SSR-Pose通過熱力圖指導的融合修正策略,對重點的局部精細區域投入更多注意力,使得最終預測的關鍵點熱力圖具備更強尺度感知能力,因而有更小的Miss遺漏誤差和Jitter抖動誤差。Good優秀分類指標得分大幅提升,最終SSR-Pose的每項定位誤差指標均低于基準網絡,較難察覺、看似影響較小的Jitter抖動誤差都獲得明顯的緩解。可見,本文提出的自適應檢測網絡在困難姿勢和精細關鍵點的檢測上具有優勢。
本文通過分析高分辨率和變形感受野對網絡性能的影響,設計一款基于可變形卷積的特征提取子模塊。通過模塊化的設計批量更新迭代網絡架構,實現特征提取骨干網絡的優化。為增強整體結構的尺度感知能力,在任務頭部處提出了一個簡單的尾部融合策略,利用網絡中增強的高分辨率熱力圖指導特征,配合特征融合修正模塊,共同完成尺度感知的關鍵點自適應檢測網絡優化,豐富了表征的多尺度表達,表現出對困難姿勢和中小尺度關鍵點的檢測優勢。