






摘要:針對實時人體姿態估計模型計算復雜度大、效率低的問題,文章以YOLOv8n-Pose模型為基準,提出了一種結合重參數化網絡和共享卷積的輕量化人體姿態估計算法。首先,引入MLCA注意力機制,改進C2f模塊中的Bottleneck結構,提升骨干網絡對人體關鍵點的特征提取能力。其次,將原有的PANet特征融合網絡替換為重參數化網絡RepGFPN,實現更高效的多尺度特征融合。最后,設計了一種共享卷積的輕量化檢測頭,降低模型參數量,減少計算開銷。在COCO數據集上的實驗結果表明,改進后的模型計算復雜度(GFLOPS) 降低了10%,mAP@50精度提升了2.8%,模型參數量減少了20%。這些改進為人體姿態估計任務的輕量化和高效部署提供了新思路。
關鍵詞:人體姿態估計;輕量化;YOLOv8n-Pose;重參數化網絡RepGFPN;共享卷積
中圖分類號:TP183 文獻標識碼:A
文章編號:1009-3044(2025)02-0019-04 開放科學(資源服務) 標識碼(OSID) :
0 引言
人體姿態估計是計算機視覺中的重要任務,廣泛應用于行為分析、人機交互、智能監控和虛擬現實等領域。
近年來,基于卷積神經網絡(CNN) 的姿態估計方法逐漸成為主流,主要分為基于熱圖的方法和回歸的方法?;跓釄D的方法雖然精度較高,但計算量大,難以在資源有限的設備上實現實時應用。基于回歸的方法直接從圖像中預測人體關鍵點的坐標,具有速度快、計算量小的優勢,但在復雜場景下(如多人或遮擋情況下) ,定位精度較低。Toshev等[1]提出了一種以AlexNet為骨干的級聯深度神經網絡DeepPose,將姿態估計建模為基于深度神經網絡的關鍵點回歸問題。Chen等[2]提出了級聯金字塔網絡(CPN) ,通過Global?Net和RefineNet雙階段結構有效解決多人姿態估計中的遮擋和不可見關鍵點問題,并在COCO數據集上實現了顯著性能提升。在此基礎上,Li等[3]提出了多階段姿態網絡(MSPN) ,改進了CPN的關鍵點回歸方式。MSPN采用多階段回歸策略,逐步細化關鍵點預測,逐漸減少誤差;通過不同大小的高斯卷積核生成標簽,靠近輸入端的卷積核較大,確保初步定位,卷積核隨階段減小,以提升定位精度,實現多階段細化和模型穩定性,適用于多種復雜場景的姿態估計。
利用Transformers的特征提取能力,Mao等[4]提出的Poseur預測精度較高,能夠有效捕捉全局依賴性,克服了傳統方法中的量化誤差問題,但學習復雜度較高,泛化能力欠佳,且在跨域數據上表現不足,訓練和推理成本較高。Sun等[5]提出的密集關鍵點回歸框架(DEKR) ,通過逐像素空間變換器和自適應卷積激活關鍵點區域,以精確回歸關鍵點位置。該方法采用多分支結構,使每個分支專注于單個關鍵點回歸,從而提升空間精度。
隨著YOLOv8-Pose[6]系列模型的出現,實時姿態估計取得了顯著進展。然而,在處理遮擋、復雜姿態和多人體場景時,YOLOv8-Pose在關鍵點定位上仍存在局限,特別是對被遮擋關鍵點的檢測不夠準確。為解決上述問題,本文以YOLOv8n-Pose模型為基準,提出了一種結合重參數化網絡和共享卷積的輕量化人體姿態估計算法。主要貢獻如下:
1) 引入MLCA 注意力機制,改進C2f 模塊中的Bottleneck結構,提升模型對關鍵點特征的提取能力。
2) 用RepGFPN替代原有的PANet特征融合網絡,實現更高效的多尺度特征融合。
3) 設計了共享卷積的輕量化檢測頭Pose_LSCD,降低模型參數量和計算復雜度。
1 相關原理
YOLOv8-Pose是一種結合目標檢測和關鍵點檢測的實時人體姿態估計模型。該模型基于YOLO系列目標檢測架構,通過在檢測框的基礎上預測人體的關鍵點位置,實現多人姿態估計。整體結構包括骨干網絡(Backbone) 、特征融合網絡(Neck) 和檢測頭(Head) 。輸入圖像經過骨干網絡提取多尺度特征圖,隨后在特征融合網絡中進行特征融合,最后通過檢測頭完成目標分類、定位和關鍵點預測。
2 方法
2.1 C2f_MLCA 模塊
基于回歸的模型在復雜場景下的關鍵點定位精度較低,尤其在面對遮擋情況時,難以準確提取被遮擋的關鍵點。這是因為骨干網絡提取的有效關鍵點特征不足,影響了整體姿態的準確識別。
如圖1(a) 、(b)所示,為提升模型對人體關鍵點的特征提取能力,本文引入MLCA[7]注意力機制,改進C2f模塊中的Bottleneck結構。MLCA通過融合局部和全局特征,增強了模型對重要空間特征的表達能力,提高了被遮擋關鍵點的識別準確性。
如圖1(c)所示,MLCA模塊包含局部和全局兩個分支。局部分支通過局部平均池化(LAP) 捕獲細節特征權重,全局分支通過全局平均池化(GAP) 提取整體特征權重。兩者經過一維卷積和展平處理后,融合生成混合局部通道注意力權重,增強了模型的特征表達能力。具體而言,局部分支通過局部平均池化捕捉細節特征權重,全局分支通過全局平均池化提取整體特征權重。兩個分支的輸出經過Reshape層展平,并通過一維卷積層進一步提取特征權重。隨后,局部特征權重與反池化后的全局特征權重經過像素級相加,生成融合了局部和全局信息的注意力權重。最終,通過反池化操作獲得與輸入特征圖通道數相等的混合局部通道注意力權重。
通過引入MLCA注意力機制,模型在局部和全局空間上增強了對遮擋人體關鍵點的特征表達能力,并提高了隨機分布人體關鍵點的定位精度。
2.2 RepGFPN 特征融合網絡
傳統PANet的特征融合采用自上而下和自下而上結合的方式,其中自下而上的路徑增強主要關注低層特征的信息傳播,這種機制可以增強位置精確的低層特征,但由于高層語義特征在回傳時沒有得到充分關注,導致在融合過程中高層語義信息被弱化。
為增強模型在不同尺度下的特征融合效果,本文引入了RepGFPN[8]網絡,替代了YOLOV8n-pose原有的PANet部分。RepGFPN是一種高效的特征融合網絡,改進自傳統FPN,重點在于提升模型效率的同時保持精度。通過引入重復分支和高效計算模塊,Rep?GFPN增強了特征融合能力,同時降低了計算負擔。它通過跨層特征融合,顯著提升了模型在不同尺度下的關鍵特征檢測能力,更好地捕捉細節和全局信息的相互關系,并減少了特征圖的計算開銷。
如圖2所示,RepGFPN網絡通過其高效特征融合設計,實現了更為有效的多尺度特征整合。整體上,多個特征層通過拼接進入RepGFPN的融合模塊進行迭代處理。其次,在融合模塊(FusionBlock) 內部利用雙分支卷積網絡對特征進行提取和融合,有效結合了圖像的高層和低層語義信息。在模型訓練過程中,RepConv模塊采用雙路卷積,而在推理時僅使用一路卷積,進一步提升了推理效率。
2.3 Pose_LSCD 輕量化檢測頭
YOLOv8-Pose在檢測頭中使用了多個卷積層來提取特征和回歸關鍵點位置,同時每個分類和目標回歸分支都有獨立的卷積操作。這種設計雖然能夠提升檢測精度,但顯著增加了檢測頭的參數量。
本研究設計了一種用于人體姿態檢測的輕量化檢測頭Pose_LSCD。該檢測頭通過卷積共享結構的設計來減少模型參數量。在采用共享卷積結構時,由于標準卷積模塊中的批量歸一化(BN) 依賴于當前批次的均值和方差,導致小批次的統計量不夠穩定,容易受到噪聲的影響,因此引入分組歸一化(GN) [9]對卷積模塊進行改進,從而提升目標檢測的定位和分類效果。
如圖3所示,本研究設計的共享卷積模塊作用于特征輸入的分類和檢測分支,以實現輕量化檢測頭的參數優化效果。整體上,來自融合網絡的每個特征首先經過一個1×1的卷積模塊(ConvGN) ,然后分別進入姿態估計(Pose) 的分支網絡,并依次進入共享卷積模塊,實現共享權重的結構。在Pose分支中,每個特征依次經過一個1×1和3×3的卷積,最后通過一個通道數等于關鍵點數量的卷積,得到人體姿態估計的關鍵點檢測坐標。在共享卷積模塊中,輸入特征會經過兩個3×3的共享卷積,分為兩路分別預測類別和檢測目標位置。數學表達式如下:
yi = concat(share(xi ),POSEi (xi )) (1)
Y = [ y1 ,y1 ,...,yn ] (2)
其中,share 函數表示每個輸入的共享模塊,而POSE函數表示對每個輸入都有其對應的人體姿態檢測輸出。最終,來自融合網絡的每個特征都只經過同一個share模塊,隨后將得到的特征張量進行拼接,并自適應調整網絡參數。
3 實驗結果與分析
3.1 實驗數據與環境
實驗采用COCO2017人體關鍵點數據集,包含標注了17個關鍵點的圖像數據,覆蓋多人、遮擋、動作多樣等復雜場景。訓練集包含56 599張圖片,驗證集包含5 000張圖片。
實驗硬件環境包括NVIDIA RTX 4090 GPU(24GB 顯存) 、Intel Core i9-12900K處理器和32GB內存,利用GPU的并行計算加速模型訓練與推理。軟件環境為Ubuntu 20.04操作系統,Python 3.8用于算法實現,深度學習框架為PyTorch 1.8,CUDA版本為11.2以支持GPU計算。
實驗設置的參數為:初始學習率(learning rate) 為0.01,批處理大?。╞atch size) 為16,迭代輪數(epochs) 為300,輸入圖像分辨率為640×640,以確保不同模型之間具有可比性。
3.2 評價指標
對于COCO2017 數據集,本文采用OKS(ObjectKeypoint Similarity,關節點相似度) 作為模型性能評價的度量方法。計算公式為:
如公式(3) 所示,i 表示關鍵點的類型,di表示檢測出的關鍵點與其真實標簽之間的歐氏距離,s 表示目標的尺度,vi為真實關鍵點的可見性標志,δ 函數確保只有被標注的關鍵點才會納入計算,ki是控制衰減的每個關鍵點的常數。
如公式(4) 和(5) 所示,P和R分別表示精確度(Pre?cision) 與召回率(Recall) 。其中,TP為正樣本中預測為真的數量,FP為負樣本中預測為真的數量,FN為負樣本中預測為假的數量。
如公式(6) 所示,本研究采用mAP(mean AveragePrecision) 作為評估模型在不同閾值下的平均精度的指標,用于整體性能評估。mAP@50表示OKS閾值為0.5時的平均精度,mAP@50-95為OKS閾值從0.5到0.95的平均精度,其中,M是目標的總數量。
3.3 測試與分析
為了全面評估模型的輕量化和檢測性能,本文使用了參數量(Params) 、GFLOPS(每秒十億次浮點數運算) 以及平均精度(mAP@50、mAP@50-95) 進行分析。參數量用于衡量模型的輕量化程度,較少的參數量表示模型更加精簡,適合在資源有限的設備上運行。GFLOPS是評估模型計算復雜度的重要標準,表示模型每秒執行的浮點運算次數。
3.3.1 消融實驗
為探討本文提出的不同模塊對模型性能的影響,筆者進行了詳細的消融實驗,逐步修改模型中的各個模塊,評估其對模型在mAP@50、mAP@50-95、GFLOPS以及模型參數量方面的貢獻。
如表1 所示,引入C2f_MLCA 模塊后,參數量從3.3M增加至3.6M,GFLOPS增加了0.5,模型的mAP@50提升了1.9%,證明了MLCA注意力機制在關鍵點特征增強方面的有效性。進一步引入RepGFPN 后,mAP@50再次提升,同時GFLOPS有所降低,實驗證明RepGFPN在提升模型精度的同時優化了計算效率。此外,加入設計的Pose_LSCD 檢測頭后,參數量從4.4M降至2.7M,同時保持了檢測精度。
通過逐步添加各改進模塊,觀察到模塊間的協同作用,例如C2f_MLCA與RepGFPN的結合能夠在提升特征提取能力的同時優化多尺度特征的融合,從而進一步提升整體模型性能。綜合分析顯示,消融實驗驗證了各模塊的有效性,同時展示了其在實際應用中的潛在價值。
3.3.2 對比試驗
為了進一步評估本文提出的改進模型在姿態估計任務中的表現,基于COCO數據集,選取多個主流姿態估計模型與改進模型進行了對比實驗,如表2 所示。
從表2可以看出,本文提出的改進模型在減少參數量的同時,性能依然超越了YOLOv8n-Pose原始模型和OpenPose等主流模型。雖然本文模型在mAP@50 指標上為82.9,略低于HigherHRNet 和YOLOv5-Pose,但其參數量僅為2.70M,GFLOPS為7.30,顯示出更高的效率,適合部署在資源有限的場景中。此外,本文模型相比其他模型,特別是在計算資源需求上具有明顯優勢,這表明其在實際應用中的可行性和靈活性。
4 結論
本文針對實時人體姿態估計模型中存在的計算復雜度高和效率低的問題,提出了一種基于重參數化網絡和共享卷積的輕量化人體姿態估計算法。通過引入多級通道注意力(MLCA) 機制對C2f特征提取模塊進行改進,顯著增強了對人體關鍵點特征信息的提取能力。此外,采用RepGFPN特征融合網絡提升了特征融合的效率,最終設計了Pose_LSCD輕量化檢測頭,從而有效減少了模型的參數量和計算復雜度。實驗結果驗證了所提方法的有效性,為嵌入式和邊緣設備的應用提供了可靠的解決方案。
綜上所述,本文提出的方法為實際應用中的嵌入式和邊緣設備部署提供了有力支持,并為后續研究奠定了基礎。未來的工作將集中于進一步優化模型結構,以提升其在復雜場景下的泛化能力,同時探索更高效的實際應用部署方案。
參考文獻:
[1] TOSHEV A,SZEGEDY C.DeepPose:human pose estimation viadeep neural networks[C]//2014 IEEE Conference on ComputerVision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:1653-1660.
[2] CHEN Y L,WANG Z C,PENG Y X,et al.Cascaded pyramid net?work for multi-person pose estimation[C]//2018 IEEE/CVFConference on Computer Vision and Pattern Recognition.June18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7103-7112.
[3] LI W B,WANG Z C,YIN B Y,et al.Rethinking on multi-stagenetworks for human pose estimation[EB/OL].2019:1901.00148.https://arxiv.org/abs/1901.00148v4.
[4] MAO W A,GE Y T,SHEN C H,et al.Poseur:direct human poseregression with transformers[M]//Computer Vision – ECCV2022.Cham:Springer Nature Switzerland,2022:72-88.
[5] GENG Z G,SUN K,XIAO B,et al.Bottom-up human pose esti?mation via disentangled keypoint regression[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 20-25, 2021. Nashville, TN, USA. IEEE, 2021:14676-14686.
[6] WANG H T,YANG G H,HAO X Y,et al.Automotive gear defectdetection method based on Yolov8 algorithm[C]//2023 AsiaSymposium on Image Processing (ASIP).June 15-17,2023,Tian?jin,China.IEEE,2023:19-23.
[7] WAN D H,LU R S,SHEN S Y,et al.Mixed local channel atten?tion for object detection[J].Engineering Applications of Artifi?cial Intelligence,2023(123):106442.
[8] XU X Z,JIANG Y Q,CHEN W H,et al.DAMO-YOLO:a reporton real-time object detection design[EB/OL]. 2022: 2211.15444. https://arxiv.org/abs/2211.15444v4.
[9] TIAN Z,SHEN C H,CHEN H,et al.FCOS:fully convolutionalone-stage object detection[EB/OL]. 2019: 1904.01355. https://arxiv.org/abs/1904.01355v5.
[10] NEWELL A,YANG K Y,DENG J.Stacked hourglass networksfor human pose estimation[M]//Computer Vision – ECCV2016.Cham:Springer International Publishing,2016:483-499.
[11] MAJI D,NAGORI S,MATHEW M,et al.YOLO-pose:enhanc?ing YOLO for multi person pose estimation using object key?point similarity loss[C]//2022 IEEE/CVF Conference on Com?puter Vision and Pattern Recognition Workshops (CVPRW).June 19-20,2022,New Orleans,LA,USA.IEEE,2022:2636-2645.
[12] CAO Z,HIDALGO G,SIMON T,et al.OpenPose:realtime multiperson2D pose estimation using part affinity fields[EB/OL].2018:1812.08008. https://arxiv.org/abs/1812.08008v2.
[13] CHENG B W,XIAO B,WANG J D,et al.HigherHRNet:scaleawarerepresentation learning for bottom-up human pose esti?mation[C]//2020 IEEE/CVF Conference on Computer Visionand Pattern Recognition (CVPR). June 13-19, 2020, Seattle,WA,USA.IEEE,2020:5385-5394.
【通聯編輯:唐一東】