文章編號:1006-3080(2025)04-0514-08
中圖分類號:TP273文獻標志碼:A
人體姿態估計作為計算機視覺領域的一個重要研究方向,致力于從圖像或視頻數據中精確檢測和識別人體的關鍵點(如頭部、肩膀、肘部、手腕、髖部、膝蓋和腳踝),并推斷出整體的人體姿態[1]。這項技術在虛擬現實、人機交互、行為分析、醫療康復和視頻監控等多個領域中具有廣泛應用。目前的姿態估計方法主要依賴于深度卷積神經網絡(CNN)[5],這些網絡在捕捉局部特征和短程依賴性方面表現優異。然而,人體姿態估計任務常常涉及復雜的空間關系和長程依賴性,例如不同關節之間的相互關系以及整體姿態的一致性,特別是在處理人體遮擋和復雜背景時。在這種背景下,高階空間交互顯得尤為重要,通過捕捉圖像中的復雜和高級的空間關系,可以顯著提升姿態估計的精度和魯棒性。
近年來,深度學習,尤其是卷積神經網絡的應用,顯著提升了姿態估計的精度和效率[5-6]。例如,Hourglass網絡首次引入了高分辨率特征恢復,通過將從高到低和從低到高的卷積塊串聯為基本模塊,進而實現高分辨率的恢復[7]。U-Net[8]、DeconvNet[9]和ConvSegNet[1o]等網絡也采用了從低分辨率恢復到高分辨率的輸出分類方法。SimpleBaseline[1]則利用轉置卷積層生成高分辨率表示。為了處理遮擋關鍵點、不可見關鍵點和擁擠背景問題,MSPENet[12]引入了多尺度融合機制,通過將不同尺度的特征合并來進行網絡訓練。這些方法增強了姿態估計網絡的性能,但它們主要關注不同尺度特征的融合,而未充分考慮特征融合過程中來自其他層的大量不相關信息的潛在集成。高分辨率網絡(High-ResolutionNetwork,HRNet)提出了一種創新的架構,保持整個過程中以高分辨率表示,并通過在并行多分辨率子網之間交換信息,實現了連續的多尺度融合[13]。然而,傳統HRNet結構在處理復雜空間交互時可能存在一定局限性,例如對復雜空間交互的建模不足以及全局一致性處理的不足。
在特征提取網絡中引入注意力機制顯著提升了姿態估計任務的性能[14-15]。通道空間注意力模塊(Convolutional Block Attention Module,CBAM) 結合了通道注意力和空間注意力,通過提升卷積神經網絡的特征表示能力,改善了模型在視覺任務中的表現[16]。 SENet(Squeeze-and-excitation networks)引人了Squeeze-and-Excitation機制,以自適應調整通道特征響應,從而提高深度神經網絡的表示能力和準確性[16]。RANet(Region attention network)則專注于目標檢測和分割任務,通過區域注意力機制有效提升對圖像中重要區域的關注度,從而改善模型的性能和泛化能力[17]。這些注意力機制的引入能夠幫助網絡更精確地捕捉人體姿態中的細微特征變化,進而提高姿態估計的精度和魯棒性,同時在復雜環境和動態場景中展現出更好的穩定性和可靠性。
綜上所述,本文以HRNet作為基本網絡框架,結合遞歸門控卷積(GnBlock)[18]與深度可分離卷積[19],提出了一種改進的模塊GnBlock,并在殘差模塊的瓶頸層之后引入了CBAM注意力機制。此改進旨在進一步優化特征提取過程,重點處理姿態關鍵點之間的重要關聯性和空間依賴關系。
1相關工作
1.1 高分辨率網絡HRNet
HRNet是一種專為人體姿態估計及其他視覺任務設計的先進神經網絡架構,由Sun等[14]在2019年提出。該架構旨在以最小的計算開銷實現高分辨率輸出,從而優化其實用性,它顯著提升了人體姿態估計領域的技術水平。HRNet在捕捉高保真特征和整合語義信息方面表現卓越,極大地提高了模型的準確性和魯棒性,已成為計算機視覺和人機交互研究中的關鍵工具。
HRNet的核心理念是多分辨率表示學習。它從高分辨率圖像開始,通過下采樣生成多分辨率特征圖。這些特征圖在網絡的不同階段通過并行卷積獨立處理,以確保高分辨率數據的保留。最終,這些特征圖被融合,以生成高分辨率的結果。這種設計不僅保證了計算效率,還能夠精確捕捉輸入圖像的細節,在姿態估計任務中表現出色。HRNet網絡結構如圖1所示。
1.2遞歸門控卷積GnConv
傳統的特征提取方法主要依賴于卷積操作。在HRNet網絡模型中,基礎組件是大量的普通卷積層。然而,卷積層的過度使用會導致計算量和參數量的顯著增加。此外,常規的卷積結構往往未能充分考慮到相鄰空間區域之間的交互特性,導致普通卷積在捕捉特征空間之間的相互作用方面存在一定的局限性。
為了解決這個問題,本文引入了GnConv。GnConv由Rao等[20]在2022年提出。該模塊借鑒了Transformer模型中的自注意力(Self-attention)機制[21],通過結合門控卷積和遞歸設計,實現了高階空間交互。
與傳統的卷積結構不同,GnConv在特征提取過程中通過鄰接空間區域的相乘操作來增強特征的表示能力。這種設計使得兩個或多個普通卷積結構可以進行高階空間交互,從而在特征表達上達到更高的精度。具體而言,GnConv通過門控機制動態調整特征圖的空間響應,進而在特征的相互作用中融入更豐富的信息。這種高階的空間交互能力顯著提升了卷積網絡在復雜視覺任務中的表現,使得模型能夠更有效地捕捉細微的空間關系。同時,遞歸設計使得模塊能夠有效地處理多尺度信息,優化了特征的表達能力,而不引入大量額外的計算開銷。普通卷積結構、Transformer模型中引人Self-attention機制的Transformer-block模塊[22-25]和GnConv的對比圖如圖2所示,其中圖2(b)示出了引人Self-attention機制的Transformer-block模塊,圖2(c)為GnConv示意圖。
圖1HRNet網絡結構圖
Fig.1Framework ofHRNet

普通卷積單元沒有空間的交互特性,Self-attention機制只有兩個連續并且相鄰的特征矩陣向量才具有交互特性,而對于GnConv來講,兩個相鄰卷積單元以及多個卷積單元之間可以通過矩陣相乘的方式實現高階交互。關于GnConv的公式見式(1)~式(5)。
圖2卷積單元對比圖
Fig.2 Comparison of convolutional units

當輸入特征為 x∈RH×W×C 時,獲得投影特征 p0 和qo

其中, C 代表輸出通道數。
?in 為通道混合時的輸入投影層,當執行一階交互時:
p0=f(q0)?p0∈RH×W×C
其中, ? 表示點積運算; f 為深度可分離卷積DWConv運算,之后進行多階交互運算:

其中, α 表示經過卷積操作后輸出縮放的比例。將輸出縮放為 1/a 穩定訓練,然后根據不同順序來匹配通道維度:

然后,將遞歸之后的 qn 輸入給通道混合時的輸出投影層 ?out :
y=?out(pk+1)∈RH×W×C
GnConv的輸人是具有 c 個通道的特征圖,在第1層卷積后,通道數翻倍。第1層卷積的輸出被分成兩部分:第1部分由下一層使用,第2部分經過深度可分離卷積,輸出3部分作為其他3層的輸入。這種設計增強了特征表征能力,而不引入額外的計算復雜性,其整體結構如圖3所示。
在HRNet中引入遞歸門控卷積,可以有效地捕捉圖像數據中的上下文關系和高階特征交互。這種結合可以提升模型對復雜圖像特征的理解和表征能力,從而改善任務的性能。
圖3遞歸門控卷積結構圖
Fig.3Structure of recursively gated convolutional

1.3通道空間注意力模塊CBAM
為了更加有效地提高對圖像中關鍵區域的關注度,從而改善模型的性能和泛化能力,我們引入了CBAM注意力機制。這個機制使得網絡能夠更精確地捕捉人體姿態中的細微特征變化,提高姿態估計的準確性和魯棒性,在復雜環境和動態場景中展現出更加穩定和可靠的表現。
CBAM主要由通道注意力模塊(ChannelAttentionModule,CAM)和空間注意力模塊(SpatialAttentionModule,SAM)組成。CAM模塊通過全局平均池化和全局最大池化生成特征圖的通道特征向量。隨后,通過多層感知機(MLP)對這些特征向量進行加權組合,以計算每個通道的注意力權重。CAM的核心目標是捕捉特征圖中通道之間的依賴關系,調整各通道的相對重要性。SAM專注于捕捉特征圖內不同空間位置之間的關系。它通過對通道維度進行匯聚,生成空間特征圖,并通過卷積操作計算空間注意力分數。SAM旨在突出圖像中具有重要意義的空間區域,抑制不相關的背景信息。
對于輸入特征圖 X∈RC×H×L×W ,首先經過CAM,得到 X′∈RC×H×L×W :
MC(X)=σ(MLP(Maxpool(X)+MLP(Avgpool)))
X′=Mc(X)?X
其中, MC(X)∈RC×1×1×1 ,MLP表示多層感知機,Maxpool表示空間域的全局最大池化,Avgpool表示空間域的全局平均池化, σ 為Sigmoid函數, ? 表示逐元素乘法。將輸出的特征權重向量 MC(X) 重新加權到初始特征圖 X 上得到 X ,完成特征圖在通道維度上的重標定。然后,將 X 輸入到空間注意力模塊得到X′′∈RC×H×L×W :
MS(X′)σ(conv7×7×7([Maxpool(X′);Avgpool(X′)]))
X′′=MS(X′)?X′
其中, MS(X′)∈R1×H×L×W , conv7×7×7 表示核尺寸為7×7×7 的卷積運算,Maxpool表示通道域的全局最大池化,Avgpool表示通道域的全局平均池化,其結構如圖4、圖5所示。
圖4通道注意力機制結構Fig.4Structure of CAM
Fig.5 Structure ofSAM

盡管GnConv能夠有效引人高階空間交互操作,提升特征提取的能力,但它在處理通道層面依賴關系方面存在一定的不足。CAM則能夠彌補這個缺陷,它專注于學習通道間的依賴關系,并根據這些關系調整通道特征,從而在通道層面優化特征提取過程。
結合GnConv與CBAM,可以充分發揮兩者的優勢。GnConv引入的高階空間交互操作增強了特征圖在空間維度的表達能力,而CBAM則在通道維度和空間維度上優化了特征的表達。兩者的結合不僅提升了特征提取的全面性,還確保了模型在捕捉復雜視覺信息時的準確性和魯棒性。通過引入CBAM注意力模塊,可以有效彌補GnConv在通道層面上的不足,實現更全面的特征優化,從而提升模型在各種視覺任務中的表現。
圖5空間注意力機制結構

1.4高階空間交互姿態估計網絡
本文重新設計了HRNet中的BottleNeckBlock結構,并引入了GnConv,用以減少參數量并增強特征提取的高階空間交互能力。然而,GnConv在通道層面上的依賴關系處理方面存在一定的不足。
為彌補這個不足,本文進一步引人了CBAM注意力機制,CBAM通過學習通道間的依賴關系并對通道特征進行調整,在通道層面優化特征提取效果。改進的姿態估計網絡結構如圖6所示。
模型包括4個階段,從高分辨率卷積流W×H×C 開始,第1階段包括提取圖像特征和下采樣,然后進行 3×3 卷積生成額外的分辨率路徑W/2×H/2×2C 。兩個不同的分辨率路徑并行輸出到下一個階段。第2、3、4階段分別由1、4、3個階段模塊組成。每個StageModule包含多個不同的分辨率路徑,實現來自不同分辨率的特征的融合。StageModule由基本塊、注意力模塊CBAM和融合單元組成。不同分辨率的特征首先經過4個BasicBlock,然后經過CBAM模塊。最后,通過融合單元與其他分辨率的特征進行融合。
BasicBlock由4個殘差單元組成,每個殘差單元包含2個 3×3 卷積,后接BN和GeLU26]。在兩個階段之間使用過渡模塊來添加分辨率減半的額外路徑。在CBAM模塊中,先應用全局平均池化和最大池化生成通道特征向量,通過多層感知機計算通道注意力權重,對經過通道注意力調整的特征圖應用空間注意力機制,最終得到優化后的特征圖。融合單元以全連接的方式連接不同分辨率的輸出,如圖6所示。其中,GnBlock是基于GnConv操作構建的一個新的模塊。GnBlock受廣泛應用于Transformers和MLP的前饋網絡(FFN)的啟發,結合了CNN的結構特性。該模塊包括短路連接(Shortcut)、批量歸一化(BN)層、兩個 1×1 卷積層以及GeLU激活函數。相較于經典FFN中使用全連接層之前的層歸一化(Layernormalization),BN的優勢在于能夠直接集成到卷積操作中,從而提升推斷效率,并優化性能。GnBlock結構圖見圖7。
圖6改進的姿態估計網絡結構圖
Fig.6Structure of improved pose estimation network

圖7GnBlock結構圖Fig.7 Structure ofGnBlock

2 結果和分析
2.1數據集與評價指標
本文根據HRNet模型選取大型數據集COCO2017人體姿態估計數據集,COCO2017包含200000張圖像,涵蓋了250000個人體樣本。每個人體實例都按照指定的順序標注了17個關鍵點,包括5個面部標志和12個身體關節。每個關鍵點都具有 x,y 坐標和可見性標志。本文模型在COCO2017驗證集和測試集上進行測試評估,評價標準使用COCO官方提供的 OKS(Object keypoint similarity),如式(10)所示。

其中, P 代表圖像中某人ID; Pi 代表某人關鍵點ID;
dpi 代表預測值與真實值之間的歐氏距離; SP2 代表某個人所占面積; σi2 表示歸一化因子; δ 表示關鍵點函數,且輸出只有0或1。
COCO數據集一般包含平均準確度(AveragePrecision,AP)和平均召回率(AverageRecall,AR)兩個重要指標,可通過計算預測值關鍵點與真值關鍵點的相似性得到AP和AR指標。通常情況下,AP50 和 AP75 分別表示閾值為0.50和0.75時的準確率,AP指OKS等于
時的平均精度; APM 為中等尺度目標精度; APL 為較大尺度目標的精度。同理,AR也具有相同的計算過程。
2.2實驗環境和參數
本文實驗使用Ubuntu20.04系統作為運行平臺,采用深度學習框架Pytorch訓練模型,編程語言主要為Python且通過GPU進行加速,GPU型號為NVIDIAGeForceRTX3090,顯存為 24G 。
模型訓練時對圖像進行預處理,固定輸入圖像大小為 256×192 ,模型參數優化器為Adam,訓練批次大小為16。網絡訓練共210個周期,學習率開始設置為0.001,并使用余弦退火的學習率下降方式,減小到0.00001不再衰減.
2.3 實驗比較
在MSCOCO2017數據集上進行標準人體姿態估計實驗驗證,以OKS作為模型在MSCOCO2017數據集上的評價指標,
,其中,分母項是對\"真實目標-預測結果\"配對的全域計數。“1”作為計數單元,用于標識每一組獨立的(真實目標 m 、預測結果p)配對關系, OKS∈[0,1] 為一個標量, OKSgt;t 表示預測正確,反之亦然, γ(?) 為預測準確性判斷函數, t 為OKS閾值,通過實驗統計得到在不同OKS閾值下的識別精度。MSCOCO2017數據集OKS對比實驗結果如表1所示。
由表1可知,在MSCOCO2017數據集實驗中,相較于其他模型,本文提出的模型精度均較高。其中,相較于HRNet在輸入尺寸為 256×192 的情況下,計算復雜度上升了 57.7% ,而在網絡性能方面,AP上升了 1.2% ;相較于HRFormer,在計算復雜度沒有提升的情況下, APM 一、 APL 分別提升了 0.3% 1.0% 對比VITPose模型,計算復雜度降低了 51.2% ,同時模型仍擁有較好的性能,AP只降低了 0.2% ;對比StageHourglass模型、CPN模型、SimpleBaselines模型、TokenPose模型,AP分別提升了 10.1% 、 7.0% 、1.9%,0.9% ,在保持計算復雜度沒有較大提升的情況下,仍具有較高的精度,其中表1中Backbone(主干網絡)是模型的核心組成部分。GFLOPs表示整個模型進行一次前向傳播(ForwardPass)所需的總浮點運算次數。實驗結果表明,改進后的模型在標準人體姿態關鍵點預測性能方面優于現有相關研究。
表1MSCOCO2017數據集上OKS對比實驗結果
Table 1 Experimental results of OKS comparison on MS COCO2017 datasets

2.4 消融實驗
為了驗證所提出模型中各個組件的有效性,本文設計了一系列消融實驗來評估不同模塊對最終性能的影響,具體實驗結果如表2所示。
表2消融研究
Table2Ablation studies

在COCO數據集上,與HRNet相比較,本文通過將GnBlock融人到HRNet架構中,AP提升了 1.1% 。這證實了改進的模塊可以有效提升模型性能。當融入CBAM后,增加網絡對重要的通道抽象特征和空間位置特征的關注,從而獲得包含更有效的信息的關鍵點特征,使得AP提升了 0.1% ,表現出注意力機制的有效性。
2.5 實驗局限
盡管本文提出的方法在人體姿態估計方面取得了一定的進展,但仍存在一些局限性和挑戰。首先,模型對復雜場景中的姿態估計仍存在一定的局限性。遞歸結構需要在時間序列上逐步處理數據,每一步都依賴于前一步的計算結果,這導致了更高的時間復雜度。每個時間步的計算不僅涉及卷積操作,還需要處理門控機制中的額外參數,如更新門和重置門。這些門控單元引入了額外的參數量,使得模型的參數總量顯著增加,從而增加了存儲和計算開銷。
其次,模型的計算復雜度和資源消耗較高。雖然本文在HRNet的基礎上進行了改進,并通過引入GnConv和CBAM模塊提升了模型性能,但這些改進也帶來了額外的計算和存儲開銷。相較于其他傳統的姿態估計模型,本文模型的計算復雜度與內存需求較高,在實際應用中,特別是資源受限的嵌入式設備或移動設備上,如何在保持高精度的同時降低模型的計算和存儲需求,仍是一個亟待解決的問題。
此外,訓練數據的多樣性和覆蓋范圍對模型性能的影響較大。本文使用的COCO2017雖然包含了大量標注數據,但這些數據集在姿態、多樣性和復雜度方面仍有一定的局限性。例如,數據集中某些特定姿態或場景的樣本量較少,導致模型在這些情況下的泛化能力較弱。因此,如何構建更加全面和多樣化的數據集,以提升模型在不同場景和姿態下的表現,也是未來需要研究的重要方向。
3結束語
本文以自底向上的高分辨率姿態估計網絡HRNet為基礎框架,提出了一種融合遞歸門控卷積GnConv和卷積塊注意力模塊CBAM的新型姿態估計網絡。通過引入GnConv,有效地捕捉圖像數據中的高階空間交互,提高特征表征能力,同時結合CBAM增強了對重要特征的關注度,提升了網絡對人體姿態中細微特征的捕捉能力。實驗結果表明,本文提出的模型在COCO2017數據集上的表現顯著優于傳統方法,證明了高階空間交互和注意力機制在提升姿態估計精度和魯棒性方面的有效性。未來工作中,可以進一步優化模型結構,探索更多融合不同特征的方式,以進一步提升姿態估計的性能。在處理復雜場景如遮擋問題、多目標場景、不同尺度或者視角時,可以采用例如結合輕量級卷積神經網絡與圖卷積網絡,能夠兼顧精度與計算資源需求,實現更高效的姿態估計。結合空間和通道注意力機制、深度與淺層特征的融合,提升模型在各種復雜場景下的表現,此外,引入自適應機制,使模型能夠根據輸入的復雜性動態調整處理策略,利用多尺度處理技術和領域適應技術,提升模型對不同尺寸和環境條件的適應能力,從而擴展其在實際應用中的適用范圍。通過這些改進,未來的研究將有望顯著提升姿態估計的準確性和魯棒性,使其能夠在更多復雜環境中表現出色。
參考文獻:
[1] SAPPB,TASKERB.Multimodaldecomposable models for human pose estimation[C]/IEEE Conference on ComputerVisionand PatternRecognition. Portland, OR,USA: IEEE,2013:3674-3681.
[2] DUANH,ZHAOY,CHENK,etal.Revisitingskeletonbased action recognition[C]//IEEE/CVF Conferenceon Computer Vision and Pattern Recognition (CVPR).New Orleans,LA,USA:IEEE,2022:2959-2968.
[3] WEIWL,LINJC,LIUTL,etal.Capturinghumansin motion:Temporal-attentive 3D human pose and shape estimation from monocularvideo[C]//IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR).New Orleans,LA,USA:IEEE,2022:13201-13210.
[4] DANTONEM,GALL J,LEISTNERC,etal.Human pose estimation usingbodyparts dependentjoint regressors[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR,USA: IEEE, 2013:3041-3048.
[5]LECUN Y,BOTTOUL,BENGIOY,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.
[6]羅夢詩,徐楊,葉星鑫.基于輕量型高分辨率網絡的被遮 擋人體姿態估計[J].武漢大學學報 (理學版),2021, 67(5): 403-410.
[7]ZHANG K,HE P,YAO P,et al. DNANet: De-normalized attention based multi-resolution network for human poseestimation[EB/OL]. (2020-12-13) [2022-07-23]. https://arxiv.org/abs/1909.05090v4.
[8]ALEJANDRO N, KAIYU Y, JIA D. Stacked hourglass networks for human pose estimation[C]//European Conference on Computer Vision (ECCV). Cham: Springer, 2016: 483-499.
[9]NOHH, HONG, S,HAN B. Learming deconvolution network for semantic segmentation[C]//IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE,2015: 1520-1528.
[10]IGE A O, TOMAR N K, ARANUWA F O, et al. ConvSegNet: Automated polyp segmentation from colonoscopy using context feature refinement with multiple convolutional kernel sizes[J] IEEE Access,2023,11:144082- 144105.
[11] XIAO B,WU H, WEI Y. Simple baselines for human pose estimation and tracking[C]//European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 472-487.
[12]XU J,LIU W,XING W,et al.MSPENet:Multi-scale adaptive fusion and position enhancement network for human pose estimation[J]. The Visual Computer, 2023, 39(5): 2005-2019.
[13] 牛悅,王安南,吳勝昔.基于注意力機制和級聯金字塔網 絡的姿態估計[J].華東理工大學學報(自然科學版), 2023, 49(5): 724-734.
[14]SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learningfor human pose estimation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA,USA: IEEE, 2019: 5686-5696.
[15]BAJ,MNIHV,KAVUKCUOGLU K .Multiple object recognition with visual attention[EB/OL]//. (2015-04-23) [2024-07-23]. https:/arxiv.org /abs/1412.7755v2.
[16]WOO S H, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]//Lecture Notes in Computer Science.Munich, Germany: IEEE,2018:3-19.
[17]HU J, SHEN L,ALBANIE S,et al. Squeeze-and- excitation networks[J].IEEE Transactions on Pattern Analysis andMachineIntelligence,2019,42(8):2011-2023.
[18] WANGZ Q,XUJ,LIUL, et al.RANet:Rankingattention network for fastvideo object segmentation[C]/IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,ROK:IEEE,2019:3977-3986.
[19] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI, USA: IEEE,2017: 1800-1807.
[20] RAOYM,ZHAOWL,TANGYS,etal.HorNet:Efficienthigh-order spatial interactions with recursive gated convolutions[EB/OL]. (2022-10-11) [2024-07-23]. https:// arxiv.org/abs/2207.14284v3.
[21] VASWANIA,SHAZEERN,PARMARN,etal.Attentionis all you need[C]//31st Conference onNeural Information Processing Systems.Long Beach,CA, USA:NIPS, 2017:5998-6008.
[22] YUQ,XIAY,BAIY,etal.Glance-and-gazevision transformer[C]//35th Conference on Neural Information Processing Systems.Sydney,Australia:NeurIPS,2021: 12992-13003.
[23] DOSOVITSKIY A,BEYERL,KOLESNIKOV A,etal. Animage isworth 16×16 words:Transformers for image recognition at scale [EB/OL]. (2021-06-03) [2024-07-23]. https://arxiv.org/abs/2010.11929v2.
[24] RADFORD A, KIM J W, HALLACY C, et al. Learming transferable visual models from natural language supervision[EB/OL]. (2021-02-26) [2023-07-23]. https://arxiv. org/abs/2103.00020v1.
[25] HENDRYCKSD,GIMPEL K.Gaussian error linearunits (GELUs)[EB/OL]. (2023-06-06)[2024-07-23]. https:// arxiv.org/abs/1606.08415v5.
Pose Estimation Network Based on High-Order Spatial Interactions
HUANG Xiaoyu, CHEN Jiayi, WU Yiwei, WU Shengxi, WANG Xuewu (Key LaboratoryofSmartManufacturinginEnergy Chemical Proces,MinistryofEducation,East China Universityof Science and Technology, Shanghai 20o237, China)
Abstract: Human pose estimation is a crucial research area in computer vision. With the advancement of deep learming technologies, existing pose estimation models have achieved remarkable successin predicting human keypoints.However,when dealing with complex scenes such as severe occlusion,complex backgrounds,extreme poses,multi-scale variations,and lighting changes,these models stillface chalengesand their accuracy is often affected.To address this issue,this paper proposes an improved human pose estimation method based on HRNet, which significantly improves the performance of the model incomplex scenes by introducing high-order spatial interaction and atention mechanisms. It employs recursive gated convolution and convolutional atention modules to enhance the model's ability to extract high-order spatial features.The experimental results show that the proposed method outperforms existing mainstream approaches on the COCO2O17 dataset and achieves higher pose estimation accuracy.
Key words:pose estimation; high-resolution network; high-order spatial interaction; CBAM attentionmechanism;feature extraction
(責任編輯:李娟)