









摘 要:為實現隊列姿態動作的準確評估,針對訓練場景中踢腿高度等三維人體姿態特征難以準確測量的問題,提出融合雙目信息的隊列三維姿態特征檢測方法。方法分為2D姿態估計和雙目立體匹配兩個階段。為提高2D人體姿態檢測精度,設計基于改進HRNet網絡的2D姿態估計模型。首先,在主干網絡引入空間通道注意力,增強特征提取能力。特征融合層采用自適應空間特征融合模塊,融合網絡多尺度特征。其次,采用無偏數據處理方法進行熱圖編解碼,減小數據統計誤差。最后,在模型訓練時采用由粗到細的多階段監督方法,提高關鍵點的檢測準確率。在2D姿態估計模型基礎上,采用標準相關匹配函數實現雙目立體匹配,再通過坐標變換得到三維人體姿態。實驗結果表明,改進的姿態估計網絡有較好的精度,在COCO數據集精度達到77.1%,在自制的隊列訓練數據集上精度達到86.3%,相比原網絡分別提升2.2%和3.1%。在三維人體姿態的踢腿高度實驗中,該方法測得平均相對誤差為2.5%,充分驗證了算法的有效性。
關鍵詞:圖像處理; 雙目視覺; 注意力機制; 姿態估計
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)09-041-2860-07
doi:10.19734/j.issn.1001-3695.2023.11.0595
Queue posture detection with fusion of binocular information
Zhao Jifa1, Wang Cheng1, Rong Yingjiao2
(1.School of Internet of Things, Jiangnan University, Wuxi Jiangsu 214122, China; 2.Science & Technology on Near-surface Detection Laboratory, Wuxi Jiangsu 214000, China)
Abstract:In order to realize the accurate evaluation of queue posture and action, aiming at the problem that it is difficult to accurately measure the three-dimensional human posture characteristics such as kick height in the training scene, this paper proposed a queue three-dimensional posture feature detection method based on binocular information. The method is divided into two stages: the 2D pose estimation stage and binocular stereo matching stage. In order to improve the accuracy of 2D human pose detection, it designed a 2D pose estimation model based on the improved HRNet network. Firstly, it introduced spatial channel attention in the back-bone network to enhance feature extraction capabilities. The feature fusion layer used an adaptive spatial feature fusion module to fuse multi-scale features of the network. Secondly, it used the unbiased data processing method to encode and decode the heat map to reduce the statistical error of the data. Finally,it adopted a coarse-to-fine multi-stage supervision method during model training to improve the detection accuracy of key points. Based on the 2D pose estimation model, it used the standard correlation matching function to achieve binocular stereo matching, and then obtained the 3D human pose through coordinate transformation. The experimental results show that the improved pose estimation network has better accuracy, the accuracy of the COCO dataset reaches 77.1%, and the detection accuracy of the self-made queue training dataset reaches 86.3%, which are respectively 2.2% and 3.1% higher than the original network. In the kick height experiment of the three-dimensional human body posture, the average relative error measured by the proposed method is 2.5%, which fully verifies the effectiveness of the algorithm.
Key words:image processing; binocular vision; attention mechanism; pose estimation
0 引言
傳統隊列訓練中士兵姿態動作的標準性都由教官人眼主觀評判,無法對士兵隊列動作進行量化判斷。基于計算機視覺評估隊列訓練姿態,能夠實現更高效的隊列訓練。由于隊列訓練場景存在人體尺度變化大、光照不均以及遮擋等問題,傳統姿態估計方法難以實現復雜場景的姿態檢測[1]。近年來,基于深度學習的2D姿態估計方法快速發展,姿態檢測效果顯著提升,被廣泛應用于復雜場景的人體姿態檢測[2]。
2D人體姿態估計是一種基于RGB圖像數據來檢測人體骨骼關鍵點的方法[3]。目前主流姿態估計方法有RSN[4]、Hourglass[5]、ViTPose[6]、HRNet[7]等方法。RSN網絡采用密集連接結構,充分融合特征的空間信息和語義信息,提高姿態估計精度。Hourglass網絡通過重復上下采樣操作,堆疊多個Hourglass模塊提高網絡表達能力,而反復上下采樣會導致大量有效特征丟失。針對有效特征丟失問題,Zou等人[8]提出了結合CBAM注意力[9]的層內特征殘差類模塊IFRM學習有效的通道與空間特征,Hua等人[10]提出仿射模塊affinage block與殘差注意力模塊RAM,取代上采樣操作來獲得高分辨率特征,這兩種方法均有效緩解了特征丟失問題,提高了網絡性能。ViTPose是基于Vison Transformer結構的人體姿態估計模型,該模型具有非常好的可拓展性。通過增大模型規模,引入額外數據集等方法, ViTPose-G*在人體姿態估計任務中達到了最先進水平。但隨著模型增大,模型訓練與推理對硬件設備有更高的要求,不便于實際場景的應用與部署。HRNet網絡采樣多分支并行結構,不僅保留不同尺度的特征信息,并在不同層次和尺度進行特征融合,充分利用高分辨率特征的空間信息和低分辨率特征的語義信息,有效提高模型的表達能力。
二維姿態估計模型一般采用有監督方法進行訓練,根據標簽類型分為基于坐標回歸和基于熱圖回歸[11]?;谧鴺嘶貧w的方法忽略了關鍵點周圍區域的空間信息,這對關鍵點的預測精度有較大的影響。為了得到更高精度的姿態估計模型,目前的主流姿態估計方法都采用基于熱圖回歸的方法預測關鍵點坐標。但是,基于熱圖回歸的模型對標簽坐標進行編解碼和翻轉策略時,數據存在統計誤差[11],導致模型的檢測精度下降。為緩解數據誤差的影響,提高模型的魯棒性與檢測精度,Huang等人[12]提出了一種采用分類和回歸相結合的方法進行編碼解碼,實現無偏數據處理(UDP),提高了現有姿態估計方法的關鍵點檢測精度。
注意力機制能夠自適應學習特征權重系數,對網絡更關注的區域分配更大權重以增強重要特征[13],在基本不增加參數的情況下提高特征提取能力。Yuan等人[14]在Vison Transformer結構中提出一種輕量高效的注意力,能夠有效地對局部細粒度信息編碼和全局空間信息聚合,大幅提高了ViTs模型在ImageNet分類任務的精度。在尺度變化劇烈的場景中檢測小尺度目標往往比較困難。為了提高小尺度目標的檢測效果,Liu等人[15]提出自適應空間特征融合(adaptive spatial feature fusion,ASFF)網絡改進特征融合模塊,使模型融合多尺度特征圖權重,充分利用淺層特征與深層特征,提高對小尺度目標的檢測精度。
隊列訓練正步前進時,還需要檢測步幅、步速及踢腿高度等三維人體姿態特征,根據2D姿態估計結果無法得到準確的量化判斷。但在多視圖環境下,利用多視圖匹配能實現人體姿態的三維重建[16]。在雙目視覺中,立體匹配是實現立體視覺的關鍵步驟,根據匹配函數作用范圍,可分為局部匹配與全局匹配。全局匹配效率較低,而局部匹配缺乏全局參數導致匹配精度較差[17]。Hirschmuller[18]提出半全局立體匹配方法(semi-global matching,SGBM),通過聚合多個路徑代價進行匹配,較好地兼顧匹配精度和效率。Hosni等人[19]采用分割算法選擇待匹配區域,有效提高局部匹配精度。基于2D姿態估計模型預測結果選擇待匹配區域,對左右視圖的人體關鍵點進行局部匹配,既避免全局匹配的計算消耗,又充分利用了姿態估計模型性能,很好地平衡了整體算法檢測精度與檢測速度。
綜上,針對隊列訓練場景中三維人體姿態特征檢測問題,本文設計了基于改進HRNet的姿態估計模型PoseHRNet,再融合雙目姿態信息實現隊列三維姿態檢測,主要工作如下:
a)提出了空間通道注意力SCA,實現細粒度信息編碼和全局空間信息聚合,增強主干網絡的表達能力,并且改進了主干網絡的特征融合層,通過自適應空間特征融合模塊ASFF聚合多尺度特征。
b)重新設計損失函數,在模型訓練階段實現由粗到細的多階段監督,提高關鍵點的檢測準確率。
c)根據關鍵點預測結果選擇待匹配區域,有效平衡了左右視圖匹配的精度與速度,實現高效的三維人體姿態估計。
1 基于PoseHRNet的2D姿態估計方法
本文算法重點關注隊列訓練時二維人體姿態檢測,針對二維人體姿態估計任務,提出一種改進網絡模型PoseHRNet。該模型在HRNet基礎上引入了空間通道注意力SCA和自適應姿態特征融合ASSF模塊,構建多階段損失函數,并采用無偏數據處理方法UDP進行熱圖編碼和解碼,提高模型檢測準確性和魯棒性。
1.1 PoseHRNet的網絡結構
PoseHRNet的主體網絡結構如圖1所示,網絡分為四個階段,分支數依次增加,最后輸出四條不同尺度的特征分支。首先輸入RGB圖片經過兩個步長為2的3×3卷積的基礎層Stem預處理后,分辨率降為1/4,通道數由3通道增加到64通道。第一條主分支全程保持1/4高分辨率,下采樣的子分支通過分辨率減半通道數加倍的方式充分表征特征。第一階段由四個bottleneck模塊和SCA注意力組成。后面的三個階段都有若干個HRModule和SCA注意力模塊組成,每個階段之間,會采用一個下采樣模塊增加輸出分支。第四階段末尾采用ASFF模塊自適應融合4個不同尺度的特征分支生成17個表征人體關鍵點熱圖。
HRModule是由四個basic模塊和特征融合模塊組成。特征模塊融合模塊將各個分支輸出的不同尺度特征通過上采樣和下采樣操作達到同一尺度進行融合。每個輸出支路特征都融合所有輸入分支特征,有效減少了特征傳遞過程中的信息丟失問題。basic模塊由兩個3×3卷積和一條殘差連接組成。bottleneck模塊由1個3×3卷積和兩個1×1卷積和一條殘差連接組成,特征通道數先減小為輸入的1/4再恢復到輸入的通道數。basic模塊和bottleneck模塊均來自ResNet[20]的殘差模塊,通過殘差連接有效解決了主干網絡加深導致的梯度消失問題。
算法1 PoseHRNet人體姿態估計算法
輸入:預處理后的RGB圖像I。
輸出:人體關鍵點坐標Coord。
1) function PoseHRNet(I)
2) S ← stem (I) /*通過stem層卷積操作提取輸入圖像I的底層特征S*/
3) S_1 ← stage1(S) /*stage1通過4個bottleneck模塊進一步提取圖像特征,得到S_1*/
4) S_1 ← SCA(S_1) /*SCA注意力匯聚局部空間特征與全局語義信息*/
5) for k=2 to 4 do
6) S_k ← stage_k(S_{k-1}) /*stage_k通過HRModule模塊提取更高層次的特征S_k*/
7) S_k ← SCA(S_k)
8) end for
9) Predheatmap ← ASFF(S_4) /*ASFF模塊聚合多尺度特征,得到預測熱圖結果*/
10) MaxCoord ← argmax(PredHeatmap) /*獲取預測熱圖中的最大值點的坐標*/
11) Coord ← MaxCoord * I_size /*根據原始圖像的尺寸I_size將熱圖坐標轉換回原始圖像的坐標*/
12) return Coord
13) end function
1.2 空間通道注意力SCA
姿態估計的任務是檢測人體關鍵點的空間位置坐標,而骨骼關鍵點之間又有特定的空間聯系,姿態估計網絡需要關注局部空間特征與全局空間特征。本文受CBAM[9]機制啟發,設計了空間通道注意力SCA,SCA中的空間注意力模塊(spatial attention module,SAM)能夠對每個空間位置計算其相鄰區域的局部空間信息,通過聚合密集的局部空間信息實現細粒度的空間特征編碼。同時SCA通道注意力模塊(channel attention module,CAM)采用全局平均池化與最大池化來計算全局通道注意力。SCA模塊兼顧了全局上下文信息與局部空間特征,從而有效提升了關鍵點檢測精度,SCA注意力結構如圖2所示。
圖2空間注意力模塊中,給定輸入特征圖Xi∈RH×W×C,通過對Xi空間位置(i,j)的C維特征向量進行線性投影,將投影后的特征通過reshape操作進行維度變換,得到(i,j)相鄰K×K局部窗口區域的空間注意力權重A^i,j∈RK2×K2。VΔi, j∈RC×K2表示以(i,j)為中心的局部窗口特征,與softmax操作后的空間注意力權重A^i,j相乘,得到具有空間信息的局部輸出XΔi,j。然后把每個位置窗口內所有通過注意力權重調整過的特征向量累加起來,實現局部空間信息聚合,即對應圖中的fold操作,得到具有細粒度空間信息的特征圖Xs。
3.3 人體姿態估計實驗結果與分析
表1為本文方法和其他姿態估計方法在COCO驗證集上的性能對比。
由表1中數據可知,PoseHRNet的檢測精度AP為77.1%,模型的參數量和浮點計算量分別為28.83 M和8.05 GFlops。與基線模型HRNet-w32相比,PoseHRNet參數量和浮點運算量少量增加,模型檢測平均精度AP提高了2.2%,中小目標檢測準確率APM提高了2.8%,在檢測精度和模型復雜度之間取得了更好的平衡。表1中ViTPose-G*通過增大模型參數到1 000 M,引入額外數據集AIC,提高輸入圖片尺寸,在人體姿態估計任務中達到了最先進水平,但實際應用中有諸多限制。與同等規模的ViTPose-B相比,PoseHRNet以更小的模型復雜度達到更高檢測精度,便于實際場景的部署與應用。
為驗證PoseHRNet在隊列訓練應用場景中姿態檢測的性能,通過在自制隊列訓練數據進行訓練來評估模型的有效性,表2為不同方法在自制數據集上性能比較。
根據表2結果顯示,PoseHRNet在自制數據集平均檢測精度達到了86.3%。與原基線模型HRNet-w32相比,AP提升了3.1%,AP50和AP75分別提高了2.2%和1.4%。相比其他方法,PoseHRNet取得了更佳檢測精度,驗證了本文算法在隊列訓練場景的有效性。二維人體姿態檢測結果對三維姿態結果的準確性和可靠性有顯著影響,提高二維姿態估計模型的檢測精度可以實現更精確的三維隊列姿態特征檢測效果。
3.4 姿態估計模型消融實驗
為研究不同模塊對人體姿態估計模型性能的影響,本節基于COCO數據集對各個模塊進行消融實驗,消融實驗結果如表3所示。
由表3消融實驗結果可知,通過對原始數據無偏數據處理,減小熱圖編解碼過程中統計誤差,各項性能指標都有提升,其中檢測精度提升1.3%。通過引入多階段監督,構建各階段的損失函數并加權求和,使得模型收斂效果更好,檢測精度提高0.6%。ASFF模塊能夠融合多尺度分支特征,引入ASFF后模型檢測精度提升1.1%。SCA注意力機制能夠更細粒度地提取空間信息與通道信息,有效提升模型檢測性能,與基線模型相比,引入SCA模塊后,精度提高1.7%。
3.5 三維姿態檢測結果與分析
本文對隊列訓練場景典型的踢腿動作進行檢測,采集了28個踢腿動作進行檢測,測量踢腿高度與實際踢腿高度,通過比較測量值與實際值的誤差驗證隊列三維姿態檢測效果。踢腿高度值實際值通過AimPosition光學定位系統AP-STD-200測量獲得,AimPosition在視場范圍1~2.4 m內的定位精度為0.12 mm,滿足實驗需求。
為驗證基于CCORR_NORMED的三維姿態估計方法性能,設計了基于半全局立體匹配方法SGBM的三維重建方法作為對比實驗。SGBM通過對雙目相機左右視圖直接進行立體匹配與視差計算,得到左視圖的三維點云圖,實現二維像素坐標到三維空間坐標的映射。根據姿態估計模型預測的關鍵點像素坐標即可獲得對應的三維空間坐標。兩種方法的部分檢測結果如表4所示。
表中:Vactual表示踢腿高度實際測量值;Vmeasured為測量值;Erelative相對檢測誤差;Tmatching匹配耗時;Tdetection模型檢測圖像耗時;Ttotal表示方法總耗時。本文采用的方法為融合雙目姿態信息,基于CCORR_NORMED局部匹配實現三維人體姿態檢測。表中SGBM方法需要對雙目圖像進行半全局立體匹配,再結合單目圖像的姿態信息實現三維人體姿態檢測。
由表4的實驗結果可知,融合雙目姿態信息的三維姿態檢測方法在踢腿高度實驗的平均相對誤差為2.51%,基于SGBM的三維姿態檢測方法的平均相對誤差為49.8%。姿態估計網絡預測雙目姿態信息平均耗時為32.98 ms,而僅計算單目姿態信息平均耗時為24.71 ms。雖然計算雙目姿態信息需要耗費更多時間,但基于雙目信息進行局部立體匹配大幅度減少計算消耗,整體上以更少的時間消耗達到更高的檢測精度,實現了高效的三維人體姿態估計。為更直觀地表示兩種方法的檢測效果,繪制了完整實驗的檢測結果圖與檢測誤差圖,如圖8與9所示。
圖8(a)為基于CCORR_NORMED的檢測值與實際值對比,縱坐標為踢腿高度,橫坐標為數據編號,圖8(b)為基于SGBM方法得到的檢測對比圖。圖9(a)(b)為兩種方法的誤差曲線圖,縱坐標為相對誤差,橫坐標為數據編號。從圖8和9可以看出,基于CCORR_NORMED方法的檢測誤差明顯更小。分析可知,在2D姿態估計模型的檢測結果基礎上對關鍵點進行立體匹配,能夠準確快速獲得關鍵點的三維信息從而實現高效的三維姿態檢測。傳統的SGBM是對全圖進行三維重建,不但耗時長,而且受圖片的噪點影響大,進而導致局部點檢測精度不足。基于CCORR_NORMED的三維姿態估計方法對人體關鍵點進行三維重建有明顯精度優勢和速度優勢。
3.6 可視化結果分析
姿態估計網絡檢測結果如圖10和11所示,共檢測17個人體關鍵點,人體左側關鍵點、右側人體關鍵點以及頭部區域關鍵點分別采用綠色、藍色和橘黃色表示(見電子版)。圖10給為COCO驗證集上的部分檢測結果,圖(a)是單人有遮擋場景,圖(b)是較遠距離逆光場景,圖(c)為光線較暗場景,圖(d)(e)為多人有遮擋的場景。上述結果表明PoseHRNet在單人、多人、有遮擋、弱光照等復雜場景下均能準確檢測出人體關鍵點。圖11(a)(b)為自制隊列訓練數據集的檢測效果圖,圖中給出了單人多人以及不同光照下隊列訓練場景的人體關鍵點檢測結果,圖11(c)還給出了基于SGBM算法得到的深度圖。從檢測結果可以看出,在復雜場景PoseHRNet都能較準確地檢測出關鍵點位置,達到了預期效果。
4 結束語
針對隊列訓練場景中三維姿態檢測問題,本文提出了融合雙目信息的隊列三維姿態特征檢測方法。通過2D姿態估計模型與標準相關匹配函數實現雙目相機左右視圖中人體關鍵點的精確匹配,再利用坐標變換得到人體關鍵點的三維空間坐標,進而得到三維姿態特征。2D姿態估計模型基于HRNet進行改進,在COCO數據集精度達到77.1%,在自制數據集上檢測精度達到86.3%,相比原網絡分別提升2.2%和3.1%,本文的改進方法有效提升了2D姿態估計的檢測精度。在隊列三維姿態檢測的踢腿高度實驗上,本文基于2D姿態估計模型預測結果對左右視圖人體關鍵點進行局部匹配,匹配平均耗時3.4 ms,測得踢腿高度平均相對誤差為2.5%,很好地平衡了三維人體姿態估計的檢測精度和檢測速度。
參考文獻:
[1]張宇, 溫光照, 米思婭, 等. 基于深度學習的二維人體姿態估計綜述[J]. 軟件學報, 2022, 33(11): 4173-4191. (Zhang Yu, Wen Guangzhao, Mi Siya, et al. Overview on 2D human pose estimation based on deep learning[J]. Journal of Software, 2022, 33(11): 4173-4191.)
[2]鐘寶榮, 吳夏靈. 基于高分辨率網絡的輕量型人體姿態估計研究[J]. 計算機工程, 2023, 49(4): 226-232,239. (Zhong Baorong, Wu Xialing. Research on lightweight human pose estimation based on high-resolution network[J]. Computer Engineering, 2023, 49(4): 226-232,239.)
[3]渠涵冰, 賈振堂. 輕量級高分辨率人體姿態估計研究[J]. 激光與光電子學進展, 2022, 59(18): 129-136. (Qu Hanbing, Jia Zhentang. Lightweight and high-resolution human pose estimation method[J]. Laser & Optoelectronics Progress, 2022, 59(18): 129-136.)
[4]Cai Yuanha, Wang Zhicheng, Luo Zhengxiong, et al. Learning delicate local representations for multi-person pose estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 455-472.
[5]Newell A, Yang Kaiyu, Deng Jia. Stacked Hourglass networks for human pose estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 483-499.
[6]Xu Yufei, Zhang Jing, Zhang Qiming, et al. ViTPose: simple vision transformer baselines for human pose estimation[EB/OL]. (2022-04-26). https://arxiv.org/abs/2204.12484.
[7]Sun Ke, Xiao Bin, Liu Dong, et al. Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 5686-5696.
[8]Zou Xuelian, Bi Xiaojun, Yu Changdong. Improving human pose estimation based on stacked hourglass network[J]. Neural Processing Letters, 2023, 55(7):9521-9544.
[9]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[10]Hua Guoguang, Li Lihong, Liu Shiguang. Multipath affinage stacked-hourglass networks for human pose estimation[J]. Frontiers of Computer Science, 2020, 14(4): 1447011.
[11]王仕宸, 黃凱, 陳志剛, 等. 深度學習的三維人體姿態估計綜述[J]. 計算機科學與探索, 2023, 17(1): 74-87. (Wang Shichen, Huang Kai, Chen Zhigang, et al. Survey on 3D human pose estimation of deep learning[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(1): 74-87.)
[12]Huang Junjie, Zhu Zheng, Guo Feng, et al. The devil is in the details: delving into unbiased data processing for human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 5699-5708.
[13]李麗, 張榮芬, 劉宇紅, 等. 基于多尺度注意力機制的高分辨率網絡人體姿態估計[J]. 計算機應用研究, 2022, 39(11): 3487-3491,3497. (Li Li, Zhang Rongfen, Liu Yuhong, et al. High resolution network human pose estimation based on multi-scale attention mechanism[J]. Application Research of Computers, 2022, 39(11): 3487-3491,3497.)
[14]Yuan Li, Hou Qibin, Jiang Zihang, et al. VOLO: vision outlooker for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(5): 6575-6586.
[15]Liu Songtao, Huang Di, Wang Yunhong. Learning spatial fusion for single-shot object detection[EB/OL]. (2019). https://arxiv.org/abs/1911.09516.
[16]Qiu Haibo, Wang Chunyu, Wang Jingdong, et al. Cross view fusion for 3D human pose estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2019: 4341-4350.
[17]暢雅雯, 趙冬青, 單彥虎. 多特征融合和自適應聚合的立體匹配算法研究[J]. 計算機工程與應用, 2021, 57(23): 219-225. (Chang Yawen, Zhao Dongqing, Shan Yanhu. Research on stereo matching algorithm based on multi-feature fusion and adaptive aggregation[J]. Computer Engineering and Applications, 2021, 57(23): 219-225.)
[18]Hirschmuller H. Stereo processing by semiglobal matching and mutual information[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 30(2): 328-341.
[19]Hosni A, Bleyer M, Gelautz M, et al. Local stereo matching using geodesic support weights[C]//Proc of the 16th IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press, 2009: 2093-2096.
[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[21]Li Wenbo, Wang Zhicheng, Yin Binyi, et al. Rethinking on multi-stage networks for human pose estimation[EB/OL]. (2019-01-01). https://arxiv.org/abs/1901.00148.
[22]Zhang Hang, Wu Chongruo, Zhang Zhongyue, et al. ResNeSt: split-attention networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2022: 2735-2745.
[23]Hu Jie, Shen Li, Sun Gang, et al. Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018: 7132-7141.
[24]Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 4724-4732.
[25]Yu Changqian, Xiao Bin, Gao Changxin, et al. Lite-HRNet: a lightweight high-resolution network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10435-10445.
[26]Ma Ningning, Zhang Xiangyu, Zheng Haitao, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 122-138.
收稿日期:2023-11-15;修回日期:2024-01-15 基金項目:近地面探測技術重點實驗室基金資助項目(6142414220203)
作者簡介:趙繼發(1998—),男,碩士,主要研究方向為圖像處理和姿態估計;王呈(1983—),男(通信作者),副教授,博士,主要研究方向為非線性系統建模與控制、機器學習和數據挖掘(wangc@jiangnan.edu.cn);榮英佼(1978—),女,工程師,主要研究方向為目標檢測和信號處理.