999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度注意力機制的高分辨率網絡人體姿態估計

2022-12-31 00:00:00李麗張榮芬劉宇紅陳娜張雯雯
計算機應用研究 2022年11期

摘 要:針對人體姿態估計中面對特征圖尺度變化的挑戰時難以預測人體的正確姿勢,提出了一種基于多尺度注意力機制的高分辨率網絡MSANet(multiscale-attention net)以提高人體姿態估計的檢測精度。引入輕量級的金字塔卷積和注意力特征融合以更高效地完成多尺度信息的提??;在并行子網的融合中引用自轉換器模塊進行特征增強,獲取全局特征;在輸出階段中將各層的特征使用自適應空間特征融合策略進行融合后作為最后的輸出,更充分地獲取高層特征的語義信息和底層特征的細粒度特征,以推斷不可見點和被遮擋的關鍵點。在公開數據集 COCO2017上進行測試,實驗結果表明,該方法比基礎網絡HRNet的估計精度提升了4.2%。

關鍵詞:人體姿態估計; 高分辨率網絡; 多尺度; 注意力特征融合; 自適應空間特征融合

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2022)11-047-3487-05

doi: 10.19734/j.issn.1001-3695.2022.03.0109

High resolution network human pose estimation based on multi-scale attention mechanism

Li Li, Zhang Rongfen, Liu Yuhong, Chen Na, Zhang Wenwen

(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)

Abstract:It is difficult to predict the correct human poses when facing the challenge of the scale change of the feature map in the human pose estimation. To solve this problem, this paper proposed a high-resolution network MSANet (multiscale-attention net) based on multi-scale attention mechanism to improve the detection accuracy of human pose estimation. It introduced lightweight pyramid convolution and attention feature fusion to achieve more efficient extraction of multi-scale information, cited the self-transformer module in the fusion of parallel subnets for feature enhancement to obtain global features. In the output stage, the features of each layer were fused using an adaptive spatial feature fusion strategy as the final output, which more fully obtained the semantic information of high-level features and the fine-grained features of low-level features to infer invisible points and occluded key points. Tested on the public dataset COCO2017, the experimental results show that this method improves the estimation accuracy by 4.2% compared with the basic network HRNet.

Key words:human pose estimation; high-resolution network; multi-scale; attention feature fusion; adaptive spatial feature fusion

基金項目:貴州省科學技術基金資助項目(黔科合基礎-ZK[2021]重點001)

作者簡介:李麗(1996-),女,貴州畢節人,碩士研究生,主要研究方向為計算機視覺、機器視覺;張榮芬(1977-),女,貴州貴陽人,教授,博士,主要研究方向為機器視覺、智能硬件及智能算法;劉宇紅(1963-),男(通信作者),貴州貴陽人,教授,碩士,主要研究方向為計算機視覺智能圖像處理、大數據與智能物聯(1693623574@qq.com);陳娜(1995-),女,貴州遵義人,碩士研究生,主要研究方向為圖像語義分割;張雯雯(1997-),女,貴州銅仁人,碩士研究生,主要研究方向為計算機視覺、機器視覺.

0 引言

人體姿態估計(human pose estimation)是計算機視覺研究的熱點之一,其目的是從給定的圖像或視頻中恢復人體關節點的過程,同時也是計算機理解人類動作、行為必不可少的一步。在眾多任務中也離不開姿態估計的研究,如視頻監控、智能家居和醫療健康等。

近年來,使用深度學習進行人體姿態估計的方法陸續被提出,且達到了遠超傳統方法[1~3]的表現。2014年,Toshev等人[4]提出了深度姿態(DeepPose)網絡,首次將2D人體姿態估計問題由原本的圖像處理和模板匹配問題轉換為卷積神經網絡(CNN)圖像特征提取和關鍵點坐標回歸問題。之后,根據單人和多人的研究,分為自下而上(down-top)和自上而下(top-down)兩種方法。

自下而上[5~7]的方法是先檢測出人體關節點,再根據檢測出的關節點進行關鍵點聚類或者圖匹配的方法連接成人體骨架。自上而下[8~11]的方法是首先對圖片進行目標檢測,找出所有的人,然后將人從原圖片中截取后輸入到網絡中進行關鍵點檢測。2016年提出的堆疊沙漏網絡(SHN)[8]使用多個沙漏網絡串行堆疊在一起并對每個沙漏網絡進行監督學習,以熱圖檢測的方法進行人體關節點信息的學習,但是這種串行的方法容易丟失部分信息導致檢測結果不夠準確,并且對有遮擋的圖像難以檢測關鍵點。Chen等人[9]在2018年提出的級聯金字塔網絡(CPN)則采用自上而下的檢測策略,解決了SHN造成部分信息丟失的問題。文獻[10]提出的Simple Baselines相比SHN和CPN結構顯得十分簡單,同時檢測精度較好。2019年提出的高分辨率網絡(HRNet)[11]擯棄了以往的串聯方式,采用了并行子網的方式,通過并行多個分辨率的分支,加上不斷進行不同分支之間的信息交互,同時達到強語義信息和精準位置信息的目的。然而,盡管HRNet在人體姿態估計中超越了其他所有基于深度學習的方法,但當面臨人體占圖片比例不同和遮擋嚴重或重疊時,不能很好地預測人體的正確姿態。為提取多尺度信息,文獻[12]提出的金字塔卷積(PYConv)包含了不同尺度和深度的卷積核,能夠增強圖像的感受野,同時提取深層和淺層特征,進而確保了多尺度特征的提取,且相比標準卷積,具有較少的參數量和計算復雜度。為解決多尺度特征融合時尺度變化和小目標所帶來的問題,文獻[13]提出的注意力特征融合(AFF)中的多尺度通道注意力模塊解決了在融合不同尺度的特征時出現的問題。文獻[14]中采用的自轉換器模塊(self transformer)通過基于transformer的運作方式來提取相同尺度內不同空間之間的非局部交互,獲取全局信息,實現特征增強,以解決多分辨率融合的問題。文獻[15]提出的自適應空間特征融合(ASFF),解決了不同層特征之間的沖突問題,在空間上過濾其他層的無用信息,只保留有用信息來進行融合,充分利用了高層特征的語義信息和底層特征的細粒度特征。

通過對以上方法的研究與學習,針對人體姿態估計中因尺度變化大或遮擋而導致檢測結果不夠準確的問題,以HRNet-W32為姿態估計的基礎網絡,提出了一種多尺度注意力機制高分辨率網絡;針對多尺度特征提取的問題,提出了結合金字塔卷積和注意力特征融合的pyaffneck和pyaffblock模塊;針對多分辨率融合的問題,融合前引入自轉換器模塊進行空間特征交互,實現特征增強。最后一個階段中將不同層的特征進行自適應空間特征融合,更加充分地獲取不同尺度之間的語義信息和細粒度特征,以此推斷被遮擋或重疊的關鍵點。

1 高分辨率網絡

大多數的卷積網絡幾乎都是從高分辨率到低分率的結構。高分辨率網絡(HRNet)則獨辟新徑,在卷積的過程中將卷積后縮小的網絡單獨作為一個分支,在整個過程中保持特征圖的高分辨率,通過從高分辨率到低分辨率的子網形成多階段,并將多分辨率子網并行連接。其總體結構分為四個階段,第一階段包含一個子網,第二、第三、第四階段則由多分辨率模塊組成,分別包括2~4個多分辨率模塊,多分辨率模塊如圖1所示。在每一個子網之間通過反復交換信息來進行多分辨率特征的融合,并始終保留先前階段的分辨率,且HRNet最后的輸出采用融合后的高分辨率特征表示。

2 本文方法

本文提出的MSANet是基于HRNet結構進行改進的,其網絡整體結構如圖2所示。

MSANet分為四個階段,每個階段為多分辨率子網的并行連接,且從上到下的子網中,分辨率依次減小1/2,通道數則依次增加2倍。從主干網絡開始,由兩個步長為3×3的卷積對圖像進行預處理,使分辨率降為原來的1/4,通道數由原來的3變為64。第一階段由一個子網構成,使用4個pyaffneck模塊來提取特征,并將通道數變為32。第二~四階段則由多分辨率模塊構成,分別包含1、4、3個多分辨率模塊,且每個多分辨率模塊通過使用不同分辨率和通道數的pyaffblock模塊和自轉換器模塊(ST)來提取特征。不同于HRNet,本文將第四階段輸出的4個特征圖采用自適應空間特征融合(ASFF)的方法進行融合后作為最后的輸出。

本文通過結合金字塔卷積和注意力特征融合構造出pyaffneck和pyaffblock模塊,將其作為基礎模塊,有效地提取圖像的多尺度特征;然后在融合階段采用自轉換器模塊實現跨空間的特征交互,即提取相同尺度內不同空間之間的非局部交互,更有效地提取和融合特征;最后通過上采樣操作和自適應空間特征融合將經過反復交換的信息以高分辨率表征的形式輸出,實現對人體關鍵點的檢測,從而進一步實現人體姿態估計任務。

2.1 多尺度特征提取

對于人體姿態估計中關鍵點的多尺度特征的提取,本文將HRNet的bottleneck和basicblock模塊中的3×3卷積替換為金字塔卷積。為克服融合不同尺度特征時出現的問題,本文使用AFF模塊進行融合,提出的pyaffneck和pyaffblock模塊,如圖3所示。

自深度學習以來,通常使用具有較小內核的卷積神經網絡來提取特征,通常為3×3卷積,而多尺度特征的提取在于感受野的大小,感受野的大小由卷積核的大小決定,卷積核越大,感受野越大,看到的圖片信息越多,因此獲得的特征越好。然而,普通卷積中增加卷積核的大小會導致計算量的增加和計算性能的降低,且普通卷積單一空間大小的單一類型的核不能提取圖像的多尺度特征。HRNet的bottleneck和basicblock模塊中均使用普通卷積來提取特征,使得網絡一定程度上不能夠準確地出檢測小尺度的目標人體及正確的關鍵點。本文受文獻[12]的啟發,采用金字塔卷積替換HRNet的bottleneck和basicblock模塊中的3×3普通卷積,以提取圖像中的多尺度信息。

如圖4,金字塔卷積(pyraimidal convolution,PyConv)與標準卷積的區別在于其包含一個核金字塔,其中每一層為不同大小和深度的核,擴大感受野的同時還能使用不同的內核大小來提取圖像中多尺度的細節信息。如圖4(b)所示,對輸入的特征圖Pi,金字塔卷積{1,2,3,…,n}的每一層所對應的不同大小內核{K21,K22,K23,…,K2n},通過分組的方式得到不同深度的核Pi,Pi(K22/K21),Pi(K23/K21),…,Pi(K2n/K21),其中所需的參數為

輸出特征圖{Po1,Po2,Po3,…,Pon},且Po1+Po2+Po3+…+Pon=Po,即每一層特征圖按通道連接得到輸出特征圖。

如圖5所示,為盡可能地降低PyConv的計算量,使用分組卷積將輸入特征分為不同的組,并為每個輸入特征組獨立應用內核。對于圖5(a),G=1,此時為標準卷積,每個輸出特征都連接到所有的輸入特征;圖5(b),G=2,此時將輸入特征映射分為兩組,并將每組使用獨立的核,使得核的深度減少了2倍;圖5(c)則顯示當G=4時,核的深度減少了4倍的情況。因此分組數量越多,連通性和核的深度就會越低,且減少卷積的參數數量和計算成本。因此與標準卷積相比,PyConv具有較少的計算量和參數量,且更為靈活和具有可擴展性。

金字塔卷積的每一層包含不同尺度和深度的卷積核,不同的卷積核可以有不同的感受野,較小感受野的內核可以關注細節信息來捕捉小目標,增加內核的大小可以捕捉對較大目標更可靠的細節信息,且網絡具有可探索性。利用這種卷積方式能在降低計算復雜度和減少參數量的情況下同時提取深層和淺層特征,使網絡的并發性得到提高。

HRNet的bottleneck和basicblock模塊中均使用直接相加來實現特征融合,這種方式對大物體的檢測相對敏感,而對于小物體則較差。因此,為更好地融合語義和尺度不一致的特征,本文將HRNet的bottleneck和basicblock模塊的相加部分使用AFF模塊替換。使用AFF模塊不僅能夠提取圖像的多尺度特征,相對于直接相加來說,還具有較少的參數量。AFF模塊的結構如圖6所示。在本文中,將輸入的特征信息作為X,通過卷積操作的輸出結果作為Y,且有特征圖X,Y∈?C×H×W為AFF的輸入。

AFF的核心模塊為多尺度通道注意力模塊(MS-CAM),其結構如圖6(b)所示,MS-CAM不是在主干網絡中,而是在通道注意力模塊中提取局部本地和全局特征的上下文特征。其使用尺度不同的兩個分支來提取通道注意力權重,其中一個分支使用全局平均池化(gloabl avg pooling)來提取特征,其計算為

其中:Z∈?C×H×W為融合后的特征;M為多尺度通道注意模塊;⊕指相同維度向量的加法運算;V指向量的乘法運算。

另一個分支為使網絡盡可能減少參數量和降低計算復雜度,只在注意力模塊中將局部上下文添加到全局上下文中,直接使用點向卷積(PWConv)來關注通道的尺度問題,提取局部特征的通道注意力,利用輸入特征的每個空間位置的點式通道交互作用,計算公式如下:

L(X)=β(PWconv2(δ(β(PWconv1(z)))))(4)

其中:β表示BatchNom2d()函數;δ表示激活函數ReLU;PWconv1的內核大小為(C/r)×C×1×1;PWConv2的內核大小為C×(C/r)×1×1。

2.2 多分辨率融合

通常空間上下文信息被動地隱藏在卷積神經網絡不斷增加的感受野中,或者被non-local卷積主動地編碼。由于卷積操作是通過不斷迭代使用來增大感受野,而這個不斷迭代的過程十分低效,不利于最后最優解的求取且只考慮局部區域,忽略了全局其他區域,并不能帶來足夠的信息。為解決HRNet在多分辨率融合階段中不斷使用上采樣和下采樣而導致信息丟失等問題,本文采用改進的非局部交互(non-local interaction)自轉換器模塊(ST)在多分辨率的融合階段獲取全局信息,其輸出特征映射與輸入特征映射具有相同的尺度。與傳統的非局部交互不同的是,其使用mixture of softmaxes(MoS)作為歸一化函數。首先將查詢q和鍵k分為N個部分,然后使用Fsim計算每對圖像的相似度得分,基于MoS的歸一化函數表達式如下:

其中:Sni,j表示第n部分的相似度得分;πn是第n個聚合權重,與softmax(wTn)相等,其中wn是用于歸一化的可學習線性向量,是kj所有位置的算術平均數。

基于Fmos,ST表示為

其中:X^i是X^中第i個轉換后的特征位置。

本文采用ST模塊改進第二~四階段的多分辨率融合模塊,如圖7所示。以第三階段為例,由于ST模塊能夠通過注意力加強距離依賴,擴大感受野,更是直接實現了全局的聯系,所以在融合前加入該模塊,為后續的信息融合提供更多有用的信息,從而得到更好的融合效果。

2.3 自適應空間特征融合

人體姿態估計中關鍵點的預測需要較大感受野具備充分的語義信息的低分辨率高層次特征,以推斷不可見和被遮擋的關鍵點,同時也需要高分辨率的低層次特征對某些關鍵點作進一步細化,以此判斷更準的空間位置。為了充分利用高層特征的語義信息和底層特征的細粒度特征,很多網絡都會采用金字塔特征表示輸出多層特征。然而,不同尺度之間的不一致是基于特征金字塔的單鏡頭檢測器的主要限制,在特征融合時,其他層的很多無用信息也會融合進來。受到文獻[15]的啟發,為充分利用最后一層四種不同大小的特征圖,本文采用自適應空間特征融合(ASFF)算法,在最后階段融合多尺度特征,利用融合后的多尺度信息實現更精確的關鍵點檢測。

ASFF能夠直接學習如何在空間上過濾其他層次的特征,以便只保留有用的信息用于組合。對于某一層次上的特征,首先將其他層次上的特征整合并調整到相同的分辨率,然后訓練得到最優融合。本文中四種不同大小的特征圖分別為原圖像大小的1/4、1/8、1/16、1/32,選取1/4大小特征圖的尺寸和通道數作為融合標準。首先將其他三個大小的特征圖進行1×1卷積,使得通道數轉換為與1/4大小的通道數一致;其次對于1/8大小的特征圖,進行2倍的上采樣,對于1/16大小的特征圖,進行4倍的上采樣,對于1/32大小的特征圖,進行8倍的上采樣,使得四種特征圖的大小一致;最后將四個特征圖X1i,j、X2i,j、X3i,j、X4i,j進行自適應空間特征融合,并通過1×1卷積后得到最后的輸出,使網絡始終保持高分辨率表征。

ASFF的核心思想是通過學習自適應地調整各個尺度特征在融合時的空間權重。本文中調整后的四個尺寸、通道數相同的特征圖包含了不同的細節信息,ASFF主要實現根據分配各層的權重參數來融合四個特征圖,定義ai,j、bi,j、ci,j、di,j為權重參數,則融合策略為

其中:Yi,j為融合后的特征圖;ai,j,bi,j,ci,j,di,j∈[0,1]且滿足

對于權重參數ai,j、bi,j、ci,j和di,j則是通過將X1i,j、X2i,j、X3i,j、X4i,j四個特征圖經過1×1卷積得到的,并且參數ai,j、bi,j、ci,j和di,j經過contact之后通過softmax使得其取值在[0,1]且和為1。計算公式如下:

3 實驗與分析

3.1 數據集簡述

COCO數據集是一個大型的、豐富的物體檢測、分割和字幕數據集,由200 000張圖片組成,包含250 000個標注17個關鍵點的人體樣本。訓練集上包含有5 700張圖像,驗證集上含有5 000張圖像,測試集上有20 000張圖像。標注的17個關鍵點分別為0鼻子、1左眼、2右眼、3左耳、4右耳、5左肩、6右肩、7左肘、8右肘、9左手腕、10右手腕、11左臀、12右臀、13左膝、14右膝、15左腳踝、16右腳踝。

3.2 評估標準

本實驗在COCO2017數據集上對本文方法進行驗證評估,評估方法采用MS COCO官方給定的OKS(object keypoint similarity)進行評估,使用PCK(percentage of correct keypoints)作為評估指標。

3.3 實驗環境與設置

本實驗的實驗環境為Python3.8,PyTorch1.7.0,Linux系統Ubuntu20.04,顯卡NVIDIA GeForce GTX 3090,并在訓練時將數據集中的圖像進行預處理,使得大小固定為256×192,使用Adam對網絡進行優化,同時將學習率設置為0.001,訓練周期設置為210,每個GPU的批量大小設置為30。

3.4 實驗驗證分析

本文將改進的網絡MSANet在COCO 2017數據集上進行實驗,并與其他網絡在COCO 2017數據集上的實驗結果進行比較。

如表1所示,將本文方法與其他方法在COCO 2017驗證集上的實驗結果進行對比。實驗結果表明,本文所提出的網絡MSANet相對于其他網絡在人體姿態估計中取得了最好的效果,與原網絡HRNet-W32相比,AP50提高了5.1%,AP75提高了4.1%,APM提高了3.7%,APL提高了3.9%,AR提高了2.2%,mAP提高了4.2%??梢钥闯觯疚姆椒ú粌H比其他網絡的精度高,相對于原網絡來說更是提升了關鍵點檢測的精確度。

表2為將本文方法與其他方法在COCO 2017測試集上的結果進行對比,其中文獻[5~7]是自下而上的方法,其余是自上而下的方法。根據對比結果可看出,本文方法在降低網絡復雜度及參數量的前提下精度得到了一定的提升,且對于自上而下和自下而上的方法均具有更高的準確度。

本文將COCO 2017驗證集上大小為384×288的圖像進行驗證,通過計算關鍵點正確估計的比例PCK,即計算檢測的關鍵點與其對應的Groundtruth間的歸一化距離小于設定閾值的比例,并將其與其他網絡模型對關鍵點估計的精確度進行對比。表3為對比結果,其中head表示頭部五個關節點平均值;shoulder表示肩部兩個關節點平均值;elbow表示肘部兩個關節點平均值;wrist表示腕部兩個關節點平均值;buttocks表示臀部兩個關節點平均值;knee表示膝蓋兩個關節點平均值;ankle表示腳踝兩個關節點平均值;average表示所有關節點平均值。根據表3的對比結果可以看出,本文方法在各個關節點的估計精度上都有一定的提升,且達到了更高的平均估計精度。

3.5 消融實驗

本文基于HRNet改進的模型具有金字塔卷積、注意力特征融合、自轉換器模塊和自適應空間特征融合結構進行集成。實驗結果證明,本文方法使得平均精度達到了4.2%的提升。為證明模型中各個模塊的有效性,本文在COCO2017訓練集上進行進一步的分析,分析結果如表4所示。實驗表明,在mAP和params指標下,由于金字塔卷積出色的多尺度特征提取性能及其少量的參數量和計算代價,使得網絡在參數量降低4 M的同時性能提升了1.8%;在金字塔卷積的基礎上融入注意力特征融合構建pyaffneck和pyaffblock作為基礎模塊,提取不同尺度的細節信息,因為金字塔卷積和注意力特征融合都能多尺度處理特征且都具有更少的參數量,所以在兩者的相輔下使得網絡在性能上提升了2.5%的同時網絡參數量降至23.8 M。

本文在使用構建的pyaffneck模塊和pyaffblock模塊提取多尺度特征的基礎上使用自轉換器模塊進行多分辨率的融合,可以看出,由于自換器模塊是一種改進的non-local,其出色的跨空間特征交互能力使得網絡在參數量增加2.4 M的前提下性能上又得到了0.7%的提升;在以上基礎上,添加了自適應空間特征融合模塊后,使網絡在參數量僅增加1.9 M的同時性能提升了0.8%,這是由于融合時在空間上過濾了無用信息,保留有效信息的同時加大了對小尺度目標的識別,并利用語義信息改善了對關鍵點的檢測,且其附加計算成本也相對較小。

這些數據表明模型中各模塊的優越性及其出色的性能使本文的方法相對于原網絡而言,不僅整體性能提升了4.2%,參數量也減少了0.4 M。

3.6 可視化實驗分析

為表明本文所提出的網絡模型MSANet在人體姿態估計中因光照、遮擋或重疊、人體占圖片尺度較小和圖像分辨率較低等影響下,具有一定的魯棒性和泛化能力及抗干擾能力,本文進行了可視化實驗,即將檢測出的人體關鍵點通過可視化將關鍵點進行連接,并與原網絡HRNet的可視化結果進行對比,如圖8所示,包含了多人、遮擋或重疊、分辨率較低以及不同尺度目標的人體姿態估計結果。

其中,圖8(a)和(b)是多人檢測;(c)是對人體的背影進行關鍵點檢測,且人體所處環境光線較暗;(d)是對有遮擋的人體背影的關鍵點檢測;(e)是對分辨率較低的人體關鍵點檢測。從圖中可以看出,HRNet和MSANet模型在不同的情境下都能夠進行人體姿態估計,但當關鍵點存在遮擋重疊或人體尺度相對較小時,MSANet模型對小尺度的目標更具有敏感性。由圖8(a)(b)和(e)可以看出,MSANet模型能夠檢測出HRNet沒有識別檢測的關鍵點;從(c)和(d)可以看出,即使在光線較暗、遮擋的條件下,MSANet能夠對檢測出的關鍵點進行正確的建模,并對建模錯誤的關鍵點進行修正,具有較好的泛化能力和抗干擾能力,更加證明了本文所采用的各模塊的優越性。

4 結束語

本文提出了多尺度注意力高分辨率網絡,有效提升了人體姿態估計關鍵點的檢測和識別問題。基于高分辨率網絡和本文所提出的pyaffneck和pyaffblock兩個基礎模塊的出色的特征提取能力和泛化能力,使得算法學習多尺度特征的表示時得到了有效的提升;在多分辨率融合階段融入非局部空間交互自轉換器模塊,使網絡改善了多分辨率階段的特征融合能力;同時對于輸出階段,使用自適應空間特征融合策略可以獲取高低層的有效信息,從而更好地推斷出遮擋關鍵點,進而提升了該算法的整體預測準確度。所提出的網絡相對于基礎網絡HRNet,mAP綜合提升了4.2%,且在不同環境下具有一定的魯棒性和準確度。但所做的工作還有待改進,如何更好地使網絡在性能提升的同時降低網絡的運算復雜度和參數量或將人體姿態估計運用于動作識別,是下一步所需研究的內容。

參考文獻:

[1]Andriluka M,Roth S,Schiele B. Pictorial structures revisited: people detection and articulated pose estimation [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2009: 1014-1021.

[2]Ladicky L,Torr P H S,Zisserman A. Human pose estimation using a joint pixel-wise and part-wise formulation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2013: 3578-3585. [3]張顯坤,張榮芬,劉宇紅. 基于二次生成對抗的人體姿態估計 [J]. 激光與光電子學進展,2020,57(20): 335-343. (Zhang Xiankun,Zhang Rongfen,Liu Yuhong. Human pose estimation based on secondary generative confrontation [J]. Advances in Lasers and Optoelectronics,2020,57(20): 335-343.) [4]Toshev A,Szefedy C. DeepPose: human pose estimation via deep neural networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2014:1653-1660.

[5]Cao Zhe,Hidalgo G,Simon T,et al. OpenPose: real-time multi-person 2D pose estimation using part affinity fields [EB/OL]. (2018-12-18) . [2020-04-15]. https://arxiv. org/abs/1812. 08008.

[6]Li Jiefeng,Wang Can,Zhu Hao,et al. CrowdPose: efficient crowded scenes pose estimation and a new benchmark [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press,2019: 10855-10864.

[7]Cheng Bowen,Xiao Bin,Wang Jingdong,et al. HigherHRNet: scale-aware representation learning for bottom-up human pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020:5385-5394. [8]Newell A,Yang Kaiyu,Deng Jia. Stacked hourglass networks for human pose estimation [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2016: 483-499.

[9]Chen Yilun,Wang Zhicheng,Peng Yuxiang,et al. Cascaded pyramid network for multi-person pose estimation [C]/ Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2018: 7103-7112. [10]Xiao Bin,Wu Haiping,Wei Yichen. Simple baselines for human pose estimation and tracking [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2018: 466-481. [11]Sun Ke,Xiao Bin,Liu Dong,et al. Deep high-resolution representation learning for human pose estimation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 5686-5696. [12]Cosmin Duta,Liu Li,Zhu Fan,et al. Pyramidal convolution: rethinking convolutional neural networks for visual recognition [EB/OL]. (2020-06-20). http://doi.org/10.48550/arxiv.2006.11538. [13]Dai Yimian,Gieseke F,Oehmcke S,et al. Attentional feature fusion [EB/OL]. (2020-11-09). https://arxiv.org/pdf/2009.14082v1.pdf.

[14]Zhang Dong,Zhang Hanwang,Tang Jinhui,et al. Feature pyramid transformer [EB/OL]. (2020-07-18). http://doi.org/10.48550/arxiv.2007.09451.

[15]Liu Songtao,Huang Di,Wang Yunhong. Learning spatial fusion for single-shot object detection [EB/OL]. (2019-11-25). http://doi.org/10.48550/arxiv.1911.09516. [16]任好盼,王文明,危德健,等. 基于高分辨率網絡的人體姿態估計方法 [J]. 圖學學報,2021,42(3): 432-438. (Ren Haopan,Wang Wenming,Wei Dejian,et al. Human pose estimation method based on high resolution network [J]. Journal of Graphics,2021,42(3): 432-438.) [17]羅夢詩,徐楊,葉星鑫. 融入雙注意力的高分辨率網絡人體姿態估計 [J]. 計算機工程,2022,48(2): 314-320. (Luo Mengshi,Xu Yang,Ye Xingxin. High-resolution network human pose estimation with dual attention [J]. Computer Engineering,2022,48(2): 314-320.)

[18]孫琪翔,張睿哲,何寧,等. 基于非局部高分辨率網絡的人體姿態估計方法 [J]. 計算機工程與應用,2022,58(13):227-234. (Sun Qixiang,Zhang Ruizhe,He Ning,et al. Human pose estimation method based on non-local high-resolution network [J]. Computer Engineering and Applications,2022,58(13):227-234.) [19]Liu Chenxi,Chen L C,Schroff F,et al. Auto-DeepLab: hierarchical neural architecture search for semantic image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition. Piscataway,NJ: IEEE Press,2019: 82-92. [20]Molchanov P,Tyree S,Karras T ,et al. Pruning convolutional neural networks for resource efficient inference [C]// Proc of International Conference on Learning Representations. 2017: 1-17. [21]Wen Jinchen,Chi Jianning,Wu Chengdong,et al. Human pose estimation based pre-training model and efficient high-resolution representation [C]// Proc of the 40th Chinese Control Conference. Piscata-way,NJ: IEEE Press,2021: 8463-8468. [22]盧健,楊騰飛,趙博,等. 基于深度學習的人體姿態估計方法綜述 [J]. 激光與光電子學進展,2021,58(24):69-88. (Lu Jian,Yang Tengfei,Zhao Bo,et al. Review of human pose estimation methods based on deep learning [J]. Advances in Laser sand Optoelectronics,2021,58(24):69-88.)

主站蜘蛛池模板: 亚洲一区二区三区中文字幕5566| 国产91精品调教在线播放| 欧美日韩精品一区二区视频| 欧美色伊人| 亚洲精品国产首次亮相| 国产免费精彩视频| 在线播放真实国产乱子伦| 日本影院一区| 欧美日韩高清| 麻豆精品在线视频| 免费精品一区二区h| 精品综合久久久久久97超人该| 色播五月婷婷| 亚洲欧洲自拍拍偷午夜色| 精品国产美女福到在线不卡f| 国产精品美女免费视频大全| 日韩AV无码免费一二三区| 女人爽到高潮免费视频大全| 亚洲av综合网| 小说 亚洲 无码 精品| 免费播放毛片| 国产成人麻豆精品| 亚洲无码熟妇人妻AV在线| 最新无码专区超级碰碰碰| 色丁丁毛片在线观看| 伊人91视频| 久精品色妇丰满人妻| 国产精品免费电影| 久久黄色小视频| 久久人搡人人玩人妻精品一| 亚洲成肉网| 乱人伦视频中文字幕在线| 成人小视频网| 国产99视频在线| 黄色片中文字幕| 欧美精品H在线播放| 中文国产成人精品久久| 精品福利视频导航| 亚洲区第一页| 久久久久久尹人网香蕉| 亚洲综合极品香蕉久久网| 久久一色本道亚洲| 婷婷成人综合| 不卡无码h在线观看| 日韩人妻精品一区| 亚洲成综合人影院在院播放| 在线观看亚洲人成网站| 国产一区二区三区精品欧美日韩| 亚洲美女一级毛片| 欧美性爱精品一区二区三区 | 亚洲aaa视频| 久久精品国产精品国产一区| 久久99精品久久久久久不卡| 白丝美女办公室高潮喷水视频| 亚洲国产天堂久久九九九| 欧美区日韩区| 99青青青精品视频在线| 亚洲另类国产欧美一区二区| 国产免费怡红院视频| 1769国产精品视频免费观看| 国产精品尤物在线| 日韩欧美一区在线观看| 日本黄网在线观看| 精品少妇人妻av无码久久| 国产成人一区免费观看| 国产精品亚洲精品爽爽| 亚洲第一成年网| 国产亚洲精品资源在线26u| 日韩在线2020专区| 日本三区视频| 日本亚洲欧美在线| 三级视频中文字幕| 色噜噜狠狠狠综合曰曰曰| 久久人搡人人玩人妻精品| 中文字幕亚洲乱码熟女1区2区| 国产自产视频一区二区三区| 丝袜高跟美脚国产1区| 国产1区2区在线观看| 国产综合无码一区二区色蜜蜜| 亚洲色图另类| 六月婷婷激情综合| 日韩在线网址|