999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ARGP-Pose:基于關鍵點間關系分析與分組預測的3D人體姿態估計

2022-12-31 00:00:00黃程遠宋曉寧馮振華
計算機應用研究 2022年7期

摘 要:盡管3D人體姿態估計已經相對成功,但現存方法在復雜場景下的性能依然差強人意。為了提高在無約束場景下3D人體姿態估計的準確性以及魯棒性,提出了ARGP-Pose,一種基于探索關鍵點間關系的單目視頻3D人體姿態估計框架。該框架包含一種關鍵點信息預處理方式以及3D姿態估計網絡結構。關鍵點預處理能夠強化結構特征,抽取出關鍵點之間聯系信息,并作為網絡輸入。3D姿態估計網絡能夠融合各個關鍵點的局部信息以及整體姿態的全局信息。此外,利用自注意力模塊來提取有效時序信息,以進一步提高預測準確度。而對于復雜姿態,采用了分組預測的方式將復雜動作的預測分解為各個點的預測,從而使網絡對復雜姿態的估計能力有了明顯的提高。在Human3.6M和HumanEva-I這兩個著名數據集上的實驗結果證明了所提出的方法的優越性。

關鍵詞:卷積神經網絡;分組卷積;三維人體姿態估計;關鍵點間關系;自注意力

中圖分類號:TP391.41 文獻標志碼:A

文章編號:1001-3695(2022)07-042-2178-05

doi:10.19734/j.issn.1001-3695.2021.11.0618

基金項目:國家自然科學基金資助項目(61876072);江蘇省“六大人才高峰項目”(XYDXX-012);江蘇省研究生科研與實踐創新計劃項目(SJCX20_0776)

作者簡介:黃程遠(1997-),男,江蘇南通人,碩士,主要研究方向為3D人體姿態估計;宋曉寧(1975-),男(通信作者),江蘇南京人,教授,博導,博士,主要研究方向為人工智能與模式識別(x.song@jiangnan.edu.cn);馮振華(1984-),男,助理教授,博士,主要研究方向為模式識別、計算機視覺和機器學習.

ARGP-Pose:3D human pose estimate based on analysis of relationship between

joint points and group prediction

Huang Chengyuan1,Song Xiaoning1?,Feng Zhenhua2

(1.School of Artificial Intelligence amp; Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China;2.Dept.of Computer Science,University of Surrey,Guildford GU2 7XH,UK)

Abstract:The research in 3D human pose estimation from 2D images has achieved great success in recent years.However,the performance of existing 3D human pose estimation methods may degrade significantly in complicated scenarios.To improve the accuracy and robustness of 3D human pose estimation in unconstrained scenarios,this paper proposed ARGP-Pose,a monocular 3D pose estimation framework by exploring the relationship between the joint points of a 3D human pose.To be more specific,the proposed method included a new joint point preprocessing method and a 3D pose estimation network.The preprocessing method enhanced structural features and extracted the relationship among joint points,which were used as input of the following pose estimation network.Also,the proposed network fused local information of each joint point and the global information of the overall pose for rich feature extraction.Additionally,the proposed method extracted the temporal information by using a self-attention module,which achieved further performance boost.Last,for a complex human pose,this method decomposed the prediction of the whole pose into the prediction of each point,which again improved the estimation accuracy for human bodies with complex pose variations.The experimental results obtained on several well-known benchmarking datasets,such as Human3.6M and HumanEva-I,demonstrate the merits and superiority of the proposed method.

Key words:convolutional neural network; group convolution; 3D human pose estimation; relationship between joint points; self-attention

0 引言

人體姿態估計是計算機視覺領域的一個重要分支,隨著技術的發展,被廣泛應用于各個領域,如人機交互、增強現實、影視動畫等。該領域有著很大的發展前景,從最早的2D姿態估計到近年來的3D姿態估計,領域內大量的研究者已經在這方面進行了大量的工作。盡管如此,基于單目攝像頭的3D人體姿態估計依然難點重重,極具挑戰性。從幾何角度來說,一種2D姿態對應著多種3D姿態;從圖像角度來說,光照不均、姿態遮擋、視角反常等因素也為預測增加了難度。除此以外,數據集稀缺也是本領域發展的一大難點,現有數據集大部分在實驗室環境下制作,不僅缺少復雜動作,而且背景環境單一。使用這樣的數據集訓練得到的模型往往泛化性較差,難以應用于實際的場景。

隨著卷積神經網絡的發展[1,2,Li等人[3在2014年首次將神經網絡應用到3D姿態估計中。而后Chen等人[4提出將3D姿態估計拆分為2D姿態估計以及2D關鍵點與3D關鍵點間的匹配兩個任務,該方法只能將圖片與數據庫中的某個姿態相匹配,因此在應用上有著較大的限制。

隨著2D姿態估計[5~7的不斷發展與突破,Martinez等人[8提出了直接從2D關鍵點生成3D姿態的方法,以此將圖像噪聲、光照、遮擋等影響濾除,只考慮2D關鍵點與3D關鍵點之間的映射。相比于用圖片直接預測3D姿態,該方法使用2D關鍵點作為中間監督,往往能得到更準確的結果。

盡管3D姿態估計的方法[9~14層出不窮,但是此類方法大多專注于單張圖片的預測,當應用于視頻數據時,抖動、不連貫等問題相繼產生。為此,研究者們引入了時序信息15~17,以提高視頻流中各個動作的連貫性,但這并不能有效提高模型對復雜動作的預測能力。由于人體動作豐富多變,并且數據集內姿態多樣性不足,所以對于復雜動作的預測,除時序信息外,姿態的結構信息也尤為重要。SRNet[18根據身體的不同部位來分割關鍵點序列,從而更好地提取關鍵點的結構信息,以此優化模型對復雜動作的預測效果。

對于結構信息,本文提出了一種新的想法。每一種姿態的關鍵點之間都有密切的聯系,例如走路、吃飯等姿態就需要四肢協同進行運動,各個關鍵點的運動狀態、位置信息之間都有著密切的聯系。如圖1所示,每一根虛線都代表著一種隱性關系。然而現有的方法往往忽略了這些信息,直接將2D關鍵點輸入到網絡中,使網絡在預測過程中無法很好地關注結構信息。本文提出一種關鍵點重組的預處理方式,旨在強化張量對結構信息的表示,增強網絡對結構信息的注意力,通過這種方法提高姿態估計的準確性。

此外,直接使用全連接網絡回歸預測3D姿態的方式不利于提高網絡的泛化能力,使得網絡過分依賴于數據集中的現有姿態,因而難以處理復雜動作。本文方法拆分了所有關鍵點,分組預測每個關鍵點的位置,將復雜姿態的預測任務拆分成多個單關鍵點預測的簡單子任務。最后,本文將子任務得到的單個關鍵點組合得到完整的3D姿態,打破網絡在整體預測過程中姿態對關鍵點位置的限制,從而提高預測復雜動作的準確率。此外,為增強時序信息的提取,本文在VideoPose[19的基礎上在時序卷積神經網絡中加入了在自然語言處理領域20,21中獲得巨大成功的自注意力機制22

為了驗證本網絡框架的有效性,本文在數據集Human-3.6M[23和HumanEva-I[24上分別進行了實驗。在Human3.6M中,結果相比于VideoPose有了約5%的提升;在HumanEva-I中的預測效果也有明顯改善。實驗結果充分表明,本文方法在3D姿態估計任務中有較高的準確率和魯棒性。

1 方法介紹

本文提出的ARGP-Pose 3D人體姿態估計框架主要包括兩部分,關鍵點重組配對以及時序卷積神經網絡,如圖2所示。對于給定的2D關鍵點序列,每個姿態都包含N個關鍵點,這些點在第一部分先進行兩兩合并重組,得到N組數據,每一組數據都包含一個關鍵點與其他關鍵點之間的空間關系,然后再分組抽取特征。經過重組以后,輸入到時序神經網絡中的數據相比于原始數據更強調了關鍵點間的關系。在得到N組關系特征以后,將其輸入到第二部分時序神經網絡模型中,然后分別預測N個關鍵點的3D坐標。在預測過程中,各組將自己的局部信息與其他組的全局信息相融合,充分挖掘各個關鍵點中可能存在的空間關系。同時本文加入自注意力模塊來強化網絡對時間信息的提取,以此增強網絡對3D人體姿態的預測能力。

1.1 關鍵點重組

輸入到網絡中的2D關鍵點的張量大小是(T,N,2)。其中T是2D關鍵點序列的序列長度,N是序列中每一幀的關鍵點個數,2代表橫縱兩個坐標值。這里用單幀數據來介紹關鍵點重組方式。關鍵點重組方式為兩兩配對,其中每個關鍵點分別與其他N-1個關鍵點兩兩組合。圖3展示了第n個關鍵點的重組方式。輸入數據的維度是(N,2),中心關鍵點n分別與其他關鍵點兩兩拼接,得到N-1個組合,每個組合有兩個(x,y)坐標數據。將其展開以后得到N-1組長度為4的一維數據,再利用全連接層對每組數據分別進行信息抽取,得到了N- 1個關系信息,每個長度為4。

這些信息就是第n個關鍵點與其他關鍵點間關系特征。然而對于該點來說,并非所有關系都重要,假設第n個點是右手,那么相比于右腳或左腳等其他點,可能右手手肘與它的關系更強。為了找到每個關系的強弱性,在輸入到時序卷積神經網絡之前,每個關鍵點間關系都會進行一次加權操作以強調關系的強弱程度。

每個關鍵點經過重組以后的維度是(1,1×(N-1) ×4),前一個1表示一幀,后一個1表示1組結構特征,每組有N -1個關系,每個關系的維度是4。為了給每一個關系的值進行加權,結構特征需要得到一個與其大小相等的權重矩陣W。其計算方法如式(1)所示,其中X是一組結構特征,f是一個全連接線性變換。

W=1ef(X)-1(1)

在得到權重矩陣以后,將其與X元素相乘,最終得到關鍵點重組模塊的輸出。在每一幀數據都進行重組以后,得到一個大小為(T,N×(N-1)×4)的張量,數據一共有T幀,每一幀有N組結構特征,對應N個關節點。每一組結構特征由N-1個關系特征組成,每一個關系特征長度為4。

1.2 局部與全局的融合

在以往的研究中,對于一個2D姿態,研究者們往往利用全連接來進行姿態預測。數據經過幾個全連接卷積層后得到3D輸出。在利用2D姿態序列的時序卷積神經網絡中,本文稱這種全連接的方式為全局卷積。

數據經過重組后,每一幀有N組結構特征,每組特征都包含預測對應關鍵點所需的大部分信息。因此本文采用一種分組全連接的方式,每組只預測一個關鍵點,以降低整體姿態對單個關鍵點的約束,如圖4(a)所示。圖中每一個粗線方格代表一組數據,一共有三個組。每組數據只與本組數據進行全連接。每一個全連接操作都針對本組的局部信息,將這種分組全連接的方式應用到時序卷積中后,本文稱這種卷積方式為局部卷積。

盡管分組全連接輸出的每組數據都包含了預測一個關鍵點所需的大部分信息,但這些信息只強調了本組所對應的關鍵點,大部分其他關鍵點重要的信息往往被忽略掉了。而如圖4(b)所示,全連接中每組輸出都由所有組計算得來,因此,這些數據包含著全局信息。為了能更好地表示姿態特征,本文采用局部與全局融合的方式來增強信息表示能力。

如圖4(c)所示,本文采用拼接的方式進行信息融合,分別將局部信息和全局信息兩兩拼接組合成新的組,每個組的通道數在融合以后變成之前的兩倍。這些新組成的小組包含了局部信息與全局信息。

1.3 自注意力提取時序信息

本文利用2D關節點序列來預測3D姿態,其中一個3D姿態往往由數個2D姿態預測得到。盡管時序卷積神經網絡已經能夠較好地提取時序信息,并且相比于LSTM,不會產生梯度消失或梯度爆炸等問題,但是,它只能籠統地提取每一幀信息,而不能作出一些篩選。有些動作和目標動作更接近,對于預測正確姿態的貢獻可能更大,所以應該給予其更高的權重。在這里本文使用自注意力模塊來進行時序信息的強化。自注意力模塊輸入為X,計算方式如下:

a)通過三個全連接層對每一幀數據計算得到Q、K以及V。

Q=f1(X),K=f2(X),V=f3(X)(2)

b)將Q和每個K進行相似度計算得到初始權重W1,其中dk表示每幀數據的長度。所計算出的權重矩陣大小為(T,T),其中T是時序序列長度。在利用自注意力進行時序信息融合時,W中每個元素Wij代表生成第i幀特征時第j幀特征所占的權重。

c)對權重矩陣進行遮蓋,對每一幀特征只保留其本身以及中心幀的權重。再使用一個softmax函數對這些權重進行歸一化得到最終權重。

W2=softmax(mask(W1))(4)

d)將權重W2和相應的鍵值V進行加權求和得到新的V;最后通過一個全連接層得到一個張量,與輸入元素相加后得到新的Xout作為輸出

Xout=f(W2×V)+X(5)

在計算Q、K、V時,為了精煉特征信息,同時為了降低參數量與顯存占用量,在經過全連接層時進行降維,張量的尺寸從(T,T×(N-1)×4)變成(T,T×(N-1) ×2),對應的在最后一個全連接層進行升維。

在預測姿態時,目的是預測序列中心的3D姿態,因此對每一幀數據來說,其本身特征以及中心幀特征才是最重要的,只需將這兩者融合,本文利用掩模將其他信息濾除。對權重矩陣進行遮蓋時,如圖5所示,每個權重矩陣只保留掩模中值為1的元素,然后再對其計算softmax,從而使得輸出X中每一幀數據只由其本身和中心數據得來。這樣做可以強調中心幀數據,并且濾除不必要的冗余信息,從而得到更準確的時序特征。

1.4 時序卷積神經網絡

時序神經網絡整體結構如圖6所示。一個時序網絡由多個時序卷積塊組成,卷積塊的個數與網絡的感受野成正相關。時序卷積塊分為兩類,一類包含自注意力模塊,稱為A;另一類不包含自注意力模塊,稱為B。隨著網絡層數的加深,數據的時序序列會越來越短,信息已經高度精煉,注意力在深層網絡中顯得沒有那么重要。因此,本文一般將卷積塊B放在整個網絡的后半部分。

本節利用兩個時序卷積塊進行網絡框架的介紹。如圖6所示,數據經過重組以后首先輸入到局部卷積層中來抽取局部信息;隨后,數據通過卷積塊A和B;最后通過一個局部卷積得到最終的3D姿態。

在卷積塊A中,數據先通過一個自注意力層得到融合的時序信息,然后分成兩個分支,分別進入局部卷積層以及全局卷積層來抽取局部和全局信息,隨后進行融合。最后經過一個局部卷積得到卷積塊A的輸出結果。

其中局部卷積中C1,3d3,C1表示每個組的輸入通道數是C1,卷積核寬度是3,空洞尺度是3,輸出通道數是C1。全局卷積中,C2表示卷積層的通道數,當關鍵點個數為17時,C2=17×C1。

2 實驗與分析

2.1 數據集和評估標準

本文將所提方法在兩個運動捕捉數據集上進行了評估,Human3.6M以及HumanEva-I。

Human3.6M是目前公認最大的3D人體姿態數據集,該數據集包含了11個不同的演員,一共360萬張視頻圖片,其中7位演員的數據包含了3D標注。每位演員都表演了15個動作,并使用4個同步相機以50 Hz的頻率錄制。為了與前人的工作[13,19相同步,本文使用5個演員的表演作為訓練集(S1,S5,S6,S7,S8),2個作為測試集(S9,S11)。

HumanEva-I是一個相對較小的數據集,其利用3臺攝像機,分別記錄了3個演員的不同動作。與VideoPose相同,本文只在“行走”“慢跑”與“拳擊”這三個動作上進行了評估。在評估時只預測15個骨骼點,并且利用數據集中預分割好的訓練集與測試集進行訓練和測試。

本文在實驗中采用了兩個評估指標:指標1(MPJPE)計算關節點的預測值與標注值之間的平均歐氏距離,單位是mm;指標2(P-MPJPE)計算了兩個姿態對齊后的平均誤差,該指標將預測值與標注進行平移、縮放和旋轉對齊以后再進行計算兩者平均誤差。相比于指標1、指標2經過了剛性變換,與標注相對齊,不考慮整體位置、大小等因素,因此其結果更能反映姿態上的誤差。而指標1則是相對全面的評估方法,綜合考慮了整體人物的旋轉與尺度偏差,更能反映一個網絡的對于3D姿態估計這個任務的整體能力。

2.2 實驗參數

對于Human3.6M,網絡結構參數如下:輸入關節點個數N為17,2D關節點序列長度T為243。主網絡包含四個卷積塊,其中前兩個為卷積塊A,后兩個為卷積塊B,其卷積核大小以及空洞卷積尺度與圖6示例相同。在局部卷積中,每組卷積的輸出通道數C1為(17-1)×4,即64。在全局卷積中,卷積的輸出通道數C2為17×(17-1)×4,即1 088。

訓練參數如下:批次大小為256。采用ranger作為優化器,初始學習率為0.001,每個迭代學習率衰減95%。一共訓練80個迭代。

對于HumanEva-I,網絡結構參數如下:輸入關鍵點個數N為15,2D關鍵點序列長度T為27,模型其他參數與前者相同。

訓練參數:批次大小為128。同樣采用ranger作為優化器,初始學習率為0.001,每個迭代學習率衰減99.6%。一共訓練1 000個迭代。

硬件參數:整個網絡的訓練過程在單張RTX 2080 Ti實現。

2.3 對比實驗

在對比實驗中,本文利用Human3.6M數據集中標注好的2D關鍵點和級聯金字塔網絡(CPN)[5預測出的2D關鍵點作為網絡輸入。前者可以評估在數據比較純凈的情況下,網絡框架對3D姿態的預測能力;后者可以評估在輸入有噪聲,數據不可靠時,網絡的泛化能力以及整體的預測能力。除了比較整個測試集的平均關節點誤差以外,本文還對各個動作的回歸能力進行了比較,驗證本文模型對復雜動作的預測能力。在HumanEva-I中,只采用了CPN輸出作為輸入。

2.3.1 Human3.6M實驗結果與分析

1)2D關鍵點作為輸入

在利用2D標注作為網絡輸入的情況下,本文與以往的論文在指標1上進行比較,如表1~3所示,粗體表示最優的結果,下畫線表示第二的結果。其中本文在所有動作上的預測效果均優于以往算法,特別相比于本框架的基線方法(baseline method),Pavllo等人的方法,結果有著明顯的提升,平均誤差降低了4.8 mm。實驗結果表明,本文方法有著比較明顯的優越性。這種方法對于提高3D姿態估計的準確度有著顯著的幫助。

2)CPN預測關鍵點作為輸入

為了驗證本文框架的魯棒性,本文利用CPN從Human3.6M原始圖片中預測出的2D關節點坐標作為本文網絡的輸入。相比于純凈的2D標注,CPN預測出的結果并不準確,包含一定的噪聲,對于后續的3D姿態估計有著一定的影響。即使這樣,在橫向對比下,本文方法依然比以往的方法有著明顯的優勢,在指標1下,平均誤差降低到了44.8,在指標2下,降到了35.1。相比于基線方法(baseline method),分別降低了2.0 mm(4.4%)與2.7 mm(7.1%)。其中,指標2相比于指標1下降的幅度更大,接近兩倍,這說明在不考慮縮放和旋轉的情況下,單從動作準確度的角度來說,本文框架有著更強的回歸能力。圖7分別可視化了本文方法與VideoPose的預測結果,中間列為本文方法,右邊列為VideoPose,圖中實線骨骼為兩種方法預測結果,虛線骨骼為真實標注。可視化結果表明本文方法對3D姿態有著更精準的預測能力。

3) 各個動作回歸能力分析

為了更直觀地體現本框架對于復雜動作的預測能力,本文利用折線圖將表1的結果進行可視化,圖8清晰地展現出兩種方法在各個動作上的優劣程度。同時利用柱狀圖展現出方法間各個動作預測誤差的差值。對于任意動作,本文方法都優于VideoPose。并且在VideoPose預測誤差最大的“坐”“坐下”以及“拍照”這三個動作上,對誤差的降低程度最大。這不僅表明了本框架的優越性,還驗證了其對復雜動作的估計能力。

2.3.2 HumanEva-I實驗結果與分析

在HumanEva-I數據集上,本文采用CPN輸出作為輸入進行評估,評估指標采用P-MPJPE。

實驗結果與以往的多種方法進行了對比,其結果展示在表4中。對比表明,本框架在大部分動作上均明顯優于以往的方法,特別是對于最難預測的拳擊動作,效果提升最為明顯,誤差平均降低了9%左右。

2.4 消融實驗

表5展示了本網絡框架中各個模塊消融實驗的結果。通過逐個添加“分組預測”“全局局部融合”以及“自注意力”的方式對各個模塊的有效性進行評定。本節實驗均利用CPN預測的關鍵點作為輸入,同時利用指標1(MPJPE)進行重構誤差的計算。表中第一行的結果是VideoPose。

第二行中,實驗添加了分組預測模塊,在該模塊中,首先進行關鍵點重組,然后通過分組卷積的方式預測最終的結果。由于采用分組卷積的方式,可訓練參數大量減少,雖然誤差只降低了0.3 mm,但仍然優于VideoPose。

第三行,實驗繼續添加了全局與局部信息融合模塊,效果提高顯著,誤差再次降低了0.9 mm。實驗結果表明了全局信息與局部信息融合的方式的確能夠讓網絡對結構信息的挖掘更充分,從而提高預測的準確度。

第四行,自注意力模塊被添加到網絡中,平均誤差再次下降0.6 mm。驗證了該模塊對時序信息抽取的能力,能有效利用2D關鍵點序列中的時序信息來提升3D姿態估計的準確性。

3 結束語

本文提出了一種探索關鍵點間關系的網絡框架。該框架利用各個關鍵點兩兩之間的關系來加強對2D姿態的特征抽取能力,并且采用局部關鍵點特征與全局特征融合的方式來進一步挖掘關鍵點間存在的隱性聯系。為了解決困難動作預測精度差的問題,本文又引入了分組預測各個關鍵點的方式。除此之外,本網絡框架中加入了自注意力模塊來提取視頻中時序信息,以輔助目標姿態的預測。實驗表明,相比于普通的時序卷積神經網絡,本文提出的網絡框架提高了3D人體姿態的準確度,并能有效解決復雜動作低準確度問題。在未來的工作中,將繼續深入研究新的姿態估計方法,學習視覺領域最前沿的技術,從多人多視角切入,進一步提高其預測準確度,強化3D姿態估計算法在實際場景中的應用能力。

參考文獻:

[1]李翠錦,瞿中.基于卷積神經網絡的跨層融合邊緣檢測算法[J].計算機應用研究,2021,38(7):2183-2187.(Li Cuijin,Qu Zhong.Cross fusion edge detection algorithm based on convolutional neural network[J].Application Research of Computers,2021,38(7):2183-2187.)

[2]邢新穎,冀俊忠,姚垚.基于自適應多任務卷積神經網絡的腦網絡分類方法[J].計算機研究與發展,2020,57(7):1449-1459.(Xing Xinying,Ji Junzhong,Yao Yao.Brain networks classification based on an adaptive multi-task convolutional neural networks[J].Journal of Computer Research and Development,2020,57(7):1449-1459.)

[3]Li Sijin,Chan A B.3D human pose estimation from monocular images with deep convolutional neural network[C]//Proc of Asian Confe-rence on Computer Vision.2014.

[4]Chen C,Ramanan D.3D human pose estimation=2D pose estimation+matching[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.

[5]Chen Yilun,Wang Zhicheng,Peng Yuxiang,et al.Cascaded pyramid network for multi-person pose estimation[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

[6]Newell A,Yang Kaiyu,Deng Jia.Stacked hourglass networks for human pose estimation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016.

[7]Sun Ke,Xiao Bin,Liu Dong,et al.Deep high-resolution representation learning for human pose estimation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019.

[8]Martinez J,Hossain R,Romero J,et al.A simple yet effective baseline for 3D human pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

[9]Pavlakos G,Zhou Xiaowei,Derpanis K G,et al.Coarse-to-fine volumetric prediction for single-image 3D human pose[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.

[10]Fang Haoshu,Xu Yuanlu,Wang Wenguan,et al.Learning pose grammar to encode human body configuration for 3D pose estimation[C]//Proc of AAAI Conference on Artificial Intelligence.Piscataway,NJ:IEEE Press,2018.

[11]Tekin B,Márquez-Neila P,Salzmann M,et al.Learning to fuse 2D and 3D image cues for monocular body pose estimation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

[12]Sun Xiao,Shang Jiaxiang,Liang Shuang,et al.Compositional human pose regression[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017.

[13]Yang Wei,Ouyang Wanli,Wang Xiaolong,et al.3D human pose estimation in the wild by adversarial learning[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

[14]Luvizon D C,Picard D,Tabia H.2D/3D pose estimation and action recognition using multitask deep learning[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.

[15]Hossain M R I,Little J J.Exploiting temporal information for 3D human pose estimation[C]//Proc of European Conference on Computer Vision .Piscataway,NJ:IEEE Press,2018.

[16]Lee K,Lee I,Lee S.Propagating LSTM:3D pose estimation based on joint interdependency[C]//Proc of European Conference on Compu-ter Vision.2018.

[17]Kocabas M,Athanasiou N,Black M J.Vibe:video inference for human body pose and shape estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.

[18]Zeng Ailing,Sun Xiao,Huang Fuyang,et al.SRNet:improving generalization in 3D human pose estimation with a split-and-recombine approach[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020.

[19]Pavllo D,Feichtenhofer C,Grangier D,et al.3D human pose estimation in video with temporal convolutions and semi-supervised training[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.

[20]胡德敏,王榮榮.融合語言特征的抽象式中文摘要模型[J].計算機應用研究,2020,37(2):351-354,369.(Hu Demin,Wang Rongrong.Abstractive Chinese summarization model with linguistic features[J].Application Research of Computers,2020,37(2):351-354,369.)

[21]Chen Qian,Zhu Xiaodan,Ling Zhenhua,et al.Enhanced LSTM for natural language inference[EB/OL].(2017-04-26).http://doi.org/10.18653/v1/p17-1152.

[22]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[EB/OL].(2017-12-06).https://arxiv.org/abs/1706.03762.

[23]Ionescu C,Papava D,Olaru V,et al.Human3.6M:large scale datasets and predictive methods for 3D human sensing in natural environments[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,36(7):1325-39.

[24]Sigal L,Balan A O,Black M J.HumanEva:synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion[J].International Journal of Computer Vision,2010,87(1-2):article No.4.

主站蜘蛛池模板: 欧美人与牲动交a欧美精品| 亚洲视频欧美不卡| 五月六月伊人狠狠丁香网| 超碰91免费人妻| 波多野吉衣一区二区三区av| 奇米影视狠狠精品7777| yy6080理论大片一级久久| 亚洲精品成人片在线观看| 丝袜高跟美脚国产1区| 欧美中出一区二区| 国产va欧美va在线观看| 国产成人91精品免费网址在线| 亚洲AV成人一区二区三区AV| 中国国产高清免费AV片| 亚洲日韩AV无码精品| 国产一在线观看| 亚洲AⅤ无码国产精品| 国产精品无码在线看| a级毛片免费网站| 国产精品私拍99pans大尺度 | 国产一级视频久久| 特级毛片8级毛片免费观看| 欧美视频在线第一页| 免费不卡在线观看av| 欧美激情,国产精品| 久久无码高潮喷水| 久久www视频| 久久综合成人| 国产成人亚洲毛片| 人妻精品久久无码区| 999精品视频在线| 国产欧美又粗又猛又爽老| 67194亚洲无码| 精品成人一区二区三区电影 | 97超级碰碰碰碰精品| 欧美精品二区| 啪啪永久免费av| 91久久偷偷做嫩草影院| 在线观看视频一区二区| 久久大香香蕉国产免费网站| 免费国产黄线在线观看| 91精品国产一区| 波多野结衣国产精品| 国产又粗又猛又爽视频| 国产v欧美v日韩v综合精品| 欧美人人干| 永久在线播放| 欧美一区国产| 亚洲欧美成人综合| 久久精品亚洲中文字幕乱码| 国产亚洲精| 精品久久久久久久久久久| 一级成人a做片免费| 亚洲永久精品ww47国产| 亚洲黄网在线| 亚洲一区二区三区在线视频| 久久国产精品影院| 国产精品永久免费嫩草研究院 | 91在线激情在线观看| 精品自窥自偷在线看| 精品国产aⅴ一区二区三区| 欧美综合区自拍亚洲综合绿色| 亚洲香蕉久久| 亚洲美女一区二区三区| 欧美在线伊人| 内射人妻无套中出无码| 国产尤物在线播放| 99久久精品久久久久久婷婷| 国产极品美女在线播放| 久精品色妇丰满人妻| 亚洲va精品中文字幕| 亚洲va在线∨a天堂va欧美va| 国产视频a| 综合色88| 久99久热只有精品国产15| 伊人久综合| 久久国产黑丝袜视频| 久久综合伊人77777| yjizz视频最新网站在线| 欧美亚洲第一页| 午夜不卡福利| 这里只有精品国产|