999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視頻的三維人體姿態估計

2020-01-02 09:07:46楊彬李和平曾慧
北京航空航天大學學報 2019年12期

楊彬,李和平,曾慧,*

(1.北京科技大學 自動化學院,北京100083; 2.北京市工業波譜成像工程技術研究中心,北京100083;3.中國科學院自動化研究所,北京100190)

人體姿態估計是指還原給定圖片或者視頻中人體關節點位置的過程,其對于描述人體姿態,預測人體行為起到至關重要的作用。近年來,隨著深度學習技術的發展,人體姿態估計越來越廣泛地運用到計算機視覺的各個領域之中,例如人機交互、行為識別以及智能監控等等。現如今,二維人體姿態估計算法的日漸成熟,三維的人體姿態估計開始受到更多研究者的關注,其在二維姿態估計的基礎上加入了深度信息,這也進一步擴大了姿態估計的應用場景。早期的研究過多關注于利用人體的幾何約束為主要特征來估計三維人體姿態[1-3],例如使用梯度方向直方圖以及層次物體識別模型提取特征來對三維姿態進行預測,這種方法保證了輸出結果的合理性,不過由于不同個體之間存在差異,往往難以獲得精確的結果。當前的研究算法大多通過單幅RGB圖像[4-8]以及利用已知二維姿態方法[9-15]來恢復人體的三維姿態,前者將姿態估計由回歸問題轉化為在離散空間中定位關節點位置的問題,取得了不錯的效果,但其一定程度上會因遮擋等環境因素而導致檢測性能下降。使用二維姿態恢復的方法則是尋找由二維關節點向三維空間的映射[16-17],這種方法相比其他方法更為直接,且最終的檢測結果往往依賴于二維關節點坐標是否精確。

以上研究算法大多建立在對單幀圖像進行分析的基礎上,而現實生活中更多的數據源來自于視頻輸入,視頻作為多幀連續圖像的組合,包含了更為復雜的時序信息。而基于單幀圖像進行估計一定程度上會導致相鄰幀的檢測結果存在巨大差異,因此,基于視頻的三維人體姿態估計比單幀圖像檢測具有更大的挑戰。在時序分析領域,循環神經網絡(Recurrent Neural Network,RNN)一直因其善于處理序列化數據而有著廣泛地應用,英國著名的人工智能公司Deep Mind于2016年提出的WaveNet[18]通用模型證明一維的卷積神經網絡(Convolutional Neural Network,CNN)同樣對序列化數據特征有著良好的提取能力,另外與RNN相比不容易受到梯度消失和爆炸的影響而且有著更為簡單的網絡結構。因此以一維卷積為基礎設計深層網絡來挖掘分析視頻中的時序信息可能會具有更加突出的作用。

本文受到上述啟發,構建了一種以視頻中人體二維關節點坐標作為輸入恢復得到三維人體姿態的算法,主要貢獻概括如下:基于一維卷積對時序信息的提取能力,設計了一種高效網絡,對視頻中的三維人體姿態實現了準確的估計。深入研究視頻相鄰幀之間視覺信息的連續性,提出了一種新的損失函數,改進姿態估計結果的平滑性和有效性。最后在特定數據集上進行試驗并對比分析,充分驗證了本文方法對視頻中的三維人體姿態估計的有效性,研究成果也為一些實際應用提供了技術支持。

1 三維姿態估計

1.1 方法概述

直覺上,二維關節點坐標向三維空間的映射可能會因缺少深度信息而導致錯誤姿態,不過Martinez等[16]提出的基準方法證明了使用網絡實現二維關節點恢復三維姿態是完全可行的,網絡能夠很好地依據關節相對位置來預測深度信息和連接關系。因此本文設計了一種以連續二維關節點坐標序列為輸入恢復視頻相關三維人體姿態的方法,如圖1所示。二維關節點坐標直接由數據集的標注得到,除此之外,還可以通過將單幀圖像送入二維姿態檢測器得到人體二維關節點坐標,本文方法可以與目前許多高精度二維姿態檢測器相結合,實現對于任意圖像或視頻輸入,都能夠準確恢復人體的三維姿態。之后對得到的二維關節點坐標序列進行歸一化處理,加快網絡收斂速度。最后將處理過的序列數據送入三維姿態估計網絡,訓練時網絡會生成與序列數據相同數目的姿態,測試時本文只取中間一幀的姿態作為輸出,因此輸入二維關節點坐標序列的數目應為奇數。

1.2 三維姿態估計網絡

圖1 三維姿態生成過程Fig.1 Generation process of three-dimensional pose

三維姿態估計網絡主要由4個具有相同結構的殘差網絡模塊進行串聯組成,除輸入輸出外,第一層的3×1卷積和最后一層的1×1卷積分別用于將輸入維度進行擴展以增加網絡寬度和將維度降至輸出維度。殘差網絡模塊由卷積層、Batch-Normal(BN)層、ReLU層以及殘差連接組成。

1)卷積層。殘差網絡模塊在卷積層主要使用3×1的一維卷積和卷積核大小為1×1的點卷積,一維卷積通過卷積核的滑動來提取時間序列上的信息,點卷積主要用于改變特征的維度以此來對同維度的特征進行信息融合。

2)BN層。神經網絡各層的輸出由于經過層內操作,其數據分布顯然會與對應層的輸入不同,并且差異會隨著網絡層的堆疊而逐漸增大,而BN層主要用于對每層的輸入進行規范化,用于解決數據分布不均而導致的訓練深層網絡模型困難的問題。BN層一定程度上起到了正則化的作用,使得訓練過程中能夠使用較高的學習速率,更加隨意的對參數進行初始化,加快訓練速度,提高網絡的泛化性能。

3)ReLU層。ReLU層是一個非線性的激活單元,主要用于增加網絡的非線性特征,其單側抑制特性使得一部分神經元的輸出為0,增加稀疏性,減少了參數間的相互依存關系,緩解了過擬合問題的發生。

4)網絡還借鑒了ResNet[19]網絡結構中殘差連接的思想,將輸出表述為輸入和輸入的一個非線性變換的線性疊加,使得各個層級提取到的特征可以隨意進行組合,保證特征在網絡中的傳遞,三維姿態估計網絡結構如圖2所示。

對網絡的設計不僅要求模型結構有著良好的性能,還要考慮實際應用中網絡運行所需要的存儲空間以及計算資源。網絡模型的空間復雜度主要指的是參數的個數,其中ReLU層作為激活單元并沒有需要學習的參數,單個BatchNormal層也僅有2個可以學習的參數,因此網絡模型占用的空間大小近似等于所有卷積層的參數量之和,網絡模型的時間復雜度主要通過浮點運算次數(FLoating-Point Operations,FLOPs)來衡量。使用連續9幀圖像中人體關節點二維坐標為輸入,計算不同數目的殘差模塊對于參數個數以及計算資源的消耗,并比較最終的測試誤差。

由表1可得,在4個殘差模塊的使用下得到了最優結果,此后隨著網絡的進一步加深,出現了過擬合現象,平均測試誤差開始增加,后續實驗也采用4個殘差模塊的網絡結構與其他方法進行對比分析。本文設計的輕量級網絡模型實現了對三維人體姿態準確高效的估計,在有效減少參數的同時也具有極快的處理速度,能夠更好地應用在各種硬件設備中。

圖2 三維姿態重建網絡結構Fig.2 Three-dimensional pose reconstruction network structure

表1 網絡模型參數量Table 1 Par ameter number of networ k model

2 相似姿態位移約束損失函數

本文網絡主要是利用已有的數據,取連續幀的二維關節點坐標作為輸入,對人體關節點坐標從二維到三維空間的映射進行有監督學習并最終輸出人體三維關節點的坐標,其本質上是一個回歸問題。網絡優化的目標是使得預測得到的三維關節點的坐標與真值之間的差值最小,因此首先定義姿態距離(Pose Distance,PD)的損失函數:

式中:T為同時輸入網絡連續幀關節點的數目;N為人體關節點的數目,在實驗中N=17表示Euclidean范數,通過使用預測值與真值的歐氏距離作為衡量關節點之間差異的標準;(pred)和(gt)分別表示輸入第t幀圖像中第i個關節點的三維坐標預測值和真實值。

視頻數據承載的信息不僅僅存在于單幀圖像中,其更多的語義信息會通過連續幀來表達,而傳統的視頻姿態估計算法大多基于單幀圖像,然后將結果整合為視頻輸出,無法充分利用視頻的時空結構特性,往往存在輸出不連續等問題。本文隨機選取任意視頻序列進行分析,并通過計算兩個姿態間各個關節點之間的歐氏距離之和作為姿態差異,將實驗結果取平均,根據圖3可以得出同一視頻段中姿態差異隨序列增加近似呈線性增長,且相鄰幀保持著微小的差異,通過網絡訓練來學習這一特性,可以使網絡能夠依據當前時刻的輸入預測下一時刻的輸出,同時也保證后一幀的姿態預測結果與前一幀相比能夠近似一致,以此來增加視頻中姿態估計的準確性和平滑性。

民俗學是一門面向實踐的學問,這其中包含兩個層面的意思:一是研究者要關注民眾的生活實踐;二是研究成果要對民眾實踐有所助益。其中,研究成果對民眾有所助益是民俗學最樸實的初衷,是民俗學者的初心之所在。與其他社會科學不同,民俗學特別強調了解民眾理解民眾,擁有比別的學科更多的了解老百姓的知識,這是民俗學者的優勢,也是民俗學的長處。換句話說,我們民俗學者不局限于一時一地的民眾知識,我們通過田野調查掌握了很多地方老百姓的知識,掌握了不同階層、不同職業、不同修養的各種人群的知識,最終是為了更好地為他們服務,實踐民俗學更是要強調這種服務民眾的特殊責任。

圖3 相鄰幀姿態差異Fig.3 Pose difference between adjacent frames

基于上述分析,本文設計一種名為相似姿態位 移 約 束(Similar Pose Displacement Constraint,SPDC)的損失函數來學習視頻中的人體姿態在時間維度上的連續性,計算公式為

式中:α和λ分別為姿態距離損失函數以及相似姿態位移約束損失函數的權重比,本文以姿態距離損失函數為主要的優化目標,使輸出的每個關節點坐標值都盡可能地回歸到真值附近,并輔以相似姿態位移約束損失函數來充分學習相鄰幀的近似一致性,增加檢測結果的平滑性。對α和λ的選取規則應該是α大于λ,經過多次實驗對比,本文選取α=5以及λ=1作為最優的權重比,最終的損失函數為兩種不同損失函數的加權和。

3 實驗結果分析

3.1 實驗數據集

為了對本文方法的性能進行評價,在三維人體姿態數據集Human3.6M[20]上進行了實驗,Human3.6M是目前為止最大也是使用最為廣泛的三維人體姿態估計數據集,其主要由7位實驗者在4個不同視角下使用高清攝像機精確捕捉的360萬個三維人體姿態組成,視頻的幀率為50 Hz,分辨率大小為1 000×1 000。數據集被分割為11個子類別,其中7個類別包含了三維關節點標注,而且還使用相機參數對三維姿態的關節點數據進行投影,并獲得準確的二維姿態信息,每個類別中都包括走路、打招呼等15個生活中常見動作。

3.2 實驗細節和評價標準

實驗過程中,使用Human3.6M 提供的二維關節點坐標,選取某幀前后數目相等的二維關節點坐標序列作為輸入,訓練時為了保證視頻起始端和末端完整性,對輸入數據采取邊緣填充操作,根據輸入連續幀數目對起始幀和結束幀的二維關節點數據進行復制并填充。此外,本文還對輸入的二維關節點坐標根據圖像大小進行歸一化處理。訓練時采用Adam優化算法,初始學習率設置為0.001,批處理大小為1024,權重衰減參數設為0.000 65,對整個數據集迭代50次。

實 驗 使 用 NVIDIA GTX1060 顯 卡,64 位Ubuntu系統,Intel i7-6700型號CPU,并Python3.5環境配置下使用開源深度學習框架Pytorch對網絡模型進行訓練。使用平均關節位置誤差(Mean PerJoint Position Error,MPJPE)作為評價標準,即計算網絡預測得到的關節點坐標與真實標簽17個人體關節點坐標之間歐氏距離的平均值。為了與其他實驗方法進行公平比較,根據協議使用Human3.6M 中的S1、S5、S6、S7、S8子數據集用于訓練,S9、S11數據集用于測試。

3.3 實驗結果與分析

三維人體姿態估計結果如圖4所示,每25幀連續圖像的二維關節點坐標作為輸入,采用4個殘差模塊網絡結構的條件下,得到了最佳的實驗結果。

圖4 三維姿態估計結果Fig.4 Three-dimensional pose estimation results

對于不同數目連續幀輸入的實驗分析如圖5所示,當輸入序列長度大于25以后,模型的性能開始下降,平均誤差開始增加,推測原因可能因為當前幀的檢測結果只與相鄰幾幀呈高度相關性,其余幀的存在會帶來更多的冗余信息。而且由于輸入維度的增加,網絡前向傳播所需的時間也會成倍增加。

表2 各種三維姿態誤差Table 2 Various three-dimensional pose errors

圖5 不同輸入序列下的平均誤差Fig.5 Average errors in different input sequences

接下來對本文設計的網絡各個部分進行深入分析,表3給出了不同的網絡設計對最終測試誤差的影響。Dropout[22]正則化是最簡單的網絡正則化方法:通過任意丟棄網絡層中的參數來減少神經元之間復雜的共適應關系,迫使網絡去學習更加魯棒的特征,緩解過擬合的發生,起到正則化的作用。然而加入Dropout反而增加了大約10 mm的誤差,分析原因,可能由于Dropout隨機刪除卷積層參數,破壞了一維卷積提取時序信息的連續特征過程。與此同時,BN層的加入減少了14.9 mm的測試誤差,大幅提高了網絡的泛化性能。另外,殘差連接的設計也為本文的網絡帶來了0.6 mm誤差的減小。

表3 不同網絡結構測試誤差Table 3 Testing err ors of different network structures

最后分析本文所提出的損失函數對于網絡性能的影響,具體方法為同時訓練加入和不加入SPDC損失函數的網絡,損失函數曲線如圖6所示。由圖6可見,在訓練初期,隨著三維點坐標回歸的逐漸精確,兩個網絡的相似姿態位移差異同時減小,但加入SPDC損失函數的網絡下降幅度更大。在繼續迭代的過程中,加入SPDC損失函數網絡的相似姿態位移差異進一步減小且具有更小的震蕩幅度,這說明SPDC損失函數的加入使得網絡很好地學習了視頻幀間的連續性,增加了視頻三維姿態估計輸出的平滑性,另外,SPDC損失函數的加入最終減少了網絡0.8 mm的誤差,進一步提高了估計結果的準確性。

圖6 損失曲線對比Fig.6 Loss curves comparison

4 結 論

本文結合用于提取時序信息的一維卷積神經網絡,提出了一種基于視頻的三維人體姿態估計方法。研究結論如下:

1)本文方法能夠以連續幀圖像中人體二維關鍵點坐標作為輸入,將已有的二維姿態準確地映射到三維空間中。

2)針對幀間信息缺失的情況,本文又設計了一種新的損失函數,對幀間的近似一致性進行學習,充分利用視頻時間維度上的相關性來估計視頻中的三維人體姿態。

3)實驗表明,基于連續幀輸入的姿態重建網絡具有一定的合理性,并且本文方法可以與二維姿態檢測器相結合,具有一定的魯棒性。

下一步的主要研究工作是將本文方法與二維姿態估計任務相結合,設計通用的框架同時對二維和三維的人體姿態進行估計,并利用三維的姿態估計結果對二維的輸出進行優化。

主站蜘蛛池模板: 高清色本在线www| 91在线精品麻豆欧美在线| 4虎影视国产在线观看精品| 激情无码视频在线看| 在线观看av永久| 99精品免费欧美成人小视频 | 四虎亚洲国产成人久久精品| 国产亚洲一区二区三区在线| 国产导航在线| 亚洲最黄视频| 亚洲成人手机在线| 亚洲最黄视频| 中文字幕66页| 1769国产精品视频免费观看| 国产第四页| 国产成人综合网| 久久久久国产精品嫩草影院| 成人中文在线| 亚洲精品福利视频| 国产成人久视频免费| 成人日韩欧美| 99久久这里只精品麻豆| 日韩欧美视频第一区在线观看| 国产精品视频a| 婷婷开心中文字幕| 久久精品娱乐亚洲领先| 91青青草视频在线观看的| 欧美日本中文| 人妻丰满熟妇啪啪| 欧美一级高清免费a| 亚洲第一色网站| 国产成人欧美| 在线观看亚洲人成网站| 日韩在线网址| 欧美中文字幕在线播放| 国产亚洲成AⅤ人片在线观看| 久久精品人人做人人爽97| 波多野结衣一区二区三区AV| 波多野结衣在线se| 免费在线视频a| 97无码免费人妻超级碰碰碰| 五月丁香伊人啪啪手机免费观看| 成人夜夜嗨| 伊人成人在线视频| 波多野结衣一二三| 波多野结衣第一页| 国产美女精品一区二区| 亚洲高清中文字幕| 免费不卡在线观看av| 欧洲亚洲一区| 五月婷婷丁香色| 国产成人综合网| 暴力调教一区二区三区| 手机在线看片不卡中文字幕| 国产91线观看| 日韩午夜片| 少妇被粗大的猛烈进出免费视频| 免费看一级毛片波多结衣| 欧美在线视频a| 福利一区在线| yy6080理论大片一级久久| 日韩二区三区| 亚洲国产成人超福利久久精品| 国产高清在线观看| 日韩无码白| 国产一区二区三区在线观看免费| 欧美亚洲第一页| 午夜福利在线观看成人| 在线播放真实国产乱子伦| 久久久久亚洲Av片无码观看| 天天综合网站| 久久精品无码国产一区二区三区 | 播五月综合| 亚洲成年人片| 狠狠色丁香婷婷| 欧美日韩一区二区在线播放| 亚洲精品中文字幕无乱码| 久久99国产综合精品1| 国产精品成人免费视频99| 性网站在线观看| 久久精品国产电影| 色久综合在线|