999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習的三維人體姿態估計綜述

2023-01-17 09:31:14王仕宸陳志剛張文東
計算機與生活 2023年1期
關鍵詞:深度方法模型

王仕宸,黃 凱,陳志剛,張文東

1.新疆大學軟件學院,烏魯木齊830046

2.中南大學計算機學院,長沙410083

人體姿態估計在計算機視覺文獻中得到了廣泛的研究,它涉及到從傳感器獲取的輸入數據中估計人體部位的信息,生成人體姿態,在運動分析[1]、虛擬現實[2]、醫療輔助[3]、電影制作[4]等領域有著廣泛的應用前景。人體姿態估計這個任務,最終面向的使用場景是對視頻流進行實時的姿態估計,而且至少要像人類一樣能夠適應各種復雜環境。然而實現起來需要循序漸進,因此最簡單的樣例場景就是:從單張圖像中識別單個人體,且只需要二維的骨架。從圖像和視頻中提取二維姿態標注的二維人體姿態估計很容易實現,基于深度學習的單人人體姿態估計技術已經達到很高的性能。

近年來,隨著深度學習的快速發展,在圖像分類、語義分割和目標檢測等任務中,基于深度學習解決方案明顯優于傳統方法。深度學習被引入姿態估計之后,基于深度學習的人體姿態估計方法可以通過建立網絡模型,在圖像數據上進行訓練和學習,直接得到最有效的表征方法,其核心是深度神經網絡,主要是利用神經網絡從圖像中提取出比人工特征語義信息更豐富、準確性更高和更具魯棒性的圖像特征,并且網絡模型的表達能力會因網絡堆疊數量的增加而呈指數增長,因此相較于傳統方法可以進一步提升復雜環境下的人體姿態估計的精度和魯棒性。

三維人體姿態估計的主要任務是在三維空間中預測出人體的三維結構信息,換種方式說就是在二維姿態估計結果的基礎上加上深度信息。由于深度信息的引入,三維的人體姿態估計在描述人體姿態以及識別人體行為等方面,比二維姿態估計更加精準,擁有更高的研究價值。相比之下,對于三維人體姿態估計來說,獲得準確的三維姿態標注要比二維人體姿態估計困難得多。深度學習在人體姿態估計任務中的應用已經取得了顯著的進展,然而像遮擋、深度模糊和訓練數據不足等挑戰仍然是難以克服的。對于基于RGB 圖像的三維人體姿態估計,單目輸入的挑戰在于RGB 圖像固有的深度模糊,而多目輸入的挑戰在于如何在多個不同的輸入視角中匹配正確的姿態。利用運動捕捉系統可以在受控的實驗室環境中收集到準確的三維姿勢注釋,然而在野外環境中就會部分失效。其他的一些工作選擇使用RGB-D 攝像頭和慣性測量單元(inertial measurement unit,IMU)等設備作為輸入設備,然而這類設備通常成本較高,不具有商業化能力?;谌S人體姿態估計的重要性,本文主要總結三維人體姿態估計的研究進展。

本文將對三維人體姿態估計按照如圖1 進行綜述。從基于RGB 輸入的三維姿態和基于其他輸入的三維姿態兩個角度進行介紹,基于RGB 的三維姿態中,從單目和多目兩類進行論述。其次,在Human 3.6M 數據集[5]中對部分方法進行模型對比,分析不同模型間的差異對模型性能帶來的影響。最后,根據研究需要對三維人體姿態估計的數據集及評價指標進行系統性介紹,并且本文將對當前研究面臨的問題以及未來的發展趨勢進行概述,為這個領域的研究者提供參考。

圖1 三維人體姿態估計分類Fig.1 Classification of 3D human pose estimation

1 基于RGB 輸入的三維人體姿態估計

在人體姿態估計領域,單目RGB 攝像頭是最常用的輸入工具。在野外場景中大多使用單個單目RGB 攝像頭作為采集設備,然而從單一視圖中估計三維人體姿態是一項艱巨的任務。單張RGB 圖像存在關鍵點遮擋、深度模糊等問題,并且由于不同的三維人體姿態可以投影成相似的二維姿態,這是一個嚴重的不適定問題。遮擋問題最直接的解決方法就是從不同角度采集目標圖像,在三維姿態估計中使用多個RGB攝像機作為輸入可以相對緩解遮擋問題。然而多個攝像機的使用又引入了另一個問題——如何匹配不同視角中的姿態。因此,基于RGB 的三維人體姿態估計可以分為單目姿態估計和多目姿態估計兩類。

1.1 單目三維人體姿態估計

與二維姿態估計的發展相似,單目三維姿態估計同樣從單人姿態估計入手,最后發展到多人姿態估計。因此,單目三維人體姿態估計方法可分為單目單人三維姿態估計和單目多人姿態估計兩類。

根據是否使用二維姿態結果作為中間表示,單目單人三維姿態估計進一步可以分為直接估計法和二維提升到三維兩種方法。在二維提升到三維的過程中,由于模型的分段執行,可以靈活地添加人體先驗知識、時間序列和參數化人體模型(skinned multiperson linear model,SMPL)[6]等模塊提升模型性能。單目多人三維姿態估計分為兩類,自頂向下的方法和自底向上的方法。自頂向下的方法首先檢測每個人的邊界框,再在每個邊界框中進行三維姿態估計。自底向上的方法首先檢測圖中所有關鍵點,生成關鍵點坐標和深度圖,再對所有關鍵點進行聚類組合構造人體。

1.1.1 基于直接估計法的單人三維姿態估計

直接估計法沒有使用二維姿態結果作為中間表示,而是利用一個完整的大型神經網絡端到端從RGB 圖像中直接推理出三維姿態。通常來講,很多二維數據對于三維姿態是有幫助的,同時三維姿態也能對二維位置點估計提供額外的信息輔助。文獻[7]就把二維骨架以及三維骨架的估計問題關聯到一起來做優化。文獻[8]使用關節點之間的相對深度進行訓練,不需要知道每一個關節點的絕對物理深度,只需要知道關節點之間的深度順序。文獻[9]沿用二維姿態估計的方法,回歸出一個三維熱圖估計各個關鍵點。文獻[10]提出了一種單階段分布感知式模型(distribution-aware single-stage model,DAS),該模型將三維人體姿態表示為2.5 維人體中心點和三維人體關鍵點偏移,這一表示有效地適配了基于RGB 圖片域的深度信息預測。文獻[11]將輸入空間從二維像素空間轉換為規范化坐標系中的三維光線,這種簡單的設計有效地規范化了攝像機固有參數變化以及攝像機俯仰角變化帶來的變化。然而熱圖的下采樣會產生量化誤差,文獻[12]利用積分回歸方法,將熱圖和回歸結合,避免了量化誤差的產生并且可以端到端訓練。文獻[13]將訓練中的誤差作為樣本,利用極大似然估計和基于流的生成模型學習潛在的誤差分布。

1.1.2 基于二維到三維的單人三維姿態估計

由于沒有二維姿態結果作為中間表示,直接估計法的性能一般低于二維提升到三維的方法,這是因為二維到三維方法利用先進的二維姿態估計器獲取人體關鍵點二維信息,然后由二維人體姿態預測三維人體姿態坐標。文獻[14]首先對圖像做二維姿態估計,然后利用最近鄰匹配尋找最佳三維姿態。文獻[15]將二維和三維姿態公式化為距離矩陣回歸問題。文獻[16]直接使用二維姿態通過神經網絡回歸出三維姿態。然而以上方法過于依賴二維姿態估計器檢測的二維姿態結果,可能會導致次優性能。文獻[17]提出了一個雙分支框架預測二維熱圖,利用關鍵點熱圖作為中間表示,以獲得最終的三維關鍵點坐標。在此基礎上文獻[18]利用積分實現端到端訓練。

1.1.3 基于先驗知識的單人三維姿態估計

在三維人體姿態估計中人體結構的先驗知識受到了越來越多的關注,利用先驗知識對生成姿態進行約束能有效提高模型性能。文獻[19]利用長短期記憶網絡(long short-term memory,LSTM)在整個骨骼中傳遞各個關節點信息;文獻[20]引入了人體不同關節的自由度;文獻[21]使用順序雙向遞歸網絡(sequential bidirectional recursive network,SeBiReNet)來模擬人類骨骼數據;文獻[22]將圖神經網絡與人體結構模型結合傳遞上下文信息,生成和修正人體骨骼。然而以上方法沒有考慮到二維輸入數據的精度,文獻[23]發現二維骨架精確度越高,對應獲得的三維骨架精度也會提高,通過對二維噪聲進行優化再結合人體結構先驗知識對結果進行修正,獲得了不錯的結果。

1.1.4 基于時間序列的單人三維姿態估計

對于從單個RGB 圖像估計三維人體姿態,連續的視頻幀可以提供時間信息來提高三維人體姿態估計的準確性和魯棒性。文獻[24]引入了由LSTM 單元組成的序列到序列網絡,并在訓練期間施加時間平滑性約束,以確保序列的時間一致性。然而缺乏空間構型約束,生成的三維人體姿態依舊可能存在物理上的結構錯誤??臻g依賴性和時間一致性應當同樣受到關注,文獻[25]在時間網絡中加入了解剖學約束,文獻[26]在圖卷積網絡中添加了人體結構先驗知識,文獻[27]通過骨骼方向和骨骼長度對人體結構進行約束。然而,現有方法主要依靠循環或卷積運算對這些時間信息進行建模,限制了捕捉人體運動全局關系的能力。文獻[28]提出了一種運動姿態和形狀網絡(motion pose and shape network,MPS-Net),以有效地捕捉運動中的人,從視頻中估計準確和時間連貫的三維人體姿態和形狀。不同關節的運動具有明顯的差異性,文獻[29]提出了混合時空編碼器(mixed spatio-temporal encoder),對每個關節在時序運動上進行建模,并學習關節間的空間關系,以提取到更好的時空信息。

1.1.5 基于SMPL 模型的單人三維姿態估計

SMPL 模型[6]是一種參數化的人體模型,該方法可以進行任意的人體建模和動畫驅動,模擬人的肌肉在肢體運動過程中的凸起和凹陷,可以避免人體在運動過程中的表面失真,精準地刻畫人的肌肉拉伸以及收縮運動的形貌,如圖2。在三維姿態估計中SMPL 模型[6]也得到了廣泛的運用,文獻[30]在一個端到端的框架中引入SMPL 模型[6],預測SMPL 模型[6]的參數,生成三維人體網格,最后投影三維網格;文獻[31]使用基于區域卷積神經網絡(region-convolutional neural networks,R-CNN)[32]的網絡模型,并引入了SMPL 模型[6]參數估計分支作為表示;文獻[33]引入一個自監督的人體恢復網格提升了模型的泛化性。然而直接回歸SMPL 模型[6]會丟失人體部分細節特別是一些高頻信息;文獻[34]改用圖卷積神經網絡(graphconvolutional neural networks,G-CNN)僅回歸SMPL模型[6]的各個坐標;文獻[35]結合了基于回歸和基于優化的方法來進行3D 人體的姿態和形狀估計;文獻[36]直接預測每個頂點對應的一維熱力圖來代替直接回歸對應的三維人體相關參數。然而當分辨率降低時,以上的模型可能會失效。文獻[37]提出一種基于分辨率感知結構的自我監督網絡RSC-Net,能夠使用單個模型學習不同分辨率的三維體型和姿勢;文獻[38]利用特征金字塔從高分辨率特征中提取網格對齊數據反饋給參數進行修正。

圖2 SMPL 模型Fig.2 SMPL model

1.1.6 自頂向下的多人三維姿態估計

自頂向下的方法,通常依賴高性能的人體檢測方法和單人姿態估計方法,文獻[39]在檢測出的每個人體邊界框中對人體姿態進行定位,再使用一種姿態建議網絡進行優化。然而文獻[39]在固定數據集中表現良好,對于野外數據集的泛化性較為一般,文獻[40]在文獻[39]的基礎上增加了數據增強模塊,提高了模型的泛化能力。隨著圖像中人體數量的增加,計算復雜度和推理時間可能會變多,特別是在擁擠的場景中。文獻[41]依靠圖像級別的語義信息,來進行姿態估計,然后利用身體形狀、外觀參數和使用匈牙利匹配方法解決時間分配問題。以上方法沒有考慮到檢測出的邊界框估計深度可能與實際深度的順序不一致,預測的人體可能被放置在重疊的位置。文獻[42]引入了一種低分辨率的基于錨的表示方法,通過去除模糊錨點來解決重疊問題,再利用每個檢測框的相對坐標確定深度順序。此外,由于自頂向下的方法首先檢測到每個人的邊界框,場景中的全局信息可能會被忽略。文獻[43]引入一種分層多人序數關系的監督形式來解決自頂向下方法缺乏全局視角的問題。

1.1.7 自底向上的多人三維姿態估計

自底向上的方法具有線性計算和時間復雜度,與自頂向下的方法相比,自底向上方法的挑戰主要在于如何將不同人體的關鍵點分類。文獻[44]提出了具有可微分階段的多任務深度神經網絡(Muby-Net),它使用肢體評分模塊估計被檢測關節的候選運動學連接,再使用骨骼分組模塊將肢體組裝成骨骼。文獻[45]使用單級多人姿勢機對每個人體定義唯一的身份識別根關節點,利用分層結構化姿勢表示將關節點與根關節點組合,解決不同關節點與根關節點距離不一致問題。文獻[46]開發了一種基于距離的啟發式算法,用于在多人環境中連接關節。具體來說,從檢測到的即置信度最高的關節開始,根據三維歐氏距離選擇最近的關節連接剩余的關節。由于不使用人體檢測,自底向上的方法會受到尺度變化的影響,文獻[47]將自頂向下和自底向上的方法結合,提出了一種新型雙分支框架,自頂向下分支負責檢測圖像中的所有人,自底向上分支融入自頂向下分支中的檢測信息,負責融合歸一化的圖像塊,解決了由于檢測誤差引起的尺度變化問題。在處理多人交互產生的遮擋問題中,文獻[48]對絕對根節點地圖中每個人的遠近進行排序,從近到遠進行計算,避免重疊。而文獻[49]利用遮擋魯棒姿勢圖(occlusionrobust pose-maps,ORPM),將不同人的同一關節標定在一張定位圖上,并借助二維姿態的信息圈定每個人的位置。最后利用冗余策略生成無法在定位圖中標定的遮擋關節點。文獻[50]利用二維姿態作為先驗知識結合全局背景推斷遮擋關節來重建完整的三維姿態。單目圖像進行三維人體姿勢估計時,往往需要大量帶標記數據集。文獻[51]利用一些簡單的先驗知識,在不用任何標注的情況下,通過交叉、變換等操作在三維空間中生成新的三維骨架。文獻[52]將單人的三維骨骼隨機放置在一個三維網格中,通過生物力學專家提供的關節角度,限制合理的骨骼范圍,人工合成包含未知的目標分布的多人三維場景。

1.2 多目三維人體姿態估計

在單目環境下,遮擋是一個具有挑戰性的問題。在多目環境中,一個視圖中的遮擋部分可能會在其他視圖中可見,這個問題可以得到解決,如圖3。然而多目環境又產生了新的挑戰——如何匹配多個視角中的人物。文獻[53]使用二維姿態注釋作為監督,提出了一種新穎的弱監督編碼器-解碼器框架,來學習人體姿勢的幾何感知三維表示。具體地說,首先將源圖像和目標圖像映射成二維骨架圖,然后訓練編碼器-解碼器從源骨架合成目標骨架。文獻[54]在多路匹配算法中加入了時間信息。文獻[55]基于體素表達方式,提出了一種方法可以直接在三維空間進行推理,無需在二維圖像上進行任何硬決策。文獻[56]利用動態匹配模塊生成所有二維姿態對與相應的三維姿態,再從三維姿態中篩選正確結果。文獻[57]提出了回環約束,確保正確地匹配二維姿態。對極幾何是多視角匹配最常用的技術之一,文獻[58]在每個視角中檢測出關節點熱圖,再根據相機參數使用對極幾何進行視角匹配。然而在視角發生變化時,需要重新對模型訓練,文獻[59]提出了一種預訓練的多視角融合模型,將模型分解成兩個子模型,其中較大的模型被所有攝像機共享,另外一個輕量化模型則負責在相機姿態發生變化時,使用少量訓練圖像進行微調,再通過部署元學習框架對模型進行訓練,提高多視角融合的泛化能力。然而在擁擠環境下對極幾何仍然可能失效,文獻[60]提出了一種足部匹配方法。首先在多個視圖中找到腳的最佳匹配,然后利用人體運動鏈將腳對應擴展到其他關節。文獻[61]在沒有三維標注的情況下可以自動獲取人體姿態的三維標注,并用于微調預訓練的網絡。文獻[62]利用可見視圖中的特征來增強遮擋視圖中的特征,通過熱圖的稀疏性來解決兩個視圖之間的點對應關系。

圖3 多視點多人三維姿態估計Fig.3 3D poses estimation of multiple people from multiple views

多目三維人體姿態估計中,模型的推理時間也是考慮的重點。在對所有視圖進行二維姿態匹配時的計算復雜度會隨著攝像機數量的增加而激增,文獻[63]采用迭代處理策略,按照時間順序獲取視頻幀,并迭代地逐幀輸入,使得計算代價與相機的個數成線性關系。文獻[64]將每個視圖的圖像編碼為一個統一的潛在表示,從而將特征圖從攝像機視角中分離出來。作為一個輕量級的規范融合,這些二維表示被提升到三維姿勢使用基于GPU 的直接線性變換來加速處理。

自大規模運動捕捉數據集的引入以來,在三維姿態估計方面基于學習的方法,特別是深度學習的方法發展勢頭越來越迅猛。由于其表征學習能力,深度學習模型已經實現了前所未有的高精度。盡管它們取得了成功,但深度學習模型需要大量的數據進行訓練,而且數據的收集受到很大限制。文獻[65]利用大型動作捕捉數據集AMASS[66]來訓練基于視頻的人體姿態和形態的生成對抗網絡模型,來解決訓練數據不足的問題。為了減少對帶標記數據集的依賴,各種帶監督的方法被提出。文獻[67]利用投影多視圖一致性創建了一個新的半監督學習框架(multiviewconsistent semi-supervised learning,MCSS),MCSS 使用來自未注記、未校準的人體運動多視圖視頻中姿勢信息的相似性作為額外的弱監督信號來指導三維人體姿勢回歸。文獻[68]使用多視圖一致性實現弱監督訓練。文獻[53]從多視角的圖片信息中學習幾何表示,僅使用二維姿態注釋作為監督。文獻[69]提出了一種將多個權重共享神經網絡的輸出混合的自監督方法,利用多視圖一致性約束將觀察到的二維姿勢分解為底層三維姿勢和相機旋轉,可以從未標記的多視圖數據中學習單個圖像,進行三維估計姿態。然而,這些帶監督的方法除了需要二維真值之外,還需要各種形式的附加監督或多視圖設置中的相機參數,相比利用數據增強復雜了許多。文獻[70]提出了一種利用二維姿態和對極幾何來推理出三維姿態的方法,該方法從多視角圖片估計二維姿態,隨后利用對極幾何去獲取三維姿態用于訓練三維姿態估計。然而該方法依賴于預先定義的規則,如關節角度限制和運動學約束,限制了生成數據的多樣性,使得生成的模型難以推廣到更具挑戰性的野外場景。為了解決這一問題,文獻[71]提出了一種自動數據增強框架,該框架可以在訓練中不斷學習訓練結果,并反饋出相應強度的數據增強,將訓練姿態增強到更大的多樣性,從而提高訓練后的模型泛化能力。

2 基于其他輸入的三維人體姿態估計

單眼RGB 相機是三維人體姿態估計最常用的輸入設備,然而其無法簡單地獲取深度信息。引入慣性測量單元、RGB-D 攝像機等其他輸入設備能很好地克服這一問題。這促進了關于其他輸入設備的三維人體姿態估計的研究。

RGB-D 圖像也被稱為深度圖像,是指將從圖像采集器到場景中各點的距離作為像素值的圖像,它直接反映了物體可見表面的幾何形狀。在人體姿態估計中,RGB-D 圖像能清晰地顯示人體各個部位的深度信息。使用RGB-D 圖像作為輸入,文獻[72]同時重建詳細的人體幾何形狀、人體非剛性運動和人體內部形狀。文獻[73]通過捕獲全局空間和局部空間的上下文信息作為關節的局部回歸量,以集成的方式預測關節位置,增強泛化能力。文獻[74]將基于學習的三維人體恢復與非剛性人體融合相結合,生成精確的稀疏部分掃描。文獻[75]利用入射光準確地估計局部表面幾何形狀和反照率,使用光度學約束作為自我監督,實現詳細的表面幾何和高分辨率紋理估計。

IMU 是測量物體三軸姿態角以及加速度的裝置。人體姿態估計中慣性傳感器的使用能夠正確地估計那些在所有視角下都被遮擋的節點,如圖4。文獻[76]將單個手持相機和一組連接到身體四肢的慣性測量單元相結合進行姿態估計。文獻[77]通過融合IMU 數據和多視圖圖像來估計人類在三維空間中的姿勢。然而相機位置發生變化時,該方法需要對模型重新調參。文獻[78]利用一種幾何方法將多視角下的攝像機和可穿戴式的IMU 進行融合,使得攝像機的位置發生變化時,不需要對模型進行調整,只需知道相機參數即可。另外,這個方法也可以應用到沒有傳感器的場景,僅對多個攝像機的特征進行融合。

圖4 利用IMU 輔助的三維姿態估計Fig.4 3D pose estimation assisted by IMU

3 數據集與評價指標

3.1 三維姿態估計數據集

基于深度學習的人體姿態估計研究需要依賴大量數據來訓練模型,數據樣本量越大,越多樣性,越有利于訓練魯棒的人體姿態估計模型。為三維人體姿態估計數據集獲取準確的三維注釋是一項具有挑戰性的任務,需要像動作捕捉設備和可穿戴的慣性測量單元這樣的運動捕捉系統。由于這一需求,許多三維姿勢數據集是在受限的環境中創建的。表1列出了幾種廣泛使用的基于深度學習的三維姿態估計的國際標準數據集,介紹了數據集的樣本數量、數據集來源以及適用類型。

表1 三維姿態估計數據集Table 1 3D human pose estimation datasets

MPI-INF-3DHP 數據集[79]是一個三維人體姿勢估計數據集,由受約束的室內和復雜的室外場景組成。它記錄了8 名演員在14 個攝像機視圖內執行的8 項活動。它由從14 個攝像頭捕獲大于130 萬幀的圖片組成。除了一個人的室內視頻外,他們還提供MATLAB 代碼,通過混合分段的前景人類外觀來生成一個多人數據集MuCo-3DHP。通過提供的身體部分分割,研究人員還可以使用額外的紋理數據來交換衣服和背景。

GTA-IM 數據集[80]是一個GTA 室內活動數據集。由俠盜獵車手(GTA)電子游戲虛擬引擎從俠盜獵車手(GTA)電子游戲中收集。它包含100 萬個1 920×1 080 分辨率的RGB-D 幀,具有帶標注的98 個三維人體姿態關節點,涵蓋了各種動作,包括坐姿、走路、爬坡和開門。每個場景都包含多個設置,例如客廳、臥室和廚房,這些設置強調人與場景的交互。

NBA2K 數據集[81]包含一些NBA 運動員的人體網格和紋理數據,每一個運動員有大約1 000 個不同的動作。對于每個人體網格,還提供了包含臉、手指等35 個關鍵點的三維姿態和其對應的彩色圖片和相機參數。數據集包含27 個真實球星,但作者沒有權限公開這些包含NBA 運動員的數據,因此又構建了包含28 個虛擬運動員的合成數據集并重新訓練了整個框架,合成的運動員有著同樣的幾何和視覺質量。

AMASS 數據集[66]是一個大型開源三維運動捕捉數據集,包含40 h的運動數據,344個主題,超過11 000個動作。這個數據集將15 個不同的基于光學標記的人體運動捕捉數據集與SMPL 模型[6]統一為人體骨架和表面網格的標準擬合表示。在這個豐富的數據集中,每個身體關節有3 個旋轉自由度,這些自由度用指數坐標參數化。

3DPW 數據集[82]是在自然環境中用一臺手持相機拍攝的。該方法利用附著在被試肢體上的IMU 圖像,利用視頻慣性姿態估計三維標注。這個數據集由60 個視頻片段、超過51 000 幀組成,其中包括在城市里散步、上樓梯、喝咖啡或坐公共汽車等日?;顒印?DPW 數據集[82]包含了大量的三維注釋,包括二維/三維姿態注釋、三維身體掃描和SMPL 模型[6]參數。然而,在一些擁擠的場景中,3DPW 數據集[82]只提供目標人的標簽。

HumanEva數據集[83]由HumanEva-I和HumanEva-II兩個子集構成。HumanEva-I 數據集包含與三維身體姿勢同步的7 視圖視頻序列(4 個灰度和3 個顏色)。在3 m×2 m 的捕捉區域內,有4 名受試者身上執行步行、慢跑、手勢、投球和接球、拳擊6 種常見動作。HumanEva-II 是HumanEva-I 測試數據集的擴展,包含兩個執行動作組合的受試者。

Human3.6M 數據集[5]是在室內實驗室中收集的,它包含5 名女性和6 名男性穿著普通的衣服進行的17 項日?;顒樱ㄓ懻摗⑽鼰?、拍照、通話等。它包含360 萬張三維人體姿勢圖像和來自4 個不同視角的相應圖像。主要拍攝設備包括4 臺數碼攝像機、1臺飛行時間傳感器、10 臺同步工作的運動攝像機。拍攝區域約為4 m×3 m。提供的標簽包括三維關節位置、關節角度、人物邊界框以及每個演員的三維激光掃描。

CMU Panoptic 數據集[84]是一個大規模的多視圖和多人三維姿態數據集。使用包含480 個VGA 攝像機視圖、31 個高清視圖、10 個RGB-D 傳感器和基于硬件的同步系統進行無標記運動捕捉的。它包含65個片段(5.5 h)的社交互動和150 萬的三維關鍵點。標注包括三維關鍵點、云點、光流等。

3.2 三維姿態估計評價指標

平均關節位置誤差(mean per joint position error,MPJPE),由預測關節點與對應實際關節點的歐氏距離決定。MPJPE 通常被稱為Protocol#1,它還有兩個變體P-MPJPE(Protocol#2)和N-MPJPE(Protocol#3),P-MPJPE 是先進行旋轉等處理向實際值對齊再進行MPJPE,N-MPJPE 僅在規模上進行對齊,用于半監督實驗。

關鍵點的正確率(percentage of correct keypoints,PCK)用來衡量身體關節定位的準確性。如果目標關節點落在實際關節點預設像素閾值范圍內,則認為是定位正確的。PCKh@0.5 則是對PCK 的一個輕微的修改。采用測試人員頭部長度的50%作為匹配閾值。通過改變閾值百分比,可以生成AUC(area under curve),以進一步評估不同的姿態估計算法的能力。

4 模型對比結果

本章展示部分模型在Human3.6M 數據集[5]、Campus 數據集[85]和Shelf[86]數據集上的結果,如表2、表3。Human3.6M 數據集共有11 個子數據集,利用第1、5、6、7、8 子集作為訓練集,第9、11 子集作為測試集。表4 使用Campus 數據集和Shelf 數據集作為測試集。

從表2、表3 和表4 的模型對比結果可以看出,三維姿態估計方法的性能在Human3.6M 數據集[5]上提升得很快。單目三維姿態估計中,由于二維提升到三維方法使用了高性能的二維姿態估計器,導致使用直接估計法的模型[8-9,27]精度普遍低于使用二維提升到三維方法的模型[16,25-26,34-35,38,51]精度。其中文獻[25-26]利用了時間信息,使得模型性能在二維提升到三維方法中較為突出。

表2 三維姿態估計在Human3.6M 數據集上的Protocol#1 結果Table 2 Protocol#1 result of 3D human pose estimation on Human3.6M 單位:mm

表3 三維姿態估計在Human3.6M 數據集上的Protocol#2 結果Table 3 Protocol#2 result of 3D human pose estimation on Human3.6M 單位:mm

表4 三維姿態估計在Campus數據集和Shelf數據集上的結果Table 4 Result of 3D human pose estimation on Campus and Shelf 單位:mm

多目三維姿態估計由于多視角視圖輸入,遮擋和深度模糊問題可以得到有效緩解,模型[53,58-59,64]的精度一般高于單目三維姿態估計方法。隨著各類監督學習和數據增強手段[67,69-70]的引入,數據集不足問題正在被逐漸解決,模型的跨數據集泛化性也在逐步提升。

5 問題與展望

近年來,三維人體姿態估計算法已取得顯著的成果,但仍然存在許多問題與挑戰:

(1)從二維映射到三維產生的深度模糊性和不適定性問題。二維人體關鍵點估計的微小誤差可能會在三維空間中產生重大影響,從數據輸入的角度提升估計模型效果是一個不錯的選擇。例如文獻[87]從二維關鍵點優化入手,利用可靠的二維輸入,提升了模型性能。文獻[76-78]可穿戴傳感器的加入,使得三維關鍵點在遮擋條件下也能被很好捕捉。

(2)缺少可供深度學習訓練的帶標注數據集數據。目前大多三維人體姿態數據集都是在室內環境或合成場景中捕捉采集的,無法完全模擬真實室外環境,導致訓練的姿態估計模型泛化能力較差。數據增強是解決缺少數據集最直接的手段[70-71],除了數據增強、半監督和弱監督等學習方法,文獻[53,67-69]可以有效降低網絡模型訓練對三維人體姿態數據的需求。

(3)人體姿態結構的復雜性。靈活的身體構造、表示復雜的關節點間關系和高自由度肢體,這可能會導致自我閉塞或罕見、復雜的姿勢。文獻[68]等方法轉換角度,從人體外觀入手,解決人體復雜性的問題。

(4)實際應用困難。速度是產品落地中需要重點考慮的問題。目前大部分研究都是在GPU 做到接近實時的水平,然而很多應用場景需要在端設備上實現具體應用,例如在手機上實現實時高效的居家運動姿態檢測。

目前三維人體姿態估計的研究大多集中在以單模態輸入為基礎,然而單一模態的信息局限性限制了輸入數據的精度和信息多樣性。多模態輸入利用其多種類信息的獨特優勢,結合多模態特征融合,可以使得采集到的數據更加精準和多樣,為模型學習提供更多有價值的信息。從IMU 和深度攝像機的使用可以看出,多模態輸入恰好彌補了三維人體姿態估計的模型訓練對精確輸入數據的要求。在未來的研究中,基于多模態的三維人體姿態估計是一個值得研究的部分。

6 小結

三維人體姿態估計作為近年來計算機視覺的研究熱點,在運動分析[1]、虛擬現實[2]、醫療輔助[3]、電影制作[4]等領域都取得了廣泛的應用。本文對近年來基于深度學習的三維人體姿態估計算法進行了回顧,并對相關方法進行了分析與對比;最后探討了三維人體姿態估計目前所面臨的挑戰以及未來發展趨勢。

猜你喜歡
深度方法模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美成人午夜视频免看| 亚洲乱伦视频| 欧美自慰一级看片免费| 麻豆国产精品| 激情国产精品一区| 97综合久久| 国产原创演绎剧情有字幕的| 人妻丰满熟妇av五码区| 亚洲综合网在线观看| 久久国产黑丝袜视频| 午夜国产精品视频| 国产日韩久久久久无码精品| 国产激情在线视频| 在线免费不卡视频| 久久永久视频| 国产第三区| 欧美成人日韩| a亚洲天堂| 国产精品网拍在线| 成人精品免费视频| 久久情精品国产品免费| 久久久久亚洲av成人网人人软件| 亚洲三级电影在线播放| 四虎精品国产永久在线观看| 久久伊人久久亚洲综合| 国产人成在线视频| 亚洲国产一区在线观看| 日韩AV无码免费一二三区| 亚洲熟妇AV日韩熟妇在线| 国产精品浪潮Av| 色丁丁毛片在线观看| 丁香五月激情图片| 亚洲色图欧美一区| 亚洲欧美国产视频| 天天综合色网| 人妻中文久热无码丝袜| 婷婷综合缴情亚洲五月伊| 亚洲综合香蕉| 欧美成人aⅴ| 欧美中文字幕第一页线路一| 凹凸精品免费精品视频| 欧美日韩免费观看| 欧美日本在线观看| 国产系列在线| 成人综合在线观看| 欧美三级视频在线播放| 免费在线a视频| 精品国产电影久久九九| 色噜噜狠狠狠综合曰曰曰| 日本午夜在线视频| 国产精品综合久久久| 精品国产福利在线| 国产理论一区| 91精品国产麻豆国产自产在线| 一区二区偷拍美女撒尿视频| 亚洲中文制服丝袜欧美精品| 福利视频一区| 国产一在线观看| 国产自在线播放| 国产高潮视频在线观看| 亚洲天堂网站在线| 日本午夜影院| 亚洲欧洲自拍拍偷午夜色| 久久a级片| 91伊人国产| 老司机午夜精品视频你懂的| 青青草国产精品久久久久| 最新痴汉在线无码AV| 亚洲av片在线免费观看| 麻豆精品在线| 亚洲一区二区日韩欧美gif| 国产一区免费在线观看| 极品尤物av美乳在线观看| 55夜色66夜色国产精品视频| 成人在线视频一区| 精品撒尿视频一区二区三区| 午夜国产小视频| 国产视频一区二区在线观看| аⅴ资源中文在线天堂| 2020亚洲精品无码| 国产精品福利社| 97视频在线精品国自产拍|