999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源圖像弱監(jiān)督學(xué)習(xí)的3D人體姿態(tài)估計(jì)

2020-01-02 09:08:00蔡軼珩王雪艷胡紹斌劉嘉琦
關(guān)鍵詞:深度模型

蔡軼珩,王雪艷,胡紹斌,劉嘉琦

(北京工業(yè)大學(xué) 信息學(xué)部,北京100124)

基于圖像的人體姿態(tài)估計(jì)是指獲得給定圖像中人體各部位相對位置信息的過程,可廣泛用于視頻監(jiān)控、行為識別及人機(jī)交互等多方面領(lǐng)域[1-3]。

目前,使用單一的彩色圖像或深度圖像進(jìn)行人體姿態(tài)估計(jì)均已取得了一定的成果[4-8]。相對來說,由于彩色圖像更易獲得,所以針對單一彩色圖像的人體姿態(tài)估計(jì)的研究更為廣泛[9-13],可供利用的公開數(shù)據(jù)集也更為充足,如用于2D人體姿態(tài)估計(jì)研究的LSP[14]和MPII[15],以及用于3D人體姿態(tài)估計(jì)的Human 3.6M[16]等。而對于深度圖像,由于其記錄的是深度相機(jī)到目標(biāo)人體之間的距離信息,不包含顏色及紋理細(xì)節(jié)等信息,因此,基于深度圖像的3D人體姿態(tài)估計(jì)方法,一方面不易因人體著裝、膚色和光照等復(fù)雜外界環(huán)境的變化而受到影響,另一方面使用該圖像在保護(hù)用戶隱私方面也具有很好的優(yōu)勢。但由于深度相機(jī)對光照、背景等較為敏感,深度圖像獲取的條件較為嚴(yán)苛。現(xiàn)有的深度圖像數(shù)據(jù)集一般是在實(shí)驗(yàn)室環(huán)境下拍攝獲得的,其姿態(tài)變化有限。而關(guān)節(jié)點(diǎn)標(biāo)簽基本采用先相機(jī)標(biāo)定后人工檢錯(cuò)的方式獲得[8]。由于人工檢錯(cuò)仍存在隨機(jī)性等問題,因而很少有公開的深度圖像數(shù)據(jù)集可以提供充足且準(zhǔn)確的3D關(guān)節(jié)點(diǎn)標(biāo)簽。而為獲得較為準(zhǔn)確的深度圖像3D關(guān)節(jié)點(diǎn)標(biāo)簽,需要研究者準(zhǔn)備訓(xùn)練樣本及標(biāo)簽,使得研究成本增加,同時(shí)也限制了深度圖像在3D姿態(tài)估計(jì)領(lǐng)域的研究進(jìn)程。因此,對現(xiàn)有缺乏準(zhǔn)確深度標(biāo)簽的深度圖像數(shù)據(jù)集進(jìn)行研究,提出可行的算法,實(shí)現(xiàn)對深度圖像的3D人體姿態(tài)估計(jì)是值得探索與鼓勵(lì)的。

為此,本文提出了一種端到端的多源圖像弱監(jiān)督學(xué)習(xí)方法。該方法利用多源圖像融合訓(xùn)練的方法解決深度圖像姿態(tài)單一引起的模型泛化能力不高的問題,同時(shí)使用弱監(jiān)督學(xué)習(xí)技術(shù)來解決標(biāo)簽不足的問題,并對網(wǎng)絡(luò)中的殘差模塊進(jìn)行改進(jìn),提高姿態(tài)估計(jì)的準(zhǔn)確率。

1 相關(guān)方法

在深度學(xué)習(xí)領(lǐng)域,基于圖像的2D或3D人體姿態(tài)估計(jì)均已取得一定的成果。其中,對于單一深度圖像來說,在2D人體姿態(tài)估計(jì)上,文獻(xiàn)[3]采用MatchNet[17]計(jì)算全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)預(yù)測的關(guān)節(jié)區(qū)域和模板之間相似度的方法,并結(jié)合相鄰關(guān)節(jié)之間的配置關(guān)系,來達(dá)到優(yōu)化關(guān)節(jié)點(diǎn)位置的目的。文獻(xiàn)[18]介紹了一種基于模型的遞歸匹配(MRM)人體姿態(tài)的新方法,先對深度圖像進(jìn)行預(yù)處理以獲得個(gè)性化參數(shù),再使用模板匹配和線性擬合來估計(jì)人體骨架信息。在3D人體姿態(tài)估計(jì)上,文獻(xiàn)[8]采用長短期記憶網(wǎng)絡(luò)架構(gòu)(Long Short-Term Memory,LSTM),學(xué)習(xí)局部視點(diǎn)不變特征,并利用自頂向下的錯(cuò)誤反饋機(jī)制,糾正姿態(tài)位置,從而獲得良好的3D人體姿態(tài)估計(jì),但該方法采用強(qiáng)監(jiān)督學(xué)習(xí)的方式完成3D人體姿態(tài)估計(jì),其訓(xùn)練樣本及標(biāo)簽為研究者自行準(zhǔn)備,研究成本較高,同時(shí)也存在訓(xùn)練樣本關(guān)節(jié)點(diǎn)標(biāo)注不準(zhǔn)的問題。

對于彩色圖像的研究,在2D人體姿態(tài)估計(jì)上,文獻(xiàn)[11]提出卷積姿態(tài)機(jī)器的方法,利用多階段聯(lián)合訓(xùn)練的方式,充分學(xué)習(xí)圖像中的特征信息,來提高網(wǎng)絡(luò)的姿態(tài)回歸結(jié)果。文獻(xiàn)[12]則提出了沙漏網(wǎng)絡(luò)結(jié)構(gòu),利用多尺度特征來識別姿態(tài),從而提高估計(jì)姿態(tài)的準(zhǔn)確性。而對于3D人體姿態(tài)估計(jì)的研究方法,文獻(xiàn)[19]提出強(qiáng)監(jiān)督學(xué)習(xí)技術(shù)訓(xùn)練3D回歸模型的方法。文獻(xiàn)[1,13,20-23]采用了2D人體姿態(tài)估計(jì)結(jié)果輔助3D回歸模型訓(xùn)練的方法。其中,文獻(xiàn)[1]證明了該方法相較于直接訓(xùn)練3D回歸模型,姿態(tài)估計(jì)準(zhǔn)確率更高,而文獻(xiàn)[21]則介紹了一種分別學(xué)習(xí)2D回歸模型和深度回歸模型的網(wǎng)絡(luò)框架;不同于文獻(xiàn)[1,20-23]分階段分別訓(xùn)練3D回歸模型的方法,文獻(xiàn)[13]針對室外人體姿態(tài)數(shù)據(jù)庫缺乏深度標(biāo)簽的問題,提出一種端到端聯(lián)合訓(xùn)練2D模型和深度模型的網(wǎng)絡(luò)結(jié)構(gòu),該方法充分利用了實(shí)驗(yàn)室環(huán)境下充足且準(zhǔn)確的標(biāo)簽數(shù)據(jù)及室外環(huán)境下的復(fù)雜人體姿態(tài)信息,通過該弱監(jiān)督學(xué)習(xí)技術(shù),以端到端的方式,獲得較好的室外圖像3D人體姿態(tài)估計(jì)。最近,文獻(xiàn)[24]提出一個(gè)Graph-CNN網(wǎng)絡(luò),在網(wǎng)絡(luò)中使用SMPL模板網(wǎng)格來回歸人體姿態(tài)。文獻(xiàn)[25]提出了一種基于單目圖像的3D人體姿態(tài)估計(jì)的全卷積網(wǎng)絡(luò),使用肢體方向作為一種新的3D表示方法。

從上述研究可以發(fā)現(xiàn),研究者基本采用強(qiáng)監(jiān)督學(xué)習(xí)技術(shù)來完成對圖像的3D人體姿態(tài)估計(jì),利用充足的3D關(guān)節(jié)點(diǎn)標(biāo)注信息來輔助回歸模型的訓(xùn)練。但當(dāng)訓(xùn)練樣本中缺乏標(biāo)簽時(shí),上述強(qiáng)監(jiān)督學(xué)習(xí)方法不再適用,而弱監(jiān)督學(xué)習(xí)技術(shù)的優(yōu)點(diǎn)便顯露出來。基于弱監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)模型不要求訓(xùn)練樣本提供充足的標(biāo)簽,即可完成對回歸模型的訓(xùn)練,可有效解決本文深度圖像缺乏深度標(biāo)簽的問題。因此,基于上述研究背景,受文獻(xiàn)[13]的啟發(fā),本文提出了一個(gè)基于多源圖像弱監(jiān)督學(xué)習(xí)的3D人體姿態(tài)估計(jì)方法。該方法使用多源圖像作為訓(xùn)練樣本,利用彩色圖像姿態(tài)多變且3D標(biāo)簽充足的特點(diǎn),來彌補(bǔ)深度圖像姿態(tài)單一和缺乏深度標(biāo)簽的問題;同時(shí)為提高姿態(tài)估計(jì)準(zhǔn)確性,還對現(xiàn)有的殘差模塊進(jìn)行改善設(shè)計(jì),從而實(shí)現(xiàn)對深度圖像的3D人體姿態(tài)估計(jì)。

2 多源圖像弱監(jiān)督學(xué)習(xí)方法

面對深度圖像缺乏準(zhǔn)確深度標(biāo)簽的問題,可利用實(shí)驗(yàn)室環(huán)境下獲取充足的彩色圖像及其準(zhǔn)確的人體運(yùn)動(dòng)關(guān)節(jié)點(diǎn)深度信息,輔助深度圖像學(xué)習(xí)到相應(yīng)的人體關(guān)節(jié)點(diǎn)深度信息,以實(shí)現(xiàn)對深度圖像的3D人體姿態(tài)估計(jì)。基于上述研究思想,本文提出了一個(gè)基于多源圖像端到端弱監(jiān)督的3D人體姿態(tài)估計(jì)框架,通過多源圖像混合訓(xùn)練的方式,完成對缺乏標(biāo)注的深度圖像3D回歸模型訓(xùn)練任務(wù)。

2.1 多源圖像3D人體姿態(tài)估計(jì)框架

本文基于多源圖像弱監(jiān)督學(xué)習(xí)的整體架構(gòu)如圖1所示。訓(xùn)練樣本由多源圖像構(gòu)成,包含帶2D標(biāo)簽的深度圖像和彩色圖像,以及帶3D標(biāo)簽的彩色圖像。網(wǎng)絡(luò)結(jié)構(gòu)分為2D回歸子網(wǎng)絡(luò)模塊和深度回歸子網(wǎng)絡(luò)模塊兩部分。

圖1 3D人體姿態(tài)估計(jì)整體框架Fig.1 Overall framework of 3D human pose estimation

整個(gè)框架的具體訓(xùn)練流程如下:①將多源圖像訓(xùn)練樣本作為網(wǎng)絡(luò)的輸入;②利用所有帶2D標(biāo)簽的訓(xùn)練樣本訓(xùn)練2D回歸子網(wǎng)絡(luò)模塊,得到2D回歸模型;③帶3D標(biāo)簽的彩色圖像經(jīng)過2D回歸子網(wǎng)絡(luò)模塊輸出熱圖特征,將其作為深度回歸子網(wǎng)絡(luò)模塊的輸入進(jìn)行訓(xùn)練,得到深度回歸模型;④將2個(gè)回歸模型的結(jié)果進(jìn)行連接,從而完成對3D回歸模型的訓(xùn)練任務(wù)。

本文的網(wǎng)絡(luò)結(jié)構(gòu)分為2D回歸子網(wǎng)絡(luò)模塊和深度回歸子網(wǎng)絡(luò)模塊兩部分,具體結(jié)構(gòu)如圖2所示。其中,2D回歸子網(wǎng)絡(luò)模塊由2個(gè)沙漏模塊構(gòu)成,通過重復(fù)使用自頂向下和自底向上的方式對2D關(guān)節(jié)點(diǎn)坐標(biāo)位置進(jìn)行推導(dǎo),在每個(gè)沙漏模塊后均使用了熱圖對關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行預(yù)測,即在網(wǎng)絡(luò)結(jié)構(gòu)中引入了中繼監(jiān)督技術(shù),可有效避免訓(xùn)練過程中,由于網(wǎng)絡(luò)層數(shù)過深而導(dǎo)致的梯度消失問題,加快網(wǎng)絡(luò)模型收斂速度;同時(shí)由于熱圖中包含了關(guān)節(jié)點(diǎn)之間的相互關(guān)系,因此,將熱圖預(yù)測結(jié)果作為下一個(gè)沙漏模塊的輸入特征繼續(xù)訓(xùn)練,有助于提高整體網(wǎng)絡(luò)結(jié)構(gòu)的回歸性能。而深度回歸子網(wǎng)絡(luò)模塊則采用文獻(xiàn)[13]網(wǎng)絡(luò)設(shè)計(jì),由殘差模塊、池化層及線性回歸器構(gòu)成,緊接在2D回歸子網(wǎng)絡(luò)模塊的后面,使其可利用2D回歸子網(wǎng)絡(luò)模塊中充分學(xué)習(xí)到的特征作為輸入進(jìn)行訓(xùn)練,同時(shí)由于2D回歸子網(wǎng)絡(luò)模塊的輸出特征中包含關(guān)節(jié)點(diǎn)熱圖結(jié)果,因而使得該模塊也可充分利用熱圖中關(guān)節(jié)點(diǎn)相互關(guān)系,有助于在弱監(jiān)督學(xué)習(xí)下獲得更為準(zhǔn)確的關(guān)節(jié)點(diǎn)深度值。

在網(wǎng)絡(luò)測試階段,將測試圖像輸入到本文網(wǎng)絡(luò)中,2D回歸模型輸出各關(guān)節(jié)點(diǎn)的預(yù)測熱圖,即2D關(guān)節(jié)點(diǎn)坐標(biāo),而深度回歸模型則對上述關(guān)節(jié)點(diǎn)的熱圖進(jìn)行回歸,用于預(yù)測出關(guān)節(jié)點(diǎn)的深度值對2個(gè)模型回歸出來的結(jié)果進(jìn)行連接,即可完成對測試圖像的3D人體姿態(tài)估計(jì)。

為改善現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)節(jié)點(diǎn)回歸性能,本文對上述網(wǎng)絡(luò)結(jié)構(gòu)提出改進(jìn)設(shè)計(jì),使得本文方法可以在提高回歸模型準(zhǔn)確度的同時(shí),降低網(wǎng)絡(luò)的訓(xùn)練時(shí)間及存儲空間。

圖2 基于弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.2 Network structure framework based on weakly-supervised learning

2.2 殘差模塊設(shè)計(jì)

一個(gè)較好的回歸網(wǎng)絡(luò)結(jié)構(gòu)能在較少的訓(xùn)練時(shí)間內(nèi)獲得較優(yōu)的關(guān)節(jié)點(diǎn)回歸精度。但模型的訓(xùn)練時(shí)間及回歸準(zhǔn)確度與卷積網(wǎng)絡(luò)的構(gòu)成有很強(qiáng)的關(guān)聯(lián)性。若適當(dāng)?shù)丶由罹W(wǎng)絡(luò)深度及特征維度,雖可獲得較好的回歸精度,但網(wǎng)絡(luò)參數(shù)也大幅增加,同時(shí)也會加大模型的存儲空間及訓(xùn)練時(shí)間;而若簡單的降低網(wǎng)絡(luò)深度及特征維度,雖可降低訓(xùn)練時(shí)間,但模型性能則會隨之下降。因此,本文針對上述問題,為提高網(wǎng)絡(luò)回歸模型的準(zhǔn)確度,同時(shí)降低模型訓(xùn)練時(shí)間,對網(wǎng)絡(luò)結(jié)構(gòu)的殘差模塊進(jìn)行了改善。

圖2為本文基于弱監(jiān)督學(xué)習(xí)的3D人體姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)框架,其中每個(gè)矩形塊(C1,…,C4,C1a,…,C4a,C1b,…,C4b)均表示的是2個(gè)殘差模塊,因而可以說本文網(wǎng)絡(luò)結(jié)構(gòu)基本是由殘差模塊構(gòu)成的。而現(xiàn)有的殘差模塊(見圖3(a)),其輸入和輸出特征維度均為256,通過交叉使用1×1、3×3和1×1的卷積進(jìn)行充分的特征提取,并通過Shortcut連接,將卷積之后的特征和原始輸入特征進(jìn)行融合,使得殘差模塊可在提取較高層次特征的同時(shí),又保留了原有層次的信息,這一多尺度特征信息在精準(zhǔn)人體關(guān)節(jié)點(diǎn)預(yù)測方面,提供了較好的幫助[12-13]。但較高的特征維度也引起了訓(xùn)練時(shí)間變長,因此本文降低了殘差模塊的輸入維度,從256降為128,降低特征維度后,1×1卷積的特征重組效果則會大大降低,因而,本文將3×3的卷積替換了1×1卷積,使得網(wǎng)絡(luò)可對輸入特征進(jìn)一步提取,從而彌補(bǔ)特征維度降低造成的性能損失,甚至提高網(wǎng)絡(luò)的回歸精度,本文改進(jìn)的殘差模塊如圖3(b)所示。

圖3 殘差模塊Fig.3 Residual module

2.3 3D人體姿態(tài)估計(jì)

2.3.1 2D回歸子網(wǎng)絡(luò)模塊

本文利用沙漏網(wǎng)絡(luò)可提取多尺度特征的特點(diǎn),采用沙漏網(wǎng)絡(luò)作為2D回歸子網(wǎng)絡(luò)模塊訓(xùn)練2D回歸模型,用于預(yù)測人體各關(guān)節(jié)點(diǎn)的位置坐標(biāo),以實(shí)現(xiàn)對圖像的2D人體姿態(tài)估計(jì)。由于深度圖像是在實(shí)驗(yàn)室環(huán)境下獲取的,姿態(tài)單一且有限,因此,為提高2D回歸模型的泛化能力,本文提出同時(shí)使用深度圖像和彩色圖像的混合多源圖像的方式來訓(xùn)練2D回歸模型。即輸入數(shù)據(jù)為帶2D標(biāo)簽的多源圖像,輸出一系列J(J=16)的低分辨率的關(guān)節(jié)點(diǎn)熱圖。

由于深度圖像記錄的是目標(biāo)距離相機(jī)的距離信息,不包含顏色及紋理信息,若直接將深度圖像和彩色圖像混合作為網(wǎng)絡(luò)的輸入,會對模型訓(xùn)練造成干擾。因此,需對圖像做預(yù)處理。考慮到深度圖像在視覺上也可看做是灰度圖像,因此使用加權(quán)平均法將訓(xùn)練所需的彩色圖像進(jìn)行灰度處理,去除里面的顏色干擾信息,減少由于訓(xùn)練樣本變化而引起的模型精度損失,提高模型的回歸精度。

圖4 ITOP數(shù)據(jù)集的2D人體姿態(tài)估計(jì)及其對應(yīng)的熱圖結(jié)果Fig.4 Two-dimensional human pose estimation and corresponding heat-map results in ITOP dataset

沙漏網(wǎng)絡(luò)訓(xùn)練的輸入為上述預(yù)處理后的所有帶2D標(biāo)簽的混合多源圖像,圖像分辨率為256×256,輸出為預(yù)測到的各關(guān)節(jié)點(diǎn)的熱圖,圖像分辨率為64×64,其關(guān)節(jié)點(diǎn)坐標(biāo)為熱圖中概率最高的點(diǎn)。2D估計(jì)效果及其對應(yīng)熱圖結(jié)果如圖4所示,(a)、(c)為深度圖像,(b)、(d)為預(yù)測的熱圖結(jié)果,從左到右,從上到下依次為:右腳踝、右膝蓋、右胯、左胯、左膝蓋、左腳踝、臀部、胸部、脖子、頭、右手腕、右手肘、右肩膀、左肩膀、左手肘、左手腕,共16個(gè)關(guān)節(jié)點(diǎn)熱圖,在熱圖中概率最高,也就是亮度最高的點(diǎn)即為預(yù)測的該關(guān)節(jié)點(diǎn)坐標(biāo)位置。

本文2D回歸模型訓(xùn)練的loss函數(shù)使用L2距離[13],其公式如下:

2.3.2 深度回歸子網(wǎng)絡(luò)模塊

此階段的主要目標(biāo)是獲得人體各關(guān)節(jié)點(diǎn)的深度值,而現(xiàn)有的針對無深度標(biāo)簽的數(shù)據(jù),一般是采用模板匹配的方式預(yù)測關(guān)節(jié)點(diǎn)深度值。但這種方法未考慮圖像中人體信息在深度值預(yù)測的重要性。

本文在一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中構(gòu)建了2個(gè)回歸子網(wǎng)絡(luò),并將深度回歸子網(wǎng)絡(luò)模塊接在2D回歸子網(wǎng)絡(luò)模塊的后面,將2D回歸子網(wǎng)絡(luò)模塊中學(xué)習(xí)到的包含語義信息及多尺度信息的輸出特征作為輸入繼續(xù)訓(xùn)練,可有效利用端到端網(wǎng)絡(luò)訓(xùn)練的優(yōu)勢,充分利用權(quán)重共享功能從而獲得更好的姿態(tài)估計(jì)結(jié)果。

深度回歸網(wǎng)絡(luò)訓(xùn)練收斂的loss函數(shù)使用L2距離,其公式如下:

3 實(shí)驗(yàn)及結(jié)果分析

在本節(jié)中,為探討本文弱監(jiān)督學(xué)習(xí)姿態(tài)估計(jì)方法的預(yù)測性能,分別在深度圖像數(shù)據(jù)集ITOP[8]和K2HGD[3]、彩色圖像數(shù)據(jù)集MPII[15]和Human 3.6M[16]上進(jìn)行訓(xùn)練及測試,并與相關(guān)姿態(tài)估計(jì)模型進(jìn)行對比[13],用以評估本文方法的性能。

3.1 數(shù)據(jù)庫

3.1.1 深度圖像數(shù)據(jù)庫

ITOP[8]是由20個(gè)人各做15個(gè)動(dòng)作序列拍攝而成的,包含側(cè)拍和頂拍2個(gè)視角的圖像,其標(biāo)簽使用Kinect自帶的SDK預(yù)測,雖然已通過人工檢測的方式檢錯(cuò),但3D標(biāo)簽標(biāo)定仍存在較大誤差。因此本文僅使用經(jīng)過前期標(biāo)簽檢錯(cuò)篩查后的側(cè)拍圖像數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn),其中訓(xùn)練樣本中僅使用了提供的2D關(guān)節(jié)點(diǎn)標(biāo)簽,約11000張,而測試圖像則使用了3D標(biāo)簽糾正后的圖像數(shù)據(jù),約2 979張,用于判斷本文回歸模型3D關(guān)節(jié)點(diǎn)的預(yù)測性能。

K2HGD[3]由30個(gè)人拍攝獲得,共有10萬張深度圖像,提供相應(yīng)的2D關(guān)節(jié)點(diǎn)標(biāo)簽。本文使用其中約6萬張作為訓(xùn)練圖像。

3.1.2 彩色圖像數(shù)據(jù)庫

MPII[15]是一個(gè)大型室外姿態(tài)估計(jì)數(shù)據(jù)庫,提供相應(yīng)的2D關(guān)節(jié)點(diǎn)標(biāo)簽。本文使用約25 000張圖像進(jìn)行訓(xùn)練。

Human 3.6M[16]由11個(gè)人各做17組動(dòng)作,由4個(gè)角度上拍攝獲得,共包含有360萬張帶3D標(biāo)簽的彩色圖像,本文使用其中30萬張圖像作為訓(xùn)練圖像,2 874張圖像作為測試圖像。

3.2 評價(jià)標(biāo)準(zhǔn)

為評估回歸的關(guān)節(jié)點(diǎn)坐標(biāo)準(zhǔn)確性,本文使用PDJ(Percentage of Detected Joints)[3]作為評定標(biāo)準(zhǔn),若關(guān)節(jié)預(yù)測坐標(biāo)與標(biāo)簽之間的誤差與歸一化軀干長度的比值在一定閾值內(nèi),便可將其判定預(yù)測正確。使用閾值不同,檢測到的關(guān)節(jié)點(diǎn)準(zhǔn)確率也不同。

3.3 訓(xùn)練細(xì)節(jié)

本文訓(xùn)練平臺為Torch7[22],并基于公開代碼[12-13]構(gòu)建本文2D回歸子網(wǎng)絡(luò)模塊及深度回歸子網(wǎng)絡(luò)模塊,如圖2所示。輸入圖像分辨率為256×256,2D回歸子網(wǎng)絡(luò)模塊的輸出為預(yù)測的人體各關(guān)節(jié)點(diǎn)的熱圖,分辨率為64×64,其熱圖概率值最高的點(diǎn),作為此關(guān)節(jié)點(diǎn)的2D坐標(biāo)預(yù)測結(jié)果,同時(shí)深度值由深度回歸模型輸出獲得。

為達(dá)到快速訓(xùn)練的目的,本文網(wǎng)絡(luò)結(jié)構(gòu)的主體由2個(gè)沙漏模塊串聯(lián)而成。在訓(xùn)練時(shí),采用的學(xué)習(xí)率為2.5×10-4,mini-batch的尺寸為6。為獲得更好的3D回歸模型準(zhǔn)確率,本文分2個(gè)階段訓(xùn)練3D 回歸網(wǎng)絡(luò),每個(gè)階段均迭代了28萬batch[13]。第1階段,利用混合多源圖像僅訓(xùn)練2D回歸模型,第2階段則以端到端的方式,訓(xùn)練3D回歸模型。其中,2D回歸模塊的參數(shù)采用第1階段的2D回歸模型的權(quán)重進(jìn)行初始化,在繼續(xù)訓(xùn)練2D回歸模型的同時(shí),利用帶深度標(biāo)簽的彩色圖像更新深度回歸子網(wǎng)絡(luò)模塊的權(quán)重參數(shù),從而訓(xùn)練獲得更好的3D回歸模型。

由于存在訓(xùn)練圖像中包含多個(gè)目標(biāo)人體的現(xiàn)象,因此,本文在訓(xùn)練前,首先將樣本進(jìn)行預(yù)處理,對于每張訓(xùn)練及測試樣本,均以人體臀部為中心進(jìn)行裁剪,將目標(biāo)人體放在圖像的中間,其裁剪尺寸比在1.3~1.7之間,并歸一化圖像大小分辨率為256×256,同時(shí)對圖像做加權(quán)平均的灰度處理,盡量保證訓(xùn)練圖像的一致性。為提高模型的泛化能力,本文對數(shù)據(jù)進(jìn)行了擴(kuò)充處理,即對樣本進(jìn)行左右翻轉(zhuǎn)及旋轉(zhuǎn)處理,旋轉(zhuǎn)角度在-6°~6°之間隨機(jī)選擇。本文訓(xùn)練及測試樣本的標(biāo)簽統(tǒng)一為頭、脖子、左右肩、左右肘、左右手腕、左右胯、左右膝蓋、左右腳踝、胸部及臀部共16個(gè)關(guān)節(jié)點(diǎn)。

3.4 結(jié)果對比

由于使用的網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練數(shù)據(jù)不同,本文共獲得的模型如表1所示。其中,M-H36M、I-H36M、IK-H36M及IKM-H36M模型均是在本文改善后的網(wǎng)絡(luò)結(jié)構(gòu)上,通過不同的多源圖像組合方式訓(xùn)練獲得的,用于探討本文所提使用多源圖像混合訓(xùn)練的方式,對3D回歸模型準(zhǔn)確率的影響。其中,M-H36M 訓(xùn)練樣本同文獻(xiàn)[13],即以MPII和Human 3.6M作為訓(xùn)練樣本,而網(wǎng)絡(luò)結(jié)構(gòu)中的殘差模塊則使用了本文所提的改善設(shè)計(jì)(見圖3(b)),用于探討本文改善后的網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練準(zhǔn)確率及訓(xùn)練時(shí)間上的優(yōu)越性能。

表1 不同模型對應(yīng)的訓(xùn)練圖像Table 1 Training images corresponding to differ ent models

3.4.1 網(wǎng)絡(luò)性能對比

為驗(yàn)證本文殘差模塊改進(jìn)方案對關(guān)節(jié)點(diǎn)位置回歸精度的影響,分別使用不同的殘差模塊網(wǎng)絡(luò)結(jié)構(gòu)在相同條件下進(jìn)行實(shí)驗(yàn),其對比結(jié)果如表2所示。其中文獻(xiàn)[13]的131~256表示殘差模塊(見圖3(a))對應(yīng)的卷積依次為1×1、3×3和1×1,輸入和輸出通道數(shù)為256,表內(nèi)其他方法數(shù)據(jù)物理含義同上。與文獻(xiàn)[13]結(jié)果相比,本文模型(131~128)的準(zhǔn)確率最低,降低約2.16%左右;而本文模型(333~256)的準(zhǔn)確率最高,提升約0.66%左右,但其參數(shù)量和訓(xùn)練所需時(shí)間均成倍增加。這說明在保持殘差模塊卷積核大小不變的情況下,僅是簡單地將輸入輸出通道數(shù)降低,其準(zhǔn)確率會有所降低;而在保持輸入輸出特征維度不變的情況下,將卷積核大小放大,提高模型感受野,雖能提高模型的回歸精度,但其參數(shù)量和訓(xùn)練所需時(shí)間也大幅增加。故本文選用333~128的殘差模塊改善方案(見圖3(b))以獲得更優(yōu)的回歸性能。該方法可在減少模型參數(shù)的同時(shí)提高訓(xùn)練準(zhǔn)確率,并且訓(xùn)練一個(gè)batch的時(shí)間與原始沙漏網(wǎng)絡(luò)相比,下降了約28%。因此,實(shí)驗(yàn)表明,本文改善殘差模塊后的網(wǎng)絡(luò)結(jié)構(gòu)可在有效降低訓(xùn)練時(shí)間的同時(shí)提高模型準(zhǔn)確率。

本文還驗(yàn)證了沙漏模塊的數(shù)量對回歸模型準(zhǔn)確率的影響,如表3所示。其中,本文模型(4 stack)代表的是將2D回歸子網(wǎng)絡(luò)模塊中的沙漏模塊增加至4個(gè),并基于本文改善后的殘差模塊結(jié)構(gòu)訓(xùn)練獲得的3D回歸模型,與使用2個(gè)沙漏模塊的本文模型(2 stack)相比,回歸準(zhǔn)確率提高了約0.35%左右,但每個(gè)batch的訓(xùn)練時(shí)間會增加約52%,即每個(gè)epoch訓(xùn)練周期會增加近一半的訓(xùn)練時(shí)間。實(shí)驗(yàn)表明,增加網(wǎng)絡(luò)層數(shù)可進(jìn)一步提升回歸模型的準(zhǔn)確率,但其訓(xùn)練時(shí)間和模型參數(shù)量會大幅增加,因此,為達(dá)到快速訓(xùn)練的目的,將使用本文模型(2 stack)對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。

表2 不同模型準(zhǔn)確率、參數(shù)量及訓(xùn)練時(shí)間對比Table 2 Comparison of accuracy rate,parameter quantity and training time among different models

表3 不同沙漏網(wǎng)絡(luò)個(gè)數(shù)準(zhǔn)確率、參數(shù)量及訓(xùn)練時(shí)間對比Table 3 Compar ison of accuracy rate,parameter quantity and training time with different numbers of hourglass network

3.4.2 深度圖像3D人體姿態(tài)估計(jì)的模型對比

為驗(yàn)證不同訓(xùn)練數(shù)據(jù)庫對回歸模型性能的影響,本文基于PDJ評判標(biāo)準(zhǔn),使用本文基于不同訓(xùn)練數(shù)據(jù)獲得的3D回歸模型,分別在ITOP深度圖像數(shù)據(jù)集的測試圖像上進(jìn)行人體姿態(tài)估計(jì)(該測試圖像標(biāo)簽已經(jīng)過人工糾正)。將測試結(jié)果進(jìn)行對比,探討最優(yōu)的基于弱監(jiān)督學(xué)習(xí)的3D回歸模型。

使用本文不同數(shù)據(jù)集訓(xùn)練得到的回歸模型,在ITOP深度圖像數(shù)據(jù)集測試圖像手腕和膝蓋3D關(guān)節(jié)點(diǎn)的預(yù)測結(jié)果對比,如圖5所示。可以看出,本文IKM-H36M模型的性能最優(yōu),IK-H36M 性能次之,說明對深度圖像的3D人體姿態(tài)估計(jì)任務(wù)中,隨著深度圖像訓(xùn)練樣本的增多,其回歸模型在大部分關(guān)節(jié)點(diǎn)的預(yù)測精度也會逐步提高。并且從IKM-H36M和IK-H36M曲線對比可以看出,在訓(xùn)練樣本中引入帶2D標(biāo)簽的彩色圖像數(shù)據(jù)MPII,可進(jìn)一步提高模型的預(yù)測準(zhǔn)確率,驗(yàn)證了本文所提使用多源圖像進(jìn)行混合訓(xùn)練的方法,可有效提高模型的關(guān)節(jié)點(diǎn)回歸精度。

圖5 基于PDJ評價(jià)指標(biāo),不同訓(xùn)練模型在ITOP數(shù)據(jù)集手腕和膝蓋3D關(guān)節(jié)點(diǎn)的準(zhǔn)確率Fig.5 Three-dimensional articulation point accurary rate of wrist and knee using different training models based on PDJ evaluation criteria in ITOP database

3.4.3 彩色圖像3D人體姿態(tài)估計(jì)的模型對比

圖6 基于PDJ評價(jià)指標(biāo),不同訓(xùn)練模型在Human 3.6M數(shù)據(jù)集腳踝和膝蓋3D關(guān)節(jié)點(diǎn)的準(zhǔn)確率Fig.6 Three-dimensional articulation point accurary rate of ankle and knee using different training models based on PDJ evaluation criteria in Human 3.6M database

本節(jié)測試了本文方法針對彩色圖像的3D人體姿態(tài)估計(jì)效果。使用本文不同數(shù)據(jù)集訓(xùn)練得到的回歸模型,在Human 3.6M 彩色圖像數(shù)據(jù)集測試圖像上腳踝和膝蓋3D關(guān)節(jié)點(diǎn)的預(yù)測結(jié)果對比,如圖6所示。可以看出,各回歸模型的檢測性能相近,說明利用多源圖像混合訓(xùn)練的回歸模型,雖在訓(xùn)練樣本中引入了深度圖像,但并不會對彩色圖像上的3D人體姿態(tài)估計(jì)精度造成太大的影響。圖6中畫圈部分為各回歸模型檢測精度提升由快到慢轉(zhuǎn)變的區(qū)域,其中在歸一化閾值0.25處為檢測精度變化轉(zhuǎn)折點(diǎn),意味著在該歸一化閾值之后,回歸模型的檢測精度即將趨于平穩(wěn),此時(shí)各回歸模型已能將測試樣本中絕大部分關(guān)節(jié)點(diǎn)正確定位。因此,為更清楚地看到各關(guān)節(jié)點(diǎn)在不同模型的檢測差別,比較了各關(guān)節(jié)點(diǎn)在歸一化閾值0.25處的準(zhǔn)確率,如表4所示。可以看出,使用本文改善殘差模塊后的網(wǎng)絡(luò)M-H36M,對彩色圖像的預(yù)測性能最優(yōu),相比文獻(xiàn)[13]的預(yù)測精度提升了約4%,而基于多源圖像混合訓(xùn)練獲得的模型,其平均檢測精度由高到低,分別為IKMH36M>IK-H36M >I-H36M,這也說明了使用多源圖像進(jìn)行訓(xùn)練回歸模型,訓(xùn)練的數(shù)據(jù)越多,其檢測精度越高,同時(shí)這3個(gè)模型的平均檢測精度均高于文獻(xiàn)[13]方法,這也又一次證明了本文改善后的網(wǎng)絡(luò)結(jié)構(gòu)有助于提高姿態(tài)估計(jì)準(zhǔn)確性。而從M-H36M和IKM-36M平均檢測結(jié)果比較來看,使用多源圖像訓(xùn)練獲得的IKM-H36M 模型,平均檢測性能略低于M-H36M 模型,檢測準(zhǔn)確度下降約0.50%,這是因?yàn)樵谟?xùn)練樣本中,除彩色圖像外,還引入了深度圖像,即等于引入了干擾項(xiàng),使得模型的回歸性能略有下降。但從下降0.50%的結(jié)果上來看,使用多源圖像訓(xùn)練的3D回歸模型,雖然在關(guān)節(jié)點(diǎn)檢測精度上具有輕微下降,但并不影響測試圖像在各關(guān)節(jié)點(diǎn)的總體回歸性能。

3.4.4 可視化3D估計(jì)結(jié)果

為更直觀地看到本文模型在深度圖像和彩色圖像上的3D估計(jì)結(jié)果,本文可視化了使用IKMH36M模型分別在ITOP和Human 3.6M 測試圖像上的姿態(tài)估計(jì)圖,如圖7和圖8所示。其中每幅估計(jì)圖中均包含測試圖像、groundtruth及本文估計(jì)結(jié)果3部分,(b)和(e)為groundtruth姿態(tài)效果,(c)和(f)為本文模型估計(jì)效果。

從圖7和圖8中可以看出,使用本文弱監(jiān)督學(xué)習(xí)方法的IKM-H36M 模型可對深度圖像和彩色圖像預(yù)測其相應(yīng)的3D人體姿態(tài),并且預(yù)測結(jié)果也較為接近groundtruth姿態(tài)。圖7為本文針對ITOP深度圖像數(shù)據(jù)集上進(jìn)行的3D人體姿態(tài)估計(jì)效果圖,可以看出,即使是對較為復(fù)雜的自遮擋人體側(cè)視圖,也可獲得較好的3D人體姿態(tài)估計(jì)。由于人體下肢的自由度比上肢自由度大,使得該方法在膝蓋和腳踝處的深度預(yù)測結(jié)果不如上肢預(yù)測效果理想,但本文方法也對無深度標(biāo)簽的深度圖像實(shí)現(xiàn)3D人體姿態(tài)估計(jì)提供了可能。同時(shí)從圖8結(jié)果圖中可看出,本文模型對彩色圖像同樣可實(shí)現(xiàn)較為理想的3D人體姿態(tài)估計(jì)。

表4 基于PDJ評價(jià)指標(biāo),不同訓(xùn)練模型在Human 3.6M 測試圖像上的3D人體姿態(tài)估計(jì)結(jié)果Table 4 Three-dimensional pose estimation results of different regression models on Human 3.6M test images base on based on PDJ evaluation criteria

圖7 ITOP數(shù)據(jù)集上的3D人體姿態(tài)估計(jì)Fig.7 Three-dimensional human pose estimation on ITOP dataset

圖8 Human 3.6M數(shù)據(jù)集上的3D人體姿態(tài)估計(jì)Fig.8 Three-dimensional human pose estimation on Human 3.6M dataset

4 結(jié) 論

本文針對缺乏深度標(biāo)簽的深度圖像訓(xùn)練樣本進(jìn)行研究,提出了一種基于多源圖像弱監(jiān)督學(xué)習(xí)的3D人體姿態(tài)估計(jì)方法,以實(shí)現(xiàn)對深度圖像的3D人體姿態(tài)估計(jì)任務(wù)。同時(shí)為改善網(wǎng)絡(luò)的估計(jì)性能,本文對網(wǎng)絡(luò)結(jié)構(gòu)中的殘差模塊進(jìn)行了改善設(shè)計(jì)。

1)針對深度圖像訓(xùn)練樣本中3D標(biāo)注不足的問題,使用弱監(jiān)督學(xué)習(xí)技術(shù)來完成3D回歸模型訓(xùn)練任務(wù)。

2)針對深度圖像姿態(tài)單一造成的模型泛化能力不高的問題,提出一種多源圖像融合訓(xùn)練技術(shù)。該方法主要利用彩色圖像姿態(tài)多變的特點(diǎn),在網(wǎng)絡(luò)訓(xùn)練階段引入較為充分的人體姿態(tài)信息,提高模型的回歸性能。

3)為提高姿態(tài)估計(jì)結(jié)果,基于提升回歸模型準(zhǔn)確率的基本思想,對殘差模塊的構(gòu)成提出改善設(shè)計(jì),并且通過實(shí)驗(yàn)結(jié)果證明該設(shè)計(jì)方案可在降低訓(xùn)練時(shí)間及模型存儲空間基礎(chǔ)上提高對圖像的3D人體姿態(tài)估計(jì)準(zhǔn)確度。

實(shí)驗(yàn)驗(yàn)證了在訓(xùn)練回歸模型的網(wǎng)絡(luò)結(jié)構(gòu)中,一個(gè)合適的殘差模塊對提高回歸模型準(zhǔn)確率、降低參數(shù)量及訓(xùn)練時(shí)間等均有重要影響,因此接下來,本文將對如何更好地改善殘差模塊進(jìn)行研究。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 69视频国产| 91在线免费公开视频| 久久久久久久久亚洲精品| 婷婷综合色| 国产在线视频导航| 国产永久在线视频| 精品五夜婷香蕉国产线看观看| 视频一区视频二区日韩专区| 国产亚洲视频中文字幕视频| 国产成人精品免费av| 四虎精品免费久久| 九九线精品视频在线观看| 91在线播放免费不卡无毒| 国产亚洲男人的天堂在线观看| 996免费视频国产在线播放| 亚洲首页在线观看| 国产不卡一级毛片视频| 免费在线色| 久久国产精品无码hdav| 国产极品美女在线| 国产免费精彩视频| 91精品国产自产在线老师啪l| 日本免费一区视频| 国产剧情无码视频在线观看| 91国内外精品自在线播放| 毛片免费试看| 国产哺乳奶水91在线播放| 欧美精品一二三区| 国产一级二级三级毛片| 午夜视频免费一区二区在线看| 看看一级毛片| 亚洲精品中文字幕无乱码| 99久久国产精品无码| 亚欧成人无码AV在线播放| 欧美国产日韩在线观看| 日本人又色又爽的视频| 青青草a国产免费观看| 久久久久久久久久国产精品| 91久久青青草原精品国产| 国产成人三级在线观看视频| 久热这里只有精品6| 国产精品无码久久久久AV| 亚洲欧洲天堂色AV| 欧美区在线播放| 久久久久青草线综合超碰| 找国产毛片看| 丝袜高跟美脚国产1区| 国产精品亚洲专区一区| 国产精品视频a| 精品三级在线| 免费xxxxx在线观看网站| 国产91九色在线播放| 国产视频你懂得| 国产成人AV综合久久| 婷婷亚洲视频| 国产午夜无码片在线观看网站| 第一区免费在线观看| 国产成人亚洲无码淙合青草| 免费一级成人毛片| 999在线免费视频| 91网在线| 波多野结衣第一页| 久久精品这里只有精99品| 久久久久亚洲精品无码网站| 99精品国产高清一区二区| 日韩免费成人| 国产成人区在线观看视频| 一级福利视频| 亚洲国产黄色| 亚洲成肉网| 97国产精品视频自在拍| 欧美激情视频一区二区三区免费| 国产视频大全| 亚洲男女在线| 亚洲国产精品久久久久秋霞影院| 国产免费网址| 日韩不卡高清视频| 狠狠躁天天躁夜夜躁婷婷| 五月婷婷精品| 99尹人香蕉国产免费天天拍| 国产成人一级| 欧美日韩一区二区三|