林浩翔,李萬益,鄔依林,譚燁希
(廣東第二師范學院計算機學院,廣州 510303)
三維人體姿態估計目前是一項比較新的研究課題,該課題的技術研究已經成功運用到以計算機視覺為基礎的多項高級人工智能技術,比如音樂舞蹈等運動形體化教學[1-2]、制作3D人物的立體電影[3-5]、人體運動形態類型識別[6-7]等等,這些技術的應用都是以視頻圖像的三維姿態估計為基礎,進行深入拓展的高級應用。目前,國內外學者對三維人體姿態估計的研究有一定進展,前期研究具有一定局限性。初始研究階段,該技術研究用于數據樣本的非監督學習,用有限三維數據樣本生成新的三維數據樣本[8],然而該研究實用性有限。后來,由于實際應用需要從二維圖像重構出三維姿態來獲取更多人體姿態參數,就從多個視角圖像進行預處理,利用一些啟發式智能算法來估計相應的三維姿態[9],其對于一些簡單運動形態可以較好的估計,但是對于稍微復雜的運動形態效果較差,并且運行時間比較長,算法收斂性差。近兩年,該項技術的研究發展到了單視角估計[10],用深度學習的方法對圖像進行處理。然而,近期的技術處理的效果也有一定的局限性,比如估計對象的自遮擋處理、二維到三維映射歧義,以及空間位置無法處理等問題。因此,本文針對以上的一些問題,提出一種半監督學習卷積神經網絡模型來實現單視角含有空間位置信息的三維姿態估計。
本文所提出的半監督學習卷積神經網絡模型可以較好地處理自遮擋問題、圖像映射歧義問題,可以估計出三維模型所在的空間位置信息,該方法的模型核心框架如圖1所示,底部為骨架模型的二維映射圖像,頂部是相應三維圖像,通過若干神經網絡的神經元構建相互映射關系。經過實驗測試,其結果可以驗證本文提出方法的有效,并且效果也可以從視覺效果得到很好的驗證。

圖1 半監督學習卷積神經網絡模型的數據映射關系
本文提出的半監督神經網絡模型是依賴最初神經網絡模型進行建立的,其最基本的運算方法也是對運行進行卷積計算,提取二維圖像特征,建立三維骨架模型與相應視角投影模型,這個過程也可以稱為二維關鍵點檢測,如圖2所示。該檢測關鍵點需作為所提出模型的輸入,該點需在二維圖像的人體肢體上進行準確標注出。該數據是個張量,并且也可以被看做是圖像的標簽數據。

圖2 二維圖像的姿態關鍵點檢測
半監督方法用于完善神經網絡模型的映射關系,因此需要用部分真實二維關鍵點檢測數據和相應三維骨架模型先進行訓練,其方法框架圖如圖3所示,WMPJPE和MPJPE函數可以參考文獻[10]。

圖3 半監督學習方法框架
在半監督模型建立之后,我們需要建立神經網絡模型,神經網絡模型的參數、層數以及相關具體框架如圖4所示。該模型是訓練全局空間位置樣本以及姿態樣本的核心模型,參數的選取以及層數的設置比較重要,因此,圖4中給出了模型主要參數。在圖4中,BatchNorm為每次訓練規模參數,ReLU為偏移計算層,Dropout為丟棄數據的比例參數,Slice為所選數據切片。這里的神經網絡訓練需要多次,因為在半監督學習過程就是調整和收集額外有效訓練樣本的過程,需要不斷更新我們初始說建立的神經網絡,使得神經網絡的映射關系不斷完善。半監督學習一定的真實配套數據后,用測試數據進行預測,把預測值和測試數據再代入神經網絡訓練,實現映射關系的更新。

圖4 神經網絡模型框架
當模型建立并完成訓練后,我們開始用數據對所提出的模型進行測試。我們選取Human 3.6M數據庫[3]、Humaneva數據庫[11]以及其他日常生活視頻的數據進行測試。測試內容有二維關鍵點檢測,以及相應三維姿態估計的三維骨架模型。我們選取每種運動形態的任意幀估計結果進行展示,實驗過程中input為輸入二維關鍵點檢測圖像,Reconstruction為估計出的三維姿態骨架模型,Ground truth為真實的三維姿態骨架模型。
首先測試Human 3.6M數據庫的數據。該數據庫帶有真實數據集,含有實測真實的三維姿態骨架模型,是一套比較完善的數據庫。我們選擇放手走路姿態進行估計,測試結果選取任意3幀(圖5)。在圖5的視角效果比較中我們發現,把選取部分相關二維關鍵點進行肢體相連后,估計出的三維姿態骨架模型(Reconstruction)與真實的骨架模型(Ground truth)基本一致,并且投影到輸入的二維關鍵點檢測圖像(input)后,視覺上也相當的匹配。這里所估計的三維骨架模型和真實的骨架模型具有空間位置信息,從所投影的二維圖像可知,模型所處的位置就與二維圖像的關鍵點位置相對應。由于繪圖篇幅有些,這里就測試結果就顯示其所在的空間局部。
市委管文教的林副市長,他老婆下午去世。我和他哥們。這人,還瞞著。我去陪陪他,對了,今晚可能回不來了。他急匆匆地出門了。

圖5 Human3.6數據庫測試結果
然后對Humaneva數據庫一些常用運動類型的數據進行測試。數據庫中的測試數據也有真實數據配套,我們仍然從估計的視角效果來觀察,但這次保留原始檢測的二維關鍵點進行測試,測試結果選取任意3幀(圖6)。

圖6 Humaneva數據庫測試結果
在圖6中我們發現,所估計的三維姿態估計模型(Reconstruction)的效果也比較理想,與真實的骨架模型(Ground truth)非常接近,并且左右肢體沒有相反的現象。這些結果證明,一些自遮擋、二維到三維圖像的映射歧義問題能克服。二維圖像(input)的關鍵點檢測也較準確,符合所估計模型的投影位置。這些現象都表明所提方法的準確性和穩定性較好。同樣的,這里所估計的三維骨架模型和真實的骨架模型也具有空間位置信息,可以從所投影的二維圖像關鍵點可知,模型所處的位置就與二維圖像的位置也有較理想的對應。這里同樣也是為了適應測試顯示的繪圖篇幅,選取三維骨架模型的局部空間來顯示測試結果。
最后,我們選取日常生活的視頻數據進行處理,每個日常生活的視頻選一幀,測試結果如圖7所示。這里測試的數據沒有標準數據庫那樣的真實數據配套,測試估計三維姿態是不合空間位置信息的,所以估計的只有不含空間位置信息三維姿態骨架模型(Reconstruction),以及二維圖像(input)的關鍵點檢測結果。從視覺效果上看,所提方法得到的結果再次驗證其具有良好的數據通用性和準確性。

圖7 日常生活的視頻測試
本文提出了一種半監督學習卷積神經網絡模型來對單視角的二維圖像進行三維姿態估計,其三維姿態用三維骨架模型表示,并且給骨架模型可以轉換為很多細膩的人體體型模型[4]。本文提出的方法較好地解決了前人研究成果的一些局限性,比如自遮擋、圖像映射的歧義以及空間位置處理等問題都能較好解決。經過實驗測試的驗證,本文提出的方法具有良好的穩定性、準確性,以及數據通用性。本文所提出的方法是深度學習理論在計算機視覺的發展理論成果,同時為實現三維姿態估計提供一種思路,可供相關研究人員參考。本文所提出的方法含有的神經網絡模型具有半監督學習功能,同時也是繼承了機器學習的部分理論基礎,發揮其應有的性能優勢。