童宇青

摘要:人體姿態估計技術應用前景廣闊,是計算機視覺領域的重要研究課題之一。本文基于前饋神經網絡進行3D人體姿態估計。實驗結果表明,本文設計的網絡結構在3D人體姿態估計任務上取得了較低的誤差,獲得了較好的實驗結果。
關鍵詞:前饋神經網絡;人體姿態估計;深度學習
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)01-0071-02
0 引言
人體姿態估計是計算機視覺領域的一個重要研究課題,既具有研究價值又極具挑戰性,在視頻監控、智能家居、體感游戲、增強現實和自動駕駛等領域都有著很廣闊的應用前景。但人體姿態估計的研究也面臨著許多挑戰和難點,例如,在身體形狀變化、視角變化、人的自遮擋行為和擁擠的背景條件下,很難在圖像中定位人體。人體姿態估計的研究已經從傳統的通過人工設計的特征結合圖形模型[1]來推斷點的位置的方法發展到基于深度學習的主流方法。在計算機視覺領域,卷積神經網絡[2]取得了前所未有的成功,使用神經網絡幾乎成為研究人體姿勢估計任務的標準選擇。Deeppose[3]是第一篇將深度學習應用于人體姿態估計研究并在當時取得最佳成果的文章。三維人體姿態估計的研究可分為基于RGB圖像的姿態估計和基于深度圖像的姿態估計。Julieta等[4]構建了一個高效的2D關鍵點轉3D關鍵點的神經網絡,為3D人體姿態估計提供了一個簡單而有效的基線?;贘ulieta等人提出的基線,本文設計了一種深度神經網絡結構。
1 網絡設計
此基線[4]用來估計給定二維輸入的三維空間中的身體關節坐標。網絡的輸入是2D關節點的坐標x∈,輸出是3D關節點的坐標y∈。通過學習一個函數f^*:→來最小化數據集中N個姿勢的預測誤差:
f*=
本文設計的網絡結構如圖1所示。有兩個線性層未描繪出來:其中一個線性層的位置在輸入端,其將維度增加到1024維,另一個線性層的位置在最終預測前,用來得到三維輸出。此網絡使用了2個殘差塊,總共有12個線性層。網絡中使用了批量歸一化[5],使得輸入到網絡每一層的數據的方差和均值都在一定的范圍內,并且數據分布相對穩定,這樣有利于提高神經網絡的學習速度。同時批量歸一化可以在一定程度上緩解梯度消失的問題,具有一定的正則化效果。激活函數使用的是Leaky ReLU函數。常用的激活函數有:Sigmoid函數、Tanh函數、ReLU函數和Leaky ReLU函數。經實驗發現:Sigmoid函數存在飽和使梯度消失的問題,并且函數的輸出不是以零為中心的。Tanh函數解決了Sigmoid函數的輸出不是以零為中心的問題,但是仍然存在梯度由于函數飽和而消失的問題。與Sigmoid函數和Tanh函數相比,ReLU函數對隨機梯度下降有很大的加速作用。但是在訓練的時候,ReLU函數存在“Dead ReLU”問題。因此,在本文實驗中采用Leaky ReLU函數。Leaky ReLU函數是為解決“Dead ReLU”問題的嘗試,它具備ReLU函數的所有特征。在激活函數之后使用Dropout[6],這可以減少神經元之間復雜的自適應關系,迫使網絡學習更魯棒的特征,并在一定程度上避免過度擬合。殘差連接[7]有助于解決梯度消失和梯度爆炸問題,并訓練更深層次的神經網絡。
2 實驗分析與結果
通過減去平均值并除以標準差將標準歸一化應用到2D關鍵點輸入和3D關鍵點輸出。數據集和協議使用的是Human3.6M[8]。Human3.6M數據集有360萬種不同的3D人體姿勢和相應的圖像,包含11名專業演員(6名男性,5名女性)以及17種情景,例如討論、吸煙、拍照、通電話、遛狗、步行等。我們利用Adam[9]訓練網絡100個周期,初始學習率設定為0.001,并呈指數衰減。Adam是深度學習領域最流行的優化算法之一。學習率是一個重要的超參數。一般而言,學習率太小,訓練會變得更加可靠,但是收斂的速度會變慢,優化需要很長的時間,而且網絡很可能會陷入局部最優;學習率太大超過某個極值,loss會停止下降,訓練不會收斂,甚至會發散。網絡使用批量歸一化的大小為64。線性層的權重初始化使用Kaiming初始化[10]設置。神經網絡的權重初始化方式對收斂速度和模型性能有著重要的影響,合理的權重初始化方式有助于緩解梯度消失或者梯度爆炸問題。
在Human3.6M數據集上的測試結果示例如圖2所示。圖中左邊是二維的人體姿態,中間是正確標注的三維人體姿態,右邊是本文三維人體姿態估計的結果。本文設計的網絡結構在Human3.6M數據集上進行測試,取得了68.78mm的平均誤差,獲得了較好的實驗結果。
3 結語
本文中,一個輕量級的深度神經網絡可以用來將二維人體關鍵點映射到三維人體關鍵點。相對簡單的深度前饋神經網絡可以在三維人體姿態估計中獲得較低的誤差率。據信,對網絡結構的進一步探索可能會帶來更好的結果。此外,三維人體姿態估計還存在一些普遍問題,如人體關節的自遮擋和關節相似性。上述問題都是三維人體姿態估計中尚未解決的問題,也是三維人體姿態估計從研究到應用的障礙之一。
參考文獻
[1] 韓貴金,朱虹.一種基于圖結構模型的人體姿態估計算法[J]. 計算機工程與應用,2013,49(14):30-33.
[2] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[3] Toshev A, Szegedy C. Deeppose: Human pose estimation via deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2014:1653-1660.
[4] Martinez J, Hossain R, Romero J, et al. A simple yet effective baseline for 3d human pose estimation[C]//Proceedings of the IEEE International Conference on Computer Vision.2017: 2640-2649.
[5] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167,2015.
[6] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research,2014,15(1):1929-1958.
[7] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.
[8] Ionescu C, Papava D, Olaru V, et al. Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments[J]. IEEE transactions on pattern analysis and machine intelligence,2014,36(7):1325-1339.
[9] Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980,2014.
[10] He K, Zhang X, Ren S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the IEEE international conference on computer vision.2015:1026-1034.
Abstract:Human pose estimation technology has a broad application prospect and is one of the important research topics in the field of computer vision. In this paper, a feedforward neural network is used to estimate 3D human pose. The experimental results show that the network structure designed in this paper achieves a low error in the 3D human pose estimation task and obtains a good experimental result.
Key words:feedforward neural network; human pose estimation; deep learning