(西華大學計算機與軟件工程學院 四川 成都 610039)
計算機視覺[1]是一個跨學科的領域,它主要解決的是如何讓計算機像人一樣可以理解圖像或者視頻中的信息,即高級、抽象的信息,視覺也是獲得信息最直觀的方式,可見其重要性。計算機視覺分為以下研究方向:場景重建、事件檢測、目標跟蹤、目標識別、姿態估計、動作估計、機器學習和圖像恢復等。目前國際上有關計算機視覺比較權威的期刊有TPAMI、IJCV、PR、TIP等,學術會議有國際計算機視覺和模式識別大會、國際計算機視覺大會、計算機視覺歐洲會議等。數字圖像處理技術加上機器學習算法,隨后隨著神經網絡、深度學習的興起,直接賦予計算可以看到人類世界的能力,同樣也是人工智能的核心。數字圖像處理技術加上機器學習算法,隨后隨著神經網絡、深度學習的興起,直接賦予計算可以看到人類世界的能力,也是讓機器感受世界最直觀的方式,同樣也是人工智能的核心。數字圖像處理是進行后續步驟不可缺少的步驟,計算機通過攝像頭獲取圖像,轉化為數字圖像,經過圖像解碼、變換、去噪聲、增強或復原等一系列步驟,再通過Sobel、Haar、梯度直方圖等手段對圖片中進行特征提取,最后交由機器學習的算法,比如K-means、SVM等獲得想要的結果。讓計算機“看”懂,就是根據數據進行一些特征的提取,建立相關的數學模型,在線性空間或則非線性空間進行關系映射,輸出數據可能的值或者所屬的區域。
人體姿態估計是視頻中人體各關節點(以下稱為關鍵點)位置估計預測并對各關鍵點按層級順序連接形成完整人體骨架的過程。傳統的方法以人體特征和人體模型為主。Mori G等[2]在2002年提出基于形狀上下文作為特征,通過距離度量來判斷圖像的相似度;ShaKhnarovich等[3]在2003年提出的局部敏感哈希的快速高維數據的近似最近鄰查找算法,在大量數據中快速精確查找匹配人體關節姿勢圖;Agarwal等[4]在2004年提出使用輪廓上下文特征作為人體外觀特征,利用帶正則項的最小二乘作為損失函數,最后用支持向量機進行回歸。Wang F,Li Y[5]在2013年提出的樹模型在人體姿態估計中可以適應場景的變化,并利用單一部位和已連接部位去估計它們在樹模型中的聯合分布,最后在已學習的隱變量樹進行推斷預測。隨著Krizhevsky 等[6]在2012年提出的AlexNet使用卷積神經網絡在ImageNet中由于其高分類正確率脫穎而,隨后,深度學習成為研究的熱點。Pfister T[8]等在2015年的ICCV上提出Flowing ConvNet用于單人姿態估計,并將姿態估計問題看作為檢測問題,輸出熱度圖(heatmap),使用參數池化方法,將多張heatmap合并為一張scoremap。其創新點在于從CNN的第3和7層提取出來,再經過卷積操作,用來提取關節點的內在聯系。Wei S等[7]在2016年提出的卷積姿態機是順序化的卷積架構來表達空間信息和紋理信息,并在每一階段都采用監督訓練。Newell A等[9]在2016年提出的堆疊沙漏網絡使用多尺度特征,捕捉人體各關節的空間位置信息。每一個top-down到down-top結構都是一個堆疊沙漏模塊。Cao Z等[10]在2017年提出的基于部件親和場的多人實時姿態估計,它采用自底向上的方法,框架分為兩路,一路使用卷積網絡,根據置信圖進行關節預測,另一路使用CNN獲取每一個關節的PAF(記錄肢干位置和方向的2D向量),兩路進行聯合學習預測。
在近五年中,人體姿態估計隨著神經網絡和深度學習的發展,方法已經取得了很大的進展,但仍有以下兩個方面需要克服:(1)基本方法的局限性。由于深度學習本身就對訓練的數據量有著很大的依賴性,模型訓練離不開大量數據,前期對數據進行標準化,必將成為一個非常耗時耗人力的工作。隨著模型層數的增加,訓練的權重參數量增多,對計算資源需求增大。(2)遮擋問題。對畫面中人體進行姿態估計時,可能會出現人體有部分被場景中的其他物體遮擋,多人存在相互遮擋的問題,需要區分識別到的關鍵點屬于哪一個人。
二維人體姿態估計是三維人體姿態估計的基礎,其中關鍵點的個數可以由稀疏的關鍵點到稠密關鍵點的過度,進一步為三維提供實現的可能性。原來都是對單幀靜態圖像中的估計,現在越來越多的研究者將視線轉到視頻,這就為人體姿態估計進一步商用打下基礎,例如,在娛樂產業中的應用(基于視頻的體感游戲),安防領域(特殊場景中的特殊動作監控,家庭中嬰兒老人的照看等),影視行業(例如在真實電影場景中加入虛擬人物、大型的三維電影)。
人體姿態估計仍是一個富有挑戰性的課題,雖然在二維上已經取得了很驚艷的效果,但在實際應用中存在各種問題。該文從計算機視覺入手,簡述了其中需要以及一直需要解決的問題,并對其中的姿態估計發展方法進行歸納,最后對仍然存在的問題進行詳細地闡述,希望能對相關應用領域的工程師有所幫助。