任 超 趙 波 張偉偉
(上海工程技術大學 上海 201620)
二維人體姿態估計一直是計算機視覺領域的一個基本問題。目標是定位人體骨骼關鍵點(如肘部、腕部等)或部位。近年來,對于單個行人的姿態,通過各個行人的預測框和骨骼關鍵點的位置來預測單個行人位姿,整體方法較簡單,預估姿態精度較低,且無法滿足行人擁擠環境。最近的工作解決多人姿態估計主要有自上向下和自下而上兩種方法[1~2]:1)自下而上方法,檢測關節并將關節與相對應的行人聯系起來。Cao[3]等利用部分親和域和貪婪算法將關節關聯起來,帕潘德里歐等[4]檢測單獨的關節并且預測關節的相對位移,基于身體部分檢測方法由于只考慮局部小區域和輸出較小的響應熱圖,所以輸出結果相對容易受到干擾;2)自上而下方法,該兩步法首先進行行人檢測[5~6],然后再進行單人姿態估計[7~8]。目前最先進方法評價得分明顯高于自下而上框架的方法。然而,該方法很大程度上依賴于人類的檢測結果,在擁擠的場景[9]中是失敗的。當人們在人群中彼此靠得很近時,現有的姿態估計方法的效果急劇下降。
針對以上問題,本文提出了一種新的有效的解決擁擠狀態下多人檢測以及姿態估計的方法。該方法遵循自上而下的框架方法由兩部分組成,首先利用Faster-RCNN 行人檢測器預測出包含行人位置和大小相接近的多個矩形框,實現行人檢測。在第二階段,在行人檢測矩形框中預測行人每個關鍵點位置。……