張增會 姚彥鑫

摘要:近年來隨著深度學習和人工智能的蓬勃發展,人體姿態檢測逐漸成為計算機視覺領域研究的熱點問題,許許多多的人體姿態檢測方法和研究理論也在被不斷地提出。人體姿態檢測可以理解為人體關鍵點識別以及連接問題,本文通過對姿態檢測的算法的描述,主要介紹單人與多人這兩種主要人體姿態檢測的主流算法,同時重點對于多人場景下的人體姿態檢測算法介紹。通過對不同算法的對比得出各個算法的優缺點,并對人體姿態檢測的應用進行闡述。本文的結尾結合人體姿態檢測領域的發展現狀,對此領域的未來發展趨勢進行展望。
關鍵詞:深度學習;人體姿態檢測;人體關鍵點識別
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)27-0092-02
1 概述
隨著計算機技術的不斷進步以及人工智能時代的來臨,人體姿態識別技術已經成了計算機視覺領域不可或缺的一部分,也越來越引起各個國家和科研機構的重視。人體姿態檢測作為計算機視覺當下的研究熱點,在生活中也具有十分廣泛的應用,例如在視頻監控煩那個面對公共領域的安全問題進行保障,以及在人機交互方面增強人與機器之間的流暢度。
一般來說人體姿態檢測從算法層面上講就是先使用卷積神經網絡將圖片或者視頻中的人體的關鍵節點檢測出來,然后對這些關鍵點進行連接的一個過程。通過對人體不同的關鍵點之間的連接得到人體完整的人體節點信息。在將深度學習算法應用于人體姿態檢測之前,不少算法采用基于圖形結構[1]算法來處理人體姿態檢測問題。這些方法主要是基于局部檢測器,局部檢測器使用的原理即通過人體關鍵點之間的內在聯系來建立模型,雖然在識別精確度方面有所提高,但是往往容易受到拍攝角度以及光照等不確定因素的影響。除此之外還容易受到人工標注等因素的制約,如邊緣特征[2],方向梯度直方圖[3],此種標注需要耗費大量的人力和物力。
人體姿態估計通常可以分為二維人體姿態和三維人體姿態兩種,由于在現實生活中需要處理的圖像大多為二維圖像,所以一般來說我們理解的人體姿態檢測為二維人體姿態檢測。本文亦是針對二維條件下的人體姿態檢測算法進行綜述,根據不同的算法的不同應用場景,有隊人體姿態檢測分為單人和多人兩種情況分別介紹。
2單人人體姿態檢測算法
2.1堆疊沙漏網絡算法
堆疊沙漏網絡[4](Stacked Hourglass Network)作為當下人體姿態檢測算法以定位精度著稱,該網絡以殘差網絡為基本模塊,該模塊可以在提取圖像高層特征的同時保留低層的信息,利用殘差網絡的購車還能夠給可以更加有效的提取不同尺度的特征信息,除此之外,使用多個沙漏網絡進行堆疊對于捕捉不同特征點間的空間關系也具有十分重要的作用,通過對多個沙漏模塊的堆疊,通過卷積層和下采樣層之后,與隨后的上采樣層獲取的特征進行融合,最終獲得圖像的多尺度的特征圖,由此可以多層次的提取圖像中多尺度特征,與殘差網絡中可能出現的特征丟失相互補。
2.2卷積姿態機
卷積姿態機(convolutional pose machines)[5]主要繼承了姿態機(Pose Mchines)的優點,主要突出了學習和推理之間的緊密結合,解決了多個關鍵點之間的長距離依賴以及圖像的隱式學習問題。卷積姿態機主要還發揮了姿態機和卷積網絡二者相互結合的優點,既可以通過學習圖像的特征,又可以提高空間上下文的表達能力,同時又可以進行全局聯合訓練,對于大規模處理數據集具有很好的效果。卷積姿態機的主要算法思想即是通過卷積神經網絡對空間信息的表達進行有效的學習,又由于身體部位不同的關鍵點可以適配不同的感受野,因此可以對不同的部位進行不同程度的檢測。首先該方法對原始圖像中的單個個體目標的關鍵點進行預測,此種預測方法主要可以使用直接回歸關鍵點坐標的方法,以及通過heatmap來確定關鍵點的回歸。
3多人人體姿態檢測算法
多人姿態檢測與單人姿態檢測算法不同,多人姿態檢測算法要求在將圖片中人體關鍵點檢測出來的同時還要將每個人的關鍵點進行準確的劃分。一般來說可以分為自上而下和自下而上兩種方法。其中自上而下的方法又包括人體檢測和單個人體關鍵點檢測兩個部分,即先通過目標檢測算法將圖像中存在的人體檢測出來,然后在檢測出人體的基礎上,對每個人體的關鍵點進行檢測。而自下而上的方法則是包含關鍵點檢測以及對檢測出的關鍵點進行聚類組合兩部分,首先將圖像中所有人的關鍵點檢測出來,而后對檢測出的關鍵點進行聚類分析,進一步組合成不同的個體。以下對兩種方法進行不同介紹。
3.1自上而下方法
在當下的眾多自上而下人體姿態檢測算法中,比較有代表性的主要包括G-RMI算法[6],AlphaPose[7]算法以及CPN( cascaded pyramid network)[8]算法等。G-RMI算法主要解決的是各種復雜場景下的人與人在有遮擋的情況下對人體姿態進行識別的問題,主要利用的是FastRCNN[9]檢測圖片中人體的目標框的相應位置和大小,然后對每個位置框中的人體關鍵點進行檢測。對于每種關鍵點的類型的預測,使用ResNet預測出關鍵點的heatmap以及相關的偏移量,并且結合相應的輸出引入了新的聚合方法對關鍵點進行精準的預測,為了避免對相應的關鍵點的重復檢測,該算法采用了基于OKS指標的新型非極大值抑制(NMS)機制,而不是采用比較粗糙的基于邊界框的NMS。
CPN網絡主體主要由兩部分組成,分別是GlobalNet和RefineNet。GlobalNet主要對圖像中的關鍵點進行粗提取,RefineNet主要是基于GlobalNet生成的特征金字塔,主要用于對不同的層之間的信息進行整合,更好地對關鍵點進行特征定位。
3.2自下而上方法